WO2024023947A1 - 学習装置、学習方法、および、学習プログラム - Google Patents

学習装置、学習方法、および、学習プログラム Download PDF

Info

Publication number
WO2024023947A1
WO2024023947A1 PCT/JP2022/028844 JP2022028844W WO2024023947A1 WO 2024023947 A1 WO2024023947 A1 WO 2024023947A1 JP 2022028844 W JP2022028844 W JP 2022028844W WO 2024023947 A1 WO2024023947 A1 WO 2024023947A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
task
noise
parameters
learning
Prior art date
Application number
PCT/JP2022/028844
Other languages
English (en)
French (fr)
Inventor
智也 山下
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/028844 priority Critical patent/WO2024023947A1/ja
Publication of WO2024023947A1 publication Critical patent/WO2024023947A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Definitions

  • the present invention relates to a learning device, a learning method, and a learning program that cause an AI model to forget a learned task.
  • an object of the present invention is to solve the above-mentioned problems and make an AI model forget a desired task without performing new learning.
  • the present invention includes a Fisher information matrix calculation unit that calculates the diagonal components of a Fisher information matrix of the parameters of the AI model for each task learned by the AI model; Noise is added to the parameters of the AI model using a calculation formula that expresses the degree of increase in loss regarding the task when noise is added to the parameters using the diagonal components of the Fisher information matrix of the task and the noise.
  • noise is generated such that the degree of increase in loss regarding the task to be forgotten in the AI model is as large as possible, and the degree of increase in loss regarding each task not to be forgotten in the AI model is equal to or less than a predetermined value.
  • the present invention is characterized by comprising a noise determining unit that determines the noise, and a parameter updating unit that updates the parameters of the AI model by adding the determined noise to the parameters of the AI model.
  • the AI model forget a desired task without performing new learning.
  • FIG. 1 is a diagram illustrating an example of AI model learning using EWC.
  • FIG. 2 is a diagram illustrating an overview of the learning device.
  • FIG. 3 is a diagram showing an example of the configuration of the learning device.
  • FIG. 4 is a flowchart illustrating an example of a procedure for forgetting a task.
  • FIG. 5 is a flowchart illustrating an example of a procedure for prediction processing of input data.
  • FIG. 6 is a diagram showing the results of an evaluation experiment of an AI model in which task forgetting processing was performed by a learning device.
  • FIG. 7 is a diagram showing an example of the configuration of a computer that executes a learning program.
  • Catastrophic Forgetting is a phenomenon in which an AI model forgets past tasks when it learns multiple tasks in succession. Continual Learning, which will be described later, aims to learn new tasks while preventing this Catastrophic Forgetting.
  • existing technology for Learning with Selective Forgetting uses Catastrophic Forgetting to achieve forgetting of desired tasks in AI models.
  • Continual Learning is an AI research field that aims to achieve continuous learning for multiple tasks.
  • Continual Learning an important issue is to learn for new tasks without reducing the accuracy of previously learned tasks (avoiding Catastrophic Forgetting).
  • D ⁇ D 1 ,D 2 ,...,D K ⁇ .
  • the purpose of this Continual Learning is to obtain an AI model (f ⁇ :X ⁇ Y) that can correctly classify the test data of the learned task.
  • EWC Elastic Weight Consolidation
  • the regularization term added in EWC imposes a penalty on changes in parameters of the AI model that are important for solving tasks learned in the past. This allows the AI model to learn new tasks without compromising performance on previously learned tasks.
  • Figure 1 shows how, due to the effect of the EWC regularization term (details will be described later), learning progresses towards the intersection of parameters suitable for previously learned tasks and parameters suitable for newly learned tasks. It is a diagram. Note that we will explain here using an example where the AI model learns task A and then learns task B. L 2 shows the learning of the parameters of task B with a penalty of changing as little as possible from the parameters ⁇ A * of task A. Also, no penalty indicates learning the parameters of task B without penalty.
  • Equation (1) the loss function used when learning task B after learning task A is shown in equation (1) below.
  • L B ( ⁇ ) in equation (1) is a loss function for task B, and ⁇ A is a parameter vector of the AI model immediately after learning task A.
  • Equation (1) a regularization term is added to the general loss function for learning task B. This regularization term ensures that the parameters of the AI model, which are important for solving task A, do not change significantly due to learning of task B.
  • the Fisher information matrix (diagonal component) F i of the parameter are weighted according to importance. Note that ⁇ in equation (1) is a hyperparameter.
  • the collection of datasets used for learning is defined in the same way as Continual Learning. Define the following two sets for the dataset used for learning.
  • ⁇ Preservation Set A set of classes to be remembered after learning a task.
  • ⁇ Deletion Set A set of classes to be forgotten after learning a task.
  • LSF The purpose of LSF is to retain the knowledge of classes included in the Preservation Set after learning each task, while forgetting the classes included in the Deletion Set.
  • the system includes, for example, a learning device 10 that performs AI model learning and a data acquisition device 20.
  • the AI model is, for example, a model that outputs a predicted value of input data acquired from the data acquisition device 20. It is assumed that this AI model has already learned multiple tasks related to outputting the predicted values described above.
  • the learning device 10 causes the AI model to forget the task specified by the user among the tasks learned. For example, first, the learning device 10 calculates the diagonal components of a pseudo Fisher information matrix (pseudo F matrix for each task) of the parameters of the AI model for each learned task.
  • a pseudo Fisher information matrix prseudo F matrix for each task
  • the learning device 10 uses the calculated diagonal elements of the pseudo F matrix for each task to determine the noise to be added to the parameters of the AI model according to the task to be forgotten.
  • the learning device 10 can determine the parameter noise that is effective for forgetting the task to be forgotten. Then, the learning device 10 adds the determined noise to the parameters of the AI model and updates the parameters of the AI model.
  • the learning device 10 forgets the task j, it is conceivable that the learning device 10 updates the parameters of the AI model by adding noise to the parameters w i of the AI model based on the following equation (2), for example.
  • the learning device 10 calculates the noise to be added to the parameters of the AI model as follows.
  • the learning device 10 uses Laplace approximation to the loss L j (w) of task j for the parameter w i of the AI model, and the degree of increase ⁇ L j in the loss L j (w) when noise is added to the parameter w i can be expressed in a quadratic form of a pseudo F matrix and noise (see equation (6) below).
  • the learning device 10 applies an approximation that uses only the diagonal components of the pseudo F matrix to the above ⁇ L j (see equation (7) described later). Thereby, the learning device 10 can solve the noise to be added to the parameters of the AI model using a line planning problem in order to cause the task to be forgotten. This linear programming problem can be solved relatively quickly.
  • the learning device 10 maximizes the degree of increase in loss ⁇ L j of task j to be forgotten in the AI model, and sets the degree of increase in loss of each task not to be forgotten to a predetermined value (for example, s) or less. Solve a linear programming problem to find the noise x such that . Then, the learning device 10 causes the task to be forgotten to be forgotten by adding the noise x obtained by solving the above linear programming problem to the parameters of the AI model.
  • a predetermined value for example, s
  • the learning device 10 includes, for example, an input section 11, an output section 12, a communication control section 13, a storage section 14, and a control section 15.
  • the input unit 11 is an interface that accepts input of various data.
  • the input unit 11 accepts an input of an instruction for a task to be forgotten or input of data to be predicted by an AI model.
  • the output unit 12 is an interface that outputs various data.
  • the output unit 12 outputs the label of the data predicted by the control unit 15.
  • the communication control unit 13 is realized by a NIC (Network Interface Card) or the like, and controls communication between the control unit 15 and an external device such as a server via a network.
  • the communication control unit 13 controls communication between the data acquisition device 20 (see FIG. 2) and the like and the control unit 15.
  • the storage unit 14 is realized by a semiconductor memory device such as a RAM (Random Access Memory) or a flash memory, or a storage device such as a hard disk or an optical disk, and stores parameters of the AI model.
  • a semiconductor memory device such as a RAM (Random Access Memory) or a flash memory
  • a storage device such as a hard disk or an optical disk
  • the control unit 15 is realized using, for example, a CPU (Central Processing Unit) or the like, and executes a processing program stored in the storage unit 14. Thereby, the control unit 15 functions as an acquisition unit 15a, a learning unit 15b, and a prediction unit 15c illustrated in FIG. 3.
  • a CPU Central Processing Unit
  • the control unit 15 functions as an acquisition unit 15a, a learning unit 15b, and a prediction unit 15c illustrated in FIG. 3.
  • the acquisition unit 15a acquires data used for prediction processing, for example, via the input unit 11 or the communication control unit 13.
  • the learning unit 15b performs a task forgetting process of the AI model.
  • the learning section 15b includes a Fisher information matrix calculation section 151, a noise determination section 152, and a parameter updating section 153.
  • the Fisher information matrix calculation unit 151 calculates the diagonal components of the pseudo F matrix for each task learned by the AI model.
  • a general Fisher information matrix for task j uses a value obtained by secondarily differentiating the loss L with the parameter w as shown in equation (3), but the Fisher information matrix calculation unit 151 calculates the loss L with the parameter w.
  • a pseudo F matrix is used, which is the square of the first-order differentiated value.
  • the Fisher information matrix calculation unit 151 calculates the diagonal components of the above pseudo F matrix.
  • the noise determining unit 152 determines the noise to be added to the parameters of the AI model based on the diagonal components of the pseudo F matrix of each task calculated by the Fisher information matrix calculating unit 151.
  • a calculation formula is prepared that expresses the degree of increase in loss for a task when noise is added to the parameters of the AI model using the diagonal elements of the pseudo F matrix of the task and the above noise. Then, when noise is added to the parameters of the AI model, the noise determining unit 152 increases the degree of increase in the loss related to the task to be forgotten in the AI model, expressed by the above calculation formula, as much as possible, and Noise is determined such that the degree of increase in loss for each task that is not to be forgotten in the model is equal to or less than a predetermined value.
  • the degree of increase in loss ⁇ L j for task j when noise is added to parameter w can be expressed in a quadratic form of the pseudo F matrix and noise.
  • Equation 8 k is the number of tasks included in the AI model
  • n is the number of parameters of the AI model
  • F -j , x, f i , and s are each defined as shown in Equation 8 below.
  • F ⁇ j above is a matrix indicating the diagonal components of the pseudo F matrix for each parameter regarding each task other than task j.
  • x is the noise added to the parameter w.
  • f i is a vector indicating the diagonal components of the pseudo F matrix for each parameter regarding task i.
  • s is a constant given by the administrator of the learning device 10.
  • the linear programming problem to be solved by the noise determining unit 152 can be defined as in equation (8) below.
  • the noise determination unit 152 increases the degree of increase in loss regarding task i to be forgotten as much as possible (max f i T x) when noise x is added to the parameters of the AI model, and Noise x of 0 or more (x ⁇ 0) such that the degree of increase in loss for each task other than task i is less than or equal to a predetermined value (s) (stF -j x ⁇ s) is determined.
  • the parameter update unit 153 updates the parameters by adding the noise determined by the noise determination unit 152 to the parameters of the AI model.
  • the prediction unit 15c predicts (identifies) the label of the input data using the AI model with updated parameters. For example, the prediction unit 15c calculates the probability of each label of the input data using the AI model after the parameter update, and outputs the label with the highest probability.
  • the Fisher information matrix calculation unit 151 calculates a pseudo Fisher information matrix (pseudo F matrix) for each task learned by the AI model, and obtains its diagonal components (S1).
  • the noise determination unit 152 determines the noise of the parameters of the AI model using the diagonal components of the pseudo F matrix for each task obtained in S1 (S2). For example, the noise determining unit 152 adds values to the parameters of the AI model based on the values of the diagonal components of the pseudo F matrix of tasks to be forgotten and the values of the diagonal components of the pseudo F matrix of tasks not to be forgotten. Determine the noise.
  • the parameter updating unit 153 updates the parameters by adding the noise determined in S2 to the parameters of the AI model (S3).
  • the acquisition unit 15a acquires data for which a label is to be predicted (S11).
  • the prediction unit 15c predicts the label of the data acquired in S11 using the AI model whose parameters have been updated by the learning unit 15b (S12). For example, the prediction unit 15c uses the AI model after the parameter update to calculate p(x') of the data x' acquired in S11, and outputs the label with the highest probability.
  • Permuted MNIST is created by generating multiple datasets from the original MNIST by treating MNIST with fixed permutations between pixels as the same task.
  • the AI model used in this experiment is a three-layer AI model with an input layer of 28 x 28 units, a hidden layer of 1000 units, and an output layer of 10 units. Also, the EWC hyperparameter is set to 200000. Additionally, we will use Permuted MNIST training data when training the AI model, and use Permuted MNIST test data when testing the AI model.
  • Table 601 shows the accuracy of each task (tasks 1, 2, and 3) of the AI model after learning by EWC. As shown in Table 601, it can be confirmed that by using EWC, the AI model was able to learn for the three tasks with an accuracy of over 90%. Next, the results of forgetting tasks 1, 2, and 3 performed on the AI model by the learning device 10 are shown in Tables 602, 603, and 604. As shown in Tables 602, 603, and 604, it can be seen that the learning device 10 was able to lower the accuracy of the AI model for the task to be forgotten to about 11-12%.
  • each component of each part shown in the drawings is functionally conceptual, and does not necessarily need to be physically configured as shown in the drawings.
  • the specific form of distributing and integrating each device is not limited to what is shown in the diagram, and all or part of the devices can be functionally or physically distributed or integrated in arbitrary units depending on various loads, usage conditions, etc. Can be integrated and configured.
  • all or any part of each processing function performed by each device may be realized by a CPU and a program executed by the CPU, or may be realized as hardware using wired logic.
  • the learning device 10 described above can be implemented by installing a program (learning program) in a desired computer as packaged software or online software. For example, by causing the information processing device to execute the above program, the information processing device can be made to function as the learning device 10.
  • the information processing device referred to here includes mobile communication terminals such as smartphones, mobile phones, and PHSs (Personal Handyphone Systems), as well as terminals such as PDAs (Personal Digital Assistants).
  • FIG. 7 is a diagram showing an example of a computer that executes a learning program.
  • Computer 1000 includes, for example, a memory 1010 and a CPU 1020.
  • the computer 1000 also includes a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. These parts are connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012.
  • the ROM 1011 stores, for example, a boot program such as BIOS (Basic Input Output System).
  • Hard disk drive interface 1030 is connected to hard disk drive 1090.
  • Disk drive interface 1040 is connected to disk drive 1100.
  • Serial port interface 1050 is connected to, for example, mouse 1110 and keyboard 1120.
  • Video adapter 1060 is connected to display 1130, for example.
  • the hard disk drive 1090 stores, for example, an OS 1091, an application program 1092, a program module 1093, and program data 1094. That is, a program that defines each process executed by the learning device 10 described above is implemented as a program module 1093 in which code executable by a computer is written.
  • Program module 1093 is stored in hard disk drive 1090, for example.
  • a program module 1093 for executing processing similar to the functional configuration of the learning device 10 is stored in the hard disk drive 1090.
  • the hard disk drive 1090 may be replaced by an SSD (Solid State Drive).
  • the data used in the processing of the embodiment described above is stored as program data 1094 in, for example, the memory 1010 or the hard disk drive 1090. Then, the CPU 1020 reads out the program module 1093 and program data 1094 stored in the memory 1010 and the hard disk drive 1090 to the RAM 1012 as necessary and executes them.
  • program module 1093 and the program data 1094 are not limited to being stored in the hard disk drive 1090, but may be stored in a removable storage medium, for example, and read by the CPU 1020 via the disk drive 1100 or the like.
  • the program module 1093 and the program data 1094 may be stored in another computer connected via a network (LAN (Local Area Network), WAN (Wide Area Network), etc.). The program module 1093 and program data 1094 may then be read by the CPU 1020 from another computer via the network interface 1070.
  • LAN Local Area Network
  • WAN Wide Area Network

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

学習装置(10)は、AIモデルが学習した各タスクの疑似F行列(疑似的なフィッシャー情報行列)の対角成分を計算する。次に、学習装置(10)は、AIモデルのパラメータにノイズを乗せた際のタスクに関する損失の増加の度合いを当該タスクの疑似F行列の対角成分とノイズとで表現した計算式を用いて、AIモデルのパラメータにノイズを乗せた場合に、AIモデルにおける忘却対象のタスクに関する損失の増加の度合いをできるだけ大きくし、かつ、当該AIモデルにおける忘却対象外の各タスクに関する損失の増加の度合いが所定値以下となるようなノイズを決定する。学習装置(10)は、決定したノイズをAIモデルのパラメータに乗せることにより、当該AIモデルのパラメータを更新する。

Description

学習装置、学習方法、および、学習プログラム
 本発明は、AIモデルから学習済みのタスクを忘却させる、学習装置、学習方法、および、学習プログラムに関する。
 プライバシー保護やデータ漏洩の回避のため、過去に機械学習で学習した所望のタスクをAIモデルから忘却させるLearning with Selective Forgettingという課題が存在する。
Takashi Shibata, et al., "Learning with Selective Forgetting", Proceedings of the Thirtieth International Joint Conference on Artificial Intelligence (IJCAI-21), August 19th 2021
 しかし、既存技術では、Learning with Selective Forgettingを実現するため、過去の特定のタスクを忘却する際にCatastrophic Forgettingを利用しており、タスクの忘却のために新たな学習を行う必要がある。そこで、本発明は、前記した問題を解決し、AIモデルに対し新たな学習を行わずに所望のタスクを忘却させることを課題とする。
 前記した課題を解決するため、本発明は、AIモデルが学習したタスクごとに当該タスクにおける前記AIモデルのパラメータのフィッシャー情報行列の対角成分を計算するフィッシャー情報行列計算部と、前記AIモデルのパラメータにノイズを乗せた際の前記タスクに関する損失の増加の度合いを当該タスクのフィッシャー情報行列の対角成分と前記ノイズとにより表現した計算式を用いて、前記AIモデルのパラメータにノイズを乗せた場合に、前記AIモデルにおける忘却対象のタスクに関する損失の増加の度合いをできるだけ大きくし、かつ、前記AIモデルにおける忘却対象外の各タスクに関する損失の増加の度合いが所定値以下となるようなノイズを決定するノイズ決定部と、決定した前記ノイズを前記AIモデルのパラメータに乗せることにより、前記AIモデルのパラメータを更新するパラメータ更新部と、を備えることを特徴とする。
 本発明によれば、AIモデルに対し新たな学習を行わずに所望のタスクを忘却させることができる。
図1は、EWCによるAIモデルの学習の例を説明する図である。 図2は、学習装置の概要を説明する図である。 図3は、学習装置の構成例を示す図である。 図4は、タスクの忘却処理の手順の例を示すフローチャートである。 図5は、入力データの予測処理の手順の例を示すフローチャートである。 図6は、学習装置によりタスクの忘却処理が行われたAIモデルの評価実験の結果を示す図である。 図7は、学習プログラムを実行するコンピュータの構成例を示す図である。
 以下、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。本発明は、本実施形態に限定されない。まず、本実施形態の学習装置に用いられる前提技術について説明する。
[Catastrophic Forgetting]
 Catastrophic Forgettingは、AIモデルに対し、複数のタスクを連続的に学習させた際にAIモデルが過去のタスクを忘却してしまう現象である。後記するContinual Learningでは、このCatastrophic Forgettingを防ぎつつ、新たなタスクを学習することを目的としている。また、Learning with Selective Forgettingのための既存技術では、Catastrophic Forgettingを利用することで、AIモデルにおける所望のタスクの忘却を実現している。
[Continual Learning]
 Continual Learningは、複数のタスクの連続的な学習の実現を目標としたAI研究分野である。Continual Learningは、過去に学習したタスクに対する精度を落とすことなく、新たなタスクに対する学習を行うこと(Catastrophic Forgettingの回避)が重要な課題である。
 Continual Learningは、学習に用いるデータセットの集合を、D={D1,D2,…,DK}と定義する。そして、AIモデルの学習の際には、D1から順にDKまで連続的に学習する。
 このContinual Learningの目的は、学習済みのタスクのテストデータを正しく分類できるようなAIモデル(fθ:X→Y)を得ることである。
[EWC]
 EWC(Elastic Weight Consolidation)は、Continual Learningの1手法である。EWCでは、AIモデルの学習の際に用いる損失関数に正則化項を付け加えることで、Catastrophic Forgettingを回避する。
 EWCで付け加える正則化項は、AIモデルのパラメータのうち、過去に学習したタスクを解くために重要なパラメータが変動することに対しペナルティを課す。これによって、AIモデルは、過去に学習したタスクに対する性能を落とすことなく、新たなタスクの学習を行うことができる。
 図1は、EWCの正則化項(詳細は後記)の効果によって、過去に学習したタスクに適したパラメータと新たに学習するタスクに適したパラメータとの共通部分に向かって学習が進む様子を示す図である。なお、ここではAIモデルがタスクAを学習した後、タスクBを学習する場合を例に説明する。L2は、タスクAのパラメータθA *からできるだけ変化しないというペナルティを課したタスクBのパラメータの学習を示す。また、no penaltyは、ペナルティなしでのタスクBのパラメータを学習を示す。
 EWCにおいて、タスクAを学習したのちにタスクBを学習する際に用いる損失関数を以下の式(1)に示す。
Figure JPOXMLDOC01-appb-M000001
 式(1)におけるLB(θ)はタスクBに対する損失関数であり、θAはタスクAを学習した直後のAIモデルのパラメータベクトルである。
 この式(1)には、タスクBを学習するための一般的な損失関数に正則化項が追加されている。この正則化項によって、タスクAを解くために重要なAIモデルのパラメータが、タスクBの学習により大きく変動しないことが実現されている。具体的には、式(1)において、タスクBの学習によるパラメータの変動((θiA,i)2)に対し、パラメータのフィッシャー情報行列(対角成分)Fiにより、パラメータの重要度に従った重みづけがされている。なお、式(1)におけるλはハイパーパラメータである。
[Learning with Selective Forgetting(LSF)]
 Learning with Selective Forgetting(LSF)は、複数のタスクを連続的に学習しつつ、過去に学習したタスクのうち所望のタスクの知識を忘却することを目的としたAI技術の課題である。
 学習に用いるデータセットの集合はContinual Learningと同様に定義する。学習に用いるデータセットに対し、以下の2つの集合を定義する。
・Preservation Set: タスクの学習終了後に記憶するクラスの集合
・Deletion Set: タスクの学習終了後に忘却するクラスの集合
 LSFでは、各タスクの学習後にPreservation Setに含まれるクラスの知識を保持しつつ、Deletion Setに含まれるクラスは忘却することを目的としている。
[学習装置の概要]
 次に、図2を用いて本実施形態の学習装置10の概要を説明する。システムは、例えば、AIモデルの学習を行う学習装置10と、データ取得装置20とを備える。AIモデルは、例えば、データ取得装置20から取得した入力データの予測値を出力するモデルである。このAIモデルは、上記の予測値の出力に関する複数のタスクを学習済みであるものとする。
 学習装置10は、AIモデルが学習したタスクのうち、ユーザから指定されたタスクを忘却させる。例えば、まず、学習装置10は、学習したタスクごとにAIモデルのパラメータの疑似的なフィッシャー情報行列(各タスクの疑似F行列)の対角成分を計算する。
 そして、学習装置10は、計算した各タスクの疑似F行列の対角成分を用いて、忘却させるタスクに合わせて、AIモデルのパラメータに乗せるノイズを決定する。
 これにより、学習装置10は、忘却対象のタスクの忘却に効果的なパラメータのノイズを決定することができる。そして、学習装置10は、決定したノイズをAIモデルのパラメータに乗せ、AIモデルのパラメータを更新する。
 学習装置10は、タスクjを忘却させる場合、例えば、以下の式(2)に基づき、AIモデルのパラメータwiにノイズを乗せ、AIモデルのパラメータを更新することが考えられる。
Figure JPOXMLDOC01-appb-M000002
 ここで、忘却対象のタスクによっては、式(2)におけるハイパーパラメータλの調整が必要となり、AIモデルの運用コストの増大につながる可能性がある。従って、上記のハイパーパラメータλの調整を必要としない、タスクの忘却技術が望まれる。
 そこで、学習装置10は、AIモデルのタスクを忘却させるために、AIモデルのパラメータに乗せるノイズを以下のようにして計算する。
 例えば、学習装置10は、AIモデルのパラメータwiに対するタスクjの損失Lj(w)をラプラス近似すると、パラメータwiにノイズを乗せた際の損失Lj(w)の増加の度合いΔLjは、疑似F行列とノイズの2次形式で表すことができる(後記する式(6)参照)。
 ここで、学習装置10が、上記のΔLjに対し、疑似F行列の対角成分のみを利用する近似を適用する(後記する式(7)参照)。これにより学習装置10は、タスクを忘却させるために、AIモデルのパラメータに乗せるノイズを、線計画問題により解くことができる。この線形計画問題は、比較的高速に解くことができる。
 例えば、学習装置10は、AIモデルにおける忘却対象のタスクjの損失の増加の度合いΔLjを最大化し、かつ、忘却対象外の各タスクの損失の増加の度合いを所定値(例えば、s)以下にするようなノイズxを求めるという線形計画問題を解く。そして、学習装置10は、上記の線形計画問題を解くことで得られたノイズxをAIモデルのパラメータに乗せることで、忘却対象のタスクを忘却させる。
 このようにすることで、AIモデルからタスクを忘却させる際に、忘却対象のタスクごとにハイパーパラメータλを調整する必要がなくなる。
[学習装置の構成例]
 次に、図3を用いて、学習装置10の構成例を説明する。学習装置10は、例えば、入力部11、出力部12、通信制御部13、記憶部14、および、制御部15を備える。
 入力部11は、各種データの入力を受け付けるインタフェースである。例えば、入力部11は、忘却対象のタスクの指示入力や、AIモデルが予測対象とするデータの入力を受け付ける。出力部12は、各種データの出力を行うインタフェースである。例えば、出力部12は、制御部15により予測されたデータのラベルを出力する。
 通信制御部13は、NIC(Network Interface Card)等で実現され、ネットワークを介したサーバ等の外部の装置と制御部15との通信を制御する。例えば、通信制御部13は、データ取得装置20(図2参照)等と制御部15との通信を制御する。
 記憶部14は、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現され、AIモデルのパラメータが記憶される。
 制御部15は、例えば、CPU(Central Processing Unit)等を用いて実現され、記憶部14に記憶された処理プログラムを実行する。これにより、制御部15は、図3に例示する、取得部15a、学習部15bおよび予測部15cとして機能する。
 取得部15aは、例えば、予測処理に用いるデータを入力部11あるいは通信制御部13を介して取得する。
 学習部15bは、AIモデルのタスクの忘却処理を行う。学習部15bは、フィッシャー情報行列計算部151と、ノイズ決定部152と、パラメータ更新部153とを備える。
 フィッシャー情報行列計算部151は、AIモデルが学習したタスクごとに当該タスクに対する疑似F行列の対角成分を計算する。
 例えば、タスクjに対する一般的なフィッシャー情報行列は、式(3)に示すように損失Lをパラメータwで2次微分した値を用いるが、フィッシャー情報行列計算部151は、損失Lをパラメータwで1次微分した値を2乗した値を用いた疑似F行列を用いる。フィッシャー情報行列計算部151は、上記の疑似F行列の対角成分を計算する。
Figure JPOXMLDOC01-appb-M000003
 ノイズ決定部152は、フィッシャー情報行列計算部151により計算された各タスクの疑似F行列の対角成分に基づき、AIモデルのパラメータに乗せるノイズを決定する。
 例えば、AIモデルのパラメータにノイズを乗せた際のタスクに関する損失の増加の度合いを当該タスクの疑似F行列の対角成分と上記のノイズとで表現した計算式を用意する。そして、ノイズ決定部152は、AIモデルのパラメータにノイズを乗せた際に、上記の計算式で表現される、AIモデルにおける忘却対象のタスクに関する損失の増加の度合いをできるだけ大きくし、かつ、AIモデルにおける忘却対象外の各タスクに関する損失の増加の度合いが所定値以下となるようなノイズを求める。
 上記の計算式について詳細に説明する。まず、パラメータwのAIモデルに対するタスクjに関する損失Lj(w)は以下の式(4)により表される。
Figure JPOXMLDOC01-appb-M000004
 ここで、上記のlogP(w|D)に対してラプラス近似を行うことで、タスクjに関する損失Lj(w)は以下の式(5)のように近似される。なお、式(5)におけるw*は、パラメータwの最適値である。
Figure JPOXMLDOC01-appb-M000005
 上記の式(5)により近似されたタスクjに関する損失Lj(w)を用いて、タスクjに関する損失Lj(w)の増加の度合いΔLjを導出すると、以下の式(6)のようになる。
Figure JPOXMLDOC01-appb-M000006
 つまり、パラメータwにノイズを乗せた際のタスクjに関する損失の増加の度合いΔLjは、疑似F行列とノイズの2次形式で表すことができる。
 ここで、上記の式(6)に示すLj(w)に、疑似F行列の対角成分のみを利用する近似を適用すると、以下の式(7)のように変形することができる。
Figure JPOXMLDOC01-appb-M000007
 ここで、kをAIモデルに含まれるタスク数、nをAIモデルのパラメータ数とし、F-j、x、fi、sそれぞれを以下の数8に示すように定義する。
Figure JPOXMLDOC01-appb-M000008
 なお、上記のF-jは、タスクj以外の各タスクに関するパラメータごとの疑似F行列の対角成分を示した行列である。xは、パラメータwに加えるノイズである。fiは、タスクiに関するパラメータごとの疑似F行列の対角成分を示したベクトルである。sは、学習装置10の管理者が付与する定数である。
 ノイズ決定部152が解くべき線形計画問題は、以下の式(8)のように定義できる。
Figure JPOXMLDOC01-appb-M000009
 つまり、ノイズ決定部152は、AIモデルのパラメータにノイズxを乗せた場合に、忘却対象のタスクiに関する損失の増加の度合いをできるだけ大きくし(max fi Tx)、かつ、当該AIモデルにおけるタスクi以外の各タスクに関する損失の増加の度合いが所定値(s)以下(s.t.F-jx≦s)となるような0以上(x≧0)のノイズxを求める。
 パラメータ更新部153は、ノイズ決定部152により決定されたノイズをAIモデルのパラメータに乗せることにより、パラメータを更新する。
 予測部15cは、パラメータ更新後のAIモデルを用いて、入力データのラベルを予測(識別)する。例えば、予測部15cは、パラメータ更新後のAIモデルを用いて、入力データの各ラベルの確率を算出し、最も確率が高いラベルを出力する。
[タスクの忘却処理]
 次に、図4を参照して、学習装置10によるAIモデルのタスクの忘却処理の手順の例について説明する。図4に示す処理は、例えば、ユーザから忘却対象のタスクが選択され、タスクの忘却処理の開始を指示する操作入力があったタイミングで開始される。
 まず、フィッシャー情報行列計算部151は、AIモデルが学習した各タスクについて疑似的なフィッシャー情報行列(疑似F行列)を計算し、その対角成分を取得する(S1)。次に、ノイズ決定部152は、S1で得られた、各タスクについての疑似F行列の対角成分を用いて、AIモデルのパラメータのノイズを決定する(S2)。例えば、ノイズ決定部152は、忘却対象のタスクの疑似F行列の対角成分の値と、忘却対象外のタスクの疑似F行列の対角成分の値とに基づき、当該AIモデルのパラメータに乗せるノイズを決定する。
 その後、パラメータ更新部153は、S2で決定したノイズをAIモデルのパラメータに付加することにより、パラメータを更新する(S3)。
[予測処理]
 次に、図5を参照して、学習装置10による入力データのラベルの予測処理の例について説明する。図5に示す処理は、例えば、入力データのラベルの予測処理の開始を指示する操作入力があったタイミングで開始される。
 まず、取得部15aは、ラベルの予測対象のデータを取得する(S11)。次に、予測部15cは、学習部15bによりパラメータが更新されたAIモデルを用いて、S11で取得されたデータのラベルを予測する(S12)。例えば、予測部15cは、パラメータ更新後のAIモデルを用いて、S11で取得されたデータx’のp(x’)を算出し、最も確率が高いラベルを出力する。
[実験]
 次に、図6を用いて、学習装置10によりタスクの忘却処理が行われたAIモデルの実験結果を説明する。本実験では、まずPermuted MNISTを用いて3つのタスクを用意し、EWCを用いて、これら3つのタスクをAIモデルに学習させる。そして、学習装置10は、学習後のAIモデルに対し、所定のタスクの忘却処理を行い、当該タスクの精度が低下することを確認する。なお、学習装置10が各タスクの忘却処理を行う際に用いるノイズxは、前記した式(8)を用いて決定した。なお、式(8)におけるs=0.004とした。
 なお、Permuted MNISTは、MNISTのピクセル間に固定の置換を施したものを同一タスクとしてみなすことで、オリジナルのMNISTから複数のデータセットを生成したものである。
 本実験で用いるAIモデルは入力層28×28ユニット、隠れ層1000ユニット、出力層10ユニットの3層のAIモデルとする。また、EWCのハイパーパラメータは200000とする。また、AIモデルの訓練時はPermuted MNISTの訓練データを利用し、AIモデルのテスト時はPermuted MNISTのテストデータを利用することとする。
 EWCによる学習後のAIモデルの各タスク(タスク1,2,3)の精度を表601に示す。表601に示すように、EWCを用いることでAIモデルは3つのタスクに対し90%を超える精度で学習できていることが確認できる。次に、学習装置10により当該AIモデルに対しタスク1,2,3の忘却処理を行った結果を表602,603,604に示す。表602,603,604に示すように、学習装置10により、AIモデルにおける忘却対象のタスクに対する精度を11-12%程度に下げられたことがわかる。
 本実験で用いたデータセット(Permuted MNIST)は、ラベル数が10のデータセットであるため、AIモデルがランダムにラベルを出力した場合の精度はおよそ10%となる。したがって、本実験により、学習装置10は、AIモデルにおける忘却対象のタスクの精度を、ランダムに出力する場合と同等の精度にすることができたことがわかる。また、学習装置10は、いずれのタスクの忘却処理の際にも同じパラメータ(s=0.004)を用いることができることも確認できた。また、表602,603,604に示す結果から、学習装置10がタスクの忘却処理を行っても、忘却対象のタスク以外のタスクの精度を70%以上確保できることが確認できた。
 以上の実験結果により、学習装置10によれば、AIモデルにおける忘却対象のタスク以外のタスクに対する精度を保持しつつ、忘却対象のタスクを忘却させることができることが確認できた。また、学習装置10によれば、いずれのタスクの忘却処理の際にも同じパラメータを用いることができることも確認できた。つまり、学習装置10がAIモデルにおけるタスクの忘却処理を行う際、忘却対象のタスクごとにパラメータを調整する必要がないことが確認できた。
[システム構成等]
 また、図示した各部の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
 また、前記した実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
[プログラム]
 前記した学習装置10は、パッケージソフトウェアやオンラインソフトウェアとしてプログラム(学習プログラム)を所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置10として機能させることができる。ここで言う情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等の端末等がその範疇に含まれる。
 図7は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、上記の学習装置10が実行する各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、学習装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 また、上述した実施形態の処理で用いられるデータは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続される他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
 10 学習装置
 11 入力部
 12 出力部
 13 通信制御部
 14 記憶部
 15 制御部
 15a 取得部
 15b 学習部
 15c 予測部
 20 データ取得装置
 151 フィッシャー情報行列計算部
 152 ノイズ決定部
 153 パラメータ更新部

Claims (5)

  1.  AIモデルが学習したタスクごとに当該タスクにおける前記AIモデルのパラメータのフィッシャー情報行列の対角成分を計算するフィッシャー情報行列計算部と、
     前記AIモデルのパラメータにノイズを乗せた際の前記タスクに関する損失の増加の度合いを当該タスクのフィッシャー情報行列の対角成分と前記ノイズとにより表現した計算式を用いて、前記AIモデルのパラメータにノイズを乗せた場合に、前記AIモデルにおける忘却対象のタスクに関する損失の増加の度合いをできるだけ大きくし、かつ、前記AIモデルにおける忘却対象外の各タスクに関する損失の増加の度合いが所定値以下となるようなノイズを決定するノイズ決定部と、
     決定した前記ノイズを前記AIモデルのパラメータに乗せることにより、前記AIモデルのパラメータを更新するパラメータ更新部と、
     を備えることを特徴とする学習装置。
  2.  前記AIモデルのパラメータにノイズを乗せた際の前記タスクに関する損失の増加の度合いを表現した計算式は、前記タスクに関する損失をラプラス近似した式から導出された計算式に対し、前記タスクのフィッシャー情報行列の対角成分を利用した近似を適用することにより得られた計算式である、
     ことを特徴とする請求項1に記載の学習装置。
  3.  前記パラメータが更新されたAIモデルを用いて、入力データの予測値を出力するタスクを実行する予測部
     をさらに備えることを特徴とする請求項1に記載の学習装置。
  4.  学習装置により実行される学習方法であって、
     AIモデルが学習したタスクごとに当該タスクにおける前記AIモデルのパラメータのフィッシャー情報行列の対角成分を計算する工程と、
     前記AIモデルのパラメータにノイズを乗せた際の前記タスクに関する損失の増加の度合いを当該タスクのフィッシャー情報行列の対角成分と前記ノイズとにより表現した計算式を用いて、前記AIモデルのパラメータにノイズを乗せた場合に、前記AIモデルにおける忘却対象のタスクに関する損失の増加の度合いをできるだけ大きくし、かつ、前記AIモデルにおける忘却対象以外の各タスクに関する損失の増加の度合いが所定値以下となるようなノイズを決定する工程と、
     決定した前記ノイズを前記AIモデルのパラメータに乗せることにより、前記AIモデルのパラメータを更新する工程と、
     を含むことを特徴とする学習方法。
  5.  AIモデルが学習したタスクごとに当該タスクにおける前記AIモデルのパラメータのフィッシャー情報行列の対角成分を計算する工程と、
     前記AIモデルのパラメータにノイズを乗せた際の前記タスクに関する損失の増加の度合いを当該タスクのフィッシャー情報行列の対角成分と前記ノイズとにより表現した計算式を用いて、前記AIモデルのパラメータにノイズを乗せた場合に、前記AIモデルにおける忘却対象のタスクに関する損失の増加の度合いをできるだけ大きくし、かつ、前記AIモデルにおける忘却対象以外の各タスクに関する損失の増加の度合いが所定値以下となるようなノイズを決定する工程と、
     決定した前記ノイズを前記AIモデルのパラメータに乗せることにより、前記AIモデルのパラメータを更新する工程と、
     をコンピュータに実行させるための学習プログラム。
PCT/JP2022/028844 2022-07-26 2022-07-26 学習装置、学習方法、および、学習プログラム WO2024023947A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/028844 WO2024023947A1 (ja) 2022-07-26 2022-07-26 学習装置、学習方法、および、学習プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/028844 WO2024023947A1 (ja) 2022-07-26 2022-07-26 学習装置、学習方法、および、学習プログラム

Publications (1)

Publication Number Publication Date
WO2024023947A1 true WO2024023947A1 (ja) 2024-02-01

Family

ID=89705833

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/028844 WO2024023947A1 (ja) 2022-07-26 2022-07-26 学習装置、学習方法、および、学習プログラム

Country Status (1)

Country Link
WO (1) WO2024023947A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022057202A (ja) * 2020-09-30 2022-04-11 富士通株式会社 プログラム,情報処理装置及び情報処理方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022057202A (ja) * 2020-09-30 2022-04-11 富士通株式会社 プログラム,情報処理装置及び情報処理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
GOLATKAR ADITYA; ACHILLE ALESSANDRO; SOATTO STEFANO: "Eternal Sunshine of the Spotless Net: Selective Forgetting in Deep Networks", 2020 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE, 13 June 2020 (2020-06-13), pages 9301 - 9309, XP033805349, DOI: 10.1109/CVPR42600.2020.00932 *
YAMASHITA, TOMOYA. YAMADA, MASANORI: "AI knowledge forgetting based on the importance of model parameters", IEICE TECHNICAL REPORT, IBISML, IEICE, JP, vol. 122, no. 90 (IBISML2022-3), 1 June 2022 (2022-06-01), JP, pages 14 - 19, XP009552369 *

Similar Documents

Publication Publication Date Title
US10789544B2 (en) Batching inputs to a machine learning model
US8689231B2 (en) System and method for ordering tasks with complex interrelationships
CN110689139A (zh) 用于机器学习的方法和计算机系统
CN110520871A (zh) 训练机器学习模型
CN116257363B (zh) 资源调度方法、装置、设备及存储介质
CN113312072A (zh) 配置文件更新方法及装置、电子设备和介质
US20230206083A1 (en) Optimizing gradient boosting feature selection
US20230206132A1 (en) Method and Apparatus for Training AI Model, Computing Device, and Storage Medium
CN114861910B (zh) 神经网络模型的压缩方法及装置、设备和介质
JP6484449B2 (ja) 予測装置、予測方法および予測プログラム
JP6767312B2 (ja) 検知システム、検知方法及び検知プログラム
WO2024023947A1 (ja) 学習装置、学習方法、および、学習プログラム
WO2023199479A1 (ja) 学習装置、学習方法、および、学習プログラム
WO2021117162A1 (ja) 検査装置、検査方法及び検査プログラム
KR20200139909A (ko) 전자 장치 및 그의 연산 수행 방법
WO2024100854A1 (ja) 学習装置、学習方法、および、学習プログラム
AU2020462915B2 (en) Information processing system for assisting in solving allocation problems, and method
JP7424373B2 (ja) 分析装置、分析方法及び分析プログラム
JP7173308B2 (ja) 検知装置、検知方法および検知プログラム
JP7077746B2 (ja) 学習装置、学習方法及び学習プログラム
WO2023195138A1 (ja) 学習方法、学習装置及び学習プログラム
CN112329941A (zh) 深度学习模型的更新方法及装置
US20230110981A1 (en) Method and system for a controller
WO2024079795A1 (ja) リスク算出装置、リスク算出方法、および、リスク算出プログラム
WO2022176196A1 (ja) 学習装置、学習方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22953042

Country of ref document: EP

Kind code of ref document: A1