WO2021153864A1 - 뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템 - Google Patents

뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템 Download PDF

Info

Publication number
WO2021153864A1
WO2021153864A1 PCT/KR2020/009823 KR2020009823W WO2021153864A1 WO 2021153864 A1 WO2021153864 A1 WO 2021153864A1 KR 2020009823 W KR2020009823 W KR 2020009823W WO 2021153864 A1 WO2021153864 A1 WO 2021153864A1
Authority
WO
WIPO (PCT)
Prior art keywords
neuron
computing system
neurons
task
level
Prior art date
Application number
PCT/KR2020/009823
Other languages
English (en)
French (fr)
Inventor
백인영
오상준
곽태영
Original Assignee
주식회사 딥바이오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 딥바이오 filed Critical 주식회사 딥바이오
Priority to CN202080095037.0A priority Critical patent/CN115023708A/zh
Priority to JP2022542682A priority patent/JP7431473B2/ja
Priority to EP20916689.1A priority patent/EP4099223A4/en
Priority to US17/795,546 priority patent/US20230072274A1/en
Publication of WO2021153864A1 publication Critical patent/WO2021153864A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]

Definitions

  • NPC neuron-level plasticity control
  • Another way is to isolate the part of the neural network that contains previous knowledge and use another part of the network to learn a new task.
  • Our work is closely related to this approach because the proposed algorithm learns multiple tasks using different parts of the network.
  • the unit of a part is an individual neuron.
  • EWC Elastic weight consolidation
  • LeCun et al. (1998) LeCun, Bottou, Bengio, and Haffner] LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. Gradient-based learning applied to document recognition. Proceedings of the IEEE , 860 (11):0 2278-2324, 1998.
  • NPC neuron-level plasticity control
  • CNN Convolutional Neural Network
  • Another key characteristic of NPCs is to stabilize critical neurons by adjusting their learning rate, rather than keeping important parameters close to certain values.
  • these characteristics can increase memory efficiency regardless of the number of tasks. This means that NPCs only need to store a single importance value per neuron instead of a set of task-specific parameter values, so memory usage can remain consistent regardless of the number of tasks.
  • NPCs control the plasticity of neurons by continuously evaluating the importance of each neuron without retaining information and simply adjusting the learning rate according to the moving average of importance. Therefore, the NPC does not require any information about the learning schedule, except for the identifier (ID) of the current task, which is essential to calculate the classification loss.
  • ID the identifier
  • having a predetermined learning schedule can further improve NPCs.
  • SNPCs scheduled NPCs
  • the SNPC For each task, the SNPC identifies important neurons and integrates them while training other tasks. Experimental results show that NPCs and SNPCs are substantially more effective in reducing fatal oblivion than connection-level integration approaches. In particular, the effect of catastrophic oblivion almost disappeared in the SNPC evaluation of the iMNIST data set.
  • a method for overcoming catastrophic oblivion through neuron-level plasticity control (NPC) is provided.
  • a computing system performing a method for overcoming catastrophic oblivion through neuron-level plasticity control (NPC) is provided.
  • NPC neuron-level plasticity control
  • Figure 1 is a diagram for comparing connection-level and neuron-level integration.
  • Figure 1(a) shows the neurons and connections important for Task 1.
  • Figure 1(b) is a connection-level integration. Although important connections are incorporated, neurons may be affected by other incoming connections that may change while learning Task 2.
  • Figure 1(c) is a neuron-level integration. NPCs unify all incoming connections of critical neurons, which are more effective at preserving neuron knowledge.
  • FIG. 2 shows an example of a histogram of importance values C i .
  • Fig. 2(a) is the original distribution before equalization
  • Fig. 2(b) is the equalized distribution.
  • FIG. 3 shows the verification accuracy of the continuous learning algorithm in the iMNIST data set.
  • Fig. 3(a) shows the average verification accuracy of the tasks trained up to each moment
  • Fig. 3(b) shows the training curves for 5 tasks according to the learning algorithm.
  • SNPC and NPC each show the best performance among continuous learning algorithms.
  • FIG. 4 shows the validation accuracy of the continuous learning algorithm in the iCIFAR100 data set.
  • Fig. 4(a) shows the average verification accuracy of the task trained up to each moment
  • Fig. 3(b) shows the training curve of 5 tasks according to the learning algorithm.
  • SNPC and NPC each show the best performance among continuous learning algorithms. The differences between the training curves are more pronounced in iCIFAR100 than in iMNIST.
  • Figure 5 shows the training curves of the fifth iCIFAR100 task under different settings.
  • Fig. 5 (a) is a training curve of SNPC learning T 5 after learning from T 1 to T 4
  • the training curve of partial training of allowed full VGG nets Fig. 5(c) shows the training of training of partial VGG nets starting from randomly initialized parameters and reduced to only 14.33% of the original model. It is a curve.
  • FIG. 6 is a block diagram illustrating a schematic configuration of a computing system according to an embodiment of the present invention.
  • FIG. 7 is a flowchart illustrating a neuron-level plasticity control method performed by a computing system according to an embodiment of the present invention.
  • FIG. 8 is a flowchart illustrating a method for controlling scheduled neuron-level plasticity performed by a computing system according to an embodiment of the present invention.
  • neuron-level plasticity control To solve the issue of catastrophic forgetting in artificial neural networks, a simple, effective and novel solution called neuron-level plasticity control (NPC) is proposed.
  • the proposed method preserves existing knowledge by controlling the plasticity of the network at the neural level rather than the neuronal level while learning a new task.
  • Neuron-level plasticity control integrates important neurons by evaluating each neuron for importance and applying a low learning rate.
  • NPCs scheduled NPCs
  • iMNIST incremental MNIST
  • CIFAR100 incremental CIFAR100
  • Another way is to isolate the part of the neural network that contains previous knowledge and use another part of the network to learn a new task.
  • Our work is closely related to this approach because the proposed algorithm learns multiple tasks using different parts of the network.
  • the unit of a part is an individual neuron.
  • EWC Elastic weight consolidation
  • NPC neuron-level plasticity control
  • CNN Convolutional Neural Network
  • Another key characteristic of NPCs is to stabilize critical neurons by adjusting their learning rate, rather than keeping important parameters close to certain values.
  • these characteristics can increase memory efficiency regardless of the number of tasks. This means that NPCs only need to store a single importance value per neuron instead of a set of task-specific parameter values, so memory usage can remain consistent regardless of the number of tasks.
  • NPCs control the plasticity of neurons by continuously evaluating the importance of each neuron without retaining information and simply adjusting the learning rate according to the moving average of importance. Therefore, the NPC does not require any information about the learning schedule, except for the identifier (ID) of the current task, which is essential to calculate the classification loss.
  • ID the identifier
  • having a predetermined learning schedule can further improve NPCs.
  • SNPCs scheduled NPCs
  • the SNPC For each task, the SNPC identifies important neurons and integrates them while training other tasks. Experimental results show that NPCs and SNPCs are substantially more effective in reducing fatal oblivion than connection-level integration approaches. In particular, the effect of catastrophic oblivion almost disappeared in the SNPC evaluation of the iMNIST data set.
  • Figure 1 shows more clearly the limitations of connection-level integration of deep neural networks.
  • Connection weights in Fig. 1 class The values of are close to 0, which allows the learning algorithm to evaluate their importance to a minimum. in other words, class Changing the values individually has no significant effect on the output of Task 1.
  • the connection level algorithm does not integrate the two connection parameters. However, if both parameters increase rapidly during subsequent learning, it can seriously affect Task 1. Because they are closely related to each other. This problem can be particularly severe in convolutional layers where the same filter is shared between multiple output nodes in different locations. Thus, even if the concept of connection-level integration can be fully implemented, catastrophic oblivion cannot be completely eliminated.
  • NPC integrates all incoming connections of important neurons, including connections that may not individually be evaluated as critical. As a result, NPCs protect more important neurons from alteration of insignificant neurons more effectively than connection-level integration algorithms.
  • connections from insignificant neuron Y to important neuron X may be small. Because otherwise, the evaluation algorithm determines Y to be the important neuron. In the example of Figure 1, the NPC unifies all incoming connections of X, and consequently is kept small The change in X has no significant effect on X. On the other hand, although NPCs are individually important, they do not integrate connections where destination neurons are not important. Thus, overall, the total number of aggregated connections is acceptable.
  • Equation (4) the importance of the ith neuron n i at time t as the moving average of the normalized Taylor criterion expressed by Equation (4) below.
  • N layer is the number of nodes in the layer.
  • the second function is the loss of plasticity aspect to reduce reluctance to new knowledge.
  • maximum 0 starting at 0 and decreasing monotonically to 0. is the decreasing function of In this case, the upper bound does not take into account existing knowledge and, therefore, has nothing to do with C i or t. Therefore, the plasticity-wise loss is is defined as where a 2 and b 2 are constants for controlling the scale and slope.
  • Equation (9) is as Equation (10) below. At this time am.
  • Equation (11) In this case, ⁇ , ⁇ > 0 are hyperparameters.
  • Equation (12) the final solution of Equation (12) below.
  • NPCs are designed to run without a predetermined training schedule, it is unavoidable to calculate the loss of each task, since it requires knowledge of the task to which the current training sample belongs. However, no additional task-specific information is required, such as an up-to-date set of parameters optimized for each task. Considering that it is simply computed from the activation and gradient computed by the back-propagation algorithm, the overhead of implementing NPC is minimal.
  • Batch normalization plays an important role in training deep neural networks [Ioffe Szegedy (2015) Ioffe and Szegedy].
  • vanilla batch regularization does not work well in a continuous learning environment because mean and variance are strongly affected by task transitions.
  • Conditional batch normalization in this case [De ⁇ Vries et al. (2017) De to Vries, Strub, Mary, Larochelle, Pietquin, and Courville] and hypothetical batch normalization [Salimans et al. (2016) Salimans, Goodfellow, Zaremba, Cheung, Radford and Chen].
  • these two methods are applicable to SNPCs, they are not suitable for NPCs as they maintain task-specific information.
  • NPCs do not depend on a predetermined learning schedule. However, when a job switch schedule is available, it is desirable to actively use that information to improve performance. Although the learning schedule is not really predetermined, recent studies on continuous learning have been evaluated under similar circumstances. [Li Hoiem(2018)Li and Hoiem, Shin et ⁇ al.(2017)Shin, Lee, Kim, and Kim, Kamra et ⁇ al.(2017)Kamra, Gupta, and Liu, Gepperth Karaoguz(2016)Gepperth and Karaoguz , Lopez-Paz (2017), Fernando et ⁇ al.
  • Algorithm 2 below presents the Scheduled Neuron-level Plasticity Control (SNPC) algorithm, an extension of NPC designed to more actively utilize knowledge of task switching schedules.
  • SNPC Scheduled Neuron-level Plasticity Control
  • the SNPC selects the subset of free neurons most important to each task and assigns it to that task. It then protects selected neurons from the effects of free neurons that can be modified in unpredictable ways while learning other tasks. This is achieved by freezing the connection weights from free neurons to selected neurons to zero. However, removing connections from free neurons to selected neurons in this way can cause potential problems.
  • the capacity of the neural network may be reduced.
  • it may prevent new knowledge from improving network performance for previous tasks. The first problem can severely impact performance when the model capacity is insufficient for the sum of all tasks, but can be mitigated relatively easily with larger neural networks.
  • the second problem is a remote possibility, but in practice this phenomenon is almost unpredictable. If knowledge of previous work is not maintained in any way, changes in unintegrated neurons can almost always lead to catastrophic oblivion.
  • SNPC determines the number of neurons to be assigned to each task by r k ⁇ N layer (where r k is the ratio of neurons assigned to T k ). Lim). SNPC improves the balance and simplicity of tasks by sharing the same values across all layers.
  • VGG-16 Tinan Zisserman (2014) Simonyan and Zisserman
  • NPC and SNPC show better performance than EWC and L2reg in terms of average accuracy.
  • Their training curves show that when the network is trained by NPCs or SNPCs, the knowledge learned earlier was much less affected by the knowledge learned later. In particular, in the case of SNPC, the performance of the first task is hardly affected by subsequent learning. The results show that SNPC mitigates catastrophic oblivion for iMNIST until the point where its effect dissipates.
  • PPC Parameter-wise plasticity control
  • Figure 4 shows that NPC and SNPC provide higher average accuracy in iCIFAR100 than other algorithms and are more difficult to achieve than iMNIST.
  • NPCs have lower accuracy in the last task than in the previous task.
  • the same problem was observed with other algorithms, but more severe with NPCs.
  • We hypothesize that the main reason is that the partial integration of neural networks consumes the learning capacity of the model. This issue was not clearly observed in iMNIST. Its simplicity allowed the VGG network to master subsequent tasks with the minimal capacity provided by the rest of the neurons.
  • NPCs have no limit or regularization on the number of neurons allocated per task, so models generally tend to use most neurons for previous tasks.
  • NPCs integrate a significant fraction of neurons to protect their knowledge of previous tasks from catastrophic oblivion, resulting in poor performance on the last task, as shown in Fig.
  • SNPC is less difficult due to capacity exhaustion issues because it integrates only r k ⁇ N layer neurons for each task and ensures that subsequent tasks utilize a certain number of neurons.
  • the dotted line (c) is the learning curve when the network learns only 14.33% of neurons, starting from randomly initialized parameters.
  • Figure 5 shows that SNPC learns a task much faster than the other two settings. This confirms that SNPC actively reuses knowledge gained from previous work.
  • NPC non-continuous learning algorithms
  • SNPC has a predefined learning schedule and is actively utilized to more explicitly protect important neurons.
  • Experimental results of the iMNIST and iCIFAR100 data sets show that NPC and SNPC are much more effective than existing connection-level integration algorithms that do not consider the relationship between connections. In particular, catastrophic oblivion almost disappeared in the results of SNPC on the iMNIST data set.
  • NPCs and SNPCs have significantly improved in continuous learning, challenges remain. Although the dependence of NPCs on information is minimal, it is still limited by the fact that tasks must be identified in order to calculate classification loss. NPCs also define the units and methods that control plasticity, but strategies for assessing and managing the importance of each neuron are open to exploration.
  • Residual connection [He et al. (2016)He, Zhang, Ren, and Sun] is one of the obstacles to be solved in order to apply NPCs to more diverse architectures. Interpreting the summation of multiple neuron outputs and determining which neurons should be preserved is a non-obvious problem, especially when important and non-critical neurons are added.
  • Typical online learning benchmarks such as the iCIFAR100 do not revisit the same task, so the model can simply block passages, leading to catastrophic oblivion.
  • one simple solution is to treat the revisited task as if it were a new task.
  • this can mitigate the effects of catastrophic oblivion, it can pose real problems in the long run as the model must be much larger.
  • the method for overcoming catastrophic oblivion through neuron-level plasticity control (NPC) or scheduled NPC (SNPC) according to the above study can be performed by a computing system.
  • NPC neuron-level plasticity control
  • SNPC scheduled NPC
  • the computing system refers to a data processing device having computational capability for implementing the technical idea of the present invention, and in general, not only a data processing device such as a server that a client can access through a network, but also a specific service such as a personal computer, a mobile terminal, etc.
  • a data processing device such as a server that a client can access through a network
  • a specific service such as a personal computer, a mobile terminal, etc.
  • An average expert in the art of the present invention can easily infer that any device capable of performing ? can be defined as computing.
  • the computing system may include hardware resources and/or software necessary to implement the technical idea of the present invention, and does not necessarily mean one physical component or one device. That is, the computing system may mean a logical combination of hardware and/or software provided to implement the technical idea of the present invention. It may be implemented as a set of logical configurations for implementing the technical idea of In addition, the computing system may refer to a set of components separately implemented for each function or role for implementing the technical idea of the present invention.
  • the predictive model generation system may be implemented in the form of a plurality of modules.
  • a module may mean a functional and structural combination of hardware for carrying out the technical idea of the present invention and software for driving the hardware.
  • the module may mean a logical unit of a predetermined code and a hardware resource for executing the predetermined code, and does not necessarily mean physically connected code or a single type of hardware. It can be easily inferred to an average expert in the technical field of
  • FIG. 6 is a diagram illustrating a configuration of a computing system according to an embodiment of the present invention.
  • the computing system 100 may include an input module 110 , an output module 120 , a storage module 130 , and a control module 140 .
  • the input module 110 may receive various data necessary for implementing the technical idea of the present invention from the outside of the computing device 110 .
  • the input module 110 may receive a training dataset, various parameters and/or hyperparameters.
  • the output module 120 may output data stored in the computing system 100 or generated by the computing system 100 to the outside.
  • the storage module 130 may store various types of information and/or data necessary to implement the technical idea of the present invention.
  • the storage module 130 may store a neural network model, training data, various parameters and/or hyperparameters.
  • the storage module 130 may include a volatile memory such as a RAM (Ramdom Access Memory) or a non-volatile memory such as a Hard Disk Drive (HDD) or a Solid State Disk (SSD).
  • RAM Random Access Memory
  • HDD Hard Disk Drive
  • SSD Solid State Disk
  • the control module 140 may control other components (eg, the input module 110 , the output module 120 , and/or the storage module 130 ) included in the computing system 100 .
  • the control module 140 may include a processor such as a single-core CPU, a multi-core CPU, or a GPU.
  • control module 140 may perform neuron-level plasticity control (NPC) or scheduled NPC (SNPC) according to the above-described study.
  • NPC neuron-level plasticity control
  • SNPC scheduled NPC
  • control module 140 may apply the neural network model and training data stored in the storage module 130 to the above-described NPC algorithm or SNPC algorithm.
  • FIG. 7 is a flowchart illustrating a neuron-level plasticity control method performed by the control module 140 .
  • FIG. 8 is a flowchart illustrating a method for controlling scheduled neuron-level plasticity performed by the control module 140 .
  • the computing system 100 may include at least one processor and a memory for storing a program executed by the processor.
  • the processor may include a single-core CPU or a multi-core CPU.
  • the memory may include high-speed random access memory and may include non-volatile memory such as one or more magnetic disk storage devices, flash memory devices, or other non-volatile solid-state memory devices. Access to memory by the processor and other components may be controlled by a memory controller.
  • the method according to an embodiment of the present invention may be implemented in the form of a computer readable program command and stored in a computer readable memory or recording medium.
  • the computer-readable recording medium includes all types of recording devices in which data readable by a computer system is stored.
  • the program instructions recorded on the recording medium may be specially designed and configured for the present invention, or may be known and available to those skilled in the software field.
  • Examples of the computer-readable recording medium include magnetic media such as hard disks, floppy disks and magnetic tapes, optical recording media such as CD-ROMs and DVDs, floppy disks, and hardware devices specially configured to store and execute program instructions, such as magneto-optical media and ROM, RAM, flash memory, and the like.
  • the computer-readable recording medium is distributed in a computer system connected through a network, so that the computer-readable code can be stored and executed in a distributed manner.
  • Examples of the program instruction include not only machine code such as generated by a compiler, but also a device for electronically processing information using an interpreter or the like, for example, a high-level language code that can be executed by a computer.
  • the hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.
  • the present invention can be applied to a method for overcoming catastrophic forgetting through neuron-level plasticity control and a computing system for performing the same.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Neurology (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

인공신경망에서 파국적인 망각 이슈(issue of catastrophic forgetting)를 해결하기 위하여, 뉴런-레벨 가소성 제어(neuron-level plasticity control; NPC)라고 불리는 간단하고 효과적이며 새로운 솔루션이 제안된다. 제안된 방법은 새루은 태스크를 학습하는 동안 연결 수준이 아닌 신경 수준에서 네트워크의 가소성을 제어하여 기존 지식을 보존한다. 뉴런-레벨 가소성 제어는 각 뉴런이 중요성을 평가하고 낮은 학습 속도를 적용하여 중요한 뉴런을 통합한다. 또한 스케쥴된 NPC(scheduled NPC; SNPC)라고 하는 NPC의 확장이 제안된다. 이 확장은 학습 스케줄 정보를 이용하여 중요한 뉴런을 보다 명확하게 보호한다. 점진적인 MNIST(incremental MNIST; iMNIST) 및 점진적인 CIFAR100(incremental CIFAR100) 데이터 세트에 대한 실험 결과는 NPC 및 SNPC가 연결 수준 통합 접근 방식에 비해 월등히 효과적임을 보이며, 특히 SNPC는 두 데이터 세트에서 탁월한 성능을 보여준다.

Description

뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템
인공신경망에서 파국적인 망각(catastrophic forgetting) 이슈를 해결하기 위하여, 뉴런-레벨 가소성 제어(neuron-level plasticity control; NPC)라고 불리는 간단하고 효과적이며 새로운 솔루션이 제안된다.
심층 신경망으로 인공 일반 지능을 실현하는 과정에서 파국적인 망각(atastrophic forgetting)은 여전히 가장 근본적인 도전 중 하나이다. 가장 많이 사용되는 학습 알고리즘인 경사하강법(gradient descent)은 여러 작업에 대한 신경망을 순차적으로 훈련시키기 위해 적용될 때 문제를 일으키게 된다. 경사하강법(gradient descent)이 현재 작업에 대한 신경망을 최적화 할 때, 이전 작업에 대한 지식은 새로운 지식에 의해 파국적으로(catastrophically) 덮어 써지게 된다.
문제의 최초 발견 [McCloskey Cohen (1989) McCloskey and Cohen] 이후 인공 신경망에서 파국적인 망각을 완화하기 위한 다양한 접근법이 제안되었다. 이러한 접근 방식 중 하나는 모든 미니 배치에 여러 작업의 데이터를 포함시키는 것이다. 이러한 방법은 이전 작업의 성능을 유지하는 데 효과적일 수 있지만 이전 작업에 대한 트레이닝 데이터를 유지해야 하는 오버 헤드가 발생한다. 이전 데이터의 제한된 일부만을 이용하거나 [Gepperth Karaoguz(2016)Gepperth and Karaoguz, Lopez-Paz(2017)] 이전 데이터를 사용하지 않고 [Li Hoiem(2018)Li and Hoiem, Shin et~al.(2017)Shin, Lee, Kim, and Kim, Kamra et~al.(2017)Kamra, Gupta, and Liu, Zacarias Alexandre(2018)Zacarias and Alexandre, Kim et~al.(2018)Kim, Kim, and Lee] 유사한 효과를 달성하려는 몇 가지 시도가 있었다.
또 다른 방법은 이전 지식이 포함된 신경망의 일부를 분리하고 네트워크의 다른 부분을 사용하여 새로운 작업을 배우는 것이다. 여기에는 네트워크의 다른 부분을 새 작업에 할당하여 새로운 작업을 학습할 수 있는 신경망을 위한 동적 아키텍처 설계가 포함된다. [Fernando et~al.(2017)Fernando, Banarse, Blundell, Zwols, Ha, Rusu, Pritzel, and Wierstra, Aljundi et~al.(2017)Aljundi, Chakravarty, and Tuytelaars, Lee et~al.(2017)Lee, Yun, Hwang, and Yang] 제안된 알고리즘은 네트워크의 다른 부분을 사용하여 여러 작업을 학습하기 때문에 우리의 작업은 이러한 접근과 밀접하게 관련되어 있다. 여기서 부분의 단위는 개별 뉴런이다.
탄력적 가중치 통합(Elastic weight consolidation; EWC) [Kirkpatrick et~al.(2017)Kirkpatrick, Pascanu, Rabinowitz, Veness, Desjardins, Rusu, Milan, Quan, Ramalho, Grabska-Barwinska, et~al.] 은 이 분야에서 만들어진 주목할 만한 발전이다. Fisher 정보 매트릭스의 대각선을 사용하여 EWC는 이전 작업에 중요한 신경망의 연결 가중치에 해당하는 매개 변수를 식별하고 통합한다. 이러한 방식으로 네트워크는 이전에 배운 지식을 유지하면서 덜 중요한 매개 변수를 사용하여 새로운 작업을 학습 할 수 있다. EWC는 많은 관심을 끌었으므로 많은 연구에서 채택되었다 [Lee et al. (2017) Lee, Kim, Jun, Ha, Zhang, Nguyen et al. (2017) Nguyen, Li, Bui, and Turner, Liu et al. (2018) Liu, Masana, Herranz, Van ~ de Weijer, Lopez 및 Bagdanov, Zenke et al. (2017) Zenke, Poole, Ganguli], EWC 단독의 성능은 상당한 개선의 여자가 있다 [Parisi et al. (2018) Parisi, Kemker, Part, Kanan, Wermter]. 최근 연구에서는 EWC를 정규화의 수단으로서 다른 방법과 결합하여 사용되었다 [Kim et~al.(2018)Kim, Kim, and Lee, Lee et~al.(2017)Lee, Yun, Hwang, and Yang].
* 선행기술문헌
- 비특허문헌 :
References
[Aljundi et~al.(2017)Aljundi, Chakravarty, and Tuytelaars] Aljundi, R., Chakravarty, P., and Tuytelaars, T. Expert gate: Lifelong learning with a network of experts. pp. 3366-3375, 2017.
[De~Vries et~al.(2017)De~Vries, Strub, Mary, Larochelle, Pietquin, and Courville] De Vries, H., Strub, F., Mary, J., Larochelle, H., Pietquin, O., and Courville, A. C. Modulating early visual processing by language. pp. 6594-6604, 2017.
[Fernando et~al.(2017)Fernando, Banarse, Blundell, Zwols, Ha, Rusu, Pritzel, and Wierstra] Fernando, C., Banarse, D., Blundell, C., Zwols, Y., Ha, D., Rusu, A. A., Pritzel, A., and Wierstra, D. PathNet: Evolution channels gradient descent in super neural networks. arXiv preprint arXiv:1701.08734, 2017.
[Gepperth Karaoguz(2016)Gepperth and Karaoguz] Gepperth, A. and Karaoguz, C. A bio-inspired incremental learning architecture for applied perceptual problems. Cognitive Computation, 80 (5):0 924-934, 2016.
[He et~al.(2016)He, Zhang, Ren, and Sun] He, K., Zhang, X., Ren, S., and Sun, J. Deep residual learning for image recognition. pp. 770-778, 2016.
[Ioffe Szegedy(2015)Ioffe and Szegedy] Ioffe, S. and Szegedy, C. Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv preprint arXiv:1502.03167, 2015.
[Kamra et~al.(2017)Kamra, Gupta, and Liu] Kamra, N., Gupta, U., and Liu, Y. Deep generative dual memory network for continual learning. arXiv preprint arXiv:1710.10368, 2017.
[Kim et~al.(2018)Kim, Kim, and Lee] Kim, H.-E., Kim, S., and Lee, J. Keep and learn: Continual learning by constraining the latent space for knowledge preservation in neural networks. arXiv preprint arXiv:1805.10784, 2018.
[Kirkpatrick et~al.(2017)Kirkpatrick, Pascanu, Rabinowitz, Veness, Desjardins, Rusu, Milan, Quan, Ramalho, Grabska-Barwinska, et~al.] Kirkpatrick, J., Pascanu, R., Rabinowitz, N., Veness, J., Desjardins, G., Rusu, A. A., Milan, K., Quan, J., Ramalho, T., Grabska-Barwinska, A., et al. Overcoming catastrophic forgetting in neural networks. Proceedings of the national academy of sciences, pp. 201611835, 2017.
[Krizhevsky Hinton(2009)Krizhevsky and Hinton] Krizhevsky, A. and Hinton, G. Learning multiple layers of features from tiny images. 2009.
[LeCun et~al.(1998)LeCun, Bottou, Bengio, and Haffner] LeCun, Y., Bottou, L., Bengio, Y., and Haffner, P. Gradient-based learning applied to document recognition. Proceedings of the IEEE, 860 (11):0 2278-2324, 1998.
[Lee et~al.(2017)Lee, Yun, Hwang, and Yang] Lee, J., Yun, J., Hwang, S., and Yang, E. Lifelong learning with dynamically expandable networks. arXiv preprint arXiv:1708.01547, 2017 a .
[Lee et~al.(2017)Lee, Kim, Jun, Ha, and Zhang] Lee, S.-W., Kim, J.-H., Jun, J., Ha, J.-W., and Zhang, B.-T. Overcoming catastrophic forgetting by incremental moment matching. pp. 4652-4662, 2017 b .
[Liu et~al.(2018)Liu, Masana, Herranz, Van~de Weijer, Lopez, and Bagdanov] Liu, X., Masana, M., Herranz, L., Van de Weijer, J., Lopez, A. M., and Bagdanov, A. D. Rotate your networks: Better weight consolidation and less catastrophic forgetting. arXiv preprint arXiv:1802.02950, 2018.
[Li Hoiem(2018)Li and Hoiem] Li, Z. and Hoiem, D. Learning without forgetting. IEEE Transactions on Pattern Analysis and Machine Intelligence, 400 (12):0 2935-2947, 2018.
[Lopez-Paz(2017)] Lopez-Paz, D. Gradient episodic memory for continual learning. Advances in Neural Information Processing Systems, pp. 6467-6476, 2017.
[Luo Wu(2017)Luo and Wu] Luo, J.-H. and Wu, J. An entropy-based pruning method for cnn compression. arXiv preprint arXiv:1706.05791, 2017.
[Luo et~al.(2017)Luo, Wu, and Lin] Luo, J.-H., Wu, J., and Lin, W. Thinet: A filter level pruning method for deep neural network compression. pp. 5068-5076, 2017.
[McCloskey Cohen(1989)McCloskey and Cohen] McCloskey, M. and Cohen, N. J. Catastrophic interference in connectionist networks: The sequential learning problem. 24:0 109-165, 1989.
[Mermillod et~al.(2013)Mermillod, Bugaiska, and Bonin] Mermillod, M., Bugaiska, A., and Bonin, P. The stability-plasticity dilemma: Investigating the continuum from catastrophic forgetting to age-limited learning effects. Frontiers in psychology, 4:0 504, 2013.
[Molchanov et~al.(2016)Molchanov, Tyree, Karras, Aila, and Kautz] Molchanov, P., Tyree, S., Karras, T., Aila, T., and Kautz, J. Pruning convolutional neural networks for resource efficient inference. arXiv preprint arXiv:1611.06440, 2016.
[Nguyen et~al.(2017)Nguyen, Li, Bui, and Turner] Nguyen, C. V., Li, Y., Bui, T. D., and Turner, R. E. Variational continual learning. arXiv preprint arXiv:1710.10628, 2017.
[Parisi et~al.(2018)Parisi, Kemker, Part, Kanan, and Wermter] Parisi, G. I., Kemker, R., Part, J. L., Kanan, C., and Wermter, S. Continual lifelong learning with neural networks: A review. arXiv preprint arXiv:1802.07569, 2018.
[Real et~al.(2018)Real, Aggarwal, Huang, and Le] Real, E., Aggarwal, A., Huang, Y., and Le, Q. V. Regularized evolution for image classifier architecture search. arXiv preprint arXiv:1802.01548, 2018.
[Salimans et~al.(2016)Salimans, Goodfellow, Zaremba, Cheung, Radford, and Chen] Salimans, T., Goodfellow, I., Zaremba, W., Cheung, V., Radford, A., and Chen, X. Improved techniques for training GANs. pp. 2234-2242, 2016.
[Shin et~al.(2017)Shin, Lee, Kim, and Kim] Shin, H., Lee, J. K., Kim, J., and Kim, J. Continual learning with deep generative replay. pp. 2990-2999, 2017.
[Simonyan Zisserman(2014)Simonyan and Zisserman] Simonyan, K. and Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556, 2014.
[Ulyanov et~al.(2016)Ulyanov, Vedaldi, and Lempitsky] Ulyanov, D., Vedaldi, A., and Lempitsky, V. Instance normalization: The missing ingredient for fast stylization. arXiv preprint arXiv:1607.08022, 2016.
[Wikipedia contributors(2018)] Wikipedia contributors. Error function ― Wikipedia, the free encyclopedia, 2018. URL https://en.wikipedia.org/wiki/Error_function . [Online; accessed 23-Jan-2019].
[Yu et~al.(2018)Yu, Li, Chen, Lai, Morariu, Han, Gao, Lin, and Davis] Yu, R., Li, A., Chen, C.-F., Lai, J.-H., Morariu, V. I., Han, X., Gao, M., Lin, C.-Y., and Davis, L. S. NISP: Pruning networks using neuron importance score propagation. pp. 9194-9203, 2018.
[Zacarias Alexandre(2018)Zacarias and Alexandre] Zacarias, A. S. and Alexandre, L. A. Overcoming catastrophic forgetting in convolutional neural networks by selective network augmentation. arXiv preprint arXiv:1802.08250, 2018.
[Zenke et~al.(2017)Zenke, Poole, and Ganguli] Zenke, F., Poole, B., and Ganguli, S. Continual learning through synaptic intelligence. arXiv preprint arXiv:1703.04200, 2017.
본 연구에서 우리는 EWC의 한계를 보이고 뉴런-레벨의 가소성 제어 (NPC)라는 개선된 알고리즘을 제안한다. 이름에서 알 수 있듯이 NPC는 CNN(Convolutional Neural Network)에서 각 뉴런 또는 각 필터의 가소성을 제어하여 기존 지식을 유지한다. 이는 개별적인 연결 가중치를 통합하여 작동하는 EWC와 대조적이다. NPC의 또 다른 주요 특징은 중요한 매개 변수를 특정 값에 가깝게 유지하는 대신 학습률(learning rate)을 조정하여 중요한 뉴런을 안정화시키는 것이다. 이러한 특성은 NPC의 효율성을 높이는 것 외에도 작업 수에 관계없이 메모리 효율성을 높일 수 있다. 즉, NPC는 작업 별 매개 변수 값 집합 대신 뉴런 당 단일 중요도 값만 저장하면 되므로 작업 수에 관계없이 메모리 사용량이 일관되게 유지될 수 있다.
이전의 연구에서는 일반적으로 작업 전환의 정확한 타이밍이 알려져 있다고 가정했다. 따라서 학습 알고리즘은 작업이 변경될 때마다 여러 파라미터(매개 변수) 값 세트와 같은 컨텍스트를 명시적으로 유지하고 컨텍스트로 전환할 수 있었다. 반면 NPC는 정보를 유지하지 않고 각 뉴런의 중요성을 지속적으로 평가하고 중요도의 이동 평균에 따라 학습률을 간단히 조정하여 뉴런의 가소성을 제어한다. 따라서 NPC는 분류 손실(classification loss)을 계산하는 데 필수적으로 필요한 현재 작업의 식별자(ID)를 제외하고 학습 스케줄에 관한 정보를 요구하지 않는다. 한편, 미리 정해진 학습 스케줄이 있으면 NPC를 더욱 향상시킬 수 있다. 이를 위해 스케줄된 NPC(SNPC)라고 하는 NPC의 확장을 제안하여 학습 스케줄에 따라 중요한 뉴런을 보다 명확하게 보존한다. 각 작업에 대해 SNPC는 중요한 뉴런을 식별하고 다른 작업을 훈련하는 동안 이를 통합한다. 실험 결과는 NPC와 SNPC가 연결 수준 통합 접근 방식보다 치명적인 망각을 줄이는 데 실질적으로 더 효과적이라는 것을 보여준다. 특히, iMNIST 데이터 세트에 대한 SNPC 평가에서 파국적 망각의 영향은 거의 사라졌다.
뉴런-레벨 가소성 제어(neuron-level plasticity control; NPC)를 통한 파국적인 망각을 극복하기 위한 방법이 제공된다.
뉴런-레벨 가소성 제어(neuron-level plasticity control; NPC)를 통한 파국적인 망각을 극복하기 위한 방법을 수행하는 컴퓨팅 시스템이 제공된다.
점진적인 MNIST(incremental MNIST; iMNIST) 및 점진적인 CIFAR100(incremental CIFAR100) 데이터 세트에 대한 실험 결과는 NPC 및 SNPC가 연결 수준 통합 접근 방식에 비해 월등히 효과적임을 보이며, 특히 SNPC는 두 데이터 세트에서 탁월한 성능을 보여준다.
도 1은 연결-레벨과 뉴런-레벨 통합을 비교하기 위한 도면이다. 도 1(a)는 Task 1에 중요한 뉴런 및 연결을 나타낸다. 도 1(b)는 연결-레벨 통합이다. 중요한 연결이 통합되어 있으나 뉴런은 Task 2를 학습하는 동안 변경될 수 있는 다른 인커밍 연결에 의해 영향을 받을 수 있다. 도 1(c)는 뉴런-레벨 통합이다. NPC는 중요 뉴런의 모든 인커밍 연결을 통합하며 이는 뉴런의 지식을 보존하는데 더 효과적이다.
도 2는 중요도 값 Ci의 히스토그램의 예를 나타낸다. 도 2(a)는 균등화 전의 원래 분포이며, 도 2(b)는 균등화된 분포이다.
도 3은 iMNIST 데이터 세트에서 연속적인 학습 알고리즘의 검증 정확도를 나타낸다. 도 3(a)는 각 순간까지 훈련된 작업의 평균 검증 정확성을 나타내며, 도 3(b)는 학습 알고리즘에 따른 5 가지 작업의 훈련 곡선을 나타낸다. SNPC와 NPC는 연속적인 학습 알고리즘 중에서 각각 최고의 성능을 보여준다.
도 4는 iCIFAR100 데이터 세트에서 연속적인 학습 알고리즘의 유효성 검증 정확도를 나타낸다. 도 4(a)는 각 순간까지 훈련된 작업의 평균 검증 정확성을 나타내며, 도 3(b)는 학습 알고리즘에 따른 5 가지 과제의 훈련 곡선을 나타낸다. SNPC와 NPC는 연속적인 학습 알고리즘 중에서 각각 최고의 성능을 보여준다. 훈련 곡선 간의 차이는 iMNIST보다 iCIFAR100에서 더 두드러진다.
도 5는 서로 다른 설정 하에서의 다섯 번째 iCIFAR100 작업의 훈련 곡선을 나타낸다. 도 5의 (a)는 T1에서 T4까지 학습한 후의 SNPC 학습 T5의 훈련 곡선이며, 도 5의 (b)는 무작위로 초기화된 파라미터로부터 뉴런의 14.33%(= r5)만이 변화하도록 허용된 완전 VGG 네트(full VGG net)의 부분 훈련의 훈련 곡선이며, 도 5의 (c)는 무작위로 초기화된 파라미터에서 시작하여, 오리지널 모델의 14.33%만을 갖도록 축소된 부분 VGG 네트의 훈련의 훈련 곡선이다.
도 6은 본 발명의 일 실시예에 따른 컴퓨팅 시스템의 개략적인 구성을 나타내는 블록도이다.
도 7은 본 발명의 일 실시예에 따른 컴퓨팅 시스템이 수행하는 뉴런-레벨 가소성 제어 방법을 나타내는 흐름도이다.
도 8은 본 발명의 일 실시예에 따른 컴퓨팅 시스템이 수행하는 스케줄된 뉴런-레벨 가소성 제어 방법을 나타내는 흐름도이다.
I. 이론적 배경이 되는 연구
본 발명의 이해를 돕기 위하여 이하에서는 먼저 본 발명의 이론적 배경이 되는 연구에 관하여 소개한다.
Abstract
인공신경망에서 파국적인 망각 이슈(issue of catastrophic forgetting)를 해결하기 위하여, 뉴런-레벨 가소성 제어(neuron-level plasticity control; NPC)라고 불리는 간단하고 효과적이며 새로운 솔루션이 제안된다. 제안된 방법은 새로운 태스크를 학습하는 동안 연결 수준이 아닌 신경 수준에서 네트워크의 가소성을 제어하여 기존 지식을 보존한다. 뉴런-레벨 가소성 제어는 각 뉴런이 중요성을 평가하고 낮은 학습 속도를 적용하여 중요한 뉴런을 통합한다.
또한 스케쥴된 NPC(scheduled NPC; SNPC)라고 하는 NPC의 확장이 제안된다. 이 확장은 학습 스케줄 정보를 이용하여 중요한 뉴런을 보다 명확하게 보호한다. 점진적인 MNIST(incremental MNIST; iMNIST) 및 점진적인 CIFAR100(incremental CIFAR100) 데이터 세트에 대한 실험 결과는 NPC 및 SNPC가 연결 수준 통합 접근 방식에 비해 월등히 효과적임을 보이며, 특히 SNPC는 두 데이터 세트에서 탁월한 성능을 보여준다.
1. 개요(Introduction)
심층 신경망으로 인공 일반 지능을 실현하는 과정에서 파국적인 망각(atastrophic forgetting)은 여전히 가장 근본적인 도전 중 하나이다. 가장 많이 사용되는 학습 알고리즘인 경사하강법(gradient descent)은 여러 작업에 대한 신경망을 순차적으로 훈련시키기 위해 적용될 때 문제를 일으키게 된다. 경사하강법(gradient descent)이 현재 작업에 대한 신경망을 최적화 할 때, 이전 작업에 대한 지식은 새로운 지식에 의해 파국적으로(catastrophically) 덮어 써지게 된다.
문제의 초기 발견 [McCloskey Cohen (1989) McCloskey and Cohen] 이후 인공 신경망에서 파국적인 망각을 완화하기 위한 다양한 접근법이 제안되었다. 이러한 접근 방식 중 하나는 모든 미니 배치에 여러 작업의 데이터를 포함시키는 것이다. 이러한 방법은 이전 작업의 성능을 유지하는 데 효과적일 수 있지만 이전 작업에 대한 트레이닝 데이터를 유지해야 하는 오버 헤드가 발생한다. 이전 데이터의 제한된 일부만을 이용하거나 [Gepperth Karaoguz(2016)Gepperth and Karaoguz, Lopez-Paz(2017)] 이전 데이터를 사용하지 않고 [Li Hoiem(2018)Li and Hoiem, Shin et~al.(2017)Shin, Lee, Kim, and Kim, Kamra et~al.(2017)Kamra, Gupta, and Liu, Zacarias Alexandre(2018)Zacarias and Alexandre, Kim et~al.(2018)Kim, Kim, and Lee] 유사한 효과를 달성하려는 몇 가지 시도가 있었다.
또 다른 방법은 이전 지식이 포함된 신경망의 일부를 분리하고 네트워크의 다른 부분을 사용하여 새로운 작업을 배우는 것입니다. 여기에는 네트워크의 다른 부분을 새 작업에 할당하여 새로운 작업을 학습할 수 있는 신경망을 위한 동적 아키텍처 설계가 포함된다. [Fernando et~al.(2017)Fernando, Banarse, Blundell, Zwols, Ha, Rusu, Pritzel, and Wierstra, Aljundi et~al.(2017)Aljundi, Chakravarty, and Tuytelaars, Lee et~al.(2017)Lee, Yun, Hwang, and Yang] 제안된 알고리즘은 네트워크의 다른 부분을 사용하여 여러 작업을 학습하기 때문에 우리의 작업은 이러한 접근과 밀접하게 관련되어 있다. 여기서 부분의 단위는 개별 뉴런이다.
탄력적 가중치 통합(Elastic weight consolidation; EWC) [Kirkpatrick et~al.(2017)Kirkpatrick, Pascanu, Rabinowitz, Veness, Desjardins, Rusu, Milan, Quan, Ramalho, Grabska-Barwinska, et~al.] 은 이 분야에서 만들어진 주목할 만한 발전이다. Fisher 정보 매트릭스의 대각선을 사용하여 EWC는 이전 작업에 중요한 신경망의 연결 가중치에 해당하는 매개 변수를 식별하고 통합한다. 이러한 방식으로 네트워크는 이전에 배운 지식을 유지하면서 덜 중요한 매개 변수를 사용하여 새로운 작업을 학습할 수 있다. EWC는 많은 관심을 끌었으므로 많은 연구에서 채택되었다 [Lee et al. (2017) Lee, Kim, Jun, Ha, Zhang, Nguyen et al. (2017) Nguyen, Li, Bui, and Turner, Liu et al. (2018) Liu, Masana, Herranz, Van ~ de Weijer, Lopez 및 Bagdanov, Zenke et al. (2017) Zenke, Poole, Ganguli], EWC 단독의 성능은 상당한 개선의 여지가 있다 [Parisi et al. (2018) Parisi, Kemker, Part, Kanan, Wermter]. 최근 연구에서는 EWC를 정규화의 수단으로서 다른 방법과 결합하여 사용되었다 [Kim et~al.(2018)Kim, Kim, and Lee, Lee et~al.(2017)Lee, Yun, Hwang, and Yang].
본 연구에서 우리는 EWC의 한계를 보이고 뉴런-레벨의 가소성 제어 (NPC)라는 개선된 알고리즘을 제안한다. 이름에서 알 수 있듯이 NPC는 CNN(Convolutional Neural Network)에서 각 뉴런 또는 각 필터의 가소성을 제어하여 기존 지식을 유지한다. 이는 개별적인 연결 가중치를 통합하여 작동하는 EWC와 대조적이다. NPC의 또 다른 주요 특징은 중요한 매개 변수를 특정 값에 가깝게 유지하는 대신 학습률(learning rate)을 조정하여 중요한 뉴런을 안정화시키는 것이다. 이러한 특성은 NPC의 효율성을 높이는 것 외에도 작업 수에 관계없이 메모리 효율성을 높일 수 있다. 즉, NPC는 작업 별 매개 변수 값 집합 대신 뉴런 당 단일 중요도 값만 저장하면 되므로 작업 수에 관계없이 메모리 사용량이 일관되게 유지될 수 있다.
이전의 연구에서는 일반적으로 작업 전환의 정확한 타이밍이 알려져 있다고 가정했다. 따라서 학습 알고리즘은 작업이 변경될 때마다 여러 파라미터(매개 변수) 값 세트와 같은 컨텍스트를 명시적으로 유지하고 컨텍스트로 전환할 수 있었다. 반면 NPC는 정보를 유지하지 않고 각 뉴런의 중요성을 지속적으로 평가하고 중요도의 이동 평균에 따라 학습률을 간단히 조정하여 뉴런의 가소성을 제어한다. 따라서 NPC는 분류 손실(classification loss)을 계산하는 데 필수적으로 필요한 현재 작업의 식별자(ID)를 제외하고 학습 스케줄에 관한 정보를 요구하지 않는다. 한편, 미리 정해진 학습 스케줄이 있으면 NPC를 더욱 향상시킬 수 있다. 이를 위해 스케줄된 NPC(SNPC)라고 하는 NPC의 확장을 제안하여 학습 스케줄에 따라 중요한 뉴런을 보다 명확하게 보존한다. 각 작업에 대해 SNPC는 중요한 뉴런을 식별하고 다른 작업을 훈련하는 동안 이를 통합한다. 실험 결과는 NPC와 SNPC가 연결 수준 통합 접근 방식보다 치명적인 망각을 줄이는 데 실질적으로 더 효과적이라는 것을 보여준다. 특히, iMNIST 데이터 세트에 대한 SNPC 평가에서 파국적 망각의 영향은 거의 사라졌다.
2 뉴런-레벨 Vs. 연결-레벨 통합 (Neuron-level Versus Connection-level Consolidation)
EWC와 그 후속 연구[Kirkpatrick et~al.(2017)Kirkpatrick, Pascanu, Rabinowitz, Veness, Desjardins, Rusu, Milan, Quan, Ramalho, Grabska-Barwinska, et~al., Lee et~al.(2017)Lee, Kim, Jun, Ha, and Zhang, Nguyen et~al.(2017)Nguyen, Li, Bui, and Turner, Liu et~al.(2018)Liu, Masana, Herranz, Van~de Weijer, Lopez, and Bagdanov, Zenke et~al.(2017)Zenke, Poole, and Ganguli]는 신경망의 연결 가중치에 지식이 저장된다는 개념에 중점을 두지만, 이러한 연결 간의 상관관계는 강조되지 않는다. EWC의 손실 함수는 아래 수식 (1)과 같이 정의된다. 여기서 Tn은 n번째 작업을 나타낸다.
Figure PCTKR2020009823-appb-I000001
(1)
신경망의 가중치는 대략 독립적이며 신경망은 그 가중치에 의해 선형 적으로 근사 될 수 있다는 암시적인 가정이 있다. 그러나 심층 신경망의 구조는 본질적으로 계층적이며 매개 변수 간에는 강한 상관관계가 있다. 따라서 매개 변수 값이 다른 값의 중요성에 영향을 줄 수 있으므로 연결 가중치를 독립적으로 고려하는 것은 적절하지 않다.
우리는 뉴런 또는 CNN 필터가 인공 신경망의 통합에 대한 지식의 기본 단위에 대한 개별 연결보다 더 적절하다고 주장합니다. 기존의 연결-레벨 알고리즘은 뉴런에 의해 표현되는 중요한 지식의 보존을 보장하지 않는다. 학습 알고리즘이 중요한 뉴런에 대한 연결 중 일부를 통합하더라도, 뉴런은 자유로운 수신 연결을 유지했을 수 있으며, 이 연결의 변경은 뉴런에 의해 전달되는 지식에 심각한 영향을 줄 수 있다.
도 1은 심층 신경망의 연결 수준 통합의 한계를 보다 명확하게 보여준다. 도 1에서 연결 가중치
Figure PCTKR2020009823-appb-I000002
Figure PCTKR2020009823-appb-I000003
의 값은 0에 가까우며 이는 학습 알고리즘이 그들의 중요도를 최소로 평가하도록 한다. 즉,
Figure PCTKR2020009823-appb-I000004
Figure PCTKR2020009823-appb-I000005
값을 개별적으로 변경하는 것이 Task 1의 출력에 중요한 영향을 미치지 않는다. 이러한 상황에서, 최소한의 중요성으로 인해, 연결 수준 알고리즘은 두 연결 파라미터를 통합하지 않는다. 그러나 후속 학습 중에 두 파라미터가 모두 빠르게 증가하면 Task 1에 심각한 영향을 줄 수 있다. 이들이 서로 밀접하게 연관되어 있기 때문이다. 이 문제점은 동일한 필터가 다른 위치의 여러 출력 노드 간에 공유되는 컨볼루션 레이어에서 특히 심각할 수 있다. 따라서, 연결 수준 통합 개념을 완벽하게 구현할 수 있더라도, 파국적인 망각을 완전히 제거할 수는 없다.
이 문제를 극복하기 위해 도 1(c)와 같이 연결-레벨이 아닌 뉴런-레벨에서 가소성을 제어 할 것을 제안한다. 제안된 알고리즘인 NPC는 개별적으로는 중요하게 평가되지 않을 수 있는 연결을 포함한 중요한 뉴런의 모든 인커밍 연결을 통합한다. 결과적으로 NPC는, 연결-레벨 통합 알고리즘보다 더 효과적으로, 중요하지 않은 뉴런의 변경으로부터 더 중요한 뉴런을 보호한다.
중요하지 않은 뉴런 Y에서 중요한 뉴런 X으로의 연결은 작을 수 있다. 그렇지 않으면 평가 알고리즘이 Y를 중요한 뉴런으로 결정하기 때문이다. 도 1의 예에서 NPC는 X의 모든 인커밍 연결을 통합하므로 결과적으로
Figure PCTKR2020009823-appb-I000006
의 값이 작게 유지되어
Figure PCTKR2020009823-appb-I000007
의 변경이 X에 심각한 영향을 미치지 않는다. 반면, NPC는 개별적으로 중요하더라도 목적지 뉴런(destination neuron)이 중요하지 않은 연결은 통합하지 않는다. 따라서, 전체적으로, 통합된 연결의 총 개수는 허용가능하다.
3. 뉴런-레벨 가소성 제어(Neuron-level Plasticity Control)
3.1 중요도 평가(Importance Evaluation)
각 뉴런의 중요성을 평가하기 위해 네트워크 프루닝 분야에서 사용되는 Taylor 확장에 기초하여 기준(criterion)을 조정한다[Molchanov et al. (2016) Molchanov, Tyree, Karras, Aila 및 Kautz]. 네트워크 정리에서 성능이 더 우수하다고 주장하는 다른 방법이 있지만 [Yu et ~ al. (2018) Yu, Li, Chen, Lai, Morariu, Han, Gao, Lin, Davis, Luo Wu (2017) Luo and Wu Luo et al. (2017) Luo, Wu, Lin]은 계산 효율성으로 인해 Taylor 기준을 선택하였다. 테일러 기준(Taylor criterion)은 역-전파(back-propagation) 동안 계산되는 뉴런에 대한 손실 함수의 경사도(gradient)로부터 계산된다. 따라서 이는 최소한의 추가 계산으로 훈련 과정에 쉽게 통합될 수 있다.
이 연구에서, 우리는 아래 수식 (4)로 표시된 정규화된 Taylor 기준의 이동 평균으로 시간 t에 i번째 뉴런ni의 중요도 Ci (t)를 정의한다. 여기서 Nlayer는 레이어의 노드 수이다.
Figure PCTKR2020009823-appb-I000008
(2)
Figure PCTKR2020009823-appb-I000009
(3)
Figure PCTKR2020009823-appb-I000010
(4)
만약 노드가 여러 위치(예를 들어, CNN의 컨볼루션 필터)에서 공유된다면, 우리는 원래 논문 [Molchanov et al. (2016) Molchanov, Tyree, Karras, Aila 및 Kautz]에 따라, 절대 값을 고려하기 전에 모든 위치의 중요도 값을 평균한다. 그러나 우리는 다른 수의 뉴런으로 구성된 층들 사이에서 더 엄격한 균형을 유지하기 위해, L2-norm 대신 수식 (3) 에서와 같은 2 차 평균(quadratic mean)을 사용한다.
우리의 초기 실험에서, 우리는 도 2(a)에서와 같이 분포가 대략 가우시안임을 발견했다. 우리는 상대적인 중요성을 더 잘 구별하기 위해, 아래 수식 (5)를 사용하여 분포를 균일 분포로 균등화하였다. 여기서,
Figure PCTKR2020009823-appb-I000011
는 보완 오차 함수(complementary error function)[Wikipedia contributors (2018)]이다. 그림 2 (b)는 이퀄라이제이션 후의 중요도 분포를 나타낸다.
Figure PCTKR2020009823-appb-I000012
(5)
3.2 가소성 제어(Plasticity Control)
안정성-가소성 딜레마(stability-plasticity dilemma)는 인공 및 생물학적 신경 시스템 모두에서 잘 알려진 제약이다[Mermillod et al. (2013) Mermillod, Bugaiska, Bonin]. 파국적인 망각(catastrophic forgetting)은 동일한 트레이드-오프 문제(즉, 다중 작업을 위한 신경망의 성능을 최대화하는 최적의 지점을 결정하려고 시도하는 것)의 결과로 볼 수 있다. 우리는 각 뉴런 ni에 대해 다른 학습율(learning rate)
Figure PCTKR2020009823-appb-I000013
를 적용하여 각 뉴런의 가소성을 제어한다. 만약
Figure PCTKR2020009823-appb-I000014
가 높다면, 뉴런은 기존 지식을 빠르게 잃는 대신 새로운 지식을 적극적으로 배우게 된다. 반면에
Figure PCTKR2020009823-appb-I000015
가 낮으면 기존의 지식(knowledge)을 더 잘 보존할 수 있다. 그러나 그 뉴런은 새로운 지식을 배우기를 꺼려할 것이다.
신경망이 좋은 안정성-가소성 균형을 찾도록 장려하기 위해, 우리는 반대 역할을 하는
Figure PCTKR2020009823-appb-I000016
의 함수로 두 개의 손실을 정의하며, 그 후 우리는 그것들을 결합한다. 첫 번째는 기존 지식의 잊어버림을 최소화하기 위한 안정성 측면의 손실이다. 그것은
Figure PCTKR2020009823-appb-I000017
=0에서 시작하는 단조 증가 함수이며 현재의 지식의 양에 의해 제한되어야 한다. 우리는
Figure PCTKR2020009823-appb-I000018
를 사용하여 현재 지식의 상한을 휴리스틱하게 근사한다(여기서 a1는 스케일링 상수이며
Figure PCTKR2020009823-appb-I000019
은 현재 트레이닝 단계임). 여기서, 우리의 실험에서는 일정한 속도(rate)로 새로운 작업(task)을 제공하기 때문에, 지식의 총량이 트레이닝 시간에 정비례한다고 가정한다.
Figure PCTKR2020009823-appb-I000020
의 단조 증가 함수를 만들기 위해,
Figure PCTKR2020009823-appb-I000021
를 상한(upper bound)과 결합한다. 여기서 b1는 tanh함수의 기울기를 제어하기 위한 또 다른 상수이다. 결과적으로 안정성 손실(stability-loss)은
Figure PCTKR2020009823-appb-I000022
로 정의된다.
두 번째 함수는 새로운 지식에 대한 꺼림(reluctance)을 줄이기 위한 가소성 측면의 손실이다. 상한
Figure PCTKR2020009823-appb-I000023
=0에서 시작하여 0까지 단조로 감소하는
Figure PCTKR2020009823-appb-I000024
의 감소함수이다. 이 경우 상한은 기존 지식을 고려하지 않으며, 따라서, Ci혹은 t와는 관련이 없다. 따라서 가소성 손실(plasticity-wise loss)은
Figure PCTKR2020009823-appb-I000025
로 정의된다. 여기서 a2와 b2는 스케일과 경사를 제어하기 위한 상수이다.
안정성과 가소성의 균형을 찾기 위해 아래 수식 (6)의 결합 손실 함수를 최소화하는
Figure PCTKR2020009823-appb-I000026
을 선택한다.
Figure PCTKR2020009823-appb-I000027
Figure PCTKR2020009823-appb-I000028
=0으로 세팅하여, 우리는 아래 수식 (7)을 얻는다. 여기서
Figure PCTKR2020009823-appb-I000029
이다.
Figure PCTKR2020009823-appb-I000030
함수
Figure PCTKR2020009823-appb-I000031
의 성질은
Figure PCTKR2020009823-appb-I000032
혹은
Figure PCTKR2020009823-appb-I000033
인가 여부에 따라 크게 좌우된다. 만약
Figure PCTKR2020009823-appb-I000034
라면, 최적의
Figure PCTKR2020009823-appb-I000035
은 단순 계단 함수(simple step function)가 된다. 따라서, 우리는
Figure PCTKR2020009823-appb-I000036
를 제약 조건으로 설정한다.
만약
Figure PCTKR2020009823-appb-I000037
라면,
Figure PCTKR2020009823-appb-I000038
Figure PCTKR2020009823-appb-I000039
에 대해 엄격히 증가하고, 최적의
Figure PCTKR2020009823-appb-I000040
는 최소 값, 즉,
Figure PCTKR2020009823-appb-I000041
=0이다.
Figure PCTKR2020009823-appb-I000042
인 경우에 대하여, 우리는 위 수식 (7)을 풀기 위하여 Taylor 근사를 적용한다.
Figure PCTKR2020009823-appb-I000043
의 닫힌 형태의 역함수가 존재하지 않기 때문이다. cosh가 우함수(even function)라면, 아래 수식 (9)에서 볼 수 있는 바와 같이, 짝수 차수(even degree term)만이 남게 된다.
Figure PCTKR2020009823-appb-I000044
작은
Figure PCTKR2020009823-appb-I000045
에 대하여
Figure PCTKR2020009823-appb-I000046
라고 가정하면, 수식 (9)의 풀이는 아래 수식(10)과 같다. 이때
Figure PCTKR2020009823-appb-I000047
이다.
Figure PCTKR2020009823-appb-I000048
위 수식 (10)에서
Figure PCTKR2020009823-appb-I000049
일 때
Figure PCTKR2020009823-appb-I000050
=0이며, 이는 두 함수를 연속적으로 연결되도록 만든다. 각각
Figure PCTKR2020009823-appb-I000051
이고
Figure PCTKR2020009823-appb-I000052
일 때, 두 케이스를 결합하면, 수식 (7)의 솔루션은 아래 수식 (11)과 같이 주어진다. 이때 α,β>0는 하이퍼파라미터이다.
Figure PCTKR2020009823-appb-I000053
(11)
수식 (11)에서 Ci이 클수록
Figure PCTKR2020009823-appb-I000054
가 작아지므로 그 다음 학습에서 중요한 뉴런이 통합(consolidating)된다. 그러나 만약 Ci=0라면,
Figure PCTKR2020009823-appb-I000055
은 발산(diverge)한다. 이는 가소성-안정성 딜레마의 관점에서 설명할 수 있다. 만약 뉴런이 전혀 지식이 없다면, 기존 지식의 손실을 고려하지 않고 가능한 한 새로운 지식을 배우는 것이 바람직하다. 그러나 뉴런이 잃을 지식이 없더라도 학습 속도가 크지 않는 않지만 학습 효율을 높이는 적절한 학습률이기 때문에 이것은 실제로 잘못된 것이다. 따라서 큰 학습률로 인해 문제가 발생하지 않도록 학습률의 상한을 설정하였다. 수식 (7)의 최종 해는 아래 수식 (12)이다.
Figure PCTKR2020009823-appb-I000056
(12)
아래의 Algorithm 1은 NPC 알고리즘을 나타낸다. NPC는 미리 정해진 학습 스케줄 없이 실행되도록 설계되었지만 현재의 트레이닝 샘플이 속한 작업에 대한 지식이 필요하므로 각 작업의 손실을 계산하는 것이 불가피하다. 그러나 각 작업에 최적화된 최신 파라미터 세트와 같은 추가적인 작업-특화(task-specific) 정보가 필요하지는 않다. 역 전파 알고리즘에 의해 계산되는 활성화 및 경사도로부터 간단히 계산되는 것을 고려하면, NPC를 구현하는 오버 헤드는 최소가 된다.
Figure PCTKR2020009823-appb-I000057
3.3 인스턴스 정규화(Instance Normalization)
배치 정규화(Batch Normalization; BN)은 심층 신경망(deep neural network) 훈련에 중요한 역할을 한다 [Ioffe Szegedy (2015) Ioffe and Szegedy]. 그러나 평균 및 분산이 작업 전환에 크게 영향을 받기 때문에 연속적인 학습 환경에서는 바닐라 배치 정규화가 제대로 작동하지 않는다. 이 경우 조건부 일괄 처리 정규화 [De ~ Vries et al. (2017) De ~ Vries, Strub, Mary, Larochelle, Pietquin 및 Courville] 및 가상 일괄 정규화 [Salimans et al. (2016) Salimans, Goodfellow, Zaremba, Cheung, Radford 및 Chen]와 같은 몇 가지 대안이 있다. 그러나 이 두 가지 방법은 SNPC에 적용 할 수 있지만 작업-특화 정보를 유지 관리하므로 NPC에는 적합하지 않다. 따라서 아핀 변환(affine transform)과 이동 평균이 제거되는 인스턴스 정규화의 단순화된 버전 [Ulyanov et al. (2016) Ulyanov, Vedaldi 및 Lempitsky]을 적용한다. 인스턴스 정규화가 각 샘플에 독립적으로 적용될 수 있다는 것을 감안하면, 트레이닝 시간뿐만 아니라 테스트 시간에도 모델 파라미터를 특별한 조작 없이 작동한다.
4. 스케줄된 NPC (Scheduled NPC)
4.1 학습 스케줄을 이용하는 NPC (NPC Using Learning Schedule)
NPC는 미리 정해진 학습 스케줄에 의존하지 않는다. 그러나, 작업 전환 스케줄이 이용 가능할 때, 성능을 개선하기 위해 그 정보를 적극적으로 이용하는 것이 바람직하다. 학습 스케줄이 실제로 미리 정해진 것은 아니지만, 최근 연속적인 학습에 관한 연구는 비슷한 상황에서 평가된 바 있다. [Li Hoiem(2018)Li and Hoiem, Shin et~al.(2017)Shin, Lee, Kim, and Kim, Kamra et~al.(2017)Kamra, Gupta, and Liu, Gepperth Karaoguz(2016)Gepperth and Karaoguz, Lopez-Paz(2017), Fernando et~al.(2017)Fernando, Banarse, Blundell, Zwols, Ha, Rusu, Pritzel, and Wierstra, Lee et~al.(2017)Lee, Yun, Hwang, and Yang, Aljundi et~al.(2017)Aljundi, Chakravarty, and Tuytelaars, Kirkpatrick et~al.(2017)Kirkpatrick, Pascanu, Rabinowitz, Veness, Desjardins, Rusu, Milan, Quan, Ramalho, Grabska-Barwinska, et~al., Lee et~al.(2017)Lee, Kim, Jun, Ha, and Zhang, Nguyen et~al.(2017)Nguyen, Li, Bui, and Turner, Liu et~al.(2018)Liu, Masana, Herranz, Van~de Weijer, Lopez, and Bagdanov, Zenke et~al.(2017)Zenke, Poole, and Ganguli, Zacarias Alexandre(2018)Zacarias and Alexandre, Kim et~al.(2018)Kim, Kim, and Lee]
아래의 Algorithm 2는 작업 전환 스케줄에 대한 지식을 보다 적극적으로 활용하도록 설계된 NPC의 확장인 스케줄된 뉴런-레벨 가소성 제어 (Scheduled Neuron-level Plasticity Control; SNPC) 알고리즘을 제시한다.
Figure PCTKR2020009823-appb-I000058
학습이 시작되면 특정한 작업에 할당된 뉴런이 없기 때문에 모든 뉴런은 자유롭다(즉, 어떠한 작업이든 학습할 수 있다). 스케줄이 주어지면 SNPC는 각 작업에 가장 중요한 자유 뉴런의 부분 집합을 선택하여 해당 작업에 할당한다. 그런 다음 다른 작업을 배우면서 예측할 수 없는 방식으로 수정될 수 있는 자유 뉴런의 영향으로부터 선택된 뉴런을 보호한다. 이는 자유 뉴런으로부터 선택된 뉴런으로의 연결 가중치를 0으로 동결시킴으로써 달성된다. 그러나, 이러한 방식으로 자유 뉴런에서 선택된 뉴런으로의 연결을 제거하면 잠재적인 문제가 발생할 수 있다. 첫째, 신경망의 용량이 줄어들 수 있다. 둘째, 새로운 지식이 이전 작업에 대한 네트워크 성능을 향상시키지 못하게 할 수 있다. 첫 번째 문제는 모든 작업의 총합에 대해 모델 용량이 충분하지 않을 때 성능에 심각한 영향을 줄 수 있지만 더 큰 신경망에서는 비교적 쉽게 완화 할 수 있다. 두 번째 문제는 원격 가능성이 있지만 실제로 이러한 현상은 거의 예상 할 수 없다. 이전 작업에 대한 지식이 어떤 식으로도 유지되지 않으면 통합되지 않은 뉴런의 변경으로 인해 거의 항상 파국적인 망각을 야기할 수 있다.
4.2 작업별 뉴런 할당 (Per-task Neuron Allocation)
SNPC는 rk×Nlayer에 의해 각 작업에 할당 할 뉴런 수를 결정한다(여기서 rk는 Tk에 할당되는 뉴런의 비율이며.
Figure PCTKR2020009823-appb-I000059
임). SNPC는 모든 계층에서 동일한 값을 공유하여 작업 간의 균형과 단순성을 향상시킨다.
그러나, 이전에 통합된 뉴런으로부터의 연결의 유용성이 해당 작업에 직접 할당된 뉴런에 필적하지 않는다는 점을 고려할 때, 작업별로 rk를 균등하게 분배(r1=r2=...=rk)해서는 안 된다. 전자가 후자보다 μ<1배만큼 유용하다면, 작업 Tk에 사용 가능한 연결의 총 유용성은 아래 수식 (13)에 따른 Vk에 비례하게 된다. 여기서, 첫 번째 항은 Tk에 할당된 뉴런 간 연결의 총 유용성을 나타내고, 두 번째 항은 이전에 통합된 뉴런에서 Tk에 대한 뉴런으로의 연결의 총 유용성을 나타낸다.
Figure PCTKR2020009823-appb-I000060
(13)
따라서 공정한 분배를 위해서는 모든 Vk가 모든 작업에 대해 동일해야 한다. 이 제약 조건은 일반적으로 닫힌 형태의 솔루션이 없는 비선형 관계를 나타내므로 우리는 수치적으로 해를 찾았다. 5개의 작업을 학습할 때(k=5), μ=0.5이고 rk의 값이 각각 0.2862, 0.2235, 0.1859, 0.1610 및 0.1433 인 경우 신경망은 균형 잡힌 결과를 나타낸다. 최적의 분포는 작업의 어려움 또는 작업 간의 유사성과 같은 다른 요인에 의해 영향을 받을 수 있다. 그러나 이 연구에서는 이러한 작업-특화 요소를 고려하지 않는다.
5 실험(Experiments)
5.1 데이터셋 및 구현 세부사항(Datasets and Implementation Detail)
우리는 MNIST [LeCun et~al.(1998)LeCun, Bottou, Bengio, and Haffner] 및 CIFAR100 [Krizhevsky Hinton(2009)Krizhevsky and Hinton] 데이터 세트의 증분 버전을 실험하였다. 여기서 L 클래스를 포함하는 데이터 세트는 L/K 클래스의 K 서브 세트로 나뉘며, 각각은 k 번째 작업으로 분류된다. MNIST 및 CIFAR100의 경우 K를 5로 설정하였다. 사전 처리를 위해, 두 데이터 세트 모두에 패딩 크기가 4 인 임의 자르기(random cropping)를 적용하고, 증분 CIFAR100 (iCIFAR100) 데이터 세트에 대한 추가적인 임의 수평 뒤집기(random horizontal flip)를 적용했습니다. 또한 일관성을 유지하기 위해, 모든 실험에서 하나의 에폭(epoch) 단위를 총 트레이닝 데이터 수가 표시되는 주기로 재정의하였다. 예를 들어, 원래 MNIST 데이터 세트에 60,000 개의 트레이닝 샘플이 있으므로, 12,000 개의 샘플을 5 번 처리하는 것으로 iMNIST 데이터 세트의 한 에폭을 정의하였다. 이러한 에폭의 새로운 정의와 함께, 우리는 iMNIST의 각 작업에 대한 하위 집합에서는 10 에폭만큼 모델을 학습하였으며, iCIFAR100의 각 하위 집합에서는 30 에폭만큼 모델을 학습했습니다. 우리는 실험에서 iCIFAR100의 첫 5 개의 부분 집합을 사용하였다. 우리는 모든 작업에 미니 배치 사이즈 256을 사용하였다.
우리는 VGG-16 [Simonyan Zisserman(2014)Simonyan and Zisserman] 네트워크를 약간 수정하여 사용하였다. 앞에서 설명한 것처럼 모든 배치 정규화 레이어를 인스턴스 정규화 레이어로 교체하였다. 최종 분류 계층(final classification layer)의 경우 각 대상 작업에 대해 완전 연결 계층(fully-connected layer)을 배치했습니다. 각 작업에 대한 교차 엔트로피 손실(cross-entropy loss)은 현재 작업에 속하는 출력 노드에서만 계산되었다.
우리는 모든 실험에서 α=0.1,
Figure PCTKR2020009823-appb-I000061
=0.1로 설정하였다. NPC의 경우 β를 200으로 설정하였다. 그러나 SNPC에서는 중요한 노드의 학습률을 0으로 완전히 떨어뜨릴 필요가 없었기 때문에 SNPC에 대서는 더 큰 값인 500을 설정하였다. 모든 실험에서 미니 배치 사이즈가 256 인 플레인 SGD 옵티마이저(plain SGD optimizer)를 사용하였다.
비교를 위해 EWC, L2 정규화 및 기준선 SGD라는 세 가지 기존 학습 알고리즘을 구현하였다. EWC의 경우 λ=1000으로 설정하여 실험 환경에서 최고의 성능을 보여주도록 하였다. NPC 알고리즘을 사용하지 않은 경우 학습률을 0.01로 설정하였다.
5.2 실험 결과(Experimental Results)
도 3 및 도 4는 각각 iMNIST와 iCIFAR100에서 5 가지 연속 학습 알고리즘 (NPC, SNPC, EWC, L2 정규화 및 SGD)의 성능을 나타낸다. 도 3에서 NPC 및 SNPC는 평균 정확도(accuracy) 측면에서 EWC 및 L2reg보다 우수한 성능을 보인다. 그들의 훈련 곡선은 네트워크가 NPC 또는 SNPC에 의해 훈련될 때 먼저 학습한 지식이 나중에 학습한 지식에 의해 훨씬 영향을 덜 받았다는 것을 보여준다. 특히 SNPC의 경우 첫 번째 작업의 성능은 후속 학습의 거의 영향을 받지 않는다. 그 결과는 SNPC가 그 영향이 사라지는 시점까지 iMNIST에 대해 파국적인 망각을 완화시킨다는 것을 보여준다.
우리는 iMNIST 데이터 세트에 대한 추가 구성을 테스트하였다. 매개 변수 별 가소성 제어 (parameter-wise plasticity control; PPC)는 뉴런 레벨이 아닌 연결 레벨에서 가소성을 제어한다. NPC와 마찬가지로, 우리는 테일러 기준을 사용하여 중요성을 평가하였다. 우리는 β=300을 사용했는데, 이는 PPC가 iMNIST 알고리즘의 마지막 작업을 충분히 배울 수 있도록 하는 β의 최소값이다. PPC의 성능은 NPC보다 나빴으며 이는 뉴런이 신경망 통합의 단위로서 연결보다 더 적절하다는 것을 확인시켜준다.
도 4는 NPC 및 SNPC가 iCIFAR100에서 다른 알고리즘보다 높은 평균 정확도를 제공하며 iMNIST보다 달성하기가 더 어렵다는 것을 보여준다. 그러나 NPC는 이전 작업보다 마지막 작업의 정확도가 낮다. 다른 알고리즘에서도 동일한 문제가 관찰되었지만 NPC에서는 더 심각하다. 우리는 주된 이유가 신경망의 부분적 통합이 모델의 학습 능력(learning capacity)을 소비하기 때문이라고 가정한다. 이러한 이슈는 iMNIST에서 명확하게 관찰되지 않았다. 그 단순성 덕분에 VGG 네트워크가 나머지 뉴런이 제공하는 최소 용량으로 이후 작업을 마스터 할 수 있었기 때문이다. NPC와 SNPC의 이러한 차이는 NPC가 기존 지식을 더 잘 보존하지만 모델의 학습 능력을 더 빨리 소비한다는 것을 보여준다. 즉, NPC는 작업 당 할당된 뉴런 수에 대한 제한이나 정규화가 없으므로 모델은 일반적으로 이전 작업에 대부분의 뉴런을 사용하는 경향이 있다. 따라서, NPC는 이전 작업에 대한 지식을 치명적인 망각으로부터 보호하기 위해 뉴런의 상당 부분을 통합하며, 그 결과로, 도 4에 표시된 것처럼, 마지막 작업에서 성능이 저하된다. 그러나 SNPC는 각 작업에 대해 rk×Nlayer 개의 뉴런만을 통합하고 이후의 작업이 특정 수의 뉴런을 활용하는 것을 보장하기 때문에 용량 소진 문제로 인해 어려움이 덜하다.
또한 우리는 신경망이 연속적인 학습을 위한 이전 작업보다 이후 작업을 더 빨리 학습한다는 것을 관찰하였다. 그 이유는 신경망이 이전 작업에서 배운 지식을 활용하므로 나중 작업이 전달 된 지식으로부터 이익을 얻을 수 있기 때문이다. 이를 명확하게 하기 위해, 우리는 SNPC가 마지막 작업을 배우면서 이전 작업에서 사전 훈련된 지식을 재사용하는지를 테스트하기 위한 간단한 실험을 수행하였다. 우리는 다른 설정에서 뉴런의 14.33%(r5과 같은 비율)만 사용하여 iCIFAR100에서 3 개의 VGG 네트워크 인스턴스를 훈련하였다. 도 5에서 선 (a)은 4 가지 선행 작업 후의 SNPC 훈련 T5의 학습 곡선을 나타낸다. 점선 (b)은 무작위로 초기화되고 고정된 다른 뉴런에 연결된 뉴런의 14.33%만 학습한 것을 나타낸다. 마지막으로, 점선 (c)은 네트워크가 무작위로 초기화된 매개 변수에서 시작하여 뉴런의 14.33%만을 학습할 때의 학습 곡선이다. 도 5는 SNPC가 다른 두 설정보다 훨씬 빠르게 작업을 학습함을 보여준다. 이는 SNPC가 이전 작업에서 얻은 지식을 적극적으로 재사용한다는 것을 확인한다.
6 결론(Conclusion)
본 연구에서는 뉴런 레벨에서 신경망의 가소성을 제어하는 NPC와 SNPC라는 두 개의 연속적인 학습 알고리즘을 제안했다. NPC는 각 작업에 최적화된 최신 매개 변수 세트와 같은 정보를 유지하지 않는다. 따라서 사전 정의된 학습 스케줄없이 실행할 수 있다. 반면, SNPC는 학습 스케줄이 미리 정의되어 있고 중요한 뉴런을 보다 명시적으로 보호하기 위해 적극적으로 활용한다. iMNIST 및 iCIFAR100 데이터 세트의 실험 결과에 따르면 NPC 및 SNPC는 연결 간의 관계를 고려하지 않는 기존의 연결 레벨 통합 알고리즘보다 훨씬 더 효과적이다. 특히, iMNIST 데이터 세트에 대한 SNPC의 결과에서는 파국적인 망각이 거의 사라졌다.
NPC와 SNPC는 연속적인 학습에서 눈에 띄게 개선되었지만 여전히 도전 과제가 남아 있다. 정보에 대한 NPC의 종속성은 최소이지만 분류 손실을 계산하려면 작업을 식별해야한다는 사실에 의해 여전히 제한된다. 또한 NPC는 가소성을 제어하는 단위와 방법을 정의하지만 각 뉴런의 중요성을 평가하고 관리하기 위한 전략은 탐색해 볼 여지가 있다.
실험하는 동안, 우리는 분류에서 최고의 성능을 보여주는 것이 아니라 지속적인 학습 환경에서 개념을 입증하는 데 더 집중하였다. 예를 들어, AmoebaNetReal et~al.(2018)Real, Aggarwal, Huang, and Le]과 같은 최신의 분류 모델은 단일 작업 환경에서 VGG보다 훨씬 높은 용량을 보여준다. 단순성을 선호하는 또 다른 선택은 인스턴스 정규화인데, 이는 성능을 위한 최선의 선택이 아닐 수도 있다.
보다 다양한 아키텍처에 NPC를 적용하기 위해 잔류 연결(residual connection)[He et~al.(2016)He, Zhang, Ren, and Sun]은 해결해야 할 장애물 중 하나이다. 여러 뉴런 출력의 합산을 해석하고 어떤 뉴런을 보존해야하는지 결정하는 것은, 특히 중요하고 중요하지 않은 뉴런이 추가 될 때에, 비-자명한 문제다.
iCIFAR100과 같은 일반적인 온라인 학습 벤치 마크는 동일한 작업을 다시 방문하지 않으므로 모델이 구절(passage)을 단순히 블록하여 파국적인 망각을 유발할 수 있다. 그러나 작업을 두 번 이상 훈련 할 수 있는 상황에서는 차후 작업를 학습하는 동안 획득한 지식을 통합하여 모델을 더욱 향상시키는 것이 바람직하다. 이것은 NPC에는 문제가 되지 않지만, SNPC에게는 나중 작업에 대한 뉴런이 이전 작업에 대한 뉴런에 의존하여 커질 수 있다는 점을 고려하면 문제가 될 수 있다. 충분히 작은 학습 속도를 사용하는 것 외에, 간단한 해결책 중 하나는 재검토 된 작업을 마치 새로운 작업 인 것처럼 취급하는 것이다. 그러나 이것은 파국적인 망각의 영향을 완화시킬 수 있지만, 모델의 용량이 훨씬 커야하므로 장기적인 관점에서 실제적인 문제를 일으킬 수 있다.
중요도 평가에 사용한 Taylor 기준과 유사하게 네트워크 정리에 대한 연구는 딥 러닝 모델이 놀랍도록 작은 크기로 복잡한 지식을 배울 수 있는 방법을 보여준다. 그러나 명시적인 개입이 없으면 심층 신경망은 실제로 필요한 것보다 더 많은 용량을 소비하는 경향이 있다. SNPC는 작업 별 뉴런 할당으로 이 문제를 피하지만 작업이 누적될 때 모델 용량이 소진되므로 NPC는 이 문제에서 제외되지 않는다. 모델의 크기에 관계없이 처음 몇 가지 작업이 대부분의 모델을 차지하는 경향이 있음을 관찰하였다. 우리는 모델이 작업 당 최소 용량을 사용하도록 강제하는 방법이 있다면 NPC가 큰 이익을 얻을 것이라고 생각한다.
II. 본 발명에서 제안하는 방법 및 시스템
상술한 위 연구에 따른 뉴런-레벨 가소성 제어(NPC) 또는 스케쥴된 NPC(SNPC)를 통해 파국적인 망각을 극복하기 위한 방법은 컴퓨팅 시스템에 의해 수행될 수 있다.
상기 컴퓨팅 시스템은 본 발명의 기술적 사상을 구현하기 위한 연산능력을 가진 데이터 처리장치를 의미하며, 일반적으로 네트워크를 통해 클라이언트가 접속 가능한 서버 등의 데이터 처리장치뿐만 아니라 개인용 컴퓨터, 휴대 단말 등과 같이 특정 서비스를 수행할 수 있는 어떠한 장치도 컴퓨팅로 정의될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.
한편, 상기 컴퓨팅 시스템은 본 발명의 기술적 사상을 구현하기 위해 필요한 하드웨어 리소스(resource) 및/또는 소프트웨어를 구비할 수 있으며, 반드시 하나의 물리적인 구성요소를 의미하거나 하나의 장치를 의미하는 것은 아니다. 즉, 상기 컴퓨팅 시스템은 본 발명의 기술적 사상을 구현하기 위해 구비되는 하드웨어 및/또는 소프트웨어의 논리적인 결합을 의미할 수 있으며, 필요한 경우에는 서로 이격된 장치에 설치되어 각각의 기능을 수행함으로써 본 발명의 기술적 사상을 구현하기 위한 논리적인 구성들의 집합으로 구현될 수도 있다. 또한, 상기 컴퓨팅 시스템은 본 발명의 기술적 사상을 구현하기 위한 각각의 기능 또는 역할별로 별도로 구현되는 구성들의 집합을 의미할 수도 있다. 상기 예측 모형 생성 시스템은 다수의 모듈의 형태로 구현될 수 있다.
본 명세서에서 모듈이라 함은, 본 발명의 기술적 사상을 수행하기 위한 하드웨어 및 상기 하드웨어를 구동하기 위한 소프트웨어의 기능적, 구조적 결합을 의미할 수 있다. 예컨대, 상기 모듈은 소정의 코드와 상기 소정의 코드가 수행되기 위한 하드웨어 리소스의 논리적인 단위를 의미할 수 있으며, 반드시 물리적으로 연결된 코드를 의미하거나, 한 종류의 하드웨어를 의미하는 것은 아님은 본 발명의 기술분야의 평균적 전문가에게는 용이하게 추론될 수 있다.
도 6은 본 발명의 일 실시예에 따른 컴퓨팅 시스템의 구성을 나타내는 도면이다.
도 6을 참조하면, 상기 컴퓨팅 시스템(100)은 입력모듈(110), 출력모듈(120), 저장모듈(130), 제어모듈(140)을 포함할 수 있다.
상기 입력모듈(110)은 본 발명의 기술적 사상을 구현하는데 필요한 각종 데이터를 상기 컴퓨팅 장치(110)의 외부로부터 입력받을 수 있다. 예를 들어, 상기 입력모듈(110)은 트레이닝 데이터셋, 각종 파라미터 및 /또는 하이퍼파라미터를 입력받을 수 있다.
상기 출력모듈(120)은 상기 컴퓨팅 시스템(100)에 저장되어 있거나 상기 컴퓨팅 시스템(100)이 생성한 데이터를 외부로 출력할 수 있다.
상기 저장모듈(130)은 본 발명의 기술적 사상을 구현하는데 필요한 각종 정보 및/또는 데이터를 저장할 수 있다. 예를 들어 상기 저장모듈(130)은 신경망 모델(neural network model), 트레이닝 데이터, 각종 파라미터 및/또는 하이퍼파라미터를 저장할 수 있다. 상기 저장모듈(130)은 RAM(Ramdom Access Memory)과 같은 휘발성 메모리나 HDD(Hard Disk Drive)난 SSD(Solid State Disk)와 같은 비휘발성 메모리를 포함할 수 있다.
상기 제어모듈(140)은 상기 컴퓨팅 시스템(100)에 포함된 다른 구성요소(예를 들면, 입력모듈(110), 출력모듈(120) 및/또는 저장모듈(130))을 제어할 수 있다. 상기 제어모듈(140)은 싱글코어 CPU나 멀티코어 CPU, GPU과 같은 프로세서를 포함할 수 있다.
또한 상기 제어모듈(140)은 상술한 연구에 따른 뉴런-레벨 가소성 제어(NPC) 또는 스케쥴된 NPC(SNPC)를 수행할 수 있다. 예를 들어, 상기 제어모듈(140)은 상기 저장모듈(130)에 저장된 신경망 모델 및 트레이닝 데이터를 상술한 NPC 알고리즘 또는 SNPC 알고리즘에 적용할 수 있다.
도 7은 상기 제어모듈(140)이 수행하는 뉴런-레벨 가소성 제어 방법을 나타내는 흐름도이다.
도 8은 상기 제어모듈(140)이 수행하는 스케줄된 뉴런-레벨 가소성 제어 방법을 나타내는 흐름도이다.
한편, 구현 예에 따라서, 상기 컴퓨팅 시스템(100)은 적어도 하나의 프로세서 및 상기 프로세서에 의해 실행되는 프로그램을 저장하는 메모리를 포함할 수 있다. 상기 프로세서는 싱글 코어 CPU 혹은 멀티 코어 CPU를 포함할 수 있다. 메모리는 고속 랜덤 액세스 메모리를 포함할 수 있고 하나 이상의 자기 디스크 저장 장치, 플래시 메모리 장치, 또는 기타 비휘발성 고체상태 메모리 장치와 같은 비휘발성 메모리를 포함할 수도 있다. 프로세서 및 기타 구성 요소에 의한 메모리로의 액세스는 메모리 컨트롤러에 의해 제어될 수 있다.
한편, 본 발명의 실시예에 따른 방법은 컴퓨터가 읽을 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 읽을 수 있는 메모리 혹은 기록 매체에 저장될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
기록 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터로 읽을 수 있는 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 전자적으로 정보를 처리하는 장치, 예를 들어, 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타나며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
본 발명은 뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템에 이용될 수 있다.

Claims (6)

  1. 제1뉴런 내지 제N뉴런(여기서, N은 2 이상의 정수)으로 구성되는 인공 신경망 모델에 대한 뉴런-레벨 가소성 제어 방법으로서,
    컴퓨팅 시스템이, 소정의 트레이닝 데이터 세트에 포함된 복수의 개별 데이터 각각에 대하여(여기서, 상기 복수의 개별 데이터 각각에는 그에 상응하는 정답 레이블이 부여됨), 상기 개별 데이터에 기초하여 가중치 조절 프로세스를 수행하는 단계를 포함하되,
    상기 개별 데이터에 기초하여 가중치 조절 프로세스를 수행하는 단계는,
    상기 인공 신경망 모델에 상기 개별 데이터를 입력하여, 상기 개별 데이터에 상응하는 예측 값을 획득하는 단계;
    상기 예측 값 및 상기 개별 데이터에 부여된 정답 레이블에 기초하여 교차 엔트로피(Cross Entropy)를 산출하는 단계; 및
    상기 인공 신경망 모델에 포함된 각각의 뉴런 ni에 대하여(여기서, i는 1<=i<=N인 정수), 상기 뉴런 ni를 인커밍 노드로 하는 모든 연결의 가중치를 조절하는 단계를 포함하며,
    상기 뉴런 ni를 인커밍 노드로 하는 모든 연결의 가중치를 조절하는 단계는,
    정규화된 Taylor 기준의 이동 평균인 뉴런 ni의 중요도 Ci를 산출하는 단계;
    하기 [수식 1]에 기초하여 뉴런 ni의 학습률
    Figure PCTKR2020009823-appb-I000062
    를 산출하는 단계; 및
    산출된 상기 학습률
    Figure PCTKR2020009823-appb-I000063
    를 적용한 경사하강법(gradient descent)를 통하여 상기 뉴런 ni를 인커밍 노드로 하는 모든 연결의 가중치를 업데이트하는 단계를 포함하는 뉴런-레벨 가소성 제어 방법.
    [수식 1]
    Figure PCTKR2020009823-appb-I000064
    (여기서, α 및 β는 미리 정의된 상기 인공 신경망 모델의 하이퍼파라미터이며,
    Figure PCTKR2020009823-appb-I000065
    는 미리 정의된 학습률의 상한이며, t는 상기 트레이닝 데이터 세트 내에서의 상기 개별 데이터의 순번임)
  2. 인공 신경망 모델에 대한 스케줄된 뉴런-레벨 가소성 제어 방법으로서,
    컴퓨팅 시스템이, 연속 학습(continual learning)의 대상이 되는 복수의 작업 각각에 상응하는 트레이닝 데이터 세트를 획득하는 단계; 및
    상기 컴퓨팅 시스템이, 상기 복수의 작업 각각에 대하여, 상기 작업에 상응하는 학습 프로세스를 수행하는 단계를 포함하되,
    상기 작업에 상응하는 학습 프로세스를 수행하는 단계는,
    상기 컴퓨팅 시스템이, 상기 작업에 상응하는 트레이닝 데이터 세트로 제1항에 기재된 뉴런-레벨 가소성 제어 방법을 수행하는 단계;
    상기 컴퓨팅 시스템이, 상기 인공 신경망을 구성하는 복수의 레이어 각각에 대하여, 상기 레이어에 포함된 자유 뉴런 중 중요도가 가장 큰 일부인 중요 뉴런을 선택하는 단계;
    상기 인공 신경망 내의 자유 뉴런에서 상기 중요 뉴런으로 향하는 모든 연결의 가중치를 0으로 고정하는 단계;
    상기 컴퓨팅 시스템이, 상기 작업에 상응하는 트레이닝 데이터 세트로 제1항에 기재된 뉴런-레벨 가소성 제어 방법을 2 이상의 에폭(epoch)만큼 반복 수행하는 단계; 및
    상기 중요 뉴런을 인커밍 노드로 하는 모든 연결의 가중치를 고정하는 단계를 포함하는 스케줄된 뉴런-레벨 가소성 제어 방법.
  3. 데이터 처리장치에 설치되며 제1항에 기재된 방법을 수행하기 위하여 기록매체에 저장된 컴퓨터 프로그램.
  4. 데이터 처리장치에 설치되며 제2항에 기재된 방법을 수행하기 위하여 기록매체에 저장된 컴퓨터 프로그램.
  5. 컴퓨팅 시스템으로서,
    프로세서; 및
    상기 프로세서에 의하여 실행되는 컴퓨터 프로그램을 저장하는 메모리를 포함하며,
    상기 컴퓨터 프로그램은, 상기 프로세서에 의해 실행되는 경우, 상기 컴퓨팅 시스템이, 제1항에 기재된 방법을 수행하도록 하는 컴퓨팅 시스템.
  6. 컴퓨팅 시스템으로서,
    프로세서; 및
    상기 프로세서에 의하여 실행되는 컴퓨터 프로그램을 저장하는 메모리를 포함하며,
    상기 컴퓨터 프로그램은, 상기 프로세서에 의해 실행되는 경우, 상기 컴퓨팅 시스템이, 제2항에 기재된 방법을 수행하도록 하는 컴퓨팅 시스템.
PCT/KR2020/009823 2020-01-28 2020-07-24 뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템 WO2021153864A1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202080095037.0A CN115023708A (zh) 2020-01-28 2020-07-24 通过神经元-等级可塑性控制克服灾难性遗忘问题的一种方法以及执行此操作的一种计算系统
JP2022542682A JP7431473B2 (ja) 2020-01-28 2020-07-24 ニューロン-レベル塑性制御を通じて破局的忘却を克服するための方法およびこれを行うコンピューティングシステム
EP20916689.1A EP4099223A4 (en) 2020-01-28 2020-07-24 METHOD FOR OVERCOMING CATASTROPHIC OMISSIONS THROUGH A NEURONAL LEVEL PLASTICITY CONTROL, AND COMPUTER SYSTEM IMPLEMENTING THE SAME
US17/795,546 US20230072274A1 (en) 2020-01-28 2020-07-24 Method for overcoming catastrophic forgetting through neuron-level plasticity control, and computing system performing same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200009615A KR20210096342A (ko) 2020-01-28 2020-01-28 뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템
KR10-2020-0009615 2020-01-28

Publications (1)

Publication Number Publication Date
WO2021153864A1 true WO2021153864A1 (ko) 2021-08-05

Family

ID=77078190

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/009823 WO2021153864A1 (ko) 2020-01-28 2020-07-24 뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템

Country Status (6)

Country Link
US (1) US20230072274A1 (ko)
EP (1) EP4099223A4 (ko)
JP (1) JP7431473B2 (ko)
KR (1) KR20210096342A (ko)
CN (1) CN115023708A (ko)
WO (1) WO2021153864A1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934343A (zh) * 2019-02-25 2019-06-25 中国科学院自动化研究所 基于正交投影矩阵的人工神经网络优化方法、系统、装置
KR20200092900A (ko) * 2019-01-25 2020-08-04 주식회사 딥바이오 뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102130162B1 (ko) 2015-03-20 2020-07-06 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 인공 신경망들에 대한 관련성 스코어 할당
WO2018017546A1 (en) 2016-07-18 2018-01-25 Google Llc Training machine learning models on multiple machine learning tasks
EP3477591B1 (en) * 2017-10-24 2020-05-27 AGFA Healthcare Avoiding catastrophic interference while training an artificial neural network on an additional task

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200092900A (ko) * 2019-01-25 2020-08-04 주식회사 딥바이오 뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템
CN109934343A (zh) * 2019-02-25 2019-06-25 中国科学院自动化研究所 基于正交投影矩阵的人工神经网络优化方法、系统、装置

Non-Patent Citations (34)

* Cited by examiner, † Cited by third party
Title
ALJUNDI, R.CHAKRAVARTY, P.TUYTELAARS, T, EXPERT GATE: LIFELONG LEARNING WITH A NETWORK OF EXPERTS, 2017, pages 3366 - 3375
DE VRIES, H.STRUB, F.MARY, J.LAROCHELLE, HPIETQUIN, 0.COURVILLE, A. C., MODULATING EARLY VISUAL PROCESSING BY LANGUAGE, 2017, pages 6594 - 6604
FERNANDO, C.BANARSE, D.BLUNDELL, C.ZWOLS, Y.HA, D.RUSU, A. A.PRITZEL, A.WIERSTRA, D: "PathNet: Evolution channels gradient descent in super neural networks", ARXIV:1701.08734, 2017
GABRIELLE LIU: "Weight Friction: A Simple Method to Overcome Catastrophic Forgetting and Enable Continual Learning", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 2 August 2019 (2019-08-02), 201 Olin Library Cornell University Ithaca, NY 14853, XP081455224 *
GEPPERTH, AKARAOGUZ, C: "A bio-inspired incremental learning architecture for applied perceptual problems", COGNITIVE COMPUTATION, vol. 80, no. 5, 2016, pages 924 - 934, XP036075971, DOI: 10.1007/s12559-016-9389-5
GOODRICH BEN; AREL ITAMAR: "Neuron clustering for mitigating catastrophic forgetting in feedforward neural networks", 2014 IEEE SYMPOSIUM ON COMPUTATIONAL INTELLIGENCE IN DYNAMIC AND UNCERTAIN ENVIRONMENTS (CIDUE), IEEE, 9 December 2014 (2014-12-09), pages 62 - 68, XP032720457, DOI: 10.1109/CIDUE.2014.7007868 *
HE, K.ZHANG, X.REN, S.SUN, J, DEEP RESIDUAL LEARNING FOR IMAGE RECOGNITION, 2016, pages 770 - 778
INYOUNG PAIK; SANGJUN OH; TAE-YEONG KWAK; INJUNG KIM: "Overcoming Catastrophic Forgetting by Neuron-level Plasticity Control", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 31 July 2019 (2019-07-31), 201 Olin Library Cornell University Ithaca, NY 14853, XP081452584 *
JASON M. ALLRED; KAUSHIK ROY: "Controlled Forgetting: Targeted Stimulation and Dopaminergic Plasticity Modulation for Unsupervised Lifelong Learning in Spiking Neural Networks", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 8 February 2019 (2019-02-08), 201 Olin Library Cornell University Ithaca, NY 14853, XP081493671 *
KAMRA, N.GUPTA, U.LIU, Y: "Deep generative dual memory network for continual learning", ARXIV:1710.10368, 2017
KIM, H.-E.KIM, S.LEE, J: "Keep and learn: Continual learning by constraining the latent space for knowledge preservation in neural networks", ARXIV:1805.10784, 2018
KIRKPATRICK, JPASCANU, R.RABINOWITZ, N.VENESS, J.DESJARDINS, G.RUSU, A. A.MILAN, K.QUAN, J.RAMALHO, T.GRABSKA-BARWINSKA, A. ET AL.: "Overcoming catastrophic forgetting in neural networks", PROCEEDINGS OF THE NATIONAL ACADEMY OF SCIENCES, 2017, pages 201611835
LECUN, Y.BOTTOU, LBENGIO, Y.HAFFNER, P: "Gradient-based learning applied to document recognition", PROCEEDINGS OF THE IEEE, vol. 860, no. 11, 1998, pages 2278 - 2324
LEE, J.YUN, J.HWANG, S.YANG, E: "Lifelong learning with dynamically expandable networks", ARXIV:1708.01547, 2017
LEE, S.-W.KIM, J.-H.JUN, J.HA, J.-W.ZHANG, B.-T, OVERCOMING CATASTROPHIC FORGETTING BY INCREMENTAL MOMENT MATCHING, 2017, pages 4652 - 4662
LI, ZHOIEM, D: "Learning without forgetting", IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE, vol. 400, no. 12, 2018, pages 2935 - 2947
LIU, X.MASANA, MHERRANZ, L.VAN DE WEIJER, J.LOPEZ, A. M.BAGDANOV, A. D: "Rotate your networks: Better weight consolidation and less catastrophic forgetting", ARXIV:1802.02950, 2018
LOPEZ-PAZ, D: "Gradient episodic memory for continual learning", ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS, 2017, pages 6467 - 6476
LUO, J.-H.WU, J.LIN, W, THINET: A FILTER LEVEL PRUNING METHOD FOR DEEP NEURAL NETWORK COMPRESSION, 2017, pages 5068 - 5076
LUO, J.-H.WU, J: "An entropy-based pruning method for cnn compression", ARXIV:1706.05791, 2017
MCCLOSKEY, M.COHEN, N. J., CATASTROPHIC INTERFERENCE IN CONNECTIONIST NETWORKS: THE SEQUENTIAL LEARNING PROBLEM., vol. 24, 1989, pages 109 - 165
MERMILLOD, M.BUGAISKA, ABONIN, P: "The stability-plasticity dilemma: Investigating the continuum from catastrophic forgetting to age-limited learning effects", FRONTIERS IN PSYCHOLOGY, vol. 4, 2013, pages 504
MOLCHANOV, P.TYREE, S.KARRAS, T.AILA, T.KAUTZ, J: "Pruning convolutional neural networks for resource efficient inference", ARXIV:1611.06440, 2016
NGUYEN, C. V.LI, Y.BUI, T. D.TURNER, R. E: "Variational continual learning", ARXIV:1710.10628, 2017
PARISI, G. I.KEMKER, R.PART, J. L.KANAN, C.WERMTER, S: "Continual lifelong learning with neural networks: A review", ARXIV:1802.07569, 2018
REAL, E.AGGARWAL, A.HUANG, Y.LE, Q. V: "Regularized evolution for image classifier architecture search", ARXIV:1802.01548, 2018
SALIMANS, T.GOODFELLOW, I.ZAREMBA, W.CHEUNG, V.RADFORD, A.CHEN, X., IMPROVED TECHNIQUES FOR TRAINING GANS, 2016, pages 2234 - 2242
See also references of EP4099223A4
SHIN, H.LEE, J. K.KIM, J.KIM, J., CONTINUAL LEARNING WITH DEEP GENERATIVE REPLAY, 2017, pages 2990 - 2999
SIMONYAN, K.ZISSERMAN, A.: "Very deep convolutional networks for large-scale image recognition", ARXIV:1409.1556, 2014
ULYANOV, D.VEDALDI, A.LEMPITSKY, V.: "Instance normalization: The missing ingredient for fast stylization", ARXIV:1607.08022, 2016
YU, R.LI, A.CHEN, C.-F.LAI, J.-H.MORARIU, V. I.HAN, X.GAO, M.LIN, C.-Y.DAVIS, L. S., NISP: PRUNING NETWORKS USING NEURON IMPORTANCE SCORE PROPAGATION, 2018, pages 9194 - 9203
ZACARIAS, A. S.ALEXANDRE, L. A: "Overcoming catastrophic forgetting in convolutional neural networks by selective network augmentation", ARXIV:1802.08250, 2018
ZENKE, F.POOLE, B.GANGULI, S: "Continual learning through synaptic intelligence", ARXIV:1703.04200, 2017

Also Published As

Publication number Publication date
EP4099223A4 (en) 2023-03-22
US20230072274A1 (en) 2023-03-09
JP2023510837A (ja) 2023-03-15
JP7431473B2 (ja) 2024-02-15
KR20210096342A (ko) 2021-08-05
CN115023708A (zh) 2022-09-06
EP4099223A1 (en) 2022-12-07

Similar Documents

Publication Publication Date Title
WO2021075735A1 (en) Training a neural network using periodic sampling over model weights
WO2021054614A1 (en) Electronic device and method for controlling the electronic device thereof
Klein et al. Model-based asynchronous hyperparameter and neural architecture search
WO2022098203A1 (en) Method and apparatus for image segmentation
WO2021158085A1 (en) Neural network update method, classification method and electronic device
WO2021006596A1 (ko) 기계학습 모델에 기반한 필수 유전자 식별 방법 및 분석장치
Yang et al. Improved delay-dependent stability criteria for generalized neural networks with time-varying delays
KR102471514B1 (ko) 뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템
WO2022164299A1 (en) Framework for causal learning of neural networks
WO2023085560A1 (ko) 제약 강화 학습이 적용된 이산 산업 제조 시스템의 수요반응 관리 방법
Effati et al. A novel recurrent nonlinear neural network for solving quadratic programming problems
WO2020138575A1 (ko) 기계 학습 데이터 선택 방법 및 장치
WO2021153864A1 (ko) 뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템
WO2023224430A1 (en) Method and apparatus for on-device personalised analysis using a machine learning model
Hou et al. Off-policy maximum entropy reinforcement learning: Soft actor-critic with advantage weighted mixture policy (SAC-AWMP)
Mahmoudabadi et al. New stability and stabilization conditions for nonlinear systems with time-varying delay based on delay-partitioning approach
Cai et al. Adaptive fuzzy finite-time control for a class of switched nonlinear systems with unknown control coefficients
WO2024072074A1 (en) Method and system for federated learning
Liu et al. Famo: Fast adaptive multitask optimization
Wang et al. Stability analysis and control design based on average dwell time approaches for switched nonlinear port-controlled hamiltonian systems
WO2021125496A1 (ko) 전자 장치 및 그 제어 방법
WO2023229094A1 (ko) 행동 예측 방법 및 장치
WO2022097954A1 (ko) 신경망 연산방법 및 신경망 가중치 생성방법
Valmórbida et al. Anti-windup for NDI quadratic systems
Zhu et al. Guaranteed cost fault-tolerant control for uncertain stochastic systems via dynamic event-triggered adaptive dynamic programming

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20916689

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022542682

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020916689

Country of ref document: EP

Effective date: 20220829