KR102242516B1 - 복수의 기계 학습 태스크에 대해 기계 학습 모델들을 훈련 - Google Patents

복수의 기계 학습 태스크에 대해 기계 학습 모델들을 훈련 Download PDF

Info

Publication number
KR102242516B1
KR102242516B1 KR1020197004633A KR20197004633A KR102242516B1 KR 102242516 B1 KR102242516 B1 KR 102242516B1 KR 1020197004633 A KR1020197004633 A KR 1020197004633A KR 20197004633 A KR20197004633 A KR 20197004633A KR 102242516 B1 KR102242516 B1 KR 102242516B1
Authority
KR
South Korea
Prior art keywords
machine learning
parameters
task
learning model
training
Prior art date
Application number
KR1020197004633A
Other languages
English (en)
Other versions
KR20190028531A (ko
Inventor
기욤 데자르댕
라즈반 파스카누
라야 타이스 해드셀
제임스 커크패트릭
조엘 윌리암 베네스
닐 찰스 라비노위츠
Original Assignee
딥마인드 테크놀로지스 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 딥마인드 테크놀로지스 리미티드 filed Critical 딥마인드 테크놀로지스 리미티드
Publication of KR20190028531A publication Critical patent/KR20190028531A/ko
Application granted granted Critical
Publication of KR102242516B1 publication Critical patent/KR102242516B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Feedback Control In General (AREA)

Abstract

기계 학습 모델이 기계 학습 모델의 파라미터들의 제1 값들을 결정하기 위해 제1 기계 학습 태스크에 대해 훈련된 다중 파라미터들을 갖는 기계 학습 모델을 훈련시키는 방법이 개시된다. 상기 방법은, 상기 복수의 파라미터들 각각에 대해, 상기 제1 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 상기 기계 학습 모델에 대한 파라미터의 중요도에 대한 각각의 척도(measure)를 결정하는 단계; 제2의 상이한 기계 학습 태스크에 대해 상기 기계 학습 모델을 훈련시키기 위한 훈련 데이터를 획득하는 단계; 그리고 상기 기계 학습 모델이 제1 기계 학습 태스크에 대해 허용 가능한 수준의 성능을 유지하면서 제2 기계 학습 태스크에 대해 허용 가능한 수준의 성능을 달성하도록, 상기 훈련 데이터에 대해 상기 기계 학습 모델을 훈련시키고 그리고 상기 파라미터들의 상기 제1 값들을 조정함으로써 제2 기계 학습 태스크에 대해 상기 기계 학습 모델을 훈련시키는 단계를 포함한다.

Description

복수의 기계 학습 태스크에 대해 기계 학습 모델들을 훈련
본 명세서는 기계 학습 모델들을 훈련시키는 것에 관한 것이다.
기계 학습 모델들은 입력을 수신하고, 그 수신된 입력에 기초하여 예측된 출력과 같은 출력을 생성한다. 일부 기계 학습 모델들은 파라메트릭(parametric) 모델들이며, 상기 수신된 입력 및 모델의 파라미터들의 값들을 기반으로 출력을 생성한다.
일부 기계 학습 모델들은 여러 층들의 모델을 사용하여 수신된 입력에 대한 출력을 생성하는 심층 모델들이다. 예를 들어, 심층 신경망은 출력을 생성하기 위해 수신된 입력에 비선형 변환을 각각 적용하는 출력층과 하나 이상의 은닉층을 포함하는 심층 기계 학습 모델이다. 그러나 기계 학습 모델은 복수의 태스크들을 학습할 때 "치명적인 망각"을 받을 수 있으며 새로운 태스크가 학습될 때 이전 태스크에 대한 지식을 잃어버릴 수 있다.
일부 신경망들은 순환 신경망들이다. 순환 신경망은 입력 시퀀스를 수신하고 입력 시퀀스로부터 출력 시퀀스를 생성하는 신경망이다. 특히, 순환 신경망은 입력 시퀀스의 현재 입력으로부터의 출력을 생성할 때 입력 시퀀스의 이전 입력을 처리한 후에 네트워크의 내부 상태의 일부 또는 전부를 사용한다.
본 명세서는 하나 이상의 위치에 있는 하나 이상의 컴퓨터상의 컴퓨터 프로그램들로 구현된 시스템이 여러 기계 학습 태스크들에서 기계 학습 모델을 훈련시키는 방법을 설명한다.
일반적으로, 하나의 혁신적인 양태는 복수의 파라미터를 갖는 기계 학습 모델을 훈련시키는 방법으로 구현될 수 있다. 기계 학습 모델은 기계 학습 모델의 파라미터들의 제1 값들을 결정하기 위해 제1 기계 학습 태스크에 대해 학습된다. 상기 방법은 상기 복수의 파라미터들 각각에 대해, 상기 기계 학습 모델에 대한 상기 파라미터의 중요도에 대한 각각의 척도(measure)를 결정하여 상기 제1 기계 학습 태스크에서 허용 가능한 성능을 달성하는 단계; 제2의 상이한 기계 학습 태스크에서 기계 학습 모델을 훈련시키기 위한 훈련 데이터를 획득하는 단계; 그리고 제1 기계 학습 태스크에서 허용 가능한 수준의 성능을 유지하면서, 기계 학습 모델이 제2 기계 학습 태스크에서 허용 가능한 수준의 성능을 달성하도록, 훈련 데이터에 대한 기계 학습 모델을 훈련하여 파라미터들의 제1 값들을 조정함으로써 제2 기계 학습 태스크에 대한 기계 학습 모델을 훈련시키는 단계를 포함하며, 제2 기계 학습 태스크에 대한 기계 학습 모델을 훈련하는 동안, 제1 기계 학습 태스크에 대한 허용 가능한 성능을 달성하는 기계 학습 모델에서 더 중요한 파라미터들의 값들은 제1 기계 학습 태스크에 대한 허용 가능한 성능을 달성하는 기계 학습 모델에서 덜 중요한 파라미터들의 값들보다 상기 제1 값들에서 벗어나지 않도록 강하게 제한된다.
훈련 데이터에 대한 기계 학습 모델을 훈련시키는 방법은 최적화를 위한 파라미터들의 제1 값들을 조정하는 단계를 포함하며, 보다 구체적으로는 (ⅰ) 제2 기계 학습 태스크에 대해 기계 학습 모델의 성능을 측정하는 제1 항(term) 및 (ii) 상기 제1 파라미터 값들로부터 벗어난 파라미터 값들에 페널티를 부과하는 제2 항을 포함하는 목적 함수를 최소화하는 것을 목표로 하며,
상기 제2 항은 상기 제1 기계 학습 태스크에 대해 수용 가능한 성능을 달성하는데 덜 중요한 파라미터들보다 상기 제1 기계 학습 태스크에 대해 수용 가능한 성능을 달성하는데 더 중요한 파라미터들에 대한 상기 제1 값들로부터의 편차에 페널티를 부여한다. 제2 항은 복수의 파라미터 각각에 대해, 파라미터의 중요도의 각각의 척도와, 파라미터의 현재 값과 파라미터의 제1 값 간의 차이의 곱에 의존할 수 있다.
일부 구현 예에서, 훈련은 "EWC(elastic weight consolidation)"를 구현할 수 있는데, 제2 태스크에 대한 훈련중에 파라미터들은 탄성 페널티(elastic penalty)에 의해 제1 값들에 고정되며, 탄성 페널티(elastic penalty)는 파라미터들의 제1 값과의 거리가 멀어지면 증가하는 파라미터의 조정에 대한 페널티이다. 탄성 페널티의 강성도(stiffness) 또는 정도(degree)는 이전에 학습한 태스크들 또는 제1 태스크에 대한 파라미터의 중요도에 대한 척도에 따라 달라질 수 있다. 따라서, EWC는 소프트 제약으로서 구현될 수 있는데, 예를 들어 거리가 증가함에 따라 2차적(quadratic)으로 구현될 수 있어서, 이전에 수행된 태스크 또는 태스크들에 대한 중요도의 척도에 비례하는 양만큼 각각의 가중치가 이전 값(old value)(들)으로 되돌아 가도록 한다. 넓은 의미로, 파라미터들은 이전 태스크(들)에서 파생된 파라미터들에 대한 사후 분포(posterior distribution)인 사전(prior)에 의해 조정된다.
일반적으로, 기계 학습 모델은 컨벌루션(convolutional) 신경망 또는 순환 신경망과 같은 신경망을 포함하며, 파라미터들은 신경망의 가중치들을 포함한다. 개별 파라미터들(가중치들)의 중요도는 아래에서 자세히 설명하는 것처럼 다양한 방식으로 결정될 수 있다. 선택적으로, 새로운 태스크에 대한 훈련을 시작하기 전에 개별 파라미터들(가중치들)의 중요도가 다시 계산될 수 있다.
훈련 데이터에 대한 기계 학습 모델을 훈련하는 것은, 훈련 데이터의 각 훈련 자료(example)에 대해, 모델 출력을 결정하기 위해 기계 학습 모델의 파라미터들의 현재 값들에 따라 기계 학습 모델을 사용하여 훈련 자료를 프로세싱하는 단계; 상기 모델 출력, 상기 훈련 자료에 대한 목표 출력, 상기 기계 학습 모델의 상기 파라미터들의 상기 현재 값들, 및 상기 기계 학습 모델의 상기 파라미터들의 상기 제1 값들을 이용하여 상기 목적 함수의 기울기(gradient)를 결정하는 단계; 그리고 목적 함수를 최적화하기 위해 상기 기울기를 사용하여 파라미터들의 현재 값들을 조정하는 단계를 포함한다.
상기 복수의 파라미터들 각각에 대해, 상기 제1 기계 학습 태스크상에서 허용 가능한 성능을 달성하는 상기 기계 학습 모델에 대한 상기 파라미터들의 중요도에 대한 각각의 척도를 결정하는 단계는, 상기 복수의 파라미터들의 각각에 대해, 상기 파라미터의 현재 값이 상기 제1 태스크상에서 상기 기계 학습 모델을 훈련시키는 데 사용된 상기 제1 훈련 데이터가 주어진 상기 파라미터의 정확한 값인 확률의 근사값을 결정하는 단계를 포함한다.
복수의 파라미터들의 각각에 대해, 제1 기계 학습 태스크상에서 허용 가능한 성능을 달성하는 기계 학습 모델에 대한 파라미터의 중요도에 대한 각각의 척도를 결정하는 하나의 방법은 상기 제1 기계 학습 태스크에 대한 기계 학습 모델의 복수의 파라미터들의 피셔(Fisher) 정보 매트릭스(FIM)를 결정하는 단계를 포함하며, 상기 복수의 파라미터들의 각각에 대해, 상기 파라미터의 중요도의 각각의 척도는 상기 FIM의 대각선(diagonal)에 해당하는 값이다. 이는 FIM이 1차 도함수로부터 계산될 수 있기 때문에 계산상 편리하다. 예를 들어 FIM은 모델 로그 가능성의 공분산으로부터 파라미터들과 관련하여 결정될 수 있다.
중요도 척도로서 FIM의 대각선 값을 사용하면 파라미터의 분산의 포인트 추정치, 즉 가중치의 불확실성을 효과적으로 계산하면서 계산 복잡도를 감소시킨다. 일부 구현 예에서, Blundell et al., ICML(2015)의 "Weight Uncertainty in Neural Networks"에 설명된대로 "Backprop by Bayes" 절차를 사용하여 가중치들의 평균 및 표준 편차(또는 분산)의 추정치를 얻을 수 있다. 이는 역전파(backpropagation) 절차의 변형을 사용하여 수행할 수 있다.
일부 구현 예에서, 제1 기계 학습 태스크 및 제2 기계 학습 태스크는 상이한 지도 학습 태스크(supervised learning task)들이다.
일부 다른 구현에서, 제1 기계 학습 태스크와 제2 기계 학습 태스크는 서로 다른 강화 학습 태스크들이다. 강화 학습 태스크에서, 상기 목적 함수는 상태에서 액션을 취하는 것으로부터 기대되는 보상에 따라 할인된 보상 기간(reward term)을 포함할 수 있다. 기계 학습 모델은 Deep Q-Network(DQN), Double-DQN, Advantage Actor Critic(A3C) 네트워크 또는 다른 아키텍처를 기반으로 할 수 있다.
일부 구현 예에서, 특히 강화 학습(RL) 시스템에서 배타적이지는 않지만, 기계 학습 태스크가 식별될 수 있다. 예를 들어 모델을 사용하여 태스크를 추론하여 명시적으로 레이블을 지정하거나 자동으로 식별할 수 있다. 그 다음 목적 함수에 대한 하나 이상의 페널티 항들(penalty terms)이 식별된 태스크에 따라 선택될 수 있다. 태스크 스위치가 식별되면 하나 이상의 페널티 항들을 선택하여 파라미터 학습이 하나 이상의 이전 태스크들(이전에 설명한 태스크에 대한 중요도에 따라)에 대해 학습된 값에 가까워지도록 제한할 수 있다. 상기 스위치는 이전에는 볼 수 없었던 새로운 태스크이거나 이전 태스크로 리턴될 수 있다. 패널티 항에는 현재 태스크를 제외하고 이전에 본 모든 태스크에 대한 제약조건(constraints)이 포함될 수 있다. 제약조건은 2차 제약조건 일 수 있다. 선택적으로, 하나의 학습 태스크에서 다른 학습 태스크로 전환할 때 개별 파라미터들(가중치들)의 중요도가 다시 계산될 수 있다.
상기 방법은, 기계 학습 모델의 파라미터들의 제2 값들을 결정하기 위해 제2 기계 학습 태스크에서 기계 학습 모델을 훈련시킨 후, 제3의 상이한 기계 학습 태스크에서 기계 학습 모델을 훈련시키기 위한 제3 훈련 데이터를 획득하는 단계; 그리고 기계 학습 모델이 제1 기계 학습 태스크 및 제2 기계 학습 태스크에서 허용 가능한 수준의 성능을 유지하면서 제3 기계 학습 태스크에 대해 허용 가능한 수준의 성능을 달성하도록, 제3 훈련 데이터에 대해 기계 학습 모델을 훈련하여 파라미터들의 제2 값들을 조정함으로써 제3 기계 학습 태스크에 대해 기계 학습 모델을 훈련시키는 단계를 포함하며, 상기 제3 기계 학습 태스크에 대한 상기 기계 학습 모델의 훈련 중에, 제1 기계 학습 태스크 및 제2 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 기계 학습 모델에서보다 중요한 파라미터들의 값들은 제1 기계 학습 태스크 및 제2 기계 학습 태스크에서 허용 가능한 성능을 달성하는 기계 학습 모델에서 덜 중요한 파라미터들의 값들보다 제2 값들에서 벗어나지 않도록 강하게 제한한다.
상기 방법은 상기 복수의 파라미터들 각각에 대해, 상기 제2 기계 학습 태스크에서 허용 가능한 성능을 달성하는 상기 기계 학습 모델에 대한 상기 파라미터들의 중요도에 대한 각각의 척도를 결정하는 단계를 더 포함할 수 있다. 제3 훈련 데이터에 대해 기계 학습 모델을 훈련시키는 단계는 상기 제3 기계 학습 태스크에 대해 기계 학습 모델의 성능을 측정하는 제1 항 및 상기 제2 파라미터 값들로부터 벗어나는 파라미터 값들에 대한 페널티를 부과하는 제2 항을 포함하는 목적 함수를 최적화하도록 상기 파라미터들의 제2 값들을 조정하는 단계를 포함할 수 있다. 전술한 것과 유사한 방식으로, 제2 항은 제1 기계 학습 태스크와 제2 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 데 덜 중요한 파라미터들보다 제1 기계 학습 태스크와 제2 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 데 더 중요한 파라미터들에 대한 제2 값들로부터의 편차에 페널티를 부과할 수 있다. 목적 함수의 제2 항은 두 개의 개별 페널티 항들, 즉 각각의 이전 태스크 대한 페널티 항 또는 결합된 패널티 항을 포함할 수 있다. 예를 들어, 페널티 항들은 각각 파라미터와 이전 값 사이의 차이의 제곱과 같은 2차 페널티를 포함하며, 2가지 페널티의 합은 자체적으로 2차 페널티로 기록될 수 있다.
상기 양태들은 임의의 편리한 형태로 구현될 수 있다. 예를 들어, 양태들 및 구현예들은 유형의 캐리어 매체(예를 들어, 디스크들) 또는 무형의 캐리어 매체(예를 들어, 통신 신호들)일 수 있는 적절한 캐리어 매체상에서 수행될 수 있는 적절한 컴퓨터 프로그램들에 의해 구현될 수 있다. 또한, 양태들은 컴퓨터 프로그램을 실행하는 프로그램 가능한 컴퓨터의 형태를 취할 수 있는 적절한 장치를 사용하여 구현될 수 있다.
본 명세서에서 설명된 본 발명의 특정 실시 예는 다음의 이점 중 하나 이상을 실현하도록 구현될 수 있다. 본 명세서에 설명된 것처럼 여러 태스크들에 대해 동일한 기계 학습 모델을 훈련시킴으로써 일단 모델이 훈련되면 허용 가능한 수준의 성능으로 여러 태스크들 각각에 대해 모델이 사용될 수 있다. 결과적으로 여러 태스크들에 대해 수용 가능한 성능을 달성할 수 있어야 하는 시스템은 저장 용량을 적게 사용하고 시스템 복잡성을 줄이는 동시에 작업을 수행할 수 있다. 예를 들어, 서로 다른 파라미터 값을 갖는 모델의 여러 다른 인스턴스들이 아닌 모델의 단일 인스턴스를 유지함으로써, 여러 개의 다른 파라미터 세트가 아니라 하나의 파라미터 세트만 저장하면 되므로 각 태스크에서 허용되는 성능을 유지하면서 필요한 저장 공간이 줄어든다. 또한, 파라미터가 이전에 학습된 태스크(들)에 대해 얼마나 중요한지에 따라 부분적으로 좌우되는 목적 함수를 최적화하기 위해 모델의 파라미터들의 값들을 조정함으로써 새로운 태스크에 대한 모델을 훈련시킴으로써, 모델은 효과적으로 이전 태스크들에 대한 지식을 보호하면서 새로운 태스크들을 연속적으로 학습할 수 있다.
본 명세서의 요지의 하나 이상의 실시 예의 세부 사항은 첨부된 도면 및 이하의 설명에서 설명된다. 요지의 다른 특징, 양태 및 장점은 상세한 설명, 도면 및 청구 범위로부터 명백해질 것이다.
도 1은 기계 학습 모델을 훈련시키는 기계 학습 시스템의 일 예의 블록도이다.
도 2는 복수의 태스크들에 대한 복수의 파라미터들을 갖는 기계 학습 모델을 훈련시키기 위한 예시적인 프로세스의 흐름도이다.
도 3은 기계 학습 모델이 제1 및 제2 기계 학습 태스크들에 대해 훈련된 후에 제3 기계 학습 태스크에 대한 기계 학습 모델을 훈련시키기 위한 예시적인 프로세스의 흐름도이다.
다양한 도면에서 동일한 참조 번호 및 명칭은 동일한 요소를 나타낸다.
본 명세서는 하나 이상의 위치에서 하나 이상의 컴퓨터상의 컴퓨터 프로그램으로서 구현된 시스템, 예를 들어 기계 학습 시스템이 다중 기계 학습 태스크에 대해 기계 학습 모델을 훈련시키는 방법을 설명한다.
일부 경우에, 복수의 기계 학습 태스크들은 상이한 지도 학습 태스크들이다. 예를 들어, 지도 학습 태스크들은 이미지 처리 태스크, 음성 인식 태스크, 자연 언어 처리 태스크 또는 광학 문자 인식 태스크와 같은 상이한 분류 태스크들을 포함할 수 있다. 예를 들어, 이미지 처리 태스크들은 상이한 이미지 인식 태스크들을 포함할 수 있으며, 여기서 각각의 이미지 인식 태스크는 이미지에서 상이한 객체 또는 패턴의 인식을 필요로 한다. 또 다른 예로서, 음성 인식 태스크들은 복수의 핫워드 검출 태스크들을 포함할 수 있으며, 여기서 각각의 태스크는 상이한 핫워드 또는 핫워드의 시퀀스의 인식을 필요로 한다.
일부 다른 경우에는, 여러 기계 학습 태스크들은 서로 다른 강화 학습 태스크들이다. 예를 들어, 강화 학습 태스크들은 에이전트가 다른 환경과 상호 작용하거나 동일한 환경과 상호 작용하여 다른 목표를 달성하는 여러 태스크들을 포함할 수 있다. 예를 들어, 강화 학습 태스크들은 컴퓨터화된 에이전트가 여러 다른 시뮬레이션된 또는 가상화된 환경들과 상호 작용하는 여러 태스크들을 포함할 수 있다. 또 다른 예로서, 강화 학습 태스크는 로봇틱 에이전트가 실제 환경과 상호 작용하여 다양한 목표를 달성하려는 여러 태스크들을 포함할 수 있다. 이러한 로보틱 에이전트는 정적 또는 이동 기계 또는 비히클(vehicle) 내에서 구체화될 수 있다.
도 1은 예시적인 기계 학습 시스템(100)을 도시한다. 기계 학습 시스템(100)은 이하에 설명되는 시스템, 구성 요소 및 기술이 구현되는 하나 이상의 위치에서 하나 이상의 컴퓨터상의 컴퓨터 프로그램으로서 구현되는 시스템의 예이다.
기계 학습 시스템(110)은 기계 학습 모델(110)을 다수의 기계 학습 태스크들에 대해 순차적으로 훈련시키도록 구성된다. 기계 학습 모델(110)은 입력을 수신하고, 그 수신된 입력에 기초하여 출력, 예를 들어 예측된 출력을 생성할 수 있다.
일부 경우에는, 기계 학습 모델(110)은 복수의 파라미터들을 갖는 파라메트릭 모델이다. 이 경우, 기계 학습 모델(110)은 수신된 입력 및 모델(110)의 파라미터들의 값들에 기초하여 출력을 생성한다.
다른 경우에는, 기계 학습 모델(110)은 수신된 입력에 대한 출력을 생성하기 위해 모델의 다중 층들을 사용하는 심층 기계 학습 모델이다. 예를 들어, 심층 신경망은 출력을 생성하기 위해 수신된 입력에 비선형 변환(non-linear transformation)을 각각 적용하는 하나 이상의 은닉층들 및 출력층을 포함하는 심층 기계 학습 모델이다.
일반적으로, 기계 학습 시스템(100)은 기계 학습 모델(110)의 파라미터들의 값들을 조정하여 예를 들어 특정 태스크에 대한 모델(110)의 성능을 최적화함으로써, 즉 모델(110)의 목적 함수(118)를 최적화함으로써, 상기 특정 태스크를 학습하도록 특정 태스크에 대해 기계 학습 모델(110)을 훈련시킨다.
시스템(100)은 모델(110)을 훈련시켜 복수의 기계 학습 태스크들의 시퀀스를 학습할 수 있다. 일반적으로, 기계 학습 모델(110)이 이전 태스크들을 잊지 않고 새로운 태스크들을 학습하도록 하기 위해, 시스템(100)은 이전 태스크들에 관한 정보에 기초하여 이전 태스크들에 대한 수용 가능한 성능의 영역(예를 들어, 낮은 에러의 영역)에 머무르기 위해 파라미터들을 제한함으로써 이전 태스크들에서의 성능을 보호하면서 새로운 태스크에 대한 모델(110)의 성능을 최적화시키도록 모델(110)을 훈련시킨다.
시스템(100)은 중요도 가중치 계산 엔진(112)을 이용하여 이전 태스크들에 관한 정보를 결정한다. 특히, 모델(110)이 이전에 훈련된 각각의 태스크에 대해, 엔진(112)은 그 태스크에 대응하는 중요도 가중치들의 세트를 결정한다. 소정의 태스크에 대한 중요도 가중치들의 세트는 일반적으로 태스크에 대해 수용 가능한 성능을 달성하는 모델(110)에 대한 파라미터의 중요도를 나타내는 척도를 나타내는 모델(110)의 각 파라미터에 대한 각각의 가중치를 포함한다. 그 다음, 시스템(100)은 모델(110)이 새로운 태스크에 대해 수용 가능한 수준의 성능을 달성하면서 이전 태스크들에 대한 수용 가능한 수준의 성능을 유지하도록 이전 태스크에 대응하는 중요도 가중치들의 세트를 사용하여 새로운 태스크에 대해 모델(110)을 훈련시킨다.
도 1에 도시된 바와 같이, 모델(110)이 모델(110)의 파라미터들의 제1 값들을 결정하기 위해 제1 훈련 데이터를 사용하여 제1 기계 학습 태스크, 예를 들어 태스크 (A)에 대해 훈련되었다면, 중요도 가중치 계산 엔진(112)은 태스크 A에 대응하는 중요도 가중치들(120)의 세트를 결정한다. 특히, 엔진(112)은, 모델(110)의 파라미터들의 각각에 대해, 태스크 A에 대해 수용 가능한 성능을 달성하는 모델(110)에 대한 파라미터의 중요도의 척도를 나타내는 각각의 중요도 가중치를 결정한다. 각각의 파라미터들에 대한 각각의 중요도 가중치를 결정하는 단계는 파라미터들 각각에 대해, 태스크 A에 대한 기계 학습 모델(110)을 훈련시키는데 사용된 제1 훈련 데이터가 주어진 경우 파라미터의 현재 값이 파라미터의 정확한 값인 확률의 근사를 결정하는 단계를 포함한다.
예를 들어, 엔진(112)은 모델(110)이 이전 기계 학습 태스크(들)로부터의 이전 훈련 데이터에 대해 훈련된 후에 모델(110)의 파라미터들의 가능한 값들에 대한 사후 분포(posterior distribution)를 결정할 수 있다. 파라미터들의 각각에 대해, 상기 사후 분포는 값이 현재 값이 파라미터의 정확한 값이 될 확률을 나타내는 파라미터의 현재 값에 값을 지정(할당)한다.
일부 구현 예에서, 엔진(112)은 근사 방법을 사용하여, 예를 들어 FIM(Fisher Information Matrix)을 사용하여 사후 분포를 근사화할 수 있다. 엔진(112)은 각각의 파라미터에 대해 파라미터의 각각의 중요도 가중치가 FIM의 대각선상의 상응하는 값인 태스크 A에 대한 모델(110)의 파라미터들의 FIM을 결정할 수 있다. 즉, FIM의 대각선상의 각 값은 기계 학습 모델(110)의 상이한 파라미터에 대응한다.
엔진(112)은 태스크 A에 대하여 목적 함수(118)를 최적화하는 파라미터들의 값들에서 목적 함수(118)의 2차 도함수를 계산함으로써 FIM을 결정할 수 있다. FIM은 1차 도함수만으로도 계산될 수 있으므로 대형 기계 학습 모델에서도 쉽게 계산할 수 있다. FIM은 양의 준정부호(positive semidefinite)로 보장된다. FIM 컴퓨팅에 대한 자세한 내용은 "Pascanu R, Bengio Y (2013)(arXiv:1301.3584)"의 "Revisiting natural gradient for deep networks"에 설명된다.
엔진(112)이 태스크 A에 대응하는 중요도 가중치들(120)의 세트를 결정한 후에, 시스템(100)은 새로운 기계 학습 태스크, 예를 들어 태스크 B에 대응하는 새로운 훈련 데이터(114)에 대한 모델(110)을 훈련시킬 수 있다.
모델(118)이 태스크 A를 잊지 않고 태스크 B를 학습하게 하기 위해서, 태스크 B에 대한 모델(110)의 훈련 동안, 시스템(100)은
태스크 A의 허용 가능한 성능을 유지하는 것을 목표로 하는 목적 함수(118)에 패널티 항(penalty term)을 형성하기 위해 태스크 A에 대응하는 중요도 가중치들의 세트(120)를 사용한다. 즉, 모델(110)은 태스크 B에 대해 목적 함수(118)를 최적화하는 훈련된 파라미터 값들(116)을 결정하도록 훈련되고, 목적 함수(118)가 패널티 항을 포함하기 때문에, 모델(110)은 태스크 B에 대해 훈련된 후에도 태스크 A에 대해 수용 가능한 성능을 유지한다. 모델(110) 및 목적 함수(118)를 훈련하기 위한 프로세스는 도 2를 참조하여 이하에서 상세히 설명된다.
기계 학습 태스크들의 시퀀스에 2개 이상의 태스크들이 있는 경우, 예를 들어 태스크 B에 대해 훈련되고, 태스크 B에 대해 훈련된 파라미터 값들(116)이 결정된 후에 모델(110)이 제3 태스크, 예를 들어 태스크 C에 대해 여전히 훈련될 필요가 있을 때, 기계 학습 시스템(100)은 엔진(112)이 태스크 B에 대응하는 중요도 가중치들의 새로운 세트를 결정할 수 있도록 훈련된 파라미터 값들(116)을 엔진 (112)에 제공한다.
태스크 C에 모델(110)을 훈련시킬 때, 시스템(100)은 태스크 B에 대응하는 중요도 가중치들의 새로운 세트 및 태스크 A에 대응하는 중요도 가중치들의 세트를 사용하도록 모델(110)을 훈련시키고, 모델 C에 대해 모델(110)에 의해 최적화될 목적 함수(118)에서의 새로운 페널티 항을 형성할 수 있다. 태스크 C에 대한 기계 학습 모델(110)을 학습시키기 위한 프로세스는 도 3을 참조하여 이하에서보다 상세히 설명된다. 이러한 훈련 프로세스는 모델(110)이 일련의 기계 학습 태스크들의 시퀀스에서 모든 태스크들을 학습할 때까지 반복될 수 있다.
도 2는 다중 태스크들에 대해 복수의 파라미터들을 갖는 기계 학습 모델을 순차적으로 훈련시키기 위한 예시적인 프로세스(200)의 흐름도이다.
편의상, 프로세스(200)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 기계 학습 시스템, 예컨대 본 명세서에 따라 적절히 프로그램된 도 1의 기계 학습 시스템(100)은 프로세스(200)를 수행할 수 있다.
기계 학습 모델은 기계 학습 모델의 파라미터들의 제1 값들을 결정하기 위해 제1 기계 학습 태스크에 대해 훈련된 모델이다.
다른 태스크에 대해 기계 학습 모델을 훈련시키기 위해, 상기 시스템은 먼저, 복수의 파라미터 각각에 대해, 제1 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 기계 학습 모델에 대한 파라미터의 중요도에 대한 각각의 척도(예를 들어, 파라미터의 중요도 가중치)를 결정한다(단계 202).
파라미터의 중요도에 대한 각각의 척도를 결정하는 것은 상기 제1 기계 학습 태스크에 대해 상기 기계 학습 모델을 훈련시키는데 사용된 상기 제1 훈련 데이터가 주어진 경우 상기 파라미터의 현재 값이 상기 파라미터의 정확한 값인 확률의 근사를 결정하는 것을 포함한다.
예를 들어, 상기 시스템은 모델이 이전 기계 학습 태스크(들)로부터의 이전 훈련 데이터에 대해 훈련된 후에 모델의 파라미터들의 가능한 값들에 대한 사후 분포를 결정할 수 있다. 파라미터들 각각에 대해, 상기 사후 분포는 현재 값이 파라미터의 정확한 값이 될 확률을 나타내는 값인 파라미터의 현재 값에 값을 지정한다.
일부 구현 예에서, 시스템은 예를 들어 FIM(Fisher Information Matrix)를 사용하여, 즉 근사 방법을 사용하여 사후 분포를 근사화할 수 있다. 특히, 시스템은 제1 기계 학습 태스크에 관한 기계 학습 모델의 파라미터들의 FIM(Fisher Information Matrix)를 결정하며, 상기 파라미터들의 각각에 대해, 상기 파라미터의 중요도에 대한 각각의 척도는 상기 FIM의 대각선상에 해당하는 값이다. 즉, FIM의 대각선상의 각 값은 기계 학습 모델의 다른 파라미터에 해당한다.
다음으로, 상기 시스템은 제2의 상이한 기계 학습 태스크에 대해 기계 학습 모델을 훈련시키기 위한 새로운 훈련 데이터를 획득한다(단계 204). 새로운 훈련 데이터는 여러 가지 훈련 자료들을 포함한다. 각 훈련 자료는 입력 자료에 대한 타겟 출력(target output) 및 입력 자료의 쌍을 포함한다.
일부 구현 예에서, 제1 기계 학습 태스크 및 제2 기계 학습 태스크는 상이한 지도 학습 태스크들이다. 다른 구현 예에서, 제1 기계 학습 태스크 및 제2 기계 학습 태스크는 상이한 강화 학습 태스크들이다.
그 다음, 상기 시스템은 새로운 훈련 데이터에 대한 기계 학습 모델을 훈련시킴으로써 제2 기계 학습 태스크에 대한 기계 학습 모델을 훈련시킨다(단계 206).
기계 학습 모델이 제1 태스크를 잊지 않고 (예를 들어, 제1 태스크에 관한 메모리를 유지함으로써) 제2 태스크를 학습하게 하려면, 상기 시스템은 제1 태스크에 관한 기계 학습 모델에 대한 파라미터들의 결정된 중요도의 척도에 기초한 페널티 항에 부분적으로 의존하는 목적 함수를 최적화하도록 파라미터들의 제1 값들을 조정함으로써 새로운 훈련 데이터에 대한 기계 학습 모델을 훈련시킨다.
상기 페널티 항은 제1 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 데 덜 중요한 파라미터들에 대한 것보다 제1 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 데 더 중요한 파라미터들에 대한 상기 제1 값들로부터의 편차에 패널티를 더 부과한다. 목적 함수를 최적화, 예를 들어 목적 함수를 최소화하도록 파라미터의 제1 값들을 조정함으로써, 상기 기계 학습 모델은 제1 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 기계 학습 모델에서 더 중요한 파라미터들의 값들이 제1 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 기계 학습 모델에서 덜 중요한 파라미터들의 값들보다 상기 제1 값들에서 벗어나지 않도록 강하게 제한되도록 한다.
일부 구현 예에서, 목적 함수는 수학식 1과 같이 표현될 수 있다.
Figure 112019016304873-pct00001
수학식 1에 표현된 목적 함수는 두 가지 항을 포함한다. 제1 항인
Figure 112019016304873-pct00002
는 제2 기계 학습 태스크에 대해 기계 학습 모델의 성능을 측정한다. 제1 항은 예를 들어, 크로스 엔트로피 손실, 평균 제곱 오차, 최대 우도, 심층 Q 네트워크의 (DQN) 목적(objective) 등의 제2 기계 학습 태스크에 적합한 목적 함수일 수 있다. 제2 항인
Figure 112019016304873-pct00003
는 제1 파라미터 값들에서 벗어나는 파라미터 값에 대해 패널티를 부과하는 패널티 항이다. 특히, 페널티 항은 기계 학습 모델의 복수의 파라미터들 중 각각의 파라미터 i에 대해, (i) 제1 기계 학습 태스크에 대해 허용 가능한 수준의 성능을 달성하는 기계 학습 모델에 대한 파라미터들의 중요도(
Figure 112019016304873-pct00004
)의 각 척도와 (ii) 파라미터(
Figure 112019016304873-pct00005
)의 현재 값과 파라미터(
Figure 112019016304873-pct00006
)의 상기 제1 값 사이의 차이의 곱에 따라 달라진다. 제2 항은
Figure 112019016304873-pct00007
에 의존하며,
Figure 112019016304873-pct00008
는 이전 태스크(예를 들어, 제1 기계 학습 태스크)를 새로운 태스크(예를 들어, 제2 기계 학습 태스크)와 비교하는 것이 얼마나 중요한지 설정한다.
Figure 112019016304873-pct00009
값들은 신경망 가중치 불확실성을 나타낼 수 있으며, FIM 대각선 값들(diagonal values) 또는 기타 값에서 파생될 수 있다.
파라미터들의 제1 값들을 조정하는 하나의 방법에서, 상기 시스템은 새로운 훈련 데이터의 복수의 훈련 자료들 각각에 대해 다음의 반복을 수행한다.
각 훈련 자료의 경우, 상기 시스템은 기계 학습 모델의 파라미터들의 현재 값들에 따라 기계 학습 모델을 사용하여 입력 자료를 프로세싱하여 모델 출력을 결정한다.
제1 반복의 경우, 파라미터들의 현재 값들은 기계 학습 모델이 제1 기계 학습 태스크에 대해 학습된 후에 결정된 파라미터들의 제1 값들과 동일하다.
다음으로, 상기 시스템은 모델 출력, 입력 자료에 대한 목표(타겟) 출력, 기계 학습 모델의 파라미터들의 현재 값들 및 기계 학습 모델의 파라미터들의 제1 값들을 사용하여 목적 함수의 기울기(gradient)를 결정한다.
그 다음, 상기 시스템은 목적 함수를 최적화하기 위해 상기 결정된 기울기를 사용하여 파라미터들의 현재 값들을 조정한다. 그 다음 파라미터들의 조정된 값들은 다음 반복에서 파라미터들의 현재 값들로 사용된다.
일부 경우에서, 상기 시스템은 여러 훈련 자료들을 배치로(in batches) 처리한다. 이 경우 각 배치(batch)에 대해 현재 값들은 배치의 각 훈련 자료에 대해 고정된다. 특히, 상기 시스템은 모델 출력을 결정하기 위해 기계 학습 모델의 파라미터들의 현재 값들에 따라 기계 학습 모델을 사용하여 각 배치의 훈련 자료들의 입력 자료들을 처리(프로세싱)한다. 그 다음 상기 시스템은 모델 출력, 배치의 입력 자료에 대한 목표 출력, 기계 학습 모델의 파라미터들의 현재 값들 및 기계 학습 모델의 파라미터들의 제1 값들을 사용하여 목적 함수의 기울기를 결정한다. 그 다음 상기 시스템은 목적 함수를 최적화하기 위해 상기 결정된 기울기를 사용하여 파라미터들의 현재 값들을 조정한다. 그 다음, 파라미터들의 조정된 값들이 다음 배치의 파라미터들의 현재 값들로 사용된다.
상기 시스템이 새로운 훈련 데이터의 모든 훈련 자료들에 대해 위의 반복을 수행한 후, 상기 시스템은 제2 기계 학습 태스크를 위한 새로운 훈련 데이터에 대해 기계 학습 모델을 학습시키는 것을 종료한다. 최종 반복에서 획득한 파라미터들의 현재 값들은 제2 기계 학습 태스크에 대한 기계 학습 모델의 훈련된 파라미터들로서 결정된다. 이러한 방식으로 모델을 훈련시키면 훈련된 파라미터 값들을 얻을 수 있으므로 기계 학습 모델은 제1 기계 학습 태스크에 대해 허용 가능한 수준의 성능을 유지하면서 제2 기계 학습 태스크에 대해 허용 가능한 수준의 성능을 얻을 수 있다.
상기 시스템이 제2 기계 학습 태스크에 대해 기계 학습 모델을 훈련시키면, 상기 시스템은 모델이 이미 훈련된 태스크에 대해 허용 가능한 성능을 유지하면서 새로운 기계 학습 태스크들에 대해 허용 가능한 수준의 성능을 달성하기 위해 기계 학습 모델을 지속적으로 훈련시킬 수 있다.
예를 들어, 기계 학습 모델의 파라미터들의 제2 값들을 결정하기 위해 제2 기계 학습 태스크에 대해 기계 학습 모델을 훈련시킨 후, 상기 시스템은 제3 다른 기계 학습 태스크에 대해 기계 학습 모델을 계속 훈련시킬 수 있다.
도 3은 기계 학습 모델이 제1 및 제2 기계 학습 태스크들에 대해 훈련된 후에 제3 기계 학습 태스크에 대한 기계 학습 모델을 훈련시키기 위한 예시적인 프로세스(300)의 흐름도이다.
편의상, 프로세스(300)는 하나 이상의 위치에 위치한 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 기계 학습 시스템, 예컨대 본 명세서에 따라 적절히 프로그램된 도 1의 기계 학습 시스템(100)은 프로세스(300)를 수행할 수 있다.
상기 시스템은, 복수의 파라미터들 각각에 대해, 제2 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 기계 학습 모델에 대한 파라미터의 중요도에 대한 각각의 척도를 선택적으로 결정할 수 있다(단계 302).
상기 시스템은 제3 기계 학습 태스크에 대해 기계 학습 모델을 훈련시키기 위한 제3 훈련 데이터를 획득한다(단계 304).
그 다음 상기 시스템은 기계 학습 모델이 제1 기계 학습 태스크 및 제2 기계 학습 태스크에 대해 허용 가능한 수준의 성능을 유지하면서 제3 기계 학습 태스크에 대해 허용 가능한 수준의 성능을 달성하도록, 제3 훈련 데이터에 대해 기계 학습 모델을 훈련시켜 파라미터들의 제2 값들을 조정함으로써 제3 기계 학습 태스크에 대해 기계 학습 모델을 훈련시킨다(단계 306). 제3의 기계 학습 태스크에 대한 기계 학습 모델의 훈련 중에, 제1 기계 학습 태스크 및 제2 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 기계 학습 모델에서보다 중요한 파라미터들의 값들은 제1 기계 학습 태스크 및 제2 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 기계 학습 모델에서 덜 중요한 파라미터들의 값들보다 제2 값들에서 벗어나지 않도록 강하게 제한된다.
일부 경우에는, 상기 시스템은 기계 학습 모델을 훈련시켜 파라미터들의 제2 값들을 조정하여, 제1 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 기계 학습 모델에 대한 파라미터들의 중요도의 척도와 그리고 제2 기계 학습 태스크에 대해 수용 가능한 성능을 달성하는 기계 학습 모델에 대한 파라미터들의 중요도의 척도에 기초한 페널티 항에 따라 부분적으로 달라지는 새로운 목적 함수를 최적화하는 파라미터들의 제3 값들을 획득한다.
예를 들어, 새로운 목적 함수는, (ⅰ) 제3 기계 학습 태스크에 대해 기계 학습 모델의 성능을 측정하는 제1 항, (ii) 상기 제1 파라미터 값들로부터 벗어난 파라미터 값들에 페널티를 부과하는 제2 항- 상기 제2 항은 제1 기계 학습 태스크에 대해 수용 가능한 성능을 달성하는 데 덜 중요한 파라미터들보다 상기 제1 기계 학습 태스크에 대해 수용 가능한 성능을 달성하는 더 중요한 파라미터들에 대한 제1 값들로부터의 편차에 더 페널티를 부과하며-, (iii) 제2 파라미터 값들로부터 벗어난 파라미터 값들에 패널티를 부과하는 제3 항을 포함하며, 상기 제3 항은 제2 기계 학습 태스크에 대해 수용 가능한 성능을 달성하는 데 덜 중요한 파라미터들보다 상기 제2 기계 학습 태스크에 대해 수용 가능한 성능을 달성하는 더 중요한 파라미터들에 대한 제2 값들로부터의 편차에 더 페널티를 부과한다.
새로운 목적 함수의 제2 항은, 복수의 파라미터들 각각에 대해, (i) 제1 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 기계 학습 모델에 대한 파라미터들의 중요도에 대한 각각의 척도와, (ii) 파라미터의 현재 값과 파라미터의 제1 값 간의 차이의 곱에 따라 달라질 수 있다.
새로운 목적 함수의 제3 항은, 복수의 파라미터들 각각에 대해, (i) 제2 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 기계 학습 모델에 대한 파라미터들의 중요도에 대한 각각의 척도와, (ii) 파라미터의 현재 값과 파라미터의 제2 값 간의 차이의 곱에 따라 달라질 수 있다.
획득된 파라미터들의 제3 값들은 기계 학습 모델이 제1 기계 학습 태스크 및 제2 기계 학습 태스크에 대해 하용 가능한 수준의 성능을 유지하면서 제3 기계 학습 태스크에 대해 허용 가능한 수준의 성능을 달성하도록 허용한다.
일부 구현 예에서, 목적 함수는 수학식 2와 같이 표현될 수 있다.
Figure 112019016304873-pct00010
Figure 112019016304873-pct00011
는 제1 파라미터 값들로부터 벗어난 파라미터 값들에 패널티를 부과하고, 기계 학습 모델의 복수의 파라미터들의 각 파라미터(
Figure 112019016304873-pct00012
)에 대해, (i) 제1 기계 학습 태스크에 대해 허용 가능한 수준의 성능을 달성하는 기계 학습 모델에 대한 파라미터의 중요도에 대한 각각의 척도(
Figure 112019016304873-pct00013
)와, (ii) 파라미터(
Figure 112019016304873-pct00014
)의 현재 값과 파라미터(
Figure 112019016304873-pct00015
)의 제1 값 간의 차이의 곱에 의존하는 페널티 항이다.
Figure 112019016304873-pct00016
는 제2 파라미터 값들로부터 벗어난 파라미터 값들에 패널티를 부과하고, 기계 학습 모델의 복수의 파라미터들의 각 파라미터(
Figure 112019016304873-pct00017
)에 대해, (i) 제2 기계 학습 태스크에 대해 허용 가능한 수준의 성능을 달성하는 기계 학습 모델에 대한 파라미터의 중요도에 대한 각각의 척도(
Figure 112019016304873-pct00018
)와, (ii) 파라미터(
Figure 112019016304873-pct00019
)의 현재 값과 파라미터(
Figure 112019016304873-pct00020
)의 제2 값 간의 차이의 곱에 의존하는 다른 페널티 항이다.
위 방법을 구현하는 기계 학습 시스템, 예를 들어 RL 시스템은 태스크들 간의 스위칭을 자동으로 식별하는 시스템을 포함할 수 있다. 이는 지도(supervision)없이 훈련된 온라인 클러스터링 알고리즘을 구현할 수 있다. 예를 들어 현재 작업(observation)을 설명하는 은닉 마르코프 모델(Hidden Markov Model)의 은닉 변수로 처리되는 범주적 컨텍스트 c(categorical context c)로 현재 태스크를 모델링하여 수행할 수 있다. 태스크 컨텍스트는 관찰(observation) 확률을 예측하는 생성 모델(generative model)을 컨디셔닝(condition)할 수 있고, 생성 모델의 기존 풀(pool)보다 최근 데이터를 더 잘 설명하면 새로운 생성 모델이 추가될 수 있다. 예를 들어, 각각의 연속적인 시간 윈도우의 끝에, 현재 태스크에 가장 잘 대응하는 모델이 선택될 수 있고, 하나의 초기화되지 않은 (균일한 분포) 모델이 선택되어 새로운 생성 모델 및 태스크 컨텍스트를 생성할 수 있다.
상기 방법을 구현하는 RL 시스템은 온 정책(on-policy) 또는 오프 정책(off-policy)으로 동작할 수 있으며, 오프 정책을 운영하는 경우 식별되거나 추론된 태스크마다 별도의 경험 버퍼를 유지할 수 있다. 선택적으로, 신경망 이득 및 바이어스는 태스크에 따라 다를 수 있다.
본 명세서는 시스템 및 컴퓨터 프로그램 구성 요소와 관련하여 "구성된"이라는 용어를 사용한다. 특정 동작이나 액션을 수행하도록 구성된 하나 이상의 컴퓨터 시스템은 시스템이 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합으로 인해 시스템이 동작 또는 액션을 수행하게 하는 것을 의미한다. 특정 동작 또는 액션을 수행하도록 구성된 하나 이상의 컴퓨터 프로그램은 하나 이상의 컴퓨터 프로그램이 데이터 처리 장치에 의해 실행될 때 장치로 하여금 동작 또는 액션을 수행하게 하는 명령어들을 포함함을 의미한다.
본 명세서에서 설명된 요지 및 기능적 동작의 실시 예는 본 명세서 및 그의 구조적 균등물에 개시된 구조들 또는 그들 중 하나 이상의 조합을 포함하여, 디지털 전자 회로, 유형적으로- 구현된 컴퓨터 소프트웨어 또는 펌웨어, 컴퓨터 하드웨어에서 구현될 수 있다. 본 명세서에서 설명된 요지의 실시 예는 하나 이상의 컴퓨터 프로그램, 즉 데이터 처리 장치에 의해 실행되거나 또는 데이터 처리 장치의 동작을 제어하기 위해 유형의 일시적 저장 매체상에 인코딩된 컴퓨터 프로그램 명령어들의 하나 이상의 모듈로서 구현될 수 있다. 상기 컴퓨터 저장 매체는 기계 판독가능 저장 장치, 기계 판독가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 장치, 또는 이들 중 하나 이상의 조합일 수 있다. 대안으로 또는 부가적으로, 상기 프로그램 명령어들은 데이터 처리 장치에 의한 실행을 위해 적절한 수신기 장치로의 송신을 위해 정보를 인코딩하기 위해 생성되는 인위적으로 생성된 전파된 신호, 예를 들어, 기계-발생 전기, 광학 또는 전자기 신호상에 인코딩될 수 있다.
"데이터 처리 장치"라는 용어는 데이터 처리 하드웨어를 의미하며, 예를 들어 프로그램 가능 프로세서, 컴퓨터, 또는 복수의 프로세서 또는 컴퓨터를 포함하여 데이터를 처리하기 위한 모든 종류의 장치, 디바이스 및 기계를 포함한다. 이 장치는 또한 특수 목적 논리 회로, 예를 들어 FPGA (field programmable gate array) 또는 ASIC(application specific integrated circuit)일 수 있다. 상기 장치는 하드웨어 이외에, 컴퓨터 프로그램들의 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제 또는 이들 중 하나 이상의 조합을 구성하는 코드를 선택적으로 포함할 수 있다.
컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 모듈, 소프트웨어 모듈, 스크립트 또는 코드로 지칭되거나 설명될 수 있음)은 컴파일된 또는 해석된 언어, 또는 선언적 또는 절차적 언어를 포함한 모든 형태의 프로그래밍 언어로 작성될 수 있으며, 독립 실행형 프로그램이나 모듈, 컴포넌트, 서브루틴 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 장치를 포함하여 어떤 형태로든 배포될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 해당할 수 있지만 반드시 그런 것은 아니다. 프로그램은 프로그램 전용 단일 파일, 여러 개의 조정된 파일(예를 들어, 하나 이상의 모듈, 하위 프로그램 또는 코드의 부분들을 저장하는 파일들), 또는 마크업 언어 문서에 저장된 하나 이상의 스크립트와 같은 다른 프로그램들 또는 데이터를 보유하고 있는 파일의 부분에 저장될 수 있다. 컴퓨터 프로그램은 한 사이트에 있거나 여러 사이트에 분산되어 있으며 통신 네트워크로 상호 연결된 여러 대의 컴퓨터 또는 하나의 컴퓨터에서 실행되도록 배포될 수 있다.
본 명세서에서, 용어 "엔진"은 하나 이상의 특정 기능을 수행하도록 프로그램된 소프트웨어 기반 시스템, 서브 시스템 또는 프로세스를 지칭하기 위해 광범위하게 사용된다. 일반적으로 엔진은 하나 이상의 소프트웨어 모듈 또는 구성 요소로 구현되며 하나 이상의 위치에 있는 하나 이상의 컴퓨터에 설치된다. 일부 경우에 따라 하나 이상의 컴퓨터가 특정 엔진 전용으로 사용되며, 다른 경우에는 여러 대의 엔진을 동일한 컴퓨터나 컴퓨터들에 설치하여 실행할 수 있다.
본 명세서에서 설명되는 프로세스들 및 로직 흐름은 입력 데이터를 조작하고 출력을 생성함으로써 기능을 수행하도록 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능 컴퓨터에 의해 수행될 수 있다. 상기 프로세스들 및 로직 흐름은 또한 FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)과 같은 특수 목적 논리 회로에 의해 수행될 수 있고, 장치는 또한 상기 특수 목적 논리 회로로 구현될 수 있다.
컴퓨터 프로그램의 실행에 적합한 컴퓨터는 예를 들어 범용 또는 특수 목적 마이크로프로세서 또는 둘 모두, 또는 임의의 다른 종류의 중앙 처리 장치를 포함하고, 이들에 기반할 수 있다. 일반적으로, 중앙 처리 장치는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 구성요소들은 명령어들을 수행하거나 실행하기 위한 중앙 처리 장치 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 장치이다. 일반적으로, 컴퓨터는 데이터(예를 들어, 자기, 광 자기 디스크 또는 광 디스크)를 저장하기 위한 하나 이상의 대용량 저장 장치를 포함하거나, 그 하나 이상의 대용량 저장 장치로부터 데이터를 수신하거나 전송하기 위해 동작 가능하게 결합될 것이다. 그러나, 컴퓨터는 그러한 장치들을 가질 필요는 없다. 또한, 컴퓨터는 다른 장치, 예를 들어, 이동 전화기, 개인 휴대 정보 단말기(PDA), 이동 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기 또는 휴대용 저장 장치(예를 들어, 범용 직렬 버스(USB) 플래시 드라이브)에 내장될 수 있다.
컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는 예를 들어 EPROM, EEPROM 및 플래시 메모리 장치와 같은 반도체 메모리 장치, 내부 하드 디스크 또는 이동식 디스크와 같은 자기 디스크, 광 자기 디스크, 및 CD ROM 및 DVD-ROM 디스크를 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치를 포함한다.
사용자와의 상호 작용을 제공하기 위해, 본 명세서에서 설명된 요지의 실시예들은 사용자에게 정보를 제공하기 위한 CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터와 같은 디스플레이 장치, 사용자가 입력을 컴퓨터에 제공할 수 있는 마우스 또는 트랙볼과 같은 키보드 및 포인팅 장치를 갖는 컴퓨터에서 구현될 수 있다. 다른 종류의 장치들은 사용자와의 상호 작용을 제공하는 데 사용될 수 있으며, 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 또한, 컴퓨터는 사용자가 사용하는 장치로 문서를 보내고 문서를 수신하여 사용자와 상호 작용할 수 있으며, 예를 들어, 웹 브라우저로부터 수신된 요청에 응답하여 사용자의 클라이언트 장치상의 웹 브라우저에 웹 페이지를 전송함으로써 수행될 수 있다. 또한, 컴퓨터는 문자 메시지 또는 다른 형태의 메시지를 개인용 장치(예를 들어, 메시징 애플리케이션을 실행중인 스마트폰)에 송신하고 사용자로부터 응답 메시지를 수신함으로써 사용자와 상호 작용할 수 있다.
기계 학습 모델을 구현하기 위한 데이터 처리 장치는 또한, 예를 들어, 기계 학습 훈련 또는 생산, 즉 추론, 작업부하의 공통 및 연산 중심 부분을 처리하기 위한 특수 목적 하드웨어 가속기 유닛을 포함할 수 있다.
기계 학습 모델은" TensorFlow" 프레임워크, "Microsoft Cognitive Toolkit" 프레임워크, "Apache Singa" 프레임워크 또는 "Apache MXNet" 프레임워크와 같은 기계 학습 프레임워크를 사용하여 구현 및 배치할 수 있다.
본 명세서에서 설명된 요지의 실시예들은 데이터 서버와 같은 백 엔드 컴포넌트; 애플리케이션 서버와 같은 미들웨어 컴포넌트; 예를 들어 관계 그래픽 사용자 인터페이스 또는 사용자가 본 명세서에 설명된 요지의 구현예와 상호 작용할 수 있는 웹 브라우저를 갖는 클라이언트 컴퓨터와 같은 프론트 엔트 컴포넌트; 또는 하나 이상의 백 엔드, 미들웨어, 프론트 엔트 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 상기 시스템의 컴포넌트들은 디지털 데이터 통신의 임의의 형태 또는 매체, 예를 들어 통신 네트워크에 의해 상호 접속될 수 있다. 예시적인 통신 네트워크는 근거리 통신망("LAN") 및 광역 통신망("WAN"), 예를 들어 인터넷을 포함한다.
상기 컴퓨팅 시스템은 클라이언트들과 서버들을 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며, 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들로 인해 발생한다. 일부 실시 예에서, 서버는 데이터, 예를 들어, 데이터를 디스플레이하고, 클라이언트로서 동작하는 장치와 상호 작용하는 사용자로부터 사용자 입력을 수신하기 위해 HTML 페이지를 사용자 장치로 송신한다. 사용자 장치에서 생성된 데이터, 예를 들어 사용자 상호 작용의 결과는 상기 장치로부터 서버에서 수신될 수 있다.
본 명세서는 다수의 특정 구현 세부 사항을 포함하지만, 이들은 임의의 발명 또는 청구될 수 있는 범위에 대한 제한으로서 해석되어서는 안되며, 오히려 특정 발명의 특정 실시예에 특정될 수 있는 특징에 대한 설명으로 해석되어야 한다. 별도의 실시예들과 관련하여 본 명세서에서 설명되는 특정 특징들은 또한 단일 실시예에서 조합하여 구현될 수 있다. 반대로, 단일 실시예의 콘텍스트에서 설명된 다양한 특징들은 또한 다수의 실시예에서 개별적으로 또는 임의의 적합한 서브조합으로 구현될 수 있다. 더욱이, 특징들은 소정의 조합으로 작용하고 상술한 바와 같이 초기에 청구된 것으로서 설명될 수 있지만, 청구된 조합의 하나 이상의 특징이 어떤 경우 그 조합으로부터 제거될 수 있고, 그 청구된 조합은 서브조합 또는 그 서브조합의 변형을 지향할 수 있다.
유사하게, 동작들이 특정 순서로 도면들에 도시되어 있지만, 이는 바람직한 동작들을 달성하기 위해, 그러한 동작들이 도시된 순서 또는 순차적인 순서로 수행되거나, 도시된 모든 동작들이 수행될 것을 요구하는 것으로 이해되어서는 안된다. 특정 상황에서 멀티 태스킹 및 병렬 처리가 유리할 수 있다. 또한, 상술한 실시 예에서 다양한 시스템 모듈 및 컴포넌트의 분리는 모든 실시예에서 그러한 분리를 필요로 하는 것으로 이해되어서는 안되며, 서술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품에 함께 통합되거나 다중 소프트웨어 제품들로 패키징될 수 있다는 것을 이해해야 한다.
본 발명의 특정 실시예들이 설명되었다. 다른 실시예들은 다음의 청구항들의 범위 내에 있다. 예를 들어, 청구 범위에 열거된 동작들은 상이한 순서로 수행될 수 있으며 여전히 바람직한 결과를 달성한다. 하나의 예로서, 첨부된 도면에 도시된 프로세스는 바람직한 결과를 얻기 위해 도시된 특정 순서 또는 순차적 순서를 반드시 필요로 하지는 않는다. 특정 구현예들에서, 멀티태스킹 및 병렬 처리가 유리할 수 있다.

Claims (19)

  1. 복수의 파라미터들을 갖는 기계 학습 모델 -상기 기계 학습 모델은 상기 기계 학습 모델의 상기 파라미터들의 제1 값들을 결정하도록 제1 기계 학습 태스크에 대해 훈련됨- 을 훈련시키는 컴퓨터로 구현되는 방법으로서, 상기 컴퓨터로 구현되는 방법은,
    상기 복수의 파라미터들 각각에 대해, 상기 제1 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 상기 기계 학습 모델에 대한 파라미터의 중요도에 대한 각각의 척도(measure)를 결정하는 단계;
    제2의 상이한 기계 학습 태스크에 대해 상기 기계 학습 모델을 훈련시키기 위한 훈련 데이터를 획득하는 단계; 그리고
    상기 기계 학습 모델이 제1 기계 학습 태스크에 대해 허용 가능한 수준의 성능을 유지하면서 제2 기계 학습 태스크에 대해 허용 가능한 수준의 성능을 달성하도록, 상기 훈련 데이터에 대해 상기 기계 학습 모델을 훈련시키고 그리고 상기 파라미터들의 상기 제1 값들을 조정함으로써 제2 기계 학습 태스크에 대해 상기 기계 학습 모델을 훈련시키는 단계를 포함하며,
    상기 제2 기계 학습 태스크에 대한 상기 기계 학습 모델을 훈련시키는 동안, 상기 제1 기계 학습 태스크에 대한 허용 가능한 성능을 달성하는 상기 기계 학습 모델에서 더 중요한 파라미터들의 값들은 상기 제1 기계 학습 태스크에 대한 허용 가능한 성능을 달성하는 상기 기계 학습 모델에서 덜 중요한 파라미터들의 값들보다 상기 제1 값들에서 벗어나지 않도록 강하게 제한(strongly constrained)되는 것을 특징으로 하는 복수의 파라미터들을 갖는 기계 학습 모델을 훈련시키는 컴퓨터로 구현되는 방법.
  2. 제1항에 있어서, 상기 제1 기계 학습 태스크 및 상기 제2 기계 학습 태스크는 상이한 지도(supervised) 학습 태스크인 것을 특징으로 하는 복수의 파라미터들을 갖는 기계 학습 모델을 훈련시키는 컴퓨터로 구현되는 방법.
  3. 제1항에 있어서,
    상기 제1 기계 학습 태스크 및 상기 제2 기계 학습 태스크는 상이한 강화 학습 태스크인 것을 특징으로 하는 복수의 파라미터들을 갖는 기계 학습 모델을 훈련시키는 컴퓨터로 구현되는 방법.
  4. 제1항에 있어서, 상기 훈련 데이터에 대해 상기 기계 학습 모델을 훈련시키는 단계는,
    목적 함수를 최소화하도록 상기 파라미터들의 상기 제1 값들을 조정하는 단계를 포함하며, 상기 목적 함수는
    (ⅰ) 상기 제2 기계 학습 태스크에 대해 상기 기계 학습 모델의 성능을 측정하는 제1 항(term) 및
    (ii) 제1 파라미터 값들로부터 벗어난 파라미터 값들에 페널티를 부과하는 제2 항(term)을 포함하며,
    상기 제2 항(term)은 상기 제1 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는데 덜 중요한 파라미터들보다 상기 제1 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는데 더 중요한 파라미터들에 대한 상기 제1 값들로부터의 편차에 페널티를 더 부여하는 것을 특징으로 하는 복수의 파라미터들을 갖는 기계 학습 모델을 훈련시키는 컴퓨터로 구현되는 방법.
  5. 제4항에 있어서,
    상기 훈련 데이터에 대해 상기 기계 학습 모델을 훈련시키는 단계는, 상기 훈련 데이터의 각 훈련 자료(example)에 대해,
    모델 출력을 결정하도록 상기 기계 학습 모델의 파라미터들의 현재 값들에 따라 상기 기계 학습 모델을 사용하여 상기 훈련 자료를 프로세싱하는 단계;
    상기 모델 출력, 상기 훈련 자료에 대한 목표 출력, 상기 기계 학습 모델의 상기 파라미터들의 상기 현재 값들, 및 상기 기계 학습 모델의 상기 파라미터들의 상기 제1 값들을 이용하여 상기 목적 함수의 기울기(gradient)를 결정하는 단계; 그리고
    상기 목적 함수를 최적화하도록 상기 기울기를 사용하여 상기 파라미터들의 현재 값들을 조정하는 단계를 포함하는 것을 특징으로 하는 복수의 파라미터들을 갖는 기계 학습 모델을 훈련시키는 컴퓨터로 구현되는 방법.
  6. 제4항에 있어서,
    상기 제2 항(term)은 상기 복수의 파라미터들 각각에 대해, 상기 파라미터의 중요도의 각각의 척도와 상기 파라미터의 현재 값과 상기 파라미터의 제1 값 간의 차이의 곱에 의존하는 것을 특징으로 하는 복수의 파라미터들을 갖는 기계 학습 모델을 훈련시키는 컴퓨터로 구현되는 방법.
  7. 제1항에 있어서,
    상기 복수의 파라미터들 각각에 대해, 상기 제1 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 상기 기계 학습 모델에 대한 파라미터의 중요도에 대한 각각의 척도를 결정하는 단계는,
    상기 복수의 파라미터들 각각에 대해, 상기 제1 기계 학습 태스크에 대해 상기 기계 학습 모델을 훈련시키는 데 사용된 제1 훈련 데이터가 주어진 경우 상기 파라미터의 현재 값이 상기 파라미터의 정확한 값인 확률의 근사값을 결정하는 단계를 포함하는 것을 특징으로 하는 복수의 파라미터들을 갖는 기계 학습 모델을 훈련시키는 컴퓨터로 구현되는 방법.
  8. 제1항에 있어서,
    상기 복수의 파라미터들의 각각에 대해, 상기 제1 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 상기 기계 학습 모델에 대한 파라미터의 중요도에 대한 각각의 척도를 결정하는 단계는,
    상기 제1 기계 학습 태스크에 대한 상기 기계 학습 모델의 상기 복수의 파라미터들의 피셔 정보 매트릭스(FIM, Fisher Information Matrix)를 결정하는 단계를 포함하며, 상기 복수의 파라미터들의 각각에 대해, 상기 파라미터의 중요도의 각각의 척도는 상기 FIM의 대각선(diagonal)에 해당하는 값인 것을 특징으로 하는 복수의 파라미터들을 갖는 기계 학습 모델을 훈련시키는 컴퓨터로 구현되는 방법.
  9. 제1항에 있어서, 상기 방법은,
    상기 기계 학습 모델의 파라미터들의 제2 값들을 결정하도록 상기 제2 기계 학습 태스크에 대해 기계 학습 모델을 훈련시킨 후,
    제3의 상이한 기계 학습 태스크에 대해 기계 학습 모델을 훈련시키기 위한 제3 훈련 데이터를 획득하는 단계; 그리고
    상기 기계 학습 모델이 상기 제1 기계 학습 태스크 및 제2 기계 학습 태스크에 대해 허용 가능한 수준의 성능을 유지하면서 제3 기계 학습 태스크에 대해 허용 가능한 수준의 성능을 달성하도록, 제3 훈련 데이터에 대해 상기 기계 학습 모델을 훈련시키고 상기 파라미터들의 제2 값들을 조정함으로써 제3 기계 학습 태스크에 대해 기계 학습 모델을 훈련시키는 단계를 더 포함하며,
    상기 제3 기계 학습 태스크에 대해 상기 기계 학습 모델을 훈련시키는 중에, 상기 제1 기계 학습 태스크 및 제2 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 상기 기계 학습 모델에서 더 중요한 파라미터들의 값들은 상기 제1 기계 학습 태스크 및 제2 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 상기 기계 학습 모델에서 덜 중요한 파라미터들의 값들보다 상기 제2 값들에서 벗어나지 않도록 강하게 제한되는 것을 특징으로 하는 복수의 파라미터들을 갖는 기계 학습 모델을 훈련시키는 컴퓨터로 구현되는 방법.
  10. 제9항에 있어서, 상기 방법은,
    상기 복수의 파라미터들 각각에 대해, 상기 제2 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 상기 기계 학습 모델에 대한 파라미터의 중요도에 대한 각각의 척도(measure)를 결정하는 단계를 더 포함하며,
    상기 제3 훈련 데이터에 대해 상기 기계 학습 모델을 훈련시키는 단계는 목적 함수를 최적화하도록 상기 파라미터들의 상기 제2 값들을 조정하는 단계를 포함하며, 상기 목적 함수는
    (ⅰ) 제3 기계 학습 태스크에 대해 기계 학습 모델의 성능을 측정하는 제1 항(term),
    (ii) 제1 파라미터 값들로부터 벗어난 파라미터 값들에 페널티를 부과하는 제2 항(term) - 상기 제2 항(term)은 상기 제1 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 데 덜 중요한 파라미터들보다 상기 제1 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 데 더 중요한 파라미터들에 대한 상기 제1 값들로부터의 편차에 더 페널티를 부과하며-,
    (iii) 제2 파라미터 값들로부터 벗어난 파라미터 값들에 패널티를 부과하는 제3 항(term)을 포함하며, 상기 제3 항(term)은 제2 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 데 덜 중요한 파라미터들보다 상기 제2 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 데 더 중요한 파라미터들에 대한 상기 제2 값들로부터의 편차에 더 페널티를 부과하는 것을 특징으로 하는 복수의 파라미터들을 갖는 기계 학습 모델을 훈련시키는 컴퓨터로 구현되는 방법.
  11. 제10항에 있어서,
    상기 제2 항(term)은, 상기 복수의 파라미터들 각각에 대해, (i) 제1 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 상기 기계 학습 모델에 대한 파라미터들의 중요도에 대한 각각의 척도와, (ii) 상기 파라미터의 현재 값과 상기 파라미터의 제1 값 간의 차이의 곱에 의존하는 것을 특징으로 하는 복수의 파라미터들을 갖는 기계 학습 모델을 훈련시키는 컴퓨터로 구현되는 방법.
  12. 제10항에 있어서,
    상기 제3 항(term)은, 상기 복수의 파라미터들 각각에 대해, (i) 제2 기계 학습 태스크에 대해 허용 가능한 성능을 달성하는 상기 기계 학습 모델에 대한 파라미터의 중요도에 대한 각각의 척도와, (ii) 상기 파라미터의 현재 값과 상기 파라미터의 제2 값 간의 차이의 곱에 의존하는 것을 특징으로 하는 복수의 파라미터들을 갖는 기계 학습 모델을 훈련시키는 컴퓨터로 구현되는 방법.
  13. 제4항에 있어서,
    하나의 기계 학습 태스크로부터 다른 기계 학습 태스크로 스위칭할 때를 식별하는 단계 및 응답으로 상기 목적 함수의 제2 항(term)을 업데이트하는 단계를 더 포함하는 것을 특징으로 하는 복수의 파라미터들을 갖는 기계 학습 모델을 훈련시키는 컴퓨터로 구현되는 방법.
  14. 제13항에 있어서,
    하나의 기계 학습 태스크로부터 다른 기계 학습 태스크로 스위칭할 때를 식별하는 단계는 하나 이상의 모델들로부터 어떤 태스크가 수행되는지를 추정하는 단계를 포함하는 것을 특징으로 하는 복수의 파라미터들을 갖는 기계 학습 모델을 훈련시키는 컴퓨터로 구현되는 방법.
  15. 제1항에 있어서, 상기 컴퓨터로 구현되는 방법은, 상기 제2 기계 학습 태스크에 대해 상기 기계 학습 모델을 훈련시킨 후에 데이터를 처리하는데 사용하기 위해 상기 훈련된 기계 학습 모델을 제공하는 단계를 더 포함하는 것을 특징으로 하는 복수의 파라미터들을 갖는 기계 학습 모델을 훈련시키는 컴퓨터로 구현되는 방법.
  16. 제1항에 있어서,
    상기 제1 및 제2 기계 학습 태스크 각각은 강화 학습 태스크를 포함하고, 상기 강화 학습 태스크는 목표를 달성하기 위해 환경과 상호 작용하도록 에이전트를 제어하는 것을 특징으로 하는 복수의 파라미터들을 갖는 기계 학습 모델을 훈련시키는 컴퓨터로 구현되는 방법.
  17. 제1항에 있어서,
    상기 제1 및 제2 기계 학습 태스크 각각은 분류 태스크를 포함하고, 상기 분류 태스크는 데이터를 분류하도록 상기 데이터를 프로세싱하는 것을 특징으로 하는 복수의 파라미터들을 갖는 기계 학습 모델을 훈련시키는 컴퓨터로 구현되는 방법.
  18. 시스템으로서,
    하나 이상의 컴퓨터들, 그리고
    상기 하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 제1항 내지 제17항 중 어느 한 항의 각각의 방법의 동작들을 수행하게 하는 명령어들을 저장하는 하나 이상의 저장 장치들을 포함하는 것을 특징으로 하는 시스템.
  19. 컴퓨터로 판독 가능한 저장 매체로서,
    하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 제1항 내지 제17항 중 어느 한 항의 각각의 방법의 동작들을 수행하게 하는 명령어들로 인코딩된 것을 특징으로 하는 컴퓨터로 판독 가능한 저장 매체.
KR1020197004633A 2016-07-18 2017-07-18 복수의 기계 학습 태스크에 대해 기계 학습 모델들을 훈련 KR102242516B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662363652P 2016-07-18 2016-07-18
US62/363,652 2016-07-18
PCT/US2017/042542 WO2018017546A1 (en) 2016-07-18 2017-07-18 Training machine learning models on multiple machine learning tasks

Publications (2)

Publication Number Publication Date
KR20190028531A KR20190028531A (ko) 2019-03-18
KR102242516B1 true KR102242516B1 (ko) 2021-04-20

Family

ID=59416834

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197004633A KR102242516B1 (ko) 2016-07-18 2017-07-18 복수의 기계 학습 태스크에 대해 기계 학습 모델들을 훈련

Country Status (7)

Country Link
US (1) US20190236482A1 (ko)
EP (2) EP4231197B1 (ko)
JP (1) JP6824382B2 (ko)
KR (1) KR102242516B1 (ko)
CN (1) CN109690576A (ko)
DE (1) DE202017007641U1 (ko)
WO (1) WO2018017546A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024071845A1 (ko) * 2022-09-28 2024-04-04 주식회사 메디컬에이아이 의료용 인공지능 모델의 구축 방법, 프로그램 및 장치

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180314805A1 (en) * 2017-04-26 2018-11-01 International Business Machines Corporation Constraint-aware health management
US11604997B2 (en) * 2017-06-09 2023-03-14 Deepmind Technologies Limited Training action selection neural networks using leave-one-out-updates
US11741354B2 (en) * 2017-08-25 2023-08-29 Ford Global Technologies, Llc Shared processing with deep neural networks
US10573295B2 (en) * 2017-10-27 2020-02-25 Salesforce.Com, Inc. End-to-end speech recognition with policy learning
US11562287B2 (en) 2017-10-27 2023-01-24 Salesforce.Com, Inc. Hierarchical and interpretable skill acquisition in multi-task reinforcement learning
US20210117786A1 (en) * 2018-04-18 2021-04-22 Deepmind Technologies Limited Neural networks for scalable continual learning in domains with sequentially learned tasks
US11544617B2 (en) 2018-04-23 2023-01-03 At&T Intellectual Property I, L.P. Network-based machine learning microservice platform
US10565475B2 (en) * 2018-04-24 2020-02-18 Accenture Global Solutions Limited Generating a machine learning model for objects based on augmenting the objects with physical properties
US11887003B1 (en) * 2018-05-04 2024-01-30 Sunil Keshav Bopardikar Identifying contributing training datasets for outputs of machine learning models
US11645509B2 (en) 2018-09-27 2023-05-09 Salesforce.Com, Inc. Continual neural network learning via explicit structure learning
US11922323B2 (en) * 2019-01-17 2024-03-05 Salesforce, Inc. Meta-reinforcement learning gradient estimation with variance reduction
KR20200100302A (ko) * 2019-02-18 2020-08-26 삼성전자주식회사 신경망 기반의 데이터 처리 방법, 신경망 트레이닝 방법 및 그 장치들
CN111985637A (zh) * 2019-05-21 2020-11-24 苹果公司 具有多个处理任务的条件执行的机器学习模型
CN112054863B (zh) * 2019-06-06 2021-12-21 华为技术有限公司 一种通信方法及装置
KR20210010284A (ko) 2019-07-18 2021-01-27 삼성전자주식회사 인공지능 모델의 개인화 방법 및 장치
CN113811895A (zh) * 2019-07-18 2021-12-17 三星电子株式会社 用于人工智能模型个性化的方法和装置
US11823058B2 (en) * 2019-09-20 2023-11-21 Google Llc Data valuation using reinforcement learning
US11531831B2 (en) * 2019-09-30 2022-12-20 Meta Platforms, Inc. Managing machine learning features
US20210150345A1 (en) * 2019-11-14 2021-05-20 Qualcomm Incorporated Conditional Computation For Continual Learning
US11475239B2 (en) * 2019-11-21 2022-10-18 Paypal, Inc. Solution to end-to-end feature engineering automation
CN112836714B (zh) * 2019-11-22 2024-05-10 杭州海康威视数字技术股份有限公司 一种智能模型的训练方法及装置
CN111079938B (zh) * 2019-11-28 2020-11-03 百度在线网络技术(北京)有限公司 问答阅读理解模型获取方法、装置、电子设备及存储介质
US11562203B2 (en) 2019-12-30 2023-01-24 Servicenow Canada Inc. Method of and server for training a machine learning algorithm for estimating uncertainty of a sequence of models
WO2021137100A1 (en) * 2019-12-30 2021-07-08 Element Ai Inc. Method of and server for training a machine learning algorithm for estimating uncertainty of a sequence of models
CN113132765A (zh) * 2020-01-16 2021-07-16 北京达佳互联信息技术有限公司 码率决策模型训练方法、装置、电子设备及存储介质
KR20210096342A (ko) 2020-01-28 2021-08-05 주식회사 딥바이오 뉴런-레벨 가소성 제어를 통해 파국적인 망각을 극복하기 위한 방법 및 이를 수행하는 컴퓨팅 시스템
US11631030B2 (en) * 2020-02-11 2023-04-18 International Business Machines Corporation Learning with moment estimation using different time constants
CN111814462B (zh) * 2020-07-09 2021-02-09 四川大学 基于动态正则化的高效终身关系提取方法及系统
CN112001181B (zh) * 2020-07-17 2024-02-13 北京百度网讯科技有限公司 多语言语义表示模型的训练方法、装置、设备及存储介质
US11694038B2 (en) * 2020-09-23 2023-07-04 Capital One Services, Llc Systems and methods for generating dynamic conversational responses through aggregated outputs of machine learning models
US20220114439A1 (en) * 2020-10-08 2022-04-14 Here Global B.V. Method, apparatus, and system for generating asynchronous learning rules and/architectures
CN112698933A (zh) * 2021-03-24 2021-04-23 中国科学院自动化研究所 在多任务数据流中持续学习的方法及装置
WO2023199479A1 (ja) * 2022-04-14 2023-10-19 日本電信電話株式会社 学習装置、学習方法、および、学習プログラム
KR102510756B1 (ko) * 2022-09-07 2023-03-16 서울대학교병원 수술 중 또는 수술 후 뇌졸중 예측 장치 및 방법
CN115952851A (zh) * 2022-11-04 2023-04-11 电子科技大学 一种基于信息丢失机制的自监督连续学习方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005523527A (ja) 2002-04-19 2005-08-04 コンピュータ アソシエイツ シンク,インコーポレイテッド ローカルネットを介しての自動的モデルメインテナンス

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1173405A (ja) * 1997-08-27 1999-03-16 Nippon Telegr & Teleph Corp <Ntt> 神経回路網型逐次学習方法、神経回路網型逐次学習装置および神経回路網型逐次学習プログラムを記録した記録媒体
US9146546B2 (en) * 2012-06-04 2015-09-29 Brain Corporation Systems and apparatus for implementing task-specific learning using spiking neurons
US9031897B2 (en) * 2012-03-23 2015-05-12 Nuance Communications, Inc. Techniques for evaluation, building and/or retraining of a classification model
US9104961B2 (en) * 2012-10-08 2015-08-11 Microsoft Technology Licensing, Llc Modeling a data generating process using dyadic Bayesian models
US10289962B2 (en) * 2014-06-06 2019-05-14 Google Llc Training distilled machine learning models
US10002329B2 (en) * 2014-09-26 2018-06-19 Facebook, Inc. Selection and modification of features used by one or more machine learned models used by an online system
US20170132528A1 (en) * 2015-11-06 2017-05-11 Microsoft Technology Licensing, Llc Joint model training

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005523527A (ja) 2002-04-19 2005-08-04 コンピュータ アソシエイツ シンク,インコーポレイテッド ローカルネットを介しての自動的モデルメインテナンス

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Catastrophic forgetting in connections networks", TRENDS IN COGNITIVE SCIENCES vol. 3 no. 4(pp. 128-135), 1 April 1999
"Learning Without Forgetting", Springer International Publishing(pp. 614-629), 29 June 2016

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024071845A1 (ko) * 2022-09-28 2024-04-04 주식회사 메디컬에이아이 의료용 인공지능 모델의 구축 방법, 프로그램 및 장치

Also Published As

Publication number Publication date
KR20190028531A (ko) 2019-03-18
US20190236482A1 (en) 2019-08-01
EP3485432B1 (en) 2023-05-31
CN109690576A (zh) 2019-04-26
JP2019525329A (ja) 2019-09-05
DE202017007641U1 (de) 2024-01-24
WO2018017546A1 (en) 2018-01-25
EP4231197A1 (en) 2023-08-23
EP4231197B1 (en) 2024-04-24
EP3485432A1 (en) 2019-05-22
JP6824382B2 (ja) 2021-02-03

Similar Documents

Publication Publication Date Title
KR102242516B1 (ko) 복수의 기계 학습 태스크에 대해 기계 학습 모델들을 훈련
US11783182B2 (en) Asynchronous deep reinforcement learning
JP6963627B2 (ja) 畳み込みニューラルネットワークのためのニューラルアーキテクチャ検索
US10860920B2 (en) Distributional reinforcement learning
EP3516595B1 (en) Training action selection neural networks
EP3688675B1 (en) Distributional reinforcement learning for continuous control tasks
JP7258965B2 (ja) ニューラルネットワークを使用する強化学習のための行動選択
US20210201156A1 (en) Sample-efficient reinforcement learning
US20190354868A1 (en) Multi-task neural networks with task-specific paths
US11627165B2 (en) Multi-agent reinforcement learning with matchmaking policies
US11907837B1 (en) Selecting actions from large discrete action sets using reinforcement learning
EP3788549A1 (en) Stacked convolutional long short-term memory for model-free reinforcement learning
CN111598253A (zh) 使用教师退火来训练机器学习模型
US20220036186A1 (en) Accelerated deep reinforcement learning of agent control policies
CN111406267B (zh) 使用性能预测神经网络的神经架构搜索
WO2020237077A1 (en) Closed loop adaptive particle forecasting
CN111406267A (zh) 使用性能预测神经网络的神经架构搜索

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant