KR102191444B1 - 우선순위화된 경험 메모리를 사용한 신경 네트워크의 트레이닝 - Google Patents

우선순위화된 경험 메모리를 사용한 신경 네트워크의 트레이닝 Download PDF

Info

Publication number
KR102191444B1
KR102191444B1 KR1020187016565A KR20187016565A KR102191444B1 KR 102191444 B1 KR102191444 B1 KR 102191444B1 KR 1020187016565 A KR1020187016565 A KR 1020187016565A KR 20187016565 A KR20187016565 A KR 20187016565A KR 102191444 B1 KR102191444 B1 KR 102191444B1
Authority
KR
South Korea
Prior art keywords
piece
learning
data
empirical
neural network
Prior art date
Application number
KR1020187016565A
Other languages
English (en)
Other versions
KR20180091842A (ko
Inventor
톰 샤울
존 콴
데이빗 실버
Original Assignee
딥마인드 테크놀로지스 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 딥마인드 테크놀로지스 리미티드 filed Critical 딥마인드 테크놀로지스 리미티드
Publication of KR20180091842A publication Critical patent/KR20180091842A/ko
Application granted granted Critical
Publication of KR102191444B1 publication Critical patent/KR102191444B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Feedback Control In General (AREA)

Abstract

환경과 인터랙팅하는 강화 학습 에이전트에 의해 수행되는 액션들을 선택하기 위해 사용되는 신경 네트워크를 트레이닝 하기 위한, 컴퓨터 저장 매체 상에 인코딩된 컴퓨터 프로그램들을 포함하는, 시스템들, 방법들, 및 장치. 하나의 양태에서, 방법은 리플레이 메모리를 유지하는 단계를 포함하며, 리플레이 메모리는 강화 학습 에이전트가 환경과 인터랙팅한 결과로 인해 생성된 경험 데이터의 피스들을 저장한다. 신경 네트워크가 경험 데이터의 피스 상에서 트레이닝 되는 경우, 경험 데이터의 각 피스는 신경 네트워크 트레이닝의 예상되는 진행 정도의 척도인 각각의 예상 학습 진행도와 연관된다. 방법은 또한 상대적으로 높은 예상 학습 진행도를 갖는 경험 데이터의 선택 피스들에 우선순위를 매기고, 경험 데이터의 선택된 피스 상에서 신경 네트워크를 트레이닝 함으로써 리플레이 메모리로부터 경험 데이터의 피스를 선택하는 단계를 포함한다.

Description

우선순위화된 경험 메모리를 사용한 신경 네트워크의 트레이닝
본 명세서는 강화 학습에 관한 것이다.
강화 학습 시스템에서, 에이전트는 환경의 현재 상태를 특징짓는 관찰들을 수신하는 것에 응답하여 강화 학습 시스템에 의해 선택된 액션들을 수행함으로써 환경과 인터랙팅한다.
일부 강화 학습 시스템들은 신경 네트워크의 출력에 따라 주어진 관찰을 수신하는 것에 응답하여 에이전트에 의해 수행될 액션을 선택한다.
신경 네트워크들은 수신된 입력에 대한 출력을 예측하기 위해 비선형 유닛들의 하나 이상의 계층들을 이용하는 기계 학습 모델들이다. 일부 신경 네트워크들은 출력 계층 외에도 하나 이상의 숨겨진 계층들을 포함하는 심층 신경 네트워크들이다. 각 숨겨진 계층의 출력은 네트워크의 다음 계층, 즉 다음 숨겨진 계층 또는 출력 계층에 대한 입력으로 사용된다. 네트워크의 각 계층은 파라미터들 각각의 집합의 현재 값들에 따라 수신된 입력으로부터 출력을 생성한다.
일반적으로, 본 명세서에 게시된 발명의 하나의 혁신적 양태는 강화 학습 에이전트에 의해 수행되는 액션들을 선택하는데 사용되는 신경 네트워크를 트레이닝하는 방법으로 구현되며, 상기 강화 학습 에이전트는 환경으로 하여금 상태들을 전환하게 하는 액션들을 수행함으로써 상기 환경과 인터랙팅하며, 상기 방법은: 리플레이 메모리를 유지하는 단계, 상기 리플레이 메모리는 상기 강화 학습 에이전트가 상기 환경과 인터랙팅하는 결과로서 생성된 경험 데이터의 피스(piece)들을 저장하고, 상기 복수의 경험 데이터의 피스들은 상기 신경 네트워크가 상기 경험 데이터의 피스 상에서 트레이닝 되는 경우 상기 신경 네트워크의 상기 트레이닝으로 예상되는 진행 정도의 척도인 각각의 예상 학습 진행도(expected learning progress measure)를 각각 가지며; 경험 데이터의 피스들을 선택하기 위해 우선순위화함으로써 상기 리플레이 메모리로부터 경험 데이터의 피스를 선택하는 단계, 상기 경험 데이터는 상대적으로 높은 예상 학습 진행도들을 가지며; 및 상기 선택된 경험 데이터의 피스 상에서 상기 신경 네트워크를 트레이닝하는 단계를 포함한다.
이 양태의 다른 실시예들은 각각이 상기 방법들의 액션들을 수행하도록 구성된, 하나 이상의 컴퓨터 저장 디바이스들 상에 기록된 대응하는 컴퓨터 시스템들, 장치들 및 컴퓨터 프로그램들을 포함한다. 하나 이상의 컴퓨터들의 시스템은 시스템 상에 설치된 소프트웨어, 펌웨어, 하드웨어 또는 이들의 임의의 조합에 의해 특정한 동작들 또는 액션들을 수행하도록 구성될 수 있으며, 그것들은 동작 중에 시스템으로 하여금 액션들을 수행하게 할 수 있다. 하나 이상의 컴퓨터 프로그램들은 명령어들을 포함하는 것에 의해 특정한 동작들 또는 액션들을 수행하도록 구성될 수 있으며, 상기 명령어들은 데이터 처리 장치에 의해 실행될 때, 장치로 하여금 액션들을 수행하게 한다.
구현예들은 하나 이상의 다음의 구성들을 포함할 수 있다. 일부 구현예들에서, 상기 경험 데이터의 피스를 선택하는 단계는: (i) 높은 예상 학습 진행도들을 갖는 경험 데이터의 피스들이 상대적으로 낮은 예상 학습 진행도들을 갖는 경험 데이터의 피스들보다 높은 확률들을 갖도록 경험 데이터의 각 피스에 대한 각각의 확률을 결정하는 단계; 및 (ii) 상기 결정된 확률들에 따라 경험 데이터의 피스를 샘플링하는 단계를 포함한다.
일부 구현예들에서, 경험 데이터의 피스 i에 대한 상기 확률 P(i)는:
Figure 112018057110175-pct00001
를 만족하며, α는 미리 결정된 상수이고, k는 상기 리플레이 메모리 내의 상기 경험 데이터의 피스들에 걸친 범위들이며, pi는 상기 경험 데이터의 피스 i에 대한 상기 예상 학습 진행도로부터 유도된 상기 경험 데이터의 피스 i에 대한 우선순위이다.
일부 구현예들에서, 상기 우선순위는 예상 학습 진행도에 상수 값을 더한 것이다. 일부 구현예들에서, 상기 우선순위는 분자로써 미리 결정된 양의 값을, 분모로써 예상 학습 진행도들에 따른 상기 리플레이 메모리 내의 상기 경험 데이터의 피스들의 랭킹 중 상기 경험 데이터의 피스의 랭킹을 갖는 분수이다. 일부 구현예들에서, 상기 우선순위는 아직 트레이닝에 사용되지 않았던 경험 데이터의 피스에 대해 최대 값으로 세팅된다.
일부 구현예들에서, 경험 데이터의 각 피스는 경험 튜플이며, 상기 튜플은 상기 환경의 각각의 현재 상태를 특징짓는 각각의 현재 관찰, 상기 현재 관찰에 응답하여 상기 에이전트에 의해 수행되는 각각의 현재 액션, 상기 환경의 각각의 다음 상태를 특징짓는 각각의 다음 상태, 및 상기 현재 액션을 수행하는 상기 에이전트에 응답하여 수신된 보상을 포함한다.
일부 구현예들에서, 상기 선택된 경험 데이터의 피스 상에서 상기 신경 네트워크를 트레이닝하는 단계는: 상기 선택된 경험 튜플에 대한 시간적 차이 학습 에러를 결정하는 단계; 및 상기 신경 네트워크의 상기 파라미터들의 값들을 조정할 때 상기 시간적 차이 학습 에러를 사용하는 단계를 포함한다.
일부 구현예들에서, 상기 파라미터들의 상기 값들을 조정할 때 상기 시간적 차이 학습 에러를 사용하는 단계는: 상기 선택된 경험 튜플에 대한 상기 예상 학습 진행도를 사용하여 상기 시간적 차이 학습 에러에 대한 가중치를 결정하는 단계; 상기 가중치를 사용하여 상기 시간적 차이 학습 에러를 조정하는 단계; 및 상기 조정된 시간적 차이 학습 에러를 신경 네트워크의 상기 파라미터들의 상기값들을 조정하기 위한 목표 에러로 사용하는 단계를 포함한다.
일부 구현예들에서, 상기 신경 네트워크의 상기 트레이닝 동안 상기 가중치를 계산하는데 사용된 지수를 어닐링하는 단계를 더 포함한다.
일부 구현예들에서, 상기 리플레이 메모리 내의 각 경험 튜플에 대한 상기 예상 학습 진행도는, 상기 경험 튜플이 상기 신경 네트워크를 트레이닝하는데 사용되었던 시간 이전에, 상기 경험 튜플에 대해 결정되었던 시간적 차이 학습 에러의 절대값이다.
일부 구현예들에서, 상기 리플레이 메모리 내의 각 경험 튜플에 대한 상기 예상 학습 진행도는, 상기 경험 튜플이 상기 신경 네트워크를 트레이닝하는데 사용되었던 시간 이전에, 상기 경험 튜플에 대해 결정되었던 시간적 차이 학습 에러의 절대 값의 미분 값이다.
일부 구현예들에서, 상기 리플레이 메모리 내의 각 경험 튜플에 대한 상기 예상 학습 진행도는 상기 신경 네트워크를 트레이닝하기 위해 상기 경험 튜플을 사용한 결과로부터 유도된 가중치 변화의 평균(norm)이다.
일부 구현예들에서, 상기 예상 학습 진행도들을 사용하여 상기 리플레이 메모리로부터 경험 데이터의 피스들을 언제 삭제할지를 결정하는 단계를 더 포함한다.
명세서에서 기술된 발명은 다음의 이점들 중 하나 이상을 실현하도록 특정한 실시예들에서 구현될 수 있다. 리플레이 메모리로부터의 트레이닝 데이터는 신경 네트워크를 트레이닝하기 위해 선택된 데이터의 값을 증가시키는 방식으로 선택될 수 있다. 이것은, 결국, 에이전트들에 의해 수행될 액션들을 선택하는데 사용되는 신경 네트워크의 트레이닝 속도를 증가시키고 해당 신경 네트워크들을 효과적으로 트레이닝하기 위해 필요한 트레이닝 데이터의 양을 감소시킨다. 따라서, 신경 네트워크들을 트레이닝 하는데 필요한 컴퓨팅 리소스들의 양이 감소될 수 있다. 예를 들어, 트레이닝 데이터를 저장하기 위해 필요한 메모리의 양이 감소될 수 있거나, 트레이닝 프로세스에 의해 사용되는 처리 리소스들의 양이 감소될 수 있거나, 또는 둘 모두일 수 있다. 신경 네트워크들의 트레이닝 속도 증가는 복잡한 강화 학습 과제들을 수행하는 에이전트들에 의해 수행될 액션들을 선택하기 위해 신경 네트워크들을 트레이닝 함에 있어 또는 트레이닝 하기가 어려운 복잡한 신경 네트워크들에 있어 특히 중요할 수 있다.
본 명세서의 발명의 하나 이상의 실시예들의 세부 사항들은 첨부된 도면들 및 이하의 기술(description)에서 설명된다. 발명의 다른 구성들, 양태들 및 이점들은 상세한 설명, 도면들 및 청구항들로부터 명백해질 것이다.
도 1은 강화 학습 시스템의 예시를 도시한다.
도 2는 리플레이 메모리를 사용하여 신경 네트워크를 트레이닝하기 위한 예시적 프로세스의 흐름도이다.
도 3은 경험 데이터의 결정된 확률들에 기초하여 경험 데이터를 샘플링하기 위한 예시적 프로세스의 흐름도이다.
도 4는 경험 튜플 상에서 신경 네트워크를 트레이닝하기 위한 예시적 프로세스의 흐름도이다.
다양한 도면들에서 동일한 참조 번호들 및 명칭들은 동일한 요소들을 표시한다.
본 명세서는 환경과 인터랙팅 하는 강화 학습 에이전트에 의해 수행될 액션들을 선택하는 강화 학습 시스템을 일반적으로 기술한다. 에이전트가 환경과 인터랙팅 하기 위해, 시스템은 환경의 현재 상태를 특징짓는 데이터를 수신하고, 수신된 데이터에 응답하여 에이전트에 의해 수행될 미리 결정된 액션들의 집합으로부터 액션을 선택한다. 환경의 상태를 특징짓는 데이터는 본 명세서에서 관찰로 지칭될 것이다.
일부 구현예들에서, 환경은 시뮬레이팅된 환경이며 에이전트는 시뮬레이팅된 환경과 인터랙팅 하는 하나 이상의 컴퓨터 프로그램들로 구현된다. 예를 들어, 시뮬레이팅된 환경은 비디오 게임일 수 있으며 에이전트는 비디오 게임을 하는 시뮬레이팅된 사용자일 수 있다. 다른 예시로써, 시뮬레이팅된 환경은 모션 시뮬레이션 환경, 예를 들어 주행 시뮬레이션 또는 비행 시뮬레이션일 수 있으며, 에이전트는 모션 시뮬레이션을 네비게이션하는 시뮬레이팅된 차량이다. 이러한 구현예들에서, 액션들은 시뮬레이팅된 사용자 또는 시뮬레이팅된 차량을 제어하기 위한 제어 입력들일 수 있다.
일부 다른 구현예들에서, 환경은 실제 환경이며 에이전트는 실제 환경과 인터랙팅 하는 기계식 에이전트이다. 예를 들어, 에이전트는 특정 작업을 완수하기 위해 환경과 인터랙팅 하는 로봇일 수 있다. 다른 예시로써, 에이전트는 환경을 네이게이션하는 자율 또는 반-자율 차량일 수 있다. 이러한 구현예들에서, 액션들은 로봇 또는 자율 차량을 제어하기 위한 제어 입력들일 수 있다.
도 1은 예시적 강화 학습 시스템(100)을 도시한다. 강화 학습 시스템(100)은 아래에 기술된 시스템들, 컴포넌트들, 및 기법들이 구현되는, 하나 이상의 위치들 내의 하나 이상의 컴퓨터들 상의 컴퓨터 프로그램들로 구현되는 시스템의 예시이다.
강화 학습 시스템(100)은 환경(104)과 인터랙팅 하는 강화 학습 에이전트(102)에 의해 수행될 액션들을 선택한다. 즉, 강화 학습 시스템(100)은 각 관찰이 환경(104)의 각각의 상태를 특징짓는 관찰들을 수신하며, 각 관찰에 응답하여, 상기 관찰의 응답으로 강화 학습 에이전트(102)에 의해 수행될 미리 결정된 액션들의 집합으로부터 액션을 선택한다. 에이전트(102)에 의해 수행된 일부 또는 모든 액션들의 응답으로, 강화 학습 시스템(100)은 보상을 받는다. 각 보상은 에이전트가 액션을 수행한 결과로써 환경(104)으로부터 수신된 수치 값이다. 즉, 보상은 에이전트(102)가 액션을 수행한 결과로써 환경(104)이 전환되는 상태에 따라 달라질 것이다. 특히, 강화 학습 시스템(100)은 액션 선택 신경 네트워크(110) 및 트레이닝 엔진(120)을 사용하여 에이전트(102)에 의해 수행될 액션들을 선택한다.
액션 선택 신경 네트워크(110)는 환경(104)의 상태에 관한 관찰을 입력으로써 수신하고 각 액션에 대한 각각의 Q 값, 즉, 관찰에 응답하여 에이전트(102)가 액션을 수행한 결과로 인한 예상된 리턴의 예측, 을 출력으로써 생성하는 신경 네트워크이다.
에이전트(102)가 환경(104)과 효과적으로 인터랙팅 하도록 하기 위해, 강화 학습 시스템(100)은 액션 선택 신경 네트워크(110)의 파라미터들의 트레이닝된 값들을 결정하기 위해 액션 선택 신경 네트워크(110)를 트레이닝하는 트레이닝 엔진(120)을 포함한다.
액션 선택 신경 네트워크의 트레이닝을 보조하기 위해, 훈련 엔진(120)은 리플레이 메모리(130)를 유지한다.
리플레이 메모리(130)는 에이전트(102) 또는 다른 에이전트와, 환경(104) 또는 액션 선택 네트워크(110)를 트레이닝하는데 사용하기 위한 환경의 다른 인스턴스(instance)와의 인터랙션 결과로써 생성된 경험 데이터 피스들을 저장한다.
트레이닝 엔진(120)은 리플레이 메모리(130)로부터 경험 데이터의 피스들을 반복적으로 선택하고, 선택된 경험 데이터의 피스들 상에서 액션 선택 신경 네트워크(110)를 트레이닝 함으로써 액션 선택 신경 네트워크(110)를 트레이닝 한다. 리플레이 메모리(130) 내의 경험 데이터를 사용하여 액션 선택 신경 네트워크(110)를 트레이닝하는 것은 도 2 및 도 3를 참조하여 보다 상세히 기술된다.
도 2는 리플레이 메모리를 사용하여 신경 네트워크를 트레이닝하는 예시적 프로세스(200)의 흐름도이다. 편의상, 프로세스(200)는 하나 이상의 위치들에 위치된 하나 이상의 컴퓨터들의 시스템에 의해 수행되고 있는 것으로 기술될 것이다. 예를 들어, 본 명세서에 따라 적절히 프로그래밍된 강화 학습 시스템, 예를 들어, 도 1의 강화 학습 시스템(100), 은 프로세스(200)를 수행할 수 있다.
시스템은 리플레이 메모리(202)를 유지한다. 리플레이 메모리는 에이전트가 환경과 인터랙팅한 결과로써 생성된 경험 데이터를 저장한다. 경험 데이터의 각 피스는 에이전트와 환경의 인터랙션에 관한 정보를 표현한다.
일부 구현예들에서, 경험 데이터의 각 피스는 경험 튜플이며, 상기 튜플은: (1) 한번에 환경의 각각의 현재 상태를 특징짓는 현재 관찰; (2) 상기 현재 관찰에 응답하여 에이전트에 의해 수행되는 현재 액션; (3) 에이전트가 현재 액션을 수행한 이후의 환경의 다음 상태, 즉, 에이전트가 현재 액션을 수행한 결과로써 환경이 전환되는 상태, 를 특징짓는 다음 관찰; 및 (4) 현재 액션을 수행하는 에이전트에 응답하여 수신된 보상을 포함한다.
또한, 시스템은 경험 데이터의 피스들 중 일부 또는 전부에 대한 예상 학습 진행도를 (리플레이 메모리 또는 별도의 저장 컴포넌트에) 유지한다. 경험 데이터의 피스와 연관된 예상 학습 진행도는, 신경 네트워크가 경험 데이터의 피스를 사용하여 트레이닝되는 경우, 신경 네트워크의 트레이닝의 예상되는 진행의 정도에 대한 척도이다. 달리 말해, 예상 학습 진행도는 신경 네트워크가 경험 데이터의 피스로부터 얼마나 많은 것을 학습할 것으로 기대할 수 있는지에 대한 표시이다.
일부 구현예들에서, 시스템은 경험 튜플에 대한 이전에 계산되었던 시간적 차이 에러, 즉 신경 네트워크를 트레이닝하는데 경험 튜플이 사용되었었던 이전 시간으로부터의 시간적 차이 에러, 에 기초하여 경험 튜플과 연관된 예상 학습 진행도를 결정한다. 경험 튜플에 대한 시간적 차이 에러를 결정하는 것은 도 3을 참조하여 아래에서 보다 상세히 기술된다.
일부 구현예들에서, 예상 학습 진행도는, 경험 튜플이 신경 네트워크를 트레이닝하는데 사용되었던 시간 이전에, 경험 튜플에 대해 결정되었던 시간적 차이 학습 에러의 절대 값이다. 일부 구현예들에서, 예상 학습 진행도는, 경험 튜플이 신경 네트워크를 트레이닝하는데 사용되었던 시간 이전에, 경험 튜플에 대해 결정되었던 시간적 차이 학습 에러의 절대 값의 미분 값이다.
일부 구현예들에서, 경험 튜플과 연관된 예상 학습 진행도는 경험 튜플에 대해 이전에 계산된 시간적 차이 학습 에러의 절대 값의 조정된 척도이다. 시간적 차이 에러들의 조정은, 이전에 계산된 시간적 차이 학습 에러의 절대 값이 동일한 두 개의 경험 튜플에 대해, 시간적 차이 학습 에러가 양수 값을 갖는 튜플이 더 높은 예상 학습 진행도를 갖게 되도록 구성된다.
일부 구현예들에서, 리플레이 메모리 내의 각 경험 튜플에 대한 예상 학습 진행도는 신경 네트워크를 트레이닝하기 위해 경험 튜플을 사용한 결과로부터 유도된 가중치 변화의 평균(norm)이다.
시스템은 리플레이 메모리로부터 경험 데이터의 피스를 선택한다(204). 경험 데이터의 피스를 선택함에 있어서, 시스템은 리플레이 메모리 내의 다른 경험 데이터의 다른 피스들과 관련하여 상대적으로 높은 예상 학습 진행도를 갖는 경험 데이터의 피스들의 선택을 우선시한다.
일부 구현예들에서, 시스템은 예상 학습 진행도들을 사용하여 경험 데이터 각 피스에 대한 각각의 확률을 결정하고, 결정된 확률들에 따라 경험 데이터의 피스를 샘플링한다. 결정된 확률들에 따라 경험 데이터를 샘플링하는 것은 도 3를 참조하여 아래에서 보다 상세히 기술된다.
시스템은 경험 데이터 선택된 피스 상에서 신경 네트워크를 트레이닝한다. 일부 구현예들에서, 시스템은 신경 네트워크 파라미터들의 값들을 조정하기 위해 경험 데이터의 선택된 피스를 사용한다. 경험 데이터 상에서 신경 네트워크를 트레이닝 하는 것은 도 4를 참조하여 아래에서 보다 상세히 기술된다.
일부 구현예들에서, 신경 네트워크의 트레이닝 동안, 시스템은 예상 학습 진행도들을 사용하여 리플레이 메모리로부터 경험 데이터의 피스들을 언제 삭제할지를 결정한다.
이러한 구현예들 중 일부에서, 시스템은 경험 데이터와 연관된 각각의 예상 학습 척도가 임계 값 아래로 떨어질 때 경험 데이터의 피스를 삭제할 것을 결정한다. 임계 값은 미리 결정된 상수 값 또는 메모리 리플레이 내의 경험 데이터 피스들의 예상 학습 척도들의 중심 경향, 예를 들어 평균 또는 중앙값, 의 척도에 대한 함수일 수 있다.
이러한 구현예들 중 다른 것들에서, 시스템은 경험 데이터의 예상 학습 진행도로부터 적어도 부분적으로 도출된 값이 (예를 들어, 경험 데이터의 피스에 대한 확률 또는 우선순위) 임계 값 아래로 떨어질 때 경험 데이터의 피스를 삭제할 것을 결정한다.
도 3은 경험 데이터의 결정된 확률들에 기초하여 경험 데이터를 샘플링하기 위한 예시적 프로세스(300)의 흐름도이다. 편의상, 프로세스(300)는 하나 이상의 위치들에 위치된 하나 이상의 컴퓨터들의 시스템에 의해 수행되는 것으로 기술될 것이다. 예를 들어, 본 명세서에 따라 적절히 프로그래밍된 강화 학습 시스템, 예를 들어, 도 1의 강화 학습 시스템(100), 은 프로세스(300)를 수행할 수 있다.
시스템은 경험 데이터의 각 피스에 대한 각각의 우선순위를 결정한다(302). 특히, 시스템은 경험 데이터 피스의 예상 학습 진행도에 기초하여 경험 데이터의 각 피스에 대한 우선순위를 결정한다.
일부 구현예들에서, 경험 데이터의 피스에 대한 우선순위는 경험 데이터 피스의 예상 학습 척도에 상수 값을 더한 것이다.
일부 다른 구현예들에서, 경험 데이터의 피스에 대한 우선순위는 분자로써 미리 결정된 양의 값을, 분모로써 예상 학습 진행도들에 따른 상기 리플레이 메모리 내의 상기 경험 데이터의 피스들의 랭킹 중 상기 경험 데이터의 피스의 랭킹을 갖는 분수이다.
일부 구현예들에서, 시간적 차이 학습 에러의 사전 척도 없이 새로운 경험 튜플이 리플레이 메모리에 추가될 때, 시스템은 튜플에 최대 우선순위를 할당한다, 즉, 시스템이 우선순위들을 결정하는 방법에 따라 임의의 경험 튜플에 대해 결정될 수 있는 최대 가능 우선순위인 우선순위를 경험 튜플에 할당한다. 이것은 시스템이 트레이닝에 모든 경험 튜플들을 적어도 한 번은 사용할 가능성을 증가시킨다.
시스템은 경험 데이터 각 피스에 대한 확률을 결정한다(304). 높은 예상 학습 진행도들을 갖는 경험 데이터의 피스들이 상대적으로 낮은 예상 학습 진행도들을 갖는 경험 데이터의 피스들보다 높은 확률들을 갖도록 하기 위해 시스템은 경험 데이터의 피스들에 대한 확률들을 세팅한다. 특히, 시스템은 경험 데이터의 피스에 대한 우선순위에 기초하여 경험 데이터 각 피스에 대한 확률을 결정한다.
일부 구현예들에서, 경험 데이터 i의 피스에 대한 확률 p(i)는:
Figure 112018057110175-pct00002
를 만족하며, α는 미리 결정된 상수이고, k는 리플레이 메모리 내의 경험 데이터의 피스들에 걸친 범위들이며, pi는 경험데이터의 피스 i에 대한 우선순위이다.
일부 구현예들에서, 상수 α는 경험 데이터의 피스들을 샘플링함에 있어 얼마나 많은 경험 데이터 피스들의 우선순위화가 사용되어야 하는지에 대한 척도이다. 이와 같이, α = 0 일 때, 어떤 우선순위화도 구현되지 않는다. α가 증가함에 따라, 경험 데이터 i의 피스에 대한 우선순위 pi는 경험 데이터의 피스에 대한 확률 P(i)를 결정함에 있어 더 중요한 인자가 된다.
시스템은 리플레이 메모리로부터 경험 데이터의 피스를 샘플링한다(306). 시스템은 경험 데이터 피스들의 결정된 확률들에 따라 샘플링을 수행한다. 일부 구현예들에서, 시스템은 가장 높은 결정된 확률들로 경험의 하나 이상의 피스들을 샘플링 한다. 일부 다른 구현예들에서, 시스템은 경험 데이터의 피스에 대해 결정된 확률과 동일한 확률로 경험 데이터의 각 피스를 샘플링 한다.
도 4는 경험 튜플 상에서 신경 네트워크를 트레이닝하기 위한 예시적 프로세스(400)에 대한 흐름도이다. 편의상, 프로세스(400)는 하나 이상의 위치들에 위치된 하나 이상의 컴퓨터들의 시스템에 의해 수행되는 것으로 기술될 것이다. 예를 들어, 본 명세서에 따라 적절히 프로그래밍된 강화 학습 시스템, 예를 들어, 도 1의 강화 학습 시스템(100), 은 프로세스(400)를 수행할 수 있다.
시스템은 경험 튜플에 대한 시간적 차이 학습 에러를 결정한다(402). 현재 경험 튜플과 연관된 시간적 차이 에러는: (i) 튜플에서의 현재 액션이 튜플에서의 현재 관찰에 응답하여 수행되는 경우, 신경 네트워크에 의해 결정된 현재 예상 리턴; 및 (ⅱ) 다음: (a) 튜플에서의 다음 관찰에 응답하여 다음 액션이 수행되는 경우, 시간 할인된 다음 예상 리턴 및 (b) 튜플에서의 보상의 합과의 차이일 수 있다.
시스템이 다음 액션을 선택하고 다음 예상 리턴을 결정하는 방식은 신경 네트워크를 트레이닝하기 위해 사용되고 있는 강화 학습 알고리즘에 따라 다르다. 예를 들어, 심층 Q 학습 기법에서, 시스템은 다음 액션으로써, 다음 관찰과 조합으로 목표 신경 네트워크에 대한 입력으로써 제공될 때, 가장 높은 Q 값을 출력하는 목표 신경 네트워크를 결과로 하며 목표 신경 네트워크에 의해 다음 리턴으로써 생성되는 다음 액션에 대한 Q 값을 사용하는 액션을 선택한다. 다른 예시로써, 이중 심층 Q 학습 기법에서, 시스템은 다음 액션으로써, 다음 관찰과 조합으로 목표 신경 네트워크에 대한 입력으로써 제공될 때, 가장 높은 Q 값을 출력하는 목표 신경 네트워크를 결과로 하며 목표 신경 네트워크에 입력으로 다음 액션과 다음 관찰을 제공하여 다음 리턴으로써 생성된 Q 값을 사용하는 액션을 선택한다. 또 다른 예시로써, Sarsa 학습 기법에서, 다음 액션은 다음 관찰에 응답하여 에이전트에 의해 실제로 수행되었던 액션이며, 다음 리턴은 목표 신경 네트워크에 입력으로 다음 액션 및 다음 관찰을 제공함으로써 생성된 Q 값이다. 목표 신경 네트워크는 액션 선택 신경 네트워크와 동일한 아키텍쳐를 갖는 신경 네트워크 이지만, 상이한 파라미터들을 가질 수 있다.
시스템은 시간적 차이 학습 에러에 대한 가중치를 결정한다(404). 일부 구현예들에서, 경험 튜플 i에 대한 시간적 차이 학습 에러에 대한 가중치 wi는:
Figure 112018057110175-pct00003
를 만족하며, N은 리플레이 메모리 내의 경험 튜플들의 수이고, P(i)는 경험 튜플 i에 대한 확률이며, β는 바이어스 인자이다.
일부 구현예들에서, 바이어스 인자는 미리 결정된 상수 값이다. 일부 다른 구현예들에서, 시스템은 신경 네트워크의 트레이닝 동안 가중치 (예를 들어, 바이어스 인자 β)를 계산하는데 사용된 지수를 어닐링한다. 일부 구현예들에서, 시스템은 뉴럴 네트워크의 트레이닝 동안 지수를 미리 결정된 초기 값에서 1로 선형적으로 어닐링한다.
시스템은 가중치를 사용하여 시간적 차이 학습 에러를 조정한다 (406). 일부 구현예들에서, 시스템은 에러에 가중치를 곱함으로써 시간적 차이 학습 에러를 조정한다.
시스템은 신경 네트워크의 파라미터 값들을 조정함에 있어 조정된 시간적 차이 학습 에러를 사용한다(408). 일부 구현예들에서, 시스템은 조정된 시간적 차이 학습 에러를 종래의 강화 학습 기법, 예를 들어, Sarsa, 심층 Q-학습, 또는 이중 심층 Q-학습, 의 일부로써 신경 네트워크의 파라미터들의 값들을 조정하기 위한 목표 에러로 사용한다.
일부 구현예들에서, 시스템은 리플레이 메모리로부터 경험 데이터를 선택하고 트레이닝 동안 시간적 차이 학습 에러를 가중시키지 않을 때만 시간적 차이 학습 에러를 사용한다. 즉, 일부 구현예들에서, 도 4와 관련하여 상술된 바와 같이 조정된 시간적 차이 학습 에러를 사용하기보다는, 시스템은 대신에 파라미터 값들을 조정하기 위해 시간적 차이 학습 에러를 직접 사용한다.
본 명세서에서 기술된 발명의 실시예들, 기능 동작들은 디지털 전자 회로, 실체적으로 구현된 컴퓨터 소프트웨어 또는 펌웨어, 본 명세서에 게시된 구조들 및 그들의 구조적 등가물들을 포함하는 컴퓨터 하드웨어, 또는 그들 중 하나 이상의 조합들로 구현될 수 있다. 본 명세서에서 기술된 발명의 실시예들은 하나 이상의 컴퓨터 프로그램들, 즉 데이터 처리 장치에 의해 실행되거나 또는 데이터 처리 장치의 동작을 제어하도록 유형의 비휘발성 프로그램 캐리어 상에 인코딩된 컴퓨터 프로그램 명령어들의 하나 이상의 모듈들로 구현될 수 있다. 대안적으로 또는 추가로, 프로그램 명령어들은 데이터 처리 장치에 의한 실행에 적합한 수신기 장치로의 전송을 위한 정보를 인코딩하도록 생성된 기계로 생성된 전기, 광학, 또는 전자기 신호와 같은, 인위적으로 생성되고 전파된 신호 상에 인코딩 될 수 있다. 컴퓨터 저장 매체는 기계 판독가능 저장 디바이스, 기계 판독가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 디바이스, 또는 그들 중 하나 이상의 조합일 수 있다. 컴퓨터 저장 매체는, 그러나, 전파된 신호가 아니다.
"데이터 처리 장치"라는 용어는 데이터 처리를 위한 모든 종류의 장치들, 디바이스들 및 기계들 예를 들어, 프로그램 가능한 프로세서, 컴퓨터, 또는 다수의 프로세서들 또는 컴퓨터들을 포함한다. 상기 장치는 특수 목적 논리 회로, 예를 들어 FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)을 포함할 수 있다. 상기 장치는 하드웨어 이외에, 문제의 컴퓨터 프로그램을 위한 실행 환경을 제작하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제, 또는 그들 중 하나 이상의 조합을 구성하는 코드를 또한 포함할 수 있다.
컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 모듈, 소프트웨어 모듈, 스크립트, 또는 코드로 또한 지칭되거나 기술될 수 있음)은 컴파일된 또는 해석된 언어들, 또는 선언적 또는 절차적 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 작성될 수 있으며, 상기 컴퓨터 프로그램은 독립형 프로그램 또는 모듈, 컴포넌트, 서브루틴, 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 유닛을 포함하여, 임의의 형태로 배치될 수 있다. 컴퓨터 프로그램은 파일 시스템 내의 파일에 대응할 수 있지만, 반드시 그런 것은 아니다. 프로그램은 다른 프로그램들 또는 데이터, 예를 들어, 마크업 언어 문서에 저장된 하나 이상의 스크립트들, 를 보유한 파일의 일부분, 문제의 프로그램 전용 단일 파일, 또는 다수의 조정된 파일들, 예를 들어, 하나 이상의 모듈들, 하위 프로그램들, 또는 코드의 일부들을 저장하는 파일들, 에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터에서 또는 하나의 사이트에 있거나 여러 사이트에 걸쳐서 분산되어 있고 통신 네트워크로 상호접속된 다수의 컴퓨터들에서 실행되도록 배치될 수 있다.
본 명세서에서 사용되는, "엔진" 또는 "소프트웨어 엔진"은 입력과는 상이한 출력을 제공하는 소프트웨어로 구현된 입/출력 시스템을 지칭한다. 엔진은 라이브러리, 플랫폼, 소프트웨어 개발 키트(“SDK”), 또는 객체와 같이, 인코딩된 기능 블록일 수 있다. 각 엔진은 임의의 적합한 유형의 컴퓨팅 디바이스, 예를 들어 서버들, 모바일 폰들, 태블릿 컴퓨터들, 노트북 컴퓨터들, 뮤직 플레이어들, 전자 책 리더들, 랩탑들 또는 데스크탑 컴퓨터들, PDA들, 스마트폰들, 또는 다른 고정식 또는 휴대용 디바이스들, 상에서 구현될 수 있으며, 그것은 하나 이상의 프로세서들 및 컴퓨터 판독가능 매체를 포함한다. 추가로, 엔진들 중 2개 이상은 동일한 컴퓨팅 디바이스 또는 상이한 컴퓨팅 디바이스들 상에 구현될 수 있다.
본 명세서에 기술된 프로세스들 및 논리 흐름들은 입력 데이터를 조작하고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들을 실행하는 하나 이상의 프로그램 가능한 컴퓨터들에 의해 수행될 수 있다. 상기 프로세스들 및 논리 흐름들은 FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)과 같은 특수 목적 논리 회로에 의해 또한 수행될 수 있고, 장치는 특수 목적 논리 회로로 또한 구현될 수 있다.
컴퓨터 프로그램의 실행에 적합한 컴퓨터들은 예를 들어, 범용 또는 전용 목적 마이크로프로세서들, 또는 둘 모두, 또는 임의의 다른 종류의 중앙 처리 유닛에 기초할 수 있다. 일반적으로, 중앙 처리 유닛은 읽기-전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 요소들은 명령어들을 수행하거나 실행하기 위한 중앙 처리 유닛 및 명령어들과 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스들, 예를 들어, 자기, 광 자기 디스크들 또는 광학 디스크들, 로부터 데이터를 수신하거나 하나 이상의 대용량 저장 디바이스들로 데이터를 전송, 또는 둘 모두를 하도록 동작 가능하게 결합될 것이다. 그러나, 컴퓨터는 그러한 디바이스들을 가질 필요가 없다. 게다가, 컴퓨터는 다른 디바이스, 예를 들어, 모바일 전화기, 개인 휴대 정도 단말기(PDA), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, 위성 위치 확인 시스템(GPS) 수신기, 또는 휴대용 저장 디바이스, 예를 들어, 범용 직렬 버스(USB) 플래시 드라이브, 에 내장될 수 있다.
컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독가능 매체는 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스들을 포함하며, 상기 디바이스들은 반도체 메모리 디바이스들, 예를 들어, EPROM, EEPROM, 및 플래시 메모리 디바이스; 자기 디스크들, 예를 들어, 내부 하드 디스크들 또는 이동식 디스크들; 광 자기 디스크들; 및 CD-ROM 및 DVD-ROM 디스크들을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로에 의해 보충되거나 또는 특수 목적 논리 회로에 포함될 수 있다.
사용자와의 인터랙션을 제공하기 위해, 본 명세서에 기술된 발명의 실시예들은 예를 들면, CRT(cathode ray tube) 또는 LCD(liquid crystal display)모니터와 같은 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스 및 키보드 및 예를 들면, 사용자가 컴퓨터에 입력을 제공할 수 있는 마우스 또는 트랙볼과 같은 포인팅 디바이스를 갖는 컴퓨터 상에서 구현될 수 있다. 다른 종류의 디바이스들도 사용자와의 인터랙션을 제공하는데 또한 사용될 수 있다; 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백, 또는 촉각 피드백과 같은 감각 피드백일 수 있다; 그리고 사용자로부터의 입력은 음향, 스피치, 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 추가로, 컴퓨터는 사용자에 의해 사용되는 디바이스와 문서들을 전송하고 상기 디바이스로부터 문서들을 수신함으로써 예를 들어, 웹 브라우저로부터 수신된 요청들에 응답하여 사용자의 클라이언트 디바이스 상의 웹 브라우저에 웹 페이지들을 전송함으로써, 사용자와 인터랙팅할 수 있다.
본 명세서에 기술된 발명의 실시예들은 컴퓨팅 시스템에서 구현될 수 있으며, 상기 컴퓨팅 시스템은 백 엔드 컴포넌트, 예를 들어, 데이터 서버, 를 포함하거나, 또는 미들웨어 컴포넌트, 예를 들어, 애플리케이션 서버, 를 포함하거나, 또는 프런트 엔드 컴포넌트, 예를 들어, 그래픽 사용자 인터페이스 또는 사용자가 본 명세서에 기술된 발명의 구현과 인터랙팅할 수 있는 웹 브라우저를 가진 클라이언트 컴퓨터, 또는 하나 이상의 그러한 백 엔드, 미들웨어 또는 프런트 엔드 컴포넌트들의 이상의 임의의 조합을 포함한다. 시스템의 컴포넌트들은 예를 들어, 통신 네트워크와 같은, 디지털 데이터 통신의 매체 또는 임의의 형태에 의해 상호접속될 수 있다. 통신 네트워크들의 예시들은 근거리 통신망("LAN") 및 광역 통신망("WAN"), 예를 들어, 인터넷을 포함한다.
컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 전형적으로 통신 네트워크를 통해 인터랙팅 한다. 클라이언트와 서버의 관계는, 각각의 컴퓨들 상에서 작동하며 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들, 에 의해서 발생한다.
본 명세서는 많은 특정 구현 세부사항들을 포함하지만, 이들이 청구될 수 있는 범위 또는 발명에 대한 제한들로 해석되어서는 안되며, 오히려 특정한 실시예들에서 특정될 수 있는 구성들의 기술(description)들로 해석되어야 한다. 별도 실시예들의 컨택스트 내의 본 명세서에 기술된 일정 구성들은 단일 실시예 내의 조합으로 또한 구현될 수 있다. 반대로, 단일 실시예의 컨택스트에 기술된 다양한 구성들은 다수의 실시예들에서 개별적으로 구현되거나 또는 임의의 적합한 하위조합으로 또한 구현될 수 있다. 게다가, 구성들은 일정 조합들로 동작하는 것으로써 상기 기술되었고 심지어 초기적으로는 그와 같이 청구되었지만, 청구된 조합으로부터의 하나 이상의 구성들은 일부 경우들에서는 상기 조합으로부터 제거될 수 있고, 청구된 조합은 하위조합 또는 하위조합의 변형으로 유도될 수 있다.
유사하게, 동작들이 특정한 순서로 도면들에 도시되어 있지만, 바람직한 결과들을 달성하기 위해, 그러한 동작들이 도시된 특정한 순서 또는 순차적 순서로 수행되거나, 또는 도시된 모든 동작들이 수행될 것을 요구하는 것으로 이해되어서는 안 된다. 일정 상황들에서는, 멀티태스킹과 병렬 처리가 유리할 수 있다. 또한, 상술된 실시예들에서 다양한 시스템 컴포넌트들의 분리는 모든 실시예들에서 그러한 분리를 요구하는 것으로 이해되어서는 안 된다. 상기 기술된 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품에 함께 통합되거나 다수의 소프트웨어 제품들로 패키징 될 수 있다는 것을 이해하여야 한다.
발명의 특정한 실시예들이 기술되었었다. 다른 실시예들은 다음의 청구항들의 범위 내에 있다. 예를 들어, 청구항들에 열거된 액션들은 상이한 순서로 수행될 수 있으며 여전히 바람직한 결과들을 달성한다. 하나의 예시로써, 첨부된 도면에 도시된 프로세스들은 바람직한 결과들을 달성하기 위해 반드시 도시된 특정한 순서, 또는 순차적 순서를 요구하지 않는다. 일정 구현예들에서, 멀티태스킹 및 병렬 처리가 유리할 수 있다.

Claims (16)

  1. 강화 학습 에이전트에 의해 수행되는 액션들을 선택하는데 사용되는 신경 네트워크를 트레이닝하는 방법으로서, 상기 강화 학습 에이전트는 환경으로 하여금 상태들을 전환하게 하는 액션들을 수행함으로써 상기 환경과 인터랙팅하며, 상기 방법은:
    리플레이 메모리를 유지하는 단계, 상기 리플레이 메모리는 상기 강화 학습 에이전트가 상기 환경과 인터랙팅하는 결과로서 생성된 복수의 경험 데이터의 피스(piece)들을 저장하고, 각 경험 데이터의 피스는 각각의 예상 학습 진행도(expected learning progress measure)를 가지며;
    높은 예상 학습 진행도를 갖는 경험 데이터의 피스들을 선택하기 위해 우선순위화함으로써 상기 리플레이 메모리로부터 경험 데이터의 피스를 선택하는 단계, 상기 선택하는 단계는:
    상기 경험 데이터의 피스에 대한 각각의 예상 학습 진행도에 기초하여, 상기 리플레이 메모리의 상기 경험 데이터의 피스들 각각에 대해 각각의 확률을 결정하는 단계; 및
    상기 결정된 확률에 따라 상기 리플레이 메모리로부터 경험 데이터의 피스를 샘플링하는 단계를 포함하며;
    강화 학습 기법을 사용하여, 상기 선택된 경험 데이터의 피스에 대해 신경 네트워크를 트레이닝하는 단계, 상기 선택된 경험 데이터의 피스에 대해 신경 네트워크를 트레이닝하는 단계는 상기 선택된 경험 데이터의 피스에 대해 시간적 차이 학습 에러를 결정하는 단계를 포함하며;
    상기 시간적 차이 학습 에러의 절대값에 기초하여 상기 선택된 경험 데이터의 피스에 대해 업데이트된 예상 학습 진행도를 결정하는 단계; 및
    상기 리플레이 메모리에서, 상기 선택된 경험 데이터의 피스를 상기 업데이트된 예상 학습 진행도와 연관시키는 단계를 포함하는 것을 특징으로 하는 방법.
  2. 청구항 1에 있어서,
    상기 경험 데이터의 피스에 대한 각각의 예상 학습 진행도에 기초하여, 상기 리플레이 메모리의 상기 경험 데이터의 피스들 각각에 대해 각각의 확률을 결정하는 단계는:
    높은 예상 학습 진행도를 갖는 경험 데이터의 피스들이 낮은 예상 학습 진행도를 갖는 경험 데이터의 피스들보다 높은 확률을 갖도록 각 경험 데이터의 피스에 대해 각각의 확률을 결정하는 단계를 포함하는 것을 특징으로 하는 방법.
  3. 청구항 2에 있어서, 경험 데이터의 피스 i에 대한 상기 확률 P(i)는:
    Figure 112020034142336-pct00009

    를 만족하며, α는 미리 결정된 상수이고, k는 상기 리플레이 메모리 내의 경험 데이터의 상기 피스들에 걸친 범위들이며, pi는 상기 경험 데이터의 피스 i에 대한 상기 예상 학습 진행도로부터 유도된 상기 경험데이터의 피스 i에 대한 우선순위인 것을 특징으로 하는 방법.
  4. 청구항 3에 있어서, 우선순위는 상기 예상 학습 진행도에 상수 값을 더한 것을 특징으로 하는 방법.
  5. 청구항 3에 있어서, 상기 우선순위는 분자로써 미리 결정된 양의 값을, 분모로써 예상 학습 진행도들에 따른 상기 리플레이 메모리 내의 상기 경험 데이터의 피스들의 랭킹 중 상기 경험 데이터의 피스 i의 랭킹을 갖는 분수인 것을 특징으로 하는 방법.
  6. 청구항 3에 있어서, 상기 우선순위는 아직 트레이닝에 사용되지 않았던 경험 데이터의 피스에 대해 최대 값으로 세팅되는 것을 특징으로 하는 방법.
  7. 청구항 1에 있어서, 각 경험 데이터의 피스는 경험 튜플이며, 상기 경험 튜플은 상기 환경의 각각의 현재 상태를 특징짓는 각각의 현재 관찰, 상기 현재 관찰에 응답하여 상기 에이전트에 의해 수행되는 각각의 현재 액션, 상기 환경의 각각의 다음 상태를 특징짓는 각각의 다음 상태, 및 상기 현재 액션을 수행하는 상기 에이전트에 응답하여 수신된 보상을 포함하는 것을 특징으로 하는 방법.
  8. 청구항 7에 있어서, 상기 선택된 경험 데이터의 피스에 대해 신경 네트워크를 트레이닝하는 단계는:
    상기 신경 네트워크의 파라미터들의 값들을 조정할 때 상기 시간적 차이 학습 에러를 사용하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  9. 청구항 8에 있어서, 상기 파라미터들의 상기 값들을 조정할 때 상기 시간적 차이 학습 에러를 사용하는 단계는:
    상기 선택된 경험 튜플에 대한 상기 예상 학습 진행도를 사용하여 상기 시간적 차이 학습 에러에 대한 가중치를 결정하는 단계;
    상기 가중치를 사용하여 상기 시간적 차이 학습 에러를 조정하는 단계; 및
    상기 조정된 시간적 차이 학습 에러를 신경 네트워크의 상기 파라미터들의 상기 값들을 조정하기 위한 목표 에러로서 사용하는 단계를 포함하는 것을 특징으로 하는 방법.
  10. 청구항 9에 있어서, 상기 신경 네트워크의 상기 트레이닝 동안 상기 가중치를 계산하는데 사용된 지수를 어닐링하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  11. 삭제
  12. 청구항 7에 있어서, 상기 리플레이 메모리 내의 각 경험 튜플에 대한 상기 예상 학습 진행도는, 상기 경험 튜플이 상기 신경 네트워크를 트레이닝하는데 사용되었던 시간 이전에, 상기 경험 튜플에 대해 결정되었던 시간적 차이 학습 에러의 절대 값의 미분(derivative)임을 특징으로 하는 방법.
  13. 청구항 7에 있어서, 상기 리플레이 메모리 내의 각 경험 튜플에 대한 상기 예상 학습 진행도는 상기 신경 네트워크를 트레이닝하기 위해 상기 경험 튜플을 사용함으로써 유도된 가중치 변화의 평균(norm)임을 특징으로 하는 방법.
  14. 청구항 1에 있어서,
    상기 예상 학습 진행도들을 사용하여 상기 리플레이 메모리로부터 경험 데이터의 피스들을 언제 삭제할지를 결정하는 단계를 더 포함하는 것을 특징으로 하는 방법.
  15. 동작 가능한 하나 이상의 컴퓨터들 및 명령어들을 저장한 저장 디바이스들을 포함하는 시스템으로서, 상기 명령어들은 상기 하나 이상의 컴퓨터들에 의해 실행시, 상기 하나 이상의 컴퓨터들로 하여금 청구항 1 내지 10 또는 청구항 12 내지 14 중 어느 한 항의 상기 각각의 방법의 동작들을 수행하게 하는 것을 특징으로 하는 시스템.
  16. 명령어들이 인코딩된 컴퓨터 저장 매체로서, 상기 명령어들은 하나 이상의 컴퓨터들에 의해 실행될 때, 상기 하나 이상의 컴퓨터들로 하여금 청구항 1 내지 10 또는 청구항 12 내지 14 중 어느 한 항의 상기 각각의 방법의 동작들을 수행하게 하는 것을 특징으로 하는 컴퓨터 저장 매체.
KR1020187016565A 2015-11-12 2016-11-11 우선순위화된 경험 메모리를 사용한 신경 네트워크의 트레이닝 KR102191444B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201562254610P 2015-11-12 2015-11-12
US62/254,610 2015-11-12
PCT/US2016/061693 WO2017083767A1 (en) 2015-11-12 2016-11-11 Training neural networks using a prioritized experience memory

Publications (2)

Publication Number Publication Date
KR20180091842A KR20180091842A (ko) 2018-08-16
KR102191444B1 true KR102191444B1 (ko) 2020-12-15

Family

ID=57485888

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187016565A KR102191444B1 (ko) 2015-11-12 2016-11-11 우선순위화된 경험 메모리를 사용한 신경 네트워크의 트레이닝

Country Status (6)

Country Link
US (4) US10650310B2 (ko)
EP (1) EP3360086A1 (ko)
JP (2) JP6621923B2 (ko)
KR (1) KR102191444B1 (ko)
CN (4) CN117910544A (ko)
WO (1) WO2017083767A1 (ko)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3360086A1 (en) * 2015-11-12 2018-08-15 Deepmind Technologies Limited Training neural networks using a prioritized experience memory
CN109348707A (zh) * 2016-04-27 2019-02-15 纽拉拉股份有限公司 针对基于深度神经网络的q学习修剪经验存储器的方法和装置
EP3523760B1 (en) * 2016-11-04 2024-01-24 DeepMind Technologies Limited Reinforcement learning systems
KR102399535B1 (ko) * 2017-03-23 2022-05-19 삼성전자주식회사 음성 인식을 위한 학습 방법 및 장치
US20180314925A1 (en) * 2017-04-27 2018-11-01 Facebook, Inc. Systems and methods for sending notifications based on predicted effectiveness
CN107292392B (zh) * 2017-05-11 2019-11-22 苏州大学 基于深度带权双q学习的大范围监控方法及监控机器人
KR102391452B1 (ko) * 2017-06-02 2022-04-27 에스케이텔레콤 주식회사 신경망에 복수의 태스크를 순차 학습시키는 방법
US11604941B1 (en) * 2017-10-27 2023-03-14 Deepmind Technologies Limited Training action-selection neural networks from demonstrations using multiple losses
US11037056B2 (en) * 2017-11-21 2021-06-15 Distech Controls Inc. Computing device and method for inferring a predicted number of data chunks writable on a flash memory before wear out
US20190311042A1 (en) * 2018-04-04 2019-10-10 Didi Research America, Llc Intelligent incentive distribution
WO2019240047A1 (ja) * 2018-06-11 2019-12-19 Necソリューションイノベータ株式会社 行動学習装置、行動学習方法、行動学習システム、プログラム、及び記録媒体
US11735028B2 (en) 2018-06-12 2023-08-22 Intergraph Corporation Artificial intelligence applications for computer-aided dispatch systems
US11397888B2 (en) 2018-06-14 2022-07-26 Accenture Global Solutions Limited Virtual agent with a dialogue management system and method of training a dialogue management system
US10679613B2 (en) 2018-06-14 2020-06-09 Accenture Global Solutions Limited Spoken language understanding system and method using recurrent neural networks
JP7016295B2 (ja) * 2018-06-28 2022-02-04 三菱重工業株式会社 意思決定装置、無人システム、意思決定方法、及びプログラム
US11132211B1 (en) * 2018-09-24 2021-09-28 Apple Inc. Neural finite state machines
US20200097811A1 (en) * 2018-09-25 2020-03-26 International Business Machines Corporation Reinforcement learning by sharing individual data within dynamic groups
EP3834138B1 (en) * 2018-09-27 2024-06-26 DeepMind Technologies Limited Reinforcement learning neural networks grounded in learned visual entities
FR3087922A1 (fr) * 2018-10-31 2020-05-01 Amadeus S.A.S. Procédés et systèmes d'apprentissage de renforcement pour le contrôle d'inventaire et l'optimisation
US11199846B2 (en) * 2018-11-29 2021-12-14 Baidu Usa Llc Learning-based dynamic modeling methods for autonomous driving vehicles
US20200241542A1 (en) * 2019-01-25 2020-07-30 Bayerische Motoren Werke Aktiengesellschaft Vehicle Equipped with Accelerated Actor-Critic Reinforcement Learning and Method for Accelerating Actor-Critic Reinforcement Learning
KR102576157B1 (ko) 2019-02-22 2023-09-07 한국전자통신연구원 인공 신경망을 이용한 고속 객체 검출 방법 및 장치
CN110308873B (zh) * 2019-06-24 2023-04-07 浙江大华技术股份有限公司 一种数据存储方法、装置、设备及介质
US20220339787A1 (en) * 2019-07-01 2022-10-27 Kuka Deutschland Gmbh Carrying out an application using at least one robot
CN110414618B (zh) * 2019-08-05 2023-07-14 上海图趣信息科技有限公司 一种动态平衡分类数据的神经网络训练系统、方法及存储介质
US11574244B2 (en) 2019-09-12 2023-02-07 International Business Machines Corporation States simulator for reinforcement learning models
CN110738860B (zh) * 2019-09-18 2021-11-23 平安科技(深圳)有限公司 基于强化学习模型的信息控制方法、装置和计算机设备
KR102272501B1 (ko) * 2020-04-24 2021-07-01 연세대학교 산학협력단 분산 강화 학습 장치 및 방법
EP4268134A1 (en) * 2021-02-04 2023-11-01 DeepMind Technologies Limited Temporal difference scaling when controlling agents using reinforcement learning
CN113190542B (zh) * 2021-05-19 2023-02-24 西安图迹信息科技有限公司 一种电网用大数据清洗去噪方法、系统和计算机存储介质
US11385925B1 (en) * 2021-07-06 2022-07-12 Bank Of America Corporation System and method for provisioning hosted virtual desktop resources to remote users
WO2023212808A1 (en) * 2022-05-06 2023-11-09 Ai Redefined Inc. Systems and methods for managing interaction records between ai agents and human evaluators

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015054264A1 (en) * 2013-10-08 2015-04-16 Google Inc. Methods and apparatus for reinforcement learning
JP2018537775A (ja) 2015-11-12 2018-12-20 ディープマインド テクノロジーズ リミテッド 優先順位付けされた経験メモリを使用したニューラルネットワークの訓練

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6473851B1 (en) * 1999-03-11 2002-10-29 Mark E Plutowski System for combining plurality of input control policies to provide a compositional output control policy
US7003158B1 (en) * 2002-02-14 2006-02-21 Microsoft Corporation Handwriting recognition with mixtures of Bayesian networks
US10248675B2 (en) * 2013-10-16 2019-04-02 University Of Tennessee Research Foundation Method and apparatus for providing real-time monitoring of an artifical neural network
DK3535705T3 (da) * 2016-11-04 2022-05-30 Deepmind Tech Ltd Forstærkningslæring med hjælpeopgaver

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015054264A1 (en) * 2013-10-08 2015-04-16 Google Inc. Methods and apparatus for reinforcement learning
JP2018537775A (ja) 2015-11-12 2018-12-20 ディープマインド テクノロジーズ リミテッド 優先順位付けされた経験メモリを使用したニューラルネットワークの訓練

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Toward Off-Policy Learning Control with Function Approximation. Hamid Reza Maei et al. 2010.*

Also Published As

Publication number Publication date
KR20180091842A (ko) 2018-08-16
JP6828121B2 (ja) 2021-02-10
US20170140269A1 (en) 2017-05-18
CN117910545A (zh) 2024-04-19
US20200265312A1 (en) 2020-08-20
EP3360086A1 (en) 2018-08-15
CN117910543A (zh) 2024-04-19
JP6621923B2 (ja) 2019-12-18
JP2020047285A (ja) 2020-03-26
US10282662B2 (en) 2019-05-07
CN117910544A (zh) 2024-04-19
JP2018537775A (ja) 2018-12-20
US10650310B2 (en) 2020-05-12
US11568250B2 (en) 2023-01-31
CN108701252A (zh) 2018-10-23
US20180260707A1 (en) 2018-09-13
US20230244933A1 (en) 2023-08-03
WO2017083767A1 (en) 2017-05-18
CN108701252B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
KR102191444B1 (ko) 우선순위화된 경험 메모리를 사용한 신경 네트워크의 트레이닝
US11803750B2 (en) Continuous control with deep reinforcement learning
US11783182B2 (en) Asynchronous deep reinforcement learning
CN110235148B (zh) 训练动作选择神经网络
KR102172277B1 (ko) 듀얼 심층 신경 네트워크
JP6667674B2 (ja) 疑似カウントを使用する強化学習
US10860895B2 (en) Imagination-based agent neural networks
US11755879B2 (en) Low-pass recurrent neural network systems with memory
US11893480B1 (en) Reinforcement learning with scheduled auxiliary control
CN118246513A (zh) 训练动作选择神经网络

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant