KR20220137956A

KR20220137956A - 목적별 액션-가치 함수를 사용한 다목적 강화 학습

Info

Publication number: KR20220137956A
Application number: KR1020227030756A
Authority: KR
Inventors: 압바스 압둘말레키; 샌디 한 황
Original assignee: 딥마인드 테크놀로지스 리미티드
Priority date: 2020-02-07
Filing date: 2021-02-08
Publication date: 2022-10-12
Also published as: CN115066695A; US20230082326A1; EP4085392A1; JP7436688B2; JP2023512723A; WO2021156516A1

Abstract

강화 학습에 의해 신경망 시스템을 트레이닝시키는 방법이 제공되며, 신경망 시스템은 에이전트와 상호작용하는 환경의 상태를 특징짓는 입력 관찰을 수신하고 다음과 같은 정책에 따라 액션을 선택 및 출력하도록 구성된다. 복수의 목적을 만족시키는 것을 목적로 한다. 방법은 하나 이상의 궤적 세트를 획득하는 단계를 포함한다. 각 궤적은 환경의 상태, 상태에 대한 응답으로 이전 정책에 따라 에이전트가 환경에 적용한 작업 및 작업에 대한 보상 세트를 포함하며, 각 보상은 복수의 목적 중 해당 목적과 관련된다. 방법은 하나 이상의 궤적의 세트에 기초하여 복수의 목적 각각에 대한 액션-가치 함수를 결정하는 단계를 더 포함한다. 각 액션-가치 함수는 에이전트가 이전 정책에 따라 주어진 상태에 대한 응답으로 주어진 액션을 수행함으로써 발생하는 해당 목적에 따라 기대 수익을 나타내는 액션-가치를 결정한다. 방법은 복수의 목적에 대한 액션-가치 함수의 조합에 기초하여 업데이트된 정책을 결정하는 단계를 더 포함한다.

Description

목적별 액션-가치 함수를 사용한 다목적 강화 학습

본 명세서는 강화 학습에 관한 것이다.

강화 학습 시스템에서, 에이전트는 환경의 현재 상태를 특징짓는 관찰을 수신하는 것에 응답하여 강화 학습 시스템에 의해 선택된 액션(action, 행동)을 수행하여 환경과 상호 작용한다.

일부 강화 학습 시스템은 신경망의 출력에 따라 주어진 관찰을 수신하는 것에 응답하여 에이전트에 의해 수행될 액션을 선택한다. 신경망은 수신된 입력에 대한 출력을 예측하기 위해 하나 이상의 비선형 단위 계층을 사용하는 기계 학습 모델이다. 일부 신경망은 출력 계층 이외에 하나 이상의 은닉 계층을 포함하는 심층 신경망이다. 각 은닉 계층의 출력은 네트워크의 다음 계층, 즉 다음 은닉 계층 또는 출력 계층의 입력으로 사용된다. 네트워크의 각 계층은 개별 파라미터 세트의 현재 값에 따라 수신된 입력으로부터 출력을 생성한다.

본 명세서는 일반적으로 환경과 상호작용하는 강화 학습 에이전트에 의해 수행될 액션을 선택하는 강화 학습 시스템을 트레이닝하기 위한 방법을 기술한다. 이 방법은 잠재적으로 충돌할 수 있는 다수의 목적을 가진 강화 학습 시스템을 트레이닝하는데 사용될 수 있다.

일 양태에서, 강화 학습에 의해 신경망 시스템을 트레이닝하는 방법이 제공되며, 신경망 시스템은 에이전트와 상호 작용하는 환경의 상태를 특징짓는 입력 관찰을 수신하여 복수의 목적을 만족시키는 것을 목표로 하는 정책에 따라 액션을 선택 및 출력하도록 구성된다. 방법은 하나 이상의 궤적 세트를 획득하는 단계를 포함한다. 각 궤적은 환경의 상태, 상태에 응답하여 이전 정책에 따라 에이전트가 환경에 적용한 액션, 및 액션에 대한 보상 세트를 포함하고, 각 보상은 복수의 목적 중 해당 목적과 관련된다. 방법은 하나 이상의 궤적 세트에 기초하여 복수의 목적 각각에 대한 액션-가치(action-value) 함수를 결정하는 단계를 더 포함한다. 각 액션-가치 함수는 에이전트가 이전 정책에 따라 해당 상태에 응답하여 주어진 액션을 수행함으로써 발생될 해당 목적에 따른 기대 수익(return)을 나타내는 액션 가치를 결정한다. 방법은 복수의 목적에 대한 액션-가치 함수의 조합에 기초하여 업데이트된 정책을 결정하는 단계를 더 포함한다.

각각의 목적에 대한 별도의 액션-가치 함수를 결정함으로써, 본 명세서에 설명된 방법은 강화 학습 동안 경쟁 목적들의 균형을 효과적으로 맞출 수 있다. 액션-가치 함수는 개별 목적에 대한 액션 가치를 결합할 때 최적 가중치를 결정하는 것과 관련된 문제를 극복한다. 게다가, 별도의 액션-가치 함수는 각 목적에 대한 보상의 크기와 관련하여 스케일 불변성을 제공하므로 보상의 상대적 크기를 통해 학습을 지배하는 하나 이상의 목적을 피할 수 있다.

하나 이상의 궤적 세트는 저장소로부터 획득될 수 있거나(즉, 사전에 계산될 수 있음) 에이전트를 하나 이상의 상태에 적용함으로써 획득될 수 있다. 하나 이상의 궤적 세트는 복수의 궤적을 포함할 수 있으며, 이에 따라 배치(batch) 학습이 가능하다. 대안적으로, 온라인 학습의 일부로서 업데이트당 하나의 궤적이 제공될 수 있다.

"보상"이라는 용어가 본 명세서에서 논의되지만 이러한 보상은 부정적(negative)일 수 있다는 점에 유의해야 한다. 부정적인 보상의 경우, 이는 비용으로 동일하게 간주될 수 있다. 이 경우, 강화 학습 태스크의 전체 목적은 (기대 보상 또는 수익을 최대화하는 대신) 예상 비용을 최소화하는 것이다.

일부 구현에서, 각각의 액션-가치 함수는 이전 정책에 대한 잠재적인 상태-액션 쌍의 범위에 걸쳐 복수의 목적 중 대응하는 목적에 대한 액션-가치의 분포를 제공한다. 각 액션-가치 함수는 주어진 상태에 응답하여 주어진 액션을 선택할 때 해당 목적에 대한 예상 누적 할인 보상을 나타내는 액션-가치를 출력할 수 있다. 이 누적 할인 보상은 이전 정책에 따라 구현된 여러 후속 액션에 대해 계산될 수 있다. 각 목적에 대한 액션-가치 함수는 목적에 특정된(목적별) 액션-가치 함수로 간주될 수 있다.

일부 구현에서 업데이트된 정책을 결정하는 단계는 복수의 목적 내의 각 목적에 대한 목적별 정책을 결정하는 단계를 포함한다. 각각의 목적별 정책은 해당 목적에 대한 해당 액션-가치 함수에 기초하여 결정될 수 있다. 방법은 업데이트된 정책의 정책 파라미터 세트를 목적별 정책의 조합에 맞춤(피팅)으로써 업데이트된 정책을 결정하는 단계를 더 포함할 수 있다. 목적별 정책의 조합은 목적별 정책의 합계일 수 있다. 목적별 정책은 상태에 대한 액션의 확률 분포를 제공할 수 있기 때문에 본 명세서에서 액션 분포(액션-가치 함수와 혼동하지 말 것)라고도 지칭된다. 이러한 관점에서, 업데이트된 정책은 액션-가치 함수에서 도출된 목적별 정책의 조합을 통해 액션-가치 함수을 결합함으로써 결정될 수 있다. 그런 다음 정책은 목적별 정책의 조합에 맞춰진다.

목적별 정책의 조합을 통해 목적을 결합함으로써, 본 명세서에 설명된 방법론은 분포 공간에서 목적을 결합한다. 이는 보상 공간에서 (예를 들어, 다목적 보상 벡터를 단일 스칼라 보상으로 변환함으로써) 목적을 결합하는 것과 대비된다. 따라서 분포 공간에서 목적을 결합함으로써, 조합은 보상의 스케일에 불변한다. 업데이트된 정책에 대한 각 목적의 상대적 기여도는 목적별 정책 결정에 대한 제약 조건을 사용하여 확장될 수 있다.

일부 구현에서, 업데이트된 정책의 정책 파라미터 세트를 목적별 정책의 조합에 맞추는 것은 업데이트된 정책과 목적별 정책의 조합 간의 차이를 최소화하는 정책 파라미터 세트를 결정하는 것을 포함한다.

업데이트된 정책과 목적별 정책의 조합 간의 차이의 최소화는 업데이트된 정책과 이전 정책 간의 차이가 신뢰 영역 임계값을 초과하지 않도록 제한될 수 있다. 다시 말해서, 업데이트된 정책에 대한 정책 파라미터 세트는 업데이트된 정책과 이전 정책 간의 차이가 신뢰 영역 임계값을 초과할 수 없도록 제한될 수 있다. 신뢰 영역 임계값은 학습의 안정성을 향상시키기 위해 정책의 전반적인 변경을 제한하는 하이퍼파라미터로 간주될 수 있다.

본 명세서에서 논의된 정책 간의 차이는 쿨백-라이블러(Kullback-Leibler, KL) 분산(divergence) 또는 분포 간의 차이에 대한 임의의 다른 적절한 측정을 사용하여 계산될 수 있다.

일부 구현에서, 각각의 목적에 대한 목적별 정책을 결정하는 단계는 이전 정책과 관련하여 해당 목적에 대한 액션-가치 함수에 따라 기대 수익을 증가시키는 목적별 정책에 대한 목적별 정책 파라미터를 결정하는 단계를 포함한다.

일부 구현에서, 각각의 목적에 대한 목적별 정책을 결정하는 단계는 목적별 정책이 이전 정책과 해당 차이 임계값 이상으로 다르지 않을 수 있다는 제약 조건에 따라 이전 정책과 관련하여 해당 목적에 대한 액션-가치 함수에 따라 기대 수익을 최대화하는 목적별 정책에 대한 목적별 정책 파라미터를 결정하는 단계를 포함한다. 목적별 정책과 이전 정책 간의 차이는 쿨백-라이블러 분산 또는 분포 간의 차이에 대한 기타 적절한 측정에 기초하여 결정될 수 있다.

따라서, 각 목적별 정책은 해당 차이 임계값 이상으로 이전 정책과 차이가 나지 않는다는 제약 조건에 따라 결정될 수 있다. 해당 차이 임계값은 업데이트된 정책에 대한 해당 목적의 상대적 기여도를 나타내는 것으로 간주될 수 있다. 따라서, 업데이트된 정책에 대한 각 목적의 상대적 기여도는 해당 차이 임계값을 조정함으로써 조정될 수 있다. 즉, 각 목적 간의 상대적 가중치는 정책 업데이트에 대한 각 목적의 영향에 대한 제약 조건의 형태로 인코딩된다.

일부 구현에서 목적별 정책은 비-파마메트릭 정책이다. 이것은 대응하는 차이 임계값에 관한 제약 조건을 준수하면서 목적별 정책을 결정하는 것과 관련된 계산 복잡성을 줄인다. 이것은 제약된 최적화가 각 상태에 대해 닫힌 형태(closed form)로 풀릴 수 있기 때문이다.

각각의 목적별 정책(q_k(a│s))은 목적별 정책의 목적에 대한 스케일링된 액션-가치 함수로부터 결정될 수 있고, 여기서 스케일링된 액션-가치 함수는 목적에 대한 선호도에 의존하는 값에 의해 스케일링된다. 목적에 대한 선호도에 의존하는 값은 목적에 대한 차이 임계값에 의존할 수 있다. 목적에 대한 선호도에 의존하는 값은 차이 임계값에 의존하는 온도 파라미터(

)일 수 있다.

예를 들어, 각 목적별 정책(q_k(a│s))은 다음을 계산하여 결정될 수 있다.

여기서, N은 정규화 상수, k는 목적, a는 액션, s는 상태, π_old(a│s)는 이전 정책, Q_k(s,a)는 목적에 대한 액션-가치 함수, 그리고

는 온도 파라미터이다.

각각의 목적(k)에 대해, 온도 파라미터(

)는 아래 방정식을 푸는 것에 의해 결정될 수 있다.

여기서,

는 해당 목적에 대한 차이 임계값이고, 그리고 μ(s)는 방문 분포이다.

각각의 온도 파라미터는 경사 하강법을 통해 결정될 수 있다.

추가 구현에서, 강화 학습에 의해 신경망 시스템을 트레이닝하는 방법이 제공되며, 신경망 시스템은 에이전트와 상호작용하는 환경의 상태를 특징짓는 입력 관찰을 수신하여 복수의 목적을 만족시키는 것을 목표로 하는 정책에 따라 액션을 선택 및 출력하도록 구성된다. 방법은 하나 이상의 궤적 세트를 획득하는 단계와, 각각의 궤적은 환경의 상태, 상태에 응답하여 이전 정책에 따라 에이전트가 환경에 적용한 액션, 및 각각의 보상이 복수의 목적 중 대응하는 목적과 관련되는 액션에 대한 보상 세트를 포함한다. 방법은 하나 이상의 궤적 세트에 기초하여 복수의 목적 각각에 대한 확률 분포(예를 들어, 액션 분포 또는 상태-액션 분포)를 결정하는 단계를 더 포함할 수 있고, 각각의 확률 분포는 정책과 관련된 해당 목적에 따라 기대 수익을 증가시킬 액션 확률의 분포를 제공한다. 방법은 복수의 목적에 대한 확률 분포의 조합에 기초하여 업데이트된 정책을 결정하는 단계를 더 포함할 수 있다.

복수의 목적 각각에 대한 확률 분포를 결정하는 단계는 각각의 목적에 대해, 에이전트가 주어진 상태에서 이전 정책을 따랐을 때 발생할 해당 목적에 따른 기대 수익을 나타내는 값을 정의하는 가치 함수를 결정하는 단계와; 그리고 가치 함수에 기초하여 목적에 대한 확률 분포를 결정하는 단계를 포함할 수 있다.

각 확률 분포는 상태-액션 쌍의 확률 분포를 정의하는 상태-액션 분포일 수 있고, 각 목적에 대한 가치 함수는 에이전트가 주어진 상태에서 이전 정책을 따랐을 때 발생할 해당 목표에 따른 기대 수익을 나타내는 값을 정의하는 상태-가치 함수일 수 있다. 이것은 정책 학습(on-policy)에 적용될 수 있다.

대안적으로, 각 확률 분포는 상태에 대한 액션의 확률 분포를 정의하는 목적별 정책(액션 분포)이고, 가치 함수는 에이전트가 이전 정책에 따라 주어진 상태에 응답하여 주어진 액션을 수행함으로써 발생할 해당 목적에 따른 기대 수익을 나타내는 액션-가치 함수일 수 있다. 이는 정책 외 학습(off-policy)에 적용될 수 있다.

본 명세서에 설명된 방법은 하나 이상의 컴퓨팅 디바이스 및/또는 하나 이상의 컴퓨터 저장 매체를 통해 구현될 수 있다.

일 양태에서, 하나 이상의 컴퓨터와, 하나 이상의 컴퓨터에 의해 실행될 때 하나 이상의 컴퓨터로 하여금 동작들을 수행하게 하는 명령들을 저장하는 하나 저장 디바이스를 포함하는 시스템이 제공되며, 상기 동작들은 하나 이상의 궤적 세트를 획득하는 동작과, 각각의 궤적은 환경의 상태, 상태에 응답하여 이전 정책에 따라 에이전트가 환경에 적용한 액션, 및 각각의 보상이 복수의 목적 중 해당 목적과 관련되는 액션에 대한 보상 세트를 포함하고; 하나 이상의 궤적 세트에 기초하여 복수의 목적 각각에 대한 액션-가치 함수를 결정하는 동작과, 각각의 액션-가치 함수는 에이전트가 이전 정책에 따라 해당 상태에 응답하여 주어진 액션을 수행함으로써 발생될 해당 목적에 따른 기대 수익을 나타내는 액션 가치를 결정하고; 그리고 복수의 목적에 대한 액션-가치 함수의 조합에 기초하여 업데이트된 정책을 결정하는 단계를 포함한다.

일 양태에서, 하나 이상의 컴퓨터에 의해 실행될 때 하나 이상의 컴퓨터로 하여금 동작들을 수행하게 하는 명령들을 저장하는 하나 이상의 컴퓨터 저장 매체가 제공가 제공되며, 상기 동작들은 하나 이상의 궤적 세트를 획득하는 동작과, 각각의 궤적은 환경의 상태, 상태에 응답하여 이전 정책에 따라 에이전트가 환경에 적용한 액션, 및 각각의 보상이 복수의 목적 중 해당 목적과 관련되는 액션에 대한 보상 세트를 포함하고; 하나 이상의 궤적 세트에 기초하여 복수의 목적 각각에 대한 액션-가치 함수를 결정하는 동작과, 각각의 액션-가치 함수는 에이전트가 이전 정책에 따라 해당 상태에 응답하여 주어진 액션을 수행함으로써 발생될 해당 목적에 따른 기대 수익을 나타내는 액션 가치를 결정하고; 그리고 복수의 목적에 대한 액션-가치 함수의 조합에 기초하여 업데이트된 정책을 결정하는 단계를 포함한다.

에이전트가 환경과 상호작용하기 위해, 시스템은 환경의 현재 상태를 특징짓는 데이터를 수신하고 수신된 데이터에 응답하여 에이전트가 수행할 액션을 선택한다. 환경의 상태를 특징짓는 데이터는 본 명세서에서 관찰로 지칭될 것이다.

일부 애플리케이션에서 환경은 현실 세계 환경이고 에이전트는 현실 세계 환경과 상호작용하는 기계적 에이전트이다. 예를 들어, 에이전트는 특정 태스크(작업)를 수행하기 위해 환경과 상호 작용하는 로봇일 수 있다. 다른 예로서, 에이전트는 환경을 탐색하는 자율 또는 반자율 육상 또는 항공 또는 수상 차량일 수 있다. 이러한 구현에서, 액션은 로봇 또는 차량의 물리적 거동을 제어하기 위한 제어 입력일 수 있다.

일반적으로 관찰은 예를 들어 에이전트가 환경과 상호작용할 때 관찰을 캡처하기 위한 이미지, 객체 위치 데이터, 및 센서 데이터, 예를 들어 이미지, 거리 또는 위치 센서 또는 액추에이터의 센서 데이터 중 하나 이상을 포함할 수 있다. 로봇 또는 기타 기계적 에이전트 또는 차량의 경우, 관찰은 유사하게 하나 이상의 위치, 선형 또는 각속도, 힘, 토크 또는 가속도, 및 에이전트의 하나 이상의 부분의 전체 또는 상대 자세 중 하나 이상을 포함할 수 있다. 관찰은 1, 2 또는 3차원으로 정의될 수 있으며 절대 및/또는 상대적 관찰일 수 있다. 예를 들어 로봇의 경우, 관찰은 로봇의 현재 상태를 특징짓는 데이터, 예를 들어, 관절 위치, 관절 속도, 관절력, 토크 또는 가속도, 팔과 같은 로봇 부분 및/또는 로봇이 쥐고 있는 아이템의 전체 또는 상대 자세 중 하나 이상을 포함할 수 있다. 관찰에는 또한 예를 들어 모터 전류 또는 온도 신호와 같은 감지된 전자 신호, 및/또는 예를 들어 카메라 또는 라이다(LIDAR) 센서의 이미지 또는 비디오 데이터, 예를 들어 에이전트 센서로부터의 데이터 또는 환경에서 에이전트와 별도로 위치한 센서로부터의 데이터를 포함할 수 있다.

이러한 애플리케이션에서 액션은 로봇을 제어하기 위한 제어 입력, 예를 들어 로봇의 관절에 대한 토크 또는 더 높은 수준의 제어 명령; 또는 자율 또는 반자율 육상 또는 항공 또는 해상 차량을 제어하기 위한, 예를 들어 차량의 제어 표면 또는 기타 제어 요소에 대한 토크 또는 더 높은 수준의 제어 명령; 또는 예를 들어 모터 제어 데이터일 수 있다. 다시 말해서, 액션은 예를 들어 로봇의 하나 이상의 관절 또는 다른 기계적 에이전트의 부품에 대한 위치, 속도 또는 힘/토크/가속도 데이터를 포함할 수 있다. 액션 데이터는 이러한 액션에 대한 데이터 및/또는 모터 제어 데이터와 같은 전자 제어 데이터, 또는 보다 일반적으로 제어가 환경의 관찰된 상태에 영향을 미치는 환경 내에서 하나 이상의 전자 디자이스를 제어하기 위한 데이터를 포함할 수 있다. 예를 들어 자율 또는 반자율 육상 또는 항공 또는 해상 차량의 경우, 액션에는 내비게이션을 제어하기 위한 액션, 예를 들어 차량의 제동 및/또는 가속과 같은 조향 및 이동이 포함될 수 있다.

이러한 애플리케이션에서 목적 및 관련 보상/비용은 다음을 포함하거나 이에 기초하여 정의될 수 있다.

i) 하나 이상의 타겟 위치, 하나 이상의 타겟 자세 또는 하나 이상의 다른 타겟 구성에 접근하거나 달성하기 위한 하나 이상의 보상. 하나 이상의 보상은 이전에 언급된 관찰, 예를 들어 로봇 또는 차량 위치 또는 포즈 중 하나에 의존적이다. 예를 들어 로봇의 경우, 보상은 관절 방향(각도) 또는 속도, 엔드 이펙터(end-effector) 위치, 질량 중심 위치 또는 몸체 부위 그룹의 위치 및/또는 방향에 따라 달라질 수 있다.

ii) 하나 이상의 비용(예를 들어, 부정적인 보상)도 유사하게 정의될 수 있다. 부정적인 보상 또는 비용은 또한 액추에이터 또는 엔드 이펙터에 의해 가해지는 힘과 관련되거나 대신 연관될 수 있으며, 예를 들어 객체와 상호 작용할 때 임계값 또는 최대 적용된 힘에 따라 달라진다. 부정적인 보상은 또한 에너지 또는 전력 사용량, 과도한 동작 속도, 예를 들어 움직임을 제한하기 위한 하나 이상의 로봇 몸체 부위의 하나 이상의 위치에 따라 달라질 수 있다.

이러한 보상에 기초한 목적는 다른 선호도, 예를 들어 작업 영역이나 객체에 가해지는 힘과 같은 안전 관련 목적에 대한 높은 선호도와 연관될 수 있다.

로봇은 자율 또는 반자율 이동 차량일 수 있거나 그 일부일 수 있다. 그런 다음 유사한 목적이 적용될 수 있다. 또한 또는 대신에 이러한 차량은 이동하는 동안 에너지/전력 사용(예를 들어, 최대 또는 평균 에너지 사용); 이동 속도; 이동할 때 취해진 경로(예를 들어, 거리 또는 시간으로 측정된 두 지점 사이의 짧은 경로에 대해 더 긴 경로에 패널티를 주기 위해)에 의존하는 목적(보상)와 같은 차량의 물리적 이동과 관련된 하나 이상의 목덕을 가질 수 있다. 이러한 차량 또는 로봇은 예를 들어, 저장된 상품이나 제조 과정 중의 상품 또는 상품의 일부를 수집, 배치 또는 이동하는 창고, 물류 또는 공장 자동화와 같은 태스크를 수행하는데 사용될 수 있거나, 수행된 태스크는 패키지 배달 제어 태스크를 포함할 수 있다. 따라서 하나 이상의 목적은 이러한 태스크와 관련될 수 있고, 액션은 조향 또는 기타 방향 제어 액션과 관련된 액션을 포함할 수 있으며, 관찰은 다른 차량 또는 로봇의 위치 또는 움직임에 대한 관찰을 포함할 수 있다.

일부 다른 애플리케이션에서, 동일한 관찰, 액션 및 목적이 위에서 설명된 물리적 시스템/환경의 시뮬레이션에 적용될 수 있다. 예를 들어 로봇이나 차량은 실제 환경에서 사용되기 전에 시뮬레이션으로 트레이닝될 수 있다.

일부 애플리케이션에서 에이전트는 정적 또는 모바일 소프트웨어 에이전트, 즉 자율적으로 및/또는 태스크를 수행하기 위해 다른 소프트웨어 에이전트 또는 사람들과 함께 작동하도록 구성된 컴퓨터 프로그램일 수 있다. 예를 들어, 환경은 집적 회로 라우팅 환경일 수 있고 에이전트는 ASIC과 같은 집적 회로의 상호접속 라인을 라우팅하기 위한 라우팅 태스크를 수행하도록 구성될 수 있다. 목적(보상/비용)은 상호 연결 저항, 커패시턴스, 임피던스, 손실, 속도나 전파 지연, 물리적 라인 파라미터(예를 들어, 너비, 두께 또는 기하학), 및 설계 규칙과 같은 하나 이상의 라우팅 메트릭에 따라 달라질 수 있다. 목적는 라우팅된 회로의 글로벌 속성( 예를 들어, 컴포넌트(구성요소) 밀도, 작동 속도, 전력 소비, 재료 사용 또는 냉각 요구 사항)과 관련된 하나 이상의 목적을 포함할 수 있다. 관찰은 컴포넌트 위치 및 상호 연결에 대한 관찰일 수 있으며, 액션은 예를 들어 구성 요소 위치 또는 방향 및/또는 상호 연결 라우팅 액션(예를 들어, 상호 연결 선택 및/또는 배치 액션)을 정의하기 위한 컴포넌트 배치 액션을 포함할 수 있다.

일부 애플리케이션에서 에이전트는 전자 에이전트일 수 있고 관찰은 전류, 전압, 전력, 온도 및 기타 센서 및/또는 장비의 전자 및/또는 기계 항목의 기능을 나타내는 전자 신호와 같은 플랜트 또는 서비스 시설의 일부를 모니터링하는 하나 이상의 센서로부터의 데이터를 포함할 수 있다. 에이전트는 예를 들어 데이터 센터, 서버 팜, 그리드 주전원 또는 물 분배 시스템과 같은 시설, 또는 제조 츨랜트 또는 서비스 시설의 장비 항목을 포함하는 실제 환경에서 액션을 제어할 수 있다. 그런 다음 관찰은 플랜트 또는 시설의 운영과 관련될 수 있으며, 여기에는 장비에 의한 전력 또는 물 사용량의 관찰, 발전 또는 분배 제어의 관찰, 또는 자원 또는 폐기물 생산의 사용에 대한 관찰이 포함될 수 있다. 액션에는 플랜트/시설의 장비 항목에 대한 작돌 조건을 제어하거나 부과하는 액션 및/또는 플랜트/시설의 운영 설정을 변경(예를 들어, 플랜트/시설의 컴포넌트를 조정하거나 턴온/오프)하는 액션이 포함될 수 있다. (최대화 또는 최소화될) 목적에는 효율성 측정(예를 들어, 자원 활용); 환경에서 작동이 환경에 미치는 영향에 대한 측정값(예를 들어, 폐기물 출력); 전기 또는 기타 전력 소비; 난방/냉각 요구 사항; 시설의 자원 사용(예를 들어, 물 사용); 시설의 온도; 시설 내 항목의 특성 수 중 하나 이상이 포함될 수 있다

일부 애플리케이션에서, 환경은 데이터 패킷 통신 네트워크 환경일 수 있고, 에이전트는 통신 네트워크를 통해 데이터 패킷을 라우팅하기 위한 라우터를 포함할 수 있다. 액션은 데이터 패킷 라우팅 동작을 포함할 수 있으며, 관찰은 예를 들어 라우팅 경로 길이, 대역폭, 부하, 홉(hop) 수, 경로 비용, 지연, 최대 전송 단위(MTU) 및 안정성과 같은 라우팅 메트릭을 포함하는 라우팅 테이블의 관찰을 포함할 수 있다. 목적은 하나 이상의 라우팅 메트릭을 최대화하거나 최소화하기 위한 목적을 포함할 수 있다.

일부 다른 애플리케이션에서, 에이전트는 예를 들어, 모바일 디바이스 및/또는 데이터 센터에 있는 컴퓨팅 리소스 전반의 태스크 배포를 관리하는 소프트웨어 에이전트이다. 이러한 구현에서, 관찰에는 컴퓨팅 및/또는 메모리 용량 또는 인터넷 액세스 가능 리소스와 같은 컴퓨팅 리소스의 관찰이 포함될 수 있고, 액션은 특정 컴퓨팅 리소스에 태스크를 할당하는 것을 포함할 수 있다. 목적은 컴퓨팅 리소스 활용, 전력, 대역폭 및 계산 속도 중 하나 이상에 의존하는(예를 들어, 최대화 또는 최소화) 목적을 포함할 수 있다.

일부 다른 애플리케이션에서, 환경은 인터넷 또는 모바일 통신 환경이고 에이전트는 사용자에 대한 개인화된 추천을 관리하는 소프트웨어 에이전트이다. 관찰은 사용자가 취한 이전 행동(특징을 특징짓는)을 포함할 수 있고, 액션은 컨텐츠 아이템과 같은 아이템을 사용자에게 추천하는 액션을 포함할 수 있다. 목적은 사용자가 (컨텐츠) 아이템 추천에 대해 호의적으로 반응할 것으로 예상되는 가능성(우도), 하나 이상의 추천 아이템의 적합성에 대한 제약, 추천 아이템(들)의 비용 및 (선택적으로 시간 범위 내에서) 사용자가 받은 추천 수를 최대화하거나 최소화하기 위한 목적을 포함할 수 있다.

이전에 설명된 기능에 해당하는 특징은 또한 위의 시스템 및 컴퓨터 저장 매체와 관련하여 사용될 수 있다.

본 명세서에 기술된 주제는 다음 이점 중 하나 이상을 실현하기 위해 특정 실시예에서 구현될 수 있다. 본 명세서에 설명된 주제는 잠재적으로 충돌할 수 있는 다수의 목적이 있는 정책을 학습하기 위한 강화 학습 방법을 소개한다. 이는 목표별 액션-가치 함수를 결정함으로써 달성된다. 이러한 목적-특정(목적별) 함수를 활용함으로써, 본 명세서에 설명된 방법론은 스케일 불변인(즉, 주어진 목적에 대한 보상의 스케일(규모)이 목표 간의 상대적 가중치에 영향을 미치지 않는) 목적-특정 함수를 제공한다.

제안된 방법론의 스케일 불변성은 두 가지 주요 이점을 갖는다. 첫째는, 보상의 크기가 다양하기 때문에 시간이 지남에 따라 목적 간의 가중치를 조정할 필요가 없는 것이다. 이것은 에이전트가 트레이닝될 때 태스크를 더 잘 수행하여 시간이 지남에 따라 더 큰 보상을 얻을 가능성이 있는 강화 학습에서 특히 유리하다. 둘째는, 상대적으로 더 큰 보상을 가진 목적이 반드시 트레이닝을 지배하는 것은 아니라는 것이다. 게다가, 목적 스케일에 대한 가중치를 보상과 관련하여 불변하게 함으로써, 방법론은 시항하기 쉽고 다양한 보상 크기에 대한 가중치를 선택할 때 지속적인 시행착오를 피할 수 있다. (예를 들어, 비-파라메트릭 목표별 정책 사용을 통해) 계산 효율성의 개선을 제공하는 특정 구현이 본 명세서에서 제시된다.

설명된 기술의 일부 구현은 잠재적으로 충돌할 수 있는 다수의 상이한 목적을 고려하여 태스크를 수행하는 방법을 학습할 수 있다. 일부 선행 기술과 달리, 본 명세서에 설명된 기술은 시간이 지남에 따라 변할 수 있는 다양한 스케일의 보상 또는 패널티에에 적응적일 수 있다. 원칙적으로 설명된 기술은 MPO(최대 사후 정책 최적화)에 특히 유용하지만 액션-가치 함수(예를 들어, Q-값 함수)를 사용하는 모든 강화 학습 시스템에 적용될 수 있다. 설명된 기술을 사용하면 다수의 상이한 목적을 가진 강화 학습 시스템이 더 빠르고 안정적인 방식으로 학습할 수 있으므로 이전 시스템에 비해 메모리 및 컴퓨팅 요구 사항이 감소한다. 설명된 기술은 개별 액션과 실제의 고차원 연속 제어 태스크 모두에서 작동한다.

구현에서 선호도 변수(

)는 강화 학습 시스템의 결합된 액션 선택 정책의 업데이트에 목적이 기여하는 정도를 제어하기 위해 각 목적에 할당된다. 이것은 목적과 관련된 "온도"를 조정하는데 사용되며, 목적과 관련된 액션(Q) 값을 조정하는데 사용된다. 구현에서 "온도"는 전체 액션 선택 정책의 평가에 기여하는 액션의 다양성과 관련이 있다. 따라서 목적 간의 가중치는 보상의 스케일이 변경되거나 Q 함수가 고정적이지 않더라도 스케일 불변일 수 있다. 이를 통해 사용자는 다양한 목표 사이에서 우선순위를 설정할 수 있다.

본 명세서의 주제에 대한 하나 이상의 실시예의 세부사항은 첨부 도면 및 아래의 설명에 기재되어 있다. 주제의 다른 특징, 측면 및 이점은 설명, 도면 및 청구범위에서 명백해질 것입니다.

도 1은 강화 학습을 위한 예시적인 신경망 시스템을 도시한다.
도 2는 배열에 따른 다목적 강화 학습을 통한 트레이닝 방법을 도시한다.
도 3은 배열에 따른 2단계 정책 업데이트 절차를 포함하는 다목적 강화 학습을 통한 트레이닝 방법을 도시한다.
다양한 도면에서 유사한 참조 번호 및 명칭은 유사한 요소를 나타낸다.

본 명세서는 하나 이상의 에이전트가 다수의 경쟁 목적(목표)을 가진 태스크를 수행하는 것을 목표로 하는 위치를 학습하기 위한 기술을 설명한다. 이는 에이전트가 종종 경쟁 목적의 균형을 맞춰야 하는 현실 세계에서 일반적이다. 예를 들어, 로봇과 같은 자율 차량은 에너지 소비 또는 환경 손상을 최소화하면서(제1 목적) 태스크를 완료(제2 목적)해야 할 수 있다. 이러한 에이전트의 다른 예로는 공장 또는 플랜트 자동화 시스템 및 컴퓨터 시스템이 있다. 이러한 경우 에이전트는 로봇, 공장 또는 플랜트에 있는 장비 항목, 또는 예를 들어 하드웨어 항목에 대한 태스크 할당 또는 통신 네트워크의 데이터 라우팅을 제어하는 컴퓨터 시스템의 소프트웨어 에이전트일 수 있다.

본 명세서는 일반적으로 신경망을 사용하여 환경과 상호작용하는 강화 학습 에이전트에 의해 수행될 액션(action, 행동)을 선택하는 하나 이상의 위치에 있는 하나 이상의 컴퓨터 상의 컴퓨터 프로그램으로 구현된 강화 학습 시스템을 설명한다. 본 명세서는 또한 이러한 시스템이 신경망의 파라미터를 조정할 수 있는 방법을 설명한다.

환경과 상호작용하기 위해, 시스템은 환경의 현재 상태를 특징짓는 데이터를 수신하고 에이전트가 그 수신된 데이터에 응답하여 수행할 액션 공간, 즉 이산적인 액션 공간 또는 연속적인 액션 공간으로부터 액션을 결정한다. 환경의 상태를 특징짓는 데이터는 본 명세서에서 관찰(observation)로 지칭될 것이다. 에이전트는 환경의 상태 변경을 초래하는 선택된 액션을 수행한다.

일부 구현에서, 환경은 시뮬레이션 환경이고 에이전트는 시뮬레이션 환경과 상호작용하는 하나 이상의 컴퓨터로 구현된다. 예를 들어 로봇이나 차량은 실제 환경에서 사용되기 전에 시뮬레이션으로 트레이닝될 수 있다.

다른 구현에서, 환경은 실제 환경이고 에이전트는 실제 환경과 상호작용하는 기계적 에이전트이다. 예를 들어, 에이전트는 특정 태스크를 수행하기 위해 환경과 상호 작용하는 로봇이거나 환경을 탐색하는 자율 또는 반자율 차량일 수 있다. 이러한 경우, 관찰은 에이전트가 환경과 상호작용할 때 에이전트의 하나 이상의 센서(예를 들어, 카메라, 라이다(LIDAR) 센서, 온도 센서 등)에 의해 캡처된 데이터일 수 있다.

본 명세서에 설명된 특정 배열은 잠재적으로 상충되는 다수의 목적(다목적 강화 학습)을 갖는 강화 학습 시스템을 트레이닝하기 위한 방법을 제공한다.

전통적인 강화 학습(RL) 방법은 단일 스칼라 보상 함수를 최적화하기 위해 트레이닝 정책을 훌륭하게 수행한다. 그러나, 많은 실제 태스크에는 다수의 가능한 경쟁 목적이 포함된다. 예를 들어, 에너지 시스템의 제어는 성능과 비용의 절충(trade off)이 필요한데, 예를 들어 자율 주행 자동차의 제어는 연료 비용, 효율성 및 안전성을 절충해야 하고, 로봇 팔의 제어는 속도, 에너지 효율성 및 안전성을 절충해야 할 수 있다. 다목적(Multi-objective) 강화 학습(MORL) 방법은 이러한 문제를 해결하는 것을 목표로 한다. 한 가지 접근 방식은 목적 간의 선호도에 기초하여 다목적 보상 벡터를 (예를 들어, 볼록 조합을 취함으로써) 단일 스칼라 보상으로 변환한 다음 표준 RL을 사용하여 이 스칼라 보상을 최적화하는 스칼라화(scalarization)이다.

그러나, 종종 목적이 상이한 단위 및/또는 스케일(척도)로 정의되기 때문에 실무자가 목적 전반에 걸쳐 원하는 선호도에 대한 적절한 스칼라화를 선택하는 것은 어렵다. 예를 들어, 에이전트가 에너지 사용과 기계적 마모를 최소화하면서 태스크를 완료하기를 원한다고 가정하자. 태스크 완료는 희소한 보상 또는 진공 청소 로봇이 청소한 평방 피트 수에 해당할 수 있으며, 에너지 사용량과 기계적 마모를 줄이는 것은 전력 소비(kWh 단위) 및 액추에이터 노력(N 또는 Nm 단위)에 대한 패널티로 각각 시행될 수 있다. 실무자는 시행 착오를 통해 에이전트가 에너지 절약보다 실제로 태스크를 수행하는 것(따라서 유용함)을 우선시하도록 보장하는 스칼라화를 선택해야 한다.

이 문제를 극복하기 위해, 본 출원은 '추론으로서의 RL'(RL-as-inference) 관점으로부터 도출된 선호도를 인코딩하기 위한 스케일 불변(scale-invariant) 접근법을 제안한다. 본 명세서에 설명된 배열은 현재 정책을 개선하는 목적별 액션-가치 함수 및 액션 분포를 학습한다. 그런 다음, 이러한 절충점을 만드는 단일 업데이트된 정책을 얻기 위해, 지도(supervised) 학습이 이러한 액션 분포의 조합에 정책을 맞추는데(fit) 사용될 수 있다.

상대적인 목적에 가중치를 주기 위해, 스칼라화를 선택하는 대신에, 실무자는 목적별로 제약 조건(constraint)을 설정한다. 이러한 제약 조건은 예를 들어 각 목적별 분포와 현재 정책 간의 KL-분산을 제한함으로써 정책에 대한 각 목적의 영향을 제어할 수 있다. 제약 조건 값이 높을수록 목적이 미치는 영향이 커진다. 따라서, 목적보다 원하는 선호도는 이러한 제약 조건 값의 상대적 크기로 인코딩될 수 있다.

기본적으로, 스칼라화는 보상 공간에서 목적들을 결합한다. 반면에, 본 명세서에서 제안된 접근 방식은 분포 공간에서 목적들을 결합하여 보상 스케일(규모)에 불변하게 만든다. 원칙적으로, 이 접근 방식은 오프-정책이든 온-정책이든 관계없이 모든 RL 방법과 결합될 수 있다. 본 명세서에 설명된 특정 배열은 최대 사후 정책 최적화(MPO), 오프-정책 행위자 비평(off-policy actor-critic) RL 방법, 및 MPO의 온-정책 변형(on-policy variant)인 V-MPO와 결합한다. 이러한 두 가지 방법은 본 명세서에서 각각 다목적 MPO(MO-MPO) 및 다목적 VMPO(MO-V-MPO)로 지칭된다.

궁극적으로, 본 방법은 선호도의 스케일 불변(scale-invariant) 인코딩을 가능하게 하는 다목적 강화 학습(MORL)에 대한 분포 뷰를 제공한다. 이것은 MORL의 추론 관점에서 RL을 취함으로써 발생하는 이론적 기반 접근 방식이다. 경험적으로, MO-MPO의 메커니즘은 인기 있는 MORL 벤치마크 작업에서 모든 파레토-최적(Pareto-optimal) 정책을 찾는 것으로 분석 및 표시되었다. MO-MPO 및 MO-V-MPO는 여러 도전적인 고차원 연속 제어 도메인에서 다목적 태스크에 대한 스칼라화된 접근 방식을 능가한다.

도 1은 강화 학습을 위한 예시적인 신경망 시스템(100)을 도시한다. 신경망 시스템(100)은 후술되는 시스템, 컴포넌트 및 기술이 구현되는 하나 이상의 위치에 있는 하나 이상의 컴퓨터 상의 컴퓨터 프로그램으로 구현되는 시스템의 예이다.

신경망 시스템(100)은 환경에 적용하기 위해 에이전트(104)로 출력되는 액션(102)을 결정하는 액션 선택 정책 신경망(110)을 포함한다. 신경망 시스템(100)은 다수의 시간 단계(t)에 걸쳐 동작한다. 각각의 액션(a_t)(102)은 환경의 현재 상태(s_t)(106)를 특징짓는 관찰에 기초하여 결정된다. 환경의 초기 상태(s₀)(106)를 특징짓는 초기 관찰의 입력에 이어, 신경망 시스템(100)은 액션(a₀)(102)을 결정하고 이 액션(102)을 에이전트(104)로 출력한다. 에이전트(104)가 액션(102)을 환경(104)에 적용한 후, 업데이트된 상태(s₁)(106)의 관찰이 신경망(100)에 입력된다. 따라서 신경망(100)은 다수의 시간 단계(t)에 걸쳐 동작하여 입력 관찰(s_t)(106)에 응답하여 액션(a_t)(102)을 선택한다. 각각의 액션(a_t)(102)은 정책 파라미터(θ)의 세트에 의존하는 정책(

₎에 기초하여 결정된다. 하나의 배열에서, 액션 선택 정책 신경망(110)은 피드포워드 신경망이지만, 다른 유형의 신경망이 이용될 수 있다. 각 시간 단계에 대해, 이전 액션(a_t-1)에 대한 보상 세트(r_t)(108)가 또한 수신된다. 보상 세트(r_t)(108)는 각각의 목적에 대한 보상을 포함한다.

관찰은 환경 및/또는 기타 센서의 이미지 또는 환경의 입력 데이터를 포함할 수 있다. 이러한 관찰은 일반적으로 예를 들어 하나 이상의 컨볼루션 신경망 계층, 및/또는 하나 이상의 순환 신경망 계층에 의해 전처리된다.

시스템(100)은 또한 각 목적에 대해 수신된 보상(108)에 기초하여 정책의 파라미터를 업데이트하도록 구성된 트레이닝 엔진(120)을 포함한다. 신경망 시스템(100)을 트레이닝할 때, 시스템은 하나 이상의 시간 단계(t)에 걸쳐 동작하여, 각각의 액션(a_t)(102)에 대한 보상(r_t)(108)에 기초하여 정책 파라미터(θ)가 업데이트되기 전에 현재 상태(s_t)(108) 및 현재 정책(

)에 기초하여 하나 이상의 대응하는 액션(a_t)(102)를 선택하여 할 수 있다. 주어진 정책이 업데이트되기 전에 다수의 시간 단계에 적용되는 배치(batch) 트레이닝이 사용될 수 있다.

공식적으로, 현재의 배열(구성)은 다목적 마르코프 결정(Markov Decision) 프로세스(MO-MDP)에 의해 정의된 다목적 RL 문제를 적용한다. MO-MDP는 상태(s∈S) 및 액션(a∈A), 초기 상태 분포(p)(s₀), 및 액션(a_t)을 취할 때 상태(s_t)로부터 상태(s_t+1)로 변경될 확률을 정의하는 전환(transition) 확률(p(s_t+1│s_t;a_t))로 구성된다. 현재의 배열에서, 신경망 시스템(100)은 다중 목적을 적용한다. 따라서, 각 목적(k)에 대해 보상 함수

가 할당된다. 보상에 적용하기 위해 할인 계수(γ∈[0,1))가 제공된다. 정책(π_θ(a│s))은 θ로 파라미터화된 액션에 대한 상태 조건부 분포로서 정의된다. 전환 확률과 함께, 이는 상태 방문 분포(μ(s))를 발생시킨다.

목적별 보상 이외에도, 각 목적에 대해 액션-가치 함수(Q-함수)가 제공된다. 액션-가치 함수는 상태와 액션을 가치(value)에 매핑한다. 목적(k)에 대한 액션-가치 함수는 목적(k)에 대해 상태(s)에서 액션(a)을 선택한 다음 정책

을 따르를 때의 기대 수익(즉, 누적 할인 보상)으로 정의된다. 이 함수는 재귀 표현식

을 사용하여 나타낼 수 있으며, 여기서

는 목적(k)에 대한 π의 가치 함수이다.

트레이닝 동안, 시스템(100)은 최적의 정책을 식별하려고 시도한다. 모든 MO-MDP에는 비지배적(nondominated) 정책의 세트, 즉 파레토 프론트(Pareto front)가 있다. 적어도 하나의 다른 목적의 기대 수익을 감소시키지 않고 목적에 대한 기대 수익을 향상시키는 다른 정책이 없는 경우 정책은 비지배적이다. 선호 설정이 주어지면, 현재 방법론의 목표는 이러한 선호 설정을 충족하는 비지배 정책(π_θ)을 찾는 것이다. 현재 접근 방식에서, 제약 조건 설정은 특정 스칼라화와 직접적으로 일치하지 않지만 이러한 제약 조건 설정을 변경함으로써 정책의 파레토 프론트를 추적할 수 있다.

일반적으로, 트레이닝은 정책을 업데이트하는 2단계 접근 방식을 포함한다. 첫째로는, 액션 분포(목적별 정책)가 해당 액션-가치 함수에 기초하여 각 목적에 대해 결정된다. 그런 다음, 전체 정책이 그 액션 분포의 조합에 맞춰(피팅)진다.

도 2는 배열에 따른 다목적 강화 학습을 통한 트레이닝 방법을 도시한다. 이 방법은 강화 학습 문제를 2개의 하위 문제로 나누고 수렴할 때까지 반복한다.

1. 정책 평가: 정책(

)에 따라 Q-함수 추정

2. 정책 개선: Q-함수에 따라 정책 업데이트

알고리즘 1은 이 2단계 다목적 정책 개선 절차를 요약한다.

트레이닝 방법의 각 반복에서, 각 목적에 대한 액션-가치 함수가 결정되기 전에(220) 궤적 세트가 획득된다(210). 그런 다음 업데이트된 정책이 액션-가치 함수의 조합에 기초하여 결정된다(230). 이 방법은 종료 기준에 도달했는지 여부를 확인한다(240)(예를 들어, 고정된 반복 횟수가 수행되었거나 정책이 주어진 성능 수준을 충족함). 그렇지 않은 경우, 업데이트된 정책(

)에 따라 다른 반복이 수행된다. 그런 경우, 정책은 출력된다(250)(예를 들어, 로컬로 저장되거나 외부 디바이스, 예를 들어 정책을 구현하기 위한 에이전트로 전송됨).

각 궤적은 상태(st), 정책(

)에 따라 결정되고 환경에 적용되는 액션(a_t), 및 하나 이상의 시간 단계(t)(최대 총 N 시간 단계)에 걸쳐 해당 액션(a_t)에 대한 보상(r_t) 세트를 포함한다. 각 액션에 대한 보상(r_t) 세트에 있는 각 보상은 해당 목적과 관련된다. 각 보상은 외부 소스(예를 들어, 환경)에서 받거나 환경의 상태(s_t)에 기초하여(예를 들어, 대응하는 보상 함수에 기초하여) 결정될 수 있다. 또한, 총 에피소드 수를 정의하는 배치 크기(batch size)(L)에 따라 다수의 상이한 시작 상태(s₀)로부터 다수의 에피소드에 걸쳐 다수의 궤적이 획득될 수 있다.

각각의 목적(220)에 대한 액션-가치 함수를 결정할 때, 이것은 목적에 대한 이전 액션-가치 함수에 대한 업데이트일 수 있다. 이 결정/업데이트는 획득된 궤적에 기초(즉, 하나 이상의 궤적으로부터의 액션, 상태 및 보상에 기초)한다. 이 결정의 세부 사항은 아래에서 더 자세히 논의될 것이다.

다목적 정책 평가

신경망 시스템은 상태-액션 가치(Q) 함수를 학습하여 이전 정책(π_old)을 평가한다. Q-분해 접근 방식에 따라 별도의 Q-함수가 목적별로 트레이닝된다. 원칙적으로, 타겟 Q-값이 π_old(현재 업데이트 반복 이전의 정책)에 대해 계산되는 한 모든 Q-러닝 알고리즘이 사용될 수 있다.

일반적으로 Q-러닝은 액션-가치 함수의 근사치를 학습하는 것을 목표로 한다. 이를 달성하기 위해, φ_k에 의해 파라미터화된 각 목적(k)에 대한 Q-함수(

)를 학습하기 위해 트레이닝의 각 반복에서 다음의 업데이트가 적용될 수 있다.

여기서

는 상태(S), 액션(A) 및 보상(R) 벡터를 기반으로 하는 타겟 액션-가치 함수(타겟 Q-함수)이다. 타겟 Q-값은 할인된 보상의 합계의 추정치이다(예를 들어, 정책을 실행하여 얻은 하나 이상의 궤적으로부터 결정됨).

다양한 유형의 타겟 Q-함수가 존재하며, 현재 방법론에 동일하게 적용 가능g하다. 특정 구현에서, 리트레이스(Retrace) 목적은 다음과 같이 φ_k에 의해 파라미터화된 각 목적(k)에 대한 Q 함수

를 학습하는데 사용된다.

여기서

는 목적(k) 및 이전 정책(π_old)에 대한 Retrace 타겟이고, D는 수집된 전환(상태-액션 쌍)을 포함하는 재생 버퍼이다. 이렇게 하면 Retrace 타겟과 학습 중인 Q 함수 간의 평균 제곱 오차가 최소화된다.

이 구현에서, Retrace 타겟은 다음과 같다.

여기서,

이다.

중요도 가중치(c_z)는 다음과 같이 정의된다.

여기서 b(a_z|s_z)는 환경에서 궤적을 수집하는데 사용되는 행동(a behaviour) 정책을 나타낸다. j=t일 때, 방법은 (

)=1로 설정된다.

특정 구현에서, Q 함수에 대한 두 개의 네트워크는 각각 φ_k 및 φ'_k로 표시되는 파라미터를 사용하여 각 목적, 즉 하나의 온라인 네트워크와 하나의 타겟 네트워크에 대해 유지된다. 마찬가지로 각각 θ 및 θ'로 표시되는 파라미터를 사용하여 하나의 온라인 네트워크와 하나의 타겟 네트워크가 정책에 대해 유지될 수 있다. 타겟 네트워크는 온라인 네트워크에서 파라미터를 복사함으로써 고정된 단계 수마다 업데이트될 수 있다. 온라인 네트워크는 각 학습 반복에서 경사 하강법과 같은 적절한 업데이트 방법을 사용하여 업데이트될 수 있다. 타겟 정책 네트워크는 위에서 이전 정책(π_old)으로 지칭된다.

특정 구현에서, 행위자(actor)가 정기적으로 학습자로부터 정책 파라미터를 페치하고 환경에서 행동하여 이러한 전환을 재생 버퍼에 기록하는 비동기 행위자-학습자 설정이 사용될 수 있다. 이 정책은 행동(behavior) 정책으로 지칭된다. 학습자는 재생 버퍼의 전환을 사용하여 (온라인) Q 함수 및 정책을 업데이트한다. 이 방법론은 알고리즘 2에 상세히 도시되어 있다.

알고리즘 2는 주어진 정책(

)에 기초하여 궤적을 획득하는 방법이다. 시스템은 현재 정책(

)을 정의하는 현재 정책 파라미터(θ)를 페치한다. 그런 다음 시스템은 여러 시간 단계(T)에 걸쳐 일련의 궤적을 수집한다. 각 궤적(τ)은 상태(s_t), 액션(a_t) 및 각 시간 단계에 대한 보상(r) 세트를 포함한다. 보상(r) 세트는 각 목적에 대한 보상(r_k)을 포함한다. 시스템은 각 시간 단계에 대해, 현재 상태(s_t)와 현재 정책(

)에 기초하여 액션(a_t)을 결정하고, 보상 함수 세트

에 기초하여 수행되는 액션의 결과인 다음 상태(s_t+1)로부터 보상을 결정함으로써 궤적(τ)을 획득한다. 궤적(τ)은 에피소드의 수(L) 각각에 대해 얻어진다. 각 궤적(τ)은 재생 버퍼(D)에 저장된다. 그런 다음 저장된 궤적을 사용하여 각 목적에 대한 Q-함수를 업데이트한다.

다목적 정책 개선

이전 정책(π_old(a│s)) 및 관련 Q-함수(

)가 주어지면, 다음 단계는 주어진 방문 분포(μ(s))에 대한 이전 정책을 개선하는 것이다. 이것은 방문 분포에 대한 기대를 추정하기 위해 재생 버퍼에서 끌어옴으로써 달성될 수 있다. 이를 위해, 시스템은 각 Q-함수에 대한 액션 분포(목적별 정책)을 학습하고 이를 결합하여 다음 정책(π_new(a│s)를 획득한다.

도 3은 배열에 따른 2단계 정책 업데이트 절차를 포함하는 다목적 강화 학습을 통한 트레이닝 방법을 도시한다. 이 방법은 도 2의 방법과 대체로 일치하지만 정책 업데이트 단계는 다음 두 단계로 대체되었다.

1. 대응하는 액션-가치 함수에 기초하여 각 목적에 대한 액션 분포 결정(330).

2. 복수의 목적에 대한 액션 함수의 조합에 기초하여 업데이트된 정책 결정(335).

제1 단계(330)에서,

가 되도록 각각의 목적(k)에 대해 개선된 액션 분포 q_k(a│s)가 학습되고, 여기서 상태(s)는 방문 분포(μ(s))에서 가져온다(예를 들어, 재생 버퍼에서 가져옴). 즉, 개선된 액션 분포(q_k(a│s))는 액션 분포에 대한 Q-함수의 기대가 정책에 대한 Q-함수의 기대보다 크거나 같도록 학습된다.

제2 단계(335)에서, 개선된 분포(q_k)는 분포와 새로운 파라미터 정책 간의 차이를 최소화함으로써 (파라미터(θ_new) 갖는) 새로운 파라미터 정책(π_new)으로 결합되고 집약된다. 이것은 분포와 새로운 파라메트릭 정책 사이의 KL-분산을 최소화함으로써 달성될 수 있다.

여기서

은 목적(k)에 대한 액션 분포(q_k(a│s))와 정책(π_θ(a│s)) 간의 쿨백-라이블러(Kullback-Leibler) 분산이다. 이것은 각 분포(q_k)의 최대 가능성(likelihood) 추정치를 결정하는 지도 학습 손실이다. 다음으로 이 두 단계에 대해 더 자세히 설명한다.

목적별 액션 분포 획득(제1 단계)

목적별 개선된 액션 분포(q_k(a|s))를 획득하기 위해, 강화 학습 목적이 각 목적(Q_k)에 대해 최적화된다.

여기서

는 목적(k)에 대해 허용된 예상 KL 분산을 나타낸다. 이러한

는 목적에 대한 선호도를 인코딩하는데 사용된다. 보다 구체적으로,

는 정책 변경에 대한 목적(k)의 허용된 영향을 정의한다.

비-파라메트릭(nonparametric) 액션 분포(q_k(a│s))의 경우, 이 제한된 최적화 문제는 μ(s)에서 샘플링된 각 상태(s)에 대해 닫힌 형태로 풀릴 수 있다.

여기서 온도(

)는 다음의 볼록 이중 함수(convex dual function)를 풀어서 해당

에 기초하여 계산된다.

q_k(a│s)와 위의 적분을 평가하기 위해, 시스템은 재생 버퍼에서 L개의 상태를 가져올 수 있으며, 각 상태에 대해, 현재 정책(π_old)으로부터 M개의 액션을 샘플링할 수 있다. 실제로, 목적당 하나의 온도 파라미터(

)가 유지된다. 우리는

에서 몇 단계의 경사 하강법을 수행함으로써 이중 함수를 최적화하는 것이 효과적임을 발견했다. 방법은 이전 정책 반복 단계에서 찾은 솔루션(solution, 해)로 초기화된다.

는 양수여야 하므로,

>0을 유지하기 위해 각 경사 단계 후에 투영 연산자가 사용될 수 있다.

알고리즘 1에 도시된 바와같이, 각 목적에 대한 액션 분포(q_k(a│s))는 다음

을 계산하고, 최적화기(optimizer)를 사용하여 δ_ηk에 기초하여

를 업데이트한 다음 액션 분포(q_k(a│s))를 결정함으로써 계산될 수 있다.

제약 조건(

)은 목적보다 선호도를 인코딩하기 때문에 제약 조건을 잘 충족하면서 이 최적화 문제를 해결하는 것은 원하는 선호도를 충족하는 정책을 학습하는데 중요하다. 비-파라메트릭 액션 분포(q_k(a|s))의 경우 이러한 제약 조건이 정확히 충족될 수 있다. 대신 파라미터 형식으로 q_k(a|s)를 얻기 위해 모든 정책 경사 방법을 사용할 수 있다. 그러나, 파라메트릭 (q_k(a|s))에 대한 제한된 최적화를 해결하는 것은 정확하지 않으며 제약 조건이 잘 충족되지 않을 수 있으므로

를 사용하여 선호도를 인코딩하는데 방해가 된다. 더욱이, 파라메트릭 q_k(a│s)를 가정하려면 목적별로 함수 근사기(예를 들어, 신경망)를 유지해야 하므로 알고리즘의 복잡성이 크게 증가하고 확장성이 제한될 수 있다.

새로운 파라미터 정책 피팅(제2 단계)

이전 섹션에서는, 각 목적(k)에 대해, 개선된 액션 분포(q_k(a│s))(개선된 목적별 정책)를 획득하였다. 다음으로, 이러한 분포는 설정된 제약 조건(

)에 따라 목적을 절충(trades off)하는 단일 파라미터 정책을 얻기 위해 결합되어야 한다. 이를 위해, 이 방법은 제1 단계의 목적별 액션 분포에 파라미터 정책을 맞추는(fit) 지도 학습 문제를 해결한다(푼다),

여기서 θ는 정책 신경망의 파라미터이고, KL 제약 조건은 파라미터 정책의 전체 변경을 제한하는 크기(β)의 신뢰 영역을 적용한다. 이 단계에서 KL 제약 조건은 정책이 샘플-기반 액션 분포에 과적합(overfitting)되는 것을 방지하여 조기 수렴을 방지하고 학습의 안정성을 향상시키는 정규화 효과가 있다.

제1 정책 개선 단계와 유사하게, 적분은 재생 버퍼에서 샘플링된 L개의 상태와 이전 정책에서 샘플링된 상태별 M개의 액션을 사용하여 평가될 수 있다. 경사 하강법을 사용하여 위의 사항을 최적화하기 위해 라그랑지안 이완법(Lagrangian relaxation)이 구현될 수 있다.

알고리즘 1에 도시된 바와같이, 정책(π_θ(a│s))는 위의 정규화 제약 조건에 따라 다음 식을 계산함으로써 업데이트될 수 있다.

그런 다음 정책 파라미터는 최적화기를 사용하여 δ_π에 기초하여 (예를 들어, 경사 하강법을 통해) 업데이트될 수 있다.

온-정책(on-policy) 학습

위의 구현에서는 배치(batch) 학습에 대해 설명한다. 본 명세서에 설명된 방법론은 온-정책 학습에 동일하게 적용될 수 있다. 이 경우, 이전 정책(π_old)을 평가하기 위해 이점 A(s,a)는 오프-정책 구현에서와 같이 상태-액션 가치 함수(Q(s,a)) 대신 학습된 상태-가치 함수(V(s))로부터 추정된다. 각 목적에 대한 별도의 V-함수는 각 목적과 관련된 n-단계 리턴으로 회귀함으로써 트레이닝된다.

더 구체적으로, r_t가 모든 N개의 목적에 대한 보상으로 구성된 보상 벡터(

)를 나타내는 주어진 궤적 스니펫(snippets)인 τ={(s₀,a₀,r₀),..., (s_T,a_T,r_T)}가 주어지면, 가치 함수 파라미터(φ_k)는 아래의 목적을 최적화하여 찾는다.

여기서 G^(T)(s_t,a_t)는 궤적의 실제 보상을 사용하고 아래의 나머지에 대한 현재 가치 함수의 부트스트랩을 사용하는 가치 함수(k)에 대한 T-단계 목적이다.

. 그런 다음 이 이점은

A

로 추정된다.

이전 정책(π_old(a|s)) 및 각 목적에 대한 이 정책과 관련된 예상 이점

을 감안할 때, 목적은 이전 정책을 개선하는 것이다. 이를 위해, 이 방법은 먼저 각 목적에 대해 개선된 변동 분포(q_k(s,a))를 학습한 다음 변동 분포를 결합하여 새로운 파라미터 정책(π_new(a|s))으로 추출한다. 오프-정책 구현과 달리, 이 구현은 학습된 Q 함수가 없으면 상태당 하나의 액션만 학습에 사용할 수 있기 때문에 로컬 정책(q_k(s│a))보다는 공동(joint) 분포(q_k(s,a))를 사용한다. 각 공동 분포는 해당 목적이 주어지면 상태-액션 쌍의 확률을 제공한다.

개선된 변동 분포(q_k(s,a))를 얻기 위해, 이 방법은 각 목적에 대해 RL 목적을 최적화한다.

여기서 KL 분산은 모든 (s,a)에 대해 계산되고,

는 허용된 예상 KL 분산을 나타내고, p_old(s,a)=μ(s)π_old(a|s)는 π_old와 관련된 상태-액션 분포이다.

오프-정책 구현에서와 같이, 온-정책 구현은

를 사용하여 목적보다 선호도를 정의한다. 보다 구체적으로,

는 정책 변경에 대한 목적(k)의 허용 기여도를 정의한다. 따라서, 특정

가 다른 것에 비해 크면 클수록 목적(k)이 더 선호된다. 반면에,

=0이면, 목적(k)은 정책 변경에 기여하지 않으며 효과적으로 무시될 것이다.

위의 방정식은 닫힌 형태로 풀 수 있다.

여기서 온도(

)는 다음의 볼록 이중 문제를 해결함으로써 제약 조건(

)에 기초하여 계산된다.

에 대해 경사 하강 단계를 수행함으로써 손실과 함께 최적화가 수행될 수 있으며, 이것은 이전 정책 반복 단계에서 찾은 솔루션(해)으로 초기화할 수 있다.

는 양수여야 하므로 각 경사 단계 후에 투영 연산자를 사용하여

>0을 유지할 수 있다.

실제로, 각 데이터 배치에서 가장 큰 이점(예를 들어, 상위 50%)의 비율에 해당하는 샘플을 사용하여 트레이닝이 수행될 수 있다.

다음 단계는 이전 단계에서 획득된 상태-액션 분포를

에 의해 지정된 선호도에 따라 모든 목적을 선호하는 단일 파라미터 정책(π_new(a│s))으로 결합하고 집약하는 것이다. 이를 위해 다음과 같이 파라메트릭 정책에 맞는 지도 학습 문제가 해결될 수 있다.

여기서 θ는 이전 정책(π_old)의 가중치로부터 초기화된 함수 근사기(신경망)의 파라미터이고, KL 제약 조건은 학습의 안정성을 향상시키기 위해 파라메트릭 정책의 전체 변경을 제한하는 크기(β)의 신뢰 영역을 적용한다. 오프-정책 구현에서와 같이, 이 단계의 KL 제약 조건은 정책이 로컬 정책에 과적합되는 것을 방지하여 조기 수렴을 방지하는 정규화 효과가 있다.

위의 방정식을 최적화하기 위해, 라그랑지안 이완법이 사용될 수 있다.

ε _k 선택

스칼라화(scalarization) 가중치보다

를 통해 선호도를 인코딩하는 것이 더 직관적인데, 이는 전자는 보상 스케일(규모)에 불변하기 때문이다. 다시 말해, 목적 전반에 걸쳐 원하는 선호도를 갖는 것은

에 대한 합리적인 선택의 범위를 좁히지만, 스칼라화 가중치에 대한 합리적인 선택의 범위를 좁히지는 않는다. 합리적인 스칼라화 가중치를 식별하기 위해, RL 실무자는 각 목적에 대한 보상 규모에 추가로 익숙해야 한다. 실제로, 우리는 학습 성능이

에 대한 넓은 스케일 범위에 대해 강건하다는 것을 발견했다. 목적에 대한 선호도를 인코딩하는데 중요한 것은

의 상대적 스케일이며, 특정

가 다른 것에 비해 클수록 목적(k)가 더 선호된다. 반면에,

=0이면 목적(k)은 영향을 미치지 않으며 효과적으로 무시될 것이다. 일반적으로 특정 구현은 0.001 ~ 0.1 범위에서

를 적용한다.

모든 목적이 동등하게 중요할 때, 일반적인 규칙은 모든

를 동일한 값으로 설정하는 것이다. 대조적으로, 동일한 선호도를 인코딩하기 위해 선형 스칼라화에서 적절한 가중치를 선택하는 것은 어려울 수 있는데, 모든 가중치를 1/K(여기서 K는 목적의 수)로 설정하는 것은 목적의 보상이 유사한 스케일인 경우에만 적합하다.

모든

를 같은 값으로 설정하더라도,

의 절대값은 학습에 영향을 미친다.

가 클수록 목적이 정책 업데이트 단계에 미치는 영향이 커진다. 목적별 비평(critics)은 정책과 병행하여 학습되기 때문에,

를 너무 높게 설정하면 학습이 불안정해지는 경향이 있는데, 이는 트레이닝 초기에 비평이 신뢰할 수 없는 Q-값을 생성할 때 정책에 대한 비평의 영향이 잘못된 방향으로 이끌 것이기 때문이다. 반면에,

가 너무 낮게 설정되면 목적별 액션 분포가 현재 정책에서 약간만 벗어나도록 허용되고 업데이트된 정책이 이러한 액션 분포의 조합에 대한 지도 학습을 통해 획득되기 때문에 학습 속도가 느려진다. 그럼에도 불구하고,

가 너무 높게 설정되지 않는 한 학습은 결국 거의 동일한 정책으로 수렴된다.

목적에 따라 선호도의 차이가 있을 때

의 상대적 스케일이 중요하다.

의 상대적 스케일이

과 비교될수록, 목적(k)은 목적(l)에 비해 정책 업데이트에 더 많은 영향을 미친다. 극단적인 경우, 목적(l)에 대해

이 0에 가까운 경우, 목적(l)은 정책 업데이트에 영향을 미치지 않으며 효과적으로 무시될 것이다.

동일하지 않은 선호도의 한 가지 일반적인 예는 에이전트가 다른 목적(예를 들어, 에너지 소비, 적용된 힘(예를 들어, "고통" 패널티) 등을 최소화하면서 태스크를 완료해야 하는 경우이다. 이 경우, 에이전트가 실제로 태스크 수행의 우선 순위를 지정하도록 장려하기 위해서는 태스크 목적의

가 다른 목적의

보다 높아야 한다. 페널티에 대한

가 너무 높으면, 에이전트는 특별히 유용하지 않은 태스크를 수행하는 것보다 (일반적으로 단지 아무 액션을 취하지 않음으로써 달성될 수 있는) 페널티를 최소화하는데 더 관심을 기울일 것이다.

의 스케일은 동일한 선호도의 경우와 유사한 효과를 갖는다.

의 스케일이 너무 높거나 낮으면, 동일한 선호도에 대해 논의된 것과 동일한 문제가 발생한다. 모든

가 동일한(보통) 요인(factor)만큼 스케일이 증가하거나 감소하여 상대적인 스케일이 동일하게 유지되면, 일반적으로 이들은 거의 동일한 정책으로 수렴될 것이다. 언급한 바와, 같이 0.001에서 0.1 사이의

는 좋은 결과를 얻을 수 있다.

본 명세서에 설명된 주제는 잠재적으로 충돌할 수 있는 다수의 목적이 있는 정책을 학습하기 위한 강화 학습 방법을 소개한다. 이것은 목적별(objective-specific) 액션-가치 함수을 결정함으로써 달성된다. 이러한 목적별 함수를 활용함으로써, 본 명세서에 설명된 방법론은 주어진 목적에 대한 보상 규모와 무관한 목적별 함수를 제공한다. 이것은 보상의 크기가 다양하기 때문에 목적 간의 가중치를 시간이 지남에 따라 조정할 필요가 없음을 의미한다. 또한, 더 큰 보상이 반드시 트레이닝을 지배하는 것은 아니다. 게다가, 목적 스케일을 보상과 관련하여 불변하게 함으로써, 방법론은 다양한 보상 크기에 대한 가중치를 선택할 때 시행하기 쉽고 지속적인 시행 착오를 피할 수 있다. 계산 효율성의 개선을 제공하는 특정 구현이 (예를 들어, 비-파라메트릭 목적별 정책의 사용을 통해) 본 명세서에 제시된다.

특정 구현에서, 선호도 변수(

)는 강화 학습 시스템의 결합된 액션 선택 정책의 업데이트에 목적이 기여하는 정도를 제어하기 위해 각 목적에 할당된다. 이것은 목적과 관련된 "온도"를 조정하는데 사용되며 목적과 관련된 액션(Q) 값을 조정하는데 사용된다. 구현에서, "온도"는 전체 액션 선택 정책의 평가에 기여하는 액션의 다양성과 관련된다. 따라서, 목적 간의 가중치는 보상 스케일이 변경되거나 Q 함수가 고정적이지 않더라도 스케일이 변하지 않을 수 있다. 이를 통해 사용자는 다양한 목적 사이에서 선험적으로 선호도를 설정할 수 있다.

하나 이상의 컴퓨터로 구성된 시스템이 특정 동작이나 액션을 수행하도록 구성된다는 것은 시스템이 소프트웨어, 펌웨어, 하드웨어, 또는 동작시 시스템으로 하여금 동작이나 액션을 수행하게 하는 이들의 조합을 설치했음을 의미한다. 하나 이상의 컴퓨터 프로그램이 특정 동작 또는 액션을 수행하도록 구성된다는 것은 하나 이상의 프로그램이 데이터 처리 장치에 의해 실행될 때 그 장치로 하여금 동작 또는 액션을 수행하게 하는 명령들을 포함한다는 것을 의미한다.

본 명세서에 기술된 주제 및 기능적 동작의 실시예는 디지털 전자 회로, 유형적으로 구현된 컴퓨터 소프트웨어 또는 펌웨어, 본 명세서에 개시된 구조 및 그 구조적 등가물을 포함하는 컴퓨터 하드웨어, 또는 이들 중 하나 이상의 조합으로 구현될 수 있다. 본 명세서에 기술된 주제의 실시예는 하나 이상의 컴퓨터 프로그램, 즉, 데이터 처리 장치에 의해 실행되거나 데이터 처리 장치의 동작을 제어하기 위해 유형의 비-일시적 프로그램 매체에 인코딩된 컴퓨터 프로그램 명령의 하나 이상의 모듈로 구현될 수 있다. 대안적으로 또는 추가적으로, 프로그램 명령은 데이터 처리 장치에 의한 실행을 위해 적절한 수신기 장치로의 전송을 위해 정보를 인코딩하도록 생성된 인공적으로 생성된 전파 신호, 예를 들어 기계 생성 전기, 광학 또는 전자기 신호에 인코딩될 수 있다. 컴퓨터 저장 매체는 기계 판독 가능 저장 디바이스, 기계 판독 가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 디바이스, 또는 이들 중 하나 이상의 조합일 수 있다. 그러나, 컴퓨터 저장 매체는 전파된 신호가 아니다.

"데이터 처리 장치"라는 용어는 예를 들어 프로그램 가능 프로세서, 컴퓨터, 또는 다중 프로세서나 컴퓨터를 포함하여 데이터를 처리하기 위한 모든 종류의 장치, 디바이스 및 기계를 포함한다. 장치는 FPGA(필드 프로그램 가능 게이트 어레이) 또는 ASIC(주문형 집적 회로)과 같은 특수 목적 논리 회로를 포함할 수 있다. 장치는 또한 하드웨어에 추가하여 해당 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드, 예를 들어 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제, 또는 이들 중 하나 이상의 조합을 구성하는 코드를 포함할 수 있다.

컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션, 스크립트 또는 코드라고도 함)은 컴파일된 언어나 해석된 언어, 선언적 또는 절차적 언어를 포함한 임의의 형태의 프로그래밍 언어로 작성될 수 있으며, 독립 실행형 프로그램이나 모듈, 컴포넌트, 서브루틴, 객체. 또는 컴퓨팅 환경에서 사용하기에 적합한 기타 단위를 포함하여 모든 형태로 배포될 수 있다. 컴퓨터 프로그램은 파일 시스템의 파일에 대응할 수 있지만 반드시 그런 것은 아니다. 프로그램은 다른 프로그램이나 데이터(예를 들어, 마크업 언어 문서에 저장된 하나 이상의 스크립트)를 포함하는 파일의 일부, 해당 프로그램 전용 단일 파일 또는 다수의 조정 파일(예를 들어, 하나 이상의 모듈, 서브 프로그램 또는 코드를 저장하는 파일)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 또는 한 사이트에 있거나 여러 사이트에 분산되어 있고 통신 네트워크로 상호 연결된 다수의 컴퓨터에서 실행되도록 배포될 수 있다.

본 명세서에서 사용되는 "엔진" 또는 "소프트웨어 엔진"은 입력과 다른 출력을 제공하는 소프트웨어 구현 입력/출력 시스템을 의미한다. 엔진은 라이브러리, 플랫폼, 소프트웨어 개발 키트("SDK") 또는 객체와 같은 인코딩된 기능 블록일 수 있다. 각 엔진은 서버, 휴대폰, 태블릿 컴퓨터, 노트북 컴퓨터, 음악 플레이어, 전자책 리더, 랩탑 또는 데스크톱 컴퓨터, PDA, 스마트폰, 또는 하나 이상의 프로세서 및 컴퓨터 판독 가능 매체를 포함하는 기타 고정식 또는 휴대용 디바이스와 같은 적절한 유형의 컴퓨팅 디바이스에서 구현할 수 있다. 추가로, 둘 이상의 엔진이 동일한 컴퓨팅 디바이스 또는 다른 컴퓨팅 디바이스에서 구현될 수 있다.

본 명세서에 설명된 프로세스 및 논리 흐름은 입력 데이터에 대해 동작하고 출력을 생성함으로써 동작을 수행하기 위해 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그램 가능 컴퓨터에 의해 수행될 수 있다. 프로세스 및 논리 흐름은 또한 FPGA 또는 ASIC과 같은 특수 목적 논리 회로에 의해 수행될 수 있으며 장치도 이들로 구현될 수 있다. 예를 들어, 프로세스 및 논리 흐름은 그래픽 처리 디바이스(GPU)에 의해 수행될 수 있고 디바이스는 또한 그래픽 처리 디바이스(GPU)로 구현될 수 있다.

컴퓨터 프로그램의 실행에 적합한 프로세서는 예를 들어 범용 및 특수 목적 마이크로프로세서 모두를 포함한다. 일반적으로, 중앙 처리 장치는 판독 전용 메모리나 랜덤 액세스 메모리 또는 둘 다로부터 명령과 데이터를 수신한다. 컴퓨터의 필수 엘리먼트는 명령들에 따라 동작을 수행하기 위한 프로세서와, 명령 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스이다. 일반적으로, 컴퓨터는 또한 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스, 예를 들어 자기, 광자기 디스크 또는 광 디스크로부터 데이터를 수신하거나 이들로 데이터를 전송하거나 둘 모두를 포함하거나 작동 가능하게 연결된다. 그러나, 컴퓨터에는 이러한 디바이스가 필요하지 않다. 더욱이, 컴퓨터는 휴대 전화, 개인 휴대 정보 단말기(PDA), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS 수신기 또는 휴대용 저장 디바이스(예를 들어, 범용 직렬 버스(USB) 플래시 드라이브)와 같은 다른 디바이스에 내장될 수 있다.

컴퓨터 프로그램 명령 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체는 예를 들어 반도체 메모리 디바이스(예를 들어, EPROM, EEPROM 및 플래시 메모리 디바이스), 자기 디스크(예를 들어, 내부 하드 디스크 또는 이동식 디스크), 자기 광 디스크, 및 CD-ROM 및 DVD-ROM 디스크를 포함하여, 모든 형태의 비-휘발성 메모리, 매체 및 메모리 디바이스를 포함한다. 프로세서와 메모리는 특수 목적 논리 회로에 의해 보완되거나 통합될 수 있다.

사용자와의 상호 작용을 제공하기 위해, 본 명세서에 기술된 주제의 실시예는 사용자에게 정보를 표시하기 위한 디스플레이 디바이스(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이) 모니터 및 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 갖는 컴퓨터에서 구현될 수 있다. 다른 종류의 디바이스가 사용자와의 상호 작용을 제공하는데 사용될 수 있는데, 예를 들어, 사용자에게 제공되는 피드백은 시각적 피드백, 청각적 피드백 또는 촉각적 피드백과 같은 임의의 형태의 감각적 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함한 모든 형태로 수신될 수 있다. 또한, 컴퓨터는 예를 들어 웹 브라우저에서 수신된 요청에 응답하여 사용자 클라이언트 디바이스의 웹 브라우저에 웹 페이지를 전송함으로써 사용자가 사용하는 디바이스로 문서를 보내고 문서를 수신하여 사용자와 상호 작용할 수 있다.

본 명세서에 설명된 주제의 실시예는 백엔드 컴포넌트(예를 들어, 데이터 서버)를 포함하거나, 미들웨어 컴포넌트(예를 들어, 애플리케이션 서버)를 포함하거나, 프런트 엔드 컴포넌트(예를 들어, 사용자가 본 명세서에 설명된 시스템 및 기술의 구현과 상호 작용할 수 있는 그래픽 사용자 인터페이스 또는 웹 브라우저가 있는 클라이언트 컴퓨터), 또는 이러한 백 엔드, 미들웨어 또는 프런트 엔드 컴포넌트의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트는 통신 네트워크와 같은 디지털 데이터 통신의 모든 형태 또는 매체에 의해 상호 연결될 수 있다. 통신 네트워크의 예에는 근거리 통신망("LAN") 및 광역 통신망("WAN"), 인터 네트워크(예를 들어, 인터넷) 및 피어-투-피어 네트워크(예를 들어, 애드 혹 피어-투-피어 네트워크)가 포함된다.

컴퓨팅 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 일반적으로 통신 네트워크를 통해 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램으로 인해 발생한다.

본 명세서는 많은 구체적인 구현 세부 사항을 포함하고 있지만, 이는 임의의 발명 또는 청구될 수 있는 것의 범위에 대한 제한으로 해석되어서는 안 되며, 오히려 특정 발명의 특정 실시예에 특정된 특징에 대한 설명으로 해석되어야 한다. 별도의 실시예와 관련하여 본 명세서에 설명된 특정 특징은 단일 실시예에서 조합하여 구현될 수도 있다. 역으로, 단일 실시예의 맥락에서 설명된 다양한 특징은 또한 개별적으로 또는 임의의 적절한 서브 조합으로 다중 실시예에서 구현될 수 있다. 더욱이, 특징들이 특정 조합으로 작용하는 것으로 위에서 설명될 수 있고 심지어 초기에 그렇게 청구될 수도 있지만, 청구된 조합의 하나 이상의 특징은 일부 경우에 조합에서 제거될 수 있고 청구된 조합은 서브 조합 또는 서브 조합의 변형에 관한 것일 수 있다.

유사하게, 동작들이 도면에 특정 순서로 도시되어 있지만, 이는 바람직한 결과를 달성하기 위해 그러한 동작들이 표시된 특정 순서 또는 순차적인 순서로 수행되거나 모든 도시된 동작들이 수행되어야 함을 요구하는 것으로 이해되어서는 안 된다. 특정 상황에서는 멀티태스킹 및 병렬 처리가 유리할 수 있다. 더욱이, 위에서 설명된 실시예에서 다양한 시스템 컴포넌트의 분리는 모든 실시예에서 그러한 분리를 요구하는 것으로 이해되어서는 안 되며, 설명된 프로그램 컴포넌트 및 시스템은 일반적으로 단일 소프트웨어 제품에 함께 통합되거나 다수의 소프트웨어 제품에 패키징될 수 있음을 이해해야 한다.

주제의 특정 실시예가 설명되었다. 다른 실시예는 다음 청구항의 범위 내에 있다. 일부 경우, 청구범위에 인용된 동작들은 다른 순서로 수행될 수 있으며 여전히 바람직한 결과를 얻을 수 있다. 또한, 첨부된 도면에 도시된 프로세스는 바람직한 결과를 달성하기 위해 도시된 특정 순서 또는 순차적인 순서를 반드시 필요로 하는 것은 아니다. 특정 구현에서는, 멀티태스킹 및 병렬 처리가 유리할 수 있다.

Claims

강화 학습에 의해 신경망 시스템을 트레이닝하는 방법으로서, 신경망 시스템은 에이전트와 상호 작용하는 환경의 상태를 특징짓는 입력 관찰을 수신하여 복수의 목적을 만족시키는 것을 목표로 하는 정책에 따라 액션을 선택 및 출력하도록 구성되고, 상기 방법은,
하나 이상의 궤적 세트를 획득하는 단계와, 각각의 궤적은 환경의 상태, 상태에 응답하여 이전 정책에 따라 에이전트가 환경에 적용한 액션, 및 및 액션에 대한 보상 세트를 포함하고, 각 보상은 복수의 목적 중 대응하는 목적과 관련되며;
하나 이상의 궤적 세트에 기초하여 복수의 목적 각각에 대한 액션-가치 함수를 결정하는 단계와, 각각의 액션-가치 함수는 에이전트가 이전 정책에 따라 해당 상태에 응답하여 주어진 액션을 수행함으로써 발생할 해당 목적에 따른 기대 수익(return)을 나타내는 액션 가치를 결정하고; 그리고
복수의 목적에 대한 액션-가치 함수의 조합에 기초하여 업데이트된 정책을 결정하는 단계를 포함하는 것을 특징으로 하는 신경망 시스템을 트레이닝하는 방법.
제1항에 있어서,
상기 업데이트된 정책을 결정하는 단계는,
복수의 목적 내의 각 목적에 대한 목적별 정책을 결정하는 단계와, 각각의 목적별 정책은 해당 목적에 대한 해당 액션-가치 함수에 기초하여 결정되고; 그리고
업데이트된 정책의 정책 파라미터 세트를 목적별 정책의 조합에 맞춤(fitting)으로써 업데이트된 정책을 결정하는 단계를 포함하는 것을 특징으로 하는 신경망 시스템을 트레이닝하는 방법.
제2항에 있어서,
상기 업데이트된 정책의 정책 파라미터 세트를 목적별 정책의 조합에 맞추는 것은 업데이트된 정책과 목적별 정책의 조합 간의 차이를 최소화하는 정책 파라미터 세트를 결정하는 것을 포함하는 것을 특징으로 하는 신경망 시스템을 트레이닝하는 방법.
제2항 또는 제3항에 있어서,
상기 업데이트된 정책에 대한 정책 파라미터 세트는,
업데이트된 정책과 이전 정책 간의 차이가 신뢰 영역 임계값을 초과할 수 없도록 제한되는 것을 특징으로 하는 신경망 시스템을 트레이닝하는 방법.
제2항 내지 제4항 중 어느 한 항에 있어서,
각각의 목적에 대한 목적별 정책을 결정하는 단계는,
이전 정책과 관련하여 해당 목적에 대한 액션-가치 함수에 따라 기대 수익을 증가시키는 목적별 정책에 대한 목적별 정책 파라미터를 결정하는 단계를 포함하는 것을 특징으로 하는 신경망 시스템을 트레이닝하는 방법.
제5항에 있어서,
각각의 목적에 대한 목적별 정책을 결정하는 단계는,
목적별 정책이 이전 정책과 해당 차이 임계값 이상으로 다르지 않을 수 있다는 제약 조건에 따라 이전 정책과 관련하여 해당 목적에 대한 액션-가치 함수에 따라 기대 수익을 최대화하는 목적별 정책에 대한 목적별 정책 파라미터를 결정하는 단계를 포함하는 것을 특징으로 하는 신경망 시스템을 트레이닝하는 방법.
제6항에 있어서,
상기 대응하는 차이 임계값은,
업데이트된 정책에 대한 해당 목적의 상대적 기여도를 나타내는 것을 특징으로 하는 신경망 시스템을 트레이닝하는 방법.
제2항 내지 제7항 중 어느 한 항에 있어서,
상기 목적별 정책은 비-파라메트릭(non-parametric) 정책인 것을 특징으로 하는 신경망 시스템을 트레이닝하는 방법.
제2항 내지 제8항 중 어느 한 항에 있어서,
각각의 목적별 정책(q_k(a│s)은 목적별 정책의 목적에 대한 스케일링된 액션-가치 함수로부터 결정되고, 상기 스케일링된 액션-가치 함수는 목적에 대한 선호도에 의존하는 값에 의해 스케일링되는 것을 특징으로 하는 신경망 시스템을 트레이닝하는 방법.
제9항에 있어서,
상기 목적에 대한 선호도에 의존하는 값은 목적에 대한 차이 임계값에 의존하는 것을 특징으로 하는 신경망 시스템을 트레이닝하는 방법.
제8항 내지 제10항 중 어느 한 항에 있어서,
각각의 목적별 정책(q_k(a│s))은 다음을 계산함으로써 결정되는 것을 특징으로 하는 신경망 시스템을 트레이닝하는 방법.

여기서, N은 정규화 상수, k는 목적, a는 액션, s는 상태, π_old(a│s)는 이전 정책, Q_k(s,a)는 목적에 대한 액션-가치 함수, 그리고
는 온도 파라미터이다.
제11항에 있어서,
각각의 목적(k)에 대해, 온도 파라미터(
)는 아래 방정식을 푸는 것에 의해 결정되는 것을 특징으로 하는 신경망 시스템을 트레이닝하는 방법.

여기서,
는 해당 목적에 대한 차이 임계값이고, 그리고 μ(s)는 방문 분포이다.
제12항에 있어서,
각 온도 파라미터는 경사 하강법을 통해 결정되는 것을 특징으로 하는 신경망 시스템을 트레이닝하는 방법.
임의의 선행하는 항에 있어서,
각각의 액션-가치 함수는,
이전 정책에 대한 잠재적인 상태-액션 쌍의 범위에 걸쳐 복수의 목적 중 해당 목적에 대한 액션-가치의 분포를 제공하는 것을 특징으로 하는 신경망 시스템을 트레이닝하는 방법.
임의의 선행하는 항에 있어서,
각각의 액션-가치 함수는,
주어진 상태에 응답하여 주어진 액션을 선택할 때 해당 목적에 대한 예상 누적 할인 보상을 나타내는 액션-가치를 출력하는 것을 특징으로 하는 신경망 시스템을 트레이닝하는 방법.
강화 학습에 의해 신경망 시스템을 트레이닝하는 방법으로서, 신경망 시스템은 에이전트와 상호작용하는 환경의 상태를 특징짓는 입력 관찰을 수신하여 복수의 목적을 만족시키는 것을 목표로 하는 정책에 따라 액션을 선택 및 출력하도록 구성되고, 상기 방법은,
하나 이상의 궤적 세트를 획득하는 단계와, 각각의 궤적은 환경의 상태, 상태에 응답하여 이전 정책에 따라 에이전트가 환경에 적용한 액션, 및 액션에 대한 보상 세트를 포함하고, 각 보상은 복수의 목적 중 대응하는 목적과 관련되며;
하나 이상의 궤적 세트에 기초하여 복수의 목적 각각에 대한 확률 분포를 결정하는 단계와, 각각의 확률 분포는 정책과 관련된 해당 목적에 따라 기대 수익을 증가시킬 액션 확률의 분포를 제공하고; 그리고
복수의 목적에 대한 확률 분포의 조합에 기초하여 업데이트된 정책을 결정하는 단계를 포함하는 것을 특징으로 하는 신경망 시스템을 트레이닝하는 방법.
제16항에 있어서,
상기 복수의 목적 각각에 대한 확률 분포를 결정하는 단계는,
각각의 목적에 대해:
에이전트가 주어진 상태에서 이전 정책을 따랐을 때 발생할 해당 목적에 따른 기대 수익을 나타내는 값을 정의하는 가치 함수를 결정하는 단계와; 그리고
가치 함수에 기초하여 목적에 대한 확률 분포를 결정하는 단계를 포함하는 것을 특징으로 하는 신경망 시스템을 트레이닝하는 방법.
제17항에 있어서,
각 확률 분포는 상태-액션 쌍의 확률 분포를 정의하는 상태-액션 분포이고, 각 목적에 대한 가치 함수는 에이전트가 주어진 상태에서 이전 정책을 따랐을 때 발생할 해당 목표에 따른 기대 수익을 나타내는 값을 정의하는 상태-가치 함수이거나, 또는
각 확률 분포는 상태에 대한 액션의 확률 분포를 정의하는 목적별 정책이고, 가치 함수는 에이전트가 이전 정책에 따라 주어진 상태에 응답하여 주어진 액션을 수행함으로써 발생할 해당 목적에 따른 기대 수익을 나타내는 액션-가치 함수인 것을 특징으로 하는 신경망 시스템을 트레이닝하는 방법
하나 이상의 컴퓨터 및 하나 이상의 컴퓨터에 의해 실행될 때 하나 이상의 컴퓨터로 하여금 제1항 내지 제18항 중 어느 한 항의 방법을 수행하게 하는 명령들을 저장하는 하나 이상의 저장 디바이스를 포함하는 시스템.
하나 이상의 컴퓨터에 의해 실행될 때 하나 이상의 컴퓨터로 하여금 제1항 내지 제19항 중 어느 한 항의 방법을 수행하게 하는 명령들을 저장하는 하나 이상의 컴퓨터 저장 매체.