KR102198733B1

KR102198733B1 - 밀도 비 추정을 이용한 직접 역 강화 학습

Info

Publication number: KR102198733B1
Application number: KR1020187026764A
Authority: KR
Inventors: 에이지 우치베; 겐지 도야
Original assignee: 각코호진 오키나와가가쿠기쥬츠다이가쿠인 다이가쿠가쿠엔
Priority date: 2016-03-15
Filing date: 2017-02-07
Publication date: 2021-01-05
Also published as: JP6910074B2; CN108885721A; JP2019508817A; EP3430578A1; WO2017159126A1; KR20180113587A; EP3430578A4; CN108885721B

Abstract

피험자의 거동들의 보상 함수와 가치 함수를 추정하기 위한 역 강화 학습 방법은: 피험자의 거동들을 정의하는 상태 변수들의 변화들을 표현하는 데이터를 취득하는 단계; 수학식 (1)에 의해 주어지는 수정된 벨만 방정식을 취득된 데이터에 적용하는 단계:

- r(x)와 V(x)는, 제각기, 상태 x에서의 보상 함수와 가치 함수를 나타내고, γ는 감가 인자를 나타내며, b(y | x)와 π(y | x)는, 제각기, 학습 전후의 상태 전이 확률들을 나타냄 -; 수학식 (2)에서의 밀도 비 π(x)/b(x)의 로그를 추정하는 단계; 밀도 비 π(x, y)/b(x, y)의 로그를 추정하는 것의 결과로부터 수학식 (2)에서의 r(x)와 V(x)를 추정하는 단계; 및 추정된 r(x)와 V(x)를 출력하는 단계를 포함한다.

Description

밀도 비 추정을 이용한 직접 역 강화 학습

본 발명은 역 강화 학습(inverse reinforcement learning)에 관한 것이며, 보다 상세하게는, 역 강화 학습 시스템 및 방법에 관한 것이다. 본 출원은 2016년 3월 15일에 출원된, 미국 가출원 제62/308,722호의 이익을 주장하고 이로써 참조에 의해 그를 원용한다.

관찰로부터 인간의 거동들을 이해하는 것은 인간들과 상호작용할 수 있는 인공 시스템(artificial system)들을 개발하는 데 아주 중요하다. 우리의 의사 결정 프로세스들이 선택된 행동들과 연관된 보상들/비용들에 의해 영향을 받기 때문에, 문제가 관찰된 거동들로부터의 보상들/비용들의 추정으로서 수식화(formulate)될 수 있다.

역 강화 학습이라는 착상은 Ng 및 Russel(2000)(NPL 14)에 의해 최초로 제안되었다. Dvijotham 및 Todorov(2010)(NPL 6)에 의해 제안된 OptV 알고리즘은 사전 작업이고, 그들은 시연자(demonstrator)의 정책이, 선형화된 벨만 방정식(linearized Bellman equation)의 해(solution)인, 가치 함수(value function)에 의해 근사화된다는 것을 보여준다.

일반적으로 말하면, 강화 학습(RL)은 환경과 상호작용하는 것에 의해 최적 정책을 학습할 수 있는 생물학적 시스템과 인공 시스템 둘 다의 의사 결정 프로세스들을 조사하기 위한 계산 프레임워크이다. RL에 몇 가지 미해결 문제들이 있으며, 중대한 문제들 중 하나는 적절한 보상/비용 함수를 어떻게 설계하고 준비하느냐이다. 태스크가 완수될 때 포지티브 보상(positive reward)을 주고 그렇지 않은 경우 보상이 없는 희소 보상 함수(sparse reward function)를 설계하는 것은 쉽지만, 그것은 최적 정책을 찾아내는 것을 어렵게 만든다.

일부 상황들에서, 원하는 거동의 예들을 준비하는 것이 적절한 보상/비용 함수를 수작업으로 만드는 것보다 더 쉽다. 최근에, 시연자의 수행으로부터 보상/비용 함수를 도출하기 위해 그리고 모방 학습(imitation learning)을 구현하기 위해 역 강화 학습(IRL)(Ng & Russell, 2000, NPL 14) 및 도제 학습(apprenticeship learning)(Abbeel & Ng, 2004, NPL 1)이라는 몇 가지 방법들이 제안되었다. 그렇지만, 기존의 연구들(Abbeel & Ng, 2004, NPL 1; Ratliff et al., 2009, NPL 16; Ziebart et al., 2008, NPL 26)의 대부분은 추정된 보상/비용 함수들을 이용해 순 강화 학습(forward reinforcement learning) 문제들을 푸는 루틴을 필요로 한다. 환경의 모델이 이용가능할 때에도 이 프로세스는 보통 시간이 아주 많이 걸린다.

최근에, 비용 함수의 형태를 제한하는 것에 의한 마르코프 결정 프로세스(Markov Decision Process)의 하위 클래스(sub-class)인, LMDP(Linearly solvable Markov Decision Process)(Todorov, 2007; 2009, NPL 23 및 NPL 24)라는 개념이 소개되었다. 이 제한은 IRL에서 중요한 역할을 한다. LMDP는 KL 제어(KL-control) 및 경로 적분(path-integral) 접근법들이라고도 알려져 있고(Kappen et al., 2012, NPL 10; Theodorou et al., 2010, NPL 21), 유사한 착상들이 제어 이론의 분야에서 제안되었다(Fleming 및 Soner, 2006, NPL 7). 경로 적분법에 기초한 모델 프리 IRL(model-free IRL) 알고리즘들이 Aghasadeghi & Bretl(2011)(NPL 2); Kalakrishnan et al.(2013)(NPL 8)에 의해 제안되었다. 최적 궤적의 우도(likelihood)가 비용 함수에 의해 파라미터화되기 때문에, 우도를 최대화하는 것에 의해 비용의 파라미터들이 최적화될 수 있다. 그렇지만, 그들의 방법들은 궤적 데이터 전체를 필요로 한다. 최적 상태 전이의 우도가 가치 함수에 의해 표현되는, LMDP의 프레임워크에 기초한 모델 기반 IRL(model-based IRL) 방법이 Dvijotham 및 Todorov(2010)(NPL 6)에 의해 제안되었다. IRL의 경로 적분 접근법들과 달리, 이는 임의의 상태 전이 데이터 세트로부터 최적화될 수 있다. 주된 단점은 해석적으로 풀 수 없는 적분을 구하는 것이다. 실제로, 그들은 적분을 합으로 대체하기 위해 상태 공간을 이산화(discretize)하였지만, 이는 고차원 연속 문제들에서 실현가능하지 않다.

[특허문헌]

PTL 1: 미국 특허 제8,756,177호, Methods and systems for estimating subject intent from surveillance.

PTL 2: 미국 특허 제7,672,739호. System for multiresolution analysis assisted reinforcement learning　approach to run-by-run control.

PTL 3: 일본 특허 제5815458호. Reward function estimating device, method and program.

[비특허문헌]

NPL 1: Abbeel, P. and Ng, A.Y. Apprenticeship learning via inverse reinforcement learning. In Proc. of the 21st International Conference on Machine Learning, 2004.

NPL 2: Aghasadeghi, N. and Bretl, T. Maximum entropy inverse reinforcement learning in continuous state spaces with path integrals. In Proc. of IEEE/RSJ International Conference on Intelligent Robots and Systems, pp.1561-1566, 2011.

NPL 3: Boularias, A., Kober, J., and Peters, J. Relative entropy inverse reinforcement learning. In Proc. of the 14th International Conference on Artificial Intelligence and Statistics, volume 15, 2011.

NPL 4: Deisenroth, M.P., Rasmussen, C.E, and Peters, J. Gaussian process dynamic programming. Neurocomputing, 72(7-9):1508-1524, 2009.

NPL 5: Doya, K. Reinforcement learning in continuous time and space. Neural Computation,　12:219-245, 2000.

NPL 6: Dvijotham, K. and Todorov, E. Inverse optimal control with linearly solvable MDPs. In Proc. of the 27th International Conference on Machine Learning, 2010.

NPL 7: Fleming, W.H. and Soner, H.M. Controlled Markov Processes and Viscosity Solutions. Springer, second edition, 2006.

NPL 8: Kalakrishnan, M., Pastor, P., Righetti, L., and Schaal, S. Learning objective functions for manipulation. In Proc. of IEEE International Conference on Robotics and Automation, pp.1331-1336, 2013.

NPL 9: Kanamori, T., Hido, S., and Sugiyama, M. A Least-squares Approach to Direct Importance Estimation. Journal of Machine Learning Research, 10:1391-1445, 2009.

NPL 10: Kappen, H.J., Gomez, V., and Opper, M. Optimal control as a graphical model inference problem. Machine Learning, 87(2):159-182, 2012.

NPL 11: Kinjo, K., Uchibe, E., and Doya, K. Evaluation of linearly solvable Markov decision process with dynamic model learning in a mobile robot navigation task. Frontiers in Neurorobotics, 7(7), 2013.

NPL 12: Levine, S. and Koltun, V. Continuous inverse optimal control with locally optimal examples. In Proc. of the 27th International Conference on Machine Learning, 2012.

NPL 13: Levine, S., Popovic, Z., and Koltun, V. Nonlinear inverse reinforcement learning with Gaussian processes. Advances in Neural Information Processing Systems 24, pp.19-27. 2011.

NPL 14: Ng, A.Y. and Russell, S. Algorithms for inverse reinforcement learning. In Proc. of the 17th International Conference on Machine Learning, 2000.

NPL 15: Rasmussen, C.E. and Williams, C. K.I. Gaussian Processes for Machine Learning. MIT Press, 2006.

NPL 16: Ratliff, N.D., Silver, D, and Bagnell, J.A. Learning to search: Functional gradient techniques for imitation learning. Autonomous Robots, 27(1): 25-53, 2009.

NPL 17: Stulp, F. and Sigaud, O. Path integral policy improvement with covariance matrix adaptation. In Proc. of the 10th European Workshop on Reinforcement Learning, 2012.

NPL 18: Sugimoto, N. and Morimoto, J. Phase-dependent trajectory optimization for periodic movement using path integral reinforcement learning. In Proc. of the 21st Annual Conference of the Japanese Neural Network Society, 2011.

NPL 19: Sugiyama, M., Takeuchi, I., Suzuki, T., Kanamori, T., Hachiya, H., and Okanohara, D. Least-squares conditional density estimation. IEICE Transactions on Information and Systems, E93-D(3): 583-594, 2010.

NPL 20: Sugiyama, M., Suzuki, T., and Kanamori, T. Density ratio estimation in machine learning. Cambridge University Press, 2012.

NPL 21: Theodorou, E., Buchli, J., and Schaal, S. A generalized path integral control approach to reinforcement learning. Journal of Machine Learning Research, 11: 3137--3181, 2010.

NPL 22: Theodorou, E.A and Todorov, E. Relative entropy and free energy dualities: Connections to path integral and KL control. In Proc. of the 51st IEEE Conference on Decision and Control, pp. 1466-1473, 2012.

NPL 23: Todorov, E. Linearly-solvable Markov decision problems. Advances in Neural Information Processing Systems 19, pp. 1369-1376. MIT Press, 2007.

NPL 24: Todorov, E. Efficient computation of optimal actions. Proceedings of the National Academy of Sciences of the United States of America, 106(28): 11478-83, 2009.

NPL 25: Todorov, E. Eigenfunction approximation methods for linearly-solvable optimal control problems. In Proc. of the 2nd IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning, pp. 161-168, 2009.

NPL 26: Ziebart, B.D., Maas, A., Bagnell, J.A., and Dey, A.K. Maximum entropy inverse reinforcement learning. In Proc. of the 23rd AAAI Conference on Artificial Intelligence, 2008.

NPL 27: Vroman, M. (2014). Maximum likelihood inverse reinforcement learning. PhD Thesis, Rutgers University, 2014.

NPL 28: Raita, H. (2012). On the performance of maximum likelihood inverse reinforcement learning. arXiv preprint.

NPL 29: Choi, J. and Kim, K. (2012). Nonparametric Bayesian inverse reinforcement learning for multiple reward functions. NIPS 25.

NPL 30: Choi, J. and Kim, J. (2011). Inverse reinforcement learning in partially observable environments. Journal of Machine Learning Research.

NPL 31: Neu, and Szepesvari, C. (2007). Apprenticeship learning using inverse reinforcement learning and gradient methods. In Proc. of UAI.

NPL 32: Mahadevan, S. (2005). Proto-value functions: developmental reinforcement learning. In Proc. of the 22nd ICML.

역 강화 학습은 상기 문제들을 해결하는 프레임워크이지만, 앞서 언급된 바와 같이, 기존의 방법들은 하기의 단점들을 갖는다: (1) 상태가 연속적일 때 다루기 어렵다, (2) 계산 비용이 많이 든다, 및 (3) 상태들의 궤적들 전체가 추정되어야만 한다. 본 개시내용에 개시되는 방법들은 이 단점들을 해결한다. 상세하게는, NPL 14에 제안된 이전의 방법은, 많은 이전의 연구들이 보고한 바와 같이, 잘 작동하지 않는다. 더욱이, NPL 6에서 제안된 방법은 실제로 연속 문제(continuous problem)들을 풀 수 없는데, 그 이유는 그들의 알고리즘이 복잡한 적분 구하기를 수반하기 때문이다.

본 발명은 역 강화 학습을 위한 시스템 및 방법에 관한 것이다.

본 발명의 목적은 기존의 기술의 문제들 중 하나 이상을 제거하기 위해 새롭고 개선된 역 강화 학습 시스템 및 방법을 제공하는 것이다.

이들 및 다른 장점들을 달성하기 위해 그리고 본 발명의 목적에 따라, 구현되고 대체로 기술된 바와 같이, 일 양태에서, 본 발명은 피험자의 거동들의 보상 함수와 가치 함수를 추정하기 위한 역 강화 학습 방법을 제공하고, 본 방법은: 피험자의 거동들을 정의하는 상태 변수들의 변화들을 표현하는 데이터를 취득하는 단계; 수학식 (1)에 의해 주어지는 수정된 벨만 방정식(Bellman equation)을 취득된 데이터에 적용하는 단계:

- r(x)와 V(x)는, 제각기, 상태 x에서의 보상 함수와 가치 함수를 나타내고, γ는 감가 인자(discount factor)를 나타내며, b(y | x)와 π(y | x)는, 제각기, 학습 전후의 상태 전이 확률들(state transition probabilities)을 나타냄 -; 수학식 (2)에서의 밀도 비(density ratio) π(x)/b(x)의 로그(logarithm)를 추정하는 단계; 밀도 비 π(x, y)/b(x, y)의 로그(log)를 추정하는 것의 결과로부터 수학식 (2)에서의 r(x)와 V(x)를 추정하는 단계; 및 추정된 r(x)와 V(x)를 출력하는 단계를 포함한다.

다른 양태에서, 본 발명은 피험자의 거동들의 보상 함수와 가치 함수를 추정하기 위한 역 강화 학습 방법을 제공하고, 본 방법은: 피험자의 거동들을 정의하는 행동에 의한 상태 전이를 표현하는 데이터를 취득하는 단계; 수학식 (3)에 의해 주어지는 수정된 벨만 방정식을 취득된 데이터에 적용하는 단계:

- r(x)와 V(x)는, 제각기, 상태 x에서의 보상 함수와 가치 함수를 나타내고, γ는 감가 인자를 나타내며, b(u | x)와 π(u | x)는, 제각기, 상태 x에서 행동 u를 선택할 확률을 나타내는 학습 전후의 확률적 정책들(stochastic policies)을 나타냄 -; 수학식 (3)에서의 밀도 비 π(x)/b(x)의 로그를 추정하는 단계; 밀도 비 π(x, u)/b(x, u)의 로그를 추정하는 것의 결과로부터 수학식 (4)에서의 r(x)와 V(x)를 추정하는 단계; 및 추정된 r(x)와 V(x)를 출력하는 단계를 포함한다.

다른 양태에서, 본 발명은 프로세서로 하여금 피험자의 거동들의 보상 함수와 가치 함수를 추정하기 위한 역 강화 학습을 위한 알고리즘을 수행하게 하는 명령어들을 저장하는 비일시적 저장 매체를 제공하고, 상기 명령어들은 프로세서로 하여금 하기의 단계들: 피험자의 거동들을 정의하는 상태 변수들의 변화들을 표현하는 데이터를 취득하는 단계; 수학식 (1)에 의해 주어지는 수정된 벨만 방정식을 취득된 데이터에 적용하는 단계:

- r(x)와 V(x)는, 제각기, 상태 x에서의 보상 함수와 가치 함수를 나타내고, γ는 감가 인자를 나타내며, b(y | x)와 π(y | x)는, 제각기, 학습 전후의 상태 전이 확률들을 나타냄 -; 수학식 (2)에서의 밀도 비 π(x)/b(x)의 로그를 추정하는 단계; 밀도 비 π(x, y)/b(x, y)의 로그를 추정하는 것의 결과로부터 수학식 (2)에서의 r(x)와 V(x)를 추정하는 단계; 및 추정된 r(x)와 V(x)를 출력하는 단계를 수행하게 한다.

다른 양태에서, 본 발명은 피험자의 거동들의 보상 함수와 가치 함수를 추정하기 위한 역 강화 학습을 위한 시스템을 제공하고, 본 시스템은: 피험자의 거동들을 정의하는 상태 변수들의 변화들을 표현하는 데이터를 취득하는 데이터 취득 유닛; 메모리를 갖는 프로세서 - 프로세서와 메모리는: 수학식 (1)에 의해 주어지는 수정된 벨만 방정식을 취득된 데이터에 적용하고:

- r(x)와 V(x)는, 제각기, 상태 x에서의 보상 함수와 가치 함수를 나타내고, γ는 감가 인자를 나타내며, b(y | x)와 π(y | x)는, 제각기, 학습 전후의 상태 전이 확률들을 나타냄 -; 수학식 (2)에서의 밀도 비 π(x)/b(x)의 로그를 추정하며; 밀도 비 π(x, y)/b(x, y)의 로그를 추정하는 것의 결과로부터 수학식 (2)에서의 r(x)와 V(x)를 추정하도록 구성됨 -; 및 추정된 r(x)와 V(x)를 출력하는 출력 인터페이스를 포함한다.

다른 양태에서, 본 발명은 사용자가 인터넷 웹 서핑에서 선택한 일련의 기사들 중에서 사용자가 읽을 가능성이 있는 기사들의 토픽 선호도를 예측하기 위한 시스템을 제공하고, 본 시스템은: 인터넷에 연결된 컴퓨터에 구현되는, 제8항에 기재된 바와 같은 역 강화 학습을 위한 시스템을 포함하며, 여기서 피험자는 사용자이고, 피험자의 거동들을 정의하는 상태 변수들은 각각의 웹페이지를 브라우징하는 동안 사용자에 의해 선택된 기사들의 토픽들을 포함하며, 여기서 프로세서는 사용자가 인터넷 웹사이트들을 브라우징하고 있는 인터페이스로 하여금 추정된 보상 함수와 가치 함수에 따라 사용자가 읽기 위한 추천된 기사를 디스플레이하게 한다.

다른 양태에서, 본 발명은 복잡한 태스크들을 수행하도록 로봇을 프로그램하기 위한 방법을 제공하며, 본 방법은: 상태들 및 행동들의 시퀀스를 기록하기 위해 태스크를 달성하도록 제1 로봇을 제어하는 단계; 상태들 및 행동들의 기록된 시퀀스에 기초하여 제8항에 기재된 바와 같은 역 강화 학습을 위한 시스템을 사용하여 보상 함수 및 가치 함수를 추정하는 단계; 및 추정된 보상 함수 및 가치 함수로 제2 로봇을 프로그램하기 위해 추정된 보상 함수 및 가치 함수를 제2 로봇의 순 강화 학습 제어기에 제공하는 단계를 포함한다.

본 발명의 하나 이상의 양태에 따르면, 역 강화 학습을 효과적으로 그리고 효율적으로 수행하는 것이 가능하게 된다. 일부 실시예들에서, 사전에 환경 동태(environmental dynamics)를 알 필요가 없고, 적분을 실행할 필요가 없다.

본 발명의 부가의 또는 별개의 특징들 및 장점들이 이하의 설명에서 기재될 것이고, 부분적으로 설명으로부터 명백할 것이거나, 본 발명의 실시에 의해 알게 될 수 있다. 본 발명의 목적들 및 다른 장점들은 서면 설명 및 그의 청구항들은 물론 첨부된 도면들에서 특히 언급된 구조물에 의해 실현되고 달성될 것이다.

이상의 전반적인 설명 및 이하의 상세한 설명 둘 다가 예시적이고 설명적인 것이며 청구된 바와 같은 본 발명에 대한 추가 설명을 제공하도록 의도되어 있음을 이해해야 한다.

도 1은 다음과 같은 밀도 비 추정 방법들: (1) LSCDE-IRL, (2) uLSIF-IRL, (3) LogReg-IRL, (4) Gauss-IRL, (5) LSCDE-OptV, 및 (6) Gauss-OptV 각각에 대해 본 발명의 실시예들이 적용된 스윙업 도립 진자 실험(swing-up inverted pendulum experiment)들의 결과들에 대한 정규화된 제곱 오차들을 나타낸다. 도면에 나타낸 바와 같이, (a) 내지 (d)는 샘플링 방법들 및 다른 파라미터들의 면에서 서로 상이하다.
도 2는 다양한 밀도 비 추정 방법들에 대한 스윙업 도립 진자 실험들에서의 교차 검증 오차(cross-validation error)들을 나타낸 그래프이다.
도 3은 긴 막대에 대한 막대 균형잡기 태스크에 대한 실험 셋업을 나타내고; 좌측: 시작 위치, 중간: 목표 위치, 그리고 우측: 상태 변수들이다.
도 4는 본 발명의 일 실시예에 따른, 다양한 피험자들과 관련하여 막대 균형잡기 태스크 실험에서의 학습 곡선들을 나타내고; 실선: 긴 막대, 점선: 짧은 막대이다.
도 5는 정의된 부분공간(subspace)에 투영된, 4번 피험자, 5번 피험자, 및 7번 피험자에 대한 본 발명의 실시예에 따른 막대 균형잡기 태스크 실험에 대해 도출된 추정된 비용 함수들을 나타낸다.
도 6은 추정된 비용 함수들을 평가하는, 4번 피험자 및 7번 피험자에 대한 막대 균형잡기 태스크 실험에서의 테스트 데이터 세트들에 대한 음의 로그 우도 값(negative log likelihood value)들을 나타낸다.
도 7은 시연자들에 의해 발생되는 관찰된 상태 전이들로부터 목적 함수(objective function)를 추론할 수 있는 본 발명의 실시예 1에 따른 역 강화 학습의 프레임워크를 개략적으로 나타낸다.
도 8은 로봇 거동들의 모방 학습에서의 본 발명의 역 강화 학습의 구현의 일 예를 나타낸 개략 블록 다이어그램이다.
도 9는 인간 거동들의 해석에서의 본 발명의 역 강화 학습의 구현의 일 예를 나타낸 개략 블록 다이어그램이다.
도 10은 방문자의 웹 서핑에서의 토픽 선호도를 보여주는, 웹 방문자에 의한 일련의 클릭 행동들을 개략적으로 나타낸다.
도 11은 본 발명의 일 실시예에 따른 역 강화 학습 시스템의 일 예를 개략적으로 나타낸다.
도 12는 본 발명의 실시예 1과 실시예 2 사이의 차이들을 개략적으로 나타낸다.
도 13은 실시예 2에서의 단계 (2)에 대한 두 번째 DRE의 계산 스킴을 개략적으로 설명한다.
도 14는 실시예 2를 실시예 1 및 다른 방법들과 비교하는 스윙업 도립 진자 문제의 실험 결과들을 나타낸다.
도 15는 실시예 1 및 실시예 2 및 RelEnt-IRL을 사용하는 로봇 내비게이션 태스크의 실험 결과들을 나타낸다.

본 개시내용은 LMDP(Linearly solvable Markov Decision Process)의 프레임워크 하에서의 밀도 비 추정에 기초한 신규의 역 강화 학습 방법 및 시스템을 제공한다. LMDP에서, 제어 상태 전이 밀도(controlled state transition density)와 비제어 상태 전이 밀도(uncontrolled state transition density) 간의 비의 로그가 상태 의존적 비용 함수와 가치 함수에 의해 표현된다. 이전에, 본 발명자들은, 밀도 비 추정 방법들이 전이 밀도 비를 추정하는 데 사용되고, 관계를 충족시키는 상태 의존적 비용 함수와 가치 함수를 추정하기 위해 정칙화를 이용한 최소 제곱법(least squares method with regularization)이 사용되는, PCT 국제 출원 제PCT/JP2015/004001호에 기술된 바와 같은, 신규의 역 강화 학습 방법 및 시스템을 고안하였다. 그 방법은 분배 함수(partition function)를 평가하는 것과 같은 적분을 계산하는 것을 회피할 수 있다. 본 개시내용은 PCT/JP2015/004001에 기술된 발명의 설명들을 이하의 실시예 1로서 포함하고, 실시예 1보다 몇몇 양태들에서 개선된 특성들을 갖는 새로운 실시예를 실시예 2로서 추가로 기술한다. 지역 국가 법률들에 따라, PCT/JP2015/004001에 기술되고 그리고/또는 청구된 발명 요지는 실시예 2에 대한 종래 기술일 수 있거나 그렇지 않을 수 있다. 이하에서 기술되는 바와 같이, 실시예 1에서, 진자 스윙업의 간단한 수치 시뮬레이션이 수행되었고, 종래의 방법들에 대한 그의 우수성이 입증되었다. 본 발명자들은 막대 균형잡기 태스크를 수행함에 있어서 본 방법을 인간 거동들에 추가로 적용하고, 추정된 비용 함수들이 새로운 시도들 또는 환경들에서의 피험자들의 수행을 만족스러운 방식으로 예측할 수 있다는 것을 보여준다.

본 발명의 일 양태는 OptV 알고리즘과 같은 선형 가해 마르코프 결정 프로세스(linearly solvable Markov decision process)들의 프레임워크에 기초한다. 실시예 1에서, 본 발명자들은 하기의 식에 의해 주어지는 새로운 벨만 방정식을 도출하였고:

여기서, q(x)와 V(x)는 상태 x에서의 비용 함수와 가치 함수를 나타내고 γ는 감가 인자를 나타낸다. p(y | x)와 π(y | x)는, 제각기, 학습 전후의 상태 전이 확률들을 나타낸다. 상기 방정식의 좌변의 밀도 비는 밀도 비 추정 방법들에 의해 관찰된 거동들로부터 효율적으로 계산된다. 밀도 비가 일단 추정되면, 비용 함수와 가치 함수가 정칙화된 최소 제곱법(regularized least-squares method)에 의해 추정될 수 있다. 중요한 특징은 우리의 방법이 적분들을 계산하는 것 - 여기서 이것은 보통 높은 계산 비용으로 계산됨 - 을 회피할 수 있다는 것이다. 본 발명자들은 막대 균형잡기 태스크를 수행함에 있어서 이 방법을 인간 거동들에 적용하였고, 추정된 비용 함수들이 새로운 시도들 또는 환경들에서 피험자들의 수행을 예측할 수 있어, 제어 시스템, 기계 학습, 오퍼레이션 리서치(operations research), 정보 이론 등에서 잘 알려진 광범위한 적용가능성을 갖는, 역 강화 학습에서 이 새로운 계산 기법의 보편적 적용가능성 및 유효성을 검증할 수 있다는 것을 보여준다.

<I. 실시예 1>

<1. 선형 가해 마르코프 결정 프로세스>

<1.1. 순 강화 학습>

본 개시내용은 마르코프 결정 프로세스 및 이산-시간 연속-공간 도메인(discrete-time continuous-space domain)에 대한 그의 단순화의 간단한 소개를 제공한다. X와 U를, 제각기, 연속 상태 공간과 연속 행동 공간이라고 하자. 시간 단계(time step) t로, 학습 에이전트는 환경의 현재 상태 x_t∈X를 관찰하고 확률적 정책 π(u_t | x_t)로부터 샘플링된 행동 u_t∈U를 실행한다. 결과적으로, 즉시 비용(immediate cost) c(x_t, u_t)가 환경으로부터 주어지고, 환경은 행동 u_t 하에서 x_t로부터 y∈X로 상태 전이 확률 P_T(y | x_t, u_t)에 따라 상태 전이를 행한다. 강화 학습의 목표는 주어진 목적 함수를 최소화하는 최적 정책 π(u | x)를 구성하는 것이다. 몇 개의 목적 함수들이 존재하며, 가장 널리 사용되는 것은:

에 의해 주어지는 비용들의 감가 합(discounted sum)이고, 여기서

은 감가 인자라고 불린다. 최적 가치 함수는 하기의 벨만 방정식을 충족시키는 것으로 알려져 있다:

수학식 (2)는 min 연산자로 인해 비선형 방정식이다.

선형 가해 마르코프 결정 프로세스(LMDP)는 일부 가정들 하에서 수학식 (2)를 단순화시킨다(Todorov, 2007; 2009a, NPL 23 및 NPL 24). LMDP의 핵심 수법은 정책을 최적화하는 대신에 상태 전이 확률을 직접 최적화하는 것이다. 보다 구체적으로는, 2개의 조건부 확률 밀도 함수가 도입된다. 하나는 내재적 상태 전이(innate state transition)로서 간주될 수 있는, p(y | x)로 표기되는 비제어 확률(uncontrolled probability)이다. p(y | x)는 임의적이고, 이는 p(y | x)=∫P_T(y | x, u)π₀(u | x)du에 의해 구성될 수 있으며, 여기서 π₀(u | x)는 랜덤 정책(random policy)이다. 다른 것은 최적 상태 전이로서 해석될 수 있는, π(y | x)로 표기되는 제어 확률(controlled probability)이다. 그러면, 비용 함수는 하기의 형태:

로 제한되며, 여기서, q(x) 및

는, 제각기, 상태 의존적 비용 함수 및 제어 상태 전이 밀도와 비제어 상태 전이 밀도 사이의 쿨백 라이블러 발산(Kullback Leibler divergence)을 나타낸다. 이 경우에, 벨만 방정식 (2)는 하기의 수학식으로 단순화된다:

최적 제어 확률은 하기의 식에 의해 주어진다:

유의할 점은, 비록 만족도 함수(desirability function) Z(x) = exp (-V(x))가 도입되었지만, 감가 인자 γ의 존재로 인해 수학식 (4)가 여전히 비선형이라는 것이다. LMDP의 프레임워크 하에서의 순 강화 학습에서, V(x)는 수학식 (4)를 푸는 것에 의해 계산되고, 이어서 π(y | x)가 계산된다(Todorov, 2009, NPL 25).

<1.2. 역 강화 학습>

LMDP 하에서의 역 강화 학습(IRL) 알고리즘은 Dvijotham 및 Todorov(2010)(NPL 6)에 의해 제안되었다. 특히, OptV는 이산 상태 문제들에 아주 효율적이다. OptV의 장점은 최대 우도법(maximum likelihood method)이 가치 함수를 추정하는 데 적용될 수 있도록 최적 상태 전이가 가치 함수에 의해 명시적으로 표현된다는 것이다. 관찰된 궤적들이 최적 상태 전이 밀도 (5)에 의해 발생되는 것으로 가정한다. 가치 함수는 하기의 선형 모델:

에 의해 근사화되고, 여기서, w_v와 Ψ_V(x)는, 제각기, 학습 가중치들과 기저 함수 벡터(basis function vector)를 나타낸다.

제어 확률이 수학식 (5)에 의해 주어지기 때문에, 가중치 벡터(weight vector) w_v는 우도를 최대화하는 것에 의해 최적화될 수 있다. 하기의 상태 전이 데이터 세트를 가지는 것으로 가정하고:

여기서

는 제어 확률로부터의 데이터의 수를 나타낸다. 그러면, 로그 우도(log-likelihood)와 그의 도함수는 하기의 식에 의해 주어지고:

여기서,

는 가치 함수가 수학식 (6)에 의해 파라미터화되는 제어 정책(controlled policy)이다. 그레이디언트(gradient)가 일단 구해지면, 가중치 벡터 w_v가 그레이디언트 상승법(gradient ascent method)에 따라 업데이트된다.

가치 함수가 추정된 후에, 단순화된 벨만 방정식 (4)가 비용 함수를 검색하는 데 사용될 수 있다. 이는

및 γ가 주어질 때 비용 함수 q(x)가 일의적으로 결정되고, q(x)가 가치 함수에서 사용되는 기저 함수들에 의해 표현된다는 것을 의미한다. 비용 함수의 표현이 모방 학습의 경우에 중요하지 않지만, 우리는 분석을 위한 비용의 보다 간단한 표현을 찾고자 한다. 따라서, 본 발명자들은 근사자(approximator):

를 도입하고, 여기서, w_q와

는, 제각기, 학습 가중치들과 기저 함수 벡터를 나타낸다. w_q를 최적화하기 위한 L1 정칙화를 이용한 목적 함수는:

에 의해 주어지고, 여기서, λ_q는 정칙화 상수(regularization constant)이다. 간단한 그레이디언트 하강 알고리즘(gradient descent algorithm)이 채택되고, J(w_q)는 관찰된 상태들에서 평가된다.

Dvijotham 및 Todorov(2010)(NPL 6)의 가장 중대한 문제점은 해석적으로 풀 수 없는 수학식 (8) 및 (10)에서의 적분이고, 그들은 상태 공간을 이산화하여 적분을 합으로 대체하였다. 그렇지만, 그들이 제안한 바와 같이, 그것이 고차원 문제들에서는 실현불가능하다. 그에 부가하여, 비제어 확률 p(y | x)이 꼭 가우시안(Gaussian)인 것은 아니다. 본 발명의 적어도 일부 실시예들에서, 비제어 확률 p(y | x)가 원인 밀도(causal density)로서 사용되는, 메트로폴리스 헤이스팅스 알고리즘(Metropolis Hastings algorithm)이 로그 우도의 그레이디언트를 구하기 위해 적용된다.

<2. 밀도 비 추정에 의한 역 강화 학습>

<2.1. IRL을 위한 벨만 방정식>

수학식 (4) 및 (5)로부터, 본 발명자들은 감가 비용(discounted-cost) 문제들에 대해 하기의 중요한 관계를 도출하였다:

수학식 (11)은 본 발명의 실시예들에 따라 IRL 알고리즘들에서 중요한 역할을 한다. 첫 번째 출구(first-exit) 문제, 평균 비용(average cost) 문제, 및 유한 구간(finite horizon) 문제에 대해 유사한 방정식들이 도출될 수 있다. 유의할 점은, q(x)가 수학식 (3)에 나타낸 비용 함수의 상태 의존적 부분이기 때문에 수학식 (11)의 좌변이 시간차 오차(temporal difference error)가 아니라는 것이다. 비록 비용 함수의 형태가 LMDP 하에서 수학식 (3)에 의해 제약되지만, 우리의 IRL은 여전히 불량 설정 문제(ill-posed problem)이고 비용 함수가 일의적으로 결정되지 않는다. 보다 구체적으로는, 상태 의존적 비용 함수가:

에 의해 수정되는 경우, 대응하는 가치 함수가:

으로 변경되고, 여기서, C는 상수 값이다. 그러면, V(x)로부터 도출된 제어 확률이 V'(x)로부터의 것과 동일하다. 이 속성은 이하에 기술되는 바와 같이 비용 함수를 추정할 때 유용하다. 본 발명의 일 양태에서, 개시된 IRL 방법은 2개의 부분으로 이루어져 있다. 하나는 이하에서 기술되는 수학식 (11)의 우변의 밀도 비를 추정하는 것이다. 다른 것은 이하에서 나타내는 바와 같이 정칙화를 이용한 최소 제곱법에 의해 q(x)와 V(x)를 추정하는 것이다.

<2.2. IRL을 위한 밀도 비 추정>

제어 전이 확률 밀도와 비제어 전이 확률 밀도의 비를 추정하는 것은 밀도 비 추정의 문제로서 간주될 수 있다(Sugiyama et al., 2012, NPL 20). 문제의 설정에 따라, 본 개시내용은 하기의 수식화를 고려한다.

<2.2.1. 일반 사례>

먼저, 일반 설정이 고려된다. 2개의 상태 전이 데이터 세트를 갖는 것으로 가정한다: 하나는 수학식 (7)에 나타낸

이고 다른 것은 비제어 확률로부터의 데이터 세트:

이며, 여기서,

는 데이터의 수를 나타낸다. 이어서, 우리는

와

로부터 비 π(y | x)/p(y | x)를 추정하는 것에 관심이 있다.

수학식 (11)로부터, 우리는 하기의 2개의 분해(decomposition)를 고려할 수 있다:

첫 번째 분해 (14)는 조건부 확률 밀도들의 로그들의 차이를 나타낸다. 수학식 (14)를 추정하기 위해, 본 개시내용은 2개의 구현을 고려하고 있다. 첫 번째 구현은 π(y | x)와 p(y | x)를 추정하기 위해 최소 제곱 조건부 밀도 추정(Least Squares Conditional Density Estimation)(LSCDE)(Sugiyama et al., 2010)을 채택하는 LSCDE-IRL이다. 다른 구현은 수학식 (14)에서의 조건부 밀도들을 추정하기 위해 가우시안 프로세스(Rasmussen & Williams, 2006, NPL 15)를 사용하는 Gauss-IRL이다.

두 번째 분해 (15)는 밀도 비의 로그들의 차이를 나타낸다. 두 번째 분해의 장점은 π(x) = p(x)인 경우 lnπ(x)/p(x)가 무시될 수 있다는 것이다. 이 조건은 셋업에 따라 충족될 수 있다. 현재, π(x)/p(x)와 π(x, y)/p(x, y)를 추정하기 위해 2개의 방법이 구현된다. 하나는 uLSIF(unconstrained Least Squares Importance Fitting)(Kanamori et al., 2009, NPL 9)를 사용하는 uLSIF-IRL이다. 다른 것은 로지스틱 회귀를 상이한 방식으로 이용하는 LogReg이다. 이하의 섹션 2.3은 그들의 구현을 기술한다.

<2.2.2. p(y | x)가 알려져 있지 않을 때>

상태 전이 확률 P_T(y | x, u)는 표준의 IRL 문제들의 경우에 사전에 알려져 있는 것으로 가정되고, 이것은 LMDP 경우에 비제어 확률 p(y | x)가 주어져 있다는 가정에 대응한다. 이것은 모델 기반 IRL로서 간주될 수 있다. 이 경우에, 수학식 (14)는 적절하며, 데이터 세트

로부터 제어 확률 π(y | x)를 추정하는 것으로 충분하다.

일부 상황들에서, 우리는 해석적 모델도 비제어 확률 밀도로부터의 데이터 세트도 갖지 않는다. 그러면, p(y | x)가, 비유계 변수(unbounded variable)들에 대해 부적절한 분포인, 균등 분포로 대체된다. 일반성을 잃지 않고, p(y | x)는 1로 설정되는데, 그 이유는 그것이 수학식 (12) 및 (13)에 의해 비용 함수와 가치 함수를 시프트시키는 것으로 보상될 수 있기 때문이다.

<2.3. 밀도 비 추정 알고리즘들>

이 섹션은 본 개시내용에 개시된 IRL 방법에 적절한 밀도 비 추정 알고리즘들을 기술한다.

<2.3.1. uLSIF>

uLSIF(Kanamori et al., 2009, NPL 9)는 직접 밀도 비 추정 방법에 대한 최소 제곱법이다. uLSIF의 목표는 2개의 밀도의 비 π(x)/p(x) 및 π(x, y)/p(x, y)를 추정하는 것이다. 이후부터, 본 개시내용은 r(z)=π(z)/p(z)를

와

로부터 어떻게 추정하는지를 설명하며, 여기서 간략함을 위해 z = (x, y)이다. 하기의 선형 모델에 의해 비를 근사화하기로 하고:

여기서

는 기저 함수 벡터를 나타내고, 제각기, 학습될 파라미터들이다. 목적 함수는:

에 의해 주어지고, 여기서, λ는 정칙화 상수이고

이다. 유의할 점은, 제각기, H는

로부터 추정되는 반면, h는

로부터 추정된다는 것이다. 수학식 (16)은 해석적으로

로서 최소화될 수 있지만, 이 최소화자(minimizer)는 밀도 비의 비음 제약조건(non-negativity constraint)을 무시한다. 이 문제를 보상하기 위해, uLSIF는:

에 의해 해를 수정하고, 여기서, 위의 max 연산자는 요소별(element-wise)로 적용된다. Kanamori et al.(2009)(NPL 9)에 의해 권고되는 바와 같이,

의 상태들에 중심을 둔 가우시안 함수는:

에 의해 기술되는 기저 함수로서 사용되고, 여기서, σ는 폭 파라미터이다.

는

로부터 랜덤하게 선택되는 상태이다. 파라미터들 λ와 σ는 LOOCV(leave-one-out cross-validation)에 의해 선택된다.

<2.3.2. LSCDE>

LSCDE(Sugiyama et al., 2010, NPL 19)는 조건부 확률 밀도 함수를 추정하는 uLSIF의 특별한 경우로서 간주된다. 예를 들어,

로부터 π(y | x)=π(x, y)/π(x)를 추정하는 목적 함수는 하기의 식에 의해 주어지고:

여기서

는 선형 모델이고 λ는 정칙화 상수이다. LSCDE에서 H와 h를 계산하는 것은 uLSIF에서의 것들과 약간 상이하고, 그들은 다음과 같이 계산되며:

여기서

는 다음과 같이 정의된다:

수학식 (18)에 나타낸 기저 함수가 사용되기 때문에, 이 적분은 해석적으로 계산될 수 있다. LSCDE의 추정된 가중치는 수학식 (17)에 의해 주어진다. 추정된 비가 조건부 밀도이도록 하기 위해, 해가 비용 함수와 가치 함수를 추정하는 데 사용될 때 해는 정규화되어야만 한다.

<2.3.3. LogReg>

LogReg는 로지스틱 회귀를 사용하는 밀도 추정 방법이다. 선택자 변수(selector variable) η=-1을 비제어 확률로부터의 샘플들에 그리고 η=1을 제어 확률로부터의 샘플들에 할당하기로 하자:

밀도 비는 다음과 같이 베이즈 규칙(Bayes rule)을 적용하는 것에 의해 표현될 수 있다:

첫 번째 비 Pr(η=-1)/Pr(η=1)은 N^p/N^π에 의해 추정되고, 두 번째 비는 로지스틱 회귀 분류기(logistic regression classifier)에 의해 조건부 확률 π(η | z)를 추정한 후에 계산되며:

여기서 η는 라벨(label)로서 간주될 수 있다. 유의할 점은, 밀도 비의 로그가 LogReg의 경우에 선형 모델에 의해 주어진다는 것이다:

두 번째 항

는 수학식 (15)에 나타낸 우리의 IRL 수식화에서 무시될 수 있다.

목적 함수는 하기의 식에 의해 표현된 음의 정칙화된 로그 우도(negative regularized log-likelihood)로부터 도출된다:

닫힌 형태의 해(closed-form solution)가 도출되지는 않지만, 표준의 비선형 최적화 방법들에 의해 효율적으로 최소화하는 것은 가능한데, 그 이유는 이 목적 함수가 볼록(convex)이기 때문이다.

<2.4. 비용 함수와 가치 함수의 추정>

밀도 비 π(y | x)/p(y | x)가 일단 추정되면, 상태 의존적 비용 함수 q(x)와 가치 함수 V(x)를 추정하기 위해 정칙화를 이용한 최소 제곱법이 적용된다.

가 음의 로그 비의 근삿값이고;

이라고 가정하고, 수학식 (6) 및 (9)에, 제각기, 정의된 바와 같은 q(x)와 V(x)의 선형 근사자들을 고려한다. 목적 함수는:

에 의해 주어지고, 여기서, λ_q와 λ_v는 정칙화 상수들이다. L2 정칙화는 w_v에 대해 사용되는데, 그 이유는 L2 정칙화가 수치 안정성을 달성하는 효과적인 수단이기 때문이다. 다른 한편으로, L1 정칙화는 실험자들에 의해 보다 쉽게 해석되는 희소 모델들을 산출하기 위해 w_q에 대해 사용된다. 희소성(sparseness)이 중요하지 않은 경우, w_q에 대해 L2 정칙화를 사용하는 것이 가능하다. 그에 부가하여, w_q와 w_v의 비음 제약조건들이 도입되지 않는데, 그 이유는 수학식 (12)가 비용 함수의 비음(non-negativity)을 효율적으로 충족시키도록

을 설정하는 것에 의해 사용될 수 있기 때문이다.

이론적으로, 우리는 임의의 기저 함수들을 선택할 수 있다. 본 발명의 일 실시예에서, 간략함을 위해 수학식 (18)에 나타낸 가우시안 함수가 사용되고:

여기서, σ는 폭 파라미터이다. 중심 위치

는

로부터 랜덤하게 선택된다.

<3. 실험들>

<3.1. 스윙업 도립 진자>

<3.1.1. 태스크 설명>

본 발명의 실시예 1에 속하는 앞서 기술된 실시예들의 유효성을 입증하고 확인하기 위해, 본 발명자들은 상태 벡터가 2차원 벡터 x=[θ, ω]^T에 의해 주어지는 스윙업 도립 진자 문제를 연구하였으며, 여기서 θ와 ω는, 제각기, 막대의 각도와 각속도를 나타낸다. 운동 방정식은 하기의 확률 미분 방정식(stochastic differential equation)에 의해 주어지며:

여기서 l, m, g, κ, σ_e, 및 ω는, 제각기, 막대의 길이, 질량, 중력 가속도, 마찰 계수, 잡음에 대한 스케일링 파라미터, 및 브라운 잡음(Brownian noise)을 나타낸다. 이전의 연구들(Deisenroth et al., 2009, NPL 4; Doya, 2000, NPL 5)과 달리, 인가되는 토크 u가 제한되지 않고, 직접 스윙업(swing-up)하는 것이 가능하다. 시간축을 단계 h를 사용해 이산화하는 것에 의해, 가우시안 분포에 의해 표현되는, 대응하는 상태 전이 확률 P_T(y | x, u)가 획득된다. 이 시뮬레이션에서, 파라미터들은 다음과 같이 주어진다:

본 발명자들은 (1) 상태 의존적 비용 함수 q(x), (2) 비제어 확률 p(y | x), 및 (3) 데이터 세트들

와

를 다음과 같이 변경하는 것에 의해 일련의 실험들을 수행하였다.

<비용 함수>

목표는 막대를 똑바로 서게 유지하는 것이고, 하기의 3개의 비용 함수:

가 준비되며, 여기서, Q=diag[1,0.2]이다. q_cost(x)는 Doya (2000)에 의해 사용되고, q_exp(x)는 Deisenroth et al.(2009)(NPL 4)에 의해 사용된다.

<비제어 확률>

<데이터 세트들의 준비>

2개의 샘플링 방법이 고려된다. 하나는 균등 샘플링(uniform sampling)이고, 다른 것은 궤적 기반 샘플링(trajectory-based sampling)이다. 균등 샘플링 방법에서, x가 상태 공간 전체에 걸쳐 정의된 균등 분포로부터 샘플링된다. 환언하면, p(x)와 π(x)가 균등 분포로서 간주된다. 이어서,

와

를, 제각기, 구성하기 위해 y가 비제어 확률과 제어 확률로부터 샘플링된다. 궤적 기반 샘플링 방법에서, 동일한 시작 상태 x₀로부터 상태들의 궤적들을 발생시키기 위해 p(y | x)와 π(y | x)가 사용된다. 이어서,

와

를 구성하기 위해 한 쌍의 상태 전이들이 궤적들로부터 랜덤하게 선택된다. p(x)가 π(x)와 상이할 것으로 예상된다.

각각의 비용 함수에 대해, 대응하는 가치 함수는 수학식 (4)를 푸는 것에 의해 계산되고, 대응하는 최적 제어 확률은 수학식 (5)에 의해 구해진다. 이전의 방법(Todorov, 2009b, NPL 25)에서, exp(-V(x))가 선형 모델에 의해 표현되지만, 그것이 목적 함수 (1) 하에서는 어려운데, 그 이유는 감가 인자 γ가 선형 모델을 복잡하게 만들기 때문이다. 따라서, 가치 함수는 수학식 (6)에 나타낸 선형 모델에 의해 근사화되고, 메트로폴리스 헤이스팅스 알고리즘이 적분을 구하는 데 사용된다.

실시예 1에서의 본 발명의 실시예들에 따른 방법들은 OptV와 비교될 수 있는데, 그 이유는 OptV의 가정들이 본 발명의 실시예들에 따른 우리의 방법들의 가정들과 동일하기 때문이다. 밀도 비 추정 방법들의 선택에 따라, 앞서 기술된 바와 같은 몇 개의 변형들이 존재한다. 보다 구체적으로는, 하기의 6개의 알고리즘이 고려된다: (1) LSCDE-IRL, (2) uLSIF-IRL, (3) LogReg-IRL, (4) Gauss-IRL, (5) p(y | x)가 LSCDE에 의해 추정되는 OptV 방법인, LSCDE-OptV, 및 (6) p(y | x)를 추정하는 데 가우시안 프로세스 방법이 사용되는, Gauss-OptV.

우리는

와

의 샘플들의 수를

으로 설정한다. 파라미터들 λ_q, λ_V, σ, 및 γ는 하기의 영역들: logλ_q, logλ_V∈linspace(-3,1,9), log σ∈linspace(-1.5,1.5,9), 및 log γ∈linspace(-0.2,0,9)로부터 교차 검증에 의해 최적화되고, 여기서 linspace(x_min,x_max,n)은 x_min과 x_max 사이에 동일한 간격으로 있는 n개의 점들의 세트를 발생시킨다.

<3.1.2. 실험 결과들>

추정된 비용 함수들의 정확도가 테스트 샘플들에 대한 정규화된 제곱 오차에 의해 측정되고:

여기서, 제각기, q(x_j)는 상태 x_j에서의 수학식 (19)에 나타낸 실제 비용 함수(true cost function) 중 하나이고,

는 추정된 비용 함수이다. 도 1의 (a) 내지 (d)는 본 실시예들의 IRL 방법들의 정확도를 비교하고; 우리의 방법들 (1) 내지 (4)가 모든 설정에서 OptV 방법들 (5) 및 (6)보다 더 나은 성능을 나타냈다는 것을 보여준다. 보다 구체적으로는, LogReg-IRL이 최상의 성능을 보여주었지만, 우리의 방법들 (1) 내지 (3) 사이에는 유의한 차이들이 없었다. 확률적 정책 π(u | x)가 가우시안들의 혼합에 의해 주어진 경우 Gauss-IRL에 의해 추정된 비용의 정확도가 상당히 증가되었는데, 그 이유는 표준의 가우시안 프로세스가 가우시안들의 혼합을 표현할 수 없기 때문이다.

도 2는 λ_q, λ_V 및 1 σ와 같은 다른 파라미터들이 최적 값들로 설정되는 경우의 감가 인자 γ의 교차 검증 오차를 나타내고 있다. 이 시뮬레이션에서, 교차 검증 오차는 모든 방법들에서 실제 감가 인자

에서 최소이다. 도 2에 도시된 바와 같이 그리고 또한 앞서 도 1에서 설명된 바와 같이, 본 발명의 실시예들은 충분히 작은 오차들을 갖는 것으로 증명되었고, 본 발명의 유효성을 확인해주었다.

<3.2. 인간 거동 분석>

<3.2.1. 태스크 설명>

우리의 IRL 알고리즘을 현실적인 상황에서 평가하기 위해, 본 발명자들은 동적 모터 제어, 막대 균형잡기 문제를 수행하였다. 도 3은 실험 셋업을 나타내고 있다. 피험자는 막대를 몇 번 스윙하기 위해 베이스(base)를 좌우상하로 움직이고 막대를 똑바로 선 위치에서 균형잡기 위해 막대를 감속시킬 수 있다. 동태는 6차원 상태 벡터

로 기술되고, 여기서 θ와

는 막대의 각도와 각속도이고, x와 y는 베이스의 수평 위치와 수직 위치이며,

및

는, 제각기, 그들의 시간 도함수들이다.

태스크는 2개의 조건: 긴 막대(73 cm)와 짧은 막대(29 cm) 하에서 수행되었다. 각각의 피험자는 각각의 조건에서 막대를 균형잡기 위해 15번 시도하였다. 각각의 시도는 피험자가 3초 또는 40초 경과 동안 막대를 똑바로 서게 유지할 수 있을 때 종료되었다. 우리는 7명의 피험자(5명은 오른손잡이이고 2명은 왼손잡이임)로부터 데이터를 수집하였고, 하기의 2개의 제어 확률 데이터 세트:

훈련을 위한

와

제i 피험자의 테스트를 위한

를 구성하기 위해 궤적 기반 샘플링 방법이 사용되었다. 모든 피험자들이, 랜덤 정책에 의해 발생된, 고유의 비제어 확률 p(y | x)를 갖는 것으로 가정된다. 이것은 데이터 세트들,

훈련을 위한

와

테스트를 위한

가 피험자들 간에 공유된다는 것을 의미한다. 데이터 세트들 내의 샘플들의 수는 300이었다.

<3.2.2. 실험 결과들>

도 4는 7명의 피험자의 학습 곡선들을 나타내며, 이는 학습 프로세스들이 피험자들 간에 아주 상이했다는 것을 보여준다. 2명의 피험자, 1번과 3번은 태스크를 완수할 수 없었다. 성공적인 궤적들의 세트가 IRL 알고리즘들에 의해 사용되어야만 하기 때문에, 우리는 5명의 피험자, 2번 및 4번 내지 7번으로부터 데이터를 픽업(pick up)하였다.

LogReg-IRL을 사용하는 경우의 실험 결과들이 이하에서 기술될 것이다(LSCDE-IRL과 uLSIF-IRL은 유사한 결과들을 보여주었다). 도 5는

및

가 시각화를 위해 0으로 설정되어 있는 동안 부분공간

에 투영된 피험자 4, 피험자 5 및 피험자 7의 추정된 비용 함수를 나타내고 있다. 피험자 7의 경우에, 긴 막대 조건의 비용 함수가 짧은 막대 조건의 비용 함수와 그렇게 상이하지 않은 반면, 도 4에 도시된 바와 같이 짧은 막대 조건에서 잘 수행하지 못한 피험자 5의 것들에서는 유의한 차이가 있었다.

훈련 데이터 세트들로부터 추정된 비용 함수들을 구하기 위해, 본 발명자들은 추정된 비용 함수에 대한 최적 제어 전이 확률을 구하기 위해 순 강화 학습을 적용하였고 이어서 테스트 데이터 세트들에 대한 음의 로그 우도:

를 계산하였으며, 여기서,

는

내의 샘플들의 수이다. 도 6은 결과들을 도시하고 있다. 좌측 도면 (a)에서, 우리는 긴 막대 조건에서 피험자의 테스트 데이터 세트

를 사용하였다. 최소 음의 로그 우도(minimum negative log-likelihood)는 동일한 조건의 훈련 데이터 세트들

및

로부터 추정된 비용 함수에 의해 달성되었다. 도 6의 우측 패널 (b)는 긴 막대 조건과 짧은 막대 조건 둘 다에서의 피험자 7의 테스트 데이터가 긴 막대 조건에서만 동일한 피험자 7의 훈련 데이터 세트로부터 추정된 비용 함수에 의해 가장 잘 예측되었다는 것을 나타내고 있다. 이와 같이, 본 발명의 실시예들의 유효성과 유용성이 이 실험에 의해서도 확인되고 입증되었다.

본 개시내용은 LMDP의 프레임워크 하에서의 신규의 역 강화 학습을 제시하였다. 본 발명의 특징들 중 하나는, 대응하는 비용 함수를 갖는 최적 가치 함수에 대해 시간차 오차가 0이라는 것을 의미하는, 수학식 (11)을 보여주는 것이다. 수학식 (11)의 우변이 효율적인 밀도 비 추정 방법들에 의해 샘플들로부터 추정될 수 있기 때문에, 본 발명의 IRL의 결과, 정칙화를 이용한 간단한 최소 제곱법이 얻어진다. 그에 부가하여, 실시예 1에서의 본 발명의 실시예들에 따른 방법은, 고차원 연속 문제들에서 보통 다루기 힘든, 적분을 계산할 필요가 없다. 그 결과, 개시된 방법은 OptV보다 계산 비용이 저렴하다.

LMDP 및 경로 적분법들은 로봇 분야 및 기계 학습 분야에서 최근에 관심을 받고 있는데(Theodorou & Todorov, 2012, NPL 22), 그 이유는 선형화된 벨만 방정식(Todorov, 2009a, NPL 24)에 다수의 흥미로운 속성들이 있기 때문이다. 그들은 큰 자유도를 갖는 로봇에 대한 확률적 정책들의 학습에 성공적으로 적용되었다(Kinjo et al., 2013, NPL 11; Stulp & Sigaud, 2012, NPL 17; Sugimoto and Morimoto, 2011, NPL 18; Theodorou et al., 2010, NPL 21). 본 발명의 실시예들에 따른 IRL 방법들은 복잡한 제어기들을 설계하기 위해 기존의 순 강화 학습 방법들과 통합될 수 있다.

앞서 기술된 바와 같이, 본 발명의 실시예 1의 적어도 일부 양태들에서, 본 개시내용은 관찰된 거동들로부터 보상/비용 함수를 효과적으로 추론할 수 있는 계산 알고리즘을 제공한다. 본 발명의 실시예들의 알고리즘은 적절한 하드웨어와 소프트웨어는 물론 특수 설계된 독점적 하드웨어/소프트웨어를 갖는 범용 컴퓨터 시스템들에서 구현될 수 있다. 본 발명의 적어도 일부 실시예들에 따른 다양한 장점들은 다음과 같은 것들을 포함한다:

A) 모델 프리 방법/시스템: 본 발명의 실시예들에 따른 방법 및 시스템은 사전에 환경 동태를 알 필요가 없다; 즉, 본 방법/시스템은 모델 프리 방법으로서 간주된다 - 일부 종래 기술의 접근법들이 환경 동태가 사전에 알려져 있는 것으로 가정하더라도, 타깃 동태(target dynamics)를 명시적으로 모델링할 필요가 없다 -.

B) 데이터 효율적임: 본 발명의 실시예들에 따른 방법 및 시스템에 대한 데이터 세트는 상태 전이 세트로 이루어져 있는 반면, 많은 이전의 방법들은 상태 궤적 세트를 필요로 한다. 이와 같이, 본 발명의 실시예들에 따른 방법 및 시스템에서, 데이터를 수집하는 것이 보다 쉽다.

C) 계산 효율적임 (1): 본 발명의 실시예들에 따른 방법 및 시스템은 (순) 강화 학습 문제를 풀 필요가 없다. 이와 달리, 일부 이전 방법들은 추정된 보상/비용 함수를 사용해 이러한 순 강화 학습 문제를 여러 번 푸는 것을 필요로 한다. 그 계산이 각각의 후보에 대해 수행되어야만 하고, 최적해를 구하는 데 보통 오랜 시간이 걸린다.

D) 계산 효율적임 (2): 본 발명의 실시예들에 따른 방법 및 시스템은 2개의 최적화 알고리즘: (a) 밀도 비 추정과 (b) 정칙화된 최소 제곱을 사용한다. 이와 달리, 일부 이전의 방법들은, 최소 제곱법들과 비교하여 최적화하는 데 보통 시간이 걸리는, 확률 그레이디언트 방법(stochastic gradient method) 또는 마르코프 체인 몬테 카를로 방법(Markov chain Monte Carlo method)을 사용한다.

앞서 기술된 바와 같이, 일 양태에서, 본 발명은 시연자들에 의해 발생되는 관찰된 상태 전이들로부터 목적 함수를 추론할 수 있는 역 강화 학습을 제공한다. 도 7은 본 발명의 실시예 1에 따른 방법의 프레임워크를 개략적으로 도시하고 있다. 본 발명의 실시예 1에 따른 역 강화 학습의 일 실시예는 2개의 컴포넌트: (1) 밀도 비 추정에 의한 제어를 사용하여 그리고 사용하지 않고 상태 전이 확률들의 비를 학습하는 것 및 (2) 정칙화된 최소 제곱법에 의한 전이 확률들의 비와 부합하는 비용 함수와 가치 함수의 추정을 포함한다. 각각의 단계에 대해 효율적인 알고리즘들을 사용하는 것에 의해, 본 발명의 실시예들은 데이터 및 계산에서 다른 역 강화 학습 방법들보다 더 효율적이다.

역 강화 학습의 산업상 이용가능성 및 유용성이 잘 이해되고 인식되었다. 본 발명의 실시예들이 적용될 수 있는 시스템/구성의 예들이 이하에서 기술된다.

<로봇 거동들의 모방 학습>

운동 계획(motion planning)과 같은 표준의 방법들로는 복잡한 태스크들을 수행하도록 로봇을 프로그램하는 것이 어렵다. 많은 상황들에서, 원하는 거동들을 로봇에게 시연하는 것이 훨씬 더 쉽다. 그렇지만, 고전적인 모방 학습의 주된 단점은 획득된 제어기가 시연된 움직임들을 재현하는 것에 불과하기 때문에 새로운 상황들에 대처할 수 없다는 것이다. 본 발명의 실시예들은 시연된 거동들로부터 목적 함수를 추정할 수 있고 이어서 추정된 목적 함수가 상이한 상황들에 대한 상이한 거동들을 학습하기 위해 사용될 수 있다.

도 8은 본 발명의 이러한 구현을 개략적으로 도시하고 있다. 먼저, 시연자는 태스크를 달성하기 위해 로봇을 제어하고, 상태들과 행동들의 시퀀스가 기록된다. 이어서, 본 발명의 일 실시예에 따른 역 강화 학습 컴포넌트는 비용 함수와 가치 함수를 추정하고, 이 함수들이 이어서 상이한 로봇들에 대한 순 강화 학습 제어기들에게 주어진다.

<인간 거동들의 해석>

거동들 뒤에 숨겨진 인간의 의도들에 대한 이해가 사용자에 친숙한 지원 시스템을 구축하는 데 기초적인 사안이다. 일반적으로, 거동은, 운동 추적 시스템에 의해 추출되는, 상태들의 시퀀스에 의해 표현된다. 본 발명의 일 실시예에 따른 역 강화 학습 방법/시스템에 의해 추정되는 비용 함수는 주어진 거동 데이터 세트를 설명하는 간결한 표현으로서 간주될 수 있다. 추정된 비용 함수들의 패턴 분류를 통해, 사용자의 전문지식 또는 선호사항을 추정하는 것이 가능하게 된다. 도 9는 본 발명의 일 실시예에 따른 이 구현을 개략적으로 도시하고 있다.

<웹 경험의 분석>

방문자들이 방문자들에게 제시되는 기사들을 읽을 가능성을 증가시키기 위해, 온라인 뉴스 웹사이트들의 설계자들은, 예를 들어, 의사 결정의 관점에서 방문자들의 웹 경험들을 조사해야만 한다. 특히, 추천 시스템들은 개인화된 서비스들을 위한 중요한 사업 적용분야로서 관심을 받고 있다. 그렇지만, 협업 필터링(collaborative filtering)과 같은 이전의 방법들은 의사 결정의 시퀀스들을 명시적으로 고려하지 않는다. 본 발명의 실시예들은 넷 서핑(net surfing) 동안 방문자들의 거동들을 모델링하는 상이하고 효과적인 방식을 제공할 수 있다. 도 10은, 사용자에 의해 어떤 토픽들이 어떤 순서로 액세스되었는지를 나타내는, 사용자에 의한 일련의 클릭 행동들의 일 예를 나타내고 있다. 방문자가 읽고 있는 토픽은 상태로서 간주되고, 링크를 클릭하는 것은 행동으로서 간주된다. 이어서, 본 발명의 일 실시예에 따른 역 강화 학습은 사용자의 넷 서핑에서의 의사 결정을 분석할 수 있다. 추정된 비용 함수가 방문자의 선호사항을 나타내기 때문에, 사용자를 위해 기사들의 리스트를 추천하는 것이 가능하게 된다.

앞서 기술된 바와 같이, 본 발명의 실시예 1에서의 실시예들에 따른 역 강화 학습 스킴들은 아주 다양한 산업 및/또는 상업 시스템들에 적용가능하다. 도 11은 일반 컴퓨터 시스템 및 센서 시스템을 사용하는 구현의 일 예를 도시하고 있다. 수학식들에 의해 앞서 설명된 방법들은, 예를 들어, 이러한 일반 컴퓨터 시스템에서 구현될 수 있다. 도면에 도시된 바와 같이 이 예의 시스템은 관찰되고 있는 객체로부터 상태 전이들 - 즉, 관찰된 거동 - 에 관한 정보를 수신하기 위해 센서 시스템(111)(데이터 취득 유닛의 일 예)을 포함한다. 센서 시스템(111)은 이미지 프로세싱 소프트웨어/하드웨어를 갖는 이미지 캡처 디바이스, 변위 센서들, 속도 센서들, 가속도 센서들, 마이크로폰, 키보드들, 및 임의의 다른 입력 디바이스들 중 하나 이상을 포함할 수 있다. 센서 시스템(111)은, 수신된 데이터가 본 발명의 실시예들에 따라 분석될 수 있도록, 적절한 메모리(114)를 갖는 프로세서(113)를 가지는 컴퓨터(112)에 연결되어 있다. 분석의 결과는, 디스플레이 모니터, 제어기들, 드라이버들(출력 인터페이스의 예들) 등과 같은, 임의의 출력 시스템(115), 또는 제어를 위해 결과들을 이용하는 경우에 제어될 객체에 출력된다. 앞서 기술된 바와 같이, 결과는 다른 로봇 또는 컴퓨터와 같은 다른 시스템, 또는 사용자의 상호작용에 응답하는 웹사이트 소프트웨어를 프로그램하기 위해 사용되거나 그에게 전달될 수 있다.

앞서 기술된 사용자의 웹 기사 선호사항을 예측하는 경우에, 구현된 시스템은, 인터넷에 연결된 컴퓨터에서 구현되는, 이상의 실시예들 중 임의의 실시예에 기술된 바와 같은 역 강화 학습을 위한 시스템을 포함할 수 있다. 여기서, 사용자의 거동들을 정의하는 상태 변수들은 각각의 웹페이지를 브라우징하는 동안 사용자에 의해 선택된 기사들의 토픽들을 포함한다. 이어서, 역 강화 학습의 결과는, 휴대용 스마트폰, 개인용 컴퓨터 등과 같은, 사용자가 인터넷 웹사이트들을 브라우징하고 있는 인터페이스로 하여금 사용자를 위한 추천된 기사를 디스플레이하게 하는 데 사용된다.

<II. 실시예 2>

일부 양태들에서 실시예 1보다 우수한 특성들을 갖는 실시예 2가 이하에서 기술될 것이다. 도 12는 실시예 1과 실시예 2 사이의 차이들을 개략적으로 도시하고 있다. 앞서 기술된 바와 같이 그리고 도 12에서의 (a)에 도시된 바와 같이, 실시예 1은 밀도 비 추정 알고리즘을 두 번 그리고 정칙화된 최소 제곱법을 사용하였다. 이와 달리, 본 발명의 실시예 2에서는, 밀도 비 π(x)/b(x)의 로그가 표준의 밀도 비 추정 (DRE) 알고리즘을 사용하여 추정되며, r(x)와 V(x) - 제각기, 보상 함수와 가치 함수임 - 가 벨만 방정식에 의한 밀도 비 π(x, y)/b(x, y)의 로그의 추정을 통해 계산된다. 보다 상세하게는, 실시예 1에서, 하기의 3개의 단계가 필요하였다: (1) 표준의 DRE 알고리즘에 의해 π(x)/b(x)를 추정하고; (2) 표준의 DRE 알고리즘에 의해 π(x, y)/b(x, y)를 추정하며, (3) 벨만 방정식을 이용한 정칙화된 최소 제곱법에 의해 r(x)와 V(x)를 계산한다. 이와 달리, 실시예 2는 2-단계 최적화만을 사용한다: (1) 표준의 밀도 비 추정(DRE) 알고리즘에 의해 lnπ(x)/b(x)를 추정하고, (2) 벨만 방정식을 이용한 lnπ(x, y)/b(x, y)의 DRE(두 번째)를 통해 r(x)와 V(x)를 계산한다.

도 13은 실시예 2에서의 단계 (2)에 대한 두 번째 DRE의 계산 스킴을 개략적으로 설명한다. 도 13에 도시된 바와 같이, 첫 번째 DRE가 lnπ(x)/b(x)를 추정하기 때문에 lnπ(x, y)/b(x, y)의 두 번째 DRE는 하기의 식을 사용하여 r(x)+γV(y)-V(x)의 추정에 이른다.

이 방정식들은, 본질적으로, 앞서 기술된 수학식 (11) 및 (15)와 동일하다. 따라서, 실시예 2에서는, 정칙화된 최소 제곱법에 의해 실시예 1의 제3 단계 (3)을 계산할 필요가 없고, 계산 비용이 실시예 1과 비교하여 상당히 감소될 수 있다. 실시예 2에서, 벨만 방정식을 이용한 lnπ(x, y)/b(x, y)의 DRE(두 번째)를 통해 r(x)와 V(x)를 계산하는 제2 단계 (2)를 실행하기 위해, 기저 함수들이 상태 공간에 설계되고, 이는 최적화될 파라미터들의 수를 감소시킨다. 이와 달리, 실시예 1에서는, 표준의 DRE 알고리즘에 의해 π(x, y)/b(x, y)를 추정하는 단계 (2)에서, 기저 함수들이 상태 공간들의 곱(product)에 설계될 필요가 있고, 이는 상대적으로 많은 수의 파라미터들이 최적화될 것을 요구한다. 따라서, 실시예 2는 실시예 1과 비교하여 상대적으로 낮은 메모리 사용을 요구한다. 따라서, 실시예 2는 실시예 1에 비해 이러한 다양한 중요한 장점들을 갖는다. 실시예 2의 다른 특징들 및 셋업들은, 이하에서 달리 구체적으로 설명되지 않는 한, 실시예 1에 대해 앞서 기술된 다양한 방법론들 및 스킴들과 동일하다.

이하의 표 1은 실시예 2와 다양한 종래 방법들의 개괄적인 비교를 보여준다. 구체적으로는, 앞서 기술된 OptV, 최대 엔트로피 IRL(MaxEnt-IRL), 및 상대 엔트로피 IPL(RelEnt-IRL)과 관련하여 실시예 2에 대해 다양한 특징들이 비교된다. 표 1에 나타낸 바와 같이, 본 발명의 실시예 1은 종래의 방법들에 비해 다양한 장점들을 갖는다.

본 발명의 실시예 2의 유효성을 입증하고 확인하기 위해, 앞서 기술된 스윙업 도립 진자 문제가 연구되었다. 도 14는 실시예 2를 실시예 1, MaxEnt-IRL, RelEnt-IRL 및 OptV와 비교하는 실험의 결과들을 도시하고 있다. 도면에서 실시예 2는 "새로운 발명"으로서 표시되고 실시예 1은 "PCT/JP2015/004001"로서 표시되어 있다. 도 14에 도시된 바와 같이, 실시예 2는, 비록 샘플들의 수가 적을지라도, 실시예 1을 비롯한, 다른 방법들보다 더 양호하게 관찰된 정책들을 성공적으로 복구하였다.

<로봇 내비게이션 태스크 실험>

본 발명의 실시예 2의 유효성을 추가로 입증하고 확인하기 위해, 실시예 2, 실시예 1, 및 RelEt-IRL에 대해 로봇 네비게이션 태스크가 연구되었다. 적색(r), 녹색(g), 및 청색 (b)의 3개의 타깃 객체들이 카메라 눈을 갖는 프로그램가능 로봇 전방에 배치되었다. 목표는 3개의 타깃 중 녹색(g) 타깃에 도달하는 것이었다. 5개의 미리 결정된 시작 위치(A 내지 E)가 3개의 타깃 전방에 줄지어 배열(line up)되었다. 훈련 데이터는 시작 위치들(A 내지 C 및 E)로부터 수집되었고, 테스트 데이터는 시작 위치(D)를 사용하여 취해졌다. 상태 벡터는 다음과 같았고: x=[θ_r, N_r, θ_g, N_g, θ_b, N_b, θ_pan, θ_tilt]^T, 여기서 θi(i=r, g, b)는 타깃까지의 각도이고, Ni(i= r, g, b)는 블로브 크기(blob size)이며, θ_pan과 θ_tilt는 로봇의 카메라의 각도들이다. V(x)에 대한 기저 함수는 다음과 같이 주어지고:

여기서 c_i는 데이터 세트로부터 선택된 중심 위치이다. r(x)에 대한 기저 함수는 하기 식으로서 주어지고:

여기서 f_g는 가우시안 함수이고, f_s는 시그모이드 함수(sigmoid function)이다. 이 실험에서, π와 b는 실험자들에 의해 주어졌으며, 매 시작점에 대해, 데이터 세트들을 생성하기 위해 10개의 궤적이 수집되었다. 도 15는 실험의 결과들을 도시하고 있다. 도면에서, 실시예 2는 "새로운 발명"으로서 표시되고 실시예 1은 "PCT/JP2015/004001"로서 표시되어 있다. 결과들이 앞서 기술된 RelEnt-IRL의 결과와 비교된다. 도 15에 도시된 바와 같이, 실시예 2는 상당히 양호한 결과를 가져왔다. 이것은 또한 실시예 2에 따른 추정된 가치 함수가 보상들을 형성(shape)하기 위한 포텐셜 함수(potential function)로서 사용될 수 있다는 것을 나타낸다.

앞서 논의된 도립 진자 태스크에서의 계산 시간들(단위: 분)이 평가되었다. 실시예 2에서의 LogReg IRL 및 KLIEP IRL은 계산에 약 2.5 분만을 필요로 하였다. 실시예 1에서의 uLSIF IRL, LSCDE IRL, 및 LogReg IRL은, 제각기, 약 4 분 내지 9.5 분을 필요로 하였다. 따라서, 실시예 2는, 앞서 논의된, 실시예 1의 다양한 버전들보다 상당히 더 적은 계산 시간들을 필요로 하였다.

용이하게 이해할 수 있는 바와 같이, 실시예 2의 적용분야들은 앞서 논의된 실시예 1에 대한 다양한 적용분야들과 본질적으로 동일하다. 특히, 앞서 논의된 바와 같이, 실시예 2의 다양한 버전들은, 그 중에서도 특히, 인간 거동들의 해석, 웹 경험의 분석, 및 어떤 이상적인 거동들을 보여주는 것에 의해, 대응하는 목적 함수가 즉각적인 보상(immediate reward)으로서 평가되는, 모방에 의한 로봇 제어기들의 설계에 적용가능할 것이다. 로봇은 경험하지 못한 상황들에 대한 거동들을 일반화하기 위해 순 강화 학습에서 예측된 보상을 사용할 수 있다. 따라서, 아주 경제적이고 신뢰성있는 시스템들 및 방법론이 본 발명의 실시예 2에 따라 구성될 수 있다. 특히, 앞서 기술된 바와 같이, 실시예 2는 다른 방법들보다 적은 수의 관찰로 관찰된 정책들을 복구할 수 있다. 이것은 중요한 장점이다.

본 발명의 사상 또는 범주를 벗어남이 없이 본 발명에 다양한 수정들 및 변형들이 행해질 수 있다는 것이 본 기술분야의 통상의 기술자에게는 명백할 것이다. 이와 같이, 본 발명이 첨부된 청구항들 및 그의 등가물들의 범주 내에 속하는 수정들 및 변형들을 커버하는 것으로 의도되어 있다. 특히, 앞서 기술된 실시예들 및 그들의 수정들 중 임의의 2개 이상의 일부 또는 전부가 결합될 수 있고 본 발명의 범주 내에 있는 것으로 간주될 수 있다는 것이 명시적으로 생각되고 있다.

Claims

컴퓨터 시스템에 의해 수행되는 피험자의 거동들의 보상 함수와 가치 함수를 추정하기 위한 역 강화 학습(inverse reinforcement learning) 방법으로서,
상기 피험자의 상기 거동들을 정의하는 상태 변수들의 변화들을 표현하는 데이터를 취득하는 단계;
수학식 (1)에 의해 주어지는 수정된 벨만 방정식(Bellman equation)을 상기 취득된 데이터에 적용하는 단계:

- r(x)와 V(x)는, 제각기, 상태 x에서의 보상 함수와 가치 함수를 나타내고, V(y)는 상태 y에서의 가치 함수를 나타내고, γ는 감가 인자(discount factor)를 나타내며, b(y | x)는 순 강화 학습 전의 상태 전이 확률(state transition probability)을 나타내고, π(y | x)는 순 강화 학습 후의 상태 전이 확률을 나타냄 -;
수학식 (2)에서의 밀도 비(density ratio) π(x)/b(x)의 로그(logarithm)를 추정하는 단계;
상기 밀도 비 π(x, y)/b(x, y)의 로그(log)를 추정하는 것의 결과로부터 수학식 (2)에서의 r(x)와 V(x)를 추정하는 단계; 및
상기 추정된 r(x)와 V(x)를 출력하는 단계
를 포함하는, 방법.
제1항에 있어서, 상기 비 π(x)/b(x)와 π(x, y)/b(x, y)의 로그를 추정하는 단계는 로그-선형 모델(log-linear model)을 이용한 KLIEP(Kullback-Leibler Importance Estimation Procedure)를 사용하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 비 π(x)/b(x)와 π(x, y)/b(x, y)의 로그를 추정하는 단계는 로지스틱 회귀(logistic regression)를 사용하는 단계를 포함하는, 방법.
컴퓨터 시스템에 의해 수행되는 피험자의 거동들의 보상 함수와 가치 함수를 추정하기 위한 역 강화 학습 방법으로서,
상기 피험자의 상기 거동들을 정의하는 행동(action)에 의한 상태 전이를 표현하는 데이터를 취득하는 단계;
수학식 (3)에 의해 주어지는 수정된 벨만 방정식을 상기 취득된 데이터에 적용하는 단계:

- r(x)와 V(x)는, 제각기, 상태 x에서의 보상 함수와 가치 함수를 나타내고, P_T(y | x, u)는 행동 u 하에서 상태 x로부터 상태 y로의 상태 천이 확률을 나타내고, V(y)는 상태 y에서의 가치 함수를 나타내고, γ는 감가 인자를 나타내며, b(u | x)는 상태 x에서 행동 u를 선택할 확률을 나타내는 순 강화 학습 전의 확률적 정책(stochastic policy)을 나타내고, π(u | x)는 상태 x에서 행동 u를 선택할 확률을 나타내는 순 강화 학습 후의 확률적 정책을 나타냄 -;
수학식 (3)에서의 밀도 비 π(x)/b(x)의 로그를 추정하는 단계;
상기 밀도 비 π(x, u)/b(x, u)의 로그를 추정하는 것의 결과로부터 수학식 (4)에서의 r(x)와 V(x)를 추정하는 단계; 및
상기 추정된 r(x)와 V(x)를 출력하는 단계
를 포함하는, 방법.
제4항에 있어서, 상기 비 π(x)/b(x)와 π(x, u)/b(x, u)의 로그를 추정하는 단계는 로그-선형 모델을 이용한 KLIEP(Kullback-Leibler Importance Estimation Procedure)를 사용하는 단계를 포함하는, 방법.
제4항에 있어서, 상기 비 π(x)/b(x)와 π(x, u)/b(x, u)의 로그를 추정하는 단계는 로지스틱 회귀를 사용하는 단계를 포함하는, 방법.
프로세서로 하여금 피험자의 거동들의 보상 함수와 가치 함수를 추정하기 위한 역 강화 학습을 위한 알고리즘을 수행하게 하는 명령어들이 저장된 컴퓨터 판독 가능한 비일시적 저장 매체로서, 상기 명령어들은 상기 프로세서로 하여금 하기의 단계들:
상기 피험자의 상기 거동들을 정의하는 상태 변수들의 변화들을 표현하는 데이터를 취득하는 단계;
수학식 (1)에 의해 주어지는 수정된 벨만 방정식을 상기 취득된 데이터에 적용하는 단계:

- r(x)와 V(x)는, 제각기, 상태 x에서의 보상 함수와 가치 함수를 나타내고, V(y)는 상태 y에서의 가치 함수를 나타내고, γ는 감가 인자를 나타내며, b(y | x)는 순 강화 학습 전의 상태 전이 확률을 나타내고, π(y | x)는 순 강화 학습 후의 상태 전이 확률을 나타냄 -;
수학식 (2)에서의 밀도 비 π(x)/b(x)의 로그를 추정하는 단계;
상기 밀도 비 π(x, y)/b(x, y)의 로그를 추정하는 것의 결과로부터 수학식 (2)에서의 r(x)와 V(x)를 추정하는 단계; 및
상기 추정된 r(x)와 V(x)를 출력하는 단계
를 수행하게 하는, 비일시적 저장 매체.
피험자의 거동들의 보상 함수와 가치 함수를 추정하기 위한 역 강화 학습을 위한 시스템으로서,
상기 피험자의 상기 거동들을 정의하는 상태 변수들의 변화들을 표현하는 데이터를 취득하는 데이터 취득 유닛;
메모리를 갖는 프로세서 - 상기 프로세서와 상기 메모리는:
수학식 (1)에 의해 주어지는 수정된 벨만 방정식을 상기 취득된 데이터에 적용하고:

- r(x)와 V(x)는, 제각기, 상태 x에서의 보상 함수와 가치 함수를 나타내고, V(y)는 상태 y에서의 가치 함수를 나타내고, γ는 감가 인자를 나타내며, b(y | x)는 순 강화 학습 전의 상태 전이 확률을 나타내고, π(y | x)는 순 강화 학습 후의 상태 전이 확률을 나타냄 -;
수학식 (2)에서의 밀도 비 π(x)/b(x)의 로그를 추정하며;
상기 밀도 비 π(x, y)/b(x, y)의 로그를 추정하는 것의 결과로부터 수학식 (2)에서의 r(x)와 V(x)를 추정하도록 구성됨 -; 및
상기 추정된 r(x)와 V(x)를 출력하는 출력 인터페이스
를 포함하는, 시스템.
사용자가 인터넷 웹 서핑에서 선택한 일련의 기사들 중에서 상기 사용자가 읽을 가능성이 있는 기사들의 토픽 선호도를 예측하기 위한 시스템으로서,
인터넷에 연결된 컴퓨터에 구현되는, 제8항에 기재된 바와 같은 역 강화 학습을 위한 시스템
을 포함하며,
상기 피험자는 상기 사용자이고, 상기 피험자의 거동들을 정의하는 상기 상태 변수들은 각각의 웹페이지를 브라우징하는 동안 상기 사용자에 의해 선택된 기사들의 토픽들을 포함하며,
상기 프로세서는, 상기 사용자가 인터넷 웹사이트들을 브라우징하고 있는 인터페이스로 하여금, 추정된 보상 함수와 가치 함수에 따라 상기 사용자가 읽기 위한 추천된 기사를 디스플레이하게 하는, 시스템.
컴퓨터 시스템에 의해 수행되는 복잡한 태스크들을 수행하도록 로봇을 프로그램하기 위한 방법으로서,
상태들 및 행동들의 시퀀스를 기록하기 위해 태스크를 달성하도록 제1 로봇을 제어하는 단계;
상기 상태들 및 행동들의 상기 기록된 시퀀스에 기초하여 제8항에 기재된 바와 같은 역 강화 학습을 위한 시스템을 사용하여 보상 함수 및 가치 함수를 추정하는 단계; 및
상기 추정된 보상 함수 및 가치 함수로 제2 로봇을 프로그램하기 위해 상기 추정된 보상 함수 및 가치 함수를 상기 제2 로봇의 순 강화 학습 제어기(forward reinforcement leaning controller)에 제공하는 단계
를 포함하는, 방법.