KR101966564B1

KR101966564B1 - 밀도 비 추정에 의한 역 강화 학습

Info

Publication number: KR101966564B1
Application number: KR1020177003433A
Authority: KR
Inventors: 에이지 우치베; 겐지 도야
Original assignee: 각코호진 오키나와가가쿠기쥬츠다이가쿠인 다이가쿠가쿠엔
Priority date: 2014-08-07
Filing date: 2015-08-07
Publication date: 2019-08-13
Also published as: CN106575382B; US10896382B2; CN106575382A; JP2017527022A; EP3178040A1; US20170213151A1; EP3178040A4; JP6417629B2; KR20170037615A; WO2016021210A1

Abstract

피험자의 거동들의 비용 함수와 가치 함수를 추정하기 위한 역 강화 학습 방법은 피험자의 거동들을 정의하는 상태 변수들의 변화들을 표현하는 데이터를 획득하는 단계; 식 (1): q(x)+gV(y)-V(x)=-ln{π(y|x))/(p(y|x)} (1)에 의해 주어지는 수정된 벨만 방정식을 획득된 데이터에 적용하는 단계 - q(x)와 V(x)는, 각각, 상태 x에서의 비용 함수와 가치 함수를 가리키고, g는 감가 인자를 나타내며, p(y|x)와 π(y|x)는, 각각, 학습 전후의 상태 천이 확률들을 가리킴 -; 식 (1)에서의 밀도 비 π(y|x)/p(y|x)를 추정하는 단계; 추정된 밀도 비 π(y|x)/p(y|x)에 따라 최소 제곱법을 사용하여 식 (1)에서의 q(x)와 V(x)를 추정하는 단계; 및 추정된 q(x)와 V(x)를 출력하는 단계를 포함한다.

Description

밀도 비 추정에 의한 역 강화 학습{INVERSE REINFORCEMENT LEARNING BY DENSITY RATIO ESTIMATION}

본 발명은 역 강화 학습(inverse reinforcement learning)에 관한 것이며, 보다 상세하게는, 역 강화 학습 시스템 및 방법에 관한 것이다. 본 출원은 이로써 2014년 8월 7일자로 출원된, 미국 가출원 제62/034,510호 전체를 참고로 포함한다.

관찰로부터 사람의 거동들을 이해하는 것은 사람과 상호작용할 수 있는 인공 시스템들을 개발하는 데 아주 중요하다. 우리의 의사 결정 프로세스들이 선택된 행동들과 연관된 보상/비용에 의해 영향을 받기 때문에, 문제가 관찰된 거동들로부터의 보상/비용의 추정으로서 정형화(formulate)될 수 있다.

역 강화 학습의 생각은 Ng 및 Russel(2000)(비특허 문헌 14)에 의해 최초로 제안되었다. Dvijotham 및 Todorov(2010)(비특허 문헌 6)에 의해 제안된 OptV 알고리즘은 사전 작업이고, 그들은 시연자의 정책이, 선형화된 벨만 방정식(linearized Bellman equation)의 해(solution)인, 가치 함수(value function)에 의해 근사화된다는 것을 보여준다.

일반적으로 말하면, 강화 학습(RL)은 환경과 상호작용하는 것에 의해 최적 정책을 학습할 수 있는 생물학적 시스템과 인공 시스템 둘 다의 의사 결정 프로세스들을 조사하기 위한 계산 프레임워크이다. RL에서 몇 개의 미해결 문제들이 있으며, 중요한 문제들 중 하나는 적절한 보상/비용 함수를 어떻게 설계하고 준비하느냐이다. 과제가 완수될 때 긍정적 보상을 주고 그렇지 않은 경우 보상이 없는 희소 보상 함수(sparse reward function)를 설계하는 것은 쉽지만, 최적 정책을 찾아내는 것을 어렵게 만든다.

어떤 상황들에서, 원하는 거동의 예들을 준비하는 것은 적절한 보상/비용 함수를 수작업으로 만드는 것보다 더 쉽다. 최근에, 시연자의 수행으로부터 보상/비용 함수를 도출하기 위해 그리고 모방 학습(imitation learning)을 구현하기 위해 역 강화 학습(IRL)(Ng & Russell, 2000, 비특허 문헌 14) 및 도제 학습(apprenticeship learning)(Abbeel & Ng, 2004, 비특허 문헌 1)의 몇 개의 방법들이 제안되었다. 그렇지만, 기존의 연구들(Abbeel & Ng, 2004, 비특허 문헌 1; Ratliff et al., 2009, 비특허 문헌 16; Ziebart et al., 2008, 비특허 문헌 26)의 대부분은 추정된 보상/비용 함수들로 순 강화 학습(forward reinforcement learning) 문제들을 푸는 루틴을 필요로 한다. 환경의 모델이 이용가능할 때에도 이 프로세스는 보통 시간이 아주 많이 걸린다.

최근에, 비용 함수의 형태를 제한하는 것에 의한 마르코프 결정 프로세스(Markov Decision Process)의 하위분류인, LMDP(Linearly solvable Markov Decision Process)(Todorov, 2007; 2009, 비특허 문헌 23 및 비특허 문헌 24)의 개념이 소개되었다. 이 제한은 IRL에서 중요한 역할을 한다. LMDP는 KL 제어 및 경로 적분(KL-control and path-integral) 접근법(Kappen et al., 2012, 비특허 문헌 10; Theodorou et al., 2010, 비특허 문헌 21)이라고도 알려져 있고, 유사한 생각들이 제어 이론의 분야에서 제안되어 있다(Fleming 및 Soner, 2006, 비특허 문헌 7). 경로 적분법에 기초한 모델 독립적 IRL(model-free IRL) 알고리즘들이 Aghasadeghi & Bretl (2011)(비특허 문헌 2); Kalakrishnan et al. (2013)(비특허 문헌 8)에 의해 제안되었다. 최적 궤적의 우도(likelihood)가 비용 함수에 의해 매개변수화되기 때문에, 우도를 최대화하는 것에 의해 비용의 매개변수들이 최적화될 수 있다. 그렇지만, 그들의 방법들은 궤적 데이터 전체를 필요로 한다. 모델 기반 IRL(model-based IRL) 방법은 최적 상태 천이의 우도가 가치 함수에 의해 표현되는, LMDP의 프레임워크에 기초하여 Dvijotham 및 Todorov(2010)(비특허 문헌 6)에 의해 제안되었다. IRL의 경로 적분 접근법들과 달리, 이는 임의의 상태 천이 데이터 세트로부터 최적화될 수 있다. 주된 단점은 해석적으로 풀 수 없는 적분을 구하는 것이다. 실제로, 그들은 적분을 합으로 대체하기 위해 상태 공간을 이산화(discretize)하였지만, 고차원 연속 문제들에서 실현가능하지 않다.

Abbeel, P. and Ng, A.Y. Apprenticeship learning via inverse reinforcement learning. In Proc. of the 21st International Conference on Machine Learning, 2004. Aghasadeghi, N. and Bretl, T. Maximum entropy inverse reinforcement learning in continuous state spaces with path integrals. In Proc. of IEEE/RSJ International Conference on Intelligent Robots and Systems, pp.1561-1566, 2011. Boularias, A., Kober, J., and Peters, J. Relative entropy inverse reinforcement learning. In Proc. of the 14th International Conference on Artificial Intelligence and Statistics, volume 15, 2011. Deisenroth, M.P., Rasmussen, C.E, and Peters, J. Gaussian process dynamic programming. Neurocomputing, 72(7-9):1508-1524, 2009. Doya, K. Reinforcement learning in continuous time and space. Neural Computation, 12:219-245, 2000. Dvijotham, K. and Todorov, E. Inverse optimal control with linearly solvable MDPs. In Proc. of the 27th International Conference on Machine Learning, 2010. Fleming, W.H. and Soner, H.M. Controlled Markov Processes and Viscosity Solutions. Springer, second edition, 2006. Kalakrishnan, M., Pastor, P., Righetti, L., and Schaal, S. Learning objective functions for manipulation. In Proc. of IEEE International Conference on Robotics and Automation, pp.1331-1336, 2013. Kanamori, T., Hido, S., and Sugiyama, M. A Least-squares Approach to Direct Importance Estimation. Journal of Machine Learning Research, 10:1391-1445, 2009. Kappen, H.J., Gomez, V., and Opper, M. Optimal control as a graphical model inference problem. Machine Learning, 87(2):159-182, 2012. Kinjo, K., Uchibe, E., and Doya, K. Evaluation of linearly solvable Markov decision process with dynamic model learning in a mobile robot navigation task. Frontiers in Neurorobotics, 7(7), 2013. Levine, S. and Koltun, V. Continuous inverse optimal control with locally optimal examples. In Proc. of the 27th International Conference on Machine Learning, 2012. Levine, S., Popovic, Z., and Koltun, V. Nonlinear inverse reinforcement learning with Gaussian processes. Advances in Neural Information Processing Systems 24, pp.19-27. 2011. Ng, A.Y. and Russell, S. Algorithms for inverse reinforcement learning. In Proc. of the 17th International Conference on Machine Learning, 2000. Rasmussen, C.E. and Williams, C. K.I. Gaussian Processes for Machine Learning. MIT Press, 2006. Ratliff, N.D., Silver, D, and Bagnell, J.A. Learning to search: Functional gradient techniques for imitation learning. Autonomous Robots, 27(1): 25-53, 2009. Stulp, F. and Sigaud, O. Path integral policy improvement with covariance matrix adaptation. In Proc. of the 10th European Workshop on Reinforcement Learning, 2012. Sugimoto, N. and Morimoto, J. Phase-dependent trajectory optimization for periodic movement using path integral reinforcement learning. In Proc. of the 21st Annual Conference of the Japanese Neural Network Society, 2011. Sugiyama, M., Takeuchi, I., Suzuki, T., Kanamori, T., Hachiya, H., and Okanohara, D. Least-squares conditional density estimation. IEICE Transactions on Information and Systems, E93-D(3): 583-594, 2010. Sugiyama, M., Suzuki, T., and Kanamori, T. Density ratio estimation in machine learning. Cambridge University Press, 2012. Theodorou, E., Buchli, J., and Schaal, S. A generalized path integral control approach to reinforcement learning. Journal of Machine Learning Research, 11: 3137--3181, 2010. Theodorou, E.A and Todorov, E. Relative entropy and free energy dualities: Connections to path integral and KL control. In Proc. of the 51st IEEE Conference on Decision and Control, pp. 1466-1473, 2012. Todorov, E. Linearly-solvable Markov decision problems. Advances in Neural Information Processing Systems 19, pp. 1369-1376. MIT Press, 2007. Todorov, E. Efficient computation of optimal actions. Proceedings of the National Academy of Sciences of the United States of America, 106(28): 11478-83, 2009. Todorov, E. Eigenfunction approximation methods for linearly-solvable optimal control problems. In Proc. of the 2nd IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning, pp. 161-168, 2009. Ziebart, B.D., Maas, A., Bagnell, J.A., and Dey, A.K. Maximum entropy inverse reinforcement learning. In Proc. of the 23rd AAAI Conference on Artificial Intelligence, 2008.

역 강화 학습은 상기 문제들을 해결하는 프레임워크이지만, 앞서 언급된 바와 같이, 기존의 방법들은 하기의 단점들을 갖는다: (1) 상태가 연속적일 때 다루기 어렵다, (2) 계산 비용이 많이 든다, 및 (3) 상태 궤적들 전체가 추정되어야만 한다. 본 개시내용에 개시되는 방법들은 이 단점들을 해결한다. 상세하게는, 비특허 문헌 14에 제안된 이전 방법은, 많은 이전의 연구들이 보고한 바와 같이, 잘 동작하지 않는다. 더욱이, 비특허 문헌 6에서 제안된 방법은 실제로 연속 문제(continuous problem)들을 해결할 수 없는데, 그 이유는 그들의 알고리즘이 복잡한 적분 구하기를 수반하기 때문이다.

본 발명은 역 강화 학습 시스템 및 방법에 관한 것이다.

본 발명의 목적은 기존의 기술의 문제들 중 하나 이상을 제거하기 위해 새롭고 개선된 역 강화 학습 시스템 및 방법을 제공하는 것이다.

본 발명의 목적에 따라 이들 및 다른 장점들을 달성하기 위해, 구현되고 대략적으로 기술된 바와 같이, 일 양태에서, 본 발명은 피험자의 거동들의 비용 함수와 가치 함수를 추정하기 위한 역 강화 학습 방법을 제공하고, 본 방법은 피험자의 거동들을 정의하는 상태 변수들의 변화들을 표현하는 데이터를 획득하는 단계; 식 (1):

에 의해 주어지는 수정된 벨만 방정식을 획득된 데이터에 적용하는 단계 - q(x)와 V(x)는, 각각, 상태 x에서의 비용 함수와 가치 함수를 가리키고, γ는 감가 인자(discount factor)를 나타내며, p(y|x)와 π(y|x)는, 각각, 학습 전후의 상태 천이 확률들을 가리킴 -; 식 (1)에서의 밀도 비(density ratio) π(y|x)/p(y|x)를 추정하는 단계; 추정된 밀도 비 π(y|x)/p(y|x)에 따라 최소 제곱법(least square method)을 사용하여 식 (1)에서의 q(x)와 V(x)를 추정하는 단계; 및 추정된 q(x)와 V(x)를 출력하는 단계를 포함한다.

다른 양태에서, 본 발명은 프로세서로 하여금 피험자의 거동들의 비용 함수와 가치 함수를 추정하기 위한 역 강화 학습 알고리즘을 수행하게 하는 명령어들을 저장하는, CD-ROM 또는 다른 형태의 비일시적 저장 매체와 같은, 비일시적 저장 매체를 제공하고, 상기 명령어들은 프로세서로 하여금 피험자의 거동들을 정의하는 상태 변수들의 변화들을 표현하는 데이터를 획득하는 단계; 식 (1):

다른 양태에서, 본 발명은 피험자의 거동들의 비용 함수와 가치 함수를 추정하기 위한 역 강화 학습 시스템을 제공하고, 본 시스템은 피험자의 거동들을 정의하는 상태 변수들의 변화들을 표현하는 데이터를 획득하는 데이터 획득 유닛; 메모리를 갖는 프로세서 - 프로세서와 메모리는 식 (1):

에 의해 주어지는 수정된 벨만 방정식을 획득된 데이터에 적용하고 - q(x)와 V(x)는, 각각, 상태 x에서의 비용 함수와 가치 함수를 가리키고, γ는 감가 인자를 나타내며, p(y|x)와 π(y|x)는, 각각, 학습 전후의 상태 천이 확률들을 가리킴 -; 식 (1)에서의 밀도 비 π(y|x)/p(y|x)를 추정하며; 추정된 밀도 비 π(y|x)/p(y|x)에 따라 최소 제곱법을 사용하여 식 (1)에서의 q(x)와 V(x)를 추정하도록 구성되어 있음 -; 및 추정된 q(x)와 V(x)를 출력하는 출력 인터페이스를 포함한다.

다른 양태에서, 본 발명은 사용자가 인터넷 웹 서핑에서 선택한 일련의 기사들 중에서 사용자가 읽을 가능성이 있는 기사들의 토픽 선호도를 예측하는 시스템을 제공하고, 본 시스템은 인터넷에 연결된 컴퓨터에 구현되는, 앞서 설명된 바와 같은 역 강화 학습 시스템을 포함하고, 여기서 상기 피험자는 사용자이고, 피험자의 거동들을 정의하는 상기 상태 변수들은 각각의 웹페이지를 브라우징하는 동안 사용자에 의해 선택된 기사들의 토픽들을 포함하며, 여기서 프로세서는 사용자가 인터넷 웹사이트들을 브라우징하고 있는 인터페이스로 하여금 추정된 비용 함수와 가치 함수에 따라 사용자가 읽기 위한 추천된 기사를 디스플레이하게 한다.

본 발명의 하나 이상의 양태들에 따르면, 역 강화 학습을 효과적으로 그리고 효율적으로 수행하는 것이 가능하게 된다. 일부 실시예에서, 사전에 환경 동태를 알 필요가 없고, 적분을 실행할 필요가 없다.

본 발명의 부가의 또는 별개의 특징들 및 장점들이 이하의 설명에서 기재될 것이고, 부분적으로 설명으로부터 명백할 것이거나, 본 발명의 실시에 의해 알게 될 수 있다. 본 발명의 목적들 및 다른 장점들이 본 발명의 서면으로 된 설명 및 청구범위는 물론, 첨부 도면들에 상세히 언급된 구조에 의해 실현되고 달성될 것이다.

이상의 일반적인 설명 및 이하의 상세한 설명 둘 다가 예시적이고 설명적인 것에 불과하며 청구된 본 발명의 추가 설명을 제공하려고 의도되어 있음을 잘 알 것이다.

도 1은 밀도 비 추정 방법들, (1) LSCDE-IRL, (2) uLSIF-IRL, (3) LogReg-IRL, (4) Gauss-IRL, (5) LSCDE-OptV, 및 (6) Gauss-OptV 각각에 대해 본 발명의 실시예들이 적용된 스윙업 도립 진자 실험(swing-up inverted pendulum experiment)들의 결과들에 대한 정규화된 제곱 오차들을 나타낸 도면. 도면에 나타낸 바와 같이, (a) 내지 (d)는 샘플링 방법들 및 다른 매개변수들의 면에서 서로 상이함.
도 2는 다양한 밀도 비 추정 방법들에 대한 스윙업 도립 진자 실험들에서의 교차 검증 오차(cross-validation error)들을 나타낸 그래프.
도 3은 긴 막대에 대한 막대 균형잡기 과제에 대한 실험 설정을, 좌측: 시작 위치, 중간: 목표 위치, 그리고 우측: 상태 변수들로 나타낸 도면.
도 4는 본 발명의 일 실시예에 따른, 다양한 피험자들과 관련하여 막대 균형잡기 과제 실험에서의 학습 곡선들을, 실선: 긴 막대, 점선: 짧은 막대로 나타낸 도면.
도 5는 정의된 부분공간(subspace)에 투영된, 4번 피험자, 5번 피험자, 및 7번 피험자에 대한 본 발명의 실시예에 따른 막대 균형잡기 과제 실험에 대해 도출된 추정된 비용 함수들을 나타낸 도면.
도 6은 추정된 비용 함수들을 평가하는, 4번 피험자 및 7번 피험자에 대한 막대 균형잡기 과제 실험에서의 테스트 데이터 세트들에 대한 음의 로그 우도 값(negative log likelihood value)들을 나타낸 도면.
도 7은 시연자들에 의해 발생된 관찰된 상태 천이들로부터 목적 함수(objective function)를 추론할 수 있는 본 발명의 일 실시예에 따른 역 강화 학습의 프레임워크를 개략적으로 나타낸 도면.
도 8은 로봇 거동들의 모방 학습에서의 본 발명의 역 강화 학습의 구현의 일 예를 나타낸 개략 블록도.
도 9는 사람 거동들의 해석에서의 본 발명의 역 강화 학습의 구현의 일 예를 나타낸 개략 블록도.
도 10은 방문자의 웹 서핑에서의 토픽 선호도를 보여주는, 웹 방문자에 의한 일련의 클릭 행동들을 개략적으로 나타낸 도면.
도 11은 본 발명의 일 실시예에 따른 역 강화 학습 시스템의 일 예를 개략적으로 나타낸 도면.

본 개시내용은 LMDP(Linearly solvable Markov Decision Process)의 프레임워크 하에서의 밀도 비 추정에 기초한 새로운 역 강화 학습 방법 및 시스템을 제공한다. LMDP에서, 제어 상태 천이 밀도(controlled state transition density)와 비제어 상태 천이 밀도(uncontrolled state transition density) 사이의 비의 로그가 상태 의존적 비용 함수와 가치 함수에 의해 표현된다. 본 발명의 일 양태에서, 밀도 비 추정 방법들은 천이 밀도 비를 추정하기 위해 사용되고, 정칙화(regularization)를 갖는 최소 제곱법은 관계를 충족시키는 상태 의존적 비용 함수와 가치 함수를 추정하는 데 사용된다. 이 방법은 분배 함수(partition function)를 평가하는 것과 같은 적분을 계산하는 것을 회피할 수 있다. 이하에서 기술되는 바와 같이, 진자 스윙업의 간단한 수치 시뮬레이션이 수행되었고, 종래의 방법들에 대한 그의 우수성이 입증되었다. 본 발명자들은 막대 균형잡기 과제를 수행함에 있어서 본 방법을 사람 거동들에 추가로 적용하고 추정된 비용 함수들이 새로운 시도들 또는 환경들에서의 피험자들의 수행을 만족스러운 방식으로 예측할 수 있다는 것을 보여준다.

본 발명의 일 양태는 OptV 알고리즘과 같은 LMDP(linearly solvable Markov decision process)의 프레임워크에 기초한다. 본 발명자들은

에 의해 주어지는 새로운 벨만 방정식을 도출하였고, 여기서 q(x)와 V(x)는 상태 x에서의 비용 함수와 가치 함수를 가리키고 γ는 감가 인자를 나타낸다. p(y|x)와 π(y|x)는, 각각, 학습 전후의 상태 천이 확률들을 나타낸다. 상기 방정식의 좌변의 밀도 비는 밀도 비 추정 방법들에 의해 관찰된 거동들로부터 효율적으로 계산된다. 밀도 비가 추정되면, 비용 함수와 가치 함수가 정칙화된 최소 제곱법에 의해 추정될 수 있다. 중요한 특징은 우리의 방법이 적분을 계산하는 것 - 이 경우 보통 높은 계산 비용으로 계산됨 - 을 회피할 수 있다는 것이다. 본 발명자들은 막대 균형잡기 과제를 수행함에 있어서 이 방법을 사람 거동들에 적용하였고, 추정된 비용 함수들이 새로운 시도들 또는 환경들에서 피험자들의 수행을 예측할 수 있다는 것을 보여주어, 제어 시스템, 기계 학습, 오퍼레이션 리서치(operations research), 정보 이론 등에서 잘 알려진 광범위한 적용가능성을 갖는, 역 강화 학습에서의 이 새로운 계산 기법의 보편적 적용가능성 및 유효성을 검증한다.

<1. LMDP(Linearly Solvable Markov Decision Process)>

<1.1. 순 강화 학습>

본 개시내용은 마르코프 결정 프로세스 및 이산 시간 연속 공간 영역에 대한 그의 단순화에 대한 간단한 소개를 제공한다. X와 U가, 각각, 연속 상태 공간과 연속 행동 공간이라고 하자. 시간 스텝 t에서, 학습 에이전트는 환경의 현재 상태

를 관찰하고 확률적 정책(stochastic policy) p(u_t | x_t)로부터 샘플링된 행동

을 실행한다.

그 결과, 즉시 비용(immediate cost) c(x_t, u_t)가 환경으로부터 주어지고, 환경은 행동 u_t 하에서 x_t로부터

로의 상태 천이 확률 P_T(y | x_t, u_t)에 따라 상태 천이를 행한다.

강화 학습의 목표는 주어진 목적 함수를 최소화하는 최적 정책 π(u|x)를 구성하는 것이다. 몇 개의 목적 함수들이 존재하고, 가장 널리 사용되는 것은 수학식 (1)에 의해 주어지는 비용들의 감가 합(discounted sum)이고,

여기서,

는 감가 인자라고 불리운다. 최적 가치 함수는 하기의 벨만 방정식을 충족시키는 것으로 알려져 있다:

수학식 2는 min 연산자로 인해 비선형 방정식이다.

LMDP(Linearly solvable Markov Decision Process)는 어떤 가정들 하에서 수학식 2를 단순화시킨다(Todorov, 2007; 2009a, 비특허 문헌 23 및 비특허 문헌 24). LMDP의 핵심 수법은 정책을 최적화하는 대신에 상태 천이 확률을 직접 최적화하는 것이다. 보다 구체적으로는, 2개의 조건부 확률 밀도 함수들이 도입된다. 하나는 내재적 상태 천이(innate state transition)로서 간주될 수 있는, p(y|x)로 표시되는 비제어 확률(uncontrolled probability)이다. p(y|x)는 임의적이고

에 의해 구성될 수 있으며, 여기서 π₀(u|x)는 랜덤 정책(random policy)이다. 다른 것은 최적 상태 천이로서 해석될 수 있는, π(y|x)로 표시되는 제어 확률(controlled probability)이다. 그러면, 비용 함수는 다음의 수학식 3의 형태로 제한된다:

여기서 q(x)와

는, 각각, 상태 의존적 비용 함수 그리고 제어 상태 천이 밀도와 비제어 상태 천이 밀도 사이의 쿨백 라이블러 발산(Kullback Leibler divergence)을 나타낸다. 이 경우에, 벨만 방정식(수학식 2)은 다음의 수학식 4로 단순화된다:

최적 제어 확률은 수학식 5에 의해 주어진다:

유의할 점은, 만족도 함수(desirability function) Z(x) = exp(-V(x))가 도입되었지만, 감가 인자 γ의 존재로 인해 수학식 4가 여전히 비선형이라는 것이다. LMDP의 프레임워크 하에서의 순 강화 학습에서, V(x)는 수학식 4를 푸는 것에 의해 계산되고, 이어서 π(y|x)가 계산된다(Todorov, 2009, 비특허 문헌 25).

<1.2. 역 강화 학습>

LMDP 하에서의 역 강화 학습(IRL) 알고리즘은 Dvijotham 및 Todorov(2010)(비특허 문헌 6)에 의해 제안되었다. 특히, OptV는 이산 상태 문제들에 아주 효율적이다. OptV의 장점은 최대 우도법(maximum likelihood method)이 가치 함수를 추정하는 데 적용될 수 있도록 최적 상태 천이가 가치 함수에 의해 명시적으로 표현된다는 것이다. 관찰된 궤적들이 최적 상태 천이 밀도(수학식 5)에 의해 발생되는 것으로 가정한다. 가치 함수는 수학식 6의 선형 모델에 의해 근사화되고:

여기서 w_v와 Ψ_v(x)는, 각각, 학습 가중치들과 기저 함수 벡터(basis function vector)를 나타낸다.

제어 확률이 수학식 5에 의해 주어지기 때문에, 가중치 벡터(weight vector) w_v는 우도를 최대화하는 것에 의해 최적화될 수 있다. 수학식 7의 상태 천이 데이터 세트를 가지는 것으로 가정하고:

여기서 N^π는 제어 확률로부터의 데이터의 수를 나타낸다. 그러면, 로그 우도와 그의 도함수는 수학식 8에 의해 주어지고:

여기서 π(y|x;w_v)는 가치 함수가 수학식 6에 의해 매개변수화되는 제어 정책(controlled policy)이다. 그래디언트(gradient)가 구해지면, 가중치 벡터 w_v가 그래디언트 상승법(gradient ascent method)에 따라 업데이트된다.

가치 함수가 추정된 후에, 단순화된 벨만 방정식(수학식 4)이 비용 함수를 검색하는 데 사용될 수 있다. 이는

와 γ가 주어질 때 비용 함수 q(x)가 일의적으로 결정되고, q(x)가 가치 함수에서 사용되는 기저 함수들에 의해 표현된다는 것을 의미한다. 비용 함수의 표현이 모방 학습의 경우에 중요하지 않지만, 우리는 분석을 위한 비용의 보다 간단한 표현을 찾고자 한다. 따라서, 본 발명자들은 수학식 9의 근사자(approximator)를 도입하고:

여기서 w_q와 Ψ_v(x)는, 각각, 학습 가중치들과 기저 함수 벡터를 나타낸다. w_q를 최적화하기 위한 L1 정칙화를 갖는 목적 함수는 수학식 10에 의해 주어지고:

여기서 λ_q는 정칙화 상수(regularization constant)이다. 간단한 그래디언트 하강 알고리즘(gradient descent algorithm)이 채택되고, J(w_q)는 관찰된 상태들에서 평가된다.

Dvijotham 및 Todorov(2010)(비특허 문헌 6)의 가장 중대한 문제점은 해석적으로 풀 수 없는 수학식 8과 수학식 10에서의 적분이고, 그들은 상태 공간을 이산화하여 적분을 합으로 대체하였다. 그렇지만, 그들이 제안한 바와 같이, 그것이 고차원 문제들에서는 실현불가능하다. 그에 부가하여, 비제어 확률 p(y | x)이 꼭 가우시안(Gaussian)인 것은 아니다. 본 발명의 적어도 일부 실시예들에서, 비제어 확률 p(y|x)가 원인 밀도(causal density)로서 사용되는, 메트로폴리스 헤이스팅스 알고리즘(Metropolis Hastings algorithm)이 로그 우도의 그래디언트를 평가하기 위해 적용된다.

<2. 밀도 비 추정에 의한 역 강화 학습>

<2.1. IRL을 위한 벨만 방정식>

수학식 4 및 수학식 5로부터, 본 발명자들은 감가 비용(discounted-cost) 문제들에 대해 수학식 11의 중요한 관계를 도출하였다:

수학식 11은 본 발명의 실시예들에 따라 IRL 알고리즘들에서 중요한 역할을 한다. 첫 번째 출구(first-exit) 문제, 평균 비용(average cost) 문제, 및 유한 구간(finite horizon) 문제에 대해 유사한 방정식들이 도출될 수 있다. 유의할 점은, q(x)가 수학식 3에 나타낸 비용 함수의 상태 의존적 부분이기 때문에 수학식 11의 좌변이 시간차 오차(temporal difference error)가 아니라는 것이다.

비용 함수의 형태가 LMDP 하에서 수학식 3에 의해 제약되더라도, 우리의 IRL은 여전히 불량 설정 문제(ill-posed problem)이고 비용 함수가 일의적으로 결정되지 않는다. 보다 구체적으로는, 상태 의존적 비용 함수가 수학식 12에 의해 수정되는 경우:

대응하는 가치 함수가 수학식 13으로 변경되고:

여기서 C는 상수 값이다. 그러면, V(x)로부터 도출된 제어 확률이 V'(x)로부터의 것과 똑같다. 이 특성은 이하에 기술되는 바와 같이 비용 함수를 추정할 때 유용하다. 본 발명의 일 양태에서, 개시된 IRL 방법은 2개의 부분으로 이루어져 있다. 하나는 이하에서 기술되는 수학식 11의 우변의 밀도 비를 추정하는 것이다. 다른 것은 이하에서 나타내는 바와 같이 정칙화를 갖는 최소 제곱법에 의해 q(x)와 V(x)를 추정하는 것이다.

<2.2. IRL을 위한 밀도 비 추정>

제어 천이 확률 밀도와 비제어 천이 확률 밀도의 비를 추정하는 것은 밀도 비 추정의 문제로서 간주될 수 있다(Sugiyama et al., 2012, 비특허 문헌 20). 문제의 설정에 따라, 본 개시내용은 하기의 정형화를 고려한다.

<2.2.1. 일반 사례>

먼저, 일반 설정이 고려된다. 2개의 상태 천이 데이터 세트를 가지는 것으로 가정한다: 하나는 수학식 7에 나타낸 D^π이고 다른 것은 비제어 확률로부터의 데이터 세트

이며 여기서 N^p는 데이터의 수를 나타낸다. 이어서, 우리는 D^p와 D^π로부터 비 π(y|x)/p(y|x)를 추정하는 것에 관심이 있다.

수학식 11로부터, 하기의 2개의 분해(decomposition)를 고려할 수 있다:

첫 번째 분해(수학식 14)는 조건부 확률 밀도들의 로그들의 차이를 나타낸다. 수학식 14를 추정하기 위해, 본 개시내용은 2개의 구현들을 고려하고 있다. 첫 번째 구현은 π(y|x)와 p(y|x)를 추정하기 위해 LSCDE(Least Squares Conditional Density Estimation)(Sugiyama et al., 2010)를 채택하는 LSCDE-IRL이다. 다른 구현은 수학식 14에서의 조건부 밀도를 추정하기 위해 가우시안 프로세스(Rasmussen & Williams, 2006, 비특허 문헌 15)를 사용하는 Gauss-IRL이다.

두 번째 분해(수학식 15)는 밀도 비의 로그들의 차이를 나타낸다. 두 번째 분해의 장점은 π(x) = p(x)인 경우 ln π(x)/p(x)가 무시될 수 있다는 것이다. 이 조건은 설정에 따라 충족될 수 있다. 현재, π(x)/p(x)와 π(x, y) / p(x, y)를 추정하기 위해 2개의 방법이 구현된다. 하나는 uLSIF(unconstrained Least Squares Importance Fitting)(Kanamori et al., 2009, 비특허 문헌 9)를 사용하는 uLSIF-IRL이다. 다른 것은 로지스틱 회귀(logistic regression)를 상이한 방식으로 이용하는 LogReg이다. 이하의 섹션 2.3은 그들의 구현을 기술한다.

<2.2.2. p(y | x)가 알려져 있지 않을 때>

상태 천이 확률 P_t(y|x, u)는 표준의 IRL 문제들의 경우에 사전에 알려져 있는 것으로 가정되고, 이것은 LMDP 경우에 비제어 확률 p(y|x)가 주어져 있다는 가정에 대응한다. 이것은 모델 기반 IRL로서 간주될 수 있다. 이 경우에, 수학식 14는 적절하고, 데이터 세트 D^p로부터 제어 확률 π(y|x)를 추정하는 것으로 충분하다.

어떤 상황들에서, 우리는 해석적 모델도 비제어 확률 밀도로부터의 데이터 세트도 갖지 않는다. 그러면, p(y|x)가, 비유계 변수(unbounded variable)들에 대해 부적절한 분포인, 균등 분포로 대체된다. 일반성을 잃지 않고, p(y|x)는 1로 설정되는데, 그 이유는 수학식 12 및 수학식 13에 의해 비용 함수와 가치 함수를 시프트시키는 것에 의해 보상될 수 있기 때문이다.

<2.3. 밀도 비 추정 알고리즘>

이 섹션은 본 개시내용에 개시된 IRL 방법에 적절한 밀도 비 추정 알고리즘들을 기술한다.

<2.3.1. uLSIF>uLSIF(Kanamori et al., 2009, 비특허 문헌 9)는 직접 밀도 비 추정 방법에 대한 최소 제곱법이다. uLSIF의 목표는 2개의 밀도의 비 π(x) / p(x)와 π(x, y) / p(x, y)를 추정하는 것이다. 이후부터, 본 개시내용은 r(z) =π(z)/p(z)를 D^p와 D^π로부터 어떻게 추정하는지를 설명하고, 여기서 간략함을 위해 z = (x, y)이다. 하기의 선형 모델에 의해 비를 근사화하기로 하고:

여기서, 각각, φ(z)는 기저 함수 벡터를 나타내고 α는 학습될 매개변수들이다. 목적 함수는 수학식 16에 의해 주어지고:

여기서 λ은 정칙화 상수이고

이다. 유의할 점은, 각각, H는 D^p로부터 추정되는 반면, h는 D^π로부터 추정된다는 것이다. 수학식 16은 해석적으로

로서 최소화될 수 있지만, 이 최소화자(minimizer)는 밀도 비의 비음 제약조건(non-negativity constraint)을 무시한다. 이 문제를 보상하기 위해, uLSIF는 수학식 17에 의해 해를 수정하고:

여기서 상기 max 연산자는 요소별(element-wise)로 적용된다.

Kanamori et al. (2009)(비특허 문헌 9)에 의해 권고되는 바와 같이, D^π의 상태들에 중점을 둔 가우시안 함수는 수학식 18에 의해 기술되는 기저 함수로서 사용되고:

여기서 σ는 폭 매개변수이다.

는 D^π로부터 랜덤하게 선택되는 상태이다. 매개변수들 λ와 σ는 LOOCV(leave-one-out cross-validation)에 의해 선택된다.

<2.3.2. LSCDE>

LSCDE(Sugiyama et al., 2010, 비특허 문헌 19)는 조건부 확률 밀도 함수를 추정하는 uLSIF의 특별한 경우로서 간주된다. 예를 들어, D^π로부터 π(y|x) =π(x, y)/π(x)를 추정하는 목적 함수는 하기 식에 의해 주어지고:

여기서

는 선형 모델이고 λ는 정칙화 상수이다. LSCDE에서 H와 h를 계산하는 것은 uLSIF에서의 것들과 약간 상이하고, 그들은 다음과 같이 계산되며:

여기서

는 다음과 같이 정의된다:

수학식 18에 나타낸 기저 함수가 사용되기 때문에, 이 적분은 해석적으로 계산될 수 있다. LSCDE의 추정된 가중치는 수학식 17에 의해 주어진다. 추정된 비가 조건부 밀도이도록 하기 위해, 해가 비용 함수와 가치 함수를 추정하는 데 사용될 때 해는 정규화되어야만 한다.

<2.3.3. LogReg>

LogReg는 로지스틱 회귀를 사용하는 밀도 추정 방법이다. 선택자 변수(selector variable) η = -1을 비제어 확률로부터의 샘플들에 그리고 η = 1을 제어 확률로부터의 샘플들에 할당하기로 하자:

밀도 비는 다음과 같이 베이즈 규칙(Bayes rule)을 적용하는 것에 의해 표현될 수 있다:

첫 번째 비는 Pr(η = -1)/Pr(η = 1)은 N^p/N^π에 의해 추정되고, 두 번째 비는 로지스틱 회귀 분류기(logistic regression classifier)에 의해 조건부 확률 P(η|z)를 추정한 후에 계산되며:

여기서 η는 라벨(label)로서 간주될 수 있다. 유의할 점은, 밀도 비의 로그가 LogReg의 경우에 선형 모델에 의해 주어진다는 것이다:

두 번째 항 ln N^p/N^π는 수학식 15에 나타낸 우리의 IRL 정형화에서 무시될 수 있다.

목적 함수는 하기의 식에 의해 표현된 음의 정칙화된 로그 우도(negative regularized log-likelihood)로부터 도출된다:

닫힌 형태의 해(closed-form solution)가 도출되지는 않지만, 표준의 비선형 최적화 방법들에 의해 효율적으로 최소화하는 것이 가능한데, 그 이유는 이 목적 함수가 볼록(convex)이기 때문이다.

<2.4. 비용 함수와 가치 함수의 추정>

밀도 비 π(y|x)/p(y|x)가 추정되면, 상태 의존적 비용 함수 q(x)와 가치 함수 V(x)를 추정하기 위해 정칙화를 갖는 최소 제곱법이 적용된다.

가 음의 로그 비의 근사값

인 것으로 가정하고, 수학식 6과 수학식 9에, 각각, 정의된 바와 같은 q(x)와 V(x)의 선형 근사자들을 고려한다. 목적 함수는 하기 식에 의해 주어지고:

여기서 λ_q와 λ_v는 정칙화 상수들이다. L2 정칙화는 w_v에 대해 사용되는데, 그 이유는 L2 정칙화가 수치 안정성을 달성하는 효과적인 수단이기 때문이다. 다른 한편으로, L1 정칙화는 실험자들에 의해 보다 쉽게 해석되는 희소 모델들을 산출하기 위해 w_q에 대해 사용된다. 희소성(sparseness)이 중요하지 않은 경우, w_q에 대해 L2 정칙화를 사용하는 것이 가능하다. 그에 부가하여, w_q와 w_v의 비음 제약조건들이 도입되지 않는데, 그 이유는 수학식 12가 비용 함수의 비음(non-negativity)을 효율적으로 충족시키도록

을 설정하는 데 사용될 수 있기 때문이다.

이론적으로, 우리는 임의의 기저 함수들을 선택할 수 있다. 본 발명의 일 실시예에서, 간략함을 위해 수학식 18에 나타낸 가우시안 함수가 사용되고:

여기서 σ는 폭 매개변수이다. 중앙 위치

는 D^p로부터 랜덤하게 선택된다.

<3. 실험>

<3.1. 스윙업 도립 진자>

<3.1.1. 과제 설명>

본 발명의 앞서 기술된 실시예들의 유효성을 입증하고 확인하기 위해, 본 발명자들은 상태 벡터가 2차원 벡터 x=[q, w]^T에 의해 주어지는 스윙업 도립 진자 문제를 연구하였으며, 여기서 q와 w는, 각각, 막대의 각도와 각속도를 나타낸다. 운동 방정식은 하기의 확률 미분 방정식(stochastic differential equation)에 의해 주어지며:

여기서 l, m, g, κ, σ_e, 그리고 ω는, 각각, 막대의 길이, 질량, 중력 가속도, 마찰 계수, 잡음에 대한 스케일링 매개변수, 그리고 브라운 잡음(Brownian noise)을 나타낸다. 이전의 연구들(Deisenroth et al., 2009, 비특허 문헌 4; Doya, 2000, 비특허 문헌 5)과 달리, 인가되는 토크 u가 제한되지 않고, 직접 스윙업(swing-up)하는 것이 가능하다. 시간축을 스텝 h를 사용해 이산화하는 것에 의해, 가우스 분포에 의해 표현되는, 대응하는 상태 천이 확률 P_T(y | x, u)가 획득된다. 이 시뮬레이션에서, 매개변수들은 다음과 같이 주어진다: l = 1 [m], m = 1 [kg], g = 9.8 [m/s²], 그리고 κ = 0.05 [kgm²/s], h = 0.01 [s], σ_e = 4, 그리고

본 발명자들은 (1) 상태 의존적 비용 함수 q(x), (2) 비제어 확률 p(y|x), 그리고 (3) 데이터 세트들 D^p와 D^π를 다음과 같이 변경하는 것에 의해 일련의 실험들을 수행하였다.

<비용 함수>

목표는 막대를 똑바로 서게 유지하는 것이고, 하기의 3개의 비용 함수들이 준비되고:

여기서 Q = diag[1, 0.2]이다. q_cost(x)는 Doya (2000)에 의해 사용되는 반면, q_exp(x)는 Deisenroth et al. (2009)(비특허 문헌 4)에 의해 사용된다.

<비제어 확률>

<데이터 세트들의 준비>

2개의 샘플링 방법들이 고려된다. 하나는 균등 샘플링(uniform sampling)이고, 다른 것은 궤적 기반 샘플링(trajectory-based sampling)이다. 균등 샘플링 방법에서, x가 상태 공간 전체에 걸쳐 정의된 균등 분포로부터 샘플링된다. 환언하면, p(x)와 π(x)가 균등 분포로서 간주된다. 이어서, D^p와 D^π를 구성하기 위해 y가 비제어 확률과 제어 확률로부터, 각각, 샘플링된다. 궤적 기반 샘플링 방법에서, p(y|x)와 π(y|x)는 동일한 시작 상태 x_.로부터 상태들의 궤적들을 발생시키기 위해 사용된다. 이어서, D^p와 D^π를 구성하기 위해 한 쌍의 상태 천이들이 궤적들로부터 랜덤하게 선택된다. p(x)가 π(x)와 상이할 것으로 예상된다.

각각의 비용 함수에 대해, 대응하는 가치 함수는 수학식 4를 푸는 것에 의해 계산되고, 대응하는 최적 제어 확률은 수학식 5에 의해 평가된다. 이전의 방법(Todorov, 2009b, 비특허 문헌 25)에서, exp(-V(x))가 선형 모델에 의해 표현되지만, 그것이 목적 함수(수학식 1) 하에서는 어려운데, 그 이유는 감가 인자 γ가 선형 모델을 복잡하게 만들기 때문이다. 따라서, 가치 함수는 수학식 6에 나타낸 선형 모델에 의해 근사화되고, 메트로폴리스 헤이스팅스 알고리즘이 적분을 구하는 데 사용된다.

본 발명의 실시예들에 따른 방법들은 OptV와 비교될 수 있는데, 그 이유는 OptV의 가정들이 본 발명의 실시예들에 따른 우리의 방법들의 가정들과 똑같기 때문이다. 밀도 비 추정 방법들의 선택에 따라, 앞서 기술된 바와 같은 몇 개의 변형들이 존재한다. 보다 구체적으로는, 하기의 6개의 알고리즘들이 고려된다: (1) LSCDE-IRL, (2) uLSIF-IRL, (3) LogReg-IRL, (4) Gauss-IRL, (5) p(y|x)가 LSCDE에 의해 추정되는 OptV 방법인, LSCDE-OptV, 그리고 (6) p(y|x)를 추정하는 데 가우시안 프로세스 방법이 사용되는 Gauss-OptV.

우리는 D^p와 D^π의 샘플들의 수를 N^p = N^π = 300로 설정한다. 매개변수들 λ_q, λ_V, σ, 그리고 γ는 하기의 영역들로부터 교차 검증에 의해 최적화되고: logλ_q,

및

, 여기서 linspace(x_min, x_max, n)은 x_min과 x_max 사이에 똑같은 간격으로 있는 n개의 점들의 세트를 발생시킨다.

<3.1.2. 실험 결과>

추정된 비용 함수들의 정확도가 테스트 샘플들에 대한 정규화된 제곱 오차에 의해 측정되고:

여기서, 각각, q(x_j)는 상태 x_j에서의 수학식 19에 나타낸 실제 비용 함수(true cost function) 중 하나인 반면,

는 추정된 비용 함수이다. 도 1의 (a) 내지 (d)는 본 실시예들의 IRL 방법들의 정확도를 비교하고; 우리의 방법들 (1) 내지 (4)가 모든 설정들에서 OptV 방법들 (5) 및 (6)보다 더 나은 성능을 나타냈다는 것을 보여준다. 보다 구체적으로는, LogReg-IRL이 최상의 성능을 보여주었지만, 우리의 방법들 (1) 내지 (3) 사이에는 그다지 차이가 없었다. 확률적 정책 π(u|x)가 가우시안들의 혼합에 의해 주어진 경우 Gauss-IRL에 의해 추정된 비용의 정확도가 상당히 증가되었는데, 그 이유는 표준의 가우시안 프로세스가 가우시안들의 혼합을 표현할 수 없기 때문이다.

도 2는 λ_q, λ_V 그리고 σ와 같은 다른 파라미터들이 최적 값들로 설정되는 감가 인자 γ의 교차 검증 오차를 나타내고 있다. 이 시뮬레이션에서, 교차 검증 오차는 모든 방법들에서 실제 감가 인자

에서 최소이다.

도 2에 도시되는 바와 같이 그리고 또한 앞서 도 1에서 설명된 바와 같이, 본 발명의 실시예들은 충분히 작은 오차들을 갖는 것으로 증명되었고, 본 발명의 유효성을 확인해주었다.

<3.2. 사람 거동 분석>

<3.2.1. 과제 설명>

우리의 IRL 알고리즘을 현실적인 상황에서 평가하기 위해, 본 발명자들은 동적 모터 제어, 막대 균형잡기 문제를 수행하였다. 도 3은 실험 설정을 나타내고 있다. 피험자는 막대를 몇 번 스윙하기 위해 베이스(base)를 좌우상하로 움직이고 막대를 똑바로 선 위치에서 균형잡기 위해 막대를 감속시킬 수 있다. 동역학은 6차원 상태 벡터

로 기술되고, 여기서 θ와

는 막대의 각도와 각속도이고, x와 y는 베이스의 수평 위치와 수직 위치이며,

와

는, 각각, 그들의 시간 도함수들이다.

과제는 2개의 조건 하에서 수행되었다: 긴 막대(73 cm)와 짧은 막대(29 cm). 각각의 피험자는 각각의 조건에서 막대를 균형잡기 위해 15번 시도하였다. 각각의 시도는 피험자가 3초 또는 40초 경과 동안 막대를 똑바로 서게 유지할 수 있을 때 종료되었다. 우리는 7명의 피험자들(5명은 오른손잡이이고 2명은 왼손잡이임)로부터 데이터를 수집하였고, 하기의 2개의 제어 확률 데이터 세트들을 구성하기 위해 궤적 기반 샘플링 방법이 사용되었다:

훈련을 위한

와 제i 피험자의 테스트를 위한

모든 피험자들이, 랜덤 정책에 의해 발생된, 고유의 비제어 확률 p(y|x)를 가지는 것으로 가정된다. 이것은 데이터 세트들, 훈련을 위한

와 테스트를 위한

가 피험자들 간에 공유된다는 것을 의미한다. 데이터 세트들에서의 샘플들의 수는 300이었다.

<4.2.2. 실험 결과>

도 4는 7명의 피험자들의 학습 곡선들을 나타내고 있으며, 이는 학습 프로세스들이 피험자들 간에 아주 상이했다는 것을 보여준다. 2명의 피험자들, 1번과 3번은 과제를 완수할 수 없었다. 성공적인 궤적들의 세트가 IRL 알고리즘들에 의해 사용되어야만 하기 때문에, 우리는 5명의 피험자들, 2번과 4번 내지 7번으로부터 데이터를 획득하였다.

LogReg-IRL을 사용하는 경우의 실험 결과들이 이하에서 기술될 것이다(LSCDE-IRL과 uLSIF-IRL은 유사한 결과들을 보여주었다). 도 5는 x, y,

그리고

가 시각화를 위해 0으로 설정되어 있는 동안 부분공간

에 투영된 피험자들 4, 5 및 7의 추정된 비용 함수를 나타내고 있다.

피험자 7의 경우에, 긴 막대 조건의 비용 함수가 짧은 막대 조건의 비용 함수와 그렇게 상이하지 않은 반면, 도 4에 도시된 바와 같이 짧은 막대 조건에서 잘 수행하지 못한 피험자 5의 것들에서는 상당한 차이가 있었다.

훈련 데이터 세트들로부터 추정된 비용 함수들을 평가하기 위해, 우리는 추정된 비용 함수에 대한 최적 제어 천이 확률을 구하기 위해 순 강화 학습을 적용하였고 이어서 테스트 데이터 세트들에 대한 음의 로그 우도를 계산하였고:

여기서

는

에서의 샘플들의 수이다. 도 6은 결과들을 나타내고 있다. 좌측 도면 (a)에서, 우리는 긴 막대 조건에서 피험자 4의 테스트 데이터 세트

를 사용하였다.

최소 음의 로그 우도는 동일한 조건의 훈련 데이터 세트들

와

로부터 추정되 비용 함수에 의해 달성되었다.

도 6의 우측 패널 (b)는 긴 막대 조건과 짧은 막대 조건 둘 다에서의 피험자 7의 테스트 데이터가 긴 막대 조건에서만 동일한 피험자 7의 훈련 데이터 세트로부터 추정된 비용 함수에 의해 가장 잘 예측되었다는 것을 나타내고 있다. 이와 같이, 본 발명의 실시예들의 유효성과 유용성이 이 실험에 의해서도 확인되고 입증되었다.

본 개시내용은 LMDP의 프레임워크 하에서의 새로운 역 강화 학습을 제시하였다. 본 발명의 특징들 중 하나는, 대응하는 비용 함수를 갖는 최적 가치 함수에 대해 시간차 오차가 0이라는 것을 의미하는, 수학식 11을 보여주는 것이다. 수학식 11의 우변이 효율적인 밀도 비 추정 방법들에 의해 샘플들로부터 추정될 수 있기 때문에, 본 발명의 IRL의 결과, 정칙화를 갖는 간단한 최소 제곱법이 얻어진다. 그에 부가하여, 본 발명의 실시예들에 따른 방법은, 고차원 연속 문제들에서 보통 다루기 힘든, 적분을 계산할 필요가 없다. 그 결과, 개시된 방법은 OptV보다 계산 비용이 저렴하다.

LMDP 및 경로 적분법들은 로봇 분야 및 기계 학습 분야에서 최근에 관심을 받고 있는데(Theodorou & Todorov, 2012, 비특허 문헌 22), 그 이유는 선형화된 벨만 방정식(Todorov, 2009a, 비특허 문헌 24)에 다수의 흥미로운 특성들이 있기 때문이다. 그들은 큰 자유도를 갖는 로봇에 대한 확률적 정책들의 학습에 성공적으로 적용되었다(Kinjo et al., 2013, 비특허 문헌 11; Stulp & Sigaud, 2012, 비특허 문헌 17; Sugimoto 및 Morimoto, 2011, 비특허 문헌 18; Theodorou et al., 2010, 비특허 문헌 21). 본 발명의 실시예들에 따른 IRL 방법들은 복잡한 제어기들을 설계하기 위해 기존의 순 강화 학습 방법들과 통합될 수 있다.

앞서 기술된 바와 같이, 본 발명의 적어도 일부 양태들에서, 본 개시내용은 관찰된 거동들로부터 보상/비용 함수를 효과적으로 추론할 수 있는 계산 알고리즘을 제공한다. 본 발명의 실시예들의 알고리즘은 적절한 하드웨어와 소프트웨어는 물론 특수 설계된 독점적 하드웨어/소프트웨어를 갖는 범용 컴퓨터 시스템들에서 구현될 수 있다. 본 발명의 적어도 일부 실시예들에 따른 다양한 장점들은 다음과 같은 것들을 포함한다:

A) 모델 독립적 방법/시스템: 본 발명의 실시예들에 따른 방법 및 시스템은 사전에 환경 동태를 알 필요가 없다; 즉, 방법/시스템은 모델 독립적 방법으로서 간주된다 - 일부 종래 기술의 접근법들이 환경 동태가 사전에 알려져 있는 것으로 가정하더라도, 대상 동태(target dynamics)를 명시적으로 모델링할 필요가 없다 -.

B) 데이터 효율적임: 본 발명의 실시예들에 따른 방법 및 시스템에 대한 데이터 세트는 상태 천이 세트로 이루어져 있는 반면, 많은 이전의 방법들은 상태 궤적 세트를 필요로 한다. 이와 같이, 본 발명의 실시예들에 따른 방법 및 시스템에서, 데이터를 수집하는 것이 보다 쉽다.

C) 계산 효율적임 (1): 본 발명의 실시예들에 따른 방법 및 시스템은 (순) 강화 학습 문제를 풀 필요가 없다. 이와 달리, 일부 이전 방법들은 추정된 보상/비용 함수를 사용해 이러한 순 강화 학습 문제를 여러 번 푸는 것을 필요로 한다. 그 계산이 각각의 후보에 대해 수행되어야만 하고, 최적해를 구하는 데 보통 오랜 시간이 걸린다.

D) 계산 효율적임 (2): 본 발명의 실시예들에 따른 방법 및 시스템은 2개의 최적화 알고리즘들을 사용한다: (a) 밀도 비 추정과 (b) 정칙화된 최소 제곱. 이와 달리, 일부 이전의 방법들은, 최소 제곱법들과 비교하여 최적화하는 데 보통 시간이 걸리는, 확률 그래디언트 방법(stochastic gradient method) 또는 마르코프 체인 몬테 카를로 방법(Markov chain Monte Carlo method)을 사용한다.

앞서 기술된 바와 같이, 일 양태에서, 본 발명은 시연자들에 의해 발생되는 관찰된 상태 천이들로부터 목적 함수를 추론할 수 있는 역 강화 학습을 제공한다. 도 7은 본 발명의 일 실시예에 따른 방법의 프레임워크를 개략적으로 나타내고 있다. 본 발명에 따른 역 강화 학습의 일 실시예는 2개의 컴포넌트들을 포함한다: (1) 밀도 비 추정에 의한 제어를 사용하여 그리고 사용하지 않고 상태 천이 확률들의 비를 학습하는 것 및 (2) 정칙화된 최소 제곱법에 의한 천이 확률들의 비와 부합하는 비용 함수와 가치 함수의 추정. 각각의 단계에 대해 효율적인 알고리즘들을 사용하는 것에 의해, 본 발명의 실시예들은 데이터 및 계산에서 다른 역 강화 학습 방법들보다 더 효율적이다.

역 강화 학습의 산업상 적용가능성 및 유용성이 잘 이해되고 인식되었다. 본 발명의 실시예들이 적용될 수 있는 시스템/구성의 예들이 이하에서 기술된다.

<로봇 거동들의 모방 학습>

운동 계획(motion planning)과 같은 표준의 방법들로는 복잡한 과제들을 수행하도록 로봇을 프로그래밍하는 것이 어렵다. 많은 상황들에서, 원하는 거동들을 로봇에게 시연하는 것이 훨씬 더 쉽다. 그렇지만, 고전적인 모방 학습의 주된 단점은 획득된 제어기가 시연된 움직임들을 재현하는 것에 불과하기 때문에 새로운 상황들에 대처할 수 없다는 것이다. 본 발명의 실시예들은 시연된 거동들로부터 목적 함수를 추정할 수 있고 이어서 추정된 목적 함수가 상이한 상황들에 대한 상이한 거동들을 학습하기 위해 사용될 수 있다.

도 8은 본 발명의 이러한 구현을 개략적으로 나타내고 있다. 먼저, 시연자는 과제를 달성하기 위해 로봇을 제어하고, 상태들과 행동들의 시퀀스가 기록된다. 이어서, 본 발명의 일 실시예에 따른 역 강화 학습 컴포넌트는 비용 함수와 가치 함수를 추정하고, 이 함수들이 이어서 상이한 로봇들에 대한 순 강화 학습 제어기들에 주어진다.

<사람 거동의 해석>

거동들 뒤에 숨겨진 사람의 의도들에 대한 이해가 사용자에 친숙한 지원 시스템을 구축하는 데 기본적인 문제이다. 일반적으로, 거동은, 운동 추적 시스템에 의해 추출되는, 상태들의 시퀀스에 의해 표현된다. 본 발명의 일 실시예에 따른 역 강화 학습 방법/시스템에 의해 추정되는 비용 함수는 주어진 거동 데이터 세트를 설명하는 간결한 표현으로서 간주될 수 있다. 추정된 비용 함수들의 패턴 분류를 통해, 사용자의 전문 지식 또는 선호 사항을 추정하는 것이 가능하게 된다. 도 9는 본 발명의 일 실시예에 따른 이 구현을 개략적으로 나타내고 있다.

<웹 경험의 분석>

방문자들이 방문자들에게 제시되는 기사들을 읽을 가능성을 증가시키기 위해, 온라인 뉴스 웹사이트들의 설계자들은, 예를 들어, 의사 결정의 관점으로부터 방문자들의 웹 경험들을 조사해야만 한다. 특히, 추천 시스템들은 개인화된 서비스들을 위한 중요한 사업 적용분야로서 관심을 받고 있다. 그렇지만, 협업 필터링(collaborative filtering)과 같은 이전의 방법들은 의사 결정의 시퀀스들을 명시적으로 고려하지 않는다. 본 발명의 실시예들은 넷 서핑(net surfing) 동안 방문자들의 거동들을 모델링하는 상이하고 효과적인 방식을 제공할 수 있다. 도 10은, 사용자에 의해 어떤 토픽들이 어떤 순서로 액세스되었는지를 나타내는, 사용자에 의한 일련의 클릭 행동들의 일 예를 나타내고 있다. 방문자가 읽고 있는 토픽은 상태로서 간주되고, 링크를 클릭하는 것은 행동으로서 간주된다. 이어서, 본 발명의 일 실시예에 따른 역 강화 학습은 사용자의 넷 서핑에서의 의사 결정을 분석할 수 있다. 추정된 비용 함수가 방문자의 선호 사항을 나타내기 때문에, 사용자를 위해 기사들의 리스트를 추천하는 것이 가능하게 된다.

앞서 기술된 바와 같이, 본 발명의 실시예들에 따른 역 강화 학습 방식들은 아주 다양한 산업 및/또는 상업 시스템들에 적용가능하다. 도 11은 일반 컴퓨터 시스템 및 센서 시스템을 사용하는 구현의 일 예를 나타내고 있다. 수학식들에 의해 앞서 설명된 방법들은, 예를 들어, 이러한 일반 컴퓨터 시스템에서 구현될 수 있다. 도면에 도시된 바와 같이 이 예의 시스템은 관찰되고 있는 대상으로부터 상태 천이들 - 즉, 관찰된 거동 - 에 관한 정보를 수신하기 위해 센서 시스템(111)(데이터 획득 유닛의 일 예)을 포함한다. 센서 시스템(111)은 영상 처리 소프트웨어/하드웨어를 갖는 영상 포착 디바이스, 변위 센서들, 속도 센서들, 가속도 센서들, 마이크로폰, 키보드들, 그리고 임의의 다른 입력 디바이스들 중 하나 이상을 포함할 수 있다. 센서 시스템(111)은, 수신된 데이터가 본 발명의 실시예들에 따라 분석될 수 있도록, 적절한 메모리(114)를 갖는 프로세서(113)를 가지는 컴퓨터(112)에 연결되어 있다. 분석의 결과는, 디스플레이 모니터, 제어기들, 구동기들(출력 인터페이스의 예들) 등과 같은, 임의의 출력 시스템(115), 또는 제어를 위해 결과들을 이용하는 경우에 제어될 대상으로 출력된다. 앞서 기술된 바와 같이, 결과는 다른 로봇 또는 컴퓨터와 같은 다른 시스템, 또는 사용자의 상호작용에 응답하는 웹사이트 소프트웨어를 프로그래밍하기 위해 사용되거나 그에게로 전송될 수 있다.

앞서 기술된 사용자의 웹 기사 선호도를 예측하는 경우에, 구현된 시스템은 인터넷에 연결된 컴퓨터에서 구현되는, 이상의 실시예들 중 임의의 실시예에 기술된 바와 같은 역 강화 학습 시스템을 포함할 수 있다. 여기서, 사용자의 거동들을 정의하는 상태 변수들은 각각의 웹페이지를 브라우징하는 동안 사용자에 의해 선택된 기사들의 토픽들을 포함한다. 이어서, 역 강화 학습의 결과가, 휴대용 스마트폰, 개인용 컴퓨터 등과 같은, 사용자가 인터넷 웹사이트들을 브라우징하고 있는 인터페이스로 하여금 사용자를 위해 추천된 기사를 디스플레이하게 하는 데 사용된다.

본 발명의 사상 또는 범주를 벗어나지 않고, 본 발명에 다양한 수정들 및 변형들이 행해질 수 있다는 것이 통상의 기술자에게는 명백할 것이다. 이와 같이, 본 발명이 첨부된 청구항들 및 그의 등가물들의 범주 내에 속하는 수정들 및 변형들을 포함하는 것으로 의도되어 있다. 특히, 앞서 기술된 실시예들 및 그들의 수정들 중 임의의 2개 이상의 일부 또는 전부가 결합될 수 있고 본 발명의 범주 내에 있는 것으로 간주될 수 있다는 것이 명시적으로 생각되고 있다.

Claims

피험자의 거동들의 비용 함수와 가치 함수를 추정하기 위한 역 강화 학습(inverse reinforcement learning) 방법으로서, 컴퓨터에 의해,
상기 피험자의 상기 거동들을 정의하는 상태 변수들의 변화들을 표현하는 데이터를 획득하는 단계;
식 (1):

에 의해 주어지는 수정된 벨만 방정식(Bellman equation)을 상기 획득된 데이터에 적용하는 단계 - q(x)와 V(x)는, 각각, 상태 x에서의 비용 함수와 가치 함수를 가리키고, V(y)는 상태 y에서의 가치 함수를 가리키고, γ는 감가 인자(discount factor)를 나타내며, p(y|x)는 순 강화 학습 전의 상태 천이 확률(state transition probability)을 가리키고, π(y|x)는 순 강화 학습 후의 상태 천이 확률을 가리킴 -;
식 (1)에서의 밀도 비(density ratio) π(y|x)/p(y|x)를 추정하는 단계;
상기 추정된 밀도 비 π(y|x)/p(y|x)에 따라 최소 제곱법(least square method)을 사용하여 식 (1)에서의 q(x)와 V(x)를 추정하는 단계; 및
상기 추정된 q(x)와 V(x)를 출력하는 단계
를 포함하는, 방법.
제1항에 있어서, 상기 비 π(y|x)/p(y|x)를 추정하는 단계는 uLSIF(unconstrained Least-Squares Importance Fitting)를 사용하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 비 π(y|x)/p(y|x)를 추정하는 단계는 LSCDE(Least Square Conditional Density Estimation)를 사용하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 비 π(y|x)/p(y|x)를 추정하는 단계는 로지스틱 회귀(logistic regression)를 사용하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 비 π(y|x)/p(y|x)를 추정하는 단계는 가우시안 프로세스(Gaussian process)를 사용하는 단계를 포함하는, 방법.
제1항에 있어서, 상기 비용 함수 q(x)와 상기 가치 함수 V(x)를 추정하는 단계는 정칙화를 갖는 최소 제곱법(least squares method with regularization)을 사용하는 단계를 포함하는, 방법.
프로세서로 하여금 피험자의 거동들의 비용 함수와 가치 함수를 추정하기 위한 역 강화 학습 알고리즘을 수행하게 하는 명령어들을 저장한 비일시적 컴퓨터 판독 가능 저장 매체로서, 상기 명령어들은 상기 프로세서로 하여금
상기 피험자의 상기 거동들을 정의하는 상태 변수들의 변화들을 표현하는 데이터를 획득하는 단계;
식 (1):

에 의해 주어지는 수정된 벨만 방정식을 상기 획득된 데이터에 적용하는 단계 - q(x)와 V(x)는, 각각, 상태 x에서의 비용 함수와 가치 함수를 가리키고, V(y)는 상태 y에서의 가치 함수를 가리키고, γ는 감가 인자를 나타내며, p(y|x)는 순 강화 학습 전의 상태 천이 확률을 가리키고, π(y|x)는 순 강화 학습 후의 상태 천이 확률을 가리킴 -;
식 (1)에서의 밀도 비 π(y|x)/p(y|x)를 추정하는 단계;
상기 추정된 밀도 비 π(y|x)/p(y|x)에 따라 최소 제곱법을 사용하여 식 (1)에서의 q(x)와 V(x)를 추정하는 단계; 및
상기 추정된 q(x)와 V(x)를 출력하는 단계를 수행하게 하는, 비일시적 컴퓨터 판독 가능 저장 매체.
피험자의 거동들의 비용 함수와 가치 함수를 추정하기 위한 역 강화 학습 시스템으로서,
상기 피험자의 상기 거동들을 정의하는 상태 변수들의 변화들을 표현하는 데이터를 획득하는 데이터 획득 유닛;
메모리를 갖는 프로세서 - 상기 프로세서와 상기 메모리는
식 (1):

에 의해 주어지는 수정된 벨만 방정식을 상기 획득된 데이터에 적용하고 - q(x)와 V(x)는, 각각, 상태 x에서의 비용 함수와 가치 함수를 가리키고, V(y)는 상태 y에서의 가치 함수를 가리키고, γ는 감가 인자를 나타내며, p(y|x)는 순 강화 학습 전의 상태 천이 확률을 가리키고, π(y|x)는 순 강화 학습 후의 상태 천이 확률을 가리킴 -;
식 (1)에서의 밀도 비 π(y|x)/p(y|x)를 추정하며;
상기 추정된 밀도 비 π(y|x)/p(y|x)에 따라 최소 제곱법을 사용하여 식 (1)에서의 q(x)와 V(x)를 추정하도록 구성되어 있음 -; 및
상기 추정된 q(x)와 V(x)를 출력하는 출력 인터페이스
를 포함하는, 시스템.
사용자가 인터넷 웹 서핑에서 선택한 일련의 기사들 중에서 상기 사용자가 읽을 가능성이 있는 기사들의 토픽 선호도를 예측하는 시스템으로서,
인터넷에 연결된 컴퓨터에 구현되는, 제8항에 기재된 역 강화 학습 시스템을 포함하고,
상기 피험자는 상기 사용자이고, 상기 피험자의 거동들을 정의하는 상기 상태 변수들은 각각의 웹페이지를 브라우징하는 동안 상기 사용자에 의해 선택된 기사들의 토픽들을 포함하며,
상기 프로세서는 상기 사용자가 인터넷 웹사이트들을 브라우징하고 있는 인터페이스로 하여금 상기 추정된 비용 함수와 가치 함수에 따라 상기 사용자가 읽기 위한 추천된 기사를 디스플레이하게 하는, 시스템.