KR20190143543A

KR20190143543A - 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법

Info

Publication number: KR20190143543A
Application number: KR1020180067908A
Authority: KR
Inventors: 이주홍
Original assignee: (주)밸류파인더스
Priority date: 2018-06-14
Filing date: 2018-06-14
Publication date: 2019-12-31
Also published as: KR102173243B1

Abstract

본 발명은 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에 관한 것으로서, 포트폴리오 자산배분을 위한 회귀 강화학습 모델의 성능향상을 위해, 과거의 자산데이터 외에 자산예측값 데이터와 인공생성 데이터를 생성하여 활용하는 방법에 대하여 구체적인 구현모델을 제시하고 이러한 모델이 효과적이라는 것을 실험을 통해 입증한다. 본 발명에 의하여 창안된 ‘자산예측값 데이터와 인공생성 데이터를 생성하여 활용하는 회귀 강화학습 모델’은 LSTM(Long Short-Term Memory)으로 구현하며, 자산예측값 데이터는 운용기간 동안의 예측정확도에 따른 자산가격의 상승, 하락에 대한 가상 예측값을 생성해 사용하고, 인공생성 데이터는 가우시안 프로세스를 사용한다.

Description

회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법 {Methode for Performance Improvement of Portfolio Asset Allocation Using Recurrent Reinforcement Learning}

본 발명은 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에 관한 것으로서, 좀더 자세하게는 기존의 회귀 강화학습을 기반으로 한 포트폴리오 운용모델의 성능향상을 위해 자산들의 예측값과 인공적으로 생성한 데이터를 사용하는 방법에 관한 것이다.

최근 들어, 인공지능 기술은 비약적으로 발전되고 있고, 다양한 분야에 적용되어 뛰어난 성과를 거두고 있다. 금융 분야에서도 인공지능을 적용한 산업이 빠르게 발전하고 있는데, 인공지능이 학습한 알고리즘을 이용해 투자조언, 투자결정 및 자산운용을 할 수 있게 되었다. 인공지능이 적용되는 금융 분야의 세부적인 영역으로는 포트폴리오 최적화, 신용등급 평가, 주식투자, 자산예측 등이 있다. 그중 포트폴리오 최적화는 투자의 안정성 확보와 수익 창출이라는 목표를 위해 중요한 의사결정이 필요하다.

기존의 포트폴리오 알고리즘으로는 Markowitz의 Mean-Variance모델, 선형계획법, 비선형계획법 등이 있고, 인공지능을 활용한 방법으로는 인공신경망, 강화학습 등의 방법들이 있는데, 그 중 회귀 강화학습 방법이 최근에 많은 관심을 받고 활발히 연구되어 오고 있다. 그러나 회귀 강화학습에 관한 기존의 연구들은 자산들의 과거데이터만 사용하기 때문에 포트폴리오의 성능향상에 도움을 줄 수 있는 다른 요소들에 대한 적용이 부족하다.

이와 관련하여 Markowitz는 포트폴리오를 최적화하는 평균-분산(Mean-Variance)모델을 소개하면서 포트폴리오 이론을 체계화하였다. 마코위츠 모델은 모든 투자기회 중에서 최적의 수익률, 리스크 조합을 가진 투자기회를 결정하는 이론으로, 각 종목의 종목 간의 과거자료, 평균수익률, 분산만을 사용해 분산투자 하는 이론이다. 위험의 정도인 종목 간의 분산을 최소화, 최소 기대수익률 달성, 모든 사용 가능한 금액을 투자하는 제약조건 세 가지를 가진 비선형계획 모델이다. 그리고 Moody는 회귀 강화학습을 사용하여 포트폴리오의 자산 할당 및 거래 시스템을 최적화하는 방법을 제시했다. 또한, Moody와 Saffell은 회귀 강화학습과 Q-Learning을 실제 데이터를 사용하여 비교 실험을 하였고 Q-Learning보다 회귀 강화학습이 더 좋은 결과를 보였다고 소개하였다.

Yue Deng이 제시한 모델은 딥러닝과 강화학습의 두 가지 학습개념에서 영감을 얻어 구현되었다. 제시된 모델에서 딥러닝 부분은 유익한 기능 학습을 위한 역동적인 시장 상태를 자동으로 감지한다. 그런 다음 강화학습 부분은 딥러닝을 통해 추출된 정보와 상호 작용하고 알려지지 않은 환경에서 최종 보상을 축적하기 위해 거래 의사 결정을 내린다. 학습 시스템은 심층구조와 반복구조를 모두 나타내는 복합적인 신경망으로 구현했다. 그리고 Saud Almahdi는 매매 시그널과 자산 배분 비중을 얻기 위해 칼마 지수(Calmar Ratio)를 이용한 회귀 강화학습 모델을 제안했다. 실험은 자주 거래되는 상장된 펀드로 구성된 포트폴리오를 사용하여, Expected Maximum Drawdown 기반의 목적 함수인 칼마 지수가 이전에 제안된 회귀 강화학습의 목적 함수와 비교하여 좀더 우수한 성능을 산출한 결과를 발표하였다. 반면 Lu, Daivid W는 회귀 강화학습을 LSTM(Long Short-Term Memory)으로 구현한 모델을 제시하였다. LSTM은 기존에 제시된 RNN 보다 일반적으로 좋은 성능을 보이며 회귀 강화학습의 훈련방식을 BPTT 학습방법으로 사용하여 만족할 수 있음을 보였다.

한편, 자산예측은 포트폴리오 성능향상에 도움을 줄 가능성이 높다. 이에 대하여 Jain는 “자산예측은 이익을 얻는 중요한 역할을 한다.”고 주장하였고, Mohapatra는 “시장의 변동성으로 인해 예측의 경과가 100% 정확하지 않더라도 투자에 도움이 될 수 있다”고 주장하였다. 수익률이 높고 안정적인 종목들로 포트폴리오를 구성하는 것과 함께 좋은 예측력의 자산예측 모델을 이용하여 매매하면 포트폴리오를 통해 추구하는 목표 달성에 근접할 수 있다. 또한 인공적으로 생성된 데이터를 사용하는 것이 도움이 될 수 있다. 실제 관측된 데이터들만을 사용한 훈련은 포트폴리오의 목표달성을 이루기에는 부족할 수 있다. 주식 데이터가 초 단위, 일 단위로 많은 데이터 포인트들을 가지고 있지만, 데이터 포인트들의 집합은 단지 하나의 트렌드만을 나타내기 때문이다. 훈련 데이터의 부족은 견고한 모델 구축에 문제가 될 수 있다. 따라서 실제 데이터와 유사한 트렌드를 가지면서도 다양한 변동성을 지닌 인공 데이터들을 생성해 학습에 함께 사용한다면 견고한 포트폴리오 모델 학습에 도움을 줄 수 있을 것이다.

그러나 지금까지는, 과거의 자산데이터 외에 자산예측과 인공생성 데이터를 사용하여 회귀 강화학습을 사용한 포트폴리오의 성능을 향상시키는 구체적인 방법이나 모델에 대한 연구나 발명이 없었기 때문에 과거의 자산데이터만으로 포트폴리오 알고리즘을 구현할 수밖에 없었고, 이에 따라 포트폴리오 자산배분의 성능이 낮을 수밖에 없었다.

Marokwitz, H., 1992 Portfolio selection. Journal of Finance 7, 77-91. SeungKyu Hwang, HyungJoon Lim, ShiYong Yoo, "Simulation on the Optimal Asset Allocation with Expected Returns Estimates.", KAPP 11.1 (2009): 27-57 Moody J et al, 1997, Performance function and reinforcement Learning for trading systems and portfolios, Journal of Forecasting. Moody, J., & Saffell, M. (2001). Learning to trade via direct reinforcement, IEEE Transaction on Neural Networks. Deng, Y., Bao, F., Kong, Y., Ren, Z., and Dai, Q. (2016). Deep direct reinforcement learning for financial signal representation and trading. IEEE Transactions on Neural Neural Networks and Learning Systems. Almahdi, S., & Yang, S. Y. (2017). "An adaptive portfolio trading system: A risk-return portfolio optimization using recurrent reinforcement learning with expected maximum drawdown", Expert Systems with Applications, 87, 267-279. Lu, David W. "Agent Inspired Trading Using Recurrent Reinforcement Learning and LSTM Neural Networks." arXiv preprint arXiv:1707.07338(2017). Jain, Vikalp Ravi, Manisha Gupta, and Raj Mohan Singh. "Analysis and Prediction of Individual Stock Prices of Financial Sector Companies in NIFTY50." International Journal of Information Engineering and Electronic Business 10.2 (2018): 33. Mohapatra, Avilasa, et al. "Applications of neural network based methods on stock market prediction: survey." International Journal of Engineering and Technology(UAE) 7.26 (2018): 71-76. Kanghee Park, Hyunjung Shin, "Stock Trading Model using Portfolio Optimization and Forecasting Stock Price Movement.", KIIE 39.6 (2013): 535-545 Guresen, Erkam, Gulgun Kayakutlu, and Tugrul U. Daim. "Using artificial neural network models in stock market index prediction." Expert Systems with Applications 38.8 (2011): 10389-10397 Moody, J., Wu, L., Liao, Y., & Saffell, M. (1998). Performance functions and reinforcement learning for trading systems and portfolios. Science, 17 (Feburary 1997), 441-470

본 발명에서는 포트폴리오 자산배분을 위한 회귀 강화학습 모델의 성능향상을 위해, 과거의 자산데이터 외에 자산예측값 데이터와 인공생성 데이터를 생성하여 활용하는 방법에 대하여 구체적인 구현모델을 제시하고 이러한 모델이 효과적이라는 것을 실험을 통해 입증한다. 본 발명에 의하여 창안된 ‘자산예측값 데이터와 인공생성 데이터를 생성하여 활용하는 회귀 강화학습 모델’은 LSTM(Long Short-Term Memory)으로 구현하며, 자산예측값 데이터는 운용기간 동안의 예측정확도에 따른 자산가격의 상승, 하락에 대한 가상 예측값을 생성해 사용하고, 인공생성 데이터는 가우시안 프로세스를 사용한다.

상술한 목적을 달성하기 위하여 창안된, 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법의 일 실시예는, 정보시스템에 의하여 수행되며, 과거자산 데이터, 자산예측값 데이터 및 인공생성 데이터에 대한 회귀 강화학습을 이용하여 포트폴리오 자산배분의 성능을 향상시키는 방법으로서, 일정범위 이내의 예측정확도에 따라 상기 자산예측값 데이터를 생성하는 단계; 상기 과거자산 데이터에 가우시안 프로세스를 적용하여 상기 인공생성 데이터를 생성하는 단계; 상기 과거자산 데이터, 상기 자산예측값 데이터 및 상기 인공생성 데이터를 포트폴리오 운용정보로 하여 LSTM(Long Short-Term Memory)의 Hidden State와 Cell State를 통하여 전달받는 단계; Unfold된 LSTM은 각 시점에 대응되고, t시점의 LSTM으로부터 자산배분비중

를 얻는 단계; 상기 자산배분비중

를 통해 상기 t시점에서의 포트폴리오 수익률

를 얻는 단계; 상기 포트폴리오 수익률

로 T시점까지의 목적함수

를 구하는 단계; 및 상기 목적함수

가 최대화되도록 내부가중치

를 조정하는 단계; 를 포함하는 것을 특징으로 하는 것이 바람직하다.

본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에 대한 또 다른 실시예는, 상술한 특징들에 더하여, 상기 자산예측값 데이터는 포트폴리오 운용기간 동안에 운용시작 시점을 기준으로 상승예측은 1, 하락예측은 -1로 표현하는 것을 특징으로 하는 것도 가능하다.

뿐만 아니라, 이들에 더하여, 상기 가우시안 프로세스는 각 시간에서 관측된 자산의 가격으로 이루어진 훈련데이터와 공분산함수 커널을 사용하여 하나의 확률 분포를 정의하고, 상기 공분산함수 커널은 노이즈모델을 적용한 제곱지수 커널로서 아래와 같은 수식에 의하여 산출되는 것을 특징으로 하는 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법으로 하는 것도 가능하다. 여기서

은 상기 훈련데이터 집합에 대한 불확실성과 관련된 매개변수,

은 기간(일)이다.

또한, 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에 대한 또 다른 실시예는, 상술한 특징들에 더하여, 상기 목적함수

는 아래의 미분수식에 의햐여 최대화되는 것을 특징으로 하는 것도 바람직하다.

이상에서 살펴본 바와 같이 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법은 과거의 자산데이터 외에 자산예측값 데이터와 인공생성 데이터를 생성하여 활용할 수 있는 구체적인 모델을 제시하기 때문에 포트폴리오의 성능을 향상시킬 수 있게되며, 후술하게 되는 실험결과에서 보듯이, 자산예측값 데이터와 인공생성 데이터를 생성하여 활용하는 경우 최대 약 34%의 성능향상을 할 수 있게 된다.

도 1은 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에서 48% 예측정확도를 갖는 자산예측값 데이터 생성을 예시한 것이다.
도 2는 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에서 인공생성 데이터의 생성과정을 도시한 것이다.
도 3은 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에서 LSTM으로 구현한 회귀 강화학습 모델구조를 도시한 것이다.
도 4는 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법의 실험에 사용된 5개의 포트폴리오 집합을 도시한 것이다.
도 5는 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법의 실험에 사용된 각 자산의 샤프지수를 표시한 것이다.
도 6은 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법의 실험에 사용된 5개의 포트폴리오 집합에 대한 평균샤프지수를 표시한 것이다.
도 7은 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에 대한 실험에서 Unfold 수에 따른 성능을 도시한 것이다.
도 8은 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에 대한 실험에서 상태길이에 따른 성능을 도시한 것이다.
도 9는 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에 대한 실험에서 알고리즘별 성능을 도시한 것이다.
도 10은 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에 대한 실험에서 예측값 적용에 따른 샤프지수 변화를 도시한 것이다.
도 11은 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에 대한 실험에서 인공생성 데이터 적용에 따른 샤프지수 변화를 도시한 것이다.
도 12는 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에 대한 실험에서 인공생성 데이터 조합에 따른 성능 변화를 도시한 것이다.
도 13은 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에 대한 실험에서 인공생성 데이터 비율을 도시한 것이다.
도 14는 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에 대한 실험에서 인공생성 데이터 비율에 따른 샤프지수 변화를 도시한 것이다.

이하에서 상술한 목적과 특징이 분명해지도록 본 발명을 상세하게 설명할 것이며, 이에 따라 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한 본 발명을 설명함에 있어서 본 발명과 관련한 공지기술 중 이미 그 기술 분야에 익히 알려져 있는 것으로서, 그 공지기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.

아울러, 본 발명에서 사용되는 용어는 가능한 한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며 이 경우는 해당되는 발명의 설명부분에서 상세히 그 의미를 기재하였으므로, 단순한 용어의 명칭이 아닌 용어가 가지는 의미로서 본 발명을 파악하여야 함을 밝혀두고자 한다. 실시 예들에 대한 설명에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 실시 예들을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

실시 예들은 여러 가지 형태로 변경을 가할 수 있고 다양한 부가적 실시 예들을 가질 수 있는데, 여기에서는 특정한 실시 예들이 도면에 표시되고 관련된 상세한 설명이 기재되어 있다. 그러나 이는 실시 예들을 특정한 형태에 한정하려는 것이 아니며, 실시 예들의 사상 및 기술 범위에 포함되는 모든 변경이나 균등물 내지 대체물을 포함하는 것으로 이해되어야 할 것이다.

상술한 바와 같이 본 발명에서는, 포트폴리오 자산배분을 위한 회귀 강화학습 모델의 성능향상을 위해, 과거의 자산데이터 외에 자산예측값 데이터와 인공생성 데이터를 생성하여 활용하는 방법에 대한 것이며다. 또한 본 발명에 의하여 창안된 ‘자산예측값 데이터와 인공생성 데이터를 생성하여 활용하는 회귀 강화학습 모델’은 LSTM(Long Short-Term Memory)으로 구현하며, 자산예측값 데이터는 운용기간 동안의 예측정확도에 따른 자산가격의 상승, 하락에 대한 가상 예측값을 생성해 사용하고, 인공생성 데이터는 가우시안 프로세스를 사용한다.

이하에서는 첨부된 도면을 참조하여 본 발명을 설명한다. 먼저 자산예측값 데이터의 생성에 대하여 도 1을 참조하여 설명한다. 도 1은 본 발명에 의한, 자산예측값 데이터 생성을 예시한 것인데, 예측정확도에 따른 자산예측 정보를 회귀 강화학습에 적용하기 위해서는 일정한 예측 정확도에 따라 상기 자산예측값 데이터를 인공적으로 생성하도록 하는 것이 바람직한데, 상기 자산예측값 데이터는 운용기간 동안에 운용시작 시점을 기준으로 상승예측은 1, 하락예측은 -1로 표현하도록 하는 것이 더욱 바람직하다. 또한 자산예측값 정확도는 38%부터 64%까지 2% 단위로 나누어 적용하도록 하고, 생성된 자산예측값 데이터를 회귀 강화학습의 입력에 추가하도록 하는 것이 바람직하다. 도 1은 48% 예측 정확도로 생성된 자산예측값 데이터 생성 예시이다.

다음으로는, 도 2를 참조하여 가우시안 프로세스를 이용한 데이터를 인공으로 생성하는 방법에 대하여 설명한다. 상기 가우시안 프로세스는 각 시간에서 관측된 자산의 가격으로 이루어진 훈련 데이터와 공분산 함수 커널을 사용하여, 함수에 대한 하나의 확률 분포를 정의하도록 하는 것이 바람직한데, 본 발명에서는 제곱지수 커널을 사용하고, 변동성을 부여하기 위하여 노이즈 모델을 사용하도록 하는 것이 더욱 바람직한데, 구체적인 수식은 다음과 같다.

여기서

은 훈련 데이터 집합에 대한 불확실성과 관련된 매개변수,

는 Kronecker delta이며,

은 기간(일)이다. 상기 매개변수

값을 조정하여, 원본데이터의 트렌드는 따르지만 각 시간별로 차이가 있는 인공 생성 데이터를 생성하도록 하는 것이 바람직한데, 도 2는 인공생성 데이터의 생성과정에 대한 예시이다.

한편, 포트폴리오를 위한 회귀 강화학습의 목적은 환경 즉 주식시장과 상호작용을 통해 목적함수에 해당하는 샤프지수가 최대화되도록 하는 행동 즉 포트폴리오 자산배분 비중을 최적화하는 모델을 학습시키는 것이다. 상기 회귀 강화학습의 주요 특징으로는 이전 자산배분 비중에 관한 정보들을 전달받아 현시점의 입력과 상호작용하여 자산배분 비중을 출력한다. 또한, 모델이 입력으로 받는 상태와 최대화 하려는 목적함수의 설정이 자유로워 다양하게 정의할 수 있다.

본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에서는 상기 회귀 강화학습의 모델을 Unfold된 LSTM(Long Short-Term Memory)을 사용하여 구현하도록 하는 것이 바람직하다. 상기 LSTM은 회귀 강화학습과 같이 이전 포트폴리오 운용에 대한 정보를 LSTM의 Hidden State와 Cell State를 통해서 이전의 정보를 전달받아 현재 시점에서 입력으로 받은 상태와 상호작용하여 행동을 결정한다.

본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에서, 회귀 강화학습 모델의 훈련은 다음과 같은 순서로 진행되도록 하는 것이 바람직하다. 먼저 Unfold된 LSTM은 각 시점에 대응되고, t시점의 LSTM으로부터 자산배분비중

를 얻도록 하는 것이 바람직하다. 그리고 상기 자산배분비중

를 통해 포트폴리오 수익률

를 얻도록 하는 것이 바람직하다. 그리고 T시점까지의 그리고 상기 포트폴리오 수익률

로 목적함수

를 구한다. 최종적으로 상기 목적함수

를 최대화하도록 LSTM의 내부 가중치

를 조정하도록록 하는 것이 바람직하다. 아래의 수식은 상기 목적함수

를 최대화하는 미분 수식이다. 아래의 수식을 정확히 계산하고 최적화하기 위해서 LSTM의 BPTT(Backpropagation Through Time)학습방법을 사용하는 것이 더욱 바람직하다.

상기 목적함수

는 대표적인 포트폴리오 성능척도인 샤프 지수를 사용하도록 하는 것이 바람직하다. 도 3은 LSTM으로 구현한 회귀 강화학습 모델 구조이다.

한편 본 발명에 적용되는 회귀 강화학습을 이용한 포트폴리오 운용모델 또는 에이전트(Agent)는 상태(State), 행동(Action) 및 보상(Reward)에 대한 정의가 필요하며, 아래와 같이 정의하는 것이 바람직하다.

에이전트의 액션(Action)

: 시간

시점에서 포트폴리오의

개의 개별 자산들에 대한 자산 배분 비중 벡터.

: 시간

시점에서 포트폴리오의

번째 개별자산에 대한 자산 배분 비중.

에이전트의 상태(State)

: 시간

시점에서 포트폴리오 운용 에이전트의 상태 입력 벡터.

: 예측값 사용 유무에 따라 두 가지 경우로 나뉜다.

-예측값 사용: 시간

시점에서

번째 개별자산의 과거

일 동안의 자산 가격 일 단위 수익률 벡터와 미래

일 동안의 예측값 벡터,

-예측값 미사용: 시간

시점에서

번째 개별자산의 과거

일 동안의 자산 가격 일 단위 수익률 벡터,

: 시간

시점에서 과거

일 동안의 과거 일 단위 수익률 벡터,

: 시간

시점에서

번째 개별자산의 일 단위 수익률,

: 시간

시점에서

번째 개별자산의 자산가격

:

번째 개별자산의 시간

시점에서 미래

+

구간의 예측 정확도에 따른 예측값 벡터, 각 예측값들은 상승 예측 시 1, 하락 예측 시 -1로 설정,

에이전트의 보상(Reward) 목적함수

: 총 운용 기간 T시간 동안 에이전트의 행동으로 인해 발생한 포트폴리오의 수익률에 대한 샤프 지수,

: 시간

시점에서 포트폴리오의 수익률,

: 시간

시점에서 자산의 가격변화에 따라 변경된 자산 배분 비중

<효과검증을 위한 실험>

본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법의 효과검증을 위하여 실 데이터를 적용하여 하기와 같이 실험하였다.

(1) 실험 데이터

도 4에서 보는 바와 같이 지수데이터 7개, 국내 주식 데이터 8개, 해외 주식 데이터 10개 등 총 25개의 데이터를 사용했다. 그리고 5개의 자산들의 집합을 설정해 5개의 포트폴리오를 구성하였다. 모든 실험은 5개의 포트폴리오에 대한 성능의 평균을 이용해 비교하였다. 사용되는 데이터는 모두 일 단위 데이터를 사용했으며, 훈련 데이터의 기간은 2012년 10월 17일부터 2014년 1월 3일까지로 설정했고, 테스트 데이터의 기간은 2014년 1월 6일부터 2015년 3월 26일까지로 설정하였다. 그리고 운용일자는 20일로 고정하였다. 각 자산들의 테스트 기간 샤프지수는 도 5와 같고, 상기 5개의 포트폴리오에 대한 테스트 기간 동안의 평균샤프지수는 도 6에서 보는 바와 같았다.

(2) 실험 환경

실험 환경은 Intel Xeon 3.50Ghz CPU, 128G DRAM과 NVIDIA GTX 1080을 사용하여 진행했다. 실험 프로그램은 Python과 Tensorflow를 사용했다.

(3) 최적의 Unfold수 실험

LSTM으로 구현한 회귀 강화학습의 최적의 Unfold수를 찾는 실험을 수행했다. Unfold만을 변수로 두고, 상태의 길이는 현시점부터 과거 60일로 고정해 실험했다. Unfold수는 3,5,8,10,12로 실험했다. 도 7은 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에 대한 실험에서 Unfold 수에 따른 성능을 도시한 것이며, 도 7에서 보는 바와 같이 실험결과 Unfold 수가 3에서 가장 높은 성능을 보였으며,

(4) 최적의 상태의 길이 실험

상기 최적의 Unfold수 실험결과에 따라, Unfold수를 3으로 고정한 다음, 최적의 상태 길이를 찾기 위해 현 시점에서 과거 20일, 40일, 60일, 80일, 100일, 120일로 설정하여 실험했다. 도 8은 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에 대한 실험에서 상태길이에 따른 성능을 도시한 것이다. 도 8에서 보는 바와 같이 상태 길이는 과거 20일에서 가장 좋은 성능을 보였다.

(5) 회귀 강화학습과 다른 알고리즘의 성능 비교실험

회귀 강화학습의 기본적인 성능을 분석하기 위하여, 상기 최적의 Unfold수 실험결과 및 상기 최적의 상태의 길이 실험결과에 따라 최적의 Unfold수와 상태의 길이를 적용하여 Markowitz모델과 1/N 포트폴리오와 비교실험 하였다. 도 9는 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에 대한 실험에서 알고리즘별 성능을 도시한 것인데, 도 9에서 보는 바와 같이 회귀 강화학습 알고리즘에서 가장 좋은 성능을 보였다.

(6) 자산예측값 적용 실험

상기 실험결과들과 자산예측값 데이터를 적용하여 회귀 강화학습 모델의 성능을 실험했다. Unfold수는 3, 상태의 길이는 20일, 예측 정확도는 38% ~ 64%로 2%단위로 나누어 실험했다. 도 10은 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에 대한 실험으로서, 과거 자산데이터만을 사용한 회귀 강화학습의 샤프지수 대비 증감률을 그래프로 표현한 것이다. 도 10에서 보는 바와 같이 예측정확도가 높을 때는 물론이고, 낮은 예측정확도에서도 유의미한 상승을 보였다.

(7) 인공생성 데이터 적용 실험

가우시안 프로세스의 파라미터

을 여러 단계로 나누어 원본 데이터와 함께 학습시켰다. 도 11은 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에 대한 실험에서, 과거자산 데이터만을 이용한 회귀 강화학습의 샤프지수 대비 인공생성 데이터 적용에 따른 샤프지수 변화를 도시한 것인데, 도 11에서 보는 바와 같이 원본 데이터와 인공생성 데이터의 비율은 1:1이고, 인공생성 데이터를 적용한 모든 경우에서 성능향상을 보였다.

(8) 인공생성 데이터 조합의 성능실험

상기 (7)의 실험에서는 원본 데이터와 인공생성 데이터의 비율이 1:1이었지만, 이 실험에서는 원본 데이터와 2개의 다른 파라미터의 인공생성 데이터의 조합으로 실험을 진행했다. 각각의 비율을 1:1:1로 설정하여 진행했다. 도 12는 본 발명에 의한 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법에 대한 실험에서 과거자산 데이터만을 이용한 회귀 강화학습의 샤프지수 대비 증감률에 대비할 때 인공생성 데이터 조합에 따른 성능 변화를 도시한 것이다.

(9) 인공생성 데이터의 비율증가에 따른 성능실험

상기 (7) 및 상기 (8)의 실험에서 최고의 성능을 보인 경우, 즉 원본 데이터, 첫 번째

=0.002, 두 번째

=0.008인 경우에 대하여 원본 데이터와 인공생성 데이터의 비율을 조정한 실험을 진행했다. 이 경우 인공생성 데이터의 비율증가가 성능향상에 어떠한 영향을 미치는지 실험하였다. 도 13은 인공생성 데이터의 비율을 나타내고 있고, 실험결과는 도 14와 같은데 과거자산 데이터만을 이용한 회귀 강화학습의 샤프지수 대비 인공생성 데이터의 비율에 따른 증감률이 도시되어 있다. 도 14에서 보는 바와 같이 인공생성 데이터의 비율이 1:1:1인 경우와 1:3:3인 경우가 높게 나오며, 인공생성 데이터의 비율이 1:3:3인 경우는 약 34%의 성능향상을 보이고 있다.

(10) 실험결과

실험결과를 통해 회귀 강화학습을 이용한 포트폴리오 자산배분시 과거예측값 데이터와 인공생성 데이터를 사용하는 것이 성능향상에 크게 도움이 되었음을 알 수 있었고, 최대 약 34%의 성능향상이 있는 것을 확인하였다.

상술한 여러 가지 예로 본 발명을 설명하였으나, 본 발명은 반드시 이러한 예들에 국한되는 것이 아니고, 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형 실시될 수 있다. 따라서 본 발명에 개시된 예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 예들에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 한다.

Claims

정보시스템에 의하여 수행되며, 과거자산 데이터, 자산예측값 데이터 및 인공생성 데이터에 대한 회귀 강화학습을 통하여 포트폴리오 자산배분의 성능을 향상시키는 방법으로서,
일정범위 이내의 예측정확도에 따라 상기 자산예측값 데이터를 생성하는 단계;
상기 과거자산 데이터에 가우시안 프로세스를 적용하여 상기 인공생성 데이터를 생성하는 단계;
상기 과거자산 데이터, 상기 자산예측값 데이터 및 상기 인공생성 데이터를 포트폴리오 운용정보로 하여 LSTM(Long Short-Term Memory)의 Hidden State와 Cell State를 통하여 전달받는 단계;
Unfold된 LSTM은 각 시점에 대응되고, t시점의 LSTM으로부터 자산배분비중
를 얻는 단계;
상기 자산배분비중
를 통해 상기 t시점에서의 포트폴리오 수익률
를 얻는 단계;
상기 포트폴리오 수익률
로 T시점까지의 목적함수
를 구하는 단계; 및
상기 목적함수
가 최대화되도록 내부가중치
를 조정하는 단계; 를 포함하는 것을 특징으로 하는 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법
제1항에 있어서,
상기 자산예측값 데이터는 포트폴리오 운용기간 동안에 운용시작 시점을 기준으로 상승예측은 1, 하락예측은 -1로 표현하는 것을 특징으로 하는 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법
제1항에 있어서,
상기 가우시안 프로세스는 각 시간에서 관측된 자산의 가격으로 이루어진 훈련데이터와 공분산함수 커널을 사용하여 하나의 확률분포를 정의하는 것을 특징으로 하는 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법
제3항에 있어서,
상기 공분산함수 커널은 노이즈모델을 적용한 제곱지수 커널로서 아래와 같은 수식에 의하여 산출되는 것을 특징으로 하는 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법

은 상기 훈련데이터 집합에 대한 불확실성과 관련된 매개변수,
은 기간(일),
제1항에 있어서,
상기 목적함수
는 아래의 미분수식에 의햐여 최대화되는 것을 특징으로 하는 회귀 강화학습을 이용한 포트폴리오 자산배분 성능향상 방법