KR102575858B1

KR102575858B1 - 포트폴리오 관리 장치 및 방법

Info

Publication number: KR102575858B1
Application number: KR1020220131222A
Authority: KR
Inventors: 이경재; 양현준
Original assignee: 중앙대학교 산학협력단
Priority date: 2022-10-13
Filing date: 2022-10-13
Publication date: 2023-09-06

Abstract

확률분포 형태의 강화학습 정책을 구성하여 복수의 포트폴리오를 리스크 수준별로 얻음으로써 선택적인 포트폴리오와 관리가 가능한 포트폴리오 관리 장치 및 방법이 개시된다. 일 실시예에 따른 포트폴리오 관리 장치는 하나 이상의 종목 정보를 제공하는 외부 장치와 통신을 수행하기 위한 인터페이스부; 및 현재 포트폴리오 비중 정보, 현재 포트폴리오 가치 정보 및 외부 장치로부터 수신한 현재 포트폴리오에 포함된 종목 정보 중 적어도 하나를 포함하는 상태 정보를 기초로 현재 포트폴리오에 포함된 하나 이상의 종목의 비중을 조절하는 포트폴리오 조절부를 포함할 수 있다.

Description

포트폴리오 관리 장치 및 방법{Apparatus and methods for portfolio management}

포트폴리오 관리를 위한 기술로서 특히, 확률분포 형태의 강화학습 정책을 구성하여 복수의 포트폴리오를 리스크 수준별로 얻음으로써 선택적인 포트폴리오와 관리가 가능한 포트폴리오 관리 장치 및 방법에 관한 것이다.

강화학습을 기반으로 포트폴리오 관리를 하는 기술은 PPO(Proximal Policy Optimization), DDPG(Deep Deterministic Policy Gradient) 등이 있으며, 이 기술은 알고리즘을 적용하여 현재 주가 데이터를 기반으로 최적 포트폴리오를 제시하는 동작을 수행한다.

기존의 방법론들은 최적 포트폴리오를 산출하는 정책 네트워크가 결정적(deterministic)이다. 즉, 학습된 최적 포트폴리오를 오직 1개 산출한다. 하지만, 현대 포트폴리오 이론에 따르면 포트폴리오의 기대 수익률과 리스크는 Trade-Off 관계이므로 최적의 포트폴리오는 효율적 경계선 위에 여러 개 존재할 수 있다. 이에 따라, 최적 포트폴리오를 결정적으로 1개 제시하는 기존의 방법들은 비효율적일 수 있다. 따라서, 복수의 최적 포트폴리오를 리스크에 따라 선택적으로 취하여 사용하는 이점을 살리는 알고리즘을 구현할 필요가 있다.

한국공개특허공보 제10-2021-0104379호(2021.08.25)

확률분포 형태의 강화학습 정책을 구성하여 복수의 포트폴리오를 리스크 수준별로 얻음으로써 선택적인 포트폴리오와 관리가 가능한 포트폴리오 관리 장치 및 방법을 제공하는데 목적이 있다.

일 양상에 따르면, 포트폴리오 관리 장치는 하나 이상의 종목 정보를 제공하는 외부 장치와 통신을 수행하기 위한 인터페이스부; 및 현재 포트폴리오 비중 정보, 현재 포트폴리오 가치 정보 및 외부 장치로부터 수신한 현재 포트폴리오에 포함된 종목 정보 중 적어도 하나를 포함하는 상태 정보를 기초로 현재 포트폴리오에 포함된 하나 이상의 종목의 비중을 조절하는 포트폴리오 조절부를 포함할 수 있다.

포트폴리오 조절부는 상태 정보에 기초하여 현재 포트폴리오에 포함된 하나 이상의 종목에 대한 다변량 확률 분포를 정의하기 위한 농도 매개변수(concentration parameter)를 산출하도록 학습된 정책 신경망을 포함할 수 있다.

포트폴리오 조절부는 농도 매개변수에 따라 결정된 다변량 확률 분포에 기초하여 복수의 포트폴리오 샘플을 추출할 수 있다.

포트폴리오 조절부는 추출된 복수의 포트폴리오 샘플 별 거래 비용을 계산하며, 계산된 거래 비용이 낮은 순서로 추출된 복수의 포트폴리오 샘플 중 하나 이상의 포트폴리오 후보를 선정할 수 있다.

포트폴리오 조절부는 선정된 하나 이상의 포트폴리오 후보 각각에 대한 리스크를 계산하며, 계산된 리스크에 기초하여 선정된 하나 이상의 포트폴리오 후보 중 어느 하나의 최적 포트폴리오를 결정할 수 있다.

리스크는 선정된 하나 이상의 포트폴리오 후보 각각에 포함된 하나 이상의 종목의 가격 변동성에 대한 공분산에 기초하여 결정될 수 있다.

포트폴리오 조절부는 현재 포트폴리오와 결정된 최적 포트폴리오 각각에 포함된 하나 이상의 종목의 비중 차이를 계산하여 하나 이상의 종목 각각에 대한 매수량 또는 매도량을 결정할 수 있다.

포트폴리오 조절부는 상태 정보에 기초하여 현재 포트폴리오의 가치를 평가하도록 학습된 가치 신경망을 더 포함할 수 있다.

가치 신경망은 현재 포트폴리오에 기초하여 평가한 현재 포트폴리오의 가치와 최적 포트폴리오가 적용된 미래 포트폴리오의 보상 및 최적 포트폴리오가 적용된 미래 포트폴리오의 가치를 평가한 미래 포트폴리오 가치에 기초하여 계산된 정답값의 차이에 기초하여 생성된 가치 손실함수에 기초하여 학습될 수 있다.

다변량 확률 분포는 디리클레 분포(Dirichlet distribution)일 수 있다.

일 양상에 따르면, 포트폴리오 관리 방법은 하나 이상의 종목 정보를 제공하는 외부 장치로부터 현재 포트폴리오에 포함된 종목 정보를 수신하는 송수신 단계; 및 현재 포트폴리오 비중 정보, 현재 포트폴리오 가치 정보 및 현재 포트폴리오에 포함된 종목 정보 중 적어도 하나를 포함하는 상태 정보를 기초로 현재 포트폴리오에 포함된 하나 이상의 종목의 비중을 조절하는 포트폴리오 조절 단계를 포함할 수 있다.

포트폴리오 조절 단계는 상태 정보에 기초하여 현재 포트폴리오에 포함된 하나 이상의 종목에 대한 다변량 확률 분포를 정의하기 위한 농도 매개변수(concentration parameter)를 산출하도록 학습된 정책 신경망을 이용하여 하나 이상의 종목에 대한 다변량 확률 분포를 획득할 수 있다.

포트폴리오 조절 단계는 농도 매개변수에 따라 결정된 다변량 확률 분포에 기초하여 복수의 포트폴리오 샘플을 추출할 수 있다.

포트폴리오 조절 단계는 추출된 복수의 포트폴리오 샘플 별 거래 비용을 계산하며, 계산된 거래 비용이 낮은 순서로 추출된 복수의 포트폴리오 샘플 중 하나 이상의 포트폴리오 후보를 선정할 수 있다.

포트폴리오 조절 단계는 선정된 하나 이상의 포트폴리오 후보 각각에 대한 리스크를 계산하며, 계산된 리스크에 기초하여 선정된 하나 이상의 포트폴리오 후보 중 어느 하나의 최적 포트폴리오를 결정할 수 있다.

포트폴리오 조절 단계는 현재 포트폴리오와 결정된 최적 포트폴리오 각각에 포함된 하나 이상의 종목의 비중 차이를 계산하여 하나 이상의 종목 각각에 대한 매수량 또는 매도량을 결정할 수 있다.

포트폴리오 조절 단계는 상태 정보에 기초하여 현재 포트폴리오의 가치를 평가하도록 학습된 가치 신경망을 더 이용하여 현재 포트폴리오의 가치를 평가할 수 있다.

일 실시예에 따를 경우, 기대 수익률 또는 리스크에 따라 복수의 포트폴리오 중 사용자에게 맞는 포트폴리오를 선택할 수 있다.

도 1은 일 실시예에 따른 포트폴리오 관리 장치의 구성도이다.
도 2는 일 실시예에 따른 포트폴리오 조절부의 동작을 설명하기 위한 예시도이다.
도 3은 일 실시예에 따른 포트폴리오 관리 방법을 도시한 흐름도이다.
도 4는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도이다.

이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로, 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

이하, 포트폴리오 관리 장치 및 방법의 실시예들을 도면들을 참고하여 자세히 설명한다.

도 1은 일 실시예에 따른 포트폴리오 관리 장치의 구성도이다.

도 1을 참조하면, 포트폴리오 관리 장치(100)는 하나 이상의 종목 정보를 제공하는 외부 장치와 통신을 수행하기 위한 인터페이스부(110) 및 포트폴리오에 포함된 하나 이상의 종목의 비중을 조절하는 포트폴리오 조절부(120)를 포함할 수 있다.

일 예로, 포트폴리오란 현금 자산을 포함하여 투자 대상 자산들의 투자 금액 비중 집합을 의미하며, 포트폴리오 관리란 포트폴리오의 각 자산 비중을 자산 가격과 같은 정보를 기반으로 리스크를 줄이거나 기대 수익률을 높이기 위해 조절하는 것을 나타낸다.

일 예에 따르면, 외부 장치는 포트폴리오에 포함된 하나 이상의 종목을 거래하기 위한 주식 거래 시스템일 수 있다. 포트폴리오 관리 장치(100)는 인터페이스부(120)를 통하여 외부 장치를 통하여 종목들에 대한 가격 정보 및 거래량 정보를 획득할 수 있으며, 포트폴리오에 포함된 하나 이상의 종목들을 매도 또는 매수하도록 외부 장치에 요청할 수 있다.

일 실시예에 따르면, 포트폴리오 조절부(120)는 현재 포트폴리오 비중 정보, 현재 포트폴리오 가치 정보 및 외부 장치로부터 수신한 현재 포트폴리오에 포함된 종목 정보 중 적어도 하나를 포함하는 상태 정보를 기초로 현재 포트폴리오에 포함된 하나 이상의 종목의 비중을 조절할 수 있다.

일 예에 따르면, 포트폴리오 비중 정보는 벡터로 표현될 수 있다. 예를 들어, 포트폴리오에 a1, a2, a3 종목이 포함되어 있는 경우, 포트폴리오 비중 정보는 [0.2, 0.3, 0.5]와 같이 표현될 수 있다. 일 예에 따르면, 포트폴리오 가치 정보는 현재 포트폴리오에 포함된 하나 이상의 종목 별 가격 또는 평가금액이거나, 포트폴리오 전체의 가격 또는 평가금액일 수 있다.

일 예에 따르면, 포트폴리오에 포함된 종목 정보는 포트폴리오에 포함된 하나 이상의 종목 별 시가, 종가, 고가, 저가 및 거래량 중 적어도 하나를 포함하는 정보일 수 있다.

도 2는 일 실시예에 따른 포트폴리오 조절부의 동작을 설명하기 위한 예시도이다.

일 실시예에 따르면, 포트폴리오 조절부(120)는 상태 정보에 기초하여 현재 포트폴리오에 포함된 하나 이상의 종목에 대한 다변량 확률 분포를 정의하기 위한 농도 매개변수(concentration parameter)를 산출하도록 학습된 정책 신경망을 포함할 수 있다.

도 2를 참조하면, 정책 신경망(121)은 현재 포트폴리오 비중 정보(w_t), 현재 포트폴리오 가치 정보(PV_t) 및 외부 장치로부터 수신한 현재 포트폴리오에 포함된 종목 정보 중 적어도 하나를 포함하는 상태 정보(s_t)를 입력 받을 수 있다.

일 예에 따르면, 다변량 확률 분포는 디리클레 분포(Dirichlet distribution)일 수 있다. 예를 들어, 포트폴리오 조절부(120)는 강화 학습을 이용하여 정책 신경망이 다변량 확률 분포를 정의하기 위한 농도 매개변수를 산출하도록 정책 신경망을 학습시킬 수 있다. 이후, 포트폴리오 조절부(120)는 산출된 농도 매개변수를 통하여 다변량 확률 분포를 획득할 수 있다.

일 실시예에 따르면, 포트폴리오 조절부(120)는 농도 매개변수에 따라 결정된 다변량 확률 분포에 기초하여 복수의 포트폴리오 샘플을 추출할 수 있다. 예를 들어, 포트폴리오 조절부(120)는 산출된 농도 매개변수를 기초로 결정된 디리클레 분포로부터 10000개의 포트폴리오 샘플을 추출할 수 있다.

일 실시예에 따르면, 포트폴리오 조절부(120)는 추출된 복수의 포트폴리오 샘플 별 거래 비용을 계산할 수 있다. 일 예로, 거래 비용은 포트폴리오를 구성하는 하나 이상의 종목을 매수 또는 매도하기 위한 매매 수수료일 수 있다.

일 실시예에 따르면, 포트폴리오 조절부(120)는 계산된 거래 비용이 낮은 순서로 추출된 복수의 포트폴리오 샘플 중 하나 이상의 포트폴리오 후보를 선정할 수 있다. 예를 들어, 포트폴리오 조절부(120)는 추출한 10000개의 포트폴리오 샘플 중 거래 비용이 낮은 10개의 포트폴리오를 포트폴리오 후보로 선정할 수 있다.

일 실시예에 따르면, 포트폴리오 조절부(120)는 선정된 하나 이상의 포트폴리오 후보 각각에 대한 리스크를 계산할 수 있다. 일 예로, 리스크는 선정된 하나 이상의 포트폴리오 후보 각각에 포함된 하나 이상의 종목의 가격 변동성에 대한 공분산에 기초하여 결정될 수 있다. 예를 들어, 리스크는 종목의 가격 변동성이 클수록 크다고 가정할 수 있다. 이때, 종목 가격의 표준편차가 변동성이 될 수 있으며, 포트폴리오 포함 종목 가격의 공분산을 계산하면 포트폴리오의 리스크가 될 수 있다.

일 실시예에 따르면, 포트폴리오 조절부(120)는 계산된 리스크에 기초하여 선정된 하나 이상의 포트폴리오 후보 중 어느 하나의 최적 포트폴리오를 결정할 수 있다. 일 예로, 최적의 포트폴리오는 사용자의 투자 성향에 따라 다르게 결정될 수 있다. 예를 들어, 포트폴리오는 위험도가 높지만 큰 이익을 기대할 수 있는 하이 리스크-하이 리턴 방식, 위험도를 낮추며 안정적으로 적은 이익을 기대할 수 있는 로우 리스크-로우 리턴 방식의 포트폴리오가 존재할 수 있다. 이에 따라, 포트폴리오 조절부(120)는 사용자의 투자 성향을 고려하여 하나 이상의 포트폴리오 후보 중 리스크를 반영한 최적의 포트폴리오를 결정할 수 있다. 예를 들어, 도 2와 같이 포트폴리오 조절부(120)는 입력 받은 상태 정보(s_t)에 기초하여 정책 신경망(121)을 통해 최적의 포트폴리오(Dt)를 결정할 수 있다.

일 실시예에 따르면, 포트폴리오 조절부(120)는 현재 포트폴리오와 결정된 최적 포트폴리오 각각에 포함된 하나 이상의 종목의 비중 차이를 계산하여 하나 이상의 종목 각각에 대한 매수량 또는 매도량을 결정할 수 있다. 일 예로, 포트폴리오 조절부(120)는 선택된 최적의 포트폴리오의 비중과 현재 포트폴리오의 비중 차이만큼 거래하여 최적 포트폴리오의 비중을 향해 포트폴리오를 조절할 수 있다. 예를 들어, 도 2에서 포트폴리오 조절부(120)는 포트폴리오를 조절하기 위한 행동 벡터 a_t를 생성할 수 있다.

일 실시예에 따르면, 포트폴리오 조절부(120)는 상태 정보에 기초하여 현재 포트폴리오의 가치를 평가하도록 학습된 가치 신경망을 더 포함할 수 있다. 예를 들어, 가치 신경망은 현재 가격 및 거래량 데이터와 포트폴리오를 입력으로 사용하여 가치를 평가할 수 있다. 일 예로, 가치 신경망은 평가된 가치를 기반으로 정책 신경망과 함께 최적화를 진행할 수 있다.

일 실시예에 따르면, 가치 신경망은 현재 포트폴리오에 기초하여 평가한 현재 포트폴리오의 가치와 최적 포트폴리오가 적용된 미래 포트폴리오의 보상 및 최적 포트폴리오가 적용된 미래 포트폴리오의 가치를 평가한 미래 포트폴리오 가치에 기초하여 계산된 정답값의 차이에 기초하여 생성된 가치 손실함수에 기초하여 학습될 수 있다.

일 실시예에 따르면, 가치 신경망의 손실함수와 정책 신경망의 손실 함수는 아래 수학식과 같이 정의할 수 있다.

[수학식 1]

여기서, (a|s)는 정책 함수로써 현재 상태에서 수행할 행동의 확률 분포를 나타내며, 이 정책을 따른다는 것은 이 정책의 확률에 따라 확률적으로 행동한다는 것을 의미할 수 있다. (a|s)는 다음 시간 단계에서의 정책 함수를 나타낸다. 정책함수 (a|s) = P(A_t = a | S_t = s)와 같이 나타낼 수 있다.

또한, TD error는 예측값과 정답값의 차이로써 다음과 같이 나타낼 수 있다.

[수학식 2]

여기서, V(s_t)는 예측값, R_t+1 + V_n(s_t+1)는 정답값을 나타내며, 는 감가율로 ∈ [0,1]의 값을 가질 수 있다. 또한, R은 보상함수로 포트폴리오에 포함된 종목별 비중을 조절한 후 발생하는 수익율일 수 있다.

일 예로, 가치 함수는 현재 상태에 있을 때 현재 정책을 따를 경우 얻을 수 있는 감가 보상(G_t)의 총합의 기대값일 수 있으며, 아래와 같이 나타낼 수 있다.

[수학식 3]

이때, G_t = R_t+1 + R_t+2 + ²R_t+3 + ... 일 수 있으며, 는 미래에 받을 보상을 감가하기 위한 변수일 수 있다.

일 예로, s_t, a_t, r_t, s_t+1, 는 생성된 이후 배열에 저장될 수 있으며, 이후 학습시에 랜덤하게 선택될 수 있다. 그러나, 해당 값들이 생성되었을 당시의 딥러닝 네트워크의 파라미터와 학습 하고자 하는 시점의 딥러닝 네트워크의 파라미터가 다른 바, 수학식 1에서와 같이 손실함수에 통계학적 기법인 중요도 샘플링(Importance sampling)에 의해서 중요도라고 불리는 (a|s)/(a|s)을 곱할 수 있다.

도 3은 일 실시예에 따른 포트폴리오 관리 방법을 도시한 흐름도이다.

일 실시예에 따르면, 포트폴리오 관리 장치는 하나 이상의 종목 정보를 제공하는 외부 장치로부터 현재 포트폴리오에 포함된 종목 정보를 수신할 수 있다(310). 이후, 포트폴리오 관리 장치는 현재 포트폴리오 비중 정보, 현재 포트폴리오 가치 정보 및 현재 포트폴리오에 포함된 종목 정보 중 적어도 하나를 포함하는 상태 정보를 기초로 현재 포트폴리오에 포함된 하나 이상의 종목의 비중을 조절할 수 있다(320).

일 예에 따르면, 포트폴리오 관리 장치는 포트폴리오 조절을 위하여 상태 정보에 기초하여 현재 포트폴리오에 포함된 하나 이상의 종목에 대한 다변량 확률 분포를 정의하기 위한 농도 매개변수(concentration parameter)를 산출하도록 학습된 정책 신경망을 이용하여 하나 이상의 종목에 대한 다변량 확률 분포를 획득할 수 있다. 이후, 포트폴리오 관리 장치는 농도 매개변수에 따라 결정된 다변량 확률 분포에 기초하여 복수의 포트폴리오 샘플을 추출할 수 있으며, 추출된 복수의 포트폴리오 샘플 별 거래 비용을 계산하여 거래 비용이 낮은 순서로 추출된 복수의 포트폴리오 샘플 중 하나 이상의 포트폴리오 후보를 선정할 수 있다.

일 예로, 포트폴리오 관리 장치는 하나 이상의 포트폴리오 후보를 선정한 후 선정된 하나 이상의 포트폴리오 후보 각각에 대한 리스크를 계산하며, 계산된 리스크에 기초하여 선정된 하나 이상의 포트폴리오 후보 중 어느 하나의 최적 포트폴리오를 결정할 수 있다. 이때, 리스크는 선정된 하나 이상의 포트폴리오 후보 각각에 포함된 하나 이상의 종목의 가격 변동성에 대한 공분산에 기초하여 결정될 수 있다.

일 실시예에 따르면, 포트폴리오 관리 장치는 현재 포트폴리오와 결정된 최적 포트폴리오 각각에 포함된 하나 이상의 종목의 비중 차이를 계산하여 하나 이상의 종목 각각에 대한 매수량 또는 매도량을 결정할 수 있다.

일 실시예에 따르면, 포트폴리오 관리 장치는 상태 정보에 기초하여 현재 포트폴리오의 가치를 평가하도록 학습된 가치 신경망을 더 이용하여 현재 포트폴리오의 가치를 평가할 수 있다. 이때, 가치 신경망은 현재 포트폴리오에 기초하여 평가한 현재 포트폴리오의 가치와 최적 포트폴리오가 적용된 미래 포트폴리오의 보상 및 최적 포트폴리오가 적용된 미래 포트폴리오의 가치를 평가한 미래 포트폴리오 가치에 기초하여 계산된 정답값의 차이에 기초하여 생성된 가치 손실함수에 기초하여 학습될 수 있다.

도 3의 실시예 중 도 1 내지 도 2를 참조하여 설명한 내용과 중복되는 내용은 생략하였다.

도 4는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.

도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 포트폴리오 관리 장치(100)일 수 있다.

컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.

컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.

이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시 예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.

100: 포트폴리오 관리 장치
110: 인터페이스부
120: 포트폴리오 조절부
121: 정책 신경망
123: 가치 신경망

Claims

하나 이상의 종목 정보를 제공하는 외부 장치와 통신을 수행하기 위한 인터페이스부; 및
현재 포트폴리오 비중 정보, 현재 포트폴리오 가치 정보 및 상기 외부 장치로부터 수신한 현재 포트폴리오에 포함된 종목 정보 중 적어도 하나를 포함하는 상태 정보를 기초로 현재 포트폴리오에 포함된 하나 이상의 종목의 비중을 조절하는 포트폴리오 조절부를 포함하고,
상기 포트폴리오 조절부는
상기 상태 정보에 기초하여 상기 현재 포트폴리오에 포함된 하나 이상의 종목에 대한 다변량 확률 분포를 정의하기 위한 농도 매개변수(concentration parameter)를 산출하고, 상기 농도 매개변수에 따라 결정된 다변량 확률 분포에 기초하여 복수의 포트폴리오 샘플을 추출하며, 상기 복수의 포트폴리오 샘플 중 어느 하나를 최적 포트폴리오로 결정하도록 학습된 정책 신경망; 및
상기 현재 포트폴리오에 기초하여 평가한 현재 포트폴리오의 가치와 상기 최적 포트폴리오가 적용된 미래 포트폴리오의 보상 및 상기 최적 포트폴리오가 적용된 미래 포트폴리오의 가치를 평가한 미래 포트폴리오 가치에 기초하여 계산된 정답값의 차이에 기초하여 생성된 가치 손실함수에 기초하여 학습되는 가치 신경망을 포함하며,
상기 가치 신경망의 손실함수와 상기 정책 신경망의 손실함수는, 아래 수학식으로 정의되는, 포트폴리오 관리 장치.
(수학식)

a: 최적 포트폴리오의 비중을 향해 포트폴리오를 조절하기 위한 행동 벡터
s: 상태 정보
(a|s): 현재 상태에서 수행할 행동의 확률 분포를 나타내는 정책 함수
(a|s): 다음 시간 단계에서의 정책 함수
TD error: 가치 신경망의 예측값과 정답값의 차이

V(s_t): 가치 신경망의 예측값
R_t+1 + V_n(s_t+1): 정답값
R: 보상 함수로 포트 폴리오에 포함된 종목별 비중을 조절한 후 발생하는 수익률
: 미래에 받을 보상을 감가하기 위한 변수
삭제
삭제
제 1 항에 있어서,
상기 포트폴리오 조절부는
상기 추출된 복수의 포트폴리오 샘플 별 거래 비용을 계산하며,
상기 계산된 거래 비용이 낮은 순서로 상기 추출된 복수의 포트폴리오 샘플 중 하나 이상의 포트폴리오 후보를 선정하는, 포트폴리오 관리 장치.
제 4 항에 있어서,
상기 포트폴리오 조절부는
상기 선정된 하나 이상의 포트폴리오 후보 각각에 대한 리스크를 계산하며,
상기 계산된 리스크에 기초하여 상기 선정된 하나 이상의 포트폴리오 후보 중 어느 하나의 최적 포트폴리오를 결정하는, 포트폴리오 관리 장치.
제 5 항에 있어서,
상기 리스크는
상기 선정된 하나 이상의 포트폴리오 후보 각각에 포함된 하나 이상의 종목의 가격 변동성에 대한 공분산에 기초하여 결정되는, 포트폴리오 관리 장치.
제 5 항에 있어서,
상기 포트폴리오 조절부는
상기 현재 포트폴리오와 상기 결정된 최적 포트폴리오 각각에 포함된 하나 이상의 종목의 비중 차이를 계산하여 상기 하나 이상의 종목 각각에 대한 매수량 또는 매도량을 결정하는, 포트폴리오 관리 장치.
삭제
삭제
제 1 항에 있어서,
상기 다변량 확률 분포는 디리클레 분포(Dirichlet distribution)인, 포트폴리오 관리 장치.
하나 이상의 프로세서들, 및
상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서,
하나 이상의 종목 정보를 제공하는 외부 장치로부터 현재 포트폴리오에 포함된 종목 정보를 수신하는 송수신 단계; 및
현재 포트폴리오 비중 정보, 현재 포트폴리오 가치 정보 및 상기 현재 포트폴리오에 포함된 종목 정보 중 적어도 하나를 포함하는 상태 정보를 기초로 현재 포트폴리오에 포함된 하나 이상의 종목의 비중을 조절하는 포트폴리오 조절 단계를 포함하고,
상기 포트폴리오 조절 단계는,
상기 상태 정보에 기초하여 상기 현재 포트폴리오에 포함된 하나 이상의 종목에 대한 다변량 확률 분포를 정의하기 위한 농도 매개변수(concentration parameter)를 산출하고, 상기 농도 매개변수에 따라 결정된 다변량 확률 분포에 기초하여 복수의 포트폴리오 샘플을 추출하며, 상기 복수의 포트폴리오 샘플 중 어느 하나를 최적 포트폴리오로 결정하도록 정책 신경망을 학습하는 단계; 및
상기 현재 포트폴리오에 기초하여 평가한 현재 포트폴리오의 가치와 상기 최적 포트폴리오가 적용된 미래 포트폴리오의 보상 및 상기 최적 포트폴리오가 적용된 미래 포트폴리오의 가치를 평가한 미래 포트폴리오 가치에 기초하여 계산된 정답값의 차이에 기초하여 생성된 가치 손실함수에 기초하여 가치 신경망을 학습하는 단계를 포함하며,
상기 가치 신경망의 손실함수와 상기 정책 신경망의 손실함수는, 아래 수학식으로 정의되는, 포트폴리오 관리 방법.
(수학식)

a: 최적 포트폴리오의 비중을 향해 포트폴리오를 조절하기 위한 행동 벡터
s: 상태 정보
(a|s): 현재 상태에서 수행할 행동의 확률 분포를 나타내는 정책 함수
(a|s): 다음 시간 단계에서의 정책 함수
TD error: 가치 신경망의 예측값과 정답값의 차이

V(s_t): 가치 신경망의 예측값
R_t+1 + V_n(s_t+1): 정답값
R: 보상 함수로 포트 폴리오에 포함된 종목별 비중을 조절한 후 발생하는 수익률
: 미래에 받을 보상을 감가하기 위한 변수
삭제
삭제
제 11 항에 있어서,
상기 포트폴리오 조절 단계는
상기 추출된 복수의 포트폴리오 샘플 별 거래 비용을 계산하며,
상기 계산된 거래 비용이 낮은 순서로 상기 추출된 복수의 포트폴리오 샘플 중 하나 이상의 포트폴리오 후보를 선정하는, 포트폴리오 관리 방법.
제 14 항에 있어서,
상기 포트폴리오 조절 단계는
상기 선정된 하나 이상의 포트폴리오 후보 각각에 대한 리스크를 계산하며,
상기 계산된 리스크에 기초하여 상기 선정된 하나 이상의 포트폴리오 후보 중 어느 하나의 최적 포트폴리오를 결정하는, 포트폴리오 관리 방법.
제 15 항에 있어서,
상기 리스크는
상기 선정된 하나 이상의 포트폴리오 후보 각각에 포함된 하나 이상의 종목의 가격 변동성에 대한 공분산에 기초하여 결정되는, 포트폴리오 관리 방법.
제 15 항에 있어서,
상기 포트폴리오 조절 단계는
상기 현재 포트폴리오와 상기 결정된 최적 포트폴리오 각각에 포함된 하나 이상의 종목의 비중 차이를 계산하여 상기 하나 이상의 종목 각각에 대한 매수량 또는 매도량을 결정하는, 포트폴리오 관리 방법.
삭제
삭제
비일시적 컴퓨터 판독 가능한 저장 매체(non-transitory computer readable storage medium)에 저장된 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은 하나 이상의 명령어들을 포함하고, 상기 명령어들은 하나 이상의 프로세서들을 갖는 컴퓨팅 장치에 의해 실행될 때, 상기 컴퓨팅 장치로 하여금,
하나 이상의 종목 정보를 제공하는 외부 장치로부터 현재 포트폴리오에 포함된 종목 정보를 수신하는 송수신 단계; 및
현재 포트폴리오 비중 정보, 현재 포트폴리오 가치 정보 및 상기 현재 포트폴리오에 포함된 종목 정보 중 적어도 하나를 포함하는 상태 정보를 기초로 현재 포트폴리오에 포함된 하나 이상의 종목의 비중을 조절하는 포트폴리오 조절 단계를 수행하도록 하고,
상기 포트폴리오 조절 단계는,
상기 상태 정보에 기초하여 상기 현재 포트폴리오에 포함된 하나 이상의 종목에 대한 다변량 확률 분포를 정의하기 위한 농도 매개변수(concentration parameter)를 산출하고, 상기 농도 매개변수에 따라 결정된 다변량 확률 분포에 기초하여 복수의 포트폴리오 샘플을 추출하며, 상기 복수의 포트폴리오 샘플 중 어느 하나를 최적 포트폴리오로 결정하도록 정책 신경망을 학습하는 단계; 및
상기 현재 포트폴리오에 기초하여 평가한 현재 포트폴리오의 가치와 상기 최적 포트폴리오가 적용된 미래 포트폴리오의 보상 및 상기 최적 포트폴리오가 적용된 미래 포트폴리오의 가치를 평가한 미래 포트폴리오 가치에 기초하여 계산된 정답값의 차이에 기초하여 생성된 가치 손실함수에 기초하여 가치 신경망을 학습하는 단계를 포함하며,
상기 가치 신경망의 손실함수와 상기 정책 신경망의 손실함수는, 아래 수학식으로 정의되는, 비일시적 컴퓨터 판독 가능한 저장 매체에 저장된 컴퓨터 프로그램.
(수학식)

a: 최적 포트폴리오의 비중을 향해 포트폴리오를 조절하기 위한 행동 벡터
s: 상태 정보
(a|s): 현재 상태에서 수행할 행동의 확률 분포를 나타내는 정책 함수
(a|s): 다음 시간 단계에서의 정책 함수
TD error: 가치 신경망의 예측값과 정답값의 차이

V(s_t): 가치 신경망의 예측값
R_t+1 + V_n(s_t+1): 정답값
R: 보상 함수로 포트 폴리오에 포함된 종목별 비중을 조절한 후 발생하는 수익률
: 미래에 받을 보상을 감가하기 위한 변수