KR20210063767A - Method for learning deep-learning model for stock trading - Google Patents

Method for learning deep-learning model for stock trading Download PDF

Info

Publication number
KR20210063767A
KR20210063767A KR1020190152276A KR20190152276A KR20210063767A KR 20210063767 A KR20210063767 A KR 20210063767A KR 1020190152276 A KR1020190152276 A KR 1020190152276A KR 20190152276 A KR20190152276 A KR 20190152276A KR 20210063767 A KR20210063767 A KR 20210063767A
Authority
KR
South Korea
Prior art keywords
learning model
deep learning
item
stock
order execution
Prior art date
Application number
KR1020190152276A
Other languages
Korean (ko)
Inventor
김성민
조태희
문효준
Original Assignee
(주)크래프트테크놀로지스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)크래프트테크놀로지스 filed Critical (주)크래프트테크놀로지스
Priority to KR1020190152276A priority Critical patent/KR20210063767A/en
Publication of KR20210063767A publication Critical patent/KR20210063767A/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

The present invention relates to a deep learning model learning method for stock trading and comprises: a step of collecting transaction data for at least one item; a step of inputting the collected transaction data for at least one item into a first deep learning model based on supervised learning and learning the first deep learning model to predict a stock price change rate for the item for each preset unit time; a step of inputting the collected transaction data for at least one item to a second deep learning model and learning the second deep learning model to derive an order execution strategy that reduces slippage costs and order execution costs for an ultra-short-term market situation in the corresponding item; when a reward for the order execution strategy is determined according to the order execution strategy in a real stock market environment, a step of re-learning the second deep learning model based on the determined reward; and a step of re-learning the first deep learning model using the transaction data of an item for which order execution has been completed according to the order execution strategy in the real stock market environment. Accordingly, it is possible to minimize the loss caused by the execution of a large number of orders.

Description

증권 거래를 위한 딥러닝 모델 학습방법{METHOD FOR LEARNING DEEP-LEARNING MODEL FOR STOCK TRADING }How to learn a deep learning model for stock trading {METHOD FOR LEARNING DEEP-LEARNING MODEL FOR STOCK TRADING }

본 발명은 증권 거래를 위한 딥러닝 모델을 학습하는 방법에 관한 것이다. The present invention relates to a method for learning a deep learning model for stock trading.

증권사는 자산운용사 등의 기관으로부터 대량의 증권 주문을 위탁받아 증권 거래를 집행하고 거래수수료를 받는다. A securities company receives a large amount of securities orders from institutions such as asset management companies, executes securities transactions, and receives transaction fees.

이 경우, 증권사가 위탁받은 대량의 증권 주문을 한번에 매도 또는 매수하게 될 경우, 증권 시장의 주가가 급락하거나 급등하는 임팩트가 발생하게 되어 적절한 가격에 거래하기 어려워진다. In this case, if a brokerage company sells or buys a large number of entrusted securities orders at once, the impact of a sharp drop or surge in the stock price of the stock market occurs, making it difficult to trade at an appropriate price.

이러한 이유로, 증권사는 대량의 증권 주문을 나누어 집행하는 알고리즘 트레이딩 시스템을 사용한다. For this reason, securities firms use an algorithmic trading system that divides and executes a large number of securities orders.

하지만, 기존의 알고리즘 트레이딩 시스템은 사전에 기설정된 규칙에 따라 주문을 분할하여 집행을 실시하기 때문에 변화하는 증권 시장에 적절히 대응하기 어려웠다. However, it was difficult to properly respond to the changing stock market because the existing algorithm and trading system divides and executes orders according to pre-set rules.

예를 들어, TWAP(Time Weighted Average Price) 알고리즘을 이용한 트레이딩 시스템의 경우, 시간이 지남에 따라 균등 분배된 수량으로 주문을 집행하기 때문에 시장에 대한 적응성과 효율성이 떨어질 수 밖에 없다. For example, in the case of a trading system using the Time Weighted Average Price (TWAP) algorithm, the adaptability and efficiency to the market are inevitably reduced because orders are executed in an evenly distributed quantity over time.

한국등록특허공보 제1808259호 (2017.12.06. 등록)Korean Patent Publication No. 1808259 (Registered on Dec. 6, 2017)

본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 적어도 하나의 종목에 대한 거래 데이터를 수집하고, 상기 수집된 적어도 하나의 종목에 대한 거래 데이터를 지도학습 기반의 제 1 딥러닝 모델에 입력하여 기 설정된 단위 시간 마다의 해당 종목에 대한 주가변화율을 예측하도록 제 1 딥러닝 모델을 학습시키고, 상기 수집된 적어도 하나의 종목에 대한 거래 데이터를 제 2 딥러닝 모델에 입력하여 해당 종목에 있어서의 초단기 시장 상황에 대한 슬리피지(slippage) 비용 및 주문 집행 비용이 절감되는 주문 집행 전략이 도출되도록 제 2 딥러닝 모델을 학습시키고자 한다. The present invention is to solve the problems of the prior art, collect transaction data for at least one item, and input the collected transaction data for at least one item into a first deep learning model based on supervised learning Thus, the first deep learning model is trained to predict the stock price change rate for the item for each preset unit time, and the collected transaction data for at least one item is input to the second deep learning model to predict the stock price change in the item. We want to train the second deep learning model to derive an order execution strategy that reduces slippage costs and order execution costs for ultra-short market conditions.

또한 본 발명은 실제 증권 시장의 환경에서 상기 주문 집행 전략에 따라 주문 집행된 주문 집행 전략에 대한 리워드가 결정되면, 상기 결정된 리워드에 기초하여 제 2 딥러닝 모델을 재학습시키고, 실제 증권 시장의 환경에서 상기 주문 집행 전략에 따라 주문 집행이 종료된 종목의 거래 데이터를 이용하여 제 1 딥러닝 모델을 재학습시키고자 한다. In addition, the present invention retrains the second deep learning model based on the determined reward when the reward for the order execution strategy is determined according to the order execution strategy in the real stock market environment, and the real stock market environment to retrain the first deep learning model by using the transaction data of the item for which order execution has been completed according to the order execution strategy.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다. However, the technical problem to be achieved by the present embodiment is not limited to the technical problems as described above, and other technical problems may exist.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예에 따르면, 서버에서의 증권 거래를 위한 딥러닝 모델 학습방법에 있어서, 적어도 하나의 종목에 대한 거래 데이터를 수집하는 단계와, 상기 수집된 적어도 하나의 종목에 대한 거래 데이터를 지도학습 기반의 제 1 딥러닝 모델에 입력하여 기 설정된 단위 시간 마다의 해당 종목에 대한 주가변화율을 예측하도록 제 1 딥러닝 모델을 학습시키는 단계와, 상기 수집된 적어도 하나의 종목에 대한 거래 데이터를 제 2 딥러닝 모델에 입력하여 해당 종목에 있어서의 초단기 시장 상황에 대한 슬리피지(slippage) 비용 및 주문 집행 비용이 절감되는 주문 집행 전략이 도출되도록 제 2 딥러닝 모델을 학습시키는 단계와, 실제 증권 시장의 환경에서 상기 주문 집행 전략에 따라 주문 집행된 주문 집행 전략에 대한 리워드가 결정되면, 상기 결정된 리워드에 기초하여 제 2 딥러닝 모델을 재학습시키는 단계와, 실제 증권 시장의 환경에서 상기 주문 집행 전략에 따라 주문 집행이 종료된 종목의 거래 데이터를 이용하여 제 1 딥러닝 모델을 재학습시키는 단계를 포함할 수 있다. As a technical means for achieving the above technical problem, according to an embodiment of the present invention, in a deep learning model learning method for stock trading in a server, collecting transaction data for at least one stock; inputting the collected transaction data for at least one item into a first deep learning model based on supervised learning and learning the first deep learning model to predict the stock price change rate for the item for each preset unit time; By inputting the collected transaction data for at least one item into a second deep learning model, an order execution strategy that reduces slippage cost and order execution cost for the ultra-short-term market situation in the relevant item is derived. 2 The step of learning the deep learning model, and when the reward for the order execution strategy is determined according to the order execution strategy in the environment of the real stock market, re-learning the second deep learning model based on the determined reward and re-learning the first deep learning model by using the transaction data of the item for which order execution has been completed according to the order execution strategy in an actual securities market environment.

본 발명의 다른 실시예에 따르면, 서버에서의 증권 거래를 위한 딥러닝 모델 학습방법은, 기 설정된 단위 시간별 제 1 종목의 기준 주가 변화율이 제 1 시점에서는 제 1 기준 주가 변화율을 갖고, 제 2 시점에서는 제 2 기준 주가 변화율을 갖고, 제 N 시점에서는 제 N 기준 주가 변화율을 갖는 경우, 상기 제 1 종목에 대한 거래 데이터가 제 1 딥러닝 모델에 입력됨에 따라 출력되는 제 1 시점에서의 제 1 딥러닝 모델의 제 1 주가 변화율이 제 1 기준 주가 변화율과 일치되도록 제 1 딥러닝 모델을 학습시키는 단계와, 이후 출력되는 제 2 시점에서의 제 1 딥러닝 모델의 제 2 주가 변화율이 제 2 기준 주가 변화율과 일치되도록 제 1 딥러닝 모델을 학습시키는 단계와, 이후 출력되는 제 N 시점에서의 제 1 딥러닝 모델의 제 N 주가 변화율이 제 N 기준 주가 변화율과 일치되도록 제 1 딥러닝 모델을 학습시키는 단계를 더 포함하는 포함할 수 있으며, 강화학습 환경에서의 주문 집행 전략에 대한 리워드를 결정하고, 결정된 리워드가 최대화되도록 제 2 딥러닝 모델을 학습시키는 단계를 더 포함할 수 있다. According to another embodiment of the present invention, in the method for learning a deep learning model for stock trading in a server, the reference stock price change rate of the first stock for each preset unit time has a first reference stock price change rate at a first time point, and a second time point In the case of having a second reference stock price change rate and an N-th reference stock price change rate at the N-th time point, the first dip at the first time point is output as the transaction data for the first item is input to the first deep learning model. Learning the first deep learning model so that the first stock price change rate of the learning model coincides with the first reference stock price change rate, and the second stock price change rate of the first deep learning model at the second time point outputted thereafter is the second reference stock price Training the first deep learning model to match the rate of change, and training the first deep learning model so that the rate of change of the Nth stock price of the first deep learning model at the output Nth time coincides with the rate of change of the Nth reference stock price. It may further include a step, and may further include the step of determining a reward for the order execution strategy in the reinforcement learning environment, and learning the second deep learning model so that the determined reward is maximized.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.The above-described problem solving means are merely exemplary and should not be construed as limiting the present invention. In addition to the above-described exemplary embodiments, there may be additional embodiments described in the drawings and detailed description of the invention.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 본 발명은 적어도 하나의 종목에 대한 거래 데이터를 수집하고, 상기 수집된 적어도 하나의 종목에 대한 거래 데이터를 지도학습 기반의 제 1 딥러닝 모델에 입력하여 기 설정된 단위 시간 마다의 해당 종목에 대한 주가변화율을 예측하도록 제 1 딥러닝 모델을 학습시키고, 상기 수집된 적어도 하나의 종목에 대한 거래 데이터를 제 2 딥러닝 모델에 입력하여 해당 종목에 있어서의 초단기 시장 상황에 대한 슬리피지(slippage) 비용 및 주문 집행 비용이 절감되는 주문 집행 전략이 도출되도록 제 2 딥러닝 모델을 학습시키고, 실제 증권 시장의 환경에서 상기 주문 집행 전략에 따라 주문 집행된 주문 집행 전략에 대한 리워드가 결정되면, 상기 결정된 리워드에 기초하여 제 2 딥러닝 모델을 재학습시키고, 실제 증권 시장의 환경에서 상기 주문 집행 전략에 따라 주문 집행이 종료된 종목의 거래 데이터를 이용하여 제 1 딥러닝 모델을 재학습시킴으로써, 시장 데이터에 기초하여 복수의 딥러닝 모델을 지속적으로 학습하기 때문에 현 시장에 맞는 적절한 주문 집행 전략을 도출할 수 있다. 또한, 본 발명은 시장 변화에 따라 최선의 주문 집행 전략을 도출함으로써 대량의 주문 집행에 따른 손실을 최소화할 수 있다. According to any one of the above-described problem solving means of the present invention, the present invention collects transaction data for at least one item, and uses the collected transaction data for at least one item as a first deep learning model based on supervised learning. The first deep learning model is trained to predict the stock price change rate for the item for each preset unit time by inputting it into the , and the collected transaction data for at least one item is input to the second deep learning model to the corresponding item. The second deep learning model is trained to derive an order execution strategy that reduces slippage costs and order execution costs for ultra-short market conditions in When the reward for the order execution strategy is determined, the second deep learning model is re-trained based on the determined reward, and in the environment of the actual stock market, using the transaction data of the item for which the order execution has been completed according to the order execution strategy By re-learning the first deep learning model, it is possible to derive an appropriate order execution strategy for the current market because a plurality of deep learning models are continuously learned based on market data. In addition, the present invention can minimize the loss due to the execution of a large number of orders by deriving the best order execution strategy according to market changes.

도 1은 본 발명의 일 실시예에 따른, 주문 집행 서버의 블록도이다.
도 2는 본 발명의 일 실시예에 따른, 강화학습 기반의 제 2 딥러닝 모델을 학습하는 방법을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른, 현재 주기에서의 종목에 대한 주문 집행 전략을 도출하는 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른, 증권 거래를 위한 종목에 대한 주문 집행을 수행하는 방법을 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른, 주문 집행을 수행하는 방법을 나타낸 동작 흐름도이다.
도 6는 본 발명의 일 실시예에 따른, 주문 집행을 위한 인터페이스를 나타낸 도면이다.
1 is a block diagram of an order execution server, according to an embodiment of the present invention.
2 is a diagram for explaining a method of learning a second deep learning model based on reinforcement learning, according to an embodiment of the present invention.
3 is a view for explaining a method of deriving an order execution strategy for the item in the current cycle, according to an embodiment of the present invention.
4 is a diagram illustrating a method of executing an order execution for a stock for a stock transaction, according to an embodiment of the present invention.
5 is an operation flowchart illustrating a method of performing order execution, according to an embodiment of the present invention.
6 is a diagram illustrating an interface for order execution, according to an embodiment of the present invention.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings so that those of ordinary skill in the art can easily implement the present invention. However, the present invention may be implemented in various different forms and is not limited to the embodiments described herein. In the drawings, parts irrelevant to the description are omitted in order to clearly describe the present invention, and similar reference numerals are attached to similar parts throughout the specification.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. Throughout the specification, when a part is said to be "connected" with another part, this includes not only "directly connected" but also "electrically connected" with another element interposed therebetween. . In addition, when a part "includes" a certain component, it means that other components may be further included rather than excluding other components unless specifically stated to the contrary.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다. In the present specification, the term "unit" includes a unit realized by hardware, a unit realized by software, and a unit realized using both. Further, one unit may be realized by using two or more hardware, or two or more units may be realized by one piece of hardware.

본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다. In this specification, some of the operations or functions described as being performed by the terminal or device may be performed instead in a server connected to the terminal or device. Likewise, some of the operations or functions described as being performed by the server may also be performed by a terminal or device connected to the server.

이하, 첨부된 구성도 또는 처리 흐름도를 참고하여, 본 발명의 실시를 위한 구체적인 내용을 설명하도록 한다. Hereinafter, with reference to the accompanying configuration diagram or processing flow chart, it will be described in detail for the implementation of the present invention.

도 1은 본 발명의 일 실시예에 따른, 주문 집행 서버(10)의 블록도이다. 1 is a block diagram of an order execution server 10, according to an embodiment of the present invention.

도 1을 참조하면, 주문 집행 서버(10)는 데이터 수집부(100), 보조 예측값 생성부(110), 모델 생성부(120) 및 주문 집행부(130)를 포함할 수 있다. 여기서, 주문 집행부(130)는 주문 집행 전략 도출부(132) 및 주문 집행 지시부(134)를 포함할 수 있다. 다만, 도 1에 도시된 주문 집행 서버(10)는 본 발명의 하나의 구현 예에 불과하며, 도 1에 도시된 구성요소들을 기초로 하여 여러 가지 변형이 가능하다. Referring to FIG. 1 , the order execution server 10 may include a data collection unit 100 , an auxiliary prediction value generation unit 110 , a model generation unit 120 , and an order execution unit 130 . Here, the order execution unit 130 may include an order execution strategy derivation unit 132 and an order execution instruction unit 134 . However, the order execution server 10 shown in FIG. 1 is only one implementation example of the present invention, and various modifications are possible based on the components shown in FIG. 1 .

모델 생성부(120)는 지도학습 기반의 제 1 딥러닝 모델을 생성하고, 생성된 제 1 딥러닝 모델을 학습시킬 수 있다. 여기서, 지도학습 기반의 제 1 딥러닝 모델은 예를 들면, 어텐션 네트워크(Attention Network), 순환 신경망 네트워크(Recurrent Neural Network) 등으로 구성된 심층 신경망 모델일 수 있다. The model generator 120 may generate a first deep learning model based on supervised learning and train the generated first deep learning model. Here, the first deep learning model based on supervised learning may be, for example, a deep neural network model composed of an attention network, a recurrent neural network, and the like.

모델 생성부(120)는 수집된 적어도 하나의 종목에 대한 거래 데이터를 제 1 딥러닝 모델에 입력하여 기설정된 단위 시간 마다의 해당 종목에 대한 주가변화율을 예측하도록 제 1 딥러닝 모델을 학습시킬 수 있다. The model generating unit 120 may input the collected transaction data for at least one item into the first deep learning model and train the first deep learning model to predict the stock price change rate for the item for each preset unit time. have.

여기서, 제 1 딥러닝 모델에 입력되는 적어도 하나의 종목에 대한 거래 데이터는 예를 들면, 증권 기관에서 거래된 종목에 대한 거래 대금 정보, 호가창 데이터, 거시경제지표 데이터 등을 포함할 수 있다. Here, the transaction data for at least one item that is input to the first deep learning model may include, for example, transaction price information for the item traded in a securities institution, asking price data, macroeconomic indicator data, and the like.

예를 들어, 모델 생성부(120)는 단위 시간별 적어도 하나의 종목에 대한 제 1 딥러닝 모델의 출력값이 기설정된 단위 시간별 종목의 기준 주가 변화율과 일치하는 주가 변화율을 예측하도록 제 1 딥러닝 모델을 학습시킬 수 있다. For example, the model generating unit 120 predicts the rate of change of the stock price in which the output value of the first deep learning model for at least one item per unit time coincides with the reference rate of change of the stock price of the item per unit time which is preset. can learn

이를 위해, 모델 생성부(120)는 기설정된 단위 시간별 종목의 기준 주가 변화율과 제 1 딥러닝 모델의 출력값인 단위 시간 별 종목의 주가 변화율 간의 평균 제곱 오차가(MSE, Mean Squared Error)가 최소화되도록 제 1 딥러닝 모델을 학습시킬 수 있다.To this end, the model generation unit 120 is configured such that the mean squared error (MSE, Mean Squared Error) between the preset standard stock price change rate of the item per unit time and the stock price change rate of the item per unit time, which is the output value of the first deep learning model, is minimized. The first deep learning model may be trained.

예를 들면, 기설정된 단위 시간별 제 1 종목의 기준 주가 변화율이 제 1 시점(예컨대, 1시간 뒤)에서는 제 1 기준 주가 변화율을 갖고, 제 2 시점(예컨대, 2시간 뒤)에서는 제 2 기준 주가 변화율을 갖고, 제 N 시점(예컨대, N시간 뒤)에서는 제 N 기준 주가 변화율을 갖는다고 가정하면, 모델 생성부(120)는 제 1 종목에 대한 거래 데이터가 제 1 딥러닝 모델에 입력됨에 따라 출력되는 제 1 시점에서의 제 1 딥러닝 모델의 제 1 주가 변화율이 제 1 기준 주가 변화율과 일치되도록 제 1 딥러닝 모델을 학습시키고, 이후 출력되는 제 2 시점에서의 제 1 딥러닝 모델의 제 2 주가 변화율이 제 2 기준 주가 변화율과 일치되도록 제 1 딥러닝 모델을 학습시키고, 이후 출력되는 제 N 시점에서의 제 1 딥러닝 모델의 제 N 주가 변화율이 제 N 기준 주가 변화율과 일치되도록 제 1 딥러닝 모델을 학습시킬 수 있다. For example, the preset reference stock price change rate of the first stock per unit time has the first reference stock price change rate at the first time point (eg, 1 hour later), and the second reference stock price at the second time point (eg, 2 hours later) Assuming that it has a rate of change and has an Nth reference share price change rate at an N th time point (eg, N hours later), the model generator 120 as the transaction data for the first item is input to the first deep learning model The first deep learning model is trained so that the rate of change of the first stock price of the first deep learning model at the output first time point coincides with the first reference rate of change of the stock price, and then the first deep learning model at the second time point is output. 2 The first deep learning model is trained so that the rate of change of stock price coincides with the rate of change of the second reference stock price, and the first deep learning model is then output so that the rate of change of the N th stock price of the first deep learning model at the N th time is output to coincide with the rate of change of the N th standard stock price. Deep learning models can be trained.

모델 생성부(120)는 강화학습 에이전트의 행동 규약을 결정하는 신경망인 둘 이상의 액터(Actor) 및 강화학습 에이전트의 행동 가치를 추정하는 신경망인 크리틱(Critic)을 포함하는 강화학습 기반의 제 2 딥러닝 모델을 생성하고, 생성된 제 2 딥러닝 모델을 학습시킬 수 있다. The model generator 120 is a reinforcement learning-based second deep including two or more actors, which are neural networks that determine the behavioral rules of the reinforcement learning agent, and Critic, which is a neural network that estimates the behavioral values of the reinforcement learning agents. A learning model may be generated, and the generated second deep learning model may be trained.

모델 생성부(120)는 수집된 적어도 하나의 종목에 대한 거래 데이터에 기초하여 강화학습 기반의 제 2 딥러닝 모델이 적어도 하나의 종목에 대한 주문 집행 전략을 도출하도록 강화학습 기반의 제 2 딥러닝 모델을 학습시킬 수 있다. The model generator 120 is a reinforcement learning-based second deep learning model based on the collected transaction data for at least one item so that the reinforcement learning-based second deep learning model derives an order execution strategy for at least one item. model can be trained.

모델 생성부(120)는 수집된 적어도 하나의 종목에 대한 거래 데이터를 제 2 딥러닝 모델에 입력하여 해당 종목에 있어서의 초단기 시장 상황에 대한 슬리피지 비용 및 주문 집행 비용이 절감되는 주문 집행 전략이 도출되도록 제 2 딥러닝 모델을 학습시킬 수 있다. The model generation unit 120 inputs the collected transaction data for at least one item into the second deep learning model, so that the slippage cost and the order execution cost for the ultra-short-term market situation in the item are reduced. A second deep learning model may be trained to be derived.

여기서, 제 2 딥러닝 모델에 입력되는 적어도 하나의 종목에 대한 거래 데이터는 예를 들면, 해당 종목에 대한 호가창 데이터, 시세 데이터(거래 가격 및 거래량), 장진행 시간 정보, 기주문체결량 등을 포함할 수 있다. Here, the transaction data for at least one item that is input to the second deep learning model includes, for example, bid window data, market price data (transaction price and transaction volume), long-run time information, order execution amount, etc. for the item. may include

모델 생성부(120)는 강화학습 환경에서의 주문 집행 전략(제 2 딥러닝 모델로부터 도출된 전략)에 대한 리워드를 결정하고, 결정된 리워드가 최대화되도록 제 2 딥러닝 모델을 학습시킬 수 있다. 여기서, 강화학습 환경은 증권 시장 환경을 가상화하여 만든 모델이다. 또한, 리워드는 주문 집행 전략에 대한 주문 체결 성공 여부 및 거래량 가중 평균거래(VWAP) 대비 절감한 주문 집행 금액에 대한 정보를 포함할 수 있다.The model generator 120 may determine a reward for the order execution strategy (strategy derived from the second deep learning model) in the reinforcement learning environment, and train the second deep learning model so that the determined reward is maximized. Here, the reinforcement learning environment is a model created by virtualizing the stock market environment. In addition, the reward may include information on whether the order execution was successful for the order execution strategy and the amount of the order execution reduced compared to the volume weighted average transaction (VWAP).

도 2를 참조하면, 제 2 딥러닝 모델(20)은 강화학습 에이전트의 행동 규약을 결정하는 신경망인 둘 이상의 액터(201, 203, 205) 및 강화학습 에이전트의 행동 가치를 추정하는 신경망인 크리틱(209, 211)을 포함할 수 있다. Referring to Figure 2, the second deep learning model 20 is two or more actors (201, 203, 205), which are neural networks that determine the behavioral rules of the reinforcement learning agent, and the neural network that estimates the behavioral values of the reinforcement learning agents, crit ( 209, 211).

여기서, 둘 이상의 액터(201, 203, 205)는 적어도 하나의 종목에 대한 주문량을 결정하는 제 1 액터(201) 및 적어도 하나의 종목에 대한 주문 취소량을 결정하는 제 2 액터(203)를 포함할 수 있다. Here, the two or more actors 201, 203, and 205 include a first actor 201 that determines an order quantity for at least one item and a second actor 203 that determines an order cancellation amount for at least one item. can do.

둘 이상의 액터(201, 203, 205)는 제 1 액터(201)를 통해 결정된 주문량 및 제 2 액터(203)를 통해 결정된 주문 취소량에 기초하여 적어도 하나의 종목에 대한 최종 주문량을 결정하는 제 3 액터(205)를 포함할 수 있다. The two or more actors 201 , 203 , 205 are configured to determine a final order quantity for at least one stock based on the order quantity determined through the first actor 201 and the order cancellation quantity determined through the second actor 203 . It may include actors 205 .

모델 생성부(120)는 거래 데이터에 기초하여 강화학습 환경으로부터 주문 집행 전략에 대한 리워드가 향상되도록 둘 이상의 액터(201, 203, 205)를 학습시킬 수 있다. The model generator 120 may train two or more actors 201 , 203 , and 205 to improve a reward for the order execution strategy from the reinforcement learning environment based on the transaction data.

예를 들어, 모델 생성부(120)는 적어도 하나의 종목에 대한 주문량을 결정하도록 제 1 액터(201)를 학습시키고, 해당 종목의 주문량에 대한 주문 취소량을 결정하도록 제 2 액터(203)를 학습시킬 수 있다. For example, the model generation unit 120 trains the first actor 201 to determine the order quantity for at least one item, and uses the second actor 203 to determine the order cancellation amount for the order quantity for the item. can learn

여기서, 제 1 액터(201)를 통해 결정된 주문량 및 제 2 액터(203)를 통해 결정된 주문 취소량을 합하게 되면 결과적으로 제로 중심의 구조가 나타나는데 이러한 구조는 순수 주문량의 결정을 학습할 때 도움을 줄 수 있다. Here, if the order quantity determined through the first actor 201 and the order cancellation quantity determined through the second actor 203 are added together, a zero-centered structure appears as a result. This structure helps when learning the determination of the pure order quantity. can give

모델 생성부(120)는 제 1 액터(201)를 통해 결정된 주문량 및 제 2 액터(203)를 통해 결정된 주문 취소량에 기초하여 순수 주문량을 결정하도록 제 3 액터(205)를 학습시킬 수 있다. The model generator 120 may train the third actor 205 to determine the net order amount based on the order amount determined through the first actor 201 and the order cancellation amount determined through the second actor 203 .

모델 생성부(120)는 제 3 액터(205)에 의해 결정된 순수 주문량에 기초하여 현재 주기에서의 적어도 하나의 종목에 대한 주문 집행 전략(즉, 순수 주문량에 대한 호가창 배분 전략)을 도출하도록 제 3 액터(205)를 학습시킬 수 있다.The model generation unit 120 is configured to derive an order execution strategy for at least one item in the current period based on the net order quantity determined by the third actor 205 (that is, a bid window distribution strategy for the net order quantity). 3 Actors 205 can be trained.

이후, 모델 생성부(120)는 제 3 액터(205)에 의해 결정된 순수 주문량 및 현재 주기에서의 적어도 하나의 종목에 대한 주문 집행 전략에 따라 강화학습 환경(207)에서 주문 집행을 수행할 수 있다. Thereafter, the model generator 120 may perform order execution in the reinforcement learning environment 207 according to the order execution strategy for at least one item in the current period and the net order quantity determined by the third actor 205 . .

한편, 크리틱(209, 211)은 강화학습 환경(207)에서 복수의 액터(201, 203, 205)의 최종 주문량 및 주문집행전략 결과에 대한 보상을 추정하기 위해 상태 가치값(state value)을 추정하는데 안정적으로 추정하기 위해 산출된 리워드에 리워드 평균법(예컨대, polyak-ruppert averaging)을 적용하여 해당 리워드를 업데이트하는 제 2 크리틱(211)을 포함할 수 있다. Meanwhile, the critiques 209 and 211 estimate a state value in order to estimate the final order amount of the plurality of actors 201 , 203 , and 205 in the reinforcement learning environment 207 and a reward for the order execution strategy result. A second crit 211 for updating the corresponding reward may be included by applying a reward averaging method (eg, polyak-ruppert averaging) to the calculated reward in order to reliably estimate it.

여기서, 리워드 평균법을 이용하는 이유는 제 1 크리틱(209)의 리워드 추정이 불안정하기 때문에 이동평균과 같은 개념을 도입하여 더욱 안정적인 리워드 추정을 돕기 위함이다. Here, the reason for using the reward averaging method is to help the more stable reward estimation by introducing a concept such as a moving average because the reward estimation of the first click 209 is unstable.

모델 생성부(120)는 복수의 액터(201, 203, 205) 및 복수의 크리틱(209, 211)을 포함하는 에이전트 모델을 생성할 수 있다. The model generation unit 120 may generate an agent model including a plurality of actors 201 , 203 , 205 and a plurality of critiques 209 and 211 .

모델 생성부(120)는 제 1 크리틱(209) 및 제 2 크리틱(211)을 학습시킬 수 있다. The model generator 120 may learn the first crit 209 and the second crit 211 .

모델 생성부(120)는 에이전트 모델과 환경의 상호작용을 통해 에이전트 모델을 학습할 수 있다. 여기서, 환경은 에이전트 모델의 행동 결과에 대한 리워드를 제공하는 환경이다. The model generator 120 may learn the agent model through interaction between the agent model and the environment. Here, the environment is an environment that provides a reward for the action result of the agent model.

모델 생성부(120)는 에이전트 모델과 환경의 상호작용을 통한 결과 정보(예컨대, 에이전트 모델의 상태, 행동, 리워드 등)을 리플레이 버퍼에 저장할 수 있다. The model generator 120 may store result information (eg, the state of the agent model, behavior, reward, etc.) through interaction between the agent model and the environment in the replay buffer.

모델 생성부(120)는 리플레이버퍼에 저장된 결과 정보를 추출하여 에이전트 모델을 학습할 수 있다. The model generator 120 may learn the agent model by extracting result information stored in the replay buffer.

모델 생성부(120)는 특정 상태에 대한 상태 가치값을 추정하기 위해, 특정 상태가 입력될 때, 특정 상태에서의 기대 상태 가치값과의 차이가 최소화되도록 제 1 크리틱(209) 및 제 2 크리틱(211)을 학습시킬 수 있다. In order to estimate a state value for a specific state, the model generator 120 generates a first click 209 and a second click so that when a specific state is input, the difference from the expected state value in the specific state is minimized. (211) can be learned.

Q-네트워크(213)는 리워드 평균법이 적용된 리워드에 기초하여 크리틱(209, 211)의 행동 가치를 추정할 수 있다. 이렇게 추정된 크리틱 (209, 211)의 행동 가치는 복수의 액터(201, 203, 205)가 학습하는데 사용될 수 있다. The Q-network 213 may estimate the action value of the clicks 209 and 211 based on the reward to which the reward averaging method is applied. The action values of the crit 209 and 211 estimated in this way can be used for learning by a plurality of actors 201 , 203 , 205 .

크리틱(209, 211)은 Q-네트워크(213)를 사용하여 오프-폴리시(off-policy) 형태로 학습할 수 있다. 이 때, Q-네트워크(213) 역시 학습을 진행한다. Critics 209 and 211 can learn in an off-policy form using the Q-network 213 . At this time, the Q-network 213 also performs learning.

예를 들어, Q-네트워크(213)는 리워드 평균법이 적용된 리워드로부터 부트스트랩핑(bootstrapping)된 크리틱(209, 211)의 행동 가치와 유사한 값을 내도록 학습할 수 있다. For example, the Q-network 213 may learn to generate a value similar to the behavioral value of the bootstrapped clicks 209 and 211 from the reward to which the reward averaging method is applied.

이 때, Q-네트워크(213)는 평균 제곱 오차(MSE, Mean Squared Error)가 최소화되는 방식으로 학습할 수 있다. 여기서, 크리틱(209, 211)의 행동 가치는 리워드 및 상태 가치값의 합으로 산출될 수 있다. In this case, the Q-network 213 may learn in a way that a mean squared error (MSE) is minimized. Here, the action value of the crit 209 and 211 may be calculated as the sum of the reward and the state value.

모델 생성부(120)는 Q- 네트워크(213)로부터 추정된 행동 가치가 향상되도록 둘 이상의 액터(201, 203, 205)를 학습시킬 수 있다. The model generator 120 may train two or more actors 201 , 203 , and 205 to improve the action value estimated from the Q-network 213 .

도 1 및 도 3을 함께 참조하면, 데이터 수집부(100)는 적어도 하나의 종목에 대한 거래 데이터를 수집할 수 있다. 여기서, 적어도 하나의 종목에 대한 거래 데이터는 예를 들면, 해당 종목에 대한 호가창 데이터, 시세 데이터(거래 가격 및 거래량), 장진행 시간 정보, 기주문체결량 등을 포함할 수 있다. 1 and 3 together, the data collection unit 100 may collect transaction data for at least one item. Here, the transaction data for at least one item may include, for example, bid window data for the item, market price data (transaction price and transaction volume), market run time information, order execution amount, and the like.

보조 예측값 생성부(110)는 미리 학습된 지도학습 기반의 제 1 딥러닝 모델(30)에 수집된 적어도 하나의 종목에 대한 거래 데이터를 입력하여 해당 종목에 대한 보조 예측값을 생성할 수 있다. 여기서, 보조 예측값은 예를 들면, 볼륨 커브(Volume Curve)일 수 있다. 볼륨 커브는 하루 동안 거래해야 하는 총 거래량을 시간에 따라 나타낸 그래프이다. 예를 들면, 보조 예측값 생성부(110)는 거래 데이터가 입력값으로 입력된 제 1 딥러닝 모델(30)을 통해 고객의 위험 성향이 반영된 보조 예측값을 생성할 수 있다. 여기서, 보조 예측값은 하루 동안 거래해야 하는 총 거래량을 시간에 따라 나타낸 그래프(볼륨 커브)일 수 있다. The auxiliary predictive value generator 110 may generate an auxiliary predicted value for the item by inputting transaction data for at least one item collected in the first deep learning model 30 based on pre-trained supervised learning. Here, the auxiliary prediction value may be, for example, a volume curve. A volume curve is a graph showing the total volume of trading over time during the day. For example, the auxiliary predictive value generator 110 may generate an auxiliary predictive value in which the risk propensity of the customer is reflected through the first deep learning model 30 to which transaction data is input as an input value. Here, the auxiliary prediction value may be a graph (volume curve) showing the total amount of trading to be traded during the day over time.

예를 들어, 제 1 딥러닝 모델에 적어도 하나의 종목에 대한 거래 데이터가 입력된 후, 제 1 딥러닝 모델로부터 기설정된 단위 시간 마다의 해당 종목에 대한 주가 변화율이 예측되면, 보조 예측값 생성부(110)는 예측된 기설정된 단위 시간 마다의 해당 종목에 대한 주가 변화율에 기초하여 보조 예측값을 생성할 수 있다. For example, after the transaction data for at least one item is input to the first deep learning model, when the rate of change of the stock price for the item for each preset unit time is predicted from the first deep learning model, the auxiliary prediction value generator ( 110) may generate an auxiliary predicted value based on the predicted stock price change rate for the corresponding item for each predetermined unit time.

예를 들면, 보조 예측값 생성부(110)는 종목의 당일 주가 방향성에 대하여 예측된 기설정된 단위 시간 마다의 종목에 대한 주가 변화율 및 고객의 위험 성향 정보를 반영하여 거래량 가중 평균거래(VWAP)에 대응하는 브이왑(VWAP) 커브를 생성하고, 생성된 브이왑 커브를 변형하여 최적의 보조 예측값인 볼륨 커브를 도출할 수 있다. For example, the auxiliary prediction value generating unit 110 responds to the volume-weighted average transaction (VWAP) by reflecting the stock price change rate and the risk tendency information of the customer for each predetermined unit time predicted with respect to the stock price direction of the day. A volume curve, which is an optimal auxiliary prediction value, can be derived by generating a VWAP curve that is

한편, 보조 예측값 생성부(110)에 의해 생성된 볼륨 커브에 따라 주문 집행을 수행하게 되면, 단기 시간에서 불리한 가격으로 주문 거래가 이루어질 가능성이 높다. On the other hand, if the order execution is performed according to the volume curve generated by the auxiliary prediction value generating unit 110, there is a high possibility that the order transaction is made at an unfavorable price in a short time.

즉, 단순히 볼륨 커브에 따라 주문 집행을 수행하게 될 경우, 시장가로 거래가 되거나 보다 작은 시간 단위에서 시장 상황의 변화에 대응하기 어려워 결국 총주문비용이 증가되는 문제점이 발생하게 된다. That is, when orders are executed simply according to the volume curve, it is difficult to trade at the market price or respond to changes in market conditions in a smaller time unit, resulting in an increase in total order cost.

본 발명에서는 이러한 문제점을 해결하기 위해 강화학습 기반의 제 2 딥러닝 모델을 통해 주문 집행 전략(예컨대, 총주문량에 대한 호가창 배분 전략)을 도출하여 총주문비용이 최소가 되도록 한다. In the present invention, in order to solve this problem, an order execution strategy (eg, a bid window allocation strategy for the total order quantity) is derived through a second deep learning model based on reinforcement learning so that the total order cost is minimized.

즉, 본 발명에 따르면, 강화학습 기반의 제 2 딥러닝 모델을 이용하여, 미시적인 주문 집행 전략에 대해서도 초단기 시장 상황에 대한 슬리피지 비용 및 주문 집행 비용을 최적화할 수 있다. That is, according to the present invention, using the second deep learning model based on reinforcement learning, it is possible to optimize the slippage cost and the order execution cost for the ultra-short market situation even for a micro-order execution strategy.

주문 집행 전략 도출부(132)는 제 1 딥러닝 모델(30)로부터 생성된 보조 예측값과 함께 수집된 적어도 하나의 종목에 대한 거래 데이터를 미리 학습된 강화학습 기반의 제 2 딥러닝 모델(20)에 입력한 후, 제 2 딥러닝 모델(20)로부터 거래 데이터 및 보조 예측값에 기초한 주문 집행 전략을 도출할 수 있다. The order execution strategy derivation unit 132 is a reinforcement learning-based second deep learning model 20 trained in advance on transaction data for at least one item collected together with the auxiliary prediction value generated from the first deep learning model 30 . After input to , it is possible to derive an order execution strategy based on the transaction data and auxiliary prediction values from the second deep learning model 20 .

주문 집행 전략 도출부(132)는 거래 데이터 및 보조 예측값에 기초하여 제 2 딥러닝 모델(20)을 통해 현재 주기에서의 적어도 하나의 종목에 대한 주문 집행 전략을 도출할 수 있다. The order execution strategy derivation unit 132 may derive an order execution strategy for at least one item in the current period through the second deep learning model 20 based on the transaction data and the auxiliary prediction value.

예를 들어, 주문 집행 전략 도출부(132)는 제 2 딥러닝 모델(20)의 제 1 액터를 통해 보조 예측값에 기초한 종목에 대한 주문량을 결정하고, 제 2 액터를 통해 보조 예측값에 기초한 종목에 대한 주문 취소량을 결정할 수 있다. For example, the order execution strategy derivation unit 132 determines the order amount for the item based on the auxiliary prediction value through the first actor of the second deep learning model 20, and through the second actor to the item based on the auxiliary prediction value. You can decide the amount of order cancellation for

주문 집행 전략 도출부(132)는 제 1 액터로부터 결정된 종목에 대한 주문량 및 제 2 액터로부터 결정된 종목에 대한 주문 취소량에 기초하여 제 3 액터를 통해 최종 주문량을 결정할 수 있다. The order execution strategy derivation unit 132 may determine the final order amount through the third actor based on the order amount for the item determined from the first actor and the order cancellation amount for the item determined from the second actor.

주문 집행 전략 도출부(132)는 제 3 액터를 통해 결정된 최종 주문량에 따라 현재 주기에서의 종목에 대한 주문 집행 전략을 도출할 수 있다. The order execution strategy derivation unit 132 may derive an order execution strategy for the item in the current cycle according to the final order amount determined through the third actor.

여기서, 주문 집행 전략은 누적 주문량, 이전 주기 대비 현재 주기에서의 추가 주문량(추가 매수/매도 주문 또는 취소 주문), 현재 주기에서의 추가 주문량에 대한 호가창 배분 정보 중 적어도 하나를 포함할 수 있다. 여기서, 누적 주문량 및 추가 주문량은 제 3 액터에 의해 결정되는 최종 주문량일 수 있다.Here, the order execution strategy may include at least one of a cumulative order amount, an additional order amount (additional buy/sell order or cancel order) in the current cycle compared to the previous cycle, and ask window allocation information for the additional order amount in the current cycle. Here, the cumulative order amount and the additional order amount may be the final order amount determined by the third actor.

즉, 주문 집행 전략은 시장 상황에 따라 변동되는 종목의 누적 주문량 또는 추가 주문량 및 호가창 배분 전략을 포함할 수 있다. That is, the order execution strategy may include a cumulative order amount or additional order amount and a call window allocation strategy for items that change according to market conditions.

주문 집행 전략 도출부(132)는 누적 주문량 또는 추가 주문량을 복수의 호가창(시장가 포함)에 배분하는 주문 집행 전략을 도출할 수 있다. The order execution strategy derivation unit 132 may derive an order execution strategy for distributing the accumulated order amount or the additional order amount to a plurality of quotation windows (including market prices).

또한, 주문 집행 전략 도출부(132)는 현재 주기에서의 시장 상황의 변화에 따라 주문 집행 전략을 수정할 수 있다. Also, the order execution strategy derivation unit 132 may modify the order execution strategy according to a change in market conditions in the current cycle.

예를 들면, 주문 집행 전략 도출부(132)는 누적 주문량 또는 추가 주문량 및 호가창 배분 정보에 기초하여 각 호가창마다 주문을 늘리거나 취소할 수 있다.For example, the order execution strategy derivation unit 132 may increase or cancel the order for each quotation window based on the accumulated order amount or the additional order amount and the quotation window distribution information.

본 발명은 강화학습 기반의 제 2 딥러닝 모델(20)을 통해 적어도 하나의 종목에 대하여 현재 시점에서 미래의 현가 할인된 보상이 최대화되도록 하는 주문 집행 전략을 도출할 수 있다. The present invention can derive an order execution strategy that maximizes future current discounted rewards for at least one item through the reinforcement learning-based second deep learning model 20 .

예를 들어, A주식을 T 시간 이전에 V 주만큼 매수하라는 주문이 들어왔다고 가정하자. 현재까지의 체결량이 v량이고, 경과 시간이 t 시간이라면, 주문 집행 전략 도출부(132)는 브이왑(VWAP) 대비 현재 상황에서 T 시점까지 나머지 (V-v)주를 사는 비용을 최소화하도록 하는 주문 집행 전략을 도출할 수 있다. For example, suppose an order is placed to buy V shares before time T. If the amount of execution to date is v and the elapsed time is time t, the order execution strategy derivation unit 132 is an order to minimize the cost of purchasing the remaining (Vv) shares from the current situation to the T point compared to the V-WAP (VWAP) Implementation strategies can be derived.

또한, 본 발명은 주문 집행 전략에 따른 단기 보상 및 향후 미치는 장기 보상 사이의 균형을 최적화함으로써 현재 시점에서의 주문 집행 금액을 최소화하는 효과를 제공할 수 있다. In addition, the present invention can provide an effect of minimizing the order execution amount at the present time by optimizing the balance between the short-term compensation according to the order execution strategy and the long-term compensation in the future.

주문 집행부(130)는 주문 집행 전략을 포함하는 주문 정보를 이용하여 현재 주기에서의 적어도 하나의 종목에 대한 주문 집행을 지시할 수 있다. The order execution unit 130 may instruct execution of an order for at least one item in a current cycle by using order information including an order execution strategy.

또한, 주문 집행 지시부(134)는 현재 시점의 시장 상황의 변화에 따라 수정된 주문 집행 전략을 포함하는 주문 정보를 이용하여 현재 주기에서의 적어도 하나의 종목에 대한 주문 집행을 지시할 수 있다. In addition, the order execution instructing unit 134 may instruct execution of orders for at least one item in the current period by using order information including an order execution strategy modified according to a change in market conditions at the current time.

주문 집행 지시부(134)는 주문 집행 전략을 포함하는 주문 정보를 증권 거래 운용 서버로 전송함으로써 현재 주기에서의 적어도 하나의 종목에 대한 주문 집행을 지시할 수 있다. The order execution instructing unit 134 may instruct the execution of orders for at least one item in the current period by transmitting order information including the order execution strategy to the stock exchange operation server.

이후, 모델 생성부(120)는 실제 증권 시장의 환경에서 주문 집행 전략에 따라 주문 집행된 주문 집행 전략에 대한 리워드를 결정하고, 결정된 리워드에 기초하여 제 2 딥러닝 모델(20)을 재학습시키고, 주문 집행이 종료된 종목의 거래 데이터를 이용하여 제 1 딥러닝 모델을 재학습시킬 수 있다. Thereafter, the model generator 120 determines a reward for the order execution strategy executed according to the order execution strategy in the environment of the real stock market, and re-learns the second deep learning model 20 based on the determined reward. , it is possible to retrain the first deep learning model using the transaction data of the item for which the order execution has been completed.

한편, 당업자라면, 데이터 수집부(100), 보조 예측값 생성부(110), 모델 생성부(120), 주문 집행부(130), 주문 집행 전략 도출부(132) 및 주문 집행 지시부(134) 각각이 분리되어 구현되거나, 이 중 하나 이상이 통합되어 구현될 수 있음을 충분히 이해할 것이다. Meanwhile, for those skilled in the art, the data collection unit 100 , the auxiliary prediction value generation unit 110 , the model generation unit 120 , the order execution unit 130 , the order execution strategy derivation unit 132 , and the order execution instruction unit 134 are each It will be fully understood that it may be implemented separately, or one or more of these may be implemented integrally.

도 4는 본 발명의 일 실시예에 따른, 증권 거래를 위한 종목에 대한 주문 집행을 수행하는 방법을 나타낸 도면이다. 4 is a diagram illustrating a method of performing order execution for a stock for a stock transaction, according to an embodiment of the present invention.

도 4를 참조하면, 단계 S401에서 주문 집행 서버(10)는 적어도 하나의 종목에 대한 거래 데이터를 수집할 수 있다. Referring to FIG. 4 , in step S401 , the order execution server 10 may collect transaction data for at least one item.

단계 S403에서 주문 집행 서버(10)는 강화학습 에이전트의 행동 규약을 결정하는 신경망인 둘 이상의 액터 및 상기 강화학습 에이전트의 행동 가치를 추정하는 신경망인 크리틱을 포함하는 강화학습 기반의 딥러닝 모델을 생성할 수 있다. In step S403, the order execution server 10 generates a reinforcement learning-based deep learning model including two or more actors, which are neural networks that determine the behavioral rules of the reinforcement learning agent, and Critic, which is a neural network that estimates the behavioral value of the reinforcement learning agent. can do.

단계 S405에서 주문 집행 서버(10)는 거래 데이터에 기초하여 강화학습 기반의 딥러닝 모델이 적어도 하나의 종목에 대한 주문 집행 전략을 도출하도록 강화학습 기반의 딥러닝 모델을 학습할 수 있다. In step S405, the order execution server 10 may learn the reinforcement learning-based deep learning model based on the transaction data so that the reinforcement learning-based deep learning model derives an order execution strategy for at least one item.

단계 S407에서 주문 집행 서버(10)는 주문 집행 전략을 포함하는 주문 정보를 이용하여 현재 주기에서의 적어도 하나의 종목에 대한 주문 집행을 수행할 수 있다. In step S407, the order execution server 10 may perform order execution for at least one item in the current period by using the order information including the order execution strategy.

상술한 설명에서, 단계 S401 내지 S407은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. In the above description, steps S401 to S407 may be further divided into additional steps or combined into fewer steps, according to an embodiment of the present invention. In addition, some steps may be omitted as necessary, or the order between steps may be changed.

도 5는 본 발명의 일 실시예에 따른, 주문 집행을 수행하는 방법을 나타낸 동작 흐름도이다. 5 is an operation flowchart illustrating a method of performing order execution, according to an embodiment of the present invention.

도 5를 참조하면, 단계 S501에서 유저 단말(50)은 유저로부터 특정 종목에 대한 주문 데이터를 입력받을 수 있다. 여기서, 주문 데이터는 특정 종목에 대한 주문 타입 정보, 주문 기한 정보, 주문 수량 정보, 주문 코드 정보 및 주문 제한 조건을 포함할 수 있다. 예를 들면, 유저 단말(50)은 도 6의 주문 설정 인터페이스를 통해 특정 종목에 대한 주문 데이터를 입력받을 수 있다. 유저 단말(50)은 주문 설정 인터페이스를 통해 특정 종목에 대한 계좌 번호(601), 주문 기한 정보(미도시), 주문 코드 정보(603), 주문 타입 정보(605), 주문 수량 정보(607), 주문 제한 조건 정보(609)를 사용자로부터 설정받을 수 있다. 여기서, 주문 기한 정보(미도시)는 특정 종목을 매도 또는 매수하는 주문 마감일을 포함하고, 주문 코드 정보(603)는 특정 종목에 해당하는 코드 정보(예컨대, 삼성 전자 종목의 코드 정보)를 포함할 수 있다. 주문 타입 정보(605)는 특정 종목에 대하여 매도를 할지 또는 매수를 할지 여부에 대한 선택 정보를 포함하고, 주문 수량 정보(607)는 선택된 주문 타입 정보에 따른 특정 정보의 주문량을 포함할 수 있다. 주문 제한 조건(609)은 예컨대, TWAP 주문 제한 범위를 포함할 수 있다. Referring to FIG. 5 , in step S501 , the user terminal 50 may receive order data for a specific item from the user. Here, the order data may include order type information for a specific item, order deadline information, order quantity information, order code information, and order restriction conditions. For example, the user terminal 50 may receive order data for a specific item through the order setting interface of FIG. 6 . The user terminal 50 provides an account number 601, order deadline information (not shown), order code information 603, order type information 605, order quantity information 607 for a specific item through the order setting interface, Order constraint condition information 609 may be set by the user. Here, the order deadline information (not shown) includes an order deadline for selling or buying a specific item, and the order code information 603 includes code information (eg, code information of a Samsung Electronics item) corresponding to the specific item. can The order type information 605 may include selection information on whether to sell or buy a specific item, and the order quantity information 607 may include an order amount of specific information according to the selected order type information. The order constraint condition 609 may include, for example, a TWAP order constraint range.

단계 S503에서 유저 단말(50)은 특정 종목에 대한 주문 데이터를 주문 집행 서버(10)에게 전송할 수 있다. In step S503, the user terminal 50 may transmit order data for a specific item to the order execution server 10 .

단계 S505에서 주문 집행 서버(10)는 0주기 시점의 특정 종목에 대한 증권 데이터를 증권 데이터 제공 서버(60)에게 요청할 수 있다. 여기서, 증권 데이터는 호가창 데이터 및 거래틱 데이터 등을 포함할 수 있다. In step S505, the order execution server 10 may request the stock data providing server 60 for stock data for a specific item at the time of cycle 0. Here, the stock data may include bid window data, transaction tick data, and the like.

단계 S507에서 주문 집행 서버(10)는 증권 데이터 제공 서버(60)로부터 0주기 시점의 특정 종목에 대한 증권 데이터를 수신할 수 있다. In step S507, the order execution server 10 may receive the stock data for a specific item at the time of 0 cycle from the stock data providing server 60.

단계 S509에서 주문 집행 서버(10)는 수신된 특정 종목에 대한 주문 데이터 및 0주기 시점의 특정 종목에 대한 증권 데이터에 기초하여 0주기 시점의 주문 집행 전략을 도출할 수 있다. In step S509, the order execution server 10 may derive the order execution strategy of the 0 cycle time based on the received order data for the specific item and the stock data for the specific item at the 0 cycle time point.

단계 S511에서 주문 집행 서버(10)는 도출된 0주기 시점의 주문 집행 전략을 포함하는 주문 정보를 증권 거래 운용 서버(70)에게 전송할 수 있다. In step S511 , the order execution server 10 may transmit order information including the derived order execution strategy at the time of 0 cycle to the securities transaction management server 70 .

단계 S513에서 주문 집행 서버(10)는 0주기 시점의 주문 정보에 대한 체결 결과 정보를 증권 거래 운용 서버(70)로부터 수신할 수 있다. In step S513 , the order execution server 10 may receive execution result information on the order information at the time of cycle 0 from the securities transaction management server 70 .

단계 S515에서 주문 집행 서버(10)는 증권 거래 운용 서버(70)로부터 수신된 체결 결과 정보를 유저 단말(50)에게 전송할 수 있다. In step S515 , the order execution server 10 may transmit the execution result information received from the securities transaction management server 70 to the user terminal 50 .

단계 S517에서 주문 집행 서버(10)는 1주기 시점의 특정 종목에 대한 증권 데이터를 증권 데이터 제공 서버(60)에게 요청할 수 있다. In step S517, the order execution server 10 may request the stock data providing server 60 for stock data for a specific item at the time of one cycle.

단계 S519에서 주문 집행 서버(10)는 증권 데이터 제공 서버(60)로부터 1주기 시점의 특정 종목에 대한 증권 데이터(0주기 시점의 주문 정보에 대한 체결 결과가 반영된 증권 데이터)를 수신할 수 있다. In step S519, the order execution server 10 may receive from the stock data providing server 60 securities data for a specific item at the 1st cycle time (the securities data reflecting the execution result of the order information at the 0th cycle time).

단계 S521에서 주문 집행 서버(10)는 수신된 특정 종목에 대한 주문 데이터 및 1주기 시점의 특정 종목에 대한 증권 데이터에 기초하여 1주기 시점의 주문 집행 전략을 도출할 수 있다.In step S521, the order execution server 10 may derive an order execution strategy at the time of one cycle based on the received order data for the specific item and the securities data for the specific item at the time of the first cycle.

단계 S523에서 주문 집행 서버(10)는 도출된 1주기 시점의 주문 집행 전략을 포함하는 주문 정보를 증권 거래 운용 서버(70)에게 전송할 수 있다. In step S523 , the order execution server 10 may transmit order information including the derived order execution strategy at the time of one cycle to the securities transaction operation server 70 .

단계 S525에서 증권 거래 운용 서버(70)는 유저 단말(50)이 입력한 특정 종목에 대한 주문 데이터에 포함된 주문 수량 정보에 따라 증권 거래 운용 서버(70)가 특정 종목의 주문을 모두 완료한 경우, 주문 집행 서버(10)에게 특정 종목에 대한 최종 체결 정보를 전송할 수 있다. 만일, 특정 종목의 주문이 완료되지 않으면, 주문이 모두 완료될 때까지 단계 S513 이후의 과정이 반복될 수 있다. In step S525, when the stock exchange management server 70 completes all orders for the specific item according to the order quantity information included in the order data for the specific item input by the user terminal 50, the securities transaction management server 70 , it is possible to transmit final execution information for a specific item to the order execution server 10 . If the order of a specific item is not completed, the process after step S513 may be repeated until all orders are completed.

단계 S527에서 주문 집행 서버(10)는 증권 거래 운용 서버(70)로부터 수신된 최종 체결 정보를 유저 단말(50)에게 전송할 수 있다. In step S527 , the order execution server 10 may transmit the final execution information received from the securities transaction management server 70 to the user terminal 50 .

상술한 설명에서, 단계 S501 내지 S527은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다.In the above description, steps S501 to S527 may be further divided into additional steps or combined into fewer steps, according to an embodiment of the present invention. In addition, some steps may be omitted as necessary, or the order between steps may be changed.

본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. An embodiment of the present invention may also be implemented in the form of a recording medium including instructions executable by a computer, such as a program module executed by a computer. Computer-readable media can be any available media that can be accessed by a computer, and includes both volatile and nonvolatile media, removable and non-removable media. Further, the computer-readable medium may include all computer storage media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다. The above description of the present invention is for illustrative purposes only, and those of ordinary skill in the art to which the present invention pertains will be able to understand that other specific forms can be easily modified without changing the technical spirit or essential features of the present invention. will be. Therefore, it should be understood that the embodiments described above are illustrative and non-limiting in all respects. For example, each component described as a single type may be implemented in a distributed manner, and similarly, components described as being distributed may also be implemented in a combined form.

본 발명의 범위는 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.The scope of the present invention is indicated by the claims to be described later rather than the detailed description, and all changes or modified forms derived from the meaning and scope of the claims and their equivalent concepts should be interpreted as being included in the scope of the present invention. .

10: 주문 집행 서버
100: 데이터 수집부
110: 보조 예측값 생성부
120: 모델 생성부
130: 주문 집행부
132: 주문 집행 전략 도출부
134: 주문 집행 지시부
10: Order Fulfillment Server
100: data collection unit
110: auxiliary prediction value generator
120: model generation unit
130: order execution unit
132: Order execution strategy derivation unit
134: Order Execution Directive

Claims (7)

서버에서의 증권 거래를 위한 딥러닝 모델 학습방법에 있어서,
적어도 하나의 종목에 대한 거래 데이터를 수집하는 단계;
상기 수집된 적어도 하나의 종목에 대한 거래 데이터를 지도학습 기반의 제 1 딥러닝 모델에 입력하여 기 설정된 단위 시간 마다의 해당 종목에 대한 주가변화율을 예측하도록 제 1 딥러닝 모델을 학습시키는 단계;
상기 수집된 적어도 하나의 종목에 대한 거래 데이터를 제 2 딥러닝 모델에 입력하여 해당 종목에 있어서의 초단기 시장 상황에 대한 슬리피지(slippage) 비용 및 주문 집행 비용이 절감되는 주문 집행 전략이 도출되도록 제 2 딥러닝 모델을 학습시키는 단계;
실제 증권 시장의 환경에서 상기 주문 집행 전략에 따라 주문 집행된 주문 집행 전략에 대한 리워드가 결정되면, 상기 결정된 리워드에 기초하여 제 2 딥러닝 모델을 재학습시키는 단계;
실제 증권 시장의 환경에서 상기 주문 집행 전략에 따라 주문 집행이 종료된 종목의 거래 데이터를 이용하여 제 1 딥러닝 모델을 재학습시키는 단계;를 포함하는,
증권 거래를 위한 딥러닝 모델 학습방법.
In a deep learning model learning method for stock trading in a server,
collecting transaction data for at least one item;
inputting the collected transaction data for at least one item into a first deep learning model based on supervised learning to train the first deep learning model to predict the stock price change rate for the item for each preset unit time;
By inputting the collected transaction data for at least one item into a second deep learning model, an order execution strategy that reduces slippage cost and order execution cost for the ultra-short-term market situation in the relevant item is derived. 2 training the deep learning model;
When the reward for the order execution strategy is determined according to the order execution strategy in the real stock market environment, re-learning a second deep learning model based on the determined reward;
Re-learning the first deep learning model by using the transaction data of the item for which order execution has been completed according to the order execution strategy in an actual stock market environment;
How to train a deep learning model for stock trading.
제 1 항에 있어서,
상기 제 1 딥러닝 모델에 입력되는 적어도 하나의 종목에 대한 거래 데이터는,
증권 기관에서 거래된 종목에 대한 거래 대금 정보, 호가창 데이터, 거시경제지표 데이터를 하나 이상 포함하는,
증권 거래를 위한 딥러닝 모델 학습방법.
The method of claim 1,
The transaction data for at least one item input to the first deep learning model is,
Including one or more of transaction price information, asking price data, and macroeconomic indicator data for stocks traded in a securities institution;
How to train a deep learning model for stock trading.
제 1 항에 있어서,
상기 제 2 딥러닝 모델에 입력되는 적어도 하나의 종목에 대한 거래 데이터는,
종목에 대한 호가창 데이터, 시세 데이터(거래 가격 및 거래량), 장진행 시간 정보, 기주문체결량데이터를 하나 이상 포함하는,
증권 거래를 위한 딥러닝 모델 학습방법.
The method of claim 1,
The transaction data for at least one item input to the second deep learning model is,
Including one or more quotation window data, market price data (transaction price and trading volume), market run time information, and order execution volume data for the item,
How to train a deep learning model for stock trading.
제 1 항에 있어서,
단위 시간별 적어도 하나의 종목에 대한 제 1 딥러닝 모델의 출력값이 기 설정된 단위 시간별 종목의 기준 주가 변화율과 일치하는 주가 변화율을 예측하도록 제 1 딥러닝 모델을 학습시키는 단계를 더 포함하는,
증권 거래를 위한 딥러닝 모델 학습방법.
The method of claim 1,
Further comprising the step of learning the first deep learning model to predict the rate of change of the stock price that the output value of the first deep learning model for at least one item per unit time coincides with the reference price change rate of the item per unit time which is set in advance,
How to train a deep learning model for stock trading.
제 1 항에 있어서,
기 설정된 단위 시간별 종목의 기준 주가 변화율과 제 1 딥러닝 모델의 출력값인 단위 시간 별 종목의 주가 변화율 간의 평균 제곱 오차가(MSE, Mean Squared Error)가 최소화되도록 제 1 딥러닝 모델을 학습시키는 단계를 더 포함하는,
증권 거래를 위한 딥러닝 모델 학습방법.
The method of claim 1,
The step of learning the first deep learning model so that the mean squared error (MSE, Mean Squared Error) between the preset standard stock price change rate of the stock per unit time and the stock price change rate of the stock per unit time output value of the first deep learning model is minimized more containing,
How to train a deep learning model for stock trading.
제 1 항에 있어서,
기 설정된 단위 시간별 제 1 종목의 기준 주가 변화율이 제 1 시점에서는 제 1 기준 주가 변화율을 갖고, 제 2 시점에서는 제 2 기준 주가 변화율을 갖고, 제 N 시점에서는 제 N 기준 주가 변화율을 갖는 경우,
상기 제 1 종목에 대한 거래 데이터가 제 1 딥러닝 모델에 입력됨에 따라 출력되는 제 1 시점에서의 제 1 딥러닝 모델의 제 1 주가 변화율이 제 1 기준 주가 변화율과 일치되도록 제 1 딥러닝 모델을 학습시키는 단계;
이후 출력되는 제 2 시점에서의 제 1 딥러닝 모델의 제 2 주가 변화율이 제 2 기준 주가 변화율과 일치되도록 제 1 딥러닝 모델을 학습시키는 단계;
이후 출력되는 제 N 시점에서의 제 1 딥러닝 모델의 제 N 주가 변화율이 제 N 기준 주가 변화율과 일치되도록 제 1 딥러닝 모델을 학습시키는 단계를 더 포함하는,
증권 거래를 위한 딥러닝 모델 학습방법.
The method of claim 1,
When the preset reference price change rate of the first stock per unit time has the first reference price change rate at the first time point, the second reference share price change rate at the second time point, and the Nth reference share price change rate at the Nth time point,
The first deep learning model is formed so that the first stock price change rate of the first deep learning model at the first time point output as the transaction data for the first item is input to the first deep learning model matches the first reference stock price change rate learning;
training the first deep learning model so that the second stock price change rate of the first deep learning model at the second time point outputted thereafter matches the second reference stock price change rate;
Further comprising the step of training the first deep learning model so that the Nth stock price change rate of the first deep learning model at the output Nth time point coincides with the Nth reference stock price change rate,
How to train a deep learning model for stock trading.
제 1 항에 있어서,
강화학습 환경에서의 주문 집행 전략에 대한 리워드를 결정하고, 결정된 리워드가 최대화되도록 제 2 딥러닝 모델을 학습시키는 단계를 더 포함하는,
증권 거래를 위한 딥러닝 모델 학습방법.
The method of claim 1,
Further comprising the step of determining a reward for the order execution strategy in the reinforcement learning environment, and training the second deep learning model so that the determined reward is maximized,
How to train a deep learning model for stock trading.
KR1020190152276A 2019-11-25 2019-11-25 Method for learning deep-learning model for stock trading KR20210063767A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190152276A KR20210063767A (en) 2019-11-25 2019-11-25 Method for learning deep-learning model for stock trading

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190152276A KR20210063767A (en) 2019-11-25 2019-11-25 Method for learning deep-learning model for stock trading

Publications (1)

Publication Number Publication Date
KR20210063767A true KR20210063767A (en) 2021-06-02

Family

ID=76372788

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190152276A KR20210063767A (en) 2019-11-25 2019-11-25 Method for learning deep-learning model for stock trading

Country Status (1)

Country Link
KR (1) KR20210063767A (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240044759A (en) 2022-09-29 2024-04-05 인하대학교 산학협력단 Pair traiding learning apparatus
KR20240044722A (en) 2022-09-29 2024-04-05 인하대학교 산학협력단 AI-based stock trading learning method

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101808259B1 (en) 2016-03-16 2018-01-18 아이피랩 주식회사 Method for providing asset trading service

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101808259B1 (en) 2016-03-16 2018-01-18 아이피랩 주식회사 Method for providing asset trading service

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240044759A (en) 2022-09-29 2024-04-05 인하대학교 산학협력단 Pair traiding learning apparatus
KR20240044722A (en) 2022-09-29 2024-04-05 인하대학교 산학협력단 AI-based stock trading learning method

Similar Documents

Publication Publication Date Title
KR102124979B1 (en) Server and methor for performing order excution for stock trading
KR102124978B1 (en) Server and methor for performing order excution for stock trading
Dixon A high‐frequency trade execution model for supervised learning
Theobald Agent-based risk management–a regulatory approach to financial markets
Cao et al. Gamma and vega hedging using deep distributional reinforcement learning
KR20210063767A (en) Method for learning deep-learning model for stock trading
KR20210063769A (en) Computer program and recording medium for learning deep-learning model for stock trading
KR102258515B1 (en) Server and methor for performing order excution for stock trading
KR102258517B1 (en) Server and methor for performing order excution for stock trading
Massahi et al. A deep Q-learning based algorithmic trading system for commodity futures markets
Jin et al. The long‐term structure of commodity futures
Haider et al. Predictive market making via machine learning
KR20210015582A (en) Server and methor for performing order excution for stock trading
KR20210063766A (en) Server for stock trading using of deep learning model
KR20210063765A (en) Method, computer program and recording medium for stock trading using of deep learning
Guo et al. Reliability assessment of scenarios generated for stock index returns incorporating momentum
KR20210063768A (en) Method, computer program and recording medium for processing deep learning model based on reinforcement laerning
De Graeve et al. Central bank policy paths and market forward rates: A simple model
KR20210015583A (en) Server and methor for performing order excution for stock trading
Galimberti et al. Cowboying stock market herds with robot traders
Wei et al. Investor sentiment in an artificial limit order market
Enke et al. A hybrid derivative trading system based on volatility and return forecasting
Huang et al. Endogenous fundamental and stock cycles
Reissl Fiscal multipliers, expectations and learning in a macroeconomic agent‐based model
Rychalovska The Implications of Financial Frictions and Imperfect Knowledge in the Estimated DSGE Model of the US Economy