WO2021199657A1 - 情報処理装置、その制御方法、プログラム、ならびに、学習済モデル - Google Patents

情報処理装置、その制御方法、プログラム、ならびに、学習済モデル Download PDF

Info

Publication number
WO2021199657A1
WO2021199657A1 PCT/JP2021/003815 JP2021003815W WO2021199657A1 WO 2021199657 A1 WO2021199657 A1 WO 2021199657A1 JP 2021003815 W JP2021003815 W JP 2021003815W WO 2021199657 A1 WO2021199657 A1 WO 2021199657A1
Authority
WO
WIPO (PCT)
Prior art keywords
time
date
information processing
text
texts
Prior art date
Application number
PCT/JP2021/003815
Other languages
English (en)
French (fr)
Inventor
久美子 石井
キン 杜
Original Assignee
国立大学法人東京大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to US17/913,222 priority Critical patent/US20230162003A1/en
Application filed by 国立大学法人東京大学 filed Critical 国立大学法人東京大学
Publication of WO2021199657A1 publication Critical patent/WO2021199657A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Definitions

  • the present invention relates to a technique for obtaining an embedded vector in which features of an object whose price fluctuates depending on the date and time are embedded.
  • targets whose prices fluctuate depending on the date and time such as stocks, investment trusts, receivables, futures, options, commodity futures, and actual commodities
  • the target names and texts such as timely disclosure materials, news, and SNS (Social Network Service) can be used.
  • SNS Social Network Service
  • Non-Patent Document 2 A technique for optimizing the portfolio that determines the ratio to be allocated to each target is formulated based on the relationship between the targets. For example, the covariance between stock prices is used as a risk matrix for stocks to determine the portfolio. A technique has been proposed (Non-Patent Document 2).
  • Non-Patent Document 3 a technique using two feature vectors at different levels has been proposed for examining the text.
  • the present invention is for solving the above-mentioned problems, and is an information processing device suitable for obtaining an embedded vector in which features of an object whose price fluctuates depending on the date and time are embedded, a control method thereof, a program, and learning.
  • the purpose is to provide a completed model.
  • the information processing device is When a set of published texts is input at a plurality of dates and times from the past date and time before the reference date and time to the reference date and time, the prices of the plurality of targets are increased from the date and time immediately before the reference date and time to the reference date and time, respectively.
  • a neural network that outputs a classification indicating whether or not it has decreased and includes a plurality of embedded vectors in which the features of the plurality of objects are embedded in the model is realized. The state of the plurality of objects at each date and time from the past date and time to the reference date and time, Extract two different levels of feature vectors from each text published at each of the above dates and times.
  • the weight of each text is determined based on the inner product of one of the feature vectors extracted from each text and each of the plurality of embedded vectors.
  • the weight of each of the defined texts is determined by multiplying the other of the feature vectors extracted from the respective texts by each and taking the sum, and the defined state is input to the learner to input the learner. Learns the model by having it output the classification.
  • the information processing apparatus is non-temporary information that can be read by a computer such as a central processing unit (CPU; Central Processing Unit) or a graphics processing unit (GPU; Graphics Processing Unit). It can be realized by executing the code included in the program recorded on the recording medium (non-transitory computer-readable information recording medium), and the program is a temporary communication medium (transitory communication) such as a computer communication network. Can be transferred via medium).
  • a computer such as a central processing unit (CPU; Central Processing Unit) or a graphics processing unit (GPU; Graphics Processing Unit).
  • CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • the program is a temporary communication medium (transitory communication) such as a computer communication network. Can be transferred via medium).
  • the information processing apparatus uses technologies such as FPGA (Field Programmable Gate Array) and ASIC (Application Specific Integrated Circuit) to record a program recorded on a computer-readable non-temporary information recording medium. It can be constructed as a dedicated electronic circuit or dedicated hardware by referring to it as a design drawing and performing various conversions and processes.
  • FPGA Field Programmable Gate Array
  • ASIC Application Specific Integrated Circuit
  • an information processing device suitable for obtaining an embedded vector in which features of an object whose price fluctuates depending on the date and time are embedded, a control method thereof, a program, and a trained model.
  • the neural network is typically realized by executing a program by a computer.
  • the computer is connected to various output devices and input devices, and sends and receives information to and from these devices.
  • Programs executed on a computer can be distributed and sold by a server connected to the computer so that it can communicate, as well as CD-ROM (Compact Disk Read Only Memory), flash memory, and EEPROM (Electrically Erasable Programmable ROM). It is also possible to distribute, sell, etc. the information recording medium after recording it on a non-transitory information recording medium such as.
  • CD-ROM Compact Disk Read Only Memory
  • flash memory flash memory
  • EEPROM Electrically Erasable Programmable ROM
  • the program is installed on a computer's non-temporary information recording medium such as a hard disk, solid state drive, flash memory, EEPROM, etc. Then, the computer realizes the information processing apparatus according to the present embodiment.
  • the CPU of a computer reads a program from an information recording medium to RAM (Random Access Memory) under the control of the computer's OS (Operating System), and then interprets and executes the code contained in the program. ..
  • RAM Random Access Memory
  • OS Operating System
  • the computer is equipped with a GPU and is equipped with a GPU for performing various image processing calculations at high speed.
  • libraries such as GPU and TensorFlow, it will be possible to use learning functions and classification functions in various artificial intelligence processes under the control of the CPU.
  • the program can also be used as a material for generating a wiring diagram, a timing chart, or the like of an electronic circuit.
  • an electronic circuit that satisfies the specifications specified in the program is configured by FPGA or ASIC, and the electronic circuit functions as a dedicated device that performs the function specified in the program, according to the present embodiment. Realize an information processing device.
  • FIG. 1 is an explanatory diagram showing a configuration of a neural network in this embodiment. Hereinafter, description will be made with reference to this figure.
  • Model 19 includes a plurality of embedded vectors in which features of a plurality of objects are embedded.
  • the date and time can be any unit such as 1 day, 12 hours, 1 hour, 30 minutes, etc., and is expressed as an integer in the order of passage. Therefore, the date and time immediately before a certain date and time t is expressed as t-1.
  • a set of texts N t published at a certain date and time ⁇ contains a plurality of texts.
  • N tau the number of text, published some time tau is
  • a set of texts N td , N t-d + 1 , ..., N t is adopted as an input to the neural network 11.
  • the neural network 11 will A set of texts published at the reference date and time t, N t , A set of texts published the day before the base date and time t N t-1 , ..., A set of texts published on the past date and time td, which is d days before the reference date and time t, N td Will be input.
  • various prices such as the opening price, closing price, low price, high price, median price, and average price of the target price at that date and time can be used.
  • the price at a certain date and time t of the target j will be described as p j t.
  • the price of the target j at the date and time t-1 immediately before the reference date and time t is p j t-1 .
  • the neural network 11 will have a classification y j t of 1 if the price at the date and time t of the target j is higher than that of the previous day t-1, and decrease.
  • the increase / decrease of the target price at the reference date / time t is classified based on the text published from the past date / time t-d to the reference date / time t. Therefore, the neural network 11 is not a predictor, but a classifier. This is one of the features of this embodiment.
  • the goodness of the output of the neural network 11 In advancing the learning of the neural network 11, it is necessary to measure the goodness of the output of the neural network 11.
  • the goodness of output can be measured by using cross entropy or the like.
  • the output of the neural network 11 for a certain object j at a certain date and time t that is, the predicted value of the classification is expressed as y ⁇ j t using a chevron accent mark.
  • accent symbols are often written above alphabetic variables as shown in this figure.
  • DVR dual vector representation
  • Extractor 12a is for extracting a feature vector n K i from the text n i, represents the characteristic of the distribution of word string of words or a relatively short length appears in the text.
  • the word embeddings vector w k of word k is obtained.
  • TF-IDF Term Frequency-Inverse Document Frequency
  • extractor 12b is for extracting a feature vector n V i from the text n i, represents the characteristics of the context by word strings entirety or relatively long length of the text.
  • the other feature vectors n V i of text n i is obtained by subjecting the proposed BERT (Bidirectional Encoder Representation from Transformers) encoder in natural language processing for text n i.
  • BERT Bidirectional Encoder Representation from Transformers
  • Extractors 12a and 12b have a built-in model for extracting text features.
  • the model the one trained for a specific corpus (for example, all the collected text or the entire corpus to which the input text of the neural network 11 belongs) may be used as it is. However, it may be included in the model 19 of the neural network 11 and may be updated by advancing the learning of the neural network 11.
  • the models inherent in the extractors 12a and 12b are reused from the existing ones, which is different from the model 19 learned by the neural network 11.
  • the most important element of the model 19 trained by the neural network 11 is the embedded vector s j in which the feature of the target j, that is, the feature representing the relationship between the price of the target j and the published text is embedded.
  • this embedding vector is called a stock embedding vector.
  • Target j embedding vector s j of k, if s k is long in the same direction, they would feature based on price and text are common.
  • a generalized inner product using cosine similarity or an arbitrary function may be adopted.
  • the weight calculator 14 sets the weight ⁇ j i of the text n i for the target ⁇ j ⁇ by the relative weight to other texts published at the same date and time using the softmax function.
  • ⁇ j i exp (score i , j) / ⁇ i 'exp (score i', j) Calculate as follows.
  • m j ⁇ (1 /
  • ⁇ [u i ⁇ N V ⁇ ]" means "summing the u i satisfying u i ⁇ N V ⁇ ".
  • the state m j tau of the target j at time tau is called a market vector.
  • N V ⁇ is the number of elements in the set N V ⁇ , which is equal to the number of texts published at the date and time ⁇ .
  • ⁇ [u i ⁇ N V ⁇ ] means to take the sum of the feature vectors u i that satisfy u i ⁇ N V ⁇ .
  • the weight ⁇ ⁇ is a weight indicating how important a certain day is in a certain classification.
  • the learning of the neural network 11 is advanced so as to reduce the deviation between the prediction y ⁇ j t of the classification output by the classifier 16 and the actual classification y j t.
  • the embedded vectors s 1 ,..., s j ,..., s J for the objects 1,..., j,..., J are obtained from the model 19.
  • the neural network 11 with the trained model 19 infers the relationship between the text published by the date and time t and the increase or decrease in the price of the date and time t, and predicts the target price at a future date and time. is not it.
  • the similarity of the two objects can be determined based on the similarity of the embedded vectors of the two objects. Therefore, the technical effect that the similarity between the objects can be determined by using the trained model 19 can be obtained.
  • the trained model 19 can also be used for portfolio optimization.
  • the target was assumed to be mentioned in at least 100 different articles out of 500 shares of the Standard & Poor's S & P 500.
  • the S & P 500 Index was used as an index.
  • the stock price is binarized by the daily difference, but in general, this difference is the largest near 0, and if the difference is close to 0, the price is increasing or decreasing in the first place. Is ambiguous. Therefore, the following thresholds were set for log (p j t ) -log (p j t-1 ), and only the days with larger fluctuations than these thresholds were extracted. WSJ... [-0.0053,0.0079]; R & B... [-0.00587,0.00684] The thresholds differ between the increase side and the decrease side because the economy improved during the period covered by the experiment, and the number of days when the stock price rose was greater than the number of days when it fell.
  • WSJ will process about 2600 articles and R & B will process about 1200 articles.
  • the corpus of the text was divided into a ratio of 6: 2: 2 for training / validation / test, and 10 trials were performed, and the average was used as the experimental result.
  • Adam optimizer was adopted for learning neural network 11 together with cosine annealing.
  • the initial learning rate was 5 ⁇ 10 -4 and the minimum batch size was 64.
  • the training was to be terminated when the value of the loss function for verification did not decrease, after which a test for evaluation was performed.
  • Two feature vectors are extracted from the text of a news article.
  • the short-level feature vector n K i adopted the Word2vec word embedding vector
  • the long-level feature vector n V i was determined based on the TF-IDF score.
  • PCA principal component analysis
  • FIG. 2 is a graph comparing the performance related to the result of experimenting with the neural network according to the present embodiment with other aspects. Hereinafter, description will be made with reference to this figure.
  • portfolio optimization is formulated by the technique disclosed in Non-Patent Document 3.
  • that represents the ratio of assets allocated to each object.
  • the risk R of the portfolio is calculated by using the risk matrix ⁇ .
  • R ⁇ T ⁇ ⁇ Can be expressed as.
  • portfolio optimization is equivalent to searching for ⁇ that minimizes risk R.
  • ⁇ i, j cos (s i , s j ) using the cosine similarity to the embedded vector.
  • the portfolio can be optimized.
  • FIG. 3 is a graph comparing the results of experiments on the Wall Street Journal for portfolio optimization according to this embodiment with other aspects.
  • FIG. 4 is a graph comparing the results of experiments on portfolio optimization by the present embodiment against Reuters and Bloomberg with other aspects.
  • S & P 500 index Covariance of stock prices; Distributed representation obtained by Word2vec using an existing model (Word2vec-general); Distributed representation obtained by learning the text of news by Word2vec (Word2vec-news); Weighted BERT in BERT with weights proportional to the frequency mentioned in the text; Covariance of stock prices and embedded vector according to this embodiment (Covariance --stock emb.);
  • the upper part of the graph shows the relationship between the actual gain and the desired gain, and the lower part of the graph shows the average gain.
  • the results of the above embodiment are good in most cases.
  • the results of covariance are 12.5% and 12.7%
  • the results of the above embodiment are 17.2% and 35.5%, indicating that a large gain can be obtained.
  • the above neural network 11 can execute training and classification by executing a program on a computer or operating an electronic circuit constructed based on the program, and obtains a trained model including an embedded vector. Obtainable.
  • FIG. 5 is an explanatory diagram showing an outline of the information processing apparatus according to the present embodiment. Hereinafter, description will be made with reference to this figure.
  • the information processing device 101 includes a learning unit 102. Further, the information processing apparatus 101 may include a similarity calculation unit 103 and an optimization unit 104 as optional elements.
  • the learning unit 102 functions to advance the learning of the neural network 11 and update the model 19 including the embedded vector.
  • the similarity calculation unit 103 calculates a similarity matrix representing the similarity between objects based on the trained model 19.
  • the optimization unit minimizes the risk and finds the portfolio vector representing the distribution of the target based on the similarity matrix.
  • the information processing device is When a set of published texts is input at a plurality of dates and times from the past date and time before the reference date and time to the reference date and time, the prices of the plurality of targets are increased from the date and time immediately before the reference date and time to the reference date and time, respectively.
  • a neural network that outputs a classification indicating whether or not it has decreased and includes a plurality of embedded vectors in which the features of the plurality of objects are embedded in the model is realized. The state of the plurality of objects at each date and time from the past date and time to the reference date and time, Extract two different levels of feature vectors from each text published at each of the above dates and times.
  • the weight of each text is determined based on the inner product of one of the feature vectors extracted from each text and each of the plurality of embedded vectors.
  • the weight of each of the defined texts is determined by multiplying the other of the feature vectors extracted from each of the texts by each and taking the sum, and the defined state is input to the learner to input the learner. Is provided with a learning unit for learning the model by outputting the classification to.
  • One of the feature vectors represents a word-level feature of each of the texts.
  • the other feature vector can be configured to represent context-level features of each of the texts.
  • the learner can be configured to include a Bi-GRU (Bidirectional Gated Recurrent Unit) and an MLP (MultiLayer Perceptron).
  • Bi-GRU Bidirectional Gated Recurrent Unit
  • MLP MultiLayer Perceptron
  • It can be configured to further include a similarity calculation unit that calculates a similarity matrix between the plurality of objects based on the similarity between the embedded vectors included in the trained model.
  • the portfolio vector representing the allocation to the plurality of objects can be configured to further include the desired optimization unit by minimizing the risk based on the calculated similarity matrix.
  • the control method is When a set of published texts is input at a plurality of dates and times from the past date and time before the reference date and time to the reference date and time, the prices of the plurality of objects are increased from the date and time immediately before the reference date and time to the reference date and time, respectively. Alternatively, it outputs a classification indicating whether or not it has decreased, and controls an information processing device that realizes a neural network that includes a plurality of embedded vectors in which the features of the plurality of objects are embedded in the model. The state of the plurality of objects at each date and time from the past date and time to the reference date and time, Extract two different levels of feature vectors from each text published at each of the above dates and times.
  • the weight of each text is determined based on the inner product of one of the feature vectors extracted from each text and each of the plurality of embedded vectors.
  • the weight of each of the defined texts is determined by multiplying the other of the feature vectors extracted from the respective texts by each and taking the sum, and the defined state is input to the learner to input the learner.
  • the information processing apparatus is made to execute the process of learning the model.
  • the program according to this embodiment When a set of published texts is input at a plurality of dates and times from the past date and time before the reference date and time to the reference date and time, the prices of the plurality of targets are increased from the date and time immediately before the reference date and time to the reference date and time, respectively.
  • a classification indicating whether or not it has decreased is output, and a computer is made to execute a process of realizing a neural network including a plurality of embedded vectors in which the features of the plurality of objects are embedded in the model, and the program causes the computer to execute the process.
  • the state of the plurality of objects at each date and time from the past date and time to the reference date and time Extract two different levels of feature vectors from each text published at each of the above dates and times.
  • the weight of each text is determined based on the inner product of one of the feature vectors extracted from each text and each of the plurality of embedded vectors.
  • the weight of each of the defined texts is determined by multiplying the other of the feature vectors extracted from the respective texts by each and taking the sum, and the defined state is input to the learner to input the learner. Is made to output the classification to execute the process of learning the model.
  • the trained model according to the present embodiment is a trained model including an embedded vector learned by executing the above program on a computer.
  • an information processing device suitable for obtaining an embedded vector in which features of an object whose price fluctuates depending on the date and time are embedded, a control method thereof, a program, and a trained model.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本発明は、日時によって価格が変動する対象の特徴が埋め込まれた埋込ベクトルを得ることを目的とする。ニューラルネットワーク(11)は、過去日時から基準日時までに公開されたテキストniの集合が入力されると、対象の価格が基準日時の直前日時から基準日時までにそれぞれ増加もしくは減少したかを表す分類y^j tを出力する。ニューラルネットワーク(11)を実現する情報処理装置は、埋込ベクトルを含むモデル(19)を学習する。すなわち、各日時に公開された各テキストniから2つの異なるレベルの特徴ベクトルnK i, nV i,を抽出する。そして、特徴ベクトルnK iと埋込ベクトルsjの内積に基づいて、重みαj iを定める。そして、重みαj iを特徴ベクトルnK iの他方に、それぞれ乗じて総和をとることにより、状態mj τを定める。そして、状態mj τを分類器(16)に入力して、分類y^j tを出力させる。

Description

情報処理装置、その制御方法、プログラム、ならびに、学習済モデル
  本発明は、日時によって価格が変動する対象の特徴が埋め込まれた埋込ベクトルを得る技術に関する。
  日時によって価格が変動する対象、たとえば、株式、投資信託、債権、先物、オプション、商品先物、商品現物等については、適時開示資料、ニュース、SNS(Social Network Service)などのテキストにより、対象名やその対象に関する会社やその対象に関連する状況などが公開される。
  ここで、ある日時t(たとえば明日)における対象の価格が、その直前の日時t-1(たとえば今日)における当該対象の価格に対して、増えているか減っているかを、当該日時tよりも前の日時t-1, t-2, t-3, …のそれぞれに公開されたテキストに基づいて、深層学習とニューラルネットを利用して予測しようとする研究が進められている(非特許文献1)。しかしながら、このような予測を行うことは、極めて難しい。
  一方で、各対象に配分する割合を定めるポートフォリオを最適化する技術については、対象同士の関係に基づく定式化がなされ、たとえば株価同士の共分散を株式のリスク行列として利用して、ポートフォリオを定める技術が提案されている(非特許文献2)。
  一方で、テキストを吟味するにあたって、異なるレベルの2つの特徴ベクトルを用いる技術が提案されている(非特許文献3)。
Z. Hu, W. Liu, J. Bian, X. Liu, and T. Liu, "Listening to chaotic whispers: A deep learning framework for news-oriented stock trend prediction", WSDM 2018, pp. 261-269, https://arxiv.org/abs/1712.02136, 2018年 A. Miller, A. Fisch, J. Dodge, A. Karimi, A. Bordes, and J. Weston, "Key-Value Memory Networks for Directly Reading Documents", Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, Association for Computational Linguistics, pp. 1400-1409, https://www.aclweb.org/anthology/D16-1147, 10.18653/v1/D16-1147, 2016年11月 Harry Markowitz, "Portfolio Selection", The Journal of Finance, Vol. 7, No. 1, pp. 77-91, 1952年3月
  したがって、日時によって価格が変動する対象の特徴を表現するため、さまざまな日時に公開されたテキストを参照して、対象の特徴が埋め込まれた埋込ベクトルを得る技術が求められている。
  対象の特徴が埋め込まれた埋込ベクトルが得られれば、埋込ベクトルを利用して、対象に対する配分を表すポートフォリオを最適化することも可能となる。
  本発明は、上記の課題を解決するためのもので、日時によって価格が変動する対象の特徴が埋め込まれた埋込ベクトルを得るのに好適な情報処理装置、その制御方法、プログラム、ならびに、学習済モデルを提供することを目的とする。
  本発明においては、情報処理装置は、
  基準日時より前の過去日時から前記基準日時までの複数の日時にそれぞれ公開されたテキストの集合が入力されると、複数の対象の価格が前記基準日時の直前日時から前記基準日時までにそれぞれ増加もしくは減少したかを表す分類を出力し、前記複数の対象の特徴がそれぞれ埋め込まれた複数の埋込ベクトルをモデルに含むニューラルネットワークを実現し、
  前記過去日時から前記基準日時までの各日時における前記複数の対象の状態を、
    前記各日時に公開された各テキストから2つの異なるレベルの特徴ベクトルを抽出し、
    前記各テキストから抽出された特徴ベクトルの一方と前記複数の埋込ベクトルのそれぞれとの内積に基づいて、前記各テキストの重みを定め、
    前記定められた各テキストの重みを、前記各テキストから抽出された特徴ベクトルの他方に、それぞれ乗じて総和をとる
ことにより定め、前記定められた状態を、学習器に入力して、前記学習器に前記分類を出力させる
  ことにより、前記モデルを学習する。
  また、本発明に係る情報処理装置は、コンピュータが有する中央処理装置(CPU; Central Processing Unit)やグラフィックス処理ユニット(GPU; Graphics Processing Unit)等のプロセッサが、コンピュータ読取可能な非一時的な情報記録媒体(non-transitory computer-readable information recording medium)に記録されたプログラムに含まれるコードを実行することにより実現することができ、当該プログラムは、コンピュータ通信網等の一時的な通信媒体(transitory communication medium)を介して転送することができる。
  さらに、本発明に係る情報処理装置は、FPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)などの技術を利用し、コンピュータ読取可能な非一時的な情報記録媒体に記録されたプログラムを設計図として参照し、種々の変換や処理を施すことによって、専用の電子回路、もしくは、専用のハードウェアとして構築することができる。
  本発明によれば、日時によって価格が変動する対象の特徴が埋め込まれた埋込ベクトルを得るのに好適な情報処理装置、その制御方法、プログラム、ならびに、学習済モデルを提供することができる。
本実施形態におけるニューラルネットワークの構成を示す説明図である。 本実施形態によるニューラルネットワークを実験した結果に係る性能を、他の態様と比較するグラフである。 本実施形態によるポートフォリオの最適化をウォールストリート・ジャーナルに対して実験した結果を、他の態様と比較するグラフである。 本実施形態によるポートフォリオの最適化をロイターズ・アンド・ブルームバーグに対して実験した結果を、他の態様と比較するグラフである。 本実施形態における情報処理装置の概要を示す説明図である。
  以下に本発明の実施形態を説明する。なお、本実施形態は説明のためのものであり、本願発明の範囲を制限するものではない。したがって、当業者であればこれらの各要素もしくは全要素をこれと均等なものに置換した実施形態を採用することが可能であるが、これらの実施形態も本発明の範囲に含まれる。
  (ニューラルネットワークを実現するコンピュータ)
  本実施形態に係るニューラルネットワークは、典型的には、プログラムをコンピュータが実行することによって実現される。当該コンピュータは、各種の出力装置や入力装置に接続され、これらの機器と情報を送受する。
  コンピュータにて実行されるプログラムは、当該コンピュータが通信可能に接続されたサーバにより配布、販売することができるほか、CD-ROM(Compact Disk Read Only Memory)やフラッシュメモリ、EEPROM(Electrically Erasable Programmable ROM)などの非一時的(non-transitory)な情報記録媒体に記録した上で、当該情報記録媒体を配布、販売等することも可能である。
  プログラムは、コンピュータが有するハードディスク、ソリッドステートドライブ、フラッシュメモリ、EEPROM等などの非一時的な情報記録媒体にインストールされる。すると、当該コンピュータにより、本実施形態における情報処理装置が実現されることになる。一般的には、コンピュータのCPUは、コンピュータのOS(Operating System)による管理の下、情報記録媒体からRAM(Random Access Memory)へプログラムを読み出してから、当該プログラムに含まれるコードを解釈、実行する。ただし、CPUがアクセス可能なメモリ空間内に情報記録媒体をマッピングできるようなアーキテクチャでは、RAMへの明示的なプログラムのロードは不要なこともある。なお、プログラムの実行の過程で必要とされる各種情報は、RAM内に一時的(temporary)に記録しておくことができる。
  さらに、上記のように、コンピュータは、GPUを備え、各種画像処理計算を高速に行うためのGPUを備えることが望ましい。GPUならびにTensorFlow等のライブラリを使うことで、CPUの制御の下、各種の人工知能処理における学習機能や分類機能を利用することができるようになる。
  なお、汎用のコンピュータにより本実施形態の情報処理装置を実現するのではなく、専用の電子回路を用いて本実施形態の情報処理装置を構成することも可能である。この態様では、プログラムを電子回路の配線図やタイミングチャート等を生成するための素材として利用することもできる。このような態様では、プログラムに定められる仕様を満たすような電子回路がFPGAやASICにより構成され、当該電子回路は、当該プログラムに定められた機能を果たす専用機器として機能して、本実施形態の情報処理装置を実現する。
  (ニューラルネットワークの構成)
  図1は、本実施形態におけるニューラルネットワークの構成を示す説明図である。以下、本図を参照して説明する。
  本図に示すニューラルネットワーク11は、
    基準日時より前の過去日時から基準日時までの複数の日時にそれぞれ公開されたテキストの集合が入力されると、
    複数の対象の価格が基準日時の直前日時から基準日時までにそれぞれ増加もしくは減少したかを表す分類を出力するものであり、
    複数の対象の特徴がそれぞれ埋め込まれた複数の埋込ベクトルをモデル19に含む。
  以下では、複数の対象を、整数j = 1, …, Jにより表現する。
  日時の単位は、1日、12時間、1時間、30分等、適当な単位を採用することができ、経過の順に整数によって表現する。したがって、ある日時tの直前の日時は、t-1と表現することになる。
  日時の単位として1日を採用した場合、テキストは、公開日ごとにまとめられることになる。
  ある日時τに公開されたテキストの集合Ntには、複数のテキストが含まれる。その一つをniと表記すると、ni∈Nτであり、ある日時τに公開されたテキストの数は|Nτ|と表記する。
  本実施形態では、ニューラルネットワーク11への入力として、テキストの集合Nt-d, Nt-d+1, …, Ntを採用する。
  日時の単位として1日を採用した場合、ニューラルネットワーク11は、
    基準日時tに公開されたテキストの集合Nt
    基準日時tの前日に公開されたテキストの集合Nt-1
     …, 
    基準日時tのd日前である過去日時t-dに公開されたテキストの集合Nt-d
を入力とすることになる。
  一方、各日時における対象の価格としては、その日時における当該対象の始値、終値、安値、高値、中間値、平均値など、種々の価格を利用することができる。
  以下、対象jのある日時tにおける価格をpj tと記載することとする。基準日時tの直前日時t-1における対象jの価格は、pj t-1になる。
  本実施形態では、ニューラルネットワーク11からの出力として、以下の分類
    yj t = 1, (pj t ≧ pj t-1); 
    yj t = 0, (pj t < pj t-1)
を採用する。
  日時の単位として1日を採用した場合、ニューラルネットワーク11は、対象jのある日時tにおける価格が前日t-1に比べて増加していれば、分類yj tは1となり、減少していれば、分類yj tは1となる。なお、変化していない場合、上記の定義では、分類yj tは1としているが、以下のような定義
    yj t = 1, (pj t > pj t-1); 
    yj t = 0, (pj t ≦ pj t-1)
を採用することもできる。
  本実施形態では、過去日時t-dから基準日時tまでに公開されたテキストに基づいて、基準日時tにおける対象の価格の増減を分類している。したがって、ニューラルネットワーク11は、予測器ではなく、分類器である。これが、本実施形態の特徴の一つである。
  基準日時tから過去日時t-dを定めるための正定数dは、任意のものが採用できるが、日時の単位として1日を採用した場合、後述する通り、d=4程度とすることで、好適な結果を得ることができる。
  ニューラルネットワーク11の学習を進めるにあたっては、ニューラルネットワーク11の出力の良さを計測する必要がある。たとえば、クロスエントロピーなどを利用して出力の良さを計測することができる。
  ここで、ある日時tにおけるある対象jについてのニューラルネットワーク11の出力、すなわち、分類の予測値を、山形のアクセント記号を用いて、y^j tと表記することとする。なお、一般には、アクセント記号は、本図に示すように、英字変数の上に表記することが多い。すると、ニューラルネットワーク11の学習は、
    y^j t = f({Nτ)τ∈[t-d,t])
を満たす関数f(.)を、現実の分類yj tとの差が少なくなるように最適化して求めることに相当する。
  基準日時tとして、1からTまでの期間をそれぞれ採用し、ニューラルネットワーク11が対象jを分類した予測値y^j 1, y^j 2, … y^j Tと、実際の分類yj 1, yj 2, … yj Tと、を対比すると、当該期間における対象jのクロスエントロピーljは、
    CEj = -(1/T) Σt=1 T 〔yj t log y^j t + (1-yj t) log (1-y^j t)〕
と定義される。
  したがって、ニューラルネットワーク11の学習にあたっては、全体のクロスエントロピー
    CE = Σj=1 J CEj/J
を評価関数(損失関数)として採用することができる。
  ニューラルネットワーク11に入力された各テキストni∈Nτからは、2つの異なるレベルの特徴ベクトルnK i, nV iが抽出される。これをデュアルベクトル表現(DVR; Dual Vector Representation)と呼ぶ。
  抽出器12aは、テキストniから特徴ベクトルnK iを抽出するもので、テキストに出現する単語もしくは比較的短い長さの単語列の分布の特徴を表している。
  本実施形態では、テキストniに出現する各単語kについて、
    ニューラルネットワークを用いたテキスト処理において広く用いられるWord2vecを用いて、単語kの単語埋込(word embeddings)ベクトルwkを求め、
    単語kのTF-IDF(Term Frequency-Inverse Document Frequency)スコアγk = TFk・IDFkを計算した上で、
テキストniの一方の特徴ベクトルnK iを、
    nK i = Σk γk wkk wk
により求める。
  一方、抽出器12bは、テキストniから特徴ベクトルnV iを抽出するもので、テキストの全文もしくは比較的長い長さの単語列による文脈の特徴を表している。
  本実施形態では、テキストniの他方の特徴ベクトルnV iは、自然言語処理にて提案されているBERT(Bidirectional Encoder Representation from Transformers)エンコーダをテキストniに対してかけることによって求める。
  抽出器12a, 12bは、テキストの特徴を抽出するためのモデルを内在している。当該モデルは、特定のコーパス(たとえば、収集されたテキストのすべて、あるいは、ニューラルネットワーク11の入力とするテキストが属するようなコーパス全体等。)に対して学習済みのものをそのまま利用しても良いし、ニューラルネットワーク11のモデル19に含まれるものとして、ニューラルネットワーク11の学習を進めることによって更新されるものとしても良い。
  本図に示す例では、抽出器12a, 12bに内在するモデルは既存のものを再利用することとして、ニューラルネットワーク11にて学習されるモデル19とは別のものとしている。
  さて、ニューラルネットワーク11にて学習されるモデル19の最も重要な要素は、対象jの特徴、すなわち、対象jの価格と公開されたテキストの関係を表す特徴が埋め込まれた埋込ベクトルsjである。対象jが株価である場合に、この埋込ベクトルを株埋込(Stock Embedding)ベクトルと呼ぶ。
  対象j, kの埋込ベクトルsj, skが同じ方向を向いていれば、両者は、価格とテキストに基づく特徴が共通していることになる。
  スコア計算器13は、対象jの特徴が埋め込まれた埋込ベクトルsjと、テキストの一方の特徴ベクトルnK iと、の内積をとることで、単語レベルもしくは短いフレーズレベルのスコア
    scorei,j = nK i・sj
を計算する。なお、内積ではなく、コサイン類似度や任意の関数を用いた一般化内積を採用することとしても良い。
  重み計算機14は、対象{j}に対するテキストniの重みαj iを、ソフトマックス関数を用いて同じ日時に公開された他のテキストに対する相対重みにより、
    αj i = exp(scorei,j)/Σi'exp(scorei',j)
のように計算する。
  さて、状態計算器14は、日時τにおける対象jの状態mj τを、特徴ベクトルの集合
    NV τ = { nV i | ni∈Nτ }
に基づいて、
    mj τ = (1/|NV τ|) Σ[ui∈NV τ] αj i ui
のように計算する。ここで、「Σ[ui∈NV τ]」は、「ui∈NV τを満たすuiについて総和をとる」ことを意味する。日時τにおける対象jの状態mj τは、市況ベクトルと呼ぶ。
  ここで、|NV τ|は、集合NV τの要素数であり、これは、日時τに公開されたテキストの数に等しい。また、Σ[ui∈NV τ]は、ui∈NV τを満たす特徴ベクトルuiについて総和をとることを意味するものであり、一般的な数学表現では、ui∈NV τは、Σの下もしくは添字により表記されるものである。
  そして、市況ベクトルmj τにより表される状態は、分類器16の入力となる。
  本願における分類器16は、Bi-GRU(Bidirectional Gated Recurrent Unit)と、MLP(MultiLayer Perceptron)と、シグモイド関数
    σ(x) = 1/(1+exp(-x))
の組み合わせにより実現される。すなわち、
    hO t = GRU({mj τ}τ∈[t-d,t]); 
    y^j t = σ(MLP(hO t))
  このほか、GRUが各日時τ∈[t-d,t])に対して出力するベクトルhO τに対して、非特許文献1に開示される技術を適用して、再重み付けをすることもできる。すなわち、重みβτを用いて、
    hO t = GRU({mj τ}τ∈[t-d,t]); 
    hO = Στ∈[t-d,t] βτ hO t
    y^j t = σ(MLP(hO))
のように分類を行う。
  ここで、重みβτは、ある分類においてある日がどの程度重要かを示す重みである。
  このように再重み付けをすることで、学習における過剰適合を避けることができる。
  上記のように、分類器16が出力する分類の予測y^j tと、実際の分類yj tと、のずれを小さくするようにニューラルネットワーク11の学習が進められる。
  そして、学習が完了すると、対象1, …, j, …, Jに対する埋込ベクトルs1, …, sj, …, sJが、モデル19から得られることになる。
  学習済のモデル19を持つニューラルネットワーク11は、日時tまでに公開されたテキストと、日時tの価格の増減と、の関係を推測するものであり、未来の日時における対象の価格を予測するものではない。
  しかしながら、2つの対象の埋込ベクトルの類否に基づいて、当該2つの対象の類否を判定することができる。したがって、学習されたモデル19を用いて、対象同士の類否を判定することができる、という技術的効果が得られる。
  さらに、後述するように、学習されたモデル19は、ポートフォリオの最適化にも利用することができる。
  (分類性能の実験)
  以下では、ニューラルネットワーク11の分類性能について実験を行った結果について説明する。当該実験では、日時の単位は1日である。
  テキストとして、ウォールストリート・ジャーナル(WSJ)の1年分, 3年分, 16年分のニュース記事、および、ロイターズ・アンド・ブルームバーグ(R&B)の1年分, 3年分, 7年分のニュース記事のヘッドラインを採用した。
  対象としては、スタンダード・アンド・プアーズS&P 500の500銘柄の株式のうち、少なくとも100の異なる記事で言及されているものとした。また、指標として、S&P 500インデックスを用いた。
  本実験では、株価は、日単位の差分により二値化されるが、一般に、この差分は0付近が最も多くなり、差分が0に近ければ、そもそも価格が増加しているのか減少しているのかが曖昧になる。そこで、log(pj t)-log(pj t-1)について以下のような閾値を設けて、この閾値よりも変動が大きい日のみを抽出した。
    WSJ … [-0.0053,0.0079]; 
    R&B … [-0.00587,0.00684]
  増加側と減少側で閾値が異なるのは、実験の対象となる期間において景気が向上し、株価が上がった日の方が下がった日よりも多いからである。
  以上の条件により、WSJは約2600記事、R&Bは約1200記事を処理の対象とすることとなった。
  テキストのコーパスは、訓練(training)用/検証(validation)用/テスト(test)用に、6対2対2の比で分け、10回の試行を行って、その平均を実験結果とした。
  ニューラルネットワーク11の学習には、コサイン・アニーリングとともに、Adamオプティマイザを採用した。初期学習率は、5×10-4とし、最小バッチサイズは64とした。
  訓練は、検証に対する損失関数の値が下がらなくなったときに終わらせることとし、その後に、評価のためのテストを実行した。
  ニュース記事のテキストからは、2つの特徴ベクトルが抽出される。上述の通り、短いレベルの特徴ベクトルnK iは、Word2vecの単語埋込ベクトルを採用し、長いレベルの特徴ベクトルnV iは、TF-IDFスコアに基づいて定めた。
  なお、特徴ベクトルnK iの次元は64として、Word2vecのモデルを、上記の記事テキストのコーパスについて学習した。
  BERTエンコーダを用いてベクトル化を行った後、主成分分析(PCA; Principal Component Analysis)を実行して、特徴ベクトルnV iの次元を256に落とした。
  実験は、4種類を比較することにより行った。
  (1)単純平均(Simple Average) … 短いレベルの特徴ベクトルを無視して、αj i = 1としたもの。
  (2) 重み付け平均(WA; Weighted Average) … 株-テキスト内積により重み付けをしたもの。分類器は、各株式ごとに独立したものとする。
  (3) 重み付け平均+分類器共有(CS; Classifier Sharing) … 上記WAにおいて、本技術と同様に分類器を共有することとしたもの。
  (4) 重み付け平均+デュアルベクトル表現 … 2つのレベルの特徴ベクトルにより重み付けをしたもの。分類器は、各株式ごとに独立したものとする。
  (5) 重み付け平均+分類器共有+デュアルベクトル表現 … 上記の実施形態(proposed)に係る態様。
  図2は、本実施形態によるニューラルネットワークを実験した結果に係る性能を、他の態様と比較するグラフである。以下、本図を参照して説明する。
  本図に示すように、テキストのデータセットのサイズ(Dataset Size)が長くなるにしたがって、いずれの手法においても、分類の正確度(Accuracy)は向上している。ただし、どのデータセットのサイズにおいても、上記の実施形態(proposed)による分類の正確度は、最大で68.8%であり、他の4つの手法に比べて格段に高いことがわかる。
  (最適ポートフォリオ)
  以下、ニューラルネットワーク11において学習されたモデル19に含まれる埋込ベクトルを用いて、ポートフォリオの最適化をする態様について説明する。
  上記のように、ポートフォリオの最適化については、非特許文献3に開示される技術により定式化がされている。まず、資産を各対象に配分する割合を表すJ次元のベクトルωを考える。ベクトルωは単位行列であり、
    ωT ω = 1
を満たすものとする。すると、当該ポートフォリオのリスクRは、リスク行列Σを利用して、
    R = ωT Σ ω
と表現することができる。すると、ポートフォリオ最適化とは、リスクRを最小化するωを探すことに相当する。
  各対象の平均利得を表すJ次元のベクトルrを考えると、当該ポートフォリオにおける利得Eは、
    E = ωT r
と表現できる。一般に、Eを大きくすると、リスクは高くなる。
  非特許文献3では、リスク行列Σとして共分散行列を採用している。すなわち、
    Σ = Cov({rj}t) (j∈[1,J])
としている。
  しかしながら、対象の価格の変動にはノイズが大きいため、正確なシミュレーションが難しいこと、および、価格の変動を引き起こすようなイベントがテキストによって流布されることを無視していることから、リスク行列Σとして共分散行列を利用したのでは、良い性能が得られない。
  一方、本実施形態では、埋込ベクトルに対してコサイン類似度用いて、リスク行列Σの(i,j)要素を
    Σi,j = cos(si,sj)
のように設定する。これは、リスク行列として、対象同士の類似度行列を採用することに相当する。なお、リスク行列Σの(i,j)要素Σi,jには、埋込ベクトルsi, sjの類似度が格納されれば良いので、コサイン類似度ではなく、内積や一般化内積等を採用しても良い。
  ある期間[b,e]におけるポートフォリオのゲインE[b,e]は、対象jの当該期間開始時bにおける価格pj bと、当該期間終了時eにおけるpj eと、を用いて、
    E[b,e] = Σj=1 J ωj(pj e/pj b - 1)
のように計算することができる。
  そして、所望の値を利得E[b,e]に設定して制約条件として、リスクR = ωT Σ ωを最小にするようなωを探せば、ポートフォリオの最適化を図ることができる。
  (ポートフォリオの実験)
  上記のように、16年分のWSJの記事と、7年分のR&Bの記事と、の各年について、所望の利得(Expected Annual Return)Eを0.05から0.29まで0.01刻みで設定して、それぞれリスクが最小となるωを求めた上で、全年の年間平均利得(Real Average Return (averaged over years))を求めた。
  図3は、本実施形態によるポートフォリオの最適化をウォールストリート・ジャーナルに対して実験した結果を、他の態様と比較するグラフである。図4は、本実施形態によるポートフォリオの最適化をロイターズ・アンド・ブルームバーグに対して実験した結果を、他の態様と比較するグラフである。
  これらの実験では、本実施形態(Stock Embedding)に対する比較対象として、以下の6種類を採用した。
    S&P 500インデックス(S&P 500 index); 
    株価の共分散行列(Covariance); 
    既存のモデルを利用したWord2vecにより得た分散表現(Word2vec-general); 
    ニュースのテキストを学習したWord2vecにより得た分散表現(Word2vec-news); 
    テキストで言及される頻度に比例する重みを用いたBERTの重み付き和(Weighted BERT); 
    株価の共分散と本実施形態による埋込ベクトル(Covariance - stock emb.); 
  グラフ上段は、所望の利得に対する実際の利得の関係を表すものであり、グラフ下段は、利得の平均を示すものである。
  本図に示すように、上記実施形態(Stock embedding)の成績はほとんどの場合で良好である。たとえば、共分散(Covariance)の成績は、12.5%ならびに12.7%であるのに対し、上記実施形態(Stock embedding)の成績は、17.2%ならびに35.5%であり、大きな利得が得られることがわかる。
  上記の実験により、本実施形態の有効性が確認できた。なお、上記実験で採用した種々の条件およびパラメータは適宜変更が可能であり、変更した態様も本発明の技術的範囲に含まれる。
  (情報処理装置)
  上記のニューラルネットワーク11は、コンピュータにてプログラムを実行する、あるいは、プログラムに基づいて構成された電子回路を動作させることによって学習ならびに分類を実行することができ、埋込ベクトルを含む学習済みモデルを得ることができる。
  図5は、本実施形態における情報処理装置の概要を示す説明図である。以下、本図を参照して説明する。
  本図に示すように、情報処理装置101は、学習部102を備える。また、情報処理装置101は、省略可能な要素として類似度計算部103、最適化部104を備えても良い。
  ここで、学習部102は、ニューラルネットワーク11の学習を進め、埋込ベクトルを含むモデル19を更新する機能を果たす。
  一方、類似度計算部103は、学習済みのモデル19に基づいて対象同士の類似度を表す類似度行列を計算する。
  そして、最適化部は、当該類似度行列に基づいて、リスクを最小化して、対象の配分を表すポートフォリオベクトルを求める。
  (まとめ)
  以上説明したように、本実施形態に係る情報処理装置は、
  基準日時より前の過去日時から前記基準日時までの複数の日時にそれぞれ公開されたテキストの集合が入力されると、複数の対象の価格が前記基準日時の直前日時から前記基準日時までにそれぞれ増加もしくは減少したかを表す分類を出力し、前記複数の対象の特徴がそれぞれ埋め込まれた複数の埋込ベクトルをモデルに含むニューラルネットワークを実現し、
  前記過去日時から前記基準日時までの各日時における前記複数の対象の状態を、
    前記各日時に公開された各テキストから2つの異なるレベルの特徴ベクトルを抽出し、
    前記各テキストから抽出された特徴ベクトルの一方と前記複数の埋込ベクトルのそれぞれとの内積に基づいて、前記各テキストの重みを定め、
    前記定められた各テキストの重みを、前記各テキストから抽出された特徴ベクトルの他方に、それぞれ乗じて総和をとる
ことにより定め、前記定められた状態を、学習器に入力して、前記学習器に前記分類を出力させる
  ことにより、前記モデルを学習する学習部
  を備える。
  また、本実施形態に係る情報処理装置において、
  前記一方の特徴ベクトルは、前記各テキストの単語レベルの特徴を表し、
  前記他方の特徴ベクトルは、前記各テキストの文脈レベルの特徴を表す
  ように構成することができる。
  また、本実施形態に係る情報処理装置において、
  前記学習器は、Bi-GRU(Bidirectional Gated Recurrent Unit)と、MLP(MultiLayer Perceptron)と、を備える
  ように構成することができる。
  また、本実施形態に係る情報処理装置において、
  前記学習されたモデルに含まれる埋込ベクトル同士の類似に基づいて、前記複数の対象同士の類似度行列を計算する類似度計算部
  をさらに備えるように構成することができる。
  また、本実施形態に係る情報処理装置において、
  前記複数の対象に対する配分を表すポートフォリオベクトルを、前記計算された類似度行列に基づくリスクを最小化することにより、求める最適化部
  をさらに備えるように構成することができる。
  本実施形態に係る制御方法は、
  基準日時より前の過去日時から前記基準日時までの複数の日時にそれぞれ公開されたテキストの集合が入力されると、複数の対象の価格が前記基準日時の直前日時から前記基準日時までにそれぞれ増加もしくは減少したかを表す分類を出力し、前記複数の対象の特徴がそれぞれ埋め込まれた複数の埋込ベクトルをモデルに含むニューラルネットワークを実現する情報処理装置を制御し、
  前記過去日時から前記基準日時までの各日時における前記複数の対象の状態を、
    前記各日時に公開された各テキストから2つの異なるレベルの特徴ベクトルを抽出し、
    前記各テキストから抽出された特徴ベクトルの一方と前記複数の埋込ベクトルのそれぞれとの内積に基づいて、前記各テキストの重みを定め、
    前記定められた各テキストの重みを、前記各テキストから抽出された特徴ベクトルの他方に、それぞれ乗じて総和をとる
ことにより定め、前記定められた状態を、学習器に入力して、前記学習器に前記分類を出力させる
  ことにより、前記モデルを学習する
  処理を前記情報処理装置に実行させる。
  また、本実施形態に係るプログラムは、
  基準日時より前の過去日時から前記基準日時までの複数の日時にそれぞれ公開されたテキストの集合が入力されると、複数の対象の価格が前記基準日時の直前日時から前記基準日時までにそれぞれ増加もしくは減少したかを表す分類を出力し、前記複数の対象の特徴がそれぞれ埋め込まれた複数の埋込ベクトルをモデルに含むニューラルネットワークを実現する処理をコンピュータに実行させ、前記プログラムは、前記コンピュータに、
  前記過去日時から前記基準日時までの各日時における前記複数の対象の状態を、
    前記各日時に公開された各テキストから2つの異なるレベルの特徴ベクトルを抽出し、
    前記各テキストから抽出された特徴ベクトルの一方と前記複数の埋込ベクトルのそれぞれとの内積に基づいて、前記各テキストの重みを定め、
    前記定められた各テキストの重みを、前記各テキストから抽出された特徴ベクトルの他方に、それぞれ乗じて総和をとる
ことにより定め、前記定められた状態を、学習器に入力して、前記学習器に前記分類を出力させる
  ことにより、前記モデルを学習する
  処理を実行させる。
  また、本実施形態に係る学習済モデルは、上記プログラムをコンピュータに実行させることにより学習された埋込ベクトルが含まれる学習済モデルである。
  本発明は、本発明の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この発明を説明するためのものであり、本発明の範囲を限定するものではない。すなわち、本発明の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして、特許請求の範囲内及びそれと同等の発明の意義の範囲内で施される様々な変形が、この発明の範囲内とみなされる。
  本願においては、日本国に対して令和2年(2020年)3月31日(火)に出願した特許出願特願2020-062808を基礎とする優先権を主張するものとし、指定国の法令が許す限り、当該基礎出願の内容を本願に取り込むものとする。
  本発明によれば、日時によって価格が変動する対象の特徴が埋め込まれた埋込ベクトルを得るのに好適な情報処理装置、その制御方法、プログラム、ならびに、学習済モデルを提供することができる。
  11 ニューラルネットワーク
  12a 抽出器
  12b 抽出器
  13 スコア計算器
  14 重み計算器
  15 状態計算器
  16 分類器
  19 モデル
  101 情報処理装置
  102 学習部
  103 類似度計算部
  104 最適化部

Claims (8)

  1.   基準日時より前の過去日時から前記基準日時までの複数の日時にそれぞれ公開されたテキストの集合が入力されると、複数の対象の価格が前記基準日時の直前日時から前記基準日時までにそれぞれ増加もしくは減少したかを表す分類を出力し、前記複数の対象の特徴がそれぞれ埋め込まれた複数の埋込ベクトルをモデルに含むニューラルネットワークを実現する情報処理装置であって、
      前記過去日時から前記基準日時までの各日時における前記複数の対象の状態を、
        前記各日時に公開された各テキストから2つの異なるレベルの特徴ベクトルを抽出し、
        前記各テキストから抽出された特徴ベクトルの一方と前記複数の埋込ベクトルのそれぞれとの内積に基づいて、前記各テキストの重みを定め、
        前記定められた各テキストの重みを、前記各テキストから抽出された特徴ベクトルの他方に、それぞれ乗じて総和をとる
    ことにより定め、前記定められた状態を、学習器に入力して、前記学習器に前記分類を出力させる
      ことにより、前記モデルを学習する学習部
      を備えることを特徴とする情報処理装置。
  2.   前記一方の特徴ベクトルは、前記各テキストの単語レベルの特徴を表し、
      前記他方の特徴ベクトルは、前記各テキストの文脈レベルの特徴を表す
      ことを特徴とする請求項1に記載の情報処理装置。
  3.   前記学習器は、Bi-GRU(Bidirectional Gated Recurrent Unit)と、MLP(MultiLayer Perceptron)と、を備える
      ことを特徴とする請求項1に記載の情報処理装置。
  4.   前記学習されたモデルに含まれる埋込ベクトル同士の類似に基づいて、前記複数の対象同士の類似度行列を計算する類似度計算部
      をさらに備えることを特徴とする請求項1に記載の情報処理装置。
  5.   前記複数の対象に対する配分を表すポートフォリオベクトルを、前記計算された類似度行列に基づくリスクを最小化することにより、求める最適化部
      をさらに備えることを特徴とする請求項4に記載の情報処理装置。
  6.   基準日時より前の過去日時から前記基準日時までの複数の日時にそれぞれ公開されたテキストの集合が入力されると、複数の対象の価格が前記基準日時の直前日時から前記基準日時までにそれぞれ増加もしくは減少したかを表す分類を出力し、前記複数の対象の特徴がそれぞれ埋め込まれた複数の埋込ベクトルをモデルに含むニューラルネットワークを実現する情報処理装置を制御する制御方法であって、
      前記過去日時から前記基準日時までの各日時における前記複数の対象の状態を、
        前記各日時に公開された各テキストから2つの異なるレベルの特徴ベクトルを抽出し、
        前記各テキストから抽出された特徴ベクトルの一方と前記複数の埋込ベクトルのそれぞれとの内積に基づいて、前記各テキストの重みを定め、
        前記定められた各テキストの重みを、前記各テキストから抽出された特徴ベクトルの他方に、それぞれ乗じて総和をとる
    ことにより定め、前記定められた状態を、学習器に入力して、前記学習器に前記分類を出力させる
      ことにより、前記モデルを学習する
      処理を前記情報処理装置に実行させることを特徴とする制御方法。
  7.   基準日時より前の過去日時から前記基準日時までの複数の日時にそれぞれ公開されたテキストの集合が入力されると、複数の対象の価格が前記基準日時の直前日時から前記基準日時までにそれぞれ増加もしくは減少したかを表す分類を出力し、前記複数の対象の特徴がそれぞれ埋め込まれた複数の埋込ベクトルをモデルに含むニューラルネットワークを実現する処理をコンピュータに実行させるプログラムであって、前記プログラムは、前記コンピュータに、
      前記過去日時から前記基準日時までの各日時における前記複数の対象の状態を、
        前記各日時に公開された各テキストから2つの異なるレベルの特徴ベクトルを抽出し、
        前記各テキストから抽出された特徴ベクトルの一方と前記複数の埋込ベクトルのそれぞれとの内積に基づいて、前記各テキストの重みを定め、
        前記定められた各テキストの重みを、前記各テキストから抽出された特徴ベクトルの他方に、それぞれ乗じて総和をとる
    ことにより定め、前記定められた状態を、学習器に入力して、前記学習器に前記分類を出力させる
      ことにより、前記モデルを学習する
      処理を実行させることを特徴とするプログラム。
  8.   請求項7に記載のプログラムをコンピュータに実行させることにより学習された埋込ベクトルが含まれる学習済モデル。
PCT/JP2021/003815 2020-03-31 2021-02-03 情報処理装置、その制御方法、プログラム、ならびに、学習済モデル WO2021199657A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/913,222 US20230162003A1 (en) 2020-03-31 2021-02-02 Information processing device, method of controlling same, program, and learned model

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-062808 2020-03-31
JP2020062808A JP7364228B2 (ja) 2020-03-31 2020-03-31 情報処理装置、その制御方法、プログラム、ならびに、学習済モデル

Publications (1)

Publication Number Publication Date
WO2021199657A1 true WO2021199657A1 (ja) 2021-10-07

Family

ID=77928499

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/003815 WO2021199657A1 (ja) 2020-03-31 2021-02-03 情報処理装置、その制御方法、プログラム、ならびに、学習済モデル

Country Status (3)

Country Link
US (1) US20230162003A1 (ja)
JP (1) JP7364228B2 (ja)
WO (1) WO2021199657A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108694476A (zh) * 2018-06-29 2018-10-23 山东财经大学 一种结合财经新闻的卷积神经网络股票价格波动预测方法
WO2018220685A1 (ja) * 2017-05-29 2018-12-06 株式会社野村総合研究所 株価分析装置
KR20190116590A (ko) * 2018-03-19 2019-10-15 동국대학교 산학협력단 뉴스를 분석하여 기업의 주가를 예측하는 장치 및 이의 동작 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018220685A1 (ja) * 2017-05-29 2018-12-06 株式会社野村総合研究所 株価分析装置
KR20190116590A (ko) * 2018-03-19 2019-10-15 동국대학교 산학협력단 뉴스를 분석하여 기업의 주가를 예측하는 장치 및 이의 동작 방법
CN108694476A (zh) * 2018-06-29 2018-10-23 山东财经大学 一种结合财经新闻的卷积神经网络股票价格波动预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DU XIN, TANAKA-ISHII KUMIKO: "Stock Embeddings Acquired from News Articles and Price History, and an Application to Portfolio Optimization", PROCEEDINGS OF THE 58TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, ASSOCIATION FOR COMPUTATIONAL LINGUISTICS, STROUDSBURG, PA, USA, vol. 3353, 5 July 2020 (2020-07-05), Stroudsburg, PA, USA, pages 3353 - 3363, XP055935645, DOI: 10.18653/v1/2020.acl-main.307 *

Also Published As

Publication number Publication date
JP7364228B2 (ja) 2023-10-18
JP2021163073A (ja) 2021-10-11
US20230162003A1 (en) 2023-05-25

Similar Documents

Publication Publication Date Title
Qiu et al. Forecasting stock prices with long-short term memory neural network based on attention mechanism
Hu et al. Listening to chaotic whispers: A deep learning framework for news-oriented stock trend prediction
Nousi et al. Machine learning for forecasting mid-price movements using limit order book data
Lughofer Single-pass active learning with conflict and ignorance
Nasekin et al. Deep learning-based cryptocurrency sentiment construction
Kirange et al. Sentiment Analysis of news headlines for stock price prediction
CN111160000B (zh) 作文自动评分方法、装置终端设备及存储介质
Dixon A high‐frequency trade execution model for supervised learning
Petrozziello et al. Deep learning for volatility forecasting in asset management
Chevallier et al. Forecasting Inflection points: Hybrid methods with multiscale machine learning algorithms
Igual et al. Supervised learning
Addai Financial forecasting using machine learning
Elena Predicting the movement direction of omxs30 stock index using xgboost and sentiment analysis
Gurgul et al. Forecasting Cryptocurrency Prices Using Deep Learning: Integrating Financial, Blockchain, and Text Data
Sakhare et al. Spatial federated learning approach for the sentiment analysis of stock news stored on blockchain
Wyrobek et al. Efficiency of gradient boosting decision trees technique in Polish companies’ bankruptcy prediction
Yu et al. Share price trend prediction using CRNN with LSTM structure
Banerjee et al. Short term stock price prediction in indian market: A neural network perspective
Bhambu Stock Market prediction using deep learning techniques for short and long horizon
Abd Elminaam et al. CPSMP_ML: Closing price Prediction of Stock Market using Machine Learning Models
Corpuz Implementation of artificial neural network using scaled conjugate gradient in ISO 9001: 2015 audit findings classification
WO2021199657A1 (ja) 情報処理装置、その制御方法、プログラム、ならびに、学習済モデル
CN116720498A (zh) 一种文本相似度检测模型的训练方法、装置及其相关介质
Harmon et al. Dynamic prediction length for time series with sequence to sequence networks
Alalaya et al. Combination method between fuzzy logic and neural network models to predict amman stock exchange

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21779345

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21779345

Country of ref document: EP

Kind code of ref document: A1