WO2019214048A1 - 自动生成投资建议的方法、装置、计算机设备和存储介质 - Google Patents

自动生成投资建议的方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
WO2019214048A1
WO2019214048A1 PCT/CN2018/095026 CN2018095026W WO2019214048A1 WO 2019214048 A1 WO2019214048 A1 WO 2019214048A1 CN 2018095026 W CN2018095026 W CN 2018095026W WO 2019214048 A1 WO2019214048 A1 WO 2019214048A1
Authority
WO
WIPO (PCT)
Prior art keywords
account
media account
event
preset
investment
Prior art date
Application number
PCT/CN2018/095026
Other languages
English (en)
French (fr)
Inventor
王健宗
吴天博
黄章成
肖京
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2019214048A1 publication Critical patent/WO2019214048A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange

Definitions

  • the present application relates to the field of computer technology, and in particular, to a method, apparatus, computer device and storage medium for automatically generating investment suggestions.
  • An analysis module configured to perform correlation analysis on the stock vector corresponding to each stock stock to obtain related stocks related to the hot event
  • FIG. 1 is a schematic flow chart of a method for automatically generating an investment proposal according to an embodiment of the present application
  • a hotspot event refers to a thing, and a related text message or report describes it.
  • the word is a keyword.
  • the method for extracting keywords may be extracted from the title, or may be based on some training models to determine that the number of words appearing in the text message is a keyword. Keywords are generally related to the subject matter of the matter and the nature of the matter. For example, there is a hot event about Jia Yueting's FF91 electric car in the United States for alpine testing.
  • the keywords that are output after the training model is calculated may include: Jia Yueting, LeTV, electric cars, luxury, hope, etc.
  • the step of generating an investment proposal regarding the related stock according to the nature of the hot event includes:
  • the method for obtaining the growth rate is: acquiring the attention quantity x at the current time, extracting the attention quantity y of the preset time before the current time, and calculating the growth rate of x relative to y.
  • the period for obtaining the growth rate may be 5 minutes, 10 minutes, or the like, or may be 10 seconds, 20 seconds, or the like.
  • nm(j) represents the total number of words given to the subject j in the text dm
  • ns(i) represents the total number of times the word vi is given to the subject s.

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种自动生成投资建议的方法、装置、计算机设备和存储介质,方法包括:将热点事件中的关键词向量化得到关键词向量;将关键词向量与各股票向量进行相关性分析,得到与所述热点事件相关的相关股票并生成相关股票的投资建议。该方法能够自动获取热点事件,并生成的投资建议,相较人工能更客观准确的给出的投资建议。

Description

自动生成投资建议的方法、装置、计算机设备和存储介质
本申请要求于2018年5月8日提交中国专利局、申请号为2018104331247,发明名称为“自动生成投资建议的方法、装置、计算机设备和存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及到计算机技术领域,特别是涉及到一种自动生成投资建议的方法、装置、计算机设备和存储介质。
背景技术
证券投资领域分析师经常基于热点财经新闻或者事件,构建概念或者题材,并依据其自身经验与其对证券投资域中股票的了解程度,选择概念投资组合。
证券分析师人工完成这一业务需求,人为因素影响较多,弊端显而易见,一是,实时性难以得到保证,尤其是突发热点事件,投资时间可能就在那几分钟,而人工很难全天候应对;二是,人工主观性构建投资组合受限于证券分析师个人经验、个人情感,投资组合价值无法得到保证;三是,证券分析师的人力成本比较高;四是,由于人才流动性,业务经验持续性的累计难以为继,无法保证持续性地“在线学习”,等等。
所以提供一种自动生成投资建议的方法是亟需解决的问题。
技术问题
本申请的主要目的为提供一种自动生成投资建议的方法、装置、计算机设备和存储介质。
技术解决方案
为了实现上述发明目的,本申请提出一种自动生成投资建议的方法,包括:
获取热点事件;
提取所述热点事件中的关键词;
将所述关键词向量化,得到关键词对应的关键词向量;
将所述关键词向量分别与各股票对应的股票向量进行相关性分析,得到与所述热点事件相关的相关股票;
根据所述热点事件的性质,生成关于所述相关股票的投资建议。
进一步地,所述获取热点事件的步骤包括:
获取预设媒体账户的关注数量的增长率;
当所述增长率超过增长阈值时,判定所述媒体账户在预设时间段内发布的消息包含有热点事件;
根据所述媒体账在所述预设时间段内发布的消息,确定所述热点事件。
进一步地,所述获取热点事件的步骤包括:
获取预设媒体账户发布的消息的评论数;
当所述预设媒体账户发布的消息中目标消息的评论数超过评论阈值时,确所述目标消息为热点事件。
进一步地,所述自动生成投资建立的方法包括:
获取带有财经标记的财经媒体账户的信息;
将所述财经媒体账户的信息输入至预设公式,得到账户分数,所述账户分数用于量化所述财经媒体账户的影响力;
将所述账户分数超过分数阈值的财经媒体账户设置为所述预设媒体账户。
进一步地,所述根据所述热点事件的性质,生成关于所述相关股票的投资建议的步骤之后包括:
调用预设的账户分数与等级的映射关系以及所述预设媒体账户的账户分数,确定所述预设媒体账户所在的等级;
根据所述等级,对所述投资建议进行优化。
进一步地,所述提取热点事件中的关键词的步骤包括:
将所述热点事件输入LDA模型中;
接收所述LDA模型计算出的关键词。
进一步地,所述将所述关键词向量化的步骤包括:
将所述关键词输入word2vec语言模型进行预测,得到关键词的向量。
本申请还提供一种自动生成投资建议的装置,包括:
获取模块,用于获取热点事件;
提取模块,用于提取所述热点事件中的关键词;
向量模块,用于将所述关键词向量化,得到关键词对应的关键词向量;
分析模块,用于将所述关键词向量分别与各股票对应的股票向量进行相关性分析,得到与所述热点事件相关的相关股票;
生成模块,用于根据所述热点事件的性质,生成关于所述相关股票的投资建议。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述任一项所述的方法的步骤。
有益效果
本申请的自动生成投资建议的方法、装置、计算机设备和存储介质,通过采集财经媒体发布的消息,根据发布消息产生的效果,自动获取热点事件,并根据热点事件与相关股票的关联,计算出该热点事件对相关股票的影响,从而生成相关的投资建议。该投资建议是系统自动获取热点事件,自动计算热点事件与相关股票之间的关系,不用人工成本,不会受到人为感情的影响,相较人工能客观准确的计算出股票 的走势并给出相应的投资建议。
附图说明
图1为本申请一实施例的自动生成投资建议的方法的流程示意图;
图2为本申请一实施例的上述自动生成投资建议的方法中步骤S1的具体流程示意图;
图3为本申请另一实施例的上述自动生成投资建议的方法中步骤S1的具体流程示意图;
图4为本申请一实施例的自动生成投资建议的方法的流程示意图;
图5为本申请一实施例的自动生成投资建议的方法中步骤S2的具体流程示意图;
图6为本申请一实施例的自动生成投资建议的装置的结构示意框图;
图7为本申请一实施例的自动生成投资建议的装置的获取模块的结构示意框图;
图8为本申请另一实施例的自动生成投资建议的装置的获取模块的结构示意框图;
图9为本申请一实施例的自动生成投资建议的装置的结构示意框图;
图10为本申请一实施例的自动生成投资建议的装置的提取模块的结构示意框图;
图11为本申请一实施例的计算机设备的结构示意框图。
本发明的最佳实施方式
参照图1,本申请提供一种自动生成投资建议的方法,包括步骤:
S1、获取热点事件;
S2、提取热点事件中的关键词;
S3、将所述关键词向量化,得到关键词对应的关键词向量;
S4、将所述关键词向量分别与各股票对应的股票向量进行相关性分析,得到与所述热点事件相关的相关股票;
S5、根据所述热点事件的性质,生成关于所述股票的投资建议。
如上述步骤S1所述,社会热点事件是指在社会中引起广泛关注、参与讨论、激起民众情绪,引发强烈反响的事件,通俗地理解就是:被很多人熟知且讨论的事件。其中,本实施例中的热点事件均是指与财经相关的热点事件。该热点事件可以有多种方式获取,比如是自动获取一些APP推送的财经头条,或者是接收人工观察财经相关的新闻整理推送给系统的热点事件。
如上述步骤S2所述,热点事件是指一件事情,有相关的文字消息或报导对其进行描述,文字消息中,会有一些词语对事件进行关键性的描述,该词即为关键词。提取出关键词的方法,可以是从题目中进行提取,也可以是根据一些训练模型,判断文字消息中出现的词次数较多的为关键词。关键词一般是涉及到事情的主体、事情的性质。例如,有一个热点事件是关于贾跃亭的FF91电动汽车在美国进行高寒测试。通过训练的模型计算后输出的关键词就可能包括:贾跃亭、乐视、电动汽车、豪华、希望等。
如上述步骤S3所述,词向量化是提供了一种数学化的方法,把自然语言这种符号信息转化为向量 形式的数字信息。这样就把自然语言理解的问题要解决的问题转化为机器学习的问题。关键词进行向量化,得到向量关键词,可以用one-hot Representation模型。One-hot Representation就是用一个很长的向量来表示一个词,向量长度为词典的大小N,每个向量只有一个维度为1,其余维度全部为0,为1的位置表示该词语在词典的位置。这种One-hot Representation采用稀疏方式存储,向量化的过程非常的简洁。
如上述步骤S4所述,股票对应的股票向量是预先存储在知识库中的,知识库是指包含有股票信息的数据库,股票信息包含有多种数据,有股票名称、股票描述词,还包含有股票的向量。股票的向量,即将股票名称、股票描述词进行向量化后的向量。将关键词向量与股票向量进行相关性分析,通过计算关键词的向量与股票的向量之间的欧式距离来进行分析,实际上就是计算该热点事件属于各个股票的概率或者分布。这一步的意义是计算关键词的向量与股票的向量的距离,目的是计算出热点事件的发生对股票的影响力大小。分别计算关键词向量与数据库中各股票向量的欧式距离,计算得出多个欧式距离,将欧式距离小于一定值的,确定为股票向量对应的股票为与热点事件相关的股票。
如上述步骤S5所述,关键词中包含有一些感情色彩的词语,分为褒义词和贬义词,关键词中含有褒义词,说明热点事件的性质是利好,生成对应的股票的投资建议是购买;关键词中含有贬义词,说明热点事件的性质是利坏,生成对应的股票的投资建议是抛售。
进一步地,生成关于相关股票的投资建议后的步骤包括:
获取用户的投资领域,将属于该投资领域的相关股票的投资建议推送给该用户。
进一步地,在另一实施例中,生成关于相关股票的投资建议后的步骤包括:
获取用户的风险承受能力,将符合该风险承受能力的相关股票的投资建议推送给该用户。
在一具体实施例中,用户在手机上打开平安证券的APP,该应用程序访问平安集团的服务器,获取到热点事件,然后提取出关键词:区块链、人工智能、喜迎、平安科技,将这四个关键词分别向量化得到四个关键词向量,然后访问数据库,将这四个关键词向量与各股票的向量分别计算欧式距离,经分析后计算得出与200个股票相关性较大。获取到用户喜欢投资生物技术、医疗领域相关的股票,就将这200个股票中与生物技术、医疗的10个股票的投资建议推送给用户,发送至用户的APP端。
参照图2,本申请实施例中,上述获取热点事件的步骤包括:
S11、获取预设媒体账户的关注数量的增长率;
S12、当所述增长率超过增长阈值时,判定所述媒体账户在预设时间段内发布的消息包含有热点事件;
S13、根据所述媒体账户在所述预设时间段内发布的消息,确定所述热点事件。
如上述S11步骤所述,预设媒体账户是指一些在财经方面有影响力或者有权威性的媒体账户。包括一些财经达人开通的个人微博账户,或者是财经相关的官方的发布信息渠道的媒体账户,例如证监会的 官方微博。在一个事件发酵成热点事件时,都会伴随一个现象就是关注这个事件的人呈指数级增长;对应的,体现在预设媒体账户上的是,关注预设媒体账户的人的数量也是有一个明显的增长。因此要获取预设媒体账户的关注数量的增长率。具体的,获取增长率的方法为:获取当前时刻的关注数量x,提取当前时刻之前的预设时间的关注数量y,计算出x相对y的增长率。本实施例中,每隔一分钟计算关注数量的变化,假定一分钟前的关注数量是t1,当前时刻的关注数量是t0,则增长率a=(t0-t1)/t1。在其他的实施方式中,获取增长率的周期可以是5分钟、10分钟等,也可以是10秒、20秒等。
如上述S12步骤所述,增长阈值是用于判定该账户是否有发布热点事件的临界值。上述S11步骤中获取的增长率,也有可能是负数,即关注媒体账户的数量减少。因此,所述增长阈值包括一个或两个数字。具体的,增长阈值可以是-20%和10%,即增长率低于20%或者高于10%,均是超过增长阈值。当增长率超过了增长阈值,判定该媒体账户在预设时间段内发布的消息包含有热点事件。
如上述S13步骤所述,当判定该媒体账户发布的消息包含有热点事件后,获取当天该媒体账户发布的消息内容,具体的,是获取文字内容。若媒体账户发布的消息中包含图片,通过扫描识别图片中的文字。从而,可以将媒体账户在所述预设时间段内发布的消息确定为热点事件,也可以根据媒体账户在预设时间段内发布的消息,进一步筛选其中的部分消息作为热点事件,例如,将媒体账户在预设时间段内发布的消息中评论数超过预设评论阈值的消息确定为热点事件。
参照图3,在一具体实施例中,上述获取热点事件的步骤包括:
S15、获取预设媒体账户发布的消息的评论数;
S16、当所述预设媒体账户发布的消息中目标消息的评论数超过评论阈值时,确定所述目标消息为热点事件。
如上述步骤S15所述,媒体账户发布一条消息后,后面会有社会人士对该消息进行评论。每个人可以进行多条评论留言。系统获取评论的数量,是获取对发布消息的评论数量,而不是获取媒体账户的评论数量。例如,某个媒体账户某天发布了两条消息,第一条消息有500条评论,第二条消息有800条评论,则系统获取了该媒体账户的两个消息对应的评论数,分别是500和800。
如上述步骤S16所述,对评论数进行比较,是否超过评论阈值。评论阈值是一个数字,用于界定发布的消息是否是热点事件。评论阈值是用于判断每个媒体账户发布的消息包含有热点事件的评论依据的临界值。例如,评论阈值是600。在S15步骤中提到的两条消息,第一条消息的论数是500条,没有超过评论阈值;第二条消息的评论数是800条,超过了评论阈值,判定第二条消息为热点事件。
进一步地,步骤S11或步骤S15之前,还可以包括:
S101、获取带有财经标记的财经媒体账户的信息;
S102、将所述财经媒体账户的信息输入至预设公式,得到账户分数,所述账户分数用于量化所述财经媒体账户的影响力;
S103、将所述账户分数超过分数阈值的财经媒体账户设置为所述预设媒体账户。
如上述S101步骤所述,带有财经标记的媒体账户是指与财经相关的媒体账户,例如发表过一定篇幅或一定数量的财经类文章,或者是一些财经官方认证的媒体账户。具体的,系统统问微博后台,访问所有微博中带有财经标记的财经媒体账户,获取这些财经媒体账户发布的信息。
如上述S102步骤所述,媒体账户的信息包括好友数、粉丝数、等级、和发布微博数据,以及历史微博相关的信息等均是媒体账户的信息,将每个信息进行量化。好友数、粉丝数、等级均是量化的数据;发布微博数据可以是近一年发布微博的数量,或者是近一年发布微博中评论数达到500的数量;预设公式是对媒体账户进行评价的一个公式,用于体现该媒体账户的影响力。好友数越多、粉丝数越多、等级越高、发布的微博数量越多、微博评论数量越多,对应的影响力越大,最终得到的账户分数越高。例如,设置一具体公式如下:
s=c*(a+b)+d
上述公式中,s是账户分数,a是好友分数,b是粉丝分数,c是等级数,d是微博评论超过500的分数。好友分数的计算方式如下表1:
好友数量 得分
0-10 1
11-20 2
21-50 3
51-100 5
101-1000 10
1000以上 30
表1:好友数量与好友分数映射表
其他的粉丝分数、等级分数、微博评论超过500的分数均可以是如上表1按照阶梯进行评分。
如上述步骤S103所述,获取到媒体账户的信息后,通过预设公式,计算得到账户分数,该分数是反映一个媒体账户的影响力。然后将该账户分数与分数阈值进行比较。分数阈值是用于界定一个媒体账户的影响力是否大到可以用作参考的预设媒体。在一具体实施例中,根据上述S102步骤中的预设公式,分数阈值是60。
参照图4,上述根据所述热点事件的性质,生成关于所述相关股票的投资建议的步骤之后包括:
S6、根据预设的账户分数与等级的映射关系以及所述预设媒体账户的账户分数,确定所述预设媒体账户所在的等级;
S7、根据所述等级,对所述投资建议进行优化。
如上述步骤S6所述,调用账户分数,即通过步骤S103所计算出的账户分数。确定账户分数所在的等级,是根据预设的逻辑确定得出的。账户分数越高,对应的等级越高。在一具体的实施例中,账户分数与等级之间的映射关系如下表2:
账户分数 等级
60-100 1
101-150 1.5
151-200 1.8
201-300 3
300以上 5
表2:账户分数与等级之间的映射关系表
账户分数越高,说明该账户的影响力越大,那么对应的等级也就越高。
如上述步骤S7所述,将步骤S5中的投资建议乘以等级,得出优化后的投资建议。在一具体实施例中,投资建议是对某股票增持1000股,然后确定获取热点事件的账户分数是1.8,则优化后的投资建议是对某股票增持1800股。
参照图5,所述提取热点事件中的关键词的步骤包括:
S21、将所述热点事件输入LDA模型中;
S22、接收所述LDA模型计算出的关键词。
如上述步骤S21所述,获取到热点事件后,将热点事件输入到LDA(Latent Dirichlet Allocation文档主题生成模型)模型中。LDA模型是由Blei等提出的,是一个“文本—主题—词”的三层贝叶斯产生式模型,每篇文本表示为主题的混合分布,而每个主题则是词上的概率分布。最初的模型只对文本—主题概率分布引入一个超参数使其服从Dirichlet分布,随后Griffiths等对主题—词概率分布也引入一个超参数使其服从Dirichlet分布。两个超参数一般设置为α=50/T,β=0.01。LDA模型的参数个数只与主题数和词数有关,参数估计是计算出文本—主题概率分布以及主题—词概率分布,即θ和φ。通过对变量z进行Gibbs采样间接估算θ和φ:
Figure PCTCN2018095026-appb-000001
Figure PCTCN2018095026-appb-000002
符号 含义 符号 含义
α θ的超参数 w
β φ的超参数 M 文本数
θ 文本—主题概率分布 N 词数
φ 主题—词概率分布 T 主题数
z 词的主题分配
其中:nm(j)表示文本dm中赋予主题j的词的总数,ns(i)表示词vi被赋予主题s的总次数。
如上述步骤S22所述,将热点事件的文本消息输入到上述LDA模型中,LDA模型计算得出该文本消息的关键词。然后系统存储该关键词。关键词的数量根据消息的内容或长度,可能是一个关键词,也可能是多个关键词。
进一步地,所述将关键词向量化的步骤包括:
将所述关键词输入word2vec语音模型进行预测,得到关键词的向量。
本实施例中,word2vec语言模型可以快速有效地训练词向量。word2vec模型有两种,分别是CBOW(ContinuousBag Of Words Model)模型和Skip-gram模型。其中CBOW模型利用词w(t)前后各c(这里c=2)个词去预测当前词;而Skip-gram(Continuous Skip-gram Model)模型恰好相反,它利用词w(t)去预测它前后各c(c=2)个词。在本实施例中,采用CBOW模型进行训练。其中输入层是词w(t)的上下文中的2c个词向量,而投影层向量Xw是这2c个词向量的累加和。输出层是以训练语料库中出现过的词作叶子节点,以各词在语料库中出现的次数作为权值构造出的一棵Huffman树。在这棵Huffman树中,叶子节点共N(=IDI)个,分别对应词典D中的词,非叶子节点N-1个。通过随机梯度上升算法对Xw的结果进行预测,使得值最大化,context(w)指词的上下文中的2c个词。由此可见,前者是由上下文推当前词,后者是由当前词推上下文,用公式表示如下:
Figure PCTCN2018095026-appb-000003
综上所述,本申请的自动生成投资建议的方法,通过采集财经媒体发布的消息,根据发布消息产生的效果,自动获取热点事件,并根据热点事件与相关股票的关联,计算出该热点事件对相关股票的影响,从而生成相关的投资建议。该投资建议是系统自动获取热点事件,自动计算热点事件与相关股票之间的关系,不用人工成本,不会受到人为感情的影响,相较人工能客观准确的计算出股票的走势并给出相应的投资建议。
参照图6,本申请还提出一种自动生成投资建议的装置,包括:
获取模块1,用于获取热点事件;
提取模块2,用于提取所述热点事件中的关键词;
向量模块3,用于将所述关键词向量化,得到关键词对应的关键词向量;
分析模块4,用于将所述关键词向量分别与各股票对应的股票向量进行相关性分析,得到与所述热 点事件相关的相关股票;
生成模块5,用于根据所述热点事件的性质,生成关于所述相关股票的投资建议。
本实施例中,该热点事件可以有多种方式获取,比如是获取模块1自动获取一些APP推送的财经头条,或者是获取模块1接收人工观察财经相关的新闻整理推送给系统的热点事件。
热点事件是指一件事情,有相关的文字消息或报导对其进行描述,文字消息中,会有一些词语对事件进行关键性的描述,该词即为关键词。提取模块2提取出关键词的方法,可以是从题目中进行提取,也可以是根据一些训练模型,判断文字消息中出现的词次数较多的为关键词。
向量模块3将关键词进行向量化,得到向量关键词,可以用one-hot Representation模型。One-hot Representation就是用一个很长的向量来表示一个词,向量长度为词典的大小N,每个向量只有一个维度为1,其余维度全部为0,为1的位置表示该词语在词典的位置。这种One-hot Representation采用稀疏方式存储,向量化的过程非常的简洁。
分析模块4将关键词向量与股票向量进行相关性分析,通过计算关键词的向量与股票的向量之间的欧式距离来进行分析,实际上就是计算该热点事件属于各个股票的概率或者分布。这一步的意义是计算关键词的向量与股票的向量的距离,目的是计算出热点事件的发生对股票的影响力大小。分析模块4分别计算关键词向量与数据库中各股票向量的欧式距离,计算得出多个欧式距离,将欧式距离小于一定值的,分析模块4确定为股票向量对应的股票为与热点事件相关的股票。
关键词中包含有一些感情色彩的词语,分为褒义词和贬义词,关键词中含有褒义词,说明热点事件的性质是利好,生成模块5生成对应的股票的投资建议是购买;关键词中含有贬义词,说明热点事件的性质是利坏,生成模块5生成对应的股票的投资建议是抛售。
本实施例中,上述自动生成投资建议的装置还包括:
推送领域模块,用于获取用户的投资领域,将属于该投资领域的相关股票的投资建议推送给该用户。
进一步地,在另一实施例中,上述自动生成投资建议的装置还包括:
推送风险模块,用于获取用户的风险承受能力,将符合该风险承受能力的相关股票的投资建议推送给该用户。
在一具体实施例中,用户在手机上打开平安证券的APP,该应用程序访问平安集团的服务器,获取模块1获取到热点事件,然后提取模块2提取出关键词:区块链、人工智能、喜迎、平安科技,向量模块3将这四个关键词分别向量化得到四个关键词向量,然后分析模块4访问数据库,将这四个关键词向量与各股票的向量分别计算欧式距离,经分析后计算得出与200个股票相关性较大。语义理解获取关键词的感情词汇后,生成模块5生成对这200个股票的投资建议。推送领域模块获取到用户喜欢投资生物技术、医疗领域相关的股票,就将这200个股票中与生物技术、医疗的10个股票的投资建议推送给用户,发送至用户的APP端。
参照图7,进一步地,所述获取模块1包括:
增长率单元11,用于获取预设媒体账户的关注数量的增长率;
第一判定单元12,用于当所述增长率超过增长阈值时,判定所述媒体账户在预设时间段内发布的消息包含有热点事件;
消息单元13,用于根据所述媒体账户在所述预设时间段内发布的消息,确定所述热点事件。
本实施例中,预设媒体账户是指一些在财经方面有影响力或者有权威性的媒体账户。包括一些财经达人开通的个人微博账户,或者是财经相关的官方的发布信息渠道的媒体账户,例如证监会的官方微博。在一个事件发酵成热点事件时,都会伴随一个现象就是关注这个事件的人呈指数级增长;对应的,体现在预设媒体账户上的是,关注预设媒体账户的人的数量也是有一个明显的增长。因此增长率单元11要获取预设媒体账户的关注数量的增长率。具体的,获取增长率的方法为:获取当前时刻的关注数量x,提取当前时刻之前的预设时间的关注数量y,计算出x相对y的增长率。增长率单元11每隔一分钟计算关注数量的变化,假定一分钟前的关注数量是t1,当前时刻的关注数量是t0,则增长率a=(t0-t1)/t1。在其他的实施方式中,获取增长率的周期可以是5分钟、10分钟等,也可以是10秒、20秒等。
增长阈值是用于判定该账户是否有发布热点事件的临界值。上述S11步骤中获取的增长率,也有可能是负数,即关注媒体账户的数量减少。因此,所述增长阈值包括一个或两个数字。具体的,增长阈值可以是-20%和10%,即增长率低于20%或者高于10%,均是超过增长阈值。当增长率超过了增长阈值,第一判定单元12判定该媒体账户在预设时间段内发布的消息包含有热点事件。
当第一判定单元12判定该媒体账户发布的消息包含有热点事件后,消息单元13获取当天该媒体账户发布的消息内容,具体的,是获取文字内容。若媒体账户发布的消息中包含图片,消息单元13通过扫描识别图片中的文字。从而,可以将媒体账户在所述预设时间段内发布的消息确定为获取到了热点事件,也可以根据媒体账户在预设时间段内发布的消息,进一步筛选其中的部分消息作为热点事件,例如,将媒体账户在预设时间段内发布的消息中评论数超过预设评论阈值的消息确定为热点事件。
参照图8,进一步地,所述获取模块1包括:
评论数单元15,用于获取预设媒体账户发布的消息的评论数;
第二判定单元16,用于当所述预设媒体账户发布的消息中目标消息的评论数超过评论阈值时,确定所述目标消息为热点事件。
本实施例中,媒体账户发布一条消息后,后面会有社会人士对该消息进行评论。每个人可以进行多条评论留言。评论数单元15获取评论的数量。是获取对发布消息的评论数量,而不是获取媒体账户的评论数量。例如,某个媒体账户某天发布了两条消息,第一条消息有500条评论,第二条消息有800条评论,则系统获取了该媒体账户的两个消息对应的评论数,分别是500和800。
对评论数进行比较,第二判定单元16是否超过评论阈值。评论阈值是一个数字,用于界定发布的 消息是否是热点事件。评论阈值是用于判断每个媒体账户发布的消息包含有热点事件的评论依据的临界值。例如,评论阈值是600。在评论数单元15中提到的两条消息,第一条消息的论数是500条,没有超过评论阈值;第二条消息的评论数是800条,超过了评论阈值,第二判定单元16判定第二条消息为热点事件。
进一步地,所述自动生成投资建议的装置包括:
财经标记模块,用于获取带有财经标记的财经媒体账户的信息;
账户分数模块,用于将所述财经媒体账户的信息输入至预设公式,得到账户分数,所述账户分数用于量化所述财经媒体账户的影响力;
预设媒体模块,用于将所述账户分数超过分数阈值的财经媒体账户设置为所述预设媒体账户。
本实施例中,带有财经标记的媒体账户是指与财经相关的媒体账户,例如发表过一定篇幅或一定数量的财经类文章,或者是一些财经官方认证的媒体账户。具体的,系统统问微博后台,财经标记模块访问所有微博中带有财经标记的财经媒体账户,获取这些财经媒体账户发布的信息。
媒体账户的信息包括好友数、粉丝数、等级、和发布微博数据,以及历史微博相关的信息等均是媒体账户的信息,账户分数模块将每个信息进行量化。好友数、粉丝数、等级均是量化的数据;发布微博数据可以是近一年发布微博的数量,或者是近一年发布微博中评论数达到500的数量;预设公式是对媒体账户进行评价的一个公式,用于体现该媒体账户的影响力。好友数越多、粉丝数越多、等级越高、发布的微博数量越多、微博评论数量越多,对应的影响力越大,最终得到的账户分数越高。例如,账户分数模块中的计算账户分数的公式如下:
s=c*(a+b)+d
上述公式中,s是账户分数,a是好友分数,b是粉丝分数,c是等级数,d是微博评论超过500的分数。
获取到媒体账户的信息后,通过预设公式,计算得到账户分数,该分数是反映一个媒体账户的影响力。然后预设媒体模块将该账户分数与分数阈值进行比较。分数阈值是用于界定一个媒体账户的影响力是否大到可以用作参考的预设媒体。在一具体实施例中,根据上述账户分数模块的预设公式,预设媒体账户的分数阈值是60。
参照图9,进一步地,所述自动生成投资建议的装置还包括:
等级模块6,用于根据预设的账户分数与等级的映射关系以及所述预设媒体账户的账户分数,确定所述预设媒体账户的等级;
优化模块7,用于根据所述等级,对所述投资建议进行优化。
本实施例中,调用账户分数,即通过预设媒体模块103所计算出的账户分数。等级模块6确定账户分数所在的等级,是根据预设的逻辑确定得出的。账户分数越高,对应的等级越高。账户分数越高,说 明该账户的影响力越大,那么对应的等级也就越高。
优化模块7将生成模块5中的投资建议乘以等级,得出优化后的投资建议。在一具体实施例中,投资建议是对某股票增持1000股,然后确定获取热点事件的账户分数是1.8,则优化后的投资建议是对某股票增持1800股。
参照图10,进一步地,所述提取模块2包括:
输入单元21,用于将所述热点事件输入LDA模型中;
计算单元22,用于接收所述LDA模型计算出的关键词。
本实施例中,获取到热点事件后,输入单元21将热点事件输入到LDA(Latent Dirichlet Allocation文档主题生成模型)模型中。LDA模型是由Blei等提出的,是一个“文本—主题—词”的三层贝叶斯产生式模型,每篇文本表示为主题的混合分布,而每个主题则是词上的概率分布。最初的模型只对文本—主题概率分布引入一个超参数使其服从Dirichlet分布,随后Griffiths等对主题—词概率分布也引入一个超参数使其服从Dirichlet分布。两个超参数一般设置为α=50/T,β=0.01。LDA模型的参数个数只与主题数和词数有关,参数估计是计算出文本—主题概率分布以及主题—词概率分布,即θ和φ。通过对变量z进行Gibbs采样间接估算θ和φ:
Figure PCTCN2018095026-appb-000004
Figure PCTCN2018095026-appb-000005
符号 含义 符号 含义
α θ的超参数 w
β φ的超参数 M 文本数
θ 文本—主题概率分布 N 词数
φ 主题—词概率分布 T 主题数
z 词的主题分配
其中:nm(j)表示文本dm中赋予主题j的词的总数,ns(i)表示词vi被赋予主题s的总次数。
将热点事件的文本消息输入到上述LDA模型中,LDA模型计算得出该文本消息的关键词。然后计算单元22存储该关键词。关键词的数量根据消息的内容或长度,可能是一个关键词,也可能是多个关键词。
综上所述,本申请的自动生成投资建议的装置,通过采集财经媒体发布的消息,根据发布消息产生的效果,自动获取热点事件,并根据热点事件与相关股票的关联,计算出该热点事件对相关股票的影响,从而生成相关的投资建议。该投资建议是系统自动获取热点事件,自动计算热点事件与相关股票之间的 关系,不用人工成本,不会受到人为感情的影响,相较人工能客观准确的计算出股票的走势并给出相应的投资建议。
参照图11,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机可读指令和数据库。该内存器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的数据库用于存储自动生成投资建议的模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令在执行时,执行如上述各方法的实施例的流程。本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机非易失性可读存储介质,其上存储有计算机可读指令,该计算机可读指令在执行时,执行如上述各方法的实施例的流程。以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (20)

  1. 一种自动生成投资建议的方法,其特征在于,包括:
    获取热点事件;
    提取所述热点事件中的关键词;
    将所述关键词向量化,得到关键词对应的关键词向量;
    将所述关键词向量分别与各股票对应的股票向量进行相关性分析,得到与所述热点事件相关的相关股票;
    根据所述热点事件的性质,生成关于所述相关股票的投资建议。
  2. 如权利要求1所述的自动生成投资建议的方法,其特征在于,所述获取热点事件的步骤包括:
    获取预设媒体账户的关注数量的增长率;
    当所述增长率超过增长阈值时,判定所述媒体账户在预设时间段内发布的消息包含有热点事件;
    根据所述媒体账户在所述预设时间段内发布的消息,确定所述热点事件。
  3. 如权利要求1所述的自动生成投资建议的方法,其特征在于,所述获取热点事件的步骤包括:
    获取预设媒体账户发布的消息的评论数;
    当所述预设媒体账户发布的消息中目标消息的评论数超过评论阈值时,确定所述目标消息为热点事件。
  4. 如权利要求2所述的自动生成投资建议的方法,其特征在于,所述方法还包括:
    获取带有财经标记的财经媒体账户的信息;
    将所述财经媒体账户的信息输入至预设公式,得到账户分数,所述账户分数用于量化所述财经媒体账户的影响力;
    将所述账户分数超过分数阈值的财经媒体账户设置为所述预设媒体账户。
  5. 如权利要求4所述的自动生成投资建议的方法,其特征在于,所述根据所述热点事件的性质,生成关于所述相关股票的投资建议的步骤之后包括:
    根据预设的账户分数与等级的映射关系以及所述预设媒体账户的账户分数,确定所述预设媒体账户所在的等级;
    根据所述等级,对所述投资建议进行优化。
  6. 如权利要求1所述的自动生成投资建议的方法,其特征在于,所述提取热点事件中的关键词的步骤包括:
    将所述热点事件输入LDA模型中;
    接收所述LDA模型计算出的关键词。
  7. 一种自动生成投资建议的装置,其特征在于,包括:
    获取模块,用于获取热点事件;
    提取模块,用于提取所述热点事件中的关键词;
    向量模块,用于将所述关键词向量化,得到关键词对应的关键词向量;
    分析模块,用于将所述关键词向量分别与各股票对应的股票向量进行相关性分析,得到与所述热点事件相关的相关股票;
    生成模块,用于根据所述热点事件的性质,生成关于所述相关股票的投资建议。
  8. 如权利要求7所述的自动生成投资建议的装置,其特征在于,所述获取模块包括:
    增长率单元,用于获取预设媒体账户的关注数量的增长率;
    第一判定单元,用于当所述增长率超过增长阈值时,判定所述媒体账户在预设时间段内发布的消息包含有热点事件;
    消息单元,用于根据所述媒体账户在所述预设时间段内发布的消息,确定所述热点事件。
  9. 如权利要求7所述的自动生成投资建议的装置,其特征在于,所述获取模块包括:
    评论数单元,用于获取预设媒体账户发布的消息的评论数;
    第二判定单元,用于当所述预设媒体账户发布的消息中目标消息的评论数超过评论阈值时,确定所述目标消息为热点事件。
  10. 如权利要求8所述的自动生成投资建议的装置,其特征在于,所述自动生成投资建议的装置包括:
    财经标记模块,用于获取带有财经标记的财经媒体账户的信息;
    账户分数模块,用于将所述财经媒体账户的信息输入至预设公式,得到账户分数,所述账户分数用于量化所述财经媒体账户的影响力;
    预设媒体模块,用于将所述账户分数超过分数阈值的财经媒体账户设置为所述预设媒体账户。
  11. 如权利要求10所述的自动生成投资建议的装置,其特征在于,所述自动生成投资建议的装置还包括:
    等级模块,用于根据预设的账户分数与等级的映射关系以及所述预设媒体账户的账户分数,确定所述预设媒体账户的等级;
    优化模块,用于根据所述等级,对所述投资建议进行优化。
  12. 如权利要求7所述的自动生成投资建议的装置,其特征在于,所述提取模块包括:
    输入单元,用于将所述热点事件输入LDA模型中;
    计算单元,用于接收所述LDA模型计算出的关键词。
  13. 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现自动生成投资建议的方法,该自动生成投资建议的方法,包括:
    获取热点事件;
    提取所述热点事件中的关键词;
    将所述关键词向量化,得到关键词对应的关键词向量;
    将所述关键词向量分别与各股票对应的股票向量进行相关性分析,得到与所述热点事件相关的相关股票;
    根据所述热点事件的性质,生成关于所述相关股票的投资建议。
  14. 如权利要求13所述的计算机设备,其特征在于,所述获取热点事件的步骤包括:
    获取预设媒体账户的关注数量的增长率;
    当所述增长率超过增长阈值时,判定所述媒体账户在预设时间段内发布的消息包含有热点事件;
    根据所述媒体账户在所述预设时间段内发布的消息,确定所述热点事件。
  15. 如权利要求13所述的计算机设备,其特征在于,所述获取热点事件的步骤包括:
    获取预设媒体账户发布的消息的评论数;
    当所述预设媒体账户发布的消息中目标消息的评论数超过评论阈值时,确定所述目标消息为热点事件。
  16. 如权利要求15所述的计算机设备,其特征在于,所述自动生成投资建议的方法还包括:
    获取带有财经标记的财经媒体账户的信息;
    将所述财经媒体账户的信息输入至预设公式,得到账户分数,所述账户分数用于量化所述财经媒体账户的影响力;
    将所述账户分数超过分数阈值的财经媒体账户设置为所述预设媒体账户。
  17. 一种计算机非易失性可读存储介质,其上存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现自动生成投资建议的方法,该自动生成投资建议的方法,包括:
    获取热点事件;
    提取所述热点事件中的关键词;
    将所述关键词向量化,得到关键词对应的关键词向量;
    将所述关键词向量分别与各股票对应的股票向量进行相关性分析,得到与所述热点事件相关的相关股票;
    根据所述热点事件的性质,生成关于所述相关股票的投资建议。
  18. 如权利要求17所述的计算机非易失性可读存储介质,其特征在于,所述获取热点事件的步骤包括:
    获取预设媒体账户的关注数量的增长率;
    当所述增长率超过增长阈值时,判定所述媒体账户在预设时间段内发布的消息包含有热点事件;
    根据所述媒体账户在所述预设时间段内发布的消息,确定所述热点事件。
  19. 如权利要求17所述的计算机非易失性可读存储介质,其特征在于,所述获取热点事件的步骤包括:
    获取预设媒体账户发布的消息的评论数;
    当所述预设媒体账户发布的消息中目标消息的评论数超过评论阈值时,确定所述目标消息为热点事件。
  20. 如权利要求19所述的计算机非易失性可读存储介质,其特征在于,所述自动生成投资建议的方法还包括:
    获取带有财经标记的财经媒体账户的信息;
    将所述财经媒体账户的信息输入至预设公式,得到账户分数,所述账户分数用于量化所述财经媒体账户的影响力;
    将所述账户分数超过分数阈值的财经媒体账户设置为所述预设媒体账户。
PCT/CN2018/095026 2018-05-08 2018-07-09 自动生成投资建议的方法、装置、计算机设备和存储介质 WO2019214048A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810433124.7 2018-05-08
CN201810433124.7A CN108629693A (zh) 2018-05-08 2018-05-08 自动生成投资建议的方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
WO2019214048A1 true WO2019214048A1 (zh) 2019-11-14

Family

ID=63695887

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/095026 WO2019214048A1 (zh) 2018-05-08 2018-07-09 自动生成投资建议的方法、装置、计算机设备和存储介质

Country Status (2)

Country Link
CN (1) CN108629693A (zh)
WO (1) WO2019214048A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109460550A (zh) * 2018-10-22 2019-03-12 平安科技(深圳)有限公司 利用大数据的证券研报情感分析方法、装置及计算机设备
CN109460500B (zh) * 2018-10-24 2020-07-03 深圳市腾讯计算机系统有限公司 热点事件发现方法、装置、计算机设备和存储介质
CN110134847A (zh) * 2019-05-06 2019-08-16 北京科技大学 一种基于互联网金融信息的热点挖掘方法及系统
CN110555771A (zh) * 2019-09-06 2019-12-10 广州快盈信息技术服务有限公司 基于多维数据的对标股筛选方法、服务器及存储介质
CN110889024A (zh) * 2019-10-25 2020-03-17 武汉灯塔之光科技有限公司 一种用于计算资讯关联股票的方法和装置
CN113762392A (zh) * 2021-09-08 2021-12-07 平安普惠企业管理有限公司 基于人工智能的理财产品推荐方法、装置、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103226554A (zh) * 2012-12-14 2013-07-31 西藏同信证券有限责任公司 基于新闻数据的股票自动匹配分类方法和系统
CN107403017A (zh) * 2017-08-09 2017-11-28 上海数旦信息技术有限公司 一种智能分析实时新闻对金融市场影响的方法
CN107704512A (zh) * 2017-08-31 2018-02-16 平安科技(深圳)有限公司 基于社交数据的金融产品推荐方法、电子装置及介质
CN107797983A (zh) * 2017-04-07 2018-03-13 平安科技(深圳)有限公司 微博数据处理方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103226554A (zh) * 2012-12-14 2013-07-31 西藏同信证券有限责任公司 基于新闻数据的股票自动匹配分类方法和系统
CN107797983A (zh) * 2017-04-07 2018-03-13 平安科技(深圳)有限公司 微博数据处理方法、装置、计算机设备及存储介质
CN107403017A (zh) * 2017-08-09 2017-11-28 上海数旦信息技术有限公司 一种智能分析实时新闻对金融市场影响的方法
CN107704512A (zh) * 2017-08-31 2018-02-16 平安科技(深圳)有限公司 基于社交数据的金融产品推荐方法、电子装置及介质

Also Published As

Publication number Publication date
CN108629693A (zh) 2018-10-09

Similar Documents

Publication Publication Date Title
WO2019214048A1 (zh) 自动生成投资建议的方法、装置、计算机设备和存储介质
US11176330B2 (en) Generating recommendation information
US20210272040A1 (en) Systems and methods for language and speech processing with artificial intelligence
Hu et al. A causal lens for controllable text generation
US11429834B1 (en) Neural-based agent assistance interface for providing answers based on a query vector
CN112307351A (zh) 用户行为的模型训练、推荐方法、装置和设备
Susanti et al. Twitter’s sentiment analysis on GSM services using Multinomial Naïve Bayes
CN115274086B (zh) 一种智能导诊方法及系统
CN111651606B (zh) 一种文本处理方法、装置及电子设备
Eliacik et al. User-weighted sentiment analysis for financial community on Twitter
CN113254637A (zh) 一种融合语法的方面级文本情感分类方法及系统
WO2019214046A1 (zh) 资产走势分析的方法、装置、计算机设备和存储介质
Dangi et al. An efficient model for sentiment analysis using artificial rabbits optimized vector functional link network
Lyras et al. Modeling Credibility in Social Big Data using LSTM Neural Networks.
Lauren et al. A low-dimensional vector representation for words using an extreme learning machine
Wang et al. User and topic hybrid context embedding for finance-related text data mining
CN116522013B (zh) 基于社交网络平台的舆情分析方法及系统
Pentland et al. Does accuracy matter? Methodological considerations when using automated speech-to-text for social science research
Huang et al. Boosting financial trend prediction with twitter mood based on selective hidden Markov models
CN117235264A (zh) 文本处理方法、装置、设备和计算机可读存储介质
Zhao et al. Dynamic impacts of online investor sentiment on international crude oil prices
JP6839001B2 (ja) モデル学習装置、情報判定装置およびそれらのプログラム
CN116187318A (zh) 文本数据的识别方法、装置、设备及存储介质
CN112487303B (zh) 一种基于社交网络用户属性的主题推荐方法
Sajinika et al. Twitter Sentiment Analysis and Topic Modeling for Online Learning

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18917784

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18917784

Country of ref document: EP

Kind code of ref document: A1