WO2020114269A1

WO2020114269A1 - 一种智能投顾的实现方法及系统

Info

Publication number: WO2020114269A1
Application number: PCT/CN2019/120573
Authority: WO
Inventors: 林震亚; 杜新凯; 刘勇; 牛国扬; 屠要峰; 高洪; 黄震江
Original assignee: 中兴通讯股份有限公司
Priority date: 2018-12-05
Filing date: 2019-11-25
Publication date: 2020-06-11
Also published as: CN111353013A

Abstract

一种智能投顾的实现方法及系统，该方法包括：基于自然语言处理对来自多元异构数据源的数据进行处理，并将得到的数据信息加入金融数据库（201）；根据用户输入的信息，确定用户的意图；以及基于金融数据库，根据用户的意图为用户提供金融服务（202）。

Description

一种智能投顾的实现方法及系统

技术领域

本公开涉及但不限于通信领域。

背景技术

智能投顾是指网络虚拟人工智能产品基于客户自身的理财需求、资产状况、风险承受能力、风险偏好等因素，运用现代投资组合理论，通过算法搭建数据模型，利用人工智能技术和网络平台提供理财顾问服务，取代传统的人工投资顾问。简单地说，智能投顾就是通过人工智能，使用投资组合理论，如CAPM(Capital Asset Pricing Model，资本资产定价模型)，来为用户制定投资组合。在互联网金融日益深入的今天，智能投顾有可能成为影响“资金-资产”配给的关键环节。

从原理上看，传统智能投顾是根据现代资产组合理论构建数据模型，其资产配置的过程完全依靠互联网来完成。但是，传统智能投顾分析准确性不高，也很难提供方便快捷的人性化服务。

发明内容

本公开实施例的一个方面提供一种智能投顾的实现方法，包括：基于自然语言处理(Natural Language Processing，NLP)对来自多元异构数据源的数据进行处理，并将得到的数据信息加入金融数据库；根据用户输入的信息，确定用户的意图；以及基于金融数据库，根据用户的意图为用户提供金融服务。

本公开实施例的另一方面提供一种智能投顾系统，包括：数据处理模块、深层语意理解模块、结果反馈模块和金融数据库，其中：数据处理模块，配置为基于NLP对来自多元异构数据源的数据进行处理，并将得到的数据信息加入金融数据库；以及，获取并处理用户输入的信息，将处理后的信息发送至深层语意理解模块；深层语意理解模块，配置为根据处理后的信息，确定用户的意图；以及，结果反馈模块，配置为基于金融数据库，根据用户的意图为用户提供金融服务。

本公开实施例的再一方面提供一种智能投顾系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现上述的智能投顾的实现方法。

本公开实施例的又一方面提供一种计算机可读存储介质，其上存储有一个或者多个计算机程序，一个或者多个计算机程序可被一个或者多个处理器执行，以实现上述的智能投顾的实现方法。

附图说明

图1为本公开实施例提供的智能投顾系统的架构图。

图2为本公开实施例提供的数据处理模块的组成示意图。

图3为本公开实施例提供的文本结构化处理的示意图。

图4为本公开实施例提供的深层语意理解模块的组成示意图。

图5为本公开实施例提供的阅读理解模型的架构图。

图6为本公开实施例提供的结果反馈模块的组成示意图。

图7为本公开实施例提供的用户画像的示意图。

图8为本公开实施例提供的产品画像的示意图。

图9为本公开实施例提供的多模态联合学习模型的架构图。

图10为本公开实施例提供的注意力模型的示意图。

图11为本公开实施例提供的元-评判网络的结构示意图。

图12为本公开实施例提供的数据模型管理模块的组成示意图。

图13为本公开实施例提供的智能投顾的实现方法的一种流程图。

图14为本公开实施例提供的对来自多元异构数据源的数据进行处理的一种流程图。

图15为本公开实施例提供的联合学习的流程图。

图16为本公开实施例提供的确定用户的意图的流程图。

图17为本公开实施例提供的采用元学习的方式，基于金融数据库中的知识库、产品画像和用户画像，为用户进行产品推荐的流程图。

图18为本公开实施例提供的深层语义理解及结果反馈的流程图。

图19为本公开实施例提供的智能投顾的实现方法的另一种流程图。

图20为本公开实施例提供的智能投顾的实现方法的又一种流程图。

图21为本公开实施例提供的智能投顾的实现方法的再一种流程图。

图22为本公开实施例提供的智能投顾的实现方法的再一种流程图。

图23为本公开实施例提供的智能投顾的实现方法的再一种流程图。

图24为本公开实施例提供的对来自多元异构数据源的数据进行处理的另一种流程图。

图25为本公开实施例提供的智能投顾的实现方法的再一种流程图。

图26为本公开实施例提供的智能投顾的实现方法的再一种流程图。

图27为本公开实施例提供的智能投顾系统的组成示意图。

具体实施方式

下文中将结合附图对本公开的实施例进行详细说明。

在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

由于金融市场与各类新闻，研报具备强关联性，故而本公开实施例采用NLP(Natural Language Processing，自然语言处理)技术对其进行事件抽取及分析。本公开实施例提供一种可交互式的智能投顾系统，可以完成用户属性刻画，并能通过NLP技术对海量金融文本及数据进行分析，根据用户的要求给出合适的回复。此外，本公开实施例可基于元学习不断进行自我提升和改进。

如图1所示，其为本公开实施例提供的智能投顾系统的架构图，该智能投顾系统可包括：数据处理模块11、深层语意理解模块12、结果反馈模块13和金融数据库14。

根据本公开提供的实施例，数据处理模块11，可配置为基于NLP对来自多元异构数据源的数据进行处理，并将得到的数据信息加入金融数据库14；以及，获取用户输入的信息进行处理，并将处理后的信息发送至深层语意理解模块12。

根据本公开提供的实施例，数据处理模块11可以从多元异构数据源获取数据，例如从稳定的金融服务API(Application Programming Interface，应用程序编程接口)获取数据，或者在网上爬取各类新闻、评论等。然后通过文本结构化处理流程，将有用的信息存入金融数据库14中。文本主要基于行业及类型进行分类，其中，类型包括新闻、评论、研报等。

根据本公开提供的实施例，金融数据库14可以是分布式数据库，可以包括结构化数据库、知识库、图谱库、用户画像、产品画像等；其中，图谱库为图数据库，包括一个知识图谱和多个事理图谱。知识图谱与知识库相关联。

根据本公开提供的实施例，如图2和图3所示，其分别为本公开实施例提供的数据处理模块11的组成示意图和本公开实施例提供的文本结构化处理的示意图。数据处理模块11可包括数据解析器111，文本分析器112和信息抽取器113。

根据本公开提供的实施例，数据解析器111可配置为对来自多元异构数据源的数据进行数据解析，得到文本数据。其中，数据解析可以包括：html(Hyper Text Markup Language，超文本标记语言)解析、word解析、pdf解析等。

根据本公开提供的实施例，文本分析器112可配置为对文本数据进行文本分析，得到文本信息。

根据本公开提供的实施例，文本分析可以包括：文本清洗、章节结构分析、句法分析、表情识别、图片提取等。

其中，章节结构分析可采用深度学习分类器、统计语言模型，句法分析可采用段落分析和句法树的形式，表情识别可分别进行表情识别和情绪分析，图片提取可进行图片识别和图片语意理解等。

对于章节结构分析，可以从多层次和多维度进行分类。层次可主要分为三层，第一层指篇章内部的结构、意义和组织形式，如以会话分析和语料库为基础的篇章分析；第二层指语言和其他语言体现的语篇的模态，如多模态话语分析；第三层指语言与社会、文化、语境的关系，如中介话语分析和体裁分析、批评话语分析和交际民族学等。

维度可主要分五维，第一种是把中心放在语篇本体上，研究的是语篇本身的特征及语篇结构，如会话分析和体裁分析。第二种是把重点放在余篇所呈现的内容上，包括社会活动和社会事件以及对于社会的构建作用上，如批评话语分析、积极话语分析等。第三种是把中心放在个体的身份构建上，包括研究个体的方言、性别、阶层、种族用语上。第四种是把重点放在语篇与篇之间的关系上，即互文性研究；有的探讨语篇、语境的关系等，如系统功能语言学的语篇分析理论。第五种是探讨语篇作为社会实践中的过程和产品，如中介话语分析。

针对不同层次和维度，分别设计分类器，从而可以全面的对篇章结构进行分析。常用的文本分类器有FastText、TextCNN(文本CNN)、TextRNN(文本RNN)、TextRCNN(文本RCNN)、Hierarchical Attention Network(分层注意力网络)、Seq2seq with Attention(带注意力机制的序列到序列模型)、Transformer(变形网络)、Dynamic Memory Network(DynamicMemory，动态记忆网络)、Entity Network(EntityNet，实体网络)。考虑到模型性能和模型相关性，通常采用相关性低的模型集成可以得到更好的结果，本公开实施例可采用FastText、TextCNN、EntityNet、DynamicMemory和Transformer的集成。当然，如果出现了更好的文本分类器，由于根据本公开提供的实施例可对模型进行统一管理，故而可轻易替换。

根据本公开提供的实施例，信息抽取器113可配置为根据文本信息进行信息抽取，并将得到的结构化文本数据加入金融数据库14中的结构化数据库。

其中，根据文本信息进行信息抽取，可包括：命名实体识别、关系抽取、事件抽取、表格信息抽取等。

其中，命名实体识别可包括实体消歧、LSTM+CRF(Long Short-Term Memory+Conditional Random Field，长短期记忆网络+条件随机场)、基于实体库的规则抽取等；关系/事件抽取可包括动态卷积神经网络、带注意力(Attention)的事件识别、强化学习、加入外部知识的远程监督等；表格信息抽取可包括表格结构分析、表格对齐、表格补全等。

对于关系抽取，传统事件抽取采用动态卷积网络+注意力机制的方法已经可以得到不错的效果，提升重点主要在数据集的搜集和标注层面，特别是在双语语料的合理利用。本公开实施例可以采用机器学习模型(如Transformer、Seq2seq with Attention)对双语语料进行处理，从而变相扩充了语料。当句子中出现多个实体和多个关系的情况时，可以给句子里的每个词打上语义标签，找三元组，于是问题转换为打标签任务。在这种情况下，可采用复制(Copy)机制解决重叠(Overlap)问题，所以主模型变为了加入Copy机制的编码器-解码器(Encoder-Decoder)模型。该模型中，对于每个三元组，需要采用新的元素(Cell)进行编码，但解码时只采用一个解码器解码所有三元组。

根据本公开提供的实施例，文本中提取的特征与处理后的文本都将存在结构化数据库中。数据库中保存的文本特征(如实体、关系、事件等)可用于辅助图谱的构建。

根据本公开提供的实施例，针对用户输入的信息，文本分析器112可配置为对用户输入的信息进行文本分析，得到用户输入文本信息。

其中，用户输入的信息可以是语音、文字等内容，如果用户输入的信息是语音，则可将该语音转换为文字。

根据本公开提供的实施例，信息抽取器113可配置为根据用户输入文本信息进行信息抽取，获取关键词和句式。

根据本公开提供的实施例，数据处理模块11还可包括文本摘要子模块114。

文本摘要子模块114可配置为将文本分析器112得到的文本信息进行摘要处理，再发送至信息抽取器进行信息抽取。

文本摘要子模块114可将长文本变为短文本，从而便于进一步分析和事件抽取。其中，长文本和短文本可以根据预设的规则定义，例如，500字以上的文本定义为长文本，小于500字的文本定义为短文本。文本摘要子模块114可以在文本分析器112处理文本之后进行摘要处理，也可以在数据解析器111处理数据之后进行摘要处理，也可以在文本分析器112处理过程中进行摘要处理。

文本摘要子模块114可以通过TextTeaser、Lexrank这类传统摘要方法及基于Copy机制的Seq2seq方法实现。调用文本摘要子模块有两种方式，其一是根据特定问题指定调用特定模块，TextTeaser、Lexrank这类传统方法可通过修改超参数控制摘要的精简程度，而Seq2seq(Sequence to Sequence，序列到序列)方法需要训练多个模型来解决这个问题；其二是根据文本字数选择特定模块进行摘要，如对于接口A，限定500字以上的文本统一调用Lexrank模块。

根据本公开提供的实施例，深层语意理解模块12，可配置为根据处理后的信息，确定用户的意图。

如图4所示，其为本公开实施例提供的深层语意理解模块12的组成示意图。深层语意理解模块12可包括意图识别子模块121，意图识别子模块121可配置为基于意图识别规则和分类算法，结合用户画像，按照关键词、句式，结合实体抽取及文本分类算法确定实体和意图。

另外，意图识别子模块121还可配置为按照关键词和句式确定实体和意图之前，基于关键词和句式确定用户不在执行与投资无关的输入(不在闲聊)，且确定用户不在业务办理流程中。

根据本公开提供的实施例，深层语意理解模块12还可包括语句生成子模块122，语句生成子模块122可配置为在意图识别子模块121基于关键词和句式确定用户在执行与投资无关的输入(在闲聊)时，生成闲聊语句或复述语句，并通过结果反馈模块13反馈至用户。

语句生成子模块122可采用主流Seq2seq方法进行语句生成，这部分可用于闲聊或是语句复述，增加系统的智能性。

如果意图识别子模块121基于关键词和句式确定用户在执行与投资无关的输入(在闲聊)时，若确定用户在询问日期、天气等通用问题，则可以采用通用模板，通过结果反馈模块13反馈至用户。

根据本公开提供的实施例，深层语意理解模块12还包括阅读理解子模块123，阅读理解子模块123可配置为对于多次出现且无法回答的问题，采用阅读理解的方式从金融数据库14的数据信息中获取相应的回答。

阅读理解子模块123可以根据文本及问题，通过其实体和意图找出相关文档，并采用阅读理解的方式获取相应回答，经人工审核后可加入知识库中。知识库中的QA(Question-Answer,问题-回答)对涉及金融领域常见实体或事件，可加入金融数据库14的图谱库中的知识图谱或事理图谱。

阅读理解子模块123可基于R-net、SLQA(Semantic Learning for Question Answering，基于分层融合注意力机制)这类模型实现。

如图5所示，其为本公开实施例提供的阅读理解模型的架构图。以阅读理解模型基于SLQA架构为例，该架构在特定任务上已经超越了人类。由于金融领域的复杂性，本系统在使用该架构时需要注意相关特征的提取，理论上金融文本特征做得越细，结果会越好。对于多次出现的事件，可采用模板形式提取，从而增加准确性。

该模型可主要分为编码层、注意力层、匹配层和输出层。

编码层：用于表示学习，可以理解为语言模型层，用以将篇章及问题从离散字符转变为蕴含语义的表征向量，采用了多类深度学习方法进行特征提取。

对于文本文件，首先需要训练词向量，优先采用词矩阵表征和预训练的语言模型(基于通用语料)解决一词多义的问题；然后分别采用词向量和字的独热码(One-Hot)表征训练当前文本的语言模型，得到其相关特征。此外，由于基于词、字嵌入(Embedding)学到的特征无法跨文本，故而还需要通过tf-idf和TexTrank提取关键词，并采用CNN对其进行处理。随后，将上述特征进行排列，并采用文本组织(Inception)结构对其进行进一步处理。

对于问题文本，同样需要采用词(词向量得到的方法同上)、字嵌入训练语言模型。由于问题通常较短，故而不需要关键词(每个词都很关键)，但可采用TCN(Temporal Convolutional Network，时间卷积网络)结构对其进一步进行特征抽取(其特征与语言模型区别较大)。随后，同样将上述特征进行排列，并采用文本组织结构对其进行进一步处理。

注意力层：得到有效的问题及篇章表征后，为表达依据问题定位答案过程，缩小备选答案查找范围，将搜索空间通过注意力机制约束，主要进行多层融合注意力表示，对问题和篇章进行相关性对齐(Align)，并不断补充全局信息(Fusion)，每一次对齐都基于下层信息并在此基础上更加细化，采用的方式分别为Co-Attention(篇章到问题，问题到篇章)，Self-Attention(问题自身，篇章自身)。

在实际实现时，对于文本特征，首先将之前传入的特征进行嵌入(可采用全连接结构)，然后将问题的嵌入特征一起进行排列，并对排列后的结果进行Q2P(问题到段落)的注意力机制计算，并将其权重和嵌入结果进行融合(相加或者拼接)。对于融合后的结果，将其与嵌入结果相乘进行语义表示，然后将其与该文本的领域特征(向量表示)放在一起进行自排列(拼接)，然后对于该矩阵进行P2P(段落到段落)注意力机制计算。

对于问题特征，其处理方式与文本特征类似，区别是不需要引入额外的领域特征信息。

匹配层：用于做融合信息后的问题和篇章匹配，采用双线性矩阵来学习经过多层信息过滤后的篇章和问题匹配参数，由于在前一阶段无关信息已经被过滤，最后的匹配可完成答案的定位工作。需要注意的是，文本特征处理时，需将P2P注意力机制得到的结果与之前的语义表示一起进行权重融合，在处理问题特征时不需要这一步操作。

输出层：结合匹配信息对篇章中词汇进行标注，预测相应词汇是答案开始位置或结束位置的概率。之后，模型会抽取可能性最高的一段连续文本作为答案。

该结构中的每一部分都可替换为能实现类似特征处理的其它模块，如编码层可采用多元语法(N-gram)特征训练语言模型，注意力层可以采用多头注意力(Multi-head Attention)结构。

根据本公开提供的实施例，结果反馈模块13，可配置为基于金融数据库14，按照用户的意图为用户提供相应的金融服务。

用户的意图可以包括需要提供金融问题服务、需要提供数据查询服务、需要业务办理服务、需要投资建议服务等。

如图6所示，其为本公开实施例提供的结果反馈模块13的组成示意图。结果反馈模块13可包括回复生成子模块131，回复生成子模块131可配置为深层语意理解模块12按照用户的意图确定用户需要提供金融问题服务时，查询金融数据库14中的图谱库，确定存在相应的答案时，输出该答案。

在明确用户意图后，回复生成子模块131通过数据检索、图谱推理或是各类模型的结果得到合理的回复。

根据本公开提供的实施例，回复生成子模块131可配置为：查询图谱库中的知识图谱，确定有相匹配的实体和意图时，通过与金融数据库中的知识库中的映射关系确定相应的答案，输出答案；或者，查询图谱库中的知识图谱，确定没有相匹配的实体和意图时，查询图谱库中的事理图谱，确定有相应的事件，按照事理图谱进行推断分析，输出答案。

根据本公开提供的实施例，结果反馈模块13，还可包括相似度匹配子模块132，相似度匹配子模块132可配置为基于金融数据库14中的知识库，将用户输入的信息与标准问题进行相似度匹配。

相似度匹配子模块132可以分别通过传统相似度特征的组合训练冷启动相似度算法，以及根据领域数据训练相应的深度学习模型进行相似度匹配算法；前者具备更强的领域迁移性和鲁棒稳定性，后者在特定领域内拥有更高的精度。相似度匹配算法可以进行知识库中QA对的检索，同时也可以作为特征辅助其它模块。

回复生成子模块131还可配置为：深层语意理解模块12按照用户的意图确定用户需要提供金融问题服务，基于金融数据库14中的图谱库确定没有相应的答案时，根据相似度匹配子模块132的匹配结果，在相似度大于或等于阈值时，输出标准问题对应的答案。

根据本公开提供的实施例，结果反馈模块13还包括交互子模块133，交互子模块133可配置为在相似度小于阈值时，确定用户输入的信息中包含图谱库中的实体或意图时，基于实体或意图进行反问；或者确定用户的问题中不包含图谱库中的实体或意图时，按照预设规则进行通用反问、回复或推荐信息。

交互子模块133可配置为当用户信息所在领域和意图不清楚时，主动引导交互确定用户意图。此外，该模块会记忆每轮对话的所有语句，起到上下文交互的作用。

根据本公开提供的实施例，回复生成子模块131还可配置为深层语意理解模块12按照用户的意图确定用户需要提供数据查询服务时，按照用户输入的信息中的关键词查询金融数据库14，输出查询结果。

根据本公开提供的实施例，回复生成子模块131还可配置为深层语意理解模块12按照用户的意图确定用户需要业务办理服务时，确定用户需要办理的业务类型，根据业务类型在确定支持办理业务时，执行业务办理服务。

根据本公开提供的实施例，结果反馈模块包括还可包括产品选择子模块134，产品选择子模块134可配置为深层语意理解模块12按照用户的意图确定用户需要投资建议服务时，确定用户需要的投资类型，采用元学习的方式，基于金融数据库中的知识库、产品画像和用户画像，为用户进行产品推荐。

产品选择子模块134可以对各类产品进行分析并给出合理的资产组合，同时防止某个行业流入过多热钱。

根据本公开提供的实施例，金融数据库14可包括图谱库和知识库，图谱库可包含一个知识图谱和多个事理图谱，知识图谱与知识库相关联。

根据本公开提供的实施例，智能投顾系统还可包括：图谱模块15，可配置为将知识库中涉及金融领域的实体或事件加入金融数据库14中的图谱库中。

图谱主要分为金融知识图谱和事理图谱，知识图谱主要基于金融专业知识进行构建，前期人工构建，后期主要通过关系抽取、实体识别及意图识别，基于大量文本消息进行完善，每个行业、每类金融产品将会作为实体，分别带有各自的属性。事理图谱在知识图谱基础上对于重要事件流进行构建，形式为有向有环图，结点代表事件，有向边代表事件之间的顺承、因果关系。整个图谱库由一个知识图谱和多个事理图谱组成，最终可以得到不同事件对不同行业或是不同指数分别会产生怎样的影响，且会对即将发生的事件给出预期。

知识图谱在逻辑上可分为模式层与数据层两个层次，数据层主要是由一系列的事实组成，而知识将以事实为单位进行存储。用(实体1，关系，实体2)、(实体、属性，属性值)这样的三元组来表达事实，选择图数据库作为存储介质，例如开源的Neo4j、Twitter的FlockDB、Sones的GraphDB等。模式层构建在数据层之上，主要是通过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板，通过本体库而形成的知识库不仅层次结构较强，并且冗余程度较小。

需要注意的是，初期金融知识图谱采用自顶向下的构建方式，通过金融知识体系及专家的经验建立图谱框架，并在框架内填入普适性的实体、关系及属性。后期，随着知识不断更新，人的认知能力不断提升，图谱将采用自底向上的方式进行更新迭代。具体构建过程如下：1、对结构化数据及第三方数据库进行数据整合，对半结构化数据及非结构化数据进行实体、关系及属性抽取；2、通过知识推理对实体、关系及属性进行对齐；3、采用实体、关系及属性进行本体构建；4、对构建好的本体进行质量评估，如通过便存入知识图谱中；5、当知识更新时，同样采取质量评估，如通过便进行图谱更新。

事理图谱构建流程与知识图谱类似，所不同的是事理图谱定义了两种事件间关系：一种顺承，一种因果，这两种关系都有时间顺序。此外，知识图谱研究对象为名词性实体及其关系，事理图谱研究对象是谓词性事件及其关系。知识图谱主要知识形式是实体属性和关系，事理图谱则是事理逻辑关系以及概率转移信息。事件间的演化关系多数是不确定的，而实体之间的关系基本是稳定的。

根据本公开提供的实施例，智能投顾系统还可包括：用户画像模块16，可配置为根据用户的属性信息建立或完善用户画像。

用户画像的建立可有助于对用户语句进行意图理解，还可以根据用户的风险偏好给出更好的投资建议。

如图7所示，其为本公开实施例提供的用户画像的示意图。用户的属性信息可包括如下至少之一：年龄因素、家庭收入、可投资金额、家庭负担、投资经验、可接受亏损、心理因素、用户目标数据、用户交互数据、用户行为数据、兴趣爱好。

另外，类似用户画像，金融数据库中还可包括产品画像，产品画像的建立可以在更方便对产品进行评估的同时给用户更精确的推荐，同时可以将多模态多任务模型的分析结果与产品关联，判断其在当前形势下受到的影响。

如图8所示，其为本公开实施例提供的产品画像的示意图。产品属性主要分为产品类型、收益率、最大回撤、关联产业、波动率、美国存托凭证(American Depository Receipt，ADR)、相对强弱指数(Relative Strength Index，RSI)、资产配置、有效前沿、资产相关度、企业状况、其它量化因子等。

得到上述指标后，将其向量化，即每个用户及产品由向量进行表征，并存入金融数据库中。产品向量将随市场的变化而不断变化，而用户向量将根据用户行为不断更新。

根据本公开提供的实施例，数据信息可包括多模态数据，智能投顾系统还可包括：联合学习模块17，可配置为从金融数据库14中获取多模态数据，基于多模态输入的联合学习模型，建立多模态数据与行业之间的关联关系，存入金融数据库14中的知识库中。

联合学习模块17基于多模态输入的联合学习(Joint-Learning)模型，可建立多模态数据与各个行业之间的联系，如供需变化、相关产品价格变化等等。如：美国大选结果公布后，对国内房地产行业的影响，具体标签可通过板块股价等量化数据变化率的形式体现。该部分结果若多次出现，经人工审核后可加入图谱。

如图9所示，其为本公开实施例提供的多模态联合学习模型的架构图。本模型的主要输入为结构化的文本数据、宏观市场数据和图片数据，图片数据除了可采用R-CNN(Region-CNN)系列或是YOLO(You Only Look Once)方法进行目标识别，还可采用主流的组织结构(可采用多层)进行抽象特征提取；然后将这些特征线性拼接后导入全连接层。对于较容易进行语义理解的图片，可不作为网络输入，直接将文本语义表示作为结构化文本输入。结构化文本数据先采用三种方法进行处理，其一是提取传统特征，包括文本包含多少词这类简单特征以及主题模型这类较为复杂的特征，这部分提取的特征都是由数字或者向量进行表示，然后将这些特征进行归一化后拼接并导入全连接层(fc)。其二是采用tf-idf(Term Frequency–Inverse Document Frequency，词频-逆文本频率指数)、TextRank等方法进行文档关键词提取，并采用 Word2vec(Word to Vector，词向量)方法进行表示，通常采用FastText训练Skip-Gram模型可以得到最好的表征效果，然后将拼接后的矩阵导入多层ResNet模块进行特征抽取；这里采用ResNet的原因是关键词拼接得到的矩阵不用考虑前后相关性，而实际实验中发现该类结构能比TextCNN起到更好的特征提取效果。其三是对文本进行摘要，这部分采用传统方法和Seq2seq方法结合的方式提取，这两类方法得到的结果具有较大差异性，故而组合两类方法的结果具有意义。随后，采用句编码器(sentence encoder)的方法进行句编码，再分别采用残差模块和TCN进行特征抽取(具体层数视情况而定)。关键词部分不采用TCN的原因是这部分不考虑词序，但需要对每个关键词在文档中出现的位置进行编码，加入到词表征中，以提升效果。

宏观市场数据包括道琼斯指数、汇率、存款利率、贷款利率等。该类数据的不同组合代表着全球金融市场处于不同的形势下，故而加入这类数据有重要的意义。这类数据的特征处理较为简单，只需要将其归一化后导入全连接层即可。通过将这类数据和上述文本数据的嵌入，可得到当前金融市场的抽象表征，嵌入时可采用拼接嵌入、分层嵌入或者分块嵌入的方式，然后将其结果导入全连接层，当嵌入结果不是向量而是矩阵时，也可采用CNN或者其它更强的特征提取层对其进一步处理。

由于金融市场具有完整性，故而在本公开提供的实施例中将不同行业的输出模块放在一起训练，这就是典型的联合学习(Joint Learning)结构。只要不同任务中具有相关性，该结构已经证明了能取得比单模型更好的效果。在联合学习时，加入各个行业相关的强关联特征，从而可以更好的预测某天的文本数据在当前形势下会对某个行业带来何种影响。

根据本公开提供的实施例，智能投顾系统还可包括：元学习模块18，可配置为基于元学习的方式建立注意力模型，根据注意力模型优化联合学习模型。

元学习模块18可以分两部分，第一部分基于元学习思想设计通用的注意力(Attention)模型，改进多模态输入的多任务联合学习模型；第二部分采用元-评判网络(Meta-critic Network)的思路学习更好的损失(Loss)，该部分主要通过强化学习在不同场景下进行人的行为预测，从而辅助系统决策，提升系统的准确性和智能性。

如图10所示，其为本公开实施例提供的注意力模型的示意图。第一部分的基本思路是：人的注意力是可以利用以往的经验来实现提升的，那么利用以往的任务来训练一个Attention模型，从而面对新的任务，能够直接关注最重要的部分。本系统构造一个Attention机制，最后的标签判断通过Attention的叠加得到，而Attention则通过历史样本及新样本函数变换后的组合训练得到。基本目的就是利用已有任务训练出一个好的Attention模型。该模块可以单独训练一个分类模型，与联合学习得到的结果进行组合(Ensemble)；也可以嵌入到多模态联合学习的模型中联合训练，从而提升最终结果。

该方法主要用于训练样本较少的类别，使用时，需要将该类别的历史样本进行序列化编码，然后对其编码信息进行特征提取，进入中间层。对于新样本，除了进行编码后导入中间层，还需与历史样本的编码结果进行Attention计算(可采用Multi-head Attention这类新型Attention方法)，计算得到的权重即为新样本与历史样本之间的关联度，从而可以从历史样本对各个行业的影响判断新样本对各个行业的影响。

第二部分较为独立，通过当前形势分析及事理图谱建立状态空间，再基于每个状态建立行为空间及反馈，最终得到人的最佳行为。这部分主要是与产品选择子模块134结合，对金融市场进行更好的预判，因为大多数人的行为将在未来体现在市场上。这里假设大部分资金的持有者是理智的，即有钱人足够聪明。如图11所示，其为本公开实施例提供的元-评判网络结构示意图。从图11中可以看出本系统构造了一个元-评判网络来学习预测行为网络(Actor Network)的损失，该元-评判网络可包括元-价值网络(Meta-Value Network，MVN)和任务-行为编码(Task-Actor Encoder，TAEN)。

使用元-评判网络时，可分为元学习步骤及元测试步骤，元学习的步骤可如表1所示。

表1：元学习的步骤。

输入：任务生成器T；
输出：训练好的任务及价值网络；
1、初始化：任务和价值网络；
2、For episode＝1 to max episode do；
3、从T中生成任务M；
4、初始化M的策略网络(执行器)；
5、For step＝1 to max steps do；
6、采用小批量对任务进行采样；
7、For每一个小批量中的任务do；
8、从任务中采样训练数据；
9、训练特定任务执行器；
10、End；
11、训练价值网络；
12、训练任务网络；

13、End；
14、End。

元测试的步骤可如表2所示。

表2：元测试的步骤。

输入：没见过的任务，训练好的任务和价值网络；
输出：训练好的策略网络；
1、初始化：策略网络(执行器)；
2、For step＝1 to max step do；
3、从任务中采样训练数据；
4、训练执行器；
5、End。

根据本公开提供的实施例，智能投顾系统还可包括：数据模型管理模块19。

如图12所示，其本公开实施例提供的数据模型管理模19块组成示意图。数据模型管理模块19可包括对话管理子模块191和模型管理子模块192。

对话管理子模块191可配置为存储对话数据，包括原始文本数据及处理后的特征数据，进行有效的会话管理。

模型管理子模块192可配置为维护数据处理模块、深层语义理解模块、联合学习模块及元学习模块需要的算法库、规则库以及金融数据库等。

综上所述，本公开实施例提供的智能投顾系统，具有金融市场分析及智能聊天机器人的功能，通过从多元异构数据源获取数据，进行文本结构化处理，将有用的信息存入分布式数据库中。基于大量文本及各类宏观市场数据，本公开实施例通过多模态联合学习模型建立其与各行业的联系，从而可以通过近期新闻和数据分析整个金融市场的变化。该模型采用离线训练，考虑网络前馈较为耗时，系统每隔一段时间对当天文本及数据进行分析，保存重要结果便于调用。元学习模块18主要有两个作用，第一个是改进模型，解决小样本问题；第二个是通过之前模型的结果学习人的行为。

图谱与语义理解相辅相成，图谱的知识点和事件可用于更好的对文本进行理解，而从文本中抽取出的新常见实体和关系可用于知识图谱的扩充。

系统中智能聊天机器人部分通过数据处理和语义理解，结合用户画像更好的理解用户意图。此外，通过用户在系统上的行为，可对用户画像进行不断的完善及修正。

与业界相关方案相比，本系统更加智能化、人性化。

参照前述针对智能投顾的描述，本公开实施例还提供一种智能投顾的实现方法。如图13所示，其为本公开实施例提供的智能投顾的实现方法的一种流程图，该方法可包括：步骤201和步骤202。

在步骤201中，基于自然语言处理NLP对多元异构数据源的数据进行处理，将得到的数据信息加入金融数据库。

在步骤202中，根据用户输入的信息，确定用户的意图，基于金融数据库，按照用户的意图为用户提供金融服务。

根据本公开提供的实施例，由于步骤201可以是定期或实时执行，所以步骤201和202的执行顺序不限。

根据本公开提供的实施例，通过基于NLP对来自多元异构数据源的数据进行处理，可以获取实时完善的金融数据信息，结合意图识别，可以为用户提供准确的金融市场分析及数据分析服务，从而给用户更精准且方便快捷的金融服务。

如图14所示，其为本公开实施例提供的对来自多元异构数据源的数据进行处理的一种流程图。根据本公开提供的实施例，基于NLP对来自多元异构数据源的数据进行处理，可包括步骤301-步骤303。

在步骤301中，对数据进行数据解析，得到文本数据。

在步骤302中，对文本数据进行文本分析，得到文本信息。

在步骤303中，，根据文本信息进行信息抽取，得到结构化文本数据。

其中，来自多元异构数据源的数据可以是各类新闻、评论、研报、宏观市场数据等。

根据本公开提供的实施例，数据解析，可包括如下操作中的至少之一：html解析、word解析、pdf解析。

根据本公开提供的实施例，文本分析，包括如下操作中的至少之一：文本清洗、章节结构分析、句法分析、表情识别、图片提取。

根据本公开提供的实施例，根据文本信息进行信息抽取，包括如下操作中的至少之一：命名实体识别、关系抽取、事件抽取、表格信息抽取。

其中，对于命名实体识别，可包括实体消歧、LSTM+CRF、基于实体库的规则抽取等；关系/事件抽取可包括动态卷积神经网络、带注意的事件识别、强化学习、加入外部知识的远程监督等；表格信息抽取可包括表格结构分析、表格对齐、表格补全等。

根据本公开提供的实施例，根据文本信息进行信息抽取之前，还包括：对文本信息进行摘要处理。

摘要处理是指将长文本变为短文本，从而便于进一步分析和事件抽取。其中，长文本和短文本可以根据预设的规则定义，例如，500字以上的文本定义为长文本，小于500字的文本定义为短文本。在文本分析之后进行摘要处理，也可以在数据解析之后进行摘要处理，也可以在文本分析过程中进行摘要处理。

根据本公开提供的实施例，数据信息可包括多模态数据，该方法还可包括：从金融数据库中获取多模态数据，基于多模态输入的联合学习模型，建立多模态数据与行业之间的关联关系，存入金融数据库中的知识库中。

基于多模态输入的联合学习模型，可建立多模态数据与各个行业之间的联系，如供需变化、相关产品价格变化等等。如：美国大选结果公布后，对国内房地产行业的影响，具体标签可通过板块股价等量化数据变化率的形式体现。该部分结果若多次出现，经人工审核后可加入图谱。

如图15所示，其为本公开实施例提供的联合学习的流程图。根据本公开提供的实施例，多模态数据包括结构化文本数据、宏观市场数据和图片数据。从金融数据库中获取多模态数据，基于多模态输入的联合学习模型，建立多模态数据与行业之间的关联关系，可包括步骤401-步骤404。

在步骤401中，从金融数据库中获取结构化文本数据、宏观市场数据及图片数据。

在步骤402中，进行多模态数据的特征提取。

在步骤403中，将多模态数据的特征嵌入，将嵌入后的特征进行全连接。

在步骤404中，将全连接的结果与每个行业对应的强关联特征嵌入，进行联合优化，建立多模态数据与行业之间的关联关系。

根据本公开提供的实施例，该方法还可包括：基于元学习的方式建立注意力模型，根据注意力模型优化联合学习模型。

参照图10，构造一个Attention机制，最后的标签判断通过Attention的叠加得到，而Attention则通过历史样本及新样本函数变换后的组合训练得到。基本目的就是利用已有任务训练出一个好的Attention模型。该模块可以单独训练一个分类模型，与联合学习得到的结果进行组合；也可以嵌入到多模态联合学习的模型中联合训练，从而提升最终结果。

根据本公开提供的实施例，金融数据库可包括图谱库和知识库，图谱库可包含一个知识图谱和多个事理图谱，知识图谱与知识库相关联。

根据本公开提供的实施例，该方法还可包括：将知识库中涉及金融领域的实体或事件加入金融数据库中的图谱库中。

初期知识图谱采用自顶向下的构建方式，通过金融知识体系及专家的经验建立图谱框架，并在框架内填入普适性的实体、关系及属性。后期，随着知识不断更新，人的认知能力不断提升，图谱将采用自底向上的方式进行更新迭代。

根据本公开提供的实施例，金融数据库可包括用户画像，该方法还可包括：根据用户的属性信息建立或完善用户画像；其中，用户的属性信息包括如下至少之一：年龄因素、家庭收入、可投资金额、家庭负担、投资经验、可接受亏损、心理因素、用户目标数据、用户交互数据、用户行为数据、兴趣爱好。

如图16所示，其为本公开实施例提供的确定用户的意图的流程图。根据本公开提供的实施例，根据用户输入的信息，确定用户的意图，可包括步骤501和步骤502。

在步骤501中，根据用户输入的信息，获取关键词和句式。

在步骤502中，基于意图识别规则和分类算法，结合用户画像，按照关键词和句式确定实体和意图。

根据本公开提供的实施例，基于意图识别规则和分类算法，结合用户画像，按照关键词和句式确定实体和意图之前，该方法还可包括：基于关键词和句式确定用户不在执行与投资无关的输入(不在闲聊)，且确定用户不在业务办理流程中。

其中，基于关键词和句式确定用户在执行与投资无关的输入(在闲聊)时，生成闲聊语句或复述语句，将回复反馈至用户。

其中，如果基于关键词和句式确定用户在执行与投资无关的输入(在闲聊)时，若确定用户在询问日期、天气等通用问题，则可以采用通用模板，将回复反馈至用户。

根据本公开提供的实施例，用户输入的信息包括问题时，该方法还可包括：对于多次出现且无法回答的问题，采用阅读理解的方式从金融数据库的数据信息中获取相应的回答。

其中，可基于R-net、SLQA这类模型，通过其实体和意图找出相关文档，并采用阅读理解的方式获取相应回答。

根据本公开提供的实施例，采用阅读理解的方式从金融数据库的数据信息中获取相应的回答之后，该方法还可包括：将审核通过的问题和相应的回答加入金融数据库中的知识库中。

知识库中的QA(问题-回答)对如果涉及金融领域常见实体或事件，可加入金融数据库的图谱库中的知识图谱或事理图谱。

根据本公开提供的实施例，基于金融数据库，按照用户的意图为用户提供相应的金融服务，可包括：按照用户的意图确定用户需要提供金融问题服务时，查询金融数据库中的图谱库，确定存在相应的答案时，输出答案。

根据本公开提供的实施例，查询金融数据库中的图谱库，确定存在相应的答案时，输出答案，可包括：查询图谱库中的知识图谱，确定有相匹配的实体和意图时，通过与金融数据库中的知识库中的映射关系确定相应的答案，输出答案；或者，查询图谱库中的知识图谱，确定没有相匹配的实体和意图时，查询图谱库中的事理图谱，确定有相应的事件，按照事理图谱进行推断分析，输出答案。

根据本公开提供的实施例，基于金融数据库，按照用户的意图为用户提供相应的金融服务，可包括：按照用户的意图确定用户需要提供金融问题服务，基于金融数据库中的图谱库确定没有相应的答案时，基于金融数据库中的知识库，将用户输入的信息与标准问题进行相似度匹配，在相似度大于或等于阈值时，输出标准问题对应的答案。

其中，分别通过传统相似度特征的组合训练冷启动相似度算法，以及根据领域数据训练相应的深度学习模型进行相似度匹配算法；前者具备更强的领域迁移性和鲁棒稳定性，后者在特定领域内拥有更高的精度。

根据本公开提供的实施例，将用户输入的信息与标准问题进行相似度匹配，在相似度小于阈值时，该方法还可包括：确定用户输入的信息中包含图谱库中的实体或意图时，基于实体或意图进行反问；或者，确定用户的问题中不包含图谱库中的实体或意图时，按照预设规则进行通用反问、回复或推荐信息。

根据本公开提供的实施例，基于金融数据库，按照用户的意图为用户提供相应的金融服务，可包括：按照用户的意图确定用户需要提供数据查询服务时，按照用户输入的信息中的关键词查询金融数据库，输出查询结果。

根据本公开提供的实施例，查询结果为数据库没有包含查询内容时，该方法还可包括：确定用户输入的信息中包含金融数据库的图谱库中的实体或意图时，基于实体或意图进行反问；或者，确定用户的问题中不包含图谱库中的实体或意图时，按照预设规则进行通用反问、回复或推荐信息。

根据本公开提供的实施例，基于金融数据库，按照用户的意图为用户提供相应的金融服务，可包括：按照用户的意图确定用户需要业务办理服务时，确定用户需要办理的业务类型，根据业务类型在确定支持办理该业务时，执行业务办理服务。

根据本公开提供的实施例，基于金融数据库，按照用户的意图为用户提供相应的金融服务，可包括：按照用户的意图确定用户需要投资建议服务时，确定用户需要的投资类型；以及，采用元学习的方式，基于金融数据库中的知识库、产品画像和用户画像，为用户进行产品推荐。

如图17所示，其为本公开实施例提供的采用元学习的方式，基于金融数据库中的知识库、产品画像和用户画像，为用户进行产品推荐的流程图。根据本公开提供的实施例，采用元学习的方式，基于金融数据库中的知识库、产品画像和用户画像，为用户进行产品推荐，可包括步骤601-步骤605。

在步骤601中，基于金融数据库中的知识库、产品画像和用户画像，构建环境、行为和状态空间。

在步骤602中，构建优化目标。

在步骤603中，进行任务-行为编码，计算不同状态下不同行为所带来的回报。

在步骤604中，将任务-行为编码嵌入到元-价值网络中，学习任务的损失函数。

在步骤605中，进行策略-梯度训练，优化特定环境及特定状态下的行为，根据优化后的行为，为用户进行产品推荐。

在图17中，通过当前形势分析及事理图谱建立状态空间，再基于每个状态建立行为空间及反馈，最终得到人的最佳行为。

如图18所示，其为本公开实施例提供的深层语义理解及结果反馈的流程图，深层语义理解及结果反馈的流程可包括步骤701-步骤728。

在步骤701中，判断用户是否在闲聊；如果是，用户输入的信息与金融无关，便转入闲聊部分进行处理，执行步骤702；如果否，执行步骤705。

在步骤702中，判断用户是否询问日期、天气等通用问题；如果是，执行步骤703；如果否，执行步骤704。

在步骤703中，采用通用模板，将回复反馈至用户。

在步骤704中，通过语句生成的方式，生成闲聊语句或复述语句，将回复反馈至用户。

在步骤705中，若不在闲聊，优先判断是否还在流程中；若当前处于某个业务办理流程，执行步骤706；若确认此时不处于业务办理流程，执行步骤708。

在步骤706中，判断是否要终止流程；若是，执行步骤708；若否，执行步骤707。

在步骤707中，引导用户完成该业务办理。

在步骤706～707中，若当前处于某个业务办理流程，则优先引导用户完成该业务办理，除非用户想主动终止该流程。

在步骤708中，基于用户画像和前后文对用户意图进行识别。

在步骤709中，判断意图是否明确，若不明确，执行步骤710；若明确，针对不同类型问题采用不同处理流程；在判断金融问题时，执行步骤711；在判断是数据查询时，执行步骤719；在判断进行业务办理时，执行步骤722；在判断进行投资建议时，执行步骤726。

在步骤710中，进行通用反问，力求做到准确无误。

在步骤711中，查找知识图谱，判断是否有相应的实体和意图；若有，通过与知识库的映射关系找到相应答案，执行步骤718；若没有，执行步骤712。

在步骤712中，查找事理图谱，若有相应事件，根据事理图谱进行推断分析，执行步骤718；若没有，执行步骤713。

在步骤713中，基于知识库与标准问题进行相似度匹配。

在步骤714中，判断是否有大于阈值的标准问题，若是，执行步骤718；若否，执行步骤715。

在步骤715中，从图谱中寻找是否含有相应实体或意图，若有，执行步骤716；若没有，执行步骤717。

在步骤716中，基于图谱中的实体或意图进行反问。

在步骤717中，进行通用反问，告诉用户该问题暂时没有答案，同时可以给用户推荐一些相似度高的热点问题，并继续进行交互。

在步骤718中，给用户相应回复。

在步骤719中，通过关键词提取确定查询内容。

在步骤720中，判断金融数据库中释放包含查询内容，若是执行步骤721；若否，执行步骤715。

在步骤721中，给用户相应结果。用户可通过点击界面获取相关内容。

在步骤722中，判断用户需要办理的业务类型。

在步骤723中，判断是否支持该业务办理，若是，执行步骤724；若否，执行步骤725。

在步骤724中，进入业务办理流程。

在步骤725中，给用户反馈无法办理的回复。

在步骤726中，判断用户需要的投资类型。

在步骤727中，结合元学习模块和产品画像判断最近形式对哪些产品有利。

在步骤728中，结合用户画像给用户投资建议。

本流程中不涉及长文本算法的调用，原因是长文本处理时间过长，会导致用户等待，从而影响体验。长文本处理工作在离线完成，分析结果存储在金融数据库中，便于上述流程调用。

下面以一些具体实例对本公开实施例提供的智能投顾的实现方法进行说明。

实例1：银行智能客服系统

该系统可用于银行虚拟客服中。与传统智能客服系统不同的是，该系统可更好的回答金融相关问题，或是给出投资建议。对于不同用户，可结合用户多维度的画像给出更好的意图理解。针对银行业务领域时，知识库及图谱中要加入相关内容。如图19所示，其为本公开实施例提供的智能投顾的实现方法的另一种流程图。该方法可包括步骤801-步骤806。

在步骤801中，根据用户的个人信息、历史存贷款及购买理财产品的行为，结合预设的问题，初步建立用户画像。

在步骤802中，判断用户是否为闲聊，若是，则进入闲聊模块；若不是，则判断是否正在进行业务流程。如用户说：“我想办理信用卡”，则判断其不属于闲聊。

在步骤803中，如果在进行业务流程，则引导用户完成业务办理；若没有，则通过用户画像理解用户意图。对于之前的问题，会自动转入意图识别。

在步骤804中，基于用户画像和上下文进行意图识别，若意图明确，则继续流程；如果不明确，则进行反问。对于“我想办理信用卡”，意图明确，系统识别为业务办理，则开始业务办理流程。

在步骤805中，根据语义模板，相似度计算等方法识别用户要办理的业务类型。这里，识别为“信用卡办理”业务，银行支持该业务办理。

在步骤806中，按照流程与用户进行交互，引导用户进行业务办理。交互记录将全部保存，方便进行后文语义理解及完善用户画像。

实例2：提供产品资料查询服务

该系统可用于提供产品资料查询服务。如图20所示，其为本公开实施例提供的智能投顾的实现方法的又一种流程图，该方法可包括步骤901-步骤905。

在步骤901中，根据预设问题建立用户画像，进行意图识别，前几步流程与应用实例1类似。如用户问：“我想查看中兴通讯的股票及其相关研报”，该问题识别为产品资料查询问题，故而走数据查询流程。

在步骤902中，挖掘用户问句中的关键词，采用意图分类方法确定其实体和意图。上述问题中，可以确定实体为“股票”和“研报”，意图为“查询”，限定范围为“中兴通讯”。

在步骤903中，系统接收到消息，若查不到，则基于实体或意图进行反问；若能查到，返回一个链接或是按钮，点击后可进入图形化界面。电脑端是类似wind(金融数据和分析工具服务商)的形式，手机端类似同花顺的股票显示界面。整个界面尽量简洁，仅提供用户想要的信息，如该问题中仅提供股票走势及相关研报列表。当然，用户可以通过界面内的进一步点击或搜索获取其它方面信息。

在步骤904中，若用户关闭界面，则视为用户终止该流程。用户的行为记录将被记录，可用于完善用户画像、便于后文语义理解。

在步骤905中，对于问题中多次出现且系统中无法查询的信息，将会在后台记录，经人工审核后可加入新的数据源。

实例3：提供金融市场分析服务

该系统可用于提供金融市场分析服务。如图21所示，其为本公开实施例提供的智能投顾的实现方法的再一种流程图，该方法可包括步骤1001-步骤1007。

在步骤1001中，根据预设问题建立用户画像，进行意图识别。前几步流程与应用实例1类似。如用户问：“海啸席卷上海时，会产生什么影响”，该问题识别为金融相关问题，故而走金融问题流程。

在步骤1002中，挖掘用户问句中的关键词，采用意图分类方法确定其实体和意图。如该问题中，实体为“海啸”、“上海”，意图为“影响”。

在步骤1003中，查找知识图谱，是否能找到对应的实体意图组合，若能则返回答案；若不能则进入下一环节。上述问题由于不属于传统金融知识点，且对应不到特定行业或是产品，故而知识图谱中无法得到答案。

在步骤1004中，查找事理图谱，确认是否能找到对应的事件。上述问题属于“上海发生自然灾害”这个事件，若已存入事理图谱，则可以返回该事件发生后会带来的一系列后果。这里假设该事件没有存入事理图谱，则进入相似度计算环节。

在步骤1005中，与知识库中的标准问题进行相似度计算。若匹配上标准问题，则基于QA对返回相应结果；若没有，则进入反问环节。相似度计算主要分为两类，传统特征组合的方式可用于冷启动，当数据逐渐增加，可采用深度学习训练改进的DSSM(Deep Structured Semantic Model，深层结构语义模型)提升相似度匹配效果。

在步骤1006中，判断用户问题是否包含知识图谱中存在的实体或是意图；若存在，则基于该实体或是意图进行反问；若不存在，则进行通用反问。如上述问题中，若知识图谱中存在“上海”这个实体，则反问：“您是想问关于上海的xxx问题吗？”所反问问题尽量与最近发生的事件相关，事件基于图3进行提取，并通过图9建立其与各个行业的联系。

在步骤1007中，对于多次出现且系统暂时无法回答的问题，将会在后台记录，并会离线通过图5的方式给出相应回答。这类回复中质量较高的将通过人工审核判断其加入图谱还是知识库中。

实例4：提供投资建议

该系统可用于提供投资建议。如图22所示，其为本公开实施例提供的智能投顾的实现方法的再一种流程图，该方法可包括步骤1101-步骤1105。

在步骤1101中，根据预设问题建立用户画像，进行意图识别。前几步流程与应用实例1类似。如用户问：“我想购买理财产品，买什么合适？”，该问题识别为需要提供投资建议，故而走投资建议流程。

在步骤1102中，挖掘用户问句中的关键词，采用意图分类方法确定其实体和意图。如上述问题中，实体为“理财产品”，意图为“购买”，则判断用户想购买理财产品。

在步骤1103中，基于图9的模型，判断近期的各类文本新闻及宏观数据对哪些行业有利(这部分结果会在离线计算并存储)，并基于产品库找出相关的理财产品，并评估其相关程度。

在步骤1104中，基于用户画像给出相应的产品推荐，如用户厌恶风险，则主要推荐低风险、低收益的产品。

在步骤1105中，用户可基于推荐的产品进行自主组合，用户行为将会在后台记录。用户也可以对推荐结果进行反馈(星级评定)，从而进一步完善用户画像。

实例5：提供数据服务

对于资深金融行业从业者，他们更需要基于完备、即时的数据源进行自主分析判断，而不是看系统的分析结果。该系统可直接提供底层结构化数据及图谱查询服务。如图23所示，其为本公开实施例提供的智能投顾的实现方法的再一种流程图，该方法可包括步骤1201-步骤1205。

在步骤1201中，界面将提供数据库、知识图谱及事理图谱查询的选项，用户可通过点击进入。也可以通过外部接口进行调用。

在步骤1202中，数据库中包含结构化文本数据和宏观市场数据。前者为根据图3处理后的结果，后者包括各类金融产品走势、宏观指数等。

在步骤1203中，知识图谱中存储各类金融知识点，除了宏观金融知识，各类行业之间的联系也会记录在图谱中。

在步骤1204中，事理图谱将记录典型的金融行为过程，主要包含一些周期性金融事件。该部分会随着系统的自学习不断完善。

在步骤1205中，用户对数据库的调用过程同样会在后台记录，进一步完善用户画像。

应用实例6：文本结构化处理

这里着重介绍多元异构数据源获得的数据如何进行结构化处理并存入数据库的流程。如图24所示，其本公开实施例提供的对来自多元异构数据源的数据进行处理的另一种流程图，该流程可包括步骤1301-步骤1309。

在步骤1301中，首先对从数据源获取的文件进行解析，如html文件采用html解析器，pdf文件采用pdf解析器，通过解析器提取文件中有用的文本及图片。

在步骤1302中，进入文本分析器，首先进行文本清洗，然后通过章节分析方法进行粗粒度文本分类。

在步骤1303中，对文本进行句法分析，提取相关的段落及句法特征。

在步骤1304中，对文本中的表情进行识别，转换为文字，同时基于此进行文本情绪分析。

在步骤1305中，提取文件中的图片，并采用图片语义理解的方法对其进行分析(RCNN+RNN)。

在步骤1306中，进入信息抽取器，首先采用规则及深度学习方法对文本进行命名实体识别，提取相应的实体。

在步骤1307中，对文本进行关系及事件抽取，主要采用动态卷积网络，强化学习等方法。

在步骤1308中，对解析得到的表格文件进行结构分析，然后通过表格对齐和补全，抽取完整的表格信息。

在步骤1309中，将清洗后的文本数据和上述抽取的特征及信息，分类存入结构化数据库中。

实例7：行业分析

如图25所示，其为本公开实施例提供的智能投顾的实现方法的再一种流程图，该方法可包括步骤1401-步骤1405。

在步骤1401中，从数据库分别获取结构化文本数据、宏观市场数据及图片数据，根据要处理的问题类别选取不同时间跨度的数据集。如：“近期钢铁行业需求将如何变化？”，则只需读取近期的数据即可。

在步骤1402中，进行多模态数据的特征提取，针对不同类型的数据采用不同特征提取方法。对于长文本数据，除了传统特征和关键词特征，还需要对文本进行摘要，然后将摘要后文本的句向量进行特征提取。

在步骤1403中，将多模态数据的特征嵌入，这里有多种方式，如拼接、归一化后加权和、注意等等。再将嵌入后的特征进行全连接。

在步骤1404中，将上一层的结果处理后与每个行业对应的强关联特征进行嵌入，这里的强关联特征可以采用图3的方法针对特定行业抽取得到，种类不限。如：钢铁行业上市公司的财报数据、钢铁板块研报中提取的事件、股吧中钢铁板块人们的情绪等等。不同类型的数据有其对应的特征提取方式，具体与1402类似。

在步骤1405中，将1404得到的结果进行处理，激活后导入损失函数层，优化目标为所有损失函数的组合。对于该联合优化问题，每个行业指标数量不同，类型不同，统一根据时间跨度进行归类，如长期、中期、短期，根据不同跨度的指标训练不同的联合学习模型。

实例8：推荐优化

如图26所示，其为本公开实施例提供的智能投顾的实现方法的再一种流程图，该方法可包括步骤1501-步骤1505。

在步骤1501中，构建环境、行为和状态空间。环境和行为如当前形势对某些行业的某些指标有利时，给用户推荐的各类产品组合，状态指用户已持有哪些产品、有多少流动资产等。

在步骤1502中，构建优化目标。如用户年化期望收益。当然，当系统用户量巨大，给用户推荐会影响整个市场时，在保证每个用户达到某个收益的前提下，以全局优化为目标更为合理。

在步骤1503中，进行任务-行为编码，计算不同状态下不同行为所带来的回报。

在步骤1504中，将任务-行为编码嵌入到元-价值网络中，学习整个任务的损失函数。

在步骤1505中，进行策略-梯度训练，优化特定环境及状态下的行为。

如图27所示，本公开实施例还提供一种智能投顾系统，该系统可包括存储器1601、处理器1602及存储在存储器1601上并可在处理器1602上运行的计算机程序1603，处理器1602执行程序时实现本公开实施提供的智能投顾的实现方法。

本公开实施例还提供一种计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于执行本公开实施提供的智能投顾的实现方法。

在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些组件或所有组件可以被实施为由处理器，如数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

Claims

一种智能投顾的实现方法，包括：

基于自然语言处理NLP对来自多元异构数据源的数据进行处理，并将得到的数据信息加入金融数据库；

根据用户输入的信息，确定所述用户的意图；以及

基于所述金融数据库，根据所述用户的意图为所述用户提供金融服务。
如权利要求1所述的方法，其中，基于NLP对所述来自多元异构数据源的数据进行处理，包括：

对所述来自多元异构数据源的数据进行数据解析，得到文本数据；

对所述文本数据进行文本分析，得到文本信息；以及

根据所述文本信息进行信息抽取，得到结构化文本数据。
如权利要求2所述的方法，在根据所述文本信息进行信息抽取之前，还包括：对所述文本信息进行摘要处理。
如权利要求1所述的方法，其中，所述数据信息包括多模态数据，所述方法还包括：

从所述金融数据库中获取所述多模态数据；

基于多模态输入的联合学习模型，建立所述多模态数据与行业之间的关联关系；以及

将所述多模态数据与行业之间的关联关系存入所述金融数据库的知识库中。
如权利要求4所述的方法，其中，所述多模态数据包括结构化文本数据、宏观市场数据和图片数据，基于所述多模态输入的联合学习模型，建立所述多模态数据与行业之间的关联关系，包括：

对所述结构化文本数据、所述宏观市场数据以及所述图片数据进行特征提取；

将所述结构化文本数据的特征、所述宏观市场数据的特征以及所述图片数据的特征进行嵌入，并将嵌入后的特征进行全连接；以及

将全连接的结果与每个行业对应的强关联特征进行嵌入，进行联合优化，建立所述多模态数据与行业之间的关联关系。
如权利要求4所述的方法，还包括：

基于元学习的方式建立注意力模型；以及

根据所述注意力模型优化所述联合学习模型。
如权利要求1所述的方法，其中，所述金融数据库包括图谱库和知识库，所述图谱库包含一个知识图谱和多个事理图谱，且所述知识图谱与所述知识库相关联。
如权利要求7所述的方法，还包括：将所述知识库中涉及金融领域的实体或事件加入所述金融数据库的图谱库中。
如权利要求1所述的方法，其中，根据所述用户输入的信息，确定所述用户的意图，包括：

根据所述用户输入的信息，获取关键词和句式；以及

基于意图识别规则和分类算法，根据用户画像、所述关键词和所述句式，确定实体和所述用户的意图。
如权利要求1所述的方法，其中，所述用户输入的信息包括问题，所述方法还包括：对于多次出现且无法回答的问题，采用阅读理解的方式从所述金融数据库的所述数据信息中获取相应的第一答案。
如权利要求10所述的方法，在采用所述阅读理解的方式从所述金融数据库的所述数据信息中获取所述相应的第一答案之后，还包括：将审核通过的所述问题和所述相应的第一答案加入所述金融数据库的知识库中。
如权利要求1所述的方法，其中，基于所述金融数据库，根据所述用户的意图为所述用户提供金融服务，包括：

响应于根据所述用户的意图确定所述用户需要提供金融问题服务，查询所述金融数据库的图谱库，确定存在相应的第二答案；以及

输出所述第二答案。
如权利要求12所述的方法，其中，查询所述金融数据库的图谱库，确定存在所述相应的第二答案，包括：

响应于查询所述图谱库的知识图谱，确定有相匹配的实体和意图，通过与所述金融数据库的知识库中的映射关系确定所述相应的第二答案；或者

响应于查询所述图谱库的知识图谱，确定没有相匹配的实体和意图，查询所述图谱库的事理图谱，确定相应的事件，根据所述事理图谱进行推断分析，确定所述相应的第二答案。
如权利要求1所述的方法，其中，基于所述金融数据库，根据所述用户的意图为所述用户提供金融服务，包括：

响应于根据所述用户的意图确定所述用户需要提供金融问题服务，且基于所述金融数据库的图谱库确定没有相应的答案，基于所述金融数据库的知识库，将所述用户输入的信息与标准问题进行相似度匹配；以及

响应于确定所述用户输入的信息与设定标准问题的相似度大于或等于阈值，输出与所述设定标准问题对应的第三答案。
如权利要求14所述的方法，还包括：

响应于确定所述用户输入的信息与所有标准问题的相似度小于所述阈值，且确定所述用户输入的信息中包含所述图谱库中的实体或意图，基于所述用户输入的信息中包含的所述图谱库中的实体或意图进行反问；或者

响应于确定所述用户输入的信息与所有标准问题的相似度小于所述阈值，且确定所述用户输入的信息中不包含所述图谱库中的实体或意图，根据第一预设规则进行通用反问、回复或推荐信息。
如权利要求1所述的方法，其中，基于所述金融数据库，根据所述用户的意图为所述用户提供金融服务，包括：

响应于根据所述用户的意图确定所述用户需要提供数据查询服务，根据所述用户输入的信息中的关键词查询所述金融数据库，并输出查询结果。
如权利要求16所述的方法，还包括：

响应于所述查询结果为所述金融数据库中没有包含待查询内容，且确定所述用户输入的信息中包含所述金融数据库的图谱库中的实体或意图，基于所述用户输入的信息中包含的所述金融数据库的图谱库中的实体或意图进行反问；或者

响应于所述查询结果为所述金融数据库中没有包含待查询内容，且确定所述用户输入的信息中不包含所述金融数据库的图谱库中的实体或意图，根据第二预设规则进行通用反问、回复或推荐信息。
如权利要求1所述的方法，其中，基于所述金融数据库，根据所述用户的意图为所述用户提供金融服务，包括：

响应于根据所述用户的意图确定所述用户需要业务办理服务，确定所述用户需要办理的业务类型；

根据所述业务类型确定支持办理所述业务；以及

执行所述业务的办理。
如权利要求1所述的方法，其中，基于所述金融数据库，根据所述用户的意图为所述用户提供金融服务，包括：

响应于根据所述用户的意图确定所述用户需要投资建议服务，确定所述用户需要的投资类型；以及

采用元学习的方式，基于所述金融数据库的知识库、产品画像和用户画像，为所述用户推荐产品。
如权利要求19所述的方法，其中，采用元学习的方式，基于所述金融数据库的所述知识库、所述产品画像和所述用户画像，为所述用户推荐产品，包括：

基于所述金融数据库的所述知识库、所述产品画像和所述用户画像，构建环境、行为和状态空间；

构建优化目标；

进行任务-行为编码，计算不同状态下不同行为所带来的回报；

将所述任务-行为编码嵌入到元-价值网络中，学习任务的损失函数；以及

进行策略-梯度训练，优化特定环境及特定状态下的行为，根据优化后的行为，为所述用户推荐产品。
一种智能投顾系统，包括：数据处理模块、深层语意理解模块、结果反馈模块和金融数据库，其中：

所述数据处理模块，配置为基于自然语言处理NLP对来自多元异构数据源的数据进行处理，并将得到的数据信息加入所述金融数据库；以及，获取并处理用户输入的信息，将处理后的信息发送至所述深层语意理解模块；

所述深层语意理解模块，配置为根据所述处理后的信息，确定所述用户的意图；以及

所述结果反馈模块，配置为基于所述金融数据库，根据所述用户的意图为所述用户提供金融服务。
如权利要求21所述的智能投顾系统，其中，所述数据信息包括多模态数据，所述智能投顾系统还包括：

联合学习模块，配置为从所述金融数据库中获取所述多模态数据；基于多模态输入的联合学习模型，建立所述多模态数据与行业之间的关联关系；以及，将所述多模态数据与行业之间的关联关系存入所述金融数据库中的知识库中。
如权利要求22所述的智能投顾系统，还包括：

元学习模块，配置为基于元学习的方式建立注意力模型；以及，根据所述注意力模型优化所述联合学习模型。
一种智能投顾系统，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1～20中任一项所述的智能投顾的实现方法。
一种计算机可读存储介质，其上存储有一个或者多个计算机程序，所述一个或者多个计算机程序可被一个或者多个处理器执行，以实现如权利要求1～20中任一项所述的智能投顾的实现方法。