WO2023108985A1

WO2023108985A1 - 绿色资产的占比的识别方法及相关产品

Info

Publication number: WO2023108985A1
Application number: PCT/CN2022/090023
Authority: WO
Inventors: 诸世卓; 邵熹; 闻心远
Original assignee: 平安科技（深圳）有限公司
Priority date: 2021-12-15
Filing date: 2022-04-28
Publication date: 2023-06-22
Also published as: CN114240672B; CN114240672A

Abstract

一种绿色资产的占比的识别方法及相关产品，涉及人工智能技术领域，该方法包括获取多个数字资产的多份披露数据；基于多份披露数据，确定目标数字资产；将目标数字资产的披露数据输入到机器阅读理解模型，得到多个第一文本段；将各第一文本段分别输入到语义信息提取模型，得到各第一文本段的第一特征向量；将多个第二文本段分别输入到语义信息提取模型，得到每个第二文本段的第二特征向量；根据各第一文本段的第一特征向量以及每个第二文本段的第二特征向量，确定目标第一文本段；将目标第一文本段所描述的资金金额与目标数字资产的总资金金额的比例，作为目标数字资产中的绿色资产的占比。

Description

绿色资产的占比的识别方法及相关产品

优先权申明

本申请要求于2021年12月15日提交中国专利局、申请号为202111538838.2，发明名称为“绿色资产的占比的识别方法及相关产品”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，具体涉及一种绿色资产的占比的识别方法及相关产品。

背景技术

在全球气候变化合作的大背景下，各个管理部门需要厘清在自己管辖范围内的绿色和非绿色资产规模，以便更加科学的部署碳达峰和碳中和的实现路径。

投资机构在实现碳达峰和碳中和的过程中扮演着非常重要的角色，其投资标的的选择实际上将引导企业向绿色产业和碳中和达标的方向发展。

发明人意识到投资机构在统计其绿色投资比例时，由于监管和保密的需要，不能进行跨部门共享，都是由各个部门进行人工统计，主观性较强，精度低。

发明内容

本申请实施例提供了一种绿色资产的占比的识别方法及相关产品，提高数字资产中的绿色资产的占比的识别精度。

第一方面，本申请实施例提供一种基于相似度的数字资产中的绿色资产的占比的识别方法，该方法包括：

获取多个数字资产的多份披露数据，其中，所述多个数字资产与所述多份披露数据一一对应；

基于所述多份披露数据，确定所述多个数字资产中的目标数字资产，其中，所述目标数字资产具有绿色属性；

将所述目标数字资产的披露数据输入到机器阅读理解模型进行文本分割，得到多个第一文本段，其中，所述多个第一文本段用于描述所述目标数字资产的多项资金用途；

将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取，得到各所述第一文本段的第一特征向量；

将多个第二文本段分别输入到所述语义信息提取模型进行语义信息提取，得到所述多个第二文本段中的每个第二文本段的第二特征向量，其中，所述多个第二文本段用于描述多个第一产业，所述多个第一产业为具有绿色属性的产业；

根据各所述第一文本段的第一特征向量以及所述每个第二文本段的第二特征向量，确定各所述第一文本段与所述每个第二文本段的相似度；

根据各所述第一文本段与所述每个第二文本段的相似度，确定所述多个第一文本段中的目标第一文本段；

将所述目标第一文本段所描述的资金用途中规划的资金金额与所述目标数字资产的总资金金额的比例，作为所述目标数字资产中的绿色资产的占比。

第二方面，本申请实施例提供一种绿色资产的占比的识别装置，包括：获取单元和处理单元；

所述获取单元，用于获取多个数字资产的多份披露数据，其中，所述多个数字资产与所述多份披露数据一一对应；

所述处理单元，用于基于所述多份披露数据，确定所述多个数字资产中的目标数字资产，其中，所述目标数字资产具有绿色属性；

将多个第二文本段分别输入到所述语义信息提取模型进行语义信息提取，得到所述多个第二文本段中的每个第二文本段的第二特征向量，其中，所述多个第二文本段用于描述具有绿色属性的多个第一产业；

第三方面，本申请实施例提供一种电子设备，其中，包括：处理器和存储器，所述处理器与所述存储器相连，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，所述计算机程序包括用于执行以下步骤的指令：

第四方面，本申请实施例提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以使得计算机执行以下步骤的指令：

第五方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机可操作来使计算机执行如第一方面所述的方法。

实施本申请实施例，具有如下有益效果：

可以看出，在本申请实施例中，获取债券的披露数据，即可从多个债券中筛选出具有绿色属性的债券，即目标数字资产；然后，基于目标数字资产的披露数据，通过文本分割和相似度匹配技术自动识别出该目标数字资产中的绿色资产的占比，从而无需人工统计，减少了人力成本，以及避免了人工统计的主观性，提高了数字资产中的绿色资产的占比的识别精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种基于相似度的数字资产中的绿色资产的占比的识别方法的流程示意图；

图2为本申请实施例提供的另一种基于相似度的数字资产中的绿色资产的占比的识别方法的流程示意图；

图3为本申请实施例提供的一种绿色资产的占比的识别装置的功能单元组成框图；

图4为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

首先说明，本申请的应用场景主要是识别出债券中的绿色资产的占比。因此，本申请实施例提供涉及的多个数字资产为投资机构所投资的多个债券，后续所提到的数字资产均可以理解为债券，比如，后续提到的第一数字资产，就是一个债券，不再区分，该投资机构为市场上的任意一个投资机构。另外，后续提到目标数字资产可以理解为具有绿色属性的债券。数字资产的所属企业，即是债券的发行企业。每个数字资产的披露数据，即为每个债券的披露数据，其中，每个债券的披露数据一般包含债券的名称、债券所属的企业、债券的规模、债券的各项资金以及各项资金的用途，等等。

参阅图1，图1为本申请实施例提供的一种基于相似度的数字资产中的绿色资产的占比的识别方法的流程示意图。该方法应用于绿色资产的占比的识别装置。该方法包括以下步骤内容：

101：获取多个数字资产的多份披露数据。

示例性的，绿色资产的占比的识别装置可通过爬虫技术获取该多个数字资产的多份披露数据，其中，该多份披露数据与该多个数字资产一一对应。

102：基于所述多份披露数据，确定所述多个数字资产中的目标数字资产，其中，所述目标数字资产具有绿色属性。

首先说明，该目标数字资产的数量可以为一个或多个，也就是说，该多个数字资产具有绿色属性的数字资产可以为一个或多个，本申请中主要以一个目标数字资产为例进行说明。

示例性的，根据第一数字资产的披露数据，确定第一数字资产的资产名称，即债券名称，其中，该第一数字资产为该多个数字资产中的任意一个；然后，对该第一数字资产的资产名称进行关键词识别，得到第一关键词，其中，该第一关键词的数量为一个或多个；最后，若该第一关键词为预设关键词集合中的关键词，则确定该第一数字资产为该目标数字资产。该预设关键词集合是由各个具有绿色属性且与数字资产相关的关键词构成的集合，即对各个绿色债券的债券名称进行关键词提取所得到的关键词构成的集合，比如，该预设关键词集合可以包括：“绿色债券”、“碳中和”，“节能”，等等。即从债券名称确定每个债券是否具有绿色属性，也就是确定每个债券是否为绿色债券。

示例性的，根据第一数字资产的披露数据，确定该第一数字资产的所属企业，即从披露数据中识别出该债券的发行企业；然后，确定该所属企业的所属行业，比如，可以将该所属企业的主营业务产品所属的行业，作为该所属企业的所属行业。最后，确定该所属行业是否为预设行业集合中的行业，若是，则确定该第一数字资产为目标数字资产，其中，该预设行业集合是由各个具有绿色属性的行业组成的集合。具体的，可获取预设文档，比如，《绿色债券支持项目目录》，然后对该预设文档进行实体提取，可得到一个或多个与绿色相关的绿色行业，例如，公共交通、污水处理等；然后，将这些绿色行业组成集合得到该预设行业集合。即从债券的所属行业确定出债券是否为绿色债券。

举例来说，若第一数字资产的披露数据为：债券的类型为“广州地铁集团有限公司2020年度第二期超短期融资券”，则从该披露数据中确定该债券的发行公司为广州地铁集团有限公司，且该发行公司的所属行业为公共交通。由于公共交通为预设行业集合中的行业，则确定该第一数字资产为目标数字资产。

示例性的，对第一数字资产的披露数据进行文本识别，从该披露数据中识别出第三文本段，其中，第三文本段为第一数字资产的披露数据中描述该第一数字资产的多项资金用途的文本段。即通过文本定位找到披露数据中描述该债券的各项资金用途的文本段，然后将各项资金用途的文本段从披露数据中提取出来，得到第三文本段；进一步的，对第三文本段进行语义信息提取，得到该第三文本段的第四特征向量；然后，根据该第四特征向量预测该第一数字资产具有绿色属性的概率；若该概率大于第二阈值，则确定该第一数字资产为目标数字资产。

在本申请的一个实施方式中，上述确定第一数字资产是否具有绿色属性的方式可以通过训练好的模型实现，该模型可以为fasttext，textCNN，BERT模型，等等，本申请对此不做限定。具体的，从债券样本中提取出用于描述资金用途的文本，将提取出的文本作为样本，并为该样本添加标签，该标签用于标识该债券样本是否具有绿色属性。应理解，在选择债券样本时，应该分别选择具有绿色属性和非绿色属性的债券样本，以保证构造出的样本中包含有正样本和负样本；然后，基于提取出的样本以及该样本的标签进行模型训练，得到一个用于预测债券是否有绿色属性的预测模型；最后，通过该预测模型对第三文本段进行语义信息提取，得到该第三文本段的第四特征向量，并通过该预测模型对该第四特征向量进行处理，预测出该第一数字资产具有绿色属性的概率。

应说明，在实际应用中，可以优先选择债券名称或者债券的所属行业确定债券是否具有绿色属性，当这两种方式都无法确定时，则再通过模型预测的方式，去预测债券是否具有绿色属性。

103：将所述目标数字资产的披露数据输入到机器阅读理解模型进行文本分割，得到多个第一文本段，其中，所述多个第一文本段用于描述所述目标数字资产的多项资金用途。

示例性的，预先训练好机器阅读理解(Machine Reading Comprehension，MRC)模型，然后将该目标数字资产的披露数据输入MRC模型中进行文本分割，得到多个第一文本段。

具体的，首先设定MRC所要解决的问题为“哪些文本是用来描述资金的用途的”，输入的文章为目标数字资产的披露数据；然后，通过MRC模型的编码层对问题进行编码，得到第一向量；通过MRC模型的编码层对披露数据中的各个文本段进行编码，得到与各个文本段对应的第二向量；然后，将第一向量和各个文本段的第二向量输入到MRC模型的交互层进行交互，得到问题和各个文本段之间的相似度，将相似度大于预设阈值的文本段作为该多个第一文本段。

举例来说，通过MRC模型对目标数字资产的披露数据进行文本分割，可得到如表1所示的多个第一文本段。

表1：

104：将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取，得到各所述第一文本段的第一特征向量。

其中，该语义信息提取模型是预先训练好的。下面描述对该语义信息提取模型得训练过程。

示例性的，首先构建训练样本。例如，从多个债券的披露数据中提取出与资金用途相关的文本段，并为每个文本段打上标签，其中，该标签用于标识该文本段所描述的资金用途具有绿色属性的实际情况，其中，该资金用途可以为用于绿色产业或者为非绿色产业。例如，表1中示出的资金用途：“用于雅砻江卡拉水电站项目建设”用于的产业项目为“雅砻江卡拉水电站项目建设”，则该资金用途具有绿色属性，即该资金用于用于绿色产业；然后，将打上有标签的各个文本段作为训练样本。进一步的，构建初始模型，其中，该初始模型可以为Bert模型，其包括语义信息提取模型和多层感知器(Multilayer Perceptron，MLP)，其中，该语义信息提取模型和多层感知器的模型参数都是随机初始化得到；然后将训练样本输入到该语义信息提取模型进行语义信息提取，得到训练样本的第三特征向量；将该第三特征向量输入到多层感知器，得到该训练样本属于具有绿色属性的产业的概率；最后，根据该训练样本属于具有绿色属性的产业的概率，以及该训练样本的标签，对该初始模型进行训练，即对语义信息提取模型以及多层感知器的模型参数进行调整，得到目标模型，将该目标模型中的多层感知器删除，得到语义信息提取模型。

示例性的，可以将每个第一文本段输入到语义信息提取模型进行语义信息提取，得到每个第一文本段的第一特征向量。

在实际应用中，在得到目标模型之后，也可以不对目标模型进行删除，直接保留整个目标模型；然后，将每个第一文本段输入到目标模型中进行概率预测，得到每个第一文本段描述的资金用途属于绿色产业的概率，若该概率大于概率阈值，则确定该第一文本段为目标第一文本段，不需要进行相似度的计算，即可直接确定出目标第一文本段，提高绿色资产的占比的识别效率。

105：将多个第二文本段分别输入到所述语义信息提取模型对进行语义信息提取，得到所述多个第二文本段中的每个第二文本段的第二特征向量，其中，所述多个第二文本段用于描述具有绿色属性的多个第一产业。

示例性的，获取多个具有绿色属性的产业，即绿色产业。具体的，对《绿色债券支持项目目录》PDF文档进行实体(该实体为产业)识别，得到多个产业，将该多个产业作为该多个第一产业，并从该PDF文档中提取出用于描述该多个第一产业的多个第二文本段，其中，多个第二文本段用于该多个第一产业；同样的，将每个第二文本段输入到上述的语义信息提取模型进行语义信息提取，得到每个第二文本段的第二特征向量。

106：根据各所述第一文本段的第一特征向量以及所述每个第二文本段的第二特征向量，确定各所述第一文本段与所述每个第二文本段的相似度。

示例性的，可以确定每个第一文本段的第一特征向量与每个第二文本段的第二特征向量之间的相似度，比如，该相似度可以通过两个特征向量之间的欧式距离表征，并将两个特征向量之间的相似度作为每个第一文本段与每个第二文本段之间的相似度。

107：根据各所述第一文本段与所述每个第二文本段的相似度，确定所述多个第一文本段中的目标第一文本段。

示例性的，根据每个第一文本段与每个第二文本段的相似度，从多个第二文本段中确定出与每个第一文本段对应的最大相似度，若该最大相似度大于阈值，则将该第一文本段作为目标文本段。具体的，若该最大相似度大于阈值，则说明该第一文本段所描述的资金用途所属的产业为该最大相似度对应的第二文本段描述的第一产业，即该资金用途所应用的产业是一个绿色产业，因此，可以确定出该资金用途具有绿色属性。

108：将所述目标第一文本段所描述的资金用途中规划的资金金额与所述目标数字资产的总资金金额的比例，作为所述目标数字资产中的绿色资产的占比。

示例性的，获取该目标第一文本段所描述的资金用途中所规划的资金金额，并获取该目标数字资产的总资金金额，即获取该目标债券的总规模；然后，将该目标第一文本段所描述的资金用途中所规划的资金金额与总资金金额的比例，作为该目标数字资产中的绿色资产的占比。

应说明，该目标第一文本段的数量为一个或多个，也就是说，该目标数字资产的多个资金用途中有多项资金用途所应用的产业具有绿色属性。则可以对每个目标第一文本段所描述的资金用途中规划的资金金额与目标数字资产的总资金金额的比例，作为每个目标第一文本段的绿色比例；然后，对每个目标第一文本段的绿色比例求和，得到目标数字资产中的绿色资产的占比。

可以看出，在本申请实施例中，获取债券的披露数据，即可从多个债券中筛选出具有绿色属性的债券，即目标数字资产；然后，基于目标数字资产的披露数据，通过文本分割和相似度匹配技术自动识别出该目标数字资产中的绿色资产的占比(即债券的绿色比例)，从而无需人工统计，减少了人力成本，以及人工统计的主观性，提高了数字资产中的绿色资产的占比的识别精度。

参阅图2，图2为本申请实施例提供的另一种相似度的数字资产中的绿色资产的占比的识别方法的流程示意图。该实施例中与图1所示的实施例相同的内容，此处不再重复描述。本实施例的方法包括以下步骤：

201：获取t时刻下投资机构所投资的多个数字资产的多份披露数据，其中，所述多个数字资产与所述多份披露数据一一对应，所述t时刻为任意时刻。

示例性的，基于爬虫技术以及时间戳，获取多个数字资产在t时刻下的多份披露数据。

202：基于所述多份披露数据，确定所述多个数字资产中的目标数字资产，其中，所述目标数字资产具有绿色属性。

203：将所述目标数字资产的披露数据输入到机器阅读理解模型进行文本分割，得到多个第一文本段，其中，所述多个第一文本段用于描述所述目标数字资产的多项资金用途。

204：将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取，得到各所述第一文本段的第一特征向量。

205：将多个第二文本段分别输入到所述语义信息提取模型进行语义信息提取，得到所述多个第二文本段中的每个第二文本段的第二特征向量，其中，所述多个第二文本段用于描述具有绿色属性的多个第一产业。

206：根据各所述第一文本段的第一特征向量以及所述每个第二文本段的第二特征向量，确定各所述第一文本段与所述每个第二文本段的相似度。

207：根据各所述第一文本段与所述每个第二文本段的相似度，确定所述多个第一文本段中的目标第一文本段。

208：将所述目标第一文本段所描述的资金用途中规划的资金金额与所述目标数字资产的总资金金额的比例，作为所述目标数字资产中的绿色资产的占比。

209：获取所述t时刻下所述目标数字资产的净值。

210：获取所述t时刻下所述投资机构持有所述目标数字资产的份额。

211：根据所述目标数字资产的净值、份额以及绿色资产的占比，确定所述t时刻下所述投资机构持有所述目标数字资产的绿色规模。

示例性的，绿色规模可以通过公式(1)表示：

S _i＝s _i*V _i*R _i 公式(1)；

其中，s _i为所述目标数字资产的绿色资产的占比，V _i为所述t时刻下所述目标数字资产的净值，R _i为所述t时刻下所述投资机构持有所述目标数字资产的份额。

可选的，当目标数字资产的数量为多个时，也就是说，该投资机构所投资的多个数字资产中有多个绿色数字资产时，可以按照上述图2示出的方法确定投资机构持有目标数字资产的绿色规模，然后对持有每个目标数字资产的绿色规模进行求和，得到该投资机构持有多个目标数字资产的绿色规模。

示例性的，投资机构持有多个目标数字资产的绿色规模可以通过公式(2)表示：

其中，n为多个目标数字资产的数量，s _i为n个目标数字资产中的第i个目标数字资产的绿色资产的占比，V _i为t时刻下第i个目标数字资产的净值，R _i为所述t时刻下所述投资机构持有第i个目标数字资产的份额。

可以看出，在本申请实施例中，获取债券的披露数据，即可从多个债券中筛选出具有绿色属性的债券，即目标数字资产；然后，基于目标数字资产的披露数据，通过文本分割和相似度匹配技术自动识别出该目标数字资产中的绿色资产的占比，从而无需人工统计，减少了人力成本，以及人工统计的主观性，提高了数字资产的绿色资产的占比的识别精度。由于统计出的绿色资产的占比比较精确，从而统计出的该投资机构所持有的绿色债券的规模的精度也比较高，因此可以精确的引导企业向绿色产业和碳中和达标的方向发展。

参阅图3，图3本申请实施例提供的一种绿色资产的占比的识别装置的功能单元组成框图。绿色资产的占比的识别装置300包括：获取单元301和处理单元302；

获取单元301，用于获取多个数字资产的多份披露数据，其中，所述多个数字资产与所述多份披露数据一一对应；

处理单元302，用于基于所述多份披露数据，确定所述多个数字资产中的目标数字资产，其中，所述目标数字资产具有绿色属性；

在一些可能的实施方式中，将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取，得到各所述第一文本段的第一特征向量之前，处理单元302，还用于：

构建初始模型，所述初始模型包括语义信息提取模型和多层感知器；

将训练样本输入到所述语义信息提取模型进行语义信息提取，得到所述训练样本的第三特征向量；

将所述第三特征向量输入到所述多层感知器，得到所述训练样本属于具有绿色属性的产业的概率；

根据所述训练样本属于具有绿色属性的产业的概率，以及所述训练样本的标签，对所述初始模型进行训练，得到目标模型；

将所述目标模型中的所述多层感知器删除，得到所述语义信息提取模型。

在一些可能的实施方式中，在根据各所述第一文本段与所述每个第二文本段的相似度，确定所述多个第一文本段中的目标第一文本段方面，处理单元302，具体用于：

根据各所述第一文本段与所述每个第二文本段的相似度，确定各所述第一文本段对应的最大相似度；

将所述多个第一文本段中所对应的最大相似度大于第一阈值的第一文本段，作为所述目标第一文本段。

在一些可能的实施方式中，在基于所述多个数字资产的披露数据，确定所述多个数字资产中的目标数字资产方面，处理单元302，具体用于：

根据第一数字资产的披露数据，确定所述第一数字资产的资产名称，所述第一数字资产为所述多个数字资产中的任意一个；

对所述资产名称进行关键词提取，得到第一关键词；

若所述第一关键词属于预设关键词集合中的关键词，确定所述第一数字资产为所述目标数字资产，其中，所述预设关键词集合是由各个具有绿色属性，且与数字资产相关的关键词构成的集合。

根据第一数字资产的披露数据，确定所述第一数字资产的所属企业，所述第一数字资产为所述多个数字资产中的任意一个；

确定所述所属企业的所属行业；

若所述所属行业为预设行业集合中的行业，则确定所述第一数字资产为所述目标数字资产，其中，所述预设行业集合是由各个具有绿色属性的行业组成的集合。

对第一数字资产的披露数据进行文本识别，从所述披露数据中识别出第三文本段，其中，所述第三文本段为所述第一数字资产的披露数据中描述所述第一数字资产的多项资金用途所组成的文本段；

对所述第三文本段进行语义信息提取，得到所述第三文本段的第四特征向量；

根据所述第四特征向量预测所述第一数字资产具有绿色属性的概率；

若所述第一数字资产具有绿色属性的概率大于第二阈值，则将所述第一数字资产作为所述目标数字资产。

在一些可能的实施方式中，所述多个数字资产为t时刻下投资机构所投资的数字资产，所述t时刻为任意时刻；获取单元301，还用于获取所述t时刻下所述目标数字资产的净值；获取所述t时刻下所述投资机构持有所述目标数字资产的份额；

处理单元302，还用于根据所述目标数字资产的净值、份额以及绿色资产的占比，确定所述t时刻下所述投资机构持有所述目标数字资产的绿色规模；

所述绿色规模满足以下公式：

S _i＝s _i*V _i*R _i

s _i为所述目标数字资产的绿色资产的占比，V _i为所述t时刻下所述目标数字资产的净值， R _i为所述t时刻下所述投资机构持有所述目标数字资产的份额。

参阅图4，图4为本申请实施例提供的一种电子设备的结构示意图。如图4所示，电子设备400包括收发器401、处理器402和存储器403。它们之间通过总线404连接。存储器403用于存储计算机程序和数据，并可以将存储器403存储的数据传输给处理器402。

处理器402用于读取存储器403中的计算机程序执行以下操作：

控制收发器401获取多个数字资产的多份披露数据，其中，所述多个数字资产与所述多份披露数据一一对应；

在一些可能的实施方式中，将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取，得到各所述第一文本段的第一特征向量之前，处理器402还用于执行以下操作：

在一些可能的实施方式中，在根据各所述第一文本段与所述每个第二文本段的相似度，确定所述多个第一文本段中的目标第一文本段方面，处理器402具体用于执行以下操作：

在一些可能的实施方式中，在基于所述多个数字资产的披露数据，确定所述多个数字资产中的目标数字资产方面，处理器402具体用于执行以下操作：

对所述资产名称进行关键词提取，得到第一关键词；

确定所述所属企业的所属行业；

在一些可能的实施方式中，所述多个数字资产为t时刻下投资机构所投资的数字资产，所述t时刻为任意时刻；处理器402还用于执行以下操作：

控制收发器401获取所述t时刻下所述目标数字资产的净值；获取所述t时刻下所述投资机构持有所述目标数字资产的份额；

根据所述目标数字资产的净值、份额以及绿色资产的占比，确定所述t时刻下所述投资机构持有所述目标数字资产的绿色规模；

所述绿色规模满足以下公式：

S _i＝s _i*V _i*R _i

s _i为所述目标数字资产的绿色资产的占比，V _i为所述t时刻下所述目标数字资产的净值，R _i为所述t时刻下所述投资机构持有所述目标数字资产的份额。

具体地，上述收发器401可为图3所述的实施例的绿色资产的占比的识别装置300的获取单元301，上述处理器402可以为图4所述的实施例的绿色绿色资产的占比的识别装置300的处理单元302。

应理解，本申请中的电子设备可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(Mobile Internet Devices，简称：MID)或穿戴式设备等。上述电子设备仅是举例，而非穷举，包含但不限于上述电子设备。在实际应用中，上述电子设备还可以包括：智能车载终端、计算机设备等等。

本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种基于相似度的数字资产的绿色资产的占比的识别方法的部分或全部步骤。所述计算机可读存储介质可以是非易失性，也可以是易失性。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种基于相似度的数字资产的绿色资产的占比的识别方法的部分或全部步骤。

以上对本申请实施例进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种基于相似度的数字资产中的绿色资产的占比的识别方法，其中，包括：

获取多个数字资产的多份披露数据，其中，所述多个数字资产与所述多份披露数据一一对应；

基于所述多份披露数据，确定所述多个数字资产中的目标数字资产，其中，所述目标数字资产具有绿色属性；

将所述目标数字资产的披露数据输入到机器阅读理解模型进行文本分割，得到多个第一文本段，其中，所述多个第一文本段用于描述所述目标数字资产的多项资金用途；

将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取，得到各所述第一文本段的第一特征向量；

将多个第二文本段分别输入到所述语义信息提取模型进行语义信息提取，得到所述多个第二文本段中的每个第二文本段的第二特征向量，其中，所述多个第二文本段用于描述具有绿色属性的多个第一产业；

根据各所述第一文本段的第一特征向量以及所述每个第二文本段的第二特征向量，确定各所述第一文本段与所述每个第二文本段的相似度；

根据各所述第一文本段与所述每个第二文本段的相似度，确定所述多个第一文本段中的目标第一文本段；

将所述目标第一文本段所描述的资金用途中规划的资金金额与所述目标数字资产的总资金金额的比例，作为所述目标数字资产中的绿色资产的占比。
根据权利要求1所述的方法，其中，将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取，得到各所述第一文本段的第一特征向量之前，所述方法还包括：

构建初始模型，所述初始模型包括语义信息提取模型和多层感知器；

将训练样本输入到所述语义信息提取模型进行语义信息提取，得到所述训练样本的第三特征向量；

将所述第三特征向量输入到所述多层感知器，得到所述训练样本属于具有绿色属性的产业的概率；

根据所述训练样本属于具有绿色属性的产业的概率，以及所述训练样本的标签，对所述初始模型进行训练，得到目标模型；

将所述目标模型中的所述多层感知器删除，得到所述语义信息提取模型。
根据权利要求1或2所述的方法，其中，所述根据各所述第一文本段与所述每个第二文本段的相似度，确定所述多个第一文本段中的目标第一文本段，包括：

根据各所述第一文本段与所述每个第二文本段的相似度，确定各所述第一文本段对应的最大相似度；

将所述多个第一文本段中所对应的最大相似度大于第一阈值的第一文本段，作为所述目标第一文本段。
根据权利要求1-3中任一项所述的方法，其中，所述基于所述多个数字资产的披露数据，确定所述多个数字资产中的目标数字资产，包括：

根据第一数字资产的披露数据，确定所述第一数字资产的资产名称，所述第一数字资产为所述多个数字资产中的任意一个；

对所述资产名称进行关键词提取，得到第一关键词；

若所述第一关键词属于预设关键词集合中的关键词，确定所述第一数字资产为所述目标数字资产，其中，所述预设关键词集合是由各个具有绿色属性，且与数字资产相关的关键词构成的集合。
根据权利要求1-3中任一项所述的方法，其中，所述基于所述多个数字资产的披露数据，确定所述多个数字资产中的目标数字资产，包括：

根据第一数字资产的披露数据，确定所述第一数字资产的所属企业，所述第一数字资产为所述多个数字资产中的任意一个；

确定所述所属企业的所属行业；

若所述所属行业为预设行业集合中的行业，则确定所述第一数字资产为所述目标数字资产，其中，所述预设行业集合是由各个具有绿色属性的行业组成的集合。
根据权利要求1-3中任一项所述的方法，其中，所述基于所述多个数字资产的披露数据，确定所述多个数字资产中的目标数字资产，包括：

对第一数字资产的披露数据进行文本识别，从所述披露数据中识别出第三文本段，其中，所述第三文本段为所述第一数字资产的披露数据中描述所述第一数字资产的多项资金用途所组成的文本段；

对所述第三文本段进行语义信息提取，得到所述第三文本段的第四特征向量；

根据所述第四特征向量预测所述第一数字资产具有绿色属性的概率；

若所述第一数字资产具有绿色属性的概率大于第二阈值，则将所述第一数字资产作为所述目标数字资产。
根据权利要求1-6中任一项所述的方法，其中，所述多个数字资产为t时刻下投资机构所投资的数字资产，所述t时刻为任意时刻；所述方法还包括：

获取所述t时刻下所述目标数字资产的净值；

获取所述t时刻下所述投资机构持有所述目标数字资产的份额；

根据所述目标数字资产的净值、份额以及绿色资产的占比，确定所述t时刻下所述投资机构持有所述目标数字资产的绿色规模；

所述绿色规模满足以下公式：

S _i＝s _i*V _i*R _i

s _i为所述目标数字资产的绿色资产的占比，V _i为所述t时刻下所述目标数字资产的净值，R _i为所述t时刻下所述投资机构持有所述目标数字资产的份额。
一种绿色资产的占比的识别装置，其中，包括：获取单元和处理单元；

所述获取单元，用于获取多个数字资产的多份披露数据，其中，所述多个数字资产与所述多份披露数据一一对应；

所述处理单元，用于基于所述多份披露数据，确定所述多个数字资产中的目标数字资产，其中，所述目标数字资产具有绿色属性；

将所述目标数字资产的披露数据输入到机器阅读理解模型进行文本分割，得到多个第一文本段，其中，所述多个第一文本段用于描述所述目标数字资产的多项资金用途；

将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取，得到各所述第一文本段的第一特征向量；

将多个第二文本段分别输入到所述语义信息提取模型进行语义信息提取，得到所述多个第二文本段中的每个第二文本段的第二特征向量，其中，所述多个第二文本段用于描述具有绿色属性的多个第一产业；

根据各所述第一文本段的第一特征向量以及所述每个第二文本段的第二特征向量，确定各所述第一文本段与所述每个第二文本段的相似度；

根据各所述第一文本段与所述每个第二文本段的相似度，确定所述多个第一文本段中的目标第一文本段；

将所述目标第一文本段所描述的资金用途中规划的资金金额与所述目标数字资产的总资金金额的比例，作为所述目标数字资产中的绿色资产的占比。
一种电子设备，其中，包括：处理器和存储器，所述处理器与所述存储器相连，所述存储器用于存储计算机程序，所述处理器用于执行所述存储器中存储的计算机程序，所述计算机程序包括用于执行以下步骤的指令：

获取多个数字资产的多份披露数据，其中，所述多个数字资产与所述多份披露数据一一对应；

基于所述多份披露数据，确定所述多个数字资产中的目标数字资产，其中，所述目标数字资产具有绿色属性；

将所述目标数字资产的披露数据输入到机器阅读理解模型进行文本分割，得到多个第一文本段，其中，所述多个第一文本段用于描述所述目标数字资产的多项资金用途；

将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取，得到各所述第一文本段的第一特征向量；

将多个第二文本段分别输入到所述语义信息提取模型进行语义信息提取，得到所述多个第二文本段中的每个第二文本段的第二特征向量，其中，所述多个第二文本段用于描述具有绿色属性的多个第一产业；

根据各所述第一文本段的第一特征向量以及所述每个第二文本段的第二特征向量，确定各所述第一文本段与所述每个第二文本段的相似度；

根据各所述第一文本段与所述每个第二文本段的相似度，确定所述多个第一文本段中的目标第一文本段；

将所述目标第一文本段所描述的资金用途中规划的资金金额与所述目标数字资产的总资金金额的比例，作为所述目标数字资产中的绿色资产的占比。
根据权利要求9所述的电子设备，其中，将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取，得到各所述第一文本段的第一特征向量之前，所述步骤还包括：

构建初始模型，所述初始模型包括语义信息提取模型和多层感知器；

将训练样本输入到所述语义信息提取模型进行语义信息提取，得到所述训练样本的第三特征向量；

将所述第三特征向量输入到所述多层感知器，得到所述训练样本属于具有绿色属性的产业的概率；

根据所述训练样本属于具有绿色属性的产业的概率，以及所述训练样本的标签，对所述初始模型进行训练，得到目标模型；

将所述目标模型中的所述多层感知器删除，得到所述语义信息提取模型。
根据权利要求10所述的电子设备，其中，所述根据各所述第一文本段与所述每个第二文本段的相似度，确定所述多个第一文本段中的目标第一文本段，包括：

根据各所述第一文本段与所述每个第二文本段的相似度，确定各所述第一文本段对应的最大相似度；

将所述多个第一文本段中所对应的最大相似度大于第一阈值的第一文本段，作为所述目标第一文本段。
根据权利要求11所述的电子设备，其中，所述基于所述多个数字资产的披露数据，确定所述多个数字资产中的目标数字资产，包括：

根据第一数字资产的披露数据，确定所述第一数字资产的资产名称，所述第一数字资产为所述多个数字资产中的任意一个；

对所述资产名称进行关键词提取，得到第一关键词；

若所述第一关键词属于预设关键词集合中的关键词，确定所述第一数字资产为所述目标数字资产，其中，所述预设关键词集合是由各个具有绿色属性，且与数字资产相关的关键词构成的集合。
根据权利要求11所述的电子设备，其中，所述基于所述多个数字资产的披露数据，确定所述多个数字资产中的目标数字资产，包括：

根据第一数字资产的披露数据，确定所述第一数字资产的所属企业，所述第一数字资产为所述多个数字资产中的任意一个；

确定所述所属企业的所属行业；

若所述所属行业为预设行业集合中的行业，则确定所述第一数字资产为所述目标数字资产，其中，所述预设行业集合是由各个具有绿色属性的行业组成的集合。
根据权利要求11所述的电子设备，其中，所述基于所述多个数字资产的披露数据，确定所述多个数字资产中的目标数字资产，包括：

对第一数字资产的披露数据进行文本识别，从所述披露数据中识别出第三文本段，其中，所述第三文本段为所述第一数字资产的披露数据中描述所述第一数字资产的多项资金用途所组成的文本段；

对所述第三文本段进行语义信息提取，得到所述第三文本段的第四特征向量；

根据所述第四特征向量预测所述第一数字资产具有绿色属性的概率；

若所述第一数字资产具有绿色属性的概率大于第二阈值，则将所述第一数字资产作为所述目标数字资产。
一种计算机可读存储介质，其中，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以使得计算机执行以下步骤的指令：

获取多个数字资产的多份披露数据，其中，所述多个数字资产与所述多份披露数据一一对应；

基于所述多份披露数据，确定所述多个数字资产中的目标数字资产，其中，所述目标数字资产具有绿色属性；

将所述目标数字资产的披露数据输入到机器阅读理解模型进行文本分割，得到多个第一文本段，其中，所述多个第一文本段用于描述所述目标数字资产的多项资金用途；

将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取，得到各所述第一文本段的第一特征向量；

将多个第二文本段分别输入到所述语义信息提取模型进行语义信息提取，得到所述多个第二文本段中的每个第二文本段的第二特征向量，其中，所述多个第二文本段用于描述具有绿色属性的多个第一产业；

根据各所述第一文本段的第一特征向量以及所述每个第二文本段的第二特征向量，确定各所述第一文本段与所述每个第二文本段的相似度；

根据各所述第一文本段与所述每个第二文本段的相似度，确定所述多个第一文本段中的目标第一文本段；

将所述目标第一文本段所描述的资金用途中规划的资金金额与所述目标数字资产的总资金金额的比例，作为所述目标数字资产中的绿色资产的占比。
根据权利要求15所述的计算机可读存储介质，其中，将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取，得到各所述第一文本段的第一特征向量之前，所述步骤还包括：

构建初始模型，所述初始模型包括语义信息提取模型和多层感知器；

将训练样本输入到所述语义信息提取模型进行语义信息提取，得到所述训练样本的第三特征向量；

将所述第三特征向量输入到所述多层感知器，得到所述训练样本属于具有绿色属性的产业的概率；

根据所述训练样本属于具有绿色属性的产业的概率，以及所述训练样本的标签，对所述初始模型进行训练，得到目标模型；

将所述目标模型中的所述多层感知器删除，得到所述语义信息提取模型。
根据权利要求16所述的计算机可读存储介质，其中，所述根据各所述第一文本段与所述每个第二文本段的相似度，确定所述多个第一文本段中的目标第一文本段，包括：

根据各所述第一文本段与所述每个第二文本段的相似度，确定各所述第一文本段对应的最大相似度；

将所述多个第一文本段中所对应的最大相似度大于第一阈值的第一文本段，作为所述目标第一文本段。
根据权利要求17所述的计算机可读存储介质，其中，所述基于所述多个数字资产的披露数据，确定所述多个数字资产中的目标数字资产，包括：

根据第一数字资产的披露数据，确定所述第一数字资产的资产名称，所述第一数字资产为所述多个数字资产中的任意一个；

对所述资产名称进行关键词提取，得到第一关键词；

若所述第一关键词属于预设关键词集合中的关键词，确定所述第一数字资产为所述目标数字资产，其中，所述预设关键词集合是由各个具有绿色属性，且与数字资产相关的关键词构成的集合。
根据权利要求17所述的计算机可读存储介质，其中，所述基于所述多个数字资产的披露数据，确定所述多个数字资产中的目标数字资产，包括：

根据第一数字资产的披露数据，确定所述第一数字资产的所属企业，所述第一数字资产为所述多个数字资产中的任意一个；

确定所述所属企业的所属行业；

若所述所属行业为预设行业集合中的行业，则确定所述第一数字资产为所述目标数字资产，其中，所述预设行业集合是由各个具有绿色属性的行业组成的集合。
根据权利要求17所述的计算机可读存储介质，其中，所述基于所述多个数字资产的披露数据，确定所述多个数字资产中的目标数字资产，包括：

对第一数字资产的披露数据进行文本识别，从所述披露数据中识别出第三文本段，其中，所述第三文本段为所述第一数字资产的披露数据中描述所述第一数字资产的多项资金用途所组成的文本段；

对所述第三文本段进行语义信息提取，得到所述第三文本段的第四特征向量；

根据所述第四特征向量预测所述第一数字资产具有绿色属性的概率；

若所述第一数字资产具有绿色属性的概率大于第二阈值，则将所述第一数字资产作为所述目标数字资产。