WO2022142116A1

WO2022142116A1 - 文档处理方法、装置、电子设备及存储介质

Info

Publication number: WO2022142116A1
Application number: PCT/CN2021/096932
Authority: WO
Inventors: 王强
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-12-28
Filing date: 2021-05-28
Publication date: 2022-07-07
Also published as: CN112732897A

Abstract

一种文档处理方法、装置、电子设备及计算机可读存储介质。其中方法包括：接收用户上传的目标文档，通过预设的自动摘要工具生成所述目标文档的文档摘要，并从所述文档摘要中提取目标关键词（S101）；根据提取的目标关键词的数量判断所述目标文档是否符合预设要求，所述预设要求为文档中包含的目标关键词的数量大于预设阈值（S102）；若所述目标文档符合预设要求，则基于预先训练的BERT模型对所述目标文档进行分类及打标签操作，并输出所述目标文档对应的类别及标签（S103）。相较于现有技术，通过本方案，可以根据申购者上传的投资关系证明文档对申购者与发行企业的关系进行自动分类标识，无需用户手动标识，大大减少了人力和时间的消耗。

Description

文档处理方法、装置、电子设备及存储介质

本申请要求于2020年12月28日提交中国专利局、申请号为202011583169.6、申请名称为“文档处理方法、装置、电子设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，具体涉及一种文档处理方法、装置、电子设备及存储介质。

背景技术

狭义的公司上市即首次公开募股Initial Public Offerings(IPO)指企业通过证券交易所首次公开向投资者增发股票，以期募集用于企业发展资金的过程。

许多新股上市以后，相关机构需要对申购者的资格进行审核，只有审核通过的申购者才具有申购资格。相关机构需要对申购者与发行企业的关系、申购者与发行代理的关系等进行审核，以判断申购者的申购资格。

对于申购者提供的投资关系证明文档，以往做法就是人工上传审核资料，然后相关工作人员手动标记申购者与发行企业(或发行代理)的关系，标记之后供审核人员进行审核，发明人发现以往做法效率低，且容易出错，人力和时间成本较高。

发明内容

本申请的目的是提供一种文档处理方法、装置、电子设备及存储介质。

本申请第一方面提供一种文档处理方法，包括：

接收用户上传的目标文档，通过预设的自动摘要工具生成所述目标文档的文档摘要，并从所述文档摘要中提取目标关键词；

根据提取的目标关键词的数量判断所述目标文档是否符合预设要求，所述预设要求为文档中包含的目标关键词的数量大于预设阈值；

若所述目标文档符合预设要求，则基于预先训练的BERT模型对所述目标文档进行分类及打标签操作，并输出所述目标文档对应的类别及标签。

本申请第二方面提供一种文档处理装置，包括：

接收模块，用于接收用户上传的目标文档，通过预设的自动摘要工具生成所述目标文档的文档摘要，并从所述文档摘要中提取目标关键词；

判断模块，用于根据提取的目标关键词的数量判断所述目标文档是否符合预设要求，所述预设要求为文档中包含的目标关键词的数量大于预设阈值；

打标签模块，用于若所述目标文档符合预设要求，则基于预先训练的BERT模型对所述目标文档进行分类及打标签操作，并输出所述目标文档对应的类别及标签。

本申请第三方面提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器运行所述计算机程序时执行以下操作：

本申请第四方面提供一种计算机可读介质，其中存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现以下操作：

本申请第五方面提供一种文档处理设备，包括：

接收单元，用于接收用户上传的目标文档，通过预设的自动摘要工具生成所述目标文档的文档摘要，并从所述文档摘要中提取目标关键词；

判断单元，用于根据提取的目标关键词的数量判断所述目标文档是否符合预设要求，所述预设要求为文档中包含的目标关键词的数量大于预设阈值；

打标签单元，用于若所述目标文档符合预设要求，则基于预先训练的BERT模型对所述目标文档进行分类及打标签操作，并输出所述目标文档对应的类别及标签。

相较于现有技术，本申请提供的文档处理方法、装置、设备及存储介质，接收用户上传的目标文档，通过预设的自动摘要工具生成所述目标文档的文档摘要，并从所述文档摘要中提取目标关键词；根据提取的目标关键词的数量判断所述目标文档是否符合预设要求，所述预设要求为文档中包含的目标关键词的数量大于预设阈值；若所述目标文档符合预设要求，则基于预先训练的BERT模型对所述目标文档进行分类及打标签操作，并输出所述目标文档对应的类别及标签。相较于现有技术，通过本方案，可以根据申购者上传的投资关系证明文档对申购者与发行企业的关系进行自动分类标识，无需用户手动标识，大大减少了人力和时间的消耗。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请所提供的一种文档处理方法的流程图之一；

图2示出了本申请所提供的一种文档处理方法的流程图之二；

图3示出了本申请所提供的一种文档处理方法的流程图之三；

图4示出了本申请的一些实施方式所提供的一种文档处理装置的示意图；

图5示出了本申请的一些实施方式所提供的一种电子设备的示意图；

图6示出了本申请的一些实施方式所提供的一种计算机可读存储介质的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反，提供这些实施方式是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

需要注意的是，除非另有说明，本申请使用的技术术语或者科学术语应当为本申请所属领域技术人员所理解的通常意义。

另外，术语“第一”和“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

本申请实施例提供一种文档处理方法、设备及装置、一种电子设备以及计算机可读存储介质，下面结合附图进行说明。

请参考图1，其示出了本申请的一些实施方式所提供的一种文档处理方法的流程图，如图1所示，该文档处理方法，可以包括以下步骤：

步骤S101：接收用户上传的目标文档，通过预设的自动摘要工具生成所述目标文档的文档摘要，并从所述文档摘要中提取目标关键词；

步骤S102：根据提取的目标关键词的数量判断所述目标文档是否符合预设要求，所述预设要求为文档中包含的目标关键词的数量大于预设阈值；

步骤S103：若所述目标文档符合预设要求，则基于预先训练的BERT模型对所述目标文档进行分类及打标签操作，并输出所述目标文档对应的类别及标签。

实际应用中，用户可以是发行企业发行股票的申购者，目标文档可以是申购者上传的投资关系证明文档，投资关系证明文档是表征申购者与发行企业(或发行代理)投资关系的证明文件。

具体的，投资关系可以包括以下几种：

申购者是发行企业的雇员或者前雇员；

申购者是发行企业的基石投资者；

申购者是发行企业的股东；

申购者是代理商(或保荐商)的股东。

在步骤S101中，接收到用户上传的目标文档后，需要判断目标文档的内容与投资关系的相关性，若相关性很低，则认为用户上传的目标文档无效，可以提示用户目标文档不符合要求，需重新上传。

具体的，在步骤S101中，目标关键词可以是雇员、股东、代理商等，具体可以根据文档中包含的目标关键词的数量是否大于预设阈值，来判断用户上传的目标文档是否符合预设要求。

具体的，步骤S101中判断目标文档是否符合预设要求，可以具体实现为：通过预设的自动摘要工具生成目标文档的文档摘要，并从所述文档摘要中提取目标关键词；在步骤S102中根据提取的目标关键词的数量判断目标文档是否符合预设要求。

若所述目标文档符合预设要求，则说明目标文档的内容与投资关系的相关性较高，若所述目标文档不符合预设要求，则说明目标文档的内容与投资关系的相关性较低。

在步骤S103中，若所述目标文档符合预设要求，则基于预先训练的BERT模型对所述目标文档进行分类及打标签操作，并输出所述目标文档对应的类别及标签。

具体的，可以采用预先训练好的BERT模型来对目标文档进行内容阅读理解和语义分析。BERT的全称是Bidirectional Encoder Representation from Transformers，即多层双向转换编码器。

BERT是一种预训练语言模型，预训练的目的就是，提前训练好下游任务中底层的、共性的部分模型，然后再用下游任务(比如机器翻译、阅读理解等)各自的样本数据来训练各自的模型，这样就可以极大地加快收敛速度。本申请中的样本数据可以是包括发行企业、代理商和申购者的多方数据，以及公开可获知的相关数据。

根据本申请的一些实施方式中，步骤S102中基于预先训练的BERT模型对所述目标文档进行分类及打标签操作，可以具体实现为：

步骤S201：将所述目标文档输入预先训练的BERT模型，得到所述目标文档中的发行企业实体、代理商实体和申购者实体；

步骤S202：根据所述发行企业实体和所述代理商实体，在所述目标文档中找寻所述发行企业实体的关联段落，及所述代理商实体的关联段落；

步骤S203：利用预先训练好的语义分析模型，从所述发行企业实体的关联段落中提取发行企业实体和申购者实体之间的投资关系，及从所述代理商实体的关联段落中提取代理商实体和申购者实体之间的投资关系；

步骤S204：根据预设的投资关系和类别的对应关系，对所述投资关系进行分类以及打上相应标签。

具体的，对投资关系证明文档进行机器内容阅读理解和语义分析，识别出实体。在实体中找到发行企业、代理商、申购者，然后对识别出来的发行企业实体，找寻相关段落，根据语义分析实体之间的关系，识别关系并打上标签,如果是雇员关系，则将文档标记雇员标签，如果是基石投资者关系，则将文档标记基石投资者标签，如果是股东关系，则将文档标记股东标签，等等。若未识别出关系，则提示用户上传文档可能不符要求，然后要求用户详细说明文档中哪些描述能说明投资关系或者补充其他文档。

本申请中，所述BERT模型的训练过程如下：

确定训练文档和初始BERT模型；

将所述训练文档输入所述初始BERT模型；

采集所述初始BERT模型的输出，得到对应于所述训练文档的训练特征表示信息；

根据所述训练特征表示信息，确定所述训练文档的预测类别；

确定所述训练文档的实际类别，并根据所述实际类别与所述预测类别，得到反馈信息；

根据所述反馈信息，调整所述初始BERT模型的模型参数，以得到所述BERT模型。

本申请中，所述语义分析模型采用相关模型训练得到，在此不做赘述。

本申请实施例提供的文档处理方法，接收用户上传的目标文档，并判断所述目标文档是否符合预设要求，所述预设要求为文档中包含的目标关键词的数量大于预设阈值；若所述目标文档符合预设要求，则基于预先训练的BERT模型对所述目标文档进行分类及打标签操作，并输出所述目标文档对应的类别及标签。相较于现有技术，通过本方案，可以根据申购者上传的投资关系证明文档对申购者与发行企业的关系进行自动分类标识，无需用户手动标识，大大减少了人力和时间的消耗。

根据本申请的一些实施方式中，若所述目标文档不符合预设要求，则发出提示信息，以提示用户所述目标文档不符合要求，需重新上传。

根据本申请的一些实施方式中，如图2所示，上述实施例的文档处理方法还可以包括：

步骤S301：对预先获取的包括发行企业、代理商和申购者的多方数据进行谱系分析，以对所述投资关系进行真实性核查；

步骤S302：根据真实性核查结果更新所述投资关系，并对更新后的投资关系进行分类以及打上相应标签。

具体的，以识别股份代持关系为例：比如A申购者实际是B公司股东，然后通过B公司持股发行企业，所以A申购者实际是发行企业的股东，这个关系需要通过公开数据追溯查询、谱系分析才能识别出来。如果申购者上传的文档不完整，可能故意漏掉一些投资关系，所以需要再通过公开数据或者发行企业提供的数据来进行投资关系的真实性核查，确保全面的识别申购者的投资关系。

具体的，谱系分析举例如下：

a.利用公开的数据，分析发行企业股东及类型，个人类型记录在数据表person_inv中，企业类型记录在数据表etp_inv中(表包含字段为：企业名、是否已核查)。

b.对记录在etp_inv中的企业，再进行a步骤分析，继续分析企业的股东及类型。如是个人类型股东，则记录在表person_inv中，如是企业类型记录在数据表etp_inv中。

完成此步核查后，在数据表etp_inv中记录此企业已核查(记录状态)。

c.逐个遍历核查etp_inv中的每个企业股东的股东，直到都是个人股东为止。

d.然后将数据表person_inv中的个人股东，与申购者根据姓名或者身份证号进行一一遍历匹配，看是否有匹配上的，如果有则再判断已识别的申购者的投资者关系是否包含此代持投资关系，若没有包含则提示申购者还需补充提交投资关系证明文档，否则申购将不通过。

本实施方式，基于发行企业、代理商和申购者提供的股权信息、财务数据等信息以及公开可获知的数据进行投资关系的真实性核查，挖掘和正确识别出新股申购者与发行企业、代理商的特殊关系，以满足监管要求。

根据本申请的一些实施方式中，如图3所示，上述实施例的文档处理方法还可以包括：

步骤S303：基于所述目标文档对应的类别及标签，根据预设报告模板生成审核报告。

具体的，基于得到的申购者与上市企业(或代理商)的投资关系，以及真实性核查结果，根据预设报告模板生成审核报告。

根据本申请的一些实施方式中，上述实施例的文档处理方法还可以包括：将所述审核报告和所述目标文档对应存储于数据库中，以便后续使用。

本实施方式，根据申购者上传的投资关系证明文档对申购者与发行企业的关系进行自动分类标识，无需用户手动标识，大大减少了人力和时间的消耗，并且生成申购者的审核报告，供监管人员审核，以提升审核效率。

在上述的实施例中，提供了一种文档处理方法，与之相对应的，本申请还提供一种文档处理装置。本申请实施例提供的文档处理装置可以实施上述文档处理方法，该文档处理装置可以通过软件、硬件或软硬结合的方式来实现。例如，该文档处理装置可以包括集成的或分开的功能模块或单元来执行上述各方法中的对应步骤。请参考图4，其示出了本申请的一些实施方式所提供的一种文档处理装置的示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

如图4所示，所述文档处理装置10，可以包括：

接收模块101，用于接收用户上传的目标文档，通过预设的自动摘要工具生成所述目标文档的文档摘要，并从所述文档摘要中提取目标关键词；

判断模块102，用于根据提取的目标关键词的数量判断所述目标文档是否符合预设要求，所述预设要求为文档中包含的目标关键词的数量大于预设阈值；

打标签模块103，用于若所述目标文档符合预设要求，则基于预先训练的BERT模型对所述目标文档进行分类及打标签操作，并输出所述目标文档对应的类别及标签。

实际应用中，用户可以是发行企业发行股票的申购者，目标文档可以是申购者上传的投资关系证明文档，投资关系证明文档是表征申购者与发行企业

(或发行代理)投资关系的证明文件。

接收到用户上传的目标文档后，需要判断目标文档的内容与投资关系的相关性，若相关性很低，则认为用户上传的目标文档无效，可以提示用户目标文档不符合要求，需重新上传。

具体的，目标关键词可以是雇员、股东、代理商等，具体可以根据文档中包含的目标关键词的数量是否大于预设阈值，来判断用户上传的目标文档是否符合预设要求。

在本申请实施例的一些实施方式中，所述文档处理装置10，还包括：

提示模块，用于若所述目标文档不符合预设要求，则发出提示信息，以提示用户所述目标文档不符合要求，需重新上传。

在本申请实施例的一些实施方式中，所述打标签模块102，具体用于：

将所述目标文档输入预先训练的BERT模型，得到所述目标文档中的发行企业实体、代理商实体和申购者实体；

根据所述发行企业实体和所述代理商实体，在所述目标文档中找寻所述发行企业实体的关联段落，及所述代理商实体的关联段落；

利用预先训练好的语义分析模型，从所述发行企业实体的关联段落中提取发行企业实体和申购者实体之间的投资关系，及从所述代理商实体的关联段落中提取代理商实体和申购者实体之间的投资关系；

根据预设的投资关系和类别的对应关系，对所述投资关系进行分类以及打上相应标签。

在本申请实施例的一些实施方式中，所述投资关系包括：

申购者是发行企业的雇员或者前雇员；

申购者是发行企业的基石投资者；

申购者是发行企业的股东；

申购者是代理商的股东。

核查模块，用于所述打标签模块对所述投资关系进行分类以及打上相应标签之后，对预先获取的包括发行企业、代理商和申购者的多方数据进行谱系分析，以对所述投资关系进行真实性核查；根据真实性核查结果更新所述投资关系，并对更新后的投资关系进行分类以及打上相应标签。

根据本申请的一些实施方式中，所述文档处理装置，还包括：

报告生成模块，用于基于所述目标文档对应的类别及标签，根据预设报告模板生成审核报告。

存储模块，用于将所述审核报告和所述目标文档对应存储于数据库中。

本申请实施例提供的文档处理装置，接收用户上传的目标文档，并判断所述目标文档是否符合预设要求，所述预设要求为文档中包含的目标关键词的数量大于预设阈值；若所述目标文档符合预设要求，则基于预先训练的BERT模型对所述目标文档进行分类及打标签操作，并输出所述目标文档对应的类别及标签。相较于现有技术，通过本装置，可以根据申购者上传的投资关系证明文档对申购者与发行企业的关系进行自动分类标识，无需用户手动标识，大大减少了人力和时间的消耗。并且还可以自动对投资关系进行真实性核查，生成审核报告，以提高审核效率。

本申请还提供一种文档处理设备。本申请实施例提供的文档处理设备可以实施上述文档处理方法。由于设备实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的设备实施例仅仅是示意性的。

所述文档处理设备，可以包括：

在本申请实施例的一些实施方式中，所述文档处理设备，还包括：

提示单元，用于若所述目标文档不符合预设要求，则发出提示信息，以提示用户所述目标文档不符合要求，需重新上传。

在本申请实施例的一些实施方式中，所述打标签单元，具体用于：

在本申请实施例的一些实施方式中，所述投资关系包括：

申购者是发行企业的雇员或者前雇员；

申购者是发行企业的基石投资者；

申购者是发行企业的股东；

申购者是代理商的股东。

核查单元，用于所述打标签单元对所述投资关系进行分类以及打上相应标签之后，对预先获取的包括发行企业、代理商和申购者的多方数据进行谱系分析，以对所述投资关系进行真实性核查；根据真实性核查结果更新所述投资关系，并对更新后的投资关系进行分类以及打上相应标签。

根据本申请的一些实施方式中，所述文档处理设备，还包括：

报告生成单元，用于基于所述目标文档对应的类别及标签，根据预设报告模板生成审核报告。

存储单元，用于将所述审核报告和所述目标文档对应存储于数据库中。

本申请实施例提供的文档处理设备，与本申请前述实施例提供的文档处理方法出于相同的发明构思，具有相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的文档处理方法对应的电子设备，所述电子设备可以是手机、笔记本电脑、平板电脑、台式机电脑等，以执行上述文档处理方法。

请参考图5，其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图5所示，所述电子设备20包括：处理器200，存储器201，总线202和通信接口203，所述处理器200、通信接口203和存储器201通过总线202连接；所述存储器201中存储有可在所述处理器200上运行的计算机程序，所述处理器200运行所述计算机程序时执行本申请前述任一实施方式所提供的文档处理方法。

其中，存储器201可能包含高速随机存取存储器(RAM：Random Access Memory)，也可能还包括非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口203(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网、广域网、本地网、城域网等。

总线202可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中，存储器201用于存储程序，所述处理器200在接收到执行指令后，执行所述程序，前述本申请实施例任一实施方式揭示的所述文档处理方法可以应用于处理器200中，或者由处理器200实现。

处理器200可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器200中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器200可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器201，处理器200读取存储器201中的信息，结合其硬件完成上述方法的步骤。

本申请实施例提供的电子设备与本申请实施例提供的文档处理方法出于相同的发明构思，具有与其采用、运行或实现的方法相同的有益效果。

本申请实施方式还提供一种与前述实施方式所提供的文档处理方法对应的计算机可读存储介质，请参考图6，其示出的计算机可读存储介质为光盘30，其上存储有计算机程序(即程序产品)，所述计算机程序在被处理器运行时，会执行前述任意实施方式所提供的文档处理方法。

需要说明的是，所述计算机可读存储介质可以是非易失性，也可以是易失性的，可以包括但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质，在此不再一一赘述。

本申请的上述实施例提供的计算机可读存储介质与本申请实施例提供的文档处理方法出于相同的发明构思，具有与其存储的应用程序所采用、运行或实现的方法相同的有益效果。

需要说明的是，附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围，其均应涵盖在本申请的权利要求和说明书的范围当中。

Claims

一种文档处理方法，其中，包括：

接收用户上传的目标文档，通过预设的自动摘要工具生成所述目标文档的文档摘要，并从所述文档摘要中提取目标关键词；

根据提取的目标关键词的数量判断所述目标文档是否符合预设要求，所述预设要求为文档中包含的目标关键词的数量大于预设阈值；

若所述目标文档符合预设要求，则基于预先训练的BERT模型对所述目标文档进行分类及打标签操作，并输出所述目标文档对应的类别及标签。
根据权利要求1所述的方法，其中，所述方法还包括：

若所述目标文档不符合预设要求，则发出提示信息，以提示用户所述目标文档不符合要求，需重新上传。
根据权利要求1所述的方法，其中，所述基于预先训练的BERT模型对所述目标文档进行分类及打标签操作，包括：

将所述目标文档输入预先训练的BERT模型，得到所述目标文档中的发行企业实体、代理商实体和申购者实体；

根据所述发行企业实体和所述代理商实体，在所述目标文档中找寻所述发行企业实体的关联段落，及所述代理商实体的关联段落；

利用预先训练好的语义分析模型，从所述发行企业实体的关联段落中提取发行企业实体和申购者实体之间的投资关系，及从所述代理商实体的关联段落中提取代理商实体和申购者实体之间的投资关系；

根据预设的投资关系和类别的对应关系，对所述投资关系进行分类以及打上相应标签。
根据权利要求3所述的方法，其中，所述BERT模型的训练过程包括：

确定训练文档和初始BERT模型；

将所述训练文档输入所述初始BERT模型；

采集所述初始BERT模型的输出，得到对应于所述训练文档的训练特征表示信息；

根据所述训练特征表示信息，确定所述训练文档的预测类别；

确定所述训练文档的实际类别，并根据所述实际类别与所述预测类别，得到反馈信息；

根据所述反馈信息，调整所述初始BERT模型的模型参数，以得到所述BERT模型。
根据权利要求3所述的方法，其中，所述对所述投资关系进行分类以及打上相应标签之后，还包括：

对预先获取的包括发行企业、代理商和申购者的多方数据进行谱系分析，以对所述投资关系进行真实性核查；

根据真实性核查结果更新所述投资关系，并对更新后的投资关系进行分类以及打上相应标签。
根据权利要求3所述的方法，其中，所述方法还包括：

基于所述目标文档对应的类别及标签，根据预设报告模板生成审核报告。
根据权利要求6所述的方法，其中，所述方法还包括：

将所述审核报告和所述目标文档对应存储于数据库中。
一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其中，所述处理器运行所述计算机程序时执行以下操作：

接收用户上传的目标文档，通过预设的自动摘要工具生成所述目标文档的文档摘要，并从所述文档摘要中提取目标关键词；

根据提取的目标关键词的数量判断所述目标文档是否符合预设要求，所述预设要求为文档中包含的目标关键词的数量大于预设阈值；

若所述目标文档符合预设要求，则基于预先训练的BERT模型对所述目标文档进行分类及打标签操作，并输出所述目标文档对应的类别及标签。
根据权利要求8所述的电子设备，其中，所述处理器还用于：

若所述目标文档不符合预设要求，则发出提示信息，以提示用户所述目标文档不符合要求，需重新上传。
根据权利要求8所述的电子设备，其中，所述处理器在基于预先训练的BERT模型对所述目标文档进行分类及打标签操作时，具体用于：

将所述目标文档输入预先训练的BERT模型，得到所述目标文档中的发行企业实体、代理商实体和申购者实体；

根据所述发行企业实体和所述代理商实体，在所述目标文档中找寻所述发行企业实体的关联段落，及所述代理商实体的关联段落；

利用预先训练好的语义分析模型，从所述发行企业实体的关联段落中提取发行企业实体和申购者实体之间的投资关系，及从所述代理商实体的关联段落中提取代理商实体和申购者实体之间的投资关系；

根据预设的投资关系和类别的对应关系，对所述投资关系进行分类以及打上相应标签。
根据权利要求10所述的电子设备，其中，所述处理器在对所述投资关系进行分类以及打上相应标签之后，还用于：

对预先获取的包括发行企业、代理商和申购者的多方数据进行谱系分析，以对所述投资关系进行真实性核查；

根据真实性核查结果更新所述投资关系，并对更新后的投资关系进行分类以及打上相应标签。
根据权利要求10所述的电子设备，其中，所述处理器还用于：

基于所述目标文档对应的类别及标签，根据预设报告模板生成审核报告。
根据权利要求12所述的电子设备，其中，所述处理器还用于：

将所述审核报告和所述目标文档对应存储于数据库中。
一种计算机可读存储介质，其中存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现以下操作：

接收用户上传的目标文档，通过预设的自动摘要工具生成所述目标文档的文档摘要，并从所述文档摘要中提取目标关键词；

根据提取的目标关键词的数量判断所述目标文档是否符合预设要求，所述预设要求为文档中包含的目标关键词的数量大于预设阈值；

若所述目标文档符合预设要求，则基于预先训练的BERT模型对所述目标文档进行分类及打标签操作，并输出所述目标文档对应的类别及标签。
根据权利要求14所述的存储介质，其中，所述计算机可读指令可被处理器执行以实现以下操作：

若所述目标文档不符合预设要求，则发出提示信息，以提示用户所述目标文档不符合要求，需重新上传。
根据权利要求14所述的存储介质，其中，所述计算机可读指令可被处理器执行以实现以下操作：

将所述目标文档输入预先训练的BERT模型，得到所述目标文档中的发行企业实体、代理商实体和申购者实体；

根据所述发行企业实体和所述代理商实体，在所述目标文档中找寻所述发行企业实体的关联段落，及所述代理商实体的关联段落；

利用预先训练好的语义分析模型，从所述发行企业实体的关联段落中提取发行企业实体和申购者实体之间的投资关系，及从所述代理商实体的关联段落中提取代理商实体和申购者实体之间的投资关系；

根据预设的投资关系和类别的对应关系，对所述投资关系进行分类以及打上相应标签。
根据权利要求16所述的存储介质，其中，所述计算机可读指令可被处理器执行以实现以下操作：

对预先获取的包括发行企业、代理商和申购者的多方数据进行谱系分析，以对所述投资关系进行真实性核查；

根据真实性核查结果更新所述投资关系，并对更新后的投资关系进行分类以及打上相应标签。
根据权利要求16所述的存储介质，其中，所述计算机可读指令可被处理器执行以实现以下操作：

基于所述目标文档对应的类别及标签，根据预设报告模板生成审核报告。
根据权利要求18所述的存储介质，其中，所述计算机可读指令可被处理器执行以实现以下操作：

将所述审核报告和所述目标文档对应存储于数据库中。
一种文档处理装置，其中，包括：

接收模块，用于接收用户上传的目标文档，通过预设的自动摘要工具生成所述目标文档的文档摘要，并从所述文档摘要中提取目标关键词；

判断模块，用于根据提取的目标关键词的数量判断所述目标文档是否符合预设要求，所述预设要求为文档中包含的目标关键词的数量大于预设阈值；

打标签模块，用于若所述目标文档符合预设要求，则基于预先训练的BERT模型对所述目标文档进行分类及打标签操作，并输出所述目标文档对应的类别及标签。