WO2020199482A1

WO2020199482A1 - 大样本研报信息提取方法、装置、设备及存储介质

Info

Publication number: WO2020199482A1
Application number: PCT/CN2019/103230
Authority: WO
Inventors: 李海疆
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-04-04
Filing date: 2019-08-29
Publication date: 2020-10-08
Also published as: CN110110295B; CN110110295A

Abstract

一种大样本研报信息提取方法、装置、计算机设备及计算机可读存储介质，其中的所述方法包括：对研报信息进行文本转换得到表格数据，所述表格数据以纯文本形式存储（110）；对所述表格数据进行统计，输出所述表格数据中各单词的词频（120）；对所述研报信息进行统计，得出每一研报信息与其余研报信息之间的相近程度指标并排序（130）；以所述研报信息的数字编号为节点，以得出的所述相近程度指标为枝绘制所述研报信息的关系网（140）。

Description

大样本研报信息提取方法、装置、设备及存储介质

相关申请的交叉引用

本申请申明享有2019年04月04日递交的申请号为CN201910271619.9、名称为“大样本研报信息提取方法、装置、设备及存储介质”的中国专利申请的优先权，该中国专利申请的整体内容以参考的方式结合在本申请中。

技术领域

本申请实施例涉及金融数据处理技术领域，尤其涉及一种大样本研报信息提取方法、装置、设备及存储介质。

背景技术

研究报告信息简称研报，在金融行业中指的是一些上市公司中经营状况以及盈利情形基于独立客观立场做出的分析。

面对海量的研报，在有限的时间里想要阅读大部分的研报显然是不可能的。发明人意识到目前即使熟悉的领域，通过人为经验以及行业了解有选择性地阅读其中的研报，也并不能完全地反映海量研报中的所有重点信息或中心问题，更别说个人经验及行业了解本身具有的滞后性以及对于个人而言其尚有不熟悉的领域，因此，如何能够帮助基金经理在尽可能少的时间里筛选研报，获取充分有用的信息，是一个有重要现实意义的问题。

发明内容

为了克服相关技术中存在的问题，本申请提供一种大样本研报信息提取方法、装置、计算机设备及计算机可读存储介质，以实现通过可视的关系网结合关键词对海量研报信息进行筛选以更有效率地筛选出更有价值的研报信息。

第一方面，本申请实施例提供了一种大样本研报信息提取方法，所述方法包括：

对研报信息进行文本转换得到表格数据，所述表格数据以纯文本形式存储；

对所述表格数据进行统计，输出所述表格数据中各单词的词频；

对所述研报信息进行统计，得出每一研报信息与其余研报信息之间的相近程度指标并排序；

以所述研报信息的数字编号为节点，以得出的所述相近程度指标为枝绘制所述研报信息的关系网。

本申请第二方面，本申请还提供了一种大样本研报信息提取装置，所述装置包括：

转换模块，用于对研报信息进行文本转换得到表格数据，所述表格数据以纯文本形式存储；

分词模块，用于对所述表格数据进行统计，输出所述表格数据中各单词的词频；

统计模块，用于对所述研报信息进行统计，得出每一研报信息与其余研报信息之间的相近程度指标并排序；

绘制模块，用于以所述研报信息的数字编号为节点，以得出的所述相近程度指标为枝绘制所述研报信息的关系网。

第三方面，本申请还提供了一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

本申请通过基于Zipf定律和二八法则得出研报的文意相近程度指标并绘制出研报信息的关系网，根据该关系网能够筛选出大部分较为重要以及文意较为接近的研报，使得能够更具效率地筛选出更具价值的研报信息，通过关键词以及关系网的节点密度还能够得出在一个交易时间区间中所体现出的资本市场关注的问题焦点。

附图说明

图1是根据一示例性实施例示出的一种大样本研报信息提取方法的基本流程示意图。

图2是根据一示例性实施例示出的关系网中枝长短的示意图。

图3是根据一示例性实施例示出的关系网的示意图。

图4是根据一示例性实施例示出的一种大样本研报信息提取装置的示意性框图。

图5是根据一示例性实施例示出的实现方法的计算机设备的框图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图中将各步骤描述成顺序的处理，但是其中的许多步骤可以并行地、并发地或者同时实施。此外，各步骤的顺序可以被重新安排，当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图内的其它步骤。处理可以对应于方法、函数、规程、子例程、子程序等。

本申请涉及一种大样本研报信息提取方法、装置、计算机设备及计算机可读存储介质，其主要运用于在金融行业对于研报信息进行特定需求的技术处理的场景中，其基本思想是：基于Zipf定律，一个单词出现的次数与它在频率表里的排名成反比，以及二八法则，对研报信息中词频排序靠前20％的单词所反映的信息所对应的研报应该占据了研报信息的重要的80％，在此基础上统计得出研报的文意相近程度指标并绘制出研报信息的关系网，根据该关系网能够筛选出大部分较为重要以及文意较为接近的研报，从关系网中能够更方便地筛选出更具价值的研报信息，同时还可根据关系网中的关键词得出资本市场关注的问题焦点。

本实施例可适用于带有中央处理模块的智能终端中以进行大样本研报信息提取的情况中，该方法可以由中央处理模块来执行，其中该中央处理模块可以由软件和/或硬件来实现，一般地可集成于智能终端，如图1所示，为本申请大样本研报信息提取方法的基本流程示意图，所述方法具体包括如下步骤：

在步骤110中，对研报信息进行文本转换，转换后以纯文本形式存储表格数据；

所述研报信息一般为PDF格式，而对于PDF格式中的文字性信息一般无法直接进行处理，此时，需要对研报信息进行转换，借助现有的软件如smallpdf,可以将PDF格式的研报信息转换成word格式,然后将word文件保存为txt格式且只保留文字。

对txt格式的文本进行分词处理，在该过程中可采用分词包进行分词处理，输出结果为CSV格式的文件，CSV格式为以纯文本形式存储表格数据如文本和数字，该CSV格式是字符序列组成而非二进制这种需要被解读的数据。

在步骤120中，对所述表格数据进行统计，输出所述表格数据中各单词的词频；

对所述CSV格式文本进行统计得到统计结果，该统计结果是一个列表，其包括研报信息所有的单词及相应出现次数，然后将词频结果转换成百分比形式，其可通过下列公式一得出：

公式一：

假设文本的分词结果列表为{X ₁,X ₂,…,X _N}，对应的词频列表为{Y ₁,Y ₂,…,Y _N}，Y _i为单词X _i在文本里出现的次数；记

分词对应的词频百分比列表为{Z ₁,Z ₂,…,Z _N}，其中，Z _i＝Y _i/Y _all(单位：0.1％)，Z _i为单词X _i在文本里出现的频率的占比，即单词词频。

在步骤130中，对所述研报信息进行统计，得出每一研报信息与其余研报信息之间的相近程度指标并排序；

本步骤中为计算文意相近程度指标的步骤，文意相近程度指标指的是不同的研报信息之间的文意相近程度，其可以反映出不同的研报信息之间的文意相近程度，其可以通过下列公式二得出：

公式二：

在本申请示例性实施例的一种可行的实施方式中，至少包括文本1和文本2，结合图2所示，还可包括文本3，以文本1的分词结果列表为

文本2的分词结果列表为

分别对A ₁和A ₂按各自对应的词频百分比从大到小排列，排列后的结果分为A′ ₁和A′ ₂，

对应的词频百分比列表分别为

和

引入筛选机制：

记

其中，i ₁<N ₁，且满足

i ₂<N ₂，

计算文本1和文本2的文意相近程度：

记M＝(0.8A′ ₁)∩(0.8A′ ₂)，集合M的元素数量为m，这m个单词在文本1和文本2中对应的词频百分比列表分别为

和

将

和

视作两个向量，记

由于

和

各自的分量满足正则性，所以

的取值范围是

ω的取值范围亦是

而且ω越大，两个文本越接近。

记U＝(0.8A′ ₁)∪(0.8A′ ₂)，集合U的元素数量记做u，定义

ρ＝a ^ω，指标ρ即是两篇文本的文意相近程度的表征值。

在步骤140中，以所述研报信息的数字编号为节点，以得出的所述相近程度指标为枝绘制所述研报信息的关系网。

本步骤为绘制研步骤，绘制有研报的关系网，首先需要为所述研报信息设置数据编号，数据编号一一对应于所述研报信息且是独立唯一的，以研报信息的数字编号为关系网的节点，关系网两个节点之间的枝就是文意相近程度指标大小，枝的长短以指标值倒数表征，文意越近枝越短，同时也表示两个研报信息相近程度越大。

结合图2所示，包括文本1、文本2和文本3，文本1与文本2之间的枝的长短表示为枝1，文本1与文本3之间的枝的长短表示为枝2，且枝2的长度大于枝1，则图2中的文本1和文本2之间的文本文意较文本1与文本3之间的文本文意更为相近。

结合图3所示，为本申请在建模完成可视化之后的关系网，从关系网的可视图中可看出枝密度较高的节点，对这些枝密度较高的节点对应的研报可重点关注和研读，研读效率大幅提升。

本申请的方法，基于Zipf定律以及二八法则的基础上，分别进行文本转换、分词处理、词频统计、文意相近程度计算、关系网绘制等步骤，最终得出能够体现出词频重要性及文意相近程度指标的研报关系网，根据该研报关系网能够筛选出大部分较为重要以及文意较为接近的研报，大幅提升了阅读效率。

图4为本申请实施例提供的一种大样本研报信息提取装置的结构示意图，该装置可由软件和/或硬件实现，一般地集成于智能终端中，可通过大样本研报信息提取方法来实现。如图所示，本实施例可以以上述实施例为基础，提供了一种大样本研报信息提取装置，其主要包括了转换模块410、分词模块420、统计模块430和绘制模块440。

其中的转换模块410，用于对研报信息进行文本转换得到表格数据，所述表格数据以纯文本形式存储；

其中的分词模块420，用于对所述表格数据进行统计，输出所述表格数据中各单词的词频；

其中的统计模块430，用于对所述研报信息进行统计，得出每一研报信息与其余研报信息之间的相近程度指标并排序；

其中的绘制模块440，用于以所述研报信息的数字编号为节点，以得出的所述相近程度指标为枝绘制所述研报信息的关系网。

在本申请示例性实施例的一实施方式中，所述分词模块，还用于：

对输入的文本形式的表格数据进行分词处理，得到分词结果；

以文本的分词结果列表为{X ₁,X ₂,…,X _N}，对应的词频列表为{Y ₁,Y ₂,…,Y _N}，Y _i为单词X _i在文本里出现的次数；记

分词对应的词频百分比列表为{Z ₁,Z ₂,…,Z _N}，其中，Z _i＝Y _i/Y _all(单位：0.1％)，Z _i为单词X _i在文本里出现的频率的占比。

在本申请示例性实施例的一实施方式中，至少包括文本1和文本2，所述统计模块包括第一统计子模块，用于执行下列公式：

以文本1的分词结果列表为

文本2的分词结果列表为

对应的词频百分比列表分别为

和

引入筛选机制：

记

其中，i ₁<N ₁，且满足

i ₂<N ₂，

计算文本1和文本2的文意相近程度：

记M＝(0.8A′ ₁)∩(0.8A′ ₂)，集合M的元素数量为m，这m个单词在文本 1和文本2中对应的词频百分比列表分别为

和

将

和

视作两个向量，记

由于

和

各自的分量满足正则性，所以

的取值范围是

ω的取值范围亦是

而且ω越大，两个文本越接近。

记U＝(0.8A′ ₁)∪(0.8A′ ₂)，集合U的元素数量记做u，定义

ρ＝a ^ω，指标ρ即是两篇文本的文意相近程度的表征值。

上述实施例中提供的大样本研报信息提取装置可执行本申请中任意实施例中所提供的大样本研报信息提取方法，具备执行该方法相应的功能模块和有益效果，未在上述实施例中详细描述的技术细节，可参见本申请任意实施例中所提供的大样本研报信息提取方法。

本实施例还提供一种计算机设备，如可以执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备20至少包括但不限于：可通过系统总线相互通信连接的存储器21、处理器22，如图5所示。需要指出的是，图5仅示出了具有组件21-22的计算机设备20，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，存储器21(即可读存储介质)包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备20的内部存储单元，例如该计算机设备20的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备20的外部存储设备，例如该计算机设备20上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，存储器21还可以既包括计算机设备20的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备20的操作系统和各类应用软件，例如实施例一的RNNs神经网络的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器22在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备20的总体操作。本实施例中，处理器22用于执行存储器21中存储的程序代码或者处理数据，例如实现大样本研报信息提取方法的程序代码，所述大样本研报信息提取方法的程序代码被执行时实现以下步骤：

本实施例还提供一种计算机可读存储介质，该计算机可读存储介质可以为非易失性的计算机可读存储介质。如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机程序，所述计算机程序被处理器执行时实现如下方法步骤：

另一个涉及计算机程序产品的实施例包括对应于所阐明的系统和/或产品中至少一个的装置中每个装置的计算机可执行指令。这些指令可以被再分成子例程和/或被存储在一个或者多个可能静态或者动态链接的文件中。

计算机程序的载体可以是能够运载程序的任何实体或者装置。例如，载体可以包含存储介质，诸如(ROM例如CDROM或者半导体ROM)或者磁记录介质(例如软盘或者硬盘)。进一步地，载体可以是可传输的载体，诸如电学或者光学信号，其可以经由电缆或者光缆，或者通过无线电或者其它手段传递。当程序具体化为这样的信号时，载体可以由这样的线缆或者装置组成。可替换地，载体可以是其中嵌入有程序的集成电路，所述集成电路适合于执行相关方法，或者供相关方法的执行所用。

应该留意的是，上文提到的实施例是举例说明本发明本申请，而不是限制本发明本申请，并且本领域的技术人员将能够设计许多可替换的实施例，而不会偏离所附权利要求的范围。在权利要求中，任何放置在圆括号之间的参考符号不应被解读为是对权利要求的限制。动词“包括”和其词形变化的使用不排除除了在权利要求中记载的那些之外的元素或者步骤的存在。在元素之前的冠词“一”或者“一个”不排除复数个这样的元素的存在。本发明本申请可以通过包括几个明显不同的组件的硬件，以及通过适当编程的计算机而实现。在列举几种装置的装置权利要求中，这些装置中的几种可以通过硬件的同一项来体现。在相互不同的从属权利要求中陈述某些措施的单纯事实并不表明这些措施的组合不能被用来获益。

如果期望的话，这里所讨论的不同功能可以以不同顺序执行和/或彼此同时执行。此外，如果期望的话，以上所描述的一个或多个功能可以是可选的或者可以进行组合。

如果期望的话，上文所讨论的各步骤并不限于各实施例中的执行顺序，不同步骤可以以不同顺序执行和/或彼此同时执行。此外，在其他实施例中，以上所描述的一个或多个步骤可以是可选的或者可以进行组合。

虽然本发明本申请的各个方面在独立权利要求中给出，但是本发明本申请的其它方面包括来自所描述实施方式的特征和/或具有独立权利要求的特征的从属权利要求的组合，而并非仅是权利要求中所明确给出的组合。

这里所要注意的是，虽然以上描述了本申请的示例实施方式，但是这些描述并不应当以限制的含义进行理解。相反，可以进行若干种变化和修改而并不背离如所附权利要求中所限定的本申请的范围。

本领域普通技术人员应该明白，本申请实施例的装置中的各模块可以用通用的计算装置/移动终端来实现，各模块可以集中在单个计算装置/移动终端或者计算装置/移动终端组成的网络组中，本申请实施例中的装置对应于前述实施例中的方法，其可以通过可执行的程序代码实现，也可以通过集成电路组合的方式来实现，因此本申请并不局限于特定的硬件或者软件及其结合。

本领域普通技术人员应该明白，本发明本申请实施例的装置中的各模块可以用通用的移动终端来实现，各模块可以集中在单个移动终端或者移动终端组成的装置组合中，本发明本申请实施例中的装置对应于前述实施例中的方法，其可以通过编辑可执行的程序代码实现，也可以通过集成电路组合的方式来实现，因此本发明本申请并不局限于特定的硬件或者软件及其结合。

注意，上述仅为本发明本申请的示例性实施例及所运用技术原理。本领域技术人员会理解，本发明本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明本申请的保护范围。因此，虽然通过以上实施例对本发明本申请进行了较为详细的说明，但是本发明本申请不仅仅限于以上实施例，在不脱离本发明本申请构思的情况下，还可以包括更多其他等效实施例，而本发明本申请的范围由所附的权利要求范围决定。

Claims

一种大样本研报信息提取方法，其中，所述方法包括：

对研报信息进行文本转换得到表格数据，所述表格数据以纯文本形式存储；

对所述表格数据进行统计，输出所述表格数据中各单词的词频；

对所述研报信息进行统计，得出每一研报信息与其余研报信息之间的相近程度指标并排序；

以所述研报信息的数字编号为节点，以得出的所述相近程度指标为枝绘制所述研报信息的关系网。
根据权利要求1所述的方法，其中，所述对所述表格数据进行统计，包括：

对输入的文本形式的表格数据进行分词处理，得到分词结果；

所述输出所述表格数据中各单词的词频，包括：

文本的分词结果列表为{X ₁,X ₂,…,X _N}，对应的词频列表为{Y ₁,Y ₂,…,Y _N}，Y _i为单词X _i在文本里出现的次数；记
分词对应的词频百分比列表为{Z ₁,Z ₂,…,Z _N}，其中，Z _i＝Y _i/Y _all(单位：0.1％)，Z _i为单词X _i在文本里出现的频率的占比。
根据权利要求2所述的方法，其中，至少包括文本1和文本2，所述得出每一研报信息与其余研报信息之间的相近程度指标并排序，包括以下统计步骤：

文本1的分词结果列表为
文本2的分词结果列表为
分别对A ₁和A ₂按各自对应的词频百分比从大到小排列，排列后的结果分为A′ ₁和A′ ₂，

对应的词频百分比列表分别为
和

引入筛选机制：

记
其中，i ₁<N ₁，且满足

计算文本1和文本2的文意相近程度：

记M＝(0.8A′ ₁)∩(0.8A′ ₂)，集合M的元素数量为m，这m个单词在文本 1和文本2中对应的词频百分比列表分别为
和
将
和
视作两个向量，记
由于
和
各自的分量满足正则性，所以
的取值范围是
ω的取值范围亦是
而且ω越大，两个文本越接近；

记U＝(0.8A′ ₁)∪(0.8A′ ₂)，集合U的元素数量记做u，定义
指标ρ即是两篇文本的文意相近程度的表征值。
根据权利要求2所述的方法，其中，所述得出每一研报信息与其余研报信息之间的相近程度指标并排序，包括以下排序步骤：

排序时包括：

统计每一研报信息与其余研报信息的文意相近程序的指标和，对所述指标和进行排序。
根据权利要求1所述的方法，其中，所述以所述研报信息的数字编号为节点，以得出的所述相近程度指标为枝绘制所述研报信息的关系网，包括：

获取所述研报信息的数字编号作为关系网的节点，两个节点之间的枝为文意相近程度指标，所述枝的长短表征文意相近程序指标的大小。
一种大样本研报信息提取装置，其中，所述装置包括：

转换模块，用于对研报信息进行文本转换得到表格数据，所述表格数据以纯文本形式存储；

分词模块，用于对所述表格数据进行统计，输出所述表格数据中各单词的词频；

统计模块，用于对所述研报信息进行统计，得出每一研报信息与其余研报信息之间的相近程度指标并排序；

绘制模块，用于以所述研报信息的数字编号为节点，以得出的所述相近程度指标为枝绘制所述研报信息的关系网。
根据权利要求6所述的装置，其中，所述分词模块，具体用于：

对输入的文本形式的表格数据进行分词处理，得到分词结果；

以文本的分词结果列表为{X ₁,X ₂,…,X _N}，对应的词频列表为 {Y ₁,Y ₂,…,Y _N}，Y _i为单词X _i在文本里出现的次数；记
分词对应的词频百分比列表为{Z ₁,Z ₂,…,Z _N}，其中，Z _i＝Y _i/Y _all(单位：0.1％)，Z _i为单词X _i在文本里出现的频率的占比。
根据权利要求7所述的装置，其中，至少包括文本1和文本2，所述统计模块包括第一统计子模块，用于执行下列公式：

以文本1的分词结果列表为
文本2的分词结果列表为
分别对A ₁和A ₂按各自对应的词频百分比从大到小排列，排列后的结果分为A′ ₁和A′ ₂，

对应的词频百分比列表分别为
和

引入筛选机制：

记
其中，i ₁<N ₁，且满足

计算文本1和文本2的文意相近程度：

记M＝(0.8A′ ₁)∩(0.8A′ ₂)，集合M的元素数量为m，这m个单词在文本1和文本2中对应的词频百分比列表分别为
和
将
和
视作两个向量，记
由于
和
各自的分量满足正则性，所以
的取值范围是
ω的取值范围亦是
而且ω越大，两个文本越接近；

记U＝(0.8A′ ₁)∪(0.8A′ ₂)，集合U的元素数量记做u，定义
指标ρ即是两篇文本的文意相近程度的表征值。
根据权利要求7所述的装置，其中，所述统计模块包括第一排序子模块，用于：

排序时包括：

统计每一研报信息与其余研报信息的文意相近程序的指标和，对所述指标和进行排序。
根据权利要求6所述的装置，其中，所述绘制模块，具体用于：

获取所述研报信息的数字编号作为关系网的节点，两个节点之间的枝为文意相近程度指标，所述枝的长短表征文意相近程序指标的大小。
一种计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现以下步骤：

对研报信息进行文本转换得到表格数据，所述表格数据以纯文本形式存储；

对所述表格数据进行统计，输出所述表格数据中各单词的词频；

对所述研报信息进行统计，得出每一研报信息与其余研报信息之间的相近程度指标并排序；

以所述研报信息的数字编号为节点，以得出的所述相近程度指标为枝绘制所述研报信息的关系网。
根据权利要求11所述的计算机设备，其中，在实现所述对所述表格数据进行统计的步骤时，具体包括：

对输入的文本形式的表格数据进行分词处理，得到分词结果；

在实现所述输出所述表格数据中各单词的词频的步骤时，具体包括：

文本的分词结果列表为{X ₁,X ₂,…,X _N}，对应的词频列表为{Y ₁,Y ₂,…,Y _N}，Y _i为单词X _i在文本里出现的次数；记
分词对应的词频百分比列表为{Z ₁,Z ₂,…,Z _N}，其中，Z _i＝Y _i/Y _all(单位：0.1％)，Z _i为单词X _i在文本里出现的频率的占比。
根据权利要求12所述的计算机设备，其中，至少包括文本1和文本2，在实现所述得出每一研报信息与其余研报信息之间的相近程度指标并排序的步骤时，包括以下统计步骤：

文本1的分词结果列表为
文本2的分词结果列表为
分别对A ₁和A ₂按各自对应的词频百分比从大到小排列，排列后的结果分为A′ ₁和A′ ₂，

对应的词频百分比列表分别为
和

引入筛选机制：

记
其中，i ₁<N ₁，且满足

计算文本1和文本2的文意相近程度：

记M＝(0.8A′ ₁)∩(0.8A′ ₂)，集合M的元素数量为m，这m个单词在文本1和文本2中对应的词频百分比列表分别为
和
将
和
视作两个向量，记
由于
和
各自的分量满足正则性，所以
的取值范围是
ω的取值范围亦是
而且ω越大，两个文本越接近；

记U＝(0.8A′ ₁)∪(0.8A′ ₂)，集合U的元素数量记做u，定义
指标ρ即是两篇文本的文意相近程度的表征值。
根据权利要求12所述的计算机设备，其中，在实现所述得出每一研报信息与其余研报信息之间的相近程度指标并排序的步骤时，包括以下排序步骤：

排序时包括：

统计每一研报信息与其余研报信息的文意相近程序的指标和，对所述指标和进行排序。
根据权利要求11所述的计算机设备，其中，在实现所述以所述研报信息的数字编号为节点，以得出的所述相近程度指标为枝绘制所述研报信息的关系网的步骤时，具体包括：

获取所述研报信息的数字编号作为关系网的节点，两个节点之间的枝为文意相近程度指标，所述枝的长短表征文意相近程序指标的大小。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现以下步骤：

对研报信息进行文本转换得到表格数据，所述表格数据以纯文本形式存储；

对所述表格数据进行统计，输出所述表格数据中各单词的词频；

对所述研报信息进行统计，得出每一研报信息与其余研报信息之间的相近程度指标并排序；

以所述研报信息的数字编号为节点，以得出的所述相近程度指标为枝绘制所述研报信息的关系网。
根据权利要求16所述的计算机可读存储介质，其中，在实现所述对所述表格数据进行统计的步骤时，具体包括：

对输入的文本形式的表格数据进行分词处理，得到分词结果；

在实现所述输出所述表格数据中各单词的词频的步骤时，具体包括：

文本的分词结果列表为{X ₁,X ₂,…,X _N}，对应的词频列表为{Y ₁,Y ₂,…,Y _N}，Y _i为单词X _i在文本里出现的次数；记
分词对应的词频百分比列表为{Z ₁,Z ₂,…,Z _N}，其中，Z _i＝Y _i/Y _all(单位：0.1％)，Z _i为单词X _i在文本里出现的频率的占比。
根据权利要求17所述的计算机可读存储介质，其中，至少包括文本1和文本2，在实现所述得出每一研报信息与其余研报信息之间的相近程度指标并排序的步骤时，包括以下统计步骤：

文本1的分词结果列表为
文本2的分词结果列表为
分别对A ₁和A ₂按各自对应的词频百分比从大到小排列，排列后的结果分为A′ ₁和A′ ₂，

对应的词频百分比列表分别为
和

引入筛选机制：

记
其中，i ₁<N ₁，且满足

计算文本1和文本2的文意相近程度：

记M＝(0.8A′ ₁)∩(0.8A′ ₂)，集合M的元素数量为m，这m个单词在文本1和文本2中对应的词频百分比列表分别为
和
将
和
视作两个向量，记
由于
和
各自的分量满足正则性，所以
的取值范围是
ω的取值范围亦是
而且ω越大，两个文本越接近；

记U＝(0.8A′ ₁)∪(0.8A′ ₂)，集合U的元素数量记做u，定义
指标ρ即是两篇文本的文意相近程度的表征值。
根据权利要求17所述的计算机可读存储介质，其中，在实现所述得出每一研报信息与其余研报信息之间的相近程度指标并排序的步骤时，包括以下排序步骤：

排序时包括：

统计每一研报信息与其余研报信息的文意相近程序的指标和，对所述指标和进行排序。
根据权利要求16所述的计算机可读存储介质，其中，在实现所述以所述研报信息的数字编号为节点，以得出的所述相近程度指标为枝绘制所述研报信息的关系网的步骤时，具体包括：

获取所述研报信息的数字编号作为关系网的节点，两个节点之间的枝为文意相近程度指标，所述枝的长短表征文意相近程序指标的大小。