WO2022105497A1

WO2022105497A1 - 文本筛选方法、装置、设备及存储介质

Info

Publication number: WO2022105497A1
Application number: PCT/CN2021/123907
Authority: WO
Inventors: 董润华
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2020-11-19
Filing date: 2021-10-14
Publication date: 2022-05-27
Also published as: CN112364625A

Abstract

一种文本筛选方法、装置、设备及存储介质。该方法包括：对待筛选的第一文本执行分词操作得到多个分词，并提取预设词性的关键词，为各分词及各关键词分配权重，计算出各分词及各关键词的哈希值，根据哈希值及权重得到分词的权重向量和关键词的权重向量，将权重向量累加得到该文本的第一权重向量及第二权重向量，对第一权重向量及第二权重向量执行降维得到该文本的第一simhash值及第二simhash值，计算第一simhash值与目标文本的第三simhash值的距离值，当该距离值大于第一预设值时，计算第二simhash值与第三simhash值的距离值，当该距离值小于或等于第二预设值时，筛除第一文本。该方法可以对摘要性或总结性的文本进去重。

Description

文本筛选方法、装置、设备及存储介质

本申请要求于2020年11月19日提交中国专利局、申请号为CN202011302193.8，发明名称为“文本筛选方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及大数据的数据处理技术领域，尤其涉及一种文本筛选方法、装置、设备及存储介质。

背景技术

爬虫爬取文本时，需要对爬取到的相同的或者相似性极高文本进行去重，文本去重操作大多是使用URL生成一种“指纹”，把“指纹”放到一个集合中进行去重。

技术问题

发明人意识到在实际的应用过程中，一篇文本可能被多个网站转发，会出现一些“指纹”不同，文本内容却相同的情况，且去重操作过程中，当爬取到某文本的摘要性文本，或某文本的总结性文本时，也难以对摘要性或总结性的文本进去重。

发明内容

一种文本筛选方法，该方法包括：

对待筛选的第一文本执行分词操作得到多个分词，从所述多个分词中提取预设词性的关键词，为各分词及各关键词分配相关联的权重；

计算各分词及各关键词的第一哈希值，基于各分词的第一哈希值及权重执行加权操作得到各分词的权重向量，基于各关键词的第一哈希值及各权重执行加权操作得到各关键词的权重向量；

将各分词的权重向量累加得到所述第一文本的第一权重向量，将各关键词的权重向量累加得到所述第一文本的第二权重向量，对所述第一权重向量及所述第二权重向量执行降维操作，分别得到所述第一文本的第一simhash值及第二simhash值；

计算所述第一simhash值与预设存储空间的目标文本的第三simhash值的第一距离值，当所述第一距离值大于第一预设值时，计算所述第二simhash值与所述第三simhash值的第二距离值，当所述第二距离值小于或等于第二预设值时，筛除所述第一文本。

一种文本筛选装置，该文本筛选装置包括：

提取模块：用于对待筛选的第一文本执行分词操作得到多个分词，从所述多个分词中提取预设词性的关键词，为各分词及各关键词分配相关联的权重；

加权模块：用于计算各分词及各关键词的第一哈希值，基于各分词的第一哈希值及权重执行加权操作得到各分词的权重向量，基于各关键词的第一哈希值及各权重执行加权操作得到各关键词的权重向量；

降维模块：用于将各分词的权重向量累加得到所述第一文本的第一权重向量，将各关键词的权重向量累加得到所述第一文本的第二权重向量，对所述第一权重向量及所述第二权重向量执行降维操作，分别得到所述第一文本的第一simhash值及第二simhash值；

筛除模块：用于计算所述第一simhash值与预设存储空间的目标文本的第三simhash值的第一距离值，当所述第一距离值大于第一预设值时，计算所述第二simhash值与所述第三simhash值的第二距离值，当所述第二距离值小于或等于第二预设值时，筛除所述第一文本。

一种电子设备，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的程序，所述程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如下步骤：

一种计算机可读存储介质，所述计算机可读存储介质中包括存储数据区和存储程序区，存储数据区存储根据区块链节点的使用所创建的数据，存储程序区存储有文本筛选程序，所述文本筛选程序被处理器执行时，实现如下步骤：

有益效果

本申请可以准确的对摘要性或总结性的文本进去重操作。

附图说明

图1为本申请电子设备较佳实施例的示意图；

图2为图1中文本筛选装置较佳实施例的模块示意图；

图3为本申请文本筛选方法较佳实施例的流程图；

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

本发明的实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能（Artificial Intelligence，AI）是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

参照图1所示，为本申请电子设备1较佳实施例的示意图。

该电子设备1包括但不限于：存储器11、处理器12、显示器13及网络接口14。所述电子设备1通过网络接口14连接网络，获取原始数据。其中，所述网络可以是企业内部网（Intranet）、互联网（Internet）、全球移动通讯系统（Global System of Mobile communication，GSM）、宽带码分多址（Wideband Code Division Multiple Access，WCDMA）、4G网络、5G网络、蓝牙（Bluetooth）、Wi-Fi、通话网络等无线或有线网络。

其中，存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器（例如，SD或DX存储器等）、随机访问存储器（RAM）、静态随机访问存储器（SRAM）、只读存储器（ROM）、电可擦除可编程只读存储器（EEPROM）、可编程只读存储器（PROM）、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器11可以是所述电子设备1的内部存储单元，例如该电子设备1的硬盘或内存。在另一些实施例中，所述存储器11也可以是所述电子设备1的外部存储设备，例如该电子设备1配备的插接式硬盘，智能存储卡（Smart Media Card, SMC），安全数字（Secure Digital, SD）卡，闪存卡（Flash Card）等。当然，所述存储器11还可以既包括所述电子设备1的内部存储单元也包括其外部存储设备。本实施例中，存储器11通常用于存储安装于所述电子设备1的操作系统和各类应用软件，例如文本筛选程序10的程序代码等。此外，存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器12在一些实施例中可以是中央处理器（Central Processing Unit，CPU）、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作，例如执行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据，例如运行文本筛选程序10的程序代码等。

显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管（Organic Light-Emitting Diode，OLED）触摸器等。显示器13用于显示在电子设备1中处理的信息以及用于显示可视化的工作界面，例如显示数据统计的结果。

网络接口14可选地可以包括标准的有线接口、无线接口（如WI-FI接口），该网络接口14通常用于在所述电子设备1与其它电子设备之间建立通信连接。

图1仅示出了具有组件11-14以及文本筛选程序10的电子设备1，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

可选地，所述电子设备1还可以包括用户接口，用户接口可以包括显示器（Display）、输入单元比如键盘（Keyboard），可选的用户接口还可以包括标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管（Organic Light-Emitting Diode，OLED）触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。

该电子设备1还可以包括射频（Radio Frequency，RF）电路、传感器和音频电路等等，在此不再赘述。

在上述实施例中，处理器12执行存储器11中存储的文本筛选程序10时可以实现如下步骤：

所述存储设备可以为电子设备1的存储器11，也可以为与电子设备1通讯连接的其它存储设备。

关于上述步骤的详细介绍，请参照下述图2关于文本筛选装置100实施例的功能模块图以及图3关于文本筛选方法实施例的流程图的说明。

参照图2所示，为本申请文本筛选装置100的功能模块图。

本申请所述文本筛选装置100可以安装于电子设备中。根据实现的功能，所述文本筛选装置100可以包括提取模块110、加权模块120、降维模块130及筛除模块140。本发所述模块也可以称之为单元，是指一种能够被电子设备处理器所执行，并且能够完成固定功能的一系列计算机程序段，其存储在电子设备的存储器中。

在本实施例中，关于各模块/单元的功能如下：

提取模块110，用于对待筛选的第一文本执行分词操作得到多个分词，从所述多个分词中提取预设词性的关键词，为各分词及各关键词分配相关联的权重。

在本实施例中，以爬虫爬取文本时，需要对爬取到的相同的或者相似性极高文本去重为例对本方案进行说明，应该理解的是，本方案的应用场景不仅限于此。当爬取到某一篇文本时，需要判断该文本与已爬取到的文本是否为相似或相同文本，如果为相似或相同文本，则可以筛除该文本，具体地，当获取到待去重的第一文本时，对第一文本执行分词操作得到多个分词，从多个分词中提取出第一文本中预设词性的关键词，其中，预设词性的关键词可以是属于名词的关键词和属于动词的关键词，为各个分词及各个关键词分配相关联的权重，分配的权重可以是根据各个分词的数量进行分配。

例如，第一文本中包含一段语句：“CSDN博客结构之法算法之道的作者July”，分词后为：“CSDN 博客结构之法算法之道的作者 July”，然后为每个分词赋予权值：CSDN(4) 博客(5) 结构(3) 之(1) 法(2) 算法(3) 之(1) 道(2) 的(1) 作者(5) July(5)，其中括号里的数字代表这个单词在整条语句中的重要程度，数字越大代表越重要。

在一个实施例中，所述从所述多个分词中提取预设词性的关键词包括：

计算各分词在所述第一文本中的词频，基于所述词频计算出各分词的IDF值及TF值，将各分词的IDF值与各分词对应的TF值相乘得到各分词的TF-ID值，判断所述第一文本中是否存在大于预设数量的预设词性的关键词，若是，基于各分词的TF-ID值选取预设数量的预设词性的关键词，其中，所述预设词性的关键词包括名词关键词和动词关键词。

统计第一文本中的所有词的出现次数，计算出IDF（逆文档频率值），然后再计算出第一文本中每个词的TF（词频）值。其中，TF=（词语在文本中出现次数）/（各词语在文本中出现次数的总和），将IDF值与TF值相乘，得到该词的TF-IDF值，TF-IDF值可以评估字词对于发言文本中的重要程度，TF-IDF值越大表示作为关键词的优先级越高。在进行TF-IDF计算时，通过对词频与逆文档频率得出某个字词的TF-IDF值，若TF-IDF值越大，该词对文本的重要性越高，因此可以将TF-IDF值排在前面的几个字词作为第一文本的关键词。判断第一文本中是否存在大于预设数量（例如，20）的预设词性的关键词，若是，选取TF- IDF值排在前20的名词关键词和动词关键词作为第一文本的预设词性的关键词。

进一步地，当判断所述第一文本中不存在大于预设数量的预设词性的关键词时，筛除所述第一文本，并从预设存储空间随机获取一篇文本作为所述待筛选的第一文本重新执行分词操作。

当第一文本中不足20个预设词性的关键词，则将该第一文本删除，并从预设存储空间随机获取一篇文本作为待筛选的第一文本重新执行分词操作。将关键词数量不足的文本删除，可以避免对关键词数量不足的本文（即特征不明显的文本）执行进一步的哈希和降维等操作，提高海量文本的去重速度。

在一个实施例中，对待筛选的第一文本执行分词操作得到多个分词包括：

根据正向最大匹配法将读取到的文本与所述词库进行匹配，得到第一匹配结果，所述第一匹配结果中包含有第一数量的第一词组和第二数量的单字；

根据逆向最大匹配法将读取到的文本与所述词库进行匹配，得到第二匹配结果，所述第二匹配结果中包含有第三数量的第二词组和第四数量的单字；

若所述第一数量与所述第三数量相等且所述第二数量小于或者等于所述第四数量，或者，若所述第一数量小于所述第三数量，则将所述第一匹配结果作为该对象全称的分词结果；若所述第一数量与所述第二数量相等且所述第三数量大于所述第四数量，或者，若所述第一数量大于所述第三数量，则将所述第二匹配结果作为所述第一文本的分词结果。

通过正反向同时进行分词匹配找出单字数量更少，词组数量更多的分词匹配结果，以作为切分的语句的分词结果，可提高分词的准确性。

加权模块120，用于计算各分词及各关键词的第一哈希值，基于各分词的第一哈希值及权重执行加权操作得到各分词的权重向量，基于各关键词的第一哈希值及各权重执行加权操作得到各关键词的权重向量。

在本实施例中，可以利用哈希函数计算各个分词的第一哈希值及各关键词的第一哈希值，第一哈希值为二进制数“0”、“1”组成的n-bit签名，例如，“CSDN”的哈希值Hash(CSDN)为“100101”，“博客”的哈希值Hash(博客)为“101011”。之后，根据各分词的哈希值及各个分词对应的权重，执行加权操作得到该分词的权重向量，根据各关键词的哈希值及各关键词对应的权重执行加权操作得到该关键词的权重向量。

具体地，在第一哈希值的基础上，给各分词和关键词进行加权，即W = Hash * weight，且遇到1则hash值和权值正相乘，遇到0则hash值和权值负相乘。例如，给“CSDN”的hash值“100101”执行加权操作得到的权重向量：W(CSDN) = 100101 4 = 4 -4 -4 4 -4 4，给“博客”的hash值“101011”执行加权得到的权重向量：W(博客)=101011 5 = 5 -5 5 -5 5 5，其余分词和关键词执行类似操作。

降维模块130，用于将各分词的权重向量累加得到所述第一文本的第一权重向量，将各关键词的权重向量累加得到所述第一文本的第二权重向量，对所述第一权重向量及所述第二权重向量执行降维操作，分别得到所述第一文本的第一simhash值及第二simhash值。

在本实施例中，将各分词的权重向量累加得到所述第一文本的第一权重向量，将各关键词的权重向量累加得到所述第一文本的第二权重向量，将上述各个分词或关键词的权重向量进行累加，得到一个序列串作为第一文本的第一权重向量或第二权重向量，例如，将“CSDN”的“4 -4 -4 4 -4 4”和“博客”的“5 -5 5 -5 5 5”进行累加，得到“4+5 -4+-5 -4+5 4+-5 -4+5 4+5”，得到“9 -9 1 -1 1”。

之后，对第一权重向量及第二权重向量执行降维操作，将高维的特征向量映射成低维的特征向量可以提高处理的速度，得到第一文本的第一simhash值及第二simhash值，第一simhash值是指第一文本分词对应的simhash值，第二simhash值是指第一文本的关键词对应的simhash值，具体地，对于第一文本的权重向量，如果大于0则置1，否则置0，从而得到第一文本的第一simhash值和第二simhash值。例如，将上述计算出来的“9 -9 1 -1 1 9”执行降维操作（某位大于0则置1，小于0则置0），得到的simhash值为：“1 0 1 0 1 1”。

筛除模块140，用于计算所述第一simhash值与预设存储空间的目标文本的第三simhash值的第一距离值，当所述第一距离值大于第一预设值时，计算所述第二simhash值与所述第三simhash值的第二距离值，当所述第二距离值小于或等于第二预设值时，筛除所述第一文本。

在本实施例中，由于在实际的文本去重操作过程中，会爬取到与该文本相似性很高的文本，某文本的摘要性文本，或某文本的总结性文本等，例如，某只股票的总结公告，可能会存在比该总结公告更加详细的总结公告文本，若仅根据文本分词得到的第一simhash值判断两篇文本是否相似，则判断结果会认为两篇文本并不重复，因此，需要结合根据文本关键词得到的第二simhash值进一步判断比较两篇文本是否为相似文本。

具体地，计算第一simhash值与目标文本的第三simhash值的第一距离值，可以理解的是，第三simhash值可以是目标文本分词得到的simhash值。第一距离值可以是海明距离值，当第一距离值大于第一预设值（例如，3）时，说明根据文本分词得到的第一simhash值判断两篇文本是不相同或不相似的，此时，可以进一步计算第二simhash值与目标文本的第三simhash值的第二距离值，当第二距离值小于第二预设值时，说明根据文本关键词得到的文本simhash值判断两篇文本属于相似文本，此时可以筛除第一文本，其中，第二预设值可根据实际情况设置。可以理解的是，预设存储空间的目标文本是指与第一文件进行比较是否相似或相同的文本，目标文本可以是第一文本之前爬取到的文本，也可以是数据库中的文本集中的任一文本。

在一个实施例中，当所述第一距离值小于或等于所述第一预设值时，筛除所述第一文本。两篇文本的第一距离值小于第一预设值时，说明两篇文本的相似度较高，此时可以筛除第一文本。

进一步地，当所述第二距离值大于所述第二预设值时，将所述第一文本存储至所述预设目标文本所属的文本集。当第二距离值大于第二预设值时，说明根据文本关键词得到的simhash值判断两篇文本不属于相似文本，因此可保留第一文本。

在一个实施例中，所述当所述第一距离值大于第一预设值时，筛选模块还用于：计算所述第一simhash值与所述目标文本的第四simhash值的第三距离值，当所述第三距离值小于或等于第三预设值时，筛除所述第一文本。

第四simhash值是目标文本的关键词对应的simhash值，通过比较两篇文本的关键词simhash值的距离，可以进一步筛除相似文本。

在实际应用过程中，将分词结合关键词可以对摘要性、总结性的文本进行去重，对每篇文本保留两个simhash值，一个是分词的simhash值，一个是关键词的simhash值，优先级是分词，再判断关键词，可以明显提高Simhash在文本去重筛选应用的实际效果。

此外，本申请还提供一种文本筛选方法。参照图3所示，为本申请文本筛选方法的实施例的方法流程示意图。电子设备1的处理器12执行存储器11中存储的文本筛选程序10时实现文本筛选方法的如下步骤：

步骤S10：对待筛选的第一文本执行分词操作得到多个分词，从所述多个分词中提取预设词性的关键词，为各分词及各关键词分配相关联的权重。

步骤S20：利用哈希函数计算各分词及各关键词的哈希值，基于各分词的哈希值及各分词对应的权重执行加权操作得到该分词的权重向量，基于各关键词的哈希值及各关键词对应的权重执行加权操作得到该关键词的权重向量。

步骤S30：将各分词的权重向量累加得到所述第一文本的第一权重向量，将各关键词的权重向量累加得到所述第一文本的第二权重向量，对所述第一权重向量及所述第二权重向量执行降维操作，得到所述第一文本的第一simhash值及第二simhash值。

之后，对第一权重向量及第二权重向量执行降维操作，将高维的特征向量映射成低维的特征向量可以提高处理的速度，得到第一文本的第一simhash值及第二simhash值，第一simhash值是指第一文本分词对应的simhash值，第二simhash值是指第一文本的关键词对应的simhash值，具体地，对于第一文本的权重向量，如果大于0则置1，否则置0，从而得到第一文本的simhash值。例如，将上述计算出来的“9 -9 1 -1 1 9”执行降维操作（某位大于0则置1，小于0则置0），得到的simhash值为：“1 0 1 0 1 1”。

步骤S40：计算所述第一simhash值与预设目标文本的第三simhash值的第一距离值，当所述第一距离值大于第一预设值时，计算所述第二simhash值与所述第三simhash值的第二距离值，当所述第二距离值小于或等于第二预设值时，筛除所述第一文本。

此外，本申请实施例还提出一种计算机可读存储介质，该计算机可读存储介质可以是易失性的，也可以是非易失性的，该计算机可读存储介质可以是硬盘、多媒体卡、SD卡、闪存卡、SMC、只读存储器（ROM）、可擦除可编程只读存储器（EPROM）、便携式紧致盘只读存储器（CD-ROM）、USB存储器等等中的任意一种或者几种的任意组合。所述计算机可读存储介质中包括存储数据区和存储程序区，存储数据区存储根据区块链节点的使用所创建的数据，存储程序区存储有文本筛选程序10，所述文本筛选程序10被处理器执行时实现如下操作：

在另一个实施例中，本申请所提供的文本筛选方法，为进一步保证上述所有出现的数据的私密和安全性，上述所有数据还可以存储于一区块链的节点中。例如文本的哈希值、需要保留的文本等等，这些数据均可存储在区块链节点中。

需要说明的是，本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本申请之计算机可读存储介质的具体实施方式与上述文本筛选方法的具体实施方式大致相同，在此不再赘述。

需要说明的是，上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，电子装置，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种文本筛选方法，应用于电子设备，其中，所述方法包括：

对待筛选的第一文本执行分词操作得到多个分词，从所述多个分词中提取预设词性的关键词，为各分词及各关键词分配相关联的权重；

计算各分词及各关键词的第一哈希值，基于各分词的第一哈希值及权重执行加权操作得到各分词的权重向量，基于各关键词的第一哈希值及各权重执行加权操作得到各关键词的权重向量；

将各分词的权重向量累加得到所述第一文本的第一权重向量，将各关键词的权重向量累加得到所述第一文本的第二权重向量，对所述第一权重向量及所述第二权重向量执行降维操作，分别得到所述第一文本的第一simhash值及第二simhash值；

计算所述第一simhash值与预设存储空间的目标文本的第三simhash值的第一距离值，当所述第一距离值大于第一预设值时，计算所述第二simhash值与所述第三simhash值的第二距离值，当所述第二距离值小于或等于第二预设值时，筛除所述第一文本。
如权利要求1所述的文本筛选方法，其中，所述从所述多个分词中提取预设词性的关键词包括：

计算各分词在所述第一文本中的词频，基于所述词频计算出各分词的IDF值及TF值，将各分词的IDF值与各分词对应的TF值相乘得到各分词的TF-ID值，判断所述第一文本中是否存在大于预设数量的预设词性的关键词，若是，基于各分词的TF-ID值选取预设数量的预设词性的关键词，其中，所述预设词性的关键词包括名词关键词和动词关键词。
如权利要求2所述的文本筛选方法，其中，所述判断所述第一文本中是否存在大于预设数量的预设词性的关键词包括：

当判断所述第一文本中不存在大于预设数量的预设词性的关键词时，筛除所述第一文本，并从预设存储空间随机获取一篇文本作为所述待筛选的第一文本重新执行分词操作。
如权利要求1所述的文本筛选方法，其中，所述方法还包括：

当所述第一距离值小于或等于所述第一预设值时，筛除所述第一文本。
如权利要求1或4所述的文本筛选方法，其中，所述方法还包括：

当所述第二距离值大于所述第二预设值时，将所述第一文本存储至所述预设目标文本所属的文本集。
如权利要求1所述的文本筛选方法，其中，所述当所述第一距离值大于第一预设值时，所述方法还包括：

计算所述第一simhash值与所述目标文本的第四simhash值的第三距离值，当所述第三距离值小于或等于第三预设值时，筛除所述第一文本。
如权利要求1所述的文本筛选方法，其中，所述对待筛选的第一文本执行分词操作得到多个分词包括：

根据正向最大匹配法将读取到的文本与所述词库进行匹配，得到第一匹配结果，所述第一匹配结果中包含有第一数量的第一词组和第二数量的单字；

根据逆向最大匹配法将读取到的文本与所述词库进行匹配，得到第二匹配结果，所述第二匹配结果中包含有第三数量的第二词组和第四数量的单字；

若所述第一数量与所述第三数量相等且所述第二数量小于或者等于所述第四数量，或者，若所述第一数量小于所述第三数量，则将所述第一匹配结果作为该对象全称的分词结果；若所述第一数量与所述第二数量相等且所述第三数量大于所述第四数量，或者，若所述第一数量大于所述第三数量，则将所述第二匹配结果作为所述第一文本的分词结果。
一种文本筛选装置，其中，所述装置包括：

提取模块：用于对待筛选的第一文本执行分词操作得到多个分词，从所述多个分词中提取预设词性的关键词，为各分词及各关键词分配相关联的权重；

加权模块：用于计算各分词及各关键词的第一哈希值，基于各分词的第一哈希值及权重执行加权操作得到各分词的权重向量，基于各关键词的第一哈希值及各权重执行加权操作得到各关键词的权重向量；

降维模块：用于将各分词的权重向量累加得到所述第一文本的第一权重向量，将各关键词的权重向量累加得到所述第一文本的第二权重向量，对所述第一权重向量及所述第二权重向量执行降维操作，分别得到所述第一文本的第一simhash值及第二simhash值；

筛除模块：用于计算所述第一simhash值与预设存储空间的目标文本的第三simhash值的第一距离值，当所述第一距离值大于第一预设值时，计算所述第二simhash值与所述第三simhash值的第二距离值，当所述第二距离值小于或等于第二预设值时，筛除所述第一文本。
一种电子设备，其中，所述电子设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的程序，所述程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如下步骤：

对待筛选的第一文本执行分词操作得到多个分词，从所述多个分词中提取预设词性的关键词，为各分词及各关键词分配相关联的权重；

计算各分词及各关键词的第一哈希值，基于各分词的第一哈希值及权重执行加权操作得到各分词的权重向量，基于各关键词的第一哈希值及各权重执行加权操作得到各关键词的权重向量；

将各分词的权重向量累加得到所述第一文本的第一权重向量，将各关键词的权重向量累加得到所述第一文本的第二权重向量，对所述第一权重向量及所述第二权重向量执行降维操作，分别得到所述第一文本的第一simhash值及第二simhash值；

计算所述第一simhash值与预设存储空间的目标文本的第三simhash值的第一距离值，当所述第一距离值大于第一预设值时，计算所述第二simhash值与所述第三simhash值的第二距离值，当所述第二距离值小于或等于第二预设值时，筛除所述第一文本。
如权利要求9所述的电子设备，其中，所述从所述多个分词中提取预设词性的关键词包括：

计算各分词在所述第一文本中的词频，基于所述词频计算出各分词的IDF值及TF值，将各分词的IDF值与各分词对应的TF值相乘得到各分词的TF-ID值，判断所述第一文本中是否存在大于预设数量的预设词性的关键词，若是，基于各分词的TF-ID值选取预设数量的预设词性的关键词，其中，所述预设词性的关键词包括名词关键词和动词关键词。
如权利要求10所述的电子设备，其中，所述判断所述第一文本中是否存在大于预设数量的预设词性的关键词包括：

当判断所述第一文本中不存在大于预设数量的预设词性的关键词时，筛除所述第一文本，并从预设存储空间随机获取一篇文本作为所述待筛选的第一文本重新执行分词操作。
如权利要求9所述的电子设备，其中，所述至少一个处理器还执行如下步骤：

当所述第一距离值小于或等于所述第一预设值时，筛除所述第一文本。
如权利要求9所述的电子设备，其中，所述至少一个处理器还执行如下步骤：

当所述第二距离值大于所述第二预设值时，将所述第一文本存储至所述预设目标文本所属的文本集。
如权利要求9所述的电子设备，其中，所述当所述第一距离值大于第一预设值时，所述至少一个处理器还执行如下步骤：

计算所述第一simhash值与所述目标文本的第四simhash值的第三距离值，当所述第三距离值小于或等于第三预设值时，筛除所述第一文本。
如权利要求9所述的电子设备，其中，所述对待筛选的第一文本执行分词操作得到多个分词包括：

根据正向最大匹配法将读取到的文本与所述词库进行匹配，得到第一匹配结果，所述第一匹配结果中包含有第一数量的第一词组和第二数量的单字；

根据逆向最大匹配法将读取到的文本与所述词库进行匹配，得到第二匹配结果，所述第二匹配结果中包含有第三数量的第二词组和第四数量的单字；

若所述第一数量与所述第三数量相等且所述第二数量小于或者等于所述第四数量，或者，若所述第一数量小于所述第三数量，则将所述第一匹配结果作为该对象全称的分词结果；若所述第一数量与所述第二数量相等且所述第三数量大于所述第四数量，或者，若所述第一数量大于所述第三数量，则将所述第二匹配结果作为所述第一文本的分词结果。
一种计算机可读存储介质，其中，所述计算机可读存储介质中包括存储数据区和存储程序区，存储数据区存储根据区块链节点的使用所创建的数据，存储程序区存储有文本筛选程序，所述文本筛选程序被处理器执行时，实现如下步骤：

对待筛选的第一文本执行分词操作得到多个分词，从所述多个分词中提取预设词性的关键词，为各分词及各关键词分配相关联的权重；

计算各分词及各关键词的第一哈希值，基于各分词的第一哈希值及权重执行加权操作得到各分词的权重向量，基于各关键词的第一哈希值及各权重执行加权操作得到各关键词的权重向量；

将各分词的权重向量累加得到所述第一文本的第一权重向量，将各关键词的权重向量累加得到所述第一文本的第二权重向量，对所述第一权重向量及所述第二权重向量执行降维操作，分别得到所述第一文本的第一simhash值及第二simhash值；

计算所述第一simhash值与预设存储空间的目标文本的第三simhash值的第一距离值，当所述第一距离值大于第一预设值时，计算所述第二simhash值与所述第三simhash值的第二距离值，当所述第二距离值小于或等于第二预设值时，筛除所述第一文本。
如权利要求16所述的计算机可读存储介质，其中，所述从所述多个分词中提取预设词性的关键词包括：

计算各分词在所述第一文本中的词频，基于所述词频计算出各分词的IDF值及TF值，将各分词的IDF值与各分词对应的TF值相乘得到各分词的TF-ID值，判断所述第一文本中是否存在大于预设数量的预设词性的关键词，若是，基于各分词的TF-ID值选取预设数量的预设词性的关键词，其中，所述预设词性的关键词包括名词关键词和动词关键词。
如权利要求17所述的计算机可读存储介质，其中，所述判断所述第一文本中是否存在大于预设数量的预设词性的关键词包括：

当判断所述第一文本中不存在大于预设数量的预设词性的关键词时，筛除所述第一文本，并从预设存储空间随机获取一篇文本作为所述待筛选的第一文本重新执行分词操作。
如权利要求16所述的计算机可读存储介质，其中，所述文本筛选程序被处理器执行时，还实现如下步骤：

当所述第一距离值小于或等于所述第一预设值时，筛除所述第一文本。
如权利要求16所述的计算机可读存储介质，其中，所述文本筛选程序被处理器执行时，还实现如下步骤：

当所述第二距离值大于所述第二预设值时，将所述第一文本存储至所述预设目标文本所属的文本集。