WO2022048363A1

WO2022048363A1 - 网站分类方法、装置、计算机设备及存储介质

Info

Publication number: WO2022048363A1
Application number: PCT/CN2021/109553
Authority: WO
Inventors: 吴满芳
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2020-09-02
Filing date: 2021-07-30
Publication date: 2022-03-10
Also published as: CN111984792A

Abstract

提供了一种网站分类方法、装置、计算机设备及存储介质。网站分类方法通过采用标识网站类型的网站简介文本作为训练样本，对初始分类模型进行训练，获取文本分类模型；采用文本分类模型对待分类网站文本进行分类，以得到待分类网站文本的类别，从而实现基于网站简介文本可快速准确的识别网站类型的目的。

Description

网站分类方法、装置、计算机设备及存储介质

本申请要求于2020年9月2日递交的申请号为202010910928.9、名称为“网站分类方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及数据分析领域，尤其涉及网站分类方法、装置、计算机设备及存储介质。

背景技术

互联网网站天然存在各种有价值的信息，但当前互联网技术发展迅猛，每天都有大量旧网站消失、新网站出现。面对如此庞大的日新月异的网站数量和网站种类，如何高效准确的筛选出特定类别的网站是挖掘网站信息的重要前提之一。

发明人意识到，目前网站分类的方法很多，大致可以分为三种情况：人工标注网站类别，人工成本高、效率低；人工维护网站类别以及相应关键字的字典，使用规则进行网站分类，需要耗费大量的人力去整理维护字典，准确率不高；利用机器学习的方法对网站数据进行分类，虽然大大释放了人力，当无法保证分类的准确率。

发明内容

针对现有网站分类方法准确低的问题，现提供一种旨在提高网站分类准确率的网站分类方法、装置、计算机设备及存储介质。

为实现上述目的，本申请提供一种网站分类方法，包括：

采用训练样本集合对初始分类模型进行训练，获取文本分类模型；

其中，所述训练样本集合包括至少一个样本文本，所述样本文本为标识网站类型的网站简介文本；

获取待分类网站文本；

采用所述文本分类模型对所述待分类网站文本进行分类，以获取所述待分类网站文本的类别。

为实现上述目的，本申请还提供了一种网站分类装置，包括：

训练单元，用于采用训练样本集合对初始分类模型进行训练，获取文本分类模型，其中，所述训练样本集合包括至少一个样本文本，所述样本文本为标识网站类型的网站简介文本；

获取单元，用于获取待分类网站文本；

预测单元，用于采用所述文本分类模型对所述待分类网站文本进行分类，以获取所述待分类网站文本的类别。

为实现上述目的，本申请还提供了一种计算机设备，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现上述网站分类方法包括：

获取待分类网站文本；

为实现上述目的，本申请还提供了一种计算机可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现上述网站分类方法，包括：

获取待分类网站文本；

本申请提供的网站分类方法、装置、计算机设备及存储介质通过采用标识网站类型的网站简介文本作为训练样本，对初始分类模型进行训练，获取文本分类模型，极大的减少了训练过程中占用的存储量，提高了训练的速度；采用文本分类模型对待分类网站文本进行分类，以得到待分类网站文本的类别，从而实现基于网站简介文本可快速准确的识别网站类型的目的。

附图说明

图1为本申请所述的网站分类方法的一种实施例的流程图；

图2为本申请采用训练样本集合对初始分类模型进行训练获取文本分类模型的一种实施例的流程图；

图3为通过第一LightGBM模型获取每个样本文本的第一分类向量的一种实施例的流程图；

图4为通过第一Bi-LSTM模型获取每个样本文本的第二分类向量的一种实施例的流程图；

图5为采用文本分类模型对待分类网站文本进行分类以获取待分类网站文本的类别的一种实施例的流程图；

图6为通过第二LightGBM模型获取待分类网站文本的第四分类向量的另一种实施例的流程图；

图7为通过第二Bi-LSTM模型获取待分类网站文本的第五分类向量的另一种实施例的流程图；

图8为本申请所述的网站分类装置的一种实施例的模块图；

图9为本申请所述训练单元的一种实施例的模块图；

图10为本申请所述预测单元的一种实施例的模块图；

图11为本申请计算机设备的一个实施例的硬件架构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本申请提供的网站分类方法、装置、计算机设备及存储介质，适用于保险业务、金融业务等领域。本申请涉及人工智能，在机器学习中通过采用标识网站类型的网站简介文本作为训练样本，对初始分类模型进行训练，获取文本分类模型，极大的减少了训练过程中占用的存储量，提高了训练的速度；采用文本分类模型对待分类网站文本进行分类，以得到待分类网站文本的类别，从而实现基于网站简介文本可快速准确的识别网站类型的目的。

实施例一

请参阅图1，本实施例的一种网站分类方法，包括：

S1.采用训练样本集合对初始分类模型进行训练，获取文本分类模型；

需要说明的是：所述初始分类模型包括第一LightGBM模型和第一Bi-LSTM模型，所述文本分类模型包括第二LightGBM模型和第二Bi-LSTM模型；

在步骤S1中采用所述训练样本集合对所述第一LightGBM模型和所述第一Bi-LSTM模型进行训练，获取所述第二LightGBM模型和所述第二Bi-LSTM模型。

具体地，参阅图2所示步骤S1可包括以下步骤：

S11.将所述训练样本集合中的至少一个所述样本文本输入所述第一LightGBM模型，获取每个所述样本文本的第一分类向量；

需要说明的是：训练样本集合可以存储于一区块链的节点中。本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

进一步地，参阅图3所示步骤S11可包括以下步骤：

S111.对所述样本文本进行预处理，获取所述样本文本中的所有分词；

在本步骤中对样本文本进行预处理包括：去除样本文本中的中文及英文标点符号，删除英文字符及停用词，对样本文本进行分词，以得到样本文本中的所有分词。

S112.采用gensim模块分别将每个所述分词转换为训练词向量，以得到所述样本文本的分词矩阵；

在gensim模块中采用word2vec函数训练语料，通过word2vec函数将每一个分词分别映射到一个训练词向量，从而得到由训练词向量组成的分词矩阵。在步骤S112中由于分词采用预设维度表示的训练词向量(如：训练词向量为300维)，因此样本文本被表示成一个二维的分词矩阵。

S113.计算所述分词矩阵中每一个所述分词的词频-逆文件频率IT-IDF，将所述词频-逆文件频率作为相应的所述分词的权重；

由于机器学习的需求是将样本文本表示为一个一维的向量，因此，需要进一步将二维的分词矩阵转变成一个一维向量。在本步骤中采用计算每个分词的IT-IDF值，将IT-IDF值作为每个分词的权重。

S114.将所述分词矩阵中每个所述分词分别与相应的权重进行加权，以得到所述样本文本的第一分词向量；

在本步骤中，采用embeeding方式将离散的训练词向量映射为连续向量，并与相应的权重进行加权，从而得到样本文本的第一分词向量。

S115.将所述第一分词向量输入所述第一LightGBM模型进行训练，得到所述样本文本的第一分类向量。

在本步骤中采用第一LightGBM模型进行训练具有训练速度快、内存消耗低、准确率高的优点，可有效的提高样本文本的分类进准度。

S12.将所述训练样本集合的至少一个所述样本文本输入所述第一Bi-LSTM模型，获取每个所述样本文本的第二分类向量；

进一步地，参阅图4所示步骤S12可包括：

S121.对所述样本文本进行预处理，获取所述样本文本中的所有分词；

S122.采用bert模型将所述样本文本中的所有分词转换为第二分词向量；

bert模型全称是：BidirectionalEncoder Representations from Transformer。bert模型的输入是样本文本中各个字/词的原始词向量，该向量既可以随机初始化，也可以利用Word2Vector等算法进行预训练以作为初始值；输出是样本文本中各个字/词融合了全文语义信息后的向量，即：第二分词向量。

S123.将所述第二分词向量输入所述第一Bi-LSTM模型进行训练，得到所述样本文本的第二分类向量。

在本实施例中，第一Bi-LSTM模型中增加了注意力机制即：Attention层，在第一Bi-LSTM模型中将最后一个时序的输出向量作为特征向量然后进行softmax分类。Attention层是先计算每个时序的权重，然后将所有时序的向量进行加权和作为特征向量，然后进行softmax分类。在本实施例中通过增加Attention层可有效的提高第二分类向量的准确性。

S13.分别将同一所述样本文本的所述第一分类向量和所述第二分类向量进行加权求和，以得到所述样本文本的训练分类；

例如：假设第一分类向量Y1:[y1,y2,…,yn]，第二分类向量Y2:[y1,y2,…,yn]，则样本文本进行加权求和Y＝w1×Y1+(1-w1)×Y2；其中w1为预设的权重值，属于[0,1]。

在本实施例中，通过将同一所述样本文本的第一分类向量和第二分类向量进行加权求和，以获取样本文本的第三分类向量；将第三分类向量中概率分布最大的维度作为样本文本的训练分类结果。

S14.将每一个所述样本文本的所述训练分类与所述样本文本的网站类型标识进行匹配；

S15.判断所有所述样本文本的所述训练分类的匹配度是否大于预设阈值，若否，更新所述第一LightGBM模型的参数值，以及所述第一Bi-LSTM模型的参数值，直至完成对所述第一LightGBM模型和所述第一Bi-LSTM模型的训练，获取所述第二LightGBM模型和所述第二Bi-LSTM模型。

在本实施例中，预设阈值可以根据需要设定，如：90％，95％等。

S2.获取待分类网站文本；

在本实施例中，待分类网站文本可以基于网站排行榜中的网站简介获得。

S3.采用所述文本分类模型对所述待分类网站文本进行分类，以获取所述待分类网站文本的类别。

具体地，参阅图5所示步骤S3可包括：

S31.将所述待分类网站文本输入所述第二LightGBM模型，获取所述待分类网站文本的第四分类向量；

进一步地，参阅图6所示步骤S31可包括以下步骤：

S311.对所述待分类网站文本进行预处理，获取所述待分类网站文本中的所有分词；

在本步骤中对待分类网站文本进行预处理包括：去除待分类网站文本中的中文及英文标点符号，删除英文字符及停用词，对待分类网站文本进行分词，以得到待分类网站文本中的所有分词。

S312.采用gensim模块分别将每个所述分词转换为词向量，以得到所述待分类网站文本的分词矩阵；

在gensim模块中采用word2vec函数训练语料，通过word2vec函数将每一个分词分别映射到一个词向量，从而得到由词向量组成的分词矩阵。在步骤S312中因为分词采用预设维度表示的词向量，所以样本文本被表示成一个二维的分词矩阵。

S313.计算所述分词矩阵中每一个所述分词的词频-逆文件频率，将所述词频-逆文件频率作为相应的所述分词的权重；

由于机器学习的需求是将待分类网站文本表示为一个一维的向量，因此，需要进一步将二维的分词矩阵转变成一个一维向量。在本步骤中采用计算每个分词的IT-IDF值，将IT-IDF值作为每个分词的权重。

IT-IDF值与词向量加权生成句向量的表征方法：IT-IDF是评估一个单词在一个文档集合或语料库中的重要程度，预训练的词向量mbedding方式则关注的是单词的语义，将两者结合起来表示文本是对文本信息的丰富和扩充。

S314.将所述分词矩阵中每个所述分词分别与相应的权重进行加权，以得到所述待分类网站文本的第三分词向量；

在本步骤中，采用embeeding方式将离散的训练词向量映射为连续向量，并与相应的权重进行加权，从而得到待分类网站文本的第三分词向量。

S315.将所述第三分词向量输入所述第二LightGBM模型进行预测，得到所述待分类网站文本的第四分类向量。

在本步骤中采用第二LightGBM模型进行预测具有预测速度快、内存消耗低、准确率高的优点，可有效的提高待分类网站文本的分类进准度。

在本实例中，IT-IDF值与词向量加权生成句向量的表征方法：IT-IDF是评估一个单词在一个文档集合或语料库中的重要程度，预训练的词向量mbedding方式则关注的是单词的语义，将两者结合起来表示文本是对文本信息的丰富和扩充。

S32.将所述待分类网站文本输入所述第二Bi-LSTM模型，获取所述待分类网站文本的第五分类向量；

进一步地，参阅图7所示步骤S32可包括以下步骤：

S321.对所述待分类网站文本进行预处理，获取所述待分类网站文本中的所有分词；

S322.采用bert模型将所述待分类网站文本中的所有分词转换为第四分词向量；

bert模型全称是：BidirectionalEncoder Representations from Transformer。bert模型的输入是待分类网站文本中各个字/词的原始词向量，该向量既可以随机初始化，也可以利用Word2Vector等算法进行预训练以作为初始值；输出是待分类网站文本中各个字/词融合了全文语义信息后的向量，即：第四分词向量。

S323.将所述第四分词向量输入所述第二Bi-LSTM模型进行预测，得到所述待分类网站文本的第五分类向量。

在本实施例中，第二Bi-LSTM模型中增加了注意力机制即：Attention层，在第二Bi-LSTM模型中将最后一个时序的输出向量作为特征向量然后进行softmax分类。Attention层是先计算每个时序的权重，然后将所有时序的向量进行加权和作为特征向量，然后进行softmax分类。在本实施例中通过增加Attention层可有效的提高第五分类向量的准确性。

S33.将所述待分类网站文本的所述第四分类向量和所述第五分类向量进行加权求和，以得到所述待分类网站文本的分类。

在本实施例中，通过将待分类网站文本的第四分类向量和第五分类向量进行加权求和，以获取待分类网站文本的第六分类向量；将第六分类向量中概率分布最大的维度作为待分类网站文本的分类结果。

在本实施例中，网站分类方法通过采用标识网站类型的网站简介文本作为训练样本，对初始分类模型进行训练，获取文本分类模型，极大的减少了训练过程中占用的存储量，提高了训练的速度；采用文本分类模型对待分类网站文本进行分类，以得到待分类网站文本的类别，从而实现基于网站简介文本可快速准确的识别网站类型的目的。网站分类方法集合了Bi-LSTM模型和LightGBM模型对网站简介进行分类预测，提高了分类的准确率，相比于现有的语料训练，本申请从网站简介出发该内容概括性强且短小精悍，占用内容少，大大降低了模型的开销。

实施例二

请参阅图8，本实施例的一种网站分类装置1，包括：训练单元11、获取单元12和预测单元13；其中：

训练单元11，用于采用训练样本集合对初始分类模型进行训练，获取文本分类模型，其中，所述训练样本集合包括至少一个待分类网站文本，所述待分类网站文本为标识网站类型的网站简介文本；

其中，所述训练样本集合包括至少一个样本文本，所述样本文本为标识网站类型的网站简介文本；训练样本集合可以存储于一区块链的节点中。本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

训练单元11采用所述训练样本集合对所述第一LightGBM模型和所述第一Bi-LSTM模型进行训练，获取所述第二LightGBM模型和所述第二Bi-LSTM模型。

具体地，参阅图9所示训练单元11可包括：第一训练模块111、第二训练模块112、第一求和模块113、匹配模块114和处理模块115。

第一训练模块111，用于将所述训练样本集合中的至少一个所述样本文本输入所述第一LightGBM模型，获取每个所述样本文本的第一分类向量；

进一步地，参阅图3所示第一训练模块111通过第一LightGBM模型获取每个所述样本文本的第一分类向量可包括以下步骤：

第二训练模块112，用于将所述训练样本集合的至少一个所述样本文本输入所述第一 Bi-LSTM模型，获取每个所述样本文本的第二分类向量；

进一步地，参阅图4所示第二训练模块112通过第一Bi-LSTM模型获取每个所述样本文本的第二分类向量可包括以下步骤：

第一求和模块113，用于分别将同一所述样本文本的所述第一分类向量和所述第二分类向量进行加权求和，以得到所述样本文本的训练分类；

匹配模块114，用于将每一个所述样本文本的所述训练分类与所述样本文本的网站类型标识进行匹配；

处理模块115，用于判断所有所述样本文本的所述训练分类的匹配度是否大于预设阈值，若否，更新所述第一LightGBM模型的参数值，以及所述第一Bi-LSTM模型的参数值，直至完成对所述第一LightGBM模型和所述第一Bi-LSTM模型的训练，获取所述第二LightGBM模型和所述第二Bi-LSTM模型。

获取单元12，用于获取待分类网站文本；

预测单元13，用于采用所述文本分类模型对所述待分类网站文本进行分类，以获取所述待分类网站文本的类别。

具体地，参阅图10所示预测单元13可包括：第一预测模块131、第二预测模块132和第二求和模块133。

第一预测模块131，用于将所述待分类网站文本输入所述第二LightGBM模型，获取所述待分类网站文本的第四分类向量；

进一步地，参阅图6所示第一预测模块131通过第二LightGBM模型获取所述待分类网站文本的第四分类向量可包括以下步骤：

第二预测模块132，用于将所述待分类网站文本输入所述第二Bi-LSTM模型，获取所述待分类网站文本的第五分类向量；

进一步地，参阅图7所示第二预测模块132通过第二Bi-LSTM模型，获取所述待分类网站文本的第五分类向量可包括以下步骤：

第二求和模块133，用于将所述待分类网站文本的所述第四分类向量和所述第五分类向量进行加权求和，以得到所述待分类网站文本的分类。

在本实施例中，网站分类装置1通过采用标识网站类型的网站简介文本作为训练样本，对初始分类模型进行训练，获取文本分类模型，极大的减少了训练过程中占用的存储量，提高了训练的速度；采用文本分类模型对待分类网站文本进行分类，以得到待分类网站文本的类别，从而实现基于网站简介文本可快速准确的识别网站类型的目的。网站分类方法集合了Bi-LSTM模型和LightGBM模型对网站简介进行分类预测，提高了分类的准确率，相比于现有的语料训练，本申请从网站简介出发该内容概括性强且短小精悍，占用内容少，大大降低了模型的开销。

实施例三

为实现上述目的，本申请还提供一种计算机设备2，该计算机设备2包括多个计算机设备2，实施例二的网站分类装置1的组成部分可分散于不同的计算机设备2中，计算机设备2可以是执行程序的智能手机、平板电脑、笔记本电脑、台式计算机、机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器，或者多个服务器所组成的服务器集群)等。本实施例的计算机设备2至少包括但不限于：可通过系统总线相互通信连接的存储器21、处理器23、网络接口22以及网站分类装置1(参考图11)。需要指出的是，图11仅示出了具有组件-的计算机设备2，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

本实施例中，所述存储器21至少包括一种类型的计算机可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器21可以是计算机设备2的内部存储单元，例如该计算机设备2的硬盘或内存。在另一些实施例中，存储器21也可以是计算机设备2的外部存储设备，例如该计算机设备2上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。当然，所述存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中，存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件，例如实施例一的网站分类方法的程序代码等。此外，存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器23在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器23通常用于控制计算机设备2的总体操作例如执行与所述计算机设备2进行数据交互或者通信相关的控制和处理等。本实施例中，所述处理器23用于运行所述存储器21中存储的程序代码或者处理数据，例如运行所述的网站分类装置1等。

所述网络接口22可包括无线网络接口或有线网络接口，该网络接口22通常用于在所述计算机设备2与其他计算机设备2之间建立通信连接。例如，所述网络接口22用于通过网络将所述计算机设备2与外部终端相连，在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，GSM)、宽带码分多址(Wideband Code Division Multiple Access，WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图11仅示出了具有部件21-23的计算机设备2，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器21中的所述网站分类装置1还可以被分割为一个或者多个程序模块，所述一个或者多个程序模块被存储于存储器21中，并由一个或多个处理器(本实施例为处理器23)所执行，以完成本申请。

实施例四

为实现上述目的，本申请还提供一种计算机可读存储介质，其包括多个存储介质，如闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等，其上存储有计算机可读指令，程序被处理器23执行时实现相应功能。本实施例的计算机可读存储介质用于存储网站分类装置1，被处理器23执行时实现实施例一的网站分类方法。所述计算机可读存储介质可以是非易失性，也可以是易失性。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。

以上仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种网站分类方法，其中，包括：

采用训练样本集合对初始分类模型进行训练，获取文本分类模型；

其中，所述训练样本集合包括至少一个样本文本，所述样本文本为标识网站类型的网站简介文本；

获取待分类网站文本；

采用所述文本分类模型对所述待分类网站文本进行分类，以获取所述待分类网站文本的类别。
根据权利要求1所述的网站分类方法，其中，所述初始分类模型包括第一LightGBM模型和第一Bi-LSTM模型，所述文本分类模型包括第二LightGBM模型和第二Bi-LSTM模型；

所述采用训练样本集合对初始分类模型进行训练，获取文本分类模型，包括：

采用所述训练样本集合对所述第一LightGBM模型和所述第一Bi-LSTM模型进行训练，获取所述第二LightGBM模型和所述第二Bi-LSTM模型。
根据权利要求2所述的网站分类方法，其中，所述采用所述训练样本集合对所述第一LightGBM模型和所述第一Bi-LSTM模型进行训练，获取所述第二LightGBM模型和所述第二Bi-LSTM模型，包括：

将所述训练样本集合中的至少一个所述样本文本输入所述第一LightGBM模型，获取每个所述样本文本的第一分类向量；

将所述训练样本集合的至少一个所述样本文本输入所述第一Bi-LSTM模型，获取每个所述样本文本的第二分类向量；

分别将同一所述样本文本的所述第一分类向量和所述第二分类向量进行加权求和，以得到所述样本文本的训练分类；

将每一个所述样本文本的所述训练分类与所述样本文本的网站类型标识进行匹配；

判断所有所述样本文本的所述训练分类的匹配度是否大于预设阈值，若否，更新所述第一LightGBM模型的参数值，以及所述第一Bi-LSTM模型的参数值，直至完成对所述第一LightGBM模型和所述第一Bi-LSTM模型的训练，获取所述第二LightGBM模型和所述第二Bi-LSTM模型。
根据权利要求3所述的网站分类方法，其中，所述将所述训练样本集合中的至少一个所述样本文本输入所述第一LightGBM模型，获取每个所述样本文本的第一分类向量，包括：

对所述样本文本进行预处理，获取所述样本文本中的所有分词；

采用gensim模块分别将每个所述分词转换为训练词向量，以得到所述样本文本的分词矩阵；

计算所述分词矩阵中每一个所述分词的词频-逆文件频率，将所述词频-逆文件频率作为相应的所述分词的权重；

将所述分词矩阵中每个所述分词分别与相应的权重进行加权，以得到所述样本文本的第一分词向量；

将所述第一分词向量输入所述第一LightGBM模型进行训练，得到所述样本文本的第一分类向量。
根据权利要求3所述的网站分类方法，其中，所述将所述训练样本集合的至少一个所述样本文本输入所述第一Bi-LSTM模型，获取每个所述样本文本的第二分类向量，包括：

对所述样本文本进行预处理，获取所述样本文本中的所有分词；

采用bert模型将所述样本文本中的所有分词转换为第二分词向量；

将所述第二分词向量输入所述第一Bi-LSTM模型进行训练，得到所述样本文本的第二分类向量。
根据权利要求2所述的网站分类方法，其中，所述采用所述文本分类模型对所述待分类网站文本进行分类，以获取所述待分类网站文本的类别，包括：

将所述待分类网站文本输入所述第二LightGBM模型，获取所述待分类网站文本的第四分类向量；

将所述待分类网站文本输入所述第二Bi-LSTM模型，获取所述待分类网站文本的第五分类向量；

将所述待分类网站文本的所述第四分类向量和所述第五分类向量进行加权求和，以得到所述待分类网站文本的分类。
根据权利要求6所述的网站分类方法，其中，所述将所述待分类网站文本输入所述第二LightGBM模型，获取所述待分类网站文本的第四分类向量，包括：

对所述待分类网站文本进行预处理，获取所述待分类网站文本中的所有分词；

采用gensim模块分别将每个所述分词转换为词向量，以得到所述待分类网站文本的分词矩阵；

计算所述分词矩阵中每一个所述分词的词频-逆文件频率，将所述词频-逆文件频率作为相应的所述分词的权重；

将所述分词矩阵中每个所述分词分别与相应的权重进行加权，以得到所述待分类网站文本的第三分词向量；

将所述第三分词向量输入所述第二LightGBM模型进行预测，得到所述待分类网站文本的第四分类向量。
一种网站分类装置，其中，包括：

训练单元，用于采用训练样本集合对初始分类模型进行训练，获取文本分类模型，其中，所述训练样本集合包括至少一个样本文本，所述样本文本为标识网站类型的网站简介文本；

获取单元，用于获取待分类网站文本；

预测单元，用于采用所述文本分类模型对所述待分类网站文本进行分类，以获取所述待分类网站文本的类别。
一种计算机设备，其中，所述计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机可读指令，所述处理器执行所述计算机可读指令时实现一种网站分类方法包括：

采用训练样本集合对初始分类模型进行训练，获取文本分类模型；

其中，所述训练样本集合包括至少一个样本文本，所述样本文本为标识网站类型的网站简介文本；

获取待分类网站文本；

采用所述文本分类模型对所述待分类网站文本进行分类，以获取所述待分类网站文本的类别。
根据权利要求9所述的计算机设备，其中，所述初始分类模型包括第一LightGBM模型和第一Bi-LSTM模型，所述文本分类模型包括第二LightGBM模型和第二Bi-LSTM模型；

所述采用训练样本集合对初始分类模型进行训练，获取文本分类模型，包括：

采用所述训练样本集合对所述第一LightGBM模型和所述第一Bi-LSTM模型进行训练，获取所述第二LightGBM模型和所述第二Bi-LSTM模型。
根据权利要求10所述的计算机设备，其中，所述采用所述训练样本集合对所述第一LightGBM模型和所述第一Bi-LSTM模型进行训练，获取所述第二LightGBM模型和所述第二Bi-LSTM模型，包括：

将所述训练样本集合中的至少一个所述样本文本输入所述第一LightGBM模型，获取每个所述样本文本的第一分类向量；

将所述训练样本集合的至少一个所述样本文本输入所述第一Bi-LSTM模型，获取每个所述样本文本的第二分类向量；

分别将同一所述样本文本的所述第一分类向量和所述第二分类向量进行加权求和，以得到所述样本文本的训练分类；

将每一个所述样本文本的所述训练分类与所述样本文本的网站类型标识进行匹配；

判断所有所述样本文本的所述训练分类的匹配度是否大于预设阈值，若否，更新所述第一LightGBM模型的参数值，以及所述第一Bi-LSTM模型的参数值，直至完成对所述第一LightGBM模型和所述第一Bi-LSTM模型的训练，获取所述第二LightGBM模型和所述第二Bi-LSTM模型。
根据权利要求11所述的计算机设备，其中，所述将所述训练样本集合中的至少一个所述样本文本输入所述第一LightGBM模型，获取每个所述样本文本的第一分类向量，包括：

对所述样本文本进行预处理，获取所述样本文本中的所有分词；

采用gensim模块分别将每个所述分词转换为训练词向量，以得到所述样本文本的分词矩阵；

计算所述分词矩阵中每一个所述分词的词频-逆文件频率，将所述词频-逆文件频率作为相应的所述分词的权重；

将所述分词矩阵中每个所述分词分别与相应的权重进行加权，以得到所述样本文本的第一分词向量；

将所述第一分词向量输入所述第一LightGBM模型进行训练，得到所述样本文本的第一分类向量。
根据权利要求11所述的计算机设备，其中，所述将所述训练样本集合的至少一个所述样本文本输入所述第一Bi-LSTM模型，获取每个所述样本文本的第二分类向量，包括：

对所述样本文本进行预处理，获取所述样本文本中的所有分词；

采用bert模型将所述样本文本中的所有分词转换为第二分词向量；

将所述第二分词向量输入所述第一Bi-LSTM模型进行训练，得到所述样本文本的第二分类向量。
根据权利要求10所述的计算机设备，其中，所述采用所述文本分类模型对所述待分类网站文本进行分类，以获取所述待分类网站文本的类别，包括：

将所述待分类网站文本输入所述第二LightGBM模型，获取所述待分类网站文本的第四分类向量；

将所述待分类网站文本输入所述第二Bi-LSTM模型，获取所述待分类网站文本的第五分类向量；

将所述待分类网站文本的所述第四分类向量和所述第五分类向量进行加权求和，以得到所述待分类网站文本的分类。
一种计算机可读存储介质，其上存储有计算机可读指令，其中：所述计算机可读指令被处理器执行时实现一种网站分类方法包括：

采用训练样本集合对初始分类模型进行训练，获取文本分类模型；

其中，所述训练样本集合包括至少一个样本文本，所述样本文本为标识网站类型的网站简介文本；

获取待分类网站文本；

采用所述文本分类模型对所述待分类网站文本进行分类，以获取所述待分类网站文本的类别。
根据权利要求15所述的计算机可读存储介质，其中，所述初始分类模型包括第一LightGBM模型和第一Bi-LSTM模型，所述文本分类模型包括第二LightGBM模型和第二Bi-LSTM模型；

所述采用训练样本集合对初始分类模型进行训练，获取文本分类模型，包括：

采用所述训练样本集合对所述第一LightGBM模型和所述第一Bi-LSTM模型进行训练，获取所述第二LightGBM模型和所述第二Bi-LSTM模型。
根据权利要求16所述的计算机可读存储介质，其中，所述采用所述训练样本集合对所述第一LightGBM模型和所述第一Bi-LSTM模型进行训练，获取所述第二LightGBM模型和所述第二Bi-LSTM模型，包括：

将所述训练样本集合中的至少一个所述样本文本输入所述第一LightGBM模型，获取每个所述样本文本的第一分类向量；

将所述训练样本集合的至少一个所述样本文本输入所述第一Bi-LSTM模型，获取每个所述样本文本的第二分类向量；

分别将同一所述样本文本的所述第一分类向量和所述第二分类向量进行加权求和，以得到所述样本文本的训练分类；

将每一个所述样本文本的所述训练分类与所述样本文本的网站类型标识进行匹配；

判断所有所述样本文本的所述训练分类的匹配度是否大于预设阈值，若否，更新所述第一LightGBM模型的参数值，以及所述第一Bi-LSTM模型的参数值，直至完成对所述第一LightGBM模型和所述第一Bi-LSTM模型的训练，获取所述第二LightGBM模型和所述第二Bi-LSTM模型。
根据权利要求17所述的计算机可读存储介质，其中，所述将所述训练样本集合中的至少一个所述样本文本输入所述第一LightGBM模型，获取每个所述样本文本的第一分类向量，包括：

对所述样本文本进行预处理，获取所述样本文本中的所有分词；

采用gensim模块分别将每个所述分词转换为训练词向量，以得到所述样本文本的分词矩阵；

计算所述分词矩阵中每一个所述分词的词频-逆文件频率，将所述词频-逆文件频率作为相应的所述分词的权重；

将所述分词矩阵中每个所述分词分别与相应的权重进行加权，以得到所述样本文本的第一分词向量；

将所述第一分词向量输入所述第一LightGBM模型进行训练，得到所述样本文本的第一分类向量。
根据权利要求17所述的计算机可读存储介质，其中，所述将所述训练样本集合的至少一个所述样本文本输入所述第一Bi-LSTM模型，获取每个所述样本文本的第二分类向量，包括：

对所述样本文本进行预处理，获取所述样本文本中的所有分词；

采用bert模型将所述样本文本中的所有分词转换为第二分词向量；

将所述第二分词向量输入所述第一Bi-LSTM模型进行训练，得到所述样本文本的第二分类向量。
根据权利要求16所述的计算机可读存储介质，其中，所述采用所述文本分类模型对所述待分类网站文本进行分类，以获取所述待分类网站文本的类别，包括：

将所述待分类网站文本输入所述第二LightGBM模型，获取所述待分类网站文本的第四分类向量；

将所述待分类网站文本输入所述第二Bi-LSTM模型，获取所述待分类网站文本的第五分类向量；

将所述待分类网站文本的所述第四分类向量和所述第五分类向量进行加权求和，以得到所述待分类网站文本的分类。