WO2020207431A1

WO2020207431A1 - 文献分类方法、装置、设备及存储介质

Info

Publication number: WO2020207431A1
Application number: PCT/CN2020/083952
Authority: WO
Inventors: 牛牧遥; 蔡洁; 黑马
Original assignee: 智慧芽信息科技(苏州)有限公司
Priority date: 2019-04-12
Filing date: 2020-04-09
Publication date: 2020-10-15
Also published as: CN110008342A

Abstract

一种文献分类方法、装置、设备及存储介质，该方法包括：获取待分类文献的文本信息以及与设定分类体系对应的类别标签信息（S110）；将文本信息和类别标签信息输入至设定神经网络进行处理，并根据设定神经网络的处理结果确定所述待分类文献的分类（S120）。

Description

文献分类方法、装置、设备及存储介质

本申请要求在2019年4月12日提交中国专利局、申请号为201910295898.2的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及文献分类技术领域，例如一种文献分类方法、装置、设备及存储介质。

背景技术

随着专利及非专利文本等数字文献数量的不断增加，对数字文献按照一定分类体系进行分类，显得越来越重要。其中，常用的分类体系包括联合专利分类体系(Cooperative Patent Classification，CPC)和国际专利分类体系(International Patent Classification，IPC)等。目前，对文献分类工作的大部分仍由专业人士手动完成，费时又费力。因此，急需要一种能够自动完成对文献分类的方法。

相关技术中，采用如下两种方式实现对文献的自动分类：一种是采用传统的机器学习模型，如支持向量机(Support Vector Machine,SVM))实现文献的分类。另一种是采用深度学习模型，如卷积神经网络(Convolutional Neural Network,CNN)、递归神经网络(Recurrent Neural Network,RNN)对文献分类。但是，这两种方法都只是基于文献的文本信息进行分类，准确度不高。

发明内容

本申请实施例提供一种文献分类方法、装置、设备及存储介质，以实现对文献的自动分类，可以提高文献分类的准确性。

第一方面，本申请实施例提供了一种文献分类方法，该方法包括：获取待分类文献的文本信息以及与设定分类体系对应的类别标签信息；其中，所述类别标签信息为所述设定分类体系中描述文献类别的信息；将所述文本信息和所述类别标签信息输入至设定神经网络进行处理，并根据所述设定神经网络的处理结果确定所述待分类文献的分类。

第二方面，本申请实施例还提供了一种文献分类装置，该装置包括文本信息和类别标签信息获取模块及文献分类确定模块；文本信息和类别标签信息获取模块，设置为获取待分类文献的文本信息以及与设定分类体系对应的类别标签信息；其中，所述类别标签信息为设定分类体系中描述文献类别的信息；文献分类确定模块，设置为将所述文本信息和所述类别标签信息输入至设定神经网络进行处理，并根据所述设定神经网络的处理结果确定所述待分类文献的分类。

第三方面，本申请实施例还提供了一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如本申请第一方面所述的文献分类方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如本申请第一方面所述的文献分类方法。

附图说明

图1是本申请一实施例提供的一种文献分类方法的流程图；

图2是本申请一实施例提供的一种设定神经网络的结构示意图；

图3是本申请一实施例提供的另一种设定神经网络的结构示意图；

图4是本申请一实施例提供的另一种文献分类方法的流程图；

图5是本申请一实施例提供的一种文献分类装置的结构示意图；

图6是本申请一实施例提供的一种计算机设备的结构示意图。

具体实施方式

图1为本申请一实施例提供的一种文献分类方法的流程图，本实施例可适用于专利文献或者非专利文献进行分类的情况，该方法可以由文献分类装置来执行，该装置可由硬件和/或软件组成，并一般可集成在具有文献分类功能的设备中，该设备可以是服务器、终端或服务器集群等电子设备。如图1所示，该方法包括步骤步骤110至步骤120。

在步骤110中，获取待分类文献的文本信息以及与设定分类体系对应的类别标签信息。

其中，类别标签信息为设定分类体系中描述文献类别的信息。设定分类体系可以是联合专利分类体系(Cooperative Patent Classification，CPC)、国际专利分类体系(International Patent Classification，IPC)、FI分类体系、FTERM分类体系及中国分类号体系等。类别标签信息可以是对类别标签的定义信息或者对类别标签的描述信息。类别标签可以是按照文献所属技术领域确定的文献在设定分类体系中的分类。文献可以包括专利文献或非专利文献。文献的文本信息可以是文献设定字段内的文本，如“摘要”部分的文本、“权利要求”部分的文本等。

在一实施例中，获取待分类文献的文本信息以及类别标签信息的过程可以是，提取待分类文献中设定字段内的文本作为文本信息，然后确定对待分类文献按照哪种分类体系进行分类，并获取该种分类体系下包含的类别标签信息，类别标签信息为该种分类体系下包含的所有类别标签对应的类别标签信息。

在步骤120中，将文本信息和类别标签信息输入设定神经网络进行处理，并根据设定神经网络的处理结果确定待分类文献的分类。

其中，设定神经网络的处理结果以类别概率向量表征，可以反映待分类文献属于每个类别的概率。

图2是本实施例中一种设定神经网络的结构示意图，如图2所示，设定神经网络包括深度子网络、宽度子网络和全连接子网络；全连接子网络分别与深度子网络和宽度子网络连接。首先将文本信息输入深度子网络，将文本信息和类别标签信息同时输入宽度子网络，然后将深度子网络的输出结果和宽度子网络的输出结果同时输入全连接子网络，经过全连接子网络的处理，获得处理结果。

在一实施例中，将文本信息和类别标签信息输入设定神经网络进行处理，可通过如下方式实施：将文本信息输入至深度子网络，并获得文本向量；将文本信息和类别标签信息输入宽度子网络，获得文本信息和类别标签信息间的文本相关度向量；将文本向量和文本相关度向量输入全连接子网络，获得处理结果。

其中，文本相关度向量是由文本信息和类别标签信息的文本相关度组成的向量。在一实施例中，深度子网络对文本信息进行一系列的非线性变换获得文本向量，宽度子网络按照设定的相关度算法计算文本信息分别与每个类别标签信息的文本相关度，将多个文本相关度组合成文本相关度向量，全连接子网络对文本向量和文本相关度向量拼接后，对拼接后向量采用激活函数激活后，获得处理结果。本实施例中，首先获取文本信息和类别标签信息的文本相关度，然后将文本相关度和文本信息融合后，计算待分类文献的分类，同时考虑文本信息和类别标签信息两个因素，从而提高对文献分类的准确性。

本实施例的技术方案，首先获取待分类文献的文本信息以及类别标签信息，然后对文本信息和类别标签信息进行设定神经网络处理，并根据设定神经网络的处理结果确定文献的分类。本申请实施例提供的文献分类方法，采用设定神经网络对文本信息和类别标签信息同时进行处理，获得文献的分类，相对于相关技术，仅基于文本信息对文献进行分类，不仅实现了对文献的自动分类，同时也提高了文献分类的准确性。

图3为本申请一实施例提供的另一种设定神经网络的结构示意图。以上述实施例为基础。如图3所示，深度子网络包括嵌入层和至少一个非线性层；全连接子网络包括拼接层和激活层。

本实施例中，深度子网络中的非线性层可以是卷积神经网络(Convolutional Neural Networks，CNN)、循环神经网络(Recurrent Neural Network，RNN)、长短期记忆网络(Long Short-Term Memory，LSTM)、门循环单元网络(Gated Recurrent Unit，GRU)及基于区域的卷积神经网络(Region Convolutional Neural Networks，RCNN)等。在非线性层为卷积神经网络的情况下，非线性层包括卷积层和池化层。全连接子网络中的拼接层对深度子网络的输出结果和宽度子网络输出的文本相关度向量进行拼接。

在一实施例中，将文本信息输入深度子网络获得文本向量，可通过下述方式实施：将文本信息输入至嵌入层，嵌入层对文本信息进行分析，获得多个词向量；将多个词向量输入至至少一个非线性层，至少一个非线性层对多个词向量进行非线性变换，获得文本向量。

在一实施例中，嵌入层对文本信息中的标点符号、虚词过滤掉后，将剩余的实词转化为对应的词向量。非线性层对嵌入层输出的词向量进行非线性转换，获得文本信息对应的文本向量。

在一实施例中，将文本信息和类别标签信息输入宽度子网络，获得文本信息和类别标签信息间的文本相关度向量，可通过下述方式实施：将文本信息和类别标签信息输入宽度子网络，宽度子网络按照设定方式对文本信息和类别标签信息处理，获得文本相关度向量。

其中，设定方式包括：bm25算法或者向量空间模型。

在一实施例中，根据bm25算法计算文本相关度可以按照如下公式计算：

其中，X _i表示文本信息中第i个词，D _k表示类别标签信息中第k个类别，tf(X _i,D)表示X _i和D _k间的词频，idf(X _i)表示X _i的逆文本频率指数，avdgl表示类别标签信息的平均值，k ₁和b表示超参数。

在一实施例中，宽度子网络按照向量空间模型对文本信息和类别标签信息处理，获得文本相关度向量的方式可以是：宽度子网络获取文本信息和类别标签信息分别对应的词向量；宽度子网络计算文本信息对应的词向量和类别标签信息对应的词向量之间的距离，并获得文本相关度向量。

其中，获取文本信息和类别标签信息分别对应的词向量的过程可以是，将文本信息和类别标签信息包含的实词转换为对应的词向量。

在一实施例中，获取文本信息和类别标签信息间的文本相关度的方式还可以是，计算文本信息和类别标签信息包含的词语的重合次数，根据重合次数确实文本相关度。本应用场景下，可采用任意计算文本相关度的算法进行计算，此处不做限定。

在一实施例中，将文本向量和文本相关度向量输入全连接子网络，获得处理结果，可通过下述方式实施：拼接层将文本向量和文本相关度向量拼接，并将拼接后的向量与权重矩阵相乘，获得权重向量，并将权重向量输入至激活层；激活层采用激活函数对权重向量处理，获得待分类文献对应的类别概率向量。

其中，类别概率向量中的概率与类别标签具有一一对应关系。其中激活函数可以是sigmoid函数。将文本向量和文本相关度向量拼接的方式可以是将两个向量组合在一起，例如：假设文本向量为m维，文本相关度为n维，则拼接后的向量为m+n维。

在一实施例中，将文本向量和文本相关度向量拼接后与权重矩阵相乘，获得权重向量，然后采用sigmoid函数对权重向量中的每个元素进行激活处理，获得类别概率向量。

本实施例的技术方案，嵌入层对文本信息进行分析，获得多个词向量，至少一个非线性层对多个词向量进行非线性变换，获得文本向量；宽度子网络按照设定方式对文本信息和类别标签信息处理，获得文本相关度向量；拼接层将文本向量和文本相关度向量拼接，并将拼接后的向量与权重矩阵相乘，获得权重向量；激活层采用激活函数对权重向量处理，获得文献对应的类别概率向量。采用设定神经网络对文本信息和标签信息进行处理，获得待分类文献对应的类别概率向量，提高了对文献分类的准确性。

图4为本申请一实施例提供的另一种文献分类方法的流程图，以上述实施例为基础，该方法包括步骤410至步骤440。

在步骤410中，获取文献样本集及与设定分类体系对应的类别标签信息。

其中，文献样本集包括多个文献和多个文献分别对应的真实类别概率向量；文献包括专利文献或者非专利文献。类别标签信息可以是设定分类体系中描述文献类别的信息。例如，可以选择CPC作为本实施例中的设定分类体系，则获取CPC中包含的类别标签信息。

获取文献样本集的方式可以是，提取当前已经被准确分类的文献以及其对应的真实类别概率向量。

在一实施例中，若设定分类体系是对专利文献的分类标准，在文献为非专利文献的情况下，获取文献样本集方式可以是：根据非专利文献与专利文献的引用关系，将专利文献的分类信息自动标注为非专利文献的分类信息。

非专利文献和专利文献的引用关系包括非专利文献引用专利文献和非专利文献被专利文献引用，在二者存在任意一种引用关系的情况下，将专利文献的分类信息自动标注为非专利文献的分类信息，即将专利文献的真实类别概率向量确定为非专利文献的真实类别概率向量。例如，在非专利文献a被专利文献b引用，或者引用了b的情况下，将b的真实类别概率向量赋给a。

在一实施例中，若设定分类体系是对专利文献的分类标准，在文献为非专利文献的情况下，获取类别标签信息的方式可以是：按照关键词计算算法提取非专利文献对应每个类别的优选关键词；并根据优选关键词对设定分类体系对应的类别标签信息进行更新。

关键词计算算法可以是词频-逆文本频率指数(Term Frequency–Inverse Document Frequency，TF-IDF)算法。计算出非专利文献对应于类别标签中每个类别的的至少一个关键词，按照词频-逆文本频率TF-IDF由高到低的顺序分别对每个类别的至少一个关键词进行排序，选择前n个关键词，作为对应于该类别的优选关键词，其中，n大于或等于1，且为整数。最后根据每个类别的优选关键词对类别标签信息进行更新。例如，为每个类别选择TF-IDF排序前20个术语作为非专利文献的该类别的标签说明。

关键词计算算法还可以是：将非专利文献输入至嵌入层，得到多个对应非专利文献的词向量，从多个对应非专利文献的词向量中选择与类别标签信息对应的词向量之间的距离小于预设值的目标词向量，将非专利文献中与目标词向量对应的词，作为优选关键词，采用优选关键词扩展类别标签描述，扩展类别标签描述即为对类别标签信息进行更新。所述嵌入层设置为实现非专利文献词到词向量的转换(word2vec)。

在步骤420中，基于文献样本集及类别标签信息对初始神经网络进行训练，得到设定神经网络。

在一实施例中，训练的过程可以是，首先将文献样本集和类别标签信息输入初始神经网络，获得初始类别概率向量，然后根据初始类别概率向量和真实类别概率向量计算损失函数，最后根据损失函数按照适应性估计矩阵算法对初始神经网络中的参数进行修正，直到损失函数的值满足设定条件，完成对初始神经网络的训练。

其中，损失函数可以是二元交叉熵函数(binary cross entropy)。适应性估计矩阵算法为Adam优化算法。损失函数L的计算公式为

其中，y _n表示真实类别概率向量，

表示初始类别概率向量，N表示两个向量包含的元素个数，K表示设定分类体系对应的类别标签的个数，

表示向量y _n的第k个元素，

表示向量

的第k个元素，

本实施例中，每输入一个文献样本和类别标签信息，就会获得该文献样本的初始类别概率向量，然后计算该初始类别概率向量和真实类别概率向量的损失函数，并根据损失函数对初始神经网络中的参数进行调整，随着大量样本的输入以及对参数的不断调整，最终使得损失函数的值满足设定条件，从而完成初始神经网络的训练，即初始神经网络的输出结果的准确率达到设定阈值，得到设定神经网络。

同时，由于上述采用非专利文献与专利文献的引用关系，确定非专利文献的真实类别概率向量，采用关键词计算算法提取非专利文献对应每个类别的优选关键词，并根据优选关键词对类别标签信息进行更新，从而更新的类别标签信息在训练过程中会使在专利文献基础上训练得到的设定神经网络的权重矩阵得到修正。

在步骤430中，获取待分类文献的文本信息以及与设定分类体系对应的类别标签信息。

在步骤440中，将文本信息和类别标签信息输入至设定神经网络处理，并根据设定神经网络的处理结果确定待分类文献的分类。

在一实施例中，若设定分类体系是对专利文献的分类标准，在待分类文献为非专利文献的情况下，还可以根据非专利文献与专利文献的引用关系，直接确定非专利文献的分类。

非专利文献和专利文献的引用关系包括非专利文献引用专利文献和非专利文献被专利文献引用，在二者存在任意一种引用关系的情况下，将专利文献的分类确定为非专利文献的分类。例如，在非专利文献a被专利文献b引用，或者引用了b的情况下，将b的分类直接赋给a。

本实施例的技术方案，获取文献样本集及类别标签信息，基于文献样本集及类别标签信息对设定神经网络进行训练。对设定神经网络进行训练，提高设定神经网络对文献分类的准确性。

图5为本申请一实施例提供的一种文献分类装置的结构示意图。如图5所示，该装置包括：文本信息和类别标签信息获取模块510和文献分类确定模块520。

类别标签信息获取模块510，设置为获取待分类文献的文本信息以及与设定分类体系对应的类别标签信息；其中，类别标签信息为设定分类体系中描述文献类别的信息；

文献分类确定模块520，设置为将文本信息和类别标签信息输入至设定神经网络进行处理，并根据设定神经网络的处理结果确定待分类文献的分类。

在一实施例中，设定神经网络包括深度子网络、宽度子网络和全连接子网络；全连接子网络分别与深度子网络和宽度子网络连接；文献分类确定模块520，还设置为：

将文本信息输入至深度子网络，获得文本向量；

将文本信息和类别标签信息输入至宽度子网络，并获得文本信息和类别标签信息间的文本相关度向量；文本相关度向量是由文本信息和类别标签信息的文本相关度组成的向量；

将文本向量和文本相关度向量输入全连接子网络，获得处理结果。

在一实施例中，深度子网络包括嵌入层和至少一个非线性层；将文本信息输入至深度子网络，并获得文本向量，包括：

将文本信息输入至嵌入层，嵌入层对文本信息进行分析，并获得多个词向量；

将多个词向量输入至至少一个非线性层，至少一个非线性层对多个词向量进行非线性变换，获得文本向量。

在一实施例中，将文本信息和类别标签信息输入宽度子网络，获得文本信息和类别标签信息间的文本相关度向量，包括：

宽度子网络按照设定方式对文本信息和类别标签信息处理，获得文本相关度向量；设定方式包括：bm25算法或者向量空间模型。

在一实施例中，宽度子网络按照向量空间模型对文本信息和类别标签信息处理，获得文本相关度向量，包括：

宽度子网络获取文本信息和类别标签信息分别对应的词向量；

宽度子网络计算文本信息对应的词向量和类别标签信息对应的词向量之间的距离获得文本相关度向量。

在一实施例中，全连接子网络包括拼接层和激活层；将文本向量和文本相关度向量输入全连接子网络，获得处理结果，包括：

拼接层将文本向量和文本相关度向量拼接，并将拼接后的向量与权重矩阵相乘，获得权重向量，并将权重向量输入至激活层；

激活层采用激活函数对权重向量进行处理，获得待分类文献对应的类别概率向量；其中，类别概率向量中的概率与类别标签具有一一对应关系。

在一实施例中，还包括：

文献样本集获取模块，设置为获取文献样本集及与设定分类体系对应的类别标签信息；文献样本集包括多个文献和多个文献分别对应的真实类别概率向量；文献包括专利文献或者非专利文献；

设定神经网络训练模块，设置为基于文献样本集及类别标签信息对初始神经网络进行训练，其中，设定神经网络为训练后的初始神经网络。

在一实施例中，在文献为非专利文献的情况下，文献样本集获取模块，还设置为：

根据非专利文献与专利文献的引用关系，将所述专利文献的真实类别概率向量自动标注为所述非专利文献的真实类别概率向量。

在一实施例中，文献样本集获取模块，还设置为：

按照关键词计算算法提取非专利文献对应每个类别的优选关键词；

并根据优选关键词对类别标签信息进行更新。

在一实施例中，关键词计算算法可以是：

计算出非专利文献对应于类别标签中每个类别的至少一个关键词，按照词频-逆文本频率TF-IDF由高到低的顺序分别对每个类别的至少一个关键词进行排序，选择前n个关键词，作为对应于每个类别的优选关键词，其中，n大于或等于1，且为整数；

根据所述每个类别的优选关键词对类别标签信息进行更新。

在一实施例中，关键词计算算法可以是：

将非专利文献输入至所述嵌入层，得到多个对应非专利文献的词向量，从多个对应非专利文献的词向量中选择与类别标签信息对应的词向量之间的距离小于预设值的目标词向量，将非专利文献中与目标词向量对应的词，作为优选关键词，采用优选关键词扩展类别标签描述，所述嵌入层设置为实现所述所述非专利文献词到词向量的转换。

在一实施例中，设定神经网络训练模块，还设置为：

将文献样本集和类别标签信息输入初始设定神经网络，获得初始类别概率向量；

根据初始类别概率向量和真实类别概率向量计算损失函数；

根据损失函数按照适应性估计矩阵算法对设定神经网络中的参数进行修正，直到损失函数的值满足设定条件，完成对初始设定神经网络的训练，得到设定神经网络。

上述装置可执行本申请前述所有实施例所提供的方法。未在本实施例中详尽描述的技术细节，可参见本申请前述所有实施例所提供的方法。

图6为本申请一实施例提供的一种计算机设备的结构示意图。图6示出了适于用来实现本申请实施方式的计算机设备712的框图。图6显示的计算机设备712仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。设备712典型的是承担文献分类功能的计算设备。

如图6所示，计算机设备712以通用计算设备的形式表现。计算机设备712的组件可以包括但不限于：至少一个处理器716，存储器728，连接不同系统组件(包括存储器728和处理器716)的总线718。

总线718表示几类总线结构中的至少一种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry Standard Architecture，ISA)总线，微通道体系结构(Micro Channel Architecture，MCA)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

计算机设备712典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备712访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器728可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)730和/或高速缓存存储器732。计算机设备712可以包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统734可以包括用于读写不可移动的、非易失性磁介质的硬盘驱动器(图6未显示)。尽管图6中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如只读光盘(Compact Disc-Read Only Memory，CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过至少一个数据介质接口与总线718相连。存储器728可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本申请各实施例的功能。

具有一组(至少一个)程序模块726的程序736，可以存储在例如存储器728中，这样的程序模块726包括但不限于操作系统、至少一个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块726通常执行本申请所描述的实施例中的功能和/或方法。

计算机设备712也可以与至少一个外部设备714(例如键盘、指向设备、摄像头、显示器724等)通信，还可与至少一个使得用户能与该计算机设备712交互的设备通信，和/或与使得该计算机设备712能与至少一个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output，I/O)接口722进行。并且，计算机设备712还可以通过网络适配器720与至少一个网络(例如局域网(Local Area Network，LAN)，广域网(Wide Area Network，WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器720通过总线718与计算机设备712的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备712使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器716通过运行存储在存储器728中的计算机程序，从而执行各种功能应用以及数据处理，例如实现本申请上述实施例所提供的文献分类方法。

本申请实施例六还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请实施例所提供的文献分类方法。

当然，本申请实施例所提供的一种计算机可读存储介质，其上存储的计算机程序不限于如上所述的方法操作，还可以执行本申请任意实施例所提供的文献分类方法中的相关操作。

本申请实施例的计算机存储介质，可以采用至少一个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有至少一个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(可擦除可编程只读寄存器(Erasable Programmable Read Only Memory，EPROM)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、射频(Radio Frequency,RF)等等，或者上述的任意合适的组合。

可以以至少一种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

采用上述文献分类方法进行实验，实验情况如下。

实验设置并获取数据集：

我们删除文本中的断词和标点符号,并选择每个文档的前120个单词。词嵌入层(word embeddings)是300维的经过随机初始化的向量，词嵌入层为嵌入层的一种。文本卷积神经网络(text CNN)的内核大小分别为2、3、4和5,过滤器的数量为1024。对于每个CPC子类,使用其自身以及其所有子标签的描述。采用Adam优化器训练模型。

数据集:我们在美国专利商标局(USPTO)的专利集中，随机抽取670万个摘要作为专利训练集，抽取6万个摘要作为测试集，如表1所示。

表1

评估指标:由于每个专利都有至少一个CPC标签,我们用3个指标从分类和排序的角度衡量该模型:(1)基于实例的查准率/查全率(precision/recall)：所有实例的平均查准率/平均查全率。我们分别测量所有实例的排序第一的CPC标签的预测的查准率和查全率，及所有实例中排序前3的CPC标签的预测的查准率和查全率，此外还测量所有概率评分>0.5的预测的查准率。(2)宏查准率/宏查全率(macro precision/recall):对应于所有实例中每个类别的宏查准率/宏查全率。(3)平均查准率均值(Mean Average Precision，MAP):基于每个实例的至少一个CPC标签的排序指标得到，用于衡量正确的标签是否放在错误的标签之前。

为专利进行CPC分类：

将宽深(Wide and Deep，WnD)神经网络分类器与两个模型:传统文本卷积神经网路(textCNN)和注意力文本神经网络(attention-textCNN)进行比较。测试结果如表2所示，WnD神经网络从标签信息中获得了极大的提升。

表2

Claims

一种文献分类方法，包括：

获取待分类文献的文本信息以及与设定分类体系对应的类别标签信息；其中，所述类别标签信息为所述设定分类体系中描述文献类别的信息；

将所述文本信息和所述类别标签信息输入至设定神经网络进行处理，并根据所述设定神经网络的处理结果确定所述待分类文献的分类。
根据权利要求1所述的方法，其中，所述设定神经网络包括深度子网络、宽度子网络和全连接子网络；所述全连接子网络分别与所述深度子网络和所述宽度子网络连接；将所述文本信息和所述类别标签信息输入至设定神经网络进行处理，包括：

将所述文本信息输入至所述深度子网络，并获得文本向量；

将所述文本信息和所述类别标签信息输入至所述宽度子网络，并获得所述文本信息和所述类别标签信息间的文本相关度向量；所述文本相关度向量是由所述文本信息和所述类别标签信息的文本相关度组成的向量；

将所述文本向量和所述文本相关度向量输入至所述全连接子网络，并获得处理结果。
根据权利要求2所述的方法，其中，所述深度子网络包括嵌入层和至少一个非线性层；将所述文本信息输入至所述深度子网络，并获得文本向量，包括：

将所述文本信息输入至所述嵌入层，所述嵌入层对所述文本信息进行分析，并获得多个词向量；

将所述多个词向量输入至所述至少一个非线性层，所述至少一个非线性层对所述多个词向量进行非线性变换，并获得所述文本向量。
根据权利要求2所述的方法，其中，将所述文本信息和所述设定类别标签信息输入至所述宽度子网络，并获得所述文本信息和所述类别标签信息间的文本相关度向量，包括：

将所述文本信息和所述标签信息输入至所述宽度子网络，所述宽度子网络按照设定方式对所述文本信息和所述类别标签信息进行处理，获得文本相关度向量；所述设定方式包括：bm25算法或者向量空间模型。
根据权利要求4所述的方法，其中，所述宽度子网络按照所述向量空间模型对所述文本信息和所述类别标签信息进行处理，获得文本相关度向量，包括：

所述宽度子网络获取所述文本信息和所述类别标签信息分别对应的词向量；

所述宽度子网络计算所述文本信息对应的词向量和所述类别标签信息对应的词向量之间的距离，并获得所述文本相关度向量。
根据权利要求2所述的方法，其中，所述全连接子网络包括拼接层和激活层；将所述文本向量和所述文本相关度向量输入至所述全连接子网络，并获得处理结果，包括：

将所述文本向量和所述文本相关度向量输入至所述拼接层，所述拼接层将所述文本向量和文本相关度向量进行拼接，将拼接后的向量与权重矩阵相乘，获得权重向量，并将所述权重向量输入至所述激活层；

所述激活层采用激活函数对所述权重向量进行处理，并获得所述待分类文献对应的类别概率向量；其中，所述类别概率向量中的概率与类别标签一一对应。
根据权利要求1-6任一项所述的方法，在获取待分类文献的文本信息以及与设定分类体系对应的类别标签信息之前，还包括：

获取文献样本集及与所述设定分类体系对应的类别标签信息；所述文献样本集包括多个文献和所述多个文献分别对应的真实类别概率向量；所述文献包括专利文献或者非专利文献；

基于所述文献样本集及所述类别标签信息对初始神经网络进行训练；

其中，所述设定神经网络为训练后的所述初始神经网络。
根据权利要求7所述的方法，其中，在所述文献为非专利文献的情况下，获取文献样本集，包括：

根据所述非专利文献与专利文献的引用关系，将所述专利文献的真实类别概率向量作为所述非专利文献的真实类别概率向量。
根据权利要求8所述的方法，其中，获取与所述设定分类体系对应的类别标签信息，包括：

按照关键词计算算法提取所述非专利文献对应多个类别的优选关键词；

根据所述优选关键词对所述设定分类体系对应的类别标签信息进行更新。
根据权利要求9所述的方法，其中，

关键词计算算法可以是：

计算出所述非专利文献对应于类别标签中每个类别的至少一个关键词，按照词频-逆文本频率TF-IDF由高到低的顺序分别对所述每个类别的至少一个关键词进行排序，选择前n个关键词，作为对应于所述每个类别的优选关键词，其中，n大于或等于1，且为整数；

根据所述优选关键词对所述类别标签信息进行更新。
根据权利要求9所述的方法，其中，

关键词计算算法可以是：

将所述非专利文献输入至所述嵌入层，得到多个对应所述非专利文献的词向量，从所述多个对应所述非专利文献的词向量中选择与所述类别标签信息对应的词向量之间的距离小于预设值的目标词向量，将所述非专利文献中与所述目标词向量对应的词，作为优选关键词，采用所述优选关键词扩展标签描述，所述嵌入层设置为实现所述非专利文献的词到词向量的转换。
根据权利要求7所述的方法，其中，基于所述文献样本集及类别标签信息对初始神经网络进行训练，包括：

将所述文献样本集和所述类别标签信息输入所述初始神经网络，获得初始类别概率向量；

根据所述初始类别概率向量和所述真实类别概率向量计算损失函数；

根据所述损失函数按照适应性估计矩阵算法对所述初始神经网络中的参数进行修正，直到损失函数的值满足设定条件，完成对所述初始神经网络的训练。
一种文献分类装置，包括文本信息和类别标签信息获取模块和文献分类确定模块；

文本信息和类别标签信息获取模块，设置为获取待分类文献的文本信息以及与设定分类体系对应的类别标签信息；其中，所述类别标签信息为设定分类体系中描述文献类别的信息；

文献分类确定模块，设置为将所述文本信息和所述类别标签信息输入设定神经网络进行处理，并根据所述设定神经网络的处理结果确定所述待分类文献的分类。
根据权利要求13所述的装置，其中，所述设定神经网络包括深度子网络、宽度子网络和全连接子网络；所述全连接子网络分别与所述深度子网络和所述宽度子网络连接；

文献分类确定模块，还设置为：

将所述文本信息输入至所述深度子网络，并获得文本向量；

将所述文本信息和所述类别标签信息输入至所述宽度子网络，并获得所述文本信息和所述类别标签信息间的文本相关度向量；所述文本相关度向量是由所述文本信息和所述类别标签信息的文本相关度组成的向量；

将所述文本向量和所述文本相关度向量输入至所述全连接子网络，并获得处理结果。
根据权利要求14所述的装置，其中，所述设定深度子网络包括嵌入层和至少一个非线性层；将所述文本信息输入至所述深度子网络，并获得文本向量，包括：

将所述文本信息输入至所述嵌入层，所述嵌入层对所述文本信息进行分析，并获得多个词向量；

将所述多个词向量输入至所述至少一个非线性层，所述至少一个非线性层对所述多个词向量进行非线性变换，并获得所述文本向量。
根据权利要求14所述的装置，其中，将所述文本信息和所述类别标签信息输入至所述宽度子网络，并获得所述文本信息和所述类别标签信息间的文本相关度向量，包括：

将所述文本信息和所述标签信息输入至所述宽度子网络，所述宽度子网络按照设定方式对所述文本信息和所述类别标签信息处理，获得所述文本相关度向量；所述设定方式包括：bm25算法或者向量空间模型。
根据权利要求16所述的装置，其中，所述宽度子网络按照所述向量空间模型对所述文本信息和所述类别标签信息处理，获得文本相关度向量，包括：

所述宽度子网络获取所述文本信息和所述类别标签信息分别对应的词向量；

所述宽度子网络计算所述文本信息对应的词向量和所述类别标签信息对应的词向量之间的距离获得所述文本相关度向量。
根据权利要求14所述的装置，其中，所述全连接子网络包括拼接层和激活层；将所述文本向量和所述文本相关度向量输入至所述全连接子网络，并获得处理结果，包括：

将所述文本向量和所述文本相关度向量输入至所述拼接层，所述拼接层将所述文本向量和所述文本相关度向量进行拼接，将拼接后的向量与权重矩阵相乘，获得权重向量，并将所述权重向量输入至所述激活层；

所述激活层采用激活函数对所述权重向量进行处理，并获得所述待分类文献对应的类别概率向量；其中，所述类别概率向量中的概率与类别标签一一对应。
根据权利要求13-18任一项所述的装置，还包括文献样本集获取模块和设定神经网络训练模块；

所述文献样本集获取模块，设置为获取文献样本集及与所述设定分类体系对应的类别标签信息；所述文献样本集包括多个文献和所述多个文献分别对应的真实类别概率向量；所述多个文献包括专利文献或者非专利文献；

所述设定神经网络训练模块，设置为基于所述文献样本集及所述类别标签信息对初始设定神经网络进行训练；

其中，所述设定神经网络为训练后的所述初始神经网络。
根据权利要求19所述的装置，其中，在文献为非专利文献的情况下，文献样本集获取模块，还设置为：

根据所述非专利文献与专利文献的引用关系，将所述专利文献的真实类别概率向量作为所述非专利文献的真实类别概率向量。
根据权利要求20所述的装置，其中，文献样本集获取模块，还设置为：

按照关键词计算算法提取所述非专利文献对应多个类别的优选关键词；

根据所述优选关键词对所述类别标签信息进行更新。
根据权利要求21所述的装置，其中，

关键词计算算法可以是：

计算出所述非专利文献对应于类别标签中每个类别的至少一个关键词，按照词频-逆文本频率TF-IDF由高到低的顺序分别对所述每个类别的至少一个关键词进行排序，选择前n个关键词，作为对应于所述每个类别的优选关键词，其中，n大于或等于1，且为整数；

根据所述优选关键词对所述类别标签信息进行更新。
根据权利要求21所述的装置，其中，关键词计算算法可以是：

将所述非专利文献输入至所述嵌入层，得到多个对应所述非专利文献的词向量，从所述多个对应所述非专利文献的词向量中选择与所述类别标签信息对应的词向量之间的距离小于预设值的目标词向量，将所述非专利文献中与所述目标词向量对应的词，作为优选关键词，采用所述优选关键词扩展标签描述，所述嵌入层设置为实现所述非专利文献词到词向量的转换。
根据权利要求19所述的装置，其中，所述设定神经网络训练模块，还设置为：

将所述文献样本集和所述类别标签信息输入所述初始神经网络，获得初始类别概率向量；

根据所述初始类别概率向量和所述真实类别概率向量计算损失函数；

根据所述损失函数按照适应性估计矩阵算法对所述初始神经网络中的参数进行修正，直到所述损失函数的值满足设定条件，完成对所述初始神经网络的训练。
一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-12中任一项所述的文献分类方法。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-12中任一项所述的文献分类方法。