WO2018153265A1

WO2018153265A1 - 关键词提取方法、计算机设备和存储介质

Info

Publication number: WO2018153265A1
Application number: PCT/CN2018/075711
Authority: WO
Inventors: 王煦祥; 尹庆宇
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-02-23
Filing date: 2018-02-08
Publication date: 2018-08-30
Also published as: CN108304365A; KR20190085098A; US20190220514A1; JP6956177B2; EP3518122A1; EP3518122A4; US10963637B2; JP2019531562A; KR102304673B1

Abstract

一种关键词提取方法，应用于用户终端或服务器，该方法包括：获取待处理文本的各待判断词；确定各待判断词分别对应的前文词，前文词为待处理文本中出现在待判断词的上文中的词；根据各待判断词、各待判断词分别对应的前文词在待处理文本中出现的顺序，确定各待判断词的词序列；分别将各待判断词的词序列输入到经过训练的循环神经网络模型中，得到各待判断词是待处理文本的关键词的概率；根据各待判断词是待处理文本的关键词的概率及预设阈值，确定待处理文本的关键词。

Description

关键词提取方法、计算机设备和存储介质

本申请要求于2017年02月23日提交中国专利局，申请号为2017101010131，申请名称为“关键词提取方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及信息技术领域，特别是涉及一种关键词提取方法、计算机设备和存储介质。

背景技术

信息的表达方式随着信息时代的发展而日益多样，其中利用文本来表达信息的方式又是不可替代的。随着网络的发展，线上文本信息的数量呈爆炸式增长，手工获取所需文本信息的难度日益增大，因此，如何高效地获取信息成为一个十分重要的课题。

为了能够有效地处理海量的文本数据，研究人员在文本分类、文本聚类、自动文摘和信息检索等方向进行了大量的研究，而这些研究都涉及到一个关键而又基础的问题，即如何获取文本中的关键词。

传统的关键词提取方法采用基于特征选择的机器学习算法，需要人工根据数据的特点来抽取有效的特征。由于人工参与的方式包含较大的主观思想，难以保证关键词的准确性。

发明内容

根据本申请提供的各种实施例，提供一种关键词提取方法、计算机设备和存储介质。

为达到上述目的，本申请实施例采用以下技术方案：

一种关键词提取方法，应用于用户终端或服务器，包括：

获取待处理文本的各待判断词；

确定各所述待判断词分别对应的前文词，所述前文词为所述待处理文本中出现在所述待判断词的上文中的词；

根据各所述待判断词、各所述待判断词分别对应的前文词在所述待处理文本中出现的顺序，确定各所述待判断词的词序列；

分别将各所述待判断词的所述词序列输入到经过训练的循环神经网络模型中，得到各所述待判断词是所述待处理文本的关键词的概率；

根据各所述待判断词是所述待处理文本的关键词的概率及预设阈值，确定所述待处理文本的关键词。

一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如下步骤：

获取待处理文本的各待判断词；

一个或多个存储有计算机可读指令的非易失性存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

获取待处理文本的各待判断词；

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征、目的和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例的关键词提取方法的应用环境示意图；

图2为一个实施例的计算机设备的内部结构示意图；

图3为一个实施例的关键词提取方法的流程图；

图4为另一个实施例的关键词提取方法的流程图；

图5为一个实施例的LSTM单元的结构图；

图6为一个实施例的关键词提取方法对应的模型的结构示意图；

图7为一个实施例的计算机设备的结构框图；

图8为另一个实施例的计算机设备的结构框图。

具体实施方式

为使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本申请，并不限定本申请的保护范围。

图1为一个实施例提供的关键词提取方法的应用环境示意图。如图1所示，该应用环境包括用户终端110和服务器120，用户终端110与服务器120通信连接。用户终端110安装有搜索引擎或问答系统，用户通过用户终端110输入文本，输入文本通过通信网络被发送至服务器120，服务器120对输入文本进行处理，提取输入文本中的关键词，为用户提供搜索结果或问答结果。或者，用户通过用户终端110输入文本，用户终端110对输入文本进行处理，提取输入文本的关键词，通过通信网络将关键词发送至服务器120，服务器120为用户提供搜索结果或问答结果。

图2为一个实施例中的计算机设备的内部结构示意图，该计算机设备可以为用户终端或服务器。如图2所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该存储器包括非易失性存储介质和内存储器，该非易失性存储介质可存储操作系统和计算机可读指令，该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境，该计算机可读指令被处理器执行时，可使得处理器执行一种关键词提取方法。该网络接口用于与外部的终端进行网络通信。

本领域技术人员可以理解，图2中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

请参照图3，在一个实施例中，提供一种关键词提取方法，该方法运行在如图1所示的服务器120中，该方法包括以下步骤：

S310：获取待处理文本的各待判断词。

待处理文本通常由单字组成。相比单字而言，词更能表达语义，更具有实际意义。

可通过对待处理文本进行预处理，从而获取到待处理文本的各待判断词。待判断词为待处理文本中需要判断其是否为待处理文本的关键词的词。待判断词可以为进行分词处理后得到的待处理文本的词，即预处理可以包括分词处理。为了提高处理效率，待判断词还可以为待处理文本的词中提取的具有实际意义的词，即预处理还可以包括识别停用词和排除停用词的处理。

在其中一个实施方式中，步骤S310之前，还可以包括步骤：获取待处理文本。用户通过用户终端输入文本，服务器通过通信网络获取用户输入的文本得到待处理文本。

S320：确定各待判断词分别对应的前文词，前文词为待处理文本中出现在待判断词的上文中的词。

由前文词的定义，前文词为待处理文本中出现在待判断词的上文中的词，可以根据待处理文本确定各待判断词分别对应的前文词。具体地，可以根据对待处理文本进行预处理(如，分词处理)之后，得到的词在待处理文本中出现的顺序确定出现在待判断词的上文中的前文词。

S330：根据各待判断词、各待判断词分别对应的前文词在待处理文本中出现的顺序，确定各待判断词的词序列。

需要说明的是，待处理文本中的第一个待判断词可能没有对应的前文词，第一个待判断词的词序列，可以由第一个待判断词本身构成。

除了第一个待判断词之外的其它待判断词，必定存在前文词，其对应的词序列为该待判断词对应的各前文词再加上其本身，按照这些词(各前文词加上待判断词)在待处理文本中出现的顺序而确定的词的序列。

S350：分别将各待判断词的词序列输入到经过训练的循环神经网络模型中，得到各待判断词是待处理文本的关键词的概率。

本实施例中的循环神经网络模型可采用RNN(Recurrent Neural Net)模型、长短时记忆(Long Short-Term Memory，LSTM)模型或GRU(Gated Recurrent Unit)模型。循环神经网络模型包括输入层、隐含层和输出层，其中隐含层中的隐含单元完成了最主要的工作，根据输入的待判断词的词序列，得到待判断词是待处理文本的关键词的概率。由于输入到经过训练的循环神经网络模型中的词序列是由待判断词及待判断词的前文词确定的，因此，能够充分考虑上文信息，得到更为准确的待判断词是待处理文本的关键词的概率。

S360：根据各待判断词是待处理文本的关键词的概率及预设阈值，确定待处理文本的关键词。

分别将待处理文本中各待判断词是关键词的概率与预设阈值进行比较，将概率大于或不小于预设阈值的待判断词确定为待处理文本中的关键词。

阈值的设定与具体需求有关，阈值设定得高，准确率就高，召回率相应降低。如果阈值设置得低，准确率就低，召回率就高，用户可根据需要设置阈值，如可以将阈值设置为0.5。

上述关键词提取方法，无需人工根据数据的特点抽取有效的特征，而是通过将词序列输入到经过训练的循环神经网络模型中以获得对应的待判断词是关键词的概率，且输入到经过训练的循环神经网络模型中的词序列是由待判断词及待判断词的前文词确定的，因此，能够充分考虑上文信息，得到更为准确的待判断词是待处理文本的关键词的概率，从而提高了提取的关键词的准确性。

在其中一个实施例中，获取待处理文本的待判断词的步骤，即步骤S310，包括以下步骤：

步骤a：对待处理文本进行分词处理，获得待处理文本中的词。

步骤b：识别待处理文本中的停用词，将待处理文本中除停用词之外的词确定为待判断词。

可将停用词库中的停用词与待处理文本中的词进行比较，确定待处理文本中的停用词。例如，常用的停用词包括“的”、“了”、“什么”等等，这些词一定不可能作为关键词。本实施例中，将待处理文本中除停用词之外的词确定为待判断词，而除停用词之外的词通常为实义词，将实义词作为待判断词，而不将停用词作为待判断词，一方面能够避免因停用词的输出结果影响关键词提取的准确率，另一方面，能够提高关键词提取的速度。

在其中一个实施例中，前文词包括待处理文本中出现在待判断词的上文中、除停用词之外的词。可以理解地，待处理文本中出现在待判断词的上文中、除停用词之外的词，即为待处理文本中出现在待判断词的上文中的实义词。

在另一个实施例中，前文词可以包括待处理文本中出现在待判断词的上文中的所有词，即，包括待处理文本中出现在待判断词的上文中的停用词和实义词。

在其中一个实施例中，步骤S330可以包括：

步骤a：获取各待判断词分别对应的前文词的词向量和各待判断词的词向量。

步骤b：根据各待判断词分别对应的前文词及各待判断词在待处理文本中出现的顺序、采用各待判断词分别对应的前文词的词向量和各待判断词的词向量确定各待判断词的词序列，词序列为词向量序列。

词向量是一个词对应的向量表示，是将自然语言中的词进行数字化的一种方式，词向量可利用语言模型训练得到。常用的语言模型为Word2vec，其利用深度学习的思想，可以通过训练，把对文本内容的处理简化为K维向量空间中的向量运算。在具体的实施方式中，可以通过大规模文本数据，利用Word2vec训练得到每个词的词向量，通过查找，可以获取到待处理文本中每个词的词向量，从而可以获取到各待判断词分别对应的前文词的词向量和各待判断词的词向量。

如此，采用词向量来对各个词进行表示，因而可以更好地获取词级别的语义信息，从而进一步提高提取的关键词的准确性。

需要说明的是，当输入到经过训练的循环神经网络模型中的词序列为词向量序列时，经过训练的循环神经网络模型的隐含层输出的结果也为一个向量，为了把该向量映射到0-1范围内以表示各待判断词的概率，可使用Softmax函数或Sigmoid函数。Softmax函数是一种常用的多分类回归模型。判断待判断词是否为关键词可以构造为一个二维问题，对应的Softmax函数具有二维，一维表示是关键词的概率，第二维表示不是关键词的概率。

更进一步地，获取前文词和待判断词分别对应的词向量的获取方式为通过大规模语料库训练得到。使用通过大规模语料库训练得到的词向量，可以充分利用词的语义信息从语义层面帮助判别关键词，从而可以更进一步地提高提取的关键词的准确性。

请参阅图4，在其中一个实施例中，为进一步提高提取的关键词的准确性，在分别将各待判断词的词序列输入到经过训练的循环神经网络模型中之前，还包括步骤：

S340：获取训练样本，对循环神经网络模型进行训练获得经过训练的循环神经网络模型；所述训练样本包括元素对，所述元素对包括训练文本对应的训练词及所述训练词为所述训练文本的关键词的概率。

元素对中的训练词为训练文本的关键词的概率的值包括0和1；当该值为0时，表示该训练词不是该训练文本的关键词；当该值为1时，表示该训练词是该训练文本的关键词。

在训练过程中可使用高斯分布初始化循环神经网络模型的网络参数，训练时将训练文本的第i个待判断词及该待判断词的各前文词按照各个词在待处理文本中出现的顺序形成词序列，依次将词序列中的各个词向量输入到循环神经网络模型中，得到第i个待判断词的损失，从而得到各个待判断词的损失。还需要说明的是，在训练过程中，可采用梯度下降法来更新循环神经网络模型的参数。

在其中一个实施例中，循环神经网络模型为LSTM模型。

LSTM模型在RNN模型的基础上，循环神经网络模型中的隐含单元为LSTM单元。一种LSTM单元结构图如图5所示。其中，记忆单元用于存储历史信息，历史信息的更新和使用分别受三个门的控制——输入门(Input Gate)、遗忘门(Forget Gate)和输出门(Output Gate)。由于LSTM模型能够克服对不定长序列输入的不足，可以更好地存储历史信息，因此，可以进一步地，提高提取的关键词的准确性。

请结合参阅图5和图6，以循环神经网络模型为LSTM模型对一个待判断词的词序列进行处理的过程为例，将待判断词对应的词序列中的各前文词的词向量(Word Embedding)及该待判断词的词向量，按照在待处理文本中出现的顺序输入到经过训练的LSTM模型，因而，根据待判断词的数量多次利用LSTM模型，得到每个待判断词是待处理文本的关键词的概率。并且每一个待判断词都是作为LSTM模型的最后一个LSTM单元的输入，每一个待判断词的输出结果都考虑了每一个待判断词的上文历史信息，即每个待判断词对应的各个前文词的语义信息。LSTM模型输出的各待判断词的结果为LSTM模型的最后一个隐含层(LSTM单元)的输出。

下面结合具体的实施例对本发明的关键词提取方法进行说明。

请继续参阅图6，一种与关键词提取方法对应模型包括LSTM单元和Sotfmax函数。通过该模型可以构建一个分类器，对待处理文本的每个待判断词，确定其成为关键词的概率。对于一个待判断词，抽取从其句首开始的所有的词组成词序列。模型的输入为词向量，每一个LSTM单元均可以输出一个针对该LSTM单元输入的词向量对应的词的结果，将该结果结合词序列中的下一个词向量，作为下一个LSTM单元的输入。最后一个LSTM单元，将上一个LSTM单元的输出结果结合待判断词的词向量作为该最后一个LSTM单元的输入，其输出结果为以向量形式表示的待判断词对应的结果，该向量形式的结果通过Sotfmax函数，从而确定该待判断词是关键词的概率。将待判断词是关键词的概率与预设阈值进行比较可确定待判断词是否为关键词。

以待处理文本为“宁波有什么特产能在上海世博会占有一席之地呢”为例，在分词处理后，确定的待判断词包括“宁波”、“特产”、“上海”、“世博会”、“占有”和“一席之地”。分别将每个待判断词的词向量及该待判断词上文的各前文词的词向量按照其在待处理文本中出现的顺序输入到经训练得到的循环神经网络模型中，得各待判断词是待处理文本的关键词的概率。例如，当待判断词为“世博会”时，可以如图6所示，以“宁波”、“有”“特产”“上海”、“世博会”的顺序，将对应的词向量输入到循环神经网络模型中，其中，“宁波”的词向量输入至LSTM模型的第一个LSTM单元，“有”的词向量输入至第二个LSTM单元，依此类推，待判断词“世博会”的词向量输入最后一个LSTM单元，每一个LSTM单元都受上一个LSTM单元的输出影响。LSTM模型的输出为最后一个LSTM单元的输出向量经过Softmax函数映射所对应的概率值，从而得到各待判断词是待处理文本的关键词的概率。由于输入的词向量序列本身包括了待判断词对应的各前文词的向量和待判断词的词向量，从而考虑了上文信息，而且在LSTM模型内部，能够更好地存储历史信息，因此可以进一步得到更为准确的待判断词是待处理文本的关键词的概率。

应该理解的是，虽然图3和图4的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图3和图4中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，还提供了一种计算机设备，该计算机设备的内部结构可如图2所示，该计算机设备设置有关键词提取装置，关键词提取装置中包括各个模块，每个模块可全部或部分通过软件、硬件或其组合来实现。

在一个实施例中，提供一种关键词提取装置，如图7所示，包括：待判词获取模块710、前文词确定模块720、词序列确定模块730、概率确定模块750和关键词确定模块760。

其中，待判词获取模块710，用于获取待处理文本的各待判断词。

前文词确定模块720，用于确定各待判断词分别对应的前文词，前文词为待处理文本中出现在待判断词的上文中的词。

词序列确定模块730，用于根据各待判断词、各待判断词分别对应的前文词在待处理文本中出现的顺序确定词序列。

概率确定模块750，用于分别将各待判断词的词序列输入到经过训练的循环神经网络模型中，得到各待判断词是待处理文本的关键词的概率。

关键词确定模块760，用于根据各待判断词是待处理文本的关键词的概率及预设阈值，确定待处理文本的关键词。

上述关键词提取装置，无需人工根据数据的特点抽取有效的特征，是通过将词序列输入到经过训练的循环神经网络模型中以获得对应的待判断词是关键词的概率，且输入到经过训练的循环神经网络模型中的词序列是由待判断词及待判断词的前文词确定的，因此，能够充分考虑上文信息，得到更为准确的待判断词是待处理文本的关键词的概率，从而提高了提取的关键词的准确性。

请参阅图8，在其中一个实施例中，待判词获取模块710，包括：分词处理单元711和识别确定单元713。

其中，分词处理单元711，用于对待处理文本进行分词处理，获得待处理文本中的词。

识别确定单元713，用于识别待处理文本中的停用词，将待处理文本中除停用词之外的词确定为待判断词。

在其中一个实施例中，前文词包括待处理文本中出现在待判断词的上文中、除停用词之外的词。

在其中一个实施例中，词序列确定模块730包括：词向量获取单元731和词序列确定单元733；

其中，词向量获取单元731，用于获取各待判断词分别对应的前文词的词向量和各待判断词的词向量；

词序列确定单元733，根据各待判断词分别对应的前文词及各待判断词在待处理文本中出现的顺序、采用各待判断词分别对应的前文词的词向量和各待判断词的词向量确定各待判断词的词序列，词序列为词向量序列。

请继续参阅图8，在其中一个实施例中，还包括：

模型训练模块740，用于获取训练样本，对循环神经网络模型进行训练获得经过训练的循环神经网络模型；所述训练样本包括元素对，所述元素对包括训练文本对应的训练词及所述训练词为所述训练文本的关键词的概率。

在其中一个实施例中，循环神经网络模型为LSTM模型。

由于上述关键词提取装置与上述关键词提取方法相互对应，对于装置中与上述方法对应的具体技术特征，在此不再赘述。

在一个实施例中，还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如下步骤：

获取待处理文本的各待判断词；

在其中一个实施例中，所述获取待处理文本的待判断词的步骤，包括：

对所述待处理文本进行分词处理，获得所述待处理文本中的词；

识别所述待处理文本中的停用词，将所述待处理文本中除所述停用词之外的词确定为待判断词。

在其中一个实施例中，所述根据各所述待判断词、各所述待判断词分别对应的前文词在所述待处理文本中出现的顺序，确定各所述待判断词的词序列的步骤，包括：

获取各所述待判断词分别对应的前文词的词向量和各所述待判断词的词向量；

根据各所述待判断词分别对应的前文词及各所述待判断词在所述待处理文本中出现的顺序，采用各所述待判断词分别对应的前文词的词向量和所述各待判断词的词向量确定各所述待判断词的词序列，所述词序列为词向量序列。

在其中一个实施例中，在分别将各所述待判断词的所述词序列输入到经过训练的循环神经网络模型中之前，还包括步骤：

获取训练样本，对循环神经网络模型进行训练获得所述经过训练的循环神经网络模型；所述训练样本包括元素对，所述元素对包括训练文本对应的训练词及所述训练词为所述训练文本的关键词的概率。

在其中一个实施例中，所述循环神经网络模型为LSTM模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种关键词提取方法，其特征在于，应用于用户终端或服务器，包括：

获取待处理文本的各待判断词；

确定各所述待判断词分别对应的前文词，所述前文词为所述待处理文本中出现在所述待判断词的上文中的词；

根据各所述待判断词、各所述待判断词分别对应的前文词在所述待处理文本中出现的顺序，确定各所述待判断词的词序列；

分别将各所述待判断词的所述词序列输入到经过训练的循环神经网络模型中，得到各所述待判断词是所述待处理文本的关键词的概率；

根据各所述待判断词是所述待处理文本的关键词的概率及预设阈值，确定所述待处理文本的关键词。
根据权利要求1所述的关键词提取方法，其特征在于，所述获取待处理文本的待判断词的步骤，包括：

对所述待处理文本进行分词处理，获得所述待处理文本中的词；

识别所述待处理文本中的停用词，将所述待处理文本中除所述停用词之外的词确定为待判断词。
根据权利要求1所述的关键词提取方法，其特征在于，所述根据各所述待判断词、各所述待判断词分别对应的前文词在所述待处理文本中出现的顺序，确定各所述待判断词的词序列的步骤，包括：

获取各所述待判断词分别对应的前文词的词向量和各所述待判断词的词向量；

根据各所述待判断词分别对应的前文词及各所述待判断词在所述待处理文本中出现的顺序，采用各所述待判断词分别对应的前文词的词向量和所述各待判断词的词向量确定各所述待判断词的词序列，所述词序列为词向量序列。
根据权利要求1所述的关键词提取方法，其特征在于，在分别将各所述待判断词的所述词序列输入到经过训练的循环神经网络模型中之前，还包括步骤：

获取训练样本，对循环神经网络模型进行训练获得所述经过训练的循环神经网络模型；所述训练样本包括元素对，所述元素对包括训练文本对应的训练词及所述训练词为所述训练文本的关键词的概率。
根据权利要求1所述的关键词提取方法，其特征在于，所述循环神经网络模型为LSTM模型。
一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，其特征在于，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如下步骤：

获取待处理文本的各待判断词；

确定各所述待判断词分别对应的前文词，所述前文词为所述待处理文本中出现在所述待判断词的上文中的词；

根据各所述待判断词、各所述待判断词分别对应的前文词在所述待处理文本中出现的顺序，确定各所述待判断词的词序列；

分别将各所述待判断词的所述词序列输入到经过训练的循环神经网络模型中，得到各所述待判断词是所述待处理文本的关键词的概率；

根据各所述待判断词是所述待处理文本的关键词的概率及预设阈值，确定所述待处理文本的关键词。
根据权利要求6所述的计算机设备，其特征在于，所述获取待处理文本的待判断词的步骤，包括：

对所述待处理文本进行分词处理，获得所述待处理文本中的词；

识别所述待处理文本中的停用词，将所述待处理文本中除所述停用词之外的词确定为待判断词。
根据权利要求6所述的计算机设备，其特征在于，所述根据各所述待判断词、各所述待判断词分别对应的前文词在所述待处理文本中出现的顺序，确定各所述待判断词的词序列的步骤，包括：

获取各所述待判断词分别对应的前文词的词向量和各所述待判断词的词向量；

根据各所述待判断词分别对应的前文词及各所述待判断词在所述待处理文本中出现的顺序，采用各所述待判断词分别对应的前文词的词向量和所述各待判断词的词向量确定各所述待判断词的词序列，所述词序列为词向量序列。
根据权利要求6所述的计算机设备，其特征在于，在分别将各所述待判断词的所述词序列输入到经过训练的循环神经网络模型中之前，还包括步骤：

获取训练样本，对循环神经网络模型进行训练获得所述经过训练的循环神经网络模型；所述训练样本包括元素对，所述元素对包括训练文本对应的训练词及所述训练词为所述训练文本的关键词的概率。
根据权利要求6所述的计算机设备，其特征在于，所述循环神经网络模型为LSTM模型。
一个或多个存储有计算机可读指令的非易失性存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如下步骤：

获取待处理文本的各待判断词；

确定各所述待判断词分别对应的前文词，所述前文词为所述待处理文本中出现在所述待判断词的上文中的词；

根据各所述待判断词、各所述待判断词分别对应的前文词在所述待处理文本中出现的顺序，确定各所述待判断词的词序列；

分别将各所述待判断词的所述词序列输入到经过训练的循环神经网络模型中，得到各所述待判断词是所述待处理文本的关键词的概率；

根据各所述待判断词是所述待处理文本的关键词的概率及预设阈值，确定所述待处理文本的关键词。
根据权利要求11所述的存储介质，其特征在于，所述获取待处理文本的待判断词的步骤，包括：

对所述待处理文本进行分词处理，获得所述待处理文本中的词；

识别所述待处理文本中的停用词，将所述待处理文本中除所述停用词之外的词确定为待判断词。
根据权利要求11所述的存储介质，其特征在于，所述根据各所述待判断词、各所述待判断词分别对应的前文词在所述待处理文本中出现的顺序，确定各所述待判断词的词序列的步骤，包括：

获取各所述待判断词分别对应的前文词的词向量和各所述待判断词的词向量；

根据各所述待判断词分别对应的前文词及各所述待判断词在所述待处理文本中出现的顺序，采用各所述待判断词分别对应的前文词的词向量和所述各待判断词的词向量确定各所述待判断词的词序列，所述词序列为词向量序列。
根据权利要求11所述的存储介质，其特征在于，在分别将各所述待判断词的所述词序列输入到经过训练的循环神经网络模型中之前，还包括步骤：

获取训练样本，对循环神经网络模型进行训练获得所述经过训练的循环神经网络模型；所述训练样本包括元素对，所述元素对包括训练文本对应的训练词及所述训练词为所述训练文本的关键词的概率。
根据权利要求11所述的存储介质，其特征在于，所述循环神经网络模型为LSTM模型。