WO2021051557A1

WO2021051557A1 - 基于语义识别的关键词确定方法、装置和存储介质

Info

Publication number: WO2021051557A1
Application number: PCT/CN2019/117577
Authority: WO
Inventors: 张师琲
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-09-18
Filing date: 2019-11-12
Publication date: 2021-03-25
Also published as: CN110795942A; CN110795942B

Abstract

一种基于语义识别的关键词确定方法、装置和存储介质，方法包括如下步骤：获取用户输入的检索语句，对检索语句进行分词，并提取分词后各个词语的特征向量（S10）；将所述特征向量输入至训练完成的多类感知器中，得到对应的字标注结果，并根据所述字标注结果得到对应的检索词（S20）；将所述检索词输入至预设指标库中进行查询，得到对应的候选指标项（S30）；根据所述候选指标项确定所述检索词在预设指标库中的逆向文件频率（S40）；将所述逆向文件频率、所述检索词和所述候选指标项输入至预设相似度算法中，确定所述候选指标项与对应的所述检索词的相似度数值，并根据所述相似度数值确定关键词（S50）。

Description

基于语义识别的关键词确定方法、装置和存储介质

本申请要求于2019年9月18日提交中国专利局、申请号为201910884362.4、发明名称为“基于语义识别的关键词确定方法、装置和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在申请中。

技术领域

本申请涉及自然语言处理技术领域，尤其涉及一种基于语义识别的关键词确定方法、装置和存储介质。

背景技术

随着网络信息的膨胀和网络用户的增长，人们对获取网络信息的及时性以及准确性提出了更高的要求，为此一些搜索软件和搜索引擎应运而生。目前，主流的关键词确定方法为提取用户输入的语句中的关键词，使用关键词匹配的技术从数据库中提取匹配度最高的数据作为搜索结果反馈给用户。

然而，上述搜索方式对于关键词的定义存在一定缺陷，如若关键词为字形相近的词语或多义词，则无法准确的定义关键词，从而导致搜索结果的偏差。

发明内容

本申请的主要目的在于提供了一种基于语义识别的关键词确定方法、装置和存储介质，旨在现有的关键词确定方法无法准确定义关键词而导致准确率过低的技术问题。

为实现上述目的，本申请提供了一种基于语义识别的关键词确定方法，包括以下步骤：

获取用户输入的检索语句，使用NLP算法或特征模板提取算法对所述检索语句进行分词，并提取分词后各个词语的特征向量；

将多类感知器中的训练语句输入至预设特征模块中，以提取出所述训练语句的训练特征向量；

将所述训练语句的训练特征向量作为所述多类感知器的训练样本，以得到训练完成的多类感知器；

将所述特征向量输入至训练完成的多类感知器中，得到对应的字标注结果，并根据所述字标注结果得到对应的检索词；

将所述检索词输入至预设指标库中进行查询，得到对应的候选指标项，其中预设指标库中存储有检索词和候选指标项的映射关系；

根据所述候选指标项确定所述检索词在预设指标库中的逆向文件频率；

将所述逆向文件频率、所述检索词和所述候选指标项输入至预设相似度算法中，确定所述候选指标项与对应的所述检索词的相似度数值，并根据所述相似度数值确定关键词。

此外，为实现上述目的，本申请还提供一种装置，所述装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述基于语义识别的关键词确定方法的步骤。

此外，为实现上述目的，本申请还提供一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述基于语义识别的关键词确定方法的步骤。

本申请公开了一种基于语义识别的关键词确定方法、装置和存储介质，所述方法先是获取用户输入的检索语句，对检索语句进行分词，并提取分词后各个词语的特征向量；将特征向量输入至训练完成的多类感知器中，得到对应的字标注结果，并根据字标注结果得到对应的检索词；将检索词输入至预设指标库中进行查询，得到对应的候选指标项；根据候选指标项确定检索词在预设指标库中的逆向文件频率；将逆向文件频率、检索词和候选指标项输入至预设相似度算法中，确定候选指标项与对应的检索词的相似度数值，并根据相似度数值确定关键词。使用基于多类感知器的字标注方法对检索语句进行精确的分词，再通过预设指标库确定与分词对应的候选指标项，最后通过计算得到的逆向文件频率结合和预设相似度算法，确定各个候选指标项的相似度，并以此确定关键词，从而使得对于关键词的确定符合检索语句整体的语义，进而准确定义关键词，提高搜索结果的准确率。

附图说明

图1是本申请实施例方案涉及的硬件运行环境的装置结构示意图；

图2为本申请基于语义识别的关键词确定方法一实施例的流程示意图；

图3为本申请基于语义识别的关键词确定方法另一实施例的流程示意图；

图4为本申请所述将所述检索词输入至预设指标库中进行查询，得到对应的候选指标项的步骤细化流程示意图；

图5为本申请所述根据所述候选指标项确定所述检索词在预设指标库中的逆向文件频率的步骤细化流程示意图。

本申请目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的可选实施例仅仅用以解释本申请，并不用于限定本申请。

如图1所示，图1是本申请实施例方案涉及的硬件运行环境的终端结构示意图。

本申请终端是一种装置，该装置可以是一种手机、电脑、移动电脑等具有存储功能的终端设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，通信总线1002，用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏（Display）、输入单元比如键盘（Keyboard），可选的用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口（如WI-FI接口）。存储器1005可以是高速RAM存储器，也可以是稳定的存储器（non-volatile memory），例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、Wi-Fi模块等等，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要包括输入单元比如键盘，键盘包括无线键盘和有线键盘，用于连接客户端，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的计算机可读指令，并执行以下操作：

获取用户输入的检索语句，对所述检索语句进行分词，并提取分词后各个词语的特征向量；

将所述检索词输入至预设指标库中进行查询，得到对应的候选指标项；

进一步地，处理器1001可以调用存储器1005中存储的计算机可读指令，还执行以下操作：

将所述训练语句输入至预设特征模块中，以提取出所述训练语句的训练特征向量；

将所述训练语句的训练特征向量作为所述多类感知器的训练样本，以得到训练完成的多类感知器。

将所述特征向量输入至训练完成的多类感知器中，得到每个特征向量对应的标注位置；

在每个特征向量对应的标注位置上，使用预设构词位置信息对各个特征向量进行标注，得到对应的字标注结果。

根据所述构词位置信息对所述检索语句进行分词，得到对应的检索词集合；

将所述检索词集合输入至预设词性标注算法中，确定检索词集合中各个词语的词性，并将词性为预设检索词性的词语确定为检索词。

将所述检索词输入至预设指标库中，确定所述指标库中与所述检索词对应的核心词；

将所述指标库中与所述核心词对应的指标项作为所述候选指标项。

确定所述候选指标项的数目以及预设指标库中所有指标项的数目；

将所述候选指标项的数目除以所有指标项的数目，并将得到的商取对数，以得到与检索词对应的逆向文件频率。

确定候选指标项中所包含的检索词的数目，并将所述数目作为检索词个数；

根据所述检索词个数以及所述逆向文件频率计算得到候选指标项的相似度数值。

确定各个候选指标项的相似度数值，并将相似度数值最高的候选指标项确定为关键词。

本装置的可选实施例与下述基于语义识别的关键词确定方法各实施例基本相同，在此不作赘述。

请参阅图2，图2为本申请基于语义识别的关键词确定方法一实施例的流程示意图，本实施例提供的基于语义识别的关键词确定方法包括如下步骤：

步骤S10，获取用户输入的检索语句，对所述检索语句进行分词，并提取分词后各个词语的特征向量；

本实施例中，先获取用户输入的检索语句，容易理解的是，可以将用户在检索界面上输入的语句作为检索语句，也可以通过对用户录入的声音进行语音识别得到对应的检索语句，也可以采用其他方式获取用户输入的检索语句，本实施例在此不限制。

可选的，获取到用户输入的检索语句后，可以使用NLP算法对检索语句进行分词，也可以使用特征模板提取算法对所述检索语句分词，并构建与分词后各个词语对应的特征向量。

步骤S20，将所述特征向量输入至训练完成的多类感知器中，得到对应的字标注结果，并根据所述字标注结果得到对应的检索词；

本实施例中，还预先设置有多个不同种类的感知器，在得到检索语句对应的特征向量后，将所述特征向量输入至多类感知器中，由于每个感知器只将一类目标视为正例，而将其余目标视为负例，因此可以先对多类感知器的样本数据进行训练。将所述特征向量输入至训练完成的多类感知器中，得到对应的字标注结果，并根据所述字标注结果得到对应的检索词。容易理解的是，上述字标注结果是指在检索语句中每个字所在的位置进行的标注。

步骤S30，将所述检索词输入至预设指标库中进行查询，得到对应的候选指标项；

本实施例中还预先设置有指标库，所述指标库中存储有检索词和候选指标项的映射关系，将所述检索词输入到预设指标库中，得到与所述检索词对应的候选指标项。

步骤S40，根据所述候选指标项确定所述检索词在预设指标库中的逆向文件频率；

所述逆向文件频率能反映得到的候选指标项在整个检索过程中词性的重要程度，因此在得到候选指标项后，根据预设指标库中所有指标项的数目得到与所述候选指标项对应的逆向文件频率，以确定所述检索词的重要性。

步骤S50，将所述逆向文件频率、所述检索词和所述候选指标项输入至预设相似度算法中，确定所述候选指标项与对应的所述检索词的相似度数值，并根据所述相似度数值确定关键词。

本实施例中，还预设有相似度算法，根据所述逆向文件频率、所述检索词和所述候选指标项，计算得到各个候选指标项的相似度数值，可选的，将相似度数值最高的候选指标项确定为关键词。

进一步的，所述多类感知器包括多个训练语句，所述步骤S10提取分词后各个词语的特征向量之后，还包括：

步骤S60，将所述训练语句输入至预设特征模块中，以提取出所述训练语句的训练特征向量；

基于上述实施例，在得到检索语句中各个词语的特征向量后，为了确定各个检索词的字标注结果，需要对多类感知器进行训练。容易理解的是，感知器包括有对应的训练样本，一般的，所述训练样本都以训练语句的形式出现，将感知器的训练语句输入到预设特征模板中，提取出对应的训练特征向量。应当理解的是，如若上述词语的特征向量是根据特征模板得到的，则训练感知器的特征模板的种类，应当与获取词语特征向量的特征模板的种类相同。

步骤S70，将所述训练语句的训练特征向量作为所述多类感知器的训练样本，以得到训练完成的多类感知器。

得到训练语句的训练特征向量后，将所述训练特征向量替代训练语句作为感知器新的训练样本，则得到训练完成的多类感知器，通过训练完成的多类感知器得到检索语句的字标注结果，从而精准的确定检索语句中关键词。

进一步的，所述将所述特征向量输入至训练完成的多类感知器中，得到对应的字标注结果的步骤包括：

步骤S21，将所述特征向量输入至训练完成的多类感知器中，得到每个特征向量对应的标注位置；

本实施例中，先得到特征向量的标注位置，在特征向量的标注位置上进行标注，以得到特征向量的字标注结果。

一般而言，特征向量中每个字的标注位置的数目与构词位置信息对应，例如，预设构词位置信息为4个，即词首位置信息、词中位置信息、词尾位置信息以及单词位置信息，则特征向量中每个字对应有4个标注位置。

步骤S22，在每个特征向量对应的标注位置上，使用预设构词位置信息对各个特征向量进行标注，得到对应的字标注结果。

如上所述，假设构词位置信息为，词首位置信息、词中位置信息、词尾位置信息以及单词位置信息，应当理解都是，本实施例中的构词位置信息也可以包括其他能对特征向量进行标注的构词位置信息，本实施例在此不做限制。在得到特征向量的标注位置后，使用词首位置信息、词中位置信息、词尾位置信息以及单词位置信息在标注位置对特征向量进行标注，以得到检索语句的字标注结果，进一步的，为了更详尽的阐述本实施例，以下举例：

将词首位置信息设置为A，词中位置信息设置为M，词尾位置信息设置为E，单词位置信息设置为I，检索语句为：本季度固定资产投资完成额是多少。则通过多类感知器得到的字标注结果为：本/I季/A度/E固/A定/M资/M产/E投/A资/E完/A成/M额/E是/I多/A少/E。

本实施例通过上述方式，得到检索语句对应的字标注结果，通过多类感知分类器对分词后词语的词性进行了初步的划分，较比传统的分词技术，进一步的体现了词语在语句中的上下文语义，因此对于词语的划分更为精准。

进一步的，所述根据所述字标注结果得到对应的检索词的步骤包括：

步骤23，根据所述构词位置信息对所述检索语句进行分词，得到对应的检索词集合；

根据构词位置信息以及字标注结果对检索语句进行分词，得到所述检索语句分词后的多个不同词语，并将所述多个分词后得到的词语作为检索词集合。

为了进一步详尽的阐述本实施例，以构词位置信息为词首位置信息A、词中位置信息M、词尾位置信息E以及单词位置信息I，检索语句为：本季度固定资产投资完成额是多少，为例。通过多类感知器后，得到的与检索语句对应的字标注结果为：本/I季/A度/E固/A定/M资/M产/E投/A资/E完/A成/M额/E是/I多/A少/E。则可以将其中标注为{I}的词作为检索词，将标注为{AE}或{AME}或{AM...ME}的两字、三字或若干字作为一个检索词。那么，上述检索语句对应的检索词集合为：本，季度，固定资产，投资完成额，是，多少。作为另外一种实施方式，为了减少计算量，可以将标注为{I}的词不纳入检索词集合。

步骤S24，将所述检索词集合输入至预设词性标注算法中，确定检索词集合中各个词语的词性，并将词性为预设检索词性的词语确定为检索词。

检索语句一般是完整的一句话，包含了很多词性不同的词，其中，某些关键词性的词语往往代表了一句话的主要含义，例如名词、形容词，这些词性的词语很可能就是检索词。因此，在本提案中，需要对检索词集合中的词语进行词性分析，获得检索语句的关键词语，即检索词。

本实施例中还预设有词性标注算法，当采用NLP算法对检索语句进行分词时，可以采用NLP算法中的词性标注确定各个词语的词性；当然，也可以使用CLAWS（Contituent-Likelihood Automatic Word-tagging System 成分似然性自动词性标注系统）算法，或VOLSUNGA算法，来实现对于检索词集合中各个词语词性的确定，上述CLAWS算法和VOLSUNGA算法都是基于统计的词性标注算法，根据同现概率来标注词性。也可以采用一些基于规则的算法确定词语的词性，即利用事先制定好的规则对具有多个词性的词进行消歧，最后保留一个正确的词性。容易理解都是，本实施例并不限制词性标注算法。

本实施例通过上述方式，根据字标注结果进行精准的分词，并分析词语的词性，以此确定关键词，从而去除掉检索语句中的语气助词等词性的词语，避免其对最后关键词的确定结果产生影响。

进一步的，所述指标库中存储有多个指标项和对应的核心词，所述将所述检索词输入至预设指标库中进行查询，得到对应的候选指标项的步骤包括：

步骤S31，将所述检索词输入至预设指标库中，确定所述指标库中与所述检索词对应的核心词；

本实施例中，预先设置有指标库，所述指标库中存储有指标项和对应的核心词，应当理解都是，所述指标项与核心词并不是一一对应关系，多个指标项可能对应有相同的核心词，所述核心词可以为各指标项中直接提取的词语，也可以为用户制定的各指标项对应的词语，例如，指标项为“固定资产投资完成额”对应的核心词为“投资完成额”。

步骤S32，将所述指标库中与所述核心词对应的指标项作为所述候选指标项。

确定与检索词对应的核心词后，将预设指标库中与所述核心词对应的指标项，并将所述指标项作为所述候选指标项，容易理解都是，由于指标库中的核心词可能对应有多个指标项，因此候选指标项的数目也可以为多个。

本实施例通过上述方式，确定与检索词对应的候选指标项，避免直接利用多个检索词确定检索语句的关键词，从而减少关键词确定过程中的计算量。

进一步的，所述根据所述候选指标项确定所述检索词在预设指标库中的逆向文件频率的步骤包括：

步骤S41，确定所述候选指标项的数目以及预设指标库中所有指标项的数目；

得到候选指标项后，进行检索语句中关键词的确定，候选指标项与检索语句的相似程度，由候选指标项所包含的检索词个数以及所包含的检索词的重要性共同决定，其中，候选指标项所包含的检索词个数与逆向文件频率有关。为了得到候选指标项与检索语句所对应的逆向文件频率，先确定候选指标项的数目以及预设指标库中所有指标项的数目。

步骤S42，将所述候选指标项的数目除以所有指标项的数目，并将得到的商取对数，以得到与检索词对应的逆向文件频率。

逆向文件频率能体现候选指标项的区分度，当候选指标项的区分度越高时，则所述候选指标项的重要性也就越高，越有可能确定为关键词。在预设指标库的多个指标项中，如若与该检索词对应的指标项的数目越少，则该指标项越重要。因此，逆向文件频率可以由指标项集合中包含的总指标项数目除以该指标项集合中包含该检索词的指标项数目，再将得到的商取对数得到。

本实施例通过上述方式，确定候选指标项对应的逆向文件频率，从而确定检索词对应的重要性，进而确定各个候选指标项的相似度。

进一步的，所述将所述逆向文件频率、所述检索词和所述候选指标项输入至预设相似度算法中，得到对应的相似度数值的步骤包括：

步骤S51，确定候选指标项中所包含的检索词的数目，并将所述数目作为检索词个数；

在本实施例中，统计各个候选指标项与检索词匹配的数目，当候选指标项中与检索词匹配的数目越多，则候选指标项对应的相似度也就越高。为达到上述目的，确定候选指标项中所包含的检索词的数目，并将所述数目作为检索词个数。

例如，对于候选指标项“全社会固定资产投资完成额”，“固定资产投资完成额”与检索词“全社会”，“固定资产”“投资完成额”，其中候选指标项“全社会固定资产投资完成额”包含有检索词“全社会”，“固定资产”“投资完成额”；而候选指标项“固定资产投资完成额”只包含有检索词“固定资产”“投资完成额”，因此候选指标项“全社会固定资产投资完成额”所包含的检索词个数多于候选指标项“固定资产投资完成额”。

步骤S52，根据所述检索词个数以及所述逆向文件频率计算得到候选指标项的相似度数值。

根据各个候选指标项的检索词个数以及逆向文件频率，得到候选指标项的相似度数值，可选的，可以使用TF-IDF算法来计算各个候选指标项的相似度，TF-IDF算法它的工作方式为，基于上下文的语义综合判断出信息含量较高的词语，提高信息含量较高的词语的比重系数，降低重复因子的比重系数，进而加强词汇本身的信息熵的含量。

本实施例根据各个候选指标项所包含的检索词个数以及逆向文件频率，确定各个候选指标项的相似度数值，相比于传统的关键词匹配方法，本实施例通过检索词个数以及逆向文件频率两个指标来确定候选指标项的相似度，保证关键词确定的结果更为准确。

进一步的，所述根据所述相似度数值确定关键词的步骤包括：

步骤S53，确定各个候选指标项的相似度数值，并将相似度数值最高的候选指标项确定为关键词

在得到各个候选指标项的相似度数值后，将相似度数值最高的候选指标项作为关键词，以此完成检索语句中关键词的确认。特别的，当存在2个或2个以上的候选指标项的相似度数值相同时，可以同时将其作为检索语句的关键词。

此外，本申请实施例还提出一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如上所述基于语义识别的关键词确定方法的操作。

本申请非易失性计算机可读存储介质的可选实施例与上述基于语义识别的关键词确定方法各实施例基本相同，在此不作赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

以上仅为本申请的可选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种基于语义识别的关键词确定方法，其中，包括以下步骤：

获取用户输入的检索语句，使用NLP算法或特征模板提取算法对所述检索语句进行分词，并提取分词后各个词语的特征向量；

将多类感知器中的训练语句输入至预设特征模块中，以提取出所述训练语句的训练特征向量；

将所述训练语句的训练特征向量作为所述多类感知器的训练样本，以得到训练完成的多类感知器；

将所述特征向量输入至训练完成的多类感知器中，得到对应的字标注结果，并根据所述字标注结果得到对应的检索词；

将所述检索词输入至预设指标库中进行查询，得到对应的候选指标项，其中预设指标库中存储有检索词和候选指标项的映射关系；

根据所述候选指标项确定所述检索词在预设指标库中的逆向文件频率；

将所述逆向文件频率、所述检索词和所述候选指标项输入至预设相似度算法中，确定所述候选指标项与对应的所述检索词的相似度数值，并根据所述相似度数值确定关键词。
如权利要求1所述的基于语义识别的关键词确定方法，其中，所述将所述特征向量输入至训练完成的多类感知器中，得到对应的字标注结果的步骤包括：

将所述特征向量输入至训练完成的多类感知器中，得到每个特征向量对应的标注位置；

在每个特征向量对应的标注位置上，使用预设构词位置信息对各个特征向量进行标注，得到对应的字标注结果。
如权利要求2所述的基于语义识别的关键词确定方法，其中，所述根据所述字标注结果得到对应的检索词的步骤包括：

根据所述构词位置信息对所述检索语句进行分词，得到对应的检索词集合；

将所述检索词集合输入至预设词性标注算法中，确定检索词集合中各个词语的词性，并将词性为预设检索词性的词语确定为检索词。
如权利要求1所述的基于语义识别的关键词确定方法，其中，所述指标库中存储有多个指标项和对应的核心词，所述将所述检索词输入至预设指标库中进行查询，得到对应的候选指标项的步骤包括：

将所述检索词输入至预设指标库中，确定所述指标库中与所述检索词对应的核心词；

将所述指标库中与所述核心词对应的指标项作为所述候选指标项。
如权利要求1所述的基于语义识别的关键词确定方法，其中，所述根据所述候选指标项确定所述检索词在预设指标库中的逆向文件频率的步骤包括：

确定所述候选指标项的数目以及预设指标库中所有指标项的数目；

将所述候选指标项的数目除以所有指标项的数目，并将得到的商取对数，以得到与检索词对应的逆向文件频率。
如权利要求1所述的基于语义识别的关键词确定方法，其中，所述将所述逆向文件频率、所述检索词和所述候选指标项输入至预设相似度算法中，得到对应的相似度数值的步骤包括：

确定候选指标项中所包含的检索词的数目，并将所述数目作为检索词个数；

根据所述检索词个数以及所述逆向文件频率计算得到候选指标项的相似度数值。
如权利要求6所述的基于语义识别的关键词确定方法，其中，所述根据所述相似度数值确定关键词的步骤包括：

确定各个候选指标项的相似度数值，并将相似度数值最高的候选指标项确定为关键词。
一种装置，其中，所述装置包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机可读指令，所述计算机可读指令被所述处理器执行时，执行如下步骤：

获取用户输入的检索语句，使用NLP算法或特征模板提取算法对所述检索语句进行分词，并提取分词后各个词语的特征向量；

将多类感知器中的训练语句输入至预设特征模块中，以提取出所述训练语句的训练特征向量；

将所述训练语句的训练特征向量作为所述多类感知器的训练样本，以得到训练完成的多类感知器；

将所述特征向量输入至训练完成的多类感知器中，得到对应的字标注结果，并根据所述字标注结果得到对应的检索词；

将所述检索词输入至预设指标库中进行查询，得到对应的候选指标项，其中预设指标库中存储有检索词和候选指标项的映射关系；

根据所述候选指标项确定所述检索词在预设指标库中的逆向文件频率；

将所述逆向文件频率、所述检索词和所述候选指标项输入至预设相似度算法中，确定所述候选指标项与对应的所述检索词的相似度数值，并根据所述相似度数值确定关键词。
如权利要求8所述的装置，所述计算机可读指令被所述处理器执行时，还执行如下步骤：

将所述特征向量输入至训练完成的多类感知器中，得到每个特征向量对应的标注位置；

在每个特征向量对应的标注位置上，使用预设构词位置信息对各个特征向量进行标注，得到对应的字标注结果。
如权利要求9所述的装置，所述计算机可读指令被所述处理器执行时，还执行如下步骤：

根据所述构词位置信息对所述检索语句进行分词，得到对应的检索词集合；

将所述检索词集合输入至预设词性标注算法中，确定检索词集合中各个词语的词性，并将词性为预设检索词性的词语确定为检索词。
如权利要求8所述的装置，所述计算机可读指令被所述处理器执行时，还执行如下步骤：

将所述检索词输入至预设指标库中，确定所述指标库中与所述检索词对应的核心词；

将所述指标库中与所述核心词对应的指标项作为所述候选指标项。
如权利要求8所述的装置，所述计算机可读指令被所述处理器执行时，还执行如下步骤：

确定所述候选指标项的数目以及预设指标库中所有指标项的数目；

将所述候选指标项的数目除以所有指标项的数目，并将得到的商取对数，以得到与检索词对应的逆向文件频率。
如权利要求8所述的装置，所述计算机可读指令被所述处理器执行时，还执行如下步骤：

确定候选指标项中所包含的检索词的数目，并将所述数目作为检索词个数；

根据所述检索词个数以及所述逆向文件频率计算得到候选指标项的相似度数值。
如权利要求13所述的装置，所述计算机可读指令被所述处理器执行时，还执行如下步骤：

确定各个候选指标项的相似度数值，并将相似度数值最高的候选指标项确定为关键词。
一种非易失性计算机可读存储介质，其中，所述非易失性计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时，执行如下步骤：

获取用户输入的检索语句，使用NLP算法或特征模板提取算法对所述检索语句进行分词，并提取分词后各个词语的特征向量；

将多类感知器中的训练语句输入至预设特征模块中，以提取出所述训练语句的训练特征向量；

将所述训练语句的训练特征向量作为所述多类感知器的训练样本，以得到训练完成的多类感知器；

将所述特征向量输入至训练完成的多类感知器中，得到对应的字标注结果，并根据所述字标注结果得到对应的检索词；

将所述检索词输入至预设指标库中进行查询，得到对应的候选指标项，其中预设指标库中存储有检索词和候选指标项的映射关系；

根据所述候选指标项确定所述检索词在预设指标库中的逆向文件频率；

将所述逆向文件频率、所述检索词和所述候选指标项输入至预设相似度算法中，确定所述候选指标项与对应的所述检索词的相似度数值，并根据所述相似度数值确定关键词。
如权利要求15所述的非易失性计算机可读存储介质，所述计算机可读指令被处理器执行时，还执行如下步骤：

将所述训练语句输入至预设特征模块中，以提取出所述训练语句的训练特征向量；

将所述训练语句的训练特征向量作为所述多类感知器的训练样本，以得到训练完成的多类感知器。
如权利要求16所述的非易失性计算机可读存储介质，所述计算机可读指令被处理器执行时，还执行如下步骤：

将所述特征向量输入至训练完成的多类感知器中，得到每个特征向量对应的标注位置；

在每个特征向量对应的标注位置上，使用预设构词位置信息对各个特征向量进行标注，得到对应的字标注结果。
如权利要求15所述的非易失性计算机可读存储介质，所述计算机可读指令被处理器执行时，还执行如下步骤：

根据所述构词位置信息对所述检索语句进行分词，得到对应的检索词集合；

将所述检索词集合输入至预设词性标注算法中，确定检索词集合中各个词语的词性，并将词性为预设检索词性的词语确定为检索词。
如权利要求15所述的非易失性计算机可读存储介质，所述计算机可读指令被处理器执行时，还执行如下步骤：

将所述检索词输入至预设指标库中，确定所述指标库中与所述检索词对应的核心词；

将所述指标库中与所述核心词对应的指标项作为所述候选指标项。
如权利要求15所述的非易失性计算机可读存储介质，所述计算机可读指令被处理器执行时，还执行如下步骤：

确定所述候选指标项的数目以及预设指标库中所有指标项的数目；

将所述候选指标项的数目除以所有指标项的数目，并将得到的商取对数，以得到与检索词对应的逆向文件频率。