WO2021051586A1

WO2021051586A1 - 面试回答文本的分类方法及装置、电子设备、存储介质

Info

Publication number: WO2021051586A1
Application number: PCT/CN2019/118036
Authority: WO
Inventors: 郑立颖; 徐亮; 金戈
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-09-18
Filing date: 2019-11-13
Publication date: 2021-03-25
Also published as: CN110717023B; CN110717023A

Abstract

一种面试回答文本的分类方法及装置，包括：获取面试者的面试回答文本，所述面试回答文本是根据面试者在面试中对面试提问的回复获得的（310）；通过所构建分类模型的特征提取层构建面试回答文本的语义向量，所述分类模型是通过若干样本回答文本和为每一样本回答文本所标注的标签数据进行训练获得的，所述标签数据指示了根据所述样本回答文本为所述面试者所标注在设定能力项上的评分等级（330）；通过所述分类模型的每一全连接层分别根据语义向量进行全连接，对应获得特征向量，在全连接层上所获得的特征向量用于表征样本回答文本在全连接层所对应设定能力项上的特征，所述分类模型包括至少两个全连接层，每一全连接层对应一设定能力项（350）；对在每一全连接层所获得的特征向量进行分类预测，分别获得面试者在各设定能力项上的评分等级（370）。该方法实现了词典的自动扩充，提高了面试回答文本的分类的速率，实现了自动对面试者进行面试评价。

Description

面试回答文本的分类方法及装置、电子设备、存储介质

本申请要求2019年9月18日递交、发明名称为“面试回答文本的分类方法及装置、电子设备、存储介质”的中国专利申请CN 201910882034.0的优先权，在此通过引用将其全部内容合并于此。

技术领域

本申请涉及人工智能技术领域，具体涉及一种面试回答文本的分类方法及装置、电子设备、计算机可读存储介质。

背景技术

对于面试而言，需要根据面试者对提问所作的回复来评价面试者在多个设定能力项上的能力，即分别确定面试者在每一设定能力项上的评分等级。

一般是由面试官对面试者进行面试，然后由面试官根据面试者在面试过程中的回答语料对面试者的各方面能力进行评估。发明人意识到：由于通过面试官根据面试者回答语料确定面试者在各设定能力项上的评分等级，存在效率低的问题。

由上可知，需要一种方法来自动对面试者进行评估，而不依赖于面试官对面试者进行评估，从而提高面试评估的效率。

发明内容

为了解决现有技术中因面试官进行面试评估所造成面试评估效率低的问题，本申请的实施例提供了一种面试回答文本的分类方法及装置、电子设备、计算机可读存储介质，以实现自动进行面试评估。

第一方面，一种面试回答文本的分类方法，所述方法包括：

获取面试者的面试回答文本，所述面试回答文本是根据所述面试者在面试中对面试提问的回复获得的；通过所构建分类模型的特征提取层构建所述面试回答文本的语义向量，所述分类模型是通过若干样本回答文本和为每一样本回答文本所标注的标签数据进行训练获得的，所述标签数据指示了根据所述样本回答文本为所述面试者所标注在设定能力项上的评分等级；通过所述分类模型的每一全连接层分别根据所述语义向量进行全连接，对应获得特征向量，在所述全连接层上所获得的所述特征向量用于表征所述样本回答文本在所述全连接层所对应设定能力项上的特征，所述分类模型包括至少两个全连接层，每一全连接层对应一设定能力项；对在每一全连接层所获得的特征向量进行分类预测，分别获得所述面试者在各设定能力项上的评分等级。

第二方面，一种面试回答文本的分类装置，所述分类装置包括：获取模块，配置为获取为面试者的面试回答文本，所述面试回答文本是根据所述面试者在面试中对面试提问的回复获得的；语义向量构建模块，配置为通过所构建分类模型的特征提取层构建所述面试回答文本的语义向量，所述分类模型是通过若干样本回答文本和为每一样本回答文本所标注的标签数据进行训练获得的，所述标签数据指示了根据所述样本回答文本为所述面试者所标注在设定能力项上的评分等级；全连接模块，配置为通过所述分类模型的每一全连接层分别根据所述语义向量进行全连接，对应获得特征向量，在所述全连接层上所获得的所述特征向量配置为表征所述样本回答文本在所述全连接层所对应设定能力项上的特征，所述分类模型包括至少两个全连接层，每一全连接层对应一设定能力项；分类预测模块，配置为对在每一全连接层所获得的特征向量进行分类预测，分别获得所述面试者在各设定能力项上的评分等级。

第三方面，一种电子设备，包括：处理器；及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的面试回答文本的分类方法。

第四方面，一种计算机非易性可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，实现如上所述的面试回答文本的分类方法。

通过本申请的技术方案，根据面试者的面试回答文本自动确定面试者在各个设定能力项的评分等级，实现根据面试者的面试回答文本评估面试者在各设定能力项上的能力，换言之，实现了自动进行面试评价。而不需要依赖面试官根据对面试者的面试情况对面试者在各个能力项上进行评估，大幅提高了面试评估的效率。而且，由于不需要面试官参与到面试评价中，从而可以避免因面试官的主观意志和个人喜好所导致面试官对面试者在各个能力项上所作出的评分等级不准确客观的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是示例性示出的一种装置的框图；

图2是根据一示例性实施例示出的一种面试回答文本的分类方法的流程图；

图3是图2中步骤310在一实施例中的流程图；

图4是图2中步骤330在一实施例中的流程图；

图5是图4中步骤351之前步骤在一实施例中的流程图；

图6是根据各所述样本回答文本的文本长度确定所述文本截断长度的步骤在一实施例中的流程图；

图7是图2中步骤330之前步骤在一实施例中的流程图；

图8是根据一示例性实施例示出的一种面试回答文本的分类装置的框图；

图9是根据一示例性实施例示出的一种电子设备的框图。

通过上述附图，已示出本申请明确的实施例，后文中将有更详细的描述，这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围，而是通过参考特定实施例为本领域技术人员说明本申请的概念。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1根据一示例性实施例示出的一种装置200的框图。装置200可以作为本申请的执行主体，用于实现本申请的面试回答文本的分类方法。当然，本申请的方法并不限于以装置200作为执行主体实现，其他具备处理能力的电子设备也可以作为本申请的执行主体，用于实现本申请的面试回答文本的分类方法。

需要说明的是，该装置200只是一个适配于本申请的示例，不能认为是提供了对本申请的使用范围的任何限制。该装置也不能解释为需要依赖于或者必须具有图1中示出的示例性的装置200中的一个或者多个组件。

该装置200的硬件结构可因配置或者性能的不同而产生较大的差异，如图3所示，装置200包括：电源210、接口230、至少一存储器250、以及至少一处理器270。其中，电源210用于为装置200上的各硬件设备提供工作电压。

接口230包括至少一有线或无线网络接口231、至少一串并转换接口233、至少一输入输出接口235以及至少一USB接口237等，用于与外部设备通信。

存储器250作为资源存储的载体，可以是只读存储器、随机存储器、磁盘或者光盘等，其上所存储的资源包括操作系统251、应用程序253及数据255等，存储方式可以是短暂存储或者永久存储。其中，操作系统251用于管理与控制装置200上的各硬件设备以及应用程序253，以实现处理器270对海量数据255的计算与处理，其可以是Windows Server ^TM、Mac OS X ^TM、Unix ^TM、Linux ^TM、FreeBSD ^TM等。应用程序253是基于操作系统251之上完成至少一项特定工作的计算机程序，其可以包括至少一模块(图2中未示出)，每个模块都可以分别包含有对装置200的一系列计算机可读指令。数据255可以是存储于磁盘中的样本文本、标签数据等。处理器270可以包括一个或多个以上的处理器，并设置为通过总线与存储器250通信，用于运算与处理存储器250中的海量数据255。

如上面所详细描述的，适用本申请的装置200将通过处理器270读取存储器250中存储的一系列计算机可读指令的形式来完成面试回答文本的分类的方法。此外，通过硬件电路或者硬件电路结合软件也能同样实现本申请，因此，实现本申请并不限于任何特定硬件电路、软件以及两者的组合。

图2是根据一示例性实施例示出的一种面试回答文本的分类方法的流程图，该方法可以由图1所示的装置200执行，也可以由其他具有处理能力的电子设备执行，在此不进行具体限定。如图2所示，该方法至少包括以下步骤：

步骤310，获取面试者的面试回答文本，面试回答文本是根据面试者在面试中对面试提问的回复获得的。对于面试而言，面试过程中，面试者针对面试提问进行回答，而所回答的内容即为对面试提问的回复。面试回答文本即为针对面试提问所作回复的文本表达，例如，如果面试者以文本的方式回答面试提问，则所作的回复即为面试回答文本；若果面试者以语音的方式回答面试提问，那么将对所作的回复进行语音识别所获得的文本即为面试回答文本。

在一具体实施例中，通过智能面试系统对面试者进行面试。在智能面试系统中，预先为待进行面试的面试者设定若干问题，例如针对面试者的简历等资料进行问题的设定。从而，在对该面试者进行面试时，根据所设定的问题对面试者进行提问，并采集面试者对提问所作的回复，进而获得面试回答文本。在该实施例中，智能面试系统即通过本申请的方法，根据面试者的面试回答文本进行分类。

步骤330，通过所构建分类模型的特征提取层构建面试回答文本的语义向量，分类模型是通过若干样本回答文本和为每一样本回答文本所标注的标签数据进行训练获得的，标签数据指示了根据样本回答文本为面试者所标注在设定能力项上的评分等级。

面试回答文本的语义向量即是面试回答文本所对应语义的向量表示。其中，分类模型是通过神经网络构建的，所构建的分类模型用于对面试回答文本进行分类，神经网络例如深度前馈网络、卷积神经网络(Convolution Neural Networks,CNN)、递归神经网络(Recurrent Neural Networks)等，通过各种神经网络进行组合，进而获得用于进行面试回答文本分类的分类模型。

对面试回答文本进行分类的目的是通过面试回答文本获得面试者设定能力项上的评分等级，因而，所进行的分类，即是将面试回答文本分类至在设定能力项上的一评分等级，从而实现了根据面试回答文本对面试者进行能力评估。

可以理解的是，为对面试者进行能力评估，是在多个设定能力项上对面试者进行能力评估。而本申请的分类模型，即是针对在多个设定能力项上对面试回答文本进行分类而是构建的。设定能力项例如学习能力、规划能力、稳定性、团队协作能力、领导能力等。当然，不同的应用场景下，对于面试者需要评估的设定能力项可能不同。因而对面试者所要评估的若干设定能力项可以根据实际需要进行选取。

可选的，分类模型包括一特征提取层、针对设定能力项所分别构建的全连接层(其中一设定能力项对应一全连接层)和输出层(每一全连接层对应有一输出层)。其中，特征提取层用于构建面试回答文本的语义向量；全连接层用于在全连接层所对应设定能力项上根据语义向量进行全连接，获得用于表征面试回答文本在该设定能力项上特征的特征向量；输出层用于根据特征向量进行输出，从而获得在设定能力项上的评分等级，值得一提的是，一设定能力项对应一输出层，即输出层所输出的评分等级即为在该输出层所对应设定能力项的评分等级。

而为了保证分类模型对于面试回答文本进行分类的准确性，在对面试回答文本进行分类之前，根据若干样本回答文本以及为面试回答文本所标注的标签数据进行模型训练，获得分类模型。如上所描述，分类模型用于根据面试回答文本输出面试者在设定能力项上的评分等级，从而，用于进行模型训练的标签数据表征了所对应词样本回答文本在每一设定能力项上的评分等级。

步骤350，通过分类模型的每一全连接层分别根据语义向量进行全连接，对应获得特征向量，在全连接层上所获得的特征向量用于表征样本回答文本在全连接层所对应设定能力项上的特征，分类模型包括至少两个全连接层，每一全连接层对应一设定能力项。

在分类模型中，为每一设定能力项对应构建有一全连接层。虽然在通过特征提取层获得了面试回答文本的语义向量，但是由于需要在至少两个设定能力项上对面试回答文本进行分类，而面试回答文本的语义向量虽然表征了面试回答文本的全部特征，但是，在语义向量中，在各设定能力项上的特征的表现程度不同，在某些设定能力项上的特征明显，而在一些设定能力项上的特征不明显。因此，如果仅通过语义向量在至少两个设定能力项上进行分类，存在分类准确性低的问题。

因而，为了保证在每一设定能力项上进行分类的准确性，需要进一步从语义向量中将用于在一设定能力项上进行分类的特征提取出来，实现激活面试回答文本在每一设定能力项上所表现的特征。该过程即是通过设定能力项所对应全连接层根据语义向量进行全连接来实现的，对应获得用于表征面试回答文本在全连接层所对应设定能力项上的特征的特征向量。由于在分类模型中，每一全连接层对应一设定能力项，因而，为了在每一设定能力项上对面试回答文本进行分类，则通过该设定能力项所对应全连接层根据语义向量获得对应于设定能力项的特征向量。

步骤370，对在每一全连接层所获得的特征向量进行分类预测，分别获得面试者在各设定能力项上的评分等级。

所进行的分类预测，是针对在每一设定能力项上所设定的评分等级，预测该特征向量对应为每一评分等级的概率，从而，根据所预测得到的概率对应确定该面试回答文本在该设定能力项上的评分等级。

举例来说，在学习能力这一设定能力项上，预设了4个评分等级，分别为：评分等级A、评分等级B、评分等级C和评分等级D。那么，对应的，根据从对应于学习能力的全连接层所获得的特征向量，分别预测得到该面试回答文本被分类至评分等级A、B、C和D的概率。比如预测得到该面试回答文本被分类至评分等级A的概率为P1，该面试回答文本被分类至评分等级B的概率为P2，该面试回答文本被分类至评分等级C的概率为P3和该面试回答文本被分类至评分等级D的概率为P4。然后针对所预测得到的概率，遍历每一评分等级的概率，比较概率P1、P2、P3和P4的大小，若概率P1最大，在学习能力这一设定能力项上，面试回答文本被分类至评分等级A，即面试者在学习能力上的评分等级为A。

从而，通过以上步骤即可根据面试者的面试回答文本确定面试者在各个设定能力项的评分等级，实现根据面试者的面试回答文本评估面试者在各设定能力项上的能力，换言之，实现了自动进行面试评价，提高了面试评估的效率。而不需要依赖面试官根据对面试者的面试情况对面试者在各个能力项上进行评估，大幅降低了对面试者进行面试评价的工作量。而且，由于不需要面试官参与到面试评价中，从而可以避免因面试官的主观意志和个人喜好所造成的评估结果不准确不客观。

在一实施例中，如图3所示，步骤310包括：步骤311，采集面试者在面试过程中针对面试提问的回复语音。在本实施例中，采用语音的方式对面试者进行面试，并在面试过程中，进行语音采集，从而获得面试者在该过程中针对面试提问的回复语音。步骤313，对回复语音进行语音识别，获得回复语音所对应的面试回答文本。所进行的语音识别，即将回复语音识别为文本，从而获得回复语音所对应的面试回答文本。在具体实施例中，为进行语音识别，可以直接调用现有技术中的语音识别工具进行。

在一实施例中，如图4所示，步骤330包括：步骤331，通过分类模型的特征提取层对面试回答文本进行分词，获得由若干词所构成的词序列。分词是指将连续的面试回答文本按照一定的规范划分成词序列的过程，从而获得由若干单独的词构成的词序列。其中，所进行的分词，可以是基于字符串匹配的分词方法、基于理解的分词方法以及基于统计的分词方法，在此不进行具体限定。在一具体实施例中，还可以直接调用分词工具进行分词，例如jieba、SnowNLP、THULAC、NLPIR等。

值得一提的是，针对不同的语言，所用于进行分词的方法可能不同，例如，对于英文文本可以直接通过空格和标点进行分词，而对于中文文本，由于字与字之间并没有空格，通过空格进行分词是不行的，那么需要采用适应于中文的分词方法进行分词。

步骤333，通过特征提取层根据词词序列中各词所对应的编码以及各词所对应的语义权重构建得到面试回答文本的语义向量。可以理解的是，在文本中，不同类型的词对于文本的语义的贡献程度是不同的。而此所对应的语义权重即是对词对所在文本的语义的贡献程度的量化表示。在面试回答文本中，不同词性的词的语义权重是不同的，例如对于名词、动词、助词而言，名词和动词的语义权重大于助词的语义权重。

为进行面试回答文本的分类，对应构建有一语义词典，在该语义词典中，存储有若干词的编码，以及词的语义权重。从而特征提取层根据面试回答文本所对应词序列中各词在语义词典中的编码以及语义权重，对应生成该面试回答文本的语义向量。

在一实施例中，分类模型是通过text-CNN神经网络所构建的，如图5所示，在步骤331之前，该方法还包括：步骤410，获取为进行分词而确定的文本截断长度。步骤430，根据所获取的文本截断长度对面试回答文本进行截断，将通过截断所保留的文本作为进行分词的对象。

text-CNN是利用卷积神经网络对文本进行分类的算法。而在text-CNN神经网络对面试回答文本进行分类之前，需要按照为该text-CNN神经网络所设定的文本截断长度来对面试回答文本进行截断。

该文本截断长度限定了输入至分类模型进行分类的文本的长度，即如果文本的文本长度超过该文本截断长度，则按照文本截断长度进行截断，将文本中超出该文本截断长度的部分去除，使得截断后文本的文本长度为该文本截断长度。而若文本的文本长度未超过文本截断长度，在在为该文本构建语义向量时，需要进行补位，即补充补位字符，例如补充0；从而使得为文本所构建的语义向量保持与文本截断长度一致。

该文本截断长度是为了确定分类模型的训练参数值而确定的。合理的文本截断长度可以在保证充分捕捉到文本的语义特征的基础上，提高分类模型的训练效率。

从而，在根据文本截断长度设定好分类模型的训练参数之后，不管是在对分类模型进行训练还是用于对面试回答文本进行分类的过程中，均按照此文本截断长度对文本(即样本回答文本或面试回答文本)进行截断。其中，文本的长度，即将文本进行分词之后所获得词的数量。

在一实施例中，步骤410之前，该方法还包括：根据各样本回答文本的文本长度确定文本截断长度。对于通过text-CNN神经网络所构建的分类模型而言，如果文本截断长度过短，则一方面会导致从面试回答文本所捕捉的信息不够，从而降低面试回答文本的分类的准确性，另一方面会导致批处理数量过少，则训练到收敛的路径比较随机，从而分类模型的分类精度不高；反之，如果文本截断长度过程，则一方面会导致分类模型的训练时间过长，另一方面会导致一次批训练时间久，容易陷入局部最优。从而，为了保证分类模型的训练效率和分类模型的分类精度，根据分类模型的实际应用场景来为该分类模型确定文本截断长度，即根据各样本回答文本的文本长度来确定文本截断长度。

可以理解的是，各样本回答文本的文本长度在一定程度上表征了面试回答文本的文本长度的范围，从而通过各各样本回答文本的文本长度来确定文本截断长度，可以使所确定的文本截断长度适应于在对面试回答文本进行分类中的实际情况。

在一实施例中，如图6所示，根据各样本回答文本的文本长度确定文本截断长度，包括：步骤510，获取对各样本回答文本进行分词而获得各样本回答文本的文本长度，对样本回答文本进行分词所获得词的数量作为样本回答文本的文本长度。步骤530，根据每一样本回答文本的文本长度，计算得到文本长度均值和文本长度标准差。步骤550，根据文本长度均值和文本长度标准差确定文本截断长度。

在一具体实施例中，将文本长度均值和文本长度标准差的加权和，例如文本长度均值与文本长度标准差的和，作为文本截断长度。通过文本长度均值和文本长度标准差所确定的文本截断长度在充分保留样本回答文本或面试回答文本的信息，和提高分类模型的训练效率之间取得了平衡。

在一实施例中，如图7所示，步骤330之前，该方法还包括：

步骤610，按照所设定的若干能力项预构建神经网络模型，神经网络模型包括为每一设定能力项对应构建的一全连接层。步骤630，通过若干样本回答文本和每一样本回答文本所对应的标签数据对神经网络模型进行训练，直至神经网络模型的损失函数收敛，收敛函数为各设定能力项上交叉熵的加权和。步骤650，将损失函数收敛时的神经网络模型作为分类模型。

对于一设定能力项，样本回答文本或者面试回答文本在该设定能力项上的评分等级为离散型随机变量X，其取值集合为C，概率分布函数p(x)＝P(X＝x),x∈C，那么事件X＝x ₀的信息量为：I(x ₀)＝-log(p(x ₀))。

由于变量X有多种取值，每一种取值有对应的概率p(x _i)，则该设定能力项上的交叉熵即为该设定能力项上所有信息量的期望，即

其中，H(p ₁)表示在设定能力项p ₁上的交叉熵，p ₁(x _i)表示变量X的取值为x _i的概率，n表示在设定能力项p ₁变量X可取值的数量。从而，神经网路模型的收敛函数为：

其中，m表示所设定能力项的数量。

对预构建的神经网络模型的训练过程即：通过神经网络模型预测每一样本回答文本在每一设定能力项上的评分等级，若所预测得到在该设定能力项上的评分等级与该样本问答文本所对应标签数据中在该设定能力项上的评分等级不一致，则调整神经网络模型的模型参数；反之，如果一致，则继续用下一样本回答文本进行训练。并在训练过程中，若损失函数收敛，则停止进行训练。并将损失函数收敛时的神经网络模型作为分类模型。

下述为本申请装置实施例，可以用于执行本申请上述装置200执行的面试回答文本的分类方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请面试回答文本的分类方法实施例。

图8是根据一示例性实施例示出的一种面试回答文本的分类装置的框图，该面试回答文本的分类装置可以配置于图1的装置200中，执行以上方法实施例中任一所示的面试回答文本的分类方法的全部或者部分步骤。如图8所示，该面试回答文本的分类装置包括但不限于：获取模块710，配置为获取面试者的面试回答文本，面试回答文本是根据面试者在面试中对面试提问的回复获得的。语义向量构建模块730，配置为通过所构建分类模型的特征提取层构建面试回答文本的语义向量，分类模型是通过若干样本回答文本和为每一样本回答文本所标注的标签数据进行训练获得的，标签数据指示了根据样本回答文本为面试者所标注在设定能力项上的评分等级。全连接模块750，配置为通过分类模型的每一全连接层分别根据语义向量进行全连接，对应获得特征向量，在全连接层上所获得的特征向量配置为表征样本回答文本在全连接层所对应设定能力项上的特征，分类模型包括至少两个全连接层，每一全连接层对应一设定能力项。分类预测模块770，配置为对在每一全连接层所获得的特征向量进行分类预测，分别获得面试者在各设定能力项上的评分等级。

上述装置中各个模块的功能和作用的实现过程具体详见上述面试回答文本的分类方法中对应步骤的实现过程，在此不再赘述。

可以理解，这些模块可以通过硬件、软件、或二者结合来实现。当以硬件方式实现时，这些模块可以实施为一个或多个硬件模块，例如一个或多个专用集成电路。当以软件方式实现时，这些模块可以实施为在一个或多个处理器上执行的一个或多个计算机程序，例如图1的处理器270所执行的存储在存储器250中的程序。

在一实施例中，获取模块710包括：采集单元，配置为采集面试者在面试过程中针对面试提问的回复语音。语音识别单元，配置为对回复语音进行语音识别，获得回复语音所对应的面试回答文本。

在一实施例中，语义向量构建模块730包括：分词单元，配置为通过分类模型的特征提取层对面试回答文本进行分词，获得由若干词所构成的词序列。语义向量构建单元，配置为通过特征提取层根据词词序列中各词所对应的编码以及各词所对应的语义权重构建得到面试回答文本的语义向量。

在一实施例中，分类模型是通过text-CNN神经网络所构建的，该分类装置还包括：文本截断长度获取模块，配置为获取为进行分词而确定的文本截断长度。截断模块，配置为根据所获取的文本截断长度对面试回答文本进行截断，将通过截断所保留的文本作为进行分词的对象。

在一实施例中，该分类装置还包括：文本截断长度确定模块，配置为根据各样本回答文本的文本长度确定文本截断长度。

在一实施例中，文本截断长度确定模块包括：文本长度获取单元，配置为获取对各样本回答文本进行分词而获得各样本回答文本的文本长度，对样本回答文本进行分词所获得词的数量作为样本回答文本的文本长度。计算单元，配置为根据每一样本回答文本的文本长度，计算得到文本长度均值和文本长度标准差。确定单元，配置为根据文本长度均值和文本长度标准差确定文本截断长度。

在一实施例中，该分类装置还包括：预构建模块，配置为按照所设定的若干能力项预构建神经网络模型，神经网络模型包括为每一设定能力项对应构建的一全连接层。训练模块，配置为通过若干样本回答文本和每一样本回答文本所对应的标签数据对神经网络模型进行训练，直至神经网络模型的损失函数收敛，收敛函数为各设定能力项上交叉熵的加权和。分类模型获得模块，配置为将损失函数收敛时的神经网络模型作为分类模型。

上述装置中各个模块/单元的功能和作用的实现过程具体详见上述面试回答文本的分类方法中对应步骤的实现过程，在此不再赘述。

可选的，本申请还提供一种电子设备，该电子设备可以执行以上方法实施例中任一所示的面试回答文本的分类方法的全部或者部分步骤。如图9所示，电子设备包括：处理器1001；及存储器1002，存储器1002上存储有计算机可读指令，计算机可读指令被处理器1001执行时实现以上方法实施中任一项的方法。其中，可执行指令被处理器1001执行时实现以上任一实施例中的方法。其中可执行指令比如是计算机可读指令，在处理器1001执行时，处理器通过与存储器之间所连接的通信线/总线1003读取存储于存储器中的计算机可读指令。

该实施例中的装置的处理器执行操作的具体方式已经在有关该面试回答文本的分类方法的实施例中进行了详细描述，此处将不做详细阐述说明。

在示例性实施例中，还提供了一种计算机非易失性可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上任一方法实施例中的方法。其中计算机非易失性可读存储介质例如包括计算机程序的存储器250，上述指令可由装置200的处理器270执行以实现上述任一实施例中的面试回答文本的分类方法。

该实施例中的处理器执行操作的具体方式已经在有关该面试回答文本的分类方法的实施例中执行了详细描述，此处将不做详细阐述说明。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

一种面试回答文本的分类方法，所述方法包括：获取面试者的面试回答文本，所述面试回答文本是根据所述面试者在面试中对面试提问的回复获得的；通过所构建分类模型的特征提取层构建所述面试回答文本的语义向量，所述分类模型是通过若干样本回答文本和为每一样本回答文本所标注的标签数据进行训练获得的，所述标签数据指示了根据所述样本回答文本为所述面试者所标注在设定能力项上的评分等级；通过所述分类模型的每一全连接层分别根据所述语义向量进行全连接，对应获得特征向量，在所述全连接层上所获得的所述特征向量用于表征所述样本回答文本在所述全连接层所对应设定能力项上的特征，所述分类模型包括至少两个全连接层，每一全连接层对应一设定能力项；对在每一全连接层所获得的特征向量进行分类预测，分别获得所述面试者在各设定能力项上的评分等级。
根据权利要求1所述的方法，其中，所述获取为面试者所采集的面试数据，包括：采集面试者在面试过程中针对所述面试提问的回复语音；对所述回复语音进行语音识别，获得所述回复语音所对应的面试回答文本。
根据权利要求1所述的方法，其中，所述通过所构建分类模型的特征提取层构建所述面试回答文本的语义向量，包括：通过所述分类模型的特征提取层对所述面试回答文本进行分词，获得由若干词所构成的词序列；通过所述特征提取层根据所述词词序列中各词所对应的编码以及各词所对应的语义权重构建得到所述面试回答文本的语义向量。
根据权利要求3所述的方法，其中，所述分类模型是通过text-CNN神经网络所构建的，所述通过所述分类模型的特征提取层对所述面试回答文本进行分词，获得由若干词所构成的词序列之前，所述方法还包括：获取为进行分词而确定的文本截断长度；根据所获取的所述文本截断长度对所述面试回答文本进行截断，将通过截断所保留的文本作为进行分词的对象。
根据权利要求4所述的方法，其中，所述获取为进行分词而确定的文本截断长度之前，所述方法还包括：根据各所述样本回答文本的文本长度确定所述文本截断长度。
根据权利要求5所述的方法，其中，所述根据各所述样本回答文本的文本长度确定所述文本截断长度，包括：获取对各所述样本回答文本进行分词而获得各样本回答文本的文本长度，对样本回答文本进行分词所获得词的数量作为所述样本回答文本的文本长度；根据每一样本回答文本的文本长度，计算得到文本长度均值和文本长度标准差；根据所述文本长度均值和所述文本长度标准差确定所述文本截断长度。
根据权利要求1-6中任一项所述的方法，其中，所述通过所构建分类模型的特征提取层构建所述面试回答文本的语义向量之前，所述方法还包括：按照所设定的若干能力项预构建神经网络模型，所述神经网络模型包括为每一设定能力项对应构建的一全连接层；通过所述若干样本回答文本和每一样本回答文本所对应的所述标签数据对所述神经网络模型进行训练，直至所述神经网络模型的损失函数收敛，所述收敛函数为各设定能力项上交叉熵的加权和；将所述损失函数收敛时的所述神经网络模型作为所述分类模型。
一种面试回答文本的分类装置，所述装置包括：获取模块，被配置为：获取为面试者的面试回答文本，所述面试回答文本是根据所述面试者在面试中对面试提问的回复获得的；语义向量构建模块，配置为通过所构建分类模型的特征提取层构建所述面试回答文本的语义向量，所述分类模型是通过若干样本回答文本和为每一样本回答文本所标注的标签数据进行训练获得的，所述标签数据指示了根据所述样本回答文本为所述面试者所标注在设定能力项上的评分等级；全连接模块，被配置为：通过所述分类模型的每一全连接层分别根据所述语义向量进行全连接，对应获得特征向量，在所述全连接层上所获得的所述特征向量配置为表征所述样本回答文本在所述全连接层所对应设定能力项上的特征，所述分类模型包括至少两个全连接层，每一全连接层对应一设定能力项；分类预测模块，被配置为：对在每一全连接层所获得的特征向量进行分类预测，分别获得所述面试者在各设定能力项上的评分等级。
根据权利要求8所述的分类装置，其中，所述获取模块，包括：采集单元，被配置为：采集面试者在面试过程中针对所述面试提问的回复语音；语音识别单元，被配置为：对所述回复语音进行语音识别，获得所述回复语音所对应的面试回答文本。
根据权利要求8所述的分类装置，其中，所述语义向量构建模块，包括：分词单元，被配置为：通过所述分类模型的特征提取层对所述面试回答文本进行分词，获得由若干词所构成的词序列；语义向量构建单元，被配置为：通过所述特征提取层根据所述词词序列中各词所对应的编码以及各词所对应的语义权重构建得到所述面试回答文本的语义向量。
根据权利要求10所述的分类装置，其中，所述分类模型是通过text-CNN神经网络所构建的，所述分类装置还包括：文本截断长度获取模块，被配置为：获取为进行分词而确定的文本截断长度；截断模块，被配置为：根据所获取的所述文本截断长度对所述面试回答文本进行截断，将通过截断所保留的文本作为进行分词的对象。
根据权利要求11所述的分类装置，其中，所述分类装置还包括：文本截断长度确定模块，被配置为：根据各所述样本回答文本的文本长度确定所述文本截断长度。
根据权利要求12所述的分类装置，其中，所述文本截断长度确定模块，包括：文本长度获取单元，被配置为：获取对各所述样本回答文本进行分词而获得各样本回答文本的文本长度，对样本回答文本进行分词所获得词的数量作为所述样本回答文本的文本长度；计算单元，被配置为：根据每一样本回答文本的文本长度，计算得到文本长度均值和文本长度标准差；确定单元，被配置为：根据所述文本长度均值和所述文本长度标准差确定所述文本截断长度。
根据权利要求8-13中任一项所述的分类装置，其中，所述分类装置还包括：预构建模块，被配置为：按照所设定的若干能力项预构建神经网络模型，所述神经网络模型包括为每一设定能力项对应构建的一全连接层；训练模块，被配置为：通过所述若干样本回答文本和每一样本回答文本所对应的所述标签数据对所述神经网络模型进行训练，直至所述神经网络模型的损失函数收敛，所述收敛函数为各设定能力项上交叉熵的加权和；分类模型获得模块，被配置为：将所述损失函数收敛时的所述神经网络模型作为所述分类模型。
一种电子设备，包括：处理器；及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如下的步骤：

获取面试者的面试回答文本，所述面试回答文本是根据所述面试者在面试中对面试提问的回复获得的；通过所构建分类模型的特征提取层构建所述面试回答文本的语义向量，所述分类模型是通过若干样本回答文本和为每一样本回答文本所标注的标签数据进行训练获得的，所述标签数据指示了根据所述样本回答文本为所述面试者所标注在设定能力项上的评分等级；通过所述分类模型的每一全连接层分别根据所述语义向量进行全连接，对应获得特征向量，在所述全连接层上所获得的所述特征向量用于表征所述样本回答文本在所述全连接层所对应设定能力项上的特征，所述分类模型包括至少两个全连接层，每一全连接层对应一设定能力项；对在每一全连接层所获得的特征向量进行分类预测，分别获得所述面试者在各设定能力项上的评分等级。
根据权利要求15所述的电子设备，其中，在所述获取为面试者所采集的面试数据的步骤中，所述处理器被配置为：

采集面试者在面试过程中针对所述面试提问的回复语音；对所述回复语音进行语音识别，获得所述回复语音所对应的面试回答文本。
根据权利要求15所述的电子设备，其中，在所述通过所构建分类模型的特征提取层构建所述面试回答文本的语义向量的步骤中，所述处理器被配置为：

通过所述分类模型的特征提取层对所述面试回答文本进行分词，获得由若干词所构成的词序列；通过所述特征提取层根据所述词词序列中各词所对应的编码以及各词所对应的语义权重构建得到所述面试回答文本的语义向量。
根据权利要求17所述的电子设备，其中，所述分类模型是通过text-CNN神经网络所构建的，在所述通过所述分类模型的特征提取层对所述面试回答文本进行分词，获得由若干词所构成的词序列的步骤之前，所述处理器还被配置为：

获取为进行分词而确定的文本截断长度；根据所获取的所述文本截断长度对所述面试回答文本进行截断，将通过截断所保留的文本作为进行分词的对象。
根据权利要求18所述的电子设备，其中，在所述获取为进行分词而确定的文本截断长度的步骤之前，所述处理器被配置为：根据各所述样本回答文本的文本长度确定所述文本截断长度。
根据权利要求19所述的电子设备，其中，在所述根据各所述样本回答文本的文本长度确定所述文本截断长度的步骤中，所述处理器被配置为：

获取对各所述样本回答文本进行分词而获得各样本回答文本的文本长度，对样本回答文本进行分词所获得词的数量作为所述样本回答文本的文本长度；根据每一样本回答文本的文本长度，计算得到文本长度均值和文本长度标准差；根据所述文本长度均值和所述文本长度标准差确定所述文本截断长度。
根据权利要求15-20中任一项所述的电子设备，其中，在所述通过所构建分类模型的特征提取层构建所述面试回答文本的语义向量的步骤之前，所述处理器还被配置为：

按照所设定的若干能力项预构建神经网络模型，所述神经网络模型包括为每一设定能力项对应构建的一全连接层；通过所述若干样本回答文本和每一样本回答文本所对应的所述标签数据对所述神经网络模型进行训练，直至所述神经网络模型的损失函数收敛，所述收敛函数为各设定能力项上交叉熵的加权和；将所述损失函数收敛时的所述神经网络模型作为所述分类模型。
一种计算机非易失性可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时实现如下的步骤：

获取面试者的面试回答文本，所述面试回答文本是根据所述面试者在面试中对面试提问的回复获得的；通过所构建分类模型的特征提取层构建所述面试回答文本的语义向量，所述分类模型是通过若干样本回答文本和为每一样本回答文本所标注的标签数据进行训练获得的，所述标签数据指示了根据所述样本回答文本为所述面试者所标注在设定能力项上的评分等级；通过所述分类模型的每一全连接层分别根据所述语义向量进行全连接，对应获得特征向量，在所述全连接层上所获得的所述特征向量用于表征所述样本回答文本在所述全连接层所对应设定能力项上的特征，所述分类模型包括至少两个全连接层，每一全连接层对应一设定能力项；对在每一全连接层所获得的特征向量进行分类预测，分别获得所述面试者在各设定能力项上的评分等级。
根据权利要求22所述的计算机非易失性可读存储介质，其中，在所述获取为面试者所采集的面试回答文本的步骤中，所述处理器被配置为：

采集面试者在面试过程中针对所述面试提问的回复语音；对所述回复语音进行语音识别，获得所述回复语音所对应的面试回答文本。
根据权利要求22所述的计算机非易失性可读存储介质，其中，在所述通过所构建分类模型的特征提取层构建所述面试回答文本的语义向量的步骤中，所述处理器被配置为：

通过所述分类模型的特征提取层对所述面试回答文本进行分词，获得由若干词所构成的词序列；通过所述特征提取层根据所述词词序列中各词所对应的编码以及各词所对应的语义权重构建得到所述面试回答文本的语义向量。
根据权利要求24所述的计算机非易失性可读存储介质，其中，所述分类模型是通过text-CNN神经网络所构建的，在所述通过所述分类模型的特征提取层对所述面试回答文本进行分词，获得由若干词所构成的词序列的步骤之前，所述处理器还被配置为：

获取为进行分词而确定的文本截断长度；根据所获取的所述文本截断长度对所述面试回答文本进行截断，将通过截断所保留的文本作为进行分词的对象。
根据权利要求25所述的计算机非易失性可读存储介质，其中，在所述获取为进行分词而确定的文本截断长度的步骤之前，所述处理器还被配置为：根据各所述样本回答文本的文本长度确定所述文本截断长度。
根据权利要求26所述的计算机非易失性可读存储介质，其中，在所述根据各所述样本回答文本的文本长度确定所述文本截断长度的步骤中，所述处理器被配置为：

获取对各所述样本回答文本进行分词而获得各样本回答文本的文本长度，对样本回答文本进行分词所获得词的数量作为所述样本回答文本的文本长度；根据每一样本回答文本的文本长度，计算得到文本长度均值和文本长度标准差；根据所述文本长度均值和所述文本长度标准差确定所述文本截断长度。
根据权利要求22-27中任一项所述的计算机非易失性可读存储介质，其中，在所述通过所构建分类模型的特征提取层构建所述面试回答文本的语义向量的步骤之前，所述处理器被配置为：

按照所设定的若干能力项预构建神经网络模型，所述神经网络模型包括为每一设定能力项对应构建的一全连接层；通过所述若干样本回答文本和每一样本回答文本所对应的所述标签数据对所述神经网络模型进行训练，直至所述神经网络模型的损失函数收敛，所述收敛函数为各设定能力项上交叉熵的加权和；将所述损失函数收敛时的所述神经网络模型作为所述分类模型。