WO2021169423A1

WO2021169423A1 - 客服录音的质检方法、装置、设备及存储介质

Info

Publication number: WO2021169423A1
Application number: PCT/CN2020/129256
Authority: WO
Inventors: 黄研洲; 张超; 杨海军; 徐倩; 杨强
Original assignee: 深圳前海微众银行股份有限公司
Priority date: 2020-02-26
Filing date: 2020-11-17
Publication date: 2021-09-02
Also published as: CN111368130A

Abstract

本申请公开了一种客服录音的质检方法、装置、设备及存储介质，该方法包括：获取客服录音文本，挖掘所述客服录音文本的片段；计算所述片段的分数，并基于所述分数筛选出候选片段；将所述候选片段及其分数输入质检模型，并根据所述质检模型输出的预测结果确定客服录音的质检结果。

Description

客服录音的质检方法、装置、设备及存储介质

优先权信息

本申请要求于2020年2月26日申请的、申请号为202010123365.9、名称为“客服录音的质检方法、装置、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种客服录音的质检方法、装置、设备及存储介质。

背景技术

随着计算机技术的发展，越来越多的技术(大数据、分布式、区块链Blockchain、人工智能等)应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，但由于金融行业的安全性、实时性要求，也对技术提出了更高的要求。

目前，对于包括客服和客户的质检录音中，若录入方式是单通道，则无法从物理上区分说话角色，进而需要对所有的录音都进行质检，或者先对待质检录音文本进行角色标注，再根据角色标注结果进行选择性质检，因而在客服录音的质检工作量大，耗时费力。

发明内容

本申请提供一种客服录音的质检方法、装置、设备及存储介质，旨在减轻客服录音质检的工作量，提高质检效率。

为实现上述目的，本申请提供一种客服录音的质检方法，所述方法包括：

获取客服录音文本，挖掘所述客服录音文本的片段；

计算所述片段的分数，并基于所述分数筛选出候选片段；

将所述候选片段及其分数输入质检模型，并根据所述质检模型输出的预测结果确定客服录音的质检结果。

在一实施例中，所述计算所述片段的分数，并基于所述分数筛选出候选片段的步骤包括：

获取所述片段和质检项的相似度，基于所述相似度计算所述片段属于各个质检项的分数；

若所述分数大于或等于分数阈值，则将对应的片段筛选为候选片段。

在一实施例中，所述将所述候选片段及其分数输入质检模型，并根据所述质检模型输出的预测结果确定客服录音的质检结果的步骤之前还包括：

根据质检例句及其对应的质检标签进行训练获得质检模型；

根据损失函数判断所述质检模型是否收敛；

若所述初始模型处于收敛状态，则停止训练，获得所述质检模型。

在一实施例中，所述挖掘所述客服录音文本的片段的步骤包括：

获取所述客服录音文本的关键词，并基于所述关机词获得关键词集合；

根据词图和所述关键词集合确定所述片段，所述词图根据所述质检项标准例句构造。

在一实施例中，所述获取所述客服录音文本的关键词，并基于所述关键词获得关键词集合的步骤包括：

对所述客服录音文本进行分词和词性标注，并基于词性标注结果进行过滤，获得候选关键词；

从所述候选关键词中依次选择一个候选关键词，构建各个所述候选关键词的关键词图，所述关键词图包括由被选中的所述候选关键词与该词后面的四个候选关键词分别组成的四条边；

根据预设公式，迭代传播所述关键词图各节点的权重，直至收敛；

根据迭代结果中的权值对所述候选关键词进行排序，根据排序结果选择候选关键词，并将所述候选关键词及其对应的权重保存为所述关键词集合。

在一实施例中，所述根据所述质检模型输出的预测结果确定客服录音的质检结果的步骤包括：

对所述预测结果进行筛选，获得概率大于或等于概率阈值的目标预测标签；

将所述目标预测标签与所述质检项进行比较，判断所述客服录音是否符合要求；

若所述目标预测标签包括所有的所述质检项，则判定所述客服录音符合要求，将质检结果确定为合格；

若所述目标预测标签不包括所有的所述质检项，则判定所述客服录音文本不符合要求，将质检结果确定为不合格。

在一实施例中，所述获取客服录音文本，挖掘所述客服录音文本的片段的步骤之前还包括：

设置一个或多个质检项，并为所述质检项设置若干个质检项标准例句。

为实现上述目的，本申请还提供一种客服录音的质检装置，所述客服录音的质检装置包括：

挖掘模块，用于获取客服录音文本，挖掘所述客服录音文本的片段；

筛选模块，用于计算所述片段的分数，并基于所述分数筛选出候选片段；

质检模块，用于将所述候选片段及其分数输入质检模型，并根据所述质检模型输出的预测结果确定客服录音的质检结果。

为实现上述目的，本申请还提供一种客服录音的质检设备，所述客服录音的质检设备包括处理器，存储器以及存储在所述存储器中的客服录音的质检程序，所述客服录音的质检程序被所述处理器运行时，实现如上所述的客服录音的质检方法的步骤。

为实现上述目的，本申请还提供一种计算机存储介质，所述计算机存储介质上存储有客服录音的质检程序，所述客服录音的质检程序被处理器运行时实现如上所述客服录音的质检方法的步骤。

相比现有技术，本申请提供一种客服录音的质检方法、装置、设备及存储介质，获取客服录音文本，挖掘所述客服录音文本的片段；计算所述片段的分数，并基于所述分数筛选出候选片段；将所述候选片段及其分数输入质检模型，并根据所述质检模型输出的预测结果确定客服录音的质检结果。由此，从客服录音中挖掘片段，并只对筛选出来的候选片段进行质检，减轻了客服录音质检的工作量，提高了质检效率。

附图说明

图1是本申请各实施例涉及的客服录音的质检设备的硬件结构示意图；

图2是本申请客服录音的质检方法第一实施例的流程示意图；

图3是本申请客服录音的质检方法第二实施例的流程示意图；

图4是本申请客服录音的质检方法第二实施例的流程示意图；

图5是本申请客服录音的质检装置第一实施例的功能模块示意图。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例主要涉及的客服录音的质检设备是指能够实现网络连接的网络连接设备，所述客服录音的质检设备可以是服务器、云平台等。

参照图1，图1是本申请各实施例涉及的客服录音的质检设备的硬件结构示意图。本申请实施例中，客服录音的质检设备可以包括处理器1001(例如中央处理器Central Processing Unit、CPU)，通信总线1002，输入端口1003，输出端口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信；输入端口1003用于数据输入；输出端口1004用于数据输出，存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器，存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解，图1中示出的硬件结构并不构成对本申请的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

继续参照图1，图1中作为一种可读存储介质的存储器1005可以包括操作系统、网络通信模块、应用程序模块以及客服录音的质检程序。在图1中，网络通信模块主要用于连接服务器，与服务器进行数据通信；而处理器1001可以调用存储器1005中存储的客服录音的质检程序，并执行本申请实施例提供的客服录音的质检方法。

本申请实施例提供了一种客服录音的质检方法。

参照图2，图2是本申请客服录音的质检方法第一实施例的流程示意图。

本实施例中，所述客服录音的质检方法应用于客服录音的质检设备，所述方法包括：

步骤S101，获取客服录音文本，挖掘所述客服录音文本的片段；

本实施例中，可以通过预设文本输入接口获取待质检的客服录音文本。所述客服录音文本可以是无角色标记的，所述客服录音文本也可以是没有分句的。所述客服录音文本的格式可以是txt,doc,xls,pdf等。

本实施例中，利用textrank算法挖掘关键词。textrank算法是一种用于挖掘文本关键词的算法，可基于关键词图实现。一般地，如果一个词出现在很多词的后面，则说明该词比较重要；如果一个词跟在textrank值很高的词后面，则这个词的textrank值也会比较高。

所述挖掘所述客服录音文本的片段的步骤包括：

步骤S101-1，获取所述客服录音文本的关键词，并基于所述关键词获得关键词集合；

扫描所述客服录音文本，利用自然语言技术挖掘所述客服录音文本的关键词，获得一个或多个关键词。

具体地，所述获取所述客服录音文本的关键词，并基于所述关键词获得关键词集合的步骤包括：

步骤a，对所述客服录音文本进行分词和词性标注，并基于词性标注结果进行过滤，获得候选关键词；

本实施例中，分词主要指中文分词，指的是将一个汉字序列切分成一个一个单独的词，是将连续的字序列按照一定的规范重新组合成词序列的过程。一般地，有基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。其中，所述基于字符串匹配的分词方法又包括正向最大匹配、逆向最大匹配、双向最大匹配、N-gram(汉语语言模型)双向最大匹配等。其中，正向最大匹配是指从左到右将所述客服录音文本中的最多个连续字符与词表匹配，如果匹配上，则切分出一个词；所述逆向最大匹配是指从右到左将所述客服录音文本中的最多个连续字符与词表匹配，如果匹配上，则切分出一个词；所述双向最大匹配包括正向最大匹配算法和逆向最大匹配算法.如果两个算法得到相同的分词结果，则判定切分成功，否则，则判定出现了歧义现象或者是未登录词问题；所述N-gram双向最大匹配基于字符串的分词方法中的正向最大匹配算法和逆向最大匹配算法，然后对两个方向匹配得出的序列结果中不同的部分运用Bi-gram计算得出较大概率的部分，最后拼接得到最佳词序列。

对所述客服录音文本分词后可以基于字符串匹配的字典查找算法进行词性标注。具体地，从字典中查找每个词语的词性，根据查找到的词性进行对应标注。

标注词性后，再基于词性标注结果对所述客服录音文本进行过滤，例如将指定词性的词过滤掉；也可以过滤掉出现在停用词表中的词，所述停用词表预先设置；还可以根据词的长度，将长度小于预设值的词过滤，例如，所述预设值可以是3。将过滤后剩余的词标记为候选关键词。

步骤b，从所述候选关键词中依次选择一个候选关键词，构建各个所述候选关键词的关键词图，所述关键词图包括由被选中的所述候选关键词与该词后面的四个候选关键词分别组成的四条边；

分别以每个所述候选关键词为中心，构建各个所述候选关键词的关键词图。

具体地，首先选定一个候选关键词，将所述候选关键词用A表示，将候选关键词A标记为目标候选关键词；

以所述目标候选关键词为中心，获取紧跟所述目标候选关键词后面的四个候选关键词，假设所述候选关键词A后面的四个候选关键词分别为B,C,D,E；

将所述候选关键词与所述候选关键词后面的四个候选关键词分别组成所述关键词图的四条边，所述关键词图包括关键词组成的四条边及其对应的权重。

所述关键词图是由被选中的所述候选关键词与该词后面的四个候选关键词分别组成的四条边构成，这四条边分别为(A,B)、(A,C)、(A,D)、(A,E)。并且每条边的初始权值为1，当这条边在之后再次或多次出现时，则在所述初始权值的基础上，每出现一次加1，最后将加和结果作为权值

每次选择一个候选关键词，构建该候选关键词的关键词图。依次选择候选关键词，直到为所有的候选关键词都构建了对应的关键词图。

例如，“您”“的”“身份证号”“后”“四位”“是”“多少”，在这句话中，若选择“身份证号”作为候选关键词，则对应的四条边则分别是 (身份证号，后)、(身份证号，四位)、(身份证号，是)、(身份证号，多少)。

步骤c，根据预设公式，迭代传播所述关键词图各节点的权重，直至收敛；

本实施例中，所述预设公式为：

其中

S表示权重，d表示阻尼系数，ε表示候选关键词集合，i表示所述目标候选关键词，j表示i前面的各个候选关键词，w表示i、j间的重要程度，out(vj)是候选关键词的个数。所述阻尼系数d的取值可以是0.85。

由此，i的权重取决于i与在i前面的各个点j组成的(j,i)这条边的权重，以及j到其它各条边的权重之和。

步骤d，根据迭代结果中的权重对所述候选关键词进行排序，根据排序结果选择候选关键词，并将所述候选关键词及其对应的权重保存为为所述关键词集合。

本实施例中，可以根据所述权重对所述关键词进行倒序排序，根据排序结果选择排序靠前的若干个候选关键词，所述候选关键词的个数可以根据实际情况选择。最后将所述若干个候选关键词及其对应的权重保存为所述关键词集合，由此，获得所述关键词集合。

步骤S101-2，根据词图和所述关键词集合确定所述片段，所述词图根据所述质检项标准例句构造。并且所述词图定义了词到词之间的转移矩阵。例如，对于“您”“的”“身份证号”“后”“四位”“是”“多少”，可以将“身份证号”转移至“的”前面。

获得关键词后，再基于词图确定所述片段。本实施例中，词图是基于质检项标准例句构造。

由此，仅对客服录音文本进行处理就可以获得片段，并且对所述客服录音文本没有断句的要求，因而不会由于说话人的停顿中断导致误判，能提高质检准确率。例如，在汽车金融贷款场景中，“客服：您的工作单位地址在哪里；客户：在广东深圳市南山区”。由于不知道说话人的角色，质检模型需要对这两句话都进行质检(客户说的话不应该列入质检范围)，影响了质检效率。还会由于说话人停顿，对于客服录音：“客服：您的工作单位地址在哪里”，则可能会被语音识别系统识别为“您的工作单位”，“地址在哪里”两句。此时质检模型容易把“您的工作单位”混淆为质检项“客户工作单位核实”，造成错误。

步骤S102，计算所述片段的分数，并基于所述分数筛选出候选片段；

所述分数是筛选候选片段的标准。可以理解地，分数可以是百分制、十分制等。

具体地，所述根据预设函数计算所述片段的分数，并基于所述分数筛选出候选片段的步骤包括：

步骤S102a，获取所述片段和质检项的相似度，基于所述相似度计算所述片段属于各个质检项的分数；

本实施例中，将函数定义为Score(Span,Si,Li,Di,Zi)其中Score表示分数，Span表示片段，Si表示关键词集合，Li表示词图，Di表示客服录音文本，Zi表示质检项。

根据所述片段Span与所述质检项Zi之间的相似度计算所述片段属于各个质检项的分数，相似度越高，则分数也越高。可以将所述分数的区间设置为0-100。

步骤S102b，若所述分数大于或等于分数阈值，则将对应的片段筛选为候选片段。

所述分数阈值可以为80、70、60等。若所述分数大于或等于分数阈值，则将对应的片段筛选为候选片段。

反之，若所述分数小于所述分数阈值，则忽略该分数对应的片段。

步骤S103，将所述候选片段及其分数输入质检模型，并根据所述质检模型输出的预测结果确定客服录音的质检结果。

具体地，所述根据所述质检模型输出的预测结果确定客服录音的质检结果的步骤包括：

步骤S103a:对所述预测结果进行筛选，获得概率大于或等于概率阈值的目标预测标签；

获取随时质检模型输出的预测标签，所述预测标签包括预测结果及其概率。基于概率对所述预测结果进行筛选，将所述预测结果分成两个部分：一是概率大于或等于概率阈值的第一预测结果；二是概率小于概率阈值的第二预测结果。本实施例中，为了获得准确的质检结果，将概率大于或等于概率阈值的所述第一预测结果标记为所述目标预测结果，并获取所述目标预测结果对应的目标预测标签。

步骤S103b:将所述目标预测标签与所述质检项进行比较，判断所述客服录音是否符合要求；

本实施例中，所述目标预测标签与质检项对应。比较所述目标预测标签的数量是否与所述质检项的数量一致；

若所述目标预测标签的数量与所述质检项的数量一致，则进一步比较各个目标预测标签与所述质检项的内容是否完全相同；若所述各个预测标签与所述质检项的内容完全相同，则判定所述目标预测标签包括所有的所述质检项。

若所述目标预测标签的数量小于所述质检项的数量，则直接判定所述目标预测标签不包括所有的所述质检项。

可以理解地，若存在相同的预测标签，则预先合并所有相同的目标预测标签。

步骤S103c:若所述目标预测标签包括所有的所述质检项，则判定所述客服录音符合要求，将质检结果确定为合格；

例如，在贷款风险评估中，设置了十个质检项。若所述目标预测标签包括这十个质检项，则判定所述客服录音符合要求，将质检结果确定为合格；若所述目标预测标签没有完全包括这十个质检项，则判定所述客服录音不符合要求，将质检结果确定为不合格。

本实施例通过上述方案，获取客服录音文本，挖掘所述客服录音文本的片段；计算所述片段的分数，并基于所述分数筛选出候选片段；将所述候选片段及其分数输入质检模型，并根据所述质检模型输出的预测结果确定客服录音的质检结果。由此，从客服录音中挖掘片段，并只对筛选出来的候选片段进行质检，减轻了客服录音质检的工作量，提高了质检效率。

基于上述图2所述的第一实施例，提出本申请的第二实施例，如图3所示，图3是本申请客服录音的质检方法第二实施例的流程示意图

进一步地，所述步骤S101：获取客服录音文本，挖掘所述客服录音文本的片段的步骤之前还包括：

步骤S100：设置一个或多个质检项，并为所述质检项设置若干个质检项标准例句。

所述质检项根据质检要求进行设置。例如对于贷款风险评估，则质检项可以为“是否为本人、是否有还款能力、是否有还款意愿”等。

进一步地，再根据所述质检项设置对应的若干个质检项标准例句。所述质检项标准例句是针对该质检项的一个或多个相关的标准句子。例如对于是否为本人，则其质检项标准例句可以为“您的姓名是什么”、“您的联系电话是多少”、“您的工作单位是什么”、“您的身份证号码是什么”。再例如，对于质检项“客户工作单位地址核实”，则可以将对应的标准例句设置为“您的工作单位地址在哪里”、“您现在在哪里工作”等。

本实施例通过上述方案，设置一个或多个质检项，并为所述质检项设置若干个质检项标准例句；获取客服录音文本，挖掘所述客服录音文本的片段；计算所述片段的分数，并基于所述分数筛选出候选片段；将所述候选片段及其分数输入质检模型，并根据所述质检模型输出的预测结果确定客服录音的质检结果。由此，从客服录音中挖掘片段，并只对筛选出来的候选片段进行质检，并且，设置所述质检项可以有针对性地客服录音进行质检，减轻了客服录音质检的工作量，提高了质检效率。

基于上述图1、图2所述的第一实施例和第二实施例，提出本申请的第三实施例，如图4所示，图4是本申请客服录音的质检方法第三实施例的流程示意图

所述将所述候选片段及其分数输入质检模型，并根据所述质检模型输出的预测结果确定客服录音的质检结果的步骤之前还包括：

步骤S1031，根据质检例句及其对应的质检标签进行训练获得质检模型；

所述质检模型包括词嵌入层的表示和多层神经网络的表示。

本实施例基于多层感知机(MLP，Multilayer Perceptron)构建所述质检模型，多层感知机层与层之间是全连接的。多层感知机的最底层是输入层，中间是隐藏层，最后是输出层。词嵌入是使用密集向量表示来表示单词和文档的一类方法。这是对传统的袋型(bag-of-word)模型编码方案的改进，其中使用大的稀疏向量来表示每个单词或向量中的每个单词进行数字分配以表示整个词汇表。这些表示是稀疏的，因为词汇是广泛的，这样一个给定的单词或文档将由一个主要由零值组成的向量几何表示。本实施例中，可以通过Word2Vec神经网络或GloVe神经网络来进行词嵌入。

对于所述质检模型，所述词嵌入层和所述多层神经网络的初始参数是随机的，或者根据经验确定所述初始参数。因此需要对所述质检模型进行训练，具体地训练过程如下：

收集整理大量的质检例句，并标注所述质检例句的质检标签，将所述质检标签分别标记为质检例句X1、质检例句X2……质检例句Xn，将与所述质检例句对应的质检标签分别表示为质检标签Y1、质检标签Y2……质检标签Yn。将所述质检例句输基于词嵌入层和多层神经网络构建的所述质检模型，所述质检模型中的所述词嵌入层和所述多层神经网络根据初始参数对所述质检例句进行处理后输出预测标签Z。获得所述预测标签Z后，基于所述预测标签Z与所述质检标签计算交叉熵损失函数。本实施例中，基于mini-batch计算所述交叉熵损失函数。根据所述交叉熵损失函数计算所述初始模型中各个参数对应的梯度，根据各个参数的梯度来对应更新各个参数，也即调整所述质检模型中所述词嵌入层和所述多层神经网络的各个参数。此处，根据交叉熵损失函数更新数的过程与现有的模型参数更新过程类似，在此不做详细赘述。

步骤S1032，根据损失函数判断所述质检模型是否收敛；

判断所述交叉熵损失函数是否收敛，若所述交叉熵损失函数收敛，则判定对应的所述质检模型收敛。

步骤S1033，若所述质检模型处于收敛状态，则停止训练，保存模型参数，获得所述质检模型。

若所述初始模型处于收敛状态，则停止训练，将最后一次训练的参数保存为最终的模型参数，基于所述最终的模型参数获得所述质检模型。

反之，若所述质检模型未达到收敛状态，则继续训练：不断地进行迭代更新，直到收敛。最终获得所述质检模型。

本实施例中，所述质检模型是一个分类器，输出的预测结果是预测标签及其概率。所述预测标签与所述质检项对应。可以理解地，在实际运行过程中，会出现不符合任何一个质检项的情况，因此所述预测标签还包括“其他”。

本实施例通过上述方案，根据质检例句及其对应的质检标签进行训练获得质检模型；根据损失函数判断所述质检模型是否收敛；若所述质检模型处于收敛状态，则停止训练，保存模型参数，获得所述质检模型。由此，根据质检例句训练质检模型，提高了质检模型的针对性，能提高客服录音质检的效果和准确性。

此外，本实施例还提供一种客服录音的质检装置。参照图5，图5为本申请客服录音的质检装置第一实施例的功能模块示意图。

本实施例中，所述客服录音的质检装置为虚拟装置，存储于图1所示的客服录音的质检设备的存储器1005中，以实现客服录音的质检程序的所有功能：用于获取客服录音文本，挖掘所述客服录音文本的片段；用于计算所述片段的分数，并基于所述分数筛选出候选片段；用于将所述候选片段及其分数输入质检模型，并根据所述质检模型输出的预测结果确定客服录音的质检结果。

具体地，所述客服录音的质检装置包括：

进一步地，所述筛选模块包括：

获取单元，用于获取所述片段和质检项的相似度，基于所述相似度计算所述片段属于各个质检项的分数；

第一筛选单元，用于若所述分数大于或等于分数阈值，则将对应的片段筛选为候选片段。

进一步地，所述质检模块还包括：

训练单元，用于根据质检例句及其对应的质检标签进行训练获得质检模型；

判断单元，用于根据损失函数判断所述质检模型是否收敛；

获得单元，用于若所述质检模型处于收敛状态，则停止训练，保存模型参数，获得所述质检模型。

进一步地，所述挖掘模块还包括：

挖掘单元，用于获取所述客服录音文本的关键词，并基于所述关机词获得关键词集合；

确定单元，用于根据词图和所述关键词集合确定所述片段，所述词图根据所述质检项标准例句构造。

进一步地，所述挖掘单元还包括：

标注子单元，用于对所述客服录音文本进行分词和词性标注，并基于词性标注结果进行过滤，获得候选关键词；

第一选择子单元，用于从所述候选关键词中依次选择一个候选关键词，构建各个所述候选关键词的关键词图，所述关键词图包括由被选中的所述候选关键词与该词后面的四个候选关键词分别组成的四条边；

迭代子单元，用于根据预设公式，迭代传播所述关键词图各节点的权重，直至收敛；

第二选择子单元，用于根据迭代结果中的权值对所述候选关键词进行排序，根据排序结果选择候选关键词，并将所述候选关键词及其对应的权重保存为所述关键词集合。

进一地，所述质检模块还包括：

第二筛选单元，用于对所述预测结果进行筛选，获得概率大于或等于概率阈值的目标预测标签；

比较单元，用于将所述目标预测标签与所述质检项进行比较，判断所述客服录音是否符合要求；

第一判定单元，用于若所述目标预测标签包括所有的所述质检项，则判定所述客服录音符合要求，将质检结果确定为合格；

第二判定单元，用于若所述目标预测标签不包括所有的所述质检项，则判定所述客服录音文本不符合要求，将质检结果确定为不合格。

进一步地，所述挖掘模块还包括：

设置单元，用于设置一个或多个质检项，并为所述质检项设置若干个质检项标准例句。

此外，本申请实施例还提供一种计算机存储介质，所述计算机存储介质上存储有客服录音的质检程序，所述客服录音的质检程序被处理器运行时实现如上所述客服录音的质检方法的步骤，此次不再赘述。

相比现有技术，本申请提出的一种客服录音的质检方法、装置、设备及存储介质，该方法包括：获取客服录音文本，挖掘所述客服录音文本的片段；计算所述片段的分数，并基于所述分数筛选出候选片段；将所述候选片段及其分数输入质检模型，并根据所述质检模型输出的预测结果确定客服录音的质检结果。由此，从客服录音中挖掘片段，并只对筛选出来的候选片段进行质检，减轻了客服录音质检的工作量，提高了质检效率。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备执行本申请各个实施例所述的方法。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或流程变换，或直接或间接运用在其它相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

一种客服录音的质检方法，其中，所述方法包括：

获取客服录音文本，挖掘所述客服录音文本的片段；

计算所述片段的分数，并基于所述分数筛选出候选片段；

将所述候选片段及其分数输入质检模型，并根据所述质检模型输出的预测结果确定客服录音的质检结果。
根据权利要求1所述的客服录音的质检方法，其中，所述计算所述片段的分数，并基于所述分数筛选出候选片段的步骤包括：

获取所述片段和质检项的相似度，基于所述相似度计算所述片段属于各个质检项的分数；

若所述分数大于或等于分数阈值，则将对应的片段筛选为候选片段。
根据权利要求1所述的客服录音的质检方法，其中，所述将所述候选片段及其分数输入质检模型，并根据所述质检模型输出的预测结果确定客服录音的质检结果的步骤之前还包括：

根据质检例句及其对应的质检标签进行训练获得质检模型；

根据损失函数判断所述质检模型是否收敛；

若所述质检模型处于收敛状态，则停止训练，保存模型参数，获得所述质检模型。
根据权利要求1所述的客服录音的质检方法，其中，所述挖掘所述客服录音文本的片段的步骤包括：

获取所述客服录音文本的关键词，并基于所述关键词获得关键词集合；

根据词图和所述关键词集合确定所述片段，所述词图根据所述质检项标准例句构造。
根据权利要求4所述的客服录音的质检方法，其中，所述获取所述客服录音文本的关键词，并基于所述关键词获得关键词集合的步骤包括：

对所述客服录音文本进行分词和词性标注，并基于词性标注结果进行过滤，获得候选关键词；

从所述候选关键词中依次选择一个候选关键词，构建各个所述候选关键词的关键词图，所述关键词图包括由被选中的所述候选关键词与该词后面的四个候选关键词分别组成的四条边；

根据预设公式，迭代传播所述关键词图各节点的权重，直至收敛；

根据迭代结果中的权值对所述候选关键词进行排序，根据排序结果选择候选关键词，并将所述候选关键词及其对应的权重保存为所述关键词集合。
根据权利要求1所述的客服录音的质检方法，其中，所述根据所述质检模型输出的预测结果确定客服录音的质检结果的步骤包括：

对所述预测结果进行筛选，获得概率大于或等于概率阈值的目标预测标签；

将所述目标预测标签与所述质检项进行比较，判断所述客服录音是否符合要求；

若所述目标预测标签包括所有的所述质检项，则判定所述客服录音符合要求，将质检结果确定为合格；

若所述目标预测标签不包括所有的所述质检项，则判定所述客服录音文本不符合要求，将质检结果确定为不合格。
根据权利要求1所述的客服录音的质检方法，其中，所述获取客服录音文本，挖掘所述客服录音文本的片段的步骤之前还包括：

设置一个或多个质检项，并为所述质检项设置若干个质检项标准例句。
一种客服录音的质检装置，其中，所述客服录音的质检装置包括：

挖掘模块，用于获取客服录音文本，挖掘所述客服录音文本的片段；

筛选模块，用于计算所述片段的分数，并基于所述分数筛选出候选片段；

质检模块，用于将所述候选片段及其分数输入质检模型，并根据所述质检模型输出的预测结果确定客服录音的质检结果。
一种客服录音的质检设备，其中，所述客服录音的质检设备包括处理器，存储器以及存储在所述存储器中的客服录音的质检程序，所述客服录音的质检程序被所述处理器运行时，实现如下步骤：

获取客服录音文本，挖掘所述客服录音文本的片段；

计算所述片段的分数，并基于所述分数筛选出候选片段；

将所述候选片段及其分数输入质检模型，并根据所述质检模型输出的预测结果确定客服录音的质检结果。
根据权利要求9所述的客服录音的质检设备，其中，所述计算所述片段的分数，并基于所述分数筛选出候选片段的步骤包括：

获取所述片段和质检项的相似度，基于所述相似度计算所述片段属于各个质检项的分数；

若所述分数大于或等于分数阈值，则将对应的片段筛选为候选片段。
根据权利要求9所述的客服录音的质检设备，其中，所述将所述候选片段及其分数输入质检模型，并根据所述质检模型输出的预测结果确定客服录音的质检结果的步骤之前还包括：

根据质检例句及其对应的质检标签进行训练获得质检模型；

根据损失函数判断所述质检模型是否收敛；

若所述质检模型处于收敛状态，则停止训练，保存模型参数，获得所述质检模型。
根据权利要求9所述的客服录音的质检设备，其中，所述挖掘所述客服录音文本的片段的步骤包括：

获取所述客服录音文本的关键词，并基于所述关键词获得关键词集合；

根据词图和所述关键词集合确定所述片段，所述词图根据所述质检项标准例句构造。
根据权利要求12所述的客服录音的质检设备，其中，所述获取所述客服录音文本的关键词，并基于所述关键词获得关键词集合的步骤包括：

对所述客服录音文本进行分词和词性标注，并基于词性标注结果进行过滤，获得候选关键词；

从所述候选关键词中依次选择一个候选关键词，构建各个所述候选关键词的关键词图，所述关键词图包括由被选中的所述候选关键词与该词后面的四个候选关键词分别组成的四条边；

根据预设公式，迭代传播所述关键词图各节点的权重，直至收敛；

根据迭代结果中的权值对所述候选关键词进行排序，根据排序结果选择候选关键词，并将所述候选关键词及其对应的权重保存为所述关键词集合。
根据权利要求9所述的客服录音的质检设备，其中，所述根据所述质检模型输出的预测结果确定客服录音的质检结果的步骤包括：

对所述预测结果进行筛选，获得概率大于或等于概率阈值的目标预测标签；

将所述目标预测标签与所述质检项进行比较，判断所述客服录音是否符合要求；

若所述目标预测标签包括所有的所述质检项，则判定所述客服录音符合要求，将质检结果确定为合格；

若所述目标预测标签不包括所有的所述质检项，则判定所述客服录音文本不符合要求，将质检结果确定为不合格。
根据权利要求9所述的客服录音的质检设备，其中，所述获取客服录音文本，挖掘所述客服录音文本的片段的步骤之前还包括：

设置一个或多个质检项，并为所述质检项设置若干个质检项标准例句。
一种计算机存储介质，其中，所述计算机存储介质上存储有客服录音的质检程序，所述客服录音的质检程序被处理器运行时实现如下步骤：

获取客服录音文本，挖掘所述客服录音文本的片段；

计算所述片段的分数，并基于所述分数筛选出候选片段；

将所述候选片段及其分数输入质检模型，并根据所述质检模型输出的预测结果确定客服录音的质检结果。
根据权利要求16所述的计算机存储介质，其中，所述计算所述片段的分数，并基于所述分数筛选出候选片段的步骤包括：

获取所述片段和质检项的相似度，基于所述相似度计算所述片段属于各个质检项的分数；

若所述分数大于或等于分数阈值，则将对应的片段筛选为候选片段。
根据权利要求16所述的计算机存储介质，其中，所述将所述候选片段及其分数输入质检模型，并根据所述质检模型输出的预测结果确定客服录音的质检结果的步骤之前还包括：

根据质检例句及其对应的质检标签进行训练获得质检模型；

根据损失函数判断所述质检模型是否收敛；

若所述质检模型处于收敛状态，则停止训练，保存模型参数，获得所述质检模型。
根据权利要求16所述的计算机存储介质，其中，所述挖掘所述客服录音文本的片段的步骤包括：

获取所述客服录音文本的关键词，并基于所述关键词获得关键词集合；

根据词图和所述关键词集合确定所述片段，所述词图根据所述质检项标准例句构造。
根据权利要求19所述的计算机存储介质，其中，所述获取所述客服录音文本的关键词，并基于所述关键词获得关键词集合的步骤包括：

对所述客服录音文本进行分词和词性标注，并基于词性标注结果进行过滤，获得候选关键词；

从所述候选关键词中依次选择一个候选关键词，构建各个所述候选关键词的关键词图，所述关键词图包括由被选中的所述候选关键词与该词后面的四个候选关键词分别组成的四条边；

根据预设公式，迭代传播所述关键词图各节点的权重，直至收敛；

根据迭代结果中的权值对所述候选关键词进行排序，根据排序结果选择候选关键词，并将所述候选关键词及其对应的权重保存为所述关键词集合。