WO2022116438A1

WO2022116438A1 - 客服违规质检方法、装置、计算机设备及存储介质

Info

Publication number: WO2022116438A1
Application number: PCT/CN2021/083795
Authority: WO
Inventors: 颜泽龙; 王健宗; 吴天博; 程宁
Original assignee: 平安科技（深圳）有限公司
Priority date: 2020-12-01
Filing date: 2021-03-30
Publication date: 2022-06-09
Also published as: CN112507121A; CN112507121B

Abstract

一种客服违规质检方法、装置、计算机设备及存储介质，涉及人工智能技术领域。该方法包括：通过双向RNN网络对待测客服对话文本进行编码以得到其的基本向量；将基本向量输入到第一线性分类器中，以判断待测客服对话文本是否违规；若是，将基本向量输入到第二线性分类器中以预测待测客服对话文本的违规类别作为违规类别；根据注意力机制，将待测客服对话文本与违规类别的特征向量分别进行词级别交互以及句子级别交互，以得到特征区分向量；将基本向量与特征区分向量合并得到最终向量；将最终向量输入到第三线性分类器中以预测待测客服对话文本的违规情形。

Description

客服违规质检方法、装置、计算机设备及存储介质

本申请要求于2020年12月01日提交中国专利局，申请号为202011387369.4，发明名称为“客服违规质检方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能技术领域，尤其涉及一种客服违规质检方法、装置、计算机设备及存储介质。

背景技术

质检，就是质量检测。在任何一项客服服务中，质检都必不可少。一方面，既要求客服按照要求提供服务，保证服务质量，另一方面可以检查服务是否合规。在贷款申请过程中，申请人跟客服需要进行多轮的沟通，确认申请人是否具备相应的资格和对应的额度。有时会出现违规场景，客服为了提高成单率，会引导申请人提供虚假信息，导致最终坏账。

发明人发现，传统的质检系统都是依赖人工去复查，人工处理的效率底下，面对需要质检的庞大对话数据，只能通过抽检的方式进行。同时，由于人的机能限制，很难保证所有错综复杂的质检规则都被考虑到。

发明内容

本申请实施例提供了一种客服违规质检方法、装置、计算机设备及存储介质，旨在解决现有人工质检存在的效率低准确性差的问题。

第一方面，本申请实施例提供了一种客服违规质检方法，其包括：

接收到待测客服对话文本，通过预设的双向RNN网络对所述待测客服对话文本进行编码以得到所述待测客服对话文本的基本向量；

将所述基本向量输入到预训练的第一线性分类器中，并通过所述第一线性分类器判断所述待测客服对话文本是否违规；

若所述待测客服对话文本违规，将所述基本向量输入到预训练的第二线性分类器中，并输出所述待测客服对话文本的违规类别，其中，每一违规类别至少包括一种违规情形；

根据注意力机制，将违规的待测客服对话文本与预先针对所述违规类别查找的特征向量分别进行词级别交互以及句子级别交互，以得到所述待测客服对话文本的特征区分向量，其中，各违规类别均对应设有特征向量；

将所述违规的待测客服对话文本的基本向量与所述特征区分向量合并得到最终向量；

将所述最终向量输入到预训练的第三线性分类器中，并通过所述第三线性分类器预测所述待测客服对话文本的违规情形。

第二方面，本申请实施例还提供了一种客服违规质检装置，其包括：

编码单元，用于接收到待测客服对话文本，通过预设的双向RNN网络对所述待测客服对话文本进行编码以得到所述待测客服对话文本的基本向量；

判断单元，用于将所述基本向量输入到预训练的第一线性分类器中，并通过所述第一线性分类器判断所述待测客服对话文本是否违规；

第一预测单元，用于若所述待测客服对话文本违规，将所述基本向量输入到预训练的第二线性分类器中，并输出所述待测客服对话文本的违规类别，其中，每一违规类别至少包括一种违规情形；

交互单元，用于根据注意力机制，将违规的待测客服对话文本与预先针对所述违规类别查找的特征向量分别进行词级别交互以及句子级别交互，以得到所述待测客服对话文本的特征区分向量，其中，各违规类别均对应设有特征向量；

合并单元，用于将所述违规的待测客服对话文本的基本向量与所述特征区分向量合并得到最终向量；

第二预测单元，用于将所述最终向量输入到预训练的第三线性分类器中，并通过所述第三线性分类器预测所述待测客服对话文本的违规情形。

第三方面，本申请实施例还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器用于运行所述计算机程序，以执行如下步骤：

接收待测客服对话文本，通过预设的双向RNN网络对所述待测客服对话文本进行编码以得到所述待测客服对话文本的基本向量；

若所述待测客服对话文本违规，将所述基本向量输入到预训练的第二线性分类器中，并输出所述待测客服对话文本的违规类别；

根据注意力机制，将违规的待测客服对话文本与预先针对所述违规类别查找的特征向量分别进行词级别交互以及句子级别交互，以得到所述待测客服对话文本的特征区分向量；

第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理器执行时使所述处理器执行以下步骤：

本申请实施例提供了一种客服违规质检方法、装置、计算机设备及存储介质，能够实现自动对待测客服对话文本进行质检，相比于人工质检的方式，具有效率高，且准确性高的优点。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的客服违规质检方法的流程示意图；

图2为本申请实施例提供的待测客服对话文本的基本向量的计算方法的流程示意图；

图3为本申请实施例提供的客服违规质检方法的子流程示意图；

图4为本申请实施例提供的客服违规质检方法的子流程示意图；

图5为本申请实施例提供的客服违规质检方法的子流程示意图；

图6为本申请实施例提供的客服违规质检装置的示意性框图；

图7为本申请实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本申请说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本申请。如在本申请说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

请参阅图1，图1是本申请实施例提供的客服违规质检方法的流程示意图。本申请可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通场景中，从而推动智慧城市的建设。如图所示，该方法包括以下步骤：

S1，接收到待测客服对话文本，通过预设的双向RNN网络对所述待测客服对话文本进行编码以得到所述待测客服对话文本的基本向量。

具体实施中，将客服人员与客户之间的通话录音转换为文字后，得到待测客服对话文本。

双向RNN网络(Bidirectional Recurrent Neural Networks，双向循环神经网络)是由两个RNN上下叠加在一起组成的，其输出由这两个RNN的状态共同决定。相比于RNN网络，双向RNN网络能够更加准确的提取待测客服对话文本中的特征。

参见图2，在一实施例中，以上步骤S1具体包括如下步骤：

S11，对所述待测客服对话文本进行分词处理以得到所述待测客服对话文本的分词集合。

具体实施中，分词处理指的是将一个汉字序列切分成一个一个单独的词语。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。

参见图3，在一实施例中，以上步骤S11具体包括如下步骤：

S111，通过预设分词工具将所述待测客服对话文本划分为多个词语以得到初始分词集合。

具体实施中，常用的分词工具为结巴分词工具。通过结巴分词工具将所述待测客服对话文本划分为多个词语，这些词语组成了初始分词集合。

S112，将所述初始分词集合中的停止词删除以得到所述分词集合。

具体实施中，停止词(stop word)，常为介词、副词或连词等。例如，"在"、"里面"、"也"、"的"、"它"、"为"等都为停止词。停止词没有实际含义，且会产生干扰，因此，在实际应用时，需要将停止词删除。

若初始分词集合包含停止词，则将其包含的停止词删除以得到分词集合。

S12，对所述分词集合的词语进行词向量训练以得到所述分词集合的词语的词向量。

具体实施中，采用word2vec来对对所述分词集合的词语进行词向量训练。word2vec是一种自然语言处理工具，其作用就是将自然语言中的字词转为计算机可以理解的词向量。

传统的词向量容易受维数灾难的困扰，且任意两个词之间都是孤立的，不能体现词和词之间的关系，因此本实施例采用word2vec来得到词向量，其可通过计算向量之间的距离来体现词与词之间的相似性。

或者，在其他实施例中，可采用其他词向量工具进行词向量训练，本申请对此不作具体限定。

S13，将所述分词集合的词语的词向量输入到双向RNN网络中并输出所述待测客服对话文本的基本向量。

具体实施中，双向RNN网络对所述分词集合中的词语的词向量进行编码，双向RNN网络的输出即为所述待测客服对话文本的基本向量。

S2，将所述基本向量输入到预训练的第一线性分类器中，并通过所述第一线性分类器判断所述待测客服对话文本是否违规。

具体实施中，第一线性分类器的数学表达式为

softmax是指归一化处理。W ₁表示该线性分类器的权重，b ₁表示偏置值，二者均可以通过训练获得。

可以理解地，预先通过大量经过标注的样本对第一线性分类器进行训练，使得第一线性分类器具备识别待测客服对话文本是否违规的功能。

训练结束后，将基本向量输入到第一线性分类器中，以由第一线性分类器预测是否违规，若违规，则判定待测客服对话文本违规。

S3，若所述待测客服对话文本违规，将所述基本向量输入到预训练的第二线性分类器中，并输出所述待测客服对话文本的违规类别。

具体实施中，第二线性分类器的数学表达式为

softmax是指归一化处理。W ₂表示该线性分类器的权重，b ₂表示偏置值，二者均可以通过训练获得。

可以理解地，预先通过大量经过标注的样本对第二线性分类器进行训练，使得第二线性分类器具备识别待测客服对话文本的违规类别的功能。

训练结束后，将基本向量输入到第二线性分类器中，以由第二线性分类器预测待测客服对话文本所属的违规类别。本申请中，将第二线性分类器预测待测的客服对话文本所属的违规类别作为客服对话文本的违规类别。

需要说明的是，每一违规类别至少包括一种违规情形。例如，在一实施例中，违规类别包括三种违规情形。

S4，根据注意力机制(attention)，将违规的待测客服对话文本与预先针对所述违规类别查找的特征向量分别进行词级别交互以及句子级别交互，以得到所述待测客服对话文本的特征区分向量，其中，各违规类别均对应设有特征向量。

具体实施中，对于每一个违规类别，均通过一个特征向量来表示。本申请实施例中预先确定各违规类别的特征向量。

进一步地，在本申请中预设了多个违规类别，针对每个都预设有特征向量。第二线性分类器输出的违规类别属于预设的多个类别的一种。在确定第二线性分类器输出的违规类别后，在数据库中查找与该违规类别具有映射关系的特征向量。

可以理解地，各违规类别的特征向量只需计算一次，并且该计算过程在步骤S1之前进行。

具体地，参见图4，各违规类别的特征向量的计算过程包括如下步骤：

S101，构建违规情形图，所述违规情形图的节点为各违规情形。

具体实施中，首先会根据违规情形的种类构建一个违规情形图G，违规情形图G的每个节点代表一种违规情形。假如“提供虚假信息”，“未能清楚解释贷款”是其中两项违规情形，则在违规情形图G中可以通过两个相应的节点进行表示。通过构建违规情形图，能够穷尽违规情形，且对违规情形的数量没有限定。

S102，根据所述违规情形图的各节点之间的距离将所述违规情形图划分为多个子图，其中，同一子图的节点之间的距离小于预设的距离阈值，不同子图的节点之间的距离大于预设的距离阈值，每一个子图对应一种违规类别。

具体实施中，每种违规情形都有相应的描述文本，通过这些描述文本，利用TFIDF算法，计算出所有节点两两之间的距离。给定一个合适的距离阈值，若两个节点之间的距离大于这个距离阈值，则保留这两个节点之间的边，相应的权重设置为两者之间的距离，否则，设置这两个节点之间没有直接的边连接。通过合适的距离阈值设置，可以使得违规情形图包括多个没有相互连接的子图。

例如，假设总有A、B、C、D、E以及F总共6种违规情形，其中A、B以及C三种违规情形比较接近，D、E以及F三种违规情形比较接近。

通过合适的阈值可以得到相应的违规情形图为：G＝{g1,g2}。

其中，g1＝{A,B,C}；g2＝{D,E,F}。最终得到的违规情形图G中A、B以及C之间有边相互连接，D、E以及F之间有边相互连接，但是{A,B,C}跟{D,E,F}之间没有边连接。相应地，A、B以及C属于同一种违规类别。D、E以及F属于同一种违规类别。

S103，通过预设的图神经网络计算所述违规情形图的各子图对应的违规类别的特征向量。

具体实施中，图神经网络可采用图卷积神经网络(Graph Convolutional Network,GCN)。将违规情形图输入到图神经网络中，通过图神经网络，获取违规情形图的每个节点的向量表示，每一层的某特定节点的向量表示都通过上一层该节点的向量表示和其对应的邻居节点的向量表示，以及相应的偏置值计算得到。具体的计算公式如下：

其中，

表示第l+1层节点的向量表示，N _i表示所有跟该节点有边连接的节点组成的集合，

和

均表示权重，可通过训练得到，b ^l是偏置值。

进一步地，通过池化操作，利用最大池化跟最小池化操作得到具有区分性的各个子图对应的违规类别的特征向量d _i。具体公式如下：

其中，MaP,MiP分别表示最大池化跟最小池化操作。可以理解为通过整理整个子图g _i里所有节点的信息，可以获得子图g _i对应的违规类别的特征向量d _i。

特征向量d _i可以理解为违规类别的数学表达式，便于计算机能够识别违规类别。

参见图5，在一实施例中，以上步骤S4具体包括如下步骤：

S41，通过预设的双向GRU(Bidirectional Gated RecurrentUnit)对所述待测客服对话文本的各句子进行编码，得到所述待测客服对话文本的各句子的词语的隐状态向量。

具体实施中，待测客服对话文本可通过如下数学式表达：

S＝[s ₁,s ₂,…,s _n]＝[w _1,1,w _1,2,…w _n,m]

其中，s表示待测客服对话文本，s _i表示第i个句子，w _n,m表示第n个句子的第m个词，利用双向GRU对每个子句进行编码，得到各句子的每个词对应的隐状态向量h _i,j该过程的数学表达式如下：

S42，根据各句子的词语的隐状态向量，将所述待测客服对话文本与所述违规类别的特征向量进行词级别交互以得到所述待测客服对话文本的各句子的句向量。

具体实施中，利用注意力机制进行词级别的交互，得到各句子的句向量

其具体计算方式如下：

通过以下公式

以及

计算所述待测客服对话文本的各句子的句向量。

其中，a _i,j为交互词向量，h _i,j为词语的隐状态向量，W _w为词语的隐状态向量的权重，d _o为违规类别的特征向量，W _g为违规类别的特征向量的权重，v _si为句向量。

S43，通过预设的双向GRU对所述待测客服对话文本的各句子的句向量进行编码，得到所述待测客服对话文本的各句子的隐状态向量。

具体实施中，通过双向GRU编码计算所述待测客服对话文本的各句子的隐状态向量h _i的数学表达式如下：

S44，根据各句子的隐状态向量，将所述待测客服对话文本与所述违规类别的特征向量进行句子级别交互以得到所述待测客服对话文本的特征区分向量。

具体实施中，利用注意力机制进行句子级别的交互，得到所述待测客服对话文本的特征区分向量。其具体计算方式如下：

通过以下公式

以及

计算所述待测客服对话文本的特征区分向量。

其中，a _i为交互句向量，h _i为句子的隐状态向量，W _s为句子的隐状态向量的权重，d _o为违规类别的特征向量，W _g为违规类别的特征向量的权重，

为特征区分向量。

S5，将所述违规的待测客服对话文本的基本向量与所述特征区分向量合并得到最终向量。

具体实施中，最终向量

其中，

为基本向量，

为特征区分向量。

S6，将所述最终向量输入到预训练的第三线性分类器中，并通过所述第三线性分类器预测所述待测客服对话文本的违规情形。

具体实施中，第三线性分类器的数学表达式为：

y ₃＝softmax(W ₃V _f+b ₃)

softmax是指归一化处理。W ₃表示该线性分类器的权重，b ₂表示偏置值，二者均可以通过训练获得。

可以理解地，预先通过大量经过标注的样本对第三线性分类器进行训练，使得第三线性分类器具备识别待测客服对话文本的违规情形的功能。

训练结束后，将最终向量输入到第三线性分类器中，以由第三线性分类器预测待测客服对话文本所属的违规情形。

本申请的技术方案，能够实现自动对待测客服对话文本进行质检，相比于人工质检的方式，具有效率高，且准确性高的优点。

参见图6，图6是本申请实施例提供的一种客服违规质检装置70的示意性框图。对应于以上客服违规质检方法，本申请还提供一种客服违规质检装置70。该客服违规质检装置70包括用于执行上述客服违规质检方法的单元，该客服违规质检装置70可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地，该客服违规质检装置70包括编码单元71、判断单元72、第一预测单元73、交互单元74、合并单元75以及第二预测单元76。

编码单元71，用于接收到待测客服对话文本，通过预设的双向RNN网络对所述待测客服对话文本进行编码以得到所述待测客服对话文本的基本向量；

判断单元72，用于将所述基本向量输入到预训练的第一线性分类器中，并通过所述第一线性分类器判断所述待测客服对话文本是否违规；

第一预测单元73，用于若所述待测客服对话文本违规，将所述基本向量输入到预训练的第二线性分类器中，并输出所述待测客服对话文本的违规类别，其中，每一违规类别至少包括一种违规情形；

交互单元74，用于根据注意力机制，将违规的待测客服对话文本与预先针对所述违规类别查找的特征向量分别进行词级别交互以及句子级别交互，以得到所述待测客服对话文本的特征区分向量，其中，各违规类别均对应设有特征向量；

合并单元75，用于将所述违规的待测客服对话文本的基本向量与所述特征区分向量合并得到最终向量；

第二预测单元76，用于将所述最终向量输入到预训练的第三线性分类器中，并通过所述第三线性分类器预测所述待测客服对话文本的违规情形。

在一实施例中，所述通过预设的双向RNN网络对所述待测客服对话文本进行编码以得到所述待测客服对话文本的基本向量，包括：

对所述待测客服对话文本进行分词处理以得到所述待测客服对话文本的分词集合；

对所述分词集合的词语进行词向量训练以得到所述分词集合的词语的词向量；

将所述分词集合的词语的词向量输入到双向RNN网络中并输出所述待测客服对话文本的基本向量。

在一实施例中，所述对所述待测客服对话文本进行分词处理以得到所述待测客服对话文本的分词集合，包括：

通过预设分词工具将所述待测客服对话文本划分为多个词语以得到初始分词集合；

将所述初始分词集合中的停止词删除以得到所述分词集合。

在一实施例中，所述根据注意力机制，将违规的待测客服对话文本与预先针对所述违规类别查找的特征向量分别进行词级别交互以及句子级别交互，以得到所述待测客服对话文本的特征区分向量，包括：

通过预设的双向GRU对所述待测客服对话文本的各句子进行编码，得到所述待测客服对话文本的各句子的词语的隐状态向量；

根据各句子的词语的隐状态向量，将所述待测客服对话文本与所述违规类别的特征向量进行词级别交互以得到所述待测客服对话文本的各句子的句向量；

通过预设的双向GRU对所述待测客服对话文本的各句子的句向量进行编码，得到所述待测客服对话文本的各句子的隐状态向量；

根据各句子的隐状态向量，将所述待测客服对话文本与所述违规类别的特征向量进行句子级别交互以得到所述待测客服对话文本的特征区分向量。

在一实施例中，所述根据各句子的词语的隐状态向量，将所述待测客服对话文本与所述违规类别的特征向量进行词级别交互以得到所述待测客服对话文本的各句子的句向量，包括：

通过以下公式

以及

计算所述待测客服对话文本的各句子的句向量，其中，a _i,j为交互词向量，h _i,j为词语的隐状态向量，W _w为词语的隐状态向量的权重，d _o为违规类别的特征向量，W _g为违规类别的特征向量的权重，v _si为句向量。

在一实施例中，所述根据各句子的隐状态向量，将所述待测客服对话文本与所述违规类别的特征向量进行句子级别交互以得到所述待测客服对话文本的特征区分向量，包括：

通过以下公式

以及

计算所述待测客服对话文本的特征区分向量，其中，a _i为交互句向量，h _i为句子的隐状态向量，W _s为句子的隐状态向量的权重，d _o为违规类别的特征向量，W _g为违规类别的特征向量的权重，

为特征区分向量。

在一实施例中，本申请提出的客服违规质检装置70是上述实施例的基础上增加了构建单元、划分单元以及计算单元。

构建单元，用于构建违规情形图，所述违规情形图的节点为违规情形。

划分单元，用于根据所述违规情形图的各节点之间的距离将所述违规情形图划分为多个子图，其中，同一子图的节点之间的距离小于预设的距离阈值，不同子图的节点之间的距离大于预设的距离阈值，每一个子图对应一种违规类别。

计算单元，用于通过预设的图神经网络计算所述违规情形图的各子图对应的违规类别的特征向量。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述客服违规质检装置70和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述客服违规质检装置70可以实现为一种计算机程序的形式，该计算机程序可以在如图7所示的计算机设备上运行。

请参阅图7，图7是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备 500可以是终端。其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。

该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行一种客服违规质检方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种客服违规质检方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，上述结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：

在一实施例中，所述接收到待测客服对话文本，通过预设的双向RNN网络对所述待测客服对话文本进行编码以得到所述待测客服对话文本的基本向量之前，所述处理器502还实现如下步骤：

构建违规情形图，所述违规情形图的节点为违规情形；

根据所述违规情形图的各节点之间的距离将所述违规情形图划分为多个子图，其中，同一子图的节点之间的距离小于预设的距离阈值，不同子图的节点之间的距离大于预设的距离阈值，每一个子图对应一种违规类别；

通过预设的图神经网络计算所述违规情形图的各子图对应的违规类别的特征向量。

将所述初始分词集合中的停止词删除以得到所述分词集合。

通过以下公式

以及

通过以下公式

以及

为特征区分向量。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(Central Processing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本申请还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行如下步骤：

在一实施例中，所述接收到待测客服对话文本，通过预设的双向RNN网络对所述待测客服对话文本进行编码以得到所述待测客服对话文本的基本向量之前，该计算机程序被处理器执行时使处理器还执行如下步骤：

构建违规情形图，所述违规情形图的节点为违规情形；

将所述初始分词集合中的停止词删除以得到所述分词集合。

通过以下公式

以及

通过以下公式

以及

为特征区分向量。

所述存储介质为实体的、非瞬时性的存储介质，例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。所述计算机可读存储介质可以是非易失性，也可以是易失性。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，尚且本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

一种客服违规质检方法，包括：

接收待测客服对话文本，通过预设的双向RNN网络对所述待测客服对话文本进行编码以得到所述待测客服对话文本的基本向量；

将所述基本向量输入到预训练的第一线性分类器中，并通过所述第一线性分类器判断所述待测客服对话文本是否违规；

若所述待测客服对话文本违规，将所述基本向量输入到预训练的第二线性分类器中，并输出所述待测客服对话文本的违规类别；

根据注意力机制，将违规的待测客服对话文本与预先针对所述违规类别查找的特征向量分别进行词级别交互以及句子级别交互，以得到所述待测客服对话文本的特征区分向量；

将所述违规的待测客服对话文本的基本向量与所述特征区分向量合并得到最终向量；

将所述最终向量输入到预训练的第三线性分类器中，并通过所述第三线性分类器预测所述待测客服对话文本的违规情形。
根据权利要求1所述的客服违规质检方法，其中，所述接收到待测客服对话文本，通过预设的双向RNN网络对所述待测客服对话文本进行编码以得到所述待测客服对话文本的基本向量之前，所述客服违规质检方法还包括：

构建违规情形图，所述违规情形图的节点为违规情形；

根据所述违规情形图的各节点之间的距离将所述违规情形图划分为多个子图，其中，同一子图的节点之间的距离小于预设的距离阈值，不同子图的节点之间的距离大于预设的距离阈值，每一个子图对应一种违规类别；

通过预设的图神经网络计算所述违规情形图的各子图对应的违规类别的特征向量。
根据权利要求1所述的客服违规质检方法，其中，所述通过预设的双向RNN网络对所述待测客服对话文本进行编码以得到所述待测客服对话文本的基本向量，包括：

对所述待测客服对话文本进行分词处理以得到所述待测客服对话文本的分词集合；

对所述分词集合的词语进行词向量训练以得到所述分词集合的词语的词向量；

将所述分词集合的词语的词向量输入到双向RNN网络中并输出所述待测客服对话文本的基本向量。
根据权利要求3所述的客服违规质检方法，其中，所述对所述待测客服对话文本进行分词处理以得到所述待测客服对话文本的分词集合，包括：

通过预设分词工具将所述待测客服对话文本划分为多个词语以得到初始分词集合；

将所述初始分词集合中的停止词删除以得到所述分词集合。
根据权利要求1所述的客服违规质检方法，其中，所述根据注意力机制，将违规的待测客服对话文本与预先针对所述违规类别查找的特征向量分别进行词级别交互以及句子级别交互，以得到所述待测客服对话文本的特征区分向量，包括：

通过预设的双向GRU对所述待测客服对话文本的各句子进行编码，得到所述待测客服对话文本的各句子的词语的隐状态向量；

根据各句子的词语的隐状态向量，将所述待测客服对话文本与所述违规类别的特征向量进行词级别交互以得到所述待测客服对话文本的各句子的句向量；

通过预设的双向GRU对所述待测客服对话文本的各句子的句向量进行编码，得到所述待测客服对话文本的各句子的隐状态向量；

根据各句子的隐状态向量，将所述待测客服对话文本与所述违规类别的特征向量进行句子级别交互以得到所述待测客服对话文本的特征区分向量。
根据权利要求5所述的客服违规质检方法，其中，所述根据各句子的词语的隐状态向量，将所述待测客服对话文本与所述违规类别的特征向量进行词级别交互以得到所述待测客服对话文本的各句子的句向量，包括：

通过以下公式
以及
计算所述待测客服对话文本的各句子的句向量，其中，a _i,j为交互词向量，h _i,j为词语的隐状态向量，W _w为词语的隐状态向量的权重，d _o为违规类别的特征向量，W _g为违规类别的特征向量的权重，v _si为句向量。
根据权利要求5所述的客服违规质检方法，其中，所述根据各句子的隐状态向量，将所述待测客服对话文本与所述违规类别的特征向量进行句子级别交互以得到所述待测客服对话文本的特征区分向量，包括：

通过以下公式
以及
计算所述待测客服对话文本的特征区分向量，其中，a _i为交互句向量，h _i为句子的隐状态向量，W _s为句子的隐状态向量的权重，d _o为违规类别的特征向量，W _g为违规类别的特征向量的权重，
为特征区分向量。
根据权利要求3所述的客服违规质检方法，其中，所述对所述分词集合的词语进行词向量训练以得到所述分词集合的词语的词向量，包括：

采用word2vec来对对所述分词集合的词语进行词向量训练。
根据权利要求1所述的客服违规质检方法，其中，所述将所述基本向量输入到预训练的第一线性分类器中，并通过所述第一线性分类器判断所述待测客服对话文本是否违规之前，所述方法还包括：

通过经过标注的样本对第一线性分类器进行训练。
一种客服违规质检装置，包括：

编码单元，用于接收到待测客服对话文本，通过预设的双向RNN网络对所述待测客服对话文本进行编码以得到所述待测客服对话文本的基本向量；

判断单元，用于将所述基本向量输入到预训练的第一线性分类器中，并通过所述第一线性分类器判断所述待测客服对话文本是否违规；

第一预测单元，用于若所述待测客服对话文本违规，将所述基本向量输入到预训练的第二线性分类器中，并输出所述待测客服对话文本的违规类别，其中，每一违规类别至少包括一种违规情形；

交互单元，用于根据注意力机制，将违规的待测客服对话文本与预先针对所述违规类别查找的特征向量分别进行词级别交互以及句子级别交互，以得到所述待测客服对话文本的特征区分向量；

合并单元，用于将所述违规的待测客服对话文本的基本向量与所述特征区分向量合并得到最终向量；

第二预测单元，用于将所述最终向量输入到预训练的第三线性分类器中，并通过所述第三线性分类器预测所述待测客服对话文本的违规情形。
一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器用于运行所述计算机程序，以执行如下步骤：

接收待测客服对话文本，通过预设的双向RNN网络对所述待测客服对话文本进行编码以得到所述待测客服对话文本的基本向量；

将所述基本向量输入到预训练的第一线性分类器中，并通过所述第一线性分类器判断所述待测客服对话文本是否违规；

若所述待测客服对话文本违规，将所述基本向量输入到预训练的第二线性分类器中，并输出所述待测客服对话文本的违规类别；

根据注意力机制，将违规的待测客服对话文本与预先针对所述违规类别查找的特征向量分别进行词级别交互以及句子级别交互，以得到所述待测客服对话文本的特征区分向量；

将所述违规的待测客服对话文本的基本向量与所述特征区分向量合并得到最终向量；

将所述最终向量输入到预训练的第三线性分类器中，并通过所述第三线性分类器预测所述待测客服对话文本的违规情形。
根据权利要求11所述的计算机设备，其中，所述接收到待测客服对话文本，通过预设的双向RNN网络对所述待测客服对话文本进行编码以得到所述待测客服对话文本的基本向量之前，所述处理器还执行如下步骤：

构建违规情形图，所述违规情形图的节点为违规情形；

根据所述违规情形图的各节点之间的距离将所述违规情形图划分为多个子图，其中，同一子图的节点之间的距离小于预设的距离阈值，不同子图的节点之间的距离大于预设的距离阈值，每一个子图对应一种违规类别；

通过预设的图神经网络计算所述违规情形图的各子图对应的违规类别的特征向量。
根据权利要求11所述的计算机设备，其中，所述通过预设的双向RNN网络对所述待测客服对话文本进行编码以得到所述待测客服对话文本的基本向量，包括：

对所述待测客服对话文本进行分词处理以得到所述待测客服对话文本的分词集合；

对所述分词集合的词语进行词向量训练以得到所述分词集合的词语的词向量；

将所述分词集合的词语的词向量输入到双向RNN网络中并输出所述待测客服对话文本的基本向量。
根据权利要求13所述的计算机设备，其中，所述对所述待测客服对话文本进行分词处理以得到所述待测客服对话文本的分词集合，包括：

通过预设分词工具将所述待测客服对话文本划分为多个词语以得到初始分词集合；

将所述初始分词集合中的停止词删除以得到所述分词集合。
根据权利要求11所述的计算机设备，其中，所述根据注意力机制，将违规的待测客服对话文本与预先针对所述违规类别查找的特征向量分别进行词级别交互以及句子级别交互，以得到所述待测客服对话文本的特征区分向量，包括：

通过预设的双向GRU对所述待测客服对话文本的各句子进行编码，得到所述待测客服对话文本的各句子的词语的隐状态向量；

根据各句子的词语的隐状态向量，将所述待测客服对话文本与所述违规类别的特征向量进行词级别交互以得到所述待测客服对话文本的各句子的句向量；

通过预设的双向GRU对所述待测客服对话文本的各句子的句向量进行编码，得到所述待测客服对话文本的各句子的隐状态向量；

根据各句子的隐状态向量，将所述待测客服对话文本与所述违规类别的特征向量进行句子级别交互以得到所述待测客服对话文本的特征区分向量。
根据权利要求15所述的计算机设备，其中，所述根据各句子的词语的隐状态向量，将所述待测客服对话文本与所述违规类别的特征向量进行词级别交互以得到所述待测客服对话文本的各句子的句向量，包括：

通过以下公式
以及
计算所述待测客服对话文本的各句子的句向量，其中，a _i,j为交互词向量，h _i,j为词语的隐状态向量，W _w为词语的隐状态向量的权重，d _o为违规类别的特征向量，W _g为违规类别的特征向量的权重，v _si为句向量。
根据权利要求15所述的计算机设备，其中，所述根据各句子的隐状态向量，将所述待测客服对话文本与所述违规类别的特征向量进行句子级别交互以得到所述待测客服对话文本的特征区分向量，包括：

通过以下公式
以及
计算所述待测客服对话文本的特征区分向量，其中，a _i为交互句向量，h _i为句子的隐状态向量，W _s为句子的隐状态向量的权重，d _o为违规类别的特征向量，W _g为违规类别的特征向量的权重，
为特征区分向量。
根据权利要求13所述的计算机设备，其中，所述对所述分词集合的词语进行词向量训练以得到所述分词集合的词语的词向量，包括：

采用word2vec来对对所述分词集合的词语进行词向量训练。
根据权利要求11所述的计算机设备，其中，所述将所述基本向量输入到预训练的第一线性分类器中，并通过所述第一线性分类器判断所述待测客服对话文本是否违规之前，所述处理器还执行如下步骤：

通过经过标注的样本对第一线性分类器进行训练。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理器执行时使所述处理器执行以下步骤：

接收待测客服对话文本，通过预设的双向RNN网络对所述待测客服对话文本进行编码以得到所述待测客服对话文本的基本向量；

将所述基本向量输入到预训练的第一线性分类器中，并通过所述第一线性分类器判断所述待测客服对话文本是否违规；

若所述待测客服对话文本违规，将所述基本向量输入到预训练的第二线性分类器中，并输出所述待测客服对话文本的违规类别；

根据注意力机制，将违规的待测客服对话文本与预先针对所述违规类别查找的特征向量分别进行词级别交互以及句子级别交互，以得到所述待测客服对话文本的特征区分向量；

将所述违规的待测客服对话文本的基本向量与所述特征区分向量合并得到最终向量；

将所述最终向量输入到预训练的第三线性分类器中，并通过所述第三线性分类器预测所述待测客服对话文本的违规情形。