WO2021004128A1

WO2021004128A1 - 语音质检的方法、装置、计算机设备和存储介质

Info

Publication number: WO2021004128A1
Application number: PCT/CN2020/086625
Authority: WO
Inventors: 熊玮
Original assignee: 深圳壹账通智能科技有限公司
Priority date: 2019-07-09
Filing date: 2020-04-24
Publication date: 2021-01-14
Also published as: CN110364183A

Abstract

提供了一种语音质检的方法、装置、计算机设备和存储介质，涉及人工智能中的语音处理技术领域。该语音质检方法包括：根据预设第一关键字集合对客户音频数据进行检测，并根据预设第二关键字集合对业务员音频数据进行检测，第二关键字集合包括话术关键字集合以及违规关键字集合（S106），当第一关键字集合中的必读关键字在客户音频数据中出现的次数不等于次数阈值，或业务员音频数据中不存在话术关键字集合中的话术关键字，或业务员音频数据中存在违规关键字集合中的违规关键字时，确定待检测音频的检测结果为未通过检测，生成补录提示（S108）。采用本方法能够实时对各录制节点的待检测音频进行质检，从而提高了对业务服务过程进行监控的效率。

Description

语音质检的方法、装置、计算机设备和存储介质

本申请要求于2019年7月9日提交中国专利局、申请号为201910616721.8，发明名称为“语音质检的方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及人工智能中的语音处理技术领域，特别是涉及一种语音质检的方法、装置、计算机设备和存储介质。

背景技术

随着服务行业的发展，越来越多的企业在对客户进行业务服务时均需要对业务服务过程进行监控，传统地，对业务服务过程进行监控包括：对服务过程同步进行录音和录像，在业务服务结束后，得到业务服务视频，人工在后台对业务服务视频中的对话内容进行反复的收听和质检，当通过质检发现某段对话存在问题时，通知业务员以及客户进行补录。

然而发明人意识到，传统地对业务服务过程进行监控的方式，直至在最后的质检过程中才能查找到各环节中的对话问题并进行补录，存在监控效率低的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高监控效率的语音质检的方法、装置、计算机设备和存储介质。

一种语音质检的方法，所述方法包括：

实时获取视频录制过程中各录制节点的待检测视频以及与待检测视频对应的次数阈值，从待检测视频中提取出各录制节点的待检测音频；

根据预设的语音分割算法将待检测音频分割为多个音频片段，并根据预设的语音聚类算法将多个音频片段中属于同一个说话人的音频片段合并，得到业务员音频数据以及客户音频数据；

根据预设第一关键字集合对客户音频数据进行检测，并根据预设第二关键字集合对业务员音频数据进行检测，第二关键字集合包括话术关键字集合以及违规关键字集合；

当第一关键字集合中的必读关键字在客户音频数据中出现的次数不等于次数阈值，或业务员音频数据中不存在话术关键字集合中的话术关键字，或业务员音频数据中存在违规关键字集合中的违规关键字时，确定待检测音频的检测结果为未通过检测，生成补录提示。

一种语音质检的装置，所述装置包括：

获取模块，用于实时获取视频录制过程中各录制节点的待检测视频以及与待检测视频对应的次数阈值，从待检测视频中提取出各录制节点的待检测音频；

提取模块，用于根据预设的语音分割算法将待检测音频分割为多个音频片段，并根据预设的语音聚类算法将多个音频片段中属于同一个说话人的音频片段合并，得到业务员音频数据以及客户音频数据；

检测模块，用于根据预设第一关键字集合对客户音频数据进行检测，并根据预设第二关键字集合对业务员音频数据进行检测，第二关键字集合包括话术关键字集合以及违规关键字集合；

处理模块，用于当第一关键字集合中的必读关键字在客户音频数据中出现的次数不等于次数阈值，或业务员音频数据中不存在话术关键字集合中的话术关键字，或业务员音频数据中存在违规关键字集合中的违规关键字时，确定待检测音频的检测结果为未通过检测，生成补录提示。在其中一个实施例中，检测模块还用于从预设第一关键字集合中获取多个必读关键字，将客户音频数据转换为客户文字数据，根据各必读关键字，遍历客户文字数据，统计各必读关键字在客户文字数据中出现的次数，根据各必读关键字在客户文字数据中出现的次数，确定各必读关键字在客户音频数据中出现的次数。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

当第一关键字集合中的必读关键字在客户音频数据中出现的次数不等于次数阈值，或业务员音频数据中不存在话术关键字集合中的话术关键字，或业务员音频数据中存在违规关键字集合中的违规关键字时，确定待检测音频的检测结果为未通过检测，生成补录提示。上述语音质检的方法、装置、计算机设备和存储介质，根据预设第一关键字集合对客户音频数据进行检测，并根据预设第二关键字集合对业务员音频数据进行检测，实现了对客户音频数据以及业务员音频数据分别进行检测，根据检测结果确定待检测音频的检测结果，当待检测音频的检测结果为未通过检测时，生成补录提示。

通过这种方式，在视频录制过程中，实时对各录制节点的待检测音频进行质检，实现了及时对视频录制过程中的各个环节中的对话进行监控，提高了对业务服务过程进行监控的效率。

附图说明

图1为一个实施例中语音质检的方法的流程示意图；

图2为一个实施例中图1中步骤S106的子流程示意图；

图3为一个实施例中图2中步骤S102的子流程示意图；

图4为一个实施例中图1中步骤S106的子流程示意图；

图5为另一个实施例中语音质检的方法的流程示意图；

图6为一个实施例中图1中步骤S104的子流程示意图；

图7为一个实施例中语音质检的装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

在一个实施例中，如图1所示，提供了一种语音质检的方法，包括以下步骤：

S102：实时获取视频录制过程中各录制节点的待检测视频以及与待检测视频对应的次数阈值，从待检测视频中提取出各录制节点的待检测音频。

待检测视频指的是在视频录制过程中，终端采集并发送至服务器的各录制节点的视频数据。视频录制过程中包含多个录制环节，各录制环节都有对应的录制节点。在得到待检测视频后，服务器会将待检测视频中的音频和图像进行剥离，提取出各录制节点的待检测音频。与待检测视频对应的次数阈值指的是与待检测视频对应的必读关键字必须出现的次数阈值。必读关键字指的是在与录制节点对应的录制环节中，客户必须要提及到的词语，用于对客户音频数据进行检测。

S104：根据预设的语音分割算法将待检测音频分割为多个音频片段，并根据预设的语音聚类算法将多个音频片段中属于同一个说话人的音频片段合并，得到业务员音频数据以及客户音频数据。

由于待检测音频中可能会存在噪音以及环境音，所以在对待检测音频进行分析前，要先对其进行滤波处理，滤除掉其中的噪音以及环境音。待检测音频中包括了业务员音频数据以及客户音频数据，在对待检测音频进行检测时，服务器需要将业务员音频数据以及客户音频数据分离开来。在对待检测音频进行分离时，可以采用语音分割算法以及语音聚类算法对待检测音频进行处理，采用先分割再聚类的方式，先采用语音分割算法将待检测音频分割为多个音频片段，再采用语音聚类算法，将多个音频片段中属于同一个说话人的音频片段合并，得到业务员音频数据以及客户音频数据。

S106：根据预设第一关键字集合对客户音频数据进行检测，并根据预设第二关键字集合对业务员音频数据进行检测，第二关键字集合包括话术关键字集合以及违规关键字集合。

预设第一关键字集合中包括多个必读关键字，必读关键字指的是在与录制节点对应的录制环节中，客户必须要提及到的词语，违规关键字指的是在与录制节点对应的录制环节中，业务员不能提及到的词语。话术关键字指的是业务员在与录制节点对应的录制环节中，必须要提及到的词语。服务器根据预设第一关键字集合对客户音频数据进行检测，统计必读关键字在客户音频数据中出现的次数，通过比对次数统计结果和与待检测视频对应的次数阈值，确定客户音频数据的检测结果。服务器通过检测业务员音频数据，可以确定业务员是否有提及话术关键字，以及是否未提及违规关键字，进而根据业务员音频数据中的提及情况，确定业务员音频数据的检测结果。

S108：当第一关键字集合中的必读关键字在客户音频数据中出现的次数不等于次数阈值，或业务员音频数据中不存在话术关键字集合中的话术关键字，或业务员音频数据中存在违规关键字集合中的违规关键字时，确定待检测音频的检测结果为未通过检测，生成补录提示。

当第一关键字集合中的必读关键字在客户音频数据中出现的次数不等于次数阈值时，客户音频数据的检测结果为未通过检测。当业务员音频数据中不存在话术关键字集合中的话术关键字，或业务员音频数据中存在违规关键字集合中的违规关键字时，确定业务员音频数据的检测结果为未通过检测。当客户音频数据的检测结果或业务员音频数据的检测结果为未通过检测时，待检测音频的检测结果就为未通过检测，服务器会生成补录提示，补录提示会提示客户和业务员未通过录制的原因，以便客户和业务员在进行现场补录时，避免再犯同样的错误。

上述语音质检的方法，根据预设第一关键字集合对客户音频数据进行检测，并根据预设第二关键字集合对业务员音频数据进行检测，实现了对客户音频数据以及业务员音频数据分别进行检测，根据检测结果确定待检测音频的检测结果，当待检测音频的检测结果为未通过检测时，生成补录提示。通过这种方式，在视频录制过程中，实时对各录制节点的待检测音频进行质检，实现了及时对视频录制过程中的各个环节中的对话进行监控，提高了对业务服务过程进行监控的效率。

在其中一个实施例中，如图2所示，S106包括：

S202：从预设第一关键字集合中获取多个必读关键字；

S204：将客户音频数据转换为客户文字数据；

S206：根据各必读关键字，遍历客户文字数据，统计各必读关键字在客户文字数据中出现的次数；

S208：根据各必读关键字在客户文字数据中出现的次数，得到各必读关键字在客户音频数据中出现的次数。

必读关键字指的是在与录制节点对应的录制环节中，客户必须要提及到的词语，服务器可以从预设第一关键字集合中获取多个必读关键字，在预设第一关键字集合中包括多个必读关键字，在根据必读关键字对客户音频数据进行检测时，需要先将客户音频数据转换为客户文字数据，然后再根据各必读关键字，遍历客户文字数据，统计各必读关键字在客户文字数据中出现的次数。最后根据各必读关键字在客户文字数据中出现的次数，得到各必读关键字在客户音频数据中出现的次数。

因为在与各录制节点对应的录制环节中，业务员会对客户进行提问，客户会通过提及必读关键字对业务员的提问进行回复，所以可根据必读关键字对客户音频数据进行检测，根据每个录制环节中业务员提问次数的不同，客户提及必读关键字的次数也会不相同，所以要确定与录制节点对应的录制环节中客户应提及的必读关键字的次数，即与待检测视频对应的次数阈值，进而比对次数阈值和各必读关键字在客户音频数据中出现的次数，确定客户音频数据的检测结果，只有当各必读关键字在客户音频数据中出现的次数等于次数阈值时，才可认为客户音频数据的检测结果为通过检测。其中，次数阈值可根据录制节点的对话模板确定。

上述实施例，根据各必读关键字在客户文字数据中出现的次数，得到各必读关键字在客户音频数据中出现的次数，从而使得服务器可以根据各必读关键字在客户音频数据中出现的次数，确定客户音频数据的检测结果，实现了对客户音频数据的检测。

在其中一个实施例中，如图3所示，S102包括：

S302：实时获取与待检测视频对应的录制节点的对话模板；

S304：根据第一关键字集合，统计对话模板中各必读关键字出现的次数；

S306：根据对话模板中各必读关键字出现的次数，得到次数阈值。

服务器可通过录制节点携带的节点标识，从预设的对话模板数据库中，实时获取与录制节点对应的对话模板，并根据第一关键字集合获取多个必读关键字，根据各必读关键字遍历对话模板，统计对话模板中各必读关键字出现的次数，对话模板中各必读关键字出现的次数，就是客户在与录制节点对应的录制环节应提及的必读关键字的次数，即次数阈值。

上述实施例，实时获取与待检测视频对应的录制节点的对话模板，根据第一关键字集合，统计对话模板中各必读关键字出现的次数，根据对话模板中各必读关键字出现的次数，得到次数阈值，从而使得服务器可以根据次数阈值实现对客户音频数据的检测。

在其中一个实施例中，如图4所示，S106包括：

S402：将业务员音频数据转换为业务员文字数据；

S404：获取与待检测视频对应的录制节点的话术模板，根据话术模板从业务员文字数据中提取出对应的话术信息；

S406：从第二关键字集合中获取话术关键字，根据话术关键字匹配话术信息；

S408：从第二关键字集合中获取违规关键字，并根据违规关键字遍历业务员文字数据。

服务器在对业务员音频数据进行检测时，需要将业务员音频数据转换为业务员文字数据，获取与待检测视频对应的录制节点的话术模板，根据话术模板从业务员文字数据中提取出对应的话术信息，从第二关键字集合中获取话术关键字，话术关键字指的是业务员在与录制节点对应的录制环节中，必须要提及到的词语，通过检测业务员音频数据，确定业务员是否有提及话术关键字，当业务员有提及话术关键字时，确定业务员音频数据的第一检测结果为通过检测。

除了根据话术关键字对业务员音频数据进行检测之外，服务器还需要通过违规关键字对业务员音频数据进行检测，违规关键字可以从第二关键字集合中获取，违规关键字指的是在与录制节点对应的录制环节中，业务员不能提及到的词语，通过检测业务员音频数据，确定业务员是否未提及违规关键字，当业务员未提及违规关键字时，确定业务员音频数据的第二检测结果为通过检测。只有当第一检测结果和第二检测结果都为通过检测时，才能确定业务员音频数据的检测结果为通过检测。

上述实施例，根据话术关键字以及违规关键字对业务员音频数据进行检测，实现了对业务员音频数据的检测。

在其中一个实施例中，如图5所示，S106之后，还包括：

S502：当第一关键字集合中的必读关键字在客户音频数据中出现的次数达到次数阈值，且业务员音频数据中存在话术关键字集合中的话术关键字，且业务员音频数据中不存在违规关键字集合中的违规关键字时，确定待检测音频的检测结果为通过检测。

当第一关键字集合中的必读关键字在客户音频数据中出现的次数达到次数阈值时，服务器可以确定客户音频数据的检测结果为通过检测。当业务员音频数据中存在话术关键字集合中的话术关键字，且业务员音频数据中不存在违规关键字集合中的违规关键字时，服务器可以确定业务员音频数据的检测结果为通过检测。当客户音频数据和业务员音频数据的检测结果都为通过检测时，服务器即可确定待检测音频的检测结果为通过检测。

上述实施例，通过客户音频数据和业务员音频数据的检测结果，确定待检测音频的检测结果，实现了对待检测音频的检测结果的确定。

在其中一个实施例中，如图6所示，S104包括：

S602：对待检测音频进行滤波处理，滤除待检测音频中的噪音以及环境音；

S604：根据预设的语音分割算法将滤波后的待检测音频分割为多个音频片段；

S606：根据预设的语音聚类算法将多个音频片段中属于同一个说话人的音频片段合并，得到业务员音频数据以及客户音频数据。

因为待检测音频中可能包括噪音以及环境音，所以服务器在对待检测音频进行处理时，首先需要对待检测音频进行滤波处理，滤除待检测音频中的噪音以及环境音，再采用语音分割算法以及语音聚类算法对滤波后的待检测音频进行处理，得到业务员音频数据以及客户音频数据。其中，语音分割算法指的是说话人改变点检测，即定位语音数据中说话人身份发生改变的点。常见的语音分割算法通常以高斯模型的窗移分割点检测算法为基础，观测并计算相邻语音窗之间的距离，基于阈值或惩罚因子来决定这两段语音是否来自于同一个说话人。其中，阈值或惩罚因子可以通过采集训练集数据获得。通过语音分割算法可以将待检测音频分割成多个音频片段，每个音频片段中只包含一个人的音频数据。

语音聚类算法是在语音分割算法的基础上，将属于同一个说话人的音频片段合并起来，常见的语音聚类算法可分为两类：自顶向下聚类以及自底向上聚类，将分割后得到的每个音频片段当成一类，然后根据BIC(Bayesian Information Criterions，贝叶斯信息规则)距离连续地合并最相邻的两类，直到语音片段的合并不再导致BIC的值增加为止，以此得到两类音频数据。在得到两类音频数据后，服务器会进一步对两类音频数据进行分析，提取出两类音频数据的声纹特征，通过两类音频数据的声纹特征匹配预设的业务员信息数据库中的业务员声纹特征，确定两类音频数据中的业务员音频数据，另一个即为客户音频数据。

上述实施例，对待检测音频进行滤波处理，滤除待检测音频中的噪音以及环境音，采用语音分割算法，将滤波后的待检测音频分割为多个音频片段，采用语音聚类算法，将多个音频片段聚类为业务员音频数据以及客户音频数据，实现了对业务员音频数据以及客户音频数据的提取。

应该理解的是，虽然图1-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种语音质检的装置，包括：获取模块702、提取模块704、检测模块706和处理模块708，其中：

获取模块702，用于实时获取视频录制过程中各录制节点的待检测视频以及与待检测视频对应的次数阈值，从待检测视频中提取出各录制节点的待检测音频；

提取模块704，用于根据预设的语音分割算法将待检测音频分割为多个音频片段，并根据预设的语音聚类算法将多个音频片段中属于同一个说话人的音频片段合并，得到业务员音频数据以及客户音频数据；

检测模块706，用于根据预设第一关键字集合对客户音频数据进行检测，并根据预设第二关键字集合对业务员音频数据进行检测，第二关键字集合包括话术关键字集合以及违规关键字集合；

处理模块708，用于当第一关键字集合中的必读关键字在客户音频数据中出现的次数不等于次数阈值，或业务员音频数据中不存在话术关键字集合中的话术关键字，或业务员音频数据中存在违规关键字集合中的违规关键字时，确定待检测音频的检测结果为未通过检测，生成补录提示。上述语音质检的装置，根据预设第一关键字集合对客户音频数据进行检测，并根据预设第二关键字集合对业务员音频数据进行检测，实现了对客户音频数据以及业务员音频数据分别进行检测，根据检测结果确定待检测音频的检测结果，当待检测音频的检测结果为未通过检测时，生成补录提示。通过这种方式，在视频录制过程中，实时对各录制节点的待检测音频进行质检，实现了及时对视频录制过程中的各个环节中的对话进行监控，提高了对业务服务过程进行监控的效率。

在其中一个实施例中，检测模块还用于从预设第一关键字集合中获取多个必读关键字，将客户音频数据转换为客户文字数据，根据各必读关键字，遍历客户文字数据，统计各必读关键字在客户文字数据中出现的次数，根据各必读关键字在客户文字数据中出现的次数，得到各必读关键字在客户音频数据中出现的次数。

在其中一个实施例中，获取模块还用于实时获取与待检测视频对应的录制节点的对话模板，根据第一关键字集合，统计对话模板中各必读关键字出现的次数，根据对话模板中各必读关键字出现的次数，得到次数阈值。

在其中一个实施例中，检测模块还用于将业务员音频数据转换为业务员文字数据，获取与待检测视频对应的录制节点的话术模板，根据话术模板从业务员文字数据中提取出对应的话术信息，从第二关键字集合中获取话术关键字，根据话术关键字匹配话术信息，从第二关键字集合中获取违规关键字，并根据违规关键字遍历业务员文字数据。

在其中一个实施例中，检测模块还用于当第一关键字集合中的必读关键字在客户音频数据中出现的次数达到次数阈值，且业务员音频数据中存在话术关键字集合中的话术关键字，且业务员音频数据中不存在违规关键字集合中的违规关键字时，确定待检测音频的检测结果为通过检测。

在其中一个实施例中，提取模块还用于对待检测音频进行滤波处理，滤除待检测音频中的噪音以及环境音，根据预设的语音分割算法将滤波后的待检测音频分割为多个音频片段，根据预设的语音聚类算法将多个音频片段中属于同一个说话人的音频片段合并，得到业务员音频数据以及客户音频数据。

关于语音质检的装置的具体限定可以参见上文中对于语音质检的方法的限定，在此不再赘述。上述语音质检的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储必读关键字数据、违规关键字数据以及对话模板数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种语音质检的方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

当第一关键字集合中的必读关键字在客户音频数据中出现的次数不等于次数阈值，或业务员音频数据中不存在话术关键字集合中的话术关键字，或业务员音频数据中存在违规关键字集合中的违规关键字时，确定待检测音频的检测结果为未通过检测，生成补录提示。上述语音质检的计算机设备，根据预设第一关键字集合对客户音频数据进行检测，并根据预设第二关键字集合对业务员音频数据进行检测，实现了对客户音频数据以及业务员音频数据分别进行检测，根据检测结果确定待检测音频的检测结果，当待检测音频的检测结果为未通过检测时，生成补录提示。通过这种方式，在视频录制过程中，实时对各录制节点的待检测音频进行质检，实现了及时对视频录制过程中的各个环节中的对话进行监控，提高了对业务服务过程进行监控的效率。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

从预设第一关键字集合中获取多个必读关键字；

将客户音频数据转换为客户文字数据；

根据各必读关键字，遍历客户文字数据，统计各必读关键字在客户文字数据中出现的次数；

根据各必读关键字在客户文字数据中出现的次数，得到各必读关键字在客户音频数据中出现的次数。

实时获取与待检测视频对应的录制节点的对话模板；

根据第一关键字集合，统计对话模板中各必读关键字出现的次数；

根据对话模板中各必读关键字出现的次数，得到次数阈值。

将业务员音频数据转换为业务员文字数据；

获取与待检测视频对应的录制节点的话术模板，根据话术模板从业务员文字数据中提取出对应的话术信息；

从第二关键字集合中获取话术关键字，根据话术关键字匹配话术信息；

从第二关键字集合中获取违规关键字，并根据违规关键字遍历业务员文字数据。

当第一关键字集合中的必读关键字在客户音频数据中出现的次数达到次数阈值，且业务员音频数据中存在话术关键字集合中的话术关键字，且业务员音频数据中不存在违规关键字集合中的违规关键字时，确定待检测音频的检测结果为通过检测。

对待检测音频进行滤波处理，滤除待检测音频中的噪音以及环境音；

根据预设的语音分割算法将滤波后的待检测音频分割为多个音频片段；

根据预设的语音聚类算法将多个音频片段中属于同一个说话人的音频片段合并，得到业务员音频数据以及客户音频数据。

在一个实施例中，提供了一种计算机可读存储介质，该存储介质为易失性存储介质或非易失性存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

当第一关键字集合中的必读关键字在客户音频数据中出现的次数不等于次数阈值，或业务员音频数据中不存在话术关键字集合中的话术关键字，或业务员音频数据中存在违规关键字集合中的违规关键字时，确定待检测音频的检测结果为未通过检测，生成补录提示。上述语音质检的存储介质，根据预设第一关键字集合对客户音频数据进行检测，并根据预设第二关键字集合对业务员音频数据进行检测，实现了对客户音频数据以及业务员音频数据分别进行检测，根据检测结果确定待检测音频的检测结果，当待检测音频的检测结果为未通过检测时，生成补录提示。通过这种方式，在视频录制过程中，实时对各录制节点的待检测音频进行质检，实现了及时对视频录制过程中的各个环节中的对话进行监控，提高了对业务服务过程进行监控的效率。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

从预设第一关键字集合中获取多个必读关键字；

将客户音频数据转换为客户文字数据；

实时获取与待检测视频对应的录制节点的对话模板；

根据对话模板中各必读关键字出现的次数，得到次数阈值。

将业务员音频数据转换为业务员文字数据；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus) 直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

Claims

一种语音质检的方法，其中，所述方法包括：

实时获取视频录制过程中各录制节点的待检测视频以及与所述待检测视频对应的次数阈值，从所述待检测视频中提取出各录制节点的待检测音频；

根据预设的语音分割算法将所述待检测音频分割为多个音频片段，并根据预设的语音聚类算法将多个音频片段中属于同一个说话人的音频片段合并，得到业务员音频数据以及客户音频数据；

根据预设第一关键字集合对所述客户音频数据进行检测，并根据预设第二关键字集合对所述业务员音频数据进行检测，所述第二关键字集合包括话术关键字集合以及违规关键字集合；

当所述第一关键字集合中的必读关键字在所述客户音频数据中出现的次数不等于所述次数阈值，或所述业务员音频数据中不存在所述话术关键字集合中的话术关键字，或所述业务员音频数据中存在所述违规关键字集合中的违规关键字时，确定所述待检测音频的检测结果为未通过检测，生成补录提示。
根据权利要求1所述的方法，其中，所述根据预设第一关键字集合对所述客户音频数据进行检测包括：

从预设第一关键字集合中获取多个必读关键字；

将所述客户音频数据转换为客户文字数据；

根据各所述必读关键字，遍历所述客户文字数据，统计各所述必读关键字在所述客户文字数据中出现的次数；

根据各所述必读关键字在所述客户文字数据中出现的次数，得到各所述必读关键字在所述客户音频数据中出现的次数。
根据权利要求1所述的方法，其中，所述实时获取与所述待检测视频对应的次数阈值包括：

实时获取与所述待检测视频对应的录制节点的对话模板；

根据所述第一关键字集合，统计所述对话模板中各必读关键字出现的次数；

根据所述对话模板中各必读关键字出现的次数，得到次数阈值。
根据权利要求1所述的方法，其中，所述根据预设第二关键字集合对所述业务员音频数据进行检测，所述第二关键字集合包括话术关键字集合以及违规关键字集合包括：

将所述业务员音频数据转换为业务员文字数据；

获取与所述待检测视频对应的录制节点的话术模板，根据所述话术模板从所述业务员文字数据中提取出对应的话术信息；

从所述第二关键字集合中获取话术关键字，根据所述话术关键字匹配所述话术信息；

从所述第二关键字集合中获取违规关键字，并根据所述违规关键字遍历所述业务员文字数据。
根据权利要求1所述的方法，其中，所述根据预设第一关键字集合对所述客户音频数据进行检测，并根据预设第二关键字集合对所述业务员音频数据进行检测之后，还包括：

当所述第一关键字集合中的必读关键字在所述客户音频数据中出现的次数达到所述次数阈值，且所述业务员音频数据中存在所述话术关键字集合中的话术关键字，且所述业务员音频数据中不存在所述违规关键字集合中的违规关键字时，确定所述待检测音频的检测结果为通过检测。
根据权利要求1所述的方法，其中，所述根据预设的语音分割算法将所述待检测音频分割为多个音频片段，并根据预设的语音聚类算法将多个音频片段中属于同一个说话人的音频片段合并，得到业务员音频数据以及客户音频数据包括：

对所述待检测音频进行滤波处理，滤除所述待检测音频中的噪音以及环境音；

根据预设的语音分割算法将滤波后的待检测音频分割为多个音频片段；

根据预设的语音聚类算法将多个音频片段中属于同一个说话人的音频片段合并，得到业务员音频数据以及客户音频数据。
一种语音质检的装置，其中，所述装置包括：

获取模块，用于实时获取视频录制过程中各录制节点的待检测视频以及与所述待检测视频对应的次数阈值，从所述待检测视频中提取出各录制节点的待检测音频；

提取模块，用于根据预设的语音分割算法将所述待检测音频分割为多个音频片段，并根据预设的语音聚类算法将多个音频片段中属于同一个说话人的音频片段合并，得到业务员音频数据以及客户音频数据；

检测模块，用于根据预设第一关键字集合对所述客户音频数据进行检测，并根据预设第二关键字集合对所述业务员音频数据进行检测，所述第二关键字集合包括话术关键字集合以及违规关键字集合；

处理模块，用于当所述第一关键字集合中的必读关键字在所述客户音频数据中出现的次数不等于所述次数阈值，或所述业务员音频数据中不存在所述话术关键字集合中的话术关键字，或所述业务员音频数据中存在所述违规关键字集合中的违规关键字时，确定所述待检测音频的检测结果为未通过检测，生成补录提示。
根据权利要求7所述的装置，其中，所述检测模块还用于从预设第一关键字集合中获取多个必读关键字，将所述客户音频数据转换为客户文字数据，根据各所述必读关键字，遍历所述客户文字数据，统计各所述必读关键字在所述客户文字数据中出现的次数，根据各所述必读关键字在所述客户文字数据中出现的次数，确定各所述必读关键字在所述客户音频数据中出现的次数。
一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其中，所述处理器执行所述计算机程序时实现以下步骤：

实时获取视频录制过程中各录制节点的待检测视频以及与待检测视频对应的次数阈值，从待检测视频中提取出各录制节点的待检测音频；

根据预设的语音分割算法将待检测音频分割为多个音频片段，并根据预设的语音聚类算法将多个音频片段中属于同一个说话人的音频片段合并，得到业务员音频数据以及客户音频数据；

根据预设第一关键字集合对客户音频数据进行检测，并根据预设第二关键字集合对业务员音频数据进行检测，第二关键字集合包括话术关键字集合以及违规关键字集合；

当第一关键字集合中的必读关键字在客户音频数据中出现的次数不等于次数阈值，或业务员音频数据中不存在话术关键字集合中的话术关键字，或业务员音频数据中存在违规关键字集合中的违规关键字时，确定待检测音频的检测结果为未通过检测，生成补录提示。
根据权利要求9所述的计算机设备，其中，所述根据预设第一关键字集合对所述客户音频数据进行检测包括：从预设第一关键字集合中获取多个必读关键字；将所述客户音频数据转换为客户文字数据；根据各所述必读关键字，遍历所述客户文字数据，统计各所述必读关键字在所述客户文字数据中出现的次数；根据各所述必读关键字在所述客户文字数据中出现的次数，得到各所述必读关键字在所述客户音频数据中出现的次数。
根据权利要求9所述的计算机设备，其中，所述实时获取与所述待检测视频对应的次数阈值包括：

实时获取与所述待检测视频对应的录制节点的对话模板；

根据所述第一关键字集合，统计所述对话模板中各必读关键字出现的次数；

根据所述对话模板中各必读关键字出现的次数，得到次数阈值。
根据权利要求9所述的计算机设备，其中，所述根据预设第二关键字集合对所述业务员音频数据进行检测，所述第二关键字集合包括话术关键字集合以及违规关键字集合包括：

将所述业务员音频数据转换为业务员文字数据；

获取与所述待检测视频对应的录制节点的话术模板，根据所述话术模板从所述业务员文字数据中提取出对应的话术信息；

从所述第二关键字集合中获取话术关键字，根据所述话术关键字匹配所述话术信息；

从所述第二关键字集合中获取违规关键字，并根据所述违规关键字遍历所述业务员文字数据。
根据权利要求9所述的计算机设备，其中，所述根据预设第一关键字集合对所述客户音频数据进行检测，并根据预设第二关键字集合对所述业务员音频数据进行检测之后，还包括：

当所述第一关键字集合中的必读关键字在所述客户音频数据中出现的次数达到所述次数阈值，且所述业务员音频数据中存在所述话术关键字集合中的话术关键字，且所述业务员音频数据中不存在所述违规关键字集合中的违规关键字时，确定所述待检测音频的检测结果为通过检测。
根据权利要求9所述的计算机设备，其中，所述根据预设的语音分割算法将所述待检测音频分割为多个音频片段，并根据预设的语音聚类算法将多个音频片段中属于同一个说话人的音频片段合并，得到业务员音频数据以及客户音频数据包括：

对所述待检测音频进行滤波处理，滤除所述待检测音频中的噪音以及环境音；

根据预设的语音分割算法将滤波后的待检测音频分割为多个音频片段；

根据预设的语音聚类算法将多个音频片段中属于同一个说话人的音频片段合并，得到业务员音频数据以及客户音频数据。
一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现以下步骤：

实时获取视频录制过程中各录制节点的待检测视频以及与待检测视频对应的次数阈值，从待检测视频中提取出各录制节点的待检测音频；

根据预设的语音分割算法将待检测音频分割为多个音频片段，并根据预设的语音聚类算法将多个音频片段中属于同一个说话人的音频片段合并，得到业务员音频数据以及客户音频数据；

根据预设第一关键字集合对客户音频数据进行检测，并根据预设第二关键字集合对业务员音频数据进行检测，第二关键字集合包括话术关键字集合以及违规关键字集合；

当第一关键字集合中的必读关键字在客户音频数据中出现的次数不等于次数阈值，或业务员音频数据中不存在话术关键字集合中的话术关键字，或业务员音频数据中存在违规关键字集合中的违规关键字时，确定待检测音频的检测结果为未通过检测，生成补录提示。上述语音质检的方法、装置、计算机设备和存储介质，根据预设第一关键字集合对客户音频数据进行检测，并根据预设第二关键字集合对业务员音频数据进行检测，实现了对客户音频数据以及业务员音频数据分别进行检测，根据检测结果确定待检测音频的检测结果，当待检测音频的检测结果为未通过检测时，生成补录提示。
根据权利要求15所述的计算机可读存储介质，其中，所述根据预设第一关键字集合对所述客户音频数据进行检测包括：

从预设第一关键字集合中获取多个必读关键字；将所述客户音频数据转换为客户文字数据；根据各所述必读关键字，遍历所述客户文字数据，统计各所述必读关键字在所述客户文字数据中出现的次数；根据各所述必读关键字在所述客户文字数据中出现的次数，得到各所述必读关键字在所述客户音频数据中出现的次数。
根据权利要求15所述的计算机可读存储介质，其中，所述实时获取与所述待检测视频对应的次数阈值包括：实时获取与所述待检测视频对应的录制节点的对话模板；根据所述第一关键字集合，统计所述对话模板中各必读关键字出现的次数；根据所述对话模板中各必读关键字出现的次数，得到次数阈值。
根据权利要求15所述的计算机可读存储介质，其中，所述根据预设第二关键字集合对所述业务员音频数据进行检测，所述第二关键字集合包括话术关键字集合以及违规关键字集合包括：

将所述业务员音频数据转换为业务员文字数据；

获取与所述待检测视频对应的录制节点的话术模板，根据所述话术模板从所述业务员文字数据中提取出对应的话术信息；

从所述第二关键字集合中获取话术关键字，根据所述话术关键字匹配所述话术信息；

从所述第二关键字集合中获取违规关键字，并根据所述违规关键字遍历所述业务员文字数据。
根据权利要求15所述的计算机可读存储介质，其中，所述根据预设第一关键字集合对所述客户音频数据进行检测，并根据预设第二关键字集合对所述业务员音频数据进行检测之后，还包括：

当所述第一关键字集合中的必读关键字在所述客户音频数据中出现的次数达到所述次数阈值，且所述业务员音频数据中存在所述话术关键字集合中的话术关键字，且所述业务员音频数据中不存在所述违规关键字集合中的违规关键字时，确定所述待检测音频的检测结果为通过检测。
根据权利要求15所述的计算机可读存储介质，其中，所述根据预设的语音分割算法将所述待检测音频分割为多个音频片段，并根据预设的语音聚类算法将多个音频片段中属于同一个说话人的音频片段合并，得到业务员音频数据以及客户音频数据包括：对所述待检测音频进行滤波处理，滤除所述待检测音频中的噪音以及环境音；根据预设的语音分割算法将滤波后的待检测音频分割为多个音频片段；根据预设的语音聚类算法将多个音频片段中属于同一个说话人的音频片段合并，得到业务员音频数据以及客户音频数据。