WO2019228306A1

WO2019228306A1 - 对齐语音的方法和装置

Info

Publication number: WO2019228306A1
Application number: PCT/CN2019/088591
Authority: WO
Inventors: 秦臻; 叶强; 田光见
Original assignee: 华为技术有限公司
Priority date: 2018-05-28
Filing date: 2019-05-27
Publication date: 2019-12-05
Also published as: CN109903752B; FI3764361T3; EP3764361B1; EP3764361A1; EP3764361A4; US20210027769A1; CN109903752A; US11631397B2

Abstract

一种对齐语音的方法，包括：获取原始语音和测试语音，该测试语音为原始语音经过通信网络传输后生成的语音（S210）；对测试语音执行缺失检测和/或断续检测，其中，缺失检测用于确定测试语音相对于原始语音的是否存在语音缺失，断续检测用于确定测试语音相对于原始语音是否存在语音断续（S220）；根据缺失检测和/或断续检测的结果对齐测试语音和原始语音，得到对齐后的原始语音和对齐后的测试语音，其中，缺失检测和/或断续检测的结果用于指示对齐测试语音和原始语音的方式（S230）。该对齐语音的方法，根据缺失检测和/或断续检测的结果确定对齐语音的方法，可以根据测试语音的具体情况使用最合适的方法进行语音对齐，从而提高了对齐语音的效率。

Description

对齐语音的方法和装置

本申请要求于2018年05月28日提交中国专利局、申请号为201810519857.2、申请名称为“对齐语音的方法和装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及音频领域，尤其涉及一种对齐语音的方法和装置。

背景技术

通信网络中的异常语音识别是通信运营商在解决异常语音问题时所面临的问题之一，受到用户隐私保护政策的限制，运维工程师只能在后期的重复拨测中进行异常语音的识别，进而完成异常语音的场景复现与问题修复后的效果验证。

一种提高识别问题语音的效率的方法是将原始语音和测试语音输入算法模型，通过算法模型来识别测试语音的异常现象。为了提高异常语音识别的准确率，需要对原始语音和测试语音执行对齐操作，即，对齐原始语音和测试语音的起始时域位置和终止时域位置，然而，根据现有对齐语音的方法得到的结果可能会出现较大的误差，这种误差需要通过多种算法以及多次处理才能克服。

发明内容

本申请提供了一种对齐语音的方法和装置，在对齐原始语音和测试语音前首先检测该测试语音是否存在语音缺失现象和/或语音断续现象，并根据检测结果选择合适的算法对齐测试语音和原始语音，从而可以提高对齐语音的效率。

第一方面，提供了一种对齐语音的方法，包括：获取原始语音和测试语音，该测试语音为原始语音经过通信网络传输后生成的语音；对测试语音执行缺失检测和/或断续检测，其中，缺失检测用于确定测试语音相对于原始语音的是否存在语音缺失，断续检测用于确定测试语音相对于原始语音是否存在语音断续；根据缺失检测和/或断续检测的结果对齐测试语音和原始语音，得到对齐后的测试语音和对齐后的原始语音，其中，缺失检测和/或断续检测的结果用于指示对齐测试语音和原始语音的方式。

例如，若上述检测结果为测试语音不存在语音缺失和较长的语音断续，则可以将原始语音所包含的各个语句以及测试语音所包含的各个语句依次对齐，以便于进一步确定测试语音是否存在其它异常现象，其中，上述不存在较长的语音断续指的是测试语音的语句相对于原始语音的语句的时延小于时延阈值；又例如，若上述检测结果为测试语音存在语音缺失了第一个语句，则可以将原始语音所包含的除第一个语句之外的各个语句以及测试语音所包含的各个语句依次对齐，以便于进一步确定测试语音是否存在其它异常现象；再例如，若上述检测结果为测试语音不存在语音缺失但存在较长的语音断续，即，测试语音的语句相对于原始语音的语句的时延大于时延阈值，为了进一步确定测试语音是否存在其它异常现象，可以增大时延阈值，以便于进行进一步的异常检测。

因此，本申请提供的对齐语音的方法，根据缺失检测和/或断续检测的结果确定对齐语音的方法，可以根据测试语音的具体情况使用最合适的方法进行语音对齐，从而提高了对齐语音的效率。

可选地，原始语音包括第一原始语句，测试语音包括第一测试语句，第一原始语句与所述第一测试语句对应，所述根据缺失检测和/或断续检测的结果对齐测试语音和原始语音，包括：

当测试语音不存在语音缺失和/或语音断续时，且当第一测试语句的起始时域位置在第一原始语句的起始时域位置之前时，在第一测试语句的起始时域位置之前插入第一静默语句，使得所述第一测试语句的起始时域位置对齐所述第一原始语句的起始时域位置，第一静默语句的时长等于第一测试语句的起始时域位置与第一原始语句的起始时域位置的时间差。

当测试语音不存在语音缺失和/或语音断续时，且当第一测试语句的起始时域位置在第一原始语句的起始时域位置之后时，在第一测试语句的起始时域位置之前删除第二静默语句，第二静默语句的时长等于第一测试语句的起始时域位置与第一原始语句的起始时域位置的时间差。

一段语音可以被划分为多个语句，每个语句即多个振幅值超过预设振幅阈值的帧的集合，任意两个相邻的语句之间存在一段静默期，静默期可以是未检测到语音活动的音频片段，静默期也可以是至少一个振幅值小于预设振幅阈值的帧的集合，例如，静默期为两句话中间的停顿。当测试语音不存在语音缺失和/或语音断续时，按照本实施例提供的方案，首先对齐原始语音和测试语音的起始时域位置，当第一测试语句的起始时域位置比第一原始语句的起始时域位置提前时，在第一测试语句前插入一段静默语音，即，第一静默语句，该第一静默语句的时长等于第一测试语句的起始时域位置与第一原始语句的起始时域位置的时间差；当第一测试语句的起始时域位置比第一原始语句的起始时域位置靠后时，在第一测试语句前删除一段静默语音，即，第二静默语句，该第二静默语句的时长等于第一测试语句的起始时域位置与第一原始语句的起始时域位置的时间差，从而对齐了原始语音的各个语句和测试语音的各个语句。

可选地，在第一测试语句的起始时域位置之前插入第一静默语句之前，或者，在第一测试语句的起始时域位置之前删除第二静默语句之前，所述根据缺失检测和/或断续检测的结果对齐测试语音和原始语音，还包括：

根据原始语音中的静默期确定至少两个原始语句，该至少两个原始语句包括第一原始语句，其中，原始语音中的静默期用于指示至少两个原始语句的划分位置；

根据测试语音中的静默期确定至少两个测试语句，该至少两个测试语句包括第一测试语句，其中，测试语音中的静默期用于指示至少两个测试语句的划分位置。

静默期也可以称为静默语句或者静默语音，指的是未检测到语音活动的音频片段，或者，至少一个振幅值小于预设振幅阈值的帧的集合，例如两句话之间的停顿时段对应的音频片段，根据本实施例提供的技术方案，可以仅对测试语音中的测试语句(或者具有语音活动的音频片段)进行异常语音识别处理，不再对测试语音中的静默语句(或者静默期)进行异常语音识别处理，例如，测试语音和原始语音的时长均为10秒，并且，测试语音的起始位置和原始语音的起始位置分别存在一段时长为1秒的静默期，则对齐语音装置可以从测试语音的第1秒的位置开始对测试语音进行异常语音识别处理，不再对测试语音的第0秒至第1秒的部分进行异常语音识别处理，从而减小了识别异常语音的工作量，提高了识别异常语音的效率。

可选地，在第一测试语句的起始时域位置之前插入第一静默语句之前，或者，在第一测试语句的起始时域位置之前添删除第二静默语句之前，所述根据缺失检测和/或断续检测的结果对齐测试语音和原始语音，还包括：

根据第一测试语句的波谷确定第一子测试语句和第二子测试语句，其中，所述波谷为第一测试语句中帧的振幅均值小于或等于振幅阈值的语音片段，该波谷用于指示第一子测试语句和第二子测试语句的划分位置；

根据互相关系数和第一子测试语句确定第一子原始语句，互相关系数用于指示第一原始语句的语音片段与第一子测试语句的相似度，第一子原始语句为第一原始语句的语音片段中与第一子测试语句的相似度最高的语音片段；

根据第一时域位置相对于第二时域位置的时间偏移量并且以第一子原始语句的时域位置为参照位置将第一子测试语句与第一子原始语句对齐，其中，第一时域位置为第一子测试语句在第一测试语句中的时域位置，第二时域位置为第一子原始语句在第一原始语句中的时域位置。

波谷可能是一句话中间的短暂停顿，因此，可以依据波谷将第一测试语句划分为至少两个子测试语句，并对齐该两个子测试语句，从而可以使得第一测试语句与第一原始语句的对齐结果更加精确，有利于提高后续异常语音识别的准确度。

可选地，根据第一时域位置相对于第二时域位置的时间偏移量并且以第一子原始语句的时域位置为参照位置将第一子测试语句与第一子原始语句对齐，包括：当时间偏移量小于或等于时延阈值时，根据第一时域位置相对于第二时域位置的时间偏移量并且以所述第一子原始语句的时域位置为参照位置将第一子测试语句与第一子原始语句对齐。

当时间偏移量大于时延阈值时，说明第一子测试语句相对于第一子原始语句的时延较大，该时延很可能是由于语音缺失或者较长时间的语音断续导致的，可以不再对第一子测试语句执行对齐处理，直接输出异常结果；当时间偏移量小于时延阈值时，说明第一子测试语句相对于第一子原始语句的时延较小，该时延可能是较短时间的语音断续导致的，或者，该时延可能是通信网络传输导致的正常时延，可以对第一子测试语句执行对齐处理，以便于进一步确定第一子测试语句是否还存在其它异常现象，上述方法可以根据实际情况确定是否进行语句内对齐，提高了语句对齐的灵活性。

可选地，所述根据缺失检测和/或断续检测的结果对齐测试语音和原始语音，还包括：

当所述测试语音的终止时域位置在所述原始语音的终止时域位置之前时，在所述测试语音的终止时域位置之后添加第三静默语句，所述第三静默语句的时长等于所述测试语音的终止时域位置与所述原始语音的终止时域位置的时间差。

当所述测试语音的终止时域位置在所述原始语音的终止时域位置之后时，在所述测试语音的终止时域位置之后删除第四静默语句，所述第四静默语句的时长等于所述测试语音的终止时域位置与所述原始语音的终止时域位置的时间差。

在对原始语音的各个语句和测试语音的各个语句执行对齐处理后，由于可能在测试语句内部执行了对齐处理，导致测试语句的时长发生变化，因此，当原始语音的各个语句与测试语音的各个语句完成对齐后，原始语音和测试语音的终止时域位置可能会出现时间偏差，上述方法可以对齐原始语音和测试语音的终止时域位置。

可选地，根据缺失检测和/或断续检测的结果对齐测试语音和原始语音之前，所述方法还包括：

根据预设的异常语音检测模型检测原始语音和测试语音，确定测试语音是否属于异常语音，该预设的异常语音检测模型为非机器学习模型，该非机器学习模型检测的内容与所述缺失检测所检测的内容相异，和/或，该非机器学习模型检测的内容与所述断续检测所检测的内容相异。

可选地，所述方法还包括：

根据机器学习模型和对齐后的原始语音检测对齐后的测试语音，确定对齐后的测试语音是否属于异常语音，或，确定对齐后的测试语音的异常类型。

预设的异常语音检测模型通常是一些常见的异常语音的检测模型，这些检测模型具有较强的针对性，能够快速检测一种或多种常见的异常语音，但是，预设的异常语音检测模型无法检测不常见的异常语音，并且，预设的语音检测模型可能会漏检常见异常语音的情况。根据本实施例提供的方案，首先利用预设的异常语音检测模型检测常见的异常语音，再利用机器学习模型检测不常见的异常语音，同时，利用机器学习模型再次检测常见的异常语音，从而能够提高异常语音检测的成功率。

第二方面，提供了一种确定对齐语音的装置，该装置可以实现上述第一方面所涉及的方法中各个步骤所对应的功能，所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的单元或模块。

在一种可能的设计中，该装置包括处理器和通信接口，该处理器被配置为支持该装置执行上述第一方面所涉及的方法中相应的功能。该通信接口用于支持该装置与其它网元之间的通信。该装置还可以包括存储器，该存储器用于与处理器耦合，其保存该装置必要的程序指令和数据。

第三方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储了计算机程序代码，该计算机程序代码被处理单元或处理器执行时，使得对齐语音的装置执行第一方面所述的方法。

第四方面，提供了一种芯片，其中存储有指令，当其在对齐语音的装置上运行时，使得该芯片执行上述第一方面的方法。

第五方面，提供了一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码被对齐语音的装置的通信单元或通信接口、以及处理单元或处理器运行时，使得对齐语音的装置执行上述第一方面的方法。

附图说明

图1是本申请提供的一种异常语音识别系统的示意性结构图；

图2是本申请提供的一种对齐语音的方法的示意性流程图；

图3是本申请提供的一种对齐测试语句和原始语句的方法的示意图；

图4是本申请提供的另一种对齐测试语句和原始语句的方法的示意图；

图5是本申请提供的再一种对齐测试语句和原始语句的方法的示意图；

图6是本申请提供的再一种对齐测试语句和原始语句的方法的示意图；

图7是本申请提供的一种语句划分方法的示意图；

图8是本申请提供的一种子语句划分方法的示意图；

图9是本申请提供的一种异常语音识别方法的示意性流程图；

图10是本申请提供的一种异常语音检测模块的工作流程示意图；

图11是本申请提供的一种内容缺失异常的示意图；

图12是本申请提供的另一种内容缺失异常的示意图；

图13是本申请提供的再一种内容缺失异常的示意图；

图14是本申请提供的一种断续异常的示意图；

图15是本申请提供的一种语音预处理模块的工作流程示意图；

图16是本申请提供的一种异常语音识别模块的示意性结构图；

图17是本申请提供的一种基于机器学习模型的训练流程的示意图；

图18是本申请提供的一种基于机器学习模型的检测流程的示意图；

图19是本申请提供的另一种异常语音识别方法的示意性流程图；

图20是本申请提供的一种待检测语音的示意图；

图21是本申请提供的一种语句划分结果的示意图；

图22是本申请提供的一种语句对齐结果的示意图；

图23是本申请提供的另一种待检测语音的示意图；

图24是本申请提供的一种对齐语音的装置的示意性结构图；

图25是本申请提供的另一种对齐语音的装置的示意性结构图。

具体实施方式

异常语音指的是用户在通话过程中主观感知到语音质量差的现象。常见的异常语音包括至少一项以下现象：

静音：在通话过程中存在有至少一方听不到对方声音。

断续：在通话过程中接听方能听到对方的声音，但声音时断时续。

小能量：在传输过程中语音能量损失过大，导致通话过程中接听方能听到对方的声音，但声音非常小。

杂音：在通话过程中正常语音掺杂有干扰音，如金属声、水流声等，导致用户听觉不适。

低质量：在通话过程中出现语音内容丢失、语音失真或回声的现象，导致用户听觉不适。

下面将结合附图，对本申请中的技术方案进行描述。

图1示出了一种适用于本申请的异常语音识别系统的示意图。该系统100包括：

语音输入模块110，用于转换输入语音的采样率。当输入的原始语音的采样率与测试语音的采样率不同时，语音输入模块110可以将该原始语音的采样率与该测试语音的采样率转换为相同的采样率，该测试语音是该原始语音经过通信网络传输后得到的语音，例如，测试语音采用16K采样率，原始语音采用8K采样率，语音输入模块110可以将测试语音的采样率降至8K后再讲原始语音和测试语音输入异常语音检测模块121。

异常语音检测模块121，基于非机器学习模型检测测试语音是否存在异常情况以及异常情况的具体类型，该非机器学习模型例如是声学回声检测模型、断续检测模型和背景噪声检测模型，该异常情况例如是低质量、断续和杂音。

语音预处理模块122，用于对齐测试语音和原始语音，以便于进行后续的异常语音检测。在本申请中，对齐语音指的是对齐两段语音的起始时域位置和终止时域位置，由于经过对齐处理的两段语音的各个语音片段都是一一对应的，因此，经过对齐处理的两段语音在进行异常语音检测时更加容易识别出异常语音。

异常语音识别模块123，基于机器学习模型检测测试语音是否在异常情况以及异常情况的具体类型，该机器学习模型例如是随机森林模型和深度神经网络模型。

上述异常语音检测模块121、语音预处理模块122和异常语音识别模块123可以是独立的模块，也可以是集成在一起的模块，例如，异常语音检测模块121、语音预处理模块122和异常语音识别模块123集成在核心异常语音识别设备120中。

合并输出模块130，将异常语音检测模块121和异常语音识别模块123检测异常语音的结果做合并处理并输出，该合并处理指的是将异常语音检测模块121和异常语音识别模块123检测得到的两个相同的结果合并为一个结果，例如，异常语音检测模块121和异常语音识别模块123均检测出测试语音存在杂音，则合并输出模块130将异常语音检测模块121和异常语音识别模块123检测得到的两个语音异常(存在杂音)合并后仅输出一个语音异常；又例如，异常语音检测模块121检测出测试语音存在断续，异常语音识别模块123识别出测试语音存在杂音，则合并输出模块130可以输出两个语音异常，即，测试语音存在断续和杂音。

系统100仅是适用于本申请的异常语音识别系统的一个例子，适用于本申请的异常语音识别系统还可以具有比系统100更多或者更少的模块，例如，适用于本申请的异常语音识别系统还可以包括显示模块，或者，适用于本申请的异常语音识别系统还可以不包括合并输出模块130。

下面，将基于图1所示的异常语音识别系统100为例对本申请提供的异常语音识别方法进行详细描述。

图2示出了本申请提供的一种对齐语音的方法的示意性流程图，该方法200包括：

S210，获取原始语音和测试语音，该测试语音为原始语音经过通信网络传输后生成的语音。

S210可以由异常语音检测模块121或异常语音识别模块123执行，上述获取原始语音和测试语音可以是接收来自语音输入模块110的原始语音和测试语音，其中，来自语音处理模块110的原始语音和测试语音可以是采样率相同的语音。作为一个可选的示例，上述获取原始语音和测试语音也可以是通过其它模块获取采样率不同的语音。

S220，对测试语音执行缺失检测和/或断续检测，其中，缺失检测用于确定测试语音相对于原始语音的是否存在语音缺失，断续检测用于确定测试语音相对于原始语音是否存在语音断续。

语音缺失属于上述低质量异常语音的一种，对测试语音执行缺失检测和/或断续检测的方法可以由异常语音检测模块121或异常语音识别模块123执行，具体的检测方法可以参考现有技术中的缺失检测方法和断续检测方法，为了简洁，在此不再赘述。

S230，根据缺失检测和/或断续检测的结果对齐测试语音和原始语音，得到对齐后的测试语音和对齐后的原始语音，其中，缺失检测和/或断续检测的结果用于指示对齐测试语音和原始语音的方式。

S230可以由语音预处理模块122执行。例如，若上述检测结果为测试语音不存在语音缺失和较长的语音断续，则可以将原始语音所包含的各个语句以及测试语音所包含的各个语句依次对齐，其中，上述不存在较长的语音断续指的是测试语音的语句相对于原始语音的语句的时延小于时延阈值；又例如，若上述检测结果为测试语音存在语音缺失了第一个语句，则可以将原始语音所包含的除第一个语句之外的各个语句以及测试语音所包含的各个语句依次对齐；再例如，若上述检测结果为测试语音不存在语音缺失但存在较长的语音断续，即，测试语音的语句相对于原始语音的语句的时延大于时延阈值，为了进一步确定测试语音是否存在其它异常现象，可以增大时延阈值，以便于进行进一步的异常检测，也可以不再对齐测试语音和原始语音，直接输出异常结果。

需要说明的是，即使执行S220时使用的原始语音和测试语音为采样率不同的语音，为了确保对齐结果的精确度(或者称为“对齐结果的准确性”)，在对测试语音和原始语音执行对齐处理时仍需要将测试语音和原始语音的采样率转变为相同的采样率。

应理解，方法200可以通过运行于通用处理器上的程序代码实现，也可以通过专用硬件设备实现，还可以通过软硬结合(程序代码与专用硬件设备结合)的方式实现。

可选地，原始语音包括第一原始语句，测试语音包括第一测试语句，第一原始语句与所述第一测试语句对应，S230包括：

当测试语音不存在语音缺失和/或语音断续时，且当第一测试语句的起始时域位置在第一原始语句的起始时域位置之前时，在第一测试语句的起始时域位置之前插入第一静默语句，使得所述第一测试语句的起始时域位置对齐所述第一原始语句的起始时域位置，第一静默语句的时长等于第一测试语句的起始时域位置与第一原始语句的起始时域位置的时间差；或者，

一段语音可以被划分为多个语句，每个语句即多个振幅值超过预设振幅阈值的帧的集合，任意两个相邻的语句之间存在一段静默期，静默期可以是未检测到语音活动的音频片段，静默期也可以是至少一个振幅值小于预设振幅阈值的帧的集合，例如，静默期为两句话中间的停顿。

第一原始语句为原始语音中的任意一个语句，原始语音可以仅包含第一原始语句，也可以包含除第一原始语句之外的语句，相应地，测试语音可以仅包含第一测试语句，也可以包含除第一测试语句之外的语句。

当测试语音不存在语音缺失和/或语音断续时，按照本实施例提供的方案，首先对齐原始语音和测试语音的起始时域位置，当第一测试语句的起始时域位置比第一原始语句的起始时域位置提前时，在第一测试语句前插入一段静默语音，即，第一静默语句，该第一静默语句的时长等于第一测试语句的起始时域位置与第一原始语句的起始时域位置的时间差；当第一测试语句的起始时域位置比第一原始语句的起始时域位置靠后时，在第一测试语句前删除一段静默语音，即，第二静默语句，该第二静默语句的时长等于第一测试语句的起始时域位置与第一原始语句的起始时域位置的时间差，从而对齐了原始语音的各个语句和测试语音的各个语句。

需要说明的是，上述“插入”指的是在第一测试语句的起始时域位置之前的任一时域位置加入一段静默语音，使得第一测试语句沿时间轴方向整体推移一段距离，例如，原始语音和测试语音的起始时域位置均为0秒(s)，即，原始语音和测试语音的起始时域位置处于对齐状态，第一原始语句的起始时域位置为10s，第一测试语句的起始时域位置为5s，即，第一测试语句的起始时域位置在第一原始语句的起始时域位置之前，此时，可以在测试语音的0～5s的时域位置中的任意一点插入一段静默语音(即，第一静默语句)，使得第一测试语句沿时间轴方向整体向后移动5s，从而对齐了第一测试语句的起始时域位置和所述第一原始语句的起始时域位置。

图3至图6分别示出了本申请提供的几种对齐测试语句和原始语句的方法。

如图3所示，第一测试语句在测试语音中的位置(第一位置)相对于第一原始语句在原始语音中的位置(第二位置)延后了一段时长，为了对齐第一原始语句和第一测试语句，可以在第一测试语句前删除一段静默语音，删除的这段静默语音称为第二静默语句，第二静默语句的时长等于第一位置相对于第二位置延后的时长，从而对齐了第一原始语句和第一测试语句。

需要说明的是，在本申请中，为了描述简洁，有时会将“时域位置”简称为“位置”。

如图4所示，第一测试语句在测试语音中的位置(第一位置)相对于第一原始语句在原始语音中的位置(第二位置)提前了一段时长，为了对齐第一原始语句和第一测试语句，可以在第一测试语句前添加一段静默语音，添加的这段静默语音称为第一静默语句，第一静默语句的时长等于第一位置相对于第二位置提前的时长，从而对齐了第一原始语句和第一测试语句。

如图5所示，第一测试语句为测试语音的最后一个语句，第一原始语句为原始语音的最后一个语句，第一测试语句与第一原始语句的起始时域位置已对齐，由于第一测试语句内部做了对齐处理(例如，对齐第一测试语句的子语句和第一原始语句的子语句)，导致第一测试语句的时长变长，因此，测试语音的终止位置位于原始语音的终止位置之后，为了对齐测试语音和原始语音，可以在测试语音的终止位置之前删除一段静默语音，删除的这段静默语音称为第四静默语句，第四静默语句的时长等于测试语音的终止位置相对于原始语音的终止位置延后的时长，从而对齐了原始语音和测试语音。

如图6所示，第一测试语句为测试语音的最后一个语句，第一原始语句为原始语音的最后一个语句，第一测试语句与第一原始语句的起始时域位置已对齐，由于第一测试语句内部做了对齐处理(例如，对齐第一测试语句的子语句和第一原始语句的子语句)，导致第一测试语句的时长变短，因此，测试语音的终止位置位于原始语音的终止位置提前，为了对齐测试语音和原始语音，可以在测试语音的终止位置之后添加一段静默语音，添加的这段静默语音称为第三静默语句，第三静默语句的时长等于测试语音的终止位置相对于原始语音的终止位置提前的时长，从而对齐了原始语音和测试语音。

可选地，在第一测试语句的起始时域位置之前添加第一静默语句之前，或者，在第一测试语句的起始时域位置之前删除第二静默语句之前，S230还包括：

根据原始语音中的静默期确定至少两个原始语句，该至少两个原始语句包括第一原始语句，其中，原始语音中的静默期用于指示至少两个原始语句的划分位置。

图7示出了本申请提供的一种语句划分的方法的示意图。

图7中，横轴表示时间，纵轴表示振幅，可以根据语音活动检测算法(voice activity detection，VAD)算法为一段语音划分语句，VAD算法可以做如下设定：当一个语音片段包含至少300ms的连续语音活动时，可将该连续语音活动划分为一个片段。图7所示的语音包含3个连续语音活动时间超过300ms的片段，可以将该语音划分为3个片段。

片段划分完成后，可以做如下处理：

若片段S _i的终点与片段S _i+1的起点的时间间隔小于静默期阈值(例如，200ms)，则片段S _i与S _i+1可合并为一个语句；

若片段S _i终点与片段S _i+1起点间的间隔不小于静默期阈值，则将片段S _i与S _i+1划分为两个语句；

若片段S _i之后再没有其他片段，得到最后一个包含S _i的语句后结束。

从而完成了语句的划分。

可选地，在第一测试语句的起始时域位置之前插入第一静默语句之前，或者，在第一测试语句的起始时域位置之前添删除第二静默语句之前，S230还包括：

根据第一测试语句的波谷确定第一子测试语句和第二子测试语句，其中，该波谷为第一测试语句中帧的振幅均值小于或等于振幅阈值的语音片段，该波谷用于指示第一子测试语句和第二子测试语句的划分位置；

可选地，根据第一时域位置相对于第二时域位置的时间偏移量并且以第一子原始语句的时域位置为参照位置将第一子测试语句与第一子原始语句对齐，包括：

当时间偏移量小于或等于时延阈值时，根据第一时域位置相对于第二时域位置的时间偏移量并且以所述第一子原始语句的时域位置为参照位置将第一子测试语句与第一子原始语句对齐。

当时间偏移量大于时延阈值时，说明第一子测试语句相对于第一子原始语句的时延较大，该时延很可能是由于语音缺失或者较长的语音断续导致的，可以不再对第一子测试语句执行对齐处理，直接输出异常结果；当时间偏移量小于时延阈值时，说明第一子测试语句相对于第一子原始语句的时延较小，该时延可能是较短的语音断续导致的，或者，该时延可能是通信网络传输导致的正常时延，可以对第一子测试语句执行对齐处理，以便于进一步确定第一子测试语句是否还存在其它异常现象，上述方法可以根据实际情况确定是否进行语句内对齐，提高了语句对齐的灵活性。

图8示出了本申请提供的一种子语句划分的方法的示意图。

将第一测试语句按照帧长为20ms、帧移为10ms划分为若干帧，计算每帧内语音波形的振幅均值。若某一帧的振幅均值小于200，则将该帧视为波谷。以波谷为分界点，将第一测试语句划分为若干子语句(即，子测试语句)。

基于图8划分的第一测试语句的子语句，计算第一原始语句y中与子测试语句x _i(x _i为第一测试语句中的任一子测试语句)对应的语音片段，并计算x _i相对于该语音片段的时延τ _i，计算方法如下：

其中，corr(x _i,y)是利用互相关系数计算得到的子测试语句x _i在第一原始语句y中的最相似位置，即，与子测试语句x _i对应的语音片段在第一原始语句y中的位置，

是子测试语句x _i在第一测试语句中的偏移量，n是计算互相关系数时的偏差，N是子测试语句x _i的时间长度，M是第一原始语句y的时间长度，若τ _i大于预先设置的异常时延阈值(也可简称为“时延阈值”)，则说明x _i相对于第一原始语句中的子原始语句的时延较大，对该时延很可能是由于语音缺失或者较长时间的语音断续导致的，可以不再对x _i执行对齐处理，或者，为了确定x _i是否存在其它异常，可以增大异常时延阈值，以便于进一步对x _i进行异常检测。若τ _i小于预先设置的异常时延阈值，则说明x _i相对于第一原始语句中的子原始语句的时延较小，该时延可能是较短的语音断续导致的时延或者通信网络传输导致的正常时延，可以对x _i执行对齐处理，以便于进一步确定x _i是否还存在其它异常现象。

可选地，S230还包括：

当所述测试语音的终止时域位置在所述原始语音的终止时域位置之前时，在所述测试语音的终止时域位置之后添加第三静默语句，所述第三静默语句的时长等于所述测试语音的终止时域位置与所述原始语音的终止时域位置的时间差；或者，

可选地，根据缺失检测和/或断续检测的结果对齐测试语音和原始语音之前，方法200还包括：

若S220执行了缺失检测，则上述步骤不再执行缺失检测；若S220执行了断续检测，则上述步骤不再执行断续检测；若S220执行了缺失检测和断续检测，则上述步骤不再执行缺失检测和断续检测。从而避免了与重复检测，提高了检测效率。

上述步骤可以在S230之前的任一时刻执行。

由于预设的异常语音检测模型通常是一些常见的异常语音的检测模型(非机器学习模型)，这些检测模型具有较强的针对性，能够快速检测一种或多种常见的异常语音，因此，上述步骤可以快速确定测试语音是否存在常见的异常现象。

可选地，方法200还包括：

由于预设的异常语音检测模型无法检测不常见的异常语音，并且，预设的语音检测模型可能会漏检常见异常语音的情况。根据本实施例提供的方案，首先利用预设的异常语音检测模型检测常见的异常语音，再利用机器学习模型对测试语音进检测，确定测试语音是否存在未知异常现象，和/或，确定测试语音是否存在非机器学习模型漏检的异常现象，从而能够提高测试语音异常现象的检出概率。

下面，基于上文描述的本申请涉及的共性特征，对本申请实施例做进一步详细说明。

图9是本申请提供的一种异常语音识别方法的示意性流程图。

用户输入的一对语音(原始语音和测试语音)首先会经过语音输入模块110的转换，转换后的两段语音(原始语音和测试语音)传给异常语音检测模块121，该模块判断测试语音是否存在静音、小能量等异常问题，若检测出异常，则将检测出异常的结果传给合并输出模块130作为最终的异常识别结果，若未检测出异常，则将未检测出异常的语音传给语音预处理模块122。

传入语音预处理模块122的语音在完成信号预处理和语句划分工作后，会被传入异常语音检测模块121。异常语音检测模块121针对第二次传入的两段语音，判断测试语音是否存在语句缺失、断续等异常问题，若检测出异常，则将检测出异常的结果传给合并输出模块130，作为最终的异常识别结果，若未检测出异常，则将未检测出异常的语音传给语音预处理模块122，语音预处理模块122针对第二次传入的语音进行时间上的对齐，并将对齐后的两段语音传给异常语音识别模块123，进行进一步的异常识别，然后将识别结果输出到合并输出模块130。最后，合并输出模块130合并异常语音检测模块121与异常语音识别模块123的结果，作为该对语音的最终检测结果。

异常语音检测模块121执行异常检测的流程如图10所示。图10所示的方法的步骤包括：

静音判断1001：利用VAD算法对输入的两段语音分别进行滑窗检测，记录各语音片段的端点。若算法在测试语音上未检测到语音活动，而在原始语音上检测到语音活动，则认为该测试语音存在静音异常，并将静音异常作为异常检测结果传入合并输出模块130，否则，执行小能量判断1002。

小能量判断1002：若在上一步静音判断中未检测到静音异常，则在该步中分别计算原始语音和测试语音的响度值。将测试语音较原始语音间的响度损耗值(测试语音响度-原始语音响度)输入小能量异常判断的分类器A中，若分类器A的分类结果是异常，则认为该测试语音存在小能量异常，并将小能量异常作为异常检测结果传入合并输出模块130，否则，将该组语音传入语音预处理模块122。

语句缺失判断1003：语音预处理模块122完成语句划分的信号预处理后，语音预处理模块122将处理结果传入异常语音检测模块121，并进行语句缺失的异常判断。在经过语音预处理后，两段语音都已按照语音活动被划分为若干语句，并得到基于静默期的语句划分结果。比较原始语音划分的语句数量(Utt _ref)和测试语音划分的语句数量(Utt _de)，若Utt _ref≠Utt _de，则异常语音检测模块121判断该测试语句出现内容缺失异常，若Utt _ref＝Utt _de，但测试语句与原始语句的长度之比小于0.9，异常语音检测模块121也判断该测试语句存在内容缺失异常，并将内容缺失异常作为异常检测结果传入合并输出模块130，否则，异常语音检测模块121执行断续判断1004。

内容缺失异常的示例如图11至图13所示，图11中，由于测试语音中第二个语句内出现了较长时间的内容缺失，导致出现Utt _ref<Utt _de的情况，其中，左侧为原始语音，右侧为测试语音，Utt _ref＝2，Utt _de＝3。图12中，由于测试语音丢失了原始语音中的第二个语句，导致出现Utt _ref>Utt _de的情况，其中，左侧为原始语音，右侧为测试语音，Utt _ref＝2，Utt _de＝1。图13中，由于测试语音丢失了第二个语句的开头内容，导致该语句在测试语音中的长度l _de远小于其在原始语音中的长度l _ref,l _ref/l _de<0.9，其中，左侧为原始语音，右侧为测试语音， Utt _ref＝2，Utt _de＝2。

断续判断1004：若在上一步语句缺失判断中未检测到异常，则在该步骤中判断测试语音是否存在断续问题。利用语句划分过程中所记录的语音片段端点信息，分别计算原始语音和测试语音中各语句内的静默期时长，将测试语句与原始语句间的静默期时长差值输入断续异常判断的分类器B中，若分类器B的分类结果为异常，则异常语音检测模块121判断该测试语音存在断续异常，并将断续异常作为异常检测结果传入合并输出模块130，否则，将该组语音再次传入语音预处理模块122。

图14为基于静默期判断断续异常的示例，假设在测试语音的第一个语句中，语音片段S11和S12间的静默期长度为len ₁，第二个语句中片段S21与S22间的静默期长度为len ₂，而在原始语音对应的语句中，静默期长度分别为len ₁'和len' ₂,在将len ₁-len ₁'与len ₂-len' ₂分别输入到分类器B中，由于分类器B将len ₂与len' ₂的差值检测为异常，则该测试语音内存在断续异常问题。

上述异常检验中所用到的分类器A和B可以基于训练数据集通过机器学习的方法获得。

分类器A的训练方案如下：

挑选出训练数据集中所有的正常样本对与小能量异常样本对，得到用于训练分类器A的子训练数据集；

计算子训练数据集内各样本对间的响度差值(测试语音响度减去原始语音响度)；

采用标准的训练方法，利用各响度差值和其对应的样本标注进行分类器A的训练，得到分类器参数。

分类器B的训练方案：

挑选出训练数据集中所有的正常样本对和断续异常样本对，将所有挑选出的样本对依次输入语音预处理模块中完成语句划分的语音预处理工作，得到所有样本对内的语句对；

将正常样本对划分出的语句对全部标注为正常，将断续异常样本对划分出的语句对进行重新标注，只有存在断续情况的语句对标注为异常，其余情况标注为正常，得到用于训练分类器B的子训练数据集；

计算子训练数据集内各语句对间的静默期时长差值(测试语句的静默期长度减去原始语句的静默期长度)；

采用标准的训练方法，利用各静默期时长差值和其对应的标注进行分类器B的训练，得到分类器参数。

下面对语音预处理模块122的工作流程进行详细描述。

图15示出了本申请提供的一种语音预处理模块122的示意性工作流程图。该工作流程所包含的步骤如下。

信号预处理1501：为减少不同语音系统间的系统增益差别，突出对听觉感知重要的频率成分，语音预处理模块122会将两段语音的电平调整至标准的听觉电平，并利用带通滤波器进行滤波。

语句划分1502：基于异常语音检测模块中静音判断时所记录的语音片段端点，分别对原始语音和测试语音进行语句划分，并将语句划分结果传入语音异常检测模块121。语句划分的示例可参考图7所示的方法。

时间对齐1503：当测试语音和原始语音再次进入语音预处理模块时，说明测试语音已通过了语句缺失与语句断续的异常检测，该测试语音内未检测到语句缺失和语句断续问题。因此，可以确定测试语音中的语句与原始语音中的语句是一一对应的，可以对测试语句执行语句内对齐处理。

基于图8所示的方法将测试语音的各个语句划分为不同的子测试语句，若τ _i大于0，说明子测试语句x _i在第一测试语句中的时域位置比对应的语音片段在第一原始语句中的时域位置更加靠后，可以以x _i的开始点(起始时域位置)为起点，向前移除一段波谷(该段波谷的时间长度等于τ _i的值)。若τ _i小于0，说明子测试语句x _i在第一测试语句中的时域位置比对应的语音片段在第一原始语句中的时域位置更加靠前，以x _i的开始点(起始时域位置)为起点，向后插入一段静默期片段(该静默期片段的时间长度等于τ _i的绝对值)。若τ _i等于0，说明子测试语句x _i在第一测试语句中的时域位置与对应的语音片段在第一原始语句中的时域位置相同，无需做对齐处理。

对第一测试语句执行语句内对齐处理后，可以将测试语音中未进行语句内对齐处理的第一测试语句替换为进行语句内对齐处理后的第一测试语句，并基于图3至图5所示的方法对齐第一测试语句和第一原始语句。

图16示出了本申请提供的一种异常语音识别模块123的示意性结构图。异常语音识别模块123基于机器学习模型对原始语音和测试语音进行异常检测。异常语音识别模块123进行异常语音检测的流程包括训练流程和检测流程，其中，训练流程为可选的流程，异常语音识别模块123可以使用训练好的模型执行检测流程。

训练流程如下所示。

特征提取：为了描述测试语音和原始语音间的差异性，异常语音识别模块123首先以帧为单位分别在两段语音上提取语音特征参数，该语音特征包括但不仅限于表1中所示的语音特征；然后异常语音识别模块123计算两段语音内各组特征参数的差值，例如，原始语音的Mel倒谱系数(Mel-frequency cepstral coefficients，MFCC)与测试语音的MFCC的差值；最后基于整段语音(原始语音和测试语音)的特征差值，利用包括但不仅限于表2中的统计方法提取整段语音的各组特征参数的统计特征，得到一对语音间维数固定的差异特征。

表1

表2

异常识别：利用机器学习模型(随机森林、深度神经网络等)学习测试语音在何种差异情况下属于异常语音，以及属于具体哪种异常语音类型。异常语音类型不限于分为静音、小能量、断续、杂音、低质量五个大类，还可细分为静音、小能量、断续、金属音、流水音、内容缺失、回声、失真等更具体的类型。

基于机器学习模型的训练流程如图17所示，在对T个训练样本完成特征提取后，所有得到的差异描述特征将和其各自对应的异常标注(无异常或具体的异常类型)一同输入到多分类的机器学习模型中，得到学习后的异常识别模型。其中，异常识别模型主要包含了差异描述特征x和标注y间的映射关系。

基于机器学习模型的检测流程如图18所示。

首先输入一对语音提取其差异特征。

基于上述机器学习模型计算该对语音属于各类异常的概率(或得分)，其中，上述机器学习模型包括各类异常与差异特征的对应关系。

将概率(或得分)最高的异常类型认定为异常分类结果。其中，若各类异常的概率(或得分)的值不满足预设条件，则可认为该对语音中的测试语音属于正常语音。

图19是本申请提供的另一异常语音识别方法的示意性流程图。

首先输入如图20所示的一对待测语音(均为8K采样率)，然后进行异常语音检测模块121的第一部分检测，即，执行静音判断1001和小能量判断1002，以排除测试语音中可能存在静音异常和小能量异常。随后利用语音预处理模块122执行信号预处理1501和语句划分1502，得到图21所示的结果，表3为语句划分的结果。

表3

测试语音和原始语音再次进入异常语音检测模块121进行第二部分异常检验，即，异常语音检测模块121执行缺失判断1003和断续判断1004，基于语句划分结果，Utt _ref和Utt _de均为2，l _ref/l _de>0.9，测试语音的两个语句均未检测到静默期，排除测试语音中可能存在的内容缺失和断续问题，随后异常语音检测模块121将测试语音和原始语音传入语音预处理模块122内进行进一步处理。

经过异常语音检测模块121的检测，上述测试语音不存在内容缺失和断续问题。语音预处理模块122依次对各测试语句执行子语句划分、子语句的时延计算和语句内的对齐，并利用对齐后的各测试语句完成语句间的对齐，对齐后的结果如图22所示。

特征提取器1231提取测试语音和原始语音的差异特征，异常识别器1232对差异特征进行分类，上述示例中的测试语音被识别为存在流水声的异常语音，异常识别器1232将该结果传给合并输出模块130。

合并输出模块130将异常语音识别模块123的输出结果作为最终的输出显示给用户：

“该测试语音是异常语音，存在杂音(流水声)问题。”

在本实施例中，测试语音较原始语音存在明显的时延问题，其中掺杂的杂音对波形的影响不明显，因此，基于非机器学习模型进行检测的步骤未能识别出异常，通过时间对齐1503，测试语音中的各个语句和子语句与原始语音中的片段能够快速被对齐，此时通过基于机器学习模型的异常检测模型检测出测试语音的异常，从而提高了异常检测效率。

基于图19所示的流程，另一示例如下所述，

首先输入如图23所示的一对待测语音(均为8K采样率)，然后进行异常语音检测模块121的第一部分检测，即，执行静音判断1001和小能量判断1002，以排除测试语音中可能存在静音异常和小能量异常。随后利用语音预处理模块122执行信号预处理1501和语句划分1502。

测试语音和原始语音再次进入异常语音检测模块121进行第二部分异常检验，即，异常语音检测模块121执行缺失判断1003和断续判断1004，基于语句划分结果，Utt _ref和Utt _de均相等，且l _ref/l _de>0.9，则排除测试语音中可能存在的内容缺失，若测试语句与原始语句间的静默期时长差值大于预先设置的断续阈值T _d，则认为测试语音中存在断续异常问题，并将异常结果直接传入合并输出模块130内进行进一步处理。

合并输出模块130将异常语音检测模块121的输出结果作为最终的输出显示给用户：

“该测试语音是异常语音，存在断续问题。”

在本实施例中，测试语音内存在断续问题，基于非机器学习模型的检测方法无需进行训练即可检测异常，从而提高了语音异常检测的效率。上述实施例仅是举例说明，合并输出模块130也可以缓存异常语音检测模块121的检测结果，等待异常语音识别模块123的检测结果，并将二者的检测结果合并后输出，从而可以更全面的检测测试语音存在的异常现象。

上文详细介绍了本申请提供的对齐语音的方法的示例。可以理解的是，对齐语音的装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本申请可以根据上述方法示例对对齐语音的装置进行功能单元的划分，例如，可以按照图2所示的方式对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

在采用集成的单元的情况下，图24示出了上述实施例中所涉及的对齐语音的装置的一种可能的结构示意图。对齐语音的装置2400包括：获取单元2401、检测单元2402和对齐单元2403。检测单元2402和对齐单元2403用于支持对齐语音的装置2400执行图2 所示的检测和对齐步骤。获取单元2401于获取原始语音和测试语音。获取单元2401、检测单元2402和对齐单元2403还可以用于执行本文所描述的技术的其它过程。对齐语音的装置2400还可以包括存储单元，用于存储对齐语音的装置2400的程序代码和数据。

获取单元2401用于：获取原始语音和测试语音，该测试语音为该原始语音经过通信网络传输后生成的语音；

检测单元2402用于：对所述获取单元2401获取的所述测试语音执行缺失检测和/或断续检测，缺失检测用于确定测试语音相对于原始语音是否存在语音缺失，断续检测用于确定测试语音相对于原始语音是否存在语音断续；

对齐单元2403用于：根据检测单元2402的缺失检测和/或断续检测的结果对齐测试语音和原始语音，得到对齐后的测试语音和对齐后的原始语音，其中，缺失检测和/或断续检测的结果用于指示对齐测试语音和原始语音的方式。

检测单元2402和对齐单元2403可以是处理单元的组成部分，处理单元可以是处理器或控制器，例如可以是中央处理器(central processing unit，CPU)，通用处理器，数字信号处理器(digital signal processor，DSP)，专用集成电路(application-specific integrated circuit，ASIC)，现场可编程门阵列(field programmable gate array，FPGA)或者其它可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。所述处理器也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等等。获取单元2401可以是收发器或通信接口。存储单元可以是存储器。

当处理单元为处理器，获取单元2401为通信接口，存储单元为存储器时，本申请所涉及的对齐语音的装置可以为图25所示的装置。

参阅图25所示，该装置2500包括：处理器2502、通信接口2501和存储器2503。其中，通信接口2501、处理器2502以及存储器2503可以通过内部连接通路相互通信，传递控制和/或数据信号。

本领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

本申请提供的对齐语音的装置2400和对齐语音的装置2500，根据缺失检测和/或断续检测的结果确定对齐语音的方法，可以根据测试语音的具体情况使用最合适的方法进行语音对齐，从而提高了对齐语音的效率。

装置实施例和方法实施例中完全对应，由相应的模块执行相应的步骤，例如获取单元执行方法实施例中的获取步骤，除获取步骤以外的其它步骤可以由处理单元或处理器执行。具体单元的功能可以参考相应的方法实施例，不再详述。

在本申请各个实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请的实施过程构成任何限定。

另外，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

结合本申请公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于随机存取存储器(random access memory，RAM)、闪存、只读存储器(read only memory，ROM)、可擦除可编程只读存储器(erasable programmable ROM，EPROM)、电可擦可编程只读存储器(electrically EPROM，EEPROM)、寄存器、硬盘、移动硬盘、只读光盘(CD-ROM)或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于对齐语音的装置中。当然，处理器和存储介质也可以作为分立组件存在于对齐语音的装置中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(digital versatile disc，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

一种对齐语音的方法，其特征在于，包括：

获取原始语音和测试语音，所述测试语音为所述原始语音经过通信网络传输后生成的语音；

对所述测试语音执行缺失检测和/或断续检测，所述缺失检测用于确定所述测试语音相对于所述原始语音是否存在语音缺失，所述断续检测用于确定所述测试语音相对于所述原始语音是否存在语音断续；

根据所述缺失检测和/或所述断续检测的结果对齐所述测试语音和所述原始语音，得到对齐后的测试语音和对齐后的原始语音，其中，所述缺失检测和/或所述断续检测的结果用于指示对齐所述测试语音和所述原始语音的方式。
根据权利要求1所述的方法，其特征在于，所述原始语音包括第一原始语句，所述测试语音包括第一测试语句，所述第一原始语句与所述第一测试语句对应，

所述根据所述缺失检测和/或所述断续检测的结果对齐所述测试语音和所述原始语音，包括：

当所述测试语音不存在语音缺失和/或语音断续时，且当所述第一测试语句的起始时域位置在所述第一原始语句的起始时域位置之前时，在所述第一测试语句的起始时域位置之前插入第一静默语句，所述第一静默语句的时长等于所述第一测试语句的起始时域位置与所述第一原始语句的起始时域位置的时间差；或者，

当所述测试语音不存在语音缺失和/或语音断续时，且当所述第一测试语句的起始时域位置在所述第一原始语句的起始时域位置之后时，在所述第一测试语句的起始时域位置之前删除第二静默语句，所述第二静默语句的时长等于所述第一测试语句的起始时域位置与所述第一原始语句的起始时域位置的时间差。
根据权利要求2所述的方法，其特征在于，在所述第一测试语句的起始时域位置之前插入第一静默语句之前，或者，在所述第一测试语句的起始时域位置之前删除第二静默语句之前，所述根据所述缺失检测和/或所述断续检测的结果对齐所述测试语音和所述原始语音，还包括：

根据所述原始语音中的静默期确定至少两个原始语句，所述至少两个原始语句包括所述第一原始语句，其中，所述原始语音中的静默期用于指示所述至少两个原始语句的划分位置；并且，

根据所述测试语音中的静默期确定至少两个测试语句，所述至少两个测试语句包括所述第一测试语句，其中，所述测试语音中的静默期用于指示所述至少两个测试语句的划分位置。
根据权利要求2或3所述的方法，其特征在于，在所述第一测试语句的起始时域位置之前插入第一静默语句之前，或者，在所述第一测试语句的起始时域位置之前删除第二静默语句之前，所述根据所述缺失检测和/或所述断续检测的结果对齐所述测试语音和所述原始语音，还包括：

根据所述第一测试语句的波谷确定第一子测试语句和第二子测试语句，其中，所述波谷为所述第一测试语句中帧的振幅均值小于或等于振幅阈值的语音片段，所述波谷用于指示所述第一子测试语句和所述第二子测试语句的划分位置；

根据互相关系数和所述第一子测试语句确定第一子原始语句，所述互相关系数用于指示所述第一原始语句的语音片段与所述第一子测试语句的相似度，所述第一子原始语句为所述第一原始语句的语音片段中与所述第一子测试语句的相似度最高的语音片段；

根据第一时域位置相对于第二时域位置的时间偏移量并且以所述第一子原始语句的时域位置为参照位置将所述第一子测试语句与所述第一子原始语句对齐，其中，所述第一时域位置为所述第一子测试语句在所述第一测试语句中的时域位置，所述第二时域位置为所述第一子原始语句在所述第一原始语句中的时域位置。
根据权利要求4所述的方法，其特征在于，所述根据第一时域位置相对于第二时域位置的时间偏移量并且以所述第一子原始语句的时域位置为参照位置将所述第一子测试语句与所述第一子原始语句对齐，包括：

当所述时间偏移量小于或等于时延阈值时，根据第一时域位置相对于第二时域位置的时间偏移量并且以所述第一子原始语句的时域位置为参照位置将所述第一子测试语句与所述第一子原始语句对齐。
根据权利要求1至5中任一项所述的方法，其特征在于，所述根据所述缺失检测和/或所述断续检测的结果对齐所述测试语音和所述原始语音，还包括：

当所述测试语音的终止时域位置在所述原始语音的终止时域位置之前时，在所述测试语音的终止时域位置之后添加第三静默语句，所述第三静默语句的时长等于所述测试语音的终止时域位置与所述原始语音的终止时域位置的时间差；或者，

当所述测试语音的终止时域位置在所述原始语音的终止时域位置之后时，在所述测试语音的终止时域位置之后删除第四静默语句，所述第四静默语句的时长等于所述测试语音的终止时域位置与所述原始语音的终止时域位置的时间差。
根据权利要求1至6中任一项所述的方法，其特征在于，

所述根据所述缺失检测和/或所述断续检测的结果对齐所述测试语音和所述原始语音之前，所述方法还包括：

根据预设的异常语音检测模型检测所述测试语音，确定所述测试语音是否属于异常语音，所述预设的异常语音检测模型为非机器学习模型，所述非机器学习模型检测的内容与所述缺失检测所检测的内容相异，和/或，所述非机器学习模型检测的内容与所述断续检测所检测的内容相异。
根据权利要求1至7中任一项所述的方法，其特征在于，所述方法还包括：

根据机器学习模型和所述对齐后的原始语音检测所述对齐后的测试语音，确定所述对齐后的测试语音是否属于异常语音，或，确定所述对齐后的测试语音的异常类型。
一种对齐语音的装置，其特征在于，包括获取单元、检测单元和对齐单元，

所述获取单元用于：获取原始语音和测试语音，所述测试语音为所述原始语音经过通信网络传输后生成的语音；

所述检测单元用于：对所述测试语音执行缺失检测和/或断续检测，所述缺失检测用于确定所述测试语音相对于所述原始语音是否存在语音缺失，所述断续检测用于确定所述测试语音相对于所述原始语音是否存在语音断续；

所述对齐单元用于：根据所述缺失检测和/或所述断续检测的结果对齐所述测试语音和所述原始语音，得到对齐后的测试语音和对齐后的原始语音，其中，所述缺失检测和/或所述断续检测的结果用于指示对齐所述测试语音和所述原始语音的方式。
根据权利要求9所述的装置，其特征在于，所述原始语音包括第一原始语句，所述测试语音包括第一测试语句，所述第一原始语句与所述第一测试语句对应，

所述对齐单元具体用于：

当所述测试语音不存在语音缺失和/或语音断续时，且当所述第一测试语句的起始时域位置在所述第一原始语句的起始时域位置之前时，在所述第一测试语句的起始时域位置之前插入第一静默语句，所述第一静默语句的时长等于所述第一测试语句的起始时域位置与所述第一原始语句的起始时域位置的时间差；或者，

当所述测试语音不存在语音缺失和/或语音断续时，且当所述第一测试语句的起始时域位置在所述第一原始语句的起始时域位置之后时，在所述第一测试语句的起始时域位置之前删除第二静默语句，所述第二静默语句的时长等于所述第一测试语句的起始时域位置与所述第一原始语句的起始时域位置的时间差。
根据权利要求10所述的装置，其特征在于，在所述第一测试语句的起始时域位置之前插入第一静默语句之前，或者，在所述第一测试语句的起始时域位置之前删除第二静默语句之前，所述对齐单元具体还用于：

根据所述原始语音中的静默期确定至少两个原始语句，所述至少两个原始语句包括所述第一原始语句，其中，所述原始语音中的静默期用于指示所述至少两个原始语句的划分位置；并且，

根据所述测试语音中的静默期确定至少两个测试语句，所述至少两个测试语句包括所述第一测试语句，其中，所述测试语音中的静默期用于指示所述至少两个测试语句的划分位置。
根据权利要求10或11所述的装置，其特征在于，在所述第一测试语句的起始时域位置之前插入第一静默语句之前，或者，在所述第一测试语句的起始时域位置之前删除第二静默语句之前，所述对齐单元具体还用于：

根据所述第一测试语句的波谷确定第一子测试语句和第二子测试语句，其中，所述波谷为所述第一测试语句中帧的振幅均值小于或等于振幅阈值的语音片段，所述波谷用于指示所述第一子测试语句和所述第二子测试语句的划分位置；

根据互相关系数和所述第一子测试语句确定第一子原始语句，所述互相关系数用于指示所述第一原始语句的语音片段与所述第一子测试语句的相似度，所述第一子原始语句为所述第一原始语句的语音片段中与所述第一子测试语句的相似度最高的语音片段；

根据第一时域位置相对于第二时域位置的时间偏移量并且以所述第一子原始语句的时域位置为参照位置将所述第一子测试语句与所述第一子原始语句对齐，其中，所述第一时域位置为所述第一子测试语句在所述第一测试语句中的时域位置，所述第二时域位置为所述第一子原始语句在所述第一原始语句中的时域位置。
根据权利要求12所述的装置，其特征在于，所述对齐单元具体还用于：

当所述时间偏移量小于或等于时延阈值时，根据第一时域位置相对于第二时域位置的时间偏移量并且以所述第一子原始语句的时域位置为参照位置将所述第一子测试语句与所述第一子原始语句对齐。
根据权利要求9至13中任一项所述的装置，其特征在于，所述对齐单元具体还用于：

当所述测试语音的终止时域位置在所述原始语音的终止时域位置之前时，在所述测试语音的终止时域位置之后添加第三静默语句，所述第三静默语句的时长等于所述测试语音的终止时域位置与所述原始语音的终止时域位置的时间差；或者，

当所述测试语音的终止时域位置在所述原始语音的终止时域位置之后时，在所述测试语音的终止时域位置之后删除第四静默语句，所述第四静默语句的时长等于所述测试语音的终止时域位置与所述原始语音的终止时域位置的时间差。
根据权利要求9至14中任一项所述的装置，其特征在于，

所述根据所述缺失检测和/或所述断续检测的结果对齐所述测试语音和所述原始语音之前，所述检测单元具体用于：

根据预设的异常语音检测模型检测所述原始语音和所述测试语音，确定所述测试语音是否属于异常语音，所述预设的异常语音检测模型为非机器学习模型，所述非机器学习模型检测的内容与所述缺失检测所检测的内容相异，和/或，所述非机器学习模型检测的内容与所述断续检测所检测的内容相异。
根据权利要求9至15中任一项所述的装置，其特征在于，所述检测单元还用于：

根据机器学习模型和所述对齐后的原始语音检测所述对齐后的测试语音，确定所述对齐后的测试语音是否属于异常语音，或，确定所述对齐后的测试语音的异常类型。
一种对齐语音的设备，其特征在于，包括：

存储器，用于存储指令，

处理器，与所述存储器耦合，用于调用所述存储器存储的指令执行权利要求1至权利要求8中任一项所述的方法的步骤。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储了计算机程序代码，当所述计算机程序代码被处理单元或处理器执行时，对齐语音的装置或设备执行权利要求1至权利要求8中任一项所述的方法的步骤。