WO2022199461A1

WO2022199461A1 - 语音交互系统的测试方法、音频识别方法及相关设备

Info

Publication number: WO2022199461A1
Application number: PCT/CN2022/081530
Authority: WO
Inventors: 苗锐
Original assignee: 华为技术有限公司
Priority date: 2021-03-24
Filing date: 2022-03-17
Publication date: 2022-09-29
Also published as: CN115132173A

Abstract

本申请实施方式提供一种语音交互系统的测试方法、音频识别方法及相关设备等。在该语音交互系统的测试方法中，包括：向所述语音交互系统发送语音指令；获取所述语音交互系统的扬声器的输出音频的第一波形数据；获取标准音频的第二波形数据；将所述第一波形数据分为多个第一波形数据分块；将所述第二波形数据分为多个第二波形数据分块；计算所述第一波形数据分块与所述第二波形数据分块的相关度；根据所述相关度确定所述输出音频与所述语音指令相匹配或不匹配。通过利用上述音频识别方法，本申请实施方式的语音交互系统的测试方法能够实现迅速的自动化测试。

Description

语音交互系统的测试方法、音频识别方法及相关设备

技术领域

本申请涉及一种语音交互系统的测试方法、音频识别方法及相关设备。

背景技术

语音交互技术被越来越多的应用，例如越来越多的车辆中附带了语音交互功能，使驾驶员可通过语音的方式调用汽车导航、调整驾驶模式和控制车辆各个执行器等，这大大提高了驾驶员操作的方便性。在车辆的出厂交付前，需要对语音交互系统的功能、性能等进行严格的测试，以保证语音交互系统的实际应用效果。

语音交互系统涉及的场景和测试项众多，例如，包括车机语音交互的噪声叠加性能测试，带口音普通话/方言的测试，不同语速的测试等。因此，需要采用自动化的音频识别测试手段来替代人工点测试，来满足测试普适性和测试效率的要求。

发明内容

本申请实施例提供了一种测试语音交互系统的测试方法及实现该测试方法的测试设备、音频识别方法及实现该识别方法的装置，能够实现自动化的测试与识别。

本申请第一方面提供一种测试语音交互系统的测试方法，包括：向所述语音交互系统发送语音指令；获取所述语音交互系统的扬声器的输出音频的第一波形数据；获取标准音频的第二波形数据；将所述第一波形数据分为多个第一波形数据分块；将所述第二波形数据分为多个第二波形数据分块；计算所述第一波形数据分块与所述第二波形数据分块的相关度；根据所述相关度生成第一测试结果，所述第一测试结果指示所述输出音频与所述语音指令相匹配或不匹配。

采用如上的测试方法，通过对输出音频和标准音频划分成块，并计算各分块对的相关度，能够以较低开发成本和较高识别效率，实现对输出音频内容的识别，由此本申请提供了一种能够迅速进行测试的自动化测试方法。值得注意的是，本申请的方法中不必须对输出音频的内容本身进行直接识别，对内容本身进行识别通常需要较高的开发成本(例如需要进行大量语音训练等)，并且识别速度较低。上述测试方法是通过将输出音频和标准音频进行比较，基于该比较结果来间接地对输出音频的内容进行识别。因此，上述测试方法尤其适合应用于输出音频比较固定的场景，例如应用于车机的指令/控制性语音的交互，电话自动回复系统的交互等。

这里的标准音频的获取方式没有限制，例如该标准音频可以是对语音交互系统进行测试的测试设备根据语音指令在本地数据库中查询获取到的，也可以是服务器等连同语音指令发送给测试设备的。

作为本申请第一方面的一个可能的实现方式，所述计算所述第一波形数据分块与所述第二波形数据分块的相关度包括：分别计算所述多个第一波形数据分块与所述多个第二波形数据分块的多个相关度；所述根据所述相关度生成第一测试结果包括：将所述多个相关度与多个预设阈值分别进行比较，根据所述比较的结果生成第一测试结果。

作为本申请第一方面的一个可能的实现方式，所述多个预设阈值的大小被设定为不同。

在实际中，输出音频由于采集或收录条件的不同，可能包含各种噪音和杂音，输出音频的质量会影响音频识别结果。通过分别调整对应于各个分块对的预设阈值，能够提高本申请音频识别方法对于各种输出音频质量的适应性，从而提高识别结果的可靠性。另外，通过自由调整预设阈值，能够提高上述测试方法的适用范围。

作为本申请第一方面的一个可能的实现方式，还包括：获取所述标准音频的内容；根据所述标准音频的内容获取所述多个第二波形数据分块的内容；根据所述第二波形数据分块的内容，设定所述预设阈值。

作为本申请第一方面的一个可能的实现方式，还包括：获取所述标准音频的内容；在所述第一测试结果指示所述输出音频与所述语音指令相匹配时，根据所述标准音频的内容生成所述输出音频的内容。

如此，语音交互系统的测试方法能够实现对响应于语音指令而产生的输出音频的内容的识别，从而提高测试深度。

作为本申请第一方面的一个可能的实现方式，所述测试方法还包括：获取所述语音交互系统的显示器的第一输出图像；获取第一标准图像；基于所述第一输出图像和所述第一标准图像生成第二测试结果，所述第二测试结果指示所述第一输出图像和所述语音指令相匹配或不匹配。

通过实现对响应于语音指令而产生的输出图像的识别，以及实现输出图像与语音指令之间一致性的判别，上述测试方法能够进一步提高测试深度，提高测试可靠性。

作为本申请第一方面的一个可能的实现方式，通过所述语音交互系统的安卓调试桥接口获取所述第一输出图像。

通过语音交互系统的安卓调试桥接口采集输出图像，上述测试方法能够快速准确地获取输出图像。与传统通过摄像头采集输出图像相比，这种方式能够减小或避免采集过程中引入图像变形等负面因素，从而提高了后续识别的可靠性。

作为本申请第一方面的一个可能的实现方式，所述测试方法还包括：在发送所述语音指令之后，向所述语音交互系统发送人机界面操作指令；获取所述语音交互系统显示器的第二输出图像；获取第二标准图像；基于所述第二输出图像和所述第二标准图像生成第三测试结果，所述第三测试结果指示所述第二输出图像与所述人机界面操作指令相匹配或不匹配。

作为本申请第一方面的一个可能的实现方式，通过所述安卓调试桥接口获取所述第二输出图像。

通过安卓调试桥接口提供人机界面操作指令，这样测试方法能够提供与语音指令相关的人机界面操作指令，该人机界面操作指令直接作用于车机，尤其是可以直接作用于车机的人机交互界面，从而能够提供与车机的实际使用场景更加贴合的测试环境。由此，上述测试方法提高了测试深度，从而提高了测试可靠性。

作为本申请第一方面的一个可能的实现方式，还包括：获取所述语音交互系统收发的第一报文；获取第一标准报文；根据所述第一报文和所述第一标准报文生成第四测试结果，所述第四测试结果指示所述第一报文和所述语音指令相匹配或不匹配。

通过实现对响应于语音指令而产生的报文的识别，上述测试方法能够进一步提高测试深度，提高测试可靠性。

本申请第二方面提供一种音频识别方法，包括：获取待识别音频的第一波形数据；获取标准音频的第二波形数据；将所述第一波形数据分为多个第一波形数据分块；将所述第二波形数据分为多个第二波形数据分块；计算所述第一波形数据分块与所述第二波形数据分块的相关度；根据所述相关度生成第一识别结果，所述第一识别结果指示所述待识别音频与所述标准音频相同或不同。

作为本申请第二方面的一个可能的实现方式，所述计算所述第一波形数据分块与所述第二波形数据分块的相关度包括：分别计算所述多个第一波形数据分块与所述多个第二波形数据分块的多个相关度；所述根据所述相关度生成第一识别结果包括：将所述多个相关度与多个预设阈值分别进行比较，根据所述比较的结果生成第一识别结果。

作为本申请第二方面的一个可能的实现方式，所述多个预设阈值的大小被设定为不同。

作为本申请第二方面的一个可能的实现方式，还包括：获取所述标准音频的内容；根据所述标准音频的内容获取所述多个第二波形数据分块的内容；根据所述第二波形数据分块的内容，设定所述预设阈值。

作为本申请第二方面的一个可能的实现方式，在所述第一识别结果指示所述待识别音频与所述标准音频相同时，根据所述标准音频的内容生成所述待识别音频的内容。

本申请第三方面提供一种测试语音交互系统的测试设备，包括：语音指令生成装置，用于向所述语音交互系统发送语音指令；音频采集装置，用于获取所述语音交互系统的扬声器的输出音频的第一波形数据；第一获取装置，用于获取标准音频的第二波形数据；第一划分模块，用于将所述第一波形数据分为多个第一波形数据分块；第二划分模块，用于将所述第二波形数据分为多个第二波形数据分块；计算模块，用于计算所述第一波形数据分块与所述第二波形数据分块的相关度；音频判定装置，用于根据所述相关度生成第一测试结果，所述第一测试结果指示所述输出音频与所述语音指令相匹配或不匹配。

作为本申请第三方面的一个可能的实现方式，所述计算模块执行的所述计算所述第一波形数据分块与所述第二波形数据分块的相关度包括：分别计算所述多个第一波形数据分块与所述多个第二波形数据分块的多个相关度；所述音频判定装置执行的所述根据所述相关度生成第一测试结果包括：将所述多个相关度与多个预设阈值分别进行比较，根据所述比较的结果生成所述第一测试结果。

作为本申请第三方面的一个可能的实现方式，还包括阈值调整模块，用于将所述多个预设阈值的大小设定为不同。

作为本申请第三方面的一个可能的实现方式，所述第一获取装置还用于：获取所述标准音频的内容；根据所述标准音频的内容获取所述多个第二波形数据分块的内容；

所述阈值调整模块还用于根据所述第二波形数据分块的内容，设定所述预设阈值。

作为本申请第三方面的一个可能的实现方式，所述第一获取装置还用于获取所述标准音频的内容；所述测试设备还包括音频识别模块，所述音频识别模块用于在所述第一测试结果指示所述输出音频与所述语音指令相匹配时，根据所述标准音频的内容生成所述输出音频的内容。

作为本申请第三方面的一个可能的实现方式，所述测试设备还包括：图像采集装置，用于获取所述语音交互系统的显示器的第一输出图像；第二获取装置，用于获取第一标准图像；图像判定装置，用于根据所述第一输出图像和所述第一标准图像生成第二测试结果，所述第二测试结果指示所述第一输出图像和所述语音指令相匹配或不匹配。

作为本申请第三方面的一个可能的实现方式，所述图像采集装置执行的所述获取所述语音交互系统的显示器的第一输出图像包括：通过所述语音交互系统的安卓调试桥接口获取所述第一输出图像。

作为本申请第三方面的一个可能的实现方式，所述测试设备还包括：人机界面操作指令生成装置，用于在发送所述语音指令之后，向所述语音交互系统发送人机界面操作指令；图像采集装置，用于获取所述语音交互系统的显示器的第二输出图像；第二获取装置，用于获取第二标准图像；图像判定装置，用于根据所述第二输出图像和所述第二标准图像像生成第三测试结果，所述第三测试结果指示所述第二输出图像与所述人机界面操作指令相匹配或不匹配。

作为本申请第三方面的一个可能的实现方式，所述图像采集装置执行的所述获取所述语音交互系统的显示器的第二输出图像包括：通过所述人机交互系统的安卓调试桥接口获取所述第二输出图像。

作为本申请第三方面的一个可能的实现方式，还包括：报文采集装置，用于获取所述语音交互系统收发的第一报文；第三获取装置，用于获取第一标准报文；报文判定装置，用于根据所述第一报文和所述第一标准报文生成第四测试结果，所述第四测试结果指示所述第一报文和所述语音指令相匹配或不匹配。

本申请第四方面提供一种音频识别装置，包括：音频采集模块，用于获取待识别音频的第一波形数据；第一获取模块，用于获取标准音频的第二波形数据；第一划分模块，用于将所述第一波形数据分为多个第一波形数据分块；第二划分模块，用于将所述第二波形数据分为多个第二波形数据分块；计算模块，用于计算所述第一波形数据分块与所述第二波形数据分块的相关度；识别模块，用于根据所述相关度生成第一识别结果，所述第一识别结果指示所述待识别音频与所述标准音频相同或不同。

作为本申请第四方面的一个可能的实现方式，所述计算模块执行的所述计算所述第一波形数据分块与所述第二波形数据分块的相关度包括：分别计算所述多个第一波形数据分块与所述多个第二波形数据分块的多个相关度；其中，所述识别模块执行的所述根据所述相关度生成第一识别结果包括：将所述多个相关度与多个预设阈值分别进行比较，根据所述比较的结果生成所述第一识别结果。

作为本申请第四方面的一个可能的实现方式，还包括阈值调整模块，用于将所述多个预设阈值的大小设定为不同。

作为本申请第四方面的一个可能的实现方式，所述第一获取模块还用于：获取所述标准音频的内容；根据所述标准音频的内容获取所述多个第二波形数据分块的内容；所述阈值调整模块还用于根据所述第二波形数据分块的内容，设定所述预设阈值。

作为本申请第四方面的一个可能的实现方式，所述第一获取模块还用于获取所述标准音频的内容；所述识别模块还用于在所述第一识别结果指示所述待识别音频与所述标准音频相同时，根据所述标准音频的内容生成所述待识别音频的内容。

第五方面，本申请提供一种车机语音交互测试系统，其包括：测试管理设备，用于发送测试用例，以管理车机语音交互测试；如上述第四方面中任一种所述的测试设备，与所述测试管理设备连接，用于对车机进行车机语音交互测试；其中，所述测试设备根据所述测试用例提供所述测试用指令。

由于第五方面包括第四方面的测试设备，其将类似地具有上述第四方面所具有的优点或益处，因此对于第五方面的优点或益处在此不再赘述。

第六方面，本申请提供一种计算设备，其包括：总线；通信接口，其与所述总线连接；至少一个处理器，其与所述总线连接；以及至少一个存储器，其与所述总线连接并存储有程序指令，所述程序指令当被所述至少一个处理器执行时使得所述至少一个处理器执行上述第一方面和上述第三方面中任一所述的方法。

由于第六方面可以执行上述第一方面和上述第三方面中任一所述的方法，其将类似地具有上述第一方面或第三方面所具有的优点或益处，因此对于第六方面的优点或益处在此不再赘述。

第七方面，本申请提供一种计算机可读存储介质，存储有程序指令，其特征在于，所述程序指令当被计算机执行时使得所述计算机执行上述第一方面和上述第三方面中任一所述的方法。

由于第七方面可以执行上述第一方面和上述第三方面中任一所述的方法，其将类似地具有上述第一方面或第三方面所具有的优点或益处，因此对于第七方面的优点或益处在此不再赘述。

本申请的这些和其它方面在以下(多个)实施例的描述中会更加简明易懂。

附图说明

以下参照附图来进一步说明本申请的各个特征和各个特征之间的联系。附图均为示例性的，一些特征并不以实际比例示出，并且一些附图中可能省略了本申请所涉及领域的惯常的且对于本申请非必要的特征，或是额外示出了对于本申请非必要的特征，附图所示的各个特征的组合并不用以限制本申请。另外，在本说明书全文中，相同的附图标记所指代的内容也是相同的。具体的附图说明如下：

图1是本申请一个实施方式中涉及的车机的结构示意框图；

图2是本申请一个实施方式中涉及的车机语音交互测试系统的结构示意图；

图3是图2的测试设备的结构示意图；

图4是本申请一个实施方式中涉及的电子控制单元的结构示意框图；

图5是本申请一个实施方式的语音交互系统的测试方法的流程示意图；

图6是本申请一个实施方式的音频识别装置的结构示意图；

图7是本申请一个实施方式的识别模块的结构示意图；

图8是本申请一个实施方式的音频识别方法；

图9是本申请一个实施方式的信号处理模块对输出音频的波形进行的前处理；

图10是图9的输出音频的波形和标准音频的波形的划分；

图11是本申请一个实施方式的图像识别装置的结构示意图；

图12是涉及本申请一个实施方式的图像识别方法的各方面的示意图；以及

图13是本申请实施例提供的一种计算设备的结构性示意性图。

具体实施方式

说明书和权利要求书中的词语“第一、第二、第三等”是为了在同类事物间予以区分，不代表特定排序和重要性。

在以下的描述中，所涉及的表示步骤的标号，如S101、S102……等，并不表示一定会按此步骤执行，在允许的情况下可以互换前后步骤的顺序，或同时执行。

目前有一种对语音交互系统的测试方法，其中，测试系统通过人工嘴等播放设备播放语料，车机麦克风采集播放语料，车机识别播放语料，并通过扬声器播放反馈语音。测试系统然后采集车机扬声器的音频或原始波形信号，以此判断车机是否识别语音指令并进行了语音反馈。然而，这种方案仅对车机是否进行了语音反馈进行判断，而没有判断出车机反馈语音的具体内容，无法验证车机反馈内容和语音指令意图的一致性，更不用说实现车机语音交互其他方面的验证，测试深度不足。

还有一种测试方法，在该方法中，测试系统管理语料数据库和噪声数据库，通过语音播放系统将在特定场景下需要播放的语料进行播放，并且通过噪声模拟系统，对播放的音频叠加一定分贝值的噪声，从而验证车机语音交互系统在各种噪声场景下的识别性能。这种方法能够验证车机语音交互系统在各种模拟实际行车过程中的噪声场景下的识别性能。然而，这种方法通过采集车机语音识别日志的方式仅验证了车机的语音识别性能，缺乏根据车机实际的反馈语音验证车机的反馈语音内容这个过程。也就是说，该方法仅测试了车机的语音识别性能，并没有测试车机的反馈语音性能，语音交互测试不完整，测试深度不足。此外，这种方法还无法验证车机是否针对语音指令执行除反馈语音之外的其他相关操作，无法完全验证车体逻辑交互的正确性。

有鉴于此，本申请一个实施方式提供一种测试语音交互系统的测试方法。该语音交互系统的测试方法包括：向所述语音交互系统的麦克风发送语音指令；获取所述语音交互系统的扬声器的输出音频的第一波形数据；获取标准音频的第二波形数据；将所述第一波形数据分为多个第一波形数据分块；将所述第二波形数据分为多个第二波形数据分块；计算所述第一波形数据分块与所述第二波形数据分块的相关度；根据所述相关度生成第一测试结果，所述第一测试结果指示所述输出音频与所述语音指令相匹配或不匹配。

这里的波形数据是表示音频的强度随时间的变化的数据。

采用如上的测试方法，通过对输出音频和标准音频划分成多个分块数据，并计算输出音频的分块数据和标准音频的分块数据间的相关度，能够以较低开发成本和较高识别效率，实现对输出音频内容的识别，由此本申请提供了一种能够迅速进行测试的自动化测试方法。在具体一点说，上述方法中不必须对输出音频的内容本身进行直接识别，对内容本身进行识别通常需要较高的开发成本(例如需要进行大量语音训练等)，并且识别速度较低。上述方法是通过将输出音频和标准音频进行比较，基于该比较结果来间接地对输出音频的内容进行识别，从而能够迅速地得到测试结果。另外，上述方法尤其适合应用于输出音频比较固定的场景，例如应用于车机的指令/控制性语音的交互，电话自动回复系统的交互等。

另外，采用如上的测试方法，使用根据波形数据分块相关度对采集的输出音频的波形数据和标准音频的波形数据进行比对，即对采集的输出音频的波形数据和标准音频进行分块，然后对输出音频的波形数据分块进行和标准音频的数据分块的相关性计算，满足设定条件后，可认为采集的输出音频和标准音频一致。由于实际采集的波形数据在实际环境下容易受到干扰，因此采用分块处理手段，能够在不同音频输出环境下，设定不同的判别条件，从而增加自动化测试结果的可靠性。

综上，通过如上的技术手段，本实施方式的语音交互系统的测试方法能够实现迅速、可靠的自动化测试。

另外，作为上述相关度的计算方法的例子，可以分别对每个波形数据分块进行频域相关性计算，获得多个频域相关度。这里的频域相关度是本申请中的相关度的一例。此处所谓的相关度表示的是相似程度，不言而喻，除了频域相关度外，还可以采用其他方式的相关度。

另外，在对输出音频的波形数据和标准音频的波形数据进行划分时，可以得到相同数量的第一波形数据分块和第二波形数据分块，也可以得到不同数量的第一波形数据分块和第二波形数据分块。此时，可以对较多的那一方中的一部分波形数据分块不做处理。

另外，可以用相同的时间步长对输出音频的波形数据和标准音频的波形数据进行划分，对输出音频的波形数据和标准音频的波形数据的划分所使用的时间步长分别进行调整。

另外，在本实施方式中，在计算第一波形数据分块与第二波形数据分块的相关度时，可以对每对数据分块都计算相关度，也可以仅对一部分数据分块对计算相关度。作为仅对一部分数据分块计算相关度的情形，例如，可以获取标准音频的内容，进而获取标准音频的各第二数据分块的内容，根据其内容判断是否计算与其相关度。具体而言，假设标准音频的内容是“|好|的|，|小|U|已|为|您|打|开|空|调|”，那么，可以选择不计算“|小|U|”对应的第二数据分块的相关度。

在本实施方式的测试方法中，可选地，所述计算所述第一波形数据分块与所述第二波形数据分块的相关度包括：分别计算所述多个第一波形数据分块与所述多个第二波形数据分块的多个相关度；所述根据所述相关度生成第一测试结果包括：将所述多个相关度与多个预设阈值分别进行比较，根据所述比较的结果生成第一测试结果。

在上述测试方法中，关于“根据相关度生成第一测试结果，第一测试结果指示输出音频与语音指令相匹配或不匹配”，例如，在存在多个相关度的情况下，可以是在全部的相关度都大于预设阈值时，生成指示输出音频与语音指令相匹配的第一测试结果，也可以是在一部分相关度大于预设阈值时，生成指示输出音频与语音指令相匹配的第一测试结果，例如当大于预设阈值的相关度的数量占全部相关度的数量一定比例以上时，生成指示输出音频与语音指令相匹配的第一测试结果。

关于“输出音频与语音指令是否相匹配”的含义，以语音指令的内容是“请打开空调”为例进行说明，当输出音频的内容是“好的，小U已为您打开空调”、“好的，请问空调需要设定为多少度？”或者“电池电量不足，不能打开空调”等与空调相关的内容(即与语音指令的内容相关的内容)时，会得到指示输出音频与语音指令相匹配的第一测试结果，例如当输出音频是“今天的天气是多云”、“好的，已为您打开雨刮器”等与空调无关的内容时，会得到指示输出音频与语音指令不匹配的第一测试结果。

在本实施方式的测试方法中，可选地，所述多个预设阈值的大小被设定为不同。

在实际中，输出音频由于采集或收录条件的不同，可能包含各种噪音和杂音，输出音频的质量会影响音频识别结果。通过分别调整对应于各个分块对的预设阈值，能够提高本实施方式的测试方法对于各种输出音频质量的适应性，从而提高识别结果的可靠性。另外，通过自由调整预设阈值，能够提高本实施方式的测试方法的适用范围，使上述测试方法能够适应多种场景，保证测试结果的可靠性。

在本实施方式的测试方法中，可选地，还包括：获取所述标准音频的内容；根据所述标准音频的内容获取所述多个第二波形数据分块的内容；根据所述第二波形数据分块的内容，设定所述预设阈值。此时，设定的多个预设阈值通常是不同的，但也可能是相同的。

例如，假设标准音频的内容是“|好|的|，|小|U|已|为|您|打|开|空|调|”，此时，可以将“|小|U|”的波形数据分块对应的预设阈值设定得较低，“|打|开|空|调|”的波形数据分块对应的预设阈值设定得较高，如此，能够提高测试结果的可靠性。

在本实施方式的测试方法中，可选地，还包括：获取所述标准音频的内容；在所述第一测试结果指示所述输出音频与所述语音指令相匹配时，根据所述标准音频的内容生成所述输出音频的内容。例如，可以直接将标准音频的内容作为输出音频的内容。此外，也可以使输出音频的内容与标准音频的内容稍稍不同。

如此，语音交互系统的测试方法能够实现对响应于语音指令而产生的输出音频的内容的识别，进而能够实现输出音频内容与语音指令之间匹配性的判别，从而提高测试深度。

在本实施方式的测试方法中，可选地，所述语音交互系统包括显示器；所述测试方法还包括：获取所述显示器的第一输出图像；获取第一标准图像；基于所述第一输出图像和所述第一标准图像生成第二测试结果，所述第二测试结果指示所述第一输出图像和所述语音指令相匹配或不匹配。

通过实现对响应于语音指令而产生的输出图像的识别，以及实现输出图像与语音指令之间匹配性的判别，上述测试方法能够进一步提高测试深度，提高测试结果的可靠性。

在本实施方式的测试方法中，可选地，所述语音交互系统包括安卓调试桥接口；所述第一输出图像是通过所述安卓调试桥接口获取的。

通过语音交互系统的安卓调试桥接口采集输出图像，上述测试方法能够快速准确地获取输出图像。与通过摄像头采集输出图像的传统方式相比，这种方式能够减小或避免采集过程中图像变形等负面因素，从而提高了后续图像识别的可靠性，进而保证测试结果的可靠性。

在本实施方式的测试方法中，可选地，所述测试方法还包括：在发送所述语音指令之后，向所述语音交互系统发送人机界面操作指令；获取所述语音交互系统的显示器的第二输出图像；获取第二标准图像；基于所述第一输出图像和所述第二标准图像生成第三测试结果，所述第三测试结果指示所述第二输出图像与所述人机界面操作指令相匹配或不匹配。

在本实施方式的测试方法中，可选地，所述人机交互系统包括安卓调试桥接口；所述第二输出图像是通过所述安卓调试桥接口获取的。

如此，通过安卓调试桥接口提供人机界面操作指令，上述测试方法能够提供与语音指令相关的操作指令，该操作指令直接作用于车机，尤其是可以直接作用于车机的人机交互界面，从而能够提供与车机的实际使用场景更加贴合的测试环境。由此，上述测试方法提高了测试深度，从而提高了测试可靠性。

在本实施方式的测试方法中，可选地，还包括：获取所述语音交互系统收发的第一报文；获取第一标准报文；根据所述第一报文和所述第一标准报文生成第四测试结果，所述第四测试结果指示所述第一报文和所述语音指令相匹配或不匹配。

另外，与上面的测试方法相对应，本申请一个实施方式提供了一种语音交互系统的测试设备，包括：语音指令生成装置，用于向所述语音交互系统发送语音指令；音频采集装置，用于获取所述语音交互系统的扬声器的输出音频的第一波形数据；第一获取装置，用于获取标准音频的第二波形数据；第一划分模块，用于将所述第一波形数据分为多个第一波形数据分块；第二划分模块，用于将所述第二波形数据分为多个第二波形数据分块；计算模块，用于计算所述第一波形数据分块与所述第二波形数据分块的相关度；音频判定装置，用于根据所述相关度生成第一测试结果，所述第一测试结果指示所述输出音频与所述语音指令相匹配或不匹配。

在本实施方式的测试设备中，可选地，所述计算模块执行的所述计算所述第一波形数据分块与所述第二波形数据分块的相关度包括：分别计算所述多个第一波形数据分块与所述多个第二波形数据分块的多个相关度；所述音频判定装置执行的所述根据所述相关度生成第一测试结果包括：将所述多个相关度与多个预设阈值分别进行比较，根据所述比较的结果生成第一测试结果。

在本实施方式的测试设备中，可选地，还包括阈值调整模块，用于将所述多个预设阈值的大小设定为不同。

在实际中，输出音频由于采集或收录条件的不同，可能包含各种噪音和杂音，输出音频的质量会影响音频识别结果。通过分别调整对应于各个分块对的预设阈值，能够提高本实施方式的测试设备对于各种输出音频质量的适应性，从而提高识别结果的可靠性。另外，通过自由调整预设阈值，能够提高本实施方式的测试设备的适用范围，使上述测试方法能够适应多种场景，保证测试结果的可靠性。

在本实施方式的测试设备中，可选地，所述第一获取装置还用于：获取所述标准音频的内容；根据所述标准音频的内容获取所述多个第二波形数据分块的内容；所述阈值调整模块还用于根据所述第二波形数据分块的内容，设定所述预设阈值。

在本实施方式的测试设备中，可选地，所述第一获取装置还用于获取所述标准音频的内容；所述测试设备还包括音频识别模块，所述音频识别模块用于在所述第一测试结果指示所述输出音频与所述语音指令相匹配时，根据所述标准音频的内容生成。

如此，语音交互系统的测试方法能够实现对响应于语音指令而产生的输出音频的内容的识别，进而能够实现输出音频内容与语音指令之间的匹配性的判别，从而提高测试深度。

在本实施方式的测试设备中，可选地，所述语音交互系统包括显示器；所述测试设备还包括：图像采集装置，用于获取所述显示器的第一输出图像；第二获取装置，用于获取第一标准图像；图像判定装置，用于根据所述第一输出图像和所述第一标准图像生成第二测试结果，所述第二测试结果指示所述第一输出图像和所述语音指令相匹配或不匹配。

通过实现对响应于语音指令而产生的输出图像的识别，以及实现输出图像与语音指令之间是否匹配的判别，本实施方式的测试设备能够进一步提高测试深度，提高测试结果的可靠性。

在本实施方式的测试设备中，可选地，所述语音交互系统包括安卓调试桥接口；所述图像采集装置用于通过所述安卓调试桥接口获取所述第一输出图像。

通过语音交互系统的安卓调试桥接口采集输出图像，本实施方式的测试设备能够快速准确地获取输出图像。与通过摄像头采集输出图像的传统方式相比，这种方式能够减小或避免采集过程中图像变形等负面因素，从而提高了后续图像识别的可靠性，进而保证测试结果的可靠性。

在本实施方式的测试设备中，可选地，所述语音交互系统包括显示器；所述测试设备还包括：人机界面操作指令生成装置，用于在发送所述语音指令之后，向所述语音交互系统发送人机界面操作指令；图像采集装置，用于获取所述显示器的第二输出图像；第二获取装置，用于获取第二标准图像；图像判定装置，用于根据所述第一输出图像和所述第二标准图像生成第三测试结果，所述第三测试结果指示所述第二输出图像与所述人机界面操作指令相匹配或不匹配。

在本实施方式的测试设备中，可选地，所述人机交互系统包括安卓调试桥接口；所述图像采集装置用于通过所述安卓调试桥接口获取所述第二输出图像。

如此，通过安卓调试桥接口提供人机界面操作指令，本实施方式的测试设备能够提供与语音指令相关的操作指令，该操作指令直接作用于车机，尤其是可以直接作用于车机的人机交互界面，从而能够提供与车机的实际使用场景更加贴合的测试环境。由此，本实施方式的测试方法提高了测试深度，从而提高了测试可靠性。

在本实施方式的测试设备中，可选地，还包括：报文采集装置，用于获取所述语音交互系统收发的第一报文；第三获取装置，用于获取第一标准报文；报文判定装置，用于根据所述第一报文和所述第一标准报文生成第四测试结果，所述第四测试结果指示所述第一报文和所述语音指令相匹配或不匹配。

此外，本申请一个实施方式提供一种音频识别方法。在该音频识别方法中，包括：获取待识别音频的第一波形数据；获取标准音频的第二波形数据；将所述第一波形数据分为多个第一波形数据分块；将所述第二波形数据分为多个第二波形数据分块；计算所述第一波形数据分块与所述第二波形数据分块的相关度；根据所述相关度生成第一识别结果，所述第一识别结果指示所述待识别音频与所述标准音频相同或不同。

采用如上的音频识别方法，对待识别音频的波形数据和标准音频进行分块，然后对待识别音频的波形数据分块进行和标准音频的数据分块的相关度计算，满足设定条件后，可认为待识别音频和标准音频一致。由于实际采集的待识别音频的波形数据在实际环境下容易受到干扰，因此采用分块处理手段，能够在不同环境下，设定不同的判别条件，从而增加自动化判断结果的可靠性。

本申请实施方式提供的这种基于分块相关性的音频识别方法和装置能够应用于多种场景。例如，上述音频识别方法既可以应用于车机以识别人的语音指令，也可以应用于车机测试设备以识别车机响应于测试用指令产生的输出音频。此外，上述音频识别方法不仅能够应用于车机以及用于测试车机的语音交互测试设备，还可以应用于具有音频识别功能的装置、系统以及可以测试这些装置、系统的语音交互测试设备。具有音频识别功能的装置、系统例如为机器人系统、电话自动回复系统、自动客服系统等。

类似地，本申请实施方式提供的语音交互系统的测试方法不仅可以应用于以车机作为对象的测试中，还可以类似地应用于以机器人系统、电话自动回复系统、自动客服系统等作为测试对象的测试中。

另外，在对待识别音频的波形数据和标准音频的波形数据进行划分时，可以得到相同数量的第一波形数据分块和第二波形数据分块，也可以得到不同数量的第一波形数据分块和第二波形数据分块。此时，可以对较多的那一方中的一部分波形数据分块不做处理。

在本实施方式的音频识别方法中，可选地，所述计算所述第一波形数据分块与所述第二波形数据分块的相关度包括：分别计算所述多个第一波形数据分块与所述多个第二波形数据分块的多个相关度；所述根据所述相关度生成第一识别结果包括：将所述多个相关度与多个预设阈值分别进行比较，根据所述比较的结果生成第一识别结果。

在本实施方式的音频识别方法中，可选地，所述多个预设阈值的大小被设定为不同。

在实际中，采集的待识别音频由于采集或收录条件的不同，可能包含各种噪音和杂音，带识别音频的质量会影响音频识别结果。通过分别调整对应于各个分块对的预设阈值，能够提高本实施方式的音频识别方法对于各种带识别音频质量的适应性，从而提高识别结果的可靠性。另外，通过自由调整预设阈值，能够提高本实施方式的方法的适用范围，使该方法能够适应多种场景，保证测试结果的可靠性。

在本实施方式的音频识别方法中，可选地，还包括：获取所述标准音频的内容；根据所述标准音频的内容获取所述多个第二波形数据分块的内容；根据所述第二波形数据分块的内容，设定所述预设阈值。

如此，能够提高识别结果的可靠性，或者说提高识别结果的精度。例如，假设标准音频的内容是“|好|的|，|小|U|已|为|您|打|开|空|调|”，此时，可以将“|小|U|”的波形数据分块对应的预设阈值设定得较低，“|打|开|空|调|”的波形数据分块对应的预设阈值设定得较高，如此，能够提高识别结果的可靠性。

在本实施方式的音频识别方法中，可选地，还包括获取所述标准音频的内容；在所述第一识别结果指示所述待识别音频与所述标准音频相同时，根据所述标准音频的内容生成所述待识别音频的内容。

与上述音频识别方法相对应，本申请一个实施方式提供一种音频识别装置，包括：音频采集模块，用于获取待识别音频的第一波形数据；第一获取模块，用于获取标准音频的第二波形数据；第一划分模块，用于将所述第一波形数据分为多个第一波形数据分块；第二划分模块，用于将所述第二波形数据分为多个第二波形数据分块；计算模块，用于计算所述第一波形数据分块与所述第二波形数据分块的相关度；识别模块，用于根据所述相关度生成第一识别结果，所述第一识别结果指示所述待识别音频与所述标准音频相同或不同。

采用如上的音频识别装置，对待识别音频的波形数据和标准音频进行分块，然后对待识别音频的波形数据分块进行和标准音频的数据分块的相关度计算，满足设定条件后，可认为待识别音频和标准音频一致。由于实际采集的待识别音频的波形数据在实际环境下容易受到干扰，因此采用分块处理手段，能够在不同环境下，设定不同的判别条件，从而增加自动化判断结果的可靠性。

在本实施方式的音频识别装置中，可选地，所述计算模块执行的所述计算所述第一波形数据分块与所述第二波形数据分块的相关度包括：分别计算所述多个第一波形数据分块与所述多个第二波形数据分块的多个相关度；所述识别模块执行的所述根据所述相关度生成第一识别结果包括：将所述多个相关度与多个预设阈值分别进行比较，根据所述比较的结果生成第一识别结果。

在本实施方式的音频识别装置中，可选地，还包括阈值调整模块，用于将所述多个预设阈值的大小设定为不同。

在本实施方式的音频识别装置中，可选地，所述第一获取模块还用于：获取所述标准音频的内容；根据所述标准音频的内容获取所述多个第二波形数据分块的内容；所述阈值调整模块还用于根据所述第二波形数据分块的内容，设定所述预设阈值。

在本实施方式的音频识别装置中，可选地，所述第一获取模块还用于获取所述标准音频的内容；所述识别模块还用于在所述第一测试结果指示所述输出音频与所述语音指令相匹配时，根据所述标准音频的内容生所述待识别音频的内容。

以下结合附图1-12对本申请的一个实施方式进行详细描述。

图1是本申请一个实施方式中涉及的车机的结构框图。该车机2000具备语音交互功能，如图1所示，其具有控制单元2001、麦克风2002、扬声器2003、显示器2004与安卓调试桥(Android Debug Bridge，ADB)接口2005等。控制单元2001可以是电子控制单元(electronic control unit，ECU)，电子控制单元是指由集成电路组成的用于实现对数据的分析处理发送等一系列功能的控制装置，上述语音交互功能的所需的运算处理由该控制单元2001执行。麦克风2002用于接收语音指令。扬声器2003例如用于向乘员发出提示音，例如，在乘员发出“打开空调”的语音指令时，在控制单元2001的控制下，扬声器2003发出“已为您打开空调”的提示音。另外，扬声器2003还可以用于播放音乐等。显示器2004例如具有触控屏，用于显示人机交互界面，此外显示器2004例如还可以显示导航画面等。安卓调试桥接口2005用于供后述的测试设备对显示器2004显示的人机交互界面提供输入操作，还用于供测试设备从车机2000获取显示器2004显示的输出图像。

图2示意性地示出了本申请一个实施方式的车机语音交互测试系统1000的结构示意图。如图2所示，本实施方式的车机语音交互测试系统1000包括相互连接的测试管理设备1100和测试设备1200。

测试管理设备1100用于通过向测试设备1200发送测试用例来管理测试设备1200执行的测试。测试管理设备1100可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据存储、管理功能的设备或服务器。测试管理设备1100可以通过交互接口来向测试语音交互测试设备1200发送测试用例，并且可以接收来自测试语音交互测试设备1200的例如为测试结果的反馈信息。另外，作为其他实施方式，也可以将测试管理设备1100的功能与测试设备1200的功能集成在一个设备中。

测试用例可以包括语音指令用例、人机界面(Human Machine Interaction，简称HMI)操作指令用例、标准音频、标准图像和标准报文。这些内容可以全部由测试管理设备1100发送给测试设备1200，也可以是测试管理设备1100仅发送一部分内容给测试设备1200。例如，测试设备1200的本地数据库包括标准音频数据库、标准图像数据库和标准报文数据库，在执行测试时，测试管理设备1100将语音指令用例、人机界面操作指令用例发送给测试设备1200，测试设备1200从本地数据库中调取标准音频、标准图像和标准报文。

测试用例中还可以附带与各测试用指令相关联的检索索引。该检索索引供测试设备1200从全部的标准音频、标准图像和标准报文中检索与指令用例(语音指令用例和人机界面操作指令用例)相关联的标准音频、标准图像和标准报文。例如，在指令用例与空调相关时，检索出与空调功能相关的标准音频、标准图像和标准报文，用这些标准音频、标准图像和标准报文同采集到的车机中的音频、图像和报文进行比较，来判断测试是否通过。如此，与使用全部的标准音频、标准图像和标准报文进行测试相比，能够削减运算量，提高测试速度。检索到的与指令用例相关联的标准音频的数量可能是多个，也可能是一个。

测试管理设备1100向测试设备1200发送测试用例的方式可以有多种。作为一种可实现方式，可以通过传输控制协议/网际协议(Transmission Control Protocol/Internet Protocol，TCPIP)发送测试用例。

测试设备1200用于基于测试用例中包含的指令用例(语音指令和人机界面操作指令)，对车机2000进行测试。这里的车机2000是本申请中的语音交互系统的一例，也可以称之为车载语音交互系统。

图3示意性地示出了图2的测试设备的结构示意图。下面将参照图3详细地描述本申请实施方式的测试设备。

测试设备1200可以包括语音指令生成装置1201、音频采集装置1202、第一获取装置1203、音频识别装置1204和音频判定装置1205，这些装置用于判别车机响应于测试用例中包含的语音指令的输出音频的内容与语音指令的意图的一致性。

具体地，语音指令生成装置1201用于基于测试管理设备1100发送的测试用例提供语音指令。语音指令生成装置1201例如可以包括用于提供语音指令的扬声器。

音频采集装置1202用于采集车机2000的扬声器响应于语音指令产生的输出音频，得到输出音频的波形数据。这里的波形数据是表示音频的强度随时间的变化的数据。音频采集装置1202例如可以是麦克风、录音机等。另外，音频采集装置1202也可以采集扬声器的原始波形信号。另外，这里的音频采集装置1202还对应于本申请中的音频采集模块。

第一获取装置1203用于获取与语音指令相关联的标准音频，得到标准音频的内容和波形数据。如上所述，标准音频可以是从测试用例中获取的，也可以是依据测试用例中包含的检索索引从测试设备1200的音频数据库中获取的。另外，这里的第一获取装置1203还对应于本申请中的第一获取模块。

在数据库中存储标准音频的可实现方式有多种。例如，在一种可实现方式中，可以使用同一检索索引关联存储与同一语音指令的所有标准音频的波形数据。例如，在另一种可实现方式中，可以以文本的形式在数据库中存储标准音频，当其被调用时，在根据各标准音频的文本来产生标准音频的波形数据。

音频识别装置1204同音频采集装置1202和第一获取装置1203连接，用于获得输出音频的识别结果。本申请实施方式中的音频识别装置1204以及其执行的音频识别方法将在以下详述。

音频判定装置1205与语音指令生成装置1201连接，用于基于输出音频的识别结果，判定输出音频和语音指令的意图是否一致，或者说判定输出音频和语音指令是否相匹配，获得音频判定结果(“相匹配或不匹配”)，该音频判定结果对应本申请中的第一识别结果。在图3中，为了简单清晰起见，语音指令生成装置1201和音频判定装置1205之间的连接并未用实线连接线表示，而是分别用从这两个装置伸出并以圆点结束的两个线段表示。

另外，在上面的描述中，第一获取装置1203、音频识别装置1204和音频判定装置1205在概念上为三个独立的装置，然而，第一获取装置1203和音频判定装置1205的功能可以集成在音频识别装置1204中，这里的音频识别装置1204对应于本申请中的音频识别装置。

另外，第一获取装置1203、音频识别装置1204和音频判定装置1205可以由电子控制单元实现。如图4所示，本申请实施方式提供了一种电子控制单元ECU，该ECU包括微型计算机(microcomputer)、输入电路、输出电路和模/数(analog-to-digital，A/D)转换器。

输入电路的主要功能是对输入信号(例如来自传感器的信号)进行预处理，输入信号不同，处理方法也不同。具体地，因为输入信号有两类：模拟信号和数字信号，所以输入电路可以包括处理模拟信号的输入电路和处理数字信号的输入电路。

A/D转换器的主要功能是将模拟信号转变为数字信号，模拟信号经过相应输入电路预处理后输入A/D转换器进行处理转换为微型计算机接受的数字信号。

输出电路是微型计算机与执行器之间建立联系的一个装置。它的功能是将微型计算机发出的处理结果转变成控制信号，以驱动执行器工作。输出电路一般采用的是功率晶体管，根据微型计算机的指令通过导通或截止来控制执行元件的电子回路。

微型计算机包括中央处理器(central processing unit，CPU)、存储器和输入/输出(input/output，I/O)接口，CPU通过总线与存储器、I/O接口相连，彼此之间可以通过总线进行信息交换。存储器可以是只读存储器(read-only memory，ROM)或随机存取存储器(random access memory，RAM)等存储器。I/O接口是中央处理单元(central processor unit，CPU)与输入电路、输出电路或A/D转换器之间交换信息的连接电路，具体的，I/O接口可以分为总线接口和通信接口。存储器存储有程序，CPU调用存储器中的程序可以执行图5、图8、图12对应实施例描述的测试方法与音频识别方法。

测试设备还可以包括人机界面操作指令生成装置1214、图像采集装置1206、第二获取装置1207、图像识别装置1208和图像判定装置1209，这些装置结合语音指令生成装置1201一起用于判别车机2000，尤其是车机2000的显示器响应于语音指令和人机界面操作指令的输出图像。这里，显示器响应语音指令输出的输出图像对应于本申请中的第一输出图像，显示器响应人机界面操作指令输出的输出图像对应于本申请中的第二输出图像。

人机界面操作指令生成装置1214用于向车机发送人机界面操作指令。人机界面操作指令是模拟人手对人机交互界面进行的操作指令，且与语音指令相关。例如，当语音指令是语音指令“打开空调”时，人机界面操作指令可以是点击人机交互界面响应语音指令显示的与空调操作相关的按钮的操作指令。人机界面操作指令生成装置1214可以是经由安卓调试桥接口对车机人机交互界面提供输入操作的控制器。

图像采集装置1206用于采集输出图像车机2000响应于语音指令和人机界面操作指令产生的输出图像。在本实施方式中，图像采集装置1206具有ADB接口，可以通过ADB接口与车机底层ADB接口连接，以直接从车机获取人机交互界面的图像。作为其他实施方式图像采集装置1206也可以是摄像头。

第二获取装置1207用于获取与语音指令和人机界面操作指令相关联的标准图像。如上所述，标准图像可以是从测试用例中获取的，也可以是依据测试用例中包含的检索索引从本地数据库中获取的。这里，与语音指令相关联的标准图像对应于本申请中的第一标准图像，与人机界面操作指令相关联的标准图像对应于本申请中的第二标准图像。

图像识别装置1208与图像采集装置1206和第二获取装置1207连接，用于基于输出图像和标准图像，获得输出图像的识别结果。本申请实施方式中的图像识别装置1208以及其涉及的图像识别方法将在以下详述。

图像判定装置1209与语音指令生成装置1201、人机界面操作指令生成装置1214和图像识别装置1208连接，用于基于输出图像的识别结果，判定输出图像同语音指令的意图或人机界面操作指令的意图是否一致，或者说判定输出图像同语音指令或人机界面操作指令是否相匹配，获得图像判定结果(“相匹配”或“不匹配”)，指示输出图像与语音指令相匹配或不匹配的图像判定结果对应本申请中的第二测试结果，指示输出图像与人机界面操作指令相匹配或不匹配的图像判定结果对应本申请中的第三测试结果。在图4中，为了简单清晰起见，语音指令生成装置1201和图像判定装置1209之间的连接并未用实线连接线表示，而是分别用从这两个装置伸出并以圆点结束的两个线段表示；并且人机界面操作指令生成装置1214和图像判定装置1209之间的连接并未用实线连接线表示，而是分别用从这两个装置伸出并以方点结束的两个线段表示。

本申请测试设备还可以包括报文采集装置1210、第三获取装置1211、报文识别装置1212和图像判定装置1209，这些装置结合语音指令生成装置1201一起用于判别车机2000响应于语音指令的上下行报文。

报文采集装置1210用于采集车机2000接收到语音指令或人机界面操作指令后收发的上下行报文。该上下行报文包括上行报文和下行报文。上行报文是车机2000响应于语音指令产生的，下行报文是车辆执行器(未示出)响应于车机2000输出的上行报文产生的。报文采集装置1210的实例有多种，本申请不对此进行限制。这里，与语音指令相关联的报文对应于本申请中的第一报文，与人机界面操作指令相关联的报文对应于本申请中的第二报文。

第三获取装置1211用于获取与语音指令、人机界面操作指令相关联的标准报文。如上所述，标准报文可以是从测试用例中获取的，也可以是依据测试用例中包含的检索索引从本地数据库中获取的。这里，与语音指令相关联的标准报文对应于本申请中的第一标准报文，与人机界面操作指令相关联的标准报文对应于本申请中的第二标准报文。

报文识别装置1212与报文采集装置1210和第三获取装置1211连接，用于基于上下行报文和标准报文，获得上下行报文的识别结果。报文识别装置1212将上下行报文和标准报文进行比对，然后将这样的比对结果(例如相关性)与预设识别条件(例如预设阈值)进行比较，如果报文的比对结果满足预设识别条件，报文识别装置1212输出肯定性报文识别结果，如果报文的比对结果不满足预设识别条件，报文识别装置1212输出否定性报文识别结果。

报文判定装置1213与语音指令生成装置1201和报文识别装置1212连接，用于基于报文识别结果，判定上下行报文同语音指令或人机界面操作指令的意图是否一致，或者说判定上下行报文和语音指令是否相匹配，获得报文判定结果(“相匹配”或“不匹配”)，指示上下行报文同语音指令相匹配或不匹配的报文判定结果对应本申请中的第四测试结果，指示上下行报文与人机界面操作指令相匹配或不匹配的报文判定结果对应本申请中的第五测试结果。在图4中，为了简单清晰起见，语音指令生成装置1201和报文识别装置1212之间的连接并未用实线连接线表示，而是分别用从这两个装置伸出并以圆点结束的两个线段表示。

测试设备1200还可以包括测试汇总装置1215。测试汇总装置1215可以分别与音频判定装置1205、图像判定装置1209和报文判定装置1213连接，用于根据来自于音频判定装置1205、图像判定装置1209和报文判定装置1213的各判定结果，形成汇总测试结果(测试通过或者不通过)，并将汇总测试结果例如发送给测试管理设备1100或其他设备(未示出)。例如，在输入一条语音指令后，音频判定装置1205、图像判定装置1209和报文判定装置1213的判定结果都是“一致”时，测试设备1200确定针对此条语音的汇总测试结果为“通过”。测试管理设备1100在全部的语音指令的汇总测试结果为通过时或者汇总测试结果为“通过”的结果占比超过阈值时，确定对整个车机的测试结果为“通过”。另外，测试管理设备1100的该功能也可由测试设备 1200实现，例如将该功能集成在测试汇总装置1215中。

测试设备1200通过包括上述各个装置，能够分别对车机2000响应于各测试用指令的各反馈信号(例如输出语音、输出图像和上下行报文)进行检测，实现深度较高的“全链路”检测。

图5示意性地示出了本申请实施方式的语音交互系统的测试方法的流程示意图，其包括步骤S101-115。

在步骤S101中，语音指令生成装置1201基于测试设备1200接收的测试用例，向车机2000提供语音指令。

在步骤S102中，音频采集装置1202采集车机2000响应于语音指令产生的输出音频。

在步骤S103中，第一获取装置1203获取与语音指令相关联的标准音频。

在步骤S104中，音频识别装置1204基于输出音频和标准音频，进行音频识别，获得输出音频的识别结果。此步骤中采用的具体的音频识别方法将在后面进行更详细的描述。

在步骤S105中，音频判定装置1205基于输出音频的识别结果，判定输出音频和语音指令的意图的一致性，获得音频判定结果。

在步骤S106中，人机界面操作指令生成装置1214经基于测试设备1200接收的测试用例，经由ADB接口，向车机2000提供与语音指令相关的人机界面操作指令。

在步骤S107中，图像采集装置1206采集车机2000的显示器响应于语音指令和人机界面操作指令产生的输出图像。这里，车机2000的显示器响应于语音指令产生的输出图像对应于本申请中的第一输出图像，车机2000的显示器响应于人机界面操作指令产生的输出图像对应于本申请中的第二输出图像。

在步骤S108中，第二获取装置1207获取与语音指令、人机界面操作指令相关联的标准图像。这里，与语音指令相关联的标准图像对应于本申请中的第一标准图像，与人际界面操作指令相关联的标准图像对应于本申请中的第二标准图像。

在步骤S109中，图像识别装置1208基于输出图像和标准图像，进行图像识别，获得输出图像的识别结果。此步骤中采用的具体的图像识别方法将在后面进行更详细的描述。

在步骤S110中，图像判定装置1209基于输出图像的识别结果，判定输出图像同第一、人机界面操作指令的意图的一致性，获得图像判定结果。

在步骤S111中，报文采集装置1210采集车机2000响应于测试用指令产生的上下行报文。其中，上下行报文包括上行报文和下行报文。上行报文是车机2000响应于测试用指令产生的，下行报文是车辆执行器(未示出)响应于车机2000输出的上行报文产生的。采集报文的方式有多种，本申请不对此进行限制。

在步骤S112中，第三获取装置1211获取与测试用指令相关联的标准报文。

在步骤S113中，报文识别装置1212基于上下行报文和标准报文，获得上下行报文的识别结果。

在步骤S114中，报文判定装置1213基于上下行报文的识别结果，判定上下行报文和测试用指令的意图的一致性，获得报文判定结果。具体地，可以先对上下行报文和标准报文进行比对，然后将这样的比对结果(例如相关性)与预设识别条件(例如预设阈值)进行比较。如果报文的比对结果满足预设识别条件，输出肯定性报文识别结果；如果报文的比对结果不满足预设识别条件，输出否定性报文识别结果。

在步骤S115中，测试汇总装置1215汇总各判定结果，形成并输出汇总测试结果。

可以理解的是，步骤S101至S115并不是以实际发生的顺序排列。在实际中，步骤S102至S105、步骤S106至S110和步骤S111至S114可以以系列为单位调换顺序进行或同时进行。此外，在一些其它测试方法实施方式中，上述一些步骤可以省略，例如可以省略步骤S106至S110和/或步骤S111至S114，或者省略步骤S115。此外，在一些其它测试方法实施方式中，可以省略步骤S106，在这种情况下，步骤S107至S110可被相应地调整为仅基于语音指令进行相关的操作。

类似地，在一些其它测试设备实施方式中，上述一些装置可以省略，例如可以省略执行步骤S106至S110的各装置和/或执行步骤S111至S114的各装置，或执行步骤S115的装置。在一些其它测试设备实施方式中，可以省略人机界面操作指令生成装置1214，在这种情况下，执行步骤S107至S110的各装置可以被相应地调整为仅基于语音指令进行相关的操作。

下面参照图6至图10进一步描述本申请实施方式的音频识别装置和音频识别方法。

图6示意性地示出了本申请实施方式的音频识别装置1204的结构示意图。音频识别装置1204包括音频接收模块401、信号处理模块402、划分模块403、计算模块404、音频识别模块405、轮询模块406和阈值调整模块407。

音频接收模块401用于分别接收输出音频的波形数据和标准音频的波形数据。

信号处理模块402与音频接收模块401连接，用于对获取到的输出音频的波形进行前处理，并对处理后的波形进行归一化。

划分模块403与信号处理模块402连接，用于以相同的时间步长(例如0.5秒)，对输出音频的波形数据和标准音频的波形数据进行划分，获得N(N是自然数)对波形数据块。输出音频的波形数据对应于本申请中的第一波形数据，标准音频的波形数据对应于本申请中的第二波形数据。对输出音频的波形数据进行划分得到的N个波形数据块对应于本申请中的第一波形数据分块，对标准音频的波形数据进行划分得到的N个波形数据块对应于本申请中的第二波形数据分块。另外，输出音频还对应于本申请中的待识别音频。划分模块403对应于本申请中的第一划分模块与第二划分模块。

在本实施方式中，输出音频的波形数据和标准音频的波形数据进行划分得到的波形数据块的数量相同，然而，作为其他实施方式，也可以不同，例如，省略上述信号处理模块402进行的归一化处理，对输出音频的波形数据和标准音频的波形数据按照对相同预设时间步长进行划分，如果得到不同数量的波形数据分块，可以舍去一部分波形数据分块。另外，在本实施方式中，对输出音频的波形数据和标准音频的波形数据完全按照对相同预设时间步长进行划分，然而，作为其他实施方式，可以适当调整某些波形数据分块的时间步长，例如延长输出音频的首尾处的数据分块的时间步长。

计算模块404与划分模块403连接，用于分别对每对波形数据分块进行频域相关性计算，获得N个频域相关度。这里的频域相关度是本申请中的相关度的一例。此处所谓的相关度表示的是相似程度，不言而喻，除了频域相关度外，还可以采用其他方式的相关度。

另外，计算模块404可以对每对数据分块都计算相关度，也可以仅对一部分数据分块对计算相关度。作为仅对一部分数据分块对计算相关度的情形，例如，可以获取标准音频的内容，进而获取标准音频的各数据分块的内容，根据其内容判断是否计算与其相关度。具体而言，假设标准音频的内容是“|好|的|，|小|U|已|为|您|打|开|空|调|”，那么，可以选择不计算“|小|U|”对应的第二数据分块的相关度。

音频识别模块405分别与计算模块404和划分模块403连接，用于基于N个频域相关性和与N对波形数据块对应的N个预设阈值，获得输出音频的识别结果。

图7示意性地示出了本申请实施方式的音频识别模块405的结构示意图。如图7所示，音频识别模块405包括第一音频识别模块4051、第二音频识别模块4052和三音频识别模块4053。音频识别模块405对应本申请中的识别模块。

第一音频识别模块4051用于分别比较N个频域相关性和与N对波形数据块对应的N个预设阈值，获得N个比较结果。

第二音频识别模块4052与第一音频识别模块4051连接，用于基于预设的识别条件和N个比较结果，生成指示输出音频与标准音频相同或不同的识别结果，该识别结果对应本申请中的第一识别结果。

第三音频识别模块4053与第二音频识别模块4052连接，用于基于输出音频的识别结果，获取标准音频的内容，输出标准音频的内容作为输出音频的内容。作为其他实施方式，第三音频识别模块4053生成的输出音频的内容也可以与标准音频的内容稍稍不同，例如标准音频的内容是“小U已为您打开空调”，根据此标准音频的内容生成的输出音频的内容是“小Y已为您打开空调”。

轮询模块406分别与音频识别模块405和划分模块403连接，用于基于输出音频和标准音频的识别结果和其他未使用过的标准音频的存在，在存在未比较过的标准音频时，重复划分模块403、计算模块404和音频识别模块405所执行的处理，直至使输出音频和全部的标准音频都进行了比较。

阈值调整模块407分别与音频接收模块401和音频识别模块405连接，用于基于输出音频和标准音频，分别调整N个预设阈值，使N个预设阈值存在不同。例如，可以根据标准音频的波形数据分块的内容来调整与其对应的预设阈值，具体将在后面进行描述。此时，第一获取装置还可以根据标准音频的内容得到标准音频的波形数据分块的内容。

通过上述各个模块，本实施方式能够以较小的开发成本实现对输出音频的内容间接识别，而避免了开发成本高昂的音频内容的直接识别。此外，本实施方式由于基于数据分块进行处理，其可靠性、灵活性得到了提高。

图8示意性地示出了本申请实施方式的音频识别方法。该音频识别方法具体包括步骤S201-S209。

在步骤S201中，音频接收模块401分别接收输出音频的波形数据和标准音频的波形数据以及内容。其中，如图8所示，标准音频可以来自测试设备包括的音频数据库。

例如，当测试用指令是输入语音“请帮我打开空调”时，某被测车机响应于该测试用指令的输出音频可以是“好的，小X已为您打开空调了”，而预先存储于数据库中或包含在测试用例中的标准音频可以包括“好的，小U已为您打开空调”、“好的，空调已为您打开”以及“已开启空调”。

在步骤S202中，信号处理模块402对获取到的输出音频的波形进行前处理，并对处理后的波形进行归一化。

其中，前处理可以包括用于抑制噪声的滤波处理、用于去除杂音的相位纠偏处理等，以去除噪声、空白音频信号等对后续处理的负面影响。归一化处理可以减小后续处理的复杂度，降低后续处理的计算开销。

例如，在实际中，以上述车机反馈语音为例，输出音频可能不仅包括车机产生的“好的，小X已为您打开空调了”的反馈语音信号，还可能包括车辆行驶中产生的振动噪声和车厢内例如闲聊的环境噪声等。在这种情况下，可以对输出音频进行滤波处理，以抑制噪声。

此外，车机在收到测试用指令后需要一段时间才能产生反馈语音信号，由此，输出音频还可能包括在该段时间内收录的空白音频信号。在这种情况下，可以对输出音频进行相位纠偏处理。

图9示意性地示出了本申请实施方式的信号处理模块对输出音频的波形信号进行的前处理，图9上部为输出音频的波形，下部为标准音频的波形，图中横轴为时间，纵轴为幅值。由于输出音频与标准音频包括空白音频，因此通过将输出音频与标准音频的波形整体向左平移(去掉空白部分)，从而使得输出音频和标准音频的初相位基本一致，来实现相位纠偏。此外，还可以以输出音频和标准音频之间的较短者为基准，对较长者进行截取(例如去掉较长者的比较短者长的后部，参照图10中竖直粗虚线后面的部分)，使得处理后的输出音频和标准音频的时长基本一致。

在步骤S203中，划分模块403以相同的方式，对输出音频的波形和标准音频的波形进行划分，获得N对波形数据块。

图10示意性地示出了图9的输出音频的波形和标准音频的波形的划分。在经过图4的相位纠偏处理后，图10上部的输出音频的初相位和图10下部的标准音频的初相位基本一致，并且两者的时长基本一致。以0.5秒时长为单位，对输出音频和标准音频进行划分，得到12对波形数据块。

在本申请中，以相同方式划分意在使得一对波形数据块中的两个波形数据块的时长相等，但不意在限制不同波形对的时长。例如，在本申请的其它一些实施方式中，第1对波形数据块的时长可以不等于第2对波形数据块的时长。此外，可以对波形数据块的单位时长进行调整。例如，在本申请的其它一些实施方式中，用于划分的单位时长在0.2至0.7秒的范围内。

在步骤S204中，计算模块404分别对每对波形数据块进行频域相关性计算，获得N对波形数据块。

以图10示出的分块方式为例，在步骤S204中，先分别对12对波形数据块中的每个波形数据块进行快速傅里叶变换(fast Fourier transform，FFT)，使得总共24个波形数据块从时域函数转换为频域函数。然后在以一对波形数据块为单位，分别对每对频域波形数据块进行相关性计算，获得12个频域相关性。

在本申请的其它一些实施方式中，可以使用其它时域-频域变换的方式，例如其它的傅里叶变换。

在步骤S205中，阈值调整模块407基于输出音频和标准音频，分别调整N个预设阈值，其中N个预设阈值对应于N个波形对。

以上述输出音频“好的，小X已为您打开空调了”和标准音频“好的，小U已为您打开空调”为例。在上述步骤S202中，可以将输出音频截取为“好的，小X已为您打开空调”。并且在上述步骤S203中，可以将输出音频和标准音频分别划分为12块，形成12对波形数据块：

|好|的|，|小|U|已|为|您|打|开|空|调|，

|好|的|，|小|X|已|为|您|打|开|空|调|。

然后在上述步骤S204中，计算了上述12对波形数据块的频域相关性。在S205中，则根据测试用指令“打开空调”和标准音频“好的，小X已为您打开空调”对与12个N个频域相关性对于的12个预设阈值调整，将与第9至12个波形对(即|打|开|空|调|)对应的预设阈值设定为较高的值，例如85；将与第4至5个波形对(即|小|U|和|小|X|)对应的预设阈值设定为较低值，例如0；将其它波形对对应的预设阈值设定为相对低的值，例如为60。也就是说，在步骤S205中，可以调高音频的重点识别区域的预设阈值，降低音频的非重点识别区域的预设阈值，甚至可以将可能由于车机不同而产生的差异化区域(例如不同车机的拟人化称呼小U和小X)的预设阈值设定为0。通过这种方式，能够在较大程度上提高音频识别成功率，降低音频的误识别率。

可以理解的是，上述阈值的调整和设定方式仅是示例性的。在本申请的其它一些实施方式中，分块的个数越少，各分块的各预设阈值的平均赋值越高；分块的个数越多，各分块的各预设阈值的平均赋值越低。

在步骤S206中，音频识别模块405的第一音频识别模块4051分别比较N个频域相关性和N个预设阈值，获得N个比较结果。

具体地，如果其中一个频域相关性大于与其对应的预设阈值时，则它们的比较结果为肯定性结果(“是”)。反之，即该频域相关性小于或等于与其对应的预设阈值时，则它们的比较结果为否定性结果(“否”)。

在步骤S207中，音频识别模块405的第二音频识别模块4052基于预设的识别条件和N个比较结果，获得输出音频的识别结果，其中识别结果为肯定性结果时，执行步骤S208，识别结果为否定性结果时，执行步骤S209。

例如，预设的识别条件是肯定性结果的数量是所有比较结果数量的80％以上，当N个比较结果满足该预设的识别条件时，该输出音频则被识别为是该标准音频，当N个比较结果不满足该预设的识别条件时，该输出音频则被识别为不是该标准音频。可以理解的是，上述预设的识别条件的比例值仅是示例性的。在本申请的其它一些实施方式中，分块的个数越多，预设的识别条件的比例赋值越低；而分块的个数越少，预设的识别条件的比例赋值越高。

在步骤S208中，音频识别模块405的第三音频识别模块4053获取标准音频的内容，将该标准音频的内容作为输出音频的内容并输出。

例如，当数据库中的标准音频以文本形式存储时，可以直接调用该标准音频的文本作为输出音频的内容。当数据库中的标准音频是以波形形式存储时，还需要存储有其内容的文件，在这种情况下，步骤S201获取该标准音频的波形，而步骤S208则获取该标准音频的内容的文件。

在步骤S209中，轮询模块406判断是否还有其它与测试用指令关联的标准音频，如果有，则转至步骤S203，在输出音频与所有标准音频的识别结果均为否定性结果时，输出否定性识别结果。

以上述测试用指令“打开空调”、输出音频“好的，小X已为您打开空调了”和相关联的3个标准音频为例。例如被划分并与输出音频“好的，小X已为您打开空调了”比较第1个标准音频为“好的，空调已为您打开”，那么在步骤S207中，输出音频将被识别为不是该第1个标准音频“好的，空调已为您打开。随后在步骤S209中，将以第2个标准音频“已开启空调”作为标准音频，转至步骤S203；重复后续各步骤，然后在步骤S207中，输出音频将再一次被识别为不是该第2个标准音频“已开启空调”。随即在步骤S209中，将以第3个标准音频“好的，小U已为您打开空调”作为标准音频，转至步骤S203；重复后续各步骤；在步骤S207中，输出音频“好的，小X已为您打开空调了”被识别为是该第3个标准音频“好的，小U已为您打开空调”；最后在步骤S208中获取第3个标准音频的内容，输出第3个标准音频的内容作为输出音频的内容。或者，在步骤S207中，输出音频“好的，小X已为您打开空调了”被识别为不是该第3个标准音频“好的，小U已为您打开空调”，在随后的步骤S209中，由于此时已经没有其他未经过识别处理的标准音频，轮询模块406将输出否定性识别结果。

可以理解的是，步骤S201至S209并不是以实际发生的顺序排列。例如，在一些其它音频识别方法实施方式中，步骤S205可以发生在步骤S204之前。此外，在一些其它音频识别方法实施方式中，上述一些步骤可以省略，例如可以省略步骤S202、S205、S208、S209或它们的任意组合。此外，在一些其它音频识别方法实施方式中，S207可以规定为直接输出肯定性或否定性的识别结果。类似地，在一些其它音频识别装置实施方式中，上述一些模块可以省略，例如可以省略执行步骤S202、S205、S208或S209的模块，或这些模块的任意组合。

下面参照图11和图12进一步描述本申请实施方式的图像识别装置和图像识别方法。

图11示意性地示出了本申请实施方式的图像识别装置1208的结构示意图。图像识别装置1208包括图像接收模块801、灰度处理模块802、二值化处理模块803、图像匹配识别模块804和图像文字识别模块805。

图像接收模块801用于接收车机2000，尤其是车机的人机交互界面(User Interface,UI)响应于语音指令和/或人机界面操作指令(例如切屏操作)产生的输出图像，以及接收相应地与语音指令和/或人机界面操作指令(例如切屏操作)相关联的标准图像。

灰度处理模块802与图像接收模块801连接，用于对输出图像进行灰度处理。由于图像的灰度处理是较为成熟的技术，本申请对于灰度处理的可实现方式不再详述。

二值化处理模块803与灰度处理模块802连接，用于对输出图像进行二值化处理。由于图像的二值化处理是较为成熟的技术，本申请对于二值化处理的可实现方式不再详述。

图像匹配识别模块804与二值化处理模块803和图像接收模块801连接，用于将经过处理的输出图像以预设模板为形状进行截取，然后将经过截取的输出图像与标准图像进行匹配识别，输出第一图像识别结果。

图像文字识别模块805与二值化处理模块803连接，用于对经过处理的输出图像进行光学字符识别(Optical Character Recognition,OCR)，输出第二图像识别结果。由于图像的光学字符识别是较为成熟的技术，本申请对于光学字符识别的可实现方式不再详述。

图12示意性地示出了涉及本申请实施方式的图像识别方法的各方面的示意图。

其中，在图12中测试设备的右侧，示意性地示出了与本申请实施方式的图像识别方法相关的上述步骤S101、S106至S108。其中，本申请实施方式的测试设备根据测试用例分别向车机发送语音指令和作为人机界面操作指令的切屏操作指令。其中，切屏操作指令是经由ADB接口传输的。车机的人机交互界面响应于语音指令和人机界面操作指令产生输出图像。测试设备分别从车机采集其人机交互界面的输出图像和从图像数据库中获取与语音指令和第二术语指令相关联的标准图像。

在图12中测试设备的左侧，示意性地示出了本申请一个实施方式中涉及的图像识别方法，该图像识别方法包括下述步骤S301至S305。

在步骤S301中，图像接收模块801例如从车机的人机交互界面接收其响应于语音指令和/或人机界面操作指令(例如切屏操作)产生的输出图像，以及例如从车机的图像数据库接收相应地与语音指令和/或人机界面操作指令(例如切屏操作)相关联的标准图像。

在步骤S302中，灰度处理模块802对输出图像进行灰度处理。

在步骤S303中，二值化处理模块803对输出图像进行二值化处理。

在步骤S304中，图像匹配识别模块804将经过处理的输出图像以预设模板为形状进行截取，然后将经过截取的输出图像与标准图像进行匹配识别，输出第一图像识别结果。

在步骤S305中，图像文字识别模块805对经过处理的输出图像进行光学字符识别输出第二图像识别结果。

可以理解的是，上述一些步骤可以省略。例如在一些其它图像识别方法实施方式中，可以省略步骤S302和S303。在另一些其它图像识别方法实施方式中，可以省略步骤S304或S305。

类似地，上述一些模块可以省略。例如在一些其它图像识别装置实施方式中，可以省略执行步骤S302和S303的各模块。在另一些其他图像识别装置实施方式中，可以省略执行步骤S304或执行步骤S305的模块。

图13是本申请实施例提供的一种计算设备1500的结构性示意性图。该计算设备1500包括：处理器1510、存储器1520、通信接口1530、总线1540。

应理解，图13所示的计算设备1500中的通信接口1530可以用于与其他设备之间进行通信。

其中，该处理器1510可以与存储器1520连接。该存储器1520可以用于存储该程序代码和数据。因此，该存储器1520可以是处理器1510内部的存储单元，也可以是与处理器1510独立的外部存储单元，还可以是包括处理器1510内部的存储单元和与处理器1510独立的外部存储单元的部件。

可选的，计算设备1500还可以包括总线1540。其中，存储器1520、通信接口1530可以通过总线1540与处理器1510连接。总线1540可以是外设部件互连标准(Peripheral Component Interconnect，PCI)总线或扩展工业标准结构(Extended Industry Standard Architecture，EISA)总线等。总线1540可以分为地址总线、数据总线、控制总线等。为便于表示，图13中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。

应理解，在本申请实施例中，该处理器1510可以采用中央处理单元(central processing unit，CPU)。该处理器还可以是其它通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现成可编程门阵列(field programmable gate Array，FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。或者该处理器1510采用一个或多个集成电路，用于执行相关程序，以实现本申请实施例所提供的技术方案。

该存储器1520可以包括只读存储器和随机存取存储器，并向处理器1510提供指令和数据。处理器1510的一部分还可以包括非易失性随机存取存储器。例如，处理器1510还可以存储设备类型的信息。

在计算设备1500运行时，处理器1510执行存储器1520中的计算机执行指令执行上述方法的操作步骤。

应理解，根据本申请实施例的计算设备1500可以对应于执行根据本申请各实施例的方法中的相应主体，并且计算设备1500中的各个模块的上述和其它操作和/或功能分别为了实现本实施例各方法的相应流程，为了简洁，在此不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时用于执行上述各音频识别方法、图像识别方法和测试方法中的任一种方法，该方法包括上述各个实施例所描述的方案中的至少之一。

本申请实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是，但不限于，电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括、但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本申请的较佳实施例及所运用的技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请的构思的情况下，还可以包括更多其他等效实施例，均属于本申请的保护范畴。

例如，在上面的描述中，以相关度大于阈值的波形数据分块的数量是所有比较结果数量的80％以上为条件，将输出音频的内容识别为标准音频的内容，然而，本申请并不限于此，例如，可以对计算出的多个相关度求平均值，在平均值大于平均值阈值时，将输出音频的内容识别为标准音频的内容；或者，对计算出的多个相关度赋予不同的权重值，在此基础上计算平均值。这里的权重值可以根据标准音频的内容进行设定。

Claims

一种测试语音交互系统的测试方法，其特征在于，包括：

向所述语音交互系统发送语音指令；

获取所述语音交互系统的扬声器的输出音频的第一波形数据；

获取标准音频的第二波形数据；

将所述第一波形数据分为多个第一波形数据分块；

将所述第二波形数据分为多个第二波形数据分块；

计算所述第一波形数据分块与所述第二波形数据分块的相关度；

根据所述相关度生成第一测试结果，所述第一测试结果指示所述输出音频与所述语音指令相匹配或不匹配。
根据权利要求1所述的测试方法，其特征在于，所述计算所述第一波形数据分块与所述第二波形数据分块的相关度包括：

分别计算所述多个第一波形数据分块与所述多个第二波形数据分块的多个相关度；

其中，所述根据所述相关度生成第一测试结果包括：

将所述多个相关度与多个预设阈值分别进行比较，根据所述比较的结果生成所述第一测试结果。
根据权利要求2所述的测试方法，其特征在于，所述多个预设阈值的大小被设定为不同。
根据权利要求2或3所述的测试方法，其特征在于，还包括：

获取所述标准音频的内容；

根据所述标准音频的内容获取所述多个第二波形数据分块的内容；

根据所述第二波形数据分块的内容，设定所述预设阈值。
根据权利要求1-4中任一项所述的测试方法，其特征在于，还包括：

获取所述标准音频的内容；

在所述第一测试结果指示所述输出音频与所述语音指令相匹配时，根据所述标准音频的内容生成所述输出音频的内容。
根据权利要求1-5中任一项所述的测试方法，其特征在于，还包括：

获取所述语音交互系统的显示器的第一输出图像；

获取第一标准图像；

根据所述第一输出图像和所述第一标准图像生成第二测试结果，所述第二测试结果指示所述第一输出图像和所述语音指令相匹配或不匹配。
根据权利要求6所述的测试方法，其特征在于，所述获取所述语音交互系统的显示器的第一输出图像包括：通过所述语音交互系统的安卓调试桥接口获取所述第一输出图像。
根据权利要求1-7中任一项所述的测试方法，其特征在于，还包括：

在发送所述语音指令之后，向所述语音交互系统发送人机界面操作指令；

获取所述语音交互系统的显示器的第二输出图像；

获取第二标准图像；

根据所述第二输出图像和所述第二标准图像生成第三测试结果，所述第三测试结果指示所述第二输出图像与所述人机界面操作指令相匹配或不匹配。
根据权利要求8所述的测试方法，其特征在于，所述获取所述语音交互系统的显示器的第二输出图像包括：通过所述语音交互系统的安卓调试桥接口获取所述第二输出图像。
根据权利要求1-9中任一项所述的测试方法，其特征在于，还包括：

获取所述语音交互系统收发的第一报文；

获取第一标准报文；

根据所述第一报文和所述第一标准报文生成第四测试结果，所述第四测试结果指示所述第一报文和所述语音指令相匹配或不匹配。
一种音频识别方法，其特征在于，包括：

获取待识别音频的第一波形数据；

获取标准音频的第二波形数据；

将所述第一波形数据分为多个第一波形数据分块；

将所述第二波形数据分为多个第二波形数据分块；

计算所述第一波形数据分块与所述第二波形数据分块的相关度；

根据所述相关度生成第一识别结果，所述第一识别结果指示所述待识别音频与所述标准音频相同或不同。
根据权利要求11所述的音频识别方法，其特征在于，

所述计算所述第一波形数据分块与所述第二波形数据分块的相关度包括：分别计算所述多个第一波形数据分块与所述多个第二波形数据分块的多个相关度；

其中，所述根据所述相关度生成第一识别结果包括：将所述多个相关度与多个预设阈值分别进行比较，根据所述比较的结果生成所述第一识别结果。
根据权利要求12所述的音频识别方法，其特征在于，所述多个预设阈值的大小被设定为不同。
根据权利要求12或13所述的音频识别方法，其特征在于，还包括：

获取所述标准音频的内容；

根据所述标准音频的内容获取所述多个第二波形数据分块的内容；

根据所述第二波形数据分块的内容，设定所述预设阈值。
根据权利要求11-14中任一项所述的音频识别方法，其特征在于，还包括：

获取所述标准音频的内容；

在所述第一识别结果指示所述待识别音频与所述标准音频相同时，根据所述标准音频的内容生成所述待识别音频的内容。
一种用于测试语音交互系统的测试设备，其特征在于，包括：

语音指令生成装置，用于向所述语音交互系统发送语音指令；

音频采集装置，用于获取所述语音交互系统的扬声器的输出音频的第一波形数据；

第一获取装置，用于获取标准音频的第二波形数据；

第一划分模块，用于将所述第一波形数据分为多个第一波形数据分块；

第二划分模块，用于将所述第二波形数据分为多个第二波形数据分块；

计算模块，用于计算所述第一波形数据分块与所述第二波形数据分块的相关度；

音频判定装置，用于根据所述相关度生成第一测试结果，所述第一测试结果指示所述输出音频与所述语音指令相匹配或不匹配。
根据权利要求16所述的测试设备，其特征在于，

所述计算模块执行的所述计算所述第一波形数据分块与所述第二波形数据分块的相关度包括：分别计算所述多个第一波形数据分块与所述多个第二波形数据分块的多个相关度；

所述音频判定装置执行的所述根据所述相关度生成第一测试结果包括：将所述多个相关度与多个预设阈值分别进行比较，根据所述比较的结果生成所述第一测试结果。
根据权利要求17所述的测试设备，其特征在于，还包括阈值调整模块，用于将所述多个预设阈值的大小设定为不同。
根据权利要求18所述的测试设备，其特征在于，

所述第一获取装置还用于：

获取所述标准音频的内容；

根据所述标准音频的内容获取所述多个第二波形数据分块的内容；

所述阈值调整模块还用于根据所述第二波形数据分块的内容，设定所述预设阈值。
根据权利要求16-19中任一项所述的测试设备，其特征在于，

所述第一获取装置还用于获取所述标准音频的内容；

所述测试设备还包括音频识别模块，所述音频识别模块用于在所述第一测试结果指示所述输出音频与所述语音指令相匹配时，根据所述标准音频的内容生成所述输出音频的内容。
根据权利要求16-20中任一项所述的测试设备，其特征在于，还包括：

图像采集装置，用于获取所述语音交互系统的显示器的第一输出图像；

第二获取装置，用于获取第一标准图像；

图像判定装置，用于根据所述第一输出图像和所述第一标准图像生成第二测试结果，所述第二测试结果指示所述第一输出图像和所述语音指令相匹配或不匹配。
根据权利要求21所述的测试设备，其特征在于，所述图像采集装置执行的所述获取所述语音交互系统的显示器的第一输出图像包括：通过所述语音交互系统的安卓调试桥接口获取所述第一输出图像。
根据权利要求16-22中任一项所述的测试设备，其特征在于，还包括：

人机界面操作指令生成装置，用于在发送所述语音指令之后，向所述语音交互系统发送人机界面操作指令；

图像采集装置，用于获取所述语音交互系统的显示器的第二输出图像；

第二获取装置，用于获取第二标准图像；

图像判定装置，用于根据所述第二输出图像和所述第二标准图像生成第三测试结果，所述第三测试结果指示所述第二输出图像与所述人机界面操作指令相匹配或不匹配。
根据权利要求23所述的测试设备，其特征在于，所述图像采集装置执行的所述获取所述语音交互系统的显示器的第二输出图像包括：通过所述人机交互系统的安卓调试桥接口获取所述第二输出图像。
根据权利要求16-24中任一项所述的测试设备，其特征在于，还包括：

报文采集装置，用于获取所述语音交互系统收发的第一报文；

第三获取装置，用于获取第一标准报文；

报文判定装置，用于根据所述第一报文和所述第一标准报文生成第四测试结果，所述第四测试结果指示所述第一报文和所述语音指令相匹配或不匹配。
一种音频识别装置，其特征在于，包括：

音频采集模块，用于获取待识别音频的第一波形数据；

第一获取模块，用于获取标准音频的第二波形数据；

第一划分模块，用于将所述第一波形数据分为多个第一波形数据分块；

第二划分模块，用于将所述第二波形数据分为多个第二波形数据分块；

计算模块，用于计算所述第一波形数据分块与所述第二波形数据分块的相关度；

识别模块，用于根据所述相关度生成第一识别结果，所述第一识别结果指示所述待识别音频与所述标准音频相同或不同。
根据权利要求26所述的音频识别装置，其特征在于，

所述计算模块执行的所述计算所述第一波形数据分块与所述第二波形数据分块的相关度包括：分别计算所述多个第一波形数据分块与所述多个第二波形数据分块的多个相关度；

其中，所述识别模块执行的所述根据所述相关度生成第一识别结果包括：将所述多个相关度与多个预设阈值分别进行比较，根据所述比较的结果生成所述第一识别结果。
根据权利要求27所述的音频识别装置，其特征在于，还包括阈值调整模块，用于将所述多个预设阈值的大小设定为不同。
根据权利要求28所述的音频识别装置，其特征在于，

所述第一获取模块还用于：

获取所述标准音频的内容；

根据所述标准音频的内容获取所述多个第二波形数据分块的内容；

所述阈值调整模块还用于根据所述第二波形数据分块的内容，设定所述预设阈值。
根据权利要求26-29中任一项所述的音频识别装置，其特征在于，

所述第一获取模块还用于获取所述标准音频的内容；

所述识别模块还用于在所述第一识别结果指示所述待识别音频与所述标准音频相同时，根据所述标准音频的内容生成所述待识别音频的内容。
一种计算设备，其特征在于，包括至少一个处理器与至少一个存储器，所述存储器存储有程序指令，所述程序指令当被所述至少一个处理器执行时使得所述至少一个处理器执行权利要求1-15中任一项所述的方法。
一种计算机可读存储介质，存储有程序指令，其特征在于，所述程序指令当被计算机执行时使得所述计算机执行权利要求1-15中任一项所述的方法。