WO2020011085A1

WO2020011085A1 - 串音数据检测方法和电子设备

Info

Publication number: WO2020011085A1
Application number: PCT/CN2019/094530
Authority: WO
Inventors: 许云峰; 余涛
Original assignee: 阿里巴巴集团控股有限公司
Priority date: 2018-07-12
Filing date: 2019-07-03
Publication date: 2020-01-16
Also published as: CN110718237A; CN110718237B; US11551706B2; US20210090589A1; JP2021531685A

Abstract

本说明书公开了串音数据检测方法和电子设备。所述串音数据检测方法能检测音频数据流中是否包括串音数据。

Description

串音数据检测方法和电子设备

本申请要求2018年07月12日递交的申请号为201810763010.9、发明名称为“串音数据检测方法和电子设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本说明书涉及计算机技术领域，特别涉及串音数据检测方法和电子设备。

背景技术

在现实生活中，人们会在一起沟通、讨论事项。在一些场景中，可以使用麦克风对声源进行放大，现场多个麦克风可以采集每个角色的音频数据。在一些情况下，两个以上麦克风距离很近的情况下，可能会出现串音现象。

发明内容

本说明书实施方式提供一种可以检测串音数据的串音数据检测方法和电子设备。

本说明书实施方式提供一种串音数据检测方法，包括：接收第一音频数据块和第二音频数据块；其中，所述第一音频数据块和所述第二音频数据块分别包括多个音频数据分段；计算所述第一音频数据块的音频数据分段与第二音频数据块的音频数据分段的相关系数，得出相关系数的峰值；将所述峰值对应的所述第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段的获取时间的时间差作为基准时差；将所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的获取时间的时间差作为音频分段时差；在所述音频分段时差与所述基准时差不相匹配的情况下，确定所述第一音频数据块的相应音频数据分段包括串音数据。

本说明书实施方式提供一种电子设备，包括：第一声音感应装置，用于产生第一音频数据块；所述第一音频数据块中包括多个音频数据分段；第二声音感应装置，用于产生第二音频数据块；所述第二音频数据块中包括多个音频数据分段；处理器，用于计算所述第一音频数据块的音频数据分段与第二音频数据块的音频数据分段的相关系数，得出相关系数的峰值；将所述峰值对应的所述第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段的获取时间的时间差作为基准时差；将所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的获取时间的时间差作为音频分段时差；在所述音频分段时差与所述基准时差不相匹配的情况下，确定所述第一音频数据块的相应音频数据分段包括串音数据。

本说明书实施方式提供一种串音数据检测方法，包括：接收第一音频数据块和第二音频数据块；其中，所述第一音频数据块和所述第二音频数据块分别包括多个音频数据分段；计算所述第一音频数据块的音频数据分段与第二音频数据块的音频数据分段的相关系数，得出相关系数的峰值；将所述峰值对应的所述第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段的获取时间的时间差作为基准时差；将所述基准时差、所述第一音频数据块和所述第二音频数据块发送给服务器，以用于所述服务器将所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的获取时间的时间差作为音频分段时差；在所述音频分段时差与所述基准时差不相匹配的情况下，确定所述第一音频数据块的相应音频数据分段包括串音数据。

本说明书实施方式提供一种串音数据检测方法，包括：接收第一音频数据块、第二音频数据块和基准时差；其中，所述第一音频数据块和所述第二音频数据块分别包括多个音频数据分段；将所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的获取时间的时间差作为音频分段时差；在所述音频分段时差与所述基准时差不相匹配的情况下，确定所述第一音频数据块的相应音频数据分段包括串音数据。

本说明书实施方式提供一种串音数据检测方法，包括：接收第一音频数据块和第二音频数据块；其中，所述第一音频数据块和所述第二音频数据块分别包括多个音频数据分段；计算所述第一音频数据块的音频数据分段与第二音频数据块的音频数据分段的相关系数，得出相关系数的峰值；将所述峰值、第一音频数据块和第二音频数据块发送给服务器，以用于所述服务器将所述峰值对应的所述第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段的获取时间的时间差作为基准时差；将所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的获取时间的时间差作为音频分段时差；在所述音频分段时差与所述基准时差不相匹配的情况下，确定所述第一音频数据块的相应音频数据分段包括串音数据。

本说明书实施方式提供一种串音数据检测方法，包括：接收客户端提供的相关系数的峰值、第一音频数据块和第二音频数据块；其中，所述峰值是所述第一音频数据块的音频数据分段与所述第二音频数据块的音频数据分段的相关系数的峰值；将所述峰值对应的所述第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段的获取时间的时间差作为基准时差；将所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的获取时间的时间差作为音频分段时差；在所述音频分段时差与所述基准时差不相匹配的情况下，确定所述第一音频数据块的相应音频数据分段包括串音数据。

本说明书实施方式提供一种串音数据检测方法，包括：接收第一音频数据块和第二音频数据块；其中，所述第一音频数据块和所述第二音频数据块分别包括多个音频数据分段；将所述第一音频数据块和所述第二音频数据块发送给服务器，以用于所述服务器计算所述第一音频数据块的音频数据分段与第二音频数据块的音频数据分段的相关系数，得出相关系数的峰值；将所述峰值对应的所述第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段的获取时间的时间差作为基准时差；将所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的获取时间的时间差作为音频分段时差；在所述音频分段时差与所述基准时差不相匹配的情况下，确定所述第一音频数据块的相应音频数据分段包括串音数据。

由以上本说明书实施方式提供的技术方案可见，通过确定所述第一音频数据块和所述第二音频数据块之间的基准时差，实现根据所述基准时差检测串音数据。由于声音的延时信息和声源和麦克风的空间位置相关，所以通过延时的时差可以较为有效的检测音频数据块中是否包括串音数据。

附图说明

为了更清楚地说明本说明书实施方式或现有技术中的技术方案，下面将对实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施方式提供的一种串音数据检测系统的示意图；

图2为本说明书实施方式提供的一种串音数据检测系统在辩论比赛场景下的应用场景示意图；

图3为本说明书实施方式提供的音频数据块传输路径示意图；

图4为本说明书实施方式提供的一种串音数据检测系统的模块示意图；

图5为本说明书实施方式提供的一种串音数据检测系统的模块示意图；

图6为本说明书实施方式提供的一种串音数据检测系统的模块示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施方式中的附图，对本说明书实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本说明书一部分实施方式，而不是全部的实施方式。基于本说明书中的实施方式，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式，都应当属于本说明书保护的范围。

请参阅图1和图2，在一个场景示例中，在辩论比赛现场，正反方各有4名辩手，分别坐在两边的长桌上，每个长桌上放置两个麦克风，用于感应辩手所发出的声音，并由功放放大话筒所感应到的声音。

在本场景示例中，辩手甲对着自己身前的麦克风A讲话，说道：“我认为全球化有利于发展中国家……”，由于麦克风A和麦克风B之间距离较近，麦克风B同样可以感应到“我认为全球化有利于发展中国家……”的声音。同时，辩手乙对着自己身前的麦克风B讲话，说道：“全球化有利于贸易发展……，麦克风A同样可以感应到“全球化有利于贸易发展……”的声音。因此麦克风A和麦克风B都可以根据所感应到的声音生成各自对应的音频数据流。

在本场景示例中，可以设置一个电子设备，所述电子设备可以通过接收模块接收所述麦克风A和所述麦克风B生成的音频数据流，并对音频数据流进行处理，检测音频数据流中的串音数据。

在本场景示例中，在辩手甲在对麦克风A说：“我认为全球化有利于发展中国家……”以及辩手乙对麦克风B说：“全球化有利于贸易发展……”的过程中，所述电子设备接收麦克风A所感应到的声音并生成音频数据流。同时，由于麦克风B同样可以根据感应到声音生成音频数据流。接收模块可以对应麦克风的数量具有多个数据通道。麦克风A对应数据通道A，麦克风B对应数据通道B。在本场景示例中，可以共有8个麦克风所述电子设备可以具有8个数据通道。进一步的，电子设备可以通过WIFI的方式接收麦克风在数据通道内输入的音频数据流。

在本场景示例中，接收模块可以将音频数据流划分为音频数据块。具体的，可以将数据通道A中的音频数据流划分得到第一音频数据块，将数据通道B中的音频数据流划分得到第二音频数据块。

在本场景示例中，所述电子设备可以将所述数据通道A输入的音频数据流作为目标，根据数据通道A和数据通道B中音频数据流之间的关联，检测数据通道A中音频数据流中是否存在串音数据。

在本场景示例中，可以将所述第一音频数据块和第二音频数据块，每个音频数据块按照1000ms为单位分成若干音频数据分段。

在本场景示例中，所述电子设备的系数计算模块可以分别对所述第一音频数据块和第二音频数据块进行傅里叶变换，根据傅里叶变换后的第一音频数据块和第二音频数据块生成互相关函数。可以根据该互相关函数计算第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段之间的相关度。具体的，可以将第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段分别计算相关度，而将计算得出的相关度中的最大值，可以认为最大值对应的第二音频数据块中的音频数据分段，与第一音频数据块中的音频数据分段相对应。如此，可以将该最大值认为是所述第一音频数据块中的该音频数据分段最终的相关系数。

在本场景示例中，可以根据互相关函数计算，得出音频数据块中音频数据分段对应的相关系数。由于存在两个人在趋于同一时间说话，使得音频数据块中音频数据分段对应的相关系数可以具有两个峰值，分别为0.3和0.5。可以将0.3确定为第一相关系数，将0.5确定为第二相关系数。

在本场景示例中，可以设定阈值，根据该阈值对音频数据分段进行筛选，得出音频数据块中的有效数据。例如，阈值可以为0.1，设定在相关系数大于0.1的情况下，认为所述相关系数对应的第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段之间相似度较高。可以认为该两个音频数据分段可能源于同一声源，即可以认为是有效数据。在相关系数小于0.1的情况下，认为该相关系数对应的第一音频数据块和第二音频数据块中的音频数据分段之间相似程度较低可以认为所述相关系数对应的第一音频数据块中的音频数据分段可能是噪音。在本场景示例中，可以不对认为是的噪声的音频数据分段进行串音检测。由于所述第一相关系数和第二相关系数为0.3和0.4，均大于0.1，因此，可以认为所述第一相关系数和所述第二相关系数对应的音频数据分段是有效数据。

在本场景示例中，系数计算模块可以将第一相关系数对应的第一音频数据块中的音频数据分段确定为第一目标音频数据分段，以及将第二相关系数对应的第一音频数据块中的音频数据分段确定为第二目标音频数据分段。将第一相关系数对应的第二音频数据块中的音频数据分段确定为第一辅助音频数据分段，将第二相关系数对应的第二音频数据块中的音频数据分段确定为第二辅助音频数据分段。

在本场景示例中，电子设备的时差确定模块可以计算第一目标音频数据分段与第一辅助音频数据分段之间的第一时间差。例如，第一时间差可以为30ms。计算第二目标音频数据分段与第二辅助音频数据分段之间的第二时间差。例如，第二时间差可以为60ms。

在本场景示例中，时差确定模块可以将第一时间差和第二时间差中，较小的一个确定为基准时差，另一个确定为串音时差。即，可以将基准时差确定为30ms，将串音时差确定为60ms。

在本场景示例中，所述电子设备的处理模块根据相关系数，确定所述第一音频数据块中每个音频数据分段对应的第二音频数据块中的音频数据分段，并进一步计算第一音频数据块中音频数据分段与第二音频数据块中相应音频数据分段的音频分段时差。在第一音频数据块中的音频数据分段对应的音频分段时差等于30ms的情况下，确定所述第一音频数据块中的该音频数据分段为主音频数据，在音频分段时差等于60ms的情况下，确定所述第一音频数据块中的所述音频数据分段为串音数据。

在一个场景示例中，由辩手乙进行陈述，辩手乙对着自己身前的麦克风B讲话，说道：“我认为全球化有利于发展中国家……”，由于麦克风A和麦克风B之间距离较近，麦克风A同样可以感应到“我认为全球化有利于发展中国家……”的声音。因此麦克风A和麦克风B都可以根据所感应到的声音生成各自对应的音频数据流。电子设备可以根据数据通道A和数据通道B输入的音频数据流，生成第一音频数据块和第二音频数据块。

在本场景示例中，电子设备可以计算第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段之间的相关系数。并根据相关系数对第一音频数据块中的音频数据分段进行筛选，得出第一音频数据块中是有效数据的音频数据分段为150个。进一步的，电子设备得出第一音频数据块与第二音频数据块之间的相关系数，存在一个峰值0.4，该相关系数峰值0.4对应的时间差为50ms。

在本场景示例中，所述电子设备分别计算第一音频数据块和第二音频数据块中各音频数据分段的平滑能量，统计第一音频数据块中音频数据分段的平滑能量大于第二音频数据块中音频数据分段的平滑能量的数量，统计数量为5。所述电子设备中可以设定在所述第一音频数据块分段中音频数据分段的平滑能量大于第二音频数据块中音频数据分段的平滑能量的数量与有效数据的数量的比值大于0.8的情况下，确定相关系数的峰值对应的时间差为基准时差，在小于0.2的情况下，确定相关系数的峰值对应的时间差为串音时差。由于5和150的比值小于0.2，因此，确定值为50ms的时间差为串音时差。

在本场景示例中，所述电子设备计算第一音频数据块的音频数据分段对应的时间差，在计算得出的时间差等于50ms的情况下确定对应的语音数据为串音数据。

在本场景示例中，可以以其他数据通道为目标，检测其他数据通道传输的音频数据流中的串音数据。

在本场景示例中，在整个辩论过程中，可以进一步去除检测出的串音数据，将去除串音后的音频数据块保存在指定的音频文件中，以生成较为清晰的辩论记录。

请参阅图1，本说明书实施方式提供一种串音数据检测系统。所述串音数据检测系统可以包括接收模块、系数计算模块、时差确定模块和处理模块。本说明书下文以功能模块进行介绍所述串音数据检测系统，所述串音数据检测系统被运行时实现串音数据检测方法。使得串音数据检测方法可以参照下文功能模块进行理解，不再赘述。

接收模块可以接收第一音频数据块和第二音频数据块；其中，所述第一音频数据块和所述第二音频数据块分别包括多个音频数据分段。

在本实施方式中，所述接收模块可以接收第一数据通道输入的第一音频数据块和第二数据通道输入的第二音频数据块。具体的，所述接收模块可以是接收设备，也可以是具有数据交互能力的通信模块。所述接收模块可通过有线的方式接收所述第一数据通道输入的第一音频数据块和第二数据通道输入的第二音频数据块。也可以基于HTTP、TCP/IP或FTP等网络协议或通过例如，WIFI模块、ZigBee模块、蓝牙模块、Z-wave模块等无线通信模块接收所述第一数据通道输入的第一音频数据块和第一数据通道输入的第二音频数据块。当然，接收模块也可以是指作为软件程序接口，可以运行于具有运算能力的处理其中。

在本实施方式中，所述接收模块可以对应声音感应装置的数量具有多个数据通道。所述声音感应装置可以包括能够感应声音生成音频数据流，并能够将音频数据流输入数据通道的设备。例如麦克风，录音笔等。在本实施方式中，所述数据通道可以包括音频数据块传输的载体。所述数据通道可以是物理通道也可以是逻辑通道。根据音频数据块的传输路径，所述数据通道可以不同。具体地，例如，设置两个麦克风，声源可以发出声音由这两个麦克风进行感应并生成音频数据流，每个麦克风传输所述音频数据流的通道可以称为一个数据通道。当然，数据通道也可以为逻辑上划分的，可以理解为，针对不同麦克风输入的音频数据流，分别进行处理，即将一个麦克风输入的音频数据流进行单独的处理，而不是将多个麦克风输入的音频数据流进行混杂。

在本实施方式中，所述第一音频数据块可以是根据第一数据通道中的音频数据流生成。所述第二音频数据块可以是根据所述第二数据通道中的音频数据流生成。所述声音感应装置可以根据感应到的声音生成相应的音频数据流。所述第一音频数据块和所述第二音频数据块可以对应不同的声音感应装置。由于所述声音感应装置所处的空间位置可以不同，所以不同声音感应装置感应到声源发出的声音而生成的音频数据流的时间也可以有所不同。

在本实施方式中，所述第一音频数据块和所述第二音频数据块可以分别包括多个音频数据块。所述接收模块可以按照一定的规则将所述第一数据通道的音频数据流和所述第二数据通道的音频数据流进行数据块划分，划分出的数据块可以是所述音频数据块。可以根据时长或数量的大小对所述音频数据流进行划分成音频数据块。具体地，例如可以将所述音频数据流以10ms为单位划分为一个音频数据块。当然，所述音频数据块可以不限于10ms。或者，也可以按照数据量进行划分。例如，每个音频数据块最多1MB。或者，按照所述音频数据流的表示的声音波形的连续情况进行划分。例如，进行端点检测，在相邻两个连续的波形之间存在持续一定时差的无声部分，将每个连续的声音波形划分为一个音频数据块。所述音频数据块中可以包括多个音频数据分段。可以以所述音频数据分段为基本单位进行处理。

所述系数计算模块用于计算所述第一音频数据块的音频数据分段与第二音频数据块的音频数据分段的相关系数，得出相关系数的峰值。

在本实施方式中，相关系数可以用于表示音频数据块之间的关系密切程度。或者，相关系数可以用于表示音频数据块之间的相似程度。相关系数的取值越大，可以表示两个音频数据块中包含的音频数据分段越相似；反之，相关系数的取值越小，可以表示两个音频数据块中包含的音频数据分段越不同。

在本实施方式中，可以根据GCC PHAT方法(相位变换加权广义互相关)分别对音频数据块中的音频数据分段进行傅里叶变换。可以根据傅里叶变换后的第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段生成互相关函数，以得到所述相关系数。当然，也可以根据基本互相关法、互功率谱相位法等方法计算得到所述相关系数。当然，对于得到所述相关系数，所属领域技术人员在本说明书的技术精髓的启示下，还能采用其他的变更方案，但只要其实现的功能和效果，与本说明书相同或相似，均应涵盖于本申请保护范围内。

在本实施方式中，请参阅图3，在一定的空间内，可以有两个声源发出声音，第一声音感应装置和第二声音感应装置可以分别生成音频数据流，并输入相对应的第一数据通道和第二数据通道。声源A发出声音到第一声音感应装置感应到声音所经历的时长为时间1，第一声音感应装置感应到声源A发出的声音向所述第一数据通道输入音频数据流的时间为时间2；声源A发出声音到第二声音感应装置感应到声音所经历的时长为时间3，第二声音感应装置感应到声源A发出的声音向所述第二数据通道输入音频数据流的时间为时间4。可以将声源A发出的声音在第一数据通道和第二数据通道中形成的音频数据流，划分成包括音频数据分段的音频数据块后，通过GCC PHAT等方法计算所述相关系数。声源B发出声音到第一声音感应装置感应到声音所经历的时长为时间5，第一声音感应装置感应到声源B发出的声音向所述第一数据通道输入音频数据流的时间为时间2；声源B发出声音到第二声音感应装置感应到声音所经历的时长为时间6，第二声音感应装置感应到声源B发出的声音向所述第二数据通道输入音频数据流的时间为时间4；可以将声源A发出的声音在第一数据通道和第二数据通道中形成的音频数据流，划分成包括音频数据分段的音频数据块后，通过GCC PHAT等方法计算所述相关系数。因此空间内存在两个声源发出声音，可以计算得到两个所述相关系数。

在本实施方式中，每个声音感应装置可以对应一个用户。使得可以通过每个声音感应装置来区分不同的用户。进而，针对每个声音感应装置输入的音频数据流进行处理，使得最终可以得到对应每个用户的音频文件。使得每个音频文件可以较为准确的表征用户的声音。

时差确定模块可以用于将所述峰值对应的所述第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段的获取时间的时间差作为基准时差。

在本实施方式中，可以认为所述峰值对应的第一音频数据块中的音频数据分段和第二音频数据块中的音频数据分段之间，二者最为相似。或者，二者中包括最多源于同一声源的音频数据。如此，相关系数的峰值对应的音频数据分段的时间差，可以用于表征第一音频数据块和第二音频数据块源于同一声源的音频数据的时间差。可以依照该时间差作为判断第一音频数据块中的音频数据是否为串音数据的基准。如此，可以将该时间差作为基准时差。

在本实施方式中，音频数据分段的获取时间可以是音频数据分段的音频数据在音频感应装置的生成时间，也可以是接收模块接收到音频数据分段的音频数据的接收时间。具体的，例如，第一音频感应终端和第二音频感应终端距离很近，在一个用户说话时，由于用户说话发出的声音到达第一音频感应终端和第二音频感应终端的时间很接近，使得第一音频感应终端和第二音频感应终端分别感应到该用户说话的声音，分别生成音频数据。可以假设，第一音频感应终端感应所述声音生成第一音频数据块，第二音频感应终端感应所述声音生成第二音频数据块。如此，第一音频数据块和第二音频数据块的生成时间较为接近，但因用户与第一音频感应终端和第二音频感应终端的距离不同，使得第一音频数据块和第二音频数据块的生成时间接近。

处理模块，用于将所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的获取时间的时间差作为音频分段时差；在所述音频分段时差与所述基准时差不相匹配的情况下，确定所述第一音频数据块的相应音频数据分段包括串音数据。

在本实施方式中，第一音频数据块中的音频数据分段和第二音频数据块中的音频数据分段，可以根据是否源于同一声源，而确定是否相对应。或者，可以根据上述介绍相关系数，认为相关系数对应的第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段相对应。

在本实施方式中，可以计算第一音频数据块中的音频数据分段与对应的第二音频数据块中的音频数据分段之间的音频分段时差。该音频分段时差可以以声音感应装置感应到声波生成相应音频数据分段的时间为准，也可以为声音感应装置将音频数据分段输入至数据通道为准，还可以为接收模块接收到音频数据分段的时间为准。具体的，所述时间差的计算方式可以与基准时差的计算方式趋于相同。

在本实施方式中，所述不相匹配可以包括，所述音频分段时差与所述基准时差不相等，或者设定一个第二指定阈值，在所述音频分段时差与所述基准时差的差值的绝对值大于所述第二指定阈值的情况下可以确定所述音频分段时差与所述基准时差不相匹配。具体地，例如，设定一个0.002的第二指定阈值，所述音频分段时差为0.03，所述基准时差为0.035，两者差值的绝对值为0.005，因此，可以认为所述音频数据分段包括为串音数据。

在本实施方式中，不同声源相应于不同的声音感测装置，可以对应有不同的时差。请参阅图3。声源A在空间上距离第一声音感应装置的距离短于与第二声音感应装置之间的距离。使得，时间1小于时间6，如此，在第一数据通道和第二数据通道中源于声源A的音频数据分段之间存在音频分段时差，例如为时间6与时间1的差值。该音频分段时差与声源A相对应，在声源A与第一声音感应装置和第二声音感应装置的空间位置不变的情况下，该音频分段时差的取值也不变。同理适用于声源B。在第一数据通道的音频数据分段中，可能一部分源于声源A，而存在一部分源于声源B。同样在第二数据通道的音频数据分段中，也可能一部分源于声源A，一部分源于声源B。通过计算相关系数对应的第一数据通道中的音频数据分段和第二数据通道中音频数据分段的音频分段时差，进而可以通过音频分段时差进行区分第一数据通道中源于声源A的音频数据分段，和源于声源B的音频数据分段。串音数据可以理解为第一数据通道中，源于声源B的音频数据分段是串音数据。即，串音数据可以是源于目标声源之外的声源的音频数据分段。

在本实施方式中，可以认为音频分段时差与基准时差相匹配的情况下，第一音频数据块中相应的音频数据分段源于第一音频数据块所在的数据通道对应的声源。使得该音频数据分段需要保留，以用于进一步处理使用。可以认为音频分段时差与基准时差不相匹配的情况下，第一音频数据块中的相应音频数据分段不是源于第一音频数据块所在的数据通道对应的声源。使得该音频数据分段需要从第一音频数据块中去除。

在一个实施方式中，计算所述第一音频数据块的音频数据分段与第二音频数据块的音频数据分段的相关系数，得出相关系数的峰值，可以包括：计算所述第一音频数据块中的音频数据分段与所述第二音频数据块中的音频数据分段的相关系数，形成相关系数集；将所述相关系数集中的最大值作为所述峰值。

在本实施方式中，可以计算所述第一音频数据块的音频数据分段与所述第二音频数据块的音频数据分段的相关系数，形成相关系数集。其中，所述相关系数的峰值选自所述相关系数集。具体的，可以根据该互相关函数计算第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段之间的相关度。具体的，可以将第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段分别计算相关度，而将计算得出的相关度中的最大值，可以认为最大值对应的第二音频数据块中的音频数据分段，与第一音频数据块中的所述音频数据分段相对应。如此，可以将该最大值认为是所述第一音频数据块中的该音频数据分段最终对应的相关系数。如此，可以得出第一音频数据块中的每个音频数据分段对应的相关系数，以及通过相关系数使得第一音频数据块中的一个音频数据分段与第二音频数据块中的一个音频数据分段形成对应。

在本实施方式中，所述峰值可以是是所述相关系数集中的最大值；或者，所述相关系数按照对应的音频数据分段的排列方式进行排列，使得相关系数呈现连续分布，整体可以呈现波峰和波谷等，所述峰值可以是所述波峰表示的相关系数。

在一个实施方式中，所述系数计算模块可以计算得出相关系数的峰值，所述峰值的数量可以为二个以上。

相应的，所述处理模块在将所述峰值对应的所述第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段的获取时间的时间差作为基准时差的步骤中包括：分别计算所述二个峰值对应的所述第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段的获取时间的时间差，分别为第一时间差和第二时间差；其中，所述第一时间差和所述第二时间差之中较小的作为所述基准时差。

在本实施方式中，相关系数的两个以上峰值可以根据互相关函数得出的所述第一音频数据块和第二音频数据块的具有两个以上相关系数的峰值。或者，可以在相关系数集中给定指定区间，在所述指定区间内的两个最大值作为所述峰值。或者，可以设定相关系数集中的一个值作为一个峰值，在一定数据间隔后，有趋于与所述峰值相等的相关系数为另一个峰值；或者，取所述相关系数集中两个第二大的值作为所述峰值。

在本实施方式中，相关系数存在二个以上峰值，可以表示音频数据块中的音频数据可能源于两个以上的声源。具体的，例如，在相关系数集中选择两个相关系数的峰值，分别为第一相关系数和第二相关系数。分别将第一相关系数和第二相关系数对应的第一音频数据块中的音频数据分段作为第一目标音频数据分段和第二目标音频数据分段，将对应的第二音频数据块中的音频数据分段作为第一辅助音频数据分段和第二辅助音频数据分段。如此，可以进一步分别计算目标音频数据分段与对应的辅助音频数据分段之间的时间差，即音频分段时差。进一步的，在每个声音感应装置对应一个用户的场景下，可以认定声音感应装置与对应的用户之间的距离，小于声音感应装置与其它用户之间的距离。如此，可以认定多个相关系数峰值的情况下，时间差较小的相关系数对应的目标音频数据分段，趋于源于声音感应装置对应的声源。所以，可以将计算得出的多个时间差中，较小的时间差作为所述基准时差。

在一个实施方式中，所述串音数据检测系统还可以实现：将所述第一时间差和所述第二时间差之中较大的作为串音时差。相应的，所述处理模块可以在所述音频分段时差与所述串音时差相匹配的情况下，确定所述音频数据分段包括串音数据。

在本实施方式中，音频分段时差与串音时差相匹配可以包括：所述音频分段时差与所述串音时差相等，或者设定第一指定阈值，在音频分段时差与所述串音时差的差值的绝对值小于所述第一指定阈值的情况下可以认为所述音频分段时差与所述串音时差相匹配。具体地，例如，可以设定第一指定阈值为0.008，假设音频分段时差为0.042，串音时差为0.040，两者差值的绝对值为0.002小于第一指定阈值，因此，可以确定所述音频数据分段包括串音数据。

在本实施方式中，通过确定串音时差，根据所述串音时差检测第一音频数据块中的串音数据，在音频分段时差与所述串音时差相匹配情况下，确定所述音频数据分段为串音数据。

在一个实施方式中，所述系统还可以包括标记模块。所述标记模块用于在相关系数大于设定系数值的情况下，标记所述相关系数对应的第一音频数据块中的音频数据分段为有效数据。相应的，所述处理模块仅在所述音频数据分段被标记为有效数据的情况下才将所述时间差作为音频分段时差。

在本实施方式中，可以通过相关系数对音频数据块中的噪音数据进行剔除。两个距离较为接近的声音感测装置，会感测到同一声源的声音产生音频数据流。使得，两个声音感测装置输出的音频数据流，分别被划分成的音频数据分段之间，较为相关。计算得出的相关系数相对具有较大的取值。如果，第一音频数据块中的一个音频数据分段，与第二音频数据块中相应音频数据分段之间的相关系数较小。可以认为，该两个音频数据分段之间具有较小的相似性。认为该两个音频数据分段并不是源于同一个声源。或者，音频数据分段可能是电子设备本身的噪声形成。

在本实施方式中，通过对相关系数设置一个设定系数值，实现划分相关系数大于或等于设定系数值的音频数据分段，以及相关系数小于设定系数值的音频数据分段。如此，可以将相关系数小于设定系数值的音频数据分段作为噪音数据，不进行进一步的运算处理，如此降低了系统的运算符合。

在本实施方式中，设置设定系数值的方式可以包括：直接通过程序设定一个经验值；或者，分析音频数据块中音频数据分段对应的相关系数的分布，相关系数均值的乘以一个小于1的系数，作为所述设定系数值。比如，相关系数平均的三分之一，或四分之一。

在一个实施方式中，所述系数计算模块可以计算所述第一音频数据块的音频数据分段与第二音频数据块的音频数据分段的相关系数，得出相关系数的峰值的数量为一个。相应的，所述时差确定模块可以在将所述峰值对应的所述第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段的获取时间的时间差作为基准时差时，在所述第一音频数据块的信号强度高于所述第二音频数据块的信号强度的情况下，将所述时间差确定为基准时差。

在本实施方式中，所述第一音频数据块的信号强度高于所述第二音频数据块的信号强度可以包括计算所述第一音频数据块和第二音频数据块的声压值或者能量，或者，所属领域技术人员在本说明书的技术精髓的启示下，采用的计算其他能够反映第一音频数据块和第二音频数据块的信号强度的属性，但只要反映信号强度，与本说明书相同或相似，均应涵盖于本申请保护范围内。比较所述第一音频数据块和所述第二音频数据块的信号强度，如果所述第一音频数据块的信号强度大于第二音频数据块的信号强度的情况下，可以将处理得到所述时间差确定为基准时差。

在本实施方式中，具体的，以计算能量的角度为例。所述第一音频数据块的能量大于对应的第二音频数据块的能量可以包括，计算所述第一音频数据块中音频数据的能量，根据计算得到的所述第一音频数据块中能量的平均值，得到第一平均值；计算所述第二音频数据块中音频数据的能量，根据计算得到的所述第二音频数据块中能量的平均值，得到第二平均值。可以比较所述第一平均值和第二平均值，在所述第一平均值大于第二平均值的情况下，确定所述第一音频数据块的能量大于对应的第二音频数据块的能量。或者，可以设定一个阈值，在所述第一平均能量减去第二平均能量大于所设定的阈值的情况下，可以确定所述第一音频数据块的能量大于对应的第二音频数据块的能量。所属领域技术人员在本说明书的技术精髓的启示下，采用的其他能够确定所述第一音频数据块的能量大于对应的第二音频数据块的能量的方法，只要确定所述音频数据块中音频数据的能量大小，与本说明书相同或相似，均应涵盖于本申请保护范围内。

在本实施方式中，声音感应装置对应的声源之间的距离，通常小于该声音感应装置与其它声源之间的距离。从声音自声源发出之后，会随着距离发生一定的衰减。如此，使得声音感应装置感应到对应的声源生成的音频数据流，其表征的能量或声压值会相对较大。在一些情况下，第一音频数据块中的信号强度弱于第二音频数据块，如此可以理解为当前的声源应该与第二音频数据块所在的数据通道相对应，或者说，与生成第二音频数据块的声音感应装置相对应。可以得出，相对于第一数据通道来说，第一音频数据块中包括的音频数据可能不是源于第一数据通道对应的声源，或者，第一音频数据块中的至少部分音频数据分段不是源于第一数据通道对应的声源。通过上述分析，可以通过第一音频数据块与第二音频数据块中的信号强度，区分第一音频数据块中的音频数据分段是否源于第一数据通道对应的声源。

在一个实施方式中，所述第一音频数据块中的音频数据分段与所述第二音频数据块中的音频数据分段的相关系数，形成相关系数集；所述时差确定模块还可以实现：统计所述相关系数集中大于设定系数值的相关系数的统计数量；相应的，在所述第一音频数据块的信号强度高于所述第二音频数据块的信号强度，且所述统计数量大于设定数量阈值的情况下，才将所述时间差确定为基准时差。

在本实施方式中，可以根据相关系数来区分第一音频数据块中的音频数据分段是有效数据或是噪音数据。具体的，可以通过将相关系数集中的相关系数与设定系数值进行比较。相关系数大于设定系数值，可以认定相关系数对应的音频数据分段为有效数据。

在本实施方式中，统计数量大于设定数量阈值，可以理解为音频数据块中的有效数据的数量大于设定数量阈值。在一些情况下，如果统计数量小于设定数量阈值，可以认为该音频数据块中的有效数据非常少，可以不再进行进一步处理，以减少运算量。

在一个实施方式中，所述时差确定模块还可以实现：在所述第一音频数据块的信号强度弱于所述第二音频数据块的信号强度的情况下，将所述时间差确定为串音时差；相应的，所述处理模块在所述音频分段时差与所述串音时差相匹配的情况下，确定所述音频数据分段包括串音数据。

在本实施方式中，所述第一音频数据块的信号强度弱于所述第二音频数据块的信号强度的情况可以包括：所述第一音频数据块的能量小于对应的第二音频数据块的能量；或者，所述第一音频数据块的声压值小于对应第二音频数据块的声压值。

在本实施方式中，通过设置串音时差，可以直接对第一音频数据块的音频数据分段进行检测。从而判断第一音频数据块中的音频数据分段是不是源于不是与第一数据通道相对应的声源。

请参阅图4，本说明书实施方式提供一种串音数据检测系统。所述串音数据检测系统可以包括客户端和服务器。

在本实施方式中，所述客户端可以包括具有数据接收和发送能力的电子设备。所述客户端可以包括至少两个声音感应装置和网络通信单元。

在本实施方式中，所述声音感应装置可以用于感应声源所发出的声音并生成相应的音频数据。具体地，所述声音感应装置可以是一个传声器、或者是设置了传声器的麦克风。所述传声器用于将声音转换成电信号，得到音频数据流。所述每个声音感应装置可以对应一个数据通道，所述声音感应装置可以通过所述数据通道将声音感应装置生成的音频数据流提供给所述网络通信单元。具体地，至少两个声音感应装置可以包括第一声音感应装置和第二声音感应装置。相应地，所述第一声音感应装置可以对应第一数据通道，所述第二声音感应装置可以对应第二数据通道。

在本实施方式中，所述网络通信单元包括遵循网络通信协议进行网络数据通信的装置。所述网络通信单元可以接收所述声音感应装置提供的音频数据，也可以将所述音频数据发送给所述服务器。所述网络通信单元可以通过所述数据通道将接收到的音频数据发送给所述服务器。

在本实施方式中，所述客户端可以具有较弱数据处理能力，可以是类似物联网设备等电子设备。所述客户端可以具有接收模块，以及发送模块。所述客户端的网络通信单元可以实现所述发送模块的功能。

在本实施方式中，所述服务器可以包括具有一定运算处理能力的电子设备，其可以具有网络通信单元、处理器和存储器等。当然，上述服务器也可以是指运行在所述电子设备中的软体。上述服务器还可以为分布式服务器，可以是具有多个处理器、网络通信模块等协同运作的系统，或者，服务器还可以为若干服务器形成的服务器集群。当然，所述服务器还可以为采用云计算技术实现。即服务器运行的功能模块采用云计算技术运行。

在本实施方式中，所述网络通信单元可以是遵循网络通信协议进行网络数据通信的装置。可以用于接收客户端提供的音频数据流。所述网络通信单元可以作为所述接收模块。

在本实施方式中，所述服务器可以具有接收模块、系数计算模块、时差确定模块和所述处理模块。其中，所述网络通信单元可以实现所述接收模块的功能。所述服务器的功能模块具体的内容，可以参照其他实施方式对照解释。

在本实施方式中，所述处理器可以按任何适当的方式实现。例如，所述处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。

请参阅图5，本说明书实施方式还提供一种串音数据检测系统。所述串音检测系统可以包括客户端和服务器。

在本实施方式中，所述客户端可以包括至少两个声音感应装置、处理器和网络通信单元。本实施方式所述至少两个声音感应装置，其实现的具体功能可以参见其他实施方式，在此不再赘述。所述客户端可以是具有一定处理能的设备，具体地，例如，所述客户端可以是笔记本电脑，或者智能终端设备等。所述的网络通信单元可以实现接收模块，所述系数计算模块可以位于所述处理器中。所述网络通信单元可以是遵循网络通信协议进行网络数据通信的装置。

在本实施方式中，所述服务器的处理器可以运行有前文所述时差确定模块和所述处理模块。其具体的实现，可以参照其他实施方式对照解释。

当然，请参阅图6，在本实施方式中，还可以为所述客户端运行有所述系数计算模块和所述时差确定模块，将基准时差、第一音频数据块和第二音频数据块发送给服务器。所述服务器可以仅仅运行所述处理模块。

本说明书实施方式还提供一种串音数据检测系统。为串音数据检测系统的交互示意图。所述串音检测系统可以包括客户端和服务器。

在本实施方式中，所述客户端可以包括有至少两个声音感应装置和处理器。本实施方式中所述的至少两个声音感应装置所实现的具体功能可以参见其他实施方式，在此不再赘述。所述客户端可以具有较强的处理能力。所述处理器可以运行所述系数计算模块、时差确定模块和处理模块。在此场景下，可以无需与服务器进行交互。或者，可以将处理模块处理之后的音频数据块提供给服务器。具体地，例如所述客户端可以是具有较高性能的平板电脑、笔记本电脑、台式电脑、工作站等。

当然，上述只是示例的方式列举了一些电子设备。随着科学技术进步，硬件设备的性能可能会有提升，使得目前数据处理能力较弱的电子设备，也可能具备较佳的数据处理能力。所以上述实施方式中，对软件模块运行于硬件设备中的划分，并不构成对本申请的限定。所属领域技术人员还可能对上述软件的模块进行进一步功能拆分，并相应的放置于客户端或服务器中运行。但只要其实现的功能和效果与本说明书相同或相似，均应涵盖于本申请保护范围内。

本说明书实施方式还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被执行时实现：接收第一音频数据块和第二音频数据块；其中，所述第一音频数据块和所述第二音频数据块分别包括多个音频数据分段；根据所述第一音频数据块和所述第二音频数据块之间的相关系数，确定所述第一音频数据块中的目标音频数据分段，以及所述第二音频数据块中的辅助音频数据分段；其中，所述目标音频数据分段和所述辅助音频数据分段中至少部分数据源于同一声源；所述相关系数用于表示音频数据分段之间的相似程度；根据所述目标音频数据分段和所述辅助音频数据分段，确定所述第一音频数据块和所述第二音频数据块的基准时差；计算所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的音频分段时差；在所述音频分段时差与所述基准时差不相匹配的情况下，确定所述第一音频数据块的相应音频数据分段包括串音数据。

在本实施方式中，所述计算机存储介质包括但不限于随机存取存储器(Random Access Memory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard Disk Drive,HDD)或者存储卡(Memory Card)。

在本实施方式中，所述计算机存储介质实现的具体功能，可以参照其他实施方式对照解释。

本说明书实施方式还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被执行时实现：接收第一音频数据块和第二音频数据块；其中，所述第一音频数据块和所述第二音频数据块分别包括多个音频数据分段；根据所述第一音频数据块和所述第二音频数据块之间的相关系数，确定所述第一音频数据块中的目标音频数据分段，以及所述第二音频数据块中的辅助音频数据分段；其中，所述目标音频数据分段和所述辅助音频数据分段中至少部分数据源于同一声源；根据所述目标音频数据分段和所述辅助音频数据分段，确定所述第一音频数据块和所述第二音频数据块的基准时差；将所述基准时差、所述第一音频数据块和所述第二音频数据块发送给服务器，以用于所述服务器计算所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的音频分段时差；在所述音频分段时差与所述基准时差不相匹配的情况下，确定所述第一音频数据块的相应音频数据分段包括串音数据。

本说明书实施方式还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被执行时实现：接收第一音频数据块、第二音频数据块和基准时差；其中，所述第一音频数据块和所述第二音频数据块分别包括多个音频数据分段；计算所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的音频分段时差；在所述音频分段时差与所述基准时差不相匹配的情况下，确定所述第一音频数据块的相应音频数据分段包括串音数据。

本说明书实施方式还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被执行时实现：接收第一音频数据块和第二音频数据块；其中，所述第一音频数据块和所述第二音频数据块分别包括多个音频数据分段；根据所述第一音频数据块和所述第二音频数据块之间的相关系数，确定所述第一音频数据块中的目标音频数据分段，以及所述第二音频数据块中的辅助音频数据分段；其中，所述目标音频数据分段和所述辅助音频数据分段中至少部分数据源于同一声源；将所述目标音频数据分段、辅助音频数据分段、所述第一音频数据块和所述第二音频数据块发送给服务器，以用于所述服务器根据所述目标音频数据分段和所述辅助音频数据分段，确定所述第一音频数据块和所述第二音频数据块的基准时差；计算所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的音频分段时差，在所述音频分段时差与所述基准时差不相匹配的情况下，确定所述第一音频数据块的相应音频数据分段包括串音数据。

本说明书实施方式还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被执行时实现：接收客户端提供的所述目标音频数据分段、辅助音频数据分段、所述第一音频数据块和所述第二音频数据块；其中，所述第一音频数据块和所述第二音频数据块分别包括多个音频数据块；其中，所述目标音频数据分段选自于所述第一音频数据块，所述辅助音频数据分段选自于所述第二音频数据块；根据所述目标音频数据分段和所述辅助音频数据分段，确定所述第一音频数据块和所述第二音频数据块的基准时差；计算所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的音频分段时差；在所述音频分段时差与所述基准时差不相匹配的情况下，确定所述第一音频数据块的相应音频数据分段包括串音数据。

本说明书实施方式还提供一种计算机存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序被执行时实现：接收第一音频数据块和第二音频数据块；其中，所述第一音频数据块和所述第二音频数据块分别包括多个音频数据分段；将所述第一音频数据块和所述第二音频数据块发送给服务器，以用于所述服务器根据所述第一音频数据块和所述第二音频数据块之间的相关系数，确定所述第一音频数据块中的目标音频数据分段，以及所述第二音频数据块中的辅助音频数据分段，其中，所述目标音频数据分段和所述辅助音频数据分段中至少部分数据源于同一声源；根据所述目标音频数据分段和所述辅助音频数据分段，确定所述第一音频数据块和所述第二音频数据块的基准时差；计算所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的音频分段时差，在所述音频分段时差与所述基准时差不相匹配的情况下，确定所述第一音频数据块的相应音频数据分段包括串音数据。

上面对本说明书的各种实施方式的描述以描述的目的提供给本领域技术人员。其不旨在是穷举的、或者不旨在将本发明限制于单个公开的实施方式。如上所述，本说明书的各种替代和变化对于上述技术所属领域技术人员而言将是显而易见的。因此，虽然已经具体讨论了一些实施方式，但是其它实施方式将是显而易见的，或者本领域技术人员相对容易得出。本说明书旨在包括在此已经讨论过的本发明的所有替代、修改、和变化，以及落在上述申请的精神和范围内的其它实施方式。

在说明书各实施方式中“第一”、“第二”的表述仅为了区分不同的数据通道与音频数据块，在这里并不限定数据通道和音频数据块的数量。所述数据通道和音频数据块可以包括多个而不仅限于两个。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施方式或者实施方式的某些部分所述的方法。

本说明书中的各个实施方式均采用递进的方式描述，各个实施方式之间相同相似的部分互相参见即可，每个实施方式重点说明的都是与其他实施方式的不同之处。

本说明书可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施方式描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

一种串音数据检测方法，其特征在于，包括：

接收第一音频数据块和第二音频数据块；其中，所述第一音频数据块和所述第二音频数据块分别包括多个音频数据分段；

计算所述第一音频数据块的音频数据分段与第二音频数据块的音频数据分段的相关系数，得出相关系数的峰值；

将所述峰值对应的所述第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段的获取时间的时间差作为基准时差；

将所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的获取时间的时间差作为音频分段时差；

在所述音频分段时差与所述基准时差不相匹配的情况下，确定所述第一音频数据块的相应音频数据分段包括串音数据。
根据权利要求1所述的方法，其特征在于，在计算所述第一音频数据块的音频数据分段与第二音频数据块的音频数据分段的相关系数，得出相关系数的峰值的步骤中包括：

计算所述第一音频数据块中的音频数据分段与所述第二音频数据块中的音频数据分段的相关系数，形成相关系数集；将所述相关系数集中的最大值作为所述峰值。
根据权利要求1所述的方法，其特征在于，在计算所述第一音频数据块的音频数据分段与第二音频数据块的音频数据分段的相关系数，得出相关系数的峰值步骤中，所述峰值的数量为二个；

相应的，在将所述峰值对应的所述第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段的获取时间的时间差作为基准时差的步骤中包括：

分别计算所述二个峰值对应的所述第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段的获取时间的时间差，分别为第一时间差和第二时间差；其中，所述第一时间差和所述第二时间差之中较小的作为所述基准时差。
根据权利要求3所述的方法，其特征在于，所述方法还包括：

将所述第一时间差和所述第二时间差之中较大的作为串音时差；

相应的，所述方法还包括：在所述音频分段时差与所述串音时差相匹配的情况下，确定所述音频数据分段包括串音数据。
根据权利要求4所述的方法，其特征在于，所述音频分段时差与所述串音时差相匹配的情况，包括：

所述音频分段时差与所述串音时差相等；或者，

所述音频分段时差与所述串音时差之间的差值小于第一指定阈值。
根据权利要求1所述的方法，其特征在于，所述音频分段时差与所述基准时差不相匹配的情况，包括：

所述音频分段时差与所述基准时差不相等；或者，

所述音频分段时差与所述基准时差之间的差值大于第二指定阈值。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

在相关系数大于设定系数值的情况下，标记所述相关系数对应的第一音频数据块中的音频数据分段为有效数据；

相应的，在将所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的获取时间的时间差作为音频分段时差的步骤中，仅在所述音频数据分段被标记为有效数据的情况下才将所述时间差作为音频分段时差。
根据权利要求1所述的方法，其特征在于，在计算所述第一音频数据块的音频数据分段与第二音频数据块的音频数据分段的相关系数，得出相关系数的峰值的步骤中，所述峰值的数量为一个；

相应的，在将所述峰值对应的所述第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段的获取时间的时间差作为基准时差的步骤中包括：

在所述第一音频数据块的信号强度高于所述第二音频数据块的信号强度的情况下，将所述时间差确定为基准时差。
根据权利要求8所述的方法，其特征在于，所述第一音频数据块中的音频数据分段与所述第二音频数据块中的音频数据分段的相关系数，形成相关系数集；所述方法还包括：

统计所述相关系数集中大于设定系数值的相关系数的统计数量；

相应的，在所述第一音频数据块的信号强度高于所述第二音频数据块的信号强度的情况下，将所述时间差确定为基准时差的步骤中，包括：在所述第一音频数据块的信号强度高于所述第二音频数据块的信号强度，且所述统计数量大于设定数量阈值的情况下，才将所述时间差确定为基准时差。
根据权利要求8所述的方法，其特征在于，所述第一音频数据块的信号强度高于所述第二音频数据块的信号强度的情况，包括：

所述第一音频数据块的能量大于对应的第二音频数据块的能量；或者，所述第一音频数据块的声压值大于对应第二音频数据块的声压值。
根据权利要求8所述的方法，其特征在于，所述方法还包括：

在所述第一音频数据块的信号强度弱于所述第二音频数据块的信号强度的情况下，将所述时间差确定为串音时差；

相应的，在所述音频分段时差与所述串音时差相匹配的情况下，确定所述音频数据分段包括串音数据。
根据权利要求11所述的方法，其特征在于，所述第一音频数据块的信号强度弱于所述第二音频数据块的信号强度的情况，包括：所述第一音频数据块中音频数据的能量小于对应的第二音频数据块中音频数据的能量；或者，所述第一音频数据块中音频数据的声压值小于对应第二音频数据块中音频数据的声压值。
一种电子设备，其特征在于，包括：

第一声音感应装置，用于产生第一音频数据块；所述第一音频数据块中包括多个音频数据分段；

第二声音感应装置，用于产生第二音频数据块；所述第二音频数据块中包括多个音频数据分段；

处理器，用于计算所述第一音频数据块的音频数据分段与第二音频数据块的音频数据分段的相关系数，得出相关系数的峰值；将所述峰值对应的所述第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段的获取时间的时间差作为基准时差；将所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的获取时间的时间差作为音频分段时差；在所述音频分段时差与所述基准时差不相匹配的情况下，确定所述第一音频数据块的相应音频数据分段包括串音数据。
一种串音数据检测方法，其特征在于，包括：

接收第一音频数据块和第二音频数据块；其中，所述第一音频数据块和所述第二音频数据块分别包括多个音频数据分段；

计算所述第一音频数据块的音频数据分段与第二音频数据块的音频数据分段的相关系数，得出相关系数的峰值；

将所述峰值对应的所述第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段的获取时间的时间差作为基准时差；

将所述基准时差、所述第一音频数据块和所述第二音频数据块发送给服务器，以用于所述服务器将所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的获取时间的时间差作为音频分段时差；在所述音频分段时差与所述基准时差不相匹配的情况下，确定所述第一音频数据块的相应音频数据分段包括串音数据。
一种串音数据检测方法，其特征在于，包括：

接收第一音频数据块、第二音频数据块和基准时差；其中，所述第一音频数据块和所述第二音频数据块分别包括多个音频数据分段；

将所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的获取时间的时间差作为音频分段时差；

在所述音频分段时差与所述基准时差不相匹配的情况下，确定所述第一音频数据块的相应音频数据分段包括串音数据。
一种串音数据检测方法，其特征在于，包括：

接收第一音频数据块和第二音频数据块；其中，所述第一音频数据块和所述第二音频数据块分别包括多个音频数据分段；

计算所述第一音频数据块的音频数据分段与第二音频数据块的音频数据分段的相关系数，得出相关系数的峰值；

将所述峰值、第一音频数据块和第二音频数据块发送给服务器，以用于所述服务器将所述峰值对应的所述第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段的获取时间的时间差作为基准时差；将所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的获取时间的时间差作为音频分段时差；在所述音频分段时差与所述基准时差不相匹配的情况下，确定所述第一音频数据块的相应音频数据分段包括串音数据。
一种串音数据检测方法，其特征在于，包括：

接收客户端提供的相关系数的峰值、第一音频数据块和第二音频数据块；其中，所述峰值是所述第一音频数据块的音频数据分段与所述第二音频数据块的音频数据分段的相关系数的峰值；

将所述峰值对应的所述第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段的获取时间的时间差作为基准时差；

将所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的获取时间的时间差作为音频分段时差；

在所述音频分段时差与所述基准时差不相匹配的情况下，确定所述第一音频数据块的相应音频数据分段包括串音数据。
一种串音数据检测方法，其特征在于，包括：

接收第一音频数据块和第二音频数据块；其中，所述第一音频数据块和所述第二音频数据块分别包括多个音频数据分段；

将所述第一音频数据块和所述第二音频数据块发送给服务器，以用于所述服务器计算所述第一音频数据块的音频数据分段与第二音频数据块的音频数据分段的相关系数，得出相关系数的峰值；将所述峰值对应的所述第一音频数据块中的音频数据分段与第二音频数据块中的音频数据分段的获取时间的时间差作为基准时差；将所述第一音频数据块的音频数据分段与第二音频数据块中对应的音频数据分段的获取时间的时间差作为音频分段时差；在所述音频分段时差与所述基准时差不相匹配的情况下，确定所述第一音频数据块的相应音频数据分段包括串音数据。