WO2022111177A1

WO2022111177A1 - 一种音频检测方法、装置、计算机设备和可读存储介质

Info

Publication number: WO2022111177A1
Application number: PCT/CN2021/126022
Authority: WO
Inventors: 黄正跃; 史欣田
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2020-11-25
Filing date: 2021-10-25
Publication date: 2022-06-02
Also published as: CN112435687A; EP4250291A4; US20230050565A1; EP4250291A1

Abstract

本申请实施例提供了一种音频检测方法、装置、计算机设备和可读存储介质，其中方法包括：从目标音频数据中获取目标时间点位以及目标时间点位的参考点位；参考点位是指与目标时间点位之间的时间差小于第一差值阈值的时间点位；根据目标时间点位的音频振幅值对目标时间点位进行能量评估处理，得到目标时间点位的能量评估值；并根据参考点位的音频振幅值对参考点位进行能量评估处理，得到参考点位的能量评估值；根据目标时间点位的能量评估值和参考点位的能量评估值，对目标时间点位进行准确性校验；若目标时间点位通过准确性校验，则将目标时间点位作为目标重音点位添加到目标重音点位集合中，可以较为准确地确定出目标音频数据中的重音点位。

Description

一种音频检测方法、装置、计算机设备和可读存储介质

本申请要求于2020年11月25日提交中国专利局、申请号为202011336979.1、名称为“一种音频检测方法、装置、计算机设备和可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及互联网领域，具体涉及多媒体技术领域，尤其涉及一种音频检测方法、装置、计算机设备和可读存储介质。

背景技术

目前，随着视频逐渐成为内容的重要传播方式，踩点视频也逐渐成为在视频创作者中非常受欢迎的视频创作类型。踩点视频主要通过卡住音乐的重音节奏点去填补画面，使视频声画同步，使观众在视觉与听觉上感受到一致的节奏感，从而带来更为舒适的感官体验。其中，重音点位是视频生产的关键因素。为了使踩点效果更具冲击性且适合短视频内容的展示，需要从音频中确定出一些比较重要的重音点位。因此，如何从音频数据中获取重音点位成为研究热点。

发明内容

本申请实施例提供了一种音频检测方法、装置、计算机设备和可读存储介质，可以较为准确地确定出目标音频数据中的重音点位。

一方面，本申请实施例提供了一种音频检测方法，所述方法包括：

从目标音频数据中获取目标时间点位以及所述目标时间点位的参考点位；所述目标音频数据包括多个时间点位以及每个时间点位的音频振幅值；所述参考点位是指与所述目标时间点位之间的时间差小于第一差值阈值的时间点位；

根据所述目标时间点位的音频振幅值对所述目标时间点位进行能量评估处理，得到所述目标时间点位的能量评估值；并根据所述参考点位的音频振幅值对所述参考点位进行能量评估处理，得到所述参考点位的能量评估值；

根据所述目标时间点位的能量评估值和所述参考点位的能量评估值，对所述目标时间点位进行准确性校验；

若所述目标时间点位通过所述准确性校验，则将所述目标时间点位作为目标重音点位添加到目标重音点位集合中。

另一方面，本申请实施例提供了一种音频检测装置，所述装置包括：

获取单元，用于从目标音频数据中获取目标时间点位以及所述目标时间点位的参考点位；所述目标音频数据包括多个时间点位以及每个时间点位的音频振幅值；所述参考点位是指与所述目标时间点位之间的时间差小于第一差值阈值的时间点位；

处理单元，用于根据所述目标时间点位的音频振幅值对所述目标时间点位进行能量评估处理，得到所述目标时间点位的能量评估值；并根据所述参考点位的音频振幅值对所述参考点位进行能量评估处理，得到所述参考点位的能量评估值；

所述处理单元，还用于根据所述目标时间点位的能量评估值和所述参考点位的能量评估值，对所述目标时间点位进行准确性校验；

所述处理单元，还用于若所述目标时间点位通过所述准确性校验，则将所述目标时间点位作为目标重音点位添加到目标重音点位集合中。

再一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括输入设备、输出设备，所述计算机设备还包括：

处理器，适于实现一条或多条指令；以及，

计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

再一方面，本申请实施例提供了一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令适于由所述处理器加载并执行如下步骤：

附图简要说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本申请实施例提供的一种音频波形图的示意图；

图1b是本申请实施例提供的频谱的示意图；

图1c是本申请实施例提供的音频检测系统的结构示意图；

图2是本申请实施例提供的一种音频检测方法的流程示意图；

图3是本申请实施例提供的一种确定目标时间点位的参考点位的示意图；

图4是本申请实施例提供的另一种音频检测方法的流程示意图；

图5a是本申请实施例提供的初始重音点位集合和补充时间点位集合生成的示意图；

图5b是本申请实施例提供的从各时间点位中获取多个峰值的示意图；

图5c是本申请实施例提供的根据目标时间点位确定音符起始点位的示意图；

图5d是本申请实施例提供的根据目标时间点位确定音符起始点位的示意图；

图6是本申请实施例提供的一种音频检测方案的流程示意图；

图7是本申请实施例提供的一种音频检测装置的结构示意图；

图8是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

音频数据是一种数字化的声音数据，可来自视频文件中的音频数据或纯音频文件的音频数据。数字化声音的过程实际上就是以一定的频率对来自终端设备的连续的模拟音频信号进行模数转换得到音频数据的过程。具体的，音频数据可包括多个时间点位(或称为音乐点位)以及每个时间点位的音频振幅值；在一定程度上，可采用各个时间点位以及对应的音频振幅值绘制一个音频波形图以直观表示音频数据。例如参见图1a所示的音频波形图，通过此音频波形图可直观看出音频数据中的A、B、C、D、E等时间点位的音频振幅值。每个时间点位除了具有音频振幅值这一属性外，还可包括声音频率、能量、音量和音色等声音属性；其中，声音频率是指物体在单个时间点位中完成全振动的次数，各个时间点位的声音频率可形成一个如图1b所示的频谱图；音量又可称为音强或响度，其是指人耳对所听到的声音大小强弱的主观感受；音色又可称为音品，其用于反映基于每个时间点位的音频振幅值所产生的声音的特征。

为了能够更好地对音频数据进行重音点位的提取，本申请实施例提供一种音频检测方案；该音频检测方案的执行主体可以是计算机设备，该计算机设备可以是终端设备(后续简称终端)或者服务器。当计算机设备为服务器时，本申请实施例还提出了一种图1c所示的音频检测系统；该音频检测系统可包括至少一个终端101和服务器102，即计算机设备。在该音频检测系统中，终端101以及服务器102可以通过有线或无线通信方式进行直接或间接地连接，本申请实施例在此不做限制。需要说明的是，上述所提及的终端可以是智能手机、平板电脑、笔记本电脑、台式电脑等等；服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器，等等。

在具体实现中，上述所提及的音频检测方案的大致原理如下：当需要对任一类型(如抒情类型、摇滚类型)的音频数据进行重音点位的提取时，计算机设备可从该音频数据中提取多个初始重音点位；此处的多个初始重音点位可包括：能量、音量、音色局部最大的时间点位，和/或能量、音量、音色发生突变的时间点位。针对任一初始重音点位，可通过对该任一初始重音点位的音频振幅值，以及音频数据中与该任一初始重音点位邻近的时间点位的音频振幅值进行综合分析，使得根据综合分析结果进一步对该任一初始重音点位进行准确性校验；并在校验通过后，将该任一初始重音点位作为音频数据的目标重音点位。在实施例中，可能由于各种外界因素导致计算机设备提取出的初始重音点位不够全面，遗漏掉音频数据中除这些初始重音点位以外的、可能也是重音点位的其他时间点位。因此，计算机设备可以从音频数据中补充提取一些新的补充点位(即除初始重音点位以外的其他时间点位)；并可采用任一初始重音点位所涉及的综合分析方法对新的补充点位进行综合分析，并在根据综合分析结果确定新的补充点位通过准确性校验后，将该新的初始重音点位作为音频数据的目标重音点位。

由上述描述可知，通过该音频检测方案，可以自适应地识别不同类型的音频数据；通过从音频数据中识别出能量、音量、音色局部最大的时间点位或突变点等初始重音点位，并进一步利用邻近的时间点位和初始重音点位之间的关联性，对初始重音点位进行准确性校验，可有效提升重音点位的提取准确性，从而给出精确至帧级别(即时间点位级别)的目标重音点位集合。并且，通过对音频数据进行补充采点以及对新的补充点位进行准确性校验，还可提升目标重音点位集合的全面性。

基于上述所提供的音频检测方案，本申请实施例提供了一种音频检测方法，该音频检测方法可由上述所提及的计算机设备执行。请参阅图2，该音频检测方法可包括以下步骤S201-S204：

S201，从目标音频数据中获取目标时间点位以及目标时间点位的参考点位。

其中，目标音频数据可以是任一类型的音频数据；例如抒情类型的音频数据、摇滚类型的音频数据、古典类型的音乐数据，等等。该目标音频数据可包括多个时间点位以及每个时间点位的音频振幅值，目标时间点位可以通过以下任一种实现方式获取到：

在一种具体实现中，计算机设备可根据开源工具libsora(一种音频处理工具)中的点位提取算法(如librosa.beat算法)从目标音频数据中提取初始重音点位集合。该点位提取算法的原理为：根据目标音频数据的主体节拍，从目标音频数据中提取能量、音量、音色局部较大的时间点位；和/或能量、音量、音色发生突变的时间点位作为初始重音点位。其中，主体节拍是指音频数据的最主要的节拍；所谓的节拍是音频数据在时间上的基本单位，是指强拍和弱拍的组合规律；节拍可实现音频数据中有强有弱的相同时间片段，按照一定的次序循环重复。在得到初始重音点位集合后，可采用本申请实施例所提出的音频检测方法依次对初始重音点位集合中的每一个初始重音点位进行准确性校验。那么在此具体实现中，步骤S201的具体实施方式可以包括：从初始重音点位集合中任意选取一个初始重音点位作为目标时间点位；也就是说，此实施方式下的目标时间点位为初始重音点位集合中的任一初始重音点位。

在一种具体实现中，由于上述所提及的点位提取算法的原理是通过考虑主体节拍来进行重音点位的提取的，而目标音频数据中可能存在少量偏离主体节拍的重音点位，这些偏离正常节拍的重音点位则可能被点位提取算法遗漏掉。例如，目标音频数据的开始/结束区域所涉及的节拍可能不符合主体节拍，则该开始/结束区域中的重音点位可认为是偏离主体节拍的重音点位，那么采用点位提取算法进行重音点位提取时，通常不会将开始/结束区域中的重音点位提取出来。因此，为了提升重音点位的准确性和全面性，计算机设备还可在目标音频数据中基于初始重音点位集合向外延拓采点以得到补充时间点位集合，并采用本申请实施例所提出的音频检测方法依次对补充时间点位集合中的每一个补充点位进行准确性校验。那么在此具体实现中，步骤S201的具体实施方式可以包括：从补充时间点位集合中任意选取一个补充点位作为目标时间点位；也就是说，此实施方式的目标时间点位为补充时间点位集合的任一补充点位。

经研究表明，若目标时间点位是一个较为准确的重音点位，则在目标时间点位以及与目标时间点位邻近的时间点位中必然会存在能量、音量等局部较大的时间点位，或者能量、音量等存在突变的时间点位。基于此，计算机设备还可获取该目标时间点位附近一定时间范围内的时间点位作为目标时间点位的参考点位，以便于后续可结合参考点位的音频振幅值对目标时间点位进行准确性校验。其中，该一定时间范围的上限可以等于在目标时间点位的基础上增加第一差值阈值后得到的值，下限可以等于在目标时间点位的基础上减少第一差值阈值后得到的值；也就是说，参考点位是指与目标时间点位之间的时间差小于第一差值阈值的时间点位。其中，第一差值阈值可以根据经验值或者业务需求设置。

例如，设第一差值阈值为10ms，那么一定时间范围可以是该目标时间点位前后10ms。如图3所示：在图3中假设D点为目标时间点位，计算机设备可计算目标音频数据中时间点位1、时间点位2、时间点位3以及时间点位4等其他时间点位与目标时间点位之间的差值。经过计算可得到时间点位1与目标时间点位D之间的时间差值D1为20ms、时间点位2与目标时间点位D之间的时间差值D2为5ms、时间点位3与目标时间点位D之间的时间差值D3为5ms，时间点位4与目标时间点位D之间的时间差值D4分别为20ms。然后，可依次判断D1、D2，D3、D4是否小于10ms；由于只有D2和D3小于第一差值阈值，则将时间点位2和时间点位3作为目标时间点位的参考点位。需要说明的是，此处只是示例性地以时间点位1、时间点位2、时间点位3以及时间点位4这四个时间点位为例进行说明的；在实际计算过程中，计算机设备可计算目标音频数据中所有其他时间点位与目标时间点位之间的差值，从而将差值小于第一差值阈值的时间点位均作为参考点位，即参考点位包括位于目标时间点位的前后10ms内的时间点位。

S202，根据目标时间点位的音频振幅值对目标时间点位进行能量评估处理，得到目标时间点位的能量评估值；并根据参考点位的音频振幅值对参考点位进行能量评估处理，得到参考点位的能量评估值。

在一种具体实现中，计算机设备可获取频域上的音频能量函数分别对目标时间点位以及参考点位进行音频能量值计算。

在一种具体实现中，计算机设备可采用时域上的音频能量函数分别对目标时间点位以及参考点位进行音频能量值计算。该时域上的音频能量函数与频域上的音频能量函数相比，计算速度更快，时间分辨率更高。在本申请实施例中，在经过对时域上的音频能量函数和频域上的音频能量函数进行测试之后，发现该时域上的音频能量函数在测试过程中对目标时间点位有更好检测效果。其中，时域是指在对函数或者信号进行分析时，分析其中和时间相关的部分，频域是指在对函数或信号进行分析时，分析其中和频域相关的部分。

在具体实现中，计算机设备可根据目标时间点位的音频振幅值和音频能量函数先确定出目标时间点位的音频能量值；并根据目标时间点位的音频能量值和音频能量变化函数确定出目标时间点位的音频能量变化值；然后计算机设备对目标时间点位的音频能量值和音频能量变化值进行加权求和确定目标时间点位的能量评估值，如公式1.1所示：

F＝c ₀·E+c ₁·δ 式1.1

其中，E表示目标时间点位的音频能量值，δ表示目标时间点位的音频能量变化值，F表示目标时间点位的能量评估值；c ₀和c ₁为两个常数，可用来控制目标时间点位的音频能量值和音频能量变化值的权重或比重；c ₀和c ₁的取值可根据经验设置，满足c ₀与c ₁之和为1即可。例如，c ₀可取0.1，c ₁可取0.9。

需要说明的是，参考点位的能量评估值的计算方式可参考该目标时间点位的能量评估值的计算方式，在此不再赘述。

S203，根据目标时间点位的能量评估值和参考点位的能量评估值，对目标时间点位进行准确性校验。

由前述可知，能量评估值可包括两部分，分别为最大能量评估值和均值。而重音点位通常是能量较大或能量突变的时间点位，所以可根据目标时间点位的能量评估值和参考点位的能量评估值检测目标时间点位的附近是否存在能量变化或能量突变的点；若存在，则可认为目标时间点位是较为准确的重音点位，此时可通过步骤S204将该目标时间点位作为目标重音点位添加至目标重音点位集合中。

在一种实现方式中，计算机设备可从目标时间点位的能量评估值和参考点位的能量评估值中确定出最大能量评估值，并判断最大能量评估值是否大于评估能量阈值，若最大能量评估值大于评估能量阈值，则表明目标时间点位的附近存在能量较大的时间点位，并确定目标时间点位通过准确性校验；若最大能量评估值小于或等于评估能量阈值，则表明目标时间点位的附近不存在能量较大的时间点位，并确定目标时间点位未通过准确性校验。其中，评估能量阈值可根据经验设置。

在一种实现方式中，计算机设备可对目标时间点位的能量评估值和参考点位的能量评估值进行均值运算，并判断均值是否大于均值评估阈值，若均值大于均值评估阈值，则表明目标时间点位附近的时间点位的能量均较高，从而可以表明存在能量较大的时间点位，并确定目标时间点位通过准确性校验；若均值小于或等于均值评估阈值，则表明目标时间点位附近的时间点位的能量均较低，从而可以表明不存在能量较大的时间点位，并确定目标时间点位未通过准确性校验。其中，均值评估阈值可根据经验设置。

在一种实现方式中，为了能够准确确定该目标时间点位附近是否存在能量较大或者能量突变的时间点位，可结合目标时间点位的能量评估值和均值进行综合评估。基于此，计算机设备可根据目标时间点位的能量评估值和参考点位的能量评估值确定出最大能量评估值以及均值，然后根据最大能量评估值以及均值对目标时间点位进行准确性校验。

S204，若目标时间点位通过准确性校验，则将目标时间点位作为目标重音点位添加到目标重音点位集合中。

在一种实现方式中，若目标时间点位通过准确性校验，则计算机设备可直接将目标时间点位作为目标重音点位添加到目标重音点位集合中；在一种实现方式中，为了增加对目标时间点位筛选的准确度，本申请实施例还可对该目标时间点位进行二次筛选。计算机设备根据目标时间点位的局部最大振幅值对目标时间点位进行筛选，若局部最大振幅值大于第一振幅阈值，则可将该目标时间点位作为目标重音点位添加到目标重音点位集合中。

在本申请实施例中，计算机设备可从目标音频数据中获取目标时间点位以及目标时间点位的参考点位，然后计算机设备根据目标时间点位的音频振幅值对目标时间点位进行能量评估处理，得到目标时间点位的能量评估值。然后根据参考点位的音频振幅值对参考点位进行能量评估处理，得到参考点位的能量评估值。根据目标时间点位的能量评估值和参考点位的能量评估值，对目标时间点位进行准确性校验；若目标时间点位通过准确性校验，则将目标时间点位作为目标重音点位添加到目标重音点位集合中。在上述的音频检测过程中，通过利用邻近的参考点位和目标时间点位之间的关联性，对目标时间点位进行准确性校验，可有效提升重音点位的提取准确性，从而给出精确至帧级别(即时间点位级别)的目标重音点位集合。

请参阅图4，图4为本申请实施例提供的另一种音频检测方法的流程示意图。本实施例中所描述的音频检测方法可由计算机设备执行，其可包括以下步骤S401-S406：

S401，从目标音频数据中获取目标时间点位以及目标时间点位的参考点位。

在具体实施过程中，计算机设备可先获取目标音频数据；具体的，计算机设备可从视频或者其他数据源中获取原始音频数据，该原始音频数据中的各个时间点位均具有对应的声音频率，其他数据源可以是网络、本地空间等数据源。然后对原始音频数据进行预处理，得到目标音频数据；其中，预处理可以包括以下(1)-(3)至少一项：

(1)采用目标频率范围对原始音频数据进行滤波处理。在具体实现中，可根据经验设置目标频率范围，例如目标频率范围设置为10HZ-5000HZ。计算机设备采用目标频率范围可有效过滤人耳听不到的低频音频和噪声，同时过滤掉一些音频数据中存在的换气声、摩擦声等高频成分；可仅留下对重音点位获取有用的目标频率范围内的时间点位，避免噪音干扰，得到比较干净的目标音频数据，从而减少后续对目标音频数据中的重音点位的识别难度。

(2)对原始音频数据进行音量统一化处理。在具体实现中，由于获取的原始音频数据的音量不一致，计算机设备可根据原始音频数据中的声音波形的最大值最小值进行统一化处理，该统一化处理是指将音频数据中的音量统一保持在最大值与最小值之间。例如，将音频数据中的音量归一化为-1到1之间，以便后续减少对目标音频数据中的重音点位的筛选难度。

(3)先采用目标频率范围对原始音频数据进行滤波处理，并对滤波后的音频数据进行音量统一化处理，减少后续对目标音频数据中的重音点位的识别难度和筛选难度。

在获取到目标音频数据后，便可从目标音频数据中获取目标时间点位以及目标时间点位的参考点位。由前述可知，目标时间点位可为初始重音点位集合中的任一初始重音点位，或者该目标时间点位为补充时间点位集合中的任一补充点位。其中，初始重音点位集合中的多个初始重音点位是采用点位提取算法对目标音频数据进行点位提取所得到的。且图2所示的实施例中，提及补充时间点位集合是在目标音频数据中基于初始重音点位集合向外延拓采点得到的；具体的，目标音频数据中的多个时间点位按照时间先后顺序依次排列，补充时间点位集合的获取方式如下：

计算机设备从初始重音点位集合中确定出起始重音点位和结束重音点位，该起始重音点位是指初始重音点位集合中时间最早的重音点位，结束重音点位是指初始重音点位集合中时间最晚的重音点位；计算机设备确定起始重音点位在目标音频数据中的起始排列位置，以及结束重音点位在目标音频数据中的结束排列位置，该起始重音点位的起始排列位置和结束重音点位的结束排列位置如图5a所示。进一步地，计算机设备按照采样频率对目标音频数据中位于起始排列位置之前的时间点位进行延拓采点，以及按照采样频率对目标音频数据中位于结束排列位置之后的时间点位进行延拓采点，该延拓采点方向可参见图5a所示；并将延拓采点所得到的时间点位作为补充点位添加到补充时间点位集合中。示例性的，在图5a中按照采样频率10ms进行采样，可得到图5a所示的4个采样点，并将该4个采样点对应的时间点位作为补充点位添加到补充时间点位集合中。

S402，根据目标时间点位的音频振幅值对目标时间点位进行能量评估处理，得到目标时间点位的能量评估值；并根据参考点位的音频振幅值对参考点位进行能量评估处理，得到参考点位的能量评估值。

在具体实现中，目标时间点位的能量评估值的计算方式与参考点位的能量评估值的计算方式类似；为便于阐述，后续均以目标时间点位为例进行说明。具体的，根据目标时间点位的音频振幅值对目标时间点位进行能量评估处理，得到目标时间点位的能量评估值的具体实施方式可包括以下步骤s11-s15：

s11，从多个时间点位中获取目标时间点位的多个关联点位。

其中，该关联点位是指与目标时间点位之间的时间差小于第二差值阈值的时间点位，该第二差值阈值可根据经验设置。例如，第二差值阈值可设置为

表示对

进行向下取整；其中，k可以根据经验值设置。例如若k等于2000ms，则对

(即1000ms)进行向下取整处理，可得到

为1000ms；若k等于2001ms，则对

(即1000.5ms)进行向下取整处理，可得到

为1000ms。当

为1000ms时，关联点位包括位于目标时间点位前后1000ms以内的时间点位。

s12，采用音频能量函数根据各个关联点位的音频振幅值和目标时间点位的音频振幅值，计算目标时间点位的音频能量值。

在具体实现中，多个时间点位按照时间先后顺序依次排列；那么相应的，目标音频数据可表示为一个一维数组y＝[y ₁,y ₂…y _n]；其中，y _x表示目标音频数据中第x个时间点位的音频振幅值，i∈[1，n]。音频能量函数可以如式1.2所示：

其中，k'表示目标时间点位的关联点位数量，该k'可根据k的取值确定。当k为奇数时，该k'等于k；当k为偶数时，该k'等于k+1；j表示求和符号中的索引，i的取值等于目标时间点位在目标音频数据中的排列序号。需要说明的是，当j的取值小于或等于0时，y _j的取值为0。

需要说明的是，本申请实施例是以目标时间点位进行举例说明，其他时间点位(包括上述的参考点位)的音频能量值的计算均可参考目标时间点位的计算方式。当所有时间点位都计算音频能量值后，由于该音频能量函数可看作是一个离散的函数，因此所有时间点位的音频能量值可以构成数组E＝[E ₁,E ₂,…E _n]。

基于此，步骤s12的具体实施方式可以是：对目标时间点位的音频振幅值进行平方运算，得到目标时间点位的初始能量值；以及对各个关联点位的音频振幅值进行平方运算，得到各个关联点位的初始能量值。然后，对目标时间点位的初始能量值和各个关联点位的初始能量值进行均值运算，得到目标时间点位的音频能量值。具体的，计算机设备对目标时间点位的初始能量值和各个关联点位的初始能量值进行均值运算，得到中间能量值。然后，将中间能量值直接作为目标时间点位的音频能量值；或者，对中间能量值进行去噪处理，得到目标时间点位的音频能量值。

其中，对中间能量值进行去噪处理，得到目标时间点位的音频能量值的具体实施方式可以是：计算机设备可采用所有时间点位的中间能量值构成中间能量值随时间点位变化的曲线，再采用高斯滤波或者盒子滤波(box滤波)进行曲线平滑操作，以调整目标时间点位的中间能量值，得到目标时间点位的音频能量值。通过去噪处理，可以去除噪声的干扰，得到比较干净的目标时间点位的音频能量值。

s13，从多个时间点位中获取目标时间点位的前驱点位。

该前驱点位包括：基于目标时间点位在多个时间点位中的排列位置，往前依次选取的c个时间点位，c为正整数。其中，c为可调参数。例如c可等于15。在c＝15的条件下，能够缓解局部异常值的干扰，且使得音频能量变化值更能反应一个音量峰值在局部一段时间的突变强弱情况。可以理解是，根据经验设置c的值可改变获取到的前驱点位，并且该c还可用来控制向前作差求和的个数。

s14，采用音频能量变化函数根据目标时间点位的音频能量值和前驱点位中各个时间点位的音频能量值，计算目标时间点位的音频能量变化值。

在具体实现中，该音频能量变化函数可如式1.3所示：

其中，δ′i表示初始能量变化值，Ei表示音频能量值，j表示求和符号中的索引，c为可调参数，可用来控制向前作差求和的个数以及前驱点位的数量。例如，当c＝1时该函数计算的就是能量函数的一阶均差。目标时间点位为第i点，该目标时间点位的前驱点位可包括第i-1点、第i-2点、...第i-c点。E _i-j表示第i-j个时间点位的音频能量值。

基于此，步骤s14的具体实现方式为：计算机设备求取前驱点位中各个时间点位的音频能量值之间的音频能量值总和，并获取基准数值(例如该基准值可为0)。然后计算音频能量值总和与c倍的目标时间点位的音频能量值之间的差值，并将基准数值和计算得到的差值中的最大值，作为目标时间点位的初始能量变化值；最后根据目标时间点位的初始能量变化值，确定目标时间点位的音频能量变化值。

在一种实现方式中，计算机设备可将目标时间点位的初始能量变化值直接作为目标时间点位的音频能量变化值；在另一种实现方式中，由于目标时间点位的初始能量值范围很大，因此需要对目标时间点位的初始能量值进行归一化处理。在本申请实施例定义了一种归一化方法pk_normalize，该归一化方法是指利用目标音频数据中各个时间点位的初始能量值中最大的n个峰值的均值对目标时间点位进行归一化操作，这样的归一化相比于简单的0-1的归一化可以避免一些异常大的音频能量变化值的影响，同时只选取最大的n个峰值的策略也可避免许多音频能量变化值微小的噪音峰值点导致筛选的错误。在具体实现中，计算机设备可获取目标音频数据中的各个时间点位的初始能量变化值，并从各个时间点位的初始能量变化值中确定出多个峰值。峰值是指目标音频数据中的峰值时间点位的初始能量变化值。峰值时间点位满足如下条件：峰值时间点位的初始能量变化值均大于，位于峰值时间点位的左右两侧且与峰值时间点位相邻的两个时间点位的初始能量变化值。示例性的，在图5b中从各个时间点位的初始能量变化值中可以确定出4个峰值，分别为峰值1、峰值2、峰值3和峰值4。计算机设备采用多个峰值的均值对目标时间点位的初始能量变化值进行归一化处理，得到目标时间点位的音频能量变化值。

其中，计算机设备采用多个峰值的均值对目标时间点位的初始能量变化值进行归一化处理，得到目标时间点位的音频能量变化值包括以下两种情况：(1)计算机设备直接根据多个峰值计算均值，然后将得到的均值对目标时间点位的初始能量变化值进行归一化处理。(2)计算机设备可将多个峰值进行排序，然后从排序完成的多个峰值中从大到小获取n个峰值，并计算这n个峰值的均值；计算机设备根据计算得到的均值对目标时间点位的初始能量变化值进行归一化处理。其中，n的值可根据经验设定，例如该n的值可设置为峰值个数的1/3。示例性的，设n的取值为3，在图5b中，计算机将获取到4个峰值进行从大到小排序，即这4个峰值的顺序为峰值1、峰值3、峰值2、峰值4。计算机设备可从大到小获取3个峰值，分别为峰1、峰值2、峰值3。

在一种实现方式中，采用多个峰值的均值，对目标时间点位的初始能量变化值进行归一化处理，得到目标时间点位的音频能量变化值的具体实现方式为：计算机设备获取各个时间点位的音频能量值，并从各个时间点位的音频能量值中确定出最小音频能量值，采用多个峰值的均值和最小音频能量值，对目标时间点位的初始能量变化值进行收缩处理，得到目标时间点位的音频能量变化值。其中，最小音频能量值可用min(E)表示，该多个峰值的均值可用mean(topn(peak(δ')))表示，peak(δ')表示确定目标音频数据中所有初始能量变化值的峰值(对应上述多个峰值)，topk(peak(δ'))表示从所有峰值中从大到小选取n个峰值。其中，采用多个峰值的均值mean(topn(peak(δ')))和最小音频能量值min(E)对目标时间点位的初始能量变化值进行收缩处理，得到目标时间点位的能量变化值δ的具体计算过程可参见式1.4：

在式1.4中，a为一个可调参数，可以微调和控制最终目标时间点位的音频能量变化值。该a的取值可根据经验设定，例如，a可取1.5。

s15，对音频能量值和音频能量变化值进行加权求和，得到目标时间点位的能量评估值。

S403，计算参考点位的能量评估值和目标时间点位的能量评估值的能量均值。

S404，从目标时间点位的能量评估值和参考点位的能量评估值中确定出最大能量评估值。

S405，若最大能量评估值与能量均值之间的差值大于阈值，则确定目标时间点位通过准确性校验；否则，则确定目标时间点位未通过准确性校验。

其中，可设置阈值作为对目标时间点位是否通过准确性校验的条件。该阈值也可理解为筛选目标时间点位的条件。在具体实现中，计算机设备可先计算最大能量评估值与能量均值之间的差值，并判断最大能量评估值与能量均值之间的差值是否大于阈值，若最大能量评估值与能量均值之间的差值大于阈值，确定目标时间点位通过准确性校验，即可理解为该目标时间点位是能量变化较大的时间点位；若最大能量评估值与能量均值之间的差值小于或等于阈值，则确定目标时间点位未通过准确性校验，即可理解为目标时间点位是能量变化较小的时间点位。

S406，若目标时间点位通过准确性校验，则将目标时间点位作为目标重音点位添加到目标重音点位集合中。

在具体实现中，经过步骤S405对目标时间点位进行校验后，计算机设备可将校验通过的目标时间点位作为目标重音点位添加到目标重音点位集合中。该目标重音点位集合可用R ₀表示。在目标重音点位集合中的所有的重音点位集合均满足式1.5：

R ₀＝{i＝F _max[i]＞F _mean[i]+s ₀,i∈{beat}} 式1.5

其中，最大能量评估值为Fmax[i]，均值为Fmean[i]，i∈{beat}表示目标时间点位。筛选阈值为s ₀，可根据经验设置。在一种实现方式中，若该目标时间点位为初始重音点位集合中的任一初始重音点位，则该筛选阈值可设置为较小的数值。例如，该筛选阈值可设置0.1。在另一种实现方式中，若该目标时间点位为补充时间点位集合中的任一补充点位，为了避免对目标时间点位的误检，可适当提高该筛选阈值，例如该筛选阈值可设置为0.3。

在一种实现方式中，若目标时间点位通过准确性校验，计算机设备还可根据目标音频数据中的局部最大振幅值来判断该目标时间点位是否为重音点位。即计算机设备可根据目标时间点位的局部最大振幅值进一步对目标时间点位进行筛选，从而增加对重音点位筛选的准确度。在具体实现中，计算机从各个关联点位的音频振幅值的绝对值和目标时间点位的音频振幅值的绝对值中，选取最大绝对值作为目标时间点位的局部最大振幅值。其中，该目标时间点位的局部最大振幅值可采用波形局部最大振幅函数来计算，计算公式可参见式1.6：

其中，式1.6中abs(·)表示对变量求绝对值；i表示当前目标时间点位；j表示max运算的迭代变量，且表示关联点位。其中关联点位是指与目标时间点位之间的时间差小于第二差值阈值的时间点位。其中，第二差值阈值可根据经验设置。

在确定出目标时间点位的局部最大振幅值后，计算机设备可判断目标时间点位的局部最大振幅值是否大于第一振幅阈值，若目标时间点位的局部最大振幅值大于第一振幅阈值，则将目标时间点位作为目标重音点位添加到目标重音点位集合中。其中，第一振幅阈值可根据经验设置，可用S ₁表示。在一种实现方式中，若该目标时间点位为初始重音点位集合中的任一初始重音点位，则该第一振幅阈值可设置为较小的数值。例如，该第一振幅阈值可设置为0.1。在另一种实现方式中，若该目标时间点位为补充时间点位集合中的任一补充点位，为了避免对目标时间点位的误检，可适当提高第一振幅阈值。示例性的，在上述确定出集合R ₀之后，可根据集合R ₀中的重音点位的局部最大振幅值对集合R ₀中的重音点位进行二次筛选，得到最新的目标重音集合R ₁，在最新的目标重音点位集合中的所有的重音点位集合均满足式1.7：

R ₁＝{i:A[i]＞s ₁,i∈R ₀} 式1.7

其中，A[i]表示在R ₀中的第i个时间点位，S ₁为第一振幅阈值。

在实际中，音频数据中存在少量偏离正常节拍的重音点位，因此本申请实施例还可对重音点位进行补充。在一种实现方式，可对音符起始点进行筛选，以补充目标重音点位集合中的重音点位。计算机设备可按照音符起始点检测算法(如librosa.onset算法)从目标音频数据中提取至少一个音符的音符起始点，其中，一个音符是根据至少两个时间点位及至少两个时间点位对应的音频振幅值确定的，音符起始点位是指：一个音符对应的至少两个时间点位中时间最早的时间点位。进一步地，计算机设备获取音符起始点的能量评估值和音符起始点的局部最大振幅值，并判断音符起始点的能量评估值和音符起始点的局部最大振幅值是否满足重音条件。若音符起始点的能量评估值和局部最大振幅值满足重音条件，则将音符起始点作为目标重音点位添加到目标重音点位集合中；其中，重音条件包括以下至少一种：音符起始点的能量评估值大于能量评估阈值，以及音符起始点的局部最大振幅值大于第二振幅阈值。

在实施例中，由于目标重音点位集合中的目标重音点位可能处于能量变化的峰值处，这样使得当人感知到目标重音点位的时候，可能该目标重音点位就快要消失了，因此这样的目标重音点位还不够理想。基于此，计算机设备还可对目标重音点位集合中的目标重音点位进一步进行优化。针对目标重音点位集合中的任一目标重音点位，计算机设备获取任一目标重音点位所属的目标音符的音符起始点，并在目标重音点位集合中，采用目标音符的音符起始点替换任一目标重音点位。可以理解的是，该音符起始点位也可看作是一个重音点位。在具体实现中，计算机设备获取目标音频数据的音符起始点强度评估曲线，该音符起始点强度评估曲线包括按时间先后顺序依次排列的多个时间点位和每个时间点位的音符强度值。然后将任一目标重音点位映射到音符起始点强度评估曲线上，得到任一目标重音点位在音符起始点强度评估曲线上的目标位置；在音符起始点强度评估曲线上，基于目标位置并沿时间变小的方向依次遍历至少一个音符强度值；若当前遍历的当前音符强度值满足音符强度条件，则停止遍历，并将当前音符强度值所对应的当前时间点位作为任一目标重音点位所属的目标音符的音符起始点；其中，音符强度条件包括：位于当前时间点位之前且与当前时间点位相邻的时间点位的音符强度值大于或等于当前音符强度值，且位于当前时间点位之后且与当前时间点位相邻的时间点位的音符强度值大于当前音符强度值。

在一种实现方式中，示例性的，音符起始点强度评估曲线如图5c所示，计算机设备将某个目标重音点位映射到音符起始点强度评估曲线，得到该目标重音点位在音符起始点强度评估曲线上的目标位置A1。计算机设备基于A1并沿时间变小的方向(图5c中的箭头所指的方向)依次遍历至少一个音符强度值，由于当遍历到音符强度值为0(对应的时间点位为A2)时，该音符强度值大于音符强度值y2，则继续遍历下一音符强度值y2(对应的时间点位为A3)，此时该音符强度值y2小于该音符强度值0，且也小于音符强度值y3(对应的时间点位为A4)。则停止遍历，并将音符强度值y2所对应的时间点位A3作为该目标重音点位所属的目标音符的音符起始点。

在另一种实现方式中，示例性的，音符起始点强度评估曲线如图5d所示，计算机设备将目标重音点位映射到音符起始点强度评估曲线，得到目标重音点位在音符起始点强度评估曲线上的目标位置B1。计算机设备基于B1并沿时间变小的方向(图5d中的箭头所指的方向)依次遍历至少一个音符强度值，当遍历到音符强度值为0(对应的时间点位B2)时，由于该音符强度值小于B1对应的音符强度值，且位于B2之前且与B2相邻的时间点位的音符强度值等于当前音符强度值0，且位于B2之后且与当B2相邻的时间点位的音符强度值大于当前音符强度值0，因此停止遍历，并将音符强度值为0对应的时间点位B2作为目标重音点位所属的目标音符的音符起始点。

其中，计算机设备获取目标音频数据的音符起始点强度评估曲线的具体实现方式可以是：计算机设备可根据目标音频数据利用短时傅里叶变换(stft)将时域转化成频域，最终生成频谱图，然后将频谱图做前后帧间差值，并根据帧间差值按时间求和得到音符起始点强度评估曲线。

在得到目标重音点位集合后，可将该目标重音点位集合中的目标重音点位转换为应用需要的格式输出。该应用可以是专门播放音乐的播放器、或者视频软件等等。

基于上述本申请实施例提供的音频检测方法，本申请实施例还提供一种具体的音频检测方案，该音频检测方案的具体流程可参见图6，该音频检测方案的流程如下：在提取音频数据时，可先统一不同音频文件的编码格式。计算机设备先设置统一的音频文件的编码格式。然后计算机设备对视频按照设置的编码格式进行处理，然后在处理后的视频中提取音频数据，并对该音频数据进行预处理，该预处理包括对音频数据进行频率范围滤波以及对音频数据进行整体音量规范化。在对该音频数据进行预处理之后，计算机设备从预处理后的音频数据中进行点位信息提取，该点位信息提取包括目标时间点位提取以及音符起始点位提取，并根据音频能量函数、音频能量变化函数以及波形局部最大振幅函数对目标时间点位进行评估，根据评估结果来对目标时间点位进行筛选过滤，得到目标重音点位集合。进一步地，计算机设备在得到目标重音点位集合后，还可对重音点位进行补充，并将补充的重音点位作为目标重音点位添加到目标重音点位集合中，然后对目标点位集合中的目标重音点位进行优化处理，得到最终的目标重音点位集合，并输出该目标重音点位集合，从而可以准确地确定出目标音频数据中的重音点位。

在具体应用中，在确定出重音点位之后，可在目标音频数据中标记重音点位，后续根据标记的重音点位可为剪辑工具或内容创作者提供画面切换的时间点位，自动生成或辅助创作踩点视频，即在卡住音乐的重音节奏点去填补画面，使视频声画同步，使观众在视觉与听觉上感受到一致的节奏感，带来更为舒适的感官体验。或该标记的重音点位可作为视频二次创作或剪辑中的背景音乐点位；或者该标记的重音点位还可起到在舞台或现场匹配灯光或其他特效，推动气氛烘托的作用等等。

基于上述音频检测方法实施例的描述，本申请实施例还公开了一种音频检测装置，该音频检测装置可以是设置于上述所提及的计算机设备中的一个硬件组件，也可以是运行于上述所提及的计算机设备中的一个计算机程序(包括程序代码)。该音频检测装置可以执行图2或图4所示的方法。请参见图7，所述音频检测装置可以运行如下单元：

获取单元701，用于从目标音频数据中获取目标时间点位以及所述目标时间点位的参考点位；所述目标音频数据包括多个时间点位以及每个时间点位的音频振幅值；所述参考点位是指与所述目标时间点位之间的时间差小于第一差值阈值的时间点位；

处理单元702，用于根据所述目标时间点位的音频振幅值对所述目标时间点位进行能量评估处理，得到所述目标时间点位的能量评估值；并根据所述参考点位的音频振幅值对所述参考点位进行能量评估处理，得到所述参考点位的能量评估值；

所述处理单元702，还用于根据所述目标时间点位的能量评估值和所述参考点位的能量评估值，对所述目标时间点位进行准确性校验；

所述处理单元702，还用于若所述目标时间点位通过所述准确性校验，则将所述目标时间点位作为目标重音点位添加到目标重音点位集合中。

在一种实现方式中，所述处理单元702，具体用于：

计算所述参考点位的能量评估值和所述目标时间点位的能量评估值的能量均值；

从所述目标时间点位的能量评估值和所述参考点位的能量评估值中确定出最大能量评估值；

若所述最大能量评估值与所述能量均值之间的差值大于阈值，则确定所述目标时间点位通过所述准确性校验；否则，则确定所述目标时间点位未通过所述准确性校验。

在一种实现方式中，所述获取单元701，具体用于：从所述多个时间点位中获取所述目标时间点位的多个关联点位；

所述处理单元702，具体用于：采用音频能量函数根据各个关联点位的音频振幅值和所述目标时间点位的音频振幅值，计算所述目标时间点位的音频能量值；所述关联点位是指与所述目标时间点位之间的时间差小于第二差值阈值的时间点位；

所述获取单元701，具体用于：从所述多个时间点位中获取所述目标时间点位的前驱点位，所述前驱点位包括：基于所述目标时间点位在所述多个时间点位中的排列位置，往前依次选取的c个时间点位，c为正整数；

所述处理单元702，具体用于：采用音频能量变化函数根据所述目标时间点位的音频能量值和所述前驱点位中各个时间点位的音频能量值，计算所述目标时间点位的音频能量变化值；对所述音频能量值和所述音频能量变化值进行加权求和，得到所述目标时间点位的能量评估值。

在一种实现方式中，所述处理单元702，具体用于：

对所述目标时间点位的音频振幅值进行平方运算，得到所述目标时间点位的初始能量值；以及对各个关联点位的音频振幅值进行平方运算，得到所述各个关联点位的初始能量值；

对所述目标时间点位的初始能量值和所述各个关联点位的初始能量值进行均值运算，得到所述目标时间点位的音频能量值。

在一种实现方式中，所述处理单元702，具体用于：

对所述目标时间点位的初始能量值和所述各个关联点位的初始能量值进行均值运算，得到中间能量值；

对所述中间能量值进行去噪处理，得到所述目标时间点位的音频能量值。

在一种实现方式中，所述处理单元702，具体用于：求取所述前驱点位中各个时间点位的音频能量值之间的音频能量值总和；

所述获取单元701，用于获取基准数值；

所述处理单元702，具体用于：计算所述音频能量值总和与c倍的所述目标时间点位的音频能量值之间的差值；将所述基准数值和计算得到的差值中的最大值，作为所述目标时间点位的初始能量变化值；根据所述目标时间点位的初始能量变化值，确定所述目标时间点位的音频能量变化值。

在一种实现方式中，所述获取单元701，用于获取所述目标音频数据中的各个时间点位的初始能量变化值；

所述处理单元702，具体用于：从所述各个时间点位的初始能量变化值中确定出多个峰值，所述峰值是指所述目标音频数据中的峰值时间点位的初始能量变化值，所述峰值时间点位满足如下条件：所述峰值时间点位的初始能量变化值均大于，位于所述峰值时间点位的左右两侧且与所述峰值时间点位相邻的两个时间点位的初始能量变化值；采用所述多个峰值的均值，对所述目标时间点位的初始能量变化值进行归一化处理，得到所述目标时间点位的音频能量变化值。

在一种实现方式中，所述获取单元701，用于获取所述各个时间点位的音频能量值；

所述处理单元702，具体用于从所述各个时间点位的音频能量值中确定出最小音频能量值；采用所述多个峰值的均值和所述最小音频能量值，对所述目标时间点位的初始能量变化值进行收缩处理，得到所述目标时间点位的音频能量变化值。

在一种实现方式中，所述将所述目标时间点位作为目标重音点位添加到目标重音点位集合中之前，所述处理单元702，还用于：

从所述各个关联点位的音频振幅值的绝对值和所述目标时间点位的音频振幅值的绝对值中，选取最大绝对值作为所述目标时间点位的局部最大振幅值；

若所述目标时间点位的局部最大振幅值大于第一振幅阈值，则执行将所述目标时间点位作为目标重音点位添加到目标重音点位集合中的步骤。

在一种实现方式中，所述目标时间点位为初始重音点位集合中的任一初始重音点位，或者补充时间点位集合中的任一补充点位；其中，所述初始重音点位集合中的多个重音点位是采用点位提取算法对目标音频数据进行点位提取所提取得到的；

所述目标音频数据中的多个时间点位按照时间先后顺序依次排列，所述处理单元702，具体用于：

从所述初始重音点位集合中确定出起始重音点位和结束重音点位，所述起始重音点位是指所述初始重音点位集合中时间最早的重音点位，所述结束重音点位是指所述初始重音点位集合中时间最晚的重音点位；

确定所述起始重音点位在所述目标音频数据中的起始排列位置，以及所述结束重音点位在所述目标音频数据中的结束排列位置；

按照采样频率对所述目标音频数据中位于所述起始排列位置之前的时间点位进行延拓采点，以及按照所述采样频率对所述目标音频数据中位于所述结束排列位置之后的时间点位进行延拓采点；

将延拓采点所得到的时间点位作为补充点位，添加到所述补充时间点位集合中。

在一种实现方式中，所述处理单元702，还用于：从所述目标音频数据中提取至少一个音符的音符起始点，一个音符是根据至少两个时间点位及所述至少两个时间点位对应的音频振幅值确定的，所述音符起始点位是指：一个音符对应的至少两个时间点位中时间最早的时间点位；

所述获取单元701，还用于获取所述音符起始点的能量评估值和所述音符起始点局部最大振幅值；

所述处理单元702，还用于：若所述音符起始点的能量评估值和局部最大振幅值满足重音条件，则将所述音符起始点作为目标重音点位添加到所述目标重音点位集合中；所述重音条件包括以下至少一种：所述音符起始点的能量评估值大于能量评估阈值，以及所述音符起始点的局部最大振幅值大于第二振幅阈值。

在一种实施例中，所述获取单元701，还用于针对所述目标重音点位集合中的任一目标重音点位，获取所述任一目标重音点位所属的目标音符的音符起始点；

所述处理单元702，还用于在所述目标重音点位集合中，采用所述目标音符的音符起始点替换所述任一目标重音点位。

在一种实施例中，所述获取单元701，具体用于获取所述目标音频数据的音符起始点强度评估曲线，所述音符起始点强度评估曲线包括按时间先后顺序依次排列的所述多个时间点位和每个时间点位的音符强度值；

所述处理单元702，具体用于：将所述任一目标重音点位映射到所述音符起始点强度评估曲线上，得到所述任一目标重音点位在所述音符起始点强度评估曲线上的目标位置；在所述音符起始点强度评估曲线上，基于所述目标位置并沿时间变小的方向依次遍历至少一个音符强度值；若当前遍历的当前音符强度值满足音符强度条件，则停止遍历，并将所述当前音符强度值所对应的当前时间点位作为所述任一目标重音点位所属的目标音符的音符起始点；

其中，所述音符强度条件包括：位于所述当前时间点位之前且与所述当前时间点位相邻的时间点位的音符强度值大于或等于所述当前音符强度值，且位于所述当前时间点位之后且与所述当前时间点位相邻的时间点位的音符强度值大于所述当前音符强度值。

在一种实现方式中，所述从目标音频数据中获取目标时间点位以及所述目标时间点位的参考点位之前，所述获取单元701，还用于获取原始音频数据，所述原始音频数据中的各个时间点位均具有对应的声音频率；

所述处理单元702，还用于对所述原始音频数据进行预处理，得到目标音频数据；所述预处理包括以下至少一项：采用目标频率范围对所述原始音频数据进行滤波处理，对所述原始音频数据或者对滤波后的音频数据进行音量统一化处理。

根据本申请的一个实施例，图2或图4所示的方法所涉及的各个步骤均可以是由图7所示的音频检测装置中的各个单元执行的。例如，图2所示的步骤S201由图7中所示的获取单元701来执行，步骤S202至S204均由图7中所示的处理单元702来执行。又如，图4所示的步骤S401由图7中所示的获取单元701来执行，步骤S402至步骤S406由图7中所示的处理单元701来执行。

根据本申请的另一个实施例，图7所示的音频检测装置中的各个单元可以分别或者全部合并为一个或若干个另外的单元来构成，或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成，这可以实现同样的操作，而不影响本申请实施例的技术效果的实现。上述单元是基于逻辑功能划分的，在实际应用中，一个单元的功能也可以是由多个单元来实现，或者多个单元的功能由一个单元实现。在本申请的其他实施例中，音频检测装置也可以包括其他单元，在实际应用中，这些功能也可以由其他单元协助实现，并且可以由多个单元协作实现。

根据本申请的另一个实施例，可以通过包括中央处理单元(Central Processing Unit， CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件来实现音频检测方法的步骤或音频检测装置的功能。例如通过在计算机的通用计算设备上运行能够执行如图2或图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码)，来构造如图7所示的音频检测装置，以及来实现本申请实施例的音频检测方法。所述的计算机程序可以记载于例如计算机可读记录介质上，并通过计算机可读记录介质装载于上述计算机设备中，并在其中运行。

基于上述音频检测方法实施例的描述，本申请实施例还公开了一种计算机设备，请参见图8，该计算机设备至少可包括处理器801、输入设备802、输出设备803以及计算机存储介质804。其中，计算机设备内的处理器801、输入设备802、输出设备803以及计算机存储介质804可通过总线或其他方式连接。

所述计算机存储介质804是计算机设备中的记忆设备，用于存放程序和数据。可以理解的是，此处的计算机存储介质804既可以包括计算机设备的内置存储介质，当然也可以包括计算机设备支持的扩展存储介质。计算机存储介质804提供存储空间，该存储空间存储了计算机设备的操作系统。并且，在该存储空间中还存放了适于被处理器801加载并执行的一条或多条指令，这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是，此处的计算机存储介质可以是高速RAM存储器；在实施例中，还可以是至少一个远离前述处理器的计算机存储介质、所述处理器可以称为中央处理单元(Central Processing Unit，CPU)，是计算机设备的核心以及控制中心，适于被实现一条或多条指令，具体加载并执行一条或多条指令从而实现相应的方法流程或功能。

在一种实施例中，可由处理器801加载并执行计算机存储介质中存放的一条或多条第一指令，以实现上述有关音频检测方法实施例中的方法的相应步骤；具体实现中，计算机存储介质中的一条或多条第一指令由处理器801加载并执行如下操作：

在一种实现方式中，所述处理器801，具体用于：

在一种实现方式中，所述多个时间点位按照时间先后顺序依次排列；所述处理器801，具体用于：

从所述多个时间点位中获取所述目标时间点位的多个关联点位，并采用音频能量函数根据各个关联点位的音频振幅值和所述目标时间点位的音频振幅值，计算所述目标时间点位的音频能量值；所述关联点位是指与所述目标时间点位之间的时间差小于第二差值阈值的时间点位；

从所述多个时间点位中获取所述目标时间点位的前驱点位，所述前驱点位包括：基于所述目标时间点位在所述多个时间点位中的排列位置，往前依次选取的c个时间点位，c为正整数；

采用音频能量变化函数根据所述目标时间点位的音频能量值和所述前驱点位中各个时间点位的音频能量值，计算所述目标时间点位的音频能量变化值；

对所述音频能量值和所述音频能量变化值进行加权求和，得到所述目标时间点位的能量评估值。

在一种实现方式中，所述处理器801，具体用于：

求取所述前驱点位中各个时间点位的音频能量值之间的音频能量值总和；

获取基准数值，并计算所述音频能量值总和与c倍的所述目标时间点位的音频能量值之间的差值；

将所述基准数值和计算得到的差值中的最大值，作为所述目标时间点位的初始能量变化值；

根据所述目标时间点位的初始能量变化值，确定所述目标时间点位的音频能量变化值。

在一种实现方式中，所述处理器801，具体用于：

获取所述目标音频数据中的各个时间点位的初始能量变化值；

从所述各个时间点位的初始能量变化值中确定出多个峰值，所述峰值是指所述目标音频数据中的峰值时间点位的初始能量变化值，所述峰值时间点位满足如下条件：所述峰值时间点位的初始能量变化值均大于，位于所述峰值时间点位的左右两侧且与所述峰值时间点位相邻的两个时间点位的初始能量变化值；

采用所述多个峰值的均值对所述目标时间点位的初始能量变化值进行归一化处理，得到所述目标时间点位的音频能量变化值。

在一种实现方式中，所述处理器801，具体用于：

获取所述各个时间点位的音频能量值，并从所述各个时间点位的音频能量值中确定出最小音频能量值；

采用所述多个峰值的均值和所述最小音频能量值，对所述目标时间点位的初始能量变化值进行收缩处理，得到所述目标时间点位的音频能量变化值。

在一种实现方式中，所述将所述目标时间点位作为目标重音点位添加到目标重音点位集合中之前，所述处理器801，还用于：

所述目标音频数据中的多个时间点位按照时间先后顺序依次排列，所述处理器801，具体用于：从所述初始重音点位集合中确定出起始重音点位和结束重音点位，所述起始重音点位是指所述初始重音点位集合中时间最早的重音点位，所述结束重音点位是指所述初始重音点位集合中时间最晚的重音点位；

在一种实现方式中，所述处理器801，还用于：

从所述目标音频数据中提取至少一个音符的音符起始点，一个音符是根据至少两个时间点位及所述至少两个时间点位对应的音频振幅值确定的，所述音符起始点位是指：一个音符对应的至少两个时间点位中时间最早的时间点位；

获取所述音符起始点的能量评估值和所述音符起始点局部最大振幅值；

若所述音符起始点的能量评估值和局部最大振幅值满足重音条件，则将所述音符起始点作为目标重音点位添加到所述目标重音点位集合中；所述重音条件包括以下至少一种：所述音符起始点的能量评估值大于能量评估阈值，以及所述音符起始点的局部最大振幅值大于第二振幅阈值。

在一种实现方式中，所述处理器801，还用于：

针对所述目标重音点位集合中的任一目标重音点位，获取所述任一目标重音点位所属的目标音符的音符起始点；

在所述目标重音点位集合中，采用所述目标音符的音符起始点替换所述任一目标重音点位。

在一种实现方式中，所述处理器801，具体用于：

获取所述目标音频数据的音符起始点强度评估曲线，所述音符起始点强度评估曲线包括按时间先后顺序依次排列的所述多个时间点位和每个时间点位的音符强度值；

将所述任一目标重音点位映射到所述音符起始点强度评估曲线上，得到所述任一目标重音点位在所述音符起始点强度评估曲线上的目标位置；

在所述音符起始点强度评估曲线上，基于所述目标位置并沿时间变小的方向依次遍历至少一个音符强度值；

若当前遍历的当前音符强度值满足音符强度条件，则停止遍历，并将所述当前音符强度值所对应的当前时间点位作为所述任一目标重音点位所属的目标音符的音符起始点；

在一种实现方式中，所述从目标音频数据中获取目标时间点位以及所述目标时间点位的参考点位之前，所述处理器801，还用于：

获取原始音频数据，所述原始音频数据中的各个时间点位均具有对应的声音频率；

对所述原始音频数据进行预处理，得到目标音频数据；所述预处理包括以下至少一项：采用目标频率范围对所述原始音频数据进行滤波处理，对所述原始音频数据或者对滤波后的音频数据进行音量统一化处理。

需要说明的是，本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述音频检测方法实施例图2或图4中所执行的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所揭露的仅为本申请一种较佳实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于申请所涵盖的范围。

Claims

一种音频检测方法，由计算机设备执行，包括：

从目标音频数据中获取目标时间点位以及所述目标时间点位的参考点位；所述目标音频数据包括多个时间点位以及每个时间点位的音频振幅值；所述参考点位是指与所述目标时间点位之间的时间差小于第一差值阈值的时间点位；

根据所述目标时间点位的音频振幅值对所述目标时间点位进行能量评估处理，得到所述目标时间点位的能量评估值；并根据所述参考点位的音频振幅值对所述参考点位进行能量评估处理，得到所述参考点位的能量评估值；

根据所述目标时间点位的能量评估值和所述参考点位的能量评估值，对所述目标时间点位进行准确性校验；

若所述目标时间点位通过所述准确性校验，则将所述目标时间点位作为目标重音点位添加到目标重音点位集合中。
如权利要求1所述的方法，其中，所述根据所述目标时间点位的能量评估值和所述参考点位的能量评估值，对所述目标时间点位进行准确性校验，包括：

计算所述参考点位的能量评估值和所述目标时间点位的能量评估值的能量均值；

从所述目标时间点位的能量评估值和所述参考点位的能量评估值中确定出最大能量评估值；

若所述最大能量评估值与所述能量均值之间的差值大于阈值，则确定所述目标时间点位通过所述准确性校验；否则，则确定所述目标时间点位未通过所述准确性校验。
如权利要求1所述的方法，其中，所述多个时间点位按照时间先后顺序依次排列；所述根据所述目标时间点位的音频振幅值对所述目标时间点位进行能量评估处理，得到所述目标时间点位的能量评估值，包括：

从所述多个时间点位中获取所述目标时间点位的多个关联点位，并采用音频能量函数根据各个关联点位的音频振幅值和所述目标时间点位的音频振幅值，计算所述目标时间点位的音频能量值；所述关联点位是指与所述目标时间点位之间的时间差小于第二差值阈值的时间点位；

从所述多个时间点位中获取所述目标时间点位的前驱点位，所述前驱点位包括：基于所述目标时间点位在所述多个时间点位中的排列位置，往前依次选取的c个时间点位，c为正整数；

采用音频能量变化函数根据所述目标时间点位的音频能量值和所述前驱点位中各个时间点位的音频能量值，计算所述目标时间点位的音频能量变化值；

对所述音频能量值和所述音频能量变化值进行加权求和，得到所述目标时间点位的能量评估值。
如权利要求3所述的方法，其中，所述采用音频能量函数根据各个关联点位的音频振幅值和所述目标时间点位的音频振幅值，计算所述目标时间点位的音频能量值，包括：

对所述目标时间点位的音频振幅值进行平方运算，得到所述目标时间点位的初始能量值；以及对各个关联点位的音频振幅值进行平方运算，得到所述各个关联点位的初始能量值；

对所述目标时间点位的初始能量值和所述各个关联点位的初始能量值进行均值运算，得到所述目标时间点位的音频能量值。
如权利要求4所述的方法，其中，所述对所述目标时间点位的初始能量值和所述各个关联点位的初始能量值进行均值运算，得到所述目标时间点位的音频能量值，包括：

对所述目标时间点位的初始能量值和所述各个关联点位的初始能量值进行均值运算，得到中间能量值；

对所述中间能量值进行去噪处理，得到所述目标时间点位的音频能量值。
如权利要求3-5任一项所述的方法，其中，所述采用音频能量变化函数根据所述目标时间点位的音频能量值和所述前驱点位中各个时间点位的音频能量值，计算所述目标时间点位的音频能量变化值，包括：

求取所述前驱点位中各个时间点位的音频能量值之间的音频能量值总和；

获取基准数值，并计算所述音频能量值总和与c倍的所述目标时间点位的音频能量值之间的差值；

将所述基准数值和计算得到的差值中的最大值，作为所述目标时间点位的初始能量变化值；

根据所述目标时间点位的初始能量变化值，确定所述目标时间点位的音频能量变化值。
如权利要求6所述的方法，其中，所述根据所述目标时间点位的初始能量变化值，确定所述目标时间点位的音频能量变化值，包括：

获取所述目标音频数据中的各个时间点位的初始能量变化值；

从所述各个时间点位的初始能量变化值中确定出多个峰值，所述峰值是指所述目标音频数据中的峰值时间点位的初始能量变化值，所述峰值时间点位满足如下条件：所述峰值时间点位的初始能量变化值均大于，位于所述峰值时间点位的左右两侧且与所述峰值时间点位相邻的两个时间点位的初始能量变化值；

采用所述多个峰值的均值，对所述目标时间点位的初始能量变化值进行归一化处理，得到所述目标时间点位的音频能量变化值。
如权利要求7所述的方法，其中，所述采用所述多个峰值的均值，对所述目标时间点位的初始能量变化值进行归一化处理，得到所述目标时间点位的音频能量变化值，包括：

获取所述各个时间点位的音频能量值，并从所述各个时间点位的音频能量值中确定出最小音频能量值；

采用所述多个峰值的均值和所述最小音频能量值，对所述目标时间点位的初始能量变化值进行收缩处理，得到所述目标时间点位的音频能量变化值。
如权利要求3所述的方法，其中，所述将所述目标时间点位作为目标重音点位添加到目标重音点位集合中之前，所述方法还包括：

从所述各个关联点位的音频振幅值的绝对值和所述目标时间点位的音频振幅值的绝对值中，选取最大绝对值作为所述目标时间点位的局部最大振幅值；

若所述目标时间点位的局部最大振幅值大于第一振幅阈值，则执行将所述目标时间点位作为目标重音点位添加到目标重音点位集合中的步骤。
如权利要求1所述的方法，其中，所述目标时间点位为初始重音点位集合中的任一初始重音点位，或者补充时间点位集合中的任一补充点位；其中，所述初始重音点位集合中的多个重音点位是采用点位提取算法对目标音频数据进行点位提取得到的；

所述目标音频数据中的多个时间点位按照时间先后顺序依次排列，所述补充时间点位集合的获取方式如下：

从所述初始重音点位集合中确定出起始重音点位和结束重音点位，所述起始重音点位是指所述初始重音点位集合中时间最早的重音点位，所述结束重音点位是指所述初始重音点位集合中时间最晚的重音点位；

确定所述起始重音点位在所述目标音频数据中的起始排列位置，以及所述结束重音点位在所述目标音频数据中的结束排列位置；

按照采样频率对所述目标音频数据中位于所述起始排列位置之前的时间点位进行延拓采点，以及按照所述采样频率对所述目标音频数据中位于所述结束排列位置之后的时间点位进行延拓采点；

将延拓采点所得到的时间点位作为补充点位，添加到所述补充时间点位集合中。
如权利要求1所述的方法，其中，所述方法还包括：

从所述目标音频数据中提取至少一个音符的音符起始点，一个音符是根据至少两个时间点位及所述至少两个时间点位对应的音频振幅值确定的，所述音符起始点位是指：一个音符对应的至少两个时间点位中时间最早的时间点位；

获取所述音符起始点的能量评估值和所述音符起始点的局部最大振幅值；

若所述音符起始点的能量评估值和局部最大振幅值满足重音条件，则将所述音符起始点作为目标重音点位添加到所述目标重音点位集合中；所述重音条件包括以下至少一种：所述音符起始点的能量评估值大于能量评估阈值，以及所述音符起始点的局部最大振幅值大于第二振幅阈值。
如权利要求11所述的方法，其中，所述方法还包括：

针对所述目标重音点位集合中的任一目标重音点位，获取所述任一目标重音点位所属的目标音符的音符起始点；

在所述目标重音点位集合中，采用所述目标音符的音符起始点替换所述任一目标重音点位。
如权利要求12所述的方法，其中，所述方法还包括：

获取所述目标音频数据的音符起始点强度评估曲线，所述音符起始点强度评估曲线包括按时间先后顺序依次排列的所述多个时间点位和每个时间点位的音符强度值；

将所述任一目标重音点位映射到所述音符起始点强度评估曲线上，得到所述任一目标重音点位在所述音符起始点强度评估曲线上的目标位置；

在所述音符起始点强度评估曲线上，基于所述目标位置并沿时间变小的方向依次遍历至少一个音符强度值；

若当前遍历的当前音符强度值满足音符强度条件，则停止遍历，并将所述当前音符强度值所对应的当前时间点位作为所述任一目标重音点位所属的目标音符的音符起始点；

其中，所述音符强度条件包括：位于所述当前时间点位之前且与所述当前时间点位相邻的时间点位的音符强度值大于或等于所述当前音符强度值，且位于所述当前时间点位之后且与所述当前时间点位相邻的时间点位的音符强度值大于所述当前音符强度值。
如权利要求1所述的方法，其中，所述从目标音频数据中获取目标时间点位以及所述目标时间点位的参考点位之前，所述方法还包括：

获取原始音频数据，所述原始音频数据中的各个时间点位均具有对应的声音频率；

对所述原始音频数据进行预处理，得到目标音频数据；所述预处理包括以下至少一项：采用目标频率范围对所述原始音频数据进行滤波处理，对所述原始音频数据或者对滤波后的音频数据进行音量统一化处理。
一种音频检测装置，包括：

获取单元，用于从目标音频数据中获取目标时间点位以及所述目标时间点位的参考点位；所述目标音频数据包括多个时间点位以及每个时间点位的音频振幅值；所述参考点位是指与所述目标时间点位之间的时间差小于第一差值阈值的时间点位；

处理单元，用于根据所述目标时间点位的音频振幅值对所述目标时间点位进行能量评估处理，得到所述目标时间点位的能量评估值；并根据所述参考点位的音频振幅值对所述参考点位进行能量评估处理，得到所述参考点位的能量评估值；

所述处理单元，还用于根据所述目标时间点位的能量评估值和所述参考点位的能量评估值，对所述目标时间点位进行准确性校验；

所述处理单元，还用于若所述目标时间点位通过所述准确性校验，则将所述目标时间点位作为目标重音点位添加到目标重音点位集合中。
一种计算机设备，所述计算机设备包括输入设备、输出设备，所述计算机设备还包括处理器和存储介质，所述处理器用于获取存储介质中存储的一条或多条指令，以执行如权利要求1-14中任一项所述的方法。
一种计算机存储介质，所述计算机存储介质存储有一条或多条指令，所述一条或多条指令运行时执行如权利要求1-14中任一项所述的方法。