WO2020135610A1

WO2020135610A1 - 音频数据恢复方法、装置及蓝牙设备

Info

Publication number: WO2020135610A1
Application number: PCT/CN2019/128776
Authority: WO
Inventors: 冯宇红; 王海业; 杨晓东; 熊焱; 张亦农
Original assignee: 南京中感微电子有限公司
Priority date: 2018-12-28
Filing date: 2019-12-26
Publication date: 2020-07-02
Also published as: CN111402904A; US20210327441A1; CN111402904B

Abstract

音频数据恢复方法、装置及蓝牙设备，包括：在频域上将音频数据分为第一频域分量和第二频域分量，对第二频域分量采用第二数据恢复方法来恢复音频数据，对于第一频域分量，采用复杂度低于所述第二数据恢复的第一数据恢复方法来恢复音频数据。

Description

音频数据恢复方法、装置及蓝牙设备

相关申请的交叉引用

本申请主张在2018年12月28日在中国提交的中国专利申请号No.201811621631.X的优先权，其全部内容通过引用包含于此。

技术领域

本申请涉及蓝牙技术领域，尤其涉及一种音频数据恢复方法、装置及蓝牙设备。

背景技术

由于传输带宽受限，蓝牙音频传输的发送端(master设备)需要在信号发射前先进行音频压缩然后再通过无线传输把压缩后的音频信号发送给接收端(slave设备)。当master设备和salve设备距离较远或者近距离但存在干扰情况下，无线传输过程中可能会出现丢包或者错包，导致slave设备接收到的音频信号解码播放时会出现卡顿和杂音。

为了解决丢包或者错包引起的音频数据错误，现有技术中通常有以下两种处理方法：

一种是在master设备发射时在码流中增加冗余信息，例如：CRC检验、纠错码、以及其他重要编码信息保护机制。

另一种是只在slave端，利用音频信号自身相关性，使用丢错包前后的好包数据来恢复丢错包数据，最简单的实现方法就是插入静音帧数据或者重复前一个好帧数据，比较复杂的实现方法是基于模型的插值，例如基于自回归AR(Autoregressive)模型或者正弦模型的插值来恢复音频数据。但这些方法对于音频数据来说，恢复质量较差，尤其是在较高的丢包率情况下。

现有技术的缺点在于：

音频恢复后的音频质量较差。

发明内容

本申请实施例提出了一种音频数据恢复方法、装置及电子设备，以解决上述技术问题。

第一个方面，本申请实施例提供了一种音频数据恢复方法，包括如下步骤：

在频域上将音频数据分为第一频域分量和第二频域分量；

对于第二频域分量，采用第二数据恢复方法来恢复音频数据；

对于第一频域分量，采用复杂度低于所述第二数据恢复方法的第一数据恢复方法来恢复音频数据。

第二个方面，本申请提供了一种音频数据恢复装置，包括：

分类模块，用于在频域上将音频数据分为第一频域分量和第二频域分量；

第一恢复模块，用于对于第二频域分量，采用第二数据恢复方法来恢复音频数据；

第二恢复模块，用于对于第一频域分量，采用复杂度低于所述第二数据恢复方法的第一数据恢复方法来恢复音频数据。

第三个方面，本申请提供了一种蓝牙设备，包括上述音频数据恢复装置。

有益效果如下：

本申请实施例所提供的音频数据恢复方法、装置及蓝牙设备，通过在频域上将音频数据分为第一频域分量和第二频域分量，对第二频域分量采用第二数据恢复方法来恢复音频数据，对于第一频域分量，采用复杂度低于所述第二数据恢复方法的第一数据恢复方法来恢复音频数据，使得音频数据恢复的实现复杂度低，可以在计算资源不足的蓝牙音频设备上实现高质量的音频恢复。

附图说明

下面将参照附图描述本申请的具体实施例，其中：

图1示出了本申请实施例中音频数据恢复方法实施的流程示意图；

图2示出了本申请实施例的音频数据恢复装置的结构示意图；

图3示出了本申请实施例的蓝牙设备的结构示意图；

图4示出了本申请实施例中蓝牙音频处理的流程示意图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图对本申请的示例性实施例进行进一步详细的说明，显然，所描述的实施例仅是本申请的一部分实施例，而不是所有实施例的穷举。并且在不冲突的情况下，本说明中的实施例及实施例中的特征可以互相结合。

发明人在发明过程中注意到：

现有技术中存在一种基于丢失帧幅度和相位估计插值算法GAPES(Gapped-data Amplitude and Phase Estimation)方法来恢复音频数据，该方法同其他现有技术相比，恢复音频质量有明显提高，甚至在30％丢包率下也有不错效果。但是，该方法计算复杂度太高，不太适合在计算资源不足一些蓝牙音频设备上使用。

其中，GAPES算法的详细介绍可以参见Hadas Ofir和David Malah在2005年发表的论文“Packet Loss Concealment for Audio Streaming Based on the GAPES Algorithm”，此处不再赘述。

因此，发明人想到在GAPES算法基础上提出一种低复杂度实现方法，以便在计算资源不足的蓝牙音频设备上实现该算法，提高恢复音频质量。

针对现有技术的不足，本申请实施例提出了一种音频数据恢复方法、装置及蓝牙设备，下面进行说明。

实施例1

本申请实施例提供了一种音频数据恢复方法，下面进行说明。

图1示出了本申请实施例中音频数据恢复方法实施的流程示意图，如图所示，所述方法包括如下步骤：

步骤101、在频域上将音频数据分为第一频域分量和第二频域分量；

步骤102、对于第二频域分量，采用第二数据恢复方法来恢复音频数据；

步骤103、对于第一频域分量，采用复杂度低于所述第二数据恢复方法的第一数据恢复方法来恢复音频数据。

音频数据接收端可以在接收到音频数据之后，先对音频数据进行时频变换，将时域信号转换为频域信号，然后在频域上将音频数据划分为两类频域分量，第一频域分量和第二频域分量，对两类频域分量分别采用不同的音频恢复方法进行音频数据的恢复。

对于第二频域分量，采用第二数据恢复方法来恢复音频数据；对于第一频域分量，采用复杂度低于所述第二数据恢复方法的第一数据恢复方法来恢复音频数据，可以在一定程度上降低音频恢复所需要的资源。

本申请实施例通过在频域上将音频数据进行分成两类，一类是第一频域分量，一类是第二频域分量。对于第二频域分量采用第二数据恢复方法来恢复；对于第一频域分量，采用复杂度低于所述第二数据恢复方法的第一数据恢复方法来恢复。这样只需要对少数频域分量进行第二数据恢复估计，从而可以大大降低计算复杂度，即使在计算资源不足的蓝牙音频设备上也可以实现高质量音频恢复。

具体实施时，所述第一频域分量为noise-like分量，所述第二频域分量为tone-dominant分量，所述tone-dominant分量的功率高于所述noise-like分量的功率。

具体实施时，所述第二数据恢复方法可以为丢失帧幅度和相位估计插值GAPES方法。

具体实施时，所述第一数据恢复方法可以为噪声整形和随机相位方法。

实施中，所述在频域上将音频数据分为第一频域分量和第二频域分量，可以包括：

在频域上将音频数据分为第一类帧数据和第二类帧数据；

将所述第一类帧数据分为第一频域分量和第二频域分量。

具体实施时，在频域上将音频数据划分成第一频域分量和第二频域分量，具体可以是将音频数据先分为第一类帧数据和第二类帧数据，第一类帧数据可以是错误的音频数据，通常可能是因为丢包或错包导致的，也可以称为问题帧、错帧、坏帧等，第二类帧数据可以是正确的音频数据、或者称为好帧。

在将音频数据分为正确的数据和错误的数据之后，可以仅对错误的数据进行频域分量的划分，进而对划分后的频域分量分别进行数据恢复。

具体实施时，将音频数据先分为第一类帧数据和第二类帧数据可以根据现有技术中音频数据的校验机制、或者丢错帧标志来判断该帧数据是第一类帧还是第二类帧，本申请在此不做赘述。

实施中，所述将第一类帧数据分为第一频域分量和第二频域分量，包括：

估计第一类帧数据的功率谱；

确定所述功率谱的峰值；

根据所述峰值确定候选频域分量

将功率大于预设门限值的候选频域分量作为第二频域分量，其他频域分量作为第一频域分量。

具体实施时，将错误的音频数据划分为第一频域分量和第二频域分量具体可以为，首先对该音频数据进行功率谱的估计，确定估计出的功率谱的峰值，然后根据峰值确定候选频域分量、并将功率大于预设门限值的候选频域分量作为第二频域分量，其他频域分量作为第一频域分量。

具体实施时，确定估计出的功率谱的峰值，具体可以采用局部最大的方法来寻找峰值。

实施中，所述估计第一类帧数据的功率谱，包括采用下式计算第一类帧数据的功率谱：

其中，m表示当前第一类帧的序号，m ₁为前一个第二类帧的序号，m ₂为后一个第二类帧的序号，

为第m ₁帧的频谱数据，

为第m ₂帧的频谱数据。

具体实施时，本申请实施例假设X _m(k)表示第m帧FFT bin频谱数据，k表示FFT bin序号，1≤k≤L，L表示FFT变换长度。

在估计第一类帧数据的功率谱时可以根据当前帧(第一类帧)的前一个第二类帧的频谱数据、以及当前帧(第一类帧)的后一个第二类帧的频谱数据来计算当前帧的功率谱。

实施中，所述根据所述峰值确定候选频域分量，包括：

对所述峰值进行从大到小排序；

对于排序后的前N个峰值，以该峰值为中心、预设长度内的频域分量确定为候选频域分量。

具体实施时，在得到功率谱的峰值之后，可以先对找到的峰值进行从大到小排序，从排序的峰值中挑出前N个峰值，N可以为正整数，例如N可以取10。对于挑出来的每个峰值PeakBin，可以加上一个以该峰值PeakBin为中心的窗口Window，落在window里面的FFT bin可以认为是tone bin候选WinBin。

具体实施时，可以设这个窗口window长度为3或者5等长度值。

实施中，所述对于第一的频域分量，采用复杂度低于所述第二数据恢复的第一数据恢复方法来恢复音频数据，具体为采用下式恢复：

其中，s(k)为随机变量，取值为{1，-1}；α(k)为幅度整形因子；m为当前帧的序号；m-1为前一帧的序号；X _m-1(k)为第m-1帧的频谱数据。

具体实施时，对于第一的频域分量，本申请实施例利用前一帧的频谱数据、并利用一个随机变量给该分量增加一个随机相位、结合幅度整形因子来恢复当前帧数据。

实施中，所述幅度整形因子为预设常数。

具体实施时，所述幅度整形因子可以设为一个常数fadeout_factor，例如：所述幅度整形因子可以取值0.9。

实施中，所述幅度整形因子采用下式计算得到：

其中，B _b为频谱的临界子带；m ₁为前一个第二类帧的序号，m ₂为后一个第二类帧的序号，

为第m ₁帧的频谱数据，

为第m ₂帧的频谱数据。

具体实施时，可以把整个频谱划分为若干子带，对每个子带分别计算一个相应的幅度整形因子。

实施例2

基于同一发明构思，本申请实施例还提供了一种音频数据恢复装置，由于该音频数据恢复装置解决问题的原理与本申请实施例1所提供的音频数据恢复方法相似，因此该音频数据恢复装置的实施可以参见方法的实施，重复之处不再赘述。

图2示出了本申请实施例的音频数据恢复装置的结构示意图，如图所示，所述装置包括：

分类模块201，用于在频域上将音频数据分为第一频域分量和第二频域分量；

第一恢复模块202，用于对于第二频域分量，采用第二数据恢复方法来恢复音频数据；

第二恢复模块203，用于对于第一频域分量，采用复杂度低于所述第二数据恢复方法的第一数据恢复方法来恢复音频数据。

本申请实施例所提供的音频数据恢复装置，通过在频域上将音频数据进行分成两类，一类是第一频域分量，一类是第二频域分量。对于第二频域分量采用第二数据恢复方法来恢复；对于第一频域分量，采用复杂度低于所述第二数据恢复方法的第一数据恢复方法来恢复。这样只需要对少数频域分量进行第二数据恢复方法估计，从而可以大大降低计算复杂度，即使在计算资源不足的蓝牙音频设备上也可以实现高质量音频恢复。

实施中，所述分类模块，包括：

第一分类单元，用于在频域上将音频数据分为第一类帧数据和第二类帧数据；

第二分类单元，用于将所述第一类帧数据分为第一频域分量和第二频域分量。

实施中，所述第一类帧数据为错误的数据，所述第二类帧数据为正确的数据。

实施中，所述第二分类单元，包括：

估计子单元，用于估计第一类帧数据的功率谱；

峰值确定子单元，用于确定所述功率谱的峰值；

候选频域分量确定子单元，用于根据所述峰值确定候选频域分量；

分类子单元，用于将功率大于预设门限值的候选频域分量作为第二频域分量，其他频域分量作为第一频域分量。

实施中，所述估计子单元采用下式计算第一类帧数据的功率谱：

P _m(k)＝|X _m1(k)| ²+|X _m2(k)| ²；

为第m ₁帧的频谱数据，

为第m ₂帧的频谱数据。

实施中，所述峰值确定子单元用于基于局部最大的方法寻找到所述功率谱的峰值。

实施中，所述候选帧确定子单元用于对所述峰值进行从大到小排序；对于排序后的前N个峰值，以该峰值为中心、预设长度内的频域分量确定为候选频域分量。

实施中，所述第二恢复模块，用于采用下式恢复音频数据：

其中，s(k)为随机变量，取值为{1，-1}；α(k)为幅度整形因子；m为当前第一类帧，m-1为前一帧，X _m-1(k)为第m-1帧的频谱数据。

实施中，所述幅度整形因子为预设常数。

实施中，所述幅度整形因子采用下式计算得到：

为第m ₁帧的频谱数据，

为第m ₂帧的频谱数据。

实施例3

基于同一发明构思，本申请实施例还提供了一种蓝牙设备。

图3示出了本申请实施例的蓝牙设备的结构示意图，如图所示，本申请实施例所提供的蓝牙设备，包括如本申请实施例2中的音频数据恢复装置。

在具体实施时，本申请实施例中的蓝牙设备可以包括蓝牙耳机、蓝牙音箱、蓝牙网关、蓝牙MP3、蓝牙闪存盘、蓝牙车载设备、蓝牙适配器等，本申请对此不作限制。

本申请实施例所提供的蓝牙设备，通过在频域上将音频数据进行分成两类，一类是第一频域分量，一类是第二频域分量。对于第二频域分量采用第二数据恢复方法来恢复；对于第一频域分量，采用第一数据恢复方法来恢复。这样只需要对少数频域分量进行第二数据恢复方法估计，从而可以大大降低计算复杂度，即使在计算资源不足的蓝牙音频设备上也可以实现高质量音频恢复。

实施例4

图4示出了本申请实施例中蓝牙音频处理的流程示意图，如图所示，处理流程可以如下：

步骤401，对接收到的蓝牙音频信号进行时频变换；

通常时频变换采用快速傅里叶变换(Fast Fourier Transformation,FFT)，在FFT变换之前，可以对时域信号先加分析窗，然后再进行FFT变换。

由于FFT技术为现有数字信号处理的常用技术，本申请在此不做赘述。

步骤402，判断当前帧是否为坏帧；

本申请实施例将数据帧分为好帧、坏帧(例如：丢帧、错帧等)。

如果当前帧是好帧，则缓冲该帧频谱数据，并执行步骤406；

如果当前帧是坏帧，则执行步骤403。

步骤403、对当前帧进行频域分量分类。

根据缓冲的好帧数据频谱估计当前帧的功率谱，基于估计出的当前帧的功率谱采用峰值检测peak detcetion方法对每个FFTbin进行分类。

如果当前坏帧的FFTbin分类为tone-dominant分量，则执行步骤404；

如果当前坏帧的FFTbin分类为noise-like分量，则执行步骤405。

步骤404、使用GAPES方法对这个FFT bin频谱数据的进行估计。

步骤405、使用噪声整形和随机相位方法对这个FFT bin频谱数据进行恢复。

步骤406、对音频数据进行时频逆变换。

时频逆变换一般可以采用快速傅里叶反变换IFFT，在IFFT变换后对音频信号加合成窗，然后进行重叠相加处理(overlap-add)，获得重构的时域信号。

下面以实验来证明本申请的有益效果：

通常情况下，使用24位定点数字信号处理器(Digital Signal Processing,DSP)，利用GAPES算法估计一个FFT bin需要12MHz。假设作1024点FFT，则需要估计513个FFT bin才能恢复当前帧数据。

如果这些FFT bin全部采用GAPES算法来估计，则需要12*513＝6156MHz。

如果采用本申请实施例所提供的分类计算方式的话，只需要少数FFT bin使用GAPES算法来恢复，其他bin按照噪声整形和随机相位方法来恢复。通过实验可以确定，只需要使用GAPES算法估计30个FFT bin就可以在10％丢错包率下，恢复音频质量接近全部513个FFT bin都采用GAPES算法估计的音频质量。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的可选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括可选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

一种音频数据恢复方法，包括：

在频域上将音频数据分为第一频域分量和第二频域分量；

对于第二频域分量，采用第二数据恢复方法来恢复音频数据；

对于第一频域分量，采用复杂度低于第二数据恢复方法的第一数据恢复方法来恢复音频数据。
如权利要求1所述的方法，其中，所述第一频域分量为noise-like分量，所述第二频域分量为tone-dominant分量，所述tone-dominant分量的功率高于所述noise-like分量的功率。
如权利要求1所述的方法，其中，所述第二数据恢复方法为丢失帧幅度和相位估计插值GAPES方法。
如权利要求1所述的方法，其中，所述第一数据恢复方法为噪声整形和随机相位方法。
如权利要求1所述的方法，其中，所述在频域上将音频数据分为第一频域分量和第二频域分量，包括：

在频域上将音频数据分为第一类帧数据和第二类帧数据；

将所述第一类帧数据分为第一频域分量和第二频域分量。
如权利要求5所述的方法，其中，所述第一类帧数据为错误的数据，所述第二类帧数据为正确的数据。
如权利要求5所述的方法，其中，所述将第一类帧数据分为第一频域分量和第二频域分量，包括：

估计第一类帧数据的功率谱；

确定所述功率谱的峰值；

根据所述峰值确定候选频域分量；

将功率大于预设门限值的候选频域分量作为第二频域分量，其他帧作为第一频域分量。
如权利要求7所述的方法，其中，所述估计第一类帧数据的功率谱，包括采用下式计算第一类帧数据的功率谱：

其中，m表示当前第一类帧的序号，m ₁为前一个第二类帧的序号，m ₂为后一个第二类帧的序号，
为第m ₁帧的频谱数据，
为第m ₂帧的频谱数据。
如权利要求7所述的方法，其中，所述根据所述峰值确定候选频域分量，包括：

对所述峰值进行从大到小排序；

对于排序后的前N个峰值，以该峰值为中心、预设长度内的频域分量确定为候选频域分量。
如权利要求1所述的方法，其中，所述对于第一频域分量，采用复杂度低于所述第二数据恢复方法的第一数据恢复方法来恢复音频数据，具体为对于第一频域分量采用下式恢复：

其中，s(k)为随机变量，取值为{1，-1}；α(k)为幅度整形因子；m为当前帧的序号；m-1为前一帧的序号；X _m-1(k)为第m-1帧的频谱数据。
如权利要求10所述的方法，其中，所述幅度整形因子采用下式计算得到：

其中，B _b为频谱的临界子带；m ₁为前一个第二类帧的序号，m ₂为后一个第二类帧的序号，
为第m ₁帧的频谱数据，
为第m ₂帧的频谱数据。
一种音频数据恢复装置，包括：

分类模块，用于在频域上将音频数据分为第一频域分量和第二频域分量；

第一恢复模块，用于对于第二频域分量，采用第二数据恢复方法来恢复音频数据；

第二恢复模块，用于对于第一频域分量，采用复杂度低于所述第二数据恢复方法的第一数据恢复方法来恢复音频数据。
如权利要求12所述的装置，其中，所述第一频域分量为noise-like分量，所述第二频域分量为tone-dominant分量，所述tone-dominant分量的功率高于所述noise-like分量的功率。
如权利要求12所述的装置，其中，所述第二数据恢复方法为丢失帧幅度和相位估计插值GAPES方法。
如权利要求12所述的装置，其中，所述第一数据恢复方法为噪声整形和随机相位方法。
如权利要求12所述的装置，其中，所述分类模块，包括：

第一分类单元，用于在频域上将音频数据分为第一类帧数据和第二类帧数据；

第二分类单元，用于将所述第一类帧数据分为第一频域分量和第二频域分量。
如权利要求16所述的装置，其中，所述第一类帧数据为错误的数据，所述第二类帧数据为正确的数据。
如权利要求16所述的装置，其中，所述第二分类单元，包括：

估计子单元，用于估计第一类帧数据的功率谱；

峰值确定子单元，用于确定所述功率谱的峰值；

候选频域分量确定子单元，用于根据所述峰值确定候选频域分量；

分类子单元，用于将功率大于预设门限值的候选频域分量作为第二频域分量，其他帧作为第一频域分量。
如权利要求18所述的装置，其中，所述估计子单元采用下式计算第一类帧数据的功率谱：

其中，m表示当前第一类帧的序号，m ₁为前一个第二类帧的序号，m ₂为后一个第二类帧的序号，
为第m ₁帧的频谱数据，
为第m ₂帧的频谱数据。
如权利要求18所述的装置，其中，所述候选频域分量确定子单元用于对所述峰值进行从大到小排序；对于排序后的前N个峰值，以该峰值为中心、预设长度内的频域分量确定为候选频域分量。
如权利要求12所述的装置，其中，所述第二恢复模块，用于采用下式恢复音频数据：

其中，s(k)为随机变量，取值为{1，-1}；α(k)为幅度整形因子；m为当前帧的序号；m-1为前一帧的序号；X _m-1(k)为第m-1帧的频谱数据。
如权利要求21所述的装置，其中，所述幅度整形因子采用下式计算得到：

其中，B _b为频谱的临界子带；m ₁为前一个第二类帧的序号，m ₂为后一个第二类帧的序号，
为第m ₁帧的频谱数据，
为第m ₂帧的频谱数据。
一种蓝牙设备，包括如权利要求12至22任一所述的音频数据恢复装置。