WO2010037251A1

WO2010037251A1 - 一种人声判别的方法和装置

Info

Publication number: WO2010037251A1
Application number: PCT/CN2009/001037
Authority: WO
Inventors: 谢湘勇; 陈展
Original assignee: 炬力集成电路设计有限公司
Priority date: 2008-09-26
Filing date: 2009-09-15
Publication date: 2010-04-08
Also published as: EP2328143B1; CN101359472A; EP2328143B8; EP2328143A1; US20110166857A1; EP2328143A4; CN101359472B

Description

一种人声判别的方法和装置技术领域

本发明涉及音频处理技术领域，特别涉及一种人声判别的方法和装置。背景技术

人声判别，顾名思义，就是判别音频信号中是否出规了人的说话声。人声判别具有其特殊使用环境和要求。一方面，不需要知道说话人所说的内容，只关心是否有人在说话；另一方面，需要做到对人声进行实时地判别。此外，还需要考虑系统软硬件的开销，尽可能地降低软硬件方面的要求。

现有的人声判别技术主要包括如下两种方式：一种是从提取音频信号的特征参数出发，利用音频信号中出现人声和音频信号中没有人声时特征参数的不同之处，进行人声的检测。目前人声判别主要利用的特征参数包括：能量值、过零率、自相关系数、倒谱等。另一种人声判别技术是利用语言学的原理，对音频信号的线性预测倒谱系数或 Mel频率倒谱系数进行特征提取，然后通过模板匹配技术来进行人声判别。

现有的人声判别技术存在如下不足之处：

1: 能量值、过零率、自相关系数等特征参数不能很好地反映出人声和非人声之间的区别，从而导致检测效果不佳；

2: 计算线性预测倒谱系数或 Mel频率倒谱系数，然后通过模板匹配技术来进行人声判别的方法过于复杂，计算量太大，需要占用过多的软硬件资源，可行性不好。发明内容

有鉴于此，本发明实施例提出一种人声判别的方法和装置，能够较为准确地判别音频信号中的人声，并且计算开销很小。

本发明实施例提出的一种人声判别的方法，用于判别外部输入的音频信号中的人声，包括：

将所述音频信号的当前帧的每 n个采样点作为一个分段，其中 n为正整数；

判断所述当前帧中，是否存在相对于判别阈值发生跃迁的两个相邻的分段，此两个相邻分段的滑动最大绝对值分别大于和小于所述判别阈值；若是，则确定所述当前帧为人声；

其中，分段的滑动最大绝对值通过以下方法获得：

取该分段中各采样点的绝对强度的最大值，作为该分段的初始最大绝对值；

取该分段以及该分段之后 m个分段的初始最大绝对值中的最大值，作为该分段的滑动最大绝对值，其中 m为正整数，

本发明实施例提出的一种人声判别装置，用于判别外部输入的音频信号中的人声，包括：

分段模块，用于将所述音频信号的当前帧的每 n个采样点作为一个分段，其中 n为正整数；

滑动最大绝对值模块，用于获得分段的滑动最大绝对值；其中任一分段的滑动最大绝对值通过以下方法获得：取该分段中各采样点的绝对强度的最大值，作为该分段的初始最大绝对值，以及取该分段以及该分段之后 m个分段的初始最大绝对值中的最大值，作为该分段的滑动最大绝对值，其中 m为正整数；

跃迁判断模块，用于判断所述当前帧中，是否存在相对于判别阈值发生跃迁的两个相邻的分段，此两个相邻分段的滑动最大绝对值分别大于和小于所述判别阈值；

人声判别模块，用于在所述跃迁判断模块的判断结果为是时，确定所述当前帧为人声。

从以上技术方案可以看出，通过音频信号的滑动最大绝对值相对于判别阈值的跃迁来区分人声和非人声，可以很好地反映出人声与非人声的特性，并且所需计算量和存储空间较小。附图说明

图 1示出了作为示例的纯人声时域波形；

图 2示出了作为示例的纯音乐的时域波形；

图 3示出了作为示例的人唱歌的流行音乐的时域波形；

图 4为根据图 1所示纯人声转换得到的滑动最大绝对值曲线；

图 5为才艮据图 2所示纯音乐转换得到的滑动最大绝对值曲线；

图 6为根据图 3所示人唱歌的流行音乐转换得到的滑动最大绝对值曲线；图 7为一段广播节目录音的时域波形图；

图 8为图 7所示的时域波形转换得到的滑动最大绝对值曲线，其中包括了判别阈值；

图 9为本发明实施例提出的人声判别的流程图；

图 10示出了典型的人声的滑动最大绝对值与判别阈值的关系图；图 11示出了典型的非人声的滑动最大绝对值与判别阈值的关系图；图 12为本发明实施例提出的人声判别装置的模块示意图。具体实施方式

在对本发明具体实施方案进行说明之前，首先介绍一下本发明方案所依据的原理。图 1至图 3给出了三段时域波形图的示例，图中横坐标为音频信号采样点的标号，纵坐标为音频信号采样点的强度，其中采样率为 44100。以下各示意图中，采样率均为 44100。其中，图 1是纯人声的时域波形图；图 2 是纯音乐的时域波形图；图 3是人唱歌的流行音乐时域波形图，可以看作是人声和音乐的叠加效果。在人声判别技术中，是判断音频信号中是否出现了人的说话声，而若音频信号为这种人声和音乐的叠加效果时，仍然认为该音频信号中没有人声。

观察图 1至图 3的波形特征，可以发现人声的时域图和非人声的时域图具有明显差别。人说话声音是抑扬顿挫的，音节之间具有停顿，在停顿处声强很弱，体现在时域波形图上就是图像变化非常剧烈，而非人声就没有这样的典型特征。为了更加明显地体现出人声的上述特征，将图 1至图 3转换为滑动最大绝对值的曲线图，分别如图 4至图 6所示，橫坐标依然为音频信号釆样点的标号，而纵坐标为音频信号采样点的滑动最大绝对强度（即滑动最大绝对值）。其中，取 m个连续音频信号采样点的绝对强度（绝对强度即强度的绝对值）中最大的绝对强度作为该 m个连续音频信号采样点中第一个采样点的滑动最大绝对值， m为正整数。 m被称为滑动长度。可以看出，图 4与图 5或图 6之间的最大区别点就是曲线中是否会出现零值，人声的波形特征导致其滑动最大绝对值会出现零值，而音乐等非人声则不会出现零值。当然，可以将连续 n个采样点作为一个段，该段音频信号的绝对强度用该段中各采样点的绝对强度的最大值表示；该段音频信号的滑动最大绝对值用该段以及该段之后连续 m个段的绝对强度的最大值表示，其中 n和 m均为正整数；因此，滑动最大绝对值曲线的横坐标也可以表示采样点分段后的段号，纵坐标也可以表示各段音频信号的滑动最大绝对值。图 4、图 5和图 6可以看作将一个采样点划归为一个段的特例，即 n=l的情形。

本发明方案利用人声的滑动最大绝对值会出现零值的这个特性来实现人声判别。但具体应用中，人说话时周围的环境不可能是绝对安静的，或多或少会混有非人声。因此，需要确定合适的判别阈值，如果滑动最大绝对值的曲线越过了判别阈值曲线，则表明有人声。

图 7是一段广播节目录音的时域波形，前面一段是主持人说话，后面是播放流行歌曲。其滑动最大绝对值曲线如图 8所示，图 7和图 8中的横坐标为音频信号采样点的标号，图 7的纵坐标表示音频采样点的强度，图 8的纵坐标表示音频信号采样点的滑动最大绝对值。可以通过选取合适的判别阈值区分人声和非人声。图 8 中的横实线表示判别阈值。在主持人说话的部分，滑动最大绝对值曲线会出现与该横实线相交的现象；而在播放流行歌曲的部分，滑动最大绝对值曲线与该横实线就不再相交。本专利申请文件中，将滑动最大值曲线与判别阈值曲线相交称为滑动最大绝对值相对于判别阈值发生了跃迁，或简称为跃迁。滑动最大值曲线与判别阈值曲线相交的次数则称为跃迁次数。需要说明的是，图 8 中的判别阔值是一个恒定值，实际应用中判别阈值可以根据音频信号的强度进行动态调整。

本发明实施例一提出的一种人声判别的方法，用于判别外部输入的音频信号中的人声，包括：

判断所述当前帧中，是否存在相对于判别阈值发生跃迁的两个相邻的分段，此两个相邻分段的滑动最大绝对值分别大于和小于所述判别阈值；若是，则确定所迷当前帧为人声；

其中，分段的滑动最大绝对值通过以下方法获得：

取该分段以及该分段之后 m个分段的初始最大绝对值中的最大值，作为该分段的滑动最大绝对值，其中 m为正整数。

本发明实施例二的实现人声判别的具体流程如图 9所示，包括如下步骤：步骤 901: 进行参数初始化。初始化的参数可以包括音频信号的帧长、判别阈值、滑动长度、跃迁次数和延迟帧数。其中，延迟帧数和跃迁次数的初始值可以为零。

关于选取判别阁值的问题，可以从最大绝对强度的角度出发，取音频信号的当前帧及当前帧之前的各脉冲编码调制（PCM )数据点（即信号采样点）的绝对强度的最大值的 K分之一， K是正数。不同的 K会导致判别能力的不同，建议选择 K=8有较好的效果。通过实验发现非人声可能也会跃迁到这条线，图 10示出了典型的人声的滑动最大绝对值与判别阈值的关系图，图 11 示出了典型的非人声的滑动最大绝对值与判别阈值的关系图，其中横坐标均为采样点的标号，纵坐标为采样点的滑动最大绝对值。可以发现，人声和非人声跃迁的分布特征不一样，人声两次相邻跃迁之间的时间间隔大，而非人声两次相邻跃迁之间的时间间隔小。因此为了进一步避免误判，可以将两次相邻跃迁之间的时间间隔称为跃迁长度，当发生跃迁并且跃迁长度大于预先设置的跃迁长度时，认为当前帧是人声。

本发明方案可应用于实时处理的场合，对当前音频信号进行判别后，由于当前音频信号已经播放，无法对当前音频信号进行相应处理，只能处理当前音频信号之后的音频信号。而人说话声有一定的延续性，因此可以设置延迟帧数 k，当判别当前帧为人声后，可以直接认为当前帧之后的连续 k个帧的音频信号都是人声，而将这 k个帧当作人声进行处理，其中 k为正整数，例如可以取为 5。从而可以对音频信号中的人声进行实时地处理。

步骤 902: 将当前帧的每 n个釆样点作为一个分段， n为正整数，取每个分段中各采样点的绝对强度的最大值，作为该分段的初始最大绝对值。

目前流行音乐等常用的音频采样率为 44100，即每秒采样点的数目是 44100, 对于不同的采样率，参数 n可以进行适当调整。下面我们以 44100釆样率为例进行说明。如果每个采样点都要做一次滑动最大绝对值的话，这样空间就会占用太大了，例如若帧长为 4096，滑动长度选择为 2048，那就意味着需要 4096+2048个存储单元来存储这些数据，这显然存储单元占用太多。发明人通过实验发现 256点的解析度时具有较好的效杲。因此优选的，可以规定 n的值为 256, 滑动长度仍然是 2048，那么一帧包括 16个分段，滑动长度包括 8个分段，则只需要 16+8 = 24个存储单元。

步骤 903:对于其中每一分段，取该分段以及该分段之后滑动长度内的各个分段的初始最大绝对值中的最大值，作为该分段的滑动最大绝对值。

例如，取分段 1到分段 9的初始最大绝对值中的最大值作为分段 1的滑动最大绝对值；取分段 2到分段 10的初始最大绝对值中的最大值作为分段 2 的滑动最大绝对值，依次类推。

步骤 904: 根据音频信号的当前帧中和当前帧之前的各 PCM数据点的绝对强度的最大值更新判别阈值；以及判断延迟帧数是否为零，若为零则直接转至步骤 905，若延迟帧数非零则将其减 1，并将音频信号的当前帧作为人声进行处理。所述处理4艮据具体应用而定，例如进行消音处理。

在对延迟帧数中的音频信号作为人声进行处理后，可以转至步骤 902继续对下一帧执行判别是否为人声的处理（图中未示出）。

步骤 905:根据音频信号的当前帧中各分段的滑动最大绝对值以及判别阈值，判断音频信号的当前帧中，滑动最大绝对值是否相对于判别阈值发生了跃迁。具体做法可以是分别对当前帧中除第一个分段外的所有分段的滑动最大绝对值做下面的处理：

(当前分段的滑动最大绝对值 -判别阈值） X (前一个分段的滑动最大绝对值-判别阈值）；

判断乘积是否小于 0, 若是，则发生了跃迁，跃迁次数加 1 , 否则没有跃迁。

步骤 906: 根据发生跃迁的分布判断音频信号是否为人声。

具体做法可以包括：

判断跃迁密度和跃迁长度是否达到要求。跃迁密度的含义就是单位时间内发生的跃迁次数。统计截至目前一段时间内的跃迁密度是否符合预定标准。该预定标准包括了最大的跃迁密度和最小跃迁密度，即规定了跃迁密度的上限和下限。所述预定标准可以通过对标准的人声信号进行训练得出。如果跃迁次数的密度小于所述上限并大于所述下限，同时跃迁长度大于标准跃迁长度，则音频信号的当前帧是人声，否则不是人声。

若判断音频信号的当前帧是人声，则将延迟帧数设置为预定值，再执行步骤 907。如果判断音频信号的当前帧非人声，则直接执行步骤 907。

步骤 907: 判断是否结束人声判别，若是，则结束本流程，否则转至步骤 902继续对下一帧执行判别是否为人声的处理。

本发明实施例还提出一种用于进行人声判别的装置，如图 12所示，包括：分段模块 1201，用于将所述音频信号的当前帧的每 n个采样点作为一个分段，其中 n为正整数；滑动最大绝对值模块 1202, 用于获得分段的滑动最大绝对值；其中任一分段的滑动最大绝对值通过以下方法获得：取该分段中各采样点的绝对强度的最大值，作为该分段的初始最大绝对值，以及取该分段以及该分段之后 m 个分段的初始最大绝对值中的最大值，作为该分段的滑动最大绝对值，其中 m 为正整数；

跃迁判断模块 1203，用于判断所述当前帧中，是否存在相对于判别阙值发生跃迁的两个相邻的分段，此两个相邻分段的滑动最大绝对值分别大于和小于所述判别阈值；

人声判别模块 1204, 用于在跃迁判断模块判断出存在发生跃迁的两个相邻的分段时，确定所述当前帧为人声。

在本发明人声判别装置的更多实施例中，所述人声判别装置还包括跃迁次数判断模块，用于判断单位时间内所述当前帧中的相邻分段发生跃迁的次数是否在预先设定的范围内；所述人声判别模块用于在所述跃迁判断模块和所述跃迁次数判断模块的判断结果均为是时，确定所述当前帧为人声。

在本发明人声判别装置的更多实施例中，所述人声判别装置还包括跃迁间隔判断模块，用于判断所述当前帧中相邻两次跃迁之间的时间间隔是否大于预先设定的值；所述人声判别模块用于在所述跃迁判断模块和所述跃迁间隔判断模块的判断结果均为是时，确定所述当前帧为人声。

在本发明人声判别装置的更多实施例中，所述跃迁判断模块 1203包括：计算单元 12031，用于对于当前帧中除第一个分段之外的每一分段，计算该分段的滑动最大绝对值减去判别阈值的差，以及该分段的前一个分段的滑动最大绝对值与判别阈值的差，并将所述两个差值相乘；

判断单元 12032,用于判断所述当前帧中是否存在至少一个分段，对于该分段计算出的乘积小于 0; 若是，则存在发生跃迁的两个相邻的分段；否则，不存在。

所述人声判别模块 1204还用于在确定所述当前帧为人声之后，直接确定所述当前帧之后的 k帧为人声，其中 k为预先设定的正整数。 N2009/001037 通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如 ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，便携媒体播放器，或者其它具有媒体播放功能的电子产品）执行本发明各个实施例或者实施例的某些部分所述的方法。

本发明实施例提出了一套适用于便携式多媒体播放器上的人声判别方案，所需计算量较小，需要的存储空间也较小。本发明实施例方案中，采取时域数据做滑动最大值，可以很好的反应出人声与非人声的特性；采用跃迁方式的判断标准，可以艮好地避免由于不同音量带来的标准不一致问题。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

权利要求

1、一种人声判别的方法，用于判别外部输入的音频信号中的人声，其特征在于，包括：

其中，分段的滑动最大绝对值通过以下方法获得：

1、根据权利要求 1所述的人声判别方法，其特征在于，确定所述当前帧为人声包括：

判断单位时间内所述当前帧中的相邻分段发生跃迁的次数是否在预先设定的范围内；若是，则确定所述当前帧为人声。

3、根据权利要求 1所述的人声判别方法，其特征在于，确定所述当前帧为人声包括：

判断所述当前帧中相邻两次跃迁之间的时间间隔是否大于预先设定的值；若是，则确定所述当前帧为人声。

4、根据权利要求 1所述的人声判别的方法，其特征在于，当所述音频信号的采样率为 44100时， n的值取为 256。

5、根据权利要求 1所述的人声判别的方法，其特征在于，所述判断当前帧中，是否存在相对于判别阔值发生跃迁的两个相邻的分段具体包括：

对于当前帧中除第一个分段之外的每一分段，计算该分段的滑动最大绝对值减去判别阈值的差，以及该分段的前一个分段的滑动最大绝对值与判别阈值的差，并将所述两个差值相乘；

判断所述当前帧中是否存在至少一个分段，对于该分段计算出的乘积小于 0; 若是，则存在发生跃迁的两个相邻的分段；否则，不存在。

6、根据权利要求 1-5中任一项所述的人声判别方法，其特征在于，所述音频信号的各帧的判别阈值为一恒定值。

7、根据权利要求 1-5中任一项所述的人声判别方法，其特征在于，所述音频信号的各帧的判别阈值可调整。

8、根据权利要求 1-5中任一项所述的人声判别的方法，其特征在于，当前帧的判别阈值为所述当前帧及该帧之前的采样点的绝对强度的最大值的 K 分之一，其中 K为正数。

9、根据权利要求 8所迷的人声判别方法，其特征在于，所述 K的取值为

8。

10、根据权利要求 1-5 中任一项所迷的人声判别方法，其特征在于，在确定所述当前帧为人声之后包括：

直接确定所述当前帧之后的 k帧为人声，其中 k为预先设定的正整数。

11、一种人声判别的装置，用于判别外部输入的音频信号中的人声，其特征在于，包括：

跃迁判断模块，用于判断所述当前帧中，是否存在相对于判別阈值发生跃迁的两个相邻的分段，此两个相邻分段的滑动最大绝对值分别大于和小于所述判别阈值；

12、根据权利要求 11所述的人声判别装置，其特征在于，所人声判别装置还包括跃迁次数判断模块，用于判断单位时间内所述当前帧中的相邻分段发生跃迁的次数是否在预先设定的范围内；

所述人声判别模块用于在所述跃迁判断模块和所述跃迁次数判断模块的判断结果均为是时，确定所述当前帧为人声。

13、根据权利要求 11所述的人声判别装置，其特征在于，所述人声判别装置还包括跃迁间隔判断模块，用于判断所述当前帧中相邻两次跃迁之间的时间间隔是否大于预先设定的值；

所述人声判别模块用于在所述跃迁判断模块和所迷跃迁间隔判断模块的判断结果均为是时，确定所述当前帧为人声，

14、根据权利要求 11所述的人声判别装置，其特征在于，所述跃迁判断模块包括：

计算单元，用于对于当前帧中除第一个分段之外的每一分段，计算该分段的滑动最大绝对值减去判别阈值的差，以及该分段的前一个分段的滑动最大绝对值与判别阈值的差，并将所述两个差值相乘；

判断单元，用于判断所述当前帧中是否存在至少一个分段，对于该分段计算出的乘积小于 0; 若是，则存在发生跃迁的两个相邻的分段；否则，不存在。

15、根据权利要求 11-14 中任一项所述的人声判别装置，其特征在于，所述人声判别模块还用于在确定所述当前帧为人声之后，直接确定所述当前帧之后的 k帧为人声，其中 k为预先设定的正整数。