WO2013177981A1

WO2013177981A1 - 一种基于环境声音的场景识别方法、装置及移动终端

Info

Publication number: WO2013177981A1
Application number: PCT/CN2013/074355
Authority: WO
Inventors: 薛涛; 杜军朝; 刘惠; 刘悦韡; 陈文靖
Original assignee: 中兴通讯股份有限公司
Priority date: 2012-05-28
Filing date: 2013-04-18
Publication date: 2013-12-05
Also published as: EP2827326A1; CN103456301A; CN103456301B; US20150120291A1; US9542938B2; EP2827326A4

Abstract

本发明提供了一种基于环境声音的场景识别方法、装置及移动终端，所述装置包括：声音采集模块、预处理模块、特征提取模块、场景识别模块和数据库；声音采集模块设置成采集声音信号并传输到预处理模块；预处理模块设置成将声音信号处理为频域信号并传输至特征提取模块；特征提取模块设置成从频域信号中提取声音特征信息；数据库设置成存储不同场景的声音样本模型的权重值；识别控制模块设置成在预设模型下输入声音特征信息，将模型输出结果与场景声音样本模型的权重值进行匹配，并确定声音特征信息对应的场景。本发明依靠背景声音信息作为场景的特征来实现定位，使移动终端在保持低能耗的状态下快速准确地识别当前所在的场景。

Description

一种基于环境声音的场景识别方法、装置及移动终端

技术领域

本发明涉及智能终端技术领域，尤其涉及基于环境声音的场景识别方法、装置及移动终端。

背景技术

声音识别技术广泛应用于通讯系统，例如，在移动通信系统中应用声音识别检测技术，可以提高系统的流量处理能力。此外，声音识别技术被越来越多的应用到语音识别的领域，并且技术已经相当成熟，如 IBM语音识别输入系统 ViaVoice, 微软语音识别系统 SpeechSDK等等。

随着智能手机在日常生活中越来越常见，语音识别也很好地被运用到智能手机中， iphone就发布了一个语音识别的应用 Google Mobile App。该语音搜索的另外一个改进是可以选择口音， Google可以顺利识别不同地域性的发音。

由于智能手机的流行，定位技术也是智能手机应用的一大热点，目前，场景识别问题可以利用已经被广泛研究过的基于天线的定位技术（例如 WIFI, GSM和 GPS )来解决。对于室外定位而言， GPS已经提供了非常理想的识别精度。但是，对于室内定位，当前尚未出现一个理想且全面的定位解决方案。受制于建筑物内部的拓朴和强烈的电磁干扰等因素，天线信号的强度往往会不规则的变化，从而使得感知设备无法进行合理的位置推测。研究发现， WIFI信号在一天的不同时间段内波动很大，并且其强度的变化并不均匀，况且我们不能保证 WIFI信号在所有环境中都存在。另一方面，基站的信号在不同时间上显得更加稳定。但是由于其部署的不够密集，其在定位上也遇到了许多困难。另外，这类定位方法往往对基础设施的完善有极高的要求。但是对于发展中区域而言，这样的成本无疑太高了。基于 GPS, GSM, WIFI 信号的定位，在室内环境中不能工作，或者存在较大的定位误差，不能区分地理位置上比较近的室内场所。发明内容

本发明要解决的技术问题是提供一种基于环境声音的场景识别方法、装置及移动终端，解决移动终端无法识别当前所在场景的问题。

为了解决上述技术问题，本发明提供了一种基于环境声音的场景识别装置，包括：声音釆集模块、预处理模块、特征提取模块、场景识别模块，以及数据库；

所述声音釆集模块，其设置成釆集声音信号并传输到所述预处理模块；所述预处理模块，其设置成将所述声音信号处理为频域信号并传输至所述特征提取模块；

所述特征提取模块，其设置成从所述频域信号中提取声音特征信息；所述数据库，其设置成存储不同场景的声音样本模型的权重值；所述场景识别模块，其设置成在预设模型下输入所述声音特征信息，将模型输出结果与所述不同场景的声音样本模型的权重值进行匹配，并确定所述声音特征信息对应的场景。

上述装置还可以具有以下特点：

所述场景是指不同声音环境下的空间场景。

上述装置还可以具有以下特点：

所述声音釆集模块、所述预处理模块、所述特征提取模块、所述场景识别模块、所述数据库均位于移动终端。

上述装置还可以具有以下特点：

所述声音釆集模块、所述预处理模块、所述特征提取模块、所述场景识别模块均位于移动终端中，所述数据库位于服务端设备。

上述装置还可以具有以下特点：

所述声音釆集模块、所述预处理模块、所述特征提取模块均位于移动终端中，所述场景识别模块和所述数据库位于服务端设备；

所述移动终端还包括场景识别控制模块，其设置成接收声音特征信息并发送至所述服务端设备，以及，其还设置成接收所述场景识别模块输出的识别结果。

为了解决上述技术问题，本发明还提供了一种移动终端，包括：声音釆集模块、预处理模块、特征提取模块、场景识别模块，以及数据库；

所述特征提取模块，其设置成从所述频域信号中提取声音特征信息；所述数据库，其设置成存储不同场景的声音样本模型的权重值；所述场景识别模块，其设置成接收所述声音特征信息，在预设模型下输入所述声音特征信息，将模型输出结果与所述不同场景的声音样本模型的权重值进行匹配，并确定所述声音特征信息对应的场景。

为了解决上述技术问题，本发明还提供了一种移动终端，包括：声音釆集模块、预处理模块、特征提取模块，以及场景识别模块；

所述特征提取模块，其设置成从所述频域信号中提取声音特征信息；所述场景识别模块，其设置成接收所述声音特征信息，还设置成从服务端设备接收场景的声音样本模型的权重值，在预设模型下输入所述声音特征信息，将模型输出结果与所述场景声音样本模型的权重值进行匹配，并确定所述声音特征信息对应的场景。

为了解决上述技术问题，本发明还提供了一种移动终端，包括：声音釆集模块、预处理模块、特征提取模块，以及识别控制模块；

所述声音釆集模块，其设置成釆集声音信号并传输到所述预处理模块；所述预处理模块，其设置成将所述声音信号处理为频域信号并传输至所述特征提取模块；所述特征提取模块，其设置成从所述频域信号中提取声音特征信息；所述识别控制模块，其设置成接收所述声音特征信息，将所述声音特征信息发送至服务端设备，并接收服务端设备返回的场景识别结果。

为了解决上述技术问题，本发明还提供了一种基于环境声音的场景识别方法，包括：

釆集声音信号；

将所述声音信号处理为频域信号；

从所述频域信号中提取声音特征信息；

在预设模型下输入所述声音特征信息，将模型输出结果与场景声音样本模型的权重值进行匹配，并确定所述声音特征信息对应的场景。

上述方法还可以具有以下特点：

所述场景是指不同声音环境下的空间场景。

本发明依靠背景声音信息作为场景的特征来实现定位，使移动终端在保持低能耗的状态下快速准确地识别当前所在的场景。本发明的场景定位可以与天线位置定位互补，并且共同提高精度，以及提高移动终端性能。附图概述

图 1是现有技术中声音识别处理的流程示意图；

图 2是实施例中基于环境声音的场景识别装置的结构示意图；

图 3是实施例一中场景识别装置的结构示意图；

图 4是实施例二中场景识别装置的结构示意图；

图 5是实施例三中场景识别装置的结构示意图；

图 6是具体实施例中特征向量提取过程的示意图；

图 7是具体实施例中场景分类识别模型的结构示意图。

本发明的较佳实施方式图 1是现有技术中声音识别处理的流程示意图，对声音进行分割以及特征提取后通过分类器对声音进行识别。

基于环境声音的场景识别方法包括：釆集声音信号；将所述声音信号处理为频域信号；从所述频域信号中提取声音特征信息；在预设模型下输入所述声音特征信息，将模型输出结果与场景声音样本模型的权重值进行匹配，并确定所述声音特征信息对应的场景。

所述场景是指不同声音环境下的空间场景 ,例如场景是指以下中的一种：食堂、教室、实验室、宿舍、楼道、羽毛球场、乒乓球场、电梯、会议室、操场和街道。

如图 2所示，本方案中基于环境声音的场景识别装置包括：声音釆集模块（ 201 )、预处理模块（ 202 )、特征提取模块（ 203 )、场景识别模块（ 204 ) 、数据库（ 205 ) 。

声音釆集模块（201 ) ，其设置成釆集声音信号并传输到所述预处理模块 ( 202 ) ；

预处理模块（ 202 ) , 其设置成将所述声音信号处理为频域信号并传输至所述特征提取模块（ 203 ) ；

特征提取模块（203 ) ，其设置成从所述频域信号中提取声音特征信息；数据库（205 ) , 其设置成存储不同场景的声音样本模型的权重值；场景识别模块（204 ) ，其设置成在预设模型下输入所述声音特征信息将模型输出结果与所述不同场景的声音样本模型的权重值进行匹配，并确定所述声音特征信息对应的场景。

预处理模块（ 202 ) 对釆集到的声音信号进行釆样，设定釆样频率为 8000Hz, 釆集样本长度为 15s, 再对段声音样本进行分帧操作，每个帧包含 256个釆样点，即每段帧长为 32ms。这样，原始音频就会变成 468个长度为 32ms的帧。分帧操作的目的在于任何一段声音样本都会随机出现一些或大或小的突发声音，突发声音没有规律可言，并不是能够代表场景特征的声音，会导致声音波形出现较大的毛刺，从而影响声音识别的准确率，时长越短的音频波形表现的越发平稳。但是，帧长过短也会导致运算成本的增加，即计算能耗和耗时的增加。本方案釆用了 32ms作为每一帧的长度，达到了精确度和计算成本的平衡。特征提取模块 ( 203 )中提取的声音特征可以是梅尔倒谱系数 ( MFCC ) , 例如 13维的 MFCC系数。例如，从每段 15s声音样本都可以提取出 468组 13维的特征向量。在计算出每一帧的特征向量后，必须要对这 468组特征向量进行算术平均。上述将每段声音样本分成长度为 32ms的帧是为了消除声音样本中的毛刺，但是只对每段音频分帧还是不能起到消除毛刺的作用。所以，本方案在对每帧音频提取特征向量后，必须把这 468组特征向量进行算术平均，从而得到唯——组 13维特征向量。这样的一组特征向量降低了样本中的毛刺带来的影响，正确的表示了该段场景的特征。

本方案中的预设模型可以是神经网络等分类模型。

本方案使用了一个模式分类领域的算法。该算法分为两个部分，训练部分和识别部分。在训练部分，该算法使用一定规模的训练集，生成若干个我们称之为中间矩阵数据集合。在识别部分，使用这些矩阵与从声音样本中提取的特征向量进行运算，从而获得最终结果，即识别结果。在开发的过程中，所述算法的训练部分不需要写入手机系统，不需要每次识别都进行运算，这样可以很大程度地减少运算时间。所述识别算法使用的训练集釆集于每个需要识别的场景，每个场景需要收集 160到 200段声音样本，并对每段声音样本提取特征向量，把这些声音样本的特征向量统一作为参数传给算法的训练部分，最终得到中间矩阵。这些中间矩阵存储于数据库中，供所述算法的识别部分调用。由于场景识别的准确率需要不断提高，同时需要识别的场景要不断进行更新，所以，本方案中的分类识别算法所需要的中间矩阵就需要不断的更新。随着场景的更新，该技术就会拥有更强大的时效性和可用性。

如图 3所示，实施例一中声音釆集模块（201 ) 、预处理模块（202 ) 、特征提取模块（203 ) 、场景识别模块（204 ) 、数据库（205 )均位于移动终端内。

如图 4所示，实施例二中声音釆集模块（201 ) 、预处理模块（202 ) 、特征提取模块（ 203 )、场景识别模块（ 204 )均位于移动终端内，数据库（ 205 ) 位于服务端设备。如图 5所示，实施例三中声音釆集模块（201 ) 、预处理模块（202 ) 、特征提取模块（ 203 )均位于移动终端，场景识别模块（ 204 )、数据库（ 205 ) 位于服务端设备。移动终端还包括场景识别控制模块（206 ) ，其设置成接收声音特征信息，并发送至服务端设备，还设置成接收所述场景识别模块（204 ) 输出的识别结果。

下面通过具体实施例进行详细说明。

本发明是基于 Android 系统开发，选用了一台智能手机作为试验机，识别过程包括以下步骤：

步骤 1 , 声音釆集过程

由智能手机中的麦克风进行声音釆集工作，釆样率为 8000Hz, 釆样编码为 16bit, 每段声音样本的时长都是 15s。

步骤 2, 场景识别过程

在预处理过程中，对音频进行分帧处理并将信号从时域信号转换为频域信号。实险发现，当帧长为 256, 即时长为 32ms时，可以得到最高的识别正确率。同时，在每段音频的开始，都会出现若干个坏点，所以删去每段音频最开始的一些釆样点，保证留下的音频釆样点都能显示出该段音频的特征。为了节省更多的硬件空间，可以每分出一个帧，就把它作为参数传给特征提取函数进行计算。这样，只需要存储从每个帧提取的特征向量，而不需要浪费控件用于存储每个帧的音频。

提取特征的步骤包括：

步骤 2.1 , 执行快速傅里叶变换，将时域信号变换成频域信号。

X_a (k) = x{n)e ^ , 0 < k≤N

式中， x(«)为输入的音频信号， N为傅里叶变换的点数。

步骤 2.2, 对信号的频谱幅度求算术平方，可以得到功率谱。

步骤 2.3 , 如图 6所示，用一组梅尔频标上线性分布的三角窗滤波器（共 24个三角窗滤波器），对信号的功率谱滤波，每一个三角窗滤波器覆盖的范围都近似于人耳的一个临界带宽，以此来模拟人耳的掩蔽效应。其中，梅尔频标 = 25961。_gl。(l + ^) , 三角滤波器的中心频率为 /Cv)j = l,2,...,24 , 且三角滤波器的频率响应定义式如下式所示：

0 ,k<f(y-l)

HAk)-

0 ,k≥f(y+l)

步骤 2.4,对每个通过滤波器的功率频语取对数，可以得到近似于同态变换的。

式中，。w是音频信号的功率谱，是滤波器组。

各得到最终的特征向量 c(«)。

式中，《表示所求得特征向量的维数，设定特征向量有 13维，设置 n为

12即可。

步骤 2.6, 把所求 13维的特征向量存储在内存中，待这段声音样本每帧的特征向量都计算完成的时候，做算术平均，求得该段音频样本的特征向量。

步骤 3, 场景识别过程

特征向量提取完成后，这组 13维的特征向量就要作为参数传给分类识别算法。釆用概率神经网络结构（如图 7所示），其中，有 d个输入层单元， n 个模式层单元和 c个类别层单元。每一个模式层单元能够对它的权重向量和归一化的样本相连 X做内积，得到 _z = _w ' c , 然后映射为 exp[(z-l)/a ]。

识别分类算法分为两个部分，即训练部分和识别部分。

训练部分：

步骤 3.1, 归一化参加训练的样本 X为单位长度，也就是说 έ =ι, 第一个经过归一化的样本被至于输入层单元上。 '― ¹

步骤 3.2, 连接输入单元和第一个模式层单元的那些连接被初始化为 ^ = ^ 然后，从模式层的第一个单元到类别层中代表所属的类别的那个单元之间建立了一个连接。同样的过程对剩下的各个模式单元都重复进行，即 w_k =x_k , 其中 = 1,2,3, ···,«。

步骤 3.3, 在步骤 3.2完成后，可以得到一个特殊的网络，即输入层单元与模式层单元之间是完全连通的，而模式层单元到类别层单元之间是系数连接的。记第个样本的第; t个分量记为 , 把这个分量到第个模式层单元的连接权重系数记为 ^，其中 j二 1,2, ·.·,!!,]<二 1,2,··、d。

在这个算法中出现的矩阵 w就是中间矩阵，中间矩阵将会在算法的识别部分中使用。

算法的识别部分主要是围绕着两个元素进行计算，首先是被称为净激活的

, 利用它构造关于的非线性函数 ^ — ^1)σ2 , 其中， σ为自定参数，在本算法中被设定为 10。其次，就是利用6⁽" -^1)£72计算出来的判别函数& (X) , 通过在算法最后计算 m g,.(x)来识别出输入此神经网络的声音特征信息的场景。

本发明依靠背景声音信息作为场景的特征来实现定位，使移动终端在保持低能耗的状态下快速准确的识别当前所在的场景。本发明的场景定位可以与天线位置定位互补，并且共同提高精度，以及提高移动终端性能。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。当然，本发明还可有其他多种实施例，在不背离本发明精神及其实质的但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成，所述程序可以存储于计算机可读存储介质中，如只读存储器、磁盘或光盘等。可选地，上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现。相应地，上述实施例中的各模块 /单元可以釆用硬件的形式实现，也可以釆用软件功能模块的形式实现。本发明不限制于任何特定形式的硬件和软件的结合。工业实用性本发明依靠背景声音信息作为场景的特征来实现定位，使移动终端在保持低能耗的状态下快速准确地识别当前所在的场景。本发明的场景定位可以与天线位置定位互补，并且共同提高精度，以及提高移动终端性能。

Claims

权利要求书

1、一种基于环境声音的场景识别装置，包括：声音釆集模块、预处理模块、特征提取模块、场景识别模块，以及数据库；

2、如权利要求 1所述的装置，其中，

所述场景是指不同声音环境下的空间场景。

3、如权利要求 1所述的装置，其中，

4、如权利要求 1所述的装置，其中，

5、如权利要求 1所述的装置，其中，

6、一种移动终端，包括：声音釆集模块、预处理模块、特征提取模块、场景识别模块，以及数据库；

7、一种移动终端，包括：声音釆集模块、预处理模块、特征提取模块，以及场景识别模块；

8、一种移动终端，包括：声音釆集模块、预处理模块、特征提取模块，以及识别控制模块；

所述特征提取模块，其设置成从所述频域信号中提取声音特征信息；所述识别控制模块，其设置成接收所述声音特征信息，将所述声音特征信息发送至服务端设备，并接收服务端设备返回的场景识别结果。

9、一种基于环境声音的场景识别方法，其中，

釆集声音信号；

将所述声音信号处理为频域信号；

从所述频域信号中提取声音特征信息；

10、如权利要求 9所述的方法，其中，

所述场景是指不同声音环境下的空间场景。