WO2018082315A1

WO2018082315A1 - 一种音频播放方法、系统和装置

Info

Publication number: WO2018082315A1
Application number: PCT/CN2017/089207
Authority: WO
Inventors: 朱华明; 武巍; 宁洲
Original assignee: 北京金锐德路科技有限公司
Priority date: 2016-11-03
Filing date: 2017-06-20
Publication date: 2018-05-11
Also published as: CN108475512A; WO2018083511A1; CN108475512B

Abstract

提供一种音频播放方法、系统和装置，其中方法包括：包括开启输入模块，还包括以下步骤：通过所述输入模块获取操作指令；解析所述操作指令，并生成控制指令；执行所述控制指令，获取音频文件；播放所述音频文件。通过语音输入控制指令，控制音频的播放，可应用于各种智能设备和可穿戴设备上，解放了双手，提高了用户的应用体验。

Description

一种音频播放方法、系统和装置

技术领域

本发明涉及音频处理播放技术领域，特别是一种音频播放方法、系统和装置。

背景技术

人们传统的方式是使用耳机来听音乐，大多数耳机是有线的连接到提供音频的播放器上，也有较新型的蓝牙耳机可以与播放器无线连接。所谓的播放器——从早期的磁带播放器、CD机，到后来陆续出现的ipod播放器、智能手机、平板电脑等智能终端，乃至普及多年的PC机——虽然类型不断更迭，但始终承担着保存、输出音频信号，同时在绝大多数情况下接收用户操作，并控制播放的功能。这样的组合在现在看来非常不方便。随着智能穿戴设备的发展和人们生活水平的不断提高，各种智能穿戴设备如智能手表的使用越来越普及，智能穿戴设备已经成为人们生活中不可缺少的通信工具。

但是现有的可穿戴设备大多数都依然需要手动对设备进行操作，才能够实现音乐的正常播放。如何在获得简单高效且可操作性很强的体验，尽可能少的占用双手，是可穿戴设备急需要解决的问题。

申请号为105097001A的专利申请公开了音频播放方法和装置，其中的方法包括：采集外部的声音信号，并对采集到的声音信号进行识别；在根据识别结果确定出采集到的声音信号对应相应的音频播放控制命令时，针对音频播放装置中预先存储的音频文件，根据所述音频播放控制命令执行相应的音频文件的音频播放操作；音频播放装置在基于音频播放操作二输出音频信号的情况下，根据所述音频信号产生相应频率的机械震动。该申请虽然能够使用了骨传导模块，但是仅仅应用于音频播放，对采集到的声音指令并没有进行处理，使得得到的音频指令不清晰，不能够得到正确的控制指令。同时，该申请智能播放本地存储器中存储的音频文件，并不能够通过网络获取更多的音频文件。

发明内容

为了解决上述的技术问题，本发明提出了一种音频播放方法、系统和装置，通过对输入进来的声音信号进行深度处理，使得声音信号更清晰准确，同时可以通过网络从云服务器中下载，实现音频文件的随时随地随心播放。

本发明的第一方面提供了一种音频播放方法，包括开启输入模块，包括以下步骤：

步骤1：通过所述输入模块获取操作指令；

步骤2：解析所述操作指令，并生成控制指令；

步骤3：执行所述控制指令，获取音频文件；

步骤4：播放所述音频文件。

优选的是，所述输入模块包括音频输入模块、文字输入模块和手势输入模块中至少一种；所述音频输入模块接受音频指令信号后生成有效音频指令信号；所述文字输入模块生成文字指令信号；所述手势输入模块生成手势指令信号。

在上述任一方案中优选的是，所述音频输入模块包括至少一个麦克风和一个骨传导麦克风。

在上述任一方案中优选的是，所述音频信号包括第一音频信号和第二音频信号。

在上述任一方案中优选的是，所述第一音频信号是指利用所述骨传导麦克风采集由于用户身体的震动产生的机械波。

在上述任一方案中优选的是，所述第二音频信号是指利用所述麦克风采集所述机械波生成的时间范围内的声波。

在上述任一方案中优选的是，通过所述音频输入模块获取所述操作指令的方法包括以下子步骤：

步骤11：对采集到的所述音频指令信号进行音频特性检测；

步骤12：进行主音源判定；

步骤13：消除噪声；

步骤14：输出所述有效音频指令信号。

在上述任一方案中优选的是，所述音频特性检测包括语音检测、噪音检测和相关性特征提取中至少一种。

在上述任一方案中优选的是，所述音频特性检测的方法为每次提取帧长为Tms的音频数据x_i(n)，并计算平均能量E_i、过零率ZCR_i、短时相关性R_i和短时互相关性C_ij(k)，

其中，

在上述任一方案中优选的是，所述音频特性检测的方法还为根据所述平均能量E_i、所述过零率ZCR_i、所述短时相关性R_i和所述短时互相关性C_ij(k)计算当前帧的非静音概率

和语音概率

其中，

为i通道max(E_i*ZCR_i)的经验参考值，

为i通道max{max[R_i(k)]*max[C_ij(k)]}的经验参考值。

在上述任一方案中优选的是，所述音频特性检测的方法还为根据所述i通道当前帧的所述非静音概率

和所述语音概率

判断当前帧的类型，即是否为噪声帧、语音帧、无噪环境音帧，

其中，

式是于相关判决的经验值，Ambient为无噪环境音帧，Noise为噪音帧，Speech为语音帧。

在上述任一方案中优选的是，所述步骤32为根据主音源判定原则确定主数据通路。

在上述任一方案中优选的是，所述主音源判定原则包括：

1)当某一路为Speech，而另一路为Ambient或者Noise时，确定该路作为当前位置帧的所述主数据通路；

2)当某一路为Ambient，而另一路为Noise时，确定该路作为当前位置帧的所述主数据通路；

3)当两路均为同一种类帧时，确定

数值最大的通道作为当前位置帧的所述主数据通路。

在上述任一方案中优选的是，所述步骤13为根据所述主数据通路Speech音频帧前后关联的Noise噪音帧获得噪声频谱特性，并对Speech音频帧在频域上对噪声频谱成分进行抑制。

在上述任一方案中优选的是，所述操作指令包括所述有效音频指令信号、所述文字指令信号或所述手势指令信号中的至少一种。

在上述任一方案中优选的是，所述控制指令包括搜索指令、筛选指令、缓存指令、下载指令、存储指令和播放指令中至少一种。

在上述任一方案中优选的是，所述搜索指令是指优先在本地存储器中进行搜索，若没有则通过通信组件在云端进行搜索。

在上述任一方案中优选的是，所述通信组件包括wifi、无线、2G/3G/4G/5G和GPRS中至少一种。

在上述任一方案中优选的是，所述获取音频文件是指执行所述缓存指令或下载指令，通过所述通信组件从云端得到音频文件。

在上述任一方案中优选的是，所述播放指令是指通过放音设备播放缓存音频文件或本地存储器中的音频文件。

本发明的第二部分公开了一种声音采集系统，包括输入模块，还包括以下模块：

操作指令获取模块：通过所述输入模块获取操作指令；

操作指令解析模块：解析所述操作指令，并生成控制指令；

音频文件获取模块：用于执行所述控制指令，获取音频文件；

音频文件播放模块：用于把所述音频文件的有效音频数据推送给终端设备。

在上述任一方案中优选的是，所述音频输入模块包括至少一个骨传导麦克风和至少一个麦克风。

在上述任一方案中优选的是，述操作指令获取模块还包括以下子模块：

音频特性检测子模块：用于对采集到的所述音频信号进行音频特性检测；

主音源判定子模块：用于进行主音源判定；

降噪子模块：用于消除噪声；

音频指令输出子模块：用于输出所述有效音频指令信号。

其中，

和语音概率

其中，

为i通道max(E_i*ZCR_i)的经验参考值，

为i通道max{max[R_i(k)]*max[C_ij(k)]}的经验参考值。

和所述语音概率

其中，

是于相关判决的经验值，Ambient为无噪环境音帧，Noise为噪音帧，Speech为语音帧。

在上述任一方案中优选的是，所述主音源判定子模块具有根据主音源判定原则确定主数据通路的功能。

在上述任一方案中优选的是，所述主音源判定原则包括：

3)当两路均为同一种类帧时，确定

数值最大的通道作为当前位置帧的所述主数据通路。

在上述任一方案中优选的是，所述降噪子模块具有根据所述主数据通路Speech音频帧前后关联的Noise音频帧获得噪声频谱特性，并对Speech音频帧在频域上对噪声频谱成分进行有效抑制，得到较纯净的语音数据的功能。

本发明的第三方面公开了一种声音采集装置，包括外壳，还包括上述任一项所述的系统。

优选的是，所述声音采集装置固定安装在智能设备上。

在上述任一方案中优选的是，所述智能设备包括：智能手机、智能相机、智能耳机和其他智能设备中至少一种。

本发明通过对音频信号的处理，实现了高清晰语音指令输入，解放了双手，使得可穿戴设备在应用上更加方便，更贴近人们的使用习惯。

附图说明

图1为按照本发明的音频播放方法的一优选实施例的流程图。

图2为按照本发明的音频播放系统的一优选实施例的模块示意图。

图3为按照本发明的音频播放装置的骨传导麦克风的一实施例的截面示意图。

图4为按照本发明的音频播放装置的智能耳机的一实施例的结构示意图。

图5为按照本发明的音频播放方法的降噪方法的一实施例的流程图。

图6为按照本发明的音频播放方法的方言识别模块初始化方法的一实施例的流程图。

图7为按照本发明的音频播放方法的方言识别方法的一实施例的流程图。

具体实施方式

下面结合附图和具体的实施例对本发明做进一步的阐述。

实施例一

如图1、图2所示，执行步骤100，开启输入模块200(包括音频输入模块201、手写输入模块202、键盘输入模块203)。执行步骤110，判断输入模块类型。如果输入模块是音频输入模块201(包括一个骨传导麦克风和一个麦克风)，则执行步骤120，音频特性检测子模块211对输入的音频信号(包括从麦克风收集到的第一音频信号和从骨传导麦克风收集到的第二音频信号)进行音频特性检测(包括语音检测、噪音检测和相关性特征提取)。音频特性检测的步骤如下：1)提取帧长为20ms的音频数据，x_i(n)，并计算平均能量E_i、过零率ZCR_i、短时相关性R_i和短时互相关性C_ij(k)，

其中，

2)根据所述平均能量E_i、所述过零率ZCR_i、所述短时相关性R_i和所述短时互相关性C_ij(k)计算当前帧的非静音概率

和语音概率

其中，

为i通道max(E_i*ZCR_i)的经验参考值，

为i通道max{max[R_i(k)]*max[C_ij(k)]}的经验参考值。3)所述音频特性检测的方法还为根据所述i通道当前帧的所述非静音概率

和所述语音概率

其中，

是于相关判决的经验值，Ambient为无噪环境音帧，Noise为噪音帧，Speech为语音帧。执行步骤121，主音源判定子模块212根据当前帧

的数值和判定结果来确定从那一路提取的当前帧作为当前位置帧的主音源。判定方法如下：1)当某一路为Speech语音帧，而另一路为Ambient无噪环境音帧或者Noise噪音帧时，确定该路作为当前位置帧的主数据通路；2)当某一路为Ambient无噪环境音帧，而另一路为Noise噪音帧时，确定该路作为当前位置帧的主数据通路；3)当两路均为同一种类帧时，确定

数值最大的通道作为当前位置帧的主数据通路。执行步骤122，主音源中仍然包含少量噪声数据，降噪子模块213根据主数据通路语音帧前后关联的噪音帧获得噪声频谱特性，并对语音帧在频域上对噪声频谱成分进行抑制。执行步骤123，输出语音操作指令。

当输入模块类型为文字输入，则执行步骤130，判断文字输入类型。如果是手写输入，则执行步骤131，手写文字判断子模块215判断手写输入的文字类型，并识别文字和数字。执行步骤132，手写文字纠错子模块216根据从手写文字判断子模块215得到的文字和数字，智能纠正错字，得到相对准确的文字指令，执行步骤133，输出文字操作指令。如果是键盘输入，则执行步骤132，键盘文字确认子模块218确认输入文字并进行智能纠错，得到相对准确的文字指令，执行步骤133输出文字操作指令。

执行步骤140，操作指令解析模块220把得到的语音操作指令或文字操作指令进行解析，并生成控制指令(包括搜索指令、筛选指令、缓存指令、下载指令、存储指令和播放指令等)。执行步骤150，音频文件获取模块230执行控制指令，控制指令优先在本地存储模块231中执行，当本地存储模块231无法执行时。则通过网络模块232下载音频文件。执行步骤160，音频文件播放模块240通过音频输出设备播放音频文件。

实施例二

如图3所示，外壳标号为301，振动采集器标号为302，压力传感器为303，信号处理器标号为304，振动腔标号为305，导线标号为306，电路板标号为307，底座标号为308，信号采集部标号为309。

一种骨传麦克风10，如图1所示，包括外壳301、振动采集器302、压力传感器303、信号处理器304、导线306和电路板307，外壳301与振动采集器302连接形成一个封闭空间。电路板307设置于封闭空间内外壳301的底部，处理器设置于电路板307上，并与电路板307通过电路连接。压力传感器303设置于封闭空间内电路板307与振动采集器302之间，与外壳301固定连接。压力传感器303与电路板307通过导线306电路连接。外壳301至少部分为弹性材料制成。

所述压力传感器303为向下凸出的弧面。非平面的压力传感器，尤其是具有弧面的压力传感器，对于声源振动的感知更加灵敏，有利于声源的采集。

压力传感器端部312与所述外壳301上设置的连接部连接。所述连接部为凹部，压力传感器端部312与其卡接。优选的，在连接部与压力传感器端部312的连接处涂抹有密封胶，用于提高振动腔305的密闭性，减小或避免了气囊漏气所造成的声音损失。

所述振动采集器302包括信号采集部309和第一连接部310，所述外壳301包括第二连接部311，如图3所示，所述第一连接部310和第二连接部311固定连接且通过密封胶连接为一密封整体。所述固定连接为卡接。所述第一连接部310为凹形部，所述第二连接部311为凸形部；或所述第一连接部310为凸形部，所述第二连接部311为凹形部。所述凹部与凸部卡接。

所述振动采集器302为弹性材料制成。所述信号采集部309由向上凸起的多个凸起组成。所述凸起连接为一整体。所述凸起为薄壁形的弧面。所述凸起分布在所述振动采集器302表面。所述振动采集器302至少与所述压力传感器303之间形成密闭空腔。所述空腔为振动腔305。

在本实施例中还包括底座308，所述底座308与所述外壳301一体连接。所述电路板307设置与所述底座308上。所述信号处理器304设置于所述电路板307上。所述压力传感器303通过导线306与电路板307连接。

实施例三

如图4所示，展示了一个集成了声音采集系统的头戴式耳机400，包括左侧耳机410和右侧耳机430。在左侧耳机410中集中了声音采集系统的核心组成部分，包括标号为420的3G/4G网络，标号为421的wifi/蓝牙，标号为422的LCD显示/触摸屏，标号为423的加速传感器/陀螺仪，标号为424的GPS，标号为425的骨传导麦克风(左)，标号为426的喇叭(左)，标号为427的音频信号处理(DAC)，标号为428的本地数据存储和标号为429的CPU。3G/4G网络、wifi/蓝牙、LCD显示/触摸屏、加速传感器/陀螺仪、GPS、音频信号处理(DAC)和本地数据存储分别于CPU相连接，骨传导麦克风(左)和喇叭(左)则与音频信号处理(DAC)相连接。

右侧耳机430中集中了一些辅助组成部分，包括标号为440的喇叭(右)，标号为441和443的传感器，标号为442的触控板音乐控制，标号为444的骨传导麦克风(右)和标号为445的电池。喇叭(右)、传感器、触控板音乐控制和电池分别于左侧耳机中的CPU相连接，骨传导麦克风(右)与喇叭(右)相连接。

实施例四

如图5所示，执行步骤500，导入主音频数据。执行步骤510，调取存储器中存储的环境判定数据。执行步骤520，把主音频数据与环境判定数据进行比对，并确定主音频输入时周边的噪音环境。顺序执行步骤530和步骤540，从存储器中调取环境噪音数据，并与主音频数据进行单帧比对。执行步骤550，去掉主音频数据单帧中与环境噪音数据相同的音频数据。执行步骤560，生成有效的不带有噪音的音频数据。

实施例五

音频播放系统中还包括方言识别模块，用于识别通过音频输入模块采集到的方言。

如图6所示，顺序执行步骤600和步骤610，启动方言识别模块初始化流程并按照提示输入相应的语音。执行步骤620，根据输入的语音，通过网络模块连接到云服务器，查看是否保存在已有的方言库中。如果已经保存在已有的方言库中，则执行步骤630，调取并下载该方言库。执行步骤640，按照提示输入相应的语音，与下载到本地存储器的方言库进行比对纠错，按照自己的习惯对方言库进行微调。执行步骤650，保存在本地存储器中。

如果在已有的方言库中没有该方言，则执行步骤621，通过音频输入模块输入语音，并通过手写输入模块或者键盘输入模块输入对应的词语。执行步骤622，完成全部常用语校对输入后，保存在本地存储器中。执行步骤623上传到云服务器的方言库中。

实施例六

如图7所示，执行步骤600，通过语音输入模块输入语音。执行步骤610，判断该语音对应的方言是否保存在本地存储器中。如果保存在本地存储器中，则顺序执行步骤620和步骤650，调取本地存储器中的方言库并进行方言比对。执行步骤660，根据方言比对结果生成控制指令。

如果本地存储器中没有保存该种方言，则执行步骤630，在云服务器中进行方言检索比对，确定适合的方言库。顺序执行步骤640和步骤650，通过网络模块下载相应的方言库并进行方言比对。执行步骤660，根据方言比对结果生成控制指令。

为了更好地理解本发明，以上结合本发明的具体实施例做了详细描述，但并非是对本发明的限制。凡是依据本发明的技术实质对以上实施例所做的任何简单修改，均仍属于本发明技术方案的范围。本说明书中每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

可能以许多方式来实现本发明的方法、装置和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

本发明的描述是为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

Claims

一种音频播放方法，包括开启输入模块，其特征在于，还包括以下步骤：

步骤1：通过所述输入模块获取操作指令；

步骤2：解析所述操作指令，并生成控制指令；

步骤3：执行所述控制指令，获取音频文件；

步骤4：播放所述音频文件。
如权利要求1所述的方法，其特征在于：所述输入模块包括音频输入模块、文字输入模块和手势输入模块中至少一种；所述音频输入模块接受音频指令信号后生成有效音频指令信号；所述文字输入模块生成文字指令信号；所述手势输入模块生成手势指令信号。
如权利要求2所述的方法，其特征在于：所述音频输入模块包括至少一个骨传导麦克风和至少一个麦克风。
如权利要求3所述的方法，其特征在于：所述音频指令信号包括第一音频信号和第二音频信号。
如权利要求4所述的方法，其特征在于：所述第一音频信号是指利用所述骨传导麦克风采集由于用户身体的震动产生的机械波。
如权利要求5所述的方法，其特征在于：所述第二音频信号是指利用所述麦克风采集所述机械波生成的时间范围内的声波。
如权利要求6所述的方法，其特征在于：通过所述音频输入模块获取所述操作指令的方法包括以下子步骤：

步骤11：对采集到的所述音频指令信号进行音频特性检测；

步骤12：进行主音源判定；

步骤13：消除噪声；

步骤14：输出所述有效音频指令信号。
如权利要求7所述的方法，其特征在于：所述音频特性检测包括语音检测、噪音检测和相关性特征提取中至少一种。
如权利要求8所述的方法，其特征在于：所述音频特性检测的方法包括每次提取帧长为Tms的音频数据x_i(n)，并计算平均能量E_i、过零率ZCR_i、短时相关性R_i和短时互相关性C_ij(k)，

其中，
如权利要求9所述的方法，其特征在于：所述音频特性检测的方法还包括根据所述平均能量E_i、所述过零率ZCR_i、所述短时相关性R_i和所述短时互相关性C_ij(k)计算当前帧的非静音概率
和语音概率

其中，
为i通道max(E_i*ZCR_i)的经验参考值，
为i通道max{max[R_i(k)]*max[C_ij(k)]}的经验参考值。
如权利要求10所述的方法，其特征在于：所述音频特特性检测的方法还包括根据所述i通道当前帧的所述非静音概率
和所述语音概率
判断当前帧的类型，即是否为噪声帧、语音帧、无噪环境音帧，

其中，
是于相关判决的经验值，Ambient为无噪环境音帧，Noise为噪音帧，Speech为语音帧。
如权利要求11所述的方法，其特征在于：所述步骤12为根据主音源判定原则确定主数据通路。
如权利要求12所述的方法，其特征在于：所述主音源判定原则包括：

1)当某一路为Speech，而另一路为Ambient或者Noise时，确定该路作为当前位置帧的所述主数据通路；

2)当某一路为Ambient，而另一路为Noise时，确定该路作为当前位置帧的所述主数据通路；

3)当两路均为同一种类帧时，确定
数值最大的通道作为当前位置帧的所述主数据通路。
如权利要求13所述的方法，其特征在于：所述步骤13为根据所述主数据通路Speech音频帧前后关联的Noise噪音帧获得噪声频谱特性，并对Speech音频帧在频域上对噪声频谱成分进行抑制。
如权利要求14所述的方法，其特征在于：所述操作指令包括所述有效音频指令信号、所述文字指令信号或所述手势指令信号中的至少一种。
如权利要求1所述的方法，其特征在于：所述控制指令包括搜索指令、筛选指令、缓存指令、下载指令、存储指令和播放指令中至少一种。
如权利要求16所述的方法，其特征在于：所述搜索指令是指优先在本地存储器中进行搜索，若没有则通过通信组件在云端进行搜索。
权利要求17所述的方法，其特征在于：所述通信组件包括wifi、无线、2G/3G/4G/5G和GPRS中至少一种。
如权利要求18所述的方法，其特征在于：所述获取音频文件是指执行所述缓存指令或下载指令，通过所述通信组件从云端得到音频文件。
如权利要求19所述的方法，其特征在于：所述播放指令是指通过放音设备播放缓存音频文件或本地存储器中的音频文件。
一种声音采集系统，包括输入模块，其特征在于，还包括以下模块：

操作指令获取模块：通过所述输入模块获取操作指令；

操作指令解析模块：解析所述操作指令，并生成控制指令；

音频文件获取模块：用于执行所述控制指令，获取音频文件；

音频文件播放模块：用于把所述音频文件的有效音频数据推送给终端设备。
如权利要求21所述的声音采集系统，其特征在于：所述输入模块包括音频输入模块、文字输入模块和手势输入模块中至少一种；所述音频输入模块接受音频指令信号后生成有效音频指令信号；所述文字输入模块生成文字指令信号；所述手势输入模块生成手势指令信号。
如权利要求22所述的声音采集系统，其特征在于：所述音频输入模块包括至少一个骨传导麦克风和至少一个麦克风。
如权利要求23所述的声音采集系统，其特征在于：所述音频信号包括第一音频信号和第二音频信号。
如权利要求24所述的声音采集系统，其特征在于：所述第一音频信号是指利用所述骨传导麦克风采集由于用户身体的震动产生的机械波。
如权利要求25所述的声音采集系统，其特征在于：所述第二音频信号是指利用所述麦克风采集所述机械波生成的时间范围内的声波。
如权利要求26所述的声音采集系统，其特征在于：所述操作指令获取模块还包括以下子模块：

音频特性检测子模块：用于对采集到的所述音频信号进行音频特性检测；

主音源判定子模块：用于进行主音源判定；

降噪子模块：用于消除噪声；

音频指令输出子模块：用于输出所述有效音频指令信号。
如权利要求27所述的声音采集系统，其特征在于：所述音频特性检测包括语音检测、噪音检测和相关性特征提取中至少一种。
如权利要求28所述的声音采集系统，其特征在于：所述音频特性检测的方法包括每次提取帧长为Tms的音频数据x_i(n)，并计算平均能量E_i、过零率ZCR_i、短时相关性R_i和短时互相关性C_ij(k)，

其中，
如权利要求29所述的声音采集系统，其特征在于：所述音频特性检测的方法还包括根据所述平均能量E_i、所述过零率ZCR_i、所述短时相关性R_i和所述短时互相关性C_ij(k)计算当前帧的非静音概率
和语音概率

其中，
为i通道max(E_i*ZCR_i)的经验参考值，
为i通道max{max[R_i(k)]*max[C_ij(k)]}的经验参考值。
如权利要求30所述的声音采集系统，其特征在于：所述音频特性检测的方法还包括根据所述i通道当前帧的所述非静音概率
和所述语音概率
判断当前帧的类型，即是否为噪声帧、语音帧、无噪环境音帧，

其中，
是于相关判决的经验值，Ambient为无噪环境音帧，Noise为噪音帧，Speech为语音帧。
如权利要求31所述的声音采集系统，其特征在于：所述主音源判定子模块用于根据主音源判定原则确定主数据通路。
如权利要求32所述的声音采集系统，其特征在于：所述主音源判定原则包括：

1)当某一路为Speech，而另一路为Ambient或者Noise时，确定该路作为当前位置帧的所述主数据通路；

2)当某一路为Ambient，而另一路为Noise时，确定该路作为当前位置帧的所述主数据通路；

3)当两路均为同一种类帧时，确定
数值最大的通道作为当前位置帧的所述主数据通路。
如权利要求33所述的声音采集系统，其特征在于：所述降噪子模块用于根据所述主数据通路Speech音频帧前后关联的Noise噪音帧获得噪声频谱特性，并对Speech音频帧在频域上对噪声频谱成分进行抑制。
如权利要求34所述的声音采集系统，其特征在于：所述操作指令包括所述有效音频指令信号、所述文字指令信号或所述手势指令信号中的至少一种。
如权利要求21所述的声音采集系统，其特征在于：所述控制指令包括搜索指令、筛选指令、缓存指令、下载指令、存储指令和播放指令中至少一种。
如权利要求36所述的声音采集系统，其特征在于：所述搜索指令是指优先在本地存储器中进行搜索，若没有则通过通信组件在云端进行搜索。
如权利要求37所述的声音采集系统，其特征在于：所述通信组件包括wifi、无线、2G/3G/4G/5G和GPRS中至少一种。
如权利要求38所述的声音采集系统，其特征在于：所述获取音频文件是指执行所述缓存指令或下载指令，通过所述通信组件从云端得到音频文件。
如权利要求39所述的声音采集系统，其特征在于：所述播放指令是指通过放音设备播放缓存音频文件或本地存储器中的音频文件。
一种声音采集装置，包括外壳，其特征在于，还包括如权利要求21-40中任一所述的系统。
如权利要求41所述的声音采集装置，其特征在于：所述声音采集装置固定安装在智能设备上。
如权利要求42所述的声音采集装置，其特征在于：所述智能设备包括：智能手机、智能相机、智能耳机和其他智能设备中至少一种。