WO2018059406A1

WO2018059406A1 - 盲音分离方法、结构及语音控制系统和电器总成

Info

Publication number: WO2018059406A1
Application number: PCT/CN2017/103517
Authority: WO
Inventors: 王岩; 陈海雷
Original assignee: 合肥华凌股份有限公司; 合肥美的电冰箱有限公司; 美的集团股份有限公司
Priority date: 2016-09-29
Filing date: 2017-09-26
Publication date: 2018-04-05
Also published as: US20200027473A1; EP3522156A1; EP3522156A4; JP2019533194A; CN106356075A; US10825466B2; JP6790253B2; CN106356075B; KR20190054157A

Abstract

涉及语音控制领域，特别是涉及盲音分离方法、结构及语音控制系统和电器总成。盲音分离方法包括：对检测的语音信号进行降噪预处理，语音信号为同时间多个信号源语音信息的线性叠加信号（110）；以非高斯度量，对预处理后的语音信号构建目标函数（120）；通过迭代算法估计目标函数期望最大的分离矩阵W（130）；利用U(n)＝WX(n)求取估计目标分离信号U(n)，其中，X(n)为多个信号源语音信息构建的向量（140）。基于家电工作环境中噪声干扰会导致语音识别率下降，影响语音控制功能，针对家电的实际工作环境，做出线性瞬间系统假设，针对线性瞬时混合系统，提出基于ICA的盲源分离技术，达到语音信号降噪的效果。

Description

盲音分离方法、结构及语音控制系统和电器总成

交叉引用

本申请引用于2016年09月29日提交的专利名称为“盲音分离方法、结构及语音控制系统和电器总成”的第2016108665089号中国专利申请，其通过引用被全部并入本申请。

技术领域

本发明涉及语音控制领域，特别是涉及盲音分离方法、结构及语音控制系统和电器总成。

背景技术

当前集成电路，人工智能，互联网技术的发展。传统的白家电业出现了新的定位，智能化已经成为一种趋势。在智能家电上，除了传统控制功能之外，语音控制也成为一种各厂商都在积极尝试的新的控制方式。语音控制系统通过检测室内的声音，处理后得到内含的语音控制指令，家电执行该语音控制指令，实现智能化控制。

不过，在现实应用环境下，家电的工作环境通常有较大的噪声，检测的室内声音往往会包含扬声器发出的声音，非语音指令发出者的语音、语音指令发出者的语音、环境噪音等等。传统的录音方式，采集的信号带有很多干扰，直接处理会对语音识别的识别率造成很大的影响，还容易出现识别不准确的问题。

发明内容

(一)要解决的技术问题

本发明的目的是提供盲音分离方法、结构及语音控制系统和电器总成，以解决现有语音识别中干扰因素多，识别不准确，效率低的问题。

(二)技术方案

为了解决上述技术问题，本发明提供一种盲音分离方法，其包括：

预处理步骤，对检测的语音信号进行降噪预处理，所述语音信号为同时间多个信号源语音信息的线性叠加信号；

构建步骤，以非高斯度量，对预处理后的语音信号构建目标函数；

估计步骤，通过迭代算法估计所述目标函数期望最大的分离矩阵W；

求取步骤，利用U(n)＝WX(n)求取估计目标分离信号U(n)，其中，X(n)为多个信号源语音信息构建的向量。

在一些实施例中，优选为，所述预处理步骤包括：数据中心化处理，所述数据中心化处理的公式为：

Y＝X-mean(X)，X为输入数据，mean(X)为X均值，Y是数据中心化处理后的数据，其均值的期望为0。

在一些实施例中，优选为，所述预处理步骤包括：白化处理，所述白化处理的公式为：Z(t)＝W₀X(t)，其中，W₀为白化矩阵，Z为白化向量。

在一些实施例中，优选为，所述目标函数为负熵函数，所述负熵函数的公式为：

N_g(Z)＝H(Z_Gauss)-H(Z)，式中，Z_Gauss是和Z具有相同方差的高斯随机变量，H(.)为随机变量的微分熵；Z为高斯分布时N_g(Z)＝0；

Z的概率分布为[E{G(z)}–E{G(v)}]²，其中v是准高斯随机变量，G为下凸性质偶函数的非2次函数，优选，

u为变量。

在一些实施例中，优选为，所述估计步骤包括：

预估步骤，预估待估计的分量的个数m；

初始化步骤，初始权矢量w；

计算步骤，利用W_p＝E{Zg(W_p ^TZ)}-E{g'(W_p ^TZ)}计算W_p；

判断步骤，利用W_p＝W_p/||W_p||，判断W_p是否收敛；

若收敛，对W_p做去相关处理；

令p＝p+1，将p与m比较，当p＜m，则返回所述初始化步骤，当p≥m时，结束，得到所述分离矩阵W。

在一些实施例中，优选为，所述对W_p做去相关处理包括：

在估计出p个向量W₁，W_2,，W₃，W₄,……W_p之后，当估计W_p+1时，先减去p个向量的投影W_p+1 ^TW_j，j＝1，…，p，然后标准化W_p+1。

在一些实施例中，优选为，若不收敛，则返回所述计算步骤。

本发明另一方面还提供了一种执行上述盲音分离方法的盲音分离结构，其包括：

预处理模块，用于对检测的语音信号进行降噪预处理，所述语音信号为同时间多个信号源语音信息的线性叠加信号；

构建模块，用于以非高斯度量，对预处理后的语音信号构建目标函数；

估计模块，用于通过迭代算法估计所述目标函数期望最大的分离矩阵W；

求取模块，用于利用U(n)＝WX(n)求取估计目标分离信号U(n)，其中，X(n)为多个信号源语音信息构建的向量。

在一些实施例中，优选为，所述预处理模块包括数据中心化单元，其用于数据中心化处理，所述数据中心化处理的公式为：

在一些实施例中，优选为，所述预处理模块包括白化单元，其用于白化处理，所述白化处理的公式为：Z(t)＝W₀X(t)，其中，W₀为白化矩阵，Z为白化向量。

在一些实施例中，优选为，所述估计模块包括：

预估单元，用于预估待估计的分量的个数m；

初始化单元，用于初始权矢量w；

计算单元，用于利用W_p＝E{Zg(W_p ^TZ)}-E{g'(W_p ^TZ)}计算W_p；

判断单元，利用W_p＝W_p/||W_p||，判断W_p是否收敛，若收敛，激活去相关单元对W_p做去相关处理，令p＝p+1；将p与m比较，当p＜m，则返回所述初始化单元，当p≥m时，结束，得到所述分离矩阵W；

若不收敛，激活所述计算单元。

在一些实施例中，优选为，所述去相关单元对W_p做去相关处理包括：

本发明另一方面还提供了一种语音控制系统，其包括：语音检测组件和所述盲音分离结构；

所述语音检测组件，用于检测环境内多个信号源语音信息，得到语音信号，供所述盲音分离结构进行盲音分离。

本发明另一方面还提供了一种电器总成，其包括电器本体和上述语音控制系统，所述电器本体和所述语音控制系统相连。

在一些实施例中，电器总成包括：家用电器、中央空调、电子类移动终端中的任一种。

(三)有益效果

本发明提供的技术基于家电工作环境中噪声干扰会导致语音识别率下降，影响语音控制功能。本技术针对家电的实际工作环境，做出线性瞬间系统假设，针对线性瞬时混合系统，提出基于ICA的盲源分离技术，达到语音信号降噪的效果。

附图说明

图1为冰箱的工作环境示意图；

图2为本发明一个实施例中盲音分离方法步骤示意图；

图3为本发明另一个实施例中盲音分离方法步骤示意图

图4为本发明一个实施例中盲音分离结构的示意图；

图5为本发明一个实施例中使用的盲源分离系统模型。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实例用于说明本发明，但不用来限制本发明的范围。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。

为了有效提取到带有语音指令的语音信号，本发明给出了一种盲音分离方法、分离结构及语音控制系统和电器总成。

下面通过基础设计、替换设计和扩展设计对本技术做详细描述：

一种盲音分离方法，如图2所示，其包括：

步骤110，对检测的语音信号进行降噪预处理，语音信号为同时间多个信号源语音信息的线性叠加信号；

步骤120，以非高斯度量，对预处理后的语音信号构建目标函数；

步骤130，通过迭代算法估计目标函数期望最大的分离矩阵W；

步骤140，利用U(n)＝WX(n)求取估计目标分离信号U(n)，其中，X(n)为多个信号源语音信息构建的向量。

在步骤110之前，还可以增加步骤110：

步骤110，对多个信号源语音信息视为线性叠加信号。

多个信号源语音信息由语音传感器采集。

其中，以冰箱为例，冰箱的工作环境如图1所示，在房间中，除了语音指令发出者的语音之外，存在有环境噪声，非语音指令发出者的语音，扬声器正在播报的声音，等等。

假设有多个信号源S₁(t)，S₂(t)，S₃(t)，S₄(t)。

根据家电工作环境，各声源到传感器之间可以假设是线性叠加，因此测量信号可以表示为：

X₁(t)＝a₁₁S₁(t)+a₁₂S₂(t)+a₁₃S₃(t)+a₁₄S₄(t)

X₂(t)＝a₂₁S₁(t)+a₂₂S₂(t)+a₂₂S₂(t)+a₂₄S₄(t)

X₃(t)＝a₃₁S₁(t)+a₃₂S₂(t)+a₃₃S₃(t)+a₃₄S₄(t)

S₄(t)＝a₄₁S₁(t)+a₄₂S₂(t)+a₄₂S₂(t)+a₄₄S₄(t)

得到检测语音信号的输出信号的一般性模型的矩阵表示：

X(t)＝AS(t) (1)

对语音识别系统来说的信号是检测到信号中，有用的信号是S₁(t)，检测到的信号是各信号的叠加，从观察信号X(t)中估计出变换矩阵A和无法直接观察到的信号S(t)就是盲源分离的任务。盲源分离系统的一般模型如图5所示。测量信号X(n)是在时间的序列内检测的语音信号的离散值构成的序列，是源信号经过混合后的结果，通过滤波器G，得到分离后的结果U(n)。

结合附图5的盲源分离系统模型，一般情况下F(.)是源信号的非线性的，这种情况下恢复源信号非常困难。近场的语音信号，信号时延可以忽略不计的情况下，可以简化线性瞬时混合系统。如公式(1)所示。线性瞬时混合系统的盲源分离系统是ICA问题的任务，其理想解U(t)＝A^-1(t)，实际上理想解无法求得，因此，对于线性瞬时混合系统进行如下假设：测量信号数量(及分量的个数m)大于等于源信号的数量(即声音传感器、采集器的数量)，源信号在任何时刻都是相互独立的，源信号最多只有一个高斯分布，测量信号中噪声很小。

如果存在一个变换W，U(n)＝W[X(n)]相互独立，则U(n)是信号源的一个估计。ICA的任务就可表述为求分离矩阵W，即步骤130。

上述步骤110-步骤130详细说明了ICA的处理步骤，如图3所示：

ICA的处理独立性的判定，可以转化为非高斯性最大化问题。可分为基于信息论准则的迭代估计方法和基于统计学的代数方法两大类，从原理上来说，它们都是利用了源信号的独立性和非高斯性。

在本技术中采用采用快速ICA算法。步骤如下：

步骤110是为了对语音信号进行降噪预处理，以使多信源语音信息的分布均值降低，尤其为0，还降低多信源语音信息的相关性。

一些实施例中，通常采用数据中心化、白化等方法达到该目的。需要说明的是，数据中心化、白化是两个不同的步骤，二者结合使用对数据处理效果较佳。当然也可以选择之一。

其中，数据中心化：线性偏移操作，Y＝X-mean(X)，X为输入数据，mean(X)为其均值，Y是中心化后的数据，其均值的期望为0。

白化：一般情况下，所获得的数据都具有相关性，所以通常都要求对数据进行初步的白化或球化处理，因为白化处理可去除各观测信号之间的相关性，从而简化了后续独立分量的提取过程，而且，通常情况下，数据的白化处理能大大增强算法的收敛性。

若一零均值的随机向量Z＝(Z₁,…,Z_M)^T满足E{ZZ^T}＝I，其中：I为单位矩阵，我们称这个向量为白化向量。白化的本质在于去相关，这同主分量分析的目标是一样的。在ICA中，对于为零均值的独立源信号S(t)＝[S₁(t),...,S_N(t)]^T，有：E{S_iS_j}＝E{S_i}E{S_j}＝0,当i≠j，且协方差矩阵是单位阵cov(S)＝I，因此，源信号S(t)是白色的。对观测信号Y(t)，我们应该寻找一个线性变换，使Y(t)投影到新的子空间后变成白化向量，即：

Z(t)＝W₀X(t)

其中，W₀为白化矩阵，Z为白化向量。白化过程可以通过主成分分析完成。

白化矩阵W₀可以通过现有技术解决，此处不在赘述。

步骤120中，目标函数：根据中心极限定理，对于信号X由许多独立分量组成Si(i＝1，2…n)组成，S具有有限的均值和方差，X比S更接近高斯分布。也就是说向量的独立性可以由非高斯性度量。

所有等方差的随机变量中，高斯变量的熵最大，可以利用负熵函数来度量非高斯性，可以定义目标函数为负熵函数，如公式(2)所示。

N_g(Z)＝H(Z_Gauss)-H(Z) (2)

式中，Z为白化向量，Z_Gauss是和Z具有相同方差的高斯随机变量，H(.)为随机变量的微分熵。Z为高斯分布时N_g(Z)＝0。由于计算微分熵需要知道Z的概率分布，这个是未知的，所以采用公式(3)近似：

[E{G(z)}–E{G(v)}]² (3)

其中v是准高斯随机变量，G是某种形式的非2次函数，一般选择具有下凸性质的偶函数，如

需要说明的是，ICA的实现算法有很多，一些实施例中以便于嵌入式实现的基于负熵最大化的FastICA算法进行描述，实际上可以采用其他的算法，基于此计算思想的各种算法都属于本技术的保护范围。

步骤130中，过程是寻找公式(3)的最大值。可以通过牛顿迭代法求解。简化为公式(4)，其中g为G的导数。

W_p＝E{Zg(W_p ^TZ)}-E{g'(W_p ^TZ)} (4)

一次FastICA算法的基本形式为：1)初始化(如随机)向量w；2)令W_p＝E{Zg(W_p ^TZ)}-E{g'(W_p ^TZ)}；3)令W_p＝W_p/||W_p||；4)若未收敛，则回到2)。；

一次负熵最大化的FastICA算法能估计出一个独立成分，为了估计出若干个独立成分，需要进行若干次FastICA算法得到向量，为了防止这些向量收敛在同一个最大值，需要对每次迭代后的输出w₁ ^Tx，…，w_n ^Tx去相关。

一种比较简单的算法Gram-Schmidt-like去相关，即一个接一个地估计独立成分，在估计出p个独立成分w₁，…，w_p之后，当估计w_p+1时先减去先前预测的p个向量的投影w_p+1 ^Twj，j＝1，…，p，然后标准化w_p+1。

步骤140中，迎合步骤100中，在求取分离矩阵W后，利用U(n)＝WX(n)求取估计目标分离信号U(n)，其中，X(n)为多个信号源语音信息构建的向量。

接下来，通过一个具体实施了来描述该基于ICA的降噪技术的盲音分离方法，如图3所示：

步骤210，数据中心化；

在该步骤中对检测的语音信息进行数据中心化处理。

数据中心化处理的公式为：

步骤220，数据白化，实现X向Z的白化；

白化处理的公式为：Z(t)＝W₀X(t)，其中，W₀为白化矩阵，Z为白化向量。

步骤230，选择需要顾及的分量的个数m；

基于现有环境和硬件条件确定信号源的数量。注意，分量的个数m必须小于或等于语音传感器(语音采集器)的数目。

步骤240，估计计算分离矩阵W；

本步骤一个接一个计算，中间进行条件判断，确定大循环、小循环的不同启动方式。具体包括：

步骤2410，选择一个初始权矢量W_p

该初始权矢量W_p可以根据经验值而定，在每一个p的取值下，初始权矢量的数值可以相等，比如全是0，当然在其他的实施例中也可以不等。

步骤2420，利用W_p＝E{Zg(W_p ^TZ)}-E{g'(W_p ^TZ)}计算W_p

步骤2430，基于计算的W_p，利用W_p＝W_p/||W_p||，判断W_p是否收敛；

若收敛，则进入步骤2440；若不收敛，继续进行迭代运算，返回步骤2420，开启小循环。

步骤2440，对W_p进行去相关性；

在一些实施例中可以采用Gram-Schmidt-like去相关，在估计出p个向量W₁，W_2,，W₃，W_4,……W_p-1之后，当估计W_p时，先减去p-1个向量的投影W_p ^TW_j，j＝1，…，p-1，然后标准化W_p。

该步骤之后结束W_p的求值。接下来进入下一个数值的求解循环，步骤2450给出启动下一个大循环的启动指令。

步骤2450，将p＝p+1，将p与m比较，当p＜m，则返回返回步骤2410；当p≥m时，结束，得到分离矩阵W。

为了更好的执行上文的盲音分离方法，下面给出一种盲音分离结构。该盲音分离结构可以加载有盲音分离程序，安装在现有电器总成中，也可以以芯片的方式集成于现有语音控制系统中，或者作为一套软件程序加载到现有的程序硬件中。

在下面的文字中进队结构及内部模块、单元进行说明，其原理及公式、算法等参照并沿用上文的陈述，此处不再赘述。

同时，需要说明的是，下面叙述的模块、单元多是以功能进行的概括，模块间可以合并，模块可以拆分。单元亦同。

该盲音分离结构，如图4所示，包括：

预处理模块，用于对检测的语音信号进行降噪预处理，语音信号为同时间多个信号源语音信息的线性叠加信号；

估计模块，用于通过迭代算法估计目标函数期望最大的分离矩阵W；

其中，预处理模块包括数据中心化单元，其用于数据中心化处理，数据中心化处理的公式为：

其中，预处理模块包括白化单元，其用于白化处理，白化处理的公式为：Z(t)＝W₀X(t)，其中，W₀为白化矩阵，Z为白化向量。

其中，估计模块包括：

预估单元，用于预估待估计的分量的个数m；

初始化单元，用于初始权矢量w；

计算单元，用于利用W_p＝E{Zg(W_p ^TZ)}-E{g'(W_p ^TZ)}计算W_p；

判断单元，利用W_p＝W_p/||W_p||，判断W_p是否收敛，若收敛，激活去相关单元对W_p做去相关处理，令p＝p+1；将p与m比较，当p＜m，则返回初始化单元，当p≥m时，结束，得到分离矩阵W；

若不收敛，激活计算单元。

其中去相关单元对W_p做去相关处理包括：

在估计出p个向量W₁，W_2,，W₃，W_4,……W_p之后，当估计W_p+1时，先减去p个向量的投影W_p+1 ^TW_j，j＝1，…，p，然后标准化W_p+1。

将上述盲音分离结构应用到语音控制系统中，其包括：语音检测组件和上述的盲音分离结构；

语音检测组件，用于检测环境内多个信号源语音信息，得到语音信号，供盲音分离结构进行盲音分离。

将上述语音控制系统应用到电器总成中，其包括电器本体和上文的语音控制系统，电器本体和语音控制系统相连。

该电器总成包括了所有需要语音控制的各种电器自动化控制设备，比如：家用电器、中央空调、电子类移动终端中的任一种。

以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

一种盲音分离方法，其特征在于，包括：

预处理步骤，对检测的语音信号进行降噪预处理，所述语音信号为同时间多个信号源语音信息的线性叠加信号；

构建步骤，以非高斯度量，对预处理后的语音信号构建目标函数；

估计步骤，通过迭代算法估计所述目标函数期望最大的分离矩阵W；

求取步骤，利用U(n)＝WX(n)求取估计目标分离信号U(n)，其中，X(n)为多个信号源语音信息构建的向量。
如权利要求1所述的盲音分离方法，其特征在于，所述预处理步骤包括：数据中心化处理，所述数据中心化处理的公式为：

Y＝X-mean(X)，X为输入数据，mean(X)为X均值，Y是数据中心化处理后的数据，其均值的期望为0。
如权利要求1所述的盲音分离方法，其特征在于，所述预处理步骤包括：白化处理，所述白化处理的公式为：Z(t)＝W₀X(t)，其中，W₀为白化矩阵，Z为白化向量。
如权利要求1所述的盲音分离方法，其特征在于，所述目标函数为负熵函数，所述负熵函数的公式为：

N_g(Z)＝H(Z_Gauss)-H(Z)，式中，Z_Gauss是和Z具有相同方差的高斯随机变量，H(.)为随机变量的微分熵；Z为高斯分布时N_g(Z)＝0；

Z的概率分布为[E{G(z)}–E{G(v)}]²，其中v是准高斯随机变量，G为下凸性质偶函数的非2次函数，优选，
u为变量。
如权利要求1-4任一项所述的盲音分离方法，其特征在于，所述估计步骤包括：

预估步骤，预估待估计的分量的个数m；

初始化步骤，初始权矢量w；

计算步骤，利用W_p＝E{Zg(W_p ^TZ)}-E{g'(W_p ^TZ)}计算W_p；

判断步骤，利用W_p＝W_p/||W_p||，判断W_p是否收敛；

若收敛，对W_p做去相关处理；

令p＝p+1，将p与m比较，当p＜m，则返回所述初始化步骤，当p≥m时，结束，得到所述分离矩阵W。
如权利要求5所述的盲音分离方法，其特征在于，所述对W_p做去相关处理包括：

在估计出p个向量W₁，W_2,，W₃，W_4,……W_p之后，当估计W_p+1时，先减去p个向量的投影W_p+1 ^TW_j，j＝1，…，p，然后标准化W_p+1。
如权利要求5所述盲音分离方法，其特征在于，若不收敛，则返回所述计算步骤。
一种执行权利要求1-7任一项所述的盲音分离方法的盲音分离结构，其特征在于，包括：

预处理模块，用于对检测的语音信号进行降噪预处理，所述语音信号为同时间多个信号源语音信息的线性叠加信号；

构建模块，用于以非高斯度量，对预处理后的语音信号构建目标函数；

估计模块，用于通过迭代算法估计所述目标函数期望最大的分离矩阵W；

求取模块，用于利用U(n)＝WX(n)求取估计目标分离信号U(n)，其中，X(n)为多个信号源语音信息构建的向量。
如权利要求8所述的盲音分离结构，其特征在于，所述预处理模块包括数据中心化单元，其用于数据中心化处理，所述数据中心化处理的公式为：

Y＝X-mean(X)，X为输入数据，mean(X)为X均值，Y是数据中心化处理后的数据，其均值的期望为0。
如权利要求8所述的盲音分离结构，其特征在于，所述预处理模块包括白化单元，其用于白化处理，所述白化处理的公式为：Z(t)＝W₀X(t)，其中，W₀为白化矩阵，Z为白化向量。
如权利要求8-10任一项所述的盲音分离结构，其特征在于，所述估计模块包括：

预估单元，用于预估待估计的分量的个数m；

初始化单元，用于初始权矢量w；

计算单元，用于利用W_p＝E{Zg(W_p ^TZ)}-E{g'(W_p ^TZ)}计算W_p；

判断单元，利用W_p＝W_p/||W_p||，判断W_p是否收敛，若收敛，激活去相关单元对W_p做去相关处理，令p＝p+1；将p与m比较，当p＜m，则返回所述初始化单元，当p≥m时，结束，得到所述分离矩阵W；

若不收敛，激活所述计算单元。
如权利要求11所述的盲音分离结构，其特征在于，所述去相关单元对W_p做去相关处理包括：

在估计出_p个向量W₁，W_2,，W₃，W_4,……W_p之后，当估计W_p+1时，先减去_p个向量的投影W_p+1 ^TW_j，j＝1，…，p，然后标准化W_p+1。
一种语音控制系统，其特征在于，包括：语音检测组件和权利要求8-12任一项所述的盲音分离结构；

所述语音检测组件，用于检测环境内多个信号源语音信息，得到语音信号，供所述盲音分离结构进行盲音分离。
一种电器总成，其特征在于，包括电器本体和权利要求13所述的语音控制系统，所述电器本体和所述语音控制系统相连。
如权利要求14所述的电器总成，其特征在于，包括：家用电器、中央空调、电子类移动终端中的任一种。