WO2018059406A1 - 盲音分离方法、结构及语音控制系统和电器总成 - Google Patents

盲音分离方法、结构及语音控制系统和电器总成 Download PDF

Info

Publication number
WO2018059406A1
WO2018059406A1 PCT/CN2017/103517 CN2017103517W WO2018059406A1 WO 2018059406 A1 WO2018059406 A1 WO 2018059406A1 CN 2017103517 W CN2017103517 W CN 2017103517W WO 2018059406 A1 WO2018059406 A1 WO 2018059406A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
blind
voice
estimating
whitening
Prior art date
Application number
PCT/CN2017/103517
Other languages
English (en)
French (fr)
Inventor
王岩
陈海雷
Original Assignee
合肥华凌股份有限公司
合肥美的电冰箱有限公司
美的集团股份有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 合肥华凌股份有限公司, 合肥美的电冰箱有限公司, 美的集团股份有限公司 filed Critical 合肥华凌股份有限公司
Priority to US16/338,198 priority Critical patent/US10825466B2/en
Priority to EP17854856.6A priority patent/EP3522156A4/en
Priority to JP2019517820A priority patent/JP6790253B2/ja
Priority to KR1020197012155A priority patent/KR20190054157A/ko
Publication of WO2018059406A1 publication Critical patent/WO2018059406A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02163Only one microphone

Definitions

  • An estimation module configured to estimate, by an iterative algorithm, a separation matrix W that is expected to be the largest of the objective function
  • X(n) is a plurality of signal source speeches.
  • Y X-mean(X), where X is the input data, mean(X) is the X-mean value, and Y is the data after the data centering process, and the mean value is expected to be zero.
  • This step is calculated one by one, and the condition is judged in the middle to determine different starting modes of the big loop and the small loop. Specifically include:
  • Step 2440 a de-correlation W p
  • the blind sound separation structure can be loaded with a blind sound separation program, installed in an existing electrical assembly, or integrated into an existing voice control system in a chip manner, or loaded into an existing program hardware as a software program. in.
  • a building module for constructing an objective function on the preprocessed speech signal with a non-Gaussian metric
  • the preprocessing module includes a data centering unit for data centering processing, and the formula of the data centering processing is:
  • An initializing unit for initial weight vector w An initializing unit for initial weight vector w
  • de-correlation unit W p do decorrelation processing comprising:
  • the above voice control system is applied to an electric appliance assembly, which includes an electric appliance body and the above voice control system, and the electric appliance body and the voice control system are connected.

Abstract

涉及语音控制领域,特别是涉及盲音分离方法、结构及语音控制系统和电器总成。盲音分离方法包括:对检测的语音信号进行降噪预处理,语音信号为同时间多个信号源语音信息的线性叠加信号(110);以非高斯度量,对预处理后的语音信号构建目标函数(120);通过迭代算法估计目标函数期望最大的分离矩阵W(130);利用U(n)=WX(n)求取估计目标分离信号U(n),其中,X(n)为多个信号源语音信息构建的向量(140)。基于家电工作环境中噪声干扰会导致语音识别率下降,影响语音控制功能,针对家电的实际工作环境,做出线性瞬间系统假设,针对线性瞬时混合系统,提出基于ICA的盲源分离技术,达到语音信号降噪的效果。

Description

盲音分离方法、结构及语音控制系统和电器总成
交叉引用
本申请引用于2016年09月29日提交的专利名称为“盲音分离方法、结构及语音控制系统和电器总成”的第2016108665089号中国专利申请,其通过引用被全部并入本申请。
技术领域
本发明涉及语音控制领域,特别是涉及盲音分离方法、结构及语音控制系统和电器总成。
背景技术
当前集成电路,人工智能,互联网技术的发展。传统的白家电业出现了新的定位,智能化已经成为一种趋势。在智能家电上,除了传统控制功能之外,语音控制也成为一种各厂商都在积极尝试的新的控制方式。语音控制系统通过检测室内的声音,处理后得到内含的语音控制指令,家电执行该语音控制指令,实现智能化控制。
不过,在现实应用环境下,家电的工作环境通常有较大的噪声,检测的室内声音往往会包含扬声器发出的声音,非语音指令发出者的语音、语音指令发出者的语音、环境噪音等等。传统的录音方式,采集的信号带有很多干扰,直接处理会对语音识别的识别率造成很大的影响,还容易出现识别不准确的问题。
发明内容
(一)要解决的技术问题
本发明的目的是提供盲音分离方法、结构及语音控制系统和电器总成,以解决现有语音识别中干扰因素多,识别不准确,效率低的问题。
(二)技术方案
为了解决上述技术问题,本发明提供一种盲音分离方法,其包括:
预处理步骤,对检测的语音信号进行降噪预处理,所述语音信号为同 时间多个信号源语音信息的线性叠加信号;
构建步骤,以非高斯度量,对预处理后的语音信号构建目标函数;
估计步骤,通过迭代算法估计所述目标函数期望最大的分离矩阵W;
求取步骤,利用U(n)=WX(n)求取估计目标分离信号U(n),其中,X(n)为多个信号源语音信息构建的向量。
在一些实施例中,优选为,所述预处理步骤包括:数据中心化处理,所述数据中心化处理的公式为:
Y=X-mean(X),X为输入数据,mean(X)为X均值,Y是数据中心化处理后的数据,其均值的期望为0。
在一些实施例中,优选为,所述预处理步骤包括:白化处理,所述白化处理的公式为:Z(t)=W0X(t),其中,W0为白化矩阵,Z为白化向量。
在一些实施例中,优选为,所述目标函数为负熵函数,所述负熵函数的公式为:
Ng(Z)=H(ZGauss)-H(Z),式中,ZGauss是和Z具有相同方差的高斯随机变量,H(.)为随机变量的微分熵;Z为高斯分布时Ng(Z)=0;
Z的概率分布为[E{G(z)}–E{G(v)}]2,其中v是准高斯随机变量,G为下凸性质偶函数的非2次函数,优选,
Figure PCTCN2017103517-appb-000001
u为变量。
在一些实施例中,优选为,所述估计步骤包括:
预估步骤,预估待估计的分量的个数m;
初始化步骤,初始权矢量w;
计算步骤,利用Wp=E{Zg(Wp TZ)}-E{g'(Wp TZ)}计算Wp
判断步骤,利用Wp=Wp/||Wp||,判断Wp是否收敛;
若收敛,对Wp做去相关处理;
令p=p+1,将p与m比较,当p<m,则返回所述初始化步骤,当p≥m时,结束,得到所述分离矩阵W。
在一些实施例中,优选为,所述对Wp做去相关处理包括:
在估计出p个向量W1,W2,,W3,W4,……Wp之后,当估计Wp+1时,先减去p个向量的投影Wp+1 TWj,j=1,…,p,然后标准化Wp+1
在一些实施例中,优选为,若不收敛,则返回所述计算步骤。
本发明另一方面还提供了一种执行上述盲音分离方法的盲音分离结 构,其包括:
预处理模块,用于对检测的语音信号进行降噪预处理,所述语音信号为同时间多个信号源语音信息的线性叠加信号;
构建模块,用于以非高斯度量,对预处理后的语音信号构建目标函数;
估计模块,用于通过迭代算法估计所述目标函数期望最大的分离矩阵W;
求取模块,用于利用U(n)=WX(n)求取估计目标分离信号U(n),其中,X(n)为多个信号源语音信息构建的向量。
在一些实施例中,优选为,所述预处理模块包括数据中心化单元,其用于数据中心化处理,所述数据中心化处理的公式为:
Y=X-mean(X),X为输入数据,mean(X)为X均值,Y是数据中心化处理后的数据,其均值的期望为0。
在一些实施例中,优选为,所述预处理模块包括白化单元,其用于白化处理,所述白化处理的公式为:Z(t)=W0X(t),其中,W0为白化矩阵,Z为白化向量。
在一些实施例中,优选为,所述估计模块包括:
预估单元,用于预估待估计的分量的个数m;
初始化单元,用于初始权矢量w;
计算单元,用于利用Wp=E{Zg(Wp TZ)}-E{g'(Wp TZ)}计算Wp
判断单元,利用Wp=Wp/||Wp||,判断Wp是否收敛,若收敛,激活去相关单元对Wp做去相关处理,令p=p+1;将p与m比较,当p<m,则返回所述初始化单元,当p≥m时,结束,得到所述分离矩阵W;
若不收敛,激活所述计算单元。
在一些实施例中,优选为,所述去相关单元对Wp做去相关处理包括:
在估计出p个向量W1,W2,,W3,W4,……Wp之后,当估计Wp+1时,先减去p个向量的投影Wp+1 TWj,j=1,…,p,然后标准化Wp+1
本发明另一方面还提供了一种语音控制系统,其包括:语音检测组件和所述盲音分离结构;
所述语音检测组件,用于检测环境内多个信号源语音信息,得到语音信号,供所述盲音分离结构进行盲音分离。
本发明另一方面还提供了一种电器总成,其包括电器本体和上述语音控制系统,所述电器本体和所述语音控制系统相连。
在一些实施例中,电器总成包括:家用电器、中央空调、电子类移动终端中的任一种。
(三)有益效果
本发明提供的技术基于家电工作环境中噪声干扰会导致语音识别率下降,影响语音控制功能。本技术针对家电的实际工作环境,做出线性瞬间系统假设,针对线性瞬时混合系统,提出基于ICA的盲源分离技术,达到语音信号降噪的效果。
附图说明
图1为冰箱的工作环境示意图;
图2为本发明一个实施例中盲音分离方法步骤示意图;
图3为本发明另一个实施例中盲音分离方法步骤示意图
图4为本发明一个实施例中盲音分离结构的示意图;
图5为本发明一个实施例中使用的盲源分离系统模型。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实例用于说明本发明,但不用来限制本发明的范围。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。
为了有效提取到带有语音指令的语音信号,本发明给出了一种盲音分离方法、分离结构及语音控制系统和电器总成。
下面通过基础设计、替换设计和扩展设计对本技术做详细描述:
一种盲音分离方法,如图2所示,其包括:
步骤110,对检测的语音信号进行降噪预处理,语音信号为同时间多个信号源语音信息的线性叠加信号;
步骤120,以非高斯度量,对预处理后的语音信号构建目标函数;
步骤130,通过迭代算法估计目标函数期望最大的分离矩阵W;
步骤140,利用U(n)=WX(n)求取估计目标分离信号U(n),其中,X(n)为多个信号源语音信息构建的向量。
在步骤110之前,还可以增加步骤110:
步骤110,对多个信号源语音信息视为线性叠加信号。
多个信号源语音信息由语音传感器采集。
其中,以冰箱为例,冰箱的工作环境如图1所示,在房间中,除了语音指令发出者的语音之外,存在有环境噪声,非语音指令发出者的语音,扬声器正在播报的声音,等等。
假设有多个信号源S1(t),S2(t),S3(t),S4(t)。
根据家电工作环境,各声源到传感器之间可以假设是线性叠加,因此测量信号可以表示为:
X1(t)=a11S1(t)+a12S2(t)+a13S3(t)+a14S4(t)
X2(t)=a21S1(t)+a22S2(t)+a22S2(t)+a24S4(t)
X3(t)=a31S1(t)+a32S2(t)+a33S3(t)+a34S4(t)
S4(t)=a41S1(t)+a42S2(t)+a42S2(t)+a44S4(t)
得到检测语音信号的输出信号的一般性模型的矩阵表示:
X(t)=AS(t)    (1)
对语音识别系统来说的信号是检测到信号中,有用的信号是S1(t),检测到的信号是各信号的叠加,从观察信号X(t)中估计出变换矩阵A和无法直接观察到的信号S(t)就是盲源分离的任务。盲源分离系统的一般模型如图5所示。测量信号X(n)是在时间的序列内检测的语音信号的离散值构成的序列,是源信号经过混合后的结果,通过滤波器G,得到分离后的结果U(n)。
结合附图5的盲源分离系统模型,一般情况下F(.)是源信号的非线性的,这种情况下恢复源信号非常困难。近场的语音信号,信号时延可以忽略不计的情况下,可以简化线性瞬时混合系统。如公式(1)所示。线性瞬时混合系统的盲源分离系统是ICA问题的任务,其理想解U(t)=A-1(t),实际上理想解无法求得,因此,对于线性瞬时混合系统进行如下假设:测量信 号数量(及分量的个数m)大于等于源信号的数量(即声音传感器、采集器的数量),源信号在任何时刻都是相互独立的,源信号最多只有一个高斯分布,测量信号中噪声很小。
如果存在一个变换W,U(n)=W[X(n)]相互独立,则U(n)是信号源的一个估计。ICA的任务就可表述为求分离矩阵W,即步骤130。
上述步骤110-步骤130详细说明了ICA的处理步骤,如图3所示:
ICA的处理独立性的判定,可以转化为非高斯性最大化问题。可分为基于信息论准则的迭代估计方法和基于统计学的代数方法两大类,从原理上来说,它们都是利用了源信号的独立性和非高斯性。
在本技术中采用采用快速ICA算法。步骤如下:
步骤110是为了对语音信号进行降噪预处理,以使多信源语音信息的分布均值降低,尤其为0,还降低多信源语音信息的相关性。
一些实施例中,通常采用数据中心化、白化等方法达到该目的。需要说明的是,数据中心化、白化是两个不同的步骤,二者结合使用对数据处理效果较佳。当然也可以选择之一。
其中,数据中心化:线性偏移操作,Y=X-mean(X),X为输入数据,mean(X)为其均值,Y是中心化后的数据,其均值的期望为0。
白化:一般情况下,所获得的数据都具有相关性,所以通常都要求对数据进行初步的白化或球化处理,因为白化处理可去除各观测信号之间的相关性,从而简化了后续独立分量的提取过程,而且,通常情况下,数据的白化处理能大大增强算法的收敛性。
若一零均值的随机向量Z=(Z1,…,ZM)T满足E{ZZT}=I,其中:I为单位矩阵,我们称这个向量为白化向量。白化的本质在于去相关,这同主分量分析的目标是一样的。在ICA中,对于为零均值的独立源信号S(t)=[S1(t),...,SN(t)]T,有:E{SiSj}=E{Si}E{Sj}=0,当i≠j,且协方差矩阵是单位阵cov(S)=I,因此,源信号S(t)是白色的。对观测信号Y(t),我们应该寻找一个线性变换,使Y(t)投影到新的子空间后变成白化向量,即:
Z(t)=W0X(t)
其中,W0为白化矩阵,Z为白化向量。白化过程可以通过主成分分析完成。
白化矩阵W0可以通过现有技术解决,此处不在赘述。
步骤120中,目标函数:根据中心极限定理,对于信号X由许多独立分量组成Si(i=1,2…n)组成,S具有有限的均值和方差,X比S更接近高斯分布。也就是说向量的独立性可以由非高斯性度量。
所有等方差的随机变量中,高斯变量的熵最大,可以利用负熵函数来度量非高斯性,可以定义目标函数为负熵函数,如公式(2)所示。
Ng(Z)=H(ZGauss)-H(Z)  (2)
式中,Z为白化向量,ZGauss是和Z具有相同方差的高斯随机变量,H(.)为随机变量的微分熵。Z为高斯分布时Ng(Z)=0。由于计算微分熵需要知道Z的概率分布,这个是未知的,所以采用公式(3)近似:
[E{G(z)}–E{G(v)}]2  (3)
其中v是准高斯随机变量,G是某种形式的非2次函数,一般选择具有下凸性质的偶函数,如
Figure PCTCN2017103517-appb-000002
需要说明的是,ICA的实现算法有很多,一些实施例中以便于嵌入式实现的基于负熵最大化的FastICA算法进行描述,实际上可以采用其他的算法,基于此计算思想的各种算法都属于本技术的保护范围。
步骤130中,过程是寻找公式(3)的最大值。可以通过牛顿迭代法求解。简化为公式(4),其中g为G的导数。
Wp=E{Zg(Wp TZ)}-E{g'(Wp TZ)}   (4)
一次FastICA算法的基本形式为:1)初始化(如随机)向量w;2)令Wp=E{Zg(Wp TZ)}-E{g'(Wp TZ)};3)令Wp=Wp/||Wp||;4)若未收敛,则回到2)。;
一次负熵最大化的FastICA算法能估计出一个独立成分,为了估计出若干个独立成分,需要进行若干次FastICA算法得到向量,为了防止这些向量收敛在同一个最大值,需要对每次迭代后的输出w1 Tx,…,wn Tx去相关。
一种比较简单的算法Gram-Schmidt-like去相关,即一个接一个地估计独立成分,在估计出p个独立成分w1,…,wp之后,当估计wp+1时先减去先前预测的p个向量的投影wp+1 Twj,j=1,…,p,然后标准化wp+1
步骤140中,迎合步骤100中,在求取分离矩阵W后,利用U(n)=WX(n)求取估计目标分离信号U(n),其中,X(n)为多个信号源语音信息构建的向 量。
接下来,通过一个具体实施了来描述该基于ICA的降噪技术的盲音分离方法,如图3所示:
步骤210,数据中心化;
在该步骤中对检测的语音信息进行数据中心化处理。
数据中心化处理的公式为:
Y=X-mean(X),X为输入数据,mean(X)为X均值,Y是数据中心化处理后的数据,其均值的期望为0。
步骤220,数据白化,实现X向Z的白化;
白化处理的公式为:Z(t)=W0X(t),其中,W0为白化矩阵,Z为白化向量。
步骤230,选择需要顾及的分量的个数m;
基于现有环境和硬件条件确定信号源的数量。注意,分量的个数m必须小于或等于语音传感器(语音采集器)的数目。
步骤240,估计计算分离矩阵W;
本步骤一个接一个计算,中间进行条件判断,确定大循环、小循环的不同启动方式。具体包括:
步骤2410,选择一个初始权矢量Wp
该初始权矢量Wp可以根据经验值而定,在每一个p的取值下,初始权矢量的数值可以相等,比如全是0,当然在其他的实施例中也可以不等。
步骤2420,利用Wp=E{Zg(Wp TZ)}-E{g'(Wp TZ)}计算Wp
步骤2430,基于计算的Wp,利用Wp=Wp/||Wp||,判断Wp是否收敛;
若收敛,则进入步骤2440;若不收敛,继续进行迭代运算,返回步骤2420,开启小循环。
步骤2440,对Wp进行去相关性;
在一些实施例中可以采用Gram-Schmidt-like去相关,在估计出p个向量W1,W2,,W3,W4,……Wp-1之后,当估计Wp时,先减去p-1个向量的投影Wp TWj,j=1,…,p-1,然后标准化Wp
该步骤之后结束Wp的求值。接下来进入下一个数值的求解循环,步骤2450给出启动下一个大循环的启动指令。
步骤2450,将p=p+1,将p与m比较,当p<m,则返回返回步骤2410;当p≥m时,结束,得到分离矩阵W。
为了更好的执行上文的盲音分离方法,下面给出一种盲音分离结构。该盲音分离结构可以加载有盲音分离程序,安装在现有电器总成中,也可以以芯片的方式集成于现有语音控制系统中,或者作为一套软件程序加载到现有的程序硬件中。
在下面的文字中进队结构及内部模块、单元进行说明,其原理及公式、算法等参照并沿用上文的陈述,此处不再赘述。
同时,需要说明的是,下面叙述的模块、单元多是以功能进行的概括,模块间可以合并,模块可以拆分。单元亦同。
该盲音分离结构,如图4所示,包括:
预处理模块,用于对检测的语音信号进行降噪预处理,语音信号为同时间多个信号源语音信息的线性叠加信号;
构建模块,用于以非高斯度量,对预处理后的语音信号构建目标函数;
估计模块,用于通过迭代算法估计目标函数期望最大的分离矩阵W;
求取模块,用于利用U(n)=WX(n)求取估计目标分离信号U(n),其中,X(n)为多个信号源语音信息构建的向量。
其中,预处理模块包括数据中心化单元,其用于数据中心化处理,数据中心化处理的公式为:
Y=X-mean(X),X为输入数据,mean(X)为X均值,Y是数据中心化处理后的数据,其均值的期望为0。
其中,预处理模块包括白化单元,其用于白化处理,白化处理的公式为:Z(t)=W0X(t),其中,W0为白化矩阵,Z为白化向量。
其中,估计模块包括:
预估单元,用于预估待估计的分量的个数m;
初始化单元,用于初始权矢量w;
计算单元,用于利用Wp=E{Zg(Wp TZ)}-E{g'(Wp TZ)}计算Wp
判断单元,利用Wp=Wp/||Wp||,判断Wp是否收敛,若收敛,激活去相关单元对Wp做去相关处理,令p=p+1;将p与m比较,当p<m,则返回初始化单元,当p≥m时,结束,得到分离矩阵W;
若不收敛,激活计算单元。
其中去相关单元对Wp做去相关处理包括:
在估计出p个向量W1,W2,,W3,W4,……Wp之后,当估计Wp+1时,先减去p个向量的投影Wp+1 TWj,j=1,…,p,然后标准化Wp+1
将上述盲音分离结构应用到语音控制系统中,其包括:语音检测组件和上述的盲音分离结构;
语音检测组件,用于检测环境内多个信号源语音信息,得到语音信号,供盲音分离结构进行盲音分离。
将上述语音控制系统应用到电器总成中,其包括电器本体和上文的语音控制系统,电器本体和语音控制系统相连。
该电器总成包括了所有需要语音控制的各种电器自动化控制设备,比如:家用电器、中央空调、电子类移动终端中的任一种。
以上仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (15)

  1. 一种盲音分离方法,其特征在于,包括:
    预处理步骤,对检测的语音信号进行降噪预处理,所述语音信号为同时间多个信号源语音信息的线性叠加信号;
    构建步骤,以非高斯度量,对预处理后的语音信号构建目标函数;
    估计步骤,通过迭代算法估计所述目标函数期望最大的分离矩阵W;
    求取步骤,利用U(n)=WX(n)求取估计目标分离信号U(n),其中,X(n)为多个信号源语音信息构建的向量。
  2. 如权利要求1所述的盲音分离方法,其特征在于,所述预处理步骤包括:数据中心化处理,所述数据中心化处理的公式为:
    Y=X-mean(X),X为输入数据,mean(X)为X均值,Y是数据中心化处理后的数据,其均值的期望为0。
  3. 如权利要求1所述的盲音分离方法,其特征在于,所述预处理步骤包括:白化处理,所述白化处理的公式为:Z(t)=W0X(t),其中,W0为白化矩阵,Z为白化向量。
  4. 如权利要求1所述的盲音分离方法,其特征在于,所述目标函数为负熵函数,所述负熵函数的公式为:
    Ng(Z)=H(ZGauss)-H(Z),式中,ZGauss是和Z具有相同方差的高斯随机变量,H(.)为随机变量的微分熵;Z为高斯分布时Ng(Z)=0;
    Z的概率分布为[E{G(z)}–E{G(v)}]2,其中v是准高斯随机变量,G为下凸性质偶函数的非2次函数,优选,
    Figure PCTCN2017103517-appb-100001
    u为变量。
  5. 如权利要求1-4任一项所述的盲音分离方法,其特征在于,所述估计步骤包括:
    预估步骤,预估待估计的分量的个数m;
    初始化步骤,初始权矢量w;
    计算步骤,利用Wp=E{Zg(Wp TZ)}-E{g'(Wp TZ)}计算Wp
    判断步骤,利用Wp=Wp/||Wp||,判断Wp是否收敛;
    若收敛,对Wp做去相关处理;
    令p=p+1,将p与m比较,当p<m,则返回所述初始化步骤,当p≥m时,结束,得到所述分离矩阵W。
  6. 如权利要求5所述的盲音分离方法,其特征在于,所述对Wp做去相关处理包括:
    在估计出p个向量W1,W2,,W3,W4,……Wp之后,当估计Wp+1时,先减去p个向量的投影Wp+1 TWj,j=1,…,p,然后标准化Wp+1
  7. 如权利要求5所述盲音分离方法,其特征在于,若不收敛,则返回所述计算步骤。
  8. 一种执行权利要求1-7任一项所述的盲音分离方法的盲音分离结构,其特征在于,包括:
    预处理模块,用于对检测的语音信号进行降噪预处理,所述语音信号为同时间多个信号源语音信息的线性叠加信号;
    构建模块,用于以非高斯度量,对预处理后的语音信号构建目标函数;
    估计模块,用于通过迭代算法估计所述目标函数期望最大的分离矩阵W;
    求取模块,用于利用U(n)=WX(n)求取估计目标分离信号U(n),其中,X(n)为多个信号源语音信息构建的向量。
  9. 如权利要求8所述的盲音分离结构,其特征在于,所述预处理模块包括数据中心化单元,其用于数据中心化处理,所述数据中心化处理的公式为:
    Y=X-mean(X),X为输入数据,mean(X)为X均值,Y是数据中心化处理后的数据,其均值的期望为0。
  10. 如权利要求8所述的盲音分离结构,其特征在于,所述预处理模块包括白化单元,其用于白化处理,所述白化处理的公式为:Z(t)=W0X(t),其中,W0为白化矩阵,Z为白化向量。
  11. 如权利要求8-10任一项所述的盲音分离结构,其特征在于,所述估计模块包括:
    预估单元,用于预估待估计的分量的个数m;
    初始化单元,用于初始权矢量w;
    计算单元,用于利用Wp=E{Zg(Wp TZ)}-E{g'(Wp TZ)}计算Wp
    判断单元,利用Wp=Wp/||Wp||,判断Wp是否收敛,若收敛,激活去相关单元对Wp做去相关处理,令p=p+1;将p与m比较,当p<m,则返 回所述初始化单元,当p≥m时,结束,得到所述分离矩阵W;
    若不收敛,激活所述计算单元。
  12. 如权利要求11所述的盲音分离结构,其特征在于,所述去相关单元对Wp做去相关处理包括:
    在估计出p个向量W1,W2,,W3,W4,……Wp之后,当估计Wp+1时,先减去p个向量的投影Wp+1 TWj,j=1,…,p,然后标准化Wp+1
  13. 一种语音控制系统,其特征在于,包括:语音检测组件和权利要求8-12任一项所述的盲音分离结构;
    所述语音检测组件,用于检测环境内多个信号源语音信息,得到语音信号,供所述盲音分离结构进行盲音分离。
  14. 一种电器总成,其特征在于,包括电器本体和权利要求13所述的语音控制系统,所述电器本体和所述语音控制系统相连。
  15. 如权利要求14所述的电器总成,其特征在于,包括:家用电器、中央空调、电子类移动终端中的任一种。
PCT/CN2017/103517 2016-09-29 2017-09-26 盲音分离方法、结构及语音控制系统和电器总成 WO2018059406A1 (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
US16/338,198 US10825466B2 (en) 2016-09-29 2017-09-26 Blind signal separation method and structure, voice control system, and electrical appliance assembly
EP17854856.6A EP3522156A4 (en) 2016-09-29 2017-09-26 BLINDER SIGNAL SEPARATION AND STRUCTURE, LANGUAGE CONTROL SYSTEM AND ELECTRICAL EQUIPMENT ASSEMBLY
JP2019517820A JP6790253B2 (ja) 2016-09-29 2017-09-26 ブラインド信号分離方法、構成及び音声制御システム、並びに電器アセンブリ
KR1020197012155A KR20190054157A (ko) 2016-09-29 2017-09-26 블라인드 신호 분리 방법과 구조, 음성 제어 시스템 및 전기 장치 어셈블리

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610866508.9A CN106356075B (zh) 2016-09-29 2016-09-29 盲音分离方法、结构及语音控制系统和电器总成
CN201610866508.9 2016-09-29

Publications (1)

Publication Number Publication Date
WO2018059406A1 true WO2018059406A1 (zh) 2018-04-05

Family

ID=57867241

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/103517 WO2018059406A1 (zh) 2016-09-29 2017-09-26 盲音分离方法、结构及语音控制系统和电器总成

Country Status (6)

Country Link
US (1) US10825466B2 (zh)
EP (1) EP3522156A4 (zh)
JP (1) JP6790253B2 (zh)
KR (1) KR20190054157A (zh)
CN (1) CN106356075B (zh)
WO (1) WO2018059406A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112116922A (zh) * 2020-09-17 2020-12-22 集美大学 一种噪声盲源信号分离方法、终端设备及存储介质

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106356075B (zh) * 2016-09-29 2019-09-17 合肥美的智能科技有限公司 盲音分离方法、结构及语音控制系统和电器总成
CN109413543B (zh) * 2017-08-15 2021-01-19 音科有限公司 一种源信号提取方法、系统和存储介质
CN109994120A (zh) * 2017-12-29 2019-07-09 福州瑞芯微电子股份有限公司 基于双麦的语音增强方法、系统、音箱及存储介质
WO2020172831A1 (en) * 2019-02-28 2020-09-03 Beijing Didi Infinity Technology And Development Co., Ltd. Concurrent multi-path processing of audio signals for automatic speech recognition systems
WO2021100136A1 (ja) * 2019-11-20 2021-05-27 日本電信電話株式会社 音源信号推定装置、音源信号推定方法、プログラム
CN111312276B (zh) * 2020-02-14 2023-01-17 北京声智科技有限公司 一种音频信号处理的方法、装置、设备和介质
CN113674752B (zh) * 2020-04-30 2023-06-06 抖音视界有限公司 音频信号的降噪方法、装置、可读介质和电子设备
CN111863020B (zh) * 2020-07-30 2022-09-20 腾讯科技(深圳)有限公司 语音信号处理方法、装置、设备及存储介质
CN112082793A (zh) * 2020-08-31 2020-12-15 洛阳师范学院 一种基于SCA和FastICA的旋转机械耦合故障诊断方法
CN113470689B (zh) * 2021-08-23 2024-01-30 杭州国芯科技股份有限公司 一种语音分离方法
CN113794489B (zh) * 2021-09-07 2022-12-20 中国人民解放军陆军工程大学 一种通信抗强相关干扰的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070133811A1 (en) * 2005-12-08 2007-06-14 Kabushiki Kaisha Kobe Seiko Sho Sound source separation apparatus and sound source separation method
CN101833955A (zh) * 2010-01-22 2010-09-15 大连理工大学 一种基于负熵最大化的复数约束独立分量分析方法
CN104064186A (zh) * 2014-06-26 2014-09-24 山东大学 一种基于独立分量分析的电气设备故障音检测方法
CN106356075A (zh) * 2016-09-29 2017-01-25 合肥华凌股份有限公司 盲音分离方法、结构及语音控制系统和电器总成

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0204548D0 (en) * 2002-02-27 2002-04-10 Qinetiq Ltd Blind signal separation
US8874439B2 (en) * 2006-03-01 2014-10-28 The Regents Of The University Of California Systems and methods for blind source signal separation
JP5078717B2 (ja) * 2008-04-08 2012-11-21 三菱電機株式会社 入射波数推定装置及び入射波数推定方法
JP2011107603A (ja) * 2009-11-20 2011-06-02 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
JP5408810B2 (ja) * 2011-06-24 2014-02-05 アイシン・エィ・ダブリュ株式会社 音声認識制御システム、音声認識制御方法、及び音声認識制御プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070133811A1 (en) * 2005-12-08 2007-06-14 Kabushiki Kaisha Kobe Seiko Sho Sound source separation apparatus and sound source separation method
CN101833955A (zh) * 2010-01-22 2010-09-15 大连理工大学 一种基于负熵最大化的复数约束独立分量分析方法
CN104064186A (zh) * 2014-06-26 2014-09-24 山东大学 一种基于独立分量分析的电气设备故障音检测方法
CN106356075A (zh) * 2016-09-29 2017-01-25 合肥华凌股份有限公司 盲音分离方法、结构及语音控制系统和电器总成

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHEN, YAN: "Application of Improved independent Component Analysis Technology in Speech Signal Separation", ELECTRONIC SCIENCE AND TECHNOLOGY, vol. 22, no. 12, 15 December 2009 (2009-12-15), pages 83 - 87, XP009513559, ISSN: 1007-7820 *
QIU, ZUOCHUN: "Application of ICA in signal separation and denoising", POPULAR SCIENCE & TECHNOLOGY, no. 12, 31 December 2009 (2009-12-31), pages 28 - 29, XP009518731, ISSN: 1008-1151 *
See also references of EP3522156A4 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112116922A (zh) * 2020-09-17 2020-12-22 集美大学 一种噪声盲源信号分离方法、终端设备及存储介质
CN112116922B (zh) * 2020-09-17 2024-04-12 集美大学 一种噪声盲源信号分离方法、终端设备及存储介质

Also Published As

Publication number Publication date
US20200027473A1 (en) 2020-01-23
EP3522156A1 (en) 2019-08-07
EP3522156A4 (en) 2019-10-30
JP2019533194A (ja) 2019-11-14
CN106356075A (zh) 2017-01-25
US10825466B2 (en) 2020-11-03
JP6790253B2 (ja) 2020-11-25
CN106356075B (zh) 2019-09-17
KR20190054157A (ko) 2019-05-21

Similar Documents

Publication Publication Date Title
WO2018059406A1 (zh) 盲音分离方法、结构及语音控制系统和电器总成
JP7186769B2 (ja) 対象音声検出方法及び装置
JP2019533193A (ja) 音声制御システム及びそのウェイクアップ方法、ウェイクアップ装置、並びに家電製品、コプロセッサ
CN105704298A (zh) 声音唤醒侦测装置与方法
Liao et al. Power disaggregation for low-sampling rate data
Kobayashi et al. Acoustic feature extraction by statistics based local binary pattern for environmental sound classification
WO2021008000A1 (zh) 语音唤醒方法、装置及电子设备、存储介质
Zhou et al. Mixing matrix estimation from sparse mixtures with unknown number of sources
WO2013089536A1 (ko) 관심음원 제거방법 및 그에 따른 음성인식방법 및 음성인식장치
CN113591736A (zh) 特征提取网络、活体检测模型的训练方法和活体检测方法
WO2023273747A1 (zh) 智能设备的唤醒方法和装置、存储介质及电子装置
Srinivasarengan et al. A framework for non intrusive load monitoring using bayesian inference
Kumar et al. Data-driven electrical load disaggregation using graph signal processing
Kumar et al. An intuitive explanation of graph signal processing-based electrical load disaggregation
CN110190832B (zh) 变正则化参数多任务自适应滤波器网络
KR101711302B1 (ko) 변별적 가중치 학습기법을 이용한 2 채널 마이크 기반의 음성 검출 장치 및 그 방법
Azizan et al. A stochastic interpretation of stochastic mirror descent: Risk-sensitive optimality
Shin et al. An affine projection algorithm with update-interval selection
WO2019183747A1 (zh) 语音检测的方法和装置
Djurovic et al. QQ-plot based probability density function estimation
CN112185367A (zh) 关键词检测方法和装置、计算机可读存储介质、电子设备
Ito Recognition of sounds using square cauchy mixture distribution
Chen et al. Acoustic vector sensor based speech source separation with mixed Gaussian-Laplacian distributions
Srikrishnan et al. Improved noise characterization for Relative Impulse Response Estimation
Liu et al. An adaptive non local spatial fuzzy image segmentation algorithm

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17854856

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2019517820

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 20197012155

Country of ref document: KR

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2017854856

Country of ref document: EP

Effective date: 20190429