WO2023273469A1 - 模型训练方法、语音检测定位方法、装置、设备及介质 - Google Patents
模型训练方法、语音检测定位方法、装置、设备及介质 Download PDFInfo
- Publication number
- WO2023273469A1 WO2023273469A1 PCT/CN2022/084599 CN2022084599W WO2023273469A1 WO 2023273469 A1 WO2023273469 A1 WO 2023273469A1 CN 2022084599 W CN2022084599 W CN 2022084599W WO 2023273469 A1 WO2023273469 A1 WO 2023273469A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- target
- channel audio
- corpus
- label
- audio
- Prior art date
Links
- 238000012549 training Methods 0.000 title claims abstract description 84
- 238000000034 method Methods 0.000 title claims abstract description 74
- 238000001514 detection method Methods 0.000 title claims abstract description 45
- 230000004807 localization Effects 0.000 title claims abstract description 6
- 239000013598 vector Substances 0.000 claims abstract description 97
- 238000013528 artificial neural network Methods 0.000 claims abstract description 9
- 238000004590 computer program Methods 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 9
- 238000010586 diagram Methods 0.000 description 9
- 239000000523 sample Substances 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02166—Microphone arrays; Beamforming
Abstract
一种模型训练方法、语音检测定位方法、装置、设备及介质。该方法包括:通过麦克风阵列接收语料,得到多通道音频;语料为语音语料或者噪音语料;获取多通道音频的音频特征参数和目标向量,目标向量包括N个标签,N个标签与N个空间区域一一对应,每个标签表示对应的空间区域含有语音的概率;将多通道音频的音频特征参数作为训练样本的输入,将多通道音频的目标向量作为训练样本的目标输出,并利用训练样本对深度神经网络进行训练,得到目标模型;从而提高目标模型的精确度,进而提高语音检测定位的准确度。
Description
交叉引用
本申请引用于2021年06月30日递交的名称为“模型训练方法、语音检测定位方法、电子设备及存储介质”的第2021107444925号中国专利申请,其通过引用被全部并入本申请。
本申请实施例涉及深度学习领域,特别涉及模型训练方法、语音检测定位方法、装置、设备及介质。
在服务型机器人的语音交互场景中,机器人通常需要对来自正面的语音做出响应,因此机器人需要检测出语音并确定语音的声源方向,机器人需要语音活性检测(VAD,Voice Activity Detection)检测音频信号中是否含有语音,以及波达方向估计(DOA,Direction Of Arrival)确定声源的方向。
然而,相关技术中的VAD、DOA通常是各自独立工作的,即VAD仅能判断出音频中是否含有语音,但不知道声源的方向,DOA可以估计声源的方向,但不知道这个方向的声音是语音还是噪声,也即VAD、DOA独自处理的方案无法确定语音的声源方向;当机器人正面存在一个强噪声,而侧面有人说话时,到达机器人的声音是两个声波的叠加,经VAD处理后会认为音频中含有语音,DOA处理的结果则会认为声源来自正面,实际上此时的语音来自侧面,也即对语音的声源方向做了误检。
发明内容
本申请实施例的目的在于提供一种模型训练方法、语音检测定位方法、装置、设备及介质,从而提高麦克风阵列对语音检测定位的准确性。
为解决上述技术问题,本申请的实施例提供了一种模型训练方法,包括:通过麦克风阵列接收语料,得到多通道音频;所述语料为语音语料或者噪音语料;所述麦克风阵列的外部区域以所述麦克风阵列为中心等角度划分为N 个空间区域,所述语料的声源位于N个所述空间区域中的一个所述空间区域;获取所述多通道音频的音频特征参数和目标向量,所述目标向量包括N个标签,N个所述标签与N个所述空间区域一一对应,每个所述标签表示对应的所述空间区域含有语音的概率;将所述多通道音频的所述音频特征参数作为训练样本的输入、将所述多通道音频的所述目标向量作为所述训练样本的目标输出,并利用所述训练样本对深度神经网络进行训练,得到目标模型。
本申请的实施例还提供了一种语音检测定位方法,包括:通过麦克风阵列实时接收来自所述麦克风阵列的外部区域的声音,得到实时多通道音频;获取所述实时多通道音频的音频特征参数;将所述实时多通道音频的音频特征参数输入至根据上述模型训练方法得到的所述目标模型中,得到所述目标模型的输出向量;所述输出向量包括与N个所述空间区域一一对应的N个标签,每个所述标签表示对应的所述空间区域含有语音的概率。
本申请的实施例还提供了一种模型训练装置,包括:接收单元,被配置为通过麦克风阵列接收语料,得到多通道音频;所述语料为语音语料或者噪音语料;所述麦克风阵列的外部区域以所述麦克风阵列为中心等角度划分为N个空间区域,所述语料的声源位于N个所述空间区域中的一个所述空间区域;
获取单元,被配置为获取所述多通道音频的音频特征参数和目标向量,所述目标向量包括N个标签,N个所述标签与N个所述空间区域一一对应,每个所述标签表示对应的所述空间区域含有语音的概率;
训练单元,被配置为将所述多通道音频的所述音频特征参数作为训练样本的输入,将所述多通道音频的所述目标向量作为所述训练样本的目标输出,并利用所述训练样本对深度神经网络进行训练,得到目标模型。
本申请的实施例还提供了一种语音检测定位装置,包括:
接收单元,被配置为通过麦克风阵列实时接收来自所述麦克风阵列外部区域的声音,得到实时多通道音频;
获取单元,被配置为获取所述实时多通道音频的音频特征参数;
处理单元,被配置为将所述实时多通道音频的音频特征参数输入至根据上述模型训练方法得到的所述目标模型中,得到所述目标模型的输出向量;所述输出向量包括与N个所述空间区域一一对应的N个标签,每个所述标签表示对应的所述空间区域含有语音的概率。
本申请的实施例还提供了一种电子设备,其特征在于,包括:至少一个 处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,或者所述至少一个处理器能够执行上述的模型训练方法、以及执行上述的语音检测定位方法。
本申请的实施例还提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述的模型训练方法、或者执行时实现上述的语音检测定位方法。
本申请的实施例还提供了一种计算机程序,包括计算机程序和/或指令,计算机程序和/或指令被处理器执行时实现上述的模型训练方法、或者执行时实现上述的语音检测定位方法。
本申请实施例相对于现有技术而言,通过麦克风阵列接收一个空间区域内发出的语料,得到多通道音频,获取多通道音频的音频特征参数及目标向量,将音频特征参数与目标向量作为一对训练样本输入至目标模型进行模型训练,提高目标模型的精确度,从而提高语音检测定位的准确度。
另外,所述语料是通过对采集的语音样本或噪音样本按所述固定时长划分得到的。
另外,所述获取所述多通道音频的音频特征参数,具体包括:计算所述多通道音频中每个通道音频的梅尔频率倒谱系数组;提取每个所述梅尔频率倒谱系数组的前M个系数;将多个所述M个系数组合得到所述多通道音频的音频特征参数。
另外,所述语料为语音语料时,所述多通道音频对应的所述目标向量包括的N个标签中,所述目标空间区域对应的所述标签为1,所述目标空间区域是指发出所述语音语料的空间区域,所述N个空间区域中除所述目标空间区域外的其他空间区域对应的所述标签为0;所述语料为噪音语料时,所述多通道音频的所述目标向量包括的N个标签均为0。
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是根据本申请一实施例的模型训练方法的流程示意图;
图2是根据本申请一实施例的麦克风阵列的空间区域的划分示意图;
图3是根据本申请一实施例的模型训练方法的流程示意图;
图4是根据本申请一实施例的语音检测定位方法的流程示意图;
图5是根据本申请一实施例的语音检测定位方法的流程示意图;
图6是根据本申请一实施例的语音检测定位方法的流程示意图;
图7是根据本申请一实施例的电子设备的结构示意图;
图8是根据本申请一实施例的一种模型训练装置的结构示意图;
图9是根据本申请一实施例的一种语音检测定位装置的结构示意图。
本申请的第一实施例涉及一种模型训练方法,本实施例的具体流程如图1所示,具体包括以下步骤:
步骤101,通过麦克风阵列接收语料,得到多通道音频。
具体地说,本实施例应用于语音检测定位设备中,语音检测定位设备包括有麦克风阵列,如图2所示,为麦克风阵列的空间区域的划分示意图,麦克风阵列10的外部区域以麦克风阵列为中心等角度划分为N个空间区域。在进行模型训练的过程中,将发出语料的声源放置在N个空间区域中的一个空间区域即可,例如,将声音放置在如图2所示的A区域中。
具体地说,语料可以为语音语料或者噪音语料;由于语音检测定位设备中的目标模型需要不断地学习,因此语料的种类应当尽可能地覆盖生活中的各种语音语料以及噪音语料,从而提高目标模型学习的精确度。
步骤102,获取多通道音频的音频特征参数和目标向量。
具体地说,本实施例将目标向量设置为包括有N个标签的向量,其中N个标签与N个空间区域一一对应,每个标签用于表示对应的空间区域含有语音的概率。
在一个实施例中,可以这样进行设置,当语料为语音语料时,多通道音频对应的目标向量包括的N个标签中,目标空间区域对应的标签为1,目标空间区域是指发出语音语料的空间区域;N个空间区域中除目标空间区域外的其他空间区域对应的标签均为0;当语料为噪音语料时,多通道音频对应的目标向量包括的N个标签均为0。通过标签的数值可以反映出对应的空间区域是否含有语音。
举例而言,如图2所示,若语料的声源位于A空间区域,且语料为语音语料时,那么根据上述的方式可以确定A空间区域对应的标签为1,除A空间区域以外的其他空间区域对应的标签为0;若语料的声源位于A空间区域,且语料为噪音语料时,那么根据上述的方式可以确定每个空间区域的标签均为0。以N=6为例进行说明,每个多通道音频对应的目标向量应当为[1,0,0,0,0,0]这类形式,第一个“1”表示语料中存在语音且语音的声源位于第一个空间区域内,例如可以定义A空间区域为第一个空间区域,“0”表示对应的空间区域内不存在语音;通过此种向量表示可以清楚知道语料中是否含有语音以及语音来自哪个区域。
需要说明的是,模型训练的过程中,语料的声源所在的位置是已知的,语料是噪声还是语音也是已知的,而多通道音频是对该语料的转录,所以可以得出该多通道音频对应的目标向量,目标向量是该多通道音频在目标模型下的期望输出。通过此种设置,即在目标向量设置地十分理想的状态下,可以使得在模型训练的过程中,训练的目标模型的精确度较高。
需要说明的是,目标向量中标签的数值可以设置为其他的数值,例如,语音语料对应的目标向量包括的N个标签中,目标空间区域对应的标签为0,N个空间区域中除目标空间区域外的其他空间区域对应的标签均为1,噪音语料对应的目标向量包括的N个标签均为1,即采取与上一实施例相反的方式进行设置。此处仅为施例性说明,在实际中也可以为其他的数值,只要能够根据标签的数值确定是否含有语音以及语音的声源所在的区域即可,只要包含相同的逻辑关系,均本申请的保护范围之内。
步骤103,将多通道音频的音频特征参数作为训练样本的输入,将多通道音频的目标向量作为训练样本的目标输出,并利用训练样本对深度神经网络进行训练,得到目标模型。
具体地说,每个多通道音频的音频特征参数和目标向量为一对训练样本,音频特征参数作为训练样本的输入,目标向量作为训练样本的目标输出,并将音频特征参数与目标向量输入至深度神经网络中进行训练,从而完成一次模型训练的过程,完善目标模型中,且通过不断地反复的训练,可以得到一个精确度较高的目标模型,提高语音检测定位的准确性。
本实施例中,通过麦克风阵列接收一个空间区域内发出的语料,得到多通道音频,获取每个多通道音频对应的音频特征参数以及目标向量,将音频 特征参数与目标向量作为一对训练样本输入至目标模型进行模型训练,从而提高目标模型的精确度,进而提高语音检测定位的准确度。
在一个实施例中,语料是通过对采集的语音样本和噪音样本按固定时长划分得到的。
具体地说,在进行模型训练之前,会采集多个语音样本、多个噪音样本,语音样本与噪音样本需要尽可能地丰富,从而提高样本的多样性,进而提高目标模型的鲁棒性;在采集多个语音样本以及多个噪音样本之后,再对每个样本进行划分,即分别对采集的语音样本、采集的噪音样本按固定时长划分得到的多段语料,每个语料的时长等于该固定时长,例如30ms。通过此种划分可以获得时长相同的多段语料,语料长度的一致性不仅简化了模型训练的过程,也可以进一步提高获取的目标模型的精确度。
需要说明的是,对采集的语音样本、采集的噪音样本按固定时长划分得到的多段语料之后,还可以将多段语料随机组合形成一个混合语料集,该混合语料包括有语音语料和噪音语料;将多个语料组合成一个混合语料集,在进行模型训练时,可以在麦克风阵列的一个空间区域放置一个声源,通过该声源对该混合语料集进行播放,相当于依次播放了多段语料,目标模型对每段语料对应的多通道音频均进行一次上述模型训练方法的学习,简化了播放的过程。在需要对其他空间区域进行模型训练时,将声源放置在其他空间区域内对该混合语料集进行播放,再次重复上述模型训练方法,直至遍历完所有的空间区域,从而不断地完善目标模型。
需要说明的是,为了提高目标模型的精确度,可以将混合语料集重复在每个空间区域播放,目标模型再次通过上述的模型训练方法再次学习,将混合语料集再次遍历所有的空间区域,从而通过二次或者多次模型训练,进一步提高目标模型的精确度。
具体地说,N个空间区域按照角度划分,图2中A空间区域作为第一空间区域,以图2中水平向右的方向作为基准角度即0度,按照逆时针方向作为空间区域的排序,其中与基准角度之间的形成夹角的角度范围代表每个空间区域的范围。在进行模型训练时,对于第i个空间区域,在其
角度处使用高保真音响或者人工嘴播放上述的混合语料集,人工嘴即一种音响设备,能较好的模拟人嘴所产生的声场,并使用每个麦克风对该语料进行录音,从 而得到一份对应于第i个空间区域的多通道音频;之后,需要对该多通道音频的每一段进行标注,得到每一段对应的目标向量,标注方法如下:假设是对混合语料的第j个语料进行标注,第i个空间区域录音的第j段音频的标签是一个1×N的目标向量Label
i,j,目标向量的每个标签均遵循下述公式,即
其中,k表示目标向量中每个标签的顺序,若i=1,N=6且第j段语料含有语音,这对应的目标向量为[1,0,0,0,0,0]。
具体地说,麦克风阵列包括P个麦克风;每个麦克风均可以接收语料,得到P个音频,即多通道音频。在一个实施例中,获取多通道音频的音频特征参数,具体包括:计算每个音频的梅尔频率倒谱系数组;提取每个梅尔频率倒谱系数组的前M个系数;将多个M个系数组合得到多通道音频的音频特征参数。本实施例的具体流程示意图如图3所示,具体包括以下步骤:
步骤201,通过麦克风阵列接收语料,得到多通道音频。
具体地说,麦克风阵列包括P个麦克风;每个麦克风均可以接收语料,得到P个音频,即多通道音频,其中,由于P个麦克风的位置不同,当同一语料在一个空间区域播放时,每个麦克风获取的音频也不相同,每个麦克风模组获取的梅尔频率倒谱系数组也不相同。
步骤202,计算多通道音频中每个通道音频的梅尔频率倒谱系数组。
具体地说,梅尔频率倒谱系数组是对每个通道音频进行计算从而得到的一连串系数。
步骤203,提取每个梅尔频率倒谱系数组的前M个系数。
具体地说,梅尔频率倒谱系数组由一连串系数组成,若直接将P个梅尔频率倒谱系数组直接组合会导致计算量较大,而梅尔频率倒谱系数组的前段的系数即可以展示音频的特征,因此,本实施例中仅获取每个梅尔频率倒谱系数组的前M个系数,M可以根据实际需要进行设置,例如M为22,本实施例不作具体限定,如此,可以在兼顾多通道音频的音频特征参数准确性的同时尽可能地减缓计算压力。
需要说明的是,即使是同一语料,当该语料播放的位置不同时,获取到的多通道音频即不同,多通道音频相应的音频特征参数也不相同;因此,通 过以该多通道音频对应的音频特征参数与目标向量训练模型,可以得到精确度较高的目标模型。
步骤204,将多个M个系数组合得到语料的音频特征参数。
步骤205,获取多通道音频对应的目标向量。
步骤206,将多通道音频的音频特征参数作为训练样本的输入,将多通道音频对应的目标向量作为训练样本的目标输出,并利用训练样本对深度神经网络进行训练,得到目标模型。
上述步骤201、步骤205、步骤206与上一实施例的步骤101至步骤103相同的部分,为避免重复,在此不再赘述。
本申请一实施例涉及一种语音检测定位方法,本实施例的语音检测定位方法具体流程示意图如图4所示,具体包括以下步骤:
步骤301,通过麦克风阵列实时接收来自麦克风阵列的外部区域的声音,得到实时多通道音频。
具体地说,当麦克风阵列的外部区域存在声音时,麦克风阵列并不确定该声音是否包括语音以及该语音的方位,因此,在上一实施例已经获取了精确度较高的目标模型的情况下,通过上述的目标模型来判断该声音是否包括语音以及该语音的方位,可以提高语音检测定位的准确性。
需要说明的是,本实施例仅截取外部区域内发出的声音的当前的一小段声音,举例而言,比如麦克风阵列的外部区域有用户在说话且用户在说话时位置不断地发生变化,若仅截取该语音的任意一段声音,那么通过语音检测定位方法仅能获取该用户在发出该声音时所在的位置,而此时用户已运动至其他区域,导致检测结果出现偏差。因此,本实施例中,实时获取外部麦克风阵列的外部区域的声音,得到实时多通道音频,并进行语音检测定位,可以实时获取到该声音是否包括语音以及语音的声源所在的方位。
具体地说,实时获取外部麦克风阵列的外部区域的声音,可以设置一个固定时长,例如30ms,即实时获取外部区域的30ms长度的声音,得到实时多通道音频。
步骤302,获取实时多通道音频的音频特征参数。
具体地说,目标模型的输入为实时多通道音频的音频特征参数,因此,在获实时多通道音频后,可以根据上一实施例的步骤202至步骤204的方式 获取该实时多通道音频的音频特征参数,并输入至目标模型中。
步骤303,将实时多通道音频的音频特征参数输入至目标模型中,得到目标模型的输出向量。
具体地说,在目标模型以及实时多通道音频对应的音频特征参数已知的情况下,可以获取该实时多通道音频在该目标模型的输出向量,其中,目标模型是通过上一实施例的模型训练方法获取得到的。该输出向量包括N个标签,N个标签与N个空间区域一一对应;每个标签表示对应的空间区域含有语音的概率。例如,以N=6为例,实时多通道音频对应的音频特征输入值目标模型之后,目标模型的输出向量为[0.9,0.1,0.2,0.4,0.5,0.8],其中,表示第一空间区域内存在语音的概率为0.9,第二空间区域内存在语音的概率为0.1,第三空间区域内存在语音的概率为0.2,第四空间区域内存在语音的概率为0.4,第五空间区域内存在语音的概率为0.5,第六空间区域内存在语音的概率为0.8;通过得到的输出向量,可以预测实时多通道音频是否存在语音以及语音的发出位置。
本实施例通过使用上一实施例的模型训练方法得到的目标模型,可以使得语音检测定位的结构更加准确,提高语音检测定位的准确性。
在一个实施例中,在得到目标模型的输出向量之后,还包括:在输出向量中查找待测空间区域对应的目标标签;本实施例的具体流程示意图如图5所示,具体包括以下步骤:
步骤401,通过麦克风阵列实时接收来自麦克风阵列的外部区域的声音,得到实时多通道音频。
步骤402,获取实时多通道音频的音频特征参数。
步骤403,将实时多通道音频的音频特征参数输入至目标模型中,得到目标模型的输出向量。
上述步骤401至步骤403与上一实施例的步骤301至步骤303相同,为避免重复,在此不在赘述。
步骤404,在输出向量中查找待测空间区域对应的目标标签。
具体地说,在需要测试N个空间区域中的某一特定的空间区域是否存在语音时,将该空间区域作为待测空间区域,并在获取目标模型的输出向量中查找待测空间区域对应的标签即目标标签。例如,在目标模型的输出向量[0.9,0.1,0.2,0.4,0.5,0.8]中,若待测空间区域为第一空间区域,则在输出向量 中找到第一个标签0.9即为第一空间区域中存在语音的概率。
步骤405,判断目标标签是否满足第一预设条件。若是,进入步骤406,若否,进入步骤407。
具体地说,第一预设条件可以为目标标签与一个预设阈值之间的大小关系,例如,预设阈值可以设置为0.8,当目标标签大于0.8时,可以认为目标标签对应的待测空间区域内存在语音,也就是说,此时遵循的规则是目标标签的数值越大,表示目标空间区域存在语音的概率越大;当然,此处仅是施例性说明,也可以设置为目标标签小于0.8时,认为目标空间区域内存在语音,也就是说,此时遵循的规则是目标标签的数值越小,表示目标空间区域存在语音的概率越大。具体的规则可以根据实际需要进行设置,本实施例不作具体限定。
步骤406,判定目标空间区域内存在语音。
步骤407,判断目标空间区域内不存在语音。
本实施例通过限定一个待测空间位置,使用上一实施例的模型训练方法得到的目标模型,确定待测空间位置是否存在语音,提高语音检测定位的准确性。
在一个实施例中,在得到目标模型的输出向量之后,还包括:在输出向量中查找目标标签,目标标签为数值最大或最小的标签;本实施例的具体流程示意图如图6所示,具体包括以下步骤:
步骤501,通过麦克风阵列实时接收来自麦克风阵列的外部区域的声音,得到实时多通道音频。
步骤502,获取实时多通道音频的音频特征参数。
步骤503,将实时多通道音频的音频特征参数输入至目标模型中,得到目标模型的输出向量。
上述步骤501至步骤503与上一实施例的步骤301至步骤303相同,为避免重复,再次不在赘述。
步骤504,在输出向量中查找目标标签,目标标签为输出向量的N个标签中数值最大或最小的标签。
具体地说,当用户需要判断麦克风阵列的外部区域是否存在语音以及语音的声源位置时,可以在获取目标向量的输出向量之后,在目标向量的N个标签中获取目标标签;其中目标标签为输出向量的N个标签中数值最大或最 小的标签。
具体地说,由于用户可以根据需求设置不同的规则,即可能是第一种规则即目标标签的数值越大,表示目标空间区域存在语音的概率越大,也可能是第二种规则即目标标签的数值越小,表示目标空间区域存在语音的概率越小。因此,为了区分这两者情况,在第一种规则下,获取输出向量的N个标签中数值最大的标签作为目标标签,在第二种规则下,获取输出向量的N个标签中数值最小的标签作为目标标签。
步骤505,判断目标标签是否满足第二预设条件。若是,则进入步骤506,若否则进入步骤507。
具体地说,在第一种规则下,获取输出向量的N个标签中数值最大的标签作为目标标签,第二预设条件可以为目标标签是否大于或等于第一预设门限,在目标标签大于或等于第一预设门限时,可以判断麦克风阵列的外部区域存在语音,且目标标签对应的空间区域为语音的声源所在方位。在第二种规则下,获取输出向量的N个标签中数值最小的标签作为目标标签,第二预设条件可以为目标标签是否小于或等于第二预设门限,在目标标签小于或等于第二预设门限时,可以判断麦克风阵列的外部区域存在语音,且目标标签对应的空间区域为语音的声源所在方位。
步骤506,判定麦克风阵列的外部区域存在语音,并将目标区域对应的空间区域作为语音的声源位置。
步骤507,判定麦克风阵列的外部区域不存在语音。
上面各种方法的步骤划分,只是为了描述清楚,实现时可以合并为一个步骤或者对某些步骤进行拆分,分解为多个步骤,只要包括相同的逻辑关系,都在本专利的保护范围内;对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计,但不改变其算法和流程的核心设计都在该专利的保护范围内。
本申请一实施例涉及一种电子设备,如图7所示,包括:至少一个处理器601;以及,与至少一个处理器601通信连接的存储器602;其中,存储器存储有可被至少一个处理器601执行的指令,指令被所述至少一个处理器601执行,以使至少一个处理器601能够执行如上述的模型训练方法、以及执行上述的语音检测定位方法。
其中,存储器602和处理器601采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器601和存储器602的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器601处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器601。
处理器601负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器602可以被用于存储处理器在执行操作时所使用的数据。
图8为本申请实施例提供的一种模型训练装置。如图8所示,其中该模型训练装置包括:
接收单元801,被配置为通过麦克风阵列接收语料,得到多通道音频;所述语料为语音语料或者噪音语料;所述麦克风阵列的外部区域以所述麦克风阵列为中心等角度划分为N个空间区域,所述语料的声源位于N个所述空间区域中的一个所述空间区域;
获取单元802,被配置为获取所述多通道音频的音频特征参数和目标向量,所述目标向量包括N个标签,N个所述标签与N个所述空间区域一一对应,每个所述标签表示对应的所述空间区域含有语音的概率;
训练单元803,被配置为将所述多通道音频的所述音频特征参数作为训练样本的输入,将所述多通道音频的所述目标向量作为所述训练样本的目标输出,并利用所述训练样本对深度神经网络进行训练,得到目标模型。
可选地,所述语料是通过对采集的语音样本或者噪音样本按所述固定时长划分得到的。
可选地,所述获取单元802获取所述多通道音频的音频特征参数时,被具体配置为计算所述多通道音频中每个通道音频的梅尔频率倒谱系数组;提取每个所述梅尔频率倒谱系数组的前M个系数;将多个所述M个系数组合得到所述多通道音频的音频特征参数。
可选地,所述语料为语音语料时,所述多通道音频对应的所述目标向量包括的N个所述标签中,所述目标空间区域对应的所述标签为1,所述目标 空间区域是指发出所述语音语料的所述空间区域,所述N个空间区域中除所述目标空间区域外的其他空间区域对应的所述标签为0;
所述语料为噪音语料时,所述多通道音频对应的所述目标向量包括的N个标签均为0。
图9为本申请实施例提供的一种语音检测定位装置。如图9所示,其中该语音检测定位装置包括:
接收单元901,被配置为通过麦克风阵列实时接收来自所述麦克风阵列外部区域的声音,得到实时多通道音频;
获取单元902,被配置为获取所述实时多通道音频的音频特征参数;
处理单元903,被配置为将所述实时多通道音频的音频特征参数输入至根据上述模型训练方法得到的所述目标模型中,得到所述目标模型的输出向量;所述输出向量包括与N个所述空间区域一一对应的N个标签,每个所述标签表示对应的所述空间区域含有语音的概率。
可选地,所述处理单元903在得到所述目标模型的输出向量之后,还被配置为:在所述输出向量中查找待测空间区域对应的标签,所述待测空间区域为N个所述空间区域中的一个所述空间区域;判断所述待测空间区域对应的标签是否满足第一预设条件;若是,则判定所述待测空间区域内存在语音;若否,则判定所述待测空间区域内不存在语音。
可选地,所述处理单元903在得到所述目标模型的输出向量之后,还被配置为:在所述输出向量中查找目标标签,所述目标标签为所述输出向量的N个标签中数值最大或最小的标签;判断所述目标标签是否满足第二预设条件;若是,则判定所述麦克风阵列的外部区域存在语音,并将所述目标标签对应的所述空间区域作为所述语音的声源位置;若否,则判定所述麦克风阵列的外部区域不存在语音。
可选地,若所述目标标签为数值最大的标签,则所述第二预设条件为:所述目标标签是否大于或等于第一预设门限;若所述目标标签为数值最小的标签,则所述第二预设条件为:所述目标标签是否小于或等于第二预设门限。
本申请一实施例涉及一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。
在示例性实施例中,还提供一种计算机程序,包括计算机程序和/或指令,计算机程序和/或指令被处理器执行时实现前述各实施例中提供的模型训练方 法、或者执行时实现前述各实施例中提供的语音检测定位方法。该计算机程序/指令是由运行在终端或服务器上的程序实现的。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域的普通技术人员可以理解,上述各实施例是实现本申请的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。
Claims (13)
- 一种模型训练方法,其特征在于,包括:通过麦克风阵列接收语料,得到多通道音频;所述语料为语音语料或者噪音语料;所述麦克风阵列的外部区域以所述麦克风阵列为中心等角度划分为N个空间区域,所述语料的声源位于N个所述空间区域中的一个所述空间区域;获取所述多通道音频的音频特征参数和目标向量,所述目标向量包括N个标签,N个所述标签与N个所述空间区域一一对应,每个所述标签表示对应的所述空间区域含有语音的概率;将所述多通道音频的所述音频特征参数作为训练样本的输入,将所述多通道音频的所述目标向量作为所述训练样本的目标输出,并利用所述训练样本对深度神经网络进行训练,得到目标模型。
- 根据权利要求1所述的模型训练方法,其特征在于,所述语料是通过对采集的语音样本或者噪音样本按所述固定时长划分得到的。
- 根据权利要求1所述的模型训练方法,其特征在于,所述获取所述多通道音频的音频特征参数,具体包括:计算所述多通道音频中每个通道音频的梅尔频率倒谱系数组;提取每个所述梅尔频率倒谱系数组的前M个系数;将多个所述M个系数组合得到所述多通道音频的音频特征参数。
- 根据权利要求1所述的模型训练方法,其特征在于,所述语料为语音语料时,所述多通道音频对应的所述目标向量包括的N个所述标签中,所述目标空间区域对应的所述标签为1,所述目标空间区域是指发出所述语音语料的所述空间区域,所述N个空间区域中除所述目标空间区域外的其他空间区域对应的所述标签为0;所述语料为噪音语料时,所述多通道音频对应的所述目标向量包括的N个标签均为0。
- 一种语音检测定位方法,其特征在于,包括:通过麦克风阵列实时接收来自所述麦克风阵列外部区域的声音,得到实时多通道音频;获取所述实时多通道音频的音频特征参数;将所述实时多通道音频的音频特征参数输入至根据权利要求1至4任一 项所述的模型训练方法得到的所述目标模型中,得到所述目标模型的输出向量;所述输出向量包括与N个所述空间区域一一对应的N个标签,每个所述标签表示对应的所述空间区域含有语音的概率。
- 根据权利要求5所述的语音检测定位方法,其特征在于,在所述得到所述目标模型的输出向量之后,还包括:在所述输出向量中查找待测空间区域对应的标签,所述待测空间区域为N个所述空间区域中的一个所述空间区域;判断所述待测空间区域对应的标签是否满足第一预设条件;若是,则判定所述待测空间区域内存在语音;若否,则判定所述待测空间区域内不存在语音。
- 根据权利要求5所述的语音检测定位方法,其特征在于,在所述得到所述目标模型的输出向量之后,还包括:在所述输出向量中查找目标标签,所述目标标签为所述输出向量的N个标签中数值最大或最小的标签;判断所述目标标签是否满足第二预设条件;若是,则判定所述麦克风阵列的外部区域存在语音,并将所述目标标签对应的所述空间区域作为所述语音的声源位置;若否,则判定所述麦克风阵列的外部区域不存在语音。
- 根据权利要求7所述的语音检测定位方法,其特征在于,若所述目标标签为数值最大的标签,则所述第二预设条件为:所述目标标签是否大于或等于第一预设门限;若所述目标标签为数值最小的标签,则所述第二预设条件为:所述目标标签是否小于或等于第二预设门限。
- 一种模型训练装置,其特征在于,包括:接收单元,被配置为通过麦克风阵列接收语料,得到多通道音频;所述语料为语音语料或者噪音语料;所述麦克风阵列的外部区域以所述麦克风阵列为中心等角度划分为N个空间区域,所述语料的声源位于N个所述空间区域中的一个所述空间区域;获取单元,被配置为获取所述多通道音频的音频特征参数和目标向量,所述目标向量包括N个标签,N个所述标签与N个所述空间区域一一对应,每个所述标签表示对应的所述空间区域含有语音的概率;训练单元,被配置为将所述多通道音频的所述音频特征参数作为训练样 本的输入,将所述多通道音频的所述目标向量作为所述训练样本的目标输出,并利用所述训练样本对深度神经网络进行训练,得到目标模型。
- 一种语音检测定位装置,其特征在于,包括:接收单元,被配置为通过麦克风阵列实时接收来自所述麦克风阵列外部区域的声音,得到实时多通道音频;获取单元,被配置为获取所述实时多通道音频的音频特征参数;处理单元,被配置为将所述实时多通道音频的音频特征参数输入至根据权利要求1至4任一项所述的模型训练方法得到的所述目标模型中,得到所述目标模型的输出向量;所述输出向量包括与N个所述空间区域一一对应的N个标签,每个所述标签表示对应的所述空间区域含有语音的概率。
- 一种电子设备,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至4中任一所述的模型训练方法、或者执行如权利要求5至8中任一所述的语音检测定位方法。
- 一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的模型训练方法、或者执行时实现权利要求5至8中任一所述的语音检测定位方法。
- 一种计算机程序,包括计算机程序和/或指令,其特征在于,所述计算机程序和/或指令被处理器执行时实现权利要求1至4中任一项所述的模型训练方法、或者执行时实现权利要求5至8中任一所述的语音检测定位方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110744492.5A CN115240698A (zh) | 2021-06-30 | 2021-06-30 | 模型训练方法、语音检测定位方法、电子设备及存储介质 |
CN202110744492.5 | 2021-06-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023273469A1 true WO2023273469A1 (zh) | 2023-01-05 |
Family
ID=83666209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2022/084599 WO2023273469A1 (zh) | 2021-06-30 | 2022-03-31 | 模型训练方法、语音检测定位方法、装置、设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115240698A (zh) |
WO (1) | WO2023273469A1 (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105068048A (zh) * | 2015-08-14 | 2015-11-18 | 南京信息工程大学 | 基于空间稀疏性的分布式麦克风阵列声源定位方法 |
US20170040030A1 (en) * | 2015-08-04 | 2017-02-09 | Honda Motor Co., Ltd. | Audio processing apparatus and audio processing method |
CN110794368A (zh) * | 2019-10-28 | 2020-02-14 | 星络智能科技有限公司 | 一种声源定位方法、装置、智能音箱及存储介质 |
CN111142066A (zh) * | 2019-12-25 | 2020-05-12 | 达闼科技成都有限公司 | 波达方向估计方法、服务器以及计算机可读存储介质 |
WO2021013346A1 (en) * | 2019-07-24 | 2021-01-28 | Huawei Technologies Co., Ltd. | Apparatus for determining spatial positions of multiple audio sources |
CN112799016A (zh) * | 2020-12-24 | 2021-05-14 | 北京地平线信息技术有限公司 | 声源定位方法、装置、计算机可读存储介质和电子设备 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107785029B (zh) * | 2017-10-23 | 2021-01-29 | 科大讯飞股份有限公司 | 目标语音检测方法及装置 |
CN109001679B (zh) * | 2018-06-14 | 2020-05-12 | 河北工业大学 | 一种基于卷积神经网络的室内声源区域定位方法 |
CN110858488A (zh) * | 2018-08-24 | 2020-03-03 | 阿里巴巴集团控股有限公司 | 语音活动检测方法、装置、设备及存储介质 |
CN110767226B (zh) * | 2019-10-30 | 2022-08-16 | 山西见声科技有限公司 | 具有高准确度的声源定位方法、装置、语音识别方法、系统、存储设备及终端 |
CN112820310B (zh) * | 2019-11-15 | 2022-09-23 | 北京声智科技有限公司 | 一种来波方向估计方法及装置 |
CN111863036B (zh) * | 2020-07-20 | 2022-03-01 | 北京百度网讯科技有限公司 | 语音检测的方法和装置 |
CN111696570B (zh) * | 2020-08-17 | 2020-11-24 | 北京声智科技有限公司 | 语音信号处理方法、装置、设备及存储介质 |
CN113012700B (zh) * | 2021-01-29 | 2023-12-26 | 深圳壹秘科技有限公司 | 语音信号处理方法、装置、系统及计算机可读存储介质 |
-
2021
- 2021-06-30 CN CN202110744492.5A patent/CN115240698A/zh active Pending
-
2022
- 2022-03-31 WO PCT/CN2022/084599 patent/WO2023273469A1/zh unknown
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170040030A1 (en) * | 2015-08-04 | 2017-02-09 | Honda Motor Co., Ltd. | Audio processing apparatus and audio processing method |
CN105068048A (zh) * | 2015-08-14 | 2015-11-18 | 南京信息工程大学 | 基于空间稀疏性的分布式麦克风阵列声源定位方法 |
WO2021013346A1 (en) * | 2019-07-24 | 2021-01-28 | Huawei Technologies Co., Ltd. | Apparatus for determining spatial positions of multiple audio sources |
CN110794368A (zh) * | 2019-10-28 | 2020-02-14 | 星络智能科技有限公司 | 一种声源定位方法、装置、智能音箱及存储介质 |
CN111142066A (zh) * | 2019-12-25 | 2020-05-12 | 达闼科技成都有限公司 | 波达方向估计方法、服务器以及计算机可读存储介质 |
CN112799016A (zh) * | 2020-12-24 | 2021-05-14 | 北京地平线信息技术有限公司 | 声源定位方法、装置、计算机可读存储介质和电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN115240698A (zh) | 2022-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110992974B (zh) | 语音识别方法、装置、设备以及计算机可读存储介质 | |
CN110288978B (zh) | 一种语音识别模型训练方法及装置 | |
US10847171B2 (en) | Method for microphone selection and multi-talker segmentation with ambient automated speech recognition (ASR) | |
Li et al. | Online direction of arrival estimation based on deep learning | |
CN107799126A (zh) | 基于有监督机器学习的语音端点检测方法及装置 | |
CN112735439A (zh) | 环境调节的讲话人标识 | |
CN111312273A (zh) | 混响消除方法、装置、计算机设备和存储介质 | |
WO2020172828A1 (zh) | 一种声源分离方法、装置及设备 | |
Wang et al. | Speaker recognition using convolutional neural network with minimal training data for smart home solutions | |
CN111142066A (zh) | 波达方向估计方法、服务器以及计算机可读存储介质 | |
CN112786028B (zh) | 声学模型处理方法、装置、设备和可读存储介质 | |
WO2023273469A1 (zh) | 模型训练方法、语音检测定位方法、装置、设备及介质 | |
WO2022166220A1 (zh) | 一种语音分析方法及其语音记录装置 | |
CN112863486B (zh) | 一种基于音素的口语评测方法、装置及电子设备 | |
US11335344B2 (en) | System and method for multi-microphone automated clinical documentation | |
CN114664288A (zh) | 一种语音识别方法、装置、设备及可存储介质 | |
US20240038217A1 (en) | Preprocessing Model Building System for Speech Recognition Function and Preprocessing Model Building Method Therefor | |
CN114400006B (zh) | 语音识别方法和装置 | |
KR102346133B1 (ko) | 심층 신경망 기반의 방향각 추정 방법 | |
Nguyen et al. | Location Estimation of Receivers in an Audio Room using Deep Learning with a Convolution Neural Network. | |
Yang et al. | A stacked self-attention network for two-dimensional direction-of-arrival estimation in hands-free speech communication | |
US20230381628A1 (en) | Method and system for movement guidance, electronic device and server | |
WO2022188560A1 (zh) | 距离关系确定、设备控制、模型训练的方法及相关装置 | |
US20240071396A1 (en) | System and Method for Watermarking Audio Data for Automated Speech Recognition (ASR) Systems | |
Liu et al. | The Influence of Reverberation on the Perceptual Judgment of Cross-Lingual Speakers’ Timbre |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22831300 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |