WO2021000498A1 - 复合语音识别方法、装置、设备及计算机可读存储介质 - Google Patents

复合语音识别方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
WO2021000498A1
WO2021000498A1 PCT/CN2019/118458 CN2019118458W WO2021000498A1 WO 2021000498 A1 WO2021000498 A1 WO 2021000498A1 CN 2019118458 W CN2019118458 W CN 2019118458W WO 2021000498 A1 WO2021000498 A1 WO 2021000498A1
Authority
WO
WIPO (PCT)
Prior art keywords
frequency
preset
capsule
time
composite
Prior art date
Application number
PCT/CN2019/118458
Other languages
English (en)
French (fr)
Inventor
吴冀平
彭俊清
王健宗
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021000498A1 publication Critical patent/WO2021000498A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Abstract

一种复合语音识别方法、装置、计算机设备及计算机可读存储介质,方法包括:检测预置范围内的复合语音(S10),获取复合语音的声音信号(S20);对声音信号进行短时傅里叶变换,生成复合语音信号的时频图(S30);基于预置胶囊网络模型提取时频图的多个频谱,获取各个频谱的系数(S40),计算出各个系数的向量模,并根据向量模确定复合语音的类型(S50)。

Description

复合语音识别方法、装置、设备及计算机可读存储介质
本申请要求于2019年7月4日提交中国专利局、申请号为201910601019.4、发明名称为“复合语音识别方法、装置、设备及计算机可读存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本发明涉及人工智能领域,尤其涉及复合语音识别方法、装置、设备及计算机可读存储介质。
背景技术
声音事件检测目的是自动地通过声音检测特定事件的发生和结束时间,并且对每个事件给出标签。在这种技术的协助之下,计算机可以通过声音理解周围的环境,并且对其做出响应。声音事件检测在日常生活中具有广阔的应用前景,包括声音监测、生物声学监测和智能家居等。根据是否允许多个声音事件同时发生,分为单一或者复合声音事件检测。在单一声音事件检测中,频谱中每个单独的声音事件都有一定的频率以及幅度,但是对于复合声音事件检测,这些频率或幅度可能重叠,现有的声音检测技术主要针对单一的声音进行检测识别,无法识别同时发生的重叠复合声音类型。
发明内容
本发明的主要目的在于提供一种复合语音识别方法、装置、设备及计算机可读存储介质,旨在解决现有的声音检测技术无法识别同时发生的重叠复合声音类型。
第一方面,本申请一种复合语音识别方法,包括:
实时或定时检测预置范围内的复合语音;
当检测到所述复合语音时,获取所述复合语音的声音信号;
对所述声音信号进行短时傅里叶变换,生成所述复合语音的时频图;
基于预置胶囊网络模型,提取所述时频图的多个频谱,获取各个所述频谱的梅尔频率倒谱系数;
通过所述预置胶囊网络模型,计算出各个所述梅尔频率倒谱系数的向量模,并根据各个所述梅尔频率倒谱系数的向量模确定所述复合语音的类型。
第二方面,本申请还提供一种复合语音识别装置,所述复合语音识别装置包括:
检测单元,用于实时或定时检测预置围内的复合语音;
第一获取模块,用于当检测到所述复合语音时,获取所述复合语音的声音信号;
生成模块,用于对所述声信号进行短时傅里叶变换,生成所述复合语音的时频图;
第二获取模块,用于基于预置胶囊网络模型,提取所述时频图的多个频谱图,获取各个所述频谱图的梅尔频率倒谱系数;
第三获取模块,用于通过所述预置胶囊网络模型,计算出各个所述梅尔频率倒谱系数的向量模,并根据各个所述梅尔频率倒谱系数的向量模确定获取所述复合语音的类型。
第三方面,本申请还提供一种计算机设备,所述计算机设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的复合语音识别程序,所述复合语音识别程序被所述处理器执行时实现如上发明所述复合语音识别方法的步骤。
第四方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有复合语音识别程序,所述复合语音识别序被处理器执行时实现如上发明所述的复合语音识别方法的步骤。
本发明实施例提出的一种复合语音识别方法、装置、设备及计算机可读存储介质,通过实时或定时检测预置范围内的复合语音;当检测到所述复合语音时,获取所述复合语音信号的声音信号;对所述声音信号进行短时傅里叶变换,生成所述复合语音信号的时频图;基于预置胶囊网络模型,提取所述时频图的多个频谱,获取各个所述频谱的梅尔频率倒谱系数;通过所述预置胶囊网络模型,计算出各个所述梅尔频率倒谱系数的向量模,并根据各个所述梅尔频率倒谱系数的向量模确定所述复合语音的类型,实现了通过胶囊网络模型识别出复合语音的语音类型。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种复合语音识别方法的流程示意图;
图2为图1中的复合语音识别方法的子步骤流程示意图;
图3为图1中的复合语音识别方法的子步骤流程示意图;
图4为本申请实施例提供的另一种复合语音识别方法的流程示意图;
图5为图4中的复合语音识别方法的子步骤流程示意图;
图6为本申请实施例提供的另一种复合语音识别方法的流程示意图;
图7为图6中的复合语音识别方法的子步骤流程示意图;
图8为本申请实施例提供的一种复合语音识别装置的示意性框图;
图9为图8中的复合语音识别装置的子模块的示意性框图;
图10为图8中的复合语音识别装置的子模块的示意性框图;
图11为本申请实施例提供的另一种复合语音识别装置的示意性框图;
图12为图11中的复合语音识别装置的子模块的示意性框图;
图13为本申请实施例提供的另一种复合语音识别装置的示意性框图;
图14为图13中的复合语音识别装置的子模块的示意性框图;
图15为本申请一实施例涉及的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例提供一种复合语音识别方法、装置、设备及计算机可读存储介质。其中,该复合语音识别方法可应用于终端设备中,该终端设备可以手机、平板电脑、笔记本电脑、台式电脑。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请的实施例提供的一种复合语音识别方法的的流程示意图。
如图1所示,该复合语音识别方法包括步骤S10至步骤S50。
步骤S10、实时或定时检测预置范围内的复合语音;
终端实时或定时检测预置范围内的复合语音,例如,将终端能检测到的范围内作为终端的预置范围,终端能检测到的范围可以为室内的房间等,也可以是室外的公园等。预先设置终端每时每刻对预置房间或预置公园的复合语音进行检测,或者,每隔一个小时对预置房间或预置公园进行检测,其中复合语音包括至少两种不同的混合语音。需要说明的是,上述预置范围可基于实际情况进行设置,本申请对此不作具体限定。
步骤S20、当检测到复合语音时,获取复合语音的声音信号;
当终端检测到复合语音时,采集检测到的复合语音,通过对复合语音进行分析,获取到复合语音的声音信号,声音信号包括声音的频率、振幅、时间等。例如,终端在检测到两种或多种混合的复合语音时,通过预置的频谱分析函数,或者是预置的示波函数对检测到的复合语音进行检测,采集到复合语音的声音频率,通过预置的分贝测试仪获取到复合语音的声音振幅,在终端中预先设置频谱分析函数或示波函数,通过预先设置频谱分析函数,计算出复合语音的声音频率,或者通过预先设置示波函数,计算出复合语音的声音振幅。
在一实施例中,具体地,参照图2,步骤S20包括:子步骤S21至子步骤S23。
子步骤S21,当检测到复合语音时,调取预置采样率;
当终端检测到复合语音时,调取预置采样率,采样率也称为采样速度或者采样频率,定义了每秒从连续信号中提取并组成离散信号的采样个数,它用赫兹(Hz)来表示,预置采样率可以是40Hz,也可以是60Hz等。需要说明 的是,上述预置采样率可基于实际情况进行设置,本申请对此不作具体限定。
子步骤S22,通过预置公式和预置采样率,确定预置采样率的采样时间间隔;
终端通过预置公式和预置采样率,计算预置采样率的采样时间间隔,其中,预置公式为采样时间间隔=1/采样率,通过预置采样率从而求出采样率的采样时间间隔。例如,采样频率为40KHz,则1s内采样点有40×1000个,每个采样周期(通常情况下采样周期是一致的)t=1/40×1000。
子步骤S23,基于采样时间间隔对复合语音进行采集,获取复合语音的离散信号。
终端通过采样时间间隔对复合语音进行采集,获取到复合语音的离散信号,且离散信号的数量基于采样时间间隔数量。离散信号是在连续信号上采样得到的信号,与连续信号的自变量是连续的不同,离散信号是一个序列,即其自变量是“离散”的,且这个序列的每一个值都可以被看作是连续信号的一个采样。通过预置采样率可以将复合语音进行处理,使得获取到的复合语音信号的离散信号品质越好。
步骤S30、对声音信号进行短时傅里叶变换,生成复合语音信号的时频图;
当终端获取到复合语音的声音信号时,对获取到的声音信号做短时傅里叶变换,短时傅里叶变换(STFT,short-time Fourier transform,或short-term Fourier transform)是和傅里叶变换相关的一种数学变换,用以确定时变信号其局部区域正弦波的频率与相位,具体地,短时傅里叶变换包括帧移、帧时长以及傅里叶变换,将获取到的声音信号进行帧移和帧时长的预处理,将预处理后的声音做傅里叶变换,获取到多个二维图,通过对声音信号做傅里叶变换就能获取到复合语音中的频率与振幅之间关系,二维图即为频谱,将多个二维信号按照维度进行叠加,生成复合语音的时频图,时频图中的每一帧为频谱,频谱随着时间的变化为时频图。
在一实施例中,具体地,参照图3,步骤S30包括:子步骤S31至子步骤S33。
步骤S31,若获取到离散信号时,读取预置的帧时长信息以及帧移信息;
若终端获取到离散信号时,短时傅里叶变换包括帧时长、帧移集傅里叶变换。读取预置的帧时长信息以及帧移信息,例如,预先设置帧时长40ms、 50ms等,帧移20ms、30ms等。需要说明的是,预置的帧时长信息以及帧移信息可基于实际情况进行设置,本申请对此不作具体限定。
步骤S32,通过帧时长信息以及帧移信息对离散信号进行预处理,得到多个短时分析信号;
终端通过预置的帧时长信息以及帧移信息对获取到的多个离散信号进行预处理,得到多个短时分析信号。例如,将获取到离散信号进行40ms或50ms等帧时长的处理,帧移20ms或30ms等帧移的处理,得到各个离散信号的短时分析信号。
步骤S33,对多个短时分析信号进行傅里叶变换,生成复合语音的时频图。
终端在获取到多个短时分析信号时,对各个短时分析信号进行傅里叶变换,得到频率与时间的关系,生成一个二维图,将各个二维图的维度进行堆叠,生成复合语音信号的时频图。通过对离散信号进行帧移、帧时长、傅里叶变换,生成复合语音信号的时频图,从而可以根据时频图更好获取到复合语音信号的频谱与时间的变化。
步骤S40、基于预置胶囊网络模型,提取时频图的多个频谱,获取各个频谱的梅尔频率倒谱系数;
当终端获取到复合语音的时频图时,基于预先设置的胶囊网络模型,其中,胶囊网络是一种新型神经网络结构,包括卷积层、初级胶囊、高级胶囊等,胶囊是一组嵌套的神经网络层。在胶囊网络中,会在单个网络层中加入更多的层。具体地,在一个神经网络层中嵌套另一个、胶囊中的神经元的状态刻画了图像中的一个实体的上述属性、胶囊输出一个表示实体存在性的向量、向量的朝向表示实体的属性、向量发送至神经网络中所有亲本胶囊。胶囊可以为计算出一个预测向量,预测向量是通过将自身权重乘以权重矩阵得出的。
胶囊网络模型提取时频图中的帧信号,其中,时频图中的每一帧代表者频谱。在获取到时频图的多个频谱时,调取胶囊网络中的梅尔频率滤波函数组,将频谱通过梅尔频率滤波函数组,读取梅尔频率滤波函数组的对数,将对数作为该频谱的梅尔频率倒谱系数。
步骤S50、通过预置胶囊网络模型,计算出各个梅尔频率倒谱系数的向量模,并根据各个梅尔频率倒谱系数的向量模确定复合语音的类型。
当终端获取到各个频谱的梅尔频率倒谱系数时,调取预置胶囊网络模型,并获取预置胶囊网络模型中的动态路由算法和权重矩阵,通过动态路由算法和权重矩阵,计算出各个频谱的梅尔频率倒谱系数的向量模,将获取到的各个频谱的梅尔频率倒谱系数的向量模进行比对,获取向量模最大梅尔频率倒谱系数,从而获取该梅尔频率倒谱系数对应的表示语音类型,将该语音类型作为复合语音的语音类型,语音类型包括狗吠、玻璃破碎等,且复合语音至少包含两种语音类型。
上述实施例提供的复合语音识别方法,通过将复合语音生成时频图,并基于胶囊网络模型对时频图进行处理,可以检测出复合语音的语音类型。
请参照图4,图4为实施本实施例提供的复合语音识别方法的一场景示意图,如图4所示,该复合语音识别方法包括:
步骤S10、实时或定时检测预置范围内的复合语音;
终端实时或定时检测预置范围内的复合语音,例如,将终端能检测到的范围内作为终端的预置范围,终端能检测到的范围可以为室内的房间等,也可以是室外的公园等。预先设置终端每时每刻对预置房间或预置公园的复合语音进行检测,或者,每隔一个小时对预置房间或预置公园进行检测,其中复合语音包括至少两种不同的混合语音。
步骤S20、当检测到复合语音时,获取复合语音的声音信号;
当终端检测到复合语音时,采集检测到的复合语音,通过对复合语音进行分析,获取到复合语音的声音信号,声音信号包括声音的频率、振幅、时间等。例如,终端在检测到两种或多种混合的复合语音时,通过预置的频谱分析仪,或者是预置的示波器对检测到的复合语音进行检测,采集到复合语音的声音频率,通过预置的分贝测试仪获取到复合语音的声音振幅。
步骤S30、对声音信号进行短时傅里叶变换,生成复合语音的时频图;
当终端获取到复合语音的声音信号时,对获取到的声音信号做短时傅里叶变换,短时傅里叶变换(STFT,short-time Fourier transform,或short-term Fourier transform)是和傅里叶变换相关的一种数学变换,用以确定时变信号其局部区域正弦波的频率与相位,具体地,短时傅里叶变换包括帧移、帧时长以及傅里叶变换,将获取到的声音信号进行帧移和帧时长的预处理,将预处理后的声音做傅里叶变换,获取到多个二维图,通过对声音信号做傅里叶变 换就能获取到复合语音中的频率与振幅之间关系,二维图即为频谱,将多个二维信号按照维度进行叠加,生成复合语音的时频图,时频图中的每一帧为频谱,频谱随着时间的变化为时频图。
步骤S41、若获取到复合语音信号的时频图,调取预置胶囊网络模型,其中预置胶囊网络模型包括卷积层、初级胶囊、高级胶囊、输出层;
若终端获取到复合语音信号的时频图时,调取预置胶囊网络模型,其中,预置胶囊网络模型包括卷积层、初级胶囊、高级胶囊和输出层。需要说明的是,卷积层的卷积核个数可基于实际情况进行设置,本申请对此不作具体限定。
步骤S42、当将时频图输入预置胶囊网络模型,通过卷积层的卷积核对时频图进行分帧,提取时频图的多个频谱;
终端将获取到的时频图输入预置胶囊网络模型,通过预置胶囊网络模型的卷积层,卷积层中有卷积核,卷积核对输入的时频图进行分帧,提取时频图的多个频谱。例如,终端输入一个28×28的时频图,而卷积层中有256个9×9,步长为1的卷积核,通过卷积核的数量以及步长等信息对28×28的时频图时频图进行分帧,从而获取到256个20×20的频谱,其计算方式为频谱的规则=(f-n+1)×(f-n+1),其中,f为时频图规格,n为卷积核规格。终端通过预置胶囊网络模型中的卷积层,提取到256个20×20的频谱。
步骤S43、将提取到的多个频谱通过预置滤波函数组进行滤除,获取各个频谱的梅尔频率倒谱系数。
当终端通过卷积层提取到多个频谱时,将提取到的频谱通过预置滤波函数组,读取到预置滤波函数组的对数log,将读取到的对数作为该频谱的梅尔频率倒谱系数。具体为,在获取到频谱时,通过频谱公式:X[K]=H[K]E[K];其中X[K]为频谱,H[K]为包络,E[K]为频谱细节,频谱是由包络和频谱的细节,包络是连接频谱中的多个共振峰得到的,共振峰为表示语音的主要频率成分,是携带了声音的辨识属性(就是个人身份证一样)。通过预置滤波函数组,读取H[K]的系数,将H[K]的系数就是梅尔频谱倒谱系数。
在一实施例中,具体地,参照图5,步骤S43包括:子步骤S431至子步骤S432。
子步骤S431、在提取到多个所述频谱时,通过所述卷积层中的预置滤波 函数组对多个所述频谱进行滤除,获取各个所述频谱的梅尔频率倒谱,其中,频谱由包络和频谱的细节组成;
当终端检测到卷积核提取到多个频谱时,通过卷积层中预置滤波函数组对多个频谱进行滤除,预置的滤波函数组包括多个滤波函数,可以是40个滤波函数为一组,也可以是50个滤波函数为一组。频谱中包含低频函数、中频函数、高频函数,通过预置滤波函数组可以有效的将频谱中的包括和频谱的细节进行分离,从而得到包括和频谱的细节,即获取到各个频谱中包络的梅尔频谱率倒谱。
子步骤S432、通过所述初级胶囊对各个所述梅尔频率倒谱做倒谱分析,获取多个所述包络的倒谱系数,并将所述包络的倒谱系数作为梅尔频率倒谱系数。
终端通过初级胶囊对各个包络的梅尔频率倒谱做倒谱分析,获取到各个包络在梅尔频率倒谱上的梅尔频谱倒谱系数,其中各个包络的梅尔频谱倒谱系数也是各个频谱包络的梅尔频谱倒谱系数。
步骤S50、通过预置胶囊网络模型,计算出各个梅尔频率倒谱系数的向量模,并根据各个梅尔频率倒谱系数的向量模确定复合语音的类型。
当终端获取到各个频谱的梅尔频率倒谱系数时,通过预置胶囊网络模型中,预置胶囊网络模型包括动态路由算法以及权重矩阵,获取到的各个梅尔频率倒数系数通过动态路由算法和权重矩阵,计算出各个频谱的梅尔频率倒谱系数的向量模,将获取到的各个频谱的梅尔频率倒谱系数的向量模进行比对获取向量模最大梅尔频率倒谱系数,从而获取该梅尔频率倒谱系数对应的表示语音类型,将该语音类型作为复合语音的语音类型,语音类型包括狗吠、玻璃破碎等,且复合语音至少包含两种语音类型。
上述实施例提供的复合语音识别方法,通过胶囊网络模型提取时频图的频谱,从而获取到各个频谱的梅尔频谱倒谱系数,不仅能快速的获取到复合语音信号的特征,还节省了人力资源。
请参照图6,图6为实施本实施例提供的复合语音识别方法的一场景示意图,如图6所示,该复合语音识别方法包括:
步骤S10、实时或定时检测预置范围内的复合语音;
终端实时或定时检测预置范围内的复合语音,例如,将终端能检测到的 范围内作为终端的预置范围,终端能检测到的范围可以为室内的房间等,也可以是室外的公园等。预先设置终端每时每刻对预置房间或预置公园的复合语音进行检测,或者,每隔一个小时对预置房间或预置公园进行检测,其中复合语音包括至少两种不同的混合语音。
步骤S20、当检测到复合语音时,获取复合语音的声音信号;
当终端检测到复合语音时,采集检测到的复合语音,通过对复合语音进行分析,获取到复合语音的声音信号,声音信号包括声音的频率、振幅、时间等。例如,终端在检测到两种或多种混合的复合语音时,通过预置的频谱分析仪,或者是预置的示波器对检测到的复合语音进行检测,采集到复合语音的声音频率,通过预置的分贝测试仪获取到复合语音的声音振幅。
步骤S30、对声音信号进行短时傅里叶变换,生成复合语音的时频图;
当终端获取到复合语音的声音信号时,对获取到的声音信号做短时傅里叶变换,短时傅里叶变换(STFT,short-time Fourier transform,或short-term Fourier transform))是和傅里叶变换相关的一种数学变换,用以确定时变信号其局部区域正弦波的频率与相位,具体地,短时傅里叶变换包括帧移、帧时长以及傅里叶变换,将获取到的声音信号进行帧移和帧时长的预处理,将预处理后的声音做傅里叶变换,获取到多个二维图,通过对声音信号做傅里叶变换就能获取到复合语音中的频率与振幅之间关系,二维图即为频谱,将多个二维信号按照维度进行叠加,生成复合语音的时频图,时频图中的每一帧为频谱,频谱随着时间的变化为时频图。
步骤S40、基于预置胶囊网络模型,提取时频图的多个频谱,获取各个频谱的梅尔频率倒谱系数;
当终端获取到复合语音的时频图时,基于预先设置的胶囊网络模型,胶囊网络是一种新型神经网络结构,包括卷积层、初级胶囊、高级胶囊等。胶囊是一组嵌套的神经网络层。在胶囊网络中,会在单个网络层中加入更多的层。
具体地,在一个神经网络层中嵌套另一个、胶囊中的神经元的状态刻画了图像中的一个实体的上述属性、胶囊输出一个表示实体存在性的向量、向量的朝向表示实体的属性、向量发送至神经网络中所有亲本胶囊。胶囊可以为计算出一个预测向量,预测向量是通过将自身权重乘以权重矩阵得出的。 胶囊网络模型提取时频图中的帧信号,其中,时频图中的每一帧代表者频谱。在获取到时频图的多个频谱时,调取胶囊网络中的梅尔频率滤波函数组,将频谱通过梅尔频率滤波函数组,读取梅尔频率滤波函数组的对数,将对数作为该频谱的梅尔频率倒谱系数。
步骤S51,当多个初级胶囊分别向所述高级胶囊前向传播所述梅尔频率倒谱系数时,通过预置胶囊网络的动态路由公式,获取梅尔频率倒谱系数的中间向量;
当终端获取到各个初级胶囊输出的梅尔频率倒谱系数时,各个初级胶囊分别向高级胶囊前向传播梅尔频率倒谱系数,通过预置胶囊网络模型的动态路由公式,获取梅尔频率倒谱系数的中间向量。
在一实施例中,具体地,参照图7,步骤S51包括:子步骤S511至子步骤S513。
子步骤S511、当初级胶囊向所述高级胶囊前向传播所述梅尔频率倒谱系数时,获取胶囊网络模型的权重值;
具体地,当初级胶囊向高级胶囊前向传播梅尔频率倒谱系数时,获取到预置胶囊网络模型的权重值,该权重值是胶囊网络模型在训练数据集合时得到的。
子步骤S512、基于胶囊网络模型的第一预置公式和所述权重值,获取梅尔频率倒谱系数的向量,并获取胶囊网络模型的耦合系数;
通过预置胶囊网络模型中的第一预置公式
Figure PCTCN2019118458-appb-000001
其中
Figure PCTCN2019118458-appb-000002
为梅尔频率倒谱系数的向量、w为预置胶囊网络模型的权重值,u为初级胶囊输出的梅尔频率倒谱系数。通过第一预置公式,获取到梅尔频率倒谱系数的向量以及预置胶囊网络模型的耦合系数,
子步骤S513、基于胶囊网络模型的第二预置公式、向量和耦合系数,获取梅尔频率倒谱系数的中间向量,其中动态路由公式包括第一预置公式和第二预置公式。
通过第二预置公式
Figure PCTCN2019118458-appb-000003
其中s为高级胶囊的输入的梅尔频率倒谱系数的中间向量,c为耦合系数,
Figure PCTCN2019118458-appb-000004
为梅尔频率倒谱系数的向量,通过第二预置公式从而获取到梅尔频率倒谱系数的中间向量,其中第一预置公式和第二预置公式为预置胶囊网络模型的动态路由公式。
步骤S52,基于高级胶囊的激活函数和中间向量,获取高级胶囊输出的梅尔频率倒谱系数的向量模;
终端通过将获取到的各个梅尔频率倒谱系数的中间向量输入到高级胶囊中,获取到高级胶囊中的激活函数,通过激活函数计算各个梅尔频率倒谱系数的中间向量,获取高级胶囊输出的各个梅尔频率倒谱系数的向量模。
例如,当初级胶囊的数量为8个时,高级胶囊的数量为3个时,8个初级胶囊分别向高级胶囊1输入梅尔频率倒谱系数,通过预置胶囊网络模型的动态路由公式,分别计算出8个初级胶囊输出的梅尔频率倒谱系数的中间向量,并将计算出的8个初级胶囊输出的梅尔频率倒谱系数的中间向量输入高级胶囊1,通过高级胶囊1的激活函数,计算出8个梅尔频率倒谱系数的向量模值。
再将8个初级胶囊分别向高级胶囊2输入梅尔频率倒谱系数,通过预置胶囊网络模型的动态路由公式,分别计算出8个初级胶囊输出的梅尔频率倒谱系数的中间向量,并将计算出的8个初级胶囊输出的梅尔频率倒谱系数的中间向量输入高级胶囊2,通过高级胶囊2的激活函数,计算出8个梅尔频率倒谱系数的向量模值,并将计算出的8个初级胶囊输出的梅尔频率倒谱系数的中间向量输入高级胶囊3,通过高级胶囊3的激活函数,计算出8个梅尔频率倒谱系数的向量模值。
步骤S53,在获取到多个高级胶囊输出的梅尔频率倒谱系数的向量模时,通过比对多个梅尔频率倒谱系数的向量模,标记输出最大向量模的目标高级胶囊;
在获取各个高级胶囊输出的多个梅尔频率倒谱系数的向量模值时,将多个梅尔频率倒谱系数的向量模值进行比对,标记输出向量模值最大的高级胶囊,将标记的高胶囊作为目标高级胶囊,每一个高级胶囊都对应有标记的语音类型。
步骤S54,通过输出层输出目标高级胶囊的标识类型,获取复合语音的类型。
通过输出层输出目标高级胶囊的标识类型,每一个高级胶囊都标识有语音类型,例如,高级胶囊1标识的类型为狗吠,高级胶囊2标识的类型为玻璃破碎,或者高级胶囊1标识的类型为狗吠和玻璃破碎等,高级胶囊标识的类型可以为一种语音类型也可以为多种语音类型。
上述实施例提供的复合语音识别方法,通过预置胶囊网络模型中的获取到时频图中各个频谱的梅尔频谱倒谱系数,计算出各个梅尔频谱倒谱系数的向量模,基于各个梅尔频谱倒谱系数的向量模获取到向量模最大的高级胶囊的标识类型,将复合语音生成图像,从而通过胶囊网络模型对图像进行处理,将语音信号与图像进行结合计算,快速的获取复合语音的类型。
请参照图8,图8为本申请实施例提供的一种复合语音识别装置的示意性框图。
如图8所示,该复合语音识别装置400,包括:检测模块401、第一获取模块402、生成模块403、第二获取模块404和第三获取模块405。
检测模块401、用于实时或定时检测预置围内的复合语音;
第一获取模块402、用于当检测到所述复合语音时,获取所述复合语音的声音信号;
生成模块403、用于对所述声音信号进行短时傅里叶变换,生成所述复合语音的时频图;
第二获取模块404、用于基于预置胶囊网络模型,提取所述时频图的多个频谱图,获取各个所述频谱图的梅尔频率倒谱系数;
第三获取模块405、用于通过所述预置胶囊网络模型,计算出各个所述梅尔频率倒谱系数的向量模,并根据各个所述梅尔频率倒谱系数的向量模确定获取所述复合语音的类型。
在一个实施例中,如图9所示,第一获取模块402包括:
第一调取子模块4021、用于当检测到所述复合语音时,调取预置采样率;
确定子模块4022、用于通过预置公式和所述预置采样率,确定所述预置采样率的采样时间间隔;
第一获取子模块4023、用于基于所述采样时间间隔对所述复合语音进行采集,获取所述复合语音的离散信号。
在一个实施例中,如图10所示,生成模块403包括:
读取子模块4031、用于若获取到所述离散信号时,读取预置的帧时长信息以及帧移信息;
得到子模块4032、通过所述帧时长信息以及所述帧移信息对所述离散信号进行预处理,得到多个短时分析信号;
生成子模块4033、用于对多个所述短时分析信号进行傅里叶变换,生成所述复合语音的时频图。
请参照图11,图11为本申请实施例提供的另一种复合语音识别装置的示意性框图。
如图11所示,该复合语音识别装置500,包括:检测模块501、第一获取模块502、生成模块503、第二调取子模块504、提取子模块505、第二获取子模块506、第三获取模块507。
检测模块501、用于实时或定时检测预置围内的复合语音;
第一获取模块502、用于当检测到所述复合语音时,获取所述复合语音的声音信号;
生成模块503、用于对所述声音信号进行短时傅里叶变换,生成所述复合语音的时频图;
第二调取子模块504、用于若获取到所述复合语音的时频图,调取预置胶囊网络模型,其中所述预置胶囊网络模型包括卷积层、初级胶囊、高级胶囊、输出层;
提取子模块505、用于当将所述时频图输入所述预置胶囊网络模型,通过所述卷积层的卷积核对所述时频图进行分帧,提取所述时频图的多个频谱;
第二获取子模块506、用于将提取到的多个所述频谱通过预置滤波函数组进行滤除,获取各个所述频谱的梅尔频率倒谱系数;
第三获取模块507、用于通过所述预置胶囊网络模型,计算出各个所述梅尔频率倒谱系数的向量模,并根据各个所述梅尔频率倒谱系数的向量模确定获取所述复合语音的类型。
在一个实施例中,如图12所示,第二获取子模块506包括:
第一获取子单元5061、用于在提取到多个频谱时,通过卷积层中的预置滤波函数组对多个频谱进行滤除,获取各个频谱的梅尔频率倒谱,其中,频谱由包络和频谱的细节组成;
第二获取子单元5062、用于通过初级胶囊对各个梅尔频率倒谱做倒谱分析,获取多个包络的倒谱系数,并将包络的倒谱系数作为梅尔频率倒谱系数。
请参照图13,图13为本申请实施例提供的另一种复合语音识别装置的示意性框图。
如图13所示,该复合语音识别装置600,包括:检测模块601、第一获取模块602、生成模块603、第二获取模块604、第三获取子模块605、第四获取子模块606、标记子模块607、第五获取子模块608。
检测模块601、用于实时或定时检测预置围内的复合语音;
第一获取模块602、用于当检测到所述复合语音时,获取所述复合语音的声音信号;
生成模块603、用于对所述声音信号进行短时傅里叶变换,生成所述复合语音的时频图;
第二获取模块604、用于基于预置胶囊网络模型,提取所述时频图的多个频谱图,获取各个所述频谱图的梅尔频率倒谱系数;
第三获取子模块605、用于当多个所述初级胶囊分别向所述高级胶囊前向传播所述梅尔频率倒谱系数时,通过所述预置胶囊网络的动态路由公式,获取所述梅尔频率倒谱系数的中间向量;
第四获取子模块606、用于基于所述高级胶囊的激活函数和所述中间向量,获取所述高级胶囊输出的所述梅尔频率倒谱系数的向量模;
标记子模块607、用于在获取到多个所述高级胶囊输出的所述梅尔频率倒谱系数的向量模,通过比对多个所述梅尔频率倒谱系数的向量模,标记输出最大向量模的目标高级胶囊;
第五获取子模块608、用于通过所述输出层输出所述目标高级胶囊的标识类型,获取所述复合语音信号的类型。
在一个实施例中,如图14所示,第三获取子模块605包括:
第三获取子单元6051、用于当所述初级胶囊向所述高级胶囊前向传播所述梅尔频率倒谱系数时,获取所述胶囊网络模型的权重值;
第四获取子单元6052、用于基于所述胶囊网络模型的第一预置公式和所述权重值,获取所述梅尔频率倒谱系数的向量,并获取所述胶囊网络模型的耦合系数;
第五获取子单元6053、用于基于所述胶囊网络模型的第二预置公式、所述向量和所述耦合系数和所述向量,获取所述梅尔频率倒谱系数的中间向量,其中所述动态路由公式包括第一预置公式和第二预置公式。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方 便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述复合语音识别方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图15所示的计算机设备上运行。
请参阅图15,图15为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为终端。
如图15所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种复合语音识别方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种复合语音识别方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图15中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体地计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
实时或定时检测预置范围内的复合语音;
当检测到复合语音时,获取复合语音的声音信号;
对声音信号进行短时傅里叶变换,生成复合语音的时频图;
基于预置胶囊网络模型,提取时频图的多个频谱,获取各个所述频谱的梅尔频率倒谱系数;
通过预置胶囊网络模型,计算出各个梅尔频率倒谱系数的向量模,并根据各个梅尔频率倒谱系数的向量模确定复合语音的类型。
在一个实施例中,所述当检测到所述复合语音信号时,获取复合语音信号的声音信号时,用于实现:
当检测到复合语音时,调取预置采样率;
通过预置公式和预置采样率,确定预置采样率的采样时间间隔;
基于采样时间间隔对复合语音进行采集,获取复合语音信的离散信号。
在一个实施例中,所述处理器在实现对声音信号进行短时傅里叶变换,生成复合语音的时频图时,用于实现:
若获取到离散信号时,读取预置的帧时长信息以及帧移信息;
通过帧时长信息以及帧移信息对所述离散信号进行预处理,得到多个短时分析信号;
对多个短时分析信号进行傅里叶变换,生成复合语音的时频图。
其中,在另一实施例中,所述处理器在实现基于预置胶囊网络模型,提取时频图的多个频谱,获取各个频谱的梅尔频率倒谱系数,用于实现:
若获取到复合语音的时频图,调取预置胶囊网络模型,其中预置胶囊网络模型包括卷积层、初级胶囊、高级胶囊、输出层;
当将时频图输入预置胶囊网络模型,通过卷积层的卷积核对时频图进行分帧,提取时频图的多个频谱;
将提取到的多个所述频谱通过预置滤波函数组进行滤除,获取各个频谱的梅尔频率倒谱系数。
在一个实施例中,所述处理器在实现将提取到的多个频谱通过预置滤波函数组进行滤除,获取各个频谱的梅尔频率倒谱系数时,用于实现:
在提取到多个所述频谱时,通过卷积层中的预置滤波函数组对多个频谱进行滤除,获取各个频谱的梅尔频率倒谱,其中,频谱由包络和频谱的细节组成;
通过初级胶囊对各个梅尔频率倒谱做倒谱分析,获取多个包络的倒谱系 数,并将包络的倒谱系数作为梅尔频率倒谱系数。
在一个实施例中,所述处理器在实现通过预置胶囊网络模型,计算出各个梅尔频率倒谱系数的向量模,获取复合语音信号的类型时,用于实现:
当多个初级胶囊分别向高级胶囊前向传播梅尔频率倒谱系数时,通过预置胶囊网络的动态路由公式,获取梅尔频率倒谱系数的中间向量;
基于高级胶囊的激活函数和中间向量,获取高级胶囊输出的梅尔频率倒谱系数的向量模;
在获取到多个高级胶囊输出的梅尔频率倒谱系数的向量模,通过比对多个梅尔频率倒谱系数的向量模,标记输出最大向量模的目标高级胶囊;
通过输出层输出目标高级胶囊的标识类型,获取复合语音的类型。
在一个实施例中,所述处理器在实现当初级胶囊向高级胶囊前向传播梅尔频率倒谱系数时,通过预置胶囊网络的动态路由算法,获取梅尔频率倒谱系数的中间向量时,用于实现:
当初级胶囊向所述高级胶囊前向传播梅尔频率倒谱系数时,获取胶囊网络模型的权重值;
基于胶囊网络模型的第一预置公式和权重值,获取梅尔频率倒谱系数的向量,并获取胶囊网络模型的耦合系数;
基于胶囊网络模型的第二预置公式、向量和耦合系数,获取梅尔频率倒谱系数的中间向量,其中动态路由公式包括第一预置公式和第二预置公式。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本申请复合语音识别方法的各个实施例。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系 统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (20)

  1. 一种复合语音识别方法,包括:
    实时或定时检测预置范围内的复合语音;
    当检测到所述复合语音时,获取所述复合语音的声音信号;
    对所述声音信号进行短时傅里叶变换,生成所述复合语音的时频图;
    基于预置胶囊网络模型,提取所述时频图的多个频谱,获取各个所述频谱的梅尔频率倒谱系数;
    通过所述预置胶囊网络模型,计算出各个所述梅尔频率倒谱系数的向量模,并根据各个所述梅尔频率倒谱系数的向量模确定所述复合语音的类型。
  2. 如权利要求1所述的复合语音识别方法,其中,所述当检测到所述复合语音时,获取所述复合语音的声音信号包括:
    当检测到所述复合语音时,调取预置采样率;
    通过预置公式和所述预置采样率,确定所述预置采样率的采样时间间隔;
    基于所述采样时间间隔对所述复合语音进行采集,获取所述复合语音信的离散信号。
  3. 如权利要求2所述的复合语音识别方法,其中,所述对所述声音信号进行短时傅里叶变换,生成所述复合语音的时频图包括:
    若获取到所述离散信号时,读取预置的帧时长信息以及帧移信息;
    通过所述帧时长信息以及所述帧移信息对所述离散信号进行预处理,得到多个短时分析信号;
    对多个所述短时分析信号进行傅里叶变换,生成所述复合语音的时频图。
  4. 如权利要求1所述的复合语音识别方法,其中,所述基于预置胶囊网络模型,提取所述时频图的多个频谱,获取各个所述频谱的梅尔频率倒谱系数包括;
    若获取到所述复合语音的时频图,调取预置胶囊网络模型,其中所述预置胶囊网络模型包括卷积层、初级胶囊、高级胶囊、输出层;
    当将所述时频图输入所述预置胶囊网络模型,通过所述卷积层的卷积核对所述时频图进行分帧,提取所述时频图的多个频谱;
    将提取到的多个所述频谱通过预置滤波函数组进行滤除,获取各个所述频谱的梅尔频率倒谱系数。
  5. 如权利要求4所述的复合语音识别方法,其中,所述将提取到的多个所述频谱通过预置滤波函数组进行滤除,获取各个所述频谱的梅尔频率倒谱系数包括:
    在提取到多个所述频谱时,通过所述卷积层中的预置滤波函数组对多个所述频谱进行滤除,获取各个所述频谱的梅尔频率倒谱,其中,频谱由包络和频谱的细节组成;
    通过所述初级胶囊对各个所述梅尔频率倒谱做倒谱分析,获取多个所述包络的倒谱系数,并将所述包络的倒谱系数作为梅尔频率倒谱系数。
  6. 如权利要求5所述的复合语音识别方法,其中,所述通过所述预置胶囊网络模型,计算出各个所述梅尔频率倒谱系数的向量模,并根据各个所述梅尔频率倒谱系数的向量模确定所述复合语音的类型包括:
    当多个所述初级胶囊分别向所述高级胶囊前向传播所述梅尔频率倒谱系数时,通过所述预置胶囊网络的动态路由公式,获取所述梅尔频率倒谱系数的中间向量;
    基于所述高级胶囊的激活函数和所述中间向量,获取所述高级胶囊输出的所述梅尔频率倒谱系数的向量模;
    在获取到多个所述高级胶囊输出的所述梅尔频率倒谱系数的向量模,通过比对多个所述梅尔频率倒谱系数的向量模,标记输出最大向量模的目标高级胶囊;
    通过所述输出层输出所述目标高级胶囊的标识类型,获取所述复合语音的类型。
  7. 如权利要求6所述的复合语音识别方法,其中,所述当多个所述初级胶囊分别向所述高级胶囊前向传播所述梅尔频率倒谱系数时,通过所述预置胶囊网络的动态路由公式,获取所述梅尔频率倒谱系数的中间向量包括:
    当所述初级胶囊向所述高级胶囊前向传播所述梅尔频率倒谱系数时,获取所述胶囊网络模型的权重值;
    基于所述胶囊网络模型的第一预置公式和所述权重值,获取所述梅尔频率倒谱系数的向量,并获取所述胶囊网络模型的耦合系数;
    基于所述胶囊网络模型的第二预置公式、所述向量和所述耦合系数,获取所述梅尔频率倒谱系数的中间向量,其中所述动态路由公式包括第一预置 公式和第二预置公式。
  8. 一种复合语音识别装置,包括:
    检测模块,用于实时或定时检测预置围内的复合语音;
    第一获取模块,用于当检测到所述复合语音时,获取所述复合语音信号的声音信号;
    生成模块,用于对所述声音信号进行短时傅里叶变换,生成所述复合语音的时频图;
    第二获取模块,用于基于预置胶囊网络模型,提取所述时频图的多个频谱图,获取各个所述频谱图的梅尔频率倒谱系数;
    第三获取模块,用于通过所述预置胶囊网络模型,计算出各个所述梅尔频率倒谱系数的向量模,并根据各个所述梅尔频率倒谱系数的向量模确定获取所述复合语音的类型。
  9. 一种计算机设备,其中,所述计算机设备包括存储器和处理器;
    所述存储器用于存储计算机程序;
    所述处理器,用于执行所述计算机程序并在执行所述计算机程序时实现如下步骤:
    实时或定时检测预置范围内的复合语音;
    当检测到所述复合语音时,获取所述复合语音的声音信号;
    对所述声音信号进行短时傅里叶变换,生成所述复合语音的时频图;
    基于预置胶囊网络模型,提取所述时频图的多个频谱,获取各个所述频谱的梅尔频率倒谱系数;
    通过所述预置胶囊网络模型,计算出各个所述梅尔频率倒谱系数的向量模,并根据各个所述梅尔频率倒谱系数的向量模确定所述复合语音的类型。
  10. 如权利要求9所述计算机设备,其中,所述所述当检测到所述复合语音时,获取所述复合语音的声音信号时,用于实现:
    当检测到所述复合语音时,调取预置采样率;
    通过预置公式和所述预置采样率,确定所述预置采样率的采样时间间隔;
    基于所述采样时间间隔对所述复合语音进行采集,获取所述复合语音信的离散信号。
  11. 如权利要求10所述计算机设备,其中,所述对所述声音信号进行短 时傅里叶变换,生成所述复合语音的时频图时,用于实现:
    若获取到所述离散信号时,读取预置的帧时长信息以及帧移信息;
    通过所述帧时长信息以及所述帧移信息对所述离散信号进行预处理,得到多个短时分析信号;
    对多个所述短时分析信号进行傅里叶变换,生成所述复合语音的时频图。
  12. 如权利要求9所述计算机设备,其中,所述基于预置胶囊网络模型,提取所述时频图的多个频谱,获取各个所述频谱的梅尔频率倒谱系数时,用于实现:
    若获取到所述复合语音的时频图,调取预置胶囊网络模型,其中所述预置胶囊网络模型包括卷积层、初级胶囊、高级胶囊、输出层;
    当将所述时频图输入所述预置胶囊网络模型,通过所述卷积层的卷积核对所述时频图进行分帧,提取所述时频图的多个频谱;
    将提取到的多个所述频谱通过预置滤波函数组进行滤除,获取各个所述频谱的梅尔频率倒谱系数。
  13. 如权利要求12所述计算机设备,其中,所述将提取到的多个所述频谱通过预置滤波函数组进行滤除,获取各个所述频谱的梅尔频率倒谱系数时,用于实现:
    在提取到多个所述频谱时,通过所述卷积层中的预置滤波函数组对多个所述频谱进行滤除,获取各个所述频谱的梅尔频率倒谱,其中,频谱由包络和频谱的细节组成;
    通过所述初级胶囊对各个所述梅尔频率倒谱做倒谱分析,获取多个所述包络的倒谱系数,并将所述包络的倒谱系数作为梅尔频率倒谱系数。
  14. 如权利要求13所述计算机设备,其中,所述通过所述预置胶囊网络模型,计算出各个所述梅尔频率倒谱系数的向量模,并根据各个所述梅尔频率倒谱系数的向量模确定所述复合语音的类型时,用于实现:
    当多个所述初级胶囊分别向所述高级胶囊前向传播所述梅尔频率倒谱系数时,通过所述预置胶囊网络的动态路由公式,获取所述梅尔频率倒谱系数的中间向量;
    基于所述高级胶囊的激活函数和所述中间向量,获取所述高级胶囊输出的所述梅尔频率倒谱系数的向量模;
    在获取到多个所述高级胶囊输出的所述梅尔频率倒谱系数的向量模,通过比对多个所述梅尔频率倒谱系数的向量模,标记输出最大向量模的目标高级胶囊;
    通过所述输出层输出所述目标高级胶囊的标识类型,获取所述复合语音的类型。
  15. 一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器实现如下步骤:
    实时或定时检测预置范围内的复合语音;
    当检测到所述复合语音时,获取所述复合语音的声音信号;
    对所述声音信号进行短时傅里叶变换,生成所述复合语音的时频图;
    基于预置胶囊网络模型,提取所述时频图的多个频谱,获取各个所述频谱的梅尔频率倒谱系数;
    通过所述预置胶囊网络模型,计算出各个所述梅尔频率倒谱系数的向量模,并根据各个所述梅尔频率倒谱系数的向量模确定所述复合语音的类型。
  16. 如权利要求15所述的计算机可读存储介质,其中,所述当检测到所述复合语音时,获取所述复合语音的声音信号时,用于实现:
    当检测到所述复合语音时,调取预置采样率;
    通过预置公式和所述预置采样率,确定所述预置采样率的采样时间间隔;
    基于所述采样时间间隔对所述复合语音进行采集,获取所述复合语音信的离散信号。
  17. 如权利要求16所述的计算机可读存储介质,其中,所述对所述声音信号进行短时傅里叶变换,生成所述复合语音的时频图时,用于实现:
    若获取到所述离散信号时,读取预置的帧时长信息以及帧移信息;
    通过所述帧时长信息以及所述帧移信息对所述离散信号进行预处理,得到多个短时分析信号;
    对多个所述短时分析信号进行傅里叶变换,生成所述复合语音的时频图。
  18. 如权利要求15所述的计算机可读存储介质,其中,所述基于预置胶囊网络模型,提取所述时频图的多个频谱,获取各个所述频谱的梅尔频率倒谱系数时,用于实现:
    若获取到所述复合语音的时频图,调取预置胶囊网络模型,其中所述预 置胶囊网络模型包括卷积层、初级胶囊、高级胶囊、输出层;
    当将所述时频图输入所述预置胶囊网络模型,通过所述卷积层的卷积核对所述时频图进行分帧,提取所述时频图的多个频谱;
    将提取到的多个所述频谱通过预置滤波函数组进行滤除,获取各个所述频谱的梅尔频率倒谱系数。
  19. 如权利要求18所述的计算机可读存储介质,其中,所述将提取到的多个所述频谱通过预置滤波函数组进行滤除,获取各个所述频谱的梅尔频率倒谱系数时,用于实现:
    在提取到多个所述频谱时,通过所述卷积层中的预置滤波函数组对多个所述频谱进行滤除,获取各个所述频谱的梅尔频率倒谱,其中,频谱由包络和频谱的细节组成;
    通过所述初级胶囊对各个所述梅尔频率倒谱做倒谱分析,获取多个所述包络的倒谱系数,并将所述包络的倒谱系数作为梅尔频率倒谱系数。
  20. 如权利要求19所述的计算机可读存储介质,其中,所述通过所述预置胶囊网络模型,计算出各个所述梅尔频率倒谱系数的向量模,并根据各个所述梅尔频率倒谱系数的向量模确定所述复合语音的类型时,用于实现:
    当多个所述初级胶囊分别向所述高级胶囊前向传播所述梅尔频率倒谱系数时,通过所述预置胶囊网络的动态路由公式,获取所述梅尔频率倒谱系数的中间向量;
    基于所述高级胶囊的激活函数和所述中间向量,获取所述高级胶囊输出的所述梅尔频率倒谱系数的向量模;
    在获取到多个所述高级胶囊输出的所述梅尔频率倒谱系数的向量模,通过比对多个所述梅尔频率倒谱系数的向量模,标记输出最大向量模的目标高级胶囊;
    通过所述输出层输出所述目标高级胶囊的标识类型,获取所述复合语音的类型。
PCT/CN2019/118458 2019-07-04 2019-11-14 复合语音识别方法、装置、设备及计算机可读存储介质 WO2021000498A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910601019.4A CN110444202B (zh) 2019-07-04 2019-07-04 复合语音识别方法、装置、设备及计算机可读存储介质
CN201910601019.4 2019-07-04

Publications (1)

Publication Number Publication Date
WO2021000498A1 true WO2021000498A1 (zh) 2021-01-07

Family

ID=68429517

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/118458 WO2021000498A1 (zh) 2019-07-04 2019-11-14 复合语音识别方法、装置、设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN110444202B (zh)
WO (1) WO2021000498A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096649A (zh) * 2021-03-31 2021-07-09 平安科技(深圳)有限公司 语音预测方法、装置、电子设备和存储介质
CN116705055A (zh) * 2023-08-01 2023-09-05 国网福建省电力有限公司 一种变电站噪声监测方法、系统、设备和存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110444202B (zh) * 2019-07-04 2023-05-26 平安科技(深圳)有限公司 复合语音识别方法、装置、设备及计算机可读存储介质
CN110910893B (zh) * 2019-11-26 2022-07-22 北京梧桐车联科技有限责任公司 音频处理方法、装置及存储介质
CN113450775A (zh) * 2020-03-10 2021-09-28 富士通株式会社 模型训练装置、模型训练方法及存储介质
CN114173405B (zh) * 2022-01-17 2023-11-03 上海道生物联技术有限公司 一种无线通信技术领域快速唤醒方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016042295A1 (en) * 2014-09-16 2016-03-24 The University Of Hull Speech synthesis from detected speech articulator movement
CN108766419A (zh) * 2018-05-04 2018-11-06 华南理工大学 一种基于深度学习的非常态语音区别方法
CN108922559A (zh) * 2018-07-06 2018-11-30 华南理工大学 基于语音时频变换特征和整数线性规划的录音终端聚类方法
CN109410917A (zh) * 2018-09-26 2019-03-01 河海大学常州校区 基于改进型胶囊网络的语音数据分类方法
CN109523993A (zh) * 2018-11-02 2019-03-26 成都三零凯天通信实业有限公司 一种基于cnn与gru融合深度神经网络的语音语种分类方法
CN110444202A (zh) * 2019-07-04 2019-11-12 平安科技(深圳)有限公司 复合语音识别方法、装置、设备及计算机可读存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564530A (zh) * 2017-08-18 2018-01-09 浙江大学 一种基于声纹能量特征的无人机检测方法
CN107993648A (zh) * 2017-11-27 2018-05-04 北京邮电大学 一种无人机识别方法、装置及电子设备
CN108281146B (zh) * 2017-12-29 2020-11-13 歌尔科技有限公司 一种短语音说话人识别方法和装置
CN109147818A (zh) * 2018-10-30 2019-01-04 Oppo广东移动通信有限公司 声学特征提取方法、装置、存储介质及终端设备
CN109146066A (zh) * 2018-11-01 2019-01-04 重庆邮电大学 一种基于语音情感识别的虚拟学习环境自然交互方法
CN109559755A (zh) * 2018-12-25 2019-04-02 沈阳品尚科技有限公司 一种基于dnn噪声分类的语音增强方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016042295A1 (en) * 2014-09-16 2016-03-24 The University Of Hull Speech synthesis from detected speech articulator movement
CN108766419A (zh) * 2018-05-04 2018-11-06 华南理工大学 一种基于深度学习的非常态语音区别方法
CN108922559A (zh) * 2018-07-06 2018-11-30 华南理工大学 基于语音时频变换特征和整数线性规划的录音终端聚类方法
CN109410917A (zh) * 2018-09-26 2019-03-01 河海大学常州校区 基于改进型胶囊网络的语音数据分类方法
CN109523993A (zh) * 2018-11-02 2019-03-26 成都三零凯天通信实业有限公司 一种基于cnn与gru融合深度神经网络的语音语种分类方法
CN110444202A (zh) * 2019-07-04 2019-11-12 平安科技(深圳)有限公司 复合语音识别方法、装置、设备及计算机可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096649A (zh) * 2021-03-31 2021-07-09 平安科技(深圳)有限公司 语音预测方法、装置、电子设备和存储介质
CN113096649B (zh) * 2021-03-31 2023-12-22 平安科技(深圳)有限公司 语音预测方法、装置、电子设备和存储介质
CN116705055A (zh) * 2023-08-01 2023-09-05 国网福建省电力有限公司 一种变电站噪声监测方法、系统、设备和存储介质
CN116705055B (zh) * 2023-08-01 2023-10-17 国网福建省电力有限公司 一种变电站噪声监测方法、系统、设备和存储介质

Also Published As

Publication number Publication date
CN110444202A (zh) 2019-11-12
CN110444202B (zh) 2023-05-26

Similar Documents

Publication Publication Date Title
WO2021000498A1 (zh) 复合语音识别方法、装置、设备及计算机可读存储介质
WO2019101123A1 (zh) 语音活性检测方法、相关装置和设备
US10504539B2 (en) Voice activity detection systems and methods
CN106486131B (zh) 一种语音去噪的方法及装置
WO2018149077A1 (zh) 声纹识别方法、装置、存储介质和后台服务器
KR102635469B1 (ko) 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법 및 장치
US9536540B2 (en) Speech signal separation and synthesis based on auditory scene analysis and speech modeling
CN110875060A (zh) 语音信号处理方法、装置、系统、设备和存储介质
CN109256138B (zh) 身份验证方法、终端设备及计算机可读存储介质
US20210193149A1 (en) Method, apparatus and device for voiceprint recognition, and medium
WO2020037555A1 (zh) 评估麦克风阵列一致性的方法、设备、装置和系统
CN108962231B (zh) 一种语音分类方法、装置、服务器及存储介质
TW202008261A (zh) 支付處理方法和裝置
CN110880329A (zh) 一种音频识别方法及设备、存储介质
CN109147798B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN111383653A (zh) 语音处理方法及装置、存储介质、机器人
CN111341333B (zh) 噪声检测方法、噪声检测装置、介质及电子设备
CN111868823A (zh) 一种声源分离方法、装置及设备
Fernandes et al. Speech emotion recognition using mel frequency cepstral coefficient and SVM classifier
CN109147146B (zh) 语音取号的方法及终端设备
CN110176243B (zh) 语音增强方法、模型训练方法、装置和计算机设备
CN112133289B (zh) 声纹鉴定模型训练、声纹鉴定方法、装置、设备及介质
CN112487246A (zh) 一种多人视频中发言人的识别方法和装置
CN111968651A (zh) 一种基于wt的声纹识别方法及系统
US20230116052A1 (en) Array geometry agnostic multi-channel personalized speech enhancement

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19936002

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19936002

Country of ref document: EP

Kind code of ref document: A1