WO2020029404A1

WO2020029404A1 - 语音处理方法及装置、计算机装置及可读存储介质

Info

Publication number: WO2020029404A1
Application number: PCT/CN2018/108190
Authority: WO
Inventors: 王健宗; 王珏; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2018-08-08
Filing date: 2018-09-28
Publication date: 2020-02-13
Also published as: CN109036381A

Abstract

一种语音处理方法，所述方法包括：对语音信号进行预处理；对预处理后的语音信号提取特征参数；根据所述特征参数，利用预先训练好的语音识别模型对所述语音信号进行解码，得到以句子为单位的文本；通过隐马尔科夫模型HMM从所述以句子为单位的文本中提取摘要句。本申请还提供一种语音处理装置、计算机装置及非易失性可读存储介质。本申请可以对语音进行识别，并从语音识别结果中去除无用信息。

Description

语音处理方法及装置、计算机装置及可读存储介质

本申请要求于2018年08月8日提交中国专利局，申请号为201810897646.2发明名称为“语音处理方法及装置、计算机装置及可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机听觉技术领域，具体涉及一种语音处理方法及装置、计算机装置和非易失性可读存储介质。

背景技术

在智能会议系统中，语音识别技术是一项关键技术，其可以将人的说话信号转换为可被计算机识别的文字信息作为输出。

然而，现有的智能会议系统只是实现语音到文字的转换，而不能对识别出来的文字信息做进一步的处理，根据语音直接转换得到的文字信息可以会包含无用的信息，例如一些与会议内容无关的句子。

发明内容

鉴于以上内容，有必要提出一种语音处理方法及装置、计算机装置和非易失性可读存储介质，其可以对语音进行识别，并从语音识别结果中去除无用信息。

本申请的第一方面提供一种语音处理方法，所述方法包括：

对语音信号进行预处理；

对预处理后的语音信号提取特征参数；

根据所述特征参数，利用预先训练好的语音识别模型对所述语音信号进行解码，得到以句子为单位的文本；

通过隐马尔科夫模型HMM从所述以句子为单位的文本中提取摘要句。

本申请的第二方面提供一种语音处理装置，所述装置包括：

预处理单元，用于对语音信号进行预处理；

特征提取单元，用于对预处理后的语音信号提取特征参数；

解码单元，用于根据所述特征参数，利用预先训练好的语音识别模型对所述语音信号进行解码，得到以句子为单位的文本；

摘要提取单元，用于通过隐马尔科夫模型HMM从所述以句子为单位的文本中提取摘要句。

本申请的第三方面提供一种计算机装置，所述计算机装置包括处理器，所述处理器用于执行存储器中存储的计算机可读指令时实现所述语音处理方法。

本申请的第四方面提供一种非易失性可读存储介质，其上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现所述语音处理方法。

本申请对语音信号进行预处理；对预处理后的语音信号提取特征参数；根据所述特征参数，利用预先训练好的语音识别模型对所述语音信号进行解码，得到以句子为单位的文本；通过隐马尔科夫模型HMM从所述以句子为单位的文本中提取摘要句。本申请不仅将语音信息转化为文字，还提取文字中的摘要句进行输出，剔除了由语音识别结果中的无用信息，获得更好的语音处理结果。

附图说明

图1是本申请实施例提供的语音处理方法的流程图。

图2是本申请实施例提供的语音处理装置的结构图。

图3是本申请实施例提供的计算机装置的示意图。

具体实施方式

为了能够更清楚地理解本申请的上述目的、特征和优点，下面结合附图和具体实施例对本申请进行详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本申请，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请。

优选地，本申请的语音处理方法应用在一个或者多个计算机装置中。所述计算机装置是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable Gate Array，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机装置可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机装置可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

实施例一

图1是本申请实施例一提供的语音处理方法的流程图。所述语音处理方法应用于计算机装置。所述语音处理方法从语音信号中识别出以句子为单位的文本，从以句子为单位的文本中提取出摘要句。

如图1所示，所述语音处理方法具体包括以下步骤：

步骤101，对语音信号进行预处理。

所述语音信号可以是模拟语音信号，也可以是数字语音信号。若所述语音信号是模拟语音信号，则将所述模拟语音信号进行模数变换，转换为数字语音信号。

本申请用于连续语音识别，即对连续的音频流进行处理。在本申请的一个实施例中，所述语音处理方法应用于智能会议系统中，所述语音信号是通过语音输入设备(例如麦克风、手机话筒等)输入到智能会议系统的发言者的语音信号。

对所述语音信号进行预处理可以包括对所述语音信号进行预加重。

预加重的目的是提升语音的高频分量，使信号的频谱变得平坦。语音信号由于受声门激励和口鼻辐射的影响，能量在高频端明显减小，通常是频率越高幅值越小。当频率提升两倍时，功率谱幅度按6dB/oct跌落。因此，在对语音信号进行频谱分析或声道参数分析前，需要对语音信号的高频部分进行频率提升，即对语音信号进行预加重。预加重一般利用高通滤波器实现，高通滤波器的传递函数可以为：

H(z)＝1-κz ^-1，0.9≤κ≤1.0。

其中，κ为预加重系数，优选取值在0.94-0.97之间。

对所述语音信号进行预处理还可以包括对所述语音信号进行加窗分帧。

语音信号是一种非平稳的时变信号，主要分为浊音和清音两大类。浊音的基音周期、请浊音信号幅度和声道参数等都随时间而缓慢变化，但通常在10ms-30ms的时间内可以认为具有短时平稳性。语音信号处理中可以把语音信号分成一些短段(即获得短时平稳信号)来进行处理，这个过程称为分帧，得到的短段的语音信号称为语音帧。分帧是通过对语音信号进行加窗处理来实现的。为了避免相邻两帧的变化幅度过大，帧与帧之间需要重叠一部分。在本申请的一个实施例中，每个语音帧为25毫秒，相邻两个语音帧之间存在15毫秒重叠，也就是每隔10毫秒取一个语音帧。

常用的窗函数有矩形窗、汉明窗和汉宁窗，矩形窗函数为：

汉明窗函数为：

汉宁窗函数为：

其中，N为一个语音帧所包含的采样点的个数。

对所述语音信号进行预处理还可以包括检测所述语音信号中的有效语音。

检测有效语音的目的是从语音信号中剔除非有效语音(即非语音段)，获得有效语音(即语音段)，以降低特征提取的计算量和准确度，缩短语音识别的时间，提高识别率。可以根据语音信号的短时能量和短时过零率等进行有效语音检测。

在一实施例中，假设语音信号中第n个语音帧为x _n(m)，则短时能量为：

短时过零率为：

其中，sgn[.]为符号函数，表达式为：

可以采用两级判断法检测所述语音信号中有效语音的起点和终点。两级判断法为本领域的公知技术，此处不再赘述。

在另一实施例中，可以通过下述方法检测所述语音信号中的有效语音：

(1)对所述语音信号进行加窗分帧，得到所述语音信号的语音帧x(n)。在一个具体实施例中，可以对所述语音信号加汉明窗，每帧20ms，帧移10ms。若预处理过程中已对语音信号加窗分帧，则该步骤省略。

(2)对所述语音帧x(n)进行离散傅里叶变换(Discrete Fourier Transform,DFT)，得到所述语音帧x(n)的频谱:

(3)根据所述语音帧x(n)的频谱计算各个频带的累计能量：

其中E(m)表示第m个频带的累计能量，(m ₁,m ₂)表示第m个频带的起始频带点。

(4)对所述各个频带的累计能量进行对数运算，得到所述各个频带的累计能量对数值。

(5)将所述各个频带的累计能量对数值与预设阈值比较，得到所述有效语音。若一个频带的累计能量对数值高于预设阈值，则所述频带对应的语音为有效语音。

步骤102，对预处理后的语音信号提取特征参数。

特征参数提取是对语音信号进行分析，提取出反映语音本质特征的声学参数序列。

提取的特征参数可以包括短时平均能量、短时平均过零率、共振峰、基音周期等时域参数，还可以包括线性预测系数(Linear Prediction Coefficient,LPC)、线性预测倒谱系数(Linear Prediction Cepstrum Coefficient,LPCC)、梅尔倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)、感知线性预测(Perceptual Linear Predictive,PLP)等变换域参数。

在本申请的一个实施例中，可以提取语音信号的MFCC特征参数。提取MFCC特征参数的步骤如下：

(1)对每个语音帧进行离散傅里叶变换(Discrete Fourier Transform,DFT，可以是快速傅里叶变换)，得到该语音帧的频谱。

(2)求该语音帧的频谱幅度的平方，得到该语音帧的离散能量谱。

(3)将该语音帧的离散能量谱通过一组Mel频率上均匀分布的三角滤波器(即三角滤波器组)，得到各个三角滤波器的输出。该组三角滤波器的中心频率在Mel频率刻度上均匀排列，且每个三角滤波器的三角形两个底点的频率分别等于相邻的两个三角滤波器的中心频率。三角滤波器的中心频率为：

三角滤波器的频率响应为:

其中，f _h、f ₁为三角滤波器的高频和低频；N为傅里叶变换的点数；F _S为采样频率；M为三角滤波器的个数；B ^-1＝700(e ^b/1125-1)是f _mel的逆函数。

(4)对所有三角滤波器的输出做对数运算，得到该语音帧的对数功率谱S(m)。

(5)对S(m)做离散余弦变换(Discrete Cosine Transform，DCT)，得到该语音帧的初始MFCC特征参数。离散余弦变换为：

MFCC中引入了三角滤波器组，且三角滤波器在低频段分布较密，在高频段分布较疏，符合人耳听觉特性，在噪声环境下仍具有较好的识别性能。

提取MFCC特征参数的步骤还可以包括：

(6)根据语音帧的初始MFCC特征参数提取语音帧的动态差分MFCC特征参数。初始MFCC特征参数只反映了语音参数的静态特性，语音的动态特性可通过静态特征的差分谱来描述，动静态结合可以有效提升系统的识别性能，通常使用一阶和/或者二阶差分MFCC特征参数。

在一具体实施例中，提取的MFCC特征参数为39维的特征矢量，包括13维初始MFCC特征参数、13维一阶差分MFCC特征参数和13维二阶差分MFCC特征参数。

在本申请的一个实施中，在对预处理后的语音信号提取特征参数之后，还可以对提取的特征参数进行降维处理，得到降维后的特征参数。例如，采用分段均值数据降维算法对所述特征参数(例如MFCC特征参数)进行降维处理,得到降维后的特征参数。降维后的特征参数将用于后续的步骤。

步骤103，根据所述特征参数，利用预先训练好的语音识别模型对所述语音信号进行解码，得到以句子为单位的文本。

所述语音识别模型可以包括动态时间规整模型、隐马尔科夫模型、人工神经网络模型、支持向量机分类模型等。所述语音识别模型也可以是两种或两种以上所述模型的组合。

在本申请的一个实施例中，所述语音识别模型为隐马尔科夫模型(HMM)。所述HMM包括声学模型和语音模型。

声学模型(Acoustic Model)：采用隐马尔科夫模型对音素建模。在语音领域中，并不是以单词，而是以子词为识别单位，子词是声学模型基本的声学单元。在英语中子词为音素，对于某个特定的单词，相应的声学模型由多个音素通过查找发音字典的语法规则拼接得成。在汉语中子词为声母和韵母。每个子词可以用包括多个状态的HMM建模。举例来说，每一个音素可以用包含最多6个状态的HMM建模，每个状态可以用高斯混合模型(GMM)拟合对应的观测帧，观测帧按时序组合成观测序列。而每个声学模型可以生成长短不一的观测序列，即一对多映射。

语言模型(Language Model)：是为了在语音识别的过程中有效地结合语法和语义的知识，提高识别率，减少搜索的范围。由于很难准确确定词的边界，以及声学模型描述语音变异性的能力有限，识别时将产生很多概率得分相似的词的序列。因此在实用的语音识别系统中通常使用语言模型P(W)从诸多候选结果中选择最有可能的次序列来补充声学模型的不足。

在本实施例中，采用基于规则的语言模型。基于规则的语言模型可以总结出语法规则乃至语义规则，然后用这些规则排除声学识别中不合语法规则或语义规则的结果。统计语言模型通过统计概率描述词与词之间的依赖关系，间接地对语法或语义规则进行编码。

解码就是在状态网络中搜索一条最佳路径，语音对应这条路径的概率最大。在本实施例中，利用动态规划算法(即Viterbi算法)寻找全局最优路径。

假设对语音信号提取的特征参数为特征向量Y，通过解码算法寻找最有可能生成Y的词序列w _1:L＝w ₁,w ₂…w _L。

解码算法是求解使得后验概率P(w|Y)最大所对应的参数w，即：

w _best＝argmax{p(w|Y)}

由贝叶斯定理将上式转化为：

由于观测概率P(Y)在给定观测序列下是常数，上式可进一步简化为：

w _best＝argmax{p(Y|w)p(w)}

其中先验概率P(W)由语言模型决定，似然概率p(Y|w)由声学模型决定。通过以上计算即可得出后验概率P(w|Y)最大所对应的参数w。

步骤104，通过隐马尔科夫模型HMM从所述以句子为单位的文本中提取摘要句。

经过步骤103，语音信号被解码为以句子为单位的文本，在常规的语音识别系统中，语音识别工作已经完成。本方法进一步从识别出来的以句子为单位的文本中提取出摘要句。

提取摘要句的目的是从语音中抽取重要的信息，剔除无用信息。

本方法通过HMM模型提取摘要句。此时，HMM模型的双重随机关系可以描述为：一重随机关系为句子序列的释放，是可观察的；另一重随机关系为该句子是否应该被归为摘要句的性质，是不可观察的。所以用HMM模型来提取摘要句的过程可以描述为给定句子序列O＝{O ₁,O ₂…O _n}，以确定句子是否为摘要句的最大可能性。主要步骤如下：

(1)获得以句子为单位的文本的观察状态序列O＝{O ₁,O ₂…O _n}；

(2)确定HMM隐含状态。可以设置5个隐含状态。可以把隐含状态设置为“1”-符合，“2”-较符合，“3”-一般，“4”-较不符合，“5”-不符合，用来依次表示句子符合摘要句的程度。

(3)进行HMM参数估计。首先随机产生初始的概率参数，经过不断地迭代，当达到设定的阈值时，停止计算，得到适合的HMM参数。

(4)根据训练好的HMM，通过Viterbi算法对句子进行标记，得到各个句子符合摘要句的符合度。

(5)将满足预设符合度的句子(例如至少较符合的句子)从所述以句子为单位的文本中提取出来，得到所述以句子为单位的文本中的摘要句。

实施例一的语音处理方法对语音信号进行预处理；对预处理后的语音信号提取特征参数；根据所述特征参数，利用预先训练好的语音识别模型对所述语音信号进行解码，得到以句子为单位的文本；通过隐马尔科夫模型HMM从以句子为单位的文本中提取摘要句。实施例一不仅将语音信息转化为文字，还提取文字中的摘要句进行输出，剔除了由语音识别结果中的无用信息，获得更好的语音处理结果。

在另一实施例中，在提取MFCC特征参数时，可以进行声道长度归一化(Vocal Tract Length Normalization，VTLN)，得到声道长度归一化的MFCC特征参数。

声道可以表示为级联声管模型，每个声管都可以看成是一个谐振腔，它们的共振频率取决于声管的长度和形状。因此，说话人之间的部分声学差异是由于说话人的声道长度不同。例如，声道长度的变化范围一般从13cm(成年女性)变化到18cm(成年男性)，因此，不同性别的人说同一个元音的共振峰频率相差很大。VTLN就是为了消除男、女声道长度的差异，使口音识别的结果不受性别的干扰。

VTLN可以通过弯折和平移频率坐标来使各说话人的共振峰频率相匹配。在本实施例中，可以采用基于双线性变换的VTLN方法。该基于双线性变换的VTLN方法并不直接对语音信号的频谱进行折叠，而是采用双线性变换低通滤波器截止频率的映射公式，计算对齐不同说话人平均第三共振峰的频率弯折因子；根据所述频率弯折因子，采用双线性变换对三角滤波器组的位置(例如三角滤波器的起点、中间点和结束点)和宽度进行调整；根据调整后的三角滤波器组计算声道归一化的MFCC特征参数。例如，若要对语音信号进行频谱压缩，则对三角滤波器的刻度进行拉伸，此时三角滤波器组向左扩展和移动。若要对语音信号进行频谱拉伸，则对三角滤波器的刻度进行压缩，此时三角滤波器组向右压缩和移动。采用该基于双线性变换的VTLN方法对特定人群或特定人进行声道归一化时，仅需要对三角滤波器组系数进行一次变换即可，无需每次在提取特征参数时都对信号频谱折叠，从而大大减小了计算量。并且，该基于双线性变换的VTLN方法避免了对频率因子线性搜索，减小了运算复杂度。同时，该基于双线性变换的VTLN方法利用双线性变换，使弯折的频率连续且无带宽改变。

实施例二

图2为本申请实施例二提供的语音处理装置的结构图。如图2所示，所述语音处理装置10可以包括：预处理单元201、特征提取单元202、解码单元203、摘要提取单元204。

预处理单元201，用于对语音信号进行预处理。

H(z)＝1-κz ^-1，0.9≤κ≤1.0。

其中，κ为预加重系数，优选取值在0.94-0.97之间。

常用的窗函数有矩形窗、汉明窗和汉宁窗，矩形窗函数为：

汉明窗函数为：

汉宁窗函数为：

其中，N为一个语音帧所包含的采样点的个数。

短时过零率为：

其中，sgn[.]为符号函数，表达式为：

(3)根据所述语音帧x(n)的频谱计算各个频带的累计能量：

特征提取单元202，用于对预处理后的语音信号提取特征参数。

(1)对预处理单元201得到的每一个语音帧进行离散傅里叶变换(Discrete Fourier Transform,DFT，可以是快速傅里叶变换)，得到该语音帧的频谱。

三角滤波器的频率响应为:

提取MFCC特征参数的步骤还可以包括：

(6)提取语音帧的动态差分MFCC特征参数。初始MFCC特征参数只反映了语音参数的静态特性，语音的动态特性可通过静态特征的差分谱来描述，动静态结合可以有效提升系统的识别性能，通常使用一阶和/或者二阶差分MFCC特征参数。

在一具体实施例中，提取的MFCC特征参数为39维的特征矢量，包括 13维初始MFCC特征参数、13维一阶差分MFCC特征参数和13维二阶差分MFCC特征参数。

解码单元203，用于根据所述特征参数，利用预先训练好的语音识别模型对所述语音信号进行解码，得到以句子为单位的文本。

假设特征提取单元202提取的特征参数为特征向量Y，通过解码算法寻找最有可能生成Y的词序列w _1:L＝w ₁,w ₂…w _L。

解码算法是求解使得后验概率P(w|Y)最大所对应的参数w，即：

w _best＝argmax{p(w|Y)}

由贝叶斯定理将上式转化为：

w _best＝argmax{p(Y|w)p(w)}

摘要提取单元204，用于从所述以句子为单位的文本中提取摘要句。

解码单元203将语音信号解码为以句子为单位的文本，在常规的语音识别系统中，语音识别工作已经完成。在本申请中，摘要提取单元204从识别出来的以句子为单位的文本中提取出摘要句。

摘要提取单元204通过HMM模型提取摘要句。此时，HMM模型的双重随机关系可以描述为：一重随机关系为句子序列的释放，是可观察的；另一重随机关系为该句子是否应该被归为摘要句的性质，是不可观察的。所以用HMM模型来提取摘要句的过程可以描述为给定句子序列O＝{O ₁,O ₂…O _n}，以确定句子是否为摘要句的最大可能性。主要步骤如下：

实施例二的语音处理装置10对语音信号进行预处理；对预处理后的语音信号提取特征参数；根据所述特征参数，利用预先训练好的语音识别模型对所述语音信号进行解码，得到以句子为单位的文本；通过隐马尔科夫模型HMM从以句子为单位的文本中提取摘要句。实施例二不仅将语音信息转化为文字，还提取文字中的摘要句进行输出，剔除了由语音识别结果中的无用信息，获得更好的语音处理结果。

在另一实施例中，特征提取单元202在提取MFCC特征参数时，可以进行声道长度归一化(Vocal Tract Length Normalization，VTLN)，得到声道长度归一化的MFCC特征参数。

实施例三

本实施例提供一种非易失性可读存储介质，该非易失性可读存储介质上存储有计算机可读指令，该计算机可读指令被处理器执行时实现上述语音处理方法实施例中的步骤，例如图1所示的步骤101-104：

步骤101，对语音信号进行预处理；

步骤102，对预处理后的语音信号提取特征参数；

步骤103，根据所述特征参数，利用预先训练好的语音识别模型对所述语音信号进行解码，得到以句子为单位的文本；

步骤104，通过隐马尔科夫模型HMM从以句子为单位的文本中提取摘要句。

或者，该计算机可读指令被处理器执行时实现上述装置实施例中各模块/单元的功能，例如图2中的单元201-204：

预处理单元201，用于对语音信号进行预处理；

特征提取单元202，用于对预处理后的语音信号提取特征参数；

解码单元203，用于根据所述特征参数，利用预先训练好的语音识别模型对所述语音信号进行解码，得到以句子为单位的文本；

摘要提取单元204，用于通过隐马尔科夫模型HMM从以句子为单位的文本中提取摘要句。

实施例四

图3为本申请实施例三提供的计算机装置的示意图。所述计算机装置1包括存储器20、处理器30以及存储在所述存储器20中并可在所述处理器30上运行的计算机可读指令40，例如语音处理程序。所述处理器30执行所述计算机可读指令40时实现上述语音处理方法实施例中的步骤，例如图1所示的步骤101-104：

步骤101，对语音信号进行预处理；

步骤102，对预处理后的语音信号提取特征参数；

或者，所述处理器30执行所述计算机可读指令40时实现上述装置实施例中各模块/单元的功能，例如图2中的单元201-204：

预处理单元201，用于对语音信号进行预处理；

示例性的，所述计算机可读指令40可以被分割成一个或多个模块/单元，所述一个或者多个模块/单元被存储在所述存储器20中，并由所述处理器30执行，以完成本申请。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机可读指令段，该指令段用于描述所述计算机可读指令40在所述计算机装置1中的执行过程。例如，所述计算机可读指令40可以被分割成图2中的预处理单元201、特征提取单元202、解码单元203、摘要提取单元204，各单元具体功能参见实施例二。

所述计算机装置1可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。本领域技术人员可以理解，所述示意图3仅仅是计算机装置1的示例，并不构成对计算机装置1的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述计算机装置1还可以包括输入输出设备、网络接入设备、总线等。

所称处理器30可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器30也可以是任何常规的处理器等，所述处理器30是所述计算机装置1的控制中心，利用各种接口和线路连接整个计算机装置1的各个部分。

所述存储器20可用于存储所述计算机可读指令40和/或模块/单元，所述处理器30通过运行或执行存储在所述存储器20内的计算机可读指令和/或模块/单元，以及调用存储在存储器20内的数据，实现所述计算机装置1的各种功能。所述存储器20可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据计算机装置1的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器20可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

所述计算机装置1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个非易失性可读取存储介质中。基于这样的理解，本申请实现上述实施例方法中的全部或部分流程，也可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性可读存储介质中，该计算机可读指令在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机可读指令代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述非易失性可读介质可以包括：能够携带所述计算机可读指令代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述非易失性可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，非易失性可读介质不包括电载波信号和电信信号。

在本申请所提供的几个实施例中，应该理解到，所揭露的计算机装置和方法，可以通过其它的方式实现。例如，以上所描述的计算机装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

另外，在本申请各个实施例中的各功能单元可以集成在相同处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在相同单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本申请不限于上述示范性实施例的细节，而且在不背离本申请的精神或基本特征的情况下，能够以其他的具体形式实现本申请。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本申请的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。计算机装置权利要求中陈述的多个单元或计算机装置也可以由同一个单元或计算机装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

一种语音处理方法，其特征在于，所述方法包括：

对语音信号进行预处理；

对预处理后的语音信号提取特征参数；

根据所述特征参数，利用预先训练好的语音识别模型对所述语音信号进行解码，得到以句子为单位的文本；

通过隐马尔科夫模型HMM从所述以句子为单位的文本中提取摘要句。
如权利要求1所述的方法，其特征在于，所述通过隐马尔科夫模型HMM从所述以句子为单位的文本中提取摘要句，具体包括：

获得所述以句子为单位的文本的观察状态序列O＝{O ₁,O ₂…O _n}；

确定HMM的隐含状态；

进行HMM参数估计，得到训练好的HMM；

根据所述训练好的HMM，通过Viterbi算法对所述句子进行标记，得到各个句子符合摘要句的符合度；

将满足预设符合度的句子从所述以句子为单位的文本中提取出来，得到所述以句子为单位的文本中的摘要句。
如权利要求1所述的方法，其特征在于，所述对语音信号进行预处理包括检测所述语音信号中的有效语音，具体包括：

对所述语音信号进行加窗分帧，得到所述语音信号的语音帧；

对所述语音帧进行离散傅里叶变换，得到所述语音帧的频谱；

根据所述语音帧的频谱计算各个频带的累计能量；

对所述各个频带的累计能量进行对数运算，得到所述各个频带的累计能量对数值；

将所述各个频带的累计能量对数值与预设阈值进行比较，得到所述有效语音。
如权利要求1所述的方法，其特征在于，所述特征参数包括初始梅尔倒谱系数MFCC特征参数、一阶差分MFCC特征参数和二阶差分MFCC特征参数。
如权利要求1所述的方法，其特征在于，所述方法还包括：

对所述特征参数进行降维处理，得到降维后的特征参数。
如权利要求1所述的方法，其特征在于，所述对预处理后的语音信号提取特征参数包括对预处理后的语音信号提取梅尔倒谱系数MFCC特征参数，具体包括：

采用双线性变换低通滤波器截止频率的映射公式，计算对齐不同说话人平均第三共振峰的频率弯折因子；

根据所述频率弯折因子，采用双线性变换对MFCC特征参数提取所使用的三角滤波器组的位置和宽度进行调整；

根据调整后的三角滤波器组计算声道归一化的MFCC特征参数。
如权利要求1所述的方法，其特征在于，所述对预处理后的语音信号提取特征参数包括对预处理后的语音信号提取梅尔倒谱系数MFCC特征参数，具体包括：

对每个语音帧进行离散傅里叶变换DFT，得到该语音帧的频谱；

求该语音帧的频谱幅度的平方，得到该语音帧的离散能量谱；

将该语音帧的离散能量谱通过Mel频率上均匀分布的三角滤波器组，得到各个三角滤波器的输出；

对所有三角滤波器的输出做对数运算，得到该语音帧的对数功率谱；

对所述对数功率谱离散余弦变换DCT，得到该语音帧的初始MFCC特征参数。
一种语音处理装置，其特征在于，所述装置包括：

预处理单元，用于对语音信号进行预处理；

特征提取单元，用于对预处理后的语音信号提取特征参数；

解码单元，用于根据所述特征参数，利用预先训练好的语音识别模型对所述语音信号进行解码，得到以句子为单位的文本；

摘要提取单元，用于通过隐马尔科夫模型HMM从所述以句子为单位的文本中提取摘要句。
一种计算机装置，其特征在于，所述计算机装置包括处理器和存储器，所述存储器用于存储至少一个计算机可读指令，所述处理器用于执行所述至少一个计算机可读指令以实现以下步骤：

对语音信号进行预处理；

对预处理后的语音信号提取特征参数；

根据所述特征参数，利用预先训练好的语音识别模型对所述语音信号进行解码，得到以句子为单位的文本；

通过隐马尔科夫模型HMM从所述以句子为单位的文本中提取摘要句。
如权利要求9所述的计算机装置，其特征在于，所述通过隐马尔科夫模型HMM从所述以句子为单位的文本中提取摘要句，具体包括：

获得所述以句子为单位的文本的观察状态序列O＝{O ₁,O ₂…O _n}；

确定HMM的隐含状态；

进行HMM参数估计，得到训练好的HMM；

根据所述训练好的HMM，通过Viterbi算法对所述句子进行标记，得到各个句子符合摘要句的符合度；

将满足预设符合度的句子从所述以句子为单位的文本中提取出来，得到所述以句子为单位的文本中的摘要句。
如权利要求9所述的计算机装置，其特征在于，所述对语音信号进行预处理包括检测所述语音信号中的有效语音，具体包括：

对所述语音信号进行加窗分帧，得到所述语音信号的语音帧；

对所述语音帧进行离散傅里叶变换，得到所述语音帧的频谱；

根据所述语音帧的频谱计算各个频带的累计能量；

对所述各个频带的累计能量进行对数运算，得到所述各个频带的累计能量对数值；

将所述各个频带的累计能量对数值与预设阈值进行比较，得到所述有效语音。
如权利要求9所述的计算机装置，其特征在于，所述处理器还用于执行所述至少一个计算机可读指令以实现以下步骤：

对所述特征参数进行降维处理，得到降维后的特征参数。
如权利要求9所述的计算机装置，其特征在于，所述对预处理后的语音信号提取特征参数包括对预处理后的语音信号提取梅尔倒谱系数MFCC特征参数，具体包括：

采用双线性变换低通滤波器截止频率的映射公式，计算对齐不同说话人平均第三共振峰的频率弯折因子；

根据所述频率弯折因子，采用双线性变换对MFCC特征参数提取所使用的三角滤波器组的位置和宽度进行调整；

根据调整后的三角滤波器组计算声道归一化的MFCC特征参数。
如权利要求9所述的计算机装置，其特征在于，所述对预处理后的语音信号提取特征参数包括对预处理后的语音信号提取梅尔倒谱系数MFCC特征参数，具体包括：

对每个语音帧进行离散傅里叶变换DFT，得到该语音帧的频谱；

求该语音帧的频谱幅度的平方，得到该语音帧的离散能量谱；

将该语音帧的离散能量谱通过Mel频率上均匀分布的三角滤波器组，得到各个三角滤波器的输出；

对所有三角滤波器的输出做对数运算，得到该语音帧的对数功率谱；

对所述对数功率谱离散余弦变换DCT，得到该语音帧的初始MFCC特征参数。
一种非易失性可读存储介质，所述非易失性可读存储介质上存储有计算机可读指令，其特征在于，所述计算机可读指令被处理器执行时实现以下步骤：

对语音信号进行预处理；

对预处理后的语音信号提取特征参数；

根据所述特征参数，利用预先训练好的语音识别模型对所述语音信号进行解码，得到以句子为单位的文本；

通过隐马尔科夫模型HMM从所述以句子为单位的文本中提取摘要句。
如权利要求15所述的存储介质，其特征在于，所述通过隐马尔科夫模型HMM从所述以句子为单位的文本中提取摘要句，具体包括：

获得所述以句子为单位的文本的观察状态序列O＝{O ₁,O ₂…O _n}；

确定HMM的隐含状态；

进行HMM参数估计，得到训练好的HMM；

根据所述训练好的HMM，通过Viterbi算法对所述句子进行标记，得到各个句子符合摘要句的符合度；

将满足预设符合度的句子从所述以句子为单位的文本中提取出来，得到所述以句子为单位的文本中的摘要句。
如权利要求15所述的存储介质，其特征在于，所述对语音信号进行预处理包括检测所述语音信号中的有效语音，具体包括：

对所述语音信号进行加窗分帧，得到所述语音信号的语音帧；

对所述语音帧进行离散傅里叶变换，得到所述语音帧的频谱；

根据所述语音帧的频谱计算各个频带的累计能量；

对所述各个频带的累计能量进行对数运算，得到所述各个频带的累计能量对数值；

将所述各个频带的累计能量对数值与预设阈值进行比较，得到所述有效语音。
如权利要求15所述的存储介质，其特征在于，所述至少一个计算机可读指令被所述处理器执行时还实现以下步骤：

对所述特征参数进行降维处理，得到降维后的特征参数。
如权利要求15所述的存储介质，其特征在于，所述对预处理后的语音信号提取特征参数包括对预处理后的语音信号提取梅尔倒谱系数MFCC特征参数，具体包括：

采用双线性变换低通滤波器截止频率的映射公式，计算对齐不同说话人平均第三共振峰的频率弯折因子；

根据所述频率弯折因子，采用双线性变换对MFCC特征参数提取所使用的三角滤波器组的位置和宽度进行调整；

根据调整后的三角滤波器组计算声道归一化的MFCC特征参数。
如权利要求15所述的存储介质，其特征在于，所述对预处理后的语音信号提取特征参数包括对预处理后的语音信号提取梅尔倒谱系数MFCC特征参数，具体包括：

对每个语音帧进行离散傅里叶变换DFT，得到该语音帧的频谱；

求该语音帧的频谱幅度的平方，得到该语音帧的离散能量谱；

将该语音帧的离散能量谱通过Mel频率上均匀分布的三角滤波器组，得到各个三角滤波器的输出；

对所有三角滤波器的输出做对数运算，得到该语音帧的对数功率谱；

对所述对数功率谱离散余弦变换DCT，得到该语音帧的初始MFCC特征参数。