WO2020140607A1

WO2020140607A1 - 一种语音信号处理方法、设备及计算机可读存储介质

Info

Publication number: WO2020140607A1
Application number: PCT/CN2019/116962
Authority: WO
Inventors: 王健宗; 程宁; 肖京
Original assignee: 平安科技（深圳）有限公司
Priority date: 2019-01-04
Filing date: 2019-11-11
Publication date: 2020-07-09
Also published as: CN109658921B; CN109658921A

Abstract

一种语音信号处理方法、设备及计算机可读存储介质，其中方法包括：获取面试过程中面试者发出的语音信号（S101）；根据第一预设时长对语音信号进行加窗分帧处理，将语音信号拆分为多段第二预设时长的语音帧，第二预设时长小于或等于第一预设时长（S102）；对每一段第二预设时长的语音帧进行去噪处理，并将去噪处理后的所有第二预设时长的语音帧转换为语音信号序列（S103）；将语音信号序列输入语音识别模型进行分类处理，确定出与语音信号序列对应的目标语音类别（S104）；根据预设的语音类别与分数的对应关系，确定与目标语音类别对应的目标分数，并确定与所述目标分数对应的目标语音等级（S105）。通过这种方式，可提高语音识别的效率和准确性，从而提高面试效率。

Description

一种语音信号处理方法、设备及计算机可读存储介质

本申请要求于2019年01月04日提交中国专利局、申请号为201910014077.7、申请名称为“一种语音信号处理方法、设备及计算机可读存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音识别技术领域，尤其涉及一种语音信号处理方法、设备及计算机可读存储介质。

背景技术

招聘是每个企业必不可少的一个环节，招聘效率不管是对企业的下一步发展战略还是企业成本都是至关重要的。客服作为企业基础岗位之一，在客服招聘过程中，面试官主要通过与面试者的面对面的交流来判断其语音是否满足客服要求。然而由于应聘量较大，需要处理的简历多，带来了较大的工作量。因此如何更有效地提高客服招聘效率成为研究的重点。

发明内容

本申请实施例提供一种信号处理方法、设备及计算机可读存储介质，可提高语音识别效率，从而提高面试效率。

第一方面，本申请实施例提供了一种信号处理方法，该方法包括：

获取面试过程中面试者发出的语音信号；

根据第一预设时长对所述语音信号进行加窗分帧处理，将所述语音信号拆分为多段第二预设时长的语音帧，所述第二预设时长小于或等于所述第一预设时长；

对每一段所述第二预设时长的语音帧进行去噪处理，并将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列；

将所述语音信号序列输入语音识别模型进行分类处理，确定出与所述语音信号序列对应的目标语音类别；

根据预设的语音类别与分数的对应关系，确定与所述目标语音类别对应的目标分数，并根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级，以便根据所述目标语音等级确定所述面试者是否面试成功。

第二方面，本申请实施例提供了一种信号处理设备，该信号处理设备包括用于执行上述第一方面的信号处理方法的单元。

第三方面，本申请实施例提供了另一种信号处理设备，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储支持信号处理设备执行上述方法的计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面的方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

本申请实施例通过将获取到的语音信号转换为语音信号序列，确定该语音信号序列的目标语音类型，以确定与目标语音类别对应的目标分数和目标语音等级，从而提高了语音识别的效率和准确性。

附图说明

图1是本申请实施例提供的一种语音信号处理方法的示意流程图；

图2是本申请实施例提供的另一种语音信号处理方法的示意流程图；

图3是本申请实施例提供的一种语音信号处理设备的示意框图；

图4是本申请实施例提供的另一种语音信号处理设备的示意框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的语音信号处理方法可以由一种语音信号处理设备执行，其中，在某些实施例中，所述语音信号处理设备可以设置在手机、电脑、平板、智能手表等智能终端上。所述语音信号处理设备可以获取面试过程中面试者发出的语音信号，并根据第一预设时长对所述语音信号进行加窗分帧处理，以及将所述语音信号拆分为多段第二预设时长的语音帧，所述第二预设时长小于或等于所述第一预设时长。所述语音信号处理设备可以对每一段所述第二预设时长的语音帧进行去噪处理，并将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列，以及将所述语音信号序列输入语音识别模型进行分类处理，确定出与所述语音信号序列对应的目标语音类别。所述语音信号处理设备在确定出与所述语音信号序列对应的目标语音类别之后，可以根据预设的语音类别与分数的对应关系，确定与所述目标语音类别对应的目标分数，并根据所述目标分数确定所述面试者是否面试成功。下面结合附图对本申请实施例的语音信号处理方法进行示意性说明。

请参见图1，图1是本申请实施例提供的一种语音信号处理方法的示意流程图，如图1所示，该方法可以由语音信号处理设备执行，所述语音信号处理设备的具体解释如前所述，此处不再赘述。具体地，本申请实施例的所述方法包括如下步骤。

S101：获取面试过程中面试者发出的语音信号。

本申请实施例中，语音信号处理设备可以获取面试过程中面试者发出的语音信号。

在一个实施例中，所述语音信号处理设备在获取每个面试者的语音信号时，可以预先在安静的环境下，通过传感器获取语音信号，并对每个语音信号配置一个用户标识，所述用户标识用于区分不同的面试者的语音信号。所述语音信号处理设备可以将收集到的各语音信号与用户标识的对应关系存储至数据库，其中，所述传感器可以是一种可穿戴设备，也可以是其他智能终端。在某些实施例中，本申请实施例可以通过一种可穿戴设备来全程获取面试过程中多个面试者发出的语音信号，并且可以将所述语音信号实时传输到云端服务器进行处理。

具体可举例说明，假设预设数量为50，则语音信号处理设备收集50人在无外界语音干扰的环境下的语音信息。首先通过传感器来采集语音信号，记录了50位人员的语音，每位面试者的语音记录30分钟。对于所有的记录，压电传感器的采样率为44.1kHz，然后再采样到16kHz。其中，需要说明的是，不同的采样率，选取的数据是不一样的。

S102：根据第一预设时长对所述语音信号进行加窗分帧处理，将所述语音信号拆分为多段第二预设时长的语音帧。

本申请实施例中，语音信号处理设备可以根据第一预设时长对所述语音信号进行加窗分帧处理，将所述语音信号拆分为多段第二预设时长的语音帧；在某些实施例中，所述第二预设时长小于或等于所述第一预设时长。在某些实施例中，语音信号在宏观上是不平稳的，在微观上是平稳的，具有短时平稳性(如10---30ms内可以认为语音信号近似不变)，因此就可以将语音信号分为一些短段来进行处理，且每一个短段称为一帧，从而实现对语音信号的分帧处理。在某些是实施例中，加窗是指与一个窗函数相乘,加窗之后是为了进行傅里叶展开，使全局更加连续，避免出现吉布斯效应，加窗之后原本没有周期性的语音信号呈现出周期函数的部分特征。

例如，假设第一预设时长为30ms，如果第二预设时长为10ms，则所述语音信号处理设备可以对所述语音信号进行加窗分帧处理，将所述语音信号拆分为3段第二预设时长为10ms的语音帧。

S103：对每一段所述第二预设时长的语音帧进行去噪处理，并将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列。

本申请实施例中，语音信号处理设备可以对每一段所述第二预设时长的语音帧进行去噪处理，并将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列。在一些实施例中，所述语音信号处理设备在对每一段第二预设时长的语音帧进行去噪处理时，可以根据预设的去噪算法对每一段第二预设时长的语音帧进行去噪处理。在某些实施例中，所述去噪算法可以是自适应滤波器、谱减法、维纳滤波法等任意一种；在其他实施例中，所述去噪算法还可以采用其他算法，本申请实施例不做具体限定。

在一个实施例中，所述语音信号处理设备在将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列时，可以采用离散余弦变换的方式，将所述去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列。在某些实施例中，所述离散余弦变换是与傅里叶变换相关的一种变换，它类似于离散傅里叶变换，但是只使用实数。离散余弦变换相当于一个长度大概是它两倍的离散傅里叶变换，这个离散傅里叶变换是对一个实偶函数进行的(因为一个实偶函数的傅里叶变换仍然是一个实偶函数)。在其他实施例中，所述语音信号处理设备还可以采用其他方式对每一段所述第二预设时长的语音帧进行转换。

S104：将所述语音信号序列输入语音识别模型进行分类处理，确定出与所述语音信号序列对应的目标语音类别。

本申请实施例中，语音信号处理设备可以将所述语音信号序列输入语音识别模型进行分类处理，确定出与所述语音信号序列对应的目标语音类别。在某些实施例中，所述语音类别可以包括n个类别，所述n为大于0的正整数，所述语言的分类可以根据声音的甜美、柔和、浑厚、沙哑、高亢、磁性、浮躁等进行分类，本申请实施例不做具体限定。

在一个实施例中，所述语音信号处理设备在将所述语音信号序列输入语音识别模型进行分类处理之前，还可以获取样本数据集，并根据预设的识别算法生成初始识别模型以及基于所述样本语音信号序列和所述样本语音信号的类别对所述初始识别模型进行训练，得到所述语音识别模型。在某些实施例中，所述样本数据集中包括样本语音信号序列和样本语音信号的类别。

在一些实施例中，所述语音识别模型是通过用一个6层的编码-解码结构实现的循环神经网络(Recurrent Neural Network,RNN)，这个结构可以使RNN处理和分类任意长度的语音信号序列。在某些实施例中，所述6层编码-解码结构包括：编码器、固定的编码层、解码器和分类层，其中，所述编码器由3层组成，包括：128神经元和64神经元的2个双向循环层、32个循环神经元的单向层。具体介绍如下：

1)编码器：由3层组成的，包括分别为128神经元和64神经元的2个双向循环层，有32个循环神经元的单向层。我们的编码器被设置为可以处理最大长度为我们设定的值的任意序列。所述编码器是利用神经网络进行编码建模的过程，会有几层结构，将原来的语音数据进行了映射做了压缩。

2)固定的编码层：编码器输出的最后一层是一个固定参数的有32神经元的激活层，被用来初始化解码器。

3)解码器：由一个单独的循环层构成，它具有64个长短时记忆(LSTM)单元，且结合了注意力机制。注意力机制使该网络主要关注输入特性的显著部分，并最终提高分类性能。目前，我们的解码器设置为对每个输入序列输出一个单一的标签，即1-5档次中的一种。其中，所述解码器：是把之前压缩的数据，进行转换解码，最后输出分类的工作。

4)分类：最后的分类层使用softmax函数输出一个分类标签。Softmax函数可以将输入映射称为(0,1)的值，将这个值理解为概率。分类就是把人的语音分成多个档次的过程。

Softmax函数会对每个分类输出一个概率出来。例如，(类1，0.2)(类2，0.1)，(类3,0.01)，(类4，0.01)，(类5，0.68)。我们通过比较概率，选出类5作为最后的类，这个就是softmax函数的分类作用。

在一个实施例中，所述语音信号处理设备在获取样本数据集之前，还可以获取样本语音信号，并根据预设的分数信息与语音类别的对应关系，确定与所述样本语音信号所携带的分数信息对应的语音类别。在某些实施例中，所述样本语音信号携带了分数信息。例如，假设所述预设的语音类别可以包括5个类别，且分别为第一类别，第二类别，第三类别，第四类别，第五类别；其中，所述预设的分数信息与语音类别的对应关系为：第一类别对应第一分数范围，所述第二类别对应第二分数范围，所述第三类别对应第三分数范围，所述第四类别对应第四分数范围，所述第五类别对应第五分数范围。在某些实施例中，从所述第一类别至第五类别的语音类别可以依次为：很难听，难听，一般，好听，很好听。

在一个实施例中，所述语音信号处理设备在获取样本数据集时，所述语音信号处理设备可以根据第三预设时长对所述样本语音信号进行加窗分帧处理，将所述样本语音信号拆分为多段第四预设时长的样本语音帧，并对每一段所述第四预设时长的样本语音帧进行去噪处理，以及将去噪处理后的所有所述第二预设时长的样本语音帧转换为样本语音信号序列，从而确定所述样本语音信号序列和所述样本语音信号对应的语音类别为所述样本数据集。在某些实施例中，所述第四预设时长小于或等于所述第三预设时长。

在一个实施例中，所述语音信号处理设备可以根据所述语音信号序列与所述语音识别模型中各样本语音信号序列的相似度，来确定与所述语音信号序列对应的目标语音类别。在某些实施例中，所述语音信号处理设备还可以根据所述语音信号序列属于各语音类别的概率，来确定与所述语音信号序列对应的目标语音类别。

S105：根据预设的语音类别与分数的对应关系，确定与所述目标语音类别对应的目标分数，并根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级。

本申请实施例中，根据预设的语音类别与分数的对应关系，确定与所述目标语音类别对应的目标分数，并根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级，以便根据所述目标语音等级确定所述面试者是否面试成功。

在一个实施例中，所述语音信号处理设备在根据所述目标分数确定所述面试者是否面试成功时，可以根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级；判断所述目标语音等级是否大于预设等级阈值；如果判断结果出所述目标语音等级大于预设等级阈值，则将所述目标语音等级与面试者的用户标识的对应关系存储至数据库；当面试结束时，按照目标语音等级从高到底的顺序从所述数据库筛选出预设数量的目标用户标识，并确定所述目标用户标识对应的面试者面试成功。

在一个实施例中，如果所述语音信号处理设备在预设时间间隔内未接收到面试这发出的语音信号，则触发所述语音信号处理设备确定面试结束，以对所述数据库中的分数进行筛选。在某些实施例中，所述语音信号处理设备还可以通过获取到的面试结束指令，来确定面试结束。在某些实施例中，所述面试结束指令可以是用户通过语音信号处理设备上的面试结束操作触发的，所述面试结束操作可以通过对结束按钮、结束开关等操作实现；当然在其他实施例中，本申请实施例还可以采用其他方式来触发面试结束操作，本申请实施例不做具体限定。

本申请实施例通过将语音信号转换为语音信号序列，并确定出与语音信号序列对应的目标语音类别的目标分数，以根据目标分数确定面试者是否面试成功，从而提高语音识别的效率和准确性。

请参见图2，图2是本申请实施例提供的另一种语音信号处理方法的示意流程图，如图2所示，该方法可以由语音信号处理设备执行，该语音信号处理设备的具体解释如前所述，此处不再赘述。本申请实施例与上述图1所述实施例的区别在于，本申请实施例是对根据语音信号序列确定出与所述语音信号序列对应的目标语音类别的实施过程进行示意性说明。具体地，本申请实施例的所述方法包括如下步骤。

S201：获取面试过程中面试者发出的语音信号。

S202：根据第一预设时长对所述语音信号进行加窗分帧处理，将所述语音信号拆分为多段第二预设时长的语音帧。

本申请实施例中，语音信号处理设备可以根据第一预设时长对所述语音信号进行加窗分帧处理，将所述语音信号拆分为多段第二预设时长的语音帧。具体实施例及举例如前所述，此处不再赘述。

S203：对每一段所述第二预设时长的语音帧进行去噪处理，并将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列。

本申请实施例中，语音信号处理设备可以对每一段所述第二预设时长的语音帧进行去噪处理，并将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列。具体实施例如前所述，此处不在赘述。

S204：计算所述语音信号序列与语音识别模型中各样本语音信号序列的相似度。

本申请实施例中，语音信号处理设备可以计算所述语音信号序列与语音识别模型中各样本语音信号序列的相似度。在某些实施例中，所述语音信号处理设备可以通过余弦相似度算法，来计算所述语音信号序列与语音识别模型中各样本语音信号序列的相似度。在其他实施例中，所述语音信号处理设备也可以通过其他计算相似度的算法，来计算所述语音信号序列与语音识别模型中各样本语音信号序列的相似度，本申请实施例不做具体限定。

S205：获取所述相似度大于预设阈值的至少一个样本语音信号序列。

本申请实施例中，语音信号处理设备可以获取所述相似度大于预设阈值的至少一个样本语音信号序列。

在一个实施例中，所述语音信号处理设备在计算出所述语音信号序列与语音识别模型中各样本语音信号序列的相似度之后，可以检测各相似度是否大于预设阈值，并从所述语音识别模型的各样本语音信号序列中获取所述相似度大于预设阈值的至少一个样本语音信号序列。

S206：从所述至少一个样本语音信号序列中，确定出所述相似度最大的样本语音信号序列所对应的目标语音类别。

本申请实施例中，语音信号处理设备可以从所述至少一个样本语音信号序列中，确定出所述相似度最大的样本语音信号序列所对应的目标语音类别。

例如，假设所述语音信号处理设备获取到所述相似度大于预设阈值的n个样本语音信号序列，则所述语音信号处理设备可以从所述n个样本语音信号序列中，确定出所述相似度最大的样本语音信号序列所对应的目标语音类别。

在一个实施例中，所述语音信号处理设备在确定与所述语音信号序列对应的目标语音类别时，还可以根据预设的归一化指数函数(即softmax函数)，计算所述语音信号序列属于各语音类别的概率，并确定所述语音信号序列属于各语音类别的最大概率值，从而将所述最大概率值所对应的语音类别确定为与所述语音信号序列对应的目标语音类别。

在一些实施例中，所述softmax函数的形式通常按下面的式子给出：

其中，所述softmax函数是将一个含任意实数的K维向量z _k“压缩”到另一个K维实向量σ(z) _j中，使得σ(z) _j的范围在(0,1)之间，并且所有元素的和为1。其中，该j＝1,…,K，k＝1,…,K。Softmax函数实际上是有限项离散概率分布的梯度对数归一化。因此，Softmax函数在包括多项逻辑回归，多项线性判别分析，朴素贝叶斯分类器和人工神经网络等的多种基于概率的多分类问题方法中都有着广泛应用。

S207：根据预设的语音类别与分数的对应关系，确定与所述目标语音类别对应的目标分数，并根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级。

本申请实施例中，语音信号处理设备可以根据预设的语音类别与分数的对应关系，确定与所述目标语音类别对应的目标分数，并根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级，以便根据所述目标语音等级确定所述面试者是否面试成功。具体实施例如前所述，此处不再赘述。

本申请实施例还提供了一种语音信号处理设备，该语音信号处理设备用于执行前述任一项所述的方法的单元。具体地，参见图3，图3是本申请实施例提供的一种语音信号处理设备的示意框图。本实施例的语音信号处理设备包括：获取单元301、拆分单元302、去噪单元303、分类单元304以及确定单元305。

获取单元301，用于获取面试过程中面试者发出的语音信号；

拆分单元302，用于根据第一预设时长对所述语音信号进行加窗分帧处理，将所述语音信号拆分为多段第二预设时长的语音帧，所述第二预设时长小于或等于所述第一预设时长；

去噪单元303，用于对每一段所述第二预设时长的语音帧进行去噪处理，并将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列；

分类单元304，用于将所述语音信号序列输入语音识别模型进行分类处理，确定出与所述语音信号序列对应的目标语音类别；

确定单元305，用于根据预设的语音类别与分数的对应关系，确定与所述目标语音类别对应的目标分数，并根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级，以便根据所述目标语音等级确定所述面试者是否面试成功。

进一步地，所述分类单元304将所述语音信号序列输入语音识别模型进行分类处理之前，还用于：

获取样本数据集，所述样本数据集中包括样本语音信号序列和样本语音信号的类别；

根据预设的识别算法生成初始识别模型；

基于所述样本语音信号序列和所述样本语音信号的类别对所述初始识别模型进行训练，得到所述语音识别模型。

进一步地，所述分类单元304获取样本数据集之前，还用于：

获取样本语音信号，其中，所述样本语音信号携带了分数信息；

根据预设的分数信息与语音类别的对应关系，确定与所述样本语音信号所携带的分数信息对应的语音类别。

进一步地，所述分类单元304获取样本数据集时，具体用于：

根据第三预设时长对所述样本语音信号进行加窗分帧处理，将所述样本语音信号拆分为多段第四预设时长的样本语音帧，所述第四预设时长小于或等于所述第三预设时长；

对每一段所述第四预设时长的样本语音帧进行去噪处理，并将去噪处理后的所有所述第二预设时长的样本语音帧转换为样本语音信号序列；

确定所述样本语音信号序列和所述样本语音信号对应的语音类别为所述样本数据集。

进一步地，所述分类单元304将所述语音信号序列输入语音识别模型进行分类处理，确定出与所述语音信号序列对应的目标语音类别时，具体用于：

计算所述语音信号序列与所述语音识别模型中各样本语音信号序列的相似度；

获取所述相似度大于预设阈值的至少一个样本语音信号序列；

从所述至少一个样本语音信号序列中，确定出所述相似度最大的样本语音信号序列所对应的目标语音类别。

根据预设的归一化指数函数，计算所述语音信号序列属于各语音类别的概率，并确定所述语音信号序列属于各语音类别的最大概率值；

将所述最大概率值所对应的语音类别确定为与所述语音信号序列对应的目标语音类别。

进一步地，所述确定单元305根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级，以便根据所述目标语音等级确定所述面试者是否面试成功时，具体用于：

根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级；

判断所述目标语音等级是否大于预设等级阈值；

如果判断结果出所述目标语音等级大于预设等级阈值，则将所述目标语音等级与面试者的用户标识的对应关系存储至数据库；

当面试结束时，按照目标语音等级从高到底的顺序从所述数据库筛选出预设数量的目标用户标识，并确定所述目标用户标识对应的面试者面试成功。

进一步地，所述获取单元301获取面试过程中面试者发出的语音信号时，具体用于：

通过传感器获取语音信号；

对获取到的语音信号添加用户标识，其中，所述用户标识用于区分不同的面试者的语音信号。

进一步地，所述分类单元304将去噪处理后的所有所述第二预设时长的样本语音帧转换为样本语音信号序列时，具体用于：

采用离散余弦变换的方式，将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列；

其中，所述离散余弦变换是对一个实偶函数进行的傅里叶变换。

计算所述语音信号序列属于各语音类别的概率；

根据所述语音信号序列属于各语音类别的概率，确定概率最大的语音类别为与所述语音信号序列对应的目标语音类别。

参见图4，图4是本申请实施例提供的另一种语音信号处理设备示意框图。如图所示的本实施例中的语音信号处理设备可以包括：一个或多个处理器401；一个或多个输入设备402，一个或多个输出设备403和存储器404。上述处理器401、输入设备402、输出设备403和存储器404通过总线405连接。存储器404用于存储计算机程序，所述计算机程序包括程序指令，处理器401用于执行存储器404存储的程序指令。其中，处理器401被配置用于调用所述程序指令执行：

获取面试过程中面试者发出的语音信号；

进一步地，所述处理器401将所述语音信号序列输入语音识别模型进行分类处理之前，还用于：

根据预设的识别算法生成初始识别模型；

进一步地，所述处理器401获取样本数据集之前，还用于：

进一步地，所述处理器401获取样本数据集时，具体用于：

进一步地，所述处理器401将所述语音信号序列输入语音识别模型进行分类处理，确定出与所述语音信号序列对应的目标语音类别时，具体用于：

进一步地，所述处理器401根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级，以便根据所述目标语音等级确定所述面试者是否面试成功时，具体用于：

判断所述目标语音等级是否大于预设等级阈值；

进一步地，所述处理器401获取面试过程中面试者发出的语音信号时，具体用于：

通过传感器获取语音信号；

进一步地，所述处理器401将去噪处理后的所有所述第二预设时长的样本语音帧转换为样本语音信号序列时，具体用于：

计算所述语音信号序列属于各语音类别的概率；

应当理解，在本申请实施例中，所称处理器401可以是中央处理单元(CenSral Processing UniS，CPU)，该处理器还可以是其他通用处理器、数字语音信号处理器(DigiSal Signal Processor，DSP)、专用集成电路(ApplicaSion Specific InSegraSed CircuiS，ASIC)、现成可编程门阵列(Field-Programmable GaSe Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

输入设备402可以包括触控板、麦克风等，输出设备403可以包括显示器(LCD等)、扬声器等。

该存储器404可以包括只读存储器和随机存取存储器，并向处理器401提供指令和数据。存储器404的一部分还可以包括非易失性随机存取存储器。例如，存储器404还可以存储设备类型的信息。

具体实现中，本申请实施例中所描述的处理器401、输入设备402、输出设备403可执行本申请实施例提供的图1或图2所述的语音信号处理方法实施例中所描述的实现方式，也可执行本申请实施例图3或图4所描述的语音信号处理设备的实现方式，在此不再赘述。

本申请实施例中还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现图1或图2所对应实施例中描述的语音信号处理方法，也可实现本申请图3或图4所对应实施例的语音信号处理设备，在此不再赘述。在某些实施例中，所述计算机可读存储介质还可以为计算机非易失性可读存储介质，本发明实施例在此处不做具体限定。

所述计算机可读存储介质可以是前述任一实施例所述的语音信号处理设备的内部存储单元，例如语音信号处理设备的硬盘或内存。所述计算机可读存储介质也可以是所述语音信号处理设备的外部存储设备，例如所述语音信号处理设备上配备的插接式硬盘，智能存储卡(SmarS Media Card,SMC)，安全数字(Secure DigiSal,SD)卡，闪存卡(Flash Card)等。进一步地，所述计算机可读存储介质还可以既包括所述语音信号处理设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述语音信号处理设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

以上所述，仅为本申请的部分实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。

Claims

一种图像数据处理方法，其特征在于，包括：

接收业务终端发送的待检测的图像数据，所述待检测的图像数据包括字段信息；

对所述待检测的图像数据中的字段信息进行标注，以得到字段标注信息；

根据所述字段标注信息确定所述待检测的图像数据中字段信息的位置信息，并根据所述位置信息对所述待检测的图像数据进行裁剪，得到与所述位置信息对应的字段图像数据；

获取所述字段图像数据中的文本信息，并根据所述文本信息对所述字段图像数据中文本的位置信息进行标注，以得到文本位置标注信息；

基于识别模型对所述文本位置标注信息和所述字段图像数据进行处理，以识别出所述字段图像数据中的文本信息。
根据权利要求1所述的方法，其特征在于，所述字段信息包括载体数据和载体数据中的字段数据；所述对所述待检测的图像数据中的字段信息进行标注，以得到字段标注信息，包括：

对所述待检测的图像数据中的载体数据进行标注，得到载体的标注数据；以及，

对所述载体数据中的字段数据进行标注，得到字段的标注数据；

将所述载体的标注数据和所述字段的标注数据确定为所述字段标注信息。
根据权利要求2所述的方法，其特征在于，所述根据所述字段标注信息确定所述待检测的图像数据中字段信息的位置信息，包括：

根据所述字段标注信息中载体的标注数据，确定出所述待检测的图像数据中载体的位置信息；

根据所述载体的位置信息和所述字段标注信息中字段的标注数据，确定出所述字段在所述载体中的相对位置信息；

所述根据所述位置信息对所述待检测的图像数据进行裁剪，得到与所述位置信息对应的字段图像数据，包括：

根据所述字段在所述载体中的相对位置信息对所述载体中的字段进行裁剪，得到与所述相对位置信息对应的字段图像数据。
根据权利要求1所述的方法，其特征在于，所述根据所述文本信息对所述字段图像数据中文本的位置信息进行标注，以得到文本位置标注信息，包括：

根据所述文本信息对所述字段图像数据中的文本信息进行拆分，得到与所述文本信息对应的每个文字；

对每一个文字的位置信息进行标注，以得到所述字段图像数据中与所述文本信息对应的每一个文字的文本位置标注信息。
根据权利要求4所述的方法，其特征在于，所述基于识别模型对所述文本位置标注信息和所述字段图像数据进行处理，以识别出所述字段图像数据中的文本信息，包括：

基于所述识别模型对所述字段图像数据中与所述文本信息对应的每一个文字的文本位置标注信息进行识别，确定出与所述每一个文字的文本位置标注信息对应的位置信息；

按照与所述每一个文字的文本位置标注信息对应的位置信息，对所述文本信息中的文字进行排列组合，以得到所述字段图像数据中的文本信息。
根据权利要求1所述的方法，其特征在于，所述基于识别模型对所述文本位置标注信息和所述字段图像数据进行处理之前，还包括：

获取样本字段图像数据，所述样本字段图像数据中包括文本位置标注信息；

根据预设的识别算法生成初始识别模型；

基于所述包括文本位置标注信息的样本字段图像数据对所述初始识别模型进行训练，得到所述识别模型。
根据权利要求6所述的方法，其特征在于，所述获取样本数据集之前，还包括：

获取样本图像数据，所述样本图像数据包括样本字段信息；

对所述样本图像数据的样本字段信息进行标注，以得到样本字段标注信息；

根据所述样本字段标注信息，确定所述样本图像数据中样本字段信息的位置信息；

根据所述样本字段信息的位置信息对所述样本图像数据进行裁剪，得到与所述样本字段信息的位置信息对应的样本字段图像数据。
根据权利要求1所述的方法，其特征在于，所述获取面试过程中面试者发出的语音信号，包括：

通过传感器获取语音信号；

对获取到的语音信号添加用户标识，其中，所述用户标识用于区分不同的面试者的语音信号。
根据权利要求4所述的方法，其特征在于，所述将去噪处理后的所有所述第二预设时长的样本语音帧转换为样本语音信号序列，包括：

采用离散余弦变换的方式，将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列；

其中，所述离散余弦变换是对一个实偶函数进行的傅里叶变换。
根据权利要求5所述的方法，其特征在于，所述将所述语音信号序列输入语音识别模型进行分类处理，确定出与所述语音信号序列对应的目标语音类别，包括：

计算所述语音信号序列属于各语音类别的概率；

根据所述语音信号序列属于各语音类别的概率，确定概率最大的语音类别为与所述语音信号序列对应的目标语音类别。
一种信号处理设备，其特征在于，包括：

获取单元，用于获取面试过程中面试者发出的语音信号；

拆分单元，用于根据第一预设时长对所述语音信号进行加窗分帧处理，将所述语音信号拆分为多段第二预设时长的语音帧，所述第二预设时长小于或等于所述第一预设时长；

去噪单元，用于对每一段所述第二预设时长的语音帧进行去噪处理，并将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列；

分类单元，用于将所述语音信号序列输入语音识别模型进行分类处理，确定出与所述语音信号序列对应的目标语音类别；

确定单元，用于根据预设的语音类别与分数的对应关系，确定与所述目标语音类别对应的目标分数，并根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级，以便根据所述目标语音等级确定所述面试者是否面试成功。
根据权利要求11所述的设备，其特征在于，所述分类单元将所述语音信号序列输入语音识别模型进行分类处理之前，还用于：

获取样本数据集，所述样本数据集中包括样本语音信号序列和样本语音信号的类别；

根据预设的识别算法生成初始识别模型；

基于所述样本语音信号序列和所述样本语音信号的类别对所述初始识别模型进行训练，得到所述语音识别模型。
根据权利要求12所述的设备，其特征在于，所述分类单元获取样本数据集之前，还用于：

获取样本语音信号，其中，所述样本语音信号携带了分数信息；

根据预设的分数信息与语音类别的对应关系，确定与所述样本语音信号所携带的分数信息对应的语音类别。
根据权利要求13所述的设备，其特征在于，所述分类单元获取样本数据集时，具体用于：

根据第三预设时长对所述样本语音信号进行加窗分帧处理，将所述样本语音信号拆分为多段第四预设时长的样本语音帧，所述第四预设时长小于或等于所述第三预设时长；

对每一段所述第四预设时长的样本语音帧进行去噪处理，并将去噪处理后的所有所述第二预设时长的样本语音帧转换为样本语音信号序列；

确定所述样本语音信号序列和所述样本语音信号对应的语音类别为所述样本数据集。
根据权利要求14所述的设备，其特征在于，所述分类单元将所述语音信号序列输入语音识别模型进行分类处理，确定出与所述语音信号序列对应的目标语音类别时，具体用于：

计算所述语音信号序列与所述语音识别模型中各样本语音信号序列的相似度；

获取所述相似度大于预设阈值的至少一个样本语音信号序列；

从所述至少一个样本语音信号序列中，确定出所述相似度最大的样本语音信号序列所对应的目标语音类别。
根据权利要求14所述的设备，其特征在于，所述分类单元将所述语音信号序列输入语音识别模型进行分类处理，确定出与所述语音信号序列对应的目标语音类别时，具体用于：

根据预设的归一化指数函数，计算所述语音信号序列属于各语音类别的概率，并确定所述语音信号序列属于各语音类别的最大概率值；

将所述最大概率值所对应的语音类别确定为与所述语音信号序列对应的目标语音类别。
根据权利要求11所述的设备，其特征在于，所述确定单元根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级，以便根据所述目标语音等级确定所述面试者是否面试成功时，具体用于：

根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级；

判断所述目标语音等级是否大于预设等级阈值；

如果判断结果出所述目标语音等级大于预设等级阈值，则将所述目标语音等级与面试者的用户标识的对应关系存储至数据库；

当面试结束时，按照目标语音等级从高到底的顺序从所述数据库筛选出预设数量的目标用户标识，并确定所述目标用户标识对应的面试者面试成功。
根据权利要求11所述的设备，其特征在于，所述获取单元获取面试过程中面试者发出的语音信号时，具体用于：

通过传感器获取语音信号；

对获取到的语音信号添加用户标识，其中，所述用户标识用于区分不同的面试者的语音信号。
一种语音信号处理设备，其特征在于，包括处理器、输入设备、输出设备和存储器，所述处理器、输入设备、输出设备和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行：

获取面试过程中面试者发出的语音信号；

根据第一预设时长对所述语音信号进行加窗分帧处理，将所述语音信号拆分为多段第二预设时长的语音帧，所述第二预设时长小于或等于所述第一预设时长；

对每一段所述第二预设时长的语音帧进行去噪处理，并将去噪处理后的所有所述第二预设时长的语音帧转换为语音信号序列；

将所述语音信号序列输入语音识别模型进行分类处理，确定出与所述语音信号序列对应的目标语音类别；

根据预设的语音类别与分数的对应关系，确定与所述目标语音类别对应的目标分数，并根据预设的分数与语音等级的对应关系确定与所述目标分数对应的目标语音等级，以便根据所述目标语音等级确定所述面试者是否面试成功。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-10任一项所述的方法。