WO2021027029A1

WO2021027029A1 - 数据处理方法、装置、计算机设备和存储介质

Info

Publication number: WO2021027029A1
Application number: PCT/CN2019/107727
Authority: WO
Inventors: 黄海杰
Original assignee: 深圳壹账通智能科技有限公司; 壹帐通金融科技有限公司（新加坡）
Priority date: 2019-08-13
Filing date: 2019-09-25
Publication date: 2021-02-18
Also published as: SG11202004543PA; CN110688499A

Abstract

一种数据处理方法，包括：根据微语音特征，得到第一语音情绪数据，将面试者音频数据转换为文字数据，将文字数据拆分为多个句子，根据各句子中各词语查找匹配预设的与已训练情绪分类网络对应的字典，根据查找匹配结果确定文字数据归属于各预设的情绪类别的置信度，得到第二语音情绪数据，将文字数据输入已训练的语法分析网络，得到文字数据的语法评分，根据微表情特征，得到视频数据置信度，根据第一语音情绪数据、第二语音情绪数据、语法评分以及视频数据置信度，确定面试者的面试结果。

Description

数据处理方法、装置、计算机设备和存储介质

相关申请的交叉引用

本申请要求于2019年8月13日提交中国专利局，申请号为2019107454436，申请名称为“数据处理方法、装置、计算机设备和存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及一种数据处理方法、装置、计算机设备和存储介质。

背景技术

随着人工智能的发展，出现了智能面试系统，传统的智能面试系统，多为识别面部微表情去发现被面试者的异常表情，并作为风险评估的依据之一。微表情，是心理学名词。人们通过做一些表情把内心感受表达给对方看，在人们做的不同表情之间，或是某个表情里，脸部会“泄露”出其它的信息。“微表情”最短可持续1/25秒，虽然一个下意识的表情可能只持续一瞬间，但有时表达相反的情绪。

然而，发明人意识到，仅依靠识别微表情特征并不足以准确全面捕捉被面试者的心理状态，易导致面试结果与真实情况存在较大差异，存在识别准确率低的问题。

发明内容

根据本申请公开的各种实施例，提供一种数据处理方法、装置、计算机设备和存储介质。

一种数据处理方法包括：

获取面试者音频数据以及面试者视频数据；

根据面试者音频数据提取面试者的微语音特征，根据微语音特征，得到第一语音情绪数据；

将面试者音频数据转换为文字数据，将文字数据拆分为多个句子，并对多个句子进行分词，根据各句子中各词语查找匹配预设的与已训练情绪分类网络对应的字典，根据查找匹配结果确定文字数据归属于各预设的情绪类别的置信度，得到第二语音情绪数据，情绪分类网络由第一样本文字数据训练得到；

将文字数据输入已训练的语法分析网络，得到文字数据中各句子的语法分数，计算各句子的语法分数平均值，得到文字数据的语法评分，语法分析网络由第二样本文字数据训练得到；

从面试者视频数据中随机截取视频帧，根据视频帧提取面试者的微表情特征，根据微表情特征，得到视频数据置信度；及

根据第一语音情绪数据、第二语音情绪数据、语法评分以及视频数据置信度，确定面试者的面试结果。

一种数据处理装置包括：

获取模块，用于获取面试者音频数据以及面试者视频数据；

第一提取模块，用于根据面试者音频数据提取面试者的微语音特征，根据微语音特征，得到第一语音情绪数据；

第一处理模块，用于将面试者音频数据转换为文字数据，将文字数据拆分为多个句子，并对多个句子进行分词，根据各句子中各词语查找匹配预设的与已训练情绪分类网络对应的字典，根据查找匹配结果确定文字数据归属于各预设的情绪类别的置信度，得到第二语音情绪数据，情绪分类网络由第一样本文字数据训练得到；

第二处理模块，用于将文字数据输入已训练的语法分析网络，得到文字数据中各句子的语法分数，计算各句子的语法分数平均值，得到文字数据的语法评分，语法分析网络由第二样本文字数据训练得到；

第二提取模块，用于从面试者视频数据中随机截取视频帧，根据视频帧提取面试者的微表情特征，根据微表情特征，得到视频数据置信度；及

分析模块，用于根据第一语音情绪数据、第二语音情绪数据、语法评分以及视频数据置信度，确定面试者的面试结果。

一种计算机设备，包括存储器和一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取面试者音频数据以及面试者视频数据；

一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

获取面试者音频数据以及面试者视频数据；

本申请的一个或多个实施例的细节在下面的附图和描述中提出。本申请的其它特征和优点将从说明书、附图以及权利要求书变得明显。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为根据一个或多个实施例中数据处理方法的应用场景图。

图2为根据一个或多个实施例中数据处理方法的流程示意图。

图3为根据一个或多个中图2中步骤204的子流程示意图。

图4为根据一个或多个中图2中步骤204的子流程示意图。

图5为根据一个或多个中图2中步骤204的子流程示意图。

图6为根据一个或多个中图2中步骤206的子流程示意图。

图7为根据一个或多个中图2中步骤212的子流程示意图。

图8为根据一个或多个实施例中数据处理装置的框图。

图9为根据一个或多个实施例中计算机设备的框图。

具体实施方式

为了使本申请的技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的数据处理方法，可以应用于如图1所示的应用环境中。终端102与服务器104通过网络进行通信。服务器104获取面试者音频数据以及面试者视频数据，根据面试者音频数据提取面试者的微语音特征，根据微语音特征，得到第一语音情绪数据，将面试者音频数据转换为文字数据，将文字数据拆分为多个句子，并对多个句子进行分词，根据各句子中各词语查找匹配预设的与已训练情绪分类网络对应的字典，根据查找匹配结果确定文字数据归属于各预设的情绪类别的置信度，得到第二语音情绪数据，情绪分类网络由第一样本文字数据训练得到，将文字数据输入已训练的语法分析网络，得到文字数据中各句子的语法分数，计算各句子的语法分数平均值，得到文字数据的语法评分，语法分析网络由第二样本文字数据训练得到，从面试者视频数据中随机截取视频帧，根据视频帧提取面试者的微表情特征，根据微表情特征，得到视频数据置信度，根据第一语音情绪数据、第二语音情绪数据、语法评分以及视频数据置信度，确定面试者的面试结果，并推送至终端102。终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在其中一个实施例中，如图2所示，提供了一种数据处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取面试者音频数据以及面试者视频数据。

面试者视频数据指的是面试者在接受面试时被录制的视频数据，面试者音频数据指的是面试者在接受面试时的音频数据，面试者音频数据可以从面试者视频数据中提取得到。

步骤S204，根据面试者音频数据提取面试者的微语音特征，根据微语音特征，得到第一语音情绪数据。

服务器通过调用语音特征提取工具可从面试者音频数据中提取面试者的微语音特征，微语音特征包括语速特征、音高特征以及梅尔频率倒谱系数。语速指的是语音数据中每秒钟的单词数，单词可以为中文也可以为英文，音高指的是语音频率的高低，梅尔频率倒谱是基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换，梅尔频率倒谱系数就是组成梅尔频率倒谱的系数。服务器将微语音特征输入已训练的语音情绪分类模型集合中与面试者性别信息匹配的语音情绪分类模型，可得到与微语音特征对应的第一语音情绪数据，第一语音情绪数据指的是微语音特征归属于各预设的情绪类别的置信度。

已训练的语音情绪分类模型集合中包括针对不同性别面试者样本数据训练得到的语音情绪分类模型，即分析男性语音数据的情绪分类模型和分析女性语音数据的情绪分类模型。服务器会获取面试者性别信息，根据面试者性别信息匹配已训练的语音情绪分类模型集合，从已训练的语音情绪分类模型集合中获取与面试者性别信息匹配的语音情绪分类模型。语音情绪分类模型由携带标注信息的样本语音数据训练得到，标注信息包括情绪类别信息以及性别信息。服务器会根据性别信息对样本语音数据进行划分，根据划分后的样本语音数据分别进行模型训练，得到语音情绪分类模型集合。

步骤S206，将面试者音频数据转换为文字数据，将文字数据拆分为多个句子，并对多个句子进行分词，根据各句子中各词语查找匹配预设的与已训练情绪分类网络对应的字典，根据查找匹配结果确定文字数据归属于各预设的情绪类别的置信度，得到第二语音情绪数据，情绪分类网络由第一样本文字数据训练得到。

情绪分类网络可以为以BERT为基础，叠加一层含N个神经元(假定预设N种情绪)的分类层的网络。服务器将文字数据拆分为多个句子，对每个句子进行分词，根据各句子中各词语查找匹配BERT的字典，把每个词转换为该词在BERT的字典中对应的序列号，把整个句子的序列号输入进BERT，得到各句子归属于各预设的情绪类别的置信度，进而根据各句子归属于各预设的情绪类别的置信度，确定文字数据归属于各预设的情绪类别的置信度，得到第二语音情绪数据。情绪分类网络可以由第一样本文字数据训练得到，第一样本文字数据中各样本句都携带有标注信息，标注信息为各样本句的情绪类别信息。

由于文字数据所需的缓存空间比音频数据以及视频数据小，在进行数据处理时，采用将面试者音频数据转换为文字数据，对文字数据进行处理的方式，能够在处理的过程中节省服务器的缓存空间，实现了对服务器的缓存空间的优化。

步骤S208，将文字数据输入已训练的语法分析网络，得到文字数据中各句子的语法分数，计算各句子的语法分数平均值，得到文字数据的语法评分，语法分析网络由第二样本文字数据训练得到。

在训练语法分析网络时，可采用CoLA(Corpus of Linguistic Acceptability)作为第二样本文字数据，该数据集包括多个携带标注的单句，标注为语法正确与否(0为错误，1为正确)，在经过训练之后，语法分析网络可用于判定句子的语法准确度，语法分数范围为0～1，0代表语法错误，1代表语法正确，介于0到1之间的置信度可理解为语法准确度。在得到文字数据中各句子的语法分数之后，服务器会计算各句子的语法分数平均值，得到文字数据的语法评分。语法分析网络会自动根据文字数据进行学习，无需对文字数据中各句子进行拆分和匹配语法结构。

步骤S210，从面试者视频数据中随机截取视频帧，根据视频帧提取面试者的微表情特征，根据微表情特征，得到视频数据置信度。

服务器根据预设时间间隔从面试者视频数据中随机截取视频帧，根据视频帧获取面试者的微表情特征，将微表情特征输入已训练的微表情模型，可得到微表情特征归属于各预设的情绪类别的置信度，对微表情特征归属于各预设的情绪类别的置信度进行排序，获取置信度最大值，得到视频数据置信度。微表情模型由样本微表情数据训练得到。

步骤S212，根据第一语音情绪数据、第二语音情绪数据、语法评分以及视频数据置信度，确定面试者的面试结果。

服务器可通过将第一语音情绪数据、第二语音情绪数据以及语法评分输入已训练的音频分类模型的方式，得到音频数据置信度，进而根据音频数据置信度、视频数据置信度以及置信度参数，确定面试者的面试结果。具体的，音频分类模型的参数包括第一语音情绪数据中音频数据归属各预设的情绪类别的置信度，第二语音情绪数据中文字数据归属各预设的情绪类别的置信度以及语法评分。在训练音频分类模型时，可以以携带标注信息的样本语音数据以及样本文字数据作为训练集，标注信息用于标注与样本语音数据以及样本文字数据对应的面试者是否说谎。置信度参数可按照需要自行设置，置信度参数为可调参数。

上述数据处理方法，根据面试者音频数据提取微语音特征，根据微语音特征，得到第一语音情绪数据，将面试者音频数据转换为文字数据，对文字数据进行分析，得到第二语音情绪数据以及语法评分，根据面试者视频数据提取微表情特征，根据微表情特征，得到视频数据置信度，根据第一语音情绪数据、第二语音情绪数据、语法评分以及视频数据置信度，确定面试者的面试结果。通过多种方式识别面试者的多个特征，综合多个识别结果确定面试者的面试结果，从而能够准确全面捕捉被面试者的心理状态，提高识别准确率，使面试结果更贴近真实情况。

在其中一个实施例中，如图3所示，步骤S204包括：

步骤S302，调用语音特征提取工具，根据面试者音频数据提取面试者的微语音特征，微语音特征包括语速特征、梅尔频率倒谱系数以及音高特征；

步骤S304，将微语音特征输入已匹配的语音情绪分类模型，得到与微语音特征对应的第一语音情绪数据。

调用语音特征提取工具，提取梅尔频率倒谱系数的方式为：对面试者音频数据进行快速傅里叶变换得到频谱，把频谱映射到梅尔比例，去对数后进行离散余弦变换，即可得到梅尔频率倒谱系数。音高特征包括当前片段音高平均值、当前片段音高标准差、历史音高平均值以及历史音高标准差。当前片段音高平均值的提取方式为：对面试者音频数据进行快速傅里叶变换，得到音频数据的频谱图，然后计算每个频段与频谱中心值的方差，对方差求和后取平方根。历史音高平均值和标准差是指面试者从本次面试开始到当前片段为止的平均值和标准差。这些数据会在面试开始后在服务器中进行记忆存储。为了计算方便，可以用指数移动平均值近似计算，更新公式为：

历史音高平均值＝α*历史音高平均值+(1-α)*当前音高平均值

历史音高标准差＝α*历史音高标准差+(1-α)*当前音高标准差

α为介于0到1的权重参数，可按照需要自行设置，此处默认为0.9。

语速特征包括当前语速、历史语速平均值以及历史语速标准差，历史语速平均值和标准差是服务器在面试开始后进行的计算和记忆存储。同样的，为了计算方便，可以用指数移动平均值近似计算，更新公式为：

历史语速平均值＝α*历史语速平均值+(1-α)*当前语速

历史语速均方差＝α*历史语速均方差+(1-α)*(当前语速–历史语速平均值) ²

历史语速标准差＝历史语速均方差的开方值

上述实施例，调用语音特征提取工具，根据面试者音频数据提取面试者的微语音特征，实现了对面试者的微语音特征的提取。

在其中一个实施例中，如图4所示，步骤S204包括：

步骤S402，获取面试者性别信息，从已训练的语音情绪分类模型集合中获取与面试者性别信息匹配的语音情绪分类模型，语音情绪分类模型由携带标注信息的样本语音数据训练得到，标注信息包括情绪类别信息以及性别信息；

步骤S404，获取微语音特征中的音高特征、梅尔频率倒谱系数以及语速特征；

步骤S406，将音高特征、梅尔频率倒谱系数以及语速特征输入已匹配的语音情绪分类模型中，获取微语音特征归属于各预设的情绪类别的置信度，得到微语音特征的第一语音情绪数据。

音高特征包括当前片段音高平均值、当前片段音高标准差、历史音高平均值以及历史音高标准差，语速特征包括当前语速、历史语速平均以及历史语速标准差，服务器会将三个特征中包括的所有特征作为参数输入已匹配的语音情绪分类模型中，语音情绪分类模型中的卷积神经网络会综合所有特征给出微语音特征归属于各预设的情绪类别的置信度。

上述实施例，根据面试者性别信息获取匹配的语音情绪分类模型，将音高特征、梅尔频率倒谱系数以及语速特征输入已匹配的语音情绪分类模型中，获取微语音特征归属于各预设的情绪类别的置信度，得到微语音特征的第一语音情绪数据，实现了对第一语音情绪数据的获取。

在其中一个实施例中，如图5所示，步骤S402之前，还包括：

步骤S502，获取携带标注信息的样本语音数据；

步骤S504，将样本语音数据划分为训练集和验证集；

步骤S506，根据训练集以及初始语音情绪分类模型进行模型训练，得到语音情绪分类模型集合；

步骤S508，根据验证集进行模型验证，调整语音情绪分类模型集合中各语音情绪分类模型。

在获取携带标注信息的样本语音数据之后，服务器首先根据标注信息中的性别信息将样本语音数据划分为第一样本语音数据集合和第二样本语音数据集合，再将第一样本语音数据集合和第二样本语音数据集合分别划分为训练集和验证集，根据第一样本语音数据集合和第二样本语音数据集合中的训练集进行模型训练，得到第一语音情绪分类模型和第二语音情绪分类模型，根据第一样本语音数据集合和第二样本语音数据集合中的验证集进行模型验证，调整第一语音情绪分类模型和第二语音情绪分类模型。第一样本语音数据集合和第二样本语音数据集合中都分别只包括了同性别面试者的样本语音数据。

上述实施例，获取携带标注信息的样本语音数据，将样本语音数据划分为训练集和验证集，根据训练集进行模型训练，根据验证集进行模型验证，得到语音情绪分类模型集合中各语音情绪分类模型，实现了对语音情绪分类模型集合的获取。

在其中一个实施例中，如图6所示，步骤S206包括：

步骤S602，根据各句子中各词语查找匹配预设的与已训练的情绪分类网络对应的字典，确定各句子中各词语在字典中对应的序列号；

步骤S604，将各句子中各词语在字典中对应的序列号输入情绪分类网络，得到文字数据中各句子归属于各预设的情绪类别的置信度；

步骤S606，获取文字数据中各句子归属于各预设的情绪类别的置信度的平均值，根据置信度的平均值，得到文字数据归属于各预设的情绪类别的置信度。

上述实施例，将各句子中各词语在字典中对应的序列号输入情绪分类网络，得到文字数据中各句子归属于各预设的情绪类别的置信度，进而根据文字数据中各句子归属于各预设的情绪类别的置信度，得到文字数据归属于各预设的情绪类别的置信度，实现了对文字数据归属于各预设的情绪类别的置信度的获取。

在其中一个实施例中，如图7所示，步骤S212包括：

步骤S702，根据第一语音情绪数据、第二语音情绪数据以及语法评分，得到音频数据置信度；

步骤S704，根据音频数据置信度、视频数据置信度以及预设的置信度参数，确定面试者的面试结果。

服务器可通过将第一语音情绪数据、第二语音情绪数据以及语法评分输入已训练的音频分类模型的方式，得到音频数据置信度，进而根据音频数据置信度、视频数据置信度以及置信度参数，确定面试者的面试结果。具体的，音频分类模型的参数包括第一语音情绪数据中音频数据归属各预设的情绪类别的置信度，第二语音情绪数据中文字数据归属各预设的情绪类别的置信度以及语法评分。在训练音频分类模型时，可以以携带标注信息的样本语音数据以及样本文字数据作为训练集，标注信息用于标注与样本语音数据以及样本文字数据对应的面试者是否说谎。置信度参数可按照需要自行设置，置信度参数为可调参数。面试结果可以由面试评分得到，面试评分的公式可以为：面试评分＝A*音频数据置信度+B*视频数据置信度，A和B即为置信度参数。

在其中一个实施例中，在步骤S206之前，所述方法还包括：

获取第一样本文字数据，第一样本文字数据中各样本句携带有情绪类别信息；及

将第一样本文字数据作为训练集进行模型训练，得到情绪分类网络。

应该理解的是，虽然图2-7的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-7中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中，如图8所示，提供了一种数据处理装置，包括：获取模块802、第一提取模块804、第一处理模块806、第二处理模块808、第二提取模块810和分析模块812，其中：

获取模块802，用于获取面试者音频数据以及面试者视频数据；

第一提取模块804，用于根据面试者音频数据提取面试者的微语音特征，根据微语音特征，得到第一语音情绪数据；

第一处理模块806，用于将面试者音频数据转换为文字数据，将文字数据拆分为多个句子，并对多个句子进行分词，根据各句子中各词语查找匹配预设的与已训练情绪分类网络对应的字典，根据查找匹配结果确定文字数据归属于各预设的情绪类别的置信度，得到第二语音情绪数据，情绪分类网络由第一样本文字数据训练得到；

第二处理模块808，用于将文字数据输入已训练的语法分析网络，得到文字数据中各句子的语法分数，计算各句子的语法分数平均值，得到文字数据的语法评分，语法分析网络由第二样本文字数据训练得到；

第二提取模块810，用于从面试者视频数据中随机截取视频帧，根据视频帧提取面试者的微表情特征，根据微表情特征，得到视频数据置信度；

分析模块812，用于根据第一语音情绪数据、第二语音情绪数据、语法评分以及视频数据置信度，确定面试者的面试结果。

上述数据处理装置，根据面试者音频数据提取微语音特征，根据微语音特征，得到第一语音情绪数据，将面试者音频数据转换为文字数据，对文字数据进行分析，得到第二语音情绪数据以及语法评分，根据面试者视频数据提取微表情特征，根据微表情特征，得到视频数据置信度，根据第一语音情绪数据、第二语音情绪数据、语法评分以及视频数据置信度，确定面试者的面试结果。通过多种方式识别面试者的多个特征，综合多个识别结果确定面试者的面试结果，从而能够准确全面捕捉被面试者的心理状态，提高识别准确率，使面试结果更贴近真实情况。

在其中一个实施例中，第一提取模块还用于调用语音特征提取工具，根据面试者音频数据提取面试者的微语音特征，微语音特征包括语速特征、梅尔频率倒谱系数以及音高特征。

在其中一个实施例中，第一提取模块还用于获取面试者性别信息，从已训练的语音情绪分类模型集合中获取与面试者性别信息匹配的语音情绪分类模型，语音情绪分类模型由携带标注信息的样本语音数据训练得到，标注信息包括情绪类别信息以及性别信息，获取微语音特征中的音高特征、梅尔频率倒谱系数以及语速特征，将音高特征、梅尔频率倒谱系数以及语速特征输入已匹配的语音情绪分类模型中，获取微语音特征归属于各预设的情绪类别的置信度，得到微语音特征的第一语音情绪数据。

在其中一个实施例中，第一提取模块还用于获取携带标注信息的样本语音数据，将样本语音数据划分为训练集和验证集，根据训练集以及初始语音情绪分类模型进行模型训练，得到语音情绪分类模型集合，根据验证集进行模型验证，调整语音情绪分类模型集合中各语音情绪分类模型。

在其中一个实施例中，第一处理模块还用于根据各句子中各词语查找匹配预设的与已训练的情绪分类网络对应的字典，确定各句子中各词语在字典中对应的序列号，将各句子中各词语在字典中对应的序列号输入情绪分类网络，得到文字数据中各句子归属于各预设的情绪类别的置信度，获取文字数据中各句子归属于各预设的情绪类别的置信度的平均值，根据置信度的平均值，得到文字数据归属于各预设的情绪类别的置信度。

在其中一个实施例中，分析模块还用于根据第一语音情绪数据、第二语音情绪数据以及语法评分，得到音频数据置信度，根据音频数据置信度、视频数据置信度以及预设的置信度参数，确定面试者的面试结果。

在其中一个实施例中，第一处理模块还用于获取第一样本文字数据，第一样本文字数据中各样本句携带有情绪类别信息，将第一样本文字数据作为训练集进行模型训练，得到情绪分类网络。

关于数据处理装置的具体限定可以参见上文中对于数据处理方法的限定，在此不再赘述。上述数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在其中一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令。该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机可读指令被处理器执行时以实现一种数据处理方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在其中一个实施例中，一种计算机设备，包括存储器和一个或多个处理器，存储器中储存有计算机可读指令，计算机可读指令被处理器执行时，使得一个或多个处理器执行以下步骤：

获取面试者音频数据以及面试者视频数据；

在其中一个实施例中，一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行以下步骤：

获取面试者音频数据以及面试者视频数据；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，所述的计算机可读指令可存储于一非易失性计算机可读取存储介质中，该计算机可读指令在执行时，可包括如上述各方法的实施例的流程。本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(步骤RAM)、动态RAM(DRAM)、同步DRAM(步骤DRAM)、双数据率步骤DRAM(DDR步骤DRAM)、增强型步骤DRAM(E步骤DRAM)、同步链路(步骤ynchlink)DRAM(步骤LDRAM)、存储器总线(Rambu步骤)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

一种数据处理方法，包括：

获取面试者音频数据以及面试者视频数据；

根据所述面试者音频数据提取面试者的微语音特征，根据所述微语音特征，得到第一语音情绪数据；

将所述面试者音频数据转换为文字数据，将所述文字数据拆分为多个句子，并对多个句子进行分词，根据各句子中各词语查找匹配预设的与已训练情绪分类网络对应的字典，根据查找匹配结果确定所述文字数据归属于各预设的情绪类别的置信度，得到第二语音情绪数据，所述情绪分类网络由第一样本文字数据训练得到；

将所述文字数据输入已训练的语法分析网络，得到所述文字数据中各句子的语法分数，计算各句子的语法分数平均值，得到所述文字数据的语法评分，所述语法分析网络由第二样本文字数据训练得到；

从所述面试者视频数据中随机截取视频帧，根据所述视频帧提取面试者的微表情特征，根据所述微表情特征，得到视频数据置信度；及

根据所述第一语音情绪数据、所述第二语音情绪数据、所述语法评分以及所述视频数据置信度，确定面试者的面试结果。
根据权利要求1所述的方法，其特征在于，所述根据所述面试者音频数据提取面试者的微语音特征，包括：

调用语音特征提取工具，根据所述面试者音频数据提取面试者的微语音特征，所述微语音特征包括语速特征、梅尔频率倒谱系数以及音高特征。
根据权利要求1所述的方法，其特征在于，所述根据所述微语音特征，得到第一语音情绪数据，包括：

获取面试者性别信息，从已训练的语音情绪分类模型集合中获取与所述面试者性别信息匹配的语音情绪分类模型，所述语音情绪分类模型由携带标注信息的样本语音数据训练得到，所述标注信息包括情绪类别信息以及性别信息；

获取所述微语音特征中的音高特征、梅尔频率倒谱系数以及语速特征；及

将所述音高特征、所述梅尔频率倒谱系数以及所述语速特征输入已匹配的语音情绪分类模型中，获取所述微语音特征归属于各预设的情绪类别的置信度，得到所述微语音特征的第一语音情绪数据。
根据权利要求3所述的方法，其特征在于，在从已训练的语音情绪分类模型集合中获取与所述面试者性别信息匹配的语音情绪分类模型之前，所述方法还包括：

获取携带标注信息的样本语音数据；

将所述样本语音数据划分为训练集和验证集；

根据所述训练集以及初始语音情绪分类模型进行模型训练，得到语音情绪分类模型集合；及

根据所述验证集进行模型验证，调整所述语音情绪分类模型集合中各语音情绪分类模型。
根据权利要求1所述的方法，其特征在于，所述根据各句子中各词语查找匹配预设的与已训练情绪分类网络对应的字典，根据查找匹配结果确定所述文字数据归属于各预设的情绪类别的置信度，得到第二语音情绪数据，包括：

根据各句子中各词语查找匹配预设的与已训练的情绪分类网络对应的字典，确定各句子中各词语在所述字典中对应的序列号；

将各句子中各词语在所述字典中对应的序列号输入所述情绪分类网络，得到文字数据中各句子归属于各预设的情绪类别的置信度；及

获取所述文字数据中各句子归属于各预设的情绪类别的置信度的平均值，根据所述置信度的平均值，得到所述文字数据归属于各预设的情绪类别的置信度。
根据权利要求1所述的方法，其特征在于，所述根据所述第一语音情绪数据、所述第二语音情绪数据、所述语法评分以及所述视频数据置信度，确定面试者的面试结果包括：

根据所述第一语音情绪数据、所述第二语音情绪数据以及所述语法评分，得到音频数据置信度；及

根据所述音频数据置信度、所述视频数据置信度以及预设的置信度参数，确定面试者的面试结果。
根据权利要求1所述的方法，其特征在于，在根据各句子中各词语查找匹配预设的与已训练情绪分类网络对应的字典之前，所述方法还包括：

获取所述第一样本文字数据，所述第一样本文字数据中各样本句携带有情绪类别信息；及

将所述第一样本文字数据作为训练集进行模型训练，得到情绪分类网络。
一种数据处理装置，包括：

获取模块，用于获取面试者音频数据以及面试者视频数据；

第一提取模块，用于根据所述面试者音频数据提取面试者的微语音特征，根据所述微语音特征，得到第一语音情绪数据；

第一处理模块，用于将所述面试者音频数据转换为文字数据，将所述文字数据拆分为多个句子，并对多个句子进行分词，根据各句子中各词语查找匹配预设的与已训练情绪分类网络对应的字典，根据查找匹配结果确定所述文字数据归属于各预设的情绪类别的置信度，得到第二语音情绪数据，所述情绪分类网络由第一样本文字数据训练得到；

第二处理模块，用于将所述文字数据输入已训练的语法分析网络，得到所述文字数据中各句子的语法分数，计算各句子的语法分数平均值，得到所述文字数据的语法评分，所述语法分析网络由第二样本文字数据训练得到；

第二提取模块，用于从所述面试者视频数据中随机截取视频帧，根据所述视频帧提取面试者的微表情特征，根据所述微表情特征，得到视频数据置信度；及

分析模块，用于根据所述第一语音情绪数据、所述第二语音情绪数据、所述语法评分以及所述视频数据置信度，确定面试者的面试结果。
根据权利要求8所述的装置，其特征在于，第一提取模块还用于调用语音特征提取工具，根据所述面试者音频数据提取面试者的微语音特征，所述微语音特征包括语速特征、梅尔频率倒谱系数以及音高特征。
一种计算机设备，包括存储器及一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取面试者音频数据以及面试者视频数据；

根据所述面试者音频数据提取面试者的微语音特征，根据所述微语音特征，得到第一语音情绪数据；

将所述面试者音频数据转换为文字数据，将所述文字数据拆分为多个句子，并对多个句子进行分词，根据各句子中各词语查找匹配预设的与已训练情绪分类网络对应的字典，根据查找匹配结果确定所述文字数据归属于各预设的情绪类别的置信度，得到第二语音情绪数据，所述情绪分类网络由第一样本文字数据训练得到；

将所述文字数据输入已训练的语法分析网络，得到所述文字数据中各句子的语法分数，计算各句子的语法分数平均值，得到所述文字数据的语法评分，所述语法分析网络由第二样本文字数据训练得到；

从所述面试者视频数据中随机截取视频帧，根据所述视频帧提取面试者的微表情特征，根据所述微表情特征，得到视频数据置信度；及

根据所述第一语音情绪数据、所述第二语音情绪数据、所述语法评分以及所述视频数据置信度，确定面试者的面试结果。
根据权利要求10所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

调用语音特征提取工具，根据所述面试者音频数据提取面试者的微语音特征，所述微语音特征包括语速特征、梅尔频率倒谱系数以及音高特征。
根据权利要求10所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

获取面试者性别信息，从已训练的语音情绪分类模型集合中获取与所述面试者性别信息匹配的语音情绪分类模型，所述语音情绪分类模型由携带标注信息的样本语音数据训练得到，所述标注信息包括情绪类别信息以及性别信息；

获取所述微语音特征中的音高特征、梅尔频率倒谱系数以及语速特征；及

将所述音高特征、所述梅尔频率倒谱系数以及所述语速特征输入已匹配的语音情绪分类模型中，获取所述微语音特征归属于各预设的情绪类别的置信度，得到所述微语音特征的第一语音情绪数据。
根据权利要求10所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

获取携带标注信息的样本语音数据；

将所述样本语音数据划分为训练集和验证集；

根据所述训练集以及初始语音情绪分类模型进行模型训练，得到语音情绪分类模型集合；及

根据所述验证集进行模型验证，调整所述语音情绪分类模型集合中各语音情绪分类模型。
根据权利要求10所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

根据各句子中各词语查找匹配预设的与已训练的情绪分类网络对应的字典，确定各句子中各词语在所述字典中对应的序列号；

将各句子中各词语在所述字典中对应的序列号输入所述情绪分类网络，得到文字数据中各句子归属于各预设的情绪类别的置信度；及

获取所述文字数据中各句子归属于各预设的情绪类别的置信度的平均值，根据所述置信度的平均值，得到所述文字数据归属于各预设的情绪类别的置信度。
根据权利要求10所述的计算机设备，其特征在于，所述处理器执行所述计算机可读指令时还执行以下步骤：

根据所述第一语音情绪数据、所述第二语音情绪数据以及所述语法评分，得到音频数据置信度；及

根据所述音频数据置信度、所述视频数据置信度以及预设的置信度参数，确定面试者的面试结果。
一个或多个存储有计算机可读指令的非易失性计算机可读存储介质，所述计算机可读指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取面试者音频数据以及面试者视频数据；

根据所述面试者音频数据提取面试者的微语音特征，根据所述微语音特征，得到第一语音情绪数据；

将所述面试者音频数据转换为文字数据，将所述文字数据拆分为多个句子，并对多个句子进行分词，根据各句子中各词语查找匹配预设的与已训练情绪分类网络对应的字典，根据查找匹配结果确定所述文字数据归属于各预设的情绪类别的置信度，得到第二语音情绪数据，所述情绪分类网络由第一样本文字数据训练得到；

将所述文字数据输入已训练的语法分析网络，得到所述文字数据中各句子的语法分数，计算各句子的语法分数平均值，得到所述文字数据的语法评分，所述语法分析网络由第二样本文字数据训练得到；

从所述面试者视频数据中随机截取视频帧，根据所述视频帧提取面试者的微表情特征，根据所述微表情特征，得到视频数据置信度；及

根据所述第一语音情绪数据、所述第二语音情绪数据、所述语法评分以及所述视频数据置信度，确定面试者的面试结果。
根据权利要求16所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

调用语音特征提取工具，根据所述面试者音频数据提取面试者的微语音特征，所述微语音特征包括语速特征、梅尔频率倒谱系数以及音高特征。
根据权利要求16所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

获取面试者性别信息，从已训练的语音情绪分类模型集合中获取与所述面试者性别信息匹配的语音情绪分类模型，所述语音情绪分类模型由携带标注信息的样本语音数据训练得到，所述标注信息包括情绪类别信息以及性别信息；

获取所述微语音特征中的音高特征、梅尔频率倒谱系数以及语速特征；及

将所述音高特征、所述梅尔频率倒谱系数以及所述语速特征输入已匹配的语音情绪分类模型中，获取所述微语音特征归属于各预设的情绪类别的置信度，得到所述微语音特征的第一语音情绪数据。
根据权利要求16所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

获取携带标注信息的样本语音数据；

将所述样本语音数据划分为训练集和验证集；

根据所述训练集以及初始语音情绪分类模型进行模型训练，得到语音情绪分类模型集合；及

根据所述验证集进行模型验证，调整所述语音情绪分类模型集合中各语音情绪分类模型。
根据权利要求16所述的存储介质，其特征在于，所述计算机可读指令被所述处理器执行时还执行以下步骤：

根据各句子中各词语查找匹配预设的与已训练的情绪分类网络对应的字典，确定各句子中各词语在所述字典中对应的序列号；

将各句子中各词语在所述字典中对应的序列号输入所述情绪分类网络，得到文字数据中各句子归属于各预设的情绪类别的置信度；及

获取所述文字数据中各句子归属于各预设的情绪类别的置信度的平均值，根据所述置信度的平均值，得到所述文字数据归属于各预设的情绪类别的置信度。