WO2021196721A1

WO2021196721A1 - 一种舱内环境的调整方法及装置

Info

Publication number: WO2021196721A1
Application number: PCT/CN2020/135500
Authority: WO
Inventors: 王飞; 钱晨
Original assignee: 上海商汤临港智能科技有限公司
Priority date: 2020-03-30
Filing date: 2020-12-10
Publication date: 2021-10-07
Also published as: KR20220063256A; US20220237943A1; CN111439267A; CN111439267B; JP2022553779A

Abstract

一种舱内环境的调整方法及装置，该方法包括：获取舱内人员的人脸图像；基于人脸图像，确定舱内人员的属性信息和状态信息；基于舱内人员的属性信息和状态信息，调整舱内环境；该装置包括：获取模块(1001)、确定模块(1002)和调整模块(1003)。一种电子设备(1100)、计算机可读存储介质及计算机程序，能够执行舱内环境的调整方法。

Description

一种舱内环境的调整方法及装置

相关申请的交叉引用

本公开基于申请号为202010237887.1、申请日为2020年03月30日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此引入本公开作为参考。

技术领域

本公开涉及计算机技术领域，涉及一种舱内环境的调整方法及装置。

背景技术

相关技术中，在设置舱内的环境的过程中，例如需要调整舱内温度、调整舱内播放的音乐时，一般是通过用户去手动调整，随着人脸识别技术的发展，可以预先为每一个用户设置对应的环境信息，在用户上车之后，通过人脸识别技术识别用户身份，然后在识别出用户的身份之后，获取与该身份对应的环境信息，然后进行舱内环境的设置。

发明内容

本公开实施例至少提供一种舱内环境的调整方法及装置。

第一方面，本公开实施例提供了一种舱内舱内环境的调整方法，包括：

获取舱内人员的人脸图像；

基于人脸图像，确定所述舱内人员的属性信息和状态信息；

基于所述舱内人员的属性信息和状态信息，调整舱内环境。

在一种可能的实现方式中，所述属性信息包括年龄信息，所述年龄信息通过第一神经网络识别得到；根据以下方法得到所述第一神经网络：通过待训练的第一神经网络对样本图像集合中的样本图像进行年龄预测，得到所述样本图像对应的预测年龄值；基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、所述样本图像集合中的样本图像的预测年龄值之差、以及所述样本图像集合中的样本图像的年龄标签的年龄值之差，调整第一神经网络的网络参数值。

在一种可能的实现方式中，所述样本图像集合为多个；所述基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、所述样本图像集合中的样本图像的预测年龄值之差、以及所述样本图像集合中的样本图像的年龄标签的年龄值之差，调整第一神经网络的网络参数值，包括：基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、以及所述任意两个样本图像的年龄标签的年龄值之差，调整第一神经网络的网络参数值。

在一种可能的实现方式中，所述样本图像集合中包括多个初始样本图像，以及每一所述初始样本图像对应的增强样本图像，所述增强样本图像为对所述初始样本图像进行信息变换处理后的图像；所述基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、所述样本图像集合中的样本图像的预测年龄值之差、以及所述样本图像集合中的样本图像的年龄标签的年龄值之差，调整第一神经网络的网络参数值，包括：基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、以及所述初始样本图像的预测年龄值与所述初始样本图像对应的增强样本图像的预测年龄值之差，调整第一神经网络的网络参数值；其中，所述样本图像为初始样本图像或者增强样本图像。

在一种可能的实现方式中，所述样本图像集合为多个，每一所述样本图像集合中包括多个初始样本图像，以及每一所述初始样本图像对应的增强样本图像，所述增强样本图像为对所述初始样本图像进行信息变换处理后的图像，同一样本图像集合中的多个初始样本图像为通过同一图像采集设备采集得到；所述基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、所述样本图像集合中的样本图像的预测年龄值之差、以及所述样本图像集合中的样本图像的年龄标签的年龄值之差，调整第一神经网络的网络参数值，包括：基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、所述任意两个样本图像的年龄标签的年龄值之差、以及所述初始样本图像的预测年龄值与所述初始样本图像对应的增强样本图像的预测年龄值之差，计算本次训练过程中的损失值，并基于计算出的损失值，调整第一神经网络的网络参数值；其中，所述样本图像为初始样本图像或者增强样本图像。

在一种可能的实现方式中，所述基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、所述任意两个样本图像的年龄标签的年龄值之差、以及所述初始样本图像的预测年龄值与所述初始样本图像对应的增强样本图像的预测年龄值之差，计算本次训练过程中的损失值，包括：根据每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、以及所述任意两个样本图像的年龄标签的年龄值之差，计算第一损失值；以及，根据所述初始样本图像的预测年龄值与所述初始样本图像对应的增强样本图像的预测年龄值之差，计算第二损失值；将所述第一损失值和所述第二损失值之和作为本次训练过程中的损失值。

在一种可能的实现方式中，根据以下方法确定所述初始样本图像对应的增强样本图像：生成所述初始样本图像中人脸区域图像对应的三维人脸模型；对所述三维人脸模型进行不同角度的旋转，得到不同角度下的第一增强样本图像；以及，将所述初始样本图像中每一像素点在RGB通道上的取值，与不同的光线影响值相加，得到在不同的光线影响值下的第二增强样本图像；所述增强样本图像为所述第一增强样本图像或所述第二增强样本图像。

在一种可能的实现方式中，所述属性信息包括性别信息，根据以下方法确定所述舱内人员的性别信息：将所述人脸图像输入用于进行性别信息提取的第二神经网络中，得到所述第二神经网络输出的二维特征向量，所述二维特征向量中第一维度上的元素值用于表征所述人脸图像为男性的概率，第二维度上的元素值用于表征所述人脸图像为女性的概率；将所述二维特征向量输入至分类器中，将概率大于设定阈值的性别确定为所述人脸图像的性别。

在一种可能的实现方式中，根据以下方法确定所述设定阈值：获取采集所述人脸图像的图像采集设备在所述舱内采集的多张样本图像，以及每一所述样本图像对应的性别标签；将所述多张样本图像输入至所述第二神经网络中，得到每一所述样本图像分别在多个候选阈值中每一所述候选阈值下对应的预测性别；针对每一所述候选阈值，根据所述候选阈值下的每一所述样本图像对应的预测性别和性别标签，确定所述候选阈值下的预测准确率；将最大的预测准确率对应的候选阈值确定为所述设定阈值。

在一种可能的实现方式中，根据以下方法确定所述多个候选阈值：按照设定步长，从预设取值范围内选取所述多个候选阈值。

在一种可能的实现方式中，所述状态信息包括睁闭眼信息，根据以下方法确定所述舱内人员的睁闭眼信息：对所述人脸图像进行特征提取，得到多维特征向量，所述多维特征向量中每一维度上的元素值用于表征所述人脸图像中的眼睛处于所述维度对应的状态的概率；将概率大于预设值的维度对应的状态，确定为所述舱内人员的睁闭眼信息。

在一种可能的实现方式中，眼睛的状态包括以下状态中的至少之一：人眼不可见；人眼可见且睁眼；人眼可见且闭眼。

在一种可能的实现方式中，所述状态信息包括情绪信息，根据以下步骤确定舱内人员的情绪信息：根据所述人脸图像，识别所述人脸图像代表的人脸上的至少两个器官中每一所述器官的动作；基于识别到的所述每一所述器官的动作、以及预先设置的面部动作与情绪信息之间的映射关系，确定所述舱内人员的情绪信息。

在一种可能的实现方式中，人脸上的器官的动作包括以下动作中的至少两种：皱眉；瞪眼；嘴角上扬；上唇上抬；嘴角向下；张嘴。

在一种可能的实现方式中，根据所述人脸图像识别所述人脸图像代表的人脸上的至少两个器官中每一所述器官的动作是由第三神经网络执行的，所述第三神经网络包括主干网络和至少两个分类分支网络，每一所述分类分支网络用于识别人脸上的一个器官的一种动作；根据所述人脸图像识别所述人脸图像代表的人脸上的至少两个器官中每一所述器官的动作，包括：利用主干网络对所述人脸图像进行特征提取，得到所述人脸图像的特征图；分别利用每一所述分类分支网络对所述人脸图像的特征图进行动作识别，得到每一所述分类分支网络能够识别的动作的发生概率；将发生概率大于预设概率的动作确定为所述人脸图像代表的人脸上的器官的动作。

在一种可能的实现方式中，所述调整舱内的环境设置，包括以下类型的调整中的至少之一：调整音乐类型；调整温度；调整灯光类型；调整气味。

第二方面，本公开实施例还提供一种舱内环境的调整装置，包括：

获取模块，被配置为获取舱内人员的人脸图像；

确定模块，被配置为基于人脸图像，确定所述舱内人员的属性信息和状态信息；

调整模块，被配置为基于所述舱内人员的属性信息和状态信息，调整舱内环境。

在一种可能的实现方式中，所述属性信息包括年龄信息，所述年龄信息通过第一神经网络识别得到；

所述装置还包括训练模块，所述训练模块，被配置为根据以下方法得到所述第一神经网络：通过待训练的第一神经网络对样本图像集合中的样本图像进行年龄预测，得到所述样本图像对应的预测年龄值；基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、所述样本图像集合中的样本图像的预测年龄值之差、以及所述样本图像集合中的样本图像的年龄标签的年龄值之差，调整第一神经网络的网络参数值。

在一种可能的实现方式中，所述样本图像集合为多个，所述训练模块，被进一步配置为：基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、以及所述任意两个样本图像的年龄标签的年龄值之差，调整第一神经网络的网络参数值。

在一种可能的实现方式中，所述样本图像集合中包括多个初始样本图像，以及每一所述初始样本图像对应的增强样本图像，所述增强样本图像为对所述初始样本图像进行信息变换处理后的图像；所述训练模块，被进一步配置为：基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、以及所述初始样本图像的预测年龄值与所述初始样本图像对应的增强样本图像的预测年龄值之差，调整第一神经网络的网络参数值；其中，所述样本图像为初始样本图像或者增强样本图像。

在一种可能的实现方式中，所述样本图像集合为多个，每一所述样本图像集合中包括多个初始样本图像，以及每一所述初始样本图像对应的增强样本图像，所述增强样本图像为对所述初始样本图像进行信息变换处理后的图像，同一样本图像集合中的多个初始样本图像为通过同一图像采集设备采集得到；所述训练模块，被进一步配置为：基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、所述任意两个样本图像的年龄标签的年龄值之差、以及所述初始样本图像的预测年龄值与所述初始样本图像对应的增强样本图像的预测年龄值之差，计算本次训练过程中的损失值，并基于计算出的损失值，调整第一神经网络的网络参数值；其中，所述样本图像为初始样本图像或者增强样本图像。

在一种可能的实现方式中，所述训练模块，被进一步配置为：根据每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、以及所述任意两个样本图像的年龄标签的年龄值之差，计算第一损失值；以及，根据所述初始样本图像的预测年龄值与所述初始样本图像对应的增强样本图像的预测年龄值之差，计算第二损失值；将所述第一损失值和所述第二损失值之和作为本次训练过程中的损失值。

在一种可能的实现方式中，所述训练模块，被进一步配置为根据以下方法确定初始样本图像对应的增强样本图像：生成所述初始样本图像中人脸区域图像对应的三维人脸模型；对所述三维人脸模型进行不同角度的旋转，得到不同角度下的第一增强样本图像；以及，将所述初始样本图像中每一像素点在RGB通道上的取值，与不同的光线影响值相加，得到在不同的光线影响值下的第二增强样本图像；所述增强样本图像为所述第一增强样本图像或所述第二增强样本图像。

在一种可能的实现方式中，所述属性信息包括性别信息，所述确定模块，被进一步配置为根据以下方法确定所述舱内人员的性别信息：将所述人脸图像输入用于进行性别信息提取的第二神经网络中，得到所述第二神经网络输出的二维特征向量，所述二维特征向量中第一维度上的元素值用于表征所述人脸图像为男性的概率，第二维度上的元素值用于表征所述人脸图像为女性的概率；将所述二维特征向量输入至分类器中，将概率大于设定阈值的性别确定为所述人脸图像的性别。

在一种可能的实现方式中，所述确定模块，被进一步配置为根据以下方法确定所述设定阈值：获取采集所述人脸图像的图像采集设备在所述舱内采集的多张样本图像，以及每一所述样本图像对应的性别标签；将所述多张样本图像输入至所述第二神经网络中，得到每一所述样本图像分别在多个候选阈值中每一所述候选阈值下对应的预测性别；针对每一所述候选阈值，根据所述候选阈值下的每一所述样本图像对应的预测性别和性别标签，确定所述候选阈值下的预测准确率；将最大的预测准确率对应的候选阈值确定为所述设定阈值。

在一种可能的实现方式中，所述确定模块，被进一步配置为根据以下方法确定所述多个候选阈值：按照设定步长，从预设取值范围内选取所述多个候选阈值。

在一种可能的实现方式中，所述状态信息包括睁闭眼信息，所述确定模块，被进一步配置为根据以下方法确定所述舱内人员的睁闭眼信息：对所述人脸图像进行特征提取，得到多维特征向量，所述多维特征向量中每一维度上的元素值用于表征所述人脸图像中的眼睛处于所述维度对应的状态的概率；将概率大于预设值的维度对应的状态，确定为所述舱内人员的睁闭眼信息。

在一种可能的实现方式中，所述状态信息包括情绪信息，所述确定模块，被进一步配置为根据以下步骤确定舱内人员的情绪信息：根据所述人脸图像，识别所述人脸图像代表的人脸上的至少两个器官中每一所述器官的动作；基于识别到的所述每一所述器官的动作、以及预先设置的面部动作与情绪信息之间的映射关系，确定所述舱内人员的情绪信息。

在一种可能的实现方式中，根据所述人脸图像识别所述人脸图像代表的人脸上的至少两个器官中每一所述器官的动作是由第三神经网络执行的，所述第三神经网络包括主干网络和至少两个分类分支网络，每一所述分类分支网络用于识别人脸上的一个器官的一种动作；

所述确定模块，被进一步配置为：利用主干网络对所述人脸图像进行特征提取，得到所述人脸图像的特征图；分别利用每一所述分类分支网络对所述人脸图像的特征图进行动作识别，得到每一所述分类分支网络能够识别的动作的发生概率；将发生概率大于预设概率的动作确定为所述人脸图像代表的人脸上的器官的动作。

在一种可能的实现方式中，所述调整舱内的环境设置，包括以下类型的调整中的至少一种：调整音乐类型；调整温度；调整灯光类型；调整气味。

第三方面，本公开实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行上述第一方面，或第一方面中任一种可能的实现方式中的步骤。

第四方面，本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述第一方面，或第一方面中任一种可能的实现方式中的步骤。

第五方面，本公开实施例还提供了一种计算机程序，包括计算机可读代码，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行如上述第一方面及其任意一种可能实现的方式的方法。

关于上述舱内环境的调整装置、电子设备、及计算机可读存储介质的效果描述参见上述舱内环境的调整方法的说明，这里不再赘述。

为使本公开实施例的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，此处的附图被并入说明书中并构成本说明书中的一部分，这些附图示出了符合本公开的实施例，并与说明书一起用于说明本公开实施例的技术方案。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本公开实施例所提供的一种舱内环境的调整方法的流程示意图；

图2示出了本公开实施例所提供的一种第一神经网络训练方法的流程示意图；

图3示出了本公开实施例所提供的一种增强样本图像确定方法的流程示意图；

图4示出了本公开实施例所提供的一种舱内人员性别信息确定方法的流程示意图；

图5示出了本公开实施例所提供的一种设定阈值确定方法的流程示意图；

图6示出了本公开实施例所提供的一种舱内人员睁闭眼信息确定方法的流程示意图；

图7示出了本公开实施例所提供的一种属性信息确定方法的流程示意图；

图8示出了本公开实施例所提供的一种信息提取神经网络的网络结构示意图；

图9示出了本公开实施例所提供的一种舱内人员情绪信息确定方法的流程示意图；

图10示出了本公开实施例所提供的一种舱内环境的调整装置的架构示意图；

图11示出了本公开实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围，而是仅仅表示本公开的选定实施例。基于本公开的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

相关技术中，在对车舱内的环境设置进行调整的过程中，一种是通过手动去进行调整，另一种是预先设置好每一用户对应的环境设置信息，然后识别舱内的乘客的身份信息，再基于识别出的身份信息，按照该身份信息对应的环境设置信息，去调整环境设置；若舱内的乘客并未预先设置对应的环境设置信息，或者舱内乘客并不想按照预先设置好的环境设置信息进行舱内环境的设置，这就仍需乘客去手动调整舱内环境设置。

基于此，本公开实施例提供了一种舱内环境的调整方法，可以实时的获取舱内人员的人脸图像，并根据人脸图像，确定舱内人员的属性信息和情绪信息，然后基于舱内人员的属性信息和情绪信息，调整舱内的环境设置。通过这种方法，由于人脸图像是实时获取的，因此所确定出的舱内人员的属性信息和情绪信息就可以代表舱内人员当前的状态，根据舱内人员当前的状态调整舱内的环境设置，可以自动对于舱内环境设置进行动态调整。

针对以上方案所存在的缺陷，均是发明人在经过实践并仔细研究后得出的结果，因此，上述问题的发现过程以及下文中本公开针对上述问题所提出的解决方案，都应该在本公开的保护范围之内。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

为便于对本实施例进行理解，首先对本公开实施例所公开的一种舱内环境的调整方法进行详细介绍，本公开实施例所提供的舱内环境的调整方法的执行主体一般为具有一定计算能力的电子设备。所述舱内可以包括但不仅限于汽车车舱、火车车舱、船舱等，对于其他可调整环境的设备，本公开实施例所提供的方法均适用。

参见图1所示，为本公开实施例提供的一种舱内环境的调整方法的流程示意图，包括以下几个步骤：

步骤101、获取舱内人员的人脸图像。

步骤102、基于人脸图像，确定所述舱内人员的属性信息和状态信息。

步骤103、基于所述舱内人员的属性信息和状态信息，调整舱内的环境设置。

通过上述方法，可以实时的获取舱内人员的人脸图像，并根据人脸图像，确定舱内人员的属性信息和情绪信息，然后基于舱内人员的属性信息和情绪信息，调整舱内的环境设置。通过这种方法，由于人脸图像是实时获取的，因此所确定出的舱内人员的属性信息和情绪信息就可以代表舱内人员当前的状态，根据舱内人员当前的状态调整舱内的环境设置，可以自动对于舱内环境设置进行动态调整。

以下是对上述步骤101至步骤103的详细说明。

针对步骤101：

其中，舱内人员的人脸图像可以是包括舱内人员完整人脸的图像。在获取舱内人员的人脸图像的过程中，可以先获取采集的待检测图像，然后基于训练的用于进行人脸检测的人脸检测神经网络，确定待检测图像中的人脸区域信息，最后基于人脸区域信息，确定人脸图像。

待检测图像可以是实时采集、并实时获取的，在一种可能的实现方式中，可以通过安装在舱内的摄像头实时拍摄待检测图像。

待检测图像中的人脸区域信息包括人脸区域对应的检测框的中心点坐标和该检测框的尺寸信息。在基于人脸区域信息，确定人脸图像的过程中，可以先将检测框的尺寸信息按照预设比例进行放大处理，得到放大后的尺寸信息，然后基于中心点坐标信息和放大后的尺寸信息，从待检测图像中截取人脸图像。

通过人脸检测神经网络输出的检测框所对应的区域中可能并未包含所有的舱内人员的人脸信息，因此，可以对检测框进行放大处理，以使得获得的人脸图像中包括所有的人脸信息。

在一种可能的实现方式中，尺寸信息中可以包括检测框的长和检测框的宽，在将检测框的尺寸信息按照预设比例进行放大处理的过程中，可以是分别将检测框的长和检测框的宽按照对应的预设比例进行放大处理，其中，检测框的长所对应的预设比例和检测框的宽对应的预设比例可以相同。

示例性的，若检测框的长和检测框的宽对应的预设比例均为10％，检测框的长为a，宽为b，则经过放大处理后，检测宽的长为1.1a，检测框的宽为1.1b。

在基于中心点坐标信息和放大后的尺寸信息，从待检测图像中截取人脸图像的过程中，可以以中心点坐标信息对应的点作为对角线的交点，然后分别以放大后的尺寸信息中的长和宽作为检测框的长和宽，确定检测框在待检测图像中的位置，最后以检测框为分割线，从待检测图像中截取图像，截取出的图像即为人脸图像。

人脸检测神经网络在训练的过程中，该人脸检测神经网络的样本数据可以是样本图像，每一样本图像有对应的标签数据，样本图像对应的标签数据包括样本图像中的中心点坐标信息和检测框对应的尺寸信息，在将各样本图像输入至人脸检测神经网络之后，人脸检测神经网络可以得到预测的中心点坐标信息和预测的检测框的尺寸信息，然后基于预测的中心点坐标信息、预测的检测框的尺寸信息、样本图片对应的标签数据，确定本次训练过程中的损失值，并在损失值不满足预设条件的情况下，调整本次训练过程中人脸检测神经网络的网络参数值。

针对步骤102：

舱内人员的属性信息可以包括以下信息中的至少一种：年龄信息；性别信息；种族信息。舱内人员的状态信息可以包括舱内人员的情绪信息和睁闭眼信息，其中，睁闭眼信息可以用来检测舱内人员是否处于睡眠状态，情绪信息可以包括但不限于是以下表情中的任意一种：生气、忧愁、平静、开心、沮丧等。

在一种可能的实现方式中，可以基于人脸图像，对舱内人员进行属性识别，确定舱内人员的属性信息，以及，基于人脸图像，对舱内人员进行表情识别和/或睁闭眼识别，确定舱内人员的状态信息。

在一种可能的实现方式中，在属性信息包括年龄信息的情况下，可以通过第一神经网络识别得到年龄信息。

其中，第一神经网络在训练过程中，可以根据如图2所示的方法，包括以下几个步骤：

步骤201、通过待训练的第一神经网络对样本图像集合中的样本图像进行年龄预测，得到所述样本图像对应的预测年龄值。

步骤202、基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、所述样本图像集合中的样本图像的预测年龄值之差、以及所述样本图像集合中的样本图像的年龄标签的年龄值之差，调整第一神经网络的网络参数值。

在一种可能的实现方式中，可以根据样本图像集合的不同，对于上述调整第一神经网络的网络参数的步骤，可以分为以下几种情况：

情况一、样本图像集合为多个。

在这种情况下，在基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、所述样本图像集合中的样本图像的预测年龄值之差、以及所述样本图像集合中的样本图像的年龄标签的年龄值之差，调整第一神经网络的网络参数值时，可以基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、以及所述任意两个样本图像的年龄标签的年龄值之差，调整第一神经网络的网络参数值。。

在一种可能的实现方式中，可以通过如下公式(1)计算训练过程中的模型损失值：

其中，Age _loss表示本次训练过程中的损失值，N表示样本图像的个数，predict _n表示第n个样本图像的预测年龄值，gt _n表示第n个样本图像的年龄标签的年龄值，i遍历从0到N-1，j遍历从0到N-1，i和j不相等。

在通过上述公式计算出损失值之后，可以根据计算出的损失值去调整第一神经网络的网络参数值。

通过这种方法训练出的第一神经网络，该第一神经网络对应的监督数据除了预测年龄值和年龄标签的年龄之差外，将样本图像集合中样本图像的预测年龄值之差和年龄标签的年龄值之差也作为监督数据，由此训练出的第一神经网络，在进行年龄识别时精度更高。

情况二、样本图像集合中包括多个初始样本图像，以及每一样本图像对应的增强样本图像，其中，增强样本图像为对初始样本图像进行信息变换处理后的图像。

在确定初始样本图像对应的增强样本图像时，可以通过如图3所示的方法，包括以下几个步骤：

步骤301、生成所述初始样本图像中人脸区域图像对应的三维人脸模型。

步骤302、对所述三维人脸模型进行不同角度的旋转，得到不同角度下的第一增强样本图像；以及，将所述初始样本图像中每一像素点在RGB通道上的取值，与不同的光线影响值相加，得到在不同的光线影响值下的第二增强样本图像。

需要说明的是，第一增强样本图像和第二增强样本图像均为初始样本图像对应的增强样本图像。

在确定第二增强样本图像时，初始样本图像中每一像素点在RGB三通道上的取值包括三个值，在确定在光线影响值下的第二增强图像时，可以将初始样本图像中所有像素点在三通道上的取值均与N相加，N为光线影响值，其数值上为三维向量。在一种可能的情况下，N可以遵从高斯分布。

在这种情况下，在基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、所述样本图像集合中的样本图像的预测年龄值之差、以及所述样本图像集合中的样本图像的年龄标签的年龄值之差，调整第一神经网络的网络参数值时，可以基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、以及所述初始样本图像的预测年龄值与所述初始样本图像对应的增强样本图像的预测年龄值之差，调整第一神经网络的网络参数值。

在一种可能的实现方式中，可以根据以下公式(2)计算第一神经网络训练过程中的损失值：

其中，Age _loss表示本次训练过程中的损失值，N表示样本图像的个数，precict _n表示第n个样本图像的预测年龄值，gt _n表示第n个样本图像的年龄标签的年龄值，predict_aug _n表示第n个样本图像对应的增强样本图像的预测年龄值。

上述方法中，增强样本图像为将初始样本图像增加角度和光线的影响下的样本图像，通过初始样本图像和增强样本图像所训练出的神经网络，在进行年龄识别的过程中，可以避免角度和光线对于神经网络识别精度的影响，提高了年龄识别的精度。

情况三、样本图像集合为多个，每一样本图像集合中包括初始样本图像，以及每一初始样本图像对应的增强样本图像，同一样本图像集合中的多个初始样本图像为通过同一图像采集设备采集得到。

在这种情况下，在基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、所述样本图像集合中的样本图像的预测年龄值之差、以及所述样本图像集合中的样本图像的年龄标签的年龄值之差，调整第一神经网络的网络参数值时，可以基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、所述任意两个样本图像的年龄标签的年龄值之差、以及所述初始样本图像的预测年龄值与所述初始样本图像对应的增强样本图像的预测年龄值之差，计算本次训练过程中的损失值，并基于计算出的损失值，调整第一神经网络的网络参数值。

在一种可能的实现方式中，可以根据每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、以及所述任意两个样本图像的年龄标签的年龄值之差，计算第一损失值；以及，根据所述初始样本图像的预测年龄值与所述初始样本图像对应的增强样本图像的预测年龄值之差，计算第二损失值；然后将所述第一损失值和所述第二损失值之和作为本次训练过程中的损失值。

在一种可能的实现方式中，可以通过如下公式(3)计算第一神经网络训练过程中的第一损失值：

Age _loss1表示第一损失值，M表示样本图像集合的个数，N表示每一样本图像集合中所包含的样本图像的个数，predict _mn表示第m个样本图像集合中的第n个样本图像的预测年龄值，gt _mn表示第m个样本图像集合中的第n个样本图像的年龄标签的年龄值。

通过如下公式(4)计算第一神经网络训练过程中的第二损失值：

Age _loss2表示第二损失值，predict _mn表示第m个样本图像集合中的第n个样本图像的预测年龄值，predict_aug _mn表示第m个样本图像集合中n个样本图像对应的增强样本图像的预测年龄值。

这里，需要说明的是，每一样本图像集合中所包含的样本图像的个数还可以大于N，但是在第一神经网络的训练过程中，从每一样本图像集合中随机抽取N个样本图像。

在一种可能的实现方式中，第一神经网络的网络结构可以包括特征提取层和年龄信息提取层，在将人脸图像输入至特征提取层之后，可以得到人脸图像对应的特征图，然后再将特征图输入至年龄信息提取层，输出得到人脸图像的预测年龄值。

这里，同一个样本图像集合中的初始样本图像是通过同一图像采集设备采集得到的，因此在通过样本图像训练神经网络时，可以避免图像采集设备的不同，所带来的误差影响；同时又利用初始样本图像和增强样本图像训练神经网络，由此又可以避免光线和角度所带来的误差影响，因此训练出的神经网络精度更高。

在属性信息包括性别信息的情况下，在确定舱内人员的性别信息时，可以参照如图4所述的方法，包括以下几个步骤：

步骤401、将所述人脸图像输入用于进行性别信息提取的第二神经网络中，得到所述第二神经网络输出的二维特征向量，所述二维特征向量中第一维度上的元素值用于表征所述人脸图像为男性的概率，第二维度上的元素值用于表征所述人脸图像为女性的概率。

步骤402、将所述二维特征向量输入至分类器中，将概率大于设定阈值的性别确定为所述人脸图像的性别。

其中，设定的阈值可以根据采集人脸图像的图像采集设备和采集环境确定。

其中，由于不同的图像采集设备和采集环境的影响，设定阈值对于不同的图像采集设备和采集环境下的采集的人脸图像的识别准确率可能不同，因此，为避免图像采集设备和采集环境的影响，本公开实施例提供了一种自适应确定设定阈值的方法。

在一种可能的实现方式中，可以参照图5所述的设定阈值的确定方法，包括以下几个步骤：

步骤501、获取采集所述人脸图像的图像采集设备在所述舱内采集的多张样本图像，以及每一所述样本图像对应的性别标签。

由于样本图像与人脸图像的图像采集设备和采集环境相同，因此，通过这些样本图像所确定的设定阈值可以满足当前环境的需求。

步骤502、将所述多张样本图像输入至所述第二神经网络中，得到每一所述样本图像分别在多个候选阈值中每一所述候选阈值下对应的预测性别。

在一种可能的实现方式中，第二神经网络的网络结构可以包括特征提取层和性别信息提取层，在将样本图像输入至第二神经网络之后，可以先将样本图像输入至特征提取层，得到样本图像对应的特征图，再将特征图输入至性别信息提取层，输出得到二维特征向量，再通过分类器去确定样本图像对应的预测性别。

在一种可能的实现方式中，在确定候选阈值时，可以按照设定步骤，从预设取值范围内选取多个候选阈值。实际应用中，由于第二神经网络所输出的二维向量中不同维度上的值表示的是概率，因此，预设取值范围可以是0到1，设定步长例如可以为0.001，示例性的可以通过如下公式(5)确定候选阈值：

thrd＝0+0.001k 公式(5)；

其中，thrd表示候选阈值，k取遍0至1000中的每一正整数。

步骤503、针对每一所述候选阈值，根据所述候选阈值下的每一所述样本图像对应的预测性别和性别标签，确定所述候选阈值下的预测准确率。

在根据候选阈值下的样本图像的预测性别、以及样本图像的性别标签，确定该候选阈值下的预测准确率时，可以通过如下方法确定：

确定P张样本图像中，以下分类中每一类的取值，如下表1所示：

表1

其中，TP表示性别标签为男性且在thrd阈值下预测性别为男性的数量，TN表示性别标签为男性且在thrd阈值下预测性别为女性的数量，FP表示性别标签为女性且在thrd阈值下预测性别为男性的数量，FN表示性别标签为女性且在thrd阈值下预测性别为女性的数量。

在确定上表1中每一类的取值之后，可以通过如下公式(6)计算准确率：

其中，

步骤504、将最大的预测准确率对应的候选阈值确定为所述设定阈值。

由于在确定设定阈值的过程中，所采集的样本图像为采集人脸图像的图像采集设备在舱内采集的，由此可以保证采集设备和采集环境对于设定阈值的影响，且在确定设定阈值的过程中，是将预测准确率最大的候选阈值作为设定阈值，由此可以做到自适应调节设定阈值，从而提高性别识别的精度。

在状态信息包括睁闭眼信息的情况下，可以根据如图6所示的方法确定舱内人员的睁闭眼信息，包括以下几个步骤：

步骤601、对所述人脸图像进行特征提取，得到多维特征向量，所述多维特征向量中每一维度上的元素值用于表征所述人脸图像中的眼睛处于所述维度对应的状态的概率。

在一种可能的实现方式中，可以将人脸图像输入至预先训练好的用于进行睁闭眼信息检测的第四神经网络中，第四神经网络可以包括特征提取层和睁闭眼信息提取层，在将人脸图像输入至第四神经网络之后，可以是将人脸图像输入至特征提取层，输出得到人脸图像对应的特征图，然后将人脸图像对应的特征图输入至睁闭眼信息提取层，输出得到多维特征向量。

眼睛的状态可以包括以下状态中的至少之一：人眼不可见、人眼可见且睁眼、人眼可见且闭眼。

在一种可能的实现方式中，左眼状态可能是以上状态中的任意一种，右眼状态也可以是以上状态中的任意一种，则两只眼睛可能的状态有9种，因此，第三神经网络的输出可以为九维特征向量，九维特征向量中每一维度上的元素值表示人脸图像中的两只眼睛处于该维度对应的两只眼睛的状态的概率。

步骤602、将概率大于预设值的维度对应的状态，确定为所述舱内人员的睁闭眼信息。

在属性信息包括种族信息的情况下，可以将人脸图像输入用于进行种族信息提取的第五神经网络中，第五神经网络包括特征提取层和种族信息提取层，在将人脸图像输入第五神经网络中之后，可以是先将人脸图像输入至特征提取层，得到人脸图像对应的特征图，然后将特征图输入至种族信息提取层，得到三维特征向量，三维特征向量中不同维度上的元素值分别用于表征所述人脸图像为该维度对应的种族的概率，所述种族包括“黄种人”、“白种人”、以及“黑种人”。

通过这种方式，在确定舱内人员的睁闭眼信息时，无需对人脸图像进行分割，直接通过人脸图像便可确定人脸图像中的睁闭眼信息，提高了睁闭眼信息检测的效率。

由以上内容可知，用于进行年龄信息提取的第一神经网络、用于进行性别信息提取的第二神经网络、用于进行睁闭眼信息提取的第四神经网络、以及用于进行种族信息提取的第五神经网络中，均包括特征提取层，因此，这五个神经网络可以共用特征提取层。

示例性的，可以参照图7所示，图7为本公开实施例提供的一种属性信息确定的方法，包括以下几个步骤：

步骤701、将所述人脸图像输入至用于进行属性识别的第二神经网络中的特征提取层，得到所述人脸图像对应的特征图。

其中，特征提取层用于对输入的人脸特征进行特征提取，示例性的，特征提取层可以采用inception网络、轻量化网络mobilenet-v2等。

步骤702、将所述特征图分别输入至信息提取神经网络的各个属性信息提取层，得到每一属性信息提取层输出的属性信息，其中，不同属性信息提取层用于检测不同的属性信息。

在一种可能的实现方式中，信息提取神经网络中的每一属性信息提取层均包括第一全连接层和第二全连接层，在将特征图输入至信息提取神经网络的属性信息提取层之后，相当于先将特征图输入属性信息提取层的第一全连接层，得到特征图对应的M维向量；M为与任一属性信息对应的预设正整数，然后将M维向量输入至该属性信息提取层的第二全连接层，得到特征图对应的N维向量，其中N为正整数，且M大于N，N为改属性信息提取层所对应的属性信息的取值个数，最后基于得到的N维向量，确定与该N维向量对应的属性信息。

其中，N为该属性信息提取层所对应的取值个数，示例性的可以理解为，若属性信息提取层提取的属性信息为性别，则该属性信息的取值包括“男”和“女”两个，则该属性信息提取层所对应的N的取值为2。

下面将以属性信息包括年龄信息、性别信息、种族信息为例，对上述信息提取神经网络的结构做出说明，信息提取神经网络的网络结构可以如图8所示。

在将人脸图像输入至特征提取层之后，可以得到人脸图像对应的特征图，然后将特征图分别输入年龄信息提取层、性别信息提取层、种族信息提取层、以及睁闭眼信息提取层。

年龄信息提取层中包括第一全连接层和第二全连接层，在将特征图输入至第一全连接层之后，可以得到K ₁维的特征向量，然后将K ₁维的特征向量输入至第二全连接层，得到一维向量输出，该一维向量中的元素值即为预测的年龄的取值。另外，考虑到年龄的取值应为整数，则可以对该一维向量中的元素值进行四舍五入的取值，最终得到预测的年龄信息，其中，K ₁大于1。

性别信息提取层中包括第一全连接层和第二全连接层，在将特征图输入至第一全连接层之后，可以得到K ₂维的特征向量，然后将K ₂维的特征向量输入至第二全连接层，得到二维向量输出，该二维向量中的元素值表示分别对于输入的人脸图像中用户为男性的概率和女性的概率，最后，在第二全连接层的输出可以接一个二分类网络，根据二分类结果确定性别信息提取层预测的输入的人脸图像的性别信息，其中，K ₂大于2。

种族信息提取层中，在将特征图输入至可以得到K ₃维的特征向量，然后将K ₃维的特征向量输入至第二全连接层，得到三维向量输出，该三维向量中的元素值表示分别对于输入的人脸图像中用户为“黄种人”的概率、“黑种人”的概率以及“白种人”的概率，最后，在第二全连接层的输出可以接一个分类网络，根据分类网络的分类结果确定种族信息提取层预测的输入的人脸图像的种族信息，其中，K ₃大于3。

另外，状态信息中的睁闭眼信息也可以利用上述的信息提取神经网络提取，对于睁闭眼信息提取层，所提取的为舱内人员的两只眼睛的状态，其中，眼睛的状态包括“人眼不可见”(人眼不可见即为在图片中无法检测出眼睛，例如舱内人员戴墨镜)、“人眼可见且睁眼”、以及“人眼可见且闭眼”三种，因此对于两只眼睛来说，共有9种可选的状态。因此，对于睁闭眼信息提取层来说，第一全连接层的输出是K ₄维的特征向量，第二全连接层的输出是九维的特征向量，向量中每一元素值用于表征所述人脸图像中的舱内人员的眼睛状态为该元素值表示的状态的概率，在第二全连接层的输出接一个分类网络，可以根据分类网络的分类结果确定睁闭眼信息提取层预测的输入的人脸图像的睁闭眼信息，其中，K ₄大于9。

信息提取神经网络在训练过程中，可以通过带有属性信息标签的样本图像进行训练，各个属性信息提取层一起训练，在计算损失值时，分别计算每一属性信息提取层的损失值，然后根据各个属性信息提取层的损失值去调整对应的属性信息提取层的网络参数值，将各个属性信息提取层的损失值进行求和运算，作为总损失值，然后根据总损失值，调整特征提取层的网络参数值，在一种可能的实现方式中信息提取神经网络的训练过程在此将不再展开介绍。

在一种可能的实现方式中，在确定舱内人员的情绪信息时，可以根据如图9所述的方法，包括以下几个步骤：

步骤901、根据所述人脸图像，识别所述人脸图像代表的人脸上的至少两个器官中每一所述器官的动作。

步骤902、基于识别到的所述每一所述器官的动作、以及预先设置的面部动作与情绪信息之间的映射关系，确定所述舱内人员的情绪信息。

在识别人脸图像代表的人脸上的至少两个器官中每一器官的动作时，可以通过第三神经网络对人脸图像进行识别，第三神经网络包括主干网络和至少两个分类分支网络，每一分类分支网络用于识别人脸上的一个器官的一种动作。

在一种可能的实现方式中，在利用第三神经网络对人脸图像进行识别时，可以先利用主干网络对人脸图像进行特征提取，得到人脸图像的特征图，然后分别利用每一分类分支网络根据人脸图像的特征图，进行动作识别，得到每一分类分支网络能够识别的动作的发生概率，然后将发生概率大于预设概率的动作确定为人脸图像代表的人脸上的器官的动作。

在一种可能的实现方式中，在将人脸图像输入至第三神经网络之前，还可以先对人脸图像进行预处理，以增强人脸图像中的关键信息，然后将经过预处理的人脸图像输入至第三神经网络中。

其中，所述对人脸图像进行预处理，可以是先确定人脸图像中的关键点的位置信息，然后基于关键点的位置信息，对人脸图像进行仿射变换，得到人脸图像对应的转正后图像，再对转正后的人脸图像进行归一化处理，得到处理后的人脸图像。

所述对转正后的人脸图像进行归一化处理，包括：计算人脸图像中所包含的各个像素点的像素值均值、以及人脸图像中所包含的各个像素点的像素值标准差；基于所述像素值均值、以及所述像素值标准差，对人脸图像中的每一像素点的像素值进行归一化处理。

在一种可能的实现方式中，在基于像素值均值、以及像素值标准差，对人脸图像中的每一像素点的像素值进行归一化处理时，可以参照下述公式(7)：

其中，Z表示像素点进行归一化处理后的像素值，X表示像素点进行归一化处理前的像素值，μ表示像素值均值，σ表示像素值标准差。

通过上述处理，可以将人脸图像中的人脸进行转正处理，在确定人脸表情时更加精确。

其中，动作单元所检测的动作包括以下至少一种：

皱眉、瞪眼、嘴角上扬、上唇上抬、嘴角向下、张嘴。

根据人脸的面部动作检测结果、以及预先设置的面部动作与情绪信息之间的映射关系，可以确定出舱内人员的情绪信息，示例性的，若未检测出任何一个面部动作，则可以确定舱内人员的情绪信息是平静，若检测出舱内人员的面部动作是瞪眼和张嘴，则可以确定舱内人员的情绪信息是惊讶等。

基于这种方式，不需要用户针对人脸图像进行表情状态的主观定义，另外，由于人脸上的器官的动作可以专注于某些特定的人脸特征，对人脸图像进行器官的动作的识别，相比直接进行表情姿态的识别，可以提升准确性。

针对步骤103：

在调整舱内的环境设置时，可以包括以下类型的调整中的至少之一：

调整音乐类型；调整温度；调整灯光类型；调整气味。

在一种可能的实现方式中，在根据舱内人员的属性信息和情绪信息，调整舱内的环境设置时，若舱内人员仅有一人，则可以直接根据该舱内人员的属性信息和情绪信息，从预先设置好的映射关系中，查找对应的调整信息，然后根据调整信息调整舱内的环境设置，其中，所述映射关系用于表示属性信息和情绪信息与调整信息之间的映射关系。

若舱内人员有多人，则可以确定不同舱内人员的属性信息取值中优先级较高的取值，以及不同舱内人员的情绪信息的取值中优先级较高的取值，然后根据优先级较高的属性信息取值和优先级较高的情绪信息的取值，调整舱内的环境设置。

示例性的，若舱内人员有两个，一个人的情绪信息为平静，一个人的情绪信息为伤心，则可以根据“伤心”来调整播放的音乐类型。

在另一种可能的实现方式中，由于属性信息是有限的，每种属性信息的取值也是有限的，状态信息的取值也是有限的，因此，可以预先设置好每种属性信息的取值和情绪信息的取值对应的调整信息，然后根据检测出的舱内人员的属性信息和情绪信息，去查找对应的调整信息。

这里，由于舱内人员的情绪信息可能是实时变化的，因此，可以随时根据舱内人员的情绪信息的变化情况，实时的对舱内的环境设置进行调整。

本领域技术人员可以理解，在具体实施方式的上述方法中，各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定，各步骤的执行顺序应当以其功能和可能的内在逻辑确定。

基于同一发明构思，本公开实施例中还提供了与舱内环境的调整方法对应的舱内环境的调整装置，由于本公开实施例中的装置解决问题的原理与本公开实施例上述舱内环境的调整方法相似，因此装置的实施可以参见方法的实施，重复之处不再赘述。

参照图10所示，为本公开实施例提供的一种舱内环境的调整装置的架构示意图，所述装置包括：获取模块1001、确定模块1002、调整模块1003、以及训练模块1004；其中，

获取模块1001，被配置为获取舱内人员的人脸图像；

确定模块1002，被配置为基于人脸图像，确定所述舱内人员的属性信息和状态信息；

调整模块1003，被配置为基于所述舱内人员的属性信息和状态信息，调整舱内环境。

所述装置还包括训练模块1004，所述训练模块1004，被配置为根据以下方法得到所述第一神经网络：通过待训练的第一神经网络对样本图像集合中的样本图像进行年龄预测，得到所述样本图像对应的预测年龄值；基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、所述样本图像集合中的样本图像的预测年龄值之差、以及所述样本图像集合中的样本图像的年龄标签的年龄值之差，调整第一神经网络的网络参数值。

在一种可能的实现方式中，所述样本图像集合为多个，所述训练模块1004，被进一步配置为：基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、以及所述任意两个样本图像的年龄标签的年龄值之差，调整第一神经网络的网络参数值。

在一种可能的实现方式中，所述样本图像集合中包括多个初始样本图像，以及每一所述初始样本图像对应的增强样本图像，所述增强样本图像为对所述初始样本图像进行信息变换处理后的图像；所述训练模块1004，被进一步配置为：基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、以及所述初始样本图像的预测年龄值与所述初始样本图像对应的增强样本图像的预测年龄值之差，调整第一神经网络的网络参数值；其中，所述样本图像为初始样本图像或者增强样本图像。

在一种可能的实现方式中，所述样本图像集合为多个，每一所述样本图像集合中包括多个初始样本图像，以及每一所述初始样本图像对应的增强样本图像，所述增强样本图像为对所述初始样本图像进行信息变换处理后的图像，同一样本图像集合中的多个初始样本图像为通过同一图像采集设备采集得到；所述训练模块1004，被进一步配置为：基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、所述任意两个样本图像的年龄标签的年龄值之差、以及所述初始样本图像的预测年龄值与所述初始样本图像对应的增强样本图像的预测年龄值之差，计算本次训练过程中的损失值，并基于计算出的损失值，调整第一神经网络的网络参数值；其中，所述样本图像为初始样本图像或者增强样本图像。

在一种可能的实现方式中，所述训练模块1004，被进一步配置为：根据每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、以及所述任意两个样本图像的年龄标签的年龄值之差，计算第一损失值；以及，根据所述初始样本图像的预测年龄值与所述初始样本图像对应的增强样本图像的预测年龄值之差，计算第二损失值；将所述第一损失值和所述第二损失值之和作为本次训练过程中的损失值。

在一种可能的实现方式中，所述训练模块1004，被进一步配置为根据以下方法确定初始样本图像对应的增强样本图像：生成所述初始样本图像中人脸区域图像对应的三维人脸模型；对所述三维人脸模型进行不同角度的旋转，得到不同角度下的第一增强样本图像；以及，将所述初始样本图像中每一像素点在RGB通道上的取值，与不同的光线影响值相加，得到在不同的光线影响值下的第二增强样本图像；所述增强样本图像为所述第一增强样本图像或所述第二增强样本图像。

在一种可能的实现方式中，所述属性信息包括性别信息，所述确定模块1002，被进一步配置为根据以下方法确定所述舱内人员的性别信息：将所述人脸图像输入用于进行性别信息提取的第二神经网络中，得到所述第二神经网络输出的二维特征向量，所述二维特征向量中第一维度上的元素值用于表征所述人脸图像为男性的概率，第二维度上的元素值用于表征所述人脸图像为女性的概率；将所述二维特征向量输入至分类器中，将概率大于设定阈值的性别确定为所述人脸图像的性别。

在一种可能的实现方式中，所述确定模块1002，被进一步配置为根据以下方法确定所述设定阈值：获取采集所述人脸图像的图像采集设备在所述舱内采集的多张样本图像，以及每一所述样本图像对应的性别标签；将所述多张样本图像输入至所述第二神经网络中，得到每一所述样本图像分别在多个候选阈值中每一所述候选阈值下对应的预测性别；针对每一所述候选阈值，根据所述候选阈值下的每一所述样本图像对应的预测性别和性别标签，确定所述候选阈值下的预测准确率；将最大的预测准确率对应的候选阈值确定为所述设定阈值。

在一种可能的实现方式中，所述确定模块1002，被进一步配置为根据以下方法确定所述多个候选阈值：按照设定步长，从预设取值范围内选取所述多个候选阈值。

在一种可能的实现方式中，所述状态信息包括睁闭眼信息，所述确定模块1002，被配置为根据以下方法确定所述舱内人员的睁闭眼信息：对所述人脸图像进行特征提取，得到多维特征向量，所述多维特征向量中每一维度上的元素值用于表征所述人脸图像中的眼睛处于所述维度对应的状态的概率；将概率大于预设值的维度对应的状态，确定为所述舱内人员的睁闭眼信息。

在一种可能的实现方式中，所述状态信息包括情绪信息，所述确定模块1002，被进一步配置为根据以下步骤确定舱内人员的情绪信息：根据所述人脸图像，识别所述人脸图像代表的人脸上的至少两个器官中每一所述器官的动作；基于识别到的所述每一所述器官的动作、以及预先设置的面部动作与情绪信息之间的映射关系，确定所述舱内人员的情绪信息。

所述确定模块1002，被进一步配置为：利用主干网络对所述人脸图像进行特征提取，得到所述人脸图像的特征图；分别利用每一所述分类分支网络对所述人脸图像的特征图进行动作识别，得到每一所述分类分支网络能够识别的动作的发生概率；将发生概率大于预设概率的动作确定为所述人脸图像代表的人脸上的器官的动作。

基于同一技术构思，本申请实施例还提供了一种电子设备。参照图11所示，为本申请实施例提供的电子设备1100的结构示意图，包括处理器1101、存储器1102和总线1103。其中，存储器1102被配置为存储执行指令，包括内存11021和外部存储器11022；这里的内存11021也称内存储器，被配置为暂时存放处理器1101中的运算数据，以及与硬盘等外部存储器11022交换的数据，处理器1101通过内存11021与外部存储器11022进行数据交换，当电子设备1100运行时，处理器1101与存储器1102之间通过总线1103通信，使得处理器1101在执行上述方法实施例中所述的舱内环境的调整方法的步骤。

本公开实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述方法实施例中所述的舱内环境的调整方法的步骤。其中，该存储介质可以是易失性或非易失的计算机可读取存储介质。

本公开实施例所提供的舱内环境的调整方法的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可被配置为执行上述方法实施例中所述的舱内环境的调整方法的步骤，可参见上述方法实施例，在此不再赘述。

本公开实施例还提供一种计算机程序，该计算机程序被处理器执行时实现前述实施例的任意一种方法。该计算机程序产品可以通过硬件、软件或其结合的方式实现。在一个可选实施例中，所述计算机程序产品体现为计算机存储介质，在另一个可选实施例中，计算机程序产品体现为软件产品，例如软件开发包(Software Development Kit，SDK)等等。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统和装置的工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。在本公开所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本公开各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本公开的具体实施方式，用以说明本公开的技术方案，而非对其限制，本公开的保护范围并不局限于此，尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本公开实施例揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围，都应涵盖在本公开的保护范围之内。因此，本公开实施例的保护范围应所述以权利要求的保护范围为准。

工业实用性

本公开实施例通过获取舱内人员的人脸图像；基于所述人脸图像，确定所述舱内人员的属性信息和状态信息；基于所述舱内人员的属性信息和状态信息，调整舱内环境。这样，由于人脸图像是实时获取的，因此所确定出的舱内人员的属性信息和状态信息就可以代表舱内人员当前的状态，根据舱内人员当前的状态调整舱内的环境设置，可以自动对于舱内环境设置进行动态调整。

Claims

一种舱内环境的调整方法，包括：

获取舱内人员的人脸图像；

基于所述人脸图像，确定所述舱内人员的属性信息和状态信息；

基于所述舱内人员的属性信息和状态信息，调整舱内环境。
根据权利要求1所述的方法，其中，所述属性信息包括年龄信息，所述年龄信息通过第一神经网络识别得到；

根据以下方法得到所述第一神经网络：

通过待训练的第一神经网络对样本图像集合中的样本图像进行年龄预测，得到所述样本图像对应的预测年龄值；

基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、所述样本图像集合中的样本图像的预测年龄值之差、以及所述样本图像集合中的样本图像的年龄标签的年龄值之差，调整第一神经网络的网络参数值。
根据权利要求2所述的方法，其中，所述样本图像集合为多个；

所述基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、所述样本图像集合中的样本图像的预测年龄值之差、以及所述样本图像集合中的样本图像的年龄标签的年龄值之差，调整第一神经网络的网络参数值，包括：

基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、以及所述任意两个样本图像的年龄标签的年龄值之差，调整第一神经网络的网络参数值。
根据权利要求2所述的方法，其中，所述样本图像集合中包括多个初始样本图像，以及每一所述初始样本图像对应的增强样本图像，所述增强样本图像为对所述初始样本图像进行信息变换处理后的图像；

所述基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、所述样本图像集合中的样本图像的预测年龄值之差、以及所述样本图像集合中的样本图像的年龄标签的年龄值之差，调整第一神经网络的网络参数值，包括：

基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、以及所述初始样本图像的预测年龄值与所述初始样本图像对应的增强样本图像的预测年龄值之差，调整第一神经网络的网络参数值；

其中，所述样本图像为初始样本图像或者增强样本图像。
根据权利要求2所述的方法，其中，所述样本图像集合为多个，每一所述样本图像集合中包括多个初始样本图像，以及每一所述初始样本图像对应的增强样本图像，所述增强样本图像为对所述初始样本图像进行信息变换处理后的图像，同一样本图像集合中的多个初始样本图像为通过同一图像采集设备采集得到；

所述基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、所述样本图像集合中的样本图像的预测年龄值之差、以及所述样本图像集合中的样本图像的年龄标签的年龄值之差，调整第一神经网络的网络参数值，包括：

基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、所述任意两个样本图像的年龄标签的年龄值之差、以及所述初始样本图像的预测年龄值与所述初始样本图像对应的增强样本图像的预测年龄值之差，计算本次训练过程中的损失值，并基于计算出的损失值，调整第一神经网络的网络参数值；

其中，所述样本图像为初始样本图像或者增强样本图像。
根据权利要求5所述的方法，其中，所述基于每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、所述任意两个样本图像的年龄标签的年龄值之差、以及所述初始样本图像的预测年龄值与所述初始样本图像对应的增强样本图像的预测年龄值之差，计算本次训练过程中的损失值，包括：

根据每一所述样本图像对应的预测年龄值与所述样本图像的年龄标签的年龄值之差、同一样本图像集合中任意两个样本图像的预测年龄值之差、以及所述任意两个样本图像的年龄标签的年龄值之差，计算第一损失值；以及，

根据所述初始样本图像的预测年龄值与所述初始样本图像对应的增强样本图像的预测年龄值之差，计算第二损失值；

将所述第一损失值和所述第二损失值之和作为本次训练过程中的损失值。
根据权利要求4至6任一项所述的方法，其中，根据以下方法确定所述初始样本图像对应的增强样本图像：

生成所述初始样本图像中人脸区域图像对应的三维人脸模型；

对所述三维人脸模型进行不同角度的旋转，得到不同角度下的第一增强样本图像；以及，

将所述初始样本图像中每一像素点在RGB通道上的取值，与不同的光线影响值相加，得到在不同的光线影响值下的第二增强样本图像；

所述增强样本图像为所述第一增强样本图像或所述第二增强样本图像。
根据权利提取要求1所述的方法，其中，所述属性信息包括性别信息，根据以下方法确定所述舱内人员的性别信息：

将所述人脸图像输入用于进行性别信息提取的第二神经网络中，得到所述第二神经网络输出的二维特征向量，所述二维特征向量中第一维度上的元素值用于表征所述人脸图像为男性的概率，第二维度上的元素值用于表征所述人脸图像为女性的概率；

将所述二维特征向量输入至分类器中，将概率大于设定阈值的性别确定为所述人脸图像的性别。
根据权利要求8所述的方法，其中，根据以下方法确定所述设定阈值：

获取采集所述人脸图像的图像采集设备在所述舱内采集的多张样本图像，以及每一所述样本图像对应的性别标签；

将所述多张样本图像输入至所述第二神经网络中，得到每一所述样本图像分别在多个候选阈值中每一所述候选阈值下对应的预测性别；

针对每一所述候选阈值，根据所述候选阈值下的每一所述样本图像对应的预测性别和性别标签，确定所述候选阈值下的预测准确率；

将最大的预测准确率对应的候选阈值确定为所述设定阈值。
根据权利要求9所述的方法，其中，根据以下方法确定所述多个候选阈值：

按照设定步长，从预设取值范围内选取所述多个候选阈值。
根据权利要求1所述的方法，其中，所述状态信息包括睁闭眼信息，根据以下方法确定所述舱内人员的睁闭眼信息：

对所述人脸图像进行特征提取，得到多维特征向量，所述多维特征向量中每一维度上的元素值用于表征所述人脸图像中的眼睛处于所述维度对应的状态的概率；

将概率大于预设值的维度对应的状态，确定为所述舱内人员的睁闭眼信息。
根据权利要求11所述的方法，其中，眼睛的状态包括以下状态中的至少之一：

人眼不可见；人眼可见且睁眼；人眼可见且闭眼。
根据权利要求1所述的方法，其中，所述状态信息包括情绪信息，根据以下步骤确定舱内人员的情绪信息：

根据所述人脸图像，识别所述人脸图像代表的人脸上的至少两个器官中每一所述器官的动作；

基于识别到的所述每一所述器官的动作、以及预先设置的面部动作与情绪信息之间的映射关系，确定所述舱内人员的情绪信息。
根据权利要求13所述的方法，其中，人脸上的器官的动作包括以下动作中的至少两种：

皱眉；瞪眼；嘴角上扬；上唇上抬；嘴角向下；张嘴。
根据权利要求13所述的方法，其中，根据所述人脸图像识别所述人脸图像代表的人脸上的至少两个器官中每一所述器官的动作是由第三神经网络执行的，所述第三神经网络包括主干网络和至少两个分类分支网络，每一所述分类分支网络用于识别人脸上的一个器官的一种动作；

根据所述人脸图像识别所述人脸图像代表的人脸上的至少两个器官中每一所述器官的动作，包括：

利用所述主干网络对所述人脸图像进行特征提取，得到所述人脸图像的特征图；

分别利用每一所述分类分支网络对所述人脸图像的特征图进行动作识别，得到每一所述分类分支网络能够识别的动作的发生概率；

将发生概率大于预设概率的动作确定为所述人脸图像代表的人脸上的器官的动作。
根据权利要求1至15任一项所述的方法，其中，所述调整舱内的环境设置，包括以下类型的调整中的至少之一：

调整音乐类型；调整温度；调整灯光类型；调整气味。
一种舱内环境的调整装置，包括：

获取模块，被配置为获取舱内人员的人脸图像；

确定模块，被配置为基于所述人脸图像，确定所述舱内人员的属性信息和状态信息；

调整模块，被配置为基于所述舱内人员的属性信息和状态信息，调整舱内环境。
一种电子设备，其中，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当所述电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至16任一项所述的舱内环境的调整方法的步骤。
一种计算机可读存储介质，其中，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至16任一项所述的舱内环境的调整方法的步骤。
一种计算机程序，包括计算机可读代码，当所述计算机可读代码在电子设备中运行时，所述电子设备中的处理器执行用于实现权利要求1至16中任一项所述的舱内环境的调整方法的步骤。