WO2023226755A1

WO2023226755A1 - 一种基于人-物时空交互行为的情感识别方法

Info

Publication number: WO2023226755A1
Application number: PCT/CN2023/093128
Authority: WO
Inventors: 李新德; 胡川飞
Original assignee: 东南大学
Priority date: 2022-05-26
Filing date: 2023-05-10
Publication date: 2023-11-30
Also published as: CN114926837B; US20240037992A1; CN114926837A

Abstract

本发明公开了一种基于人-物时空交互行为的情感识别方法，其过程为：采集人与物体交互行为过程的视频数据；对人、物体的位置以及人所表现的交互行为和情感进行数据标注；构建基于深度学习的特征提取模型，抽取人与物体在时空维度的交互行为特征，并进行人-物交互行为的位置和类别检测；通过词向量模型，将检测得到的交互行为类别映射为向量形式；最后构建基于深度学习的融合模型，融合交互行为向量和时空交互行为特征，识别交互人所表现的情感。本发明采用了人与物体在时空中的交互信息，对识别目标情感提供了客观、连续的判断依据，避免了情感识别结果受目标主观性和采集方式的影响，更准确地识别出目标的真实情感状态。

Description

一种基于人-物时空交互行为的情感识别方法

技术领域

本发明涉及计算机视觉和模式识别领域，尤其是涉及一种基于人-物时空交互行为的情感识别方法。

背景技术

随着人工智能技术的发展，赋予机器理解人类情感的能力逐渐成为了研究热点，其极大延展了智能设备在人类社会各领域的应用深度。例如，在由机器提供的引导服务中，通过对询问者言行的观察、识别和理解，判断其内心的真实情感，实现如同人类般自然、生动且亲切的引导互动，使询问者感受到智能设备的自然、顺畅、有温度。因此，构建准确的情感识别技术对推动机器的智能化、类人化有着重要的实际意义。

现有的情感识别方法中，通过采集目标的面部图像、说话语音、生理信号用于建立情感识别模型的建模依据。然而，基于上述数据源的情感识别方法的可靠性通常受限于目标表现的主观性和采集方式的可靠性。具体而言，面部图像和说话语音通常可以被认为是流露人类情感的直观线索。但在一些特殊情景，人类会存在从众和伪装心理，混淆了基于主观表现的面部或语音建模的情感识别方法，对目标真实情感的识别产生偏差。相对而言，生理信号，如心率、呼吸率、皮肤电和脑电信号，一般是不易受目标主观伪装的客观线索。但生理信号的采集多为接触式传感器，这会使得目标产生被侵入感，使得生理信号掺杂了不确定的非情感相关因素。此外，接触式采集方式大大缩小了情感识别方法的应用广度。

综上所述，因为现有情感识别方法在建模时，采用的数据源会受到目标主观性和采集方式不可靠的影响，从而导致情感识别结果的准确度较低。

发明内容

本发明的目的就是为了克服情感识别结果受数据因素的影响，提升情感识别结果的准确率而提供了一种基于人-物时空交互行为的情感识别方法，以日常生活中人与物体之间不可避免的交互行为作为数据源，构建一种更加准确、可靠的情感识别方法。

为实现上述目的，本发明提供如下技术方案：

一种基于人-物时空交互行为的情感识别方法，具体包括以下步骤：

步骤S1：采集人与物体交互行为过程的视频数据；

步骤S2：对人、物体的位置以及人所表现的交互行为和情感进行数据标注；

步骤S3：构建基于深度学习的特征提取模型，抽取人与物体在时空维度的交互行为特征，并进行人-物交互行为的位置和类别检测；

步骤S4：通过词向量模型，将检测得到的交互行为类别映射为向量形式；

步骤S5：构建基于深度学习的融合模型，融合交互行为向量和时空交互行为特征，识别交互人所表现的情感。该方案中，首次采用人-物时空交互行为作为情感识别的数据依据，克服了现有识别方法所使用的数据源受到目标主观性和采集方式不可靠的影响。其次，不仅是采用一段人-物交互视频直接建立识别模型，而是引入人-物交互检测这一过程(S3、S4)，并将人-物交互的特征和向量化的检测结果进行融合(S5)，在特征级和语义级融合的基础上进行情感识别，使识别结果更具有解释性。

优选的，所述步骤S1中的视频数据所涉及的采集场景包括居民住宅的卧室、厨房、卫生间、书房以及商场询问台、购票处；所述的交互行为是指人对物体的使用动作包括拿杯子喝水、翻阅书籍、接听电话、操作电视遥控器、操作电脑、翻动床单、握牙刷刷牙、使用毛巾洗脸、推/关房门、推动购物车、扶握排队栏杆。这里所列出的行为囊括了生活中的起居、工作、个人清洁等包含情感的代表性人-物交互行为，该设置方式的好处是具有普适性。

优选的，所述步骤S2的数据标注涉及三个阶段，首先采用目标检测网络生成视频数据中人和物体的初始位置以及物体类别，然后对生成的初始位置和类别进行人工校正，对不准确的检测结果进行修正，得到准确的位置和类别信息，最后对视频数据中人所表现的交互行为和情感进行标注；所述的人、物体的位置是指包含人或物体的平行于视频图像的最小矩形框，由矩形中心坐标和长宽表示；所述的交互行为进行标注指的是标出交互类别和对应人、物的位置；所述的情感包括高兴、沮丧、焦躁、愤怒、惊喜、恐惧、兴奋以及中性；所述的中性是指没有明显的情绪流露。该方案中解释了数据标注过程的三个阶段，该三个阶段可以认为是完成人-物交互行为情感识别方法的数据集制作过程。其好处在于：在第一个阶段算法自动检测的基础上，结合第二、第三个阶段的人工校正和标注，形成了半自动化的数据标注过程，提高了数据集的制作效率。

优选的，所述步骤S3中的特征提取模型采用在通用数据集上预训练的目标检测网络，在采集的视频数据上进行微调，检测准确的人与交互物体的位置以及交互类别。

优选的，所述的微调是指在通用数据集预训练的基础上，冻结网络的大部分可学习参数，在训练数据上只对网络的最后两层进行重新训练。

优选的，所述步骤S3中的时空维度是指一个固定时间长度的三维张量，包含一个时间维度和两个空间维度；所述的时间长度是由视频帧的数量进行定义。

优选的，所述步骤S5中的融合交互行为向量是指所述步骤S4中向量形式的交互行为。

优选的，所述步骤S5中的时空交互行为特征是指所述步骤S3中人与物体在时空维度的交互行为特征。

优选的，所述步骤S5中的识别交互人所表现的情感是对融合模型输出后的融合特征进行分类。充分利用了通用数据集的大数据量优点，同时，减少了特征提取模型在人-物交互检测任务上的训练时间。

本发明与现有技术相比，具有以下的有益效果：

1)本发明在数据源的选择上，采用了人与物体在时空中的行为作为情感识别方法的建模依据。利用人-物交互行为的客观性和易采集性，克服情感识别建模所受到的目标主观性和采集方式不可靠的影响；

2)本发明在时空维度上建模情感识别模型，发挥了时空信息的连续性，表征了人-物交互动作在时序上的因果联系，提升了情感识别模型的准确性；

3)本发明融入了人-物交互的语义级信息，进一步加强了情感识别模型识别结果的准确性，以及以人-物交互为依据建模的可解释性。

附图说明

图1为本发明的流程示意图。

图2为本发明实例中的数据标注流程示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，如图1所示，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1：

一种基于人-物时空交互行为的情感识别方法以住宅卧室为场景的实施，具体包括以下步骤：

步骤S1：采集人与物体交互行为过程的视频数据。

在本实例中，场景是住宅卧室。视频数据中的交互行为包括拿杯子喝水、翻阅书籍、接听电话、操作电脑、推/关房门等交互行为。相比于面部或生理信号作为数据源，采用人-物交互行为为数据源，大大降低了视频数据的采集难度。面部信号需保证面部不受遮挡，生理信号则需要接触式的传感器，而人-物交互行为仅需要包含人的交互部位与交互物体即可，放宽了数据源的采集限制，使本发明能够具备更加广泛的应用场景。

步骤S2：对人、物体的位置以及人所表现的交互行为和情感进行数据标注。

在本实例中，该标注过程分为三个阶段，如图2所示。首先，采用FasterRCNN目标检测网络对所有采集的视频数据，生成人和物体的初始位置以及物体类别。然后，使用标注工具对初始位置和类别进行人工校正，修正不准确的初始检测结果，得到准确的位置和类别信息。最后，对所有采集的视频数据进行交互行为和情感标注，其中情感包括高兴、沮丧、焦躁、愤怒、惊喜、恐惧、兴奋以及中性。

步骤S3：构建基于深度学习的特征提取模型，抽取人与物体在时空维度的交互行为特征，并进行人-物交互行为的位置和类别检测。

在本实例中，采用基于3D-DETR的目标检测网络作为特征提取模型，并采用微调策略，即对该模型在V-COCO数据集上预训练的网络权重进行部分保留，仅在本实例所采集的数据集上训练模型的最后两层，用于抽取人与物体在时空维度的交互行为特征并进行人-物交互行为的位置和类别检测。微调策略提高了本实例中的特征提取模型在人-物交互行为数据集上的训练效率。交互行为特征维数为2048，时间长度T为20帧视频帧。

步骤S4：通过词向量模型，将检测得到的交互行为类别映射为向量形式。

在本实例中，采用在中文维基百科语料库训练的中文BERT模型作为词向量模型，将检测得到的交互行为类别映射为向量形式。如，将“拿杯子喝水”这个中文短语映射为一个一维向量。其中，预训练任务是全词掩码任务，向量维数为768。

步骤S5：构建基于深度学习的融合模型，融合交互行为向量和时空交互行为特征，识别交互人所表现的情感。

在本实例中，采用多模态Transformer模型作为融合模型，融合交互行为向量和时空交互行为特征。其中，融合交互行为向量作为模型的Query，时空交互行为特征作为Key和Value。最后，构建一个单层全连接层组成的Softmax分类器，对融合后特征进行情感分类，取分类器节点最大值所对应的情感作为最终的情感识别结果。

实施例2：

一种基于人-物时空交互行为的情感识别方法以购票处为场景的实施，具体包括以下步骤：

步骤S1：采集人与物体交互行为过程的视频数据。

在本实例中，场景是购票处。视频数据中的交互行为包括拿杯子喝水、翻阅书籍、接听电话、推/关房门、扶握排队栏杆等交互行为。

在本实例中，采用在中文维基百科语料库训练的中文BERT模型作为词向量模型，将检测得到的交互行为类别映射为向量形式。如，将“扶握排队栏杆”这个中文短语映射为一个一维向量。其中，预训练任务是全词掩码任务，向量维数为768。

此外，需要说明的是，本说明书中所描述的具体实施例，所取名称可以不同，本说明书中所描述的以上内容仅仅是对本发明结构所做的举例说明。凡依据本发明构思的构造、特征及原理所做的等小变化或者简单变化，均包括于本发明的保护范围内。本发明所属技术领域的技术人员可以对所描述的具体实例做各种各样的修改或补充或采用类似的方法，只要不偏离本发明的结构或者超越本权利要求书所定义的范围，均应属于本发明的保护范围。

Claims

一种基于人-物时空交互行为的情感识别方法，其特征在于，具体包括以下步骤：

步骤S1：采集人与物体交互行为过程的视频数据；

步骤S2：对人、物体的位置以及人所表现的交互行为和情感进行数据标注；

步骤S3：构建基于深度学习的特征提取模型，抽取人与物体在时空维度的交互行为特征，并进行人-物交互行为的位置和类别检测；

步骤S4：通过词向量模型，将检测得到的交互行为类别映射为向量形式；

步骤S5：构建基于深度学习的融合模型，融合交互行为向量和时空交互行为特征，识别交互人所表现的情感；

将人-物交互的特征和向量化的检测结果进行融合(S5)，在特征级和语义级融合的基础上进行情感识别，使识别结果更具有解释性；

采用多模态Transformer模型作为融合模型，融合交互行为向量和时空交互行为特征，其中，融合交互行为向量作为模型的Query，时空交互行为特征作为Key和Value,最后，构建一个单层全连接层组成的Softmax分类器，对融合后特征进行情感分类，取分类器节点最大值所对应的情感作为最终的情感识别结果。
根据权利要求1所述的一种基于人-物时空交互行为的情感识别方法，其特征在于，所述步骤S1中的视频数据所涉及的采集场景包括居民住宅的卧室、厨房、卫生间、书房以及商场询问台、购票处。
根据权利要求1所述的一种基于人-物时空交互行为的情感识别方法，其特征在于，所述步骤S1中的交互行为是指人对物体的使用动作包括拿杯子喝水、翻阅书籍、接听电话、操作电视遥控器、操作电脑、翻动床单、握牙刷刷牙、使用毛巾洗脸、推/关房门、推动购物车、扶握排队栏杆。
根据权利要求1所述的一种基于人-物时空交互行为的情感识别方法，其特征在于，所述步骤S2中的数据标注涉及三个阶段，首先采用目标检测网络生成视频数据中人和物体的初始位置以及物体类别，然后对生成的初始位置和类别进行人工校正，对不准确的检测结果进行修正，得到准确的位置和类别信息，最后对视频数据中人所表现的交互行为和情感进行标注。
根据权利要求4所述的一种基于人-物时空交互行为的情感识别方法，其特征在于，所述的人、物体的位置是指包含人或物体的平行于视频图像的最小矩形框，由矩形中心坐标和长宽表示；

所述的交互行为进行标注指的是标出交互类别和对应人、物的位置；

所述的情感包括高兴、沮丧、焦躁、愤怒、惊喜、恐惧、兴奋以及中性；

所述的中性是指没有明显的情绪流露。
根据权利要求1所述的一种基于人-物时空交互行为的情感识别方法，其特征在于，所述步骤S3中的特征提取模型采用在通用数据集上预训练的目标检测网络，在采集的视频数据上进行微调，检测准确的人与交互物体的位置以及交互类别；

所述的微调是指在通用数据集预训练的基础上，冻结网络的大部分可学习参数，在训练数据上只对网络的最后两层进行重新训练。
根据权利要求1所述的一种基于人-物时空交互行为的情感识别方法，其特征在于，所述步骤S3中的时空维度是指一个固定时间长度的三维张量，包含一个时间维度和两个空间维度；

所述的时间长度是由视频帧的数量进行定义。
根据权利要求1所述的一种基于人-物时空交互行为的情感识别方法，其特征在于，所述步骤S5中的融合交互行为向量是指步骤S4中向量形式的交互行为。
根据权利要求1所述的一种基于人-物时空交互行为的情感识别方法，其特征在于，所述步骤S5中的时空交互行为特征是指步骤S3中人与物体在时空维度的交互行为特征。
根据权利要求1所述的一种基于人-物时空交互行为的情感识别方法，其特征在于，所述步骤S5中的识别交互人所表现的情感是对融合模型输出后的融合特征进行分类。