WO2022117096A1

WO2022117096A1 - 第一人称视角图像识别方法、装置及计算机可读存储介质

Info

Publication number: WO2022117096A1
Application number: PCT/CN2021/135527
Authority: WO
Inventors: 高瑞东; 陈勃霖; 蔡锦霖
Original assignee: 影石创新科技股份有限公司
Priority date: 2020-12-03
Filing date: 2021-12-03
Publication date: 2022-06-09
Also published as: CN112381055A

Abstract

一种第一人称视角图像识别方法，包括：S1：获取包含多张第一人称视角的图像以及多张不包含第一人称视角的图像；S2：根据是否包含手部特征以及手部特征信息对图像进行分类及标注；S3：对分类及标注后的图像进行增强处理以获得多样化的图像训练样本；S4：将图像训练样本输入预先构建的神经网络进行训练得到第一视角图像识别模型；S5：将待识别图像输入第一视角图像识别模型；S6：根据第一视角图像识别模型的输出判断待识别图像是否为第一人称视角图像。该方法可自动识别图像是否为第一人称视角，用户只需提供输入的视频帧，就可以自动区分该视频帧是否为第一人称视角，有利于对视频的后期处理，具有处理速度快且准确率高的优点。

Description

第一人称视角图像识别方法、装置及计算机可读存储介质

技术领域

本申请涉及视频识别技术领域，具体涉及第一人称视角图像识别方法装置及计算机可读存储介质。

背景技术

第一人称视角简称第一视角(POV，Point of View)，原来的意思是一种视点人物写作手法，简单来说，就是将相机安装在特定的人或动物上，记录从该特定的人或动物的视角所看到的一切，第一视角常用于游戏，其在游戏中的定义是：以游戏操作者本人的视角观看整场游戏演示，相当于站在操作者身后看，自己所见即为操作者所见。同样地，“第一人称视角视频”是指通过用户穿戴的拍摄装置拍摄的第一视角(用户视角)下的视频数据。

随着可穿戴的拍摄设备的普及，使用者既可以把可穿戴拍摄设备佩戴在身上，在登山、冲浪、蹦极等极限运动中拍摄出“第一人称视角”的视频，也可以直接使用可穿戴拍摄设备直接拍摄非“第一人称视角”的视频。由于视角的差异会造成这两种视频在拍摄内容上的明显差异，比如，“第一人称视角”的视频更具代入感，更能让视频观看者更直观地感受拍摄者在拍摄视频时的感受，因此，对这两种视频的后期处理方式截然不同。

技术问题

然而，视频帧是否为“第一人称视角”，在图像上的区别并不明显，通过传统的计算机视觉方法进行区分，会相对繁琐，而且准确率不高。

因此，有必要对现有的第一视角视频检测方法进行改进。

技术解决方案

本发明旨在解决现有第一视角视频检测方法存在的缺陷，提供用于第一人称视角图像识别方法、装置及计算机可读存储介质。

第一方面，本发明公开了一种第一人称视角图像识别方法，该方法包括：S1：获取包含多张第一人称视角的图像以及多张不包含第一人称视角的图像；S2：根据是否包含手部特征以及手部特征信息对图像进行分类及标注；S3：对分类及标注后的图像进行增强处理以获得多样化的图像训练样本；S4：将图像训练样本输入预先构建的神经网络进行训练得到第一视角图像识别模型；S5：将待识别图像输入第一视角图像识别模型；S6：根据第一视角图像识别模型的输出判断待识别图像是否为第一人称视角图像；其中，所述第一人称视角图像为至少包含拍摄者手部特征的照片或视频帧。

第二方面，本发明公开了一种第一人称视角图像识别装置，该装置包括：

获取模块，用于获取包含多张第一人称视角的图像以及多张不包含第一人称视角的图像；分类及标注模块，用于根据是否包含手部特征以及手部特征信息对图像进行分类及标注；增强处理模块，用于对分类及标注后的图像进行增强处理以获得多样化的图像训练样本；训练模块，用于将图像训练样本输入预先构建的神经网络进行训练得到第一人称视角图像识别模型；输入模块，用于将待识别图像输入第一人称视角图像识别模型；判断模块，用于根据第一视角图像识别模型的输出判断待识别图像是否为第一人称视角图像；其中，所述第一人称视角图像为至少包含拍摄者手部特征的照片或视频帧。

第三方面，本发明公开了一种计算机可读存储介质，所述计算机可读存储介质上存储有可执行指令，所述可执行指令被处理器执行时以实现上述第一人称视角图像识别方法。

有益效果

与现有技术相比，本发明方案可自动识别图像是否为第一人称视角，应用在视频上时可以自动判断当前视频帧是否为第一人称视角，免除了用于手动判断的需要，用户只需提供输入的视频帧，就可以自动区分该视频帧是否为第一人称视角，有利于对视频的后期处理，具有处理速度快且准确率高的优点。

附图说明

图1是本发明实施例1中的第一人称视角图像识别模型构建方法的流程图。

图2是本发明实施例1中分为第一类的典型图像示例。

图3是本发明实施例1中分为第二类的典型图像示例。

图4是本发明实施例1中分为第三类的典型图像示例。

图5是本发明实施例1中分为第四类的典型图像示例。

图6是本发明实施例1中的图像训练样本缩放前后的对比示意图。

图7是本发明实施例2中的第一人称视角识别装置的结构框图。

图8是本发明实施例1中的待识别视频帧的处理过程的流程图。

本发明的实施方式

为了使本发明的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明。

实施例1

如图1至图6所示，本实施例中的第一人称视角图像识别模型构建方法包括以下步骤。

S1：获取包含多张第一人称视角的图像以及多张不包含第一人称视角的图像。

本实施例中，获取的图像为可穿戴拍摄装置拍摄的照片或视频帧；第一人称视角图像为至少包含拍摄者手部特征的照片或视频帧。在本实施例中，可以预先构建一个图像数据集，该数据集中包含有将可穿戴拍摄装置固定在拍摄者身上拍摄的照片(即第一人称视角图像)以及将可穿戴拍摄装置作为普通相机来拍摄的照片(即非第一人称视角图像)。

S2：根据是否包含手部特征以及手部特征信息对图像进行分类及标注。

本步骤通过人工对图像进行分类及标注，其分类及标注的依据为：可穿戴拍摄装置作为普通相机来拍摄照片或视频时，拍摄者的手部特征(如手臂、手指等)一般不会出现在照片或视频中(自拍除外)，而将可穿戴拍摄装置固定在拍摄者身上(如衣服、帽子或头带上)来拍摄照片或视频时，手部特征往往会出现在照片或视频中。基于上述原理，本步骤中将可穿戴拍摄装置拍摄的照片或视频帧按以下特征进行分类：将包含有从图像边缘伸出的手指或手臂特征的图像分为第一类，并标记为第一人称视角图像，如图2所示，为该类图像的典型示例；将包含自拍照的图像分为第二类，并标记为第一人称视角图像，如图3所示，为该类图像的典型示例；将包含完整的手臂和手指特征的图像分为第三类，并标记为非第一人称视角，如图4所示，为该类图像的典型示例；将不包含手臂或手指特征的图像分为第四类，并标记为非第一人称视角，如图5所示，为该类图像的典型示例。由上可知，上述分类及标注只是本实施例中的分类方式，本领域一般技术人员还可根据手部特征的位置、在图中的所在比例等特征对分类及标准进行进一步的细化或优化，从而分类的类别数量也对应发生变化。

S3：对分类及标注后的图像进行增强处理以获得多样化的图像训练样本。

本步骤的主要目的是为了使用较少的照片或视频帧来获得更多的图像训练样本，也就是一张图像可以通过增强处理后可以获得多张图像训练样本，需要注意的是，各图像训练样本的类别和标注与原图像一致。具体地，可以对分类及标注后图像的进行图像缩放、中心裁剪、随机水平翻转以及随机小幅度改变图像亮度、对比度、饱和度和色调。需要注意的是，在本实施例中，因为检测器需要检测从图像下方伸出来的手指或手臂，而旋转会破环这样的情况，因此在增加处理阶段去除常规数据增强所用的旋转操作；另外，为避免完全裁掉图像边缘的手部特征，本实施例中将常规数据增强所用的随机裁剪改为中心裁剪。

S4：将图像训练样本输入预先构建的神经网络进行训练得到第一视角图像识别模型。

在本实施例中的神经网络为MobilenNetV2模型，其训练过程包括以下子步骤。

S41：将所述图像训练样本缩放成预设的尺寸。

首先将可穿戴拍摄装置拍摄的照片或视频帧输入预先构建的神经网络，接着利用torchvision库里的transforms.Resize把照片或视频帧的大小缩放成224x224的图像，如图6所示，在不影响图像中关键特征(手部特征)的情况下，大幅缩小输入图像的尺寸，提高后续模型进行训练和推理的速度。

S42：对缩放后的图像训练样本进行归一化处理。

本步骤中，利用transforms.Normalize对缩放后的图像进行归一化，提高模型的检测性能。其具体过程为I'＝(I-E)/STD，其中I为原图像，E为在数据集中估算出来的图像均值，STD为在数据集中估算出来的图像标准差。

S43：将归一化处理后的图像训练样本输入预先构建的神经网络进行训练。

由于本实施例中训练数据不大，在本步骤中使用dropout对神经网络进行训练，以缓解过拟合。

S44：对神经网络的训练达到预设条件后完成第一视角图像识别模型的构建。

本实施例中的预设条件为对所述神经网络训练预定的轮数，当然，还可以对模型进行检测或测试，在模型的相关参数达到设定的阈值后停止训练，从而完成第一视角图像识别模型的构建。

此外，本实施例中还可以基于其他神经网络构建第一视角图像识别模型，比如VGG网络，深度残差网络模型(ResNet，Deep Residual Network)，

GoogleNet系列模型(如InceptionV1-V4)，SqueezeNet网络模型，ShuffNet系列网络模型等等。

S5：将待识别图像输入第一人称视角图像识别模型。

在本实施例中将所述待识别图像缩放成预设的尺寸后再输入第一人称视角图像识别模型。具体地，如图6所示，利用torchvision库里的transforms.Resize把照片或视频帧的大小缩放成224x224的图像。当然，也可以将待识别图像直接输入第一人称视角图像识别模型。

S6：根据第一视角图像识别模型的输出判断待识别图像是否为第一人称视角图像。

如图8所示，本实施例中的待识别视频帧的处理过程如下：将待识别图像经过多次的卷积层和最大池化层处理之后，通过全局平均池化层聚合全局的空间信息，得到长度为1280的特征向量，再经过全连接层进行最后的分类，得到长度为4(即分类数量，如果是其他数量的分类，则长度对应变化)的输出向量，然后经过softmax激活函数后得到待识别图像在每个类别的概率分布并输出。在本实施例中，概率分布p＝[p0,p1,p2,p3]，p0+p1+p2+p3＝1，其中，p0代表视频帧为实施例1中的第一类别图像的概率，p1代表视频帧为实施例1中的第二类别图像的概率，p2代表视频帧为实施例1中的第三类别图像的概率，p3代表视频帧为实施例1中的第四类别图像的概率。然后根据该视频帧的实际获得的概率分布p＝[p0,p1,p2,p3]判断待识别图像是否为第一人称视角图像，判断依据之一为：p0+p1＞p2+p3。

在对视频帧进行判断时，可以根据连续多个视频帧的概率分布结果来判断该视频是否为第一人称视角视频。比如，如果视频中的判断为第一人称视角的视频帧的比例大于设定阈值(如60％)，则判断该视频为第一人称视角视频。

实施例2

如图7所示，本实施例揭示了一种第一人称视角图像识别装置，包括：获取模块，用于获取包含多张第一人称视角的图像以及多张不包含第一人称视角的图像；分类及标注模块，用于根据是否包含手部特征以及手部特征信息对图像进行分类及标注；增强处理模块，用于对分类及标注后的图像进行增强处理以获得多样化的图像训练样本；训练模块，用于将图像训练样本输入预先构建的神经网络进行训练得到第一人称视角图像识别模型；输入模块，用于将待识别图像输入第一人称视角图像识别模型；判断模块，用于根据第一视角图像识别模型的输出判断待识别图像是否为第一人称视角图像；其中，所述第一人称视角图像为至少包含拍摄者手部特征的照片或视频帧。

实施例3

本实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有可执行指令，所述可执行指令被处理器执行时以实施例1中的第一人称视角图像识别方法。

需要说明的是，上述实施例中的可执行指令可以但不一定对应于文件系统中的文件，可以被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，存储介质可以是计算机可读存储介质，例如，铁电存储器(FRAM，Ferromagnetic Random Access Memory)、只读存储器(ROM，Read Only Memory)、可编程只读存储器(PROM，Programmable Read Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM，Electrically Erasable Programmable Read Only Memory)、闪存、磁表面存储器、光盘、或光盘只读存储器(CD-ROM，Compact Disk-Read Only Memory)等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

一种第一人称视角图像识别方法，其特征在于，包括：

S1：获取包含多张第一人称视角的图像以及多张不包含第一人称视角的图像；

S2：根据是否包含手部特征以及手部特征信息对图像进行分类及标注；

S3：对分类及标注后的图像进行增强处理以获得多样化的图像训练样本；

S4：将图像训练样本输入预先构建的神经网络进行训练得到第一人称视角图像识别模型；

S5：将待识别图像输入第一人称视角图像识别模型；

S6：根据第一视角图像识别模型的输出判断待识别图像是否为第一人称视角图像；

其中，所述第一人称视角图像为至少包含拍摄者手部特征的照片或视频帧。
根据权利要求1所述的第一人称视角图像识别方法，其特征在于，所述步骤S2为：将包含有从图像边缘伸出的手指或手臂特征的图像分为第一类，并标记为第一人称视角图像；将包含自拍照的图像分为第二类，并标记为第一人称视角图像；将包含完整的手臂和手指特征的图像分为第三类，并标记为非第一人称视角；将不包含手臂或手指特征的图像分为第四类，并标记为非第一人称视角。
根据权利要求1所述的第一人称视角图像识别方法，其特征在于，所述步骤S3中的增强处理包括：对分类及标注后图像的进行图像缩放、中心裁剪、随机水平翻转以及随机小幅度改变图像亮度、对比度、饱和度和色调。
根据权利要求1所述的第一人称视角图像识别方法，其特征在于，所述神经网络为MobileNetV2、VGG、ResNet、GoogleNet、SqueezeNet或ShuffNet之一。
根据权利要求1所述的第一人称视角图像识别方法，其特征在于，所述步骤S4包括：

S41：将所述图像训练样本缩放成预设的尺寸；

S42：对缩放后的图像训练样本进行归一化处理；

S43：将归一化处理后的图像训练样本输入预先构建的神经网络进行训练；

S44：对神经网络的训练达到预设条件后完成第一人称视角图像识别模型的构建。
根据权利要求5所述的第一人称视角图像识别方法，其特征在于，所述步骤S43包括使用dropout对神经网络进行训练。
根据权利要求5所述的第一人称视角图像识别方法，其特征在于，所述步骤S44中的预设条件为对所述神经网络训练预定的轮数。
根据权利要求1所述的第一人称视角图像识别方法，其特征在于，所述步骤S5包括：将所述待识别图像缩放成预设的尺寸后再输入第一人称视角图像识别模型。
根据权利要求1所述的第一人称视角图像识别方法，其特征在于，所述待识别图像在所述第一人称角度模型中的处理过程为：将待识别图像经过多次的卷积层和最大池化层处理之后，通过全局平均池化层聚合全局的空间信息，得到长度为1280的特征向量，再经过全连接层进行最后的分类，得到长度为分类数量的输出向量，然后经过softmax激活函数后得到待识别图像在每个类别的概率分布并输出。
一种第一人称视角图像识别装置，其特征在于，包括：

获取模块，用于获取包含多张第一人称视角的图像以及多张不包含第一人称视角的图像；

分类及标注模块，用于根据是否包含手部特征以及手部特征信息对图像进行分类及标注；

增强处理模块，用于对分类及标注后的图像进行增强处理以获得多样化的图像训练样本；

训练模块，用于将图像训练样本输入预先构建的神经网络进行训练得到第一视角图像识别模型；

输入模块，用于将待识别图像输入第一视角图像识别模型；

判断模块，用于根据第一视角图像识别模型的输出判断待识别图像是否为第一人称视角图；

其中，所述第一人称视角图像为至少包含拍摄者手部特征的照片或视频帧。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有可执行指令，所述可执行指令被处理器执行时以实现权利要求1至9任一项所述的第一人称视角图像识别方法。