WO2024046003A1

WO2024046003A1 - 一种理发店员工工作内容智能识别方法

Info

Publication number: WO2024046003A1
Application number: PCT/CN2023/110482
Authority: WO
Inventors: 刘歆; 钱鹰; 陈奉; 周宁; 姜美兰
Original assignee: 重庆邮电大学
Priority date: 2022-09-02
Filing date: 2023-08-01
Publication date: 2024-03-07
Also published as: CN115424347A

Abstract

本发明涉及一种理发店员工工作内容智能识别方法，属于机器视觉技术领域，包括以下步骤：S1：采集设备安装位置和安装条件的设置；S2：建立理发员工人脸、顾客人脸标签库，并训练人脸识别模型；S3：建立与物品、工具和人相关的动作标签库，并进行理发店动作行为识别模型训练；S4：利用训练好的人脸识别模型、理发店动作行为识别模型，用于实际理发服务场景进行动作行为识别。构建顾客、员工、动作几个要素的"动作对"行为时序；S5：建立工作内容识别标签，构建工作内容识别的深度神经网络模型，用以确定理发店员工对顾客的服务工作内容。本发明通过理发店员工工作内容智能识别方法，辅助实现理发店有效地智能化管理。

Description

一种理发店员工工作内容智能识别方法

技术领域

本发明属于机器视觉技术领域，涉及一种理发店员工工作内容智能识别方法。

背景技术

目前，随着理发服务项目需求的日益增加，大型理发连锁店逐渐成为趋势。当理发店员工数量多、服务项目变化多样的时候，将会为理发店日常管理带来困难，例如：员工服务的工作内容真实性、提供服务的时长、所用材料及其对应报价等等。目前没有一种智能的系统能够对上述工作内容进行自动识别、监控和管理。

发明内容

有鉴于此，本发明的目的在于提供一种理发店员工工作内容智能识别方法，对实际场景下的理发店员工进行实时行为识别，以实现对理发店有效地智能化管理。

为达到上述目的，本发明提供如下技术方案：

一种理发店员工工作内容智能识别方法，包括以下步骤：

S1：指定采集设备的安装位置和硬件条件，对理发员工和顾客进行识别；

S2：建立理发员工人脸、顾客人脸标签库，并训练人脸识别模型；

S3：建立与物品、工具和人相关的动作标签库，并进行理发店动作行为识别模型训练，其中涉及服务工作中物品、工具和动作相关的人体动作、对象操作交互、人与人交互三大类的多种动作行为识别；

S4：利用训练好的人脸识别模型、理发店动作行为识别模型，对实际理发服务场景进行动作行为识别；构建顾客、员工、动作要素的“动作对”行为时序；

S5：建立不同类型理发服务工作内容的标准关键行为序列，作为工作内容识别标签；并根据所述“动作对”行为时序，构建工作内容识别的深度神经网络模型，用以确定理发店员工对顾客的服务工作内容。

进一步，所述步骤S1中具体包括：设定采集设备的安装位置和硬件条件，例如，摄像头性能要求、安装位置和拍摄角度等，以捕获理发店场景中理发员工和顾客的视频帧，以满足员工身份id、顾客身份确认和物品、工具、行为动作的检测和识别的要求。

进一步，所述步骤S3具体包括以下步骤：

S31：按照AVA(aomic visual actions)数据集打标签规则，构建服务过程中与物品、工具和人相关的人体动作、对象操作交互、人与人交互三大类及其中涉及的动作行为标签库；

S32：构建动作行为标签库，训练理发店动作行为识别模型；

S33：建立理发店动作行为关键活动集合。

进一步，步骤S31具体包括以下步骤：

S311：首先对原始采集的行为动作视频按15分钟进行分析，并统一将15分钟视频分割成300个非重叠的3秒片段；视频采样时遵循保持动作序列的时间顺序这一策略；

S312：然后对每个3秒片段的中间帧的人物利用LabelImg打标工具手动标注边界框；

S313：对标注框的每个人，从预制的动作类别表中选择适当的标签来描述人物动作；人物动作分为以下三类标签：人体姿势/位移动作、人/物/人交互动作、人/人互动动作；

S314：最后对所有视频片段全部标注，来建立理发动作行为视频训练标签库。

进一步，所述步骤S32中，使用基于3D-Resnet50网络的SlowFast模型进行动作行为识别，所述SlowFast模型由Slow分支和Fast分支组成；

首先以步长Stride＝16帧为间隔，从输入的视频帧采样，输入到3D-Resnet50主干网络中提取理发时环境特征信息；

其次以步骤Stride＝2帧为间隔，从输入的视频帧采样，同时通道数channel设置为Slow分支1/8倍，输入到网络中提取理发时时序动作特征信息；

然后在3D-Resnet50主干的Res_conv3_1和Res_conv4_1层分别进行横向连接，将时序动作信息特征融入到环境特征中；

最后在全连接层利用Slow分支和Fast分支后的融合特征信息进行分类和预测理发动作。

进一步，所述步骤S33中，根据所构建的动作行为标签库，结合理发店实际应用场景，把所有动作行为分为两类集合：

关键动作行为活动集合：包括剪头发、卷头发、染头发、烫头发等；关键动作行为活动集合表示为KeyAct＝{KeyAct₁,…,KeyAct_i,…,KeyAct_n}，其中，KeyAct_i为第i个关键动作行为，i＝1,…,n，n为关键动作行为个数量；

普通动作行为活动集合：包括交流、站、坐、走等；普通动作行为活动集合表示为NormalAct＝{NormalAct₁,…,NormalAct_i1,…,NormalAct_n1}，其中，NormalAct_i1为第i1个普通动作行为，i1＝1,…,n1，n1为普通动作行为个数量。

进一步，所述S4中，包括如下步骤：

S41：按一定的规则采样实时视频帧，用于人脸识别和动作行为识别；

S42：根据视频时序识别过程中，人脸识别和动作行为识别关于人员身份的确认，以及各种行为的识别结果，建立顾客、员工身份对应关系，以及服务过程中具体“动作对”行为时序，记录视频时序中顾客和员工的“动作对”关系。

进一步，步骤S41具体包括以下步骤：

S411：理发服务过程中，按一定帧率采样实时视频帧，用于实时视频中人的身份识别和动作行为识别。

S412：输入按采样规则所得到的图像到人脸识别模型，确定顾客会员身份以及员工身份信息；

S413：把训练好的SlowFast模型在某一帧中检测框框出的人体区域，与S412中同一帧、同一人体区域的人脸框人脸识别结果相关联，用于后续当未识别到人脸时的人员身份追踪；

S414：利用步骤S32中训练好的SlowFast模型进行理发员工和顾客动作行为识别，包括：顾客和员工的人体姿势/位移动作、服务过程中员工使用的物品和工具与顾客服务交互行为、员工和顾客的交互行为识别。

进一步，步骤S42具体包括以下步骤：

S421：根据工位位置，以及工位对应的摄像头索引信息，建立工位上顾客、员工之间的关联关系。一个服务过程中，当顾客和员工进入某工位station_k的摄像头范围中，利用步骤S2中训练后的人脸识别模型，同时完成顾客和员工的人脸识别，以激活建立工位station_k上顾客和员工的服务对<Cid_p，Eid_q>，Cid_p表示顾客集合，p＝1,…,m；Eid_q表示员工集合，q＝1,…,m1，m和m1分别表示顾客和员工人数；

S422：激活动作行为识别模型，以用于人员身份追踪和行为识别。在工位station_k的摄像头范围中，通过步骤S32训练后的理发店动作行为识别模型进行实时视频序列的动作行为识别，在t时刻，顾客Cid_p的识别动作集合为Actp_t＝{Actp_t,1,…,Actp_t,k}；员工Eid_q的识别动作集合为Actq_t＝{Actq_t,1,…,Actq_t,k1}，其中，k和k1为顾客和员工在t时刻所识别到的动作个数，而Actp_t,k和Actq_t,k1为所识别到的动作行为：

S423：根据工位位置、工位对应的摄像头索引信息，进一步建立工位上顾客、员工与服务动作行为所对应的工作内容之间的关联关系。在t时刻，顾客Cid_p与员工Eid_q形成一个“动作对”<Actp_t，Actq_t>，并构建“动作对”矩阵；

分别把Actp_t和Actq_t集合中每个动作Actp_t,k和Actq_t,k1的概率值进行排序，取前f个动作，把每个动作构成一个向量：
Matrixp_t,f＝[Actp_t,f,Actp_t,f的概率值]

和
Matrixq_t,f＝[Actq_t,f,Actq_t,f的概率值]

如果Actp_t或Actq_t集合没有f个动作，向量中的动作和其概率值用0值填充；如果在服务过程中的等待时间，员工可能不在服务区域，Actq_t,f向量中的动作和其概率值用0值填充。

由此将“动作对”<Actp_t，Actq_t>构建为一个2f*2的矩阵Act_<p，q>,t＝[Matrixp_t,1,…,Matrixp_t,f,Matrixq_t,1,…,Matrixq_t,f]；在整个服务过程中，针对顾客Cid_p，将根据视频帧序列，建立一个基于矩阵Act_<p，q>,t的“动作对”时间序列S_p＝[Act_<p，q>,1,…,Act_<p，q>,t]。

进一步，所述步骤S5包括以下步骤：

S51：由步骤S33所得的关键动作行为活动集合KeyAct，建立不同类型理发服务工作内容的标准关键行为序列，作为工作内容识别标签，表示为S_k＝[KeyAct_k,1,…,KeyAct_k,i]，其中KeyAct_k,i表示第k个类别的工作内容中的第i个动作，KeyAct_k,i∈KeyAct；以最长的标准关键行为序列中的关键行为个数为准，其他关键行为个数不足者，全部以0填充不足维度；

S52：对由步骤S42所得针对顾客Cid_p的“动作对”时间序列S_p＝[Act_<p，q>,1,…,Act_<p，q>,t]进行预处理，预处理方法为：

S521：遍历S_p上的“动作对”矩阵，利用矩阵余弦相似度计算S_p上相邻两个“动作对”矩阵的相似度；

S522：如果相邻两个“动作对”矩阵相似度大于阈值，则去掉其中的后一个“动作对”矩阵，表示相邻两个时刻上的动作行为是重复的；

S523：继续遍历所有S_p上的“动作对”矩阵，直至时间序列结束；

S_p经预处理后，去掉每个动作的值概率列，“动作对”矩阵变为Act’_<p，q>,t＝[Actp_t,1,…,Actp_t,f,Actq_t,1,…,Actq_t,f]，由预处理后时序上的“动作对”矩阵Act’_<p，q>,t，得到时序S_p’＝[Act’_<p，q>,1,…,Act’_<p，q>,t]，序列中剩余每个动作代表了有一定差异性的“动作对”；

S53：步骤由S52获得的多个顾客服务过程的S_p’以及对应的工作内容识别标签，建立训练数据集，构建用于工作内容识别的深度神经网络模型，输入训练数据集，根据每位顾客的S_p’及其对应的工作内容标签，训练深度神经网络模型，使得由每位顾客的S_p’经深度神经网络模型得到的工作内容序列向量与其对应的工作内容标签损失最小，具体包括以下步骤：

S531：构建训练数据集，采集视频并进行如前述过程的处理，或获取多个S_p’以及对应的工作内容识别标签，以S_p’的最大序列长度为准，对不足序列进行0填补；

S532：所述用于工作内容识别的深度神经网络模型构建方法为：设最大“动作对”时间序列长度为ActNum，对S_p’中的每个行为，编码转换为向量，维度为(n+n1)；填补后的S_p’维度为(2f×(n+n1))×ActNum，其中n为关键动作行为个数量，n1为普通动作行为个数量；

所述用于工作内容识别的深度神经网络模型执行步骤如下：

由填补和行为编码向量转换后的S_p’作为输入，首先通过第一个神经网络模块，把(2f×(n+n1))×ActNum维输入数据转换为n×ActNum维特征；

然后通过第二个神经网络模块，把n×ActNum维特征转换为n×MaxKeyActNum维特征；MaxKeyActNum为不同工作内容中最大的标准关键行为序列中的关键行为个数；

最后把n×MaxKeyActNum维特征输入到Transformer网络中，其中n×MaxKeyActNum维特征序列的positoin标记以每个行为划分，进入Transformer网络做positoin Embedding，最终输出的是MaxKeyActNum个关键行为向量，映射为对应的工作内容标准关键行为序列。

进一步，相邻两个“动作对”Act_<p，q>,j和Act_<p，q>,j+1,(j＝1,…,t)相似度的计算方法如下：对“动作对”矩阵中的所有动作行为Actp_t,k和Actq_t,k1进行编码，分别计算Act_<p，q>,j和Act_<p， _q>,j+1中每一行的余弦相似度，得到其相似度向量，再计算相似度向量的算术平方根，最终得到相邻两个“动作对”矩阵的相似度。

本发明的有益效果在于：本发明通过视频图像身份识别和行为动作识别，建立起员工、顾客的行为关联序列，在服务时长内，通过构建的工作内容识别深度神经网络模型，把员工、顾客的行为关联序列，映射为其对应的工作内容标准关键行为序列，以达到识别输出工作内容的目的，辅助实现理发店有效地智能化管理。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述，并且在某种程度上，基于对下文的考察研究对本领域技术人员而言将是显而易见的，或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作优选的详细描述，其中：

图1为本发明对理发店员工对顾客服务工作内容智能识别方法流程图；

图2为本发明中基于顾客和员工“动作对”矩阵的“动作对”时间序列；

图3为本发明中的工作内容识别的深度神经网络模型结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需要说明的是，以下实施例中所提供的图示仅以示意方式说明本发明的基本构想，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

其中，附图仅用于示例性说明，表示的仅是示意图，而非实物图，不能理解为对本发明的限制；为了更好地说明本发明的实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件；在本发明的描述中，需要理解的是，若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此附图中描述位置关系的用语仅用于示例性说明，不能理解为对本发明的限制，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

如图1-3所示，本发明提供一种公共服务理发行为的智能检测识别方法，包括如下步骤：

S1：采集设备安装位置和安装条件的设置；

S4：利用训练好的人脸识别模型、理发店动作行为识别模型，用于实际理发服务场景进行动作行为识别。构建顾客、员工、动作几个要素的“动作对”行为时序；

S5：建立不同类型理发服务工作内容的标准关键行为序列，作为工作内容识别标签。并根据S4识别建立的“动作对”行为时序，构建工作内容识别的深度神经网络模型，用以确定理发店员工对顾客的服务工作内容。

所述S1包括设备安装和安装条件的设置：

S11：指定采集设备的安装位置。将摄像头安装在每个理发工位上，用于实时拍摄理发服务的视频，并采集工位上顾客和员工的人脸图像、以及捕获理发工位上理发师的理发动作，以建立人脸身份信息与理发服务过程中动作间的映射关系。

S12：安装硬件设备条件的设置。要求现场布置的摄像头，具有不低于30fps的刷新率，以保证动作识别模型slowfast对高帧率的实时性的要求；同时要求摄像头的分辨率不低于1080P，能够达到人脸识别检测的要求。并能把实时视频信息传输处理以进行后续计算。

所述S2包括如下步骤：

S21：建立场景人脸标签库。采用员工和顾客的人脸图像，将图像大小统一裁剪为224*224像素尺寸。利用打标工具labellmg，对人脸的位置进行打标，即手动画框标注人脸部分。保存每个标注框的位置坐标[x1,y1,x2,y2]，其中(x1,y1)表示人脸标注框的左上点坐标，(x2,y2)表示人脸标注框的右下点坐标。标注该人脸图像id身份编号，建立员工和顾客人脸标签库。

S22：利用S21建立好的员工和顾客人脸标签库，对人脸识别模型进行训练。对图像进行预处理，利用人脸检测算法对齐人脸部分，并统一裁剪成224*224像素。在人脸识别模型中训练过程中，输入批次大小batch_size为64。

可选的，人脸识别模型采用基于深度卷积神经网络的FaceNet。

所述S3包括如下步骤：

S31：建立理发动作标签库。关于建立理发动作视频标签库的步骤，按照谷歌AVA(aomic visual actions)数据集打标规则进行建立。具体包括：首先，对初始采集到的行为动作视频按15分钟进行分析，并统一将15分钟视频分割成300个非重叠的3秒片段。采样遵循保持动作序列的时间顺序这一策略。然后，对每个3秒片段的中间帧的人物利用LabelImg手动标注人员边界框，对标注框的每个人，从预制的动作类别表中选择适当的标签来描述人物动作。这些动作分为三种：人体姿势/位移动作(坐姿、站姿、弯腰等)、人/物/人交互动作(拿染发刷染发、拿推子剃头、拿剪刀修剪等)、人/人互动动作(与顾客聊天等)。最后，对所有视频片段全部标注，来建立理发动作行为视频训练标签库。

S32：利用S31建立好的理发动作标签库，对动作识别模型进行训练。在训练阶段，从建立的行为识别训练集中，循环输入一组视频数据并随机采样一个片段clip(64帧)。然后，输入到Slow分支路径和Fast分支路径分别是4帧和16帧，对原始视频帧进行预处理(按比例缩放，随机裁剪出224*224大小的视频帧，对其进行水平翻转)。

可选的，以基于3D-Resnet50卷积神经网络的SlowFast动作识别模型进行动作行为识别。SlowFast模型由Slow分支和Fast分支组成。根据Slow分支低帧频的特点，以步长Stride＝16帧为间隔，从输入的视频采样，输入到3D-Resnet50主干网络中提取理发时环境特征信息；根据Fast分支高帧频、低通道的特点，以步骤Stride＝2帧为间隔，从输入的视频帧采样，同时通道数channel设置为Slow分支1/8倍，输入到网络中提取理发时时序动作特征信息；并在3D-Resnet50主干的Res_conv3_1和Res_conv4_1层分别进行横向连接，将时序动作信息特征融入到环境特征中，最后在全连接层利用Slow分支和Fast分支后的融合特征信息进行分类和预测理发动作。训练轮回epoch设置为100次。

S33：建立理发店动作行为关键活动集合。根据所构建的动作行为标签库，结合理发店实际应用场景，把所有动作行为分为两类集合：关键动作行为活动集合，如：剪头发、卷头发、染头发、烫头发等；普通动作行为活动集合，如：交流、站、坐、走等。关键动作行为活动集合表示为KeyAct＝{KeyAct₁,…,KeyAct_i,…,KeyAct_n}，其中，KeyAct_i为第i个关键动作行为，i＝1,…,n，n为关键动作行为个数量；普通动作行为活动集合表示为NormalAct＝{NormalAct₁,…,NormalAct_i1,…,NormalAct_n1}，其中，NormalAct_i1为第i1个普通动作行为，i1＝1,…,n1，n1为普通动作行为个数量。

所述S4包括如下步骤：

S41：按一定的规则采样实时视频帧，用于人脸识别和动作行为识别。采样的目的是为了减少人脸识别和动作行为识别的频率，降低重复身份、动作的识别，减少模型算力开销，同时保证可以识别获取服务关键动作行为。通过减少识别计算频次和时间开销，从而提高智能装置的实时性。

S411：首先进行人脸识别，利用S22步聚中训练好的人脸识别模型进行人脸识别。输入按采样规则所得到的图像，到人脸识别模型，确定顾客会员身份以及员工身份信息。

S412：在SlowFast模型进行动作行为识别的同时，会进行人的检测。把训练好的SlowFast模型在某一帧中检测框框出的人体区域，与S412中同一帧、同一人体区域的人脸框人脸识别结果相关联，用于后续当未识别到人脸时的人员身份追踪。

S413：与此同时，利用S32步骤中训练好的SlowFast模型进行理发员工和顾客动作行为识别，包括：顾客和员工的人体姿势/位移动作、服务过程中员工使用的物品和工具与顾客服务交互行为、员工和顾客的交互行为等的识别。

S421：根据工位位置，以及工位对应的摄像头索引信息，建立工位上顾客、员工之间的关联关系。一个服务过程中，当顾客和员工进入某工位station_k的摄像头范围中，启动S22训练后的人脸识别模型。同时完成顾客和员工的人脸识别，以激活建立工位station_k上顾客和员工的服务对<Cid_p，Eid_q>，Cid_p表示顾客集合，p＝1,…,m；Eid_q表示员工集合，q＝1,…,m1。m和m1分别表示顾客和员工人数。

S422：激活动作行为识别模型，以用于人员身份追踪和行为识别。在工位station_k的摄像头范围中，启动S32训练后的理发店动作行为识别模型。在实时视频序列的动作行为识别过程中，某个时刻t，顾客Cid_p的识别动作集合为Actp_t＝{Actp_t,1,…,Actp_t,k}，例如：坐、与人交谈等；员工Eid_q的识别动作集合为Actq_t＝{Actq_t,1,…,Actq_t,k1}，例如：站立、剪头发、与人交谈等。其中，k和k1为顾客和员工在t时刻所识别到的动作个数，而Actp_t,k和Actq_t,k1为所识别到的动作行为：

S423：根据工位位置、工位对应的摄像头索引信息，进一步建立工位上顾客、员工与服务动作行为所对应的工作内容之间的关联关系。在时刻t，顾客Cid_p与员工Eid_q形成一个“动作对”<Actp_t，Actq_t>，并构建“动作对”矩阵。

分别把Actp_t和Actq_t集合中每个动作Actp_t,k和Actq_t,k1的概率值进行排序，取前f个动作。把每个动作构成一个向量：
Matrixp_t,f＝[Actp_t,f,Actp_t,f的概率值]

或
Matrixq_t,f＝[Actq_t,f,Actq_t,f的概率值]

如果Actp_t或Actq_t集合没有f个动作，向量中的动作和其概率值用0值填充；如果在服务过程中的等待时间，比如：染发过程的等待时间，员工可能不在服务区域，Actq_t,f向量中的动作和其概率值用0值填充。

由此，“动作对”<Actp_t，Actq_t>可构建为一个2f*2的矩阵Act_<p，q>,t＝[Matrixp_t,1,…,Matrixp_t,f,Matrixq_t,1,…,Matrixq_t,f]。而在整个服务过程中，针对顾客Cid_p，将根据视频帧序列，建立一个基于矩阵Act_<p，q>,t的“动作对”时间序列S_p＝[Act_<p，q>,1,…,Act_<p，q>,t]。

可选的，f的取值可设为3。

所述S5中，包括如下步骤：

S51：由S33所得的关键动作行为活动集合KeyAct，建立不同类型理发服务工作内容的标准关键行为序列，作为工作内容识别标签。不同类型服务工作内容的标准关键行为序列，用S_k＝[KeyAct_k,1,…,KeyAct_k,i]，其中KeyAct_k,i表示第k个类别的工作内容中的第i个动作，KeyAct_k,i∈KeyAct。同时，为了让所有的标签序列维度统一，需以最长的标准关键行为序列中的关键行为个数为准，其他关键行为个数不足者，全部以0填充不足维度，以方便计算。

S52：对由S42所得针对顾客Cid_p的“动作对”时间序列S_p＝[Act_<p，q>,1,…,Act_<p，q>,t]进行预处理，去掉相似度较高的重复“动作对”矩阵。预处理方法为：

(1)遍历S_p上的“动作对”矩阵，计算S_p上相邻两个“动作对”矩阵的相似度。可选的，计算“动作对”矩阵近似度的方法为矩阵余弦相似度。相邻两个“动作对”Act_<p，q>,j和Act_<p，q>,j+1,(j＝1,…,t)相似度的计算方法如下：对“动作对”矩阵中的所有动作行为Actp_t,k和Actq_t,k1进行编码，分别计算Act_<p，q>,j和Act_<p，q>,j+1中每一行的余弦相似度，得到其相似度向量，再计算相似度向量的算术平方根，最终得到相邻两个“动作对”矩阵的相似度。

(2)如果相邻两个“动作对”矩阵近似度大于一定阈值，则去掉其中后一个相似的“动作对”矩阵，表示相邻两个时刻上的动作行为是重复的。

(3)继续遍历所有S_p上的“动作对”矩阵，直接时间序列结束(即服务结束)。

S_p经预处理后，去掉每个动作的值概率列，“动作对”矩阵变为Act’_<p，q>,t＝[Actp_t,1,…,Actp_t,f,Actq_t,1,…,Actq_t,f]，由预处理后时序上的“动作对”矩阵Act’_<p，q>,t，得到时序S_p’＝[Act’_<p，q>,1,…,Act’_<p，q>,t]，序列中剩余每个动作代表了有一定差异性的“动作对”。

S53：由S52获得的多个顾客服务过程的S_p’以及对应的工作内容识别标签，建立训练数据集。同时，构建工作内容识别的深度神经网络模型，输入训练数据集，根据每位顾客的S_p’及其对应的工作内容标签，训练深度神经网络模型，使得由每位顾客的S_p’经深度神经网络模型得到的工作内容序列向量与其对应的工作内容标签损失最小。

S531：构建训练数据集。采集视频并进行如前述过程的处理，或获取多个S_p’以及对应的工作内容识别标签。由于每个S_p’的序列长度不同，以最大序列长度为准，对不足序列进行0填补。

整个用于工作内容识别的深度神经网络模型由以下几个部份组成：

(1)由填补和行为向量转换后的S_p’作为输入。首先，通过第一个神经网络模块，把(2f×(n+n1))×ActNum维输入数据转换为n×ActNum维特征。

(2)然后，通过第二个神经网络模块，把n×ActNum维特征转换为n×MaxKeyActNum维特征。MaxKeyActNum为不同工作内容中最大的标准关键行为序列中的关键行为个数。

(3)最后，把n×MaxKeyActNum维特征输入到Transformer网络中，其中n×MaxKeyActNum维特征序列的positoin标记以每个行为划分，进入Transformer网络做positoin Embedding。最终输出的是MaxKeyActNum个关键行为向量。映射为对应的工作内容标准关键行为序列，以达到识别输出工作内容的目的。

可选的，整个模型中的第一个神经网络模块和第二个神经网络模块，可以是不同的DNN或CNN等结构模块。

最后说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

一种理发店员工工作内容智能识别方法，其特征在于：包括以下步骤：

S1：指定采集设备的安装位置和硬件条件，对理发员工和顾客进行识别；

S2：建立理发员工人脸、顾客人脸标签库，并训练人脸识别模型；

S3：建立与物品、工具和人相关的动作标签库，并进行理发店动作行为识别模型训练，其中涉及服务工作中物品、工具和动作相关的人体动作、对象操作交互、人与人交互三大类的多种动作行为识别；

S4：利用训练好的人脸识别模型、理发店动作行为识别模型，对实际理发服务场景进行动作行为识别；构建顾客、员工、动作要素的“动作对”行为时序；

S5：建立不同类型理发服务工作内容的标准关键行为序列，作为工作内容识别标签；并根据所述“动作对”行为时序，构建工作内容识别的深度神经网络模型，用以确定理发店员工对顾客的服务工作内容。
根据权利要求1所述的理发店员工工作内容智能识别方法，其特征在于：所述步骤S1中具体包括：捕获理发店场景中理发员工和顾客的视频帧，以满足员工身份id、顾客身份确认和物品、工具、行为动作的检测和识别的要求。
根据权利要求1所述的理发店员工工作内容智能识别方法，其特征在于：所述步骤S3具体包括以下步骤：

S31：按照AVA数据集打标签规则，构建服务过程中与物品、工具和人相关的人体动作、对象操作交互、人与人交互三大类及其中涉及的动作行为标签库；

S32：构建动作行为标签库，训练理发店动作行为识别模型；

S33：建立理发店动作行为关键活动集合。
根据权利要求3所述的理发店员工工作内容智能识别方法，其特征在于：步骤S31具体包括以下步骤：

S311：首先对原始采集的行为动作视频按15分钟进行分析，并统一将15分钟视频分割成300个非重叠的3秒片段；视频采样时遵循保持动作序列的时间顺序这一策略；

S312：然后对每个3秒片段的中间帧的人物利用LabelImg打标工具手动标注边界框；

S313：对标注框的每个人，从预制的动作类别表中选择适当的标签来描述人物动作；人物动作分为以下三类标签：人体姿势/位移动作、人/物/人交互动作、人/人互动动作；

S314：最后对所有视频片段全部标注，来建立理发动作行为视频训练标签库。
根据权利要求3所述的理发店员工工作内容智能识别方法，其特征在于：所述步骤S32中，使用基于3D-Resnet50网络的SlowFast模型进行动作行为识别，所述SlowFast模型由Slow 分支和Fast分支组成；

首先以步长Stride＝16帧为间隔，从输入的视频采样，输入到3D-Resnet50主干网络中提取理发时环境特征信息；

其次以步骤Stride＝2帧为间隔，从输入的视频帧采样，同时通道数channel设置为Slow分支1/8倍，输入到网络中提取理发时时序动作特征信息；

然后在3D-Resnet50主干的Res_conv3_1和Res_conv4_1层分别进行横向连接，将时序动作信息特征融入到环境特征中；

最后在全连接层利用Slow分支和Fast分支后的融合特征信息进行分类和预测理发动作。
根据权利要求3所述的理发店员工工作内容智能识别方法，其特征在于：所述步骤S33中，根据所构建的动作行为标签库，结合理发店实际应用场景，把所有动作行为分为两类集合：

关键动作行为活动集合：包括剪头发、卷头发、染头发、烫头发；关键动作行为活动集合表示为KeyAct＝{KeyAct₁,…,KeyAct_i,…,KeyAct_n}，其中，KeyAct_i为第i个关键动作行为，i＝1,…,n，n为关键动作行为个数量；

普通动作行为活动集合：包括交流、站、坐、走；普通动作行为活动集合表示为NormalAct＝{NormalAct₁,…,NormalAct_i1,…,NormalAct_n1}，其中，NormalAct_i1为第i1个普通动作行为，i1＝1,…,n1，n1为普通动作行为个数量。
根据权利要求1所述的理发店员工工作内容智能识别方法，其特征在于：所述步骤S4具体包括如下步骤：

S41：按一定的规则采样实时视频帧，用于人脸识别和动作行为识别；

S42：根据视频时序识别过程中，人脸识别和动作行为识别关于人员身份的确认，以及各种行为的识别结果，建立顾客、员工身份对应关系，以及服务过程中具体“动作对”行为时序，记录视频时序中顾客和员工的“动作对”关系。
根据权利要求7所述的理发店员工工作内容智能识别方法，其特征在于：步骤S41具体包括以下步骤：

S411：理发服务过程中，按一定帧率采样实时视频帧，用于实时视频中人的身份识别和动作行为识别；

S412：输入按采样规则所得到的图像到人脸识别模型，确定顾客会员身份以及员工身份信息；

S413：把训练好的SlowFast模型在某一帧中检测框框出的人体区域，与S412中同一帧、同一人体区域的人脸框人脸识别结果相关联，用于后续当未识别到人脸时的人员身份追踪；

S414：利用步骤S32中训练好的SlowFast模型进行理发员工和顾客动作行为识别，包括：顾客和员工的人体姿势/位移动作、服务过程中员工使用的物品和工具与顾客服务交互行为、员工和顾客的交互行为识别。
根据权利要求7所述的理发店员工工作内容智能识别方法，其特征在于：步骤S42具体包括以下步骤：

S421：根据工位位置，以及工位对应的摄像头索引信息，建立工位上顾客、员工之间的关联关系；一个服务过程中，当顾客和员工进入某工位station_k的摄像头范围中，利用步骤S2中训练后的人脸识别模型，同时完成顾客和员工的人脸识别，以激活建立工位station_k上顾客和员工的服务对<Cid_p，Eid_q>，Cid_p表示顾客集合，p＝1,…,m；Eid_q表示员工集合，q＝1,…,m1，m和m1分别表示顾客和员工人数；

S422：激活动作行为识别模型，以用于人员身份追踪和行为识别；在工位station_k的摄像头范围中，通过步骤S32训练后的理发店动作行为识别模型进行实时视频序列的动作行为识别，在t时刻，顾客Cid_p的识别动作集合为Actp_t＝{Actp_t,1,…,Actp_t,k}；员工Eid_q的识别动作集合为Actq_t＝{Actq_t,1,…,Actq_t,k1}，其中，k和k1为顾客和员工在t时刻所识别到的动作个数，而Actp_t,k和Actq_t,k1为所识别到的动作行为：

S423：根据工位位置、工位对应的摄像头索引信息，进一步建立工位上顾客、员工与服务动作行为所对应的工作内容之间的关联关系；在t时刻，顾客Cid_p与员工Eid_q形成一个“动作对”<Actp_t，Actq_t>，并构建“动作对”矩阵；

分别把Actp_t和Actq_t集合中每个动作Actp_t,k和Actq_t,k1的概率值进行排序，取前f个动作，把每个动作构成一个向量：
Matrixp_t,f＝[Actp_t,f,Actp_t,f的概率值]

或
Matrixq_t,f＝[Actq_t,f,Actq_t,f的概率值]

如果Actp_t或Actq_t集合没有f个动作，向量中的动作和其概率值用0值填充；

由此将“动作对”<Actp_t，Actq_t>构建为一个2f*2的矩阵Act_<p，q>,t＝[Matrixp_t,1,…,Matrixp_t,f,Matrixq_t,1,…,Matrixq_t,f]；在整个服务过程中，针对顾客Cid_p，将根据视频帧序列，建立一个基于矩阵Act_<p，q>,t的“动作对”时间序列S_p＝[Act_<p，q>,1,…,Act_<p，q>,t]。
根据权利要求1所述的理发店员工工作内容智能识别方法，其特征在于：所述步骤S5包括以下步骤：

S51：由步骤S33所得的关键动作行为活动集合KeyAct，建立不同类型理发服务工作内容的标准关键行为序列，作为工作内容识别标签，表示为S_k＝[KeyAct_k,1,…,KeyAct_k,i]，其中KeyAct_k,i表示第k个类别的工作内容中的第i个动作，KeyAct_k,i∈KeyAct；以最长的标准关键行为序列中的关键行为个数为准，其他关键行为个数不足者，全部以0填充不足维度；

S52：对由步骤S42所得针对顾客Cid_p的“动作对”时间序列S_p＝[Act_<p，q>,1,…,Act_<p，q>,t]进行预处理，预处理方法为：

S521：遍历S_p上的“动作对”矩阵，利用矩阵余弦相似度计算S_p上相邻两个“动作对”矩阵的相似度；

S522：如果相邻两个“动作对”矩阵近似度大于阈值，则去掉其中的后一个“动作对”矩阵，表示相邻两个时刻上的动作行为是重复的；

S523：继续遍历所有S_p上的“动作对”矩阵，直至时间序列结束；

S_p经预处理后，去掉每个动作的值概率列，“动作对”矩阵变为Act’_<p，q>,t＝[Actp_t,1,…,Actp_t,f,Actq_t,1,…,Actq_t,f]，由预处理后时序上的“动作对”矩阵Act’_<p，q>,t，得到时序S_p’＝[Act’_<p，q>,1,…,Act’_<p，q>,t]，序列中剩余每个动作代表了有一定差异性的“动作对”；

S53：步骤由S52获得的多个顾客服务过程的S_p’以及对应的工作内容识别标签，建立训练数据集，构建用于工作内容识别的深度神经网络模型，输入训练数据集，根据每位顾客的S_p’及其对应的工作内容标签，训练深度神经网络模型，使得由每位顾客的S_p’经深度神经网络模型得到的工作内容序列向量与其对应的工作内容标签损失最小，具体包括以下步骤：

S531：构建训练数据集，采集视频并进行如前述过程的处理，或获取多个S_p’以及对应的工作内容识别标签，以S_p’的最大序列长度为准，对不足序列进行0填补；

S532：所述用于工作内容识别的深度神经网络模型构建方法为：设最大“动作对”时间序列长度为ActNum，对S_p’中的每个行为，编码转换为向量，维度为(n+n1)；填补后的S_p’维度为(2f×(n+n1))×ActNum，其中n为关键动作行为个数量，n1为普通动作行为个数量；

所述用于工作内容识别的深度神经网络模型执行步骤如下：

由填补和行为向量转换后的S_p’作为输入，首先通过第一个神经网络模块，把(2f×(n+n1))×ActNum维输入数据转换为n×ActNum维特征；

然后通过第二个神经网络模块，把n×ActNum维特征转换为n×MaxKeyActNum维特征；MaxKeyActNum为不同工作内容中最大的标准关键行为序列中的关键行为个数；

最后把n×MaxKeyActNum维特征输入到Transformer网络中，其中n×MaxKeyActNum维特征序列的positoin标记以每个行为划分，进入Transformer网络做positoin Embedding，最终输出的是MaxKeyActNum个关键行为向量，映射为对应的工作内容标准关键行为序列。
根据权利要求1所述的理发店员工工作内容智能识别方法，其特征在于：步骤S521中，相邻两个“动作对”Act_<p，q>,j和Act_<p，q>,j+1,(j＝1,…,t)相似度的计算方法如下：对“动作对”矩阵中的所有动作行为Actp_t,k和Actq_t,k1进行编码，分别计算Act_<p，q>,j和Act_<p，q>,j+1中每一行的余弦相似度，得到其相似度向量，再计算相似度向量的算术平方根，最终得到相邻两个“动作对”矩阵的相似度。