WO2022134700A1

WO2022134700A1 - 目标对象识别方法及装置

Info

Publication number: WO2022134700A1
Application number: PCT/CN2021/120387
Authority: WO
Inventors: 徐宝函; 李佩易
Original assignee: 上海幻电信息科技有限公司
Priority date: 2020-12-22
Filing date: 2021-09-24
Publication date: 2022-06-30
Also published as: EP4206978A4; US20230281990A1; EP4206978A1; CN112560728B; CN112560728A

Abstract

本申请提供目标对象识别方法及装置，其中，所述方法包括将接收的初始图片输入第一检测模型，获得所述初始图片中一个或多个目标对象的初始位置；将所述初始位置对应的候选图片输入第二检测模型，获得所述候选图片中的验证对象以及所述验证对象在所述候选图片中的验证位置；基于所述验证位置对所述一个或多个目标对象的初始位置进行调整，以获得所述一个或多个目标对象的目标位置；将所述目标位置对应的目标图片输入识别模型，获得所述初始图片中的一个或多个目标对象。所述方法采用检测模型对不同场景的图片或者视频中的目标对象进行快速、精确的提取，还可以基于验证位置辅助目标对象的最终位置定位，从而获得目标对象精确的识别结果。

Description

目标对象识别方法及装置

本申请要求于2020年12月22日提交中国专利局、申请号为202011529196.5、发明名称为“目标对象识别方法及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别涉及一种目标对象识别方法。本申请同时涉及一种目标对象识别装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序产品。

背景技术

随着互联网和移动设备(例如手机、平板电脑等)的普及发展，在移动设备上进行各种娱乐活动的需求与日俱增。人们会在手机或其他移动设备上浏览网页、观看视频、参与游戏等。用户常常希望可以剪辑出游戏、比赛中与自身有关的精彩时刻，如击杀、助攻等。而视频网站也希望可以在识别出如进球或其他重要信息，便于展示和吸引用户。为了更方便图片和视频的处理，需要对图片或者视频中的重要信息(例如比赛的得分)进行识别。而现有技术中对图片或者视频中的重要信息进行识别的方法不能很好的适配各种应用场景，且识别精确度较差。

发明内容

有鉴于此，本申请实施例提供了一种目标对象识别方法。本申请同时涉及一种目标对象识别装置，一种计算设备，以及一种计算机可读存储介质，以解决现有技术中存在的对图片或者视频中的重要信息识别精确度差的技术缺陷。

根据本申请实施例的第一方面，提供了一种目标对象识别方法，包括：

将接收的初始图片输入第一检测模型，获得所述初始图片中一个或多个目标对象的初始位置；

将所述初始位置对应的候选图片输入第二检测模型，获得所述候选图片中的验证对象以及所述验证对象在所述候选图片中的验证位置；

基于所述验证位置对所述一个或多个目标对象的初始位置进行调整，以获得所述一个或多个目标对象的目标位置；

将所述目标位置对应的目标图片输入识别模型，获得所述初始图片中的一个或多个目标对象。

根据本申请实施例的第二方面，提供了一种目标对象识别装置，包括：

初始位置确定模块，被配置为将接收的初始图片输入第一检测模型，获得所述初始图片中一个或多个目标对象的初始位置；

验证位置确定模块，被配置为将所述初始位置对应的候选图片输入第二检测模型，获得所述候选图片中的验证对象以及所述验证对象在所述候选图片中的验证位置；

目标位置确定模块，被配置为基于所述验证位置对所述一个或多个目标对象的初始位置进行调整，以获得所述一个或多个目标对象的目标位置；

目标对象获得模块，被配置为将所述目标位置对应的目标图片输入识别模型，获得所述初始图片中的一个或多个目标对象。

根据本申请实施例的第三方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述目标对象识别方法的步骤。

根据本申请实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述目标对象识别方法的步骤。

根据本申请实施例的第五方面，提供了一种计算机程序产品，当所述计算机程序产品在计算机中执行时，令计算机执行如前所述目标对象识别方法的步骤。

本申请提供的所述目标对象识别方法及装置，其中，所述目标对象识别方法包括将接收的初始图片输入第一检测模型，获得所述初始图片中一个或多个目标对象的初始位置；将所述初始位置对应的候选图片输入第二检测模型，获得所述候选图片中的验证对象以及所述验证对象在所述候选图片中的验证位置；基于所述验证位置对所述一个或多个目标对象的初始位置进行调整，以获得所述一个或多个目标对象的目标位置；将所述目标位置对应的目标图片输入识别模型，获得所述初始图片中的一个或多个目标对象。具体的，所述目标对象识别方法采用预先训练的轻量级神经网络的第一检测模型和第二检测模型，可以对不同场景不同版式的图片或者视频中的目标对象进行快速、精确的提取，并且还可以基于验证位置辅助目标对象的最终位置定位，从而通过识别模型获得目标对象更加精确的识别结果。

附图说明

图1是本申请一实施例提供的一种目标对象识别方法的具体应用结构示意图；

图2是本申请一实施例提供的一种目标对象识别方法的流程图；

图3是本申请一实施例提供的一种目标对象识别方法中初始图片的示意图；

图4是本申请一实施例提供的一种目标对象识别方法应用在游戏比赛场景的流程图；

图5是本申请一实施例提供的一种目标对象识别装置的结构示意图；

图6是本申请一实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本申请一个或多个实施例涉及的名词术语进行解释。

模板匹配：模板匹配是在一幅图片中寻找与另一幅模板图片最相似部分的技术，通常通过滑窗等传统图片处理方法。

目标检测：通过模板匹配或者神经网络，找出图片中所有感兴趣的目标。

OCR：Optical Character Recognition，光学字符识别，指对文本资料的图片文件进行分析识别处理，获取文字及版面信息的过程。

MobileNet：轻量化网络。

SSD：Single ShotMultiBox Detector，目标检测算法。

Faster-RCNN:一种CNN(Convolutional Neural Networks，卷积神经网络)网络目标检测方法，一个完全end-to-end的CNN对象检测模型。

Logo：一种设计的名称，指的是商品、企业、网站等为自己主题或者活动等设计标志的一种行为。

现有技术中，在游戏图片或者游戏视频中，通常需要对游戏角色和击杀提示等重要信息进行提取，由于用户常常更关心涉及自身的信息，为了定位是否为该类信息，也常需要识别其他关键部分，例如用户自身使用的游戏人物等，通常会采用模板匹配、分类算法等对重要信息进行提取；但是，基于游戏角色和击杀提示的识别，一般应用于游戏图片或者游戏视频，这种识别方法在初始使用时就需要得到全部角色的特征用于区分不同的信息，由于游戏更新引入新角色或者皮肤较为频繁，会导致需要经常更新识别模型，极大的增加了模型更新以及人工成本，若模型没有及时更新，则游戏角色和击杀识别的准确度极低。

在其他比赛类的图片或者视频中，有针对得分等重要信息的提取，通常也会采用模板匹配的方法对得分区域进行识别，通过得分的变化，定位到图片或者视频中的重要信息；而与上述的角色和击杀提示识别不同，对于比赛的得分识别，可以应用在游戏、比赛等更多样的海报和视频中，且不需要搜集角色信息调整模型，然而目标常用的模板匹配方法面对版式较为复杂的图片或者视频，则很难精确的定位到得分，且对重要信息识别时经常会由于背景复杂造成错误的识别，用户体验较差。

基于此，在本申请中，提供了一种目标对象识别方法，本申请同时涉及一种目标对象识别装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

参见图1，图1示出了根据本申请一实施例提供的一种目标对象识别方法的具体应用结构示意图。

具体的，本申请实施例提供的视频处理方法应用在电脑、服务器或者云端服务上。图1的应用场景中包括CPU(Central Processing Unit，中央处理器)/GPU(Graphics Processing Unit，图形处理器)101、数据存储模块103、预处理模块105、得分区域检测模块107、数字识别模块109以及信息提取模型111；具体的，CPU/GPU101开始工作，获取数据存储模块103中存储的待处理视频或者图片，然后控制预处理模块105提取需要识别的待处理视频中的关键帧，并按照得分区域检测模块107的输入要求进行图片或者关键帧的预处理；然后将图片或者关键帧输入得分区域检测模块107，得分区域检测模块107对图片或者关键帧中的得分区域进行检测和辅助定位；再将图片或者关键帧中最终的得分区域输入到数字识别模块109，数字识别模块109对得分区域中的数字进行检测，以识别出得分区域的数字；最终将得分区域的数字输入信息提取模块111，信息提取模块111对识别出的得分区域的数字进行后处理，得到图片或者待处理视频的整体得分识别结果，且对该整体的得分识别结果进行结构化处理，以展示、推荐给用户。

本申请提供的所述目标对象识别方法，通过轻量级神经网络模型代替现有技术中的模板匹配对视频或者图片中的得分区域进行检测，同时还提出了通过特定的logo位置辅助得分区域的精确定位，面对不同场景不同版式的图片或者视频可以对得分区域实现快速、精确的得分区域提取；此外，在对得分区域的数字识别时，也可以基于轻量级神经网络模型对得分区域的数字进行精确的识别。

参见图2，图2示出了根据本申请一实施例提供的一种目标对象识别方法的流程图，具体包括以下步骤：

步骤202：将接收的初始图片输入第一检测模型，获得所述初始图片中一个或多个目标对象的初始位置。

具体的，本申请提供的所述目标对象识别方法可以应用于游戏场景中，对游戏得分进行识别；也可以应用于娱乐比赛场景中，对比赛得分进行识别；还可以应用于其他需要对得分进行识别的应用场景中，本申请对此不做任何限定。为了便于理解，以下本申请实施例均以所述目标对象识别方法应用于游戏场景中，对游戏比赛中的得分进行识别进行详细介绍。

其中，初始图片包括但不限于任何类型、任何内容的图片；例如游戏图片、比赛图片，又或者是视频中的视频帧形成的图片等，且目标对象可以理解为得分。

具体实施时，将接收的初始图片输入第一检测模型，通过该第一检测模型获得该初始图片中一个或多个得分的初始位置；其中，第一检测模型包括但不限于基于MobileNet的SSD模型，其中，MobileNet是适用与移动端的轻量级网络，而SSD作为一阶段检测网络，相比Faster-RCNN等两阶段检测网络的速度更加快速。

参见图3，图3示出了根据本申请一实施例提供的一种目标对象识别方法中初始图片的示意图。

图3为游戏场景中的游戏图片，该游戏图片中包括游戏比赛的得分，例如个人得分，团队得分等。

实际应用中，将该游戏图片输入到基于MobileNet的SSD模型中，可以获得该游戏图片中各种得分的初始位置，例如图3中的得分1的初始位置1、得分2的初始位置2、得分3的初始位置3和得分4的初始位置4等。

步骤204：将所述初始位置对应的候选图片输入第二检测模型，获得所述候选图片中的验证对象以及所述验证对象在所述候选图片中的验证位置。

其中，第一检测模型和第二检测模型可以为相同类型的检测模型和不同类型的检测模型，实际应用中，第一检测模型是为了对得分位置进行识别，因此在进行模型训练时，第一检测模型采用的训练样本即为游戏图片，而对应的标签则为游戏图片中得分的位置；而实际应用中，每个得分旁边一般会有一个logo图标，用于表示得分的含义，例如是个人得分，团队得分或者是击杀得分等，因此第二检测模型则是为了对第一检测模型输出的游戏图片中得分位置旁边的logo图标进行识别，那么在进行模型训练时，第二检测模型采用的训练样本即为包含得分的游戏图片，对应的标签则为每个得分对应的logo图标以及logo图标的位置。

具体实施时，在获取每个目标对象的初始位置的情况下，将每个目标对象的初始位置对应的候选图片输入第二检测模型，通过第二检测模型获得该候选图片中与目标对象对应的logo图标以及与目标对象对应的logo图标的验证位置。

仍以图3为例，在获得得分1的初始位置1、得分2的初始位置2、得分3的初始位置3和得分4的初始位置4之后，将初始位置1、初始位置2、初始位置3和初始位置4对应的图3中的图片输入到第二检测模型，通过第二检测模型可以获得初始位置1的区域中“VS”以及“VS”的位置、初始位置2的区域中“刀”以及“刀”的位置、初始位置3的区域中“圆圈”以及“圆圈”的位置和初始位置4的区域中“拳头”以及“拳头”的位置。

步骤206：基于所述验证位置对所述一个或多个目标对象的初始位置进行调整，以获得所述一个或多个目标对象的目标位置。

具体的，在获得验证位置之后，利用验证位置对每个对应的目标对象的初始位置进行调整，以获得该目标对象的目标位置，使得后续对目标对象进行识别时，可以基于准确的目标位置对目标对象进行准确的识别。

实际应用中，验证位置则为与目标对象相邻的logo图标的位置，因此可以基于该logo图标的位置对每个对应的目标对象的目标位置进行调整；具体的，利用logo的位置和得分区域的初始位置来定位得分的具体目标位置，这样相比通过第一检测模型识别的较大的得分区域的初始位置，再进行切割会更加准确快速，而准确的得分位置的确定有利于后续对得分位置中数字的识别。

步骤208：将所述目标位置对应的目标图片输入识别模型，获得所述初始图片中的一个或多个目标对象。

其中，识别模型包括但不限于多标签的分类模型，其中，该多标签的分类模型可以使用适合移动端的轻量级网络，如MobileNet，而分类模型输出的分类标签包含数字位数以及每个数字的具体类别(0～9)。举例来说，若目标位置中目标对象为得分21，将该目标位置包含目标对象的目标图片输入识别模型，识别模型则会输出【2，2，1】，其中，第一位2代表得分为两位数，第二位2代表得分的第一位数字为2，第二位1代表得分的第二位数字为1。采用此种多标签的分类模型，即可以对位数不定的数字进行识别，还可以识别不包含数字的背景类别，那么在识别不包含数字的背景类别时，得分的位数为0。

具体实施时，一个初始图片中会包括多个目标对象，每个目标对象均对应一个初始位置，然后将每个目标对象的初始位置对应的候选图片输入到第二检测模型中，可以获得该目标对象的初始位置对应的候选图片中的验证对象以及该验证对象在候选图片中的验证位置；再基于该验证位置对每个对应的目标对象的初始位置进行准确性调整，以获得每个目标对象的目标位置；最后将每个目标位置对应的目标图片输入识别模型，可以获得每个目标位置对应的目标图片中的目标对象，将所有的目标位置对应的目标图片中的目标对象汇总在一起，即可以确定初始图片中的所有目标对象。

本说明书实施例中，所述目标对象识别方法通过多次检测与采用logo辅助定位，更精确的定位得分区域，标识定位，提升目标对象的精确位置，实现对目标对象实现像素级别控制；且采用轻量级网络模型，针对复杂多样、不同版本的各类图片或者视频，对图片或者视频中的目标对象实现移动端快速的提取和识别。

实际应用中，初始图片可以是视频中的视频帧，那么在初始图片为视频中的视频帧的情况下，所述将接收的初始图片输入第一检测模型之前，还包括：

接收待处理视频，基于预设提取规则从所述待处理视频中提取i个视频帧作为初始图片，其中，i∈[1，n]，且i为正整数。

其中，预设提取规则可以根据实际应用进行设置，例如将每隔一秒、两秒或者三秒提取一个视频帧作为初始图片，或者是对使用视频帧打分模型对视频中的每个视频帧进行打分，将得分高的视频帧作为初始图片等等。

具体的，在将接收的初始图片输入第一检测模型之前，接收待处理视频，然后基于预设提取规则从待处理视频中提取若i个视频帧作为初始图片，其中，i属于1到n，且i为正整数，例如n为5，那么基于预设提取规则从待处理视频中提取5个视频帧作为初始图片。

本说明书实施例中，所述目标对象识别方法可以应用在对视频的目标对象识别中，将待处理视频中的某些视频帧作为初始图片，以实现对该待处理视频的视频帧中的目标对象进行准确识别。

本说明书另一实施例中，所述将接收的初始图片输入第一检测模型，获得所述初始图片中一个或多个目标对象的初始位置，包括：

将接收的第i个初始图片输入第一检测模型，获得所述第i个初始图片中一个或多个目标对象的初始位置；

相应的，所述将所述目标位置对应的目标图片输入识别模型，获得所述初始图片中的目标对象，包括：

将所述目标位置对应的目标图片输入识别模型，获得所述第i个初始图片中的一个或多个目标对象；

判断i是否大于n，若是，则统计出每个初始图片中的一个或多个目标对象，

若否，则将i自增1，继续执行将接收的第i个初始图片输入第一检测模型。

其中，在初始图片为待处理视频的若干个视频帧的情况下，则基于本申请的目标对象识别方法对每个初始图片中的一个或多个目标对象进行识别。

以i为1为例，首先将接收的第1个初始图片输入第一检测模型，获得第1个初始图片中每个目标对象的初始位置；将第1个初始图片中每个目标对象的初始位置对应的候选图片输入第二检测模型，获得该候选图片中的验证对象以及验证对象在该候选图片中的验证位置；基于该验证位置对每个目标对象的初始位置进行调整，以获得每个目标对象的目标位置；将目标位置对应的目标图片输入识别模型，以获得第1个初始图片中的所有目标对象；在获得第1 个初始图片中的所有目标对象的情况下，判断第1个初始图片是否是待处理视频中的最后一个初始图片，即i是否大于n，若是，则统计出第1个初始图片中的所有目标对象；若否，则将第2个初始图片输入第一检测模型，继续执行上述步骤，一直循环，直到待处理视频中提取的视频帧形成的每个初始图片中的所有目标对象全部被识别出来为止。

在所有的初始图片中的目标对象全部被识别出来之后，统计出每个初始图片中的所有目标对象；例如沿用上例，统计每个游戏图片中的得分，如个人得分、团队得分以及击杀得分等等。

具体的，对待处理视频中提取的每个视频帧形成的初始图片中的一个或多个目标对象的具体识别方式，可以参见上述实施例中对单个初始图片中目标对象的具体识别步骤，在此不作赘述。

本说明书实施例中，所述目标对象识别方法不仅可以对单张初始图片中的一个或多个目标对象进行识别，还可以对待处理视频中提取的关键帧形成的每个初始图片中的一个或多个目标对象进行识别，对于每个关键帧中目标对象的识别均通过多次检测与采用logo辅助定位，更精确的定位得分区域，标识定位，提升目标对象的精确位置，实现对目标对象实现像素级别控制；且采用轻量级网络模型，针对复杂多样、不同版本的各类视频，对视频中的目标对象实现移动端快速的提取和识别。

此外，所述将接收的第i个初始图片输入第一检测模型，获得所述第i个初始图片中一个或多个目标对象的初始位置，包括：

将接收的第i个初始图片输入第一检测模型；

判断所述第i个初始图片中是否包括目标对象，

若是，则获得所述第i个初始图片中一个或多个目标对象的初始位置，

实际应用中，从待处理视频中提取的视频帧中有可能会不包括目标对象，例如游戏视频中，游戏视频的开始时的视频帧是关于游戏的介绍，由于游戏还没有开始，那么这些视频帧中就不存在目标对象：得分。

那么为了避免做无效的工作，在接收到每个初始图片之后，均会对每个初始图片中是否包含目标对象进行检测，若该初始图片中不包含目标对象，则继续对下一个初始图片中的目标对象进行检测，避免在初始图片中不包含目标对象的情况下，也进行位置获取、目标对象识别等后续操作，浪费系统处理资源，给用户造成不好的体验。

具体实施时，当某个初始图片中的目标对象被遮挡的情况下，则识别模型可能识别出来的是遮挡某个初始图片中目标对象的背景图片，那么具体的目标对象就无法正确识别出来，而为了满足实际应用，对每个初始图片中的目标对象均识别出来，则可以将该初始图片的上一个初始图片的目标对象进行代替，具体实现方式如下所述：

所述将所述目标位置对应的目标图片输入识别模型，获得所述第i个初始图片中的一个或多个目标对象，包括：

将所述目标位置对应的目标图片输入识别模型，若所述第i个初始图片的图片背景不满足预定条件，则将第i-1个初始图片中的一个或多个目标对象作为所述第i个初始图片中的一个或多个目标对象。

其中，预定条件包括但不限于目标对象可被检测或者未被遮挡等。

在游戏场景中，可能会存在游戏角色在行进的过程中对得分区域进行遮挡的情况，那么这种情况下，则可以确定该初始图片的图片背景不满足预定条件，此时将得分位置对应的图片输入到识别模型中，识别模型则仅可以识别出遮挡的游戏角色，即图片背景，那么则将该初始图片的紧邻的上一个初始图片中的得分作为该初始图片的得分。

本说明书实施例中，由于待处理视频的视频帧形成的初始图片之间存在一定的连续性，两个初始图片之间的目标对象差别一般不会很大，那么为了保证每个初始图片中的目标对象均被识别出来，则在识别模型无法识别出某个初始图片中目标对象的情况下，将紧邻的前一个初始图片中的目标对象进行替代，以满足后续基于每个初始图片的目标对象进行实际应用(例如基于得分进行关键初始图片获取)的需要。

此外，所述统计出每个初始图片中的一个或多个目标对象之后，还包括：

在所述第i个初始图片中的一个或多个目标对象不满足预设目标对象识别规则的情况下，将所述第i-1个初始图片中的一个或多个目标对象，作为所述第i个初始图片中的一个或多个目标对象。

其中，预设目标对象识别规则可以根据具体的应用场景进行设置，本申请对此不做任何限定，例如在游戏场景中，目标对象为个人得分和团队得分，那么预设目标对象识别规则可以包括团队得分要大于个人得分。

具体的，以i为3为例，在第3个初始图片中的一个或多个目标对象不满足预设目标对象识别规则的情况下，将所述第2个初始图片中对应的一个或多个目标对象，作为所述第3个初始图片中的一个或多个目标对象。

沿用上例，仍以游戏场景为例，游戏比赛视频的初始图片中会包括个人得分以及团队得分，而团队得分必然会大于个人得分，若第3个初始图片中识别出的个人得分大于团队得分，则可以确定第3个初始图片中的个人得分和团队得分识别错误，此时，则需要对第3个初始图片中的个人得分和团队得分进行修正，将第2个初始图片中的个人得分和团队得分，作为第3个初始图片的个人得分和团队得分。

本说明书实施例中，在获得待处理视频中每个初始图片的目标对象之后，基于预设目标对象识别规则对每个初始图片中识别出的目标对象进行准确性验证，在某个初始图片中识别出的目标对象不满足预设目标对象识别规则的情况下，则可以确定该初始图片中的目标对象识别失败；此时，为了保证识别的每个初始图片中目标对象的准确性，则可以将识别失败的初始图片中的目标对象以该初始图片的上一个初始图片中的目标对象识别结果进行替代。

本说明书另一实施例中，在游戏或者比赛场景中，游戏视频以及比赛视频提取的初始图片中的比分具有连续性，即在一定的时间窗口内，初始图片中的比分不会有很大的变化，若在一定的时间窗口内，初始图片中的比分存在较大的波动，那么可能识别出的初始图片中的比分可能会出现错误识别的情况，此时，则需要对某个初始图片中的比分进行修正，具体实现方式如下所述：

所述统计出每个初始图片中的一个或多个目标对象之后，还包括：

按照预设时间段将所有初始图片中的一个或多个目标对象划分为至少一个对象序列；

将每个对象序列中不满足预设目标对象排列规则的目标对象作为调整对象；

基于所述调整对象对应的初始图片相邻的初始图片中的一个或多个目标对象，调整所述调整对象。

其中，预设时间段可以根据实际需要进行设置，例如预设时间段可以为5秒、10秒等。

以预设时间段为5秒为例，则将待处理视频中所有初始图片按照5秒的间隔进行获取，获取每5秒内的所有初始图片中的目标对象，然后判断每5秒内所有初始图片中的目标对象的排列是否满足预设目标对象排列规则，若是，则确定该5秒内所有初始图片中的目标对象准确，若否，则确定该5秒内所有初始图片中的目标对象中存在异常的目标对象；然后就可以根据与存在异常目标对象的初始图片，相邻的初始图片的目标对象对该存在异常目标对象的初始图片中的目标对象进行调整，其中，可以采用中值滤波的方式对其进行调整。

其中，预设目标对象排列规则可以根据具体的应用场景进行设置，本申请对此不做任何限定，例如在游戏场景中，预设目标对象排列规则可以包括目标对象按照比赛的时间进行递增或者保持不变。

沿用上例，游戏场景中，按照本领域人员对正常游戏比赛的理解，随着时间的增加，初始图片中的个人得分以及团队得分要么保持不变，要么随着时间递增，例如预设时间段为5秒，获取的5秒内的初始图片的得分排列为[5,5,8,5,5]，此时，则可以确定第3个初始图片中的得分识别可能是不正确的，需要通过第3个初始图片相邻的第2个初始图片中的目标对象和第4个初始图片中的目标对象，对第3个初始图片中的目标对象进行调整，例如将第3个初始图片中的比分通过中值滤波的方式修正为5。

本说明书实施例中，在通过识别模型获得每个初始图片中的目标对象之后，可以基于不同应用场景中，目标对象的变化特征，对每个初始图片中的目标对象的准确性进行判断，在某个初始图片中的目标对象识别存在错误的情况下，可以基于中值滤波的方式对其进行修正，进一步保证初始图片中目标对象的准确性。

本说明书另一实施例中，所述目标对象包括第一目标对象和第二目标对象；

相应的，所述目标对象包括第一目标对象和第二目标对象；

相应的，所述统计出每个初始图片中的一个或多个目标对象之后，还包括：

接收针对所述第一目标对象的获取请求，基于所述获取请求确定每个初始图片中的第一目标对象和第二目标对象，其中，所述第二目标对象与所述第一目标对象相关联；

在所述每个初始图片中的第二目标对象根据所述第一目标对象的增加进行更新时，将所述每个初始图片中的第一目标对象进行展示。

沿用上例，在游戏场景中，目标对象为得分，第一目标对象为个人得分，第二目标对象则为团队得分；在某个游戏，用户较为关注个人击杀瞬间，当每个初始图片中的个人得分以及团队得分识别过滤后，在每个初始图片中，当个人击杀得分增加时，团队击杀得分也相应增加，因此可以综合判断每个初始图片中个人击杀得分和团队击杀得分，过滤得分的错误识别，最终可以向用户返回正确的个人击杀信息。

本说明书实施例中，当用户比较关注某个目标对象的情况下，可以通过初始图片中某个目标对象与其他目标对象之间的关联关系，对用户关注的目标对象的准确性进行识别，以过滤调整错误识别的目标对象，最后将准确的且用户关注的目标对象进行展示，可以极大的提升用户的体验度。

本说明书实施例中，所述方法，还包括：

对所述初始图片中的一个或多个目标对象进行提取，将目标对象满足预设提取条件的初始图片作为目标初始图片；

基于所述目标初始图片生成目标视频，且将所述目标视频发送至用户。

其中，预设提取条件可以根据实际应用进行设置，例如预设提取条件为目标对象大于等于预设目标对象阈值等，即比分要大于多少分。

具体实施时，通过上述各种方式对每个初始图片中的一个或多个目标对象进行过滤识别且调整之后，从所有的初始图片中选取一些目标对象满足预设提取条件的初始图片作为目标图片，然后将这些目标图片生成目标视频发送用户。

沿用上例，预设提取条件为个人比分大于80分，那么则从初始图片中提取个人比分大于80分的初始图片作为目标图片，然后将这些目标图片生成视频集锦推荐给用户。

本说明书实施例中，在获得每个初始图片中的一个或多个目标对象后，可以根据实际的应用需求基于目标对象生成用户感兴趣的目标视频等，以提升用户对该视频的关注度。

下述结合附图4，以本申请提供的目标对象识别方法在游戏比赛场景的应用为例，对所述目标对象识别方法进行进一步说明，具体包括以下步骤：

步骤402：输入游戏视频。

步骤404：基于预设提取规则从游戏视频中提取多个关键帧作为初始图片。

步骤406：对每个初始图片进行比分区域检测和定位。

具体的，比分区域检测即关键区域检测，而关键区域即指用户在图片或视频中常关注的包含重要信息的区域。例如在游戏比赛、现实比赛(足球比赛、篮球比赛)的海报图片、视频中，用户往往会关注具体的比分区域。由于目前图片或视频的分辨率、大小、版式、界面常有较大差异，很难使用现有技术中的模板匹配来进行关键区域定位。并且针对在移动端需要对图片或视频的关键区域实现快速检测的需求，本申请使用了轻量的检测模型，基于Mobilenet的SSD模型。其中Mobilenet是适用与移动端的轻量级网络，而SSD作为一阶段检测网络模型，相比Faster-RCNN等两阶段网络速度更快。

然而轻量级检测模型速度较快，但准确率往往会受到一定影响，可能会出现比分区域定位有偏差，从而会影响到后续的比分数字识别。为了解决这一问题，本申请还进一步检测了每个图片或者视频帧中具有标志性的Logo，在不同界面的视频中，利用Logo的位置来辅助比分区域定位。通过比分区域的检测和辅助定位，得到图片或视频需要识别的各个比分区域的具体位置，然后传入后续识别模型进行比分识别。

步骤408：判断游戏是否开始，若是，则执行步骤410，若否，则继续执行步骤406。

具体实施时，服务器通过对每个初始图片中的比分区域的检测确定游戏是否开始，例如在初始图片中未检测到比分区域，那么则可以确定游戏没有开始，若在初始图片中检测到比分区域，那么则可以确定游戏开始，此时就可以对游戏比赛的初始图片中的比分进行识别。

步骤410：按照顺序对每个初始图片中比分区域的比分进行识别。

具体的，针对比分识别任务，目前常用的有很多基于LSTM和CTC的字符识别技术。然而，这些技术在移动端使用会耗时较长，影响用户体验。针对轻量级的数字识别的特点，本申请使用了多标签的分类模型。其中，分类模型的主干网络可以使用适合移动端的轻量级网络，如Mobilenet等，而分类标签包含了数字位数以及每位数字具体类别(0～9)。举例来说，对于比分21，识别模型会输出[2，2，1]，其中，第一位代表比分为两位数，第二位代表比分的第一位数为2，第二位的1代表比分的第二位数为1。用这种多标签分类方法，既可以对位数不定的数字进行识别，还可以识别出不包含数字的背景类别，当识别出不包含数字的背景类别时，可以将数字位数设为0。

步骤412：判断是否可以识别出比分，若是，则执行步骤410，若否，则执行步骤406。

具体的，在对每个初始图片中比分区域的比分进行识别时，均需要判断是否可以识别出该初始图片中的比分，若是，则继续识别下一个初始图片中的比分，直到所有的初始图片中的比分均被识别出来；若否，则重新对该初始图片中的比分区域进行定位，再次进行比分区域识别，以保证所有初始图片中的比分均被识别出来；在所有初始图片中的比分均被识别出来之后，执行步骤414。

步骤414：对所有初始图片中识别出的比分进行后处理。

具体的，可以参见上述实施例，在获得所有初始图片中的比分之后，可以通过背景过滤、规则过滤、中值滤波以及综合比分判断等后处理，以确定识别出的比分的准确性。

具体实施时，比分后处理主要是针对视频中的目标对象识别的场景，由于视频背景复杂，比分识别很难保证100％准确率。

但在一段视频中，当游戏正在进行时，比分将基本呈连续变化。因此，在综合视频比分后，本发明还提出了相应的后处理方法：

背景过滤：由于数字识别模型会识别比分或背景，当某一帧识别到背景时，该帧的比分区域可能由于被遮挡或其他原因无法识别，则该帧可以沿用上一帧的比分。

规则过滤：在游戏比赛或者现实比赛中，比分通常包含一定的规则，如团队分数大于个人分数等。针对不同的场景，当某个分数不符合游戏比赛或现实比赛自身规则时，则可以认为该帧比分识别有误，此时可以将有误的比分用上一帧比分代替。

中值滤波：由于游戏比赛或现实比赛比分连续变化的特性，还可以采用了中值滤波的方式对比分进行过滤，即在一定时间窗口内，用相邻比分的中位数代替原本的比分。该方法可以有效过滤单个异常值，平滑整体比分，例如当时间窗口为5，相邻比分为[5，5，8，5，5]时，第三帧误识别的比分8将会通过中值滤波修正为5。

综合比分判断：最终当关注的目标比分变化时，该方法会综合各种比分判断并进行结构化输出。如对某个游戏，用户较为关注个人击杀的瞬间，即个人击杀得分，当比分识别过滤后，个人击杀数增加时，团队击杀数应也相应增加。因此，算法会综合判断个人击杀的得分与团队击杀的得分，过滤错误识别，最终返回正确的个人击杀得分给用户。

实际应用中，根据游戏比赛或现实比赛的不同以及关注点的不同，以上后处理算法也会有相应的调整，例如更改过滤的规则、更改中值滤波窗口大小等等。

最终，当图片或视频分析结束后，通过图片比分或视频相邻时间段比分的判断，可以确定图片或视频中包含的重要信息；然后将信息进行结构化处理后(如用户在某个时间点进行了击杀操作)，返回给用户或直接展示。

步骤416：基于所有初始图片中识别出的比分确定目标图片，且根据目标图片生成精彩时刻。

本申请提供的所述目标对象识别方法，通过轻量级神经网络模型代替现有技术中的模板匹配对视频或者图片中的得分区域进行检测，同时还提出了特定的logo位置辅助得分区域的精确定位，面对不同场景不同版式的图片或者视频可以对得分区域实现快速、精确的得分区域提取；此外，在对得分区域的数字识别时，也可以基于轻量级神经网络模型对得分区域的数字进行精确的识别。

与上述方法实施例相对应，本申请还提供了目标对象识别装置实施例，图5示出了本申请一实施例提供的一种目标对象识别装置的结构示意图。如图5所示，该装置包括：

初始位置确定模块502，被配置为将接收的初始图片输入第一检测模型，获得所述初始图片中一个或多个目标对象的初始位置；

验证位置确定模块504，被配置为将所述初始位置对应的候选图片输入第二检测模型，获得所述候选图片中的验证对象以及所述验证对象在所述候选图片中的验证位置；

目标位置确定模块506，被配置为基于所述验证位置对所述一个或多个目标对象的初始位置进行调整，以获得所述一个或多个目标对象的目标位置；

目标对象获得模块508，被配置为将所述目标位置对应的目标图片输入识别模型，获得所述初始图片中的一个或多个目标对象。

可选的，所述装置，还包括：

图片获取模块，被配置为接收待处理视频，基于预设提取规则从所述待处理视频中提取i个视频帧作为初始图片，其中，i∈[1，n]，且i为正整数。

可选的，所述初始位置确定模块502，进一步被配置为：

相应的，所述目标对象获得模块508，进一步被配置为：

可选的，所述初始位置确定模块502，进一步被配置为：

将接收的第i个初始图片输入第一检测模型；

判断所述第i个初始图片中是否包括目标对象，

可选的，所述初始位置确定模块502，进一步被配置为：

可选的，所述装置，还包括：

第一对象调整模块，被配置为在所述第i个初始图片中的一个或多个目标对象不满足预设目标对象识别规则的情况下，将所述第i-1个初始图片中的一个或多个目标对象，作为所述第i个初始图片中的一个或多个目标对象。

可选的，所述装置，还包括：

第二对象调整模块，被配置为：

可选的，所述装置，还包括：

所述目标对象包括第一目标对象和第二目标对象；

相应的，所述第三对象调整模块，被配置为：

可选的，所述装置，还包括：

目标视频生成模块，被配置为：

本说明书实施例中，所述目标对象识别装置通过多次检测与采用logo辅助定位，更精确的定位得分区域，标识定位，提升目标对象的精确位置，实现对目标对象实现像素级别控制；且采用轻量级网络模型，针对复杂多样、不同版本的各类图片或者视频，对图片或者视频中的目标对象实现移动端快速的提取和识别。

上述为本实施例的一种目标对象识别装置的示意性方案。需要说明的是，该目标对象识别装置的技术方案与上述的目标对象识别方法的技术方案属于同一构思，目标对象识别装置的技术方案未详细描述的细节内容，均可以参见上述目标对象识别方法的技术方案的描述。

图6示出了根据本说明书一个实施例提供的一种计算设备600的结构框图。该计算设备600的部件包括但不限于存储器610和处理器620。处理器620与存储器610通过总线630相连接，数据库650用于保存数据。

计算设备600还包括接入设备640，接入设备640使得计算设备600能够经由一个或多个网络660通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备640可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备600的上述部件以及图6中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图6所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备600可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备600还可以是移动式或静止式的服务器。

其中，处理器620用于执行如下计算机可执行指令，所述处理器620执行所述指令时实现所述的目标对象识别方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的目标对象识别方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述目标对象识别方法的技术方案的描述。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述目标对象识别方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的目标对象识别方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述目标对象识别方法的技术方案的描述。

本申请一实施例还提供一种计算机程序产品，当所述计算机程序产品在计算机中执行时，令计算机执行如前所述目标对象识别方法的步骤。

上述为本实施例的一种计算机程序产品的示意性方案。需要说明的是，该计算机程序产品的技术方案与上述的目标对象识别方法的技术方案属于同一构思，计算机程序产品的技术方案未详细描述的细节内容，均可以参见上述目标对象识别方法的技术方案的描述。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序产品代码，所述计算机程序产品代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序产品代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

一种目标对象识别方法，包括：

将接收的初始图片输入第一检测模型，获得所述初始图片中一个或多个目标对象的初始位置；

将所述初始位置对应的候选图片输入第二检测模型，获得所述候选图片中的验证对象以及所述验证对象在所述候选图片中的验证位置；

基于所述验证位置对所述一个或多个目标对象的初始位置进行调整，以获得所述一个或多个目标对象的目标位置；

将所述目标位置对应的目标图片输入识别模型，获得所述初始图片中的一个或多个目标对象。
根据权利要求1所述的目标对象识别方法，所述将接收的初始图片输入第一检测模型之前，还包括：

接收待处理视频，基于预设提取规则从所述待处理视频中提取i个视频帧作为初始图片，其中，i∈[1，n]，且i为正整数。
根据权利要求2所述的目标对象识别方法，所述将接收的初始图片输入第一检测模型，获得所述初始图片中一个或多个目标对象的初始位置，包括：

将接收的第i个初始图片输入第一检测模型，获得所述第i个初始图片中一个或多个目标对象的初始位置；

相应的，所述将所述目标位置对应的目标图片输入识别模型，获得所述初始图片中的目标对象，包括：

将所述目标位置对应的目标图片输入识别模型，获得所述第i个初始图片中的一个或多个目标对象；

判断i是否大于n，若是，则统计出每个初始图片中的一个或多个目标对象，

若否，则将i自增1，继续执行将接收的第i个初始图片输入第一检测模型。
根据权利要求3所述的目标对象识别方法，所述将接收的第i个初始图片输入第一检测模型，获得所述第i个初始图片中一个或多个目标对象的初始位置，包括：

将接收的第i个初始图片输入第一检测模型；

判断所述第i个初始图片中是否包括目标对象，

若是，则获得所述第i个初始图片中一个或多个目标对象的初始位置，

若否，则将i自增1，继续执行将接收的第i个初始图片输入第一检测模型。
根据权利要求3或4所述的目标对象识别方法，所述将所述目标位置对应的目标图片输入识别模型，获得所述第i个初始图片中的一个或多个目标对象，包括：

将所述目标位置对应的目标图片输入识别模型，若所述第i个初始图片的图片背景不满足预定条件，则将第i-1个初始图片中的一个或多个目标对象作为所述第i个初始图片中的一个或多个目标对象。
根据权利要求3或4所述的目标对象识别方法，所述统计出每个初始图片中的一个或多个目标对象之后，还包括：

在所述第i个初始图片中的一个或多个目标对象不满足预设目标对象识别规则的情况下，将所述第i-1个初始图片中的一个或多个目标对象，作为所述第i个初始图片中的一个或多个目标对象。
根据权利要求3或4所述的目标对象识别方法，所述统计出每个初始图片中的一个或多个目标对象之后，还包括：

按照预设时间段将所有初始图片中的一个或多个目标对象划分为至少一个对象序列；

将每个对象序列中不满足预设目标对象排列规则的目标对象作为调整对象；

基于所述调整对象对应的初始图片相邻的初始图片中的一个或多个目标对象，调整所述调整对象。
根据权利要求3或4所述的目标对象识别方法，所述目标对象包括第一目标对象和第二目标对象；

相应的，所述统计出每个初始图片中的一个或多个目标对象之后，还包括：

接收针对所述第一目标对象的获取请求，基于所述获取请求确定每个初始图片中的第一目标对象和第二目标对象，其中，所述第二目标对象与所述第一目标对象相关联；

在所述每个初始图片中的第二目标对象根据所述第一目标对象的增加进行更新时，将所述每个初始图片中的第一目标对象进行展示。
根据权利要求1至8任意一项所述的目标对象识别方法，所述方法，还包括：

对所述初始图片中的一个或多个目标对象进行提取，将目标对象满足预设提取条件的初始图片作为目标初始图片；

基于所述目标初始图片生成目标视频，且将所述目标视频发送至用户。
一种目标对象识别装置，包括：

初始位置确定模块，被配置为将接收的初始图片输入第一检测模型，获得所述初始图片中一个或多个目标对象的初始位置；

验证位置确定模块，被配置为将所述初始位置对应的候选图片输入第二检测模型，获得所述候选图片中的验证对象以及所述验证对象在所述候选图片中的验证位置；

目标位置确定模块，被配置为基于所述验证位置对所述一个或多个目标对象的初始位置进行调整，以获得所述一个或多个目标对象的目标位置；

目标对象获得模块，被配置为将所述目标位置对应的目标图片输入识别模型，获得所述初始图片中的一个或多个目标对象。
一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现权利要求1至9任意一项所述目标对象识别方法的步骤。
一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现权利要求1至9任意一项所述目标对象识别方法的步骤。
一种计算机程序产品，当所述计算机程序产品在计算机中执行时，令计算机执行权利要求1至9任意一项所述方法的步骤。