WO2019223782A1

WO2019223782A1 - 游戏场景描述方法、装置、设备及存储介质

Info

Publication number: WO2019223782A1
Application number: PCT/CN2019/088348
Authority: WO
Inventors: 吴晓东; 刘炉
Original assignee: 广州虎牙信息科技有限公司
Priority date: 2018-05-25
Filing date: 2019-05-24
Publication date: 2019-11-28
Also published as: SG11202010692RA; CN108769821B; CN108769821A; US20210023449A1

Abstract

本申请公开了一种游戏场景描述方法、装置、设备及存储介质。其中，方法包括：获取游戏直播视频流中的至少一个视频帧；截取所述至少一个视频帧中的游戏地图区域图像；将所述游戏地图区域图像输入至第一目标检测模型，得到所述游戏地图区域图像上游戏元素的显示区域；将所述游戏元素的显示区域的图像输入至分类模型，得到所述游戏元素的状态；采用所述游戏元素的显示区域和状态，形成所述至少一个视频帧展示的游戏场景的描述信息。

Description

游戏场景描述方法、装置、设备及存储介质

本申请要求在2018年05月25日提交中国专利局、申请号为201810517799.X的中国专利申请的优先权，该申请的全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及计算机视觉技术领域，例如涉及一种游戏场景描述方法、装置、设备及存储介质。

背景技术

随着游戏直播行业的发展和游戏主播数量的日益增多，主播客户端将大量的游戏直播视频流发送至服务器并由服务器下发至用户客户端，以供用户观看。

游戏直播视频流携带的信息十分有限，例如，游戏直播视频流对应的直播间号、主播名、主播添加签名等。这些信息无法准确描述游戏直播视频流内部的游戏场景，也就无法针对特定游戏场景的游戏直播视频流进行推送或者区分，进而无法满足用户的个性化需求，不利于提高游戏直播行业的内容分发效率。

发明内容

本申请提供一种游戏场景描述方法、装置、设备及存储介质，以准确描述游戏直播视频流内部的游戏场景。

第一方面，本申请实施例提供了一种游戏场景描述方法，包括：

获取游戏直播视频流中的至少一个视频帧；

截取所述至少一个视频帧中的游戏地图区域图像；

将所述游戏地图区域图像输入至第一目标检测模型，得到所述游戏地图区域图像上游戏元素的显示区域；

将所述游戏元素的显示区域的图像输入至分类模型，得到所述游戏元素的状态；

采用所述游戏元素的显示区域和状态，形成所述至少一个视频帧展示的游戏场景的描述信息。

第二方面，本申请实施例还提供了一种游戏场景描述装置，该装置包括：

获取模块，设置为获取游戏直播视频流中的至少一个视频帧；

截取模块，设置为截取所述至少一个视频帧中的游戏地图区域图像；

显示区域识别模块，设置为将所述游戏地图区域图像输入至第一目标检测模型，得到所述游戏地图区域图像上游戏元素的显示区域；

状态识别模块，设置为将所述游戏元素的显示区域的图像输入至分类模型，得到所述游戏元素的状态；

形成模块，设置为采用所述游戏元素的显示区域和状态，形成所述至少一个视频帧展示的游戏场景的描述信息。

第三方面，本申请实施例还提供了一种电子设备，包括：

一个或多个处理器；

存储器，设置为存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现任一实施例所述的游戏场景描述方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现任一实施例所述的游戏场景描述方法。

本申请通过获取游戏直播视频流中的至少一个视频帧，并截取所述至少一个视频帧中的游戏地图区域图像，从游戏直播视频流中获取到能够反映游戏态势的游戏地图；通过第一目标检测模型和分类模型，得到所述游戏地图区域图像上游戏元素的显示区域和状态，将基于深度学习的图像识别算法应用在游戏地图的理解上，提取出游戏元素的显示区域和状态；然后，采用所述游戏元素的显示区域和状态，形成所述至少一个视频帧展示的游戏场景的描述信息，从而以游戏地图为识别对象，结合图像识别算法，得到该游戏直播视频流的内部具体的游戏场景，便于后续对特定游戏场景的游戏直播视频流进行推送或者分类，满足用户的个性化需求，有利于提高游戏直播行业的内容分发效率。

附图说明

图1是本申请实施例一提供的一种游戏场景描述方法的流程图；

图2是本申请实施例二提供的一种游戏场景描述方法的流程图；

图3是本申请实施例三提供的一种游戏场景描述方法的流程图；

图4是本申请实施例四提供的一种游戏场景描述装置的结构示意图；

图5是本申请实施例五提供的一种电子设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部结构。

实施例一

图1是本申请实施例一提供的一种游戏场景描述方法的流程图，本实施例可适用于描述游戏直播视频流内部的游戏场景的情况，该方法可以由游戏场景描述装置来执行，该装置可由硬件和/或软件组成，并一般可集成在服务器、主播客户端或者用户客户端中，该方法包括如下步骤。

S110、获取游戏直播视频流中的至少一个视频帧。

游戏场景描述装置实时接收主播直播间对应的游戏直播视频流。其中，游戏直播视频流指视频内容为游戏的视频流，例如王者荣耀游戏的视频流、英雄联盟游戏的视频流。为了保证视频帧的实时性，进而保证后续识别的内容的准确性与及时性，从当前接收到的游戏直播视频流中的任意位置截取至少一个视频帧。

S120、截取至少一个视频帧中的游戏地图区域图像。

视频帧显示有游戏显示界面，该游戏显示界面是游戏应用的主界面，游戏显示界面上显示有游戏地图。为了方便描述和区分，游戏地图的显示区域的图像称为游戏地图区域图像。

在一实施例中，截取至少一个视频帧中的游戏地图区域图像至少包括以下两种实施方式：

第一种实施方式：为了方便玩家游戏，游戏地图一般会显示在游戏显示界面的预设的显示区域，游戏地图的显示区域可以用(横坐标值，纵坐标值，宽度，高度)表示，而游戏地图的显示区域会因游戏种类的不同而不同。基于此，根据游戏种类，确定游戏地图的显示区域；截取至少一个视频帧中游戏地图的显示区域的图像。值得说明的是，第一种实施方式将游戏显示界面上游戏地图的显示区域作为视频帧上游戏地图的显示区域，当视频帧满屏显示游戏显示界面时，该方式可以得到较精确的结果。

第二种实施方式：基于目标检测模型，识别游戏地图的显示区域。该目标检测模型包括但不限于Yolo(You Only Look Once)、残差神经网络(Residual Neural Network，ResNet)、MobileNetV1、MobileNetV2等卷积网络与单次多框检测器(Single Shot MultiBox Detector，SSD)、或者包括快速区域卷积神经网络(Faster Regions with Convolutional Neural Network，FasterRCNN)等。该目标检测模型提取视频帧的特征，并与预存的游戏地图的特征进行匹配，得到游戏地图的显示区域；截取至少一个视频帧中游戏地图的显示区域的图像。值得说明的是，当视频帧满屏显示或者不满屏显示游戏显示界面时，第二种实施方式均能得到较精确的结果。

S130、将游戏地图区域图像输入至第一目标检测模型，得到游戏地图区域图像上游戏元素的显示区域。

S140、将游戏元素的显示区域的图像输入至分类模型，得到游戏元素的状态。

游戏地图上的游戏元素包括但不限于游戏角色、防御塔、野兽等。游戏元素的状态包括但不限于游戏角色的名称、生存状态、所属队伍、类型等。例如，游戏角色的名称、游戏角色所属队伍、游戏角色的生存状态，防御塔的名称、防御塔生存状态、防御塔所属队伍，野兽名称、野兽生存状态。游戏元素的显示区域和状态能够反映当前游戏态势。

为了方便描述和区分，用于检测游戏元素的显示区域的模型称为第一目标检测模型，上述用于检测游戏地图的显示区域的模型称为第二目标检测模型。在一实施例中，第二目标检测模型包括但不限于Yolo、ResNet、MobileNetV1、MobileNetV2等卷积网络与SSD、或者包括FasterRCNN等。分类模型包括但不限于Cifar10轻量的分类网络、ResNet，MobileNet，Inception等。

S150、采用游戏元素的显示区域和状态，形成至少一个视频帧展示的游戏场景的描述信息。

第一目标检测模型输出的游戏元素的显示区域是数字格式，例如游戏元素的显示区域用(横坐标值，纵坐标值，宽度，高度)表示，又例如，游戏元素的宽度和高度是预设的，则游戏元素的显示区域直接用(横坐标值，纵坐标值)表示。

分类模型输出的状态是字符格式，例如游戏角色的名称、编号，防御塔的类型、生存状态等。在一实施例中，描述信息的格式可以是图表、文字、数字或字符，该描述信息的内容包括但不限于攻击路线、方式、参与度。

根据视频帧个数的不同和描述信息格式的不同，S150包括以下几种可选实施方式：

在一可选实施方式中，视频帧可以是一个、两个或者多个。将至少一个视频帧中游戏元素的数字格式的显示区域和字符格式的状态组成数组，直接作为游戏场景的描述信息，例如(横坐标，纵坐标，状态)。

在另一可选实施方式中，视频帧可以是一个、两个或者多个。将上述数字格式的显示区域和字符格式的状态转换为文字，并在文字间加入连接词以形成游戏场景的描述信息。例如，该描述信息是第一个视频帧中主播方高地防御塔的生存状态是满血，主播方游戏角色集中在中路；第二个视频帧中主播方高地防御塔的生存状态是残血，主播方游戏角色集中在高地。

在又一可选实施方式中，视频帧的数量是一个。预先存储游戏元素的显示区域和状态与描述信息的对应关系，根据一个视频帧中游戏元素的显示区域和状态与描述信息的对应关系，得到一个视频帧展示的游戏场景的描述信息。例如，主播方高地防御塔的生存状态是满血且主播方游戏角色集中在中路对应“主播方有望取得胜利”，又例如，主播方高地防御塔的生存状态是残血且主播方游戏角色集中在高地对应“主播方防守”。

在又一可选实施方式中，视频帧的数量是两个或者两个以上。根据两个或两个以上视频帧中游戏元素的显示区域和状态，得到游戏元素的显示区域的变化趋势和状态的变化趋势，该变化趋势可以以图表的形式展示；根据变化趋势与描述信息的对应关系，得到两个或两个以上视频帧展示的游戏场景的描述信息。例如，变化趋势“主播方高地防御塔的血量越来越低”对应“主播方将要失败”。又例如，变化趋势“主播游戏角色从地图中部移动到敌方高地”对应“主播方正在攻打水晶”。

本实施例中，通过获取游戏直播视频流中的至少一个视频帧，并截取至少一个视频帧中的游戏地图区域图像，从游戏直播视频流中获取到能够反映游戏态势的游戏地图；通过第一目标检测模型和分类模型，得到游戏地图区域图像上游戏元素的显示区域和状态，将基于深度学习的图像识别算法应用在游戏地图的理解上，提取出游戏元素的显示区域和状态；然后，采用游戏元素的显示区域和状态，形成至少一个视频帧展示的游戏场景的描述信息，从而以游戏地图为识别对象，结合图像识别算法，得到该游戏直播视频流的内部具体的游戏场景，便于后续对特定游戏场景的游戏直播视频流进行推送或者分类，满足用户的个性化需求，有利于提高游戏直播行业的内容分发效率。

实施例二

本实施例对上述实施例中的S120进行说明，在本实施例中，将截取至少一个视频帧中的游戏地图区域图像包括：将至少一个视频帧输入至第二目标检测模型，得到至少一个视频帧中的游戏地图检测区域；通过对游戏地图检测区域中的线路特征和先验特征进行特征匹配，校正游戏地图检测区域，以得到游戏地图校正区域；在游戏地图校正区域相对于游戏地图检测区域的偏离距离超过偏离阈值的情况下，截取视频帧中的游戏地图检测区域的图像；在游戏地图校正区域相对于游戏地图检测区域的偏离距离未超过偏离阈值的情况下，截取视频帧中的游戏地图校正区域的图像。图2是本申请实施例二提供的一种游戏场景描述方法的流程图，如图2所示，本实施例提供的方法包括以下步骤。

S210、获取游戏直播视频流中的至少一个视频帧。

S210与S110相同，此处不再赘述。

S220、将至少一个视频帧输入至第二目标检测模型，得到至少一个视频帧中的游戏地图检测区域。

在将至少一个视频帧输入至第二目标检测模型之前，还包括训练第二目标检测模型。在一实施例中，第二目标检测模型的训练过程，包括以下两个步骤。也就是说，所述第二目标检测模型可以通过以下两个步骤的方法训练生成。

第一步：获取多个样本视频帧，样本视频帧与S210中的至少一个视频帧对应的游戏种类相同，同类游戏的游戏地图的颜色、纹理、路径、尺寸等图像特征相同，通过样本视频帧训练出的第二目标检测模型能够应用于游戏地图的显示区域识别中。

第二步：将多个样本视频帧和多个样本视频帧上游戏地图的显示区域构成训练样本集，训练第二目标检测模型。在一实施例中，将第二目标检测模型输出的显示区域与样本集中的显示区域的差距作为代价函数，反复迭代第二目标检测模型中的参数，直到代价函数低于损失阈值，第二目标检测模型训练完成。

第二目标检测模型包括顺次连接的特征图生成子模型、网格分割子模型和定位子模型。在S220中，将至少一个视频帧输入至特征图生成子模型，生成视频帧的特征图，该特征图可以是二维的，也可以是三维的。然后，将视频帧的特征图输入至网格分割子模型，将特征图分割为多个网格；网格的尺寸与游戏地图的尺寸之差在预设尺寸范围内。在具体实现上，网格的尺寸采用超参数表示，在第二目标检测模型训练之前根据游戏地图的尺寸设置。接着，将多个网格输入至定位子模型中，定位子模型加载有标准游戏地图的特征，定位子模型将每个网格与标准游戏地图的特征进行匹配，得到每个网格与标准游戏地图的特征的匹配度，匹配度例如是这两个特征的余弦或者距离，将匹配度超过匹配度阈值的网格对应的区域作为游戏地图检测区域。如果没有匹配度超过匹配度阈值的网格，说明视频帧中不存在游戏地图，则定位子模型直接输出“不存在游戏地图”。

可见，游戏地图检测区域是直接由第二目标检测模型识别得到的。在一些实施例中，可以直接从视频帧中截取游戏地图检测区域的图像，作为游戏地图区域图像。

S230、通过对游戏地图检测区域中的线路特征和先验特征进行特征匹配，校正游戏地图检测区域，以得到游戏地图校正区域。

考虑到游戏地图检测区域可能存在误差，本实施例中对游戏地图检测区域进行校正。示例性地，预先存储标准游戏地图区域中线路的先验特征，例如线路角度、线路粗度、线路颜色等。提取游戏地图检测区域中指定宽度和角度的直线，作为线路特征。对游戏地图检测区域中的线路特征和先验特征进行特征匹配，即计算前述线路特征和先验特征的匹配度。如果该匹配度大于匹配度阈值，则从视频帧中截取该游戏地图检测区域的图像，作为游戏地图区域图像。如果该匹配度小于或等于匹配度阈值，则校正游戏地图检测区域的显示位置，直到该匹配度大于匹配度阈值。校正后的区域称为游戏地图校正区域。在一些实施例中，从视频帧中截取该游戏地图校正区域的图像，作为游戏地图区域图像。

S240、判断游戏地图校正区域相对于游戏地图检测区域的偏离距离是否超过偏离阈值，响应于游戏地图校正区域相对于游戏地图检测区域的偏离距离超过偏离阈值的判断结果，跳转到S250，响应于游戏地图校正区域相对于游戏地图检测区域的偏离距离未超过偏离阈值的判断结果，跳转到S260。

S250、截取视频帧中的游戏地图检测区域的图像。跳转到步骤S270。

S260、截取视频帧中的游戏地图校正区域的图像。跳转到步骤S270。

考虑到游戏地图校正区域可能存在校正过度，导致游戏地图定位不够精确的情况，本实施例中，计算游戏地图校正区域相对于游戏地图检测区域的偏移距离，例如，游戏地图校正区域的中心相对于游戏地图检测区域的中心的偏移距离，游戏地图校正区域的右上角相对于游戏地图检测区域的右上角的偏移距离。如果一个视频帧的游戏地图校正区域相对于该视频帧的游戏地图检测区域的偏移距离超过偏离阈值，说明该视频帧的游戏地图校正区域校正过度，则丢弃该视频帧的游戏地图校正区域，截取该视频帧的游戏地图检测区域的图像，作为该视频帧的游戏地图区域图像；如果偏移距离未超过偏离阈值，说明该视频帧的游戏地图校正区域校正未过度，则截取该视频帧的的游戏地图校正区域的图像，作为该视频帧的游戏地图区域图像。

S270、将游戏地图区域图像输入至第一目标检测模型，得到游戏地图区域图像上游戏元素的显示区域。

S280、将游戏元素的显示区域的图像输入至分类模型，得到游戏元素的状态。

S290、采用游戏元素的显示区域和状态，形成至少一个视频帧展示的游戏场景的描述信息。

其中，S270、S280和S290分别与上述实施例中的S130、S140和S150相同，此处不再赘述。

本实施例中，通过对游戏地图检测区域中的线路特征和先验特征进行特征匹配，校正游戏地图检测区域，以得到游戏地图校正区域，以及如果游戏地图校正区域相对于游戏地图检测区域的偏离距离超过偏离阈值，截取视频帧中的游戏地图检测区域的图像，如果游戏地图校正区域相对于游戏地图检测区域的偏离距离未超过偏离阈值，截取游戏地区校正区域的图像，从而通过特征匹配和区域校正精确定位游戏图像。

实施例三

本实施例对上述实施例中的S130进行说明，在本实施例中，将将游戏地图区域图像输入至第一目标检测模型，得到游戏地图区域图像上游戏元素的显示区域包括：将游戏地图区域图像输入至特征图生成子模型，生成游戏地图区域图像的特征图；将特征图输入至网格分割子模型，将特征图分割为多个网格；网格的尺寸与游戏元素的最小尺寸之差在预设尺寸范围内；将多个网格输入至定位子模型，得到每个网格与多种游戏元素的特征的匹配度；采用非极大值抑制算法，确定匹配度最大的网格所对应的区域为游戏地图区域图像上对应种类的游戏元素的显示区域。图3是本申请实施例三提供的一种游戏场景描述方法的流程图，如图3所示，本实施例提供的方法包括以下步骤。

S310、获取游戏直播视频流中的至少一个视频帧。

S310与S110相同，此处不再赘述。

S320、截取至少一个视频帧中的游戏地图区域图像。

针对S320的描述参见上述实施例一和实施例二，此处不再赘述。

本实施例中，在将游戏地图区域图像输入至第一目标检测模型，得到游戏地图区域图像上游戏元素的显示区域之前，还包括训练第一目标检测模型。在一实施例中，第一目标检测模型的训练过程，包括以下两个步骤，即，所述第一目标检测模块可以通过以下两个步骤的方法训练生成。

第一步：获取多个游戏地图样本图像，即游戏地图的图像，游戏地图样本图像与游戏地图区域图像对应的游戏种类相同，同类游戏的游戏元素的颜色、形状、纹理等图像特征相同，通过游戏地图样本图像训练出的第一目标检测模型能够应用于游戏元素的显示区域识别中。

第二步：将多个游戏地图样本图像和多个游戏地图样本图像上游戏元素的显示区域构成训练样本集，训练第一目标检测模型。在一实施例中，将第一目标检测模型输出的显示区域与样本集中的显示区域的差距作为代价函数，反复迭代第一目标检测模型中的参数，直到代价函数低于损失阈值，第一目标检测模型训练完成。

第一目标检测模型包括顺次连接的特征图生成子模型、网格分割子模型和定位子模型。下面通过S330-S350描述第一目标检测模型的检测过程。

S330、将游戏地图区域图像输入至特征图生成子模型，生成游戏地图区域图像的特征图。

其中，特征图可以是二维的也可以是三维的。

S340、将特征图输入至网格分割子模型，将特征图分割为多个网格；网格的尺寸与游戏元素的最小尺寸之差在预设尺寸范围内。

游戏地图显示有至少一种游戏元素，不同种类的游戏元素的尺寸一般不同，为了避免网格的过度分割，网格尺寸与游戏元素的最小尺寸之差在预设尺寸范围内。在具体实现上，网格的尺寸采用超参数表示，在第一目标检测模型训练之前根据游戏元素的最小尺寸设置。

S350、将多个网格输入至定位子模型，得到每个网格与多种游戏元素的特征的匹配度。

S360、采用非极大值抑制算法，确定匹配度最大的网格对应的区域为游戏地图区域图像上对应种类的游戏元素的显示区域。

定位子模型加载有标准的多种游戏元素的特征，每个网格实质是网格般大小的特征。定位子模型将每个网格分别与标准的多种游戏元素的特征进行匹配，分别得到每个网格与标准的多种游戏元素的特征的匹配度，匹配度例如是这两个特征的余弦或者距离。

示例性地，游戏元素包括游戏角色和防御塔这两种元素。定位子模型加载有标准游戏角色的特征和标准防御塔的特征。定位子模型将网格1与标准游戏角色的特征进行匹配，得到匹配度A，与标准防御塔的特征进行匹配得到匹配度B；接着，定位子模块将网格2与标准游戏角色的特征进行匹配，得到匹配度C，与标准防御塔的特征进行匹配得到匹配度D。

采用非极大值抑制算法在全部网格的范围内寻找极大值，抑制非极大值，得到匹配度C是极大值，则将网格2对应的区域作为游戏角色的显示区域。如果得到匹配度C和匹配度A均是极大值，则将网格1和网格2合并的区域作为游戏角色的显示区域。

在一些实施例中，可能游戏地图中未显示某种游戏元素，则设置与游戏元素种类对应的匹配度阈值。对超过匹配度阈值的匹配度采用非极大值抑制算法。如果所有匹配度均没有超过匹配度阈值，则认为游戏地图中未显示该种游戏元素。

S370、将游戏元素的显示区域的图像输入至分类模型，得到游戏元素的状态。

截取游戏元素的显示区域的图像，并将该图像输入至分类模型。分类模型预先存储有标准游戏元素的状态和对应的特征。分类模型提取该图像中的特征，并与预先存储的对应游戏元素的状态的特征库进行匹配，得到匹配度最高的特征对应的状态。

S380、采用游戏元素的显示区域和状态，形成至少一个视频帧展示的游戏场景的描述信息。

本实施例中，通过特征图生成子模型、网格分割子模型和定位子模型实现游戏元素的精确定位，通过分类模型实现游戏元素的准确分类，从而提高游戏场景描述的准确性。

实施例四

图4是本申请实施例四提供的一种游戏场景描述装置的结构示意图，如图4所示，该装置包括：获取模块41、截取模块42、显示区域识别模块43、状态识别模块44和形成模块45。

获取模块41，设置为获取游戏直播视频流中的至少一个视频帧；截取模块42，设置为截取至少一个视频帧中的游戏地图区域图像；显示区域识别模块43，设置为将游戏地图区域图像输入至第一目标检测模型，得到游戏地图区域图像上游戏元素的显示区域；状态识别模块44，设置为将游戏元素的显示区域的图像输入至分类模型，得到游戏元素的状态；形成模块45，设置为采用游戏元素的显示区域和状态，形成至少一个视频帧展示的游戏场景的描述信息。

本申请通过获取游戏直播视频流中的至少一个视频帧，并截取至少一个视频帧中的游戏地图区域图像，从游戏直播视频流中获取到能够反映游戏态势的游戏地图；通过第一目标检测模型和分类模型，得到游戏地图区域图像上游戏元素的显示区域和状态，将基于深度学习的图像识别算法应用在游戏地图的理解上，提取出游戏元素的显示区域和状态；然后，采用游戏元素的显示区域和状态，形成至少一个视频帧展示的游戏场景的描述信息，从而以游戏地图为识别对象，结合图像识别算法，得到该游戏直播视频流的内部具体的游戏场景，便于后续对特定游戏场景的游戏直播视频流进行推送或者分类，满足用户的个性化需求，有利于提高游戏直播行业的内容分发效率。

在一可选实施方式中，截取模块42是设置为：将至少一个视频帧输入至第二目标检测模型，得到至少一个视频帧中每个视频帧的游戏地图检测区域；通过对游戏地图检测区域中的线路特征和先验特征进行特征匹配，校正游戏地图检测区域，以得到游戏地图校正区域；在一个视频帧的游戏地图校正区域相对于该视频帧的游戏地图检测区域的偏离距离超过偏离阈值的情况下，截取该视频帧中的游戏地图检测区域的图像。在一个视频帧的游戏地图校正区域相对于该视频帧的游戏地图检测区域的偏离距离未超过偏离阈值的情况下，截取该视频帧中的游戏地图校正区域的图像。

在一可选实施方式中，该装置还包括训练模块在将至少一个视频帧中输入至第二目标检测模型之前，设置为获取多个样本视频帧，样本视频帧与至少一个视频帧对应的游戏种类相同；将多个样本视频帧和多个样本视频帧上游戏地图的显示区域构成训练样本集，训练第二目标检测模型。

在一可选实施方式中，训练模块在将游戏地图区域图像输入至第一目标检测模型，得到游戏地图区域图像上游戏元素的显示区域之前，还设置为获取多个游戏地图样本图像，游戏地图样本图像与游戏地图区域图像对应的游戏种类相同；将多个游戏地图样本图像和多个游戏地图样本图像上游戏元素的显示区域构成训练样本集，训练第一目标检测模型。

在一可选实施方式中，第一目标检测模型包括特征图生成子模型、网格分割子模型和定位子模型。显示区域识别模块43是设置为：将游戏地图区域图像输入至特征图生成子模型，生成游戏地图区域图像的特征图；将特征图输入至网格分割子模型，将特征图分割为多个网格，网格的尺寸与游戏元素的最小尺寸之差在预设尺寸范围内；将多个网格输入至定位子模型，得到每个网格与多种游戏元素的特征的匹配度；采用非极大值抑制算法，确定匹配度最大的网格所对应的区域为所述游戏地图区域图像上对应种类的游戏元素的显示区域。

在一可选实施方式中，形成模块45是设置为：根据一个视频帧中游戏元素的显示区域和状态与描述信息的对应关系，得到一个视频帧展示的游戏场景的描述信息；或者，根据两个或两个以上视频帧中游戏元素的显示区域和状态，得到游戏元素的显示区域和状态的变化趋势；根据变化趋势与描述信息的对应关系，得到两个或两个以上视频帧展示的游戏场景的描述信息。

本申请实施例所提供的游戏场景描述装置可执行本申请任意实施例所提供的游戏场景描述方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5是本申请实施例五提供的一种电子设备的结构示意图，该电子设备可以是服务器、主播客户端或者用户客户端。如图5所示，该电子设备包括处理器50、存储器51；电子设备中处理器50的数量可以是一个或多个，图5中以一个处理器50为例；电子设备中的处理器50、存储器51可以通过总线或其他方式连接，图5中以通过总线连接为例。

存储器51作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请实施例中的游戏场景描述方法对应的程序指令/模块(例如，游戏场景描述装置中的获取模块41、截取模块42、显示区域识别模块43、状态识别模块44和形成模块45)。处理器50通过运行存储在存储器51中的软件程序、指令以及模块，从而执行电子设备的多种功能应用以及数据处理，即实现上述的游戏场景描述方法。

存储器51可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器51可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器51可包括相对于处理器50远程设置的存储器，这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例六

本申请实施例六还提供一种其上存储有计算机程序的计算机可读存储介质，计算机程序在由计算机处理器执行时用于执行一种游戏场景描述方法，该方法包括：获取游戏直播视频流中的至少一个视频帧；截取至少一个视频帧中的游戏地图区域图像；将游戏地图区域图像输入至第一目标检测模型，得到游戏地图区域图像上游戏元素的显示区域；将游戏元素的显示区域的图像输入至分类模型，得到游戏元素的状态；采用游戏元素的显示区域和状态，形成至少一个视频帧展示的游戏场景的描述信息。

当然，本申请实施例所提供的一种其上存储有计算机程序的计算机可读存储介质，其计算机程序不限于如上的方法操作，还可以执行本申请任意实施例所提供的游戏场景描述方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以了解到，本申请可借助软件及通用硬件来实现，当然也可以通过硬件来实现。基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括多个指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请任意实施例的方法。

值得注意的是，上述游戏场景描述装置的实施例中，所包括的多个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，每个功能单元的名称也只是为了便于相互区分，并不用于限制本申请的保护范围。

Claims

一种游戏场景描述方法，包括：

获取游戏直播视频流中的至少一个视频帧；

截取所述至少一个视频帧中的游戏地图区域图像；

将所述游戏地图区域图像输入至第一目标检测模型，得到所述游戏地图区域图像上游戏元素的显示区域；

将所述游戏元素的显示区域的图像输入至分类模型，得到所述游戏元素的状态；

采用所述游戏元素的显示区域和状态，形成所述至少一个视频帧展示的游戏场景的描述信息。
根据权利要求1所述的方法，其中，所述截取所述至少一个视频帧中的游戏地图区域图像，包括：

将所述至少一个视频帧输入至第二目标检测模型，得到所述至少一个视频帧中的游戏地图检测区域；

通过对所述游戏地图检测区域中的线路特征和先验特征进行特征匹配，校正所述游戏地图检测区域，以得到游戏地图校正区域；

在一个视频帧的游戏地图校正区域相对于所述一个视频帧的游戏地图检测区域的偏离距离超过偏离阈值的情况下，截取所述一个视频帧中的游戏地图检测区域的图像。
根据权利要求2所述的方法，还包括：

在一个视频帧的游戏地图校正区域相对于所述一个视频帧的游戏地图检测区域的偏离距离未超过所述偏离阈值的情况下，截取所述一个视频帧中的游戏地图校正区域的图像。
根据权利要求2或3所述的方法，在将所述至少一个视频帧输入至第二目标检测模型之前，还包括：

获取多个样本视频帧，所述样本视频帧与所述至少一个视频帧对应的游戏种类相同；

将所述多个样本视频帧和所述多个样本视频帧上游戏地图的显示区域构成训练样本集，训练所述第二目标检测模型。
根据权利要求1-4任一项所述的方法，在所述将所述游戏地图区域图像输入至第一目标检测模型，得到所述游戏地图区域图像上游戏元素的显示区域之前，还包括：

获取多个游戏地图样本图像，所述游戏地图样本图像与所述游戏地图区域图像对应的游戏种类相同；

将所述多个游戏地图样本图像和所述多个游戏地图样本图像上游戏元素的显示区域构成训练样本集，训练所述第一目标检测模型。
根据权利要求1-5任一项所述的方法，其中，所述第一目标检测模型包括特征图生成子模型、网格分割子模型和定位子模型；

所述将所述游戏地图区域图像输入至所述第一目标检测模型，得到所述游戏地图区域图像上游戏元素的显示区域，包括：

将所述游戏地图区域图像输入至所述特征图生成子模型，生成游戏地图区域图像的特征图；

将所述特征图输入至所述网格分割子模型，将所述特征图分割为多个网格，所述网格的尺寸与所述游戏元素的最小尺寸之差在预设尺寸范围内；

将所述多个网格输入至所述定位子模型，得到每个网格与多种游戏元素的特征的匹配度；

采用非极大值抑制算法，确定匹配度最大的网格所对应的区域为所述游戏地图区域图像上对应种类的游戏元素的显示区域。
根据权利要求1-6任一项所述的方法，其中，所述采用所述游戏元素的显示区域和状态，形成所述至少一个视频帧展示的游戏场景的描述信息，包括：

根据一个视频帧中所述游戏元素的显示区域和状态与描述信息的对应关系，得到所述一个视频帧展示的游戏场景的描述信息；

或者，

所述采用所述游戏元素的显示区域和状态，形成所述至少一个视频帧展示的游戏场景的描述信息，包括：

根据多个视频帧中所述游戏元素的显示区域和状态，得到所述游戏元素的显示区域的变化趋势和状态的变化趋势；

根据所述游戏元素的显示区域的变化趋势和状态的变化趋势与所述描述信息的对应关系，得到所述多个视频帧展示的游戏场景的描述信息。
一种游戏场景描述装置，包括：

获取模块，设置为获取游戏直播视频流中的至少一个视频帧；

截取模块，设置为截取所述至少一个视频帧中的游戏地图区域图像；

显示区域识别模块，设置为将所述游戏地图区域图像输入至第一目标检测模型，得到所述游戏地图区域图像上游戏元素的显示区域；

状态识别模块，设置为将所述游戏元素的显示区域的图像输入至分类模型，得到所述游戏元素的状态；

形成模块，设置为采用所述游戏元素的显示区域和状态，形成所述至少一个视频帧展示的游戏场景的描述信息。
一种电子设备，包括：

至少一个处理器；

存储器，设置为存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如权利要求1-7任一所述的游戏场景描述方法。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7任一所述的游戏场景描述方法。