WO2019218791A1

WO2019218791A1 - 虚拟车辆的控制方法、模型训练方法、控制设备及存储介质

Info

Publication number: WO2019218791A1
Application number: PCT/CN2019/081168
Authority: WO
Inventors: 李德元; 李源纯; 姜润知; 黄柳优; 王鹏; 魏学峰
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2018-05-18
Filing date: 2019-04-03
Publication date: 2019-11-21
Also published as: CN108635861A; EP3796112A1; US11135513B2; US20200353356A1; JP6966654B2; EP3796112B1; JP2021515325A; CN108635861B; EP3796112A4

Abstract

一种虚拟车辆的控制方法，该方法包括：获取虚拟车辆行进画面（1101），虚拟车辆行进画面（1101）中包含虚拟车辆在虚拟赛道上行进的画面；从虚拟车辆行进画面（1101）中提取虚拟赛道图像（1102），虚拟赛道图像（1102）是虚拟车辆所处虚拟赛道路段的图像；将虚拟赛道图像（1102）输入行进决策模型，行进决策模型根据样本赛道图像以及样本行进策略训练生成，样本赛道图像和样本行进策略是从样本车辆行进画面中提取得到，样本车辆行进画面中包含真实玩家控制的虚拟车辆在虚拟赛道上行进的画面；根据行进决策模型输出的目标行进策略，控制虚拟车辆行进。

Description

虚拟车辆的控制方法、模型训练方法、控制设备及存储介质

本申请要求于2018年05月18日提交中国专利局，申请号为201810482238.0，申请名称为“控制应用中车辆的方法、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请实施例涉及人工智能(Artificial Intelligence，AI)领域，特别涉及一种虚拟车辆的控制方法、模型训练方法、控制设备及存储介质。

背景技术

在应用开发阶段，开发人员通常采用自动化测试的方式对应用进行测试。比如，对于竞速类游戏应用，开发人员通过虚拟车辆模拟真实玩家操控车辆进行车辆运行的场景，从而对车辆运行类游戏应用进行测试。

为了使虚拟车辆达到更加真实的模拟效果，在一种控制虚拟车辆的方法中，开发人员预先通过状态机(Finite State Machine，FSM)或行为树(Behavior Tree，BT)设置虚拟车辆的行进逻辑。自动化测试过程中，即将虚拟车辆当前所处的状态作为输入状态机或行为树，并根据状态机或行为树输出的行进参数控制虚拟车辆行进。

然而，上述实现方式中，虚拟车辆的行进逻辑需要开发人员手动制定，导致虚拟车辆的开发时长以及开发成本较高；并且，由于手动制定的行进逻辑的灵活性较差，导致虚拟车辆的实际模拟效果不佳。

发明内容

一种虚拟车辆的控制方法，由控制设备执行，所述方法包括：

获取虚拟车辆行进画面，所述虚拟车辆行进画面中包含虚拟车辆在虚拟赛道上行进的画面；

从所述虚拟车辆行进画面中提取虚拟赛道图像，所述虚拟赛道图像是所述虚拟车辆所处虚拟赛道路段的图像；

将所述虚拟赛道图像输入行进决策模型，所述行进决策模型根据样本赛道图像以及样本行进策略训练生成，所述样本赛道图像和所述样本行进策略是从样本车辆行进画面中提取得到，所述样本车辆行进画面中包含真实玩家控制的虚拟车辆在虚拟赛道上行进的画面；及

根据所述行进决策模型输出的目标行进策略，控制所述虚拟车辆行进。

一种模型训练方法，由控制设备执行，所述方法包括：

获取样本车辆行进画面，所述样本车辆行进画面中包含真实玩家控制的虚拟车辆在虚拟赛道上行进的画面；

从所述样本车辆行进画面中提取样本赛道图像和样本行进策略，所述样本行进策略用于指示虚拟车辆在虚拟赛道上的行进方式；及

根据所述样本赛道图像和样本行进策略训练行进决策模型，所述样本赛道图像为所述行进决策模型的输入样本，所述样本行进策略为所述行进决策模型的输出样本。

一种虚拟车辆的控制装置，所述装置包括：

第一获取模块，用于获取虚拟车辆行进画面，所述虚拟车辆行进画面中包含虚拟车辆在虚拟赛道上行进的画面；

第一提取模块，用于从所述虚拟车辆行进画面中提取虚拟赛道图像，所述虚拟赛道图像是所述虚拟车辆所处虚拟赛道路段的图像；

第一输入模块，用于将所述虚拟赛道图像输入行进决策模型，所述行进决策模型根据样本赛道图像以及样本行进策略训练生成，所述样本赛道图像和所述样本行进策略是从样本车辆行进画面中提取得到，所述样本车辆行进画面中包含真实玩家控制的虚拟车辆在虚拟赛道上行进的画面；及

控制模块，用于根据所述行进决策模型输出的目标行进策略，控制所述虚拟车辆行进。

一种模型训练装置，所述装置包括：

第二获取模块，用于获取样本车辆行进画面，所述样本车辆行进画面中包含真实玩家控制的虚拟车辆在虚拟赛道上行进的画面；

第二提取模块，用于从所述样本车辆行进画面中提取样本赛道图像和样本行进策略，所述样本行进策略用于指示虚拟车辆在虚拟赛道上的行进方式；及

训练模块，用于根据所述样本赛道图像和样本行进策略训练行进决策模型，所述样本赛道图像为所述行进决策模型的输入样本，所述样本行进策略为所述行进决策模型的输出样本。

一种控制设备，包括存储器和一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述一个或多个处理器执行以下步骤：

一种非易失性的计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令当被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

一种计算机程序产品，当该计算机程序产品被执行时，其用于执行上述虚拟车辆的控制方法或模型训练方法。

附图说明

下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一个实施例中提供的实施环境的示意图；

图2为一个实施例中提供的虚拟车辆的控制方法的原理示意图；

图3为本申请一个实施例中提供的模型训练方法的流程图；

图4为一个实施例中样本车辆行进画面的示意图；

图5为本申请另一个实施例中提供的模型训练方法的流程图；

图6为根据地图显示区域内的图像确定样本赛道图像的实施示意图；

图7为本申请再一个实施例中提供的模型训练方法的流程图；

图8为对操作控件进行边缘特征提取过程的实施示意图；

图9为本申请又一个实施例中提供的模型训练方法的流程图；

图10为本申请一个实施例中提供的虚拟车辆的控制方法的流程图；

图11为根据虚拟车辆行进画面得到目标行进策略过程的实施示意图；

图12为本申请另一个实施例中提供的虚拟车辆的控制方法的流程图；

图13为本申请再一个实施例中提供的虚拟车辆的控制方法的流程图；

图14为本申请一个实施例中提供的虚拟车辆的控制装置的框图；

图15为本申请一个实施例中提供的模型训练装置的框图；

图16为本申请一个实施例中提供的控制设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例提供的虚拟车辆的控制方法，可以用于竞速类游戏应用的自动化测试场景，或者，竞速类游戏应用中分析玩家操作习惯的场景。当然，该方法也可以适用于其他需要分析/学习玩家操控车辆习惯的应用场景，本申请实施例对此不做限定。

竞速类游戏应用的自动化测试场景

本申请实施例提供的虚拟车辆的控制方法，可以以自动化测试软件的形式(或配合专门的AI芯片)设置在服务器或个人计算机中。以个人计算机为例，当需要对竞速类游戏应用进行测试时，即将个人计算机与安装有竞速类游戏应用的待测试设备相连，个人计算机根据待测试设备显示的应用画面，向待测试设备发送控制指令，以便待测试设备根据控制指令控制竞速类游戏应用中的虚拟车辆行进。

竞速类游戏应用中分析玩家操作习惯的场景

开发人员通常会定期分析玩家的操作习惯，从而根据玩家的操作习惯设计新赛道或对已有赛道进行调整。本申请实施例提供的虚拟车辆的控制方法，可以以软件(或配合专门的AI芯片)形式设置在服务器中。基于终端上传的虚拟车辆运行视频(通过录制虚拟车辆运行类应用的应用画面得到)，服务器通过机器学习算法，训练得到相应的行为决策模型。通过分析行为决策模型的输出特点，开发人员即可确定不同玩家群体(比如不同游戏等级)的操作习惯。

竞速类游戏应用中自动驾驶的场景

在得到训练好的行为决策模型后，可以通过该行为决策模型实现在竞速类游戏应用中自动控制虚拟车辆，无需用户直接操作，就可以实现虚拟车辆的自动驾驶。

请参考图1，其示出了本申请一个实施例提供的实施环境的示意图。该实施环境中包括终端110和控制设备120。

终端110是安装有竞速类游戏应用的电子设备，该电子设备可以是智能手机、平板电脑等等。竞速类游戏应用是指包含虚拟车辆运行场景的游戏应用，该虚拟车辆运行场景是指包含至少两辆虚拟车辆在同一虚拟赛道上运行的场景，该虚拟车辆可以是虚拟汽车、虚拟摩托车、虚拟坦克、虚拟自行车等等，本申请实施例并不对竞速类游戏应用中虚拟车辆的表现形式进行限定。

终端110与控制设备120之间通过有线或无线方式相连。可选的，为了保证数据传输的速率以及稳定性，终端110与控制设备120之间通过数据线相连。

控制设备120是安装有自动化测试软件的设备，该控制设备120可以是个人计算机或服务器，图1中以控制设备120为个人计算机为例进行示例。可选的，本申请实施例中的控制设备120具有模型训练以及虚拟车辆控制功能。

在一种可能的实施方式中，在模型训练阶段，终端110录制至少一段车辆运行视频，该车辆运行视频中包含真实玩家控制车辆在赛道上行进时的车辆行进画面，并将该车辆运行视频发送至控制设备120，由控制设备120根据车辆运行视频中的车辆行进画面，通过机器学习算法训练生成行进策略模型。在虚拟车辆控制阶段，终端110将竞速类游戏应用的实时画面传输至控制设备120，控制设备120根据实时画面和行进策略模型，确定虚拟车辆在该画面下的目标行进策略，并向终端110发送相应的控制指令，以便终端110根据该控制指令模拟出真实玩家控制虚拟车辆的效果。

在其他可能的实施方式中，当安装有竞速类游戏应用的终端110配备有高处理性能的AI芯片时，上述训练模型以及控制虚拟车辆的功能也可以由终端110借助AI芯片单独实现，而无需借助控制设备120，本申请实施例并不对此进行限定。

为了方便表述，下述各个实施例以虚拟车辆的控制方法由控制设备执行为例进行说明。

如图2所示，本申请实施例提供的虚拟车辆的控制方法可以分为模型训练阶段21和模型使用阶段23。其中，在模型训练阶段21，控制设备从玩家视频的玩家车辆行进画面211中，提取样本赛道图像212以及该画面中虚拟车辆的样本行进策略123，并将样本赛道图像212作为训练样本的输入样本，将样本行进策略213作为训练样本的输出样本，从而根据多组训练样本214，通过机器学习算法训练得到行为决策模型215。在模型使用阶段23，控制设备获取到实时的虚拟车辆行进画面231后，从虚拟车辆行进画面231中提取包含虚拟车辆所处虚拟赛道路段的虚拟赛道图像232，并将其输入行为决策模型215中。行为决策模型215根据输入的虚拟赛道图像232，输出相应的目标行进策略233，以便控制设备根据该目标行进策略233模拟真实用户控制虚拟车辆234行进。

下面采用不同的实施例分别对模型训练以及模型使用过程进行说明。

请参考图3，其示出了本申请一个实施例提供的模型训练方法的流程图，该方法用于图1所示实施环境中的控制设备120，该方法包括如下步骤。

步骤301，获取样本车辆行进画面，样本车辆行进画面中包含真实玩家控制的虚拟车辆在虚拟赛道上行进的画面。

可选的，该样本车辆行进画面是样本车辆运行视频的视频帧，该样本车辆运行视频是真实玩家控制应用中的虚拟车辆行进时，终端通过屏幕录制功能录制的视频。

可选的，该样本车辆行进画面中除了包含虚拟车辆在虚拟赛道上行进的画面外，还包含至少一个操作控件，该操作控件用于控制虚拟车辆行进，且不同的操作控件用于触发虚拟车辆采用不同的方式行进。

示意性的，如图4所示，样本车辆行进画面(视频帧)中包含位于左下角的第一控件区域411以及位于右下角的第二控件区域412，其中，第一控件区域411中包含左转控件和右转控件，第二控件区域412中包含刹车控件、漂移控件和道具使用控件。

可选的，该样本车辆行进画面还包含地图显示区域，该地图显示区域用于显示虚拟车辆实时所处虚拟赛道路段的图像，且地图显示区域内显示的图像随着虚拟车辆行进发生变化。除了在地图显示区域中显示虚拟赛道路段的图像外，还可以使用不同的形状或颜色的标识，标记出自身虚拟车辆以及进行虚拟车辆运行的其他虚拟车辆在虚拟赛道路段上的位置。

示意性的，如图4所示，样本车辆行进画面中包含地图显示区域413，且该地图显示区域中采用箭头标记自身虚拟车辆在虚拟赛道路段上的位置，采用圆点标记其他虚拟车辆在虚拟赛道路段上的位置。

可选的，该样本车辆行进画面还可以包含车辆运行信息显示区域，该车辆运行信息显示区域用于显示虚拟车辆在车辆运行过程中的当前速度、当前名次、车辆运行耗时以及圈数等信息。

示意性的，如图4所示，样本车辆行进画面中包含名次显示区域414以及车辆运行耗时显示区域415，其中，名次显示区域414内显示有自身虚拟车辆的实时名次，车辆运行耗时显示区域415内显示有单圈耗时等信息。

步骤302，从样本车辆行进画面中提取样本赛道图像和样本行进策略，样本行进策略用于指示虚拟车辆在虚拟赛道上的行进方式。

其中，从同一样本车辆行进画面中提取到的样本赛道图像和样本行进策略构成一组训练样本。

样本赛道图像用于指示虚拟车辆实时所处的虚拟赛道路段，且该样本赛道图像是样本车辆行进画面的全部图像，或，样本车辆行进画面中的部分图像。

在一种可能的实施方式中，为了避免复杂样本车辆行进画面对后续模型训练造成干扰，当样本车辆行进画面中仅包含简单元素时，控制设备将整个样本车辆行进画面确定为样本赛道图像；当样本车辆行进画面中包含复杂元素时，控制设备提取样本车辆行进画面中指定区域的图像作为样本赛道图像。

样本行进策略用于指示虚拟车辆在当前虚拟赛道路段上采用的行进方式。可选的，控制设备通过图像识别，确定样本车辆行进画面中各个操作控件的触发情况，确定虚拟车辆采用的行进方式，进而生成相应的样本行进策略。

步骤303，根据样本赛道图像和样本行进策略训练行进决策模型，样本赛道图像为行进决策模型的输入样本，样本行进策略为行进决策模型的输出样本。

可选的，行进决策模型用于根据输入的虚拟赛道图像输出目标行进策略，虚拟赛道图像从虚拟车辆行进画面中提取得到，目标行进策略用于控制虚拟车辆行进。

针对不同的样本车辆行进画面，控制设备通过上述步骤301和302提取到多组训练样本，将样本赛道图像作为输入样本，将样本行进策略作为输出样本，训练行为决策模型。其中，样本赛道图像经过预处理后，作为输入样本进行模型训练，该预处理至少包括灰度化、尺寸缩放。

可选的，在建模阶段，基于卷积神经网络模型(Convolutional Neural Network,CNN)构建原始的行为决策模型，后续即通过训练样本对行为决策模型进行训练。其中，根据训练样本训练行为决策模型的具体方式可以参照成熟的卷积神经网络相关算法，本申请实施例在此不再赘述。

综上所述，本申请实施例中，通过从真实玩家控制虚拟车辆在赛道上行进时的样本车辆行进画面中提取样本赛道图像和样本行进策略，从而将样本赛道图像和样本行进策略作为训练样本训练行进决策模型，使得后续通过提取虚拟车辆行进画面中的虚拟赛道图像，并将虚拟赛道图像输入行进决策模型，即可得到相应的目标行进策略，进而根据目标行进策略控制虚拟车辆在赛道上行进；由于该行进决策模型是基于真实玩家控制虚拟车辆的行为训练得到，因此行进决策模型输出的行进策略更加符合真实玩家的操作习惯，从而达到更加真实的模拟效果；同时，训练行进决策模型时使用训练样本均从虚拟赛道图像中提取，避免了开发人员手动设置训练样本，进而降低了开发时长及开发成本。

另外，采用上述模型训练方法训练行为决策模型过程中，控制设备基于计算机视觉(图像识别)技术，直接从样本车辆行进画面中提取训练样本，降低了训练样本的获取难度；同时，由于无需获取应用的内部数据，因此不会对应用的代码造成入侵，也不会对应用的运行造成影响，提高了应用的运行稳定性。

当样本车辆行进画面中包含过多的元素时，若直接将样本车辆行进画面作为样本赛道图像(输入样本)进行模型训练，样本赛道图像中过多的干扰元素将会影响模型训练的准确性。因此，在一种可能的实施方式中，当样本车辆行进画面复杂，且样本车辆行进画面中包含地图显示区域时，控制设备提取地图显示区域内显示的图像作为样本赛道图像。

并且，由于真实玩家通过触发样本车辆行进画面中的操作控件控制车辆的行进方式，且操作控件未被触发与被触发时的显示样式存在差异，因此，控制设备采用图像识别的方式，识别样本车辆行进画面中操作控件的触发情况，进而根据触发情况确定出相应的样本行进策略，下面采用示意性的实施例进行说明。

请参考图5，其示出了本申请另一个实施例提供的模型训练方法的流程图，该方法用于图1所示实施环境中的控制设备120，该方法包括如下步骤。

步骤501，获取样本车辆行进画面，样本车辆行进画面中包含真实玩家控制的虚拟车辆在虚拟赛道上行进的画面。

由于用于训练模型的训练样本都是从样本车辆行进画面中提取，因此，样本车辆行进画面中车辆行进方式的准确性(即训练样本的质量)将直接影响到模型以及后续虚拟车辆的行进质量。为了提高模型质量，可选的，控制设备选取失误次数、赛道碰撞次数、逆行次数或异常操作次数小于阈值的样本车辆运行视频，并从选取的样本车辆运行视频中提取视频帧作为样本车辆行进画面。

可选的，控制设备还可以根据车辆运行视频对应的单圈全速或车辆名次进行样本车辆运行视频筛选，本申请实施例并不对此进行限定。

另外，由于终端录制的车辆运行视频中，除了包含车辆运行画面外，还可能包含非车辆运行画面，比如车辆运行画面前的准备画面、加载画面等等，为了避免从非车辆运行画面中提取训练样本，可选的，控制设备通过图像识别技术，识别样本车辆运行视频的视频帧中是否包含指定操作控件，其中，该指定操作控件为车辆运行画面中特有的操作控件。比如，该指定操作控件为左转弯控件、右转弯控件、漂移控件、加速控件和刹车控件中的至少一种。

其中，识别指定控件可采用相应的图像匹配算法，比如模板匹配、特征点匹配、纹理匹配、颜色匹配等等，本申请实施例对此不做限定。

若视频帧中包含指定操作控件，控制设备则保留该视频帧；若视频帧中不包含指定操作控件，控制设备则丢弃该视频帧。

示意性的，如图4所示，控制设备通过模板匹配的方式，识别出视频帧中包含刹车控件412a，从而确定该视频帧中包含车辆运行画面，并对该视频帧进行保留。

获取到样本车辆行进画面后，控制设备进一步通过步骤502至503从样本车辆行进画面中提取样本赛道图像，并通过步骤504提取样本行进策略。需要说明的是，步骤502至503与步骤504之间不存在严格的先后时序，即控制设备可以同时从样本行进画面中提取样本赛道图像和样本行进策略，本申请实施例并不对两者的执行时序进行限定。

步骤502，根据地图显示区域的坐标，提取地图显示区域内显示的图像。

在一种可能的实施方式中，控制设备中存储有车辆运行画面中地图显示区域的坐标，进行样本赛道图像提取时，控制设备即根据该坐标，提取样本车辆行进画面中地图显示区域内显示的图像

示意性的，如图4所示，控制设备提取地图显示区域413内显示的图像。

在其他可能的实施方式中，控制设备还可以通过图像识别的方式，确定样本车辆行进画面中地图显示区域的坐标，进而提取地图显示区域内显示的图像，本申请对此不做限定。

步骤503，将地图显示区域内显示的图像确定为样本赛道图像。

在一种可能的实施方式中，当地图显示区域内显示的图像不透明(透明度为0)，即无法透过地图显示区域查看到背景时，控制设备对地图显示区域内显示的图像进行灰度以及尺寸缩放处理后，即得到样本赛道图像。

在另一种可能的实施方式中，由于地图显示区域占据车辆运行画面的部分区域，为了方便用户透过地图显示区域查看到背景，地图显示区域内的画面具有透明度(即半透明)。若直接对地图显示区域内显示的图像进行灰度和尺寸缩放处理，其中的背景图像将造成干扰，影响后续模型训练。

为了降低背景图像造成的干扰，在一种可能的实施方式中，控制设备通过如下步骤确定样本赛道图像。

一、对地图显示区域内显示的图像进行特征提取，得到样本赛道影像和样本车辆影像，其中，特征提取方式包括边缘特征提取和/或颜色特征提取。

由于赛道图像、车辆图像和背景图像之间具备各自的特征，因此，控制设备可以对地图显示区域内显示的图像进行特征提取，从而提取出样本赛道影像和样本车辆影像。

可选的，控制设备可以通过边缘特征提取和/或颜色特征提取得到样本赛道影像和样本车辆影像。其中，边缘特征提取时可以采用Canny边缘检测算法或Sobel边缘检测算法，本实施并不对此进行限定。

示意性的，如图6所示，由于赛道通常为连续且光滑的曲线(或直线)，且赛道在地图显示区域中通常显示为白色，因此，控制设备对地图显示区域内的画面61进行边缘特征提取以及颜色特征提取，将白色且连续光滑的曲线确定为赛道，从而得到样本赛道影像62。

又比如，由于赛道上的虚拟车辆通常使用黄色三角(自身虚拟车辆)或红色圆点(其他虚拟车辆)进行标识，因此，控制设备对地图显示区域内的画面61进行边缘特征提取以及颜色特征提取，将黄色三角形确定为自身虚拟车辆，得到第一样本车辆影像63，将红色圆点确定为其他虚拟车辆，得到第二样本车辆影像64。

二、根据提取到的样本赛道影像和样本车辆影像合成样本赛道图像。

提取到样本赛道影像和样本车辆影像后，控制设备对两者进行合成，从而生成样本赛道图像，该样本赛道图像的尺寸与地图显示区域内显示图像的尺寸相同。

示意性的，如图6所示，控制设备将样本赛道影像62、第一样本车辆影像63以及第二样本车辆影像64进行合成，得到样本赛道图像65，相较于原先的图像61，样本赛道图像65中仅保留赛道影像和车辆影像，而不包含背景图像，降低了背景图像造成的干扰。

三、将样本赛道图像缩放至预定尺寸，预定尺寸为行进决策模型规定的输入图像尺寸。

由于最终训练得到的行进决策模型的输入图像尺寸固定，因此，当样本赛道图像的尺寸与预定尺寸不匹配时，控制设备根据预定尺寸对样本赛道图像进行缩放。比如，该预定尺寸为50px×50px。

示意性的，如图6所示，控制设备将样本赛道图像65缩放为预定尺寸的样本赛道图像66。

需要说明的是，控制设备在缩放样本赛道图像前，还需要对样本赛道图像进行灰度处理。

步骤504，根据样本车辆行进画面中的操作控件，确定样本行进策略，操作控件用于控制虚拟车辆。

在不同虚拟赛道路段，玩家通过触发不同的操作控件控制车辆行进，因此，控制设备可以根据样本车辆行进画面中，操作控件的触发情况，确定虚拟车辆所采用的行进策略。在一种可能的实施方式中，控制设备通过图像识别的方式确定各个操作控件的触发情况，如图7所示，本步骤包括如下步骤。

步骤504A，识别样本车辆行进画面中被触发的样本操作控件。

在一种可能的实施方式中，当玩家触发车辆运行画面中的操作控件时，被触发的操作控件的尺寸会发生变化，以此提醒玩家该控件已被触发。因此，控制设备可以根据样本车辆行进画面中操作控件的尺寸，确定出被触发的样本操作控件。可选的，本步骤包括如下步骤：

一、获取各个操作控件的触发尺寸，所述触发尺寸为操作控件被触发时所显示的尺寸。

可选的，控制设备中存储有各个操作控件在触发状态下的触发尺寸，且该触发尺寸大于未触发时操作控件的尺寸。识别被触发的样本操作控件时，控制设备即获取该触发尺寸。

示意性，各个操作控件与触发尺寸的对应关系如表一所示。

表一

操作控件	触发尺寸	原始尺寸
左转控件/右转控件	100px×100px	90px×90px
加速控件	80px×80px	70px×70px
刹车控件	40px×40px	30px×30px
漂移控件	60px×60px	50px×50px

二、将样本车辆行进画面中与触发尺寸匹配的操作控件确定为被触发的样本操作控件。

进一步的，控制设备获取样本车辆行进画面中各个操作控件的实时尺寸，并比较该实时尺寸与其对应的触发尺寸是否一致，若一致，则确定该操作控件为被触发的样本操作控件；若不一致，则确定该操作控件未被触发。

在其他可能的实施方式中，被触发的操作控件可能会出现高亮等显示效果。相应的，控制设备可以预先存储未触发状态下各个操作控件的第一样式模板，以及触发状态下各个操作控件的第二样式模板，并通过模板匹配、特征点匹配、纹理匹配的方式，计算样本车辆行进画面中各个操作控件与样式模板之间的匹配度。若操作控件与第一样式模板的匹配度高度与第二样式模板的匹配度，则确定该操作控件未被触发，若操作控件与第二样式模板的匹配度高度与第一样式模板的匹配度，则确定该操作控件被触发。

可选的，在进行模板匹配时，为了避免半透明显示的操作控件处，背景图像造成的干扰，进行模板匹配前，控制设备可以对操作控件进行边缘特征提取后，再进行模板匹配，从而提高模板匹配的准确性。

示意性的，如图8所示，控制设备对样本车辆行进画面中的右转控件81进行了边缘特征提取，过滤背景图像的干扰，得到右转控件81的控件影像82，从而利用控件影像82进行模板匹配。

在其他可能的实施方式中，若操作控件在触发前后不存在差异，在录制样本车辆运行视频前，终端可以开启触点显示功能，使得样本车辆运行视频的样本车辆行进画面中显示有触点标记，从而根据该触点标记的显示位置确定被触发的样本操作控件。

步骤504B，根据样本操作控件对应的样本行进方式确定样本行进策略。

确定出样本操作控件后，控制设备进一步根据样本操作控件所指示的样本行进方式，确定相应的样本行进策略。

可选的，该样本行进策略采用独热(One-Hot)编码字符串表示，该独热编码字符串的长度为n，且独热编码字符串中每个字符对应一种行进方式，n≥2，n为整数。示意性的，独热编码字符串为长度为6的二进制字符串，且二进制字符串中，每一位二进制字符对应的行进方式分别为[左转，右转，左漂移，右漂移，减速，直行(不操作)]。

当样本行进策略采用上述表现形式时，本步骤包括如下步骤：

一、确定样本操作控件对应的样本行进方式。

可选的，控制设备中预先存储有样本操作控件与样本行进方式之间的对应关系，其中，当目标操作控件为左转控件时，目标行进方式为左转；当目标操作控件为右转控件时，目标行进方式为右转；当目标操作控件为左转控件和漂移控件时，目标行进方式为左漂移；当目标操作控件为右转控件和漂移控件时，目标行进方式为右漂移；当目标操作控件为刹车控件时，目标行进方式为减速。

二、将独热编码字符串中样本行进方式对应字符的值设置为最大值。

确定出样本行进方式后，控制设备将独热编码字符串中样本行进方式对应字符的值设置为最大值，将其余字符的值设置为最小值。

比如，当独热编码字符串为长度为6的二进制字符串，且样本行进方式为左漂移时，控制设备将左漂移对应的字符设置为1，将其余的字符设置为0，得到的独热编码字符串为[0，0，1，0，0，0]。

当然，样本行进策略还可以采用其他的形式，本申请实施例并不对此进行限定。

通过上述步骤，控制设备完成了一组训练样本提取，对于样本车辆运行视频中的各个视频帧，控制设备重复执行上述步骤，从而提取到多组训练样本。

步骤505，根据每组训练样本中的样本行进策略以及训练样本总数，计算每种样本行进策略所占的比例。

行为决策模型的质量与训练样本的数量呈正相关关系，即训练样本的数量越少，模型的质量越差，因此，训练样本的数量需要达到样本阈值。进一步的，为了降低后续对模型输出结果的调优，控制设备还需要对不同行进策略对应训练样本的数量进行调整。

可选的，当得到的训练样本达到样本阈值(比如90000)时，控制设备计算各种样本行进策略对应训练样本所占的比例。

比如，根据样本行进策略对训练样本进行划分，得到左转训练样本、右转训练样本、左漂移训练样本、右漂移训练样本、减速训练样本以及直行训练样本，且各种训练样本所占的比例依次为13％、12％、11％、9％、8％、47％。

步骤506，根据每种样本行进策略所占的比例，对各种训练样本进行样本采样或样本复制，其中，样本采样用于减少训练样本的数量，样本复制用于增加训练样本的数量。

在一种可能的实施方式中，控制设备存储有每种训练样本的目标比例，其中，不同训练样本对应的目标比例可能相同，也可能不同，且不同赛道下，每种训练样本的目标比例可能不同。示意性，某一赛道下，每种训练样本对应的目标比例如表二所示。

表二

训练样本	目标比例
左转训练样本	12％
右转训练样本	12％
左漂移训练样本	11％
右漂移训练样本	10％
减速训练样本	5％
直行训练样本	50％

其中，不同训练样本的目标比例与赛道中的弯道数量、弯道角度、弯道长度、直道长度、直到数量等因素相关。

可选的，当训练样本所占的比例低于目标比例时，控制设备通过样本复制的方式，增加该训练样本的数量；当训练样本所占的比例高于目标比例时，控制设备通过样本采样的方式，减少该训练样本的数量。

结合步骤505中的示例，由于左转训练样本的比例高于目标比例，因此控制设备通过随机采样的方式，增加左转训练样本的数量；由于减速训练样本的比例低于目标比例，因此控制设备通过随机复制的方式，增加减速训练样本的数量。

步骤507，根据样本赛道图像和样本行进策略训练行进决策模型。

本步骤的实施方式与上述步骤303相似，本实施例在此不再赘述。

本实施例中，控制设备通过提取地图显示区域内的图像作为样本赛道图像，避免了样本车辆行进画面中其他画面元素对后续模型训练造成的干扰；同时，在地图显示区域内的图像半透明显示时，通过特征提取的方式，分别提取出赛道影像和车辆影像，并对两者合并生成样本赛道图像，进一步避免了背景图像造成的干扰，提高了训练出的模型的准确性。

本实施例中，控制设备基于操作控件被触发状态下的触发尺寸，确定样本车辆行进画面中被触发的操作控件，进而根据操作控件对应的行进方式确定样本行进策略，提高了确定出的样本行进策略的准确性。

另外，本实施例中，控制设备还根据各种训练样本占样本总数的比例，对各种训练样本进行样本采样或样本复制，避免出现部分训练样本过多，而部分训练样本过少的问题，进而降低后续对模型输出结果进行调优的难度。

虚拟车辆在赛道上所采用的行进方式，不仅与当前所处的虚拟赛道路段有关，还与虚拟车辆当前的车速以及虚拟赛道上的障碍物有关，而此类信息无法从样本赛道图像中提取。比如，在同一虚拟赛道路段上，当车辆车速过快时，虚拟车辆需要采用漂移过弯，当虚拟车辆车速较慢时，则采用正常过弯(非漂移)。为了进一步提高行为决策模型的准确性，从而更加真实的模拟出玩家控制的效果，在图5的基础上，如图9所示，上述步骤506之后还包括如下步骤。

步骤508，对样本车辆行进画面进行数字识别，从样本车辆行进画面中提取样本车辆速度。

在一种可能的实施方式中，控制设备预设存储有样本车辆行进画面中车速显示区域的坐标，从而根据该坐标对车速显示区域内的内容进行数字识别，从而提取到样本车辆速度。

其中，控制设备可以采用成熟的数字识别算法进行数字识别，本申请实施例并不对具体算法进行限定。

示意性的，如图4所示，控制设备对车速显示区域416内的画面进行数字识别，得到虚拟车辆当前的样本车辆速度为165km/h。

步骤509，对样本车辆行进画面进行物体识别，从样本车辆行进画面中提取样本障碍物信息。

在一种可能的实施方式中，控制设备采用图像识别技术，对样本车辆行进画面进行物体识别，从而提取到样本障碍物信息，该样本障碍物信息可以包括障碍物类型、障碍物尺寸、障碍物距离等等。

其中，控制设备可以采用成熟的图像识别算法进行物体识别，本申请实施例并不对具体算法进行限定。

需要说明的是，控制设备可以仅进行样本车辆速度提取或仅进行样本障碍物信息提取，本申请对此不做限定。

相应的，控制设备将利用样本车辆速度和样本障碍物信息进行模型训练，上述步骤507可以被替换为如下步骤。

步骤510，根据样本赛道图像、样本车辆速度、样本障碍物信息以及样本行进策略训练行进决策模型，样本车辆速度和样本障碍物信息为行进决策模型的输入样本。

在训练模型时，控制设备将样本赛道图像、样本车辆速度、样本障碍物信息作为输入样本，将样本行进策略作为输出样本，采用监督式机器学习算法训练模型。其中，根据训练样本训练行为决策模型的具体方式可以参照成熟的卷积神经网络相关算法，本申请实施例在此不再赘述。

本实施例中，通过图像识别技术，控制设备从样本车辆行进画面中提取样本车辆速度和样本障碍物信息，进而利用样本车辆速度和样本障碍物信息进行模型训练，进一步提高了训练出的模型的准确性。

下面采用示意性的实施例对模型使用过程进行说明。

请参考图10，其示出了本申请另一个实施例提供的虚拟车辆的控制方法的流程图，该方法用于图1所示实施环境中的控制设备120，该方法包括如下步骤。当然，该方法也可以由图1所示环境中的终端110单独执行，本申请实施例并不对此进行限定。

步骤1001，获取虚拟车辆行进画面，虚拟车辆行进画面中包含虚拟车辆在虚拟赛道上行进的画面。

与模型训练阶段，控制设备从样本车辆运行视频中获取样本车辆行进画面不同，在模型使用阶段，控制设备从终端(运行有车辆运行类应用)处实时获取虚拟车辆行进画面。可选的，该虚拟车辆行进画面由终端实时主动向控制设备发送。

虚拟车辆行进画面与样本车辆行进画面中显示的内容相似，其不同在于，样本车辆行进画面内显示的虚拟车辆由真实玩家控制，而虚拟车辆行进画面内显示的虚拟车辆由控制设备控制，本实施例在此不再赘述。

示意性的，如图11所示，控制设备获取到虚拟车辆行进画面1101。

步骤1002，从虚拟车辆行进画面中提取虚拟赛道图像，虚拟赛道图像是虚拟车辆所处虚拟赛道路段的图像。

与模型训练阶段，控制设备从样本车辆行进画面中提取样本赛道图像相似的，控制设备通过图像识别技术，从虚拟车辆行进画面中提取虚拟赛道图像。其中，提取虚拟赛道图像的过程可参考上述步骤302，本实施例在此不再赘述。

示意性的，如图11所示，控制设备从虚拟车辆行进画面1101中提取到虚拟赛道图像1102。

步骤1003，将虚拟赛道图像输入行进决策模型，行进决策模型根据样本赛道图像以及样本行进策略训练生成，样本赛道图像和样本行进策略是从样本车辆行进画面中提取得到，样本车辆行进画面中包含真实玩家控制的虚拟车辆在虚拟赛道上行进的画面。

控制设备将提取到虚拟赛道图像作为模型输入，输入到行进决策模型，由行进决策模型根据虚拟赛道图像输出相应的目标行进策略。其中，该虚拟赛道图像输入决策模型前，经过灰度和尺寸缩放处理。

在一种可能的实施方式中，行为决策模型基于卷积神经网络模型，行为决策模型对输入的虚拟赛道图像经过一系列卷积(Convolution)、池化(Pooling)、全连接处理后，最终输出目标行进策略。

示意性的，如图11所示，控制设备将虚拟赛道图像1102缩放为50×50的灰度图片1103，并将4张连续的灰度图片1103作为输入。在卷积层_1(用于进行局部特征提取)，利用32个5×5的卷积核，对各张灰度图片1103进行卷积处理，得到32张50×50特征图1104，并输入池化层_1。在池化层_1，各张特征图1104经过池化处理(比如最大池化处理，用于缩小特征图尺寸)后，变为25×25的特征图1105，并输入卷积层_2。在卷积层_2，利用16个卷积核，对每张特征图1105进行卷积处理，得到16张25×25的特征图1106，并输入卷积层_3。在卷积层_3，利用16个卷积核，对每张特征图1106进行卷积处理，得到16张25×25的特征图1107，并输入隐藏层_1(或称为全连接层)。在隐藏层_1，16张特征图1107经过全连接处理，最终输出相应的目标行进策略1108(触发的操作控件)。

需要说明的是，图11仅为示意性的示例，并不对本申请构成限定。

步骤1004，根据行进决策模型输出的目标行进策略，控制虚拟车辆行进。

可选的，控制设备根据目标行进策略所指示的行进方式，确定该行进方式对应的目标操作控件，进而向终端发送触发该目标操作控件的控制指令；终端接收到控制指令后，即模拟出玩家触发目标操作控件的操作，从而控制虚拟车辆行进。

比如，如图11所示，行为决策模型输出的目标行进策略为左转，控制设备确定左转对应的目标操作控件为左转控件，从而发送触发左转控件的控制指令，由终端根据该控制指令控制虚拟车辆左转。

综上所述，本申请实施例中，通过从真实玩家控制虚拟车辆在虚拟赛道上行进时的样本车辆行进画面中提取样本赛道图像和样本行进策略，从而将样本赛道图像和样本行进策略作为训练样本训练行进决策模型，使得后续通过提取虚拟车辆行进画面中的虚拟赛道图像，并将虚拟赛道图像输入行进决策模型，即可得到相应的目标行进策略，进而根据目标行进策略控制虚拟车辆在赛道上行进；由于该行进决策模型是基于真实玩家控制车辆的行为训练得到，因此行进决策模型输出的行进策略更加符合真实玩家的操作习惯，从而达到更加真实的模拟效果；同时，训练行进决策模型时使用训练样本均从虚拟赛道图像中提取，避免了开发人员手动设置训练样本，进而降低了开发时长及开发成本。

另外，采用上述方法使用行为决策模型过程中，控制设备基于计算机视觉(图像识别)技术，直接从虚拟车辆行进画面中提取虚拟赛道图像，而无需获取虚拟车辆运行类应用的内部数据，因此不会对虚拟车辆运行类应用的代码造成入侵，也不会对虚拟车辆运行类应用的运行造成影响，提高了虚拟车辆运行类应用的运行稳定性。

与模型训练过程中提取样本赛道图像相似的，当虚拟车辆行进画面复杂，且画面中包含地图显示区域时，控制设备提取地图显示区域内显示的图像作为虚拟赛道图像。下面采用示意性的实施例进行说明。

请参考图12，其示出了本申请另一个实施例提供的虚拟车辆的控制方法的流程图，该方法用于图1所示实施环境中的控制设备120，该方法包括如下步骤。

步骤1201，获取虚拟车辆行进画面，虚拟车辆行进画面中包含虚拟车辆在虚拟赛道上行进的画面。

本步骤的实施方式与上述步骤1001相似，本实施例在此不再赘述。

步骤1202，根据地图显示区域的坐标，提取地图显示区域内显示的图像。

与模型训练阶段中，控制设备提取样本赛道图像相似的，控制设备根据预存的地图显示区域的坐标，提取虚拟车辆行进画面中地图显示区域内显示的图像。其中，提取图像的实现方式可以参考步骤502，本实施例在此不再赘述。

步骤1203，将地图显示区域内显示的图像确定为虚拟赛道图像。

在另一种可能的实施方式中，由于地图显示区域占据车辆行进画面的部分区域，为了方便用户透过地图显示区域查看到背景，地图显示区域内的画面具有透明度(即半透明)。若直接对地图显示区域内显示的图像进行灰度和尺寸缩放处理，其中的背景图像将造成干扰，影响后续模型训练。

为了降低背景图像造成的干扰，在一种可能的实施方式中，控制设备通过如下步骤确定虚拟赛道图像。

一、对地图显示区域内显示的图像进行特征提取，得到赛道影像和车辆影像，其中，特征提取方式包括边缘特征提取和/或颜色特征提取。

可选的，控制设备可以通过边缘特征提取和/或颜色特征提取得到赛道影像和车辆影像。其中，边缘特征提取时可以采用Canny边缘检测算法或Sobel边缘检测算法，本实施并不对此进行限定。

二、根据提取到的赛道影像和车辆影像合成虚拟赛道图像。

提取到赛道影像和车辆影像后，控制设备对两者进行合成，从而生成虚拟赛道图像，该虚拟赛道图像的尺寸与地图显示区域内显示图像的尺寸相同。

三、将虚拟赛道图像缩放至预定尺寸，预定尺寸为行进决策模型规定的输入图像尺寸。

为了避免图像尺寸的干扰，当虚拟赛道图像的尺寸与预定尺寸不匹配时，控制设备根据预定尺寸对虚拟赛道图像进行缩放。比如，该预定尺寸为50px×50px。

需要说明的是，控制设备在缩放虚拟赛道图像前，还需要对虚拟赛道图像进行灰度处理。

步骤1204，将虚拟赛道图像输入行进决策模型。

本步骤的实施方式与步骤1003相似，本实施例在此不再赘述。

步骤1205，获取行进决策模型输出的目标行进策略。

目标行进策略用于指示虚拟车辆所需采用的行进方式，该行进方式包括：左转、右转、左漂移、右漂移、减速、直行。

在其他可能的实施方式中，该行进方式还可以包括跳跃、复位等等，本申请实施例并不对具体的行进方式进行限定。

步骤1206，确定目标行进策略对应的目标操作控件，目标操作控件用于触发执行目标行进策略。

可选的，目标行进策略采用独热编码字符串表示，该独热编码字符串的长度为n，且独热编码字符串中每个字符对应一种行进方式，n≥2，n为整数。示意性的，独热编码字符串为长度为6的二进制字符串，且二进制字符串中，每一位二进制字符对应的行进方式分别为[左转，右转，左漂移，右漂移，减速，直行(不操作)]。

当目标行进策略采用上述表现形式时，控制设备确定目标操作控件时可以包括如下步骤：

一、确定独热编码字符串中最大值字符所对应的目标行进方式。

可选的，当独热编码字符串为长度为二进制字符串时，控制设备将二进制字符串中，字符“1”所在字符位对应的行进方式确定为目标行进方式。

比如，结合步骤1206中的示例，当获取到的独热编码字符串为[0，0，1，0，0，0]时，控制设备将左漂移确定为目标行进方式。

二、将目标行进方式对应的操作控件确定为目标操作控件。

可选的，控制设备中预先存储有操作控件与行进方式之间的对应关系，控制设备即基于该对应关系确定目标操作控件。

其中，当目标行进方式为左转时，目标操作控件为左转控件；当目标行进方式为右转时，目标操作控件为右转控件；当目标行进方式为左漂移时，目标操作控件为左转控件和漂移控件；当目标行进方式为右漂移时，目标操作控件为右转控件和漂移控件；当目标行进方式为减速时，目标操作控件为刹车控件。

步骤1207，根据目标操作控件在虚拟车辆行进画面中的坐标，模拟触发目标操作控件的操作。

确定出目标操作控件后，控制设备根据目标操作控件在虚拟车辆行进画面中的坐标，生成相应的控制指令，并将控制指令发送至终端，以便终端根据控制指令模拟触发目标操作控件的操作。

真实玩家触发操作控件时，可能会存在长按操作，即操作控件需要保持触发状态。因此，为了更加真实地模拟出玩家操作行为，避免将长按操作模拟为连续点击操作，在模拟触发目标操作控件的操作时，若目标操作控件由第一操作控件变为第二操作控件，则停止模拟长按第一操作控件的操作，并模拟长按第二操作控件的操作；若目标操作控件未发生变化，则模拟长按目标操作控件的操作；其中，长按操作的时长可以为预设时长，比如，该预设时长为20ms。

本实施例中，控制设备通过提取地图显示区域内的图像作为虚拟赛道图像，避免了虚拟车辆行进画面中其他画面元素对模型使用造成的干扰；同时，在地图显示区域内的图像半透明显示时，通过特征提取的方式，分别提取出赛道影像和车辆影像，并对两者合并生成虚拟赛道图像，进一步避免了背景图像造成的干扰，提高了模型输出的准确性。

虚拟车辆在虚拟赛道上所采用的行进方式，不仅与当前所处的虚拟赛道路段有关，还与虚拟车辆当前的车速以及虚拟赛道上的障碍物有关，而此类信息无法从虚拟赛道图像中提取。比如，在同一虚拟赛道路段上，当车辆车速过快时，虚拟车辆需要采用漂移过弯，当车辆车速较慢时，则采用正常过弯(非漂移)。为了更加真实的模拟出玩家控制的效果，在图12的基础上，如图13所示，上述步骤1201之后还包括如下步骤。

步骤1208，对虚拟车辆行进画面进行数字识别，从虚拟车辆行进画面中提取车辆速度。

在一种可能的实施方式中，控制设备预设存储有车辆运行画面中车速显示区域的坐标，从而根据该坐标对车速显示区域内的内容进行数字识别，从而提取到车辆速度。

步骤1209，对虚拟车辆行进画面进行物体识别，从虚拟车辆行进画面中提取障碍物信息。

在一种可能的实施方式中，控制设备采用图像识别技术，对虚拟车辆行进画面进行物体识别，从而提取到障碍物信息，该障碍物信息可以包括障碍物类型、障碍物尺寸、障碍物距离等等。

需要说明的是，控制设备可以仅进行车辆速度提取或仅进行障碍物信息提取，本申请对此不做限定。

步骤1210，将车辆速度和/或障碍物信息输入行进决策模型。

在一种可能的实施方式中，如图11所示，车辆速度和/或障碍物信息可以在全连接层加入，以便行进决策模型基于车辆速度和/或障碍物信息确定出目标行进策略。

本实施例中，通过图像识别技术，控制设备从虚拟车辆行进画面中提取虚拟车辆实时的车辆速度以及障碍物信息，并将车辆速度和障碍物信息输入行为决策模型训练，使得输出的目标行进策略更加符合真实用户的决策，进一步提高了模拟控制的真实性。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参考图14，其示出了本申请一个实施例提供的虚拟车辆的控制装置的框图。该装置可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：

第一获取模块1410，用于获取虚拟车辆行进画面，所述虚拟车辆行进画面中包含虚拟车辆在虚拟赛道上行进的画面；

第一提取模块1420，用于从所述虚拟车辆行进画面中提取虚拟赛道图像，所述虚拟赛道图像是所述虚拟车辆所处虚拟赛道路段的图像；

第一输入模块1430，用于将所述虚拟赛道图像输入行进决策模型，所述行进决策模型根据样本赛道图像以及样本行进策略训练生成，所述样本赛道图像和所述样本行进策略是从样本车辆行进画面中提取得到，所述样本车辆行进画面中包含真实玩家控制的虚拟车辆在虚拟赛道上行进的画面；

控制模块1440，用于根据所述行进决策模型输出的目标行进策略，控制所述虚拟车辆行进。

可选的，所述虚拟车辆行进画面中包含地图显示区域，所述地图显示区域用于显示所述虚拟车辆实时所处虚拟赛道路段的图像；

所述第一提取模块1420，用于：

根据所述地图显示区域的坐标，提取所述地图显示区域内显示的图像；

将所述地图显示区域内显示的图像确定为所述虚拟赛道图像。

可选的，所述地图显示区域内显示的图像具有透明度，所述第一提取模块1420，用于：

对所述地图显示区域内显示的图像进行特征提取，得到赛道影像和车辆影像，其中，特征提取方式包括边缘特征提取和/或颜色特征提取；

根据提取到的所述赛道影像和所述车辆影像合成所述虚拟赛道图像；

将所述虚拟赛道图像缩放至预定尺寸，所述预定尺寸为所述行进决策模型规定的输入图像尺寸。

可选的，所述虚拟车辆行进画面中还包含操作控件，所述操作控件用于控制所述虚拟车辆；

所述控制模块1440，用于：

确定所述目标行进策略对应的目标操作控件，所述目标操作控件用于触发执行所述目标行进策略；

根据所述目标操作控件在所述虚拟车辆行进画面中的坐标，模拟触发所述目标操作控件的操作。

可选的，所述目标行进策略采用独热One-Hot编码字符串表示，所述独热编码字符串的长度为n，且所述独热编码字符串中每个字符对应一种行进方式，n≥2，n为整数；

所述控制模块1440，用于：

确定所述独热编码字符串中最大值字符所对应的目标行进方式；

将所述目标行进方式对应的操作控件确定为所述目标操作控件；

其中，当所述目标行进方式为左转时，所述目标操作控件为左转控件；当所述目标行进方式为右转时，所述目标操作控件为右转控件；当所述目标行进方式为左漂移时，所述目标操作控件为左转控件和漂移控件；当所述目标行进方式为右漂移时，所述目标操作控件为右转控件和漂移控件；当所述目标行进方式为减速时，所述目标操作控件为刹车控件。

可选的，所述控制模块1440，用于：

若所述目标操作控件由第一操作控件变为第二操作控件，则停止模拟长按所述第一操作控件的操作，并模拟长按所述第二操作控件的操作；

若所述目标操作控件未发生变化，则模拟长按所述目标操作控件的操作。

可选的，所述行进决策模型还根据样本车辆速度和/或样本障碍物信息训练生成，所述样本车辆速度和所述样本障碍物信息是从所述样本车辆运行视频的画面中提取得到；

所述装置还包括：

速度提取模块，用于对所述虚拟车辆行进画面进行数字识别，从所述虚拟车辆行进画面中提取车辆速度；

和/或，

信息提取模块，用于对所述虚拟车辆行进画面进行物体识别，从所述虚拟车辆行进画面中提取障碍物信息；

第二输入模块，用于将所述车辆速度和/或所述障碍物信息输入所述行进决策模型。

请参考图15，其示出了本申请另一个实施例提供的模型训练装置的框图。该装置可以由硬件实现，也可以由硬件执行相应的软件实现。该装置可以包括：

第二获取模块1510，用于获取样本车辆行进画面，所述样本车辆行进画面中包含真实玩家控制的虚拟车辆在虚拟赛道上行进的画面；

第二提取模块1520，用于从所述样本车辆行进画面中提取样本赛道图像和样本行进策略，所述样本行进策略用于指示虚拟车辆在虚拟赛道上的行进方式；

训练模块1530，用于根据所述样本赛道图像和样本行进策略训练行进决策模型，所述样本赛道图像为所述行进决策模型的输入样本，所述样本行进策略为所述行进决策模型的输出样本，所述行进决策模型用于根据输入的虚拟赛道图像输出目标行进策略，所述虚拟赛道图像从虚拟车辆行进画面中提取得到，所述目标行进策略用于控制虚拟车辆行进。

可选的，所述样本车辆行进画面中包含地图显示区域，所述地图显示区域用于显示虚拟车辆实时所处虚拟赛道路段的图像；

所述第二提取模块1520，用于：

将所述地图显示区域内显示的图像确定为所述样本赛道图像；

根据所述样本车辆行进画面中的操作控件，确定所述样本行进策略，所述操作控件用于控制虚拟车辆。

可选的，所述地图显示区域内显示的图像具有透明度，所述第二提取模块1520，用于：

对所述地图显示区域内显示的图像进行特征提取，得到样本赛道影像和样本车辆影像，其中，特征提取方式包括边缘特征提取和/或颜色特征提取；

根据提取到的所述样本赛道影像和所述样本车辆影像合成所述样本赛道图像；

将所述样本赛道图像缩放至预定尺寸，所述预定尺寸为所述行进决策模型规定的输入图像尺寸。

可选的，所述第二提取模块1520，用于：

识别所述样本车辆行进画面中被触发的样本操作控件；

根据所述样本操作控件对应的样本行进方式确定所述样本行进策略。

可选的，所述第二提取模块1520，用于：

获取各个操作控件的触发尺寸，所述触发尺寸为操作控件被触发时所显示的尺寸；

将所述样本车辆行进画面中与所述触发尺寸匹配的操作控件确定为被触发的所述样本操作控件。

可选的，所述样本行进策略采用独热One-Hot编码字符串表示，所述独热编码字符串的长度为n，且所述独热编码字符串中每个字符对应一种行进方式，n≥2，n为整数；

所述第二提取模块1520，用于：

确定所述样本操作控件对应的所述样本行进方式；

将所述独热编码字符串中所述样本行进方式对应字符的值设置为最大值；

其中，当所述目标操作控件为左转控件时，所述目标行进方式为左转；当所述目标操作控件为右转控件时，所述目标行进方式为右转；当所述目标操作控件为左转控件和漂移控件时，所述目标行进方式为左漂移；当所述目标操作控件为右转控件和漂移控件时，所述目标行进方式为右漂移；当所述目标操作控件为刹车控件时，所述目标行进方式为减速。

可选的，所述装置，还包括：

计算模块，用于根据每组训练样本中的所述样本行进策略以及训练样本总数，计算每种样本行进策略所占的比例；

采样复制模块，用于根据每种样本行进策略所占的比例，对各种训练样本进行样本采样或样本复制，其中，样本采样用于减少训练样本的数量，样本复制用于增加训练样本的数量。

可选的，所述装置还包括：

数字识别模块，用于对所述样本车辆行进画面进行数字识别，从所述样本车辆行进画面中提取样本车辆速度；

障碍物识别模块，用于对所述样本车辆行进画面进行物体识别，从所述样本车辆行进画面中提取样本障碍物信息；

所述训练模块1530，还用于：

根据所述样本赛道图像、所述样本车辆速度、所述样本障碍物信息以及所述样本行进策略训练所述行进决策模型，所述样本车辆速度和所述样本障碍物信息为所述行进决策模型的输入样本。

本申请实施例还提供一种控制设备，包括存储器和一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述一个或多个处理器执行上述各个实施例提供的虚拟车辆的控制方法或模型训练方法的步骤。

请参考图16，其示出了本申请一个实施例提供的控制设备的结构示意图。该控制设备用于实施上述实施例提供的方法。具体来讲：

所述控制设备1600包括中央处理单元(CPU)1601、包括随机存取存储器(RAM)1602和只读存储器(ROM)1603的系统存储器1604，以及连接系统存储器1604和中央处理单元1601的系统总线1605。所述控制设备1600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1606，和用于存储操作系统1613、应用程序1614和其他程序模块1615的大容量存储设备907。

所述基本输入/输出系统1606包括有用于显示信息的显示器1608和用于用户输入信息的诸如鼠标、键盘之类的输入设备1609。其中所述显示器1608和输入设备1609都通过连接到系统总线1605的输入输出控制器1610连接到中央处理单元1601。所述基本输入/输出系统1606还可以包括输入输出控制器1610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1610还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1607通过连接到系统总线1605的大容量存储控制器(未示出)连接到中央处理单元1601。所述大容量存储设备1607及其相关联的计算机可读介质为控制设备1600提供非易失性存储。也就是说，所述大容量存储设备1607可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1604和大容量存储设备1607可以统称为存储器。

根据本申请的各种实施例，所述控制设备1600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即控制设备1600可以通过连接在所述系统总线1605上的网络接口单元1611连接到网络1612，或者说，也可以使用网络接口单元1611来连接到其他类型的网络或远程计算机系统。

本申请实施例还提供一种非易失性的计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令当被一个或多个处理器执行时，使得所述一个或多个处理器执行上述各个实施例提供的虚拟车辆的控制方法或模型训练方法的步骤。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM,Resistance Random Access Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

Claims

一种虚拟车辆的控制方法，由控制设备执行，所述方法包括：

获取虚拟车辆行进画面，所述虚拟车辆行进画面中包含虚拟车辆在虚拟赛道上行进的画面；

从所述虚拟车辆行进画面中提取虚拟赛道图像，所述虚拟赛道图像是所述虚拟车辆所处虚拟赛道路段的图像；

将所述虚拟赛道图像输入行进决策模型，所述行进决策模型根据样本赛道图像以及样本行进策略训练生成，所述样本赛道图像和所述样本行进策略是从样本车辆行进画面中提取得到，所述样本车辆行进画面中包含真实玩家控制的虚拟车辆在虚拟赛道上行进的画面；及

根据所述行进决策模型输出的目标行进策略，控制所述虚拟车辆行进。
根据权利要求1所述的方法，其特征在于，所述虚拟车辆行进画面中包含地图显示区域，所述地图显示区域用于显示所述虚拟车辆实时所处虚拟赛道路段的图像；

所述从所述虚拟车辆行进画面中提取虚拟赛道图像，包括：

根据所述地图显示区域的坐标，提取所述地图显示区域内显示的图像；及

将所述地图显示区域内显示的图像确定为所述虚拟赛道图像。
根据权利要求2所述的方法，其特征在于，所述地图显示区域内显示的图像具有透明度，所述将所述地图显示区域内显示的图像确定为所述虚拟赛道图像，包括：

对所述地图显示区域内显示的图像进行特征提取，得到赛道影像和车辆影像，其中，特征提取方式包括边缘特征提取和颜色特征提取中的至少一种；

根据提取到的所述赛道影像和所述车辆影像合成所述虚拟赛道图像；及

将所述虚拟赛道图像缩放至预定尺寸，所述预定尺寸为所述行进决策模型规定的输入图像尺寸。
根据权利要求1所述的方法，其特征在于，所述虚拟车辆行进画面中还包含操作控件，所述操作控件用于控制所述虚拟车辆；

所述根据所述行进决策模型输出的目标行进策略，控制所述虚拟车辆行进，包括：

确定所述目标行进策略对应的目标操作控件，所述目标操作控件用于触发执行所述目标行进策略；及

根据所述目标操作控件在所述虚拟车辆行进画面中的坐标，模拟触发所述目标操作控件的操作。
根据权利要求4所述的方法，其特征在于，所述目标行进策略采用独热One-Hot编码字符串表示，所述独热编码字符串的长度为n，且所述独热编码字符串中每个字符对应一种行进方式，n≥2，n为整数；

所述确定所述目标行进策略对应的目标操作控件，包括：

确定所述独热编码字符串中最大值字符所对应的目标行进方式；

将所述目标行进方式对应的操作控件确定为所述目标操作控件；及

其中，当所述目标行进方式为左转时，所述目标操作控件为左转控件；当所述目标行进方式为右转时，所述目标操作控件为右转控件；当所述目标行进方式为左漂移时，所述目标操作控件为左转控件和漂移控件；当所述目标行进方式为右漂移时，所述目标操作控件为右转控件和漂移控件；当所述目标行进方式为减速时，所述目标操作控件为刹车控件。
根据权利要求4所述的方法，其特征在于，所述模拟触发所述目标操作控件的操作，包括：

当所述目标操作控件由第一操作控件变为第二操作控件时，则停止模拟长按所述第一操作控件的操作，并模拟长按所述第二操作控件的操作；及

当所述目标操作控件未发生变化时，则模拟长按所述目标操作控件的操作。
根据权利要求1所述的方法，其特征在于，所述行进决策模型还根据样本车辆速度训练生成，所述样本车辆速度是从所述样本车辆运行视频的画面中提取得到；

所述获取虚拟车辆行进画面之后，所述方法还包括：

对所述虚拟车辆行进画面进行数字识别，从所述虚拟车辆行进画面中提取车辆速度；及

所述将所述虚拟赛道图像输入行进决策模型之后，所述方法还包括：

将所述车辆速度输入所述行进决策模型。
根据权利要求1至7任一所述的方法，其特征在于，所述行进决策模型还根据样本障碍物信息训练生成，所述样本障碍物信息是从所述样本车辆运行视频的画面中提取得到；

所述获取虚拟车辆行进画面之后，所述方法还包括：

对所述虚拟车辆行进画面进行物体识别，从所述虚拟车辆行进画面中提取障碍物信息；及

所述将所述虚拟赛道图像输入行进决策模型之后，所述方法还包括：

将所述障碍物信息输入所述行进决策模型。
一种模型训练方法，由控制设备执行，所述方法包括：

获取样本车辆行进画面，所述样本车辆行进画面中包含真实玩家控制的虚拟车辆在虚拟赛道上行进的画面；

从所述样本车辆行进画面中提取样本赛道图像和样本行进策略，所述样本行进策略用于指示虚拟车辆在虚拟赛道上的行进方式；及

根据所述样本赛道图像和样本行进策略训练行进决策模型，所述样本赛道图像为所述行进决策模型的输入样本，所述样本行进策略为所述行进决策模型的输出样本。
根据权利要求9所述的方法，其特征在于，所述样本车辆行进画面中包含地图显示区域，所述地图显示区域用于显示虚拟车辆实时所处虚拟赛道路段的图像；

所述从所述样本车辆行进画面中提取样本赛道图像和样本行进策略，包括：

根据所述地图显示区域的坐标，提取所述地图显示区域内显示的图像；

将所述地图显示区域内显示的图像确定为所述样本赛道图像；及

根据所述样本车辆行进画面中的操作控件，确定所述样本行进策略，所述操作控件用于控制虚拟车辆。
根据权利要求10所述的方法，其特征在于，所述地图显示区域内显示的图像具有透明度，所述将所述地图显示区域内显示的图像确定为所述样本赛道图像，包括：

对所述地图显示区域内显示的图像进行特征提取，得到赛道影像和车辆影像，其中，特征提取方式包括边缘特征提取和颜色特征提取中的至少一种；

根据提取到的所述赛道影像和所述车辆影像合成所述样本赛道图像；及

将所述样本赛道图像缩放至预定尺寸，所述预定尺寸为所述行进决策模型规定的输入图像尺寸。
根据权利要求10所述的方法，其特征在于，所述根据所述样本车辆行进画面中的操作控件，确定所述样本行进策略，包括：

识别所述样本车辆行进画面中被触发的样本操作控件；及

根据所述样本操作控件对应的样本行进方式确定样本行进策略。
根据权利要求9所述的方法，其特征在于，所述行进决策模型还根据样本车辆速度训练生成，所述样本车辆速度是从所述样本车辆运行视频的画面中提取得到；

所述获取虚拟车辆行进画面之后，所述方法还包括：

对所述虚拟车辆行进画面进行数字识别，从所述虚拟车辆行进画面中提取车辆速度；及

所述将所述虚拟赛道图像输入行进决策模型之后，所述方法还包括：

将所述车辆速度输入所述行进决策模型。
根据权利要求9至13任一项至所述的方法，其特征在于，所述行进决策模型还根据样本障碍物信息训练生成，所述样本障碍物信息是从所述样本车辆运行视频的画面中提取得到；

所述获取虚拟车辆行进画面之后，所述方法还包括：

对所述虚拟车辆行进画面进行物体识别，从所述虚拟车辆行进画面中提取障碍物信息；及

所述将所述虚拟赛道图像输入行进决策模型之后，所述方法还包括：

将所述障碍物信息输入所述行进决策模型。
一种虚拟车辆的控制装置，所述装置包括：

第一获取模块，用于获取虚拟车辆行进画面，所述虚拟车辆行进画面中包含虚拟车辆在虚拟赛道上行进的画面；

第一提取模块，用于从所述虚拟车辆行进画面中提取虚拟赛道图像，所述虚拟赛道图像是所述虚拟车辆所处虚拟赛道路段的图像；及

第一输入模块，用于将所述虚拟赛道图像输入行进决策模型，所述行进决策模型根据样本赛道图像以及样本行进策略训练生成，所述样本赛道图像和所述样本行进策略是从样本车辆行进画面中提取得到，所述样本车辆行进画面中包含真实玩家控制的虚拟车辆在虚拟赛道上行进的画面；

控制模块，用于根据所述行进决策模型输出的目标行进策略，控制所述虚拟车辆行进。
一种模型训练装置，所述装置包括：

第二获取模块，用于获取样本车辆行进画面，所述样本车辆行进画面中包含真实玩家控制的虚拟车辆在虚拟赛道上行进的画面；

第二提取模块，用于从所述样本车辆行进画面中提取样本赛道图像和样本行进策略，所述样本行进策略用于指示虚拟车辆在虚拟赛道上的行进方式；及

训练模块，用于根据所述样本赛道图像和样本行进策略训练行进决策模型，所述样本赛道图像为所述行进决策模型的输入样本，所述样本行进策略为所述行进决策模型的输出样本。
一种控制设备，包括存储器和一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取虚拟车辆行进画面，所述虚拟车辆行进画面中包含虚拟车辆在虚拟赛道上行进的画面；

从所述虚拟车辆行进画面中提取虚拟赛道图像，所述虚拟赛道图像是所述虚拟车辆所处虚拟赛道路段的图像；

将所述虚拟赛道图像输入行进决策模型，所述行进决策模型根据样本赛道图像以及样本行进策略训练生成，所述样本赛道图像和所述样本行进策略是从样本车辆行进画面中提取得到，所述样本车辆行进画面中包含真实玩家控制的虚拟车辆在虚拟赛道上行进的画面；及

根据所述行进决策模型输出的目标行进策略，控制所述虚拟车辆行进。
一种非易失性的计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令当被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取虚拟车辆行进画面，所述虚拟车辆行进画面中包含虚拟车辆在虚拟赛道上行进的画面；

从所述虚拟车辆行进画面中提取虚拟赛道图像，所述虚拟赛道图像是所述虚拟车辆所处虚拟赛道路段的图像；

将所述虚拟赛道图像输入行进决策模型，所述行进决策模型根据样本赛道图像以及样本行进策略训练生成，所述样本赛道图像和所述样本行进策略是从样本车辆行进画面中提取得到，所述样本车辆行进画面中包含真实玩家控制的虚拟车辆在虚拟赛道上行进的画面；及

根据所述行进决策模型输出的目标行进策略，控制所述虚拟车辆行进。
一种控制设备，包括存储器和一个或多个处理器，所述存储器中储存有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取样本车辆行进画面，所述样本车辆行进画面中包含真实玩家控制的虚拟车辆在虚拟赛道上行进的画面；

从所述样本车辆行进画面中提取样本赛道图像和样本行进策略，所述样本行进策略用于指示虚拟车辆在虚拟赛道上的行进方式；及

根据所述样本赛道图像和样本行进策略训练行进决策模型，所述样本赛道图像为所述行进决策模型的输入样本，所述样本行进策略为所述行进决策模型的输出样本。
一种非易失性的计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令当被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

获取样本车辆行进画面，所述样本车辆行进画面中包含真实玩家控制的虚拟车辆在虚拟赛道上行进的画面；

从所述样本车辆行进画面中提取样本赛道图像和样本行进策略，所述样本行进策略用于指示虚拟车辆在虚拟赛道上的行进方式；及

根据所述样本赛道图像和样本行进策略训练行进决策模型，所述样本赛道图像为所述行进决策模型的输入样本，所述样本行进策略为所述行进决策模型的输出样本。