WO2021097845A1

WO2021097845A1 - 一种仿真场景的图像生成方法、电子设备和存储介质

Info

Publication number: WO2021097845A1
Application number: PCT/CN2019/120408
Authority: WO
Inventors: 于海泳
Original assignee: 驭势（上海）汽车科技有限公司
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2021-05-27
Also published as: CN110998663A; CN110998663B

Abstract

一种仿真场景的图像生成方法、电子设备和存储介质，方法包括：获取场景白模的语义分割信息和实例分割信息（401）；接收场景白模的实例文本信息；实例文本信息为可编辑的信息，且用于描述实例的属性（402）；基于语义分割信息、实例分割信息、实例文本信息和预先训练的生成对抗网络，生成仿真场景的图像（403）。所述方法中，只需建立场景白模，进而基于场景白模的语义分割信息和实例分割信息，可生成仿真场景的图像，无需在场景建立过程中细化颜色、纹理、光照等属性，提高生成效率；并且，实例文本信息可编辑，不同实例文本信息描述不同实例的属性，对应不同的实例，使得仿真场景多样化。

Description

一种仿真场景的图像生成方法、电子设备和存储介质

技术领域

本公开实施例涉及技术领域，具体涉及一种仿真场景的图像生成方法、电子设备和存储介质。

背景技术

仿真模拟是目前智能驾驶、机器人等人工智能技术研发过程中技术探索和技术验证测试的重要环节，尤其是在目前的智能驾驶领域，仿真场景可以产生海量的训练数据训练计算机视觉算法(目标检测识别、分割、跟踪等)和决策算法(模仿学习和强化学习等)，以及提供后期几乎无限制的算法验证测试场景。

对于计算机视觉算法进行仿真场景的训练和验证，需要搭建仿真场景，然而，目前仿真场景的搭建过程为：首先是花费大量的人力物力去现场测绘，然后根据测绘数据在仿真引擎中手工建立模型并细化颜色、纹理、光照等细节。可见，仿真场景的搭建过程繁琐，费时费力，效率低，并且搭建的仿真场景可扩展性差且仿真引擎渲染对设备硬件软件要求高。

上述对问题的发现过程的描述，仅用于辅助理解本公开的技术方案，并不代表承认上述内容是现有技术。

发明内容

为了解决现有技术存在的至少一个问题，本公开的至少一个实施例提供了一种仿真场景的图像生成方法、电子设备和存储介质。

第一方面，本公开实施例提出一种仿真场景的图像生成方法，所述方法包括：

获取场景白模的语义分割信息和实例分割信息；

接收所述场景白模的实例文本信息；所述实例文本信息为可编辑的信息，且用于描述实例的属性；

基于所述语义分割信息、所述实例分割信息、所述实例文本信息和预先训练的生成对抗网络，生成仿真场景的图像。

第二方面，本公开实施例还提出一种电子设备，包括：处理器和存储器；所述处理器通过调用所述存储器存储的程序或指令，用于执行如第一方面所述方法的步骤。

第三方面，本公开实施例还提出一种非暂态计算机可读存储介质，用于存储程序或指令，所述程序或指令使计算机执行如第一方面所述方法的步骤

可见，本公开实施例的至少一个实施例中，只需建立场景白模，进而基于场景白模的语义分割信息和实例分割信息，可生成仿真场景的图像，无需在场景建立过程中细化颜色、纹理、光照等属性，提高生成效率；并且，实例文本信息可编辑，不同实例文本信息描述不同实例的属性，对应不同的实例，使得仿真场景多样化。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种仿真场景示意图；

图2是本公开实施例提供的一种电子设备的框图；

图3是本公开实施例提供的一种仿真场景图像生成系统；

图4是本公开实施例提供的一种仿真场景的图像生成方法流程图；

图5是本公开实施例提供的一种自编码网络的架构图；

图6是本公开实施例提供的一种生成对抗网络的架构图；

图7是本公开实施例提供的一种判别网络的架构图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面结合附图和实施例对本公开作进一步的详细说明。可以理解的是，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。此处所描述的具体实施例仅仅用于解释本公开，而非对本公开的限定。基于所描述的本公开的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。

针对目前仿真场景的搭建过程为：首先是花费大量的人力物力去现场测绘，然后根据测绘数据在仿真引擎中手工建立模型并细化颜色、纹理、光照等细节。可见，仿真场景的搭建过程繁琐，费时费力，效率低，并且搭建的仿真场景可扩展性差且仿真引擎渲染对设备硬件软件要求高。本公开实施例提供一种仿真场景的图像生成方案，只需建立场景白模，进而基于场景白模的语义分割信息和实例分割信息，可生成仿真场景的图像，无需在场景建立过程中细化颜色纹理光照等属性，提高生成效率；并且，实例文本信息可编辑，不同实例文本信息描述不同实例的属性，对应不同的实例，使得仿真场景多样化。

在一些实施例中，本公开实施例提供的仿真场景的图像生成方案，可应用于电子设备。仿真场景例如为智能驾驶仿真场景，仿真场景例如为仿真引擎生成的仿真场景。在一些实施例中，仿真引擎可包括但不限于：虚幻引擎(Unreal Engine)、Unity等。

图1为本公开实施例提供的一种仿真场景示意图，如图1所示，仿真场景中可包括但不限于：绿化带、人行道、机动车道、路灯、树木以及真实环境中的其他设施等静态对象；以及至少一辆虚拟车辆101、智能驾驶车辆102、行人以及其他动态对象。

虚拟车辆101可包括：寻路系统以及其他用于行驶的系统。在一些实施例中，虚拟车辆101可包括：寻路系统、感知系统、决策系统、控制系统以及其他用于行驶的系统。

寻路系统用于构建路网拓扑结构，并基于构建的构建路网拓扑结构进行寻路。在一些实施例中，寻路系统用于获取高精度地图，并基于高精度地图，构建路网拓扑结构。其中，高精度地图为智能驾驶领域中使用的地理地图，且高精度地图为描述仿真场景的地图。高精度地图与传统地图相比，不同之处在于：1)高精度地图包括大量的驾驶辅助信息，例如依托道路网的精确三维表征：包括交叉路口局和路标位置等；2)高精度地图还包括大量的语义信息，例如报告交通灯上不同颜色的含义，又例如指示道路的速度限制，以及左转车道开始的位置；3)高精度地图能达到厘米级的精度，确保智能驾驶车辆的安全行驶。因此，寻路系统生成的寻路路径可以为决策系统提供更加丰富的规划决策依据，例如当前位置的车道数目，宽度，朝向，各种交通附属物的位置等。

感知系统用于进行碰撞检测(Collision Detection)。在一些实施例中，感知系统用于感知仿真场景中的障碍物。

决策系统用于基于寻路系统生成的寻路路径、感知系统感知的障碍物和虚拟车辆101的运动学信息，通过预设的行为树(Behavior Tree)，决策虚拟车辆101的驾驶行为。其中，运动学信息例如包括但不限于速度、加速度和其他与运动相关的信息。

控制系统用于基于决策系统决策的驾驶行为，控制虚拟车辆101行驶，并将虚拟车辆101的运动学信息反馈给决策系统。

在一些实施例中，虚拟车辆101中各系统的划分仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如，寻路系统的功能可集成到感知系统、决策系统或控制系统中；任意两个或两个以上系统也可以实现为一个系统；任意一个系统也可以划分为多个子系统。可以理解的是，各个系统或子系统能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。

智能驾驶车辆102至少包括：传感器组和智能驾驶系统。传感器组用于采集车辆外界环境的数据和探测车辆的位置数据。在一些实施例中，传感器组还用于采集车辆的动力学数据。智能驾驶系统用于获取传感器组的数据，基于传感器组的数据进行环境感知和车辆定位，并基于环境感知信息和车辆定位信息进行路径规划和决策，以及基于规划的路径生成车辆控制指令，从而控制车辆按照规划路径行驶。

需要说明的是，由于虚拟车辆101和智能驾驶车辆102均为仿真场景中生成的，并非真实车辆，因此，虚拟车辆101和智能驾驶车辆102可由后台处理器来控制行驶，后台处理器可以是服务器、计算机、平板电脑等具有处理功能的硬件设备。

图2为本公开实施例提供的一种电子设备的框图。电子设备可支持仿真系统的运行。其中，仿真系统可提供仿真场景并生成虚拟车辆以及提供其他用于仿真的功能。仿真系统可以为基于仿真引擎的仿真系统。

如图2所示，电子设备包括：至少一个处理器201、至少一个存储器202和至少一个通信接口203。电子设备中的各个组件通过总线系统204耦合在一起。通信接口203，用于与外部设备之间的信息传输。可理解，总线系统204用于实现这些组件之间的通信连接。总线系统204除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但为了清楚说明起见，在图2中将各种总线都标为总线系统204。

可以理解，本实施例中的存储器202可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。

在一些实施方式中，存储器202存储了如下的元素，可执行单元或者数据结构，或者他们的子集，或者他们的扩展集：操作系统和应用程序。

其中，操作系统，包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序，包含各种应用程序，例如媒体播放器(Media Player)、浏览器(Browser)等，用于实现各种应用业务。实现本公开实施例提供的仿真场景的图像生成方法的程序可以包含在应用程序中。

在本公开实施例中，处理器201通过调用存储器202存储的程序或指令，具体的，可以是应用程序中存储的程序或指令，处理器201用于执行本公开实施例提供的仿真场景的图像生成方法各实施例的步骤。

本公开实施例提供的仿真场景的图像生成方法可以应用于处理器201中，或者由处理器201实现。处理器201可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器201中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器201可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本公开实施例提供的仿真场景的图像生成方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器202，处理器201读取存储器202中的信息，结合其硬件完成方法的步骤。

图3为本公开实施例提供的一种仿真场景图像生成系统300的框图。在一些实施例中，仿真场景图像生成系统300可以实现为图2所示的电子设备中运行的系统，或者电子设备中运行的仿真系统的一部分。在一些实施例中，仿真场景图像生成系统可存储在图2所示的电子设备的存储器202中。图2中处理器201通过调用存储器202存储的仿真场景图像生成系统300，实现仿真场景图像生成系统300包括的各单元的功能。在一些实施例中，仿真场景图像生成系统300可应用于图2所示的电子设备的处理器201中，或者由处理器201实现。仿真场景图像生成系统300的各单元可以通过处理器201中的硬件的集成逻辑电路或者软件形式的指令完成。

如图3所示，仿真场景图像生成系统300可划分为多个单元，例如可包括但不限于：获取单元301、接收单元302和生成单元303。

获取单元301，用于获取场景白模的语义分割信息和实例分割信息。其中，场景白模可以理解为没有添加颜色、纹理、光照等属性信息的场景模型。在一些实施例中，场景白模由仿真引擎建立，且场景白模的语义分割信息和实例分割信息由所述仿真引擎基于场景白模生成。例如，场景白模由人工在仿真引擎中建立，且无需人工添加颜色、纹理、光照等属性信息；仿真引擎基于场景白模可自动生成语义分割信息和实例分割信息。

在一些实施例中，语义分割信息用于区分或描述仿真场景中不同类别的物体：人、车、动物、建筑等；实例分割信息用于区分或描述仿真场景中每个物体：不同的人、不同的车、不同的动物、不同的建筑等。也即，对于仿真场景中的一个物体，语义分割信息表明该物体是人还是车；如果是车，实例分割信息表明该车是奥迪还是大众；实例文本信息表明该车是白车还是黑车。

接收单元302，用于接收所述场景白模的实例文本信息；所述实例文本信息为可编辑的信息，且用于描述实例的属性。通过改变实例文本信息的内容，实现对实例属性的编辑，不同实例属性对应不同的实例。在一些实施例中，场景白模的实例文本信息由人工输入，且人工输入实例文本信息的过程中，可编辑实例文本信息的内容，接收单元302接收人工输入的实例文本信息。本实施例中，由于采用实例文本信息描述实例的属性，因此将实例文本信息设置为可编辑的信息，实现了对实例的属性的可编辑性。进而仿真场景是具备实例属性可编辑性的场景。在一些实施例中，实例的属性可包括但不限于颜色、纹理、光照等。

生成单元303，用于基于语义分割信息、实例分割信息、实例文本信息和预先训练的生成对抗网络(Generative Adversarial Networks，GAN)，生成仿真场景的图像。在一些实施例中，实例文本信息并非直接作为生成对抗网络的输入，而是由生成单元303基于实例文本信息和场景白模对应的至少一张真实图像，生成特征图。其中，真实图像仅在训练过程中会提供。进而生成单元303基于语义分割信息、实例分割信息和特征图，通过预先训练的生成对抗网络，生成仿真场景的图像。在一些实施例中，生成单元303将语义分割信息、实例分割信息和特征图级联(实质为向量级联，例如在channel维度进行级联，或者元素对应相加)后输入预先训练的生成对抗网络，生成仿真场景的图像。

本实施例中，由特征图输入生成对抗网络来调整场景中实例的颜色、纹理、光照等属性。另外，生成单元303生成仿真场景的图像为高分辨率图像，仿真场景为高分辨率场景，便于人工智能技术研发过程中技术探索和技术验证测试。

在一些实施例中，生成单元303基于实例文本信息和场景白模对应的至少一张真实图像，生成特征图，具体为：将实例文本信息进行嵌入处理和条件增强处理，得到处理结果；将场景白模对应的至少一张真实图像进行编码处理，得到每张真实图像对应的隐变量，其中，隐变量可以理解为中间变量，一张图像对应一个隐变量；将每张真实图像对应的隐变量进行采样，得到采样结果，其中，通过隐变量采样来调整仿真场景中实例的属性信息，实现仿真场景的图像的多样化；将处理结果和采样结果进行解码处理，生成特征图。

在一些实施例中，生成单元303将实例文本信息进行嵌入处理和条件增强处理，得到处理结果，具体为：将实例文本信息输入预先训练的嵌入(Embedding)网络，嵌入网络的输出通过预先训练的条件增强(Conditioning Augmentation)网络，得到处理结果。其中，嵌入网络和条件增强网络均为神经网络且网络参数通过预先训练得到。

在一些实施例中，生成单元303将场景白模对应的至少一张真实图像输入预先训练的自编码网络的编码器进行编码处理，得到每张真实图像对应的隐变量；自编码网络将每张真实图像对应的隐变量进行采样，得到采样结果；自编码网络的解码器将处理结果和采样结果进行解码处理，生成特征图。在一些实施例中，自编码网络为变分自编码网络。

在一些实施例中，自编码网络的架构如图5所示，包括卷积层和反卷积层，其中，卷积层可以理解为自编码网络的编码器，反卷积层可以理解为自编码网络的解码器。自编码网络的输入信息为场景白模对应的至少一张真实图像，也即自编码网络的卷积层的输入为场景白模对应的至少一张真实图像。自编码网格的输出信息为特征图，也即自编码网络的反卷积层的输出为特征图。

图5中，实例文本信息输入预先训练的嵌入网络，嵌入网络的输出为一组低维度向量，嵌入网络的输出通过预先训练的条件增强网络，得到处理结果。自编码网络将每张真实图像对应的隐变量进行采样，得到采样结果。处理结果和采样结果级联(实质为向量级联，例如在channel维度进行级联，或者元素对应相加)后输入到自编码网络的反卷积层进行解码处理，生成特征图。

在一些实施例中，生成单元303中所使用的生成对抗网络，包括生成网络和判别网络，其中，生成网络由嵌套的多个生成器构成，其中，生成器包括卷积层和反卷积层，且嵌套在内的生成器的反卷积层的最后一层特征图输出作为嵌套在外的生成器的反卷积层的输入。

需要说明的是，由于判别网络主要用于训练生成网络，生成网络训练完成后，会独立生成仿真场景的图像，因此，下文中，在描述生成网络的功能时，均采用了生成对抗网络替代生成网络，也即生成对抗网络生成仿真场景的图像，本领域技术人员可以理解是由生成对抗网络的生成网络生成仿真场景的图像。在描述联合训练时，单独提及判别网络，不代表判别网络不属于生成对抗网络。

在一些实施例中，生成单元303具体用于：将语义分割信息、实例分割信息和特征图输入到生成对抗网络最外层的生成器的卷积层；将语义分割信息、实例分割信息和特征图进行下采样处理后输入到生成对抗网络内层的生成器的卷积层；生成对抗网络最外层的生成器的反卷积层输出仿真场景的图像。其中，内层的不同生成器对应的下采样处理的倍数可以不同。本实施例中，嵌套在内的生成器的输入需要进行下采样，使得输出的分辨率减小，从而关注输出的整体信息。最外层的生成器的反卷积层的输出即生成对抗网络的输出，分辨率较高，关注输出的细节信息。综合来看，生成对抗网络输出的仿真场景的图像既关注了整体又关注了细节。

在一些实施例中，生成对抗网络的架构如图6所示，由N(N≥3)个生成器嵌套构成，从内到外分别记为生成器1，生成器2，……，生成器N。每个生成器均包括卷积层和反卷积层。生成对抗网络的输入信息为语义分割信息、实例分割信息和特征图。生成对抗网络的输出信息为仿真场景的图像，也即生成器N的反卷积层的输出为仿真场景的图像。

图6中，以N＝3为例，生成对抗网络的输入信息输入到生成器N的卷积层。生成对抗网络的输入信息进行下采样处理后输入到生成器2的卷积层。生成对抗网络的输入信息再次进行下采样处理后输入到生成器1的卷积层。其中，下采样的目的是缩小分辨率，例如，缩小比例为1/2×1/2；若生成器N的输出为200×200分辨率，则生成器2的输出为100×100分辨率，生成器1的输出为50×50分辨率。可见，生成器N的分辨率高，更关注细节；生成器2与生成器1分辨率低，更关注整体。因此，生成对抗网络输出的高清图像更加合理，既关注了整体，又关注了细节。

在一些实施例中，生成单元303所使用的生成对抗网络、嵌入网络、条件增强网络和自编码网络通过联合训练得到。在一些实施例中，联合训练可包括：获取样本场景的语义分割信息、实例分割信息、实例文本信息和样本图像；进而基于语义分割信息、实例分割信息、实例文本信息和样本图像进行联合训练。

在一些实施例中，生成单元303所使用的生成对抗网络、嵌入网络、条件增强网络和自编码网络基于语义分割信息、实例分割信息、实例文本信息和样本图像进行联合训练，具体为：

将实例文本信息输入嵌入网络，嵌入网络的输出通过条件增强网络，得到处理结果；将样本图像输入自编码网络的编码器进行编码处理，得到每张样本图像对应的隐变量；自编码网络将每张样本图像对应的隐变量进行采样，得到采样结果；自编码网络的解码器将处理结果和采样结果进行解码处理，生成特征图；将语义分割信息、实例分割信息和特征图输入到生成对抗网络最外层的生成器的卷积层；将语义分割信息、实例分割信息和特征图进行下采样处理后输入到生成对抗网络内层的生成器的卷积层；生成对抗网络最外层的生成器的反卷积层输出生成图像；将生成图像、样本图像、语义分割信息、实例分割信息和特征图，通过判别网络，完成训练。

在一些实施例中，生成对抗网络输出的生成图像是伪图片，作为训练数据，其特征值标记为“fake”，用以表示它们是随机生成的图片而非真实图片。相对地，样本图像是真实拍摄的图片，其特征值可以标记为“real”。将生成图像、样本图像、语义分割信息、实例分割信息和特征图，通过判别网络，不断的迭代，使得判别网络能更加精准地判断真实图片与伪图片，从而对生成对抗网络进行反馈，使得生成对抗网络生成以假乱真的图片。

由于生成对抗网络被证实具有收敛的性质，判别网络在未满足每一个判别器的判断概率值均收敛至0.5时，可以继续进行训练，直到通过多次的迭代满足训练目标。所述的“训练目标”可以为预设的生成对抗网络生成图片是否满足要求的目标。在一实施例中，由于函数的收敛性质，生成对抗网络的训练目标例如可以是所预测的图片的特征值满足指定要求，例如接近0.5。在判断出满足收敛至0.5后停止训练。

在一些实施例中，判别网络由级联的多个判别器构成；最上级的判别器的输入为生成图像、样本图像、语义分割信息、实例分割信息和特征图；生成图像、样本图像、语义分割信息、实例分割信息和特征图经过下采样处理后输入下级的判别器；其中，不同级的判别器对应的下采样处理的倍数可以不同。

在一些实施例中，判别网络的架构如图7所示，由N(N≥3)个判别器级联构成，从上到下分别记为判别器1，判别器2，……，判别器N。判别网络的输入信息为生成图像、样本图像、语义分割信息、实例分割信息和特征图。判别网络的输出信息为判断概率值。

图7中，以N＝3为例，判别网络的输入信息输入到判别器1。判别网络的输入信息进行下采样处理后输入到判别器2。判别网络的输入信息再次进行下采样处理后输入到判别器N。若判别器1、判别器2和判别器3输出的判断概率值均收敛到0.5，联合训练结束。

在一些实施例中，仿真场景图像生成系统300可以为软件系统、硬件系统或者软硬件结合的系统。例如，仿真场景图像生成系统300是运行在操作系统上的软件系统，电子设备的硬件系统是支持操作系统运行的硬件系统。

在一些实施例中，仿真场景图像生成系统300中各单元的划分仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如获取单元301、接收单元302和生成单元303可以实现为一个单元；获取单元301、接收单元302或生成单元303也可以划分为多个子单元。可以理解的是，各个单元或子单元能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能。

图4为本公开实施例提供的一种仿真场景的图像生成方法流程图。该方法的执行主体为电子设备，在一些实施例中，该方法的执行主体为电子设备中运行的仿真场景图像生成系统；或者该方法的执行主体为电子设备中运行的仿真系统，其中，仿真场景图像生成系统可以为仿真系统的一部分。

如图4所示，仿真场景的图像生成方法可包括但不限于如下步骤401至403：

401、获取场景白模的语义分割信息和实例分割信息。其中，场景白模可以理解为没有添加颜色、纹理、光照等属性信息的场景模型。在一些实施例中，场景白模由仿真引擎建立，且场景白模的语义分割信息和实例分割信息由所述仿真引擎基于场景白模生成。例如，场景白模由人工在仿真引擎中建立，且无需人工添加颜色、纹理、光照等属性信息；仿真引擎基于场景白模可自动生成语义分割信息和实例分割信息。

402、接收所述场景白模的实例文本信息；所述实例文本信息为可编辑的信息，且用于描述实例的属性。通过改变实例文本信息的内容，实现对实例属性的编辑，不同实例属性对应不同的实例。在一些实施例中，场景白模的实例文本信息由人工输入，且人工输入实例文本信息的过程中，可编辑实例文本信息的内容，步骤402接收人工输入的实例文本信息。本实施例中，由于采用实例文本信息描述实例的属性，因此将实例文本信息设置为可编辑的信息，实现了对实例的属性的可编辑性。进而仿真场景是具备实例属性可编辑性的场景。在一些实施例中，实例的属性可包括但不限于颜色、纹理、光照等。

403、基于所述语义分割信息、所述实例分割信息、所述实例文本信息和预先训练的生成对抗网络，生成仿真场景的图像。在一些实施例中，实例文本信息并非直接作为生成对抗网络的输入，而是基于实例文本信息和场景白模对应的至少一张真实图像，生成特征图。进而基于语义分割信息、实例分割信息和特征图，通过预先训练的生成对抗网络，生成仿真场景的图像。在一些实施例中，将语义分割信息、实例分割信息和特征图级联(实质为向量级联)后输入预先训练的生成对抗网络，生成仿真场景的图像。

本实施例中，由特征图输入生成对抗网络来调整场景中实例的颜色、纹理、光照等属性。另外，生成仿真场景的图像为高分辨率图像，仿真场景为高分辨率场景，便于人工智能技术研发过程中技术探索和技术验证测试。

在一些实施例中，基于实例文本信息和场景白模对应的至少一张真实图像，生成特征图，具体为：将实例文本信息进行嵌入处理和条件增强处理，得到处理结果；将场景白模对应的至少一张真实图像进行编码处理，得到每张真实图像对应的隐变量，其中，隐变量可以理解为中间变量，一张图像对应一个隐变量；将每张真实图像对应的隐变量进行采样，得到采样结果，其中，通过隐变量采样来调整仿真场景中实例的属性信息，实现仿真场景的图像的多样化；将处理结果和采样结果进行解码处理，生成特征图。

在一些实施例中，将实例文本信息进行嵌入处理和条件增强处理，得到处理结果，具体为：将实例文本信息输入预先训练的嵌入(Embedding)网络，嵌入网络的输出通过预先训练的条件增强(Conditioning Augmentation)网络，得到处理结果。其中，嵌入网络和条件增强网络均为神经网络且网络参数通过预先训练得到。

在一些实施例中，将场景白模对应的至少一张真实图像输入预先训练的自编码网络的编码器进行编码处理，得到每张真实图像对应的隐变量；自编码网络将每张真实图像对应的隐变量进行采样，得到采样结果；自编码网络的解码器将处理结果和采样结果进行解码处理，生成特征图。在一些实施例中，自编码网络为变分自编码网络。

图5中，实例文本信息输入预先训练的嵌入网络，嵌入网络的输出为一组低维度向量，嵌入网络的输出通过预先训练的条件增强网络，得到处理结果。自编码网络将每张真实图像对应的隐变量进行采样，得到采样结果。处理结果和采样结果级联(实质为向量级联)后输入到自编码网络的反卷积层进行解码处理，生成特征图。

在一些实施例中，生成对抗网络，包括生成网络和判别网络，其中，生成网络由嵌套的多个生成器构成，其中，生成器包括卷积层和反卷积层，且嵌套在内的生成器的反卷积层的最后一层特征图输出作为嵌套在外的生成器的反卷积层的输入。

在一些实施例中，将语义分割信息、实例分割信息和特征图输入到生成对抗网络最外层的生成器的卷积层；将语义分割信息、实例分割信息和特征图进行下采样处理后输入到生成对抗网络内层的生成器的卷积层；生成对抗网络最外层的生成器的反卷积层输出仿真场景的图像。其中，内层的不同生成器对应的下采样处理的倍数可以不同。本实施例中，嵌套在内的生成器的输入需要进行下采样，使得输出的分辨率减小，从而关注输出的整体信息。最外层的生成器的反卷积层的输出即生成对抗网络的输出，分辨率较高，关注输出的细节信息。综合来看，生成对抗网络输出的仿真场景的图像既关注了整体又关注了细节。

在一些实施例中，生成对抗网络、嵌入网络、条件增强网络和自编码网络通过联合训练得到。在一些实施例中，联合训练可包括：获取样本场景的语义分割信息、实例分割信息、实例文本信息和样本图像；进而基于语义分割信息、实例分割信息、实例文本信息和样本图像进行联合训练。

在一些实施例中，生成对抗网络、嵌入网络、条件增强网络和自编码网络基于语义分割信息、实例分割信息、实例文本信息和样本图像进行联合训练，具体为：

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员能够理解，本公开实施例并不受所描述的动作顺序的限制，因为依据本公开实施例，某些步骤可以采用其他顺序或者同时进行(“获取场景白模的语义分割信息和实例分割信息”与“接收场景白模的实例文本信息”可以同时进行；也可以先“接收场景白模的实例文本信息”，再“获取场景白模的语义分割信息和实例分割信息”)。另外，本领域技术人员能够理解，说明书中所描述的实施例均属于可选实施例。

本公开实施例还提出一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如仿真场景的图像生成方法各实施例的步骤，为避免重复描述，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。

本领域的技术人员能够理解，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

虽然结合附图描述了本公开的实施方式，但是本领域技术人员可以在不脱离本公开的精神和范围的情况下做出各种修改和变型，这样的修改和变型均落入由所附权利要求所限定的范围之内。

工业实用性

本公开实施例中，只需建立场景白模，进而基于场景白模的语义分割信息和实例分割信息，可生成仿真场景的图像，无需在场景建立过程中细化颜色、纹理、光照等属性，提高生成效率；并且，实例文本信息可编辑，不同实例文本信息描述不同实例的属性，对应不同的实例，使得仿真场景多样化，具有工业实用性。

Claims

一种仿真场景的图像生成方法，其特征在于，所述方法包括：

获取场景白模的语义分割信息和实例分割信息；

接收所述场景白模的实例文本信息；所述实例文本信息为可编辑的信息，且用于描述实例的属性；

基于所述语义分割信息、所述实例分割信息、所述实例文本信息和预先训练的生成对抗网络，生成仿真场景的图像。
根据权利要求1所述的方法，其特征在于，所述场景白模由仿真引擎建立，且所述场景白模的语义分割信息和实例分割信息由所述仿真引擎基于所述场景白模生成。
根据权利要求1所述的方法，其特征在于，基于所述语义分割信息、所述实例分割信息、所述实例文本信息和预先训练的生成对抗网络，生成仿真场景的图像，包括：

基于所述实例文本信息和所述场景白模对应的至少一张真实图像，生成特征图；

基于所述语义分割信息、所述实例分割信息和所述特征图，通过预先训练的生成对抗网络，生成仿真场景的图像。
根据权利要求3所述的方法，其特征在于，基于所述实例文本信息和所述场景白模对应的至少一张真实图像，生成特征图，包括：

将所述实例文本信息进行嵌入处理和条件增强处理，得到处理结果；

将所述场景白模对应的至少一张真实图像进行编码处理，得到每张真实图像对应的隐变量；

将每张真实图像对应的隐变量进行采样，得到采样结果；

将所述处理结果和所述采样结果进行解码处理，生成特征图。
根据权利要求4所述的方法，其特征在于，将所述实例文本信息进行嵌入处理和条件增强处理，得到处理结果，包括：

将所述实例文本信息输入预先训练的嵌入网络，所述嵌入网络的输出通过预先训练的条件增强网络，得到处理结果。
根据权利要求5所述的方法，其特征在于，

将所述场景白模对应的至少一张真实图像输入预先训练的自编码网络的编码器进行编码处理，得到每张真实图像对应的隐变量；

所述自编码网络将每张真实图像对应的隐变量进行采样，得到采样结果；

所述自编码网络的解码器将所述处理结果和所述采样结果进行解码处理，生成特征图。
根据权利要求3所述的方法，其特征在于，所述生成对抗网络由嵌套的多个生成器构成，其中，所述生成器包括卷积层和反卷积层，且嵌套在内的生成器的反卷积层的最后一层特征图输出作为嵌套在外的生成器的反卷积层的输入。
根据权利要求7所述的方法，其特征在于，基于所述语义分割信息、所述实例分割信息和所述特征图，通过预先训练的生成对抗网络，生成仿真场景的图像，包括：

将所述语义分割信息、所述实例分割信息和所述特征图输入到所述生成对抗网络最外层的生成器的卷积层；

将所述语义分割信息、所述实例分割信息和所述特征图进行下采样处理后输入到所述生成对抗网络内层的生成器的卷积层；其中，内层的不同生成器对应的下采样处理的倍数不同；

所述生成对抗网络最外层的生成器的反卷积层输出仿真场景的图像。
根据权利要求6所述的方法，其特征在于，所述生成对抗网络、所述嵌入网络、所述条件增强网络和所述自编码网络通过联合训练得到。
根据权利要求9所述的方法，其特征在于，所述联合训练，包括：

获取样本场景的语义分割信息、实例分割信息、实例文本信息和样本图像；

基于所述语义分割信息、实例分割信息、实例文本信息和样本图像进行联合训练。
根据权利要求10所述的方法，其特征在于，基于所述语义分割信息、实例分割信息、实例文本信息和样本图像进行联合训练，包括：

将所述实例文本信息输入所述嵌入网络，所述嵌入网络的输出通过条件增强网络，得到处理结果；

将所述样本图像输入所述自编码网络的编码器进行编码处理，得到每张样本图像对应的隐变量；

所述自编码网络将每张样本图像对应的隐变量进行采样，得到采样结果；

所述自编码网络的解码器将所述处理结果和所述采样结果进行解码处理，生成特征图；

将所述语义分割信息、所述实例分割信息和所述特征图输入到所述生成对抗网络最外层的生成器的卷积层；

将所述语义分割信息、所述实例分割信息和所述特征图进行下采样处理后输入到所述生成对抗网络内层的生成器的卷积层；

所述生成对抗网络最外层的生成器的反卷积层输出生成图像；

将所述生成图像、所述样本图像、所述语义分割信息、所述实例分割信息和所述特征图，通过判别网络，完成训练。
根据权利要求11所述的方法，其特征在于，所述判别网络由级联的多个判别器构成；

最上级的判别器的输入为所述生成图像、所述样本图像、所述语义分割信息、所述实例分割信息和所述特征图；

所述生成图像、所述样本图像、所述语义分割信息、所述实例分割信息和所述特征图经过下采样处理后输入下级的判别器；其中，不同级的判别器对应的下采样处理的倍数不同。
一种电子设备，其特征在于，包括：处理器和存储器；

所述处理器通过调用所述存储器存储的程序或指令，用于执行如权利要求1至12任一项所述方法的步骤。
一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至12任一项所述方法的步骤。