WO2019019019A1 - 训练数据生成方法、生成装置及其图像语义分割方法 - Google Patents

训练数据生成方法、生成装置及其图像语义分割方法 Download PDF

Info

Publication number
WO2019019019A1
WO2019019019A1 PCT/CN2017/094312 CN2017094312W WO2019019019A1 WO 2019019019 A1 WO2019019019 A1 WO 2019019019A1 CN 2017094312 W CN2017094312 W CN 2017094312W WO 2019019019 A1 WO2019019019 A1 WO 2019019019A1
Authority
WO
WIPO (PCT)
Prior art keywords
scene
object model
semantic segmentation
training data
dimensional
Prior art date
Application number
PCT/CN2017/094312
Other languages
English (en)
French (fr)
Inventor
王恺
廉士国
王洛威
Original Assignee
深圳前海达闼云端智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳前海达闼云端智能科技有限公司 filed Critical 深圳前海达闼云端智能科技有限公司
Priority to EP17919247.1A priority Critical patent/EP3660787A4/en
Priority to CN201780001794.5A priority patent/CN107690672B/zh
Priority to PCT/CN2017/094312 priority patent/WO2019019019A1/zh
Priority to JP2020524660A priority patent/JP7203844B2/ja
Publication of WO2019019019A1 publication Critical patent/WO2019019019A1/zh
Priority to US16/750,355 priority patent/US11281943B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/50Lighting effects
    • G06T15/506Illumination models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/772Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20228Disparity calculation for image-based rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects

Definitions

  • the present application relates to the field of image processing technologies, and in particular, to a training data generating method, a generating device, and an image semantic segmentation method thereof.
  • the semantic segmentation of real scenes based on deep learning requires a large number of training data sets to train the neural network model, so that the trained neural network model can obtain better semantic segmentation results.
  • At least one embodiment of the present application mainly solves the problem of using a manual mode in the prior art. Training data sets consume more time and labor, and the sample data is not rich enough and accurate.
  • the electronic device includes: at least one processor; and a memory communicatively coupled to the at least one processor; wherein the memory stores an instruction program executable by the at least one processor, the instruction program being The at least one processor executes to cause the at least one processor to perform the method as described above.
  • the computer program product comprises: a non-transitory computer readable storage medium and computer program instructions embedded in the non-transitory computer readable storage medium; the computer program instructions comprising to cause a processor to perform the above The instructions of the method described.
  • the training data generating method and the generating device provided by the embodiment of the present application establish the training data based on the scene of the three-dimensional model, which is automatically completed by the three-dimensional modeling software, and can conveniently adjust various parameters. Therefore, it is possible to quickly generate a large number of scene images and semantic segmentation pictures that meet the usage requirements and reflect different times, which greatly saves time and manpower.
  • the rendering is performed in units of a three-dimensional model, and the segmentation precision of the semantic segmentation picture is high.
  • FIG. 1 is a schematic diagram of image semantic segmentation results provided by an embodiment of the present application.
  • FIG. 2 is a flowchart of a method for generating training data provided by an embodiment of the present application
  • FIG. 4 is a flowchart of a method for acquiring a semantic segmentation map according to another embodiment of the present application.
  • FIG. 5 is a schematic diagram of an execution flow of a training data generating method performed in a Unity3D engine according to an embodiment of the present application
  • FIG. 6 is a schematic diagram of an execution flow of a training data generation method performed in 3D Max according to an embodiment of the present application
  • FIG. 7 is a functional block diagram of a training data generating apparatus according to an embodiment of the present application.
  • FIG. 8 is a functional block diagram of a scene graph generating module according to an embodiment of the present application.
  • FIG. 9 is a schematic structural diagram of an electronic device according to an embodiment of the present application.
  • Image semantic segmentation is the basic technology of image understanding and plays a very important role in automatic driving systems, drone applications or various types of smart wearable devices. Image semantic segmentation actually groups/divides pixels in an image according to the meaning of the expression in the image. And the process of labeling it. For example, as shown in FIG. 1, after image semantic segmentation, a semantic region 10 labeled "People” and a semantic region 20 labeled "Motorcycle" are formed.
  • image semantic segmentation can be performed using a method based on deep learning as a framework.
  • image semantic segmentation based on deep learning has a very significant segmentation effect compared with traditional segmentation methods, deep learning requires an algorithmic training and learning process.
  • the rendering effect of the existing virtual 3D scene is more and more real, and the fixed frame image derived from the virtual 3D scene is more and more real and fine. Therefore, it is convenient to generate the required training data based on the virtual 3D scene, effectively reduce the acquisition cost of the high-precision training data, and obtain the training data quickly and efficiently.
  • FIG. 2 is a flowchart of a method for generating a training data based on an existing virtual 3D scenario according to an embodiment of the present invention.
  • the method includes the following steps:
  • the three-dimensional scene refers to a three-dimensional scene constructed by any suitable type of 3D modeling software.
  • the three-dimensional scene is composed of a plurality of object models.
  • a three-dimensional scene of a living room composed of an object model such as a table, ceiling, wall, and lighting.
  • the step of setting the classification label is a content or an inclusion of the object model.
  • the process of labeling In the 3D modeling software, the building unit or the building foundation of the three-dimensional scene is the object model. Therefore, the labeling process is very accurate and easy to implement.
  • the scene parameters are some influencing factors affecting the appearance of the three-dimensional model, such as illumination, viewing angle, or viewing angle. That is, the scene graph refers to a plane picture of a three-dimensional scene obtained under different influencing factors. For example, a planar picture of a three-dimensional scene obtained from different viewing angles, viewing angles, or different situations. For example, a front view, a side view, or an oblique view of a three-dimensional scene. For the same 3D scene, you can get multiple different scene graphs. These scene graphs can reflect the three-dimensional scene from different angles or sides, and display the display of the three-dimensional scene in different environments.
  • the specific acquisition method is determined according to the 3D modeling software supported by the three-dimensional scene.
  • 3D modeling software can provide virtual cameras to complete the acquisition of scene graphs.
  • the object model Render the object model as a monochrome material corresponding to a category label of the object model.
  • the monochrome material refers to a material having only one color
  • the “rendering” refers to filling the object model with a corresponding color, for example, rendering the table as pure blue, and rendering the lighting It is yellow and so on.
  • the object model is rendered into different monochromatic materials, so that the object model can be represented by the corresponding color in the three-dimensional model, and the different colors represent different grouping or semantic regions (that is, forming the same as shown in FIG. 1). Image semantic segmentation results).
  • the monochromatic material may specifically be any suitable single color or pattern structure, such as simple blue, red or yellow.
  • a monochrome material refers to the surface color or pattern of the object model. Of course, after rendering as a monochrome material, the object model still retains its original outline.
  • the rendering process it is also necessary to consider the mutual occlusion between the various object models in the scene graph to ensure that the final obtained semantic segmentation map conforms to normal visual habits. Therefore, it is necessary to first determine the depth order of the object model in the scene graph. Then, according to the depth order, the object model is sequentially rendered as a monochrome material corresponding to the classification label of the object model.
  • semantic segmentation map is used to mean a picture obtained by accurately labeling pixel points of a scene graph. Since the above rendering process is performed in 3D modeling software. Therefore, in theory, the accuracy of the annotation of the semantic segmentation graph can be achieved at the pixel level.
  • each scene graph and the corresponding semantic segmentation graph as a set of training data.
  • input data ie, scene graph
  • corresponding semantic segmentation output results ie, semantic segmentation graphs
  • the corresponding scene graph and the semantic segmentation map can be provided as a set of training data to the deep learning algorithm for training.
  • training data generation method a large number of training data picture sets can be generated quickly and efficiently. Moreover, these training data picture sets have very high labeling accuracy.
  • a semantic segmentation map may also correspond to a plurality of different scene graphs.
  • scene graphs in different illumination states correspond to the same semantic segmentation graph.
  • the scene graphs in different illumination states may be specifically obtained by the following methods:
  • the actual scene of the three-dimensional model in different actual situations such as different time or weather can be simulated.
  • the local illumination of the three-dimensional model can also be adjusted to simulate a specific lighting effect in the scene, such as a scene graph when the chandelier is turned on in a three-dimensional scene corresponding to the living room.
  • the virtual camera refers to a functional module of a 3D modeling software for acquiring a plan view of a three-dimensional model. It can shoot a three-dimensional model in a camera shooting manner with different angles, focal lengths or angles of view.
  • the virtual camera can be used to capture the three-dimensional scene at a plurality of different angles, and a scene map including a plurality of different situations is obtained.
  • the more the number of scene graphs and the specific situations involved the higher the data quality of the training data, and the better the training effect for the deep learning algorithm.
  • the surface texture change of the object model or the movement path and the angle angle change of the virtual camera may be combined to obtain a plurality of different scene graphs, indicating different situations of the three-dimensional model.
  • a plurality of scene graphs of the moving path and the angle of the camera may be reflected by setting a shooting trajectory of the virtual camera in the 3D modeling software.
  • scene images located at different viewing angles are acquired.
  • the method for acquiring the semantic segmentation map should include the following steps:
  • the semantic segmentation map corresponding to each scene graph is acquired based on the rendered object model.
  • the semantic segmentation map corresponding to the scene graph is acquired at the same angle and position.
  • the corresponding semantic segmentation map specifically refers to a semantic segmentation map and a scene graph of a three-dimensional scene acquired by the virtual camera at the same angle and position. Semantic segmentation is obtained after the object model is rendered in monochrome and turned off.
  • the three-dimensional model may also include a transparent object model having properties that are transparent, such as a glazing or a glass door.
  • a transparent object model having properties that are transparent, such as a glazing or a glass door.
  • these transparent object models need to be processed differently according to the actual situation to provide accurate semantic points. Cut the map.
  • the method when performing monochrome rendering on the transparent model, the method includes the following steps:
  • step 401 Determine whether the transparent object model has an occlusion effect on the following object model. If yes, go to step 402; if no, go to step 403.
  • the transparent object model has an occlusion function
  • the transparent object model is marked and classified into a corresponding monochrome material.
  • the transparent object model does not have an occlusion function, maintain the transparent object model as transparent or delete the transparent object model in the semantic segmentation map.
  • the transparent object model can be directly deleted in the semantic segmentation map or the transparent object model can be kept in a transparent state, thereby avoiding influence on the perspective relationship of the subsequent object model.
  • the training data generating method provided by the embodiment of the present application can be executed in any suitable 3D modeling software, such as Unity3D engine, 3DMax, OpenGL, DirectX or Unreal. After obtaining a sufficient amount of training data through a three-dimensional scene, the embodiment of the present application further provides an image semantic segmentation method.
  • the image semantic segmentation method the training data obtained by the training data generation method disclosed in the above method embodiment is used to train the deep learning model, which effectively solves the problem that the existing image semantic segmentation method has high sample data acquisition cost. .
  • FIG. 5 is a schematic flowchart of an execution process performed by a training data generating method in a Unity3D engine according to an embodiment of the present application. As shown in FIG. 5, the execution process includes the following steps:
  • the classification and labeling of the object is completed by adding different Tag labels to the objects in the three-dimensional scene. After adding the Tag tag, you can get all the objects in each tag in the script.
  • step 504 Read the location file in step 504 and intercept the fixed frame image in the monochrome material mode operation as a semantic segmentation map. In this way, it can be ensured that the images intercepted at the same time in two runs are identical, ensuring the correspondence between the semantic segmentation map and the scene graph. Moreover, this way of controlling camera motion during runtime is more convenient and faster for setting camera paths.
  • the comparison atlas is used as training data for the training process of the deep learning algorithm for semantic segmentation.
  • the three-dimensional stereoscopic scene may also be adjusted, including modifying the illumination parameter and replacing the original material, and reacquiring the scene graph and the semantic segmentation map.
  • FIG. 6 is a schematic diagram of an execution flow of a training data generating method performed in 3D Max according to an embodiment of the present application. As shown in FIG. 6, the execution process may include the following steps:
  • the output is a semantically segmented image corresponding to each other. And the scene graph.
  • the illumination parameters and material materials of the three-dimensional scene may be modified after step 604.
  • the embodiment of the present application further provides a training data generating apparatus corresponding to the foregoing method embodiment.
  • the training data generating apparatus may include: a classification module 701, a scene graph generation module 702, a rendering module 703, a semantic segmentation map generation module 704, and a storage module 705.
  • the classification module 701 is configured to set a corresponding category label for the object model in the three-dimensional scene.
  • the scene graph generating module 702 is configured to acquire corresponding scene graphs by changing scene parameters of the three-dimensional stereo scene.
  • the rendering module 703 is configured to render the object model as a monochrome material corresponding to a category label of the object model.
  • the semantic segmentation map generation module 704 is configured to acquire a semantic segmentation map corresponding to each scene graph based on the rendered object model.
  • the storage module 705 is configured to store each scene graph and the semantic segment map corresponding to the corresponding scene graph as a set of training data.
  • a massive scene graph and a semantically segmented graph corresponding to the scene graphs can be quickly generated based on the three-dimensional stereoscopic scene, thereby effectively reducing the generation cost of the training data and greatly saving.
  • Time and manpower ensure the segmentation accuracy of subsequent deep learning algorithms for image semantic segmentation.
  • the acquisition of images may be based on a virtual camera of a 3D modeling software or a similar functional module.
  • the scene graph generating module 702 specifically includes: a light adjusting unit 7021 and a virtual camera control unit 7022 .
  • the illumination adjusting unit 7021 is configured to dynamically adjust a lighting condition in the three-dimensional stereoscopic scene.
  • the virtual camera control unit 7022 is configured to collect a scene graph in different illumination situations by using a virtual camera.
  • the virtual camera control unit 7022 is specifically configured to: set a shooting trajectory of the virtual camera; and when the virtual camera runs along the shooting trajectory, collect scene images located at different viewing angles.
  • the rendering module 703 may be specifically configured to When the illumination of the body scene is turned off, a semantic segmentation map corresponding to each scene graph is obtained.
  • the rendering module 703 is specifically configured to: determine a depth order of the object model in the scene graph; and then sequentially render the object model according to the depth order.
  • a monochrome material that corresponds to the classification label of the object model.
  • a transparent object model exists in a three-dimensional scene.
  • the rendering unit may be specifically configured to: determine whether the transparent object model has an occlusion effect on a subsequent object model; and when the transparent object model has an occlusion function, the transparent object model The mark classification is performed and rendered as a corresponding monochrome material; when the transparent object model does not have an occlusion function, the transparent object model is maintained transparent or deleted in the semantic segmentation map.
  • the training data generating method and the training data generating device provided in the above embodiments are all based on the same inventive concept. Therefore, the steps of the specific embodiments in the training data generating method may be performed by the corresponding function module, and the specific function in the function module may also have corresponding method steps in the training data generating method, and details are not described herein again. .
  • FIG. 9 is a schematic structural diagram of hardware of an electronic device according to an embodiment of the present disclosure. As shown in FIG. 9, the device 90 includes one or more processors 91 and a memory 92. One processor 91 is exemplified in FIG.
  • the processor 91 and the memory 92 can be connected by a bus or other means, and the bus connection is taken as an example in FIG.
  • the memory 92 is a non-volatile computer readable storage medium and can be used for storing a non-volatile software program, a non-volatile computer executable program, and a module, such as a program corresponding to the training data generating method in the embodiment of the present application.
  • the instruction/module for example, the classification module 701, the scene graph generation module 702, the rendering module 703, the semantic segmentation map generation module 704, and the storage module 705 shown in FIG. 7).
  • the processor 91 implements various functional applications and data processing of the training data generating apparatus by executing nonvolatile software programs, instructions, and modules stored in the memory 92, that is, the training data generating method of the above-described method embodiments.
  • the memory 92 may include a storage program area and a storage data area, wherein the program area is stored
  • the operating system, an application required for at least one function may be stored; the storage data area may store data created according to the use of the training data generating device, and the like.
  • memory 92 can include high speed random access memory, and can also include non-volatile memory, such as at least one magnetic disk storage device, flash memory device, or other non-volatile solid state storage device.
  • memory 92 may optionally include memory remotely located relative to processor 91, which may be coupled to the training data generation device via a network. Examples of such networks include, but are not limited to, the Internet, intranets, local area networks, mobile communication networks, and combinations thereof.
  • the one or more modules are stored in the memory 92, and when executed by the one or more processors 91, perform the training data generation method in any of the above method embodiments.
  • An embodiment of the present application provides a computer program product, including a computing program stored on a non-transitory computer readable storage medium, the computer program comprising program instructions, when the program instructions are executed by a computer,
  • the computer executes the training data generating method in any of the above method embodiments, for example, performing the method steps 201-204 in FIG. 2 described above to implement the functions of the corresponding functional modules in FIG.
  • the device embodiments described above are merely illustrative, wherein the units described as separate components may or may not be physically separate, and the components displayed as units may or may not be physical units, ie may be located A place, or it can be distributed to multiple network units. Some or all of the modules may be selected according to actual needs to achieve the purpose of the solution of the embodiment.
  • the various embodiments can be implemented by means of software plus a general hardware platform, and of course, by hardware.
  • a person skilled in the art can understand that all or part of the process of implementing the above embodiments can be completed by a computer program to instruct related hardware, and the program can be stored in a computer readable storage medium. When executed, the flow of an embodiment of the methods as described above may be included.
  • the storage medium may be a magnetic disk, an optical disk, or a read only Read-Only Memory (ROM) or Random Access Memory (RAM).

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computer Graphics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computer Hardware Design (AREA)
  • Remote Sensing (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Processing Or Creating Images (AREA)

Abstract

一种训练数据生成方法、生成装置及其图像语义分割方法,所述训练数据生成方法包括:为三维立体场景中的物体模型设置对应的类别标签(201);通过改变所述三维立体场景的场景参数,获取对应的若干张场景图(202);将所述物体模型渲染为与物体模型的类别标签对应的单色材质(203);基于渲染后的物体模型获取与每一张场景图对应的语义分割图(204);将每一张场景图和与对应的场景图对应的语义分割图存储为一组训练数据(205)。该方法能够快速的产生大量满足使用要求的,反映不同时间的场景图片和语义分割图片,极大的节省了时间和人力。

Description

训练数据生成方法、生成装置及其图像语义分割方法 技术领域
本申请涉及图像处理技术领域,特别是涉及训练数据生成方法、生成装置及其图像语义分割方法。
背景技术
对于机器学习(尤其是深度学习)而言,其算法的运行需要以大量的样本数据为基础。样本数据的准确性和丰富程度对于机器学习具有非常重要的意义。
例如,基于深度学习实现的真实场景的语义分割需要使用大量的训练数据集对神经网络模型进行训练,才能使训练后的神经网络模型能够获得较好的语义分割结果。
上述训练数据集包括:室内外场景的图片以及对其进行精确语义分割后的图片。其中,为保证模型的训练效果,一方面,所述室内外场景的图片应当包含尽量多的场景以及每个场景在不同时间、光照、天气等条件下的图片。另一方面,则需要对应的语义分割图能够按照物体类别进行准确的分割。
而生成所述室内外场景的图片对应的语义分割图,则需要对首先对场景图片内的物体按照物体类别进行精确的分割。然后,标注图片中每一类物体的区域,形成对应的语义分割图。
申请人在研究现有技术的过程中发现:现有的训练数据集中,对场景图片的采集和语义分割图的标注通常采用纯手动的人工方式,需要耗费大量的时间和人力。而且,对于某个特定的室内外场景,其可以采集的场景图片比较有限。语义分割图的分割精度也难以保证。
发明内容
本申请至少一个实施例主要解决现有技术中使用纯手动方式建立 训练数据集耗费的时间和人力较多,样本数据不够丰富和准确的问题。
为解决上述技术问题,本申请实施例采用的一个技术方案是:提供一种训练数据生成方法。所述训练数据生成方法包括:为三维立体场景中的物体模型设置对应的类别标签;通过改变所述三维立体场景的场景参数,获取对应的若干张场景图;将所述物体模型渲染为与物体模型的类别标签对应的单色材质;基于渲染后的物体模型获取与每一张场景图对应的语义分割图;将每一张场景图和与对应的场景图对应的语义分割图存储为一组训练数据。
为解决上述技术问题,本申请实施例采用的另一个技术方案是:提供一种训练数据生成装置。所述训练数据生成装置包括:分类模块,用于为三维立体场景中的物体模型设置对应的类别标签;场景图生成模块,用于通过改变所述三维立体场景的场景参数,获取对应的若干张场景图;渲染模块,用于将所述物体模型渲染为与物体模型的类别标签对应的单色材质;语义分割图生成模块,用于基于渲染后的物体模型,获取与每一张场景图对应的语义分割图;以及存储模块,用于将每一张场景图和与对应场景图对应的语义分割图存储为一组训练数据。
为解决上述技术问题,本申请实施例采用的另一个技术方案是:提供一种图像语义分割方法。所述图像语义分割方法应用如上所述的训练数据生成方法生成的场景图和对应的语义分割图作为训练数据。
为解决上述技术问题,本申请实施例采用的另一个技术方案是:提供一种电子设备。所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令程序,所述指令程序被所述至少一个处理器执行,以使所述至少一个处理器执行如上所述的方法。
为解决上述技术问题,本申请实施例采用的另一个技术方案是:提供一种计算机程序产品。所述计算机程序产品包括:非易失性计算机可读存储介质以及内嵌于所述非易失性计算机可读存储介质的计算机程序指令;所述计算机程序指令包括用以使处理器执行如上所述的方法的指令。
本申请实施例提供的训练数据生成方法和生成装置,基于三维立体模型的场景来建立训练数据,是通过三维建模软件自动化完成,可以方便的调节各项参数。因此,能够快速的产生大量满足使用要求的,反映不同时间的场景图片和语义分割图片,极大的节省了时间和人力。另外,以三维立体模型为单位进行渲染,语义分割图片的分割精度较高。
附图说明
一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
图1是本申请实施例提供的图像语义分割结果示意图;
图2是本申请实施例提供的训练数据生成方法的方法流程图;
图3是本申请实施例提供的场景图获取方法的方法流程图;
图4是本申请另一实施例提供的语义分割图获取方法的方法流程图;
图5是本申请实施例提供的训练数据生成方法在Unity3D引擎中执行的执行流程示意图;
图6是本申请实施例提供的训练数据生成方法在3D Max中执行的执行流程示意图;
图7是本申请实施例提供的训练数据生成装置的功能框图;
图8是本申请实施例提供的场景图生成模块的功能框图;
图9是本申请实施例提供的电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
图像语义分割是图像理解的基础性技术,在自动驾驶系统、无人机应用或者各类型的智能穿戴式设备中具有非常重要的作用。图像语义分割实际上将图像中的像素按照图像中表达含义的不同进行分组/分割, 并对其进行标注的过程。例如,如图1所示的,经过图像语义分割后,形成标注为“人”的语义区域10和标注为“摩托车”的语义区域20。
由于在真实图像中,表达某一语义的同一物体通常是由多个不同的部分组成的,每个部分的颜色、纹理或者亮度等各不相同。因此,在面对复杂场景时,传统的基于像素点的低阶视觉信息进行语义分割的方法效果不佳。
为了满足复杂场景或者任务,图像语义分割可以使用基于深度学习为框架的方式进行。虽然与传统的分割方法相比,基于深度学习的图像语义分割技术具有非常显著的分割效果,但是深度学习需要一个算法训练和学习的过程。
在深度学习的算法训练、学习过程中,对于训练数据的要求非常高,需要海量的图像数据以及非常精确的图像数据标注信息(甚至达到像素级别的标注信息)才能使训练后的语义分割算法具有非常高的语义分割精度。
随着计算机图形渲染技术飞速发展,现有的虚拟3D场景的渲染效果越来越真实,源自虚拟3D场景的固定帧图片也越来越真实和精细。由此,可以方便的以虚拟3D场景为基础,生成所需要的训练数据,有效的降低高精度训练数据的获取成本,快速而有效率的获得训练数据。
图2为本发明实施例提供的,基于现有的虚拟3D场景实现的训练数据生成方法的方法流程图。
如图2所示,所述方法包括如下步骤:
201、为三维立体场景中的物体模型设置对应的类别标签。
所述三维立体场景是指通过任何合适类型的3D建模软件构建的三维立体场景。该三维立体场景由多个物体模型所组成。例如,由桌子、天花、墙面以及灯饰等物体模型组成的客厅的三维立体场景。
每个类别标签代表了一种物体模型的类型,其具体可以根据实际的三维立体场景所设置的。例如,可以按照物体模型的索引,为三维立体场景中的物体模型设置装饰品、家具或者墙面等分类标签。
可以理解,设置分类标签的步骤是一个对于物体模型的内容或者含 义的标注过程。在3D建模软件中,由于三维立体场景的搭建单元或者搭建基础即是物体模型。因此,该标注过程是非常精确而且容易实现的。
202、通过改变所述三维立体场景的场景参数,获取对应的若干张场景图。
所述场景参数为影响三维模型的外观表现一些影响因素,例如光照、观察角度或者观察视角等。亦即,所述场景图是指在不同影响因素下,获得的三维立体场景的平面图片。例如,从不同观察角度、视角或者不同情况下获得的三维立体场景的平面图片。例如,三维立体场景的主视图、侧视图或者斜视图等。对于同一个三维立体场景,可以获取多个不同的场景图。这些场景图能够从不同的角度或者侧面来反映该三维立体场景,展示三维立体场景在不同环境下的显示情况。
具体的获取方式根据三维立体场景依托的3D建模软件所确定。惯常的,3D建模软件可以提供虚拟摄像机来完成场景图的获取。
203、将所述物体模型渲染为与物体模型的类别标签对应的单色材质。在本实施例中,所述单色材质是指只具有一种颜色的材质,所述“渲染”是指将物体模型填充为相应的颜色,例如,将桌子渲染为纯蓝色,将灯饰渲染为黄色等。
根据类别标签,将物体模型渲染为不同的单色材质,可以令物体模型在三维立体模型中以相应的颜色体现,不同的颜色表示属于不同的分组或者语义区域(亦即形成图1所示的图像语义分割结果)。所述单色材质具体可以是任何合适的单一颜色或者图案结构,例如简单的蓝色、红色或者黄色等。单色材质是指所述物体模型的表面颜色或者图案。当然,在渲染为单色材质后,物体模型仍然保持有原有的外形轮廓。
具体的,在渲染过程中,还需要考虑在场景图中,各个物体模型之间的相互遮挡情况,以确保最终获得语义分割图是符合正常视觉习惯的。因此,需要首先确定物体模型在场景图中的深度顺序。然后,再按照所述深度顺序,依次将所述物体模型渲染为与物体模型的分类标签对应的单色材质。
通过这样的方式,可以确保物体模型之间保持正确的遮挡顺序,不 会出现在后的物体模型将在前的物体模型遮挡,使得训练数据出现错误。
204、,基于渲染后的物体模型,获取与每一张场景图对应的语义分割图。
如上所述,在图像语义分割的算法训练过程中,除了需要场景图以外,还需要对场景图中各部分进行精确标注后的图片。在此,使用“语义分割图”这样的术语表示对场景图的像素点进行精确标注后获得的图片。由于上述渲染过程是在3D建模软件中进行的。因此,理论上最终获得语义分割图的标注精度能够达到像素级别。
205、将每一张场景图和与对应的语义分割图存储为一组训练数据。
关于图像语义分割算法的训练,应该提供输入数据(即场景图)以及对应语义分割输出结果(即语义分割图)。由此,在本实施例中,可以将对应的场景图和语义分割图作为一组训练数据,提供给深度学习算法进行训练。
通过上述训练数据生成方法,可以快速有效的产生大量的训练数据图片集。而且这些训练数据图片集具有非常高的标注精度。
应当说明的是,基于上述三维立体场景,还可以根据实际需要快速的生成多组训练数据。对于每一组训练数据而言,一个语义分割图也可以对应有多个不同的场景图,例如,不同光照状态下的场景图对应同一个语义分割图。
在一些实施例中,如图3所示,具体可以通过如下方法获取处于不同光照状态下的场景图:
301、动态调整所述三维立体场景中的光照情况。
在3D建模软件中,为三维立体场景调整光照,使其具有对应的阴影或者亮度是一种非常常用的功能。
通过调整三维立体场景的全局光照,可以模拟三维立体模型在不同时间或者天气等不同实际情况下的实际场景。当然,在一些可能的情况下,也可以调整三维立体模型在局部的光照,来模拟场景中的特定灯光效果,例如客厅对应的三维立体场景中,开启吊灯时的场景图。
302、通过虚拟摄像机采集不同光照情况下的场景图。
所述虚拟摄像机是指3D建模软件中用于采集三维立体模型的平面图的功能模块。其能够以不同的角度、焦距或者视角,以摄像机拍摄的方式对三维立体模型进行拍摄。
随着三维立体场景的光照情况的变化,可以使用虚拟摄像机在多个不同的角度对三维立体场景进行拍摄,获得包含了多种不同情况的场景图。显然的,场景图的数量和包含的具体情形越多,训练数据的数据质量也越高,对于深层学习算法的训练效果越好。
在本实施例中,除了改变光照以外,还可以组合物体模型的表面纹理变化或者虚拟摄像机的移动路径和角度角度变化等,获得多个不同的场景图,表示三维立体模型的不同情况。
具体的,可以通过在3D建模软件中设置虚拟摄像机的拍摄轨迹的方式来反映摄像机的移动路径和角度变化的若干张场景图。当虚拟摄像机沿所述拍摄轨迹运行时,采集位于不同的观察视角的场景图。
与上述方法实施例中揭露的,需要尽可能多的获取不同光照情况或者纹理变化的场景图所不同的是,在一组训练数据中,应当只有一个明确的语义分割图。亦即图像语义分割后的理想结果应当是唯一确定的。因此,在一些实施例中,所述语义分割图的获取方法应当包括如下步骤:
在所述三维立体场景的光照关闭时,基于渲染后的物体模型获取与每一张场景图对应的语义分割图。
如上所述,为了确保语义分割图的唯一性,需要在3D建模软件中关闭三维立体场景的光照,避免物体模型的表面受光照的影响,出现不相同的纹理或者亮度,降低语义分割图的精确性。
在关闭了三维立体场景的光照的情况下,在相同的角度和位置获取与场景图对应的语义分割图。所述对应的语义分割图具体是指虚拟摄像机在相同的角度和位置获取的三维立体场景的语义分割图和场景图。而语义分割图是在物体模型进行单色渲染和关闭光照后获得的。
在一些情况下,所述三维立体模型还可能包括有属性为透明的透明物体模型,例如玻璃窗或者玻璃门。相对应地,在渲染过程中,需要根据实际情况对这些透明物体模型进行不同的处理,以提供精确的语义分 割图。
如图4所示,在对所述透明模型进行单色渲染时,所述方法包括如下步骤:
401、判断透明物体模型是否对在后的物体模型具有遮挡作用。若是执行步骤402;若否,执行步骤403。
402、当所述透明物体模型具有遮挡作用时,将所述透明物体模型进行标记分类并渲染为对应的单色材质。
当具有遮挡作用时,表明在正常的视觉状态下,后面的物体模型会被该透明物体模型所遮挡。因此,需要进行相应的单色渲染,形成具有相应轮廓的语义分割图。
403、当所述透明物体模型不具有遮挡作用时,在所述语义分割图中维持所述透明物体模型为透明或者删除所述透明物体模型。
若透明物体不会产生遮挡,表明在语义分割图中不会被标注为具有含义的区域。因此,可以在语义分割图中直接删除该透明物体模型或者是令透明物体模型保持在透明状态,避免对在后的物体模型的透视关系造成影响。
本申请实施例提供的训练数据生成方法可以在现有任何合适的3D建模软件中执行,例如Unity3D引擎、3DMax、OpenGL、DirectX或者Unreal等。通过三维立体场景获得足够数量的训练数据后,本申请实施例还进一步提供了一种图像语义分割方法。在所述图像语义分割方法中,使用上述方法实施例揭露的训练数据生成方法获得的训练数据进行深度学习模型的训练,有效的解决了现有的图像语义分割方法的样本数据获取成本高的问题。
图5为本申请实施例提供的训练数据生成方法在Unity3D引擎中执行的执行流程示意图。如图5所示,该执行流程包括如下步骤:
501、在原始的三维立体场景中,通过给三维立体场景中的物体添加不同Tag标签的方式完成对于物体的分类标注。添加了Tag标签之后,便可以在脚本中获取到每个tag中的所有物体
502、在三维立体场景中添加一个第一人称控制器(First person  controller)。
503、以原始材质模式运行三维立体场景。
504、手动控制摄像机的运动轨迹,将摄像机的运动信息(包括位置坐标和旋转角度)写入位置文件中。
505、动态调整三维立体场景的局部光照情况。
506、截取多个固定帧的图像作为场景图。
507、根据在步骤501中设置的Tag标签,确定物体的tag分类。
508、关闭所述三维立体场景的光照,并渲染为单色材质。
509、读取在步骤504中的位置文件并截取在单色材质模式运行下的固定帧图像作为语义分割图。通过这样的方式,可以保证两次运行时相同时间截取的图像完全相同,确保语义分割图和场景图的对应性。而且,这种运行时控制摄像机运动的方式对于设定摄像机路径来说更方便快捷。
510、将所述语义分割图和对应的场景图作为对比图集存储。该对比图集作为训练数据,用于语义分割的深度学习算法的训练过程。
当然,为了获取更多组的训练数据,在步骤509之后,还可以对三维立体场景进行调整,包括修改光照参数以及替换原始材质后,重新获取场景图和语义分割图。
图6为本申请实施例提供的训练数据生成方法在3D Max中执行的执行流程示意图。如图6所示,该执行流程可以包括如下步骤:
601、在原始的三维立体场景中,对物体进行分类并为每个物体添加对应的objectID编号。
602、设定虚拟摄像机的路径。
603、设定渲染设置、图片保存路径、渲染范围并且在渲染元素中添加VRayObjectID。
604、渲染并分别将ID通道渲染后的语义分割图像以及原始材质的场景图输出到步骤603设定的保存路径指向的文件中。
由于3D Max可以同时保存原材质和光照下的图像与ID通道渲染后的图像。因此,在步骤604中,输出的就是相互对应的语义分割图像以 及场景图。这些输出结果作为对比图集存储,作为训练数据,用于语义分割的深度学习算法的训练过程。
在本实施例中,为了获得更多的场景图,还可以在步骤604之后,对三维立体场景的光照参数和物质材质进行修改。
本申请实施例还进一步提供了一种与上述方法实施例相对应的训练数据生成装置。如图7所示,该训练数据生成装置可以包括:分类模块701、场景图生成模块702、渲染模块703、语义分割图生成模块704以及存储模块705。
其中,所述分类模块701用于为三维立体场景中的物体模型设置对应的类别标签。场景图生成模块702用于通过改变所述三维立体场景的场景参数,获取对应的若干张场景图。渲染模块703用于将所述物体模型渲染为与物体模型的类别标签对应的单色材质。语义分割图生成模块704用于基于渲染后的物体模型,获取与每一张场景图对应的语义分割图。存储模块705用于将每一张场景图和与对应场景图对应的语义分割图存储为一组训练数据。
通过上述训练数据生成装置,可以基于三维立体场景快速的生成海量的场景图以及与这些场景图相对应的,精确标注的语义分割图,从而有效的降低了训练数据的生成成本,极大的节省了时间和人力,保证了后续深度学习算法对于图像语义分割的分割精度。
在一些实施例中,图像的采集可以基于3D建模软件的虚拟摄像机或者类似的功能模块所实现。如图8所示,所述场景图生成模块702具体包括:光照调整单元7021以及虚拟摄像机控制单元7022。
其中,所述光照调整单元7021用于动态调整所述三维立体场景中的光照情况。所述虚拟摄像机控制单元7022用于通过虚拟摄像机采集不同光照情况下的场景图。
具体的,所述虚拟摄像机控制单元7022具体用于:设定所述虚拟摄像机的拍摄轨迹;当所述虚拟摄像机沿所述拍摄轨迹运行时,采集位于不同的观察视角的场景图。
在另一些实施例中,所述渲染模块703具体可以用于在所述三维立 体场景的光照关闭时,获取与每一张场景图对应的语义分割图。
具体的,为了保证语义分割图具有正确的轮廓和遮挡顺序,所述渲染模块703具体用于:确定物体模型在场景图中的深度顺序;然后按照所述深度顺序,依次将所述物体模型渲染为与物体模型的分类标签对应的单色材质。
在某些特定的情况下,三维立体场景中会存在透明物体模型。针对所述透明物体模型,所述渲染单元具体可以用于:判断所述透明物体模型是否对在后的物体模型具有遮挡作用;当所述透明物体模型具有遮挡作用时,将所述透明物体模型进行标记分类并渲染为对应的单色材质;当所述透明物体模型不具有遮挡作用时,在所述语义分割图中维持所述透明物体模型为透明或者删除所述透明物体模型。
应当说明的是,上述实施例中提供的训练数据生成方法和训练数据生成装置均是基于相同的发明构思。因此,训练数据生成方法中各个具体实施例的步骤均可以由对应的功能模块所执行,功能模块中具体的功能也可以在所述训练数据生成方法中具有对应的方法步骤,在此不再赘述。
图9为本申请实施例提供的电子设备的硬件结构示意图。如图9所示,该设备90包括:一个或多个处理器91以及存储器92,图9中以一个处理器91为例。
其中,处理器91、存储器92可以通过总线或者其他方式连接,图9中以通过总线连接为例。
存储器92作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本申请实施例中的训练数据生成方法对应的程序指令/模块(例如,图7所示的分类模块701、场景图生成模块702、渲染模块703、语义分割图生成模块704以及存储模块705)。处理器91通过运行存储在存储器92中的非易失性软件程序、指令以及模块,从而执行的训练数据生成装置的各种功能应用以及数据处理,即实现上述方法实施例的训练数据生成方法。
存储器92可以包括存储程序区和存储数据区,其中,存储程序区 可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据训练数据生成装置的使用所创建的数据等。此外,存储器92可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器92可选包括相对于处理器91远程设置的存储器,这些远程存储器可以通过网络连接至训练数据生成装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器92中,当被所述一个或者多个处理器91执行时,执行上述任意方法实施例中的训练数据生成方法。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本申请实施例所提供的方法。
本申请实施例提供了一种计算机程序产品,包括存储在非易失性计算机可读存储介质上的计算程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时时,使所述计算机执行上述任意方法实施例中的训练数据生成方法,例如,执行以上描述的图2中的方法步骤201-204,实现图7中相应功能模块的功能。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读 存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请的不同方面的许多其它变化,为了简明,它们没有在细节中提供;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (15)

  1. 一种训练数据生成方法,其特征在于,包括:
    为三维立体场景中的物体模型设置对应的类别标签;
    通过改变所述三维立体场景的场景参数,获取对应的若干张场景图;
    将所述物体模型渲染为与物体模型的类别标签对应的单色材质;
    基于渲染后的物体模型,获取与每一张场景图对应的语义分割图;
    将每一张场景图和与对应的场景图对应的语义分割图存储为一组训练数据。
  2. 根据权利要求1所述的方法,其特征在于,所述获取所述三维立体场景的若干张场景图,包括:
    动态调整所述三维立体场景中的光照情况;
    通过虚拟摄像机采集不同光照情况下的场景图。
  3. 根据权利要求1所述的方法,其特征在于,所述通过改变所述三维立体场景的场景参数,获取对应的若干张场景图,包括:
    设定虚拟摄像机的拍摄轨迹;
    当所述虚拟摄像机沿所述拍摄轨迹运行时,采集位于不同的观察视角的场景图。
  4. 根据权利要求1所述的方法,其特征在于,所述基于渲染后的物体模型获取与每一张场景图对应的语义分割图,具体包括:
    在所述三维立体场景的光照关闭时,基于渲染后的物体模型获取与每一张场景图对应的语义分割图。
  5. 根据权利要求1所述的方法,其特征在于,所述将所述物体模型渲染为与物体模型的类别标签对应的单色材质,包括:
    确定物体模型在场景图中的深度顺序;
    按照所述深度顺序,依次将所述物体模型渲染为与物体模型的分类标签对应的单色材质。
  6. 根据权利要求1所述的方法,其特征在于,所述将所述物体模型渲染为与物体模型的类别标签对应的单色材质,包括:
    判断透明物体模型是否对在后的物体模型具有遮挡作用;
    当所述透明物体模型具有遮挡作用时,将所述透明物体模型进行标记分类并渲染为对应的单色材质;
    当所述透明物体模型不具有遮挡作用时,在所述语义分割图中维持所述透明物体模型为透明或者删除所述透明物体模型。
  7. 一种训练数据生成装置,其特征在于,包括:
    分类模块,用于为三维立体场景中的物体模型设置对应的类别标签;
    场景图生成模块,用于通过改变所述三维立体场景的场景参数,获取对应的若干张场景图;
    渲染模块,用于将所述物体模型渲染为与物体模型的类别标签对应的单色材质;
    语义分割图生成模块,用于基于渲染后的物体模型,获取与每一张场景图对应的语义分割图;
    存储模块,用于将每一张场景图和与对应场景图对应的语义分割图存储为一组训练数据。
  8. 根据权利要求7所述的装置,其特征在于,包括:所述场景图生成模块具体包括:光照调整单元以及虚拟摄像机控制单元;
    所述光照调整单元,用于动态调整所述三维立体场景中的光照情况;
    所述虚拟摄像机控制单元,用于通过虚拟摄像机采集不同光照情况下的场景图。
  9. 根据权利要求7所述的装置,其特征在于,所述场景图生成模块具体用于:
    设定虚拟摄像机的拍摄轨迹;当所述虚拟摄像机沿所述拍摄轨迹运行时,采集位于不同的观察视角的场景图。
  10. 根据权利要求7所述的装置,其特征在于,所述渲染模块具体用于;在所述三维立体场景的光照关闭时,获取与每一张场景图对应的语义分割图。
  11. 根据权利要求7所述的装置,其特征在于,所述渲染模块具体用于:确定物体模型在场景图中的深度顺序;
    按照所述深度顺序,依次将所述物体模型渲染为与物体模型的分类标签对应的单色材质。
  12. 根据权利要求7所述的装置,其特征在于,当所述物体模型为透明物 体模型时,所述渲染模块具体用于:
    判断所述透明物体模型是否对在后的物体模型具有遮挡作用;
    当所述透明物体模型具有遮挡作用时,将所述透明物体模型进行标记分类并渲染为对应的单色材质;当所述透明物体模型不具有遮挡作用时,在所述语义分割图中维持所述透明物体模型为透明或者删除所述透明物体模型。
  13. 一种图像语义分割方法,其特征在于,应用如权利要求1-6任一所述的训练数据生成方法生成的场景图和对应的语义分割图作为训练数据。
  14. 一种电子设备,其特征在于,包括:
    至少一个处理器;以及,
    与所述至少一个处理器通信连接的存储器;其中,
    所述存储器存储有可被所述至少一个处理器执行的指令程序,所述指令程序被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1至6任一项所述的方法。
  15. 一种计算机程序产品,其特征在于,所述计算机程序产品包括:非易失性计算机可读存储介质以及内嵌于所述非易失性计算机可读存储介质的计算机程序指令;所述计算机程序指令包括用以使处理器执行如权利要求1至6任一项所述的方法的指令。
PCT/CN2017/094312 2017-07-25 2017-07-25 训练数据生成方法、生成装置及其图像语义分割方法 WO2019019019A1 (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
EP17919247.1A EP3660787A4 (en) 2017-07-25 2017-07-25 LEARNING DATA GENERATION PROCESS AND GENERATION APPARATUS, AND ASSOCIATED IMAGE SEMANTICS SEGMENTATION PROCESS
CN201780001794.5A CN107690672B (zh) 2017-07-25 2017-07-25 训练数据生成方法、生成装置及其图像语义分割方法
PCT/CN2017/094312 WO2019019019A1 (zh) 2017-07-25 2017-07-25 训练数据生成方法、生成装置及其图像语义分割方法
JP2020524660A JP7203844B2 (ja) 2017-07-25 2017-07-25 トレーニングデータの生成方法、生成装置及びその画像のセマンティックセグメンテーション方法
US16/750,355 US11281943B2 (en) 2017-07-25 2020-01-23 Method for generating training data, image semantic segmentation method and electronic device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2017/094312 WO2019019019A1 (zh) 2017-07-25 2017-07-25 训练数据生成方法、生成装置及其图像语义分割方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US16/750,355 Continuation US11281943B2 (en) 2017-07-25 2020-01-23 Method for generating training data, image semantic segmentation method and electronic device

Publications (1)

Publication Number Publication Date
WO2019019019A1 true WO2019019019A1 (zh) 2019-01-31

Family

ID=61154860

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/094312 WO2019019019A1 (zh) 2017-07-25 2017-07-25 训练数据生成方法、生成装置及其图像语义分割方法

Country Status (5)

Country Link
US (1) US11281943B2 (zh)
EP (1) EP3660787A4 (zh)
JP (1) JP7203844B2 (zh)
CN (1) CN107690672B (zh)
WO (1) WO2019019019A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110189406A (zh) * 2019-05-31 2019-08-30 阿里巴巴集团控股有限公司 图像数据标注方法及其装置
CN111047693A (zh) * 2019-12-27 2020-04-21 浪潮(北京)电子信息产业有限公司 一种图像训练数据集生成方法、装置、设备及介质
CN111145136A (zh) * 2020-01-02 2020-05-12 国网安徽省电力有限公司检修分公司 用于变电站表计图像数据集的合成方法、系统及存储介质
JP2020524861A (ja) * 2017-08-01 2020-08-20 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド セマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体
CN111680758A (zh) * 2020-06-15 2020-09-18 杭州海康威视数字技术股份有限公司 图像训练样本生成方法和装置
JP2020180835A (ja) * 2019-04-24 2020-11-05 鹿島建設株式会社 地盤材料の粒度判定方法及びシステム
CN112308103A (zh) * 2019-08-02 2021-02-02 杭州海康威视数字技术股份有限公司 生成训练样本的方法和装置
JP6932821B1 (ja) * 2020-07-03 2021-09-08 株式会社ベガコーポレーション 情報処理システム、方法及びプログラム
CN113808251A (zh) * 2021-08-09 2021-12-17 杭州易现先进科技有限公司 一种基于语义分割的稠密重建的方法、系统、装置和介质
CN115578499A (zh) * 2022-11-29 2023-01-06 北京天图万境科技有限公司 一种非对称色彩失调一致性的拟合重建的方法及装置

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10867214B2 (en) 2018-02-14 2020-12-15 Nvidia Corporation Generation of synthetic images for training a neural network model
CN108509855B (zh) * 2018-03-06 2021-11-23 成都睿码科技有限责任公司 一种通过增强现实生成机器学习样本图片的系统及方法
JP6719497B2 (ja) * 2018-03-12 2020-07-08 株式会社 日立産業制御ソリューションズ 画像生成方法、画像生成装置及び画像生成システム
CN108509891A (zh) * 2018-03-27 2018-09-07 斑马网络技术有限公司 图像标注方法、装置、存储介质及电子设备
CN108563742B (zh) * 2018-04-12 2022-02-01 王海军 自动创建人工智能图像识别训练素材与标注文件的方法
CN108876764A (zh) * 2018-05-21 2018-11-23 北京旷视科技有限公司 渲染图像获取方法、装置、系统和存储介质
CN112513969A (zh) * 2018-06-18 2021-03-16 奇跃公司 集中式渲染
CN108846897B (zh) * 2018-07-03 2022-10-14 百度在线网络技术(北京)有限公司 三维模型表面材质模拟方法、装置、存储介质及电子设备
CN109190674B (zh) * 2018-08-03 2021-07-20 百度在线网络技术(北京)有限公司 训练数据的生成方法及装置
JP7063764B2 (ja) * 2018-08-08 2022-05-09 ファナック株式会社 3次元モデル作成装置
CN109523640A (zh) * 2018-10-19 2019-03-26 深圳增强现实技术有限公司 深度学习缺陷数据集方法、系统及电子设备
CN109452914A (zh) * 2018-11-01 2019-03-12 北京石头世纪科技有限公司 智能清洁设备,清洁模式选择方法,计算机存储介质
CN111143424A (zh) * 2018-11-05 2020-05-12 百度在线网络技术(北京)有限公司 特征场景数据挖掘方法、装置和终端
CN112529022B (zh) * 2019-08-28 2024-03-01 杭州海康威视数字技术股份有限公司 一种训练样本的生成方法及装置
CN112712098A (zh) * 2019-10-25 2021-04-27 北京四维图新科技股份有限公司 图像数据处理方法及装置
CN111160529B (zh) * 2019-12-28 2023-06-20 天津大学 基于卷积神经网络的目标位姿测量中训练样本生成方法
CN111259950B (zh) * 2020-01-13 2022-07-05 南京邮电大学 一种基于3d模型训练yolo神经网络的方法
CN111325212A (zh) * 2020-02-18 2020-06-23 北京奇艺世纪科技有限公司 模型训练方法、装置、电子设备和计算机可读存储介质
CN111709431B (zh) * 2020-06-15 2023-02-10 厦门大学 即时翻译方法、装置、计算机设备和存储介质
CN111739159A (zh) * 2020-06-29 2020-10-02 上海商汤智能科技有限公司 三维模型生成方法、神经网络生成方法及装置
US11694301B2 (en) 2020-09-30 2023-07-04 Alibaba Group Holding Limited Learning model architecture for image data semantic segmentation
CN112581604B (zh) * 2020-12-21 2024-02-02 国网安徽省电力有限公司超高压分公司 变电站设备表面油污图像数据生成方法及装置
CN112818826A (zh) * 2021-01-28 2021-05-18 北京市商汤科技开发有限公司 目标识别方法及装置、电子设备及存储介质
CN112950760B (zh) * 2021-01-29 2023-08-11 杭州群核信息技术有限公司 一种三维合成场景数据生成系统和方法
CN112639846A (zh) * 2021-02-07 2021-04-09 华为技术有限公司 一种训练深度学习模型的方法和装置
CN113762422B (zh) * 2021-11-09 2022-04-05 广州思德医疗科技有限公司 一种图像训练集合成方法及系统
CN114419289B (zh) * 2021-12-29 2022-12-09 广州市玄武无线科技股份有限公司 一种基于Unity的虚拟场景货架陈列方法及系统
CN115249306B (zh) * 2022-09-13 2022-12-02 腾讯科技(深圳)有限公司 图像分割模型训练方法、图像处理方法、装置及存储介质
CN115496818B (zh) * 2022-11-08 2023-03-10 之江实验室 一种基于动态物体分割的语义图压缩方法和装置
CN115690592B (zh) * 2023-01-05 2023-04-25 阿里巴巴(中国)有限公司 图像处理方法和模型训练方法
CN116109753B (zh) * 2023-04-12 2023-06-23 深圳原世界科技有限公司 三维云渲染引擎装置及数据处理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268635A (zh) * 2013-05-15 2013-08-28 北京交通大学 一种几何网格场景模型的分割及语义标注方法
CN106169082A (zh) * 2015-05-21 2016-11-30 三菱电机株式会社 训练分类器以检测目标环境图像中的对象的方法和系统
EP3156942A1 (en) * 2015-10-16 2017-04-19 Thomson Licensing Scene labeling of rgb-d data with interactive option
US20170193340A1 (en) * 2015-12-30 2017-07-06 International Business Machines Corporation System, method and computer program product for training a three dimensional object indentification system and identifying three dimensional objects using semantic segments

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7574018B2 (en) * 2005-12-07 2009-08-11 Trw Automotive U.S. Llc Virtual reality scene generator for generating training images for a pattern recognition classifier
WO2010088840A1 (en) * 2009-02-06 2010-08-12 The Hong Kong University Of Science And Technology Generating three-dimensional models from images
JP5256153B2 (ja) * 2009-09-16 2013-08-07 株式会社コナミデジタルエンタテインメント 画像処理装置、画像処理装置の制御方法、及びプログラム
US9201253B2 (en) * 2010-12-20 2015-12-01 Sharp Kabushiki Kaisha Display device
US9153031B2 (en) * 2011-06-22 2015-10-06 Microsoft Technology Licensing, Llc Modifying video regions using mobile device input
US8824797B2 (en) * 2011-10-03 2014-09-02 Xerox Corporation Graph-based segmentation integrating visible and NIR information
JP5822655B2 (ja) * 2011-10-28 2015-11-24 任天堂株式会社 ゲーム処理システム、ゲーム処理方法、ゲーム処理装置およびゲーム処理プログラム
US8971612B2 (en) * 2011-12-15 2015-03-03 Microsoft Corporation Learning image processing tasks from scene reconstructions
US20140328570A1 (en) * 2013-01-09 2014-11-06 Sri International Identifying, describing, and sharing salient events in images and videos
US9030470B2 (en) * 2012-08-14 2015-05-12 Hong Kong Applied Science and Technology Research Institute Company Limited Method and system for rapid three-dimensional shape measurement
CN103679192B (zh) * 2013-09-30 2017-01-04 中国人民解放军理工大学 基于协方差特征的图像场景类型判别方法
CN104050722B (zh) * 2014-06-06 2016-12-07 北京航空航天大学 一种图像内容驱动的室内三维场景布局与颜色迁移生成方法
JP6664579B2 (ja) * 2014-06-20 2020-03-13 ヤフー株式会社 学習装置、学習方法及び学習プログラム
GB2532075A (en) * 2014-11-10 2016-05-11 Lego As System and method for toy recognition and detection based on convolutional neural networks
CN104809187B (zh) * 2015-04-20 2017-11-21 南京邮电大学 一种基于rgb‑d数据的室内场景语义标注方法
WO2016175773A1 (en) * 2015-04-29 2016-11-03 Siemens Aktiengesellschaft Method and system for semantic segmentation in laparoscopic and endoscopic 2d/2.5d image data
JP2017037424A (ja) * 2015-08-07 2017-02-16 日本放送協会 学習装置、認識装置、学習プログラム、及び認識プログラム
US10217195B1 (en) * 2017-04-17 2019-02-26 Amazon Technologies, Inc. Generation of semantic depth of field effect

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103268635A (zh) * 2013-05-15 2013-08-28 北京交通大学 一种几何网格场景模型的分割及语义标注方法
CN106169082A (zh) * 2015-05-21 2016-11-30 三菱电机株式会社 训练分类器以检测目标环境图像中的对象的方法和系统
EP3156942A1 (en) * 2015-10-16 2017-04-19 Thomson Licensing Scene labeling of rgb-d data with interactive option
US20170193340A1 (en) * 2015-12-30 2017-07-06 International Business Machines Corporation System, method and computer program product for training a three dimensional object indentification system and identifying three dimensional objects using semantic segments

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3660787A4 *

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020524861A (ja) * 2017-08-01 2020-08-20 ベイジン センスタイム テクノロジー デベロップメント カンパニー, リミテッド セマンティックセグメンテーションモデルの訓練方法および装置、電子機器、ならびに記憶媒体
US11301719B2 (en) 2017-08-01 2022-04-12 Beijing Sensetime Technology Development Co., Ltd. Semantic segmentation model training methods and apparatuses, electronic devices, and storage media
JP7207842B2 (ja) 2019-04-24 2023-01-18 鹿島建設株式会社 地盤材料の粒度判定方法及びシステム
JP2020180835A (ja) * 2019-04-24 2020-11-05 鹿島建設株式会社 地盤材料の粒度判定方法及びシステム
CN110189406A (zh) * 2019-05-31 2019-08-30 阿里巴巴集团控股有限公司 图像数据标注方法及其装置
CN110189406B (zh) * 2019-05-31 2023-11-28 创新先进技术有限公司 图像数据标注方法及其装置
CN112308103A (zh) * 2019-08-02 2021-02-02 杭州海康威视数字技术股份有限公司 生成训练样本的方法和装置
CN112308103B (zh) * 2019-08-02 2023-10-20 杭州海康威视数字技术股份有限公司 生成训练样本的方法和装置
CN111047693A (zh) * 2019-12-27 2020-04-21 浪潮(北京)电子信息产业有限公司 一种图像训练数据集生成方法、装置、设备及介质
CN111145136A (zh) * 2020-01-02 2020-05-12 国网安徽省电力有限公司检修分公司 用于变电站表计图像数据集的合成方法、系统及存储介质
CN111145136B (zh) * 2020-01-02 2023-08-18 国网安徽省电力有限公司超高压分公司 用于变电站表计图像数据集的合成方法、系统及存储介质
CN111680758A (zh) * 2020-06-15 2020-09-18 杭州海康威视数字技术股份有限公司 图像训练样本生成方法和装置
CN111680758B (zh) * 2020-06-15 2024-03-05 杭州海康威视数字技术股份有限公司 图像训练样本生成方法和装置
JP2022013100A (ja) * 2020-07-03 2022-01-18 株式会社ベガコーポレーション 情報処理システム、方法及びプログラム
JP6932821B1 (ja) * 2020-07-03 2021-09-08 株式会社ベガコーポレーション 情報処理システム、方法及びプログラム
CN113808251A (zh) * 2021-08-09 2021-12-17 杭州易现先进科技有限公司 一种基于语义分割的稠密重建的方法、系统、装置和介质
CN113808251B (zh) * 2021-08-09 2024-04-12 杭州易现先进科技有限公司 一种基于语义分割的稠密重建的方法、系统、装置和介质
CN115578499A (zh) * 2022-11-29 2023-01-06 北京天图万境科技有限公司 一种非对称色彩失调一致性的拟合重建的方法及装置

Also Published As

Publication number Publication date
JP7203844B2 (ja) 2023-01-13
EP3660787A4 (en) 2021-03-03
CN107690672B (zh) 2021-10-01
US11281943B2 (en) 2022-03-22
US20200160114A1 (en) 2020-05-21
EP3660787A1 (en) 2020-06-03
CN107690672A (zh) 2018-02-13
JP2020526860A (ja) 2020-08-31

Similar Documents

Publication Publication Date Title
WO2019019019A1 (zh) 训练数据生成方法、生成装置及其图像语义分割方法
US11238644B2 (en) Image processing method and apparatus, storage medium, and computer device
AU2020201618B2 (en) On-set facial performance capture and transfer to a three-dimensional computer-generated model
CN108648269B (zh) 三维建筑物模型的单体化方法和系统
US11671717B2 (en) Camera systems for motion capture
US10062199B2 (en) Efficient rendering based on ray intersections with virtual objects
CN111723902A (zh) 使用神经网络动态估计增强现实场景中位置的照明参数
WO2016011834A1 (zh) 一种图像处理方法及系统
CN108734120A (zh) 标注图像的方法、装置、设备和计算机可读存储介质
US20180357819A1 (en) Method for generating a set of annotated images
CN108876886B (zh) 图像处理方法、装置和计算机设备
WO2023024442A1 (zh) 检测方法、训练方法、装置、设备、存储介质和程序产品
US11429690B2 (en) Interactive path tracing on the web
Kolivand et al. Realistic real-time outdoor rendering in augmented reality
WO2014170757A2 (en) 3d rendering for training computer vision recognition
Boom et al. Interactive light source position estimation for augmented reality with an RGB‐D camera
US20140306953A1 (en) 3D Rendering for Training Computer Vision Recognition
Ma et al. Neural compositing for real-time augmented reality rendering in low-frequency lighting environments
Wei et al. Simulating shadow interactions for outdoor augmented reality with RGBD data
Inoue et al. Tracking Robustness and Green View Index Estimation of Augmented and Diminished Reality for Environmental Design
Wang et al. Research and design of digital museum based on virtual reality
JP7178499B2 (ja) 画像処理装置、画像処理方法、及び、プログラム
TWI451342B (zh) Shadow Removal Method in Mobile Light Source Environment
Lv et al. Smartphone-Based Augmented Reality Systems
Diao et al. Research on the key techniques on 3D virtual campus system

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17919247

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020524660

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017919247

Country of ref document: EP

Effective date: 20200225