WO2020103108A1 - 一种语义生成方法、设备、飞行器及存储介质 - Google Patents

一种语义生成方法、设备、飞行器及存储介质

Info

Publication number
WO2020103108A1
WO2020103108A1 PCT/CN2018/117036 CN2018117036W WO2020103108A1 WO 2020103108 A1 WO2020103108 A1 WO 2020103108A1 CN 2018117036 W CN2018117036 W CN 2018117036W WO 2020103108 A1 WO2020103108 A1 WO 2020103108A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
point cloud
image
semantics
point
Prior art date
Application number
PCT/CN2018/117036
Other languages
English (en)
French (fr)
Inventor
王涛
李鑫超
刘政哲
赵丛
Original Assignee
深圳市大疆创新科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳市大疆创新科技有限公司 filed Critical 深圳市大疆创新科技有限公司
Priority to CN201880038371.5A priority Critical patent/CN110832494A/zh
Priority to PCT/CN2018/117036 priority patent/WO2020103108A1/zh
Publication of WO2020103108A1 publication Critical patent/WO2020103108A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/13Satellite images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Definitions

  • the invention relates to the technical field of control, in particular to a semantic generation method, device, aircraft and storage medium.
  • Embodiments of the present invention provide a semantic generation method, device, aircraft, and storage medium, which can automatically recognize the semantics of each pixel in an image, meet the needs of automation and intelligence of semantic recognition, and determine image categories more effectively.
  • an embodiment of the present invention provides a semantic generation method.
  • the method includes:
  • the first image data is processed based on a semantic recognition model to obtain the semantics and semantic confidence of each pixel in the first image data.
  • an embodiment of the present invention provides a semantic generation device, including a memory and a processor;
  • the memory is used to store program instructions
  • the processor executes the program instructions stored in the memory. When the program instructions are executed, the processor is used to perform the following steps:
  • the first image data is processed based on a semantic recognition model to obtain the semantics and semantic confidence of each pixel in the first image data.
  • an embodiment of the present invention provides an aircraft, including:
  • a power system provided on the fuselage for providing flight power
  • Camera device used to capture the first image data
  • a processor configured to obtain a first image taken by a camera mounted on the aircraft and depth data corresponding to each pixel in the first image; add semantic annotation information to the first image, and according to the first An image, depth data corresponding to each pixel in the first image, and the semantic annotation information to obtain first image data; processing the first image data based on a semantic recognition model to obtain each of the first image data The semantics and confidence of each pixel.
  • an embodiment of the present invention provides a computer-readable storage medium that stores a computer program, which when executed by a processor implements the semantic generation method described in the first aspect above.
  • the semantic generation device may acquire the first image captured by the camera mounted on the aircraft and the depth data corresponding to each pixel in the first image, add semantic annotation information to the first image, and Obtaining first image data according to the first image, depth data corresponding to each pixel in the first image, and the semantic annotation information, and processing the first image data based on a semantic recognition model to obtain the The semantics and the confidence of semantics of each pixel in the first image data.
  • the semantics of each pixel in the image can be automatically identified, which meets the needs of automation and intelligence of semantic recognition, and improves the effectiveness and efficiency of semantic recognition.
  • FIG. 1 is a schematic diagram of an interface of a point cloud map provided by an embodiment of the present invention.
  • Figure 2.1 is a schematic diagram of an orthophoto image interface provided by an embodiment of the present invention.
  • 2.2 is a schematic diagram of another point cloud map interface provided by an embodiment of the present invention.
  • Fig. 2.3 is a schematic diagram of an interface of a point cloud map for marking obstacles provided by an embodiment of the present invention.
  • FIG. 3 is a schematic diagram of a working scene of a semantic generation system provided by an embodiment of the present invention.
  • FIG. 4 is a schematic flowchart of a semantic generation method provided by an embodiment of the present invention.
  • FIG. 5 is a schematic flowchart of another semantic generation method provided by an embodiment of the present invention.
  • FIG. 6 is a schematic structural diagram of a semantic generation device according to an embodiment of the present invention.
  • the semantic generation method provided in the embodiment of the present invention may be executed by a semantic generation system.
  • the semantic generation system includes a semantic generation device and an aircraft, and a bidirectional communication connection may be established between the semantic generation device and the aircraft to perform bidirectional communication .
  • the semantic generation device may be set on an aircraft (such as a drone) equipped with a load (such as a camera, infrared detection device, surveying instrument, etc.).
  • the semantic generating device may also be provided on other movable devices, such as robots, autonomous vehicles, and unmanned boats that can move autonomously.
  • the semantic generation device may be a component of an aircraft, that is, the aircraft includes the semantic generation device; in other embodiments, the semantic generation device may also be spatially independent of the aircraft.
  • the semantic generating device may first collect sample image data through the camera device of the aircraft, and perform semantic annotation on the sample image corresponding to the sample image data to obtain sample image data including semantic annotation information.
  • the sample image data includes a sample image and depth of field data corresponding to each pixel in the sample image.
  • the sample image may be an RGB image, and the depth of field data may be obtained from a depth image.
  • the semantic generation device may generate an initial semantic recognition model according to a preset semantic recognition algorithm, and use the sample image data including semantic annotation information as input data, input the initial semantic recognition model for training, and obtain training results, wherein ,
  • the training result includes the semantics of each pixel in the sample image and the confidence of each semantic.
  • the semantic generation device may compare the semantics of each pixel in the sample image of the training result with the semantic annotation information of the sample image, and if they do not match, adjust the initial semantic recognition Parameters in the model until the semantics of each pixel in the training result sample image match the semantic annotation information, the semantic recognition model is generated.
  • the semantic recognition model may be a Convolutional Neural Network (CNN) model.
  • CNN Convolutional Neural Network
  • the addition of depth data adds one dimension of information to the RGB pixel information obtained by the aircraft. Using RGB data to collect depth data can optimize the training process and greatly improve the accuracy of the training model for ground object recognition.
  • Depth of field data is data obtained by shooting with a binocular camera, which can be calculated by processing data obtained by processing a series of continuous image frames by a monocular camera during the flight of the aircraft.
  • the sample image may include a color image or an orthophoto; in some embodiments, the orthophoto is an aerial image that has been geometrically corrected (such as having a uniform scale), Unlike the uncorrected aerial imagery, the orthophoto image can be used to measure the actual distance, because it is a true description of the Earth ’s surface obtained through geometric correction.
  • the orthophoto image is informative, intuitive, and scalable Measured characteristics.
  • the color image may be an RGB image determined according to RGB values.
  • the depth of field data reflects the distance from the camera to the object.
  • the semantic generating device may acquire the first image captured by the camera mounted on the aircraft and the depth data corresponding to each pixel in the first image during the flight of the aircraft, for Add semantic annotation information to the first image, and obtain first image data based on the first image, the depth of field data corresponding to each pixel in the first image, and the semantic annotation information, and process based on the semantic recognition model
  • the first image data to output the semantics and semantic confidence of each pixel in the first image data.
  • the first image may include a color image or an orthophoto; in some embodiments, the confidence level is positive floating-point data.
  • the semantic generating device may be based on the position data and height data corresponding to the first image data And the semantics of each pixel in the first image data, generate first point cloud data containing semantics, and use the first point cloud data containing semantics to generate a point cloud map.
  • the position data corresponding to the first image data includes the longitude and latitude of the first image
  • the height data corresponding to the first image data is the height of the first image.
  • the first point cloud data corresponds to each pixel in the first image data
  • the semantics of different point cloud data on the point cloud map can be marked with different display methods, Such as marking by different colors.
  • FIG. 1 is a schematic diagram of an interface of a point cloud map provided by an embodiment of the present invention.
  • FIG. 1 is a schematic diagram of tagging point cloud data with different semantics on a point cloud map by using different colors.
  • FIG. 1 The different colors shown in represent different categories.
  • the semantic generation device may semantically label the orthophoto (ie, mark the category of the feature to identify the feature type) To obtain an orthophoto image containing semantic annotation information, and input the orthophoto image containing semantic annotation information into the trained semantic recognition model for processing, and identify that each pixel on the orthophoto image corresponds to And the semantic confidence, position data and height data of each pixel on the orthophoto image.
  • the position data includes the longitude and latitude of the first image in the first image data
  • the height data includes the height of the first image in the first image data.
  • the semantic generation device may use the trained semantic recognition model to compare the orthophoto and the image Depth of field data corresponding to the orthophoto is identified, and the semantics corresponding to each pixel on the orthophoto are identified.
  • the semantic generating device may generate the first point cloud data containing semantics according to the position data, height data, depth data corresponding to the orthophotos and the semantics corresponding to each pixel on the orthophotos, thereby generating Semantic point cloud map.
  • the depth of field data may be displayed by a depth map.
  • the depth map refers to a frame of data with depth information (that is, depth of field data) read from the camera device. It is suitable for intuitive viewing, so the depth map can be converted into point cloud data according to preset rules, so that a point cloud map can be generated according to the point cloud data, which is convenient for users to view.
  • the first image data includes orthophotos. Since the orthophotos obtained at different times may have a large overlap, the two orthophotos collected at two different times may be There may be multiple pixels with the same position data, and the semantics of the identified multiple pixels with the same position data in the two orthophotos may be inconsistent. Therefore, in order to more reliably perform semantic recognition on multiple pixels with the same position data, the semantic generation device can output the semantic recognition model according to the level of confidence in the semantics of the multiple pixels with the same position data. It is determined that the semantic with higher confidence is the semantic of multiple pixels with the same position data.
  • the semantic generation device may also use manual voting to determine the semantics of multiple pixels with the same location data; in some embodiments, the semantic generation device may also have the same location
  • the semantics of multiple pixels of data being marked the most is determined as the semantics of multiple pixels with the same location data; in other embodiments, the semantics of multiple pixels with the same location data can also be based on other rules
  • the determination is, for example, determined according to a preset semantic priority, which is not specifically limited in this embodiment of the present invention.
  • the semantic generation device may plan a flight route according to the semantics of pixel points corresponding to each image area on the point cloud map.
  • the semantic generating device may determine the obstacle area on the point cloud map according to the semantics of the pixels corresponding to each image area on the point cloud map, and automatically mark the obstacle area through a specific marking method, For example, telephone poles in farmland, isolated trees in farmland, etc.
  • the semantic generating device may generate a flight route that automatically avoids the marked obstacle area according to a preset route generation algorithm.
  • the point cloud map may include multiple image areas, and each image area is divided according to the semantics of each pixel in the point cloud map.
  • the areas corresponding to the semantics designated as obstacles or obstacle areas can be automatically marked as obstacle areas to be avoided by the route, which is greatly reduced
  • the point cloud map containing semantics in real time the point cloud map merges the results of recognition in multiple orthophotos, reducing the misjudgment or omission of ground features Probability improves the efficiency of identifying features.
  • Figure 2.1 is a schematic diagram of an interface of an orthophoto image provided by an embodiment of the present invention
  • Figure 2.2 is an interface of another point cloud map provided by an embodiment of the present invention.
  • Schematic diagram, FIG. 2.3 is a schematic diagram of an interface of a point cloud map for marking obstacles provided by an embodiment of the present invention.
  • the semantic generation device can input the orthophoto shown in Figure 2.1 into the trained semantic recognition model according to the acquired orthophoto shown in Figure 2.1, and recognize the corresponding orthophoto shown in Figure 2.1 Pixel semantics.
  • the semantic generation device can render a point cloud map containing semantics, A point cloud map as shown in FIG. 2.2 is obtained, where the gray dots in the area 201 in FIG. 2.2 represent obstacles such as telephone poles that need to be marked. Therefore, by marking the gray points in the area 201 in FIG. 2.2, such as marking the gray points in the area 201 with a circle shown in FIG. 2.3, a schematic diagram of the marked obstacle as shown in FIG. 2.3 can be obtained .
  • the marking method for the obstacle may be other marking methods, which is not specifically limited in the embodiment of the present invention.
  • the point cloud map containing semantics can also be applied to the detection of illegal buildings, and the semantic generation device can recognize two different moments of acquisition through a semantic recognition model based on an orthophoto with semantic annotation information
  • the orthophotos of the image correspond to the semantics of the pixels, and according to the location data, height data and the semantics of each pixel corresponding to the orthophotos collected at two different times, generate point cloud data with semantics and use point clouds
  • the data generates point cloud maps each containing semantics.
  • the semantic confidence of the pixels with the same location data can be compared to determine the pixels with the same location data Semantics, so as to determine whether there is illegal building in the pixel area with the same position data according to the semantics; or whether the pixel area with the same position data has changed.
  • the point cloud map containing semantics can also be applied to feature classification. Specifically, the features on the point cloud map may be classified according to the semantics of the corresponding pixel points on the point cloud map, the position data and height data of the corresponding pixel points on the point cloud map, and / or the The features on the point cloud map are divided or divided by category.
  • the point cloud map containing semantics can also be applied to agricultural machinery spraying tasks.
  • pesticide spraying can be controlled by judging whether the area where the agricultural machinery is flying is a crop that needs to be sprayed Switch to avoid wasting pesticides.
  • FIG. 3 is a schematic diagram of a working scene of a semantic generation system provided by an embodiment of the present invention.
  • the semantic generation system shown in FIG. 3 includes: a semantic generation device 31 and an aircraft 32, and the semantic generation device 31 It may be a control terminal of the aircraft 32, and specifically may be any one or more of a remote controller, a smart phone, a tablet computer, a laptop computer, a ground station, and a wearable device (watch, bracelet).
  • the aircraft 32 may be a rotor-type aircraft, such as a four-rotor aircraft, a six-rotor aircraft, an eight-rotor aircraft, or a fixed-wing aircraft.
  • the aircraft 32 includes a power system 321, which is used to provide flight power to the aircraft 32.
  • the power system 321 includes any one or more of a propeller, a motor, and an electronic governor.
  • the aircraft 32 may also include a gimbal 322 and
  • the imaging device 323 is mounted on the main body of the aircraft 32 via the gimbal 322.
  • the camera device 323 is used for taking images or videos during the flight of the aircraft 32, including but not limited to multi-spectral imagers, hyper-spectral imagers, visible light cameras, and infrared cameras, etc.
  • PTZ 322 is a multi-axis transmission and stabilization system
  • the PTZ 322 motor compensates the imaging angle of the imaging device by adjusting the rotation angle of the rotation axis, and prevents or reduces the shaking of the imaging device by setting an appropriate buffer mechanism.
  • the semantic generation system may obtain the first image data captured by the camera 323 mounted on the aircraft 32 through the semantic generation device 31, and process the first image data based on the semantic recognition model to Obtain the semantics of each pixel in the first image data, and generate according to the position data, height data corresponding to the first image data and the semantics of each pixel in the first image data, to generate The first point cloud data containing semantics, thereby generating a point cloud map using the first point cloud data containing semantics.
  • the first point cloud data includes a plurality of point data, and the point data corresponds to each pixel in the first image data.
  • a point cloud map containing semantics can be generated, so that the aircraft can determine the feature type according to the semantics on the point cloud map in the aerial photography application.
  • this embodiment does not limit the correspondence between the point cloud data and the pixels in the first image data.
  • the point cloud data may have a one-to-one correspondence with the pixels in the image data; each point cloud data may also correspond to multiple
  • the semantics of pixels are determined by the clustering results of multiple pixels.
  • the semantic generation device 31 may obtain the second image data captured by the camera 323 mounted on the aircraft 32, and process the second image data based on the semantic recognition model to obtain the first The semantics of each pixel in the second image data, and according to the position data, height data corresponding to the second image data and the semantics of each pixel in the second image data, a Two point cloud data, thereby updating the point cloud map using the second point cloud data.
  • the second point cloud data includes a plurality of point data, and the point data corresponds to each pixel in the second image data. In this way, the real-time update of the point cloud map is realized, so that when the feature category at the same location data changes, the point cloud map can be updated in time to improve the accuracy of semantics in the point cloud map.
  • both the first image data and the second image data include color images, such as RGB images; or, in some embodiments, the first image data and the second image data Both include a color image and depth data corresponding to the color image; or, in some embodiments, both the first image data and the second image data include an orthophoto; or, in other embodiments, Both the first image data and the first image data include orthophotos and depth data corresponding to the orthophotos.
  • FIG. 4 is a schematic flowchart of a semantic generation method according to an embodiment of the present invention.
  • the method may be executed by a semantic generation device, and the specific explanation of the semantic generation device is as described above.
  • the method in the embodiment of the present invention includes the following steps.
  • S401 Acquire a first image captured by a camera mounted on the aircraft and depth data corresponding to each pixel in the first image.
  • the semantic generation device may obtain the first image captured by the camera mounted on the aircraft and the depth data corresponding to each pixel in the first image.
  • the explanation of the first image and the depth of field data is as described above, and will not be repeated here.
  • S402 Add semantic annotation information to the first image, and obtain first image data according to the first image, depth data corresponding to each pixel in the first image, and the semantic annotation information.
  • the semantic generating device may add semantic annotation information to the first image, and obtain the first image, depth data corresponding to each pixel in the first image, and the semantic annotation information to obtain The first image data.
  • the semantic generation device may add semantic annotation information to pixels with different semantics in the first image. For example, assuming that the first image is an RGB image, pixels representing water in the RGB image may be marked as water, and pixels representing trees in the RGB image may be marked as trees.
  • S403 Process the first image data based on a semantic recognition model to obtain the semantics and semantic confidence of each pixel in the first image data.
  • the semantic generating device may process the first image data based on a semantic recognition model to identify the semantics and semantic confidence of each pixel in the output first image data.
  • a semantic recognition model may also output position data and / or height data corresponding to the first image data when processing the first image data.
  • the semantic generation device may train to generate the semantic recognition model before processing the first image data based on the semantic recognition model.
  • the semantic generation device may obtain a sample database, the sample database includes sample image data, and generates an initial semantic recognition model according to a preset semantic recognition algorithm, and based on the sample database Each sample image data of is trained and optimized on the initial semantic recognition model to obtain the semantic recognition model.
  • the sample image data includes a sample image and semantic annotation information; or, the sample image data includes a sample image, depth data corresponding to each pixel in the sample image, and semantic annotation information.
  • the preset semantic recognition algorithm may include a convolutional neural network CNN algorithm, or other algorithms for recognizing speech, which is not specifically limited in this embodiment of the present invention.
  • the sample image may be a color image or an orthophoto.
  • the semantic generating device may be based on the position data and height data corresponding to the first image data And the semantics of each pixel in the first image data, generate first point cloud data containing semantics, and use the first point cloud data containing semantics to generate a point cloud map.
  • the location data includes longitude and latitude.
  • the first point cloud data includes a plurality of point data, each point data includes multiple semantics of position data, height data, and different confidence levels, and each of the first point cloud data includes The point data corresponds to each pixel in the first image data.
  • the point cloud map contains a plurality of point data, and each point data includes location data, altitude data, and multiple semantics with different confidence levels.
  • the multiple semantics with different confidence levels are obtained from multiple channels after being recognized by the semantic recognition model; in some embodiments, the difference from the output of the general neural network is that A segmented output function is added after the output channel of the neural network. If the channel confidence result is negative, the channel confidence result is set to zero to ensure that the neural network output confidence is positive floating-point data.
  • the point cloud map includes a plurality of image areas, the image areas are divided according to the semantics of each pixel in the point cloud map, and each image area is displayed by different display mark methods, For example, each image area with different semantics is marked by different colors.
  • the semantic generation device may acquire the first image captured by the camera mounted on the aircraft and the depth data corresponding to each pixel in the first image, add semantic annotation information to the first image, and Obtaining first image data according to the first image, depth data corresponding to each pixel in the first image, and the semantic annotation information, and processing the first image data based on a semantic recognition model to obtain the The semantics and the confidence of semantics of each pixel in the first image data.
  • the semantics of each pixel in the image can be automatically identified, which meets the needs of automation and intelligence of semantic recognition, and improves the effectiveness and efficiency of semantic recognition.
  • FIG. 5 is a schematic flowchart of another semantic generation method provided by an embodiment of the present invention.
  • the method may be executed by a semantic generation device, and the specific explanation of the semantic generation device is as described above.
  • the difference between the embodiment of the present invention and the embodiment described in FIG. 4 above is that the embodiment of the present invention mainly describes the detailed process of semantic recognition.
  • S501 Acquire a sample database, the sample database includes sample image data.
  • the semantic generation device may obtain a sample database, and the sample database includes sample image data.
  • the sample image data includes a sample image and semantic annotation information; or, the sample image data includes a sample image, depth data corresponding to each pixel in the sample image, and semantic annotation information.
  • the sample image may be a color image or an orthophoto.
  • S502 Generate an initial semantic recognition model according to a preset semantic recognition algorithm.
  • the semantic generating device may generate an initial semantic recognition model according to a preset semantic recognition algorithm.
  • the preset semantic recognition algorithm may include a convolutional neural network CNN algorithm, or other algorithms for recognizing speech, which is not specifically limited in this embodiment of the present invention.
  • S503 Train and optimize the initial semantic recognition model based on each sample image data in the sample database to obtain the semantic recognition model.
  • the semantic generation device may perform training optimization on the initial semantic recognition model based on each sample image data in the sample database to obtain the semantic recognition model.
  • the sample image data may include a sample image and depth data corresponding to each pixel in the sample image.
  • a sample image containing semantic annotation information and depth data is obtained That is, sample image data, and the initial semantic recognition model is invoked to identify the sample image included in the sample image data and depth data corresponding to each pixel in the sample image to obtain a recognition result.
  • the initial semantic recognition model By adjusting the parameters in the initial semantic recognition model, if the semantic recognized in the recognition result matches the semantic annotation information included in the sample image data, the semantic recognition model can be determined to be generated.
  • the semantic recognition model used in this solution may be a CNN model, and the architecture of the CNN model mainly includes an input layer, a convolutional layer, an excitation layer, and a pooling layer.
  • the neural network model a plurality of subnets may be included, the subnets are arranged in a sequence from lowest to highest, and the input image data is processed by each of the subnets in the sequence.
  • the subnets in the sequence include multiple module subnets and optionally one or more other subnets, all of which are composed of one or more conventional neural network layers, such as maximum pooling layer, convolutional layer , Fully connected layer, regularization layer, etc.
  • Each subnet receives the previous output representation generated by the previous subnet in the sequence; processes the previous output representation by pass-through convolution to generate a pass-through output; and processes it by one or more groups of neural network layers.
  • the front output representation is used to generate one or more groups, and the through output and the group output are connected to generate an output representation of the module subnet.
  • the input layer is used to input image data
  • the convolution layer is used to perform operations on the image data
  • the excitation layer is used to perform non-linear mapping on the output of the convolution layer.
  • the pooling layer is used to compress the amount of data and parameters, reduce overfitting, and improve performance. This solution uses the sample image data after semantic annotation as input data, input to the input layer of the CNN model, and after the calculation of the convolutional layer, the confidence of different semantics is output through multiple channels.
  • the output result of CNN it can be expressed as a tensor value.
  • the tensor value represents the three-dimensional point cloud information of the pixel and n
  • the semantic information of the channel, where K1, K2, ..., Kn represents the confidence, and the semantic channel with the highest confidence in the tensor data is taken as the semantic of the pixel.
  • Ki 0.8, which is the highest confidence, then the semantics corresponding to the i-th channel are taken as the semantics of the pixel.
  • S504 Obtain the first image captured by the camera mounted on the aircraft and the depth data corresponding to each pixel in the first image.
  • the semantic generation device may acquire the first image captured by the camera mounted on the aircraft and the depth data corresponding to each pixel in the first image, and the interpretation of the first image and the depth data As mentioned before, no more details will be given here.
  • S505 Add semantic annotation information to the first image, and obtain first image data according to the first image, depth data corresponding to each pixel in the first image, and the semantic annotation information.
  • the semantic generating device may add semantic annotation information to the first image, and obtain the first image, depth data corresponding to each pixel in the first image, and the semantic annotation information to obtain The first image data. Specific embodiments are as described above, and will not be repeated here.
  • S506 Process the first image data based on a semantic recognition model to obtain the semantics and semantic confidence of each pixel in the first image data.
  • the semantic generating device may process the first image data based on a semantic recognition model to identify the semantics and semantic confidence of each pixel in the output first image data. Specific embodiments are as described above, and will not be repeated here.
  • the semantic generating device may be based on the position data and height data corresponding to the first image data And the semantics of each pixel in the first image data, generate first point cloud data containing semantics, and use the first point cloud data containing semantics to generate a point cloud map.
  • the location data includes longitude and latitude.
  • the semantic generation device may acquire second image data captured by camera devices mounted on the aircraft at different times, and process the second image data based on the semantic recognition model to obtain the second
  • the semantics and semantic confidence of each pixel in the image data, and the position data, height data corresponding to the second image data and the semantics of each pixel in the second image data are generated Contains semantic second point cloud data, thereby updating the point cloud map using the second point cloud data.
  • the second image data includes a color image; or, the second image data includes a color image and depth of field data corresponding to the color image; or, the second image data includes an orthophoto; Alternatively, the second image data includes orthophotos and depth data corresponding to the orthophotos.
  • the second point cloud data includes a plurality of point data, and each point data includes multiple semantics of position data, height data, and different confidence levels.
  • the second point cloud data Each point data contained in the point cloud data corresponds to each pixel in the second image data.
  • the confidence level is positive floating point data.
  • the semantic generating device may detect whether the point cloud map generated from the first point cloud data has the same position as the second point cloud data Point data (ie overlapping pixel points) of the data; if it is detected that there is point data in the point cloud map generated from the first point cloud data that has the same position data as the second point cloud data, then the The semantic confidence of two point data with the same position data in the second point cloud data and the point cloud map, and the semantics of the point data with higher confidence in the two point data are retained.
  • Point data ie overlapping pixel points
  • the semantic generation device may determine the semantics of the point data with higher confidence in the two point data as The semantics of point data in the point cloud map that is the same as the position data of the second point data, and the point data in the second point cloud data that is different from the position data in the point cloud map and the point cloud The maps are superimposed so as to update the point cloud map.
  • two point data having the same position data in the first point cloud data and the second point cloud data overlap two of the first image data and the second image data Pixels correspond.
  • the semantic generating device may compare the first point cloud data and the first point cloud data. Multiple semantics with different confidence levels in two point data with the same position data in the two point cloud data are subtracted. In some embodiments, the subtraction operation is to remove the semantics with lower confidence in the two point data and retain the semantics with higher confidence.
  • the semantic generating device detects that there is point data having the same position data as the second point cloud data in the point cloud map generated from the first point cloud data before updating the point cloud map, if The semantics of the point data of the same position data in the point cloud map generated from the first point cloud data are fruit trees, and the confidence is 50%, and the same position data in the second point cloud data
  • the semantics of the point data is rice, and the confidence level is 80%, then the semantic confidence level of the two point data with the same position data in the second point cloud data and the point cloud map can be compared, because the confidence level is 80 If% is greater than 50%, the semantics with lower confidence in the two point data, that is, fruit trees, can be removed, and the semantics in the point cloud map can be updated to rice.
  • the semantic generation device when the semantic generation device uses the second point cloud data to update the point cloud map, it may also calculate the point cloud map generated from the first point cloud data to neutralize the first point cloud map.
  • the semantics of the two point data with the same position data in the two point cloud data are the number of semantics marked in the history record, and the semantics with the largest number is used as the first point cloud data and the second point cloud The semantics of two point data with the same position data in the data.
  • the semantic generating device may also generate points based on the second point cloud data and the first point cloud data
  • the priority corresponding to the semantics of the two point data with the same position data in the cloud map, and determining the semantics with the highest priority are the two point data with the same position data in the second point cloud data and the point cloud map Semantics.
  • the point cloud map includes a plurality of image areas, the image areas are divided according to the semantics of each pixel in the point cloud map, and each image area is displayed by different display mark methods, For example, each image area with different semantics is marked by different colors.
  • the semantic generating device may also determine the semantics corresponding to each image area on the point cloud map, and according to the point cloud A semantic flight path corresponding to each image area on the map is planned to control the aircraft to fly according to the flight path.
  • the semantic generation device may determine the point cloud map according to the semantics corresponding to each image area on the point cloud map The obstacle area on the road, and bypass the obstacle area to plan the flight route when planning the route.
  • the semantic generation device when the semantic generation device controls the aircraft to fly according to the flight route, it can determine whether the semantics of the image area corresponding to the current flight position of the aircraft in the point cloud map is consistent with the target The semantics of the tasks match. If it is determined that the semantics of the image area corresponding to the current flight position of the aircraft in the point cloud map match the semantics of the target task, the aircraft can be controlled to execute the target task If it is determined that the semantics of the image area corresponding to the current flight position of the aircraft in the point cloud map do not match the semantics of the target task, the aircraft may be controlled to stop performing the target task.
  • the target task may be any one or more tasks such as a pesticide spraying task, an obstacle detection task, and classifying scene targets.
  • the semantic generation device may identify the target of the aerial scene when controlling the aircraft to perform the target task, and generate the target according to the recognition result A point cloud map containing semantics, and classifying aerial photography scenes according to the point cloud map containing semantics.
  • the semantic generation device when the semantic generation device divides the category of the aerial photography scene, it can compare the aerial photography according to the semantic confidence, position data, and altitude data of each pixel in the point cloud map. The categories of scenes are divided.
  • the semantic generation device may
  • the point cloud map corresponds to any one or more of the semantic confidence, position data, and height data of each pixel point, and the area corresponding to the pixel point whose semantic data is a tree and whose height data is greater than the first preset height threshold is determined It is the area of the tree; the area corresponding to the pixel points with semantic meaning of cement and / or asphalt is road; the pixel point corresponding to the semantic confidence is cement and asphalt is road; the semantic is determined to be rod, and the height data is greater than the first 2.
  • the area corresponding to the pixels of the preset height threshold is a telephone pole; the semantic is determined to be the surface corresponding to the pixels covered by water, such as water and rivers; the semantic is determined to be the building, pavilion, and reservoir (excluding the water surface) , Factories, plastic sheds, etc. are buildings; the area corresponding to pixels with semantic meaning of rice is determined as rice fields; the area corresponding to pixels with blank areas or other semantic pixels whose height data is less than the third preset height threshold is ground. According to the identified categories included in the field, the areas corresponding to the field are divided.
  • the semantic generating device may obtain a sample database including sample image data, generate an initial semantic recognition model according to a preset semantic recognition algorithm, and based on each sample image data in the sample database
  • the initial semantic recognition model is trained and optimized to obtain the semantic recognition model, so that the acquired first image data is processed based on the semantic recognition model to obtain the semantics and semantics of each pixel in the first image data Confidence.
  • the semantics of each pixel in the image can be automatically recognized, which improves the accuracy of semantic recognition.
  • FIG. 6 is a schematic structural diagram of a semantic generation device according to an embodiment of the present invention.
  • the semantic generation device includes: a memory 601, a processor 602, and a data interface 603.
  • the memory 601 may include a volatile memory (volatile memory); the memory 601 may also include a non-volatile memory (non-volatile memory); the memory 601 may also include a combination of the foregoing types of memories.
  • the processor 602 may be a central processing unit (central processing unit, CPU).
  • the processor 602 may further include a hardware chip.
  • the above hardware chip may be an application-specific integrated circuit (ASIC), a programmable logic device (PLD) or a combination thereof.
  • ASIC application-specific integrated circuit
  • PLD programmable logic device
  • FPGA field-programmable gate array
  • the memory 601 is used to store program instructions.
  • the processor 602 may call the program instructions stored in the memory 601 to perform the following steps:
  • the first image data is processed based on a semantic recognition model to obtain the semantics and semantic confidence of each pixel in the first image data.
  • the first image includes a color image
  • the first image includes an orthophoto.
  • the confidence level is positive floating point data.
  • the processor 602 is also used to:
  • first point cloud data containing semantics according to the position data, height data corresponding to the first image data, and the semantics of each pixel in the first image data
  • a point cloud map is generated using the first point cloud data containing semantics.
  • processor 602 is also used to:
  • first point cloud data, the second point cloud data, and the point cloud map all contain a plurality of point data, and each point data includes position data, height data, and multiple semantics with different confidence levels;
  • Each point data included in the first point cloud data corresponds to each pixel in the first image data, and each point data included in the second point cloud data corresponds to the Each pixel corresponds.
  • processor 602 uses the second point cloud data to update the point cloud map, it is specifically used to:
  • processor 602 compares the second point cloud data and the two point data with the same position data in the point cloud map, it is specifically used to:
  • Subtraction operations are performed on a plurality of semantics with different confidence levels in two point data with the same position data in the first point cloud data and the second point cloud data.
  • two point data having the same position data in the first point cloud data and the second point cloud data correspond to two overlapping pixel points in the first image data and the second image data.
  • processor 602 uses the second point cloud data to update the point cloud map, it is specifically used to:
  • the semantics with the largest number is used as the semantics of the two point data with the same position data in the first point cloud data and the second point cloud data.
  • processor 602 uses the second point cloud data to update the point cloud map, it is specifically used to:
  • the semantics with the highest priority are the second point cloud data and the The semantics of two point data with the same position data in a point cloud map.
  • the processor 602 is further used to:
  • sample database including sample image data
  • the sample image data includes a sample image and semantic annotation information; or, the sample image data includes a sample image, depth data corresponding to each pixel in the sample image and semantic annotation information.
  • the processor 602 performs training optimization on the initial semantic recognition model based on each sample image data in the sample database to obtain the semantic recognition model, it is specifically used for:
  • the model parameters of the initial semantic recognition model are optimized to obtain the semantic recognition model.
  • the point cloud map includes a plurality of image areas, the image areas are divided according to the semantics of each pixel in the point cloud map, and each image area is displayed by different display mark methods.
  • the processor 602 uses the second point cloud data to update the point cloud map, it is also used to:
  • processor 602 is specifically used when planning a flight route according to the semantics of each image area on the point cloud map:
  • processor 602 controls the aircraft to fly according to the flight path, it is specifically used to:
  • the semantic generation device may acquire the first image captured by the camera mounted on the aircraft and the depth data corresponding to each pixel in the first image, add semantic annotation information to the first image, and Obtaining first image data according to the first image, depth data corresponding to each pixel in the first image, and the semantic annotation information, and processing the first image data based on a semantic recognition model to obtain the The semantics and the confidence of semantics of each pixel in the first image data.
  • the semantics of each pixel in the image can be automatically identified, which meets the needs of automation and intelligence of semantic recognition, and improves the effectiveness and efficiency of semantic recognition.
  • An embodiment of the present invention also provides an aircraft including: a fuselage; a power system provided on the fuselage for providing flight power; a camera device for capturing first image data; the power system includes: The blade and the motor are used to drive the blade to rotate; the processor is used to obtain the first image taken by the camera mounted on the aircraft and the depth of field data corresponding to each pixel in the first image; for the first Add semantic annotation information to the image, and obtain first image data based on the first image, the depth of field data corresponding to each pixel in the first image, and the semantic annotation information; process the first image based on a semantic recognition model Data to obtain the semantics and semantic confidence of each pixel in the first image data.
  • the first image includes a color image
  • the first image includes an orthophoto.
  • the confidence level is positive floating point data.
  • the processor is further used to:
  • first point cloud data containing semantics according to the position data, height data corresponding to the first image data, and the semantics of each pixel in the first image data
  • a point cloud map is generated using the first point cloud data containing semantics.
  • processor is also used to:
  • first point cloud data, the second point cloud data, and the point cloud map all contain a plurality of point data, and each point data includes position data, height data, and multiple semantics with different confidence levels;
  • Each point data included in the first point cloud data corresponds to each pixel in the first image data, and each point data included in the second point cloud data corresponds to the Each pixel corresponds.
  • the processor uses the second point cloud data to update the point cloud map, it is specifically used to:
  • the processor compares the second point cloud data and the two point data with the same position data in the point cloud map, it is specifically used to:
  • Subtraction operations are performed on a plurality of semantics with different confidence levels in two point data with the same position data in the first point cloud data and the second point cloud data.
  • two point data having the same position data in the first point cloud data and the second point cloud data correspond to two overlapping pixel points in the first image data and the second image data.
  • the processor uses the second point cloud data to update the point cloud map, it is specifically used to:
  • the semantics with the largest number is used as the semantics of the two point data with the same position data in the first point cloud data and the second point cloud data.
  • the processor uses the second point cloud data to update the point cloud map, it is specifically used to:
  • the semantics with the highest priority are the second point cloud data and the The semantics of two point data with the same position data in a point cloud map.
  • the processor is further configured to:
  • sample database including sample image data
  • the sample image data includes a sample image and semantic annotation information; or, the sample image data includes a sample image, depth data corresponding to each pixel in the sample image and semantic annotation information.
  • the processor performs training optimization on the initial semantic recognition model based on each sample image data in the sample database to obtain the semantic recognition model, it is specifically used to:
  • the model parameters of the initial semantic recognition model are optimized to obtain the semantic recognition model.
  • the point cloud map includes a plurality of image areas, the image areas are divided according to the semantics of each pixel in the point cloud map, and each image area is displayed by different display mark methods.
  • the processor updates the point cloud map using the second point cloud data, it is also used to:
  • the processor is specifically used when planning a flight route according to the semantics of each image area on the point cloud map:
  • the processor controls the aircraft to fly according to the flight path, it is specifically used to:
  • the semantic generation device may acquire the first image captured by the camera mounted on the aircraft and the depth data corresponding to each pixel in the first image, add semantic annotation information to the first image, and Obtaining first image data according to the first image, depth data corresponding to each pixel in the first image, and the semantic annotation information, and processing the first image data based on a semantic recognition model to obtain the The semantics and the confidence of semantics of each pixel in the first image data.
  • the semantics of each pixel in the image can be automatically identified, which meets the needs of automation and intelligence of semantic recognition, and improves the effectiveness and efficiency of semantic recognition.
  • a computer-readable storage medium stores a computer program, and when the computer program is executed by a processor, the present invention corresponds to FIG. 4 or FIG. 5.
  • the semantic generation method described in the embodiment can also implement the semantic generation device of the embodiment corresponding to the present invention described in FIG. 6, which is not repeated here.
  • the computer-readable storage medium may be an internal storage unit of the device according to any one of the foregoing embodiments, such as a hard disk or a memory of the device.
  • the computer-readable storage medium may also be an external storage device of the device, for example, a plug-in hard disk equipped on the device, a smart memory card (Smart Media Card, SMC), and a secure digital (SD) card , Flash card (Flash Card), etc.
  • the computer-readable storage medium may also include both an internal storage unit of the device and an external storage device.
  • the computer-readable storage medium is used to store the computer program and other programs and data required by the device.
  • the computer-readable storage medium may also be used to temporarily store data that has been or will be output.
  • the storage medium may be a magnetic disk, an optical disk, a read-only memory (Read-Only Memory, ROM) or a random access memory (Random Access Memory, RAM), etc.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Astronomy & Astrophysics (AREA)
  • Remote Sensing (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

一种语义生成方法、设备、飞行器及存储介质,其中,方法包括:获取飞行器上挂载的摄像装置拍摄的第一图像以及所述第一图像中各像素点对应的景深数据(S401);对所述第一图像添加语义标注信息,并根据所述第一图像、所述第一图像中各像素点对应的景深数据以及所述语义标注信息,得到第一图像数据(S402);基于语义识别模型处理所述第一图像数据,以获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度(S403)。通过这种方式,可自动识别图像中各像素点的语义,满足了语义识别的自动化和智能化需求,提高语义识别的有效性和效率。

Description

一种语义生成方法、设备、飞行器及存储介质 技术领域
本发明涉及控制技术领域,尤其涉及一种语义生成方法、设备、飞行器及存储介质。
背景技术
随着飞行器技术的发展,目前飞行器(如无人机)已经广泛地应用于执行各种类型的作业任务(例如航拍、农业植保、勘测等),其中,以飞行器上的航拍技术的应用最为广泛。以挂载有拍摄装置的飞行器为例,传统的飞行器的航拍技术在拍摄过程中无法自动识别拍摄图像中各对象的类别,需依靠人工来判断拍摄图像中各对象的类别,这种人工判断的方式速度慢、用户体验差。因此如何更有效地确定图像类别成为研究的重点。
发明内容
本发明实施例提供了一种语义生成方法、设备、飞行器及存储介质,可自动识别图像中各像素点的语义,满足了语义识别的自动化和智能化需求,以更有效地确定出图像类别。
第一方面,本发明实施例提供了一种语义生成方法,所述方法包括:
获取飞行器上挂载的摄像装置拍摄的第一图像以及所述第一图像中各像素点对应的景深数据;
对所述第一图像添加语义标注信息,并根据所述第一图像、所述第一图像中各像素点对应的景深数据以及所述语义标注信息,得到第一图像数据;
基于语义识别模型处理所述第一图像数据,以获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度。
第二方面,本发明实施例提供了一种语义生成设备,包括存储器和处理器;
所述存储器,用于存储程序指令;
所述处理器,执行所述存储器存储的程序指令,当程序指令被执行时,所述处理器用于执行如下步骤:
获取飞行器上挂载的摄像装置拍摄的第一图像以及所述第一图像中各像 素点对应的景深数据;
对所述第一图像添加语义标注信息,并根据所述第一图像、所述第一图像中各像素点对应的景深数据以及所述语义标注信息,得到第一图像数据;
基于语义识别模型处理所述第一图像数据,以获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度。
第三方面,本发明实施例提供了一种飞行器,包括:
机身;
设置于所述机身的动力系统,用于提供飞行动力;
摄像装置,用于拍摄第一图像数据;
处理器,用于获取飞行器上挂载的摄像装置拍摄的第一图像以及所述第一图像中各像素点对应的景深数据;对所述第一图像添加语义标注信息,并根据所述第一图像、所述第一图像中各像素点对应的景深数据以及所述语义标注信息,得到第一图像数据;基于语义识别模型处理所述第一图像数据,以获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度。
第四方面,本发明实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所述的语义生成方法。
本发明实施例中,语义生成设备可以获取飞行器上挂载的摄像装置拍摄的第一图像以及所述第一图像中各像素点对应的景深数据,对所述第一图像添加语义标注信息,并根据所述第一图像、所述第一图像中各像素点对应的景深数据以及所述语义标注信息,得到第一图像数据,以及基于语义识别模型处理所述第一图像数据,以获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度。通过这种方式可以自动识别图像中各像素点的语义,满足了语义识别的自动化和智能化需求,提高了语义识别的有效性和效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种点云地图的界面示意图;
图2.1是本发明实施例提供的一种正射影像的界面示意图;
图2.2是本发明实施例提供的另一种点云地图的界面示意图;
图2.3是本发明实施例提供的一种标记障碍物的点云地图的界面示意图;
图3是本发明实施例提供的一种语义生成系统的工作场景示意图;
图4是本发明实施例提供的一种语义生成方法的流程示意图;
图5是本发明实施例提供的另一种语义生成方法的流程示意图;
图6是本发明实施例提供的一种语义生成设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图,对本发明的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
在本发明实施例提供的语义生成方法可以由一种语义生成系统执行,所述语义生成系统包括语义生成设备和飞行器,所述语义生成设备和飞行器之间可以建立双向通信连接,以进行双向通信。在某些实施例中,所述语义生成设备可以设置在配置有负载(如拍摄装置、红外探测装置、测绘仪等)的飞行器(如无人机)上。在其他实施例中,所述语义生成设备还可以设置在其他可移动设备上,如能够自主移动的机器人、无人车、无人船等可移动设备。在某些实施例中,所述语义生成设备可以是飞行器的部件,即所述飞行器包括所述语义生成设备;在其他实施例中,所述语义生成设备还可以在空间上独立于飞行器。下面结合附图对应用于飞行器的语义生成方法的实施例进行举例说明。
本发明实施例中,语义生成设备首先可以通过飞行器的摄像装置采集样本图像数据,并对所述样本图像数据对应的样本图像进行语义标注,得到包括语义标注信息的样本图像数据。在某些实施例中,所述样本图像数据包括样本图像和样本图像中各像素点对应的景深数据,所述样本图像可以是RGB图像,所述景深数据可以通过深度图像获取。所述语义生成设备可以根据预设的语义 识别算法生成初始语义识别模型,并将所述包括语义标注信息的样本图像数据作为输入数据,输入该初始语义识别模型中进行训练,得到训练结果,其中,所述训练结果包括所述样本图像中每个像素点的语义以及各语义的置信度。在得到训练结果之后,所述语义生成设备可以将所述训练结果中样本图像中每个像素点的语义与所述样本图像的语义标注信息进行对比,如果不匹配,则调整所述初始语义识别模型中的参数,直至训练结果样本图像中每个像素点的语义与所述语义标注信息相匹配时,生成所述语义识别模型。在某些实施例中,所述语义识别模型可以为卷积神经网络(Convolutional Neural Network,CNN)模型。景深数据的加入,为飞机获得的RGB像素信息增加了一个维度的信息,利用RGB数据集合景深数据,能够优化训练的过程,并且大大提高训练模型对地面物体识别的准确度。景深数据是通过双目相机拍摄获得的数据,可以是通过单目相机在飞机飞行过程中对一系列连续图像帧处理获得的数据计算得到。
在一些实施例中,所述样本图像可以包括彩色图像或正射影像;在某些实施例中,所述正射影像是一种经过几何纠正(比如使之拥有统一的比例尺)的航拍图像,与没有纠正过的航拍图像不同的是,正射影像量可用于测实际距离,因为它是通过几何纠正后得到的地球表面的真实描述,所述正射影像具有信息量丰富、直观、可量测的特性。在某些实施例中,所述彩色图像可以是根据RGB值确定的RGB图像。在某些实施例中,所述景深数据反映所述摄像装置到被拍摄物的距离。
在生成所述语义识别模型之后,所述语义生成设备可以在飞行器的飞行过程中获取飞行器上挂载的摄像装置拍摄的第一图像以及所述第一图像中各像素点对应的景深数据,对所述第一图像添加语义标注信息,并根据所述第一图像、所述第一图像中各像素点对应的景深数据以及所述语义标注信息,得到第一图像数据,以及基于语义识别模型处理所述第一图像数据,以输出所述第一图像数据中每个像素点所具有的语义以及语义的置信度。在某些实施例中,所述第一图像可以包括彩色图像或正射影像;在某些实施例中,所述置信度为正浮点数据。
在一个实施例中,所述语义生成设备在获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度之后,可以根据所述第一图像数据对应的位 置数据、高度数据以及所述第一图像数据中每个像素点所具有的语义,生成包含语义的第一点云数据,并使用所述包含语义的第一点云数据生成点云地图。在某些实施例中,所述第一图像数据对应的位置数据包括所述第一图像的经度和纬度,所述第一图像数据对应的高度数据为所述第一图像的高度。
在某些实施例中,所述第一点云数据与所述第一图像数据中每个像素点相对应,所述点云地图上不同点云数据的语义可以用不同的显示方式进行标记,如通过不同的颜色进行标记。如图1所示,图1是本发明实施例提供的一种点云地图的界面示意图,如图1为通过不同的颜色对点云地图上不同语义的点云数据进行标记得到示意图,图1中显示的不同的颜色代表不同类别。
在一个实施例中,当所述第一图像数据包括正射影像时,所述语义生成设备可以对所述正射影像进行语义标注(即对地物的类别进行标记,以便识别地物类别),得到包含语义标注信息的正射影像,并将所述包含语义标注信息的正射影像输入训练好的所述语义识别模型中进行处理,识别得到所述正射影像上的每个像素点对应的语义,并输出所述正射影像上的每个像素点所具有的语义的置信度、位置数据和高度数据。在某些实施例中,所述位置数据包括所述第一图像数据中第一图像的经度和纬度,所述高度数据包括所述第一图像数据中第一图像的高度。
在一个实施例中,当所述第一图像数据包括正射影像和所述正射影像对应的景深数据时,所述语义生成设备可以通过训练好的语义识别模型对所述正射影像和所述正射影像对应的景深数据进行识别,识别出所述正射影像上每个像素点对应的语义。所述语义生成设备可以根据所述正射影像对应的位置数据、高度数据、景深数据和所述正射影像上每个像素点对应的语义,生成包含语义的第一点云数据,从而生成包含语义的点云地图。在某些实施例中,所述景深数据可以通过深度图来显示,所述深度图是指从摄像装置中读取到的带有深度信息的一帧数据(即景深数据),由于深度图不适合直观查看,因此可以根据预设规则将深度图转化为点云数据,以便根据所述点云数据生成点云地图,方便用户查看。
在一些实施例中,所述第一图像数据包括正射影像,由于不同时刻获取到的正射影像可能具有较大的重叠,在不同的两个时刻采集到的两张正射影像中可能会出现具有相同位置数据的多个像素点,且识别出的两张正射影像具有相 同位置数据的多个像素点的语义可能存在不一致。因此,为了更加可靠的对具有相同位置数据的多个像素点进行语义识别,所述语义生成设备可以根据语义识别模型输出的具有相同位置数据的多个像素点的语义的置信度的高低,来确定置信度较高的语义为具有相同位置数据的多个像素点的语义。
在某些实施例中,所述语义生成设备还可以采用人工投票的方式确定具有相同位置数据的多个像素点的语义;在某些实施例中,所述语义生成设备还可以将具有相同位置数据的多个像素点被标记次数最多的语义,确定为具有相同位置数据的多个像素点的语义;在其他实施例中,具有相同位置数据的多个像素点的语义同样还可以根据其他规则确定,例如根据预设的语义的优先级来确定,本发明实施例在此不做具体限定。
在一个实施例中,语义生成设备生成点云地图之后,可以根据所述点云地图上各图像区域对应的像素点的语义,规划飞行航线。所述语义生成设备可以根据所述点云地图上各图像区域对应的像素点的语义,确定出所述点云地图上的障碍区域,并将该障碍区域通过特定的标记方式自动的标记出来,例如,农田中的电线杆、农田中孤立的树木等。将障碍区域自动标记之后,语义生成设备可以根据预设的航线生成算法生成自动规避标记的障碍区域的飞行航线。在某些实施例中,所述点云地图中可以包括多个图像区域,各图像区域是根据所述点云地图中每个像素点的语义划分的。
通过这种根据带有语义的点云图像进行航线规划的实施方式,可以自动化的将指定为障碍物或障碍区域的语义所对应的区域标记为航线需要规避的障碍区域,这在很大程度减少了依赖人工判读障碍物的工作量;通过对包含语义的点云地图进行实时更新,使得点云地图融合了对多张正射影像中识别的结果,降低了对地物的误判或遗漏的概率,提高了识别地物类别的效率。
具体可结合图2.1、图2.2和图2.3进行举例说明,图2.1是本发明实施例提供的一种正射影像的界面示意图,图2.2是本发明实施例提供的另一种点云地图的界面示意图,图2.3是本发明实施例提供的一种标记障碍物的点云地图的界面示意图。语义生成设备可以根据获取到的如图2.1所示的正射影像,将图2.1所示的正射影像输入训练好的语义识别模型中,识别出所述图2.1所示的正射影像对应的像素点的语义。由于不同的语义对应不同类型的地物,假设不同的语义用不同的颜色代表,且每种颜色代表一种类型的地物,则所述语义 生成设备可以对包含语义的点云地图进行渲染,得到如图2.2所示的点云地图,其中,图2.2中的区域201中的灰色点代表需要标记的障碍物如电线杆。因此,可以通过对图2.2中的区域201中的灰色点进行标记,如用图2.3中所示的圆圈对区域201中的灰色点进行标记,可以得到如图2.3所示的标记障碍物的示意图。在其他实施例中,对障碍物的标记方式可以是其他标记方式,本发明实施例不做具体限定。
在一个实施例中,所述包含语义的点云地图还可以应用于违章建筑的检测,所述语义生成设备可以基于带有语义标注信息的正射影像,通过语义识别模型识别两个不同时刻采集的正射影像对应像素点的语义,并根据两个不同时刻采集的正射影像对应的位置数据、高度数据以及每个像素点所具有的语义,生成包含语义的点云数据,以及使用点云数据生成各自包含语义的点云地图。如果检测到两个点云地图上具有相同位置数据的像素点,则可以通过对比具有相同位置数据的像素点的语义的置信度(即地物类别),来确定具有相同位置数据的像素点的语义,从而根据语义判断具有相同位置数据的像素点区域是否出现了违章建筑;或判断具有相同位置数据的像素点区域是否发生变化。通过这种结合带有语义的点云地图的实施方式,能够更加可靠的检测变化区域,并且提供更为详尽的变化信息。
在一个实施例中,所述包含语义的点云地图还可以应用于地物分类。具体可以根据点云地图上对应各像素点的语义、所述点云地图上对应各像素点的位置数据、高度数据,对所述点云地图上的地物进行分类,和/或对所述点云地图上的地物按类别进行划分或分割等操作。
在一个实施例中,所述包含语义的点云地图还可以应用于农机的喷洒任务,对于农机喷洒任务的飞行航线的规划,可以通过判断农机飞行的区域是否为需要喷洒的作物来控制农药喷洒开关,以避免浪费农药的使用。
具体请参见图3,图3是本发明实施例提供的一种语义生成系统的工作场景示意图,如图3所示的语义生成系统包括:语义生成设备31和飞行器32,所述语义生成设备31可以为飞行器32的控制终端,具体地可以为遥控器、智能手机、平板电脑、膝上型电脑、地面站、穿戴式设备(手表、手环)中的任意一种或多种。所述飞行器32可以是旋翼型飞行器,例如四旋翼飞行器、六旋翼飞行器、八旋翼飞行器,也可以是固定翼飞行器。飞行器32包括动力系 统321,动力系统用于为飞行器32提供飞行动力,其中,动力系统321包括螺旋桨、电机、电子调速器中的任意一种或多种,飞行器32还可以包括云台322以及摄像装置323,摄像装置323通过云台322搭载于飞行器32的主体上。摄像装置323用于在飞行器32的飞行过程中进行图像或视频拍摄,包括但不限于多光谱成像仪、高光谱成像仪、可见光相机及红外相机等,云台322为多轴传动及增稳系统,云台322电机通过调整转动轴的转动角度来对成像设备的拍摄角度进行补偿,并通过设置适当的缓冲机构来防止或减小成像设备的抖动。
本发明实施例中,所述语义生成系统可以通过所述语义生成设备31获取飞行器32上挂载的摄像装置323拍摄的第一图像数据,并基于语义识别模型处理所述第一图像数据,以获得所述第一图像数据中每个像素点所具有的语义,以及根据所述第一图像数据对应的位置数据、高度数据以及所述第一图像数据中每个像素点所具有的语义,生成包含语义的第一点云数据,从而使用所述包含语义的第一点云数据生成点云地图。在某些实施例中,所述第一点云数据包含复数个点数据,所述点数据与所述第一图像数据中每个像素点相对应。通过这种实施方式可以生成包含语义的点云地图,以便飞行器在航拍应用中可以根据点云地图上的语义,确定地物类别。当然,本实施例不对点云数据与第一图像数据中像素点的对应关系进行限定,点云数据可以与图像数据中的像素点呈一一对应关系;每个点云数据也可以对应多个像素点,其语义由多个像素点的聚类结果决定。
在一个实施例中,所述语义生成设备31可以获取飞行器32上挂载的摄像装置323拍摄的第二图像数据,并基于所述语义识别模型处理所述第二图像数据,以获得所述第二图像数据中每个像素点所具有的语义,以及根据所述第二图像数据对应的位置数据、高度数据以及所述第二图像数据中每个像素点所具有的语义,生成包含语义的第二点云数据,从而使用所述第二点云数据更新所述点云地图。在某些实施例中,所述第二点云数据包含复数个点数据,所述点数据与所述第二图像数据中每个像素点相对应。通过这种方式实现了对点云地图的实时更新,以实现在相同位置数据处的地物类别发生变化时,能及时更新点云地图,提高点云地图中语义的准确性。
在一些实施例中,所述第一图像数据和所述第二图像数据均包括彩色图 像,例如RGB图像;或者,在某些实施例中,所述第一图像数据和所述第二图像数据均包括彩色图像和所述彩色图像对应的景深数据;或者,在某些实施例中,所述第一图像数据和所述第二图像数据均包括正射影像;或者,在其他实施例中,所述第一图像数据和所述第一图像数据均包括正射影像和所述正射影像对应的景深数据。
请参见图4,图4是本发明实施例提供的一种语义生成方法的流程示意图,所述方法可以由语义生成设备执行,其中,所述语义生成设备的具体解释如前所述。具体地,本发明实施例的所述方法包括如下步骤。
S401:获取飞行器上挂载的摄像装置拍摄的第一图像以及所述第一图像中各像素点对应的景深数据。
本发明实施例中,语义生成设备可以获取飞行器上挂载的摄像装置拍摄的第一图像以及所述第一图像中各像素点对应的景深数据。其中,所述第一图像和所述景深数据的解释如前所述,此处不再赘述。
S402:对所述第一图像添加语义标注信息,并根据所述第一图像、所述第一图像中各像素点对应的景深数据以及所述语义标注信息,得到第一图像数据。
本发明实施例中,语义生成设备可以对所述第一图像添加语义标注信息,并根据所述第一图像、所述第一图像中各像素点对应的景深数据以及所述语义标注信息,得到第一图像数据。在一些实施例中,所述语义生成设备在对所述第一图像添加语义标注信息时,可以对所述第一图像中不同语义的像素点添加语义标注信息。例如,假设所述第一图像为RGB图像,则可以将所述RGB图像中表示水的像素点标记为水,将所述RGB图像中表示树的像素点标记为树。
S403:基于语义识别模型处理所述第一图像数据,以获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度。
本发明实施例中,语义生成设备可以基于语义识别模型处理所述第一图像数据,以识别输出所述第一图像数据中每个像素点所具有的语义和语义置信度。在某些实施例中,基于语义识别模型处理第一图像数据之后,可以通过多个不同的通道输出不同的语义的置信度。在一个实施例中,所述语义识别模型处理所述第一图像数据时还可以输出所述第一图像数据对应的位置数据和/或 高度数据。
在一个实施例中,所述语义生成设备在基于语义识别模型处理所述第一图像数据之前,可以训练生成所述语义识别模型。在训练生成所述语义识别模型时,所述语义生成设备可以获取样本数据库,所述样本数据库包括样本图像数据,并根据预设的语义识别算法生成初始语义识别模型,以及基于所述样本数据库中的各个样本图像数据对所述初始语义识别模型进行训练优化,得到所述语义识别模型。
在某些实施例中,所述样本图像数据包括样本图像和语义标注信息;或者,所述样本图像数据包括样本图像、所述样本图像中各个像素点对应的景深数据和语义标注信息。在某些实施例中,所述预设的语义识别算法可以包括卷积神经网络CNN算法,也可以是其他用于识别语音的算法,本发明实施例不做具体限定。在某些实施例中,所述样本图像可以是彩色图像或正射影像。
在一个实施例中,所述语义生成设备在获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度之后,可以根据所述第一图像数据对应的位置数据、高度数据以及所述第一图像数据中每个像素点所具有的语义,生成包含语义的第一点云数据,并使用所述包含语义的第一点云数据生成点云地图。在某些实施例中,所述位置数据包括经度和纬度。
在一个实施例中,所述第一点云数据包含复数个点数据,每个点数据包括位置数据、高度数据和不同置信度的多个语义,且所述第一点云数据包含的每个点数据与所述第一图像数据中的每个像素点相对应。在一些实施例中,所述点云地图包含复数个点数据,且每个点数据包括位置数据、高度数据和不同置信度的多个语义。在某些实施例中,所述不同置信度的多个语义是通过语义识别模型识别之后从多个通道输出得到的;在某些实施例中,与一般神经网络输出的结果不同的是,在神经网络的输出通道后增加分段输出函数,若通道置信度结果为负值,则将通道置信度结果置为零,保证神经网络输出的置信度为正浮点数据。使用正浮点数据作为语义通道的置信度,可以直接通过两个像素点数据的减法运算获得较大的置信度,由于张量的减法运算只需要对数组对应的数值内容进行减法操作,其运算量非常小,在同等算力的情况下,可以大大提高运算速度。尤其适合高精度地图绘制过程中,由于高精度地图需要大量运算,而造成的算力紧张问题。
在一个实施例中,所述点云地图包括多个图像区域,所述图像区域是根据所述点云地图中每个像素点的语义划分的,各个图像区域通过不同的显示标记方式进行显示,例如通过不同的颜色对不同语义的各图像区域进行标记。
本发明实施例中,语义生成设备可以获取飞行器上挂载的摄像装置拍摄的第一图像以及所述第一图像中各像素点对应的景深数据,对所述第一图像添加语义标注信息,并根据所述第一图像、所述第一图像中各像素点对应的景深数据以及所述语义标注信息,得到第一图像数据,以及基于语义识别模型处理所述第一图像数据,以获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度。通过这种方式可以自动识别图像中各像素点的语义,满足了语义识别的自动化和智能化需求,提高了语义识别的有效性和效率。
请参见图5,图5是本发明实施例提供的另一种语义生成方法的流程示意图,所述方法可以由语义生成设备执行,其中,语义生成设备的具体解释如前所述。本发明实施例与上述图4所述实施例的区别在于,本发明实施例主要是对语义识别的详细过程进行示意性的说明。
S501:获取样本数据库,所述样本数据库包括样本图像数据。
本发明实施例中,语义生成设备可以获取样本数据库,所述样本数据库包括样本图像数据。在某些实施例中,所述样本图像数据包括样本图像和语义标注信息;或者,所述样本图像数据包括样本图像、所述样本图像中各个像素点对应的景深数据和语义标注信息。在某些实施例中,所述样本图像可以是彩色图像或正射影像。
S502:根据预设的语义识别算法生成初始语义识别模型。
本发明实施例中,语义生成设备可以根据预设的语义识别算法生成初始语义识别模型。在某些实施例中,所述预设的语义识别算法可以包括卷积神经网络CNN算法,也可以是其他用于识别语音的算法,本发明实施例不做具体限定。
S503:基于所述样本数据库中的各个样本图像数据对所述初始语义识别模型进行训练优化,得到所述语义识别模型。
本发明实施例中,语义生成设备可以基于所述样本数据库中的各个样本图像数据对所述初始语义识别模型进行训练优化,得到所述语义识别模型。
在一个实施例中,所述样本图像数据可以包括样本图像和所述样本图像中 各个像素点对应的景深数据,通过对所述样本图像进行语义标注,得到包含语义标注信息和景深数据的样本图像即样本图像数据,并调用所述初始语义识别模型对所述样本图像数据包括的所述样本图像以及所述样本图像中各个像素点对应的景深数据进行识别,得到识别结果。通过调整所述初始语义识别模型中的参数,若所述识别结果中识别出的语义与所述样本图像数据包括的语义标注信息相匹配,则可以确定生成该语义识别模型。
在一个实施例中,本方案使用的所述语义识别模型可以为CNN模型,所述CNN模型的架构主要包括输入层、卷积层、激励层、池化层。在神经网络模型中,可以包括多个子网,所述子网被布置在从最低到最高的序列中,并且,通过所述序列中的子网中的每一个来处理输入的图像数据。序列中的子网包括多个模块子网以及可选地包括一个或多个其它子网,所述其它子网均由一个或者多个常规神经网络层组成,例如最大池化层、卷积层、全连接层、正则化层等。每个子网接收由序列中的前子网生成的在前输出表示;通过直通卷积来处理所述在前输出表示,以生成直通输出;通过神经网络层的一个或者多个群组来处理在前输出表示,以生成一个或者多个群组,连接所述直通输出和所述群组输出,以生成所述模块子网的输出表示。
在某些实施例中,所述输入层用于输入图像数据,所述卷积层用于对所述图像数据进行运算,所述激励层用于对卷积层输出的结果做非线性映射,所述池化层用于压缩数据和参数的量,减少过拟合,提高性能。本方案采用进行语义标注后的样本图像数据作为输入数据,输入CNN模型的输入层,经过卷积层计算之后,通过多个通道输出不同语义的置信度。
例如,农田通道(置信度)、果树通道(置信度)、河流通道(置信度)等。作为CNN的输出结果,可以表示为一个张量数值,例如对于某一个像素点{经纬度,高度,K1,K2,…,Kn},该张量数值表示了像素点的三维点云信息和n个通道的语义信息,其中,K1,K2,…,Kn表示置信度,张量数据中置信度最大的语义通道被作为该像素点的语义。例如,第i个语义通道的置信度Ki=0.8,是最高的置信度,则该第i个通道对应的语义被作为该像素点的语义。
S504:获取飞行器上挂载的摄像装置拍摄的第一图像以及所述第一图像中各像素点对应的景深数据。
本发明实施例中,语义生成设备可以获取飞行器上挂载的摄像装置拍摄的 第一图像以及所述第一图像中各像素点对应的景深数据,所述第一图像和所述景深数据的解释如前所述,此处不再赘述。
S505:对所述第一图像添加语义标注信息,并根据所述第一图像、所述第一图像中各像素点对应的景深数据以及所述语义标注信息,得到第一图像数据。
本发明实施例中,语义生成设备可以对所述第一图像添加语义标注信息,并根据所述第一图像、所述第一图像中各像素点对应的景深数据以及所述语义标注信息,得到第一图像数据。具体实施例如前所述,此处不再赘述。
S506:基于语义识别模型处理所述第一图像数据,以获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度。
本发明实施例中,语义生成设备可以基于语义识别模型处理所述第一图像数据,以识别输出所述第一图像数据中每个像素点所具有的语义和语义置信度。具体实施例如前所述,此处不再赘述。
在一个实施例中,所述语义生成设备在获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度之后,可以根据所述第一图像数据对应的位置数据、高度数据以及所述第一图像数据中每个像素点所具有的语义,生成包含语义的第一点云数据,并使用所述包含语义的第一点云数据生成点云地图。在某些实施例中,所述位置数据包括经度和纬度。
在一个实施例中,语义生成设备可以获取飞行器上挂载的摄像装置在不同时刻拍摄得到的第二图像数据,并基于所述语义识别模型处理所述第二图像数据,以获得所述第二图像数据中每个像素点所具有的语义和语义的置信度,以及根据所述第二图像数据对应的位置数据、高度数据以及所述第二图像数据中每个像素点所具有的语义,生成包含语义的第二点云数据,从而使用所述第二点云数据更新所述点云地图。
在一个实施例中,所述第二图像数据包括彩色图像;或者,所述第二图像数据包括彩色图像和所述彩色图像对应的景深数据;或者,所述第二图像数据包括正射影像;或者,所述第二图像数据包括正射影像和所述正射影像对应的景深数据。
在一个实施例中,所述第二点云数据包含复数个点数据,且每个点数据包括位置数据、高度数据和不同置信度的多个语义,在某些实施例中,所述第二 点云数据包含的每个点数据与所述第二图像数据中的每个像素点对应。在某些实施例中,所述置信度为正浮点数据。
在一个实施例中,所述语义生成设备在更新所述点云地图之前,可以检测根据所述第一点云数据生成的点云地图中是否存在与所述第二点云数据具有相同的位置数据的点数据(即重叠的像素点);如果检测到根据所述第一点云数据生成的点云地图中存在与所述第二点云数据具有相同位置数据的点数据,则可以比较所述第二点云数据和所述点云地图中位置数据相同的两个点数据的语义的置信度,并保留所述两个点数据中具有较高置信度的点数据的语义。
在一个实施例中,所述语义生成设备在使用所述第二点云数据更新所述点云地图时,可以将所述两个点数据中具有较高置信度的点数据的语义确定为所述点云地图中与所述第二点数据位置数据相同的点数据的语义,以及将所述第二点云数据中与所述点云地图中位置数据不相同的点数据与所述点云地图进行叠加,从而实现对所述点云地图的更新。
在某些实施例中,所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据与所述第一图像数据和所述第二图像数据中重叠的两个像素点对应。
在一个实施例中,所述语义生成设备在比较所述第二点云数据和所述点云地图中位置数据相同的两个点数据时,可以对所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据中不同置信度的多个语义进行减法运算。在某些实施例中,所述减法运算是去掉两个点数据中置信度较低的语义,保留置信度较高的语义。
例如,假设语义生成设备在更新所述点云地图之前,检测到根据所述第一点云数据生成的点云地图中存在与所述第二点云数据具有相同的位置数据的点数据,如果根据所述第一点云数据生成的点云地图中所述相同的位置数据的点数据的语义为果树,且置信度为50%,以及所述第二点云数据中所述相同的位置数据的点数据的语义为水稻,且置信度为80%,则可以比较所述第二点云数据和所述点云地图中位置数据相同的两个点数据的语义的置信度,由于置信度80%大于50%,则可以去掉两个点数据中置信度较低的语义即果树,将所述点云地图中的语义更新为水稻。
在一个实施例中,所述语义生成设备在使用所述第二点云数据更新所述点 云地图时,还可以通过统计根据所述第一点云数据生成的点云地图中和所述第二点云数据中位置数据相同的两个点数据的语义在历史记录中被标记的各语义的个数,并将个数最大的语义作为所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据的语义。
在一个实施例中,所述语义生成设备在使用所述第二点云数据更新所述点云地图时,还可以根据所述第二点云数据和根据所述第一点云数据生成的点云地图中位置数据相同的两个点数据的语义所对应的优先级,确定所述优先级最大的语义为所述第二点云数据和所述点云地图中位置数据相同的两个点数据的语义。
在一个实施例中,所述点云地图包括多个图像区域,所述图像区域是根据所述点云地图中每个像素点的语义划分的,各个图像区域通过不同的显示标记方式进行显示,例如,通过不同的颜色对不同语义的各图像区域进行标记。
在一个实施例中,所述语义生成设备在使用所述第二点云数据更新所述点云地图之后,还可以确定所述点云地图上各个图像区域对应的语义,并根据所述点云地图上各图像区域对应的语义规划飞行航线,从而控制所述飞行器按照所述飞行航线飞行。
在一个实施例中,所述语义生成设备在根据所述点云地图上各图像区域的语义规划飞行航线时,可以根据所述点云地图上各图像区域对应的语义,确定所述点云地图上的障碍区域,并在规划航线时绕过所述障碍区域规划所述飞行航线。
在一个实施例中,所述语义生成设备在控制所述飞行器按照所述飞行航线飞行时,可以判断所述飞行器的当前飞行位置在所述点云地图中所对应的图像区域的语义是否与目标任务的语义相匹配,如果判断出所述飞行器的当前飞行位置在所述点云地图中所对应的图像区域的语义与目标任务的语义相匹配,则可以控制所述飞行器执行所述目标任务,如果判断出所述飞行器的当前飞行位置在所述点云地图中所对应的图像区域的语义与目标任务的语义不匹配,则可以控制所述飞行器停止执行所述目标任务。在某些实施例中,所述目标任务可以是农药喷洒任务、障碍物检测任务、对场景目标进行分类等任意一种或多种任务。
在一个实施例中,如果所述目标任务为对场景目标进行分类,则所述语义 生成设备在控制所述飞行器执行所述目标任务时,可以对航拍场景的目标进行识别,并根据识别结果生成包含语义的点云地图,以及根据所述包含语义的点云地图对航拍场景的类别进行划分。
在一个实施例中,所述语义生成设备在对所述航拍场景的类别进行划分时,可以根据所述点云地图中对应各像素点的语义的置信度、位置数据、高度数据对所述航拍场景的类别进行划分。
具体可举例说明,假设所述航拍场景为大田,所述大田中的类别包括树、道路、地面、电线杆、建筑物、水面、水稻田、其他农作物等,则所述语义生成设备可以根据所述点云地图对应各像素点的语义的置信度、位置数据、高度数据中的任意一种或多种,确定语义为树,且高度数据大于第一预设高度阈值的像素点所对应的区域为树的区域;确定语义为水泥和/或柏油的像素点所对应的区域为道路;确定语义置信度为水泥、柏油对应的像素点为道路;确定语义为杆状物,且高度数据大于第二预设高度阈值像素点所对应的区域为电线杆;确定语义为水、河流等被水覆盖的像素点所对应的区域为水面;确定语义为楼房,亭子,蓄水池(不包括水面),厂房,塑料大棚等为建筑物;确定语义为水稻的像素点所对应的区域确定为水稻田;确定空白区域或高度数据小于第三预设高度阈值的其他语义的像素点所对应的区域为地面。根据识别出的大田中包括的各个类别,实现对所述大田所对应的各个区域进行划分。
本发明实施例中,语义生成设备可以获取样本数据库,所述样本数据库包括样本图像数据,根据预设的语义识别算法生成初始语义识别模型,并基于所述样本数据库中的各个样本图像数据对所述初始语义识别模型进行训练优化,得到所述语义识别模型,从而基于语义识别模型处理获取到的第一图像数据,以获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度。通过这种方式可以自动识别图像中各像素点的语义,提高了语义识别的准确性。
请参见图6,图6是本发明实施例提供的一种语义生成设备的结构示意图。具体的,所述语义生成设备包括:存储器601、处理器602以及数据接口603。
所述存储器601可以包括易失性存储器(volatile memory);存储器601也可以包括非易失性存储器(non-volatile memory);存储器601还可以包括上述种类的存储器的组合。所述处理器602可以是中央处理器(central processing unit,CPU)。所述处理器602还可以进一步包括硬件芯片。上述硬件芯片可以 是专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)或其组合。具体例如可以是复杂可编程逻辑器件(complex programmable logic device,CPLD),现场可编程逻辑门阵列(field-programmable gate array,FPGA)或其任意组合。
进一步地,所述存储器601用于存储程序指令,当程序指令被执行时所述处理器602可以调用存储器601中存储的程序指令,用于执行如下步骤:
获取飞行器上挂载的摄像装置拍摄的第一图像以及所述第一图像中各像素点对应的景深数据;
对所述第一图像添加语义标注信息,并根据所述第一图像、所述第一图像中各像素点对应的景深数据以及所述语义标注信息,得到第一图像数据;
基于语义识别模型处理所述第一图像数据,以获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度。
进一步地,所述第一图像包括彩色图像;或者,
所述第一图像包括正射影像。
进一步地,所述置信度为正浮点数据。
进一步地,所述处理器602在获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度之后,还用于:
根据所述第一图像数据对应的位置数据、高度数据以及所述第一图像数据中每个像素点所具有的语义,生成包含语义的第一点云数据;
使用所述包含语义的第一点云数据生成点云地图。
进一步地,所述处理器602还用于:
获取飞行器上挂载的摄像装置拍摄的第二图像数据;
基于所述语义识别模型处理所述第二图像数据,以获得所述第二图像数据中每个像素点所具有的语义;
根据所述第二图像数据对应的位置数据、高度数据以及所述第二图像数据中每个像素点所具有的语义,生成包含语义的第二点云数据;
使用所述第二点云数据更新所述点云地图。
进一步地,所述第一点云数据、第二点云数据和所述点云地图均包含复数个点数据,每个点数据包括位置数据、高度数据和不同置信度的多个语义;
所述第一点云数据包含的每个点数据与所述第一图像数据中的每个像素 点对应,所述第二点云数据包含的每个点数据与所述第二图像数据中的每个像素点对应。
进一步地,所述处理器602在使用所述第二点云数据更新所述点云地图时,具体用于:
比较所述第二点云数据和所述点云地图中位置数据相同的两个点数据,保留所述两个点数据中具有较高置信度的点数据。
进一步地,所述处理器602在比较所述第二点云数据和所述点云地图中位置数据相同的两个点数据时,具体用于:
对所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据中不同置信度的多个语义进行减法运算。
进一步地,所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据与所述第一图像数据和所述第二图像数据中重叠的两个像素点对应。
进一步地,所述处理器602在使用所述第二点云数据更新所述点云地图时,具体用于:
统计所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据的语义在历史记录中被标记为相同语义的个数;
将个数最大的语义作为所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据的语义。
进一步地,所述处理器602在使用所述第二点云数据更新所述点云地图时,具体用于:
根据所述第二点云数据和所述点云地图中位置数据相同的两个点数据的语义所对应的优先级,确定所述优先级最大的语义为所述第二点云数据和所述点云地图中位置数据相同的两个点数据的语义。
进一步地,所述处理器602在基于语义识别模型处理所述第一图像数据之前,还用于:
获取样本数据库,所述样本数据库包括样本图像数据;
根据预设的语义识别算法生成初始语义识别模型;
基于所述样本数据库中的各个样本图像数据对所述初始语义识别模型进行训练优化,得到所述语义识别模型;
其中,所述样本图像数据包括样本图像和语义标注信息;或者,所述样本 图像数据包括样本图像、所述样本图像中各个像素点对应的景深数据和语义标注信息。
进一步地,所述处理器602在基于所述样本数据库中的各个样本图像数据对所述初始语义识别模型进行训练优化,得到所述语义识别模型时,具体用于:
调用所述初始语义识别模型对所述样本图像数据包括的所述样本图像以及所述样本图像中各个像素点对应的景深数据进行识别,得到识别结果;
若所述识别结果与所述样本图像数据包括的语义标注信息相匹配,则对所述初始语义识别模型的模型参数进行优化,以得到所述语义识别模型。
进一步地,所述点云地图包括多个图像区域,所述图像区域是根据所述点云地图中每个像素点的语义划分的,各个图像区域通过不同的显示标记方式进行显示。
进一步地,所述处理器602使用所述第二点云数据更新所述点云地图之后,还用于:
确定所述点云地图上各个图像区域对应的语义;
根据所述点云地图上各图像区域对应的语义,规划飞行航线;
控制所述飞行器按照所述飞行航线飞行。
进一步地,所述处理器602根据所述点云地图上各图像区域的语义,规划飞行航线时,具体用于:
根据所述点云地图上各图像区域对应的语义,确定所述点云地图上的障碍区域;
在规划航线时绕过所述障碍区域规划所述飞行航线。
进一步地,所述处理器602在控制所述飞行器按照所述飞行航线飞行时,具体用于:
在控制所述飞行器按照所述飞行航线飞行的过程中,判断所述飞行器的当前飞行位置在所述点云地图中所对应的图像区域的语义是否与目标任务的语义相匹配;
如果判断结果为是,则控制所述飞行器执行所述目标任务;
如果判断结果为否,则控制所述飞行器停止执行所述目标任务。
本发明实施例中,语义生成设备可以获取飞行器上挂载的摄像装置拍摄的第一图像以及所述第一图像中各像素点对应的景深数据,对所述第一图像添加 语义标注信息,并根据所述第一图像、所述第一图像中各像素点对应的景深数据以及所述语义标注信息,得到第一图像数据,以及基于语义识别模型处理所述第一图像数据,以获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度。通过这种方式可以自动识别图像中各像素点的语义,满足了语义识别的自动化和智能化需求,提高了语义识别的有效性和效率。
本发明实施例还提供了一种飞行器,包括:机身;设置于所述机身上的动力系统,用于提供飞行动力;摄像装置,用于拍摄第一图像数据;所述动力系统包括:桨叶、电机,用于驱动桨叶转动;处理器,用于获取飞行器上挂载的摄像装置拍摄的第一图像以及所述第一图像中各像素点对应的景深数据;对所述第一图像添加语义标注信息,并根据所述第一图像、所述第一图像中各像素点对应的景深数据以及所述语义标注信息,得到第一图像数据;基于语义识别模型处理所述第一图像数据,以获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度。
进一步地,所述第一图像包括彩色图像;或者,
所述第一图像包括正射影像。
进一步地,所述置信度为正浮点数据。
进一步地,所述处理器在获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度之后,还用于:
根据所述第一图像数据对应的位置数据、高度数据以及所述第一图像数据中每个像素点所具有的语义,生成包含语义的第一点云数据;
使用所述包含语义的第一点云数据生成点云地图。
进一步地,所述处理器还用于:
获取飞行器上挂载的摄像装置拍摄的第二图像数据;
基于所述语义识别模型处理所述第二图像数据,以获得所述第二图像数据中每个像素点所具有的语义;
根据所述第二图像数据对应的位置数据、高度数据以及所述第二图像数据中每个像素点所具有的语义,生成包含语义的第二点云数据;
使用所述第二点云数据更新所述点云地图。
进一步地,所述第一点云数据、第二点云数据和所述点云地图均包含复数个点数据,每个点数据包括位置数据、高度数据和不同置信度的多个语义;
所述第一点云数据包含的每个点数据与所述第一图像数据中的每个像素点对应,所述第二点云数据包含的每个点数据与所述第二图像数据中的每个像素点对应。
进一步地,所述处理器在使用所述第二点云数据更新所述点云地图时,具体用于:
比较所述第二点云数据和所述点云地图中位置数据相同的两个点数据,保留所述两个点数据中具有较高置信度的点数据。
进一步地,所述处理器在比较所述第二点云数据和所述点云地图中位置数据相同的两个点数据时,具体用于:
对所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据中不同置信度的多个语义进行减法运算。
进一步地,所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据与所述第一图像数据和所述第二图像数据中重叠的两个像素点对应。
进一步地,所述处理器在使用所述第二点云数据更新所述点云地图时,具体用于:
统计所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据的语义在历史记录中被标记为相同语义的个数;
将个数最大的语义作为所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据的语义。
进一步地,所述处理器在使用所述第二点云数据更新所述点云地图时,具体用于:
根据所述第二点云数据和所述点云地图中位置数据相同的两个点数据的语义所对应的优先级,确定所述优先级最大的语义为所述第二点云数据和所述点云地图中位置数据相同的两个点数据的语义。
进一步地,所述处理器在基于语义识别模型处理所述第一图像数据之前,还用于:
获取样本数据库,所述样本数据库包括样本图像数据;
根据预设的语义识别算法生成初始语义识别模型;
基于所述样本数据库中的各个样本图像数据对所述初始语义识别模型进行训练优化,得到所述语义识别模型;
其中,所述样本图像数据包括样本图像和语义标注信息;或者,所述样本图像数据包括样本图像、所述样本图像中各个像素点对应的景深数据和语义标注信息。
进一步地,所述处理器在基于所述样本数据库中的各个样本图像数据对所述初始语义识别模型进行训练优化,得到所述语义识别模型时,具体用于:
调用所述初始语义识别模型对所述样本图像数据包括的所述样本图像以及所述样本图像中各个像素点对应的景深数据进行识别,得到识别结果;
若所述识别结果与所述样本图像数据包括的语义标注信息相匹配,则对所述初始语义识别模型的模型参数进行优化,以得到所述语义识别模型。
进一步地,所述点云地图包括多个图像区域,所述图像区域是根据所述点云地图中每个像素点的语义划分的,各个图像区域通过不同的显示标记方式进行显示。
进一步地,所述处理器使用所述第二点云数据更新所述点云地图之后,还用于:
确定所述点云地图上各个图像区域对应的语义;
根据所述点云地图上各图像区域对应的语义,规划飞行航线;
控制所述飞行器按照所述飞行航线飞行。
进一步地,所述处理器根据所述点云地图上各图像区域的语义,规划飞行航线时,具体用于:
根据所述点云地图上各图像区域对应的语义,确定所述点云地图上的障碍区域;
在规划航线时绕过所述障碍区域规划所述飞行航线。
进一步地,所述处理器在控制所述飞行器按照所述飞行航线飞行时,具体用于:
在控制所述飞行器按照所述飞行航线飞行的过程中,判断所述飞行器的当前飞行位置在所述点云地图中所对应的图像区域的语义是否与目标任务的语义相匹配;
如果判断结果为是,则控制所述飞行器执行所述目标任务;
如果判断结果为否,则控制所述飞行器停止执行所述目标任务。
本发明实施例中,语义生成设备可以获取飞行器上挂载的摄像装置拍摄的 第一图像以及所述第一图像中各像素点对应的景深数据,对所述第一图像添加语义标注信息,并根据所述第一图像、所述第一图像中各像素点对应的景深数据以及所述语义标注信息,得到第一图像数据,以及基于语义识别模型处理所述第一图像数据,以获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度。通过这种方式可以自动识别图像中各像素点的语义,满足了语义识别的自动化和智能化需求,提高了语义识别的有效性和效率。
在本发明的实施例中还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本发明图图4或图5所对应实施例中描述的语义生成方法方式,也可实现图6所述本发明所对应实施例的语义生成设备,在此不再赘述。
所述计算机可读存储介质可以是前述任一项实施例所述的设备的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述设备所需的其他程序和数据。所述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上所揭露的仅为本发明部分实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (52)

  1. 一种语义生成方法,其特征在于,所述方法包括:
    获取飞行器上挂载的摄像装置拍摄的第一图像以及所述第一图像中各像素点对应的景深数据;
    对所述第一图像添加语义标注信息,并根据所述第一图像、所述第一图像中各像素点对应的景深数据以及所述语义标注信息,得到第一图像数据;
    基于语义识别模型处理所述第一图像数据,以获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度。
  2. 根据权利要求1所述的方法,其特征在于,
    所述第一图像包括彩色图像;或者,
    所述第一图像包括正射影像。
  3. 根据权利要求1所述的方法,其特征在于,所述置信度为正浮点数据。
  4. 根据权利要求1所述的方法,其特征在于,所述获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度之后,还包括:
    根据所述第一图像数据对应的位置数据、高度数据以及所述第一图像数据中每个像素点所具有的语义,生成包含语义的第一点云数据;
    使用所述包含语义的第一点云数据生成点云地图。
  5. 根据权利要求4所述的方法,其特征在于,所述方法还包括:
    获取飞行器上挂载的摄像装置拍摄的第二图像数据;
    基于所述语义识别模型处理所述第二图像数据,以获得所述第二图像数据中每个像素点所具有的语义;
    根据所述第二图像数据对应的位置数据、高度数据以及所述第二图像数据中每个像素点所具有的语义,生成包含语义的第二点云数据;
    使用所述第二点云数据更新所述点云地图。
  6. 根据权利要求5所述的方法,其特征在于,
    所述第一点云数据、第二点云数据和所述点云地图均包含复数个点数据,每个点数据包括位置数据、高度数据和不同置信度的多个语义;
    所述第一点云数据包含的每个点数据与所述第一图像数据中的每个像素点对应,所述第二点云数据包含的每个点数据与所述第二图像数据中的每个像素点对应。
  7. 根据权利要求5所述的方法,其特征在于,使用所述第二点云数据更新所述点云地图,包括:
    比较所述第二点云数据和所述点云地图中位置数据相同的两个点数据,保留所述两个点数据中具有较高置信度的点数据。
  8. 根据权利要求7所述的方法,其特征在于,比较所述第二点云数据和所述点云地图中位置数据相同的两个点数据,包括:
    对所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据中不同置信度的多个语义进行减法运算。
  9. 根据权利要求8所述的方法,其特征在于,
    所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据与所述第一图像数据和所述第二图像数据中重叠的两个像素点对应。
  10. 根据权利要求7所述的方法,其特征在于,所述使用所述第二点云数据更新所述点云地图,包括:
    统计所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据的语义在历史记录中被标记为相同语义的个数;
    将个数最大的语义作为所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据的语义。
  11. 根据权利要求7所述的方法,其特征在于,使用所述第二点云数据更新所述点云地图,包括:
    根据所述第二点云数据和所述点云地图中位置数据相同的两个点数据的语义所对应的优先级,确定所述优先级最大的语义为所述第二点云数据和所述点云地图中位置数据相同的两个点数据的语义。
  12. 根据权利要求1所述的方法,其特征在于,所述基于语义识别模型处理所述第一图像数据之前,包括:
    获取样本数据库,所述样本数据库包括样本图像数据;
    根据预设的语义识别算法生成初始语义识别模型;
    基于所述样本数据库中的各个样本图像数据对所述初始语义识别模型进行训练优化,得到所述语义识别模型;
    其中,所述样本图像数据包括样本图像和语义标注信息;或者,所述样本图像数据包括样本图像、所述样本图像中各个像素点对应的景深数据和语义标注信息。
  13. 根据权利要求12所述的方法,其特征在于,所述基于所述样本数据库中的各个样本图像数据对所述初始语义识别模型进行训练优化,得到所述语义识别模型,包括:
    调用所述初始语义识别模型对所述样本图像数据包括的所述样本图像以及所述样本图像中各个像素点对应的景深数据进行识别,得到识别结果;
    若所述识别结果与所述样本图像数据包括的语义标注信息相匹配,则对所述初始语义识别模型的模型参数进行优化,以得到所述语义识别模型。
  14. 根据权利要求5所述的方法,其特征在于,
    所述点云地图包括多个图像区域,所述图像区域是根据所述点云地图中每个像素点的语义划分的,各个图像区域通过不同的显示标记方式进行显示。
  15. 根据权利要求14所述的方法,其特征在于,所述使用所述第二点云数据更新所述点云地图之后,还包括:
    确定所述点云地图上各个图像区域对应的语义;
    根据所述点云地图上各图像区域的语义,规划飞行航线;
    控制所述飞行器按照所述飞行航线飞行。
  16. 根据权利要求15所述的方法,其特征在于,所述根据所述点云地图上各图像区域的语义,规划飞行航线,包括:
    根据所述点云地图上各图像区域的语义,确定所述点云地图上的障碍区域;
    在规划航线时绕过所述障碍区域规划所述飞行航线。
  17. 根据权利要求16所述的方法,其特征在于,所述控制所述飞行器按照所述飞行航线飞行,包括:
    在控制所述飞行器按照所述飞行航线飞行的过程中,判断所述飞行器的当前飞行位置在所述点云地图中所对应的图像区域的语义是否与目标任务的语义相匹配;
    如果判断结果为是,则控制所述飞行器执行所述目标任务;
    如果判断结果为否,则控制所述飞行器停止执行所述目标任务。
  18. 一种语义生成设备,其特征在于,所述设备包括:存储器和处理器;
    所述存储器,用于存储程序指令;
    所述处理器,调用存储器中存储的程序指令,用于执行如下步骤:
    获取飞行器上挂载的摄像装置拍摄的第一图像以及所述第一图像中各像素点对应的景深数据;
    对所述第一图像添加语义标注信息,并根据所述第一图像、所述第一图像中各像素点对应的景深数据以及所述语义标注信息,得到第一图像数据;
    基于语义识别模型处理所述第一图像数据,以获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度。
  19. 根据权利要求18所述的设备,其特征在于,
    所述第一图像包括彩色图像;或者,
    所述第一图像包括正射影像。
  20. 根据权利要求18所述的设备,其特征在于,所述置信度为正浮点数据。
  21. 根据权利要求18所述的设备,其特征在于,所述处理器在获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度之后,还用于:
    根据所述第一图像数据对应的位置数据、高度数据以及所述第一图像数据中每个像素点所具有的语义,生成包含语义的第一点云数据;
    使用所述包含语义的第一点云数据生成点云地图。
  22. 根据权利要求21所述的设备,其特征在于,所述处理器还用于:
    获取飞行器上挂载的摄像装置拍摄的第二图像数据;
    基于所述语义识别模型处理所述第二图像数据,以获得所述第二图像数据中每个像素点所具有的语义;
    根据所述第二图像数据对应的位置数据、高度数据以及所述第二图像数据中每个像素点所具有的语义,生成包含语义的第二点云数据;
    使用所述第二点云数据更新所述点云地图。
  23. 根据权利要求22所述的设备,其特征在于,
    所述第一点云数据、第二点云数据和所述点云地图均包含复数个点数据,每个点数据包括位置数据、高度数据和不同置信度的多个语义;
    所述第一点云数据包含的每个点数据与所述第一图像数据中的每个像素点对应,所述第二点云数据包含的每个点数据与所述第二图像数据中的每个像素点对应。
  24. 根据权利要求22所述的设备,其特征在于,所述处理器在使用所述第二点云数据更新所述点云地图时,具体用于:
    比较所述第二点云数据和所述点云地图中位置数据相同的两个点数据,保留所述两个点数据中具有较高置信度的点数据。
  25. 根据权利要求24所述的设备,其特征在于,所述处理器在比较所述第二点云数据和所述点云地图中位置数据相同的两个点数据时,具体用于:
    对所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据中不同置信度的多个语义进行减法运算。
  26. 根据权利要求25所述的设备,其特征在于,
    所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据与所述第一图像数据和所述第二图像数据中重叠的两个像素点对应。
  27. 根据权利要求24所述的设备,其特征在于,所述处理器在使用所述第二点云数据更新所述点云地图时,具体用于:
    统计所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据的语义在历史记录中被标记为相同语义的个数;
    将个数最大的语义作为所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据的语义。
  28. 根据权利要求24所述的设备,其特征在于,所述处理器在使用所述第二点云数据更新所述点云地图时,具体用于:
    根据所述第二点云数据和所述点云地图中位置数据相同的两个点数据的语义所对应的优先级,确定所述优先级最大的语义为所述第二点云数据和所述点云地图中位置数据相同的两个点数据的语义。
  29. 根据权利要求18所述的设备,其特征在于,所述处理器在基于语义识别模型处理所述第一图像数据之前,还用于:
    获取样本数据库,所述样本数据库包括样本图像数据;
    根据预设的语义识别算法生成初始语义识别模型;
    基于所述样本数据库中的各个样本图像数据对所述初始语义识别模型进行训练优化,得到所述语义识别模型;
    其中,所述样本图像数据包括样本图像和语义标注信息;或者,所述样本图像数据包括样本图像、所述样本图像中各个像素点对应的景深数据和语义标 注信息。
  30. 根据权利要求29所述的设备,其特征在于,所述处理器在基于所述样本数据库中的各个样本图像数据对所述初始语义识别模型进行训练优化,得到所述语义识别模型时,具体用于:
    调用所述初始语义识别模型对所述样本图像数据包括的所述样本图像以及所述样本图像中各个像素点对应的景深数据进行识别,得到识别结果;
    若所述识别结果与所述样本图像数据包括的语义标注信息相匹配,则对所述初始语义识别模型的模型参数进行优化,以得到所述语义识别模型。
  31. 根据权利要求22所述的设备,其特征在于,
    所述点云地图包括多个图像区域,所述图像区域是根据所述点云地图中每个像素点的语义划分的,各个图像区域通过不同的显示标记方式进行显示。
  32. 根据权利要求31所述的设备,其特征在于,所述处理器使用所述第二点云数据更新所述点云地图之后,还用于:
    确定所述点云地图上各个图像区域对应的语义;
    根据所述点云地图上各图像区域对应的语义,规划飞行航线;
    控制所述飞行器按照所述飞行航线飞行。
  33. 根据权利要求32所述的设备,其特征在于,所述处理器根据所述点云地图上各图像区域的语义,规划飞行航线时,具体用于:
    根据所述点云地图上各图像区域对应的语义,确定所述点云地图上的障碍区域;
    在规划航线时绕过所述障碍区域规划所述飞行航线。
  34. 根据权利要求33所述的设备,其特征在于,所述处理器在控制所述飞行器按照所述飞行航线飞行时,具体用于:
    在控制所述飞行器按照所述飞行航线飞行的过程中,判断所述飞行器的当前飞行位置在所述点云地图中所对应的图像区域的语义是否与目标任务的语 义相匹配;
    如果判断结果为是,则控制所述飞行器执行所述目标任务;
    如果判断结果为否,则控制所述飞行器停止执行所述目标任务。
  35. 一种飞行器,其特征在于,包括:
    机身;
    设置于所述机身上的动力系统,用于提供飞行动力;
    摄像装置,用于拍摄第一图像数据;
    处理器,用于获取飞行器上挂载的摄像装置拍摄的第一图像以及所述第一图像中各像素点对应的景深数据;对所述第一图像添加语义标注信息,并根据所述第一图像、所述第一图像中各像素点对应的景深数据以及所述语义标注信息,得到第一图像数据;基于语义识别模型处理所述第一图像数据,以获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度。
  36. 根据权利要求35所述的飞行器,其特征在于,
    所述第一图像包括彩色图像;或者,
    所述第一图像包括正射影像。
  37. 根据权利要求35所述的飞行器,其特征在于,所述置信度为正浮点数据。
  38. 根据权利要求35所述的飞行器,其特征在于,所述处理器在获得所述第一图像数据中每个像素点所具有的语义以及语义的置信度之后,还用于:
    根据所述第一图像数据对应的位置数据、高度数据以及所述第一图像数据中每个像素点所具有的语义,生成包含语义的第一点云数据;
    使用所述包含语义的第一点云数据生成点云地图。
  39. 根据权利要求38所述的飞行器,其特征在于,所述处理器还用于:
    获取飞行器上挂载的摄像装置拍摄的第二图像数据;
    基于所述语义识别模型处理所述第二图像数据,以获得所述第二图像数据中每个像素点所具有的语义;
    根据所述第二图像数据对应的位置数据、高度数据以及所述第二图像数据中每个像素点所具有的语义,生成包含语义的第二点云数据;
    使用所述第二点云数据更新所述点云地图。
  40. 根据权利要求39所述的飞行器,其特征在于,
    所述第一点云数据、第二点云数据和所述点云地图均包含复数个点数据,每个点数据包括位置数据、高度数据和不同置信度的多个语义;
    所述第一点云数据包含的每个点数据与所述第一图像数据中的每个像素点对应,所述第二点云数据包含的每个点数据与所述第二图像数据中的每个像素点对应。
  41. 根据权利要求39所述的飞行器,其特征在于,所述处理器在使用所述第二点云数据更新所述点云地图时,具体用于:
    比较所述第二点云数据和所述点云地图中位置数据相同的两个点数据,保留所述两个点数据中具有较高置信度的点数据。
  42. 根据权利要求41所述的飞行器,其特征在于,所述处理器在比较所述第二点云数据和所述点云地图中位置数据相同的两个点数据时,具体用于:
    对所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据中不同置信度的多个语义进行减法运算。
  43. 根据权利要求42所述的飞行器,其特征在于,
    所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据与所述第一图像数据和所述第二图像数据中重叠的两个像素点对应。
  44. 根据权利要求41所述的飞行器,其特征在于,所述处理器在使用所述第二点云数据更新所述点云地图时,具体用于:
    统计所述第一点云数据和所述第二点云数据中位置数据相同的两个点数 据的语义在历史记录中被标记为相同语义的个数;
    将个数最大的语义作为所述第一点云数据和所述第二点云数据中位置数据相同的两个点数据的语义。
  45. 根据权利要求41所述的飞行器,其特征在于,所述处理器在使用所述第二点云数据更新所述点云地图时,具体用于:
    根据所述第二点云数据和所述点云地图中位置数据相同的两个点数据的语义所对应的优先级,确定所述优先级最大的语义为所述第二点云数据和所述点云地图中位置数据相同的两个点数据的语义。
  46. 根据权利要求35所述的飞行器,其特征在于,所述处理器在基于语义识别模型处理所述第一图像数据之前,还用于:
    获取样本数据库,所述样本数据库包括样本图像数据;
    根据预设的语义识别算法生成初始语义识别模型;
    基于所述样本数据库中的各个样本图像数据对所述初始语义识别模型进行训练优化,得到所述语义识别模型;
    其中,所述样本图像数据包括样本图像和语义标注信息;或者,所述样本图像数据包括样本图像、所述样本图像中各个像素点对应的景深数据和语义标注信息。
  47. 根据权利要求46所述的飞行器,其特征在于,所述处理器在基于所述样本数据库中的各个样本图像数据对所述初始语义识别模型进行训练优化,得到所述语义识别模型时,具体用于:
    调用所述初始语义识别模型对所述样本图像数据包括的所述样本图像以及所述样本图像中各个像素点对应的景深数据进行识别,得到识别结果;
    若所述识别结果与所述样本图像数据包括的语义标注信息相匹配,则对所述初始语义识别模型的模型参数进行优化,以得到所述语义识别模型。
  48. 根据权利要求39所述的飞行器,其特征在于,
    所述点云地图包括多个图像区域,所述图像区域是根据所述点云地图中每 个像素点的语义划分的,各个图像区域通过不同的显示标记方式进行显示。
  49. 根据权利要求48所述的飞行器,其特征在于,所述处理器使用所述第二点云数据更新所述点云地图之后,还用于:
    确定所述点云地图上各个图像区域对应的语义;
    根据所述点云地图上各图像区域对应的语义,规划飞行航线;
    控制所述飞行器按照所述飞行航线飞行。
  50. 根据权利要求49所述的飞行器,其特征在于,所述处理器根据所述点云地图上各图像区域的语义,规划飞行航线时,具体用于:
    根据所述点云地图上各图像区域对应的语义,确定所述点云地图上的障碍区域;
    在规划航线时绕过所述障碍区域规划所述飞行航线。
  51. 根据权利要求50所述的飞行器,其特征在于,所述处理器在控制所述飞行器按照所述飞行航线飞行时,具体用于:
    在控制所述飞行器按照所述飞行航线飞行的过程中,判断所述飞行器的当前飞行位置在所述点云地图中所对应的图像区域的语义是否与目标任务的语义相匹配;
    如果判断结果为是,则控制所述飞行器执行所述目标任务;
    如果判断结果为否,则控制所述飞行器停止执行所述目标任务。
  52. 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至17任一项所述方法。
PCT/CN2018/117036 2018-11-22 2018-11-22 一种语义生成方法、设备、飞行器及存储介质 WO2020103108A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201880038371.5A CN110832494A (zh) 2018-11-22 2018-11-22 一种语义生成方法、设备、飞行器及存储介质
PCT/CN2018/117036 WO2020103108A1 (zh) 2018-11-22 2018-11-22 一种语义生成方法、设备、飞行器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/117036 WO2020103108A1 (zh) 2018-11-22 2018-11-22 一种语义生成方法、设备、飞行器及存储介质

Publications (1)

Publication Number Publication Date
WO2020103108A1 true WO2020103108A1 (zh) 2020-05-28

Family

ID=69547534

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/117036 WO2020103108A1 (zh) 2018-11-22 2018-11-22 一种语义生成方法、设备、飞行器及存储介质

Country Status (2)

Country Link
CN (1) CN110832494A (zh)
WO (1) WO2020103108A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111797187A (zh) * 2020-06-22 2020-10-20 北京百度网讯科技有限公司 地图数据的更新方法、装置、电子设备和存储介质
CN111815687A (zh) * 2020-06-19 2020-10-23 浙江大华技术股份有限公司 点云匹配方法、定位方法、设备及存储介质
CN111832471A (zh) * 2020-07-10 2020-10-27 北京经纬恒润科技有限公司 一种物体识别方法及装置
CN112258610A (zh) * 2020-10-10 2021-01-22 北京五一视界数字孪生科技股份有限公司 图像标注方法、装置、存储介质及电子设备
CN112685837A (zh) * 2021-01-06 2021-04-20 安徽农业大学 一种基于装配语义及目标识别的植保无人机的建模方法
CN115406434A (zh) * 2022-08-17 2022-11-29 南京领鹊科技有限公司 室内机器人的导航地图自主更新方法、设备和存储介质
CN116755441A (zh) * 2023-06-19 2023-09-15 国广顺能(上海)能源科技有限公司 移动机器人的避障方法、装置、设备及介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114787740A (zh) * 2020-11-09 2022-07-22 深圳市大疆创新科技有限公司 无人机控制方法、装置与控制终端
CN112349150B (zh) * 2020-11-19 2022-05-20 飞友科技有限公司 一种机场航班保障时间节点的视频采集方法和系统
CN112835380A (zh) * 2020-12-30 2021-05-25 深兰科技(上海)有限公司 飞行器的返航方法、装置、飞行器及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105492985A (zh) * 2014-09-05 2016-04-13 深圳市大疆创新科技有限公司 多传感器环境地图构建
CN107656545A (zh) * 2017-09-12 2018-02-02 武汉大学 一种面向无人机野外搜救的自主避障与导航方法
CN107941167A (zh) * 2017-11-17 2018-04-20 西南民族大学 一种基于无人机载具和结构光扫描技术的空间扫描系统及其工作方法
CN107933921A (zh) * 2017-10-30 2018-04-20 广州极飞科技有限公司 飞行器及其喷洒路线生成和执行方法、装置、控制终端
CN108427438A (zh) * 2018-04-11 2018-08-21 北京木业邦科技有限公司 飞行环境检测方法、装置、电子设备及存储介质
CN108564874A (zh) * 2018-05-07 2018-09-21 腾讯大地通途(北京)科技有限公司 地面标志提取的方法、模型训练的方法、设备及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018027210A1 (en) * 2016-08-05 2018-02-08 Neu Robotics, Inc, Mobile platform eg drone / uav performing localization and mapping using video

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105492985A (zh) * 2014-09-05 2016-04-13 深圳市大疆创新科技有限公司 多传感器环境地图构建
CN107656545A (zh) * 2017-09-12 2018-02-02 武汉大学 一种面向无人机野外搜救的自主避障与导航方法
CN107933921A (zh) * 2017-10-30 2018-04-20 广州极飞科技有限公司 飞行器及其喷洒路线生成和执行方法、装置、控制终端
CN107941167A (zh) * 2017-11-17 2018-04-20 西南民族大学 一种基于无人机载具和结构光扫描技术的空间扫描系统及其工作方法
CN108427438A (zh) * 2018-04-11 2018-08-21 北京木业邦科技有限公司 飞行环境检测方法、装置、电子设备及存储介质
CN108564874A (zh) * 2018-05-07 2018-09-21 腾讯大地通途(北京)科技有限公司 地面标志提取的方法、模型训练的方法、设备及存储介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111815687A (zh) * 2020-06-19 2020-10-23 浙江大华技术股份有限公司 点云匹配方法、定位方法、设备及存储介质
CN111797187A (zh) * 2020-06-22 2020-10-20 北京百度网讯科技有限公司 地图数据的更新方法、装置、电子设备和存储介质
CN111797187B (zh) * 2020-06-22 2023-09-26 北京百度网讯科技有限公司 地图数据的更新方法、装置、电子设备和存储介质
CN111832471A (zh) * 2020-07-10 2020-10-27 北京经纬恒润科技有限公司 一种物体识别方法及装置
CN111832471B (zh) * 2020-07-10 2024-04-12 北京经纬恒润科技股份有限公司 一种物体识别方法及装置
CN112258610A (zh) * 2020-10-10 2021-01-22 北京五一视界数字孪生科技股份有限公司 图像标注方法、装置、存储介质及电子设备
CN112258610B (zh) * 2020-10-10 2023-12-01 万物镜像(北京)计算机系统有限公司 图像标注方法、装置、存储介质及电子设备
CN112685837A (zh) * 2021-01-06 2021-04-20 安徽农业大学 一种基于装配语义及目标识别的植保无人机的建模方法
CN112685837B (zh) * 2021-01-06 2023-03-03 安徽农业大学 一种基于装配语义及目标识别的植保无人机的建模方法
CN115406434A (zh) * 2022-08-17 2022-11-29 南京领鹊科技有限公司 室内机器人的导航地图自主更新方法、设备和存储介质
CN116755441A (zh) * 2023-06-19 2023-09-15 国广顺能(上海)能源科技有限公司 移动机器人的避障方法、装置、设备及介质
CN116755441B (zh) * 2023-06-19 2024-03-12 国广顺能(上海)能源科技有限公司 移动机器人的避障方法、装置、设备及介质

Also Published As

Publication number Publication date
CN110832494A (zh) 2020-02-21

Similar Documents

Publication Publication Date Title
WO2020103108A1 (zh) 一种语义生成方法、设备、飞行器及存储介质
WO2020103109A1 (zh) 一种地图生成方法、设备、飞行器及存储介质
WO2020103110A1 (zh) 一种基于点云地图的图像边界获取方法、设备及飞行器
US20210390329A1 (en) Image processing method, device, movable platform, unmanned aerial vehicle, and storage medium
US10614562B2 (en) Inventory, growth, and risk prediction using image processing
RU2735151C2 (ru) Распознавание сорняков в естественной среде
EP3770810A1 (en) Method and apparatus for acquiring boundary of area to be operated, and operation route planning method
WO2022094854A1 (zh) 农作物的生长监测方法、设备及存储介质
CN110494360A (zh) 用于提供自主摄影及摄像的系统和方法
WO2021223124A1 (zh) 位置信息获取方法、设备及存储介质
US10546216B1 (en) Recurrent pattern image classification and registration
WO2019061111A1 (zh) 一种路径调整方法及无人机
US20220074743A1 (en) Aerial survey method, aircraft, and storage medium
CN111831010A (zh) 一种基于数字空间切片的无人机避障飞行方法
CN112528912A (zh) 基于边缘计算的作物生长监测嵌入式系统及方法
Rojas-Perez et al. Real-time landing zone detection for UAVs using single aerial images
CN111339953B (zh) 一种基于聚类分析的薇甘菊监测方法
CN117036989A (zh) 基于计算机视觉的微型无人机目标识别与跟踪控制方法
CN116739739A (zh) 一种贷款额度评估方法、装置、电子设备及存储介质
CN113405547A (zh) 一种基于语义vslam的无人机导航方法
CN115797397B (zh) 一种机器人全天候自主跟随目标人员的方法及系统
CN117218615B (zh) 一种大豆落花落荚表型调查方法
CN114355378B (zh) 无人机的自主导航方法、装置、无人机及存储介质
Cabrera-Ponce et al. Continual learning for topological geo-localisation
Gomathi et al. Computer vision for unmanned aerial vehicles in agriculture: applications, challenges, and opportunities

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18940770

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18940770

Country of ref document: EP

Kind code of ref document: A1