WO2021051868A1 - 目标的定位方法及装置、计算机设备、计算机存储介质 - Google Patents

目标的定位方法及装置、计算机设备、计算机存储介质 Download PDF

Info

Publication number
WO2021051868A1
WO2021051868A1 PCT/CN2020/093150 CN2020093150W WO2021051868A1 WO 2021051868 A1 WO2021051868 A1 WO 2021051868A1 CN 2020093150 W CN2020093150 W CN 2020093150W WO 2021051868 A1 WO2021051868 A1 WO 2021051868A1
Authority
WO
WIPO (PCT)
Prior art keywords
area
attribute
target image
prediction area
prediction
Prior art date
Application number
PCT/CN2020/093150
Other languages
English (en)
French (fr)
Inventor
王威
蒋晖
韩茂琨
刘玉宇
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021051868A1 publication Critical patent/WO2021051868A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/245Aligning, centring, orientation detection or correction of the image by locating a pattern; Special marks for positioning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Definitions

  • This application relates to the computer field, and specifically, to a target positioning method and device, computer equipment, and computer storage medium.
  • target detection is an extremely important branch in the field of computer vision.
  • the research on target detection has continued to deepen, and many achievements have been made in this field.
  • RCNN full name Region with CNN, target detection
  • SSD full name Single Shot multibox Detector, single multi-box detector
  • YOLO full name You Only Look Once, which is an object inspection method
  • Most of the existing target detection algorithms are based on the traditional mechanism of generating anchor frames. From the earliest target detection algorithm that uses selective search to extract a large number of region proposals, and then to the later anchor box mechanism series of algorithms, breakthroughs have been made in the field of target positioning.
  • the embodiments of the present application provide a target positioning method and device, computer equipment, and computer storage medium, so as to at least solve the technical problems of complex calculation scheme and large calculation amount of the target positioning method in the related art.
  • a method for locating a target including: determining a prediction region of a preset object in a target image, wherein the target image includes the prediction region; and extracting features of the prediction region A vector, wherein the feature vector includes multiple sets of border distance values from a plurality of pixels in the prediction area to the four boundaries of the prediction area; the target area in the target image is located according to the feature vector.
  • a device for positioning a target including: a determining module for determining a prediction area of a preset object in a target image, wherein the target image includes the prediction area; and an extraction module , For extracting a feature vector of the prediction area, where the feature vector includes multiple sets of border distance values from a plurality of pixels in the prediction area to the four boundaries of the prediction area; a positioning module for Locating a target area in the target image according to the feature vector.
  • a storage medium in which a computer program is stored, wherein the computer program is configured to execute the following steps in the above method when running: in the target image Determine the prediction area of the preset object, wherein the target image includes the prediction area; extract a feature vector of the prediction area, wherein the feature vector includes a plurality of pixels in the prediction area to the prediction Multiple sets of border distance values of the four borders of the region; locate the target region in the target image according to the feature vector.
  • a computer device including a memory and a processor, the memory is stored with a computer program, and the processor is configured to run the computer program to perform the steps in the above method. The following steps: determine the prediction area of the preset object in the target image, where the target image includes the prediction area; extract the feature vector of the prediction area, wherein the feature vector includes the prediction area Multiple sets of border distance values from each pixel to the four boundaries of the prediction area; and locate the target area in the target image according to the feature vector.
  • a prediction area is preliminarily determined in the target image according to the feature data of the preset object; the distance value of each pixel in the prediction area to the four borders of the prediction area is calculated; according to each pixel to the prediction area The frame distance values of the four borders are used to locate the target area in the target image.
  • the target area of the preset target is located in the prediction area according to the distance value of each pixel to the four boundaries of the area, so that the positioning solution of this application is simple to operate and has a small amount of calculation, which solves related problems.
  • Technical problems such as complex calculation schemes and large amount of calculation for target positioning methods in technology.
  • FIG. 1 is a hardware structure block diagram of a target positioning method applied to a computer terminal according to an embodiment of the present application
  • Fig. 2 is a flowchart of a method for positioning a target according to the present application
  • FIG. 3 is a schematic diagram of the distance from the target to the frame according to a specific embodiment of the present application.
  • Fig. 4 is a structural block diagram of a target positioning device according to an embodiment of the present application.
  • FIG. 1 is a hardware structural block diagram of a target positioning method in an embodiment of the present application applied to a computer terminal.
  • the computer terminal may include one or more (only one is shown in FIG. 1) processor 102 (the processor 102 may include, but is not limited to, a processing device such as a microprocessor MCU or a programmable logic device FPGA) And the memory 104 for storing data.
  • the above-mentioned computer terminal may also include a transmission device 106 and an input/output device 108 for communication functions.
  • FIG. 1 is only for illustration, and does not limit the structure of the foregoing computer terminal.
  • the computer terminal may also include more or fewer components than shown in FIG. 1, or have a different configuration from that shown in FIG.
  • the memory 104 may be used to store computer programs, for example, software programs and modules of application software, such as the computer programs corresponding to the target positioning method in the embodiment of the present application.
  • the processor 102 executes the computer programs stored in the memory 104 by running the computer programs stored in the memory 104.
  • This kind of functional application and data processing realizes the above-mentioned method.
  • the memory 104 may include a high-speed random access memory, and may also include a non-volatile memory, such as one or more magnetic storage devices, flash memory, or other non-volatile solid-state memory.
  • the memory 104 may further include a memory remotely provided with respect to the processor 102, and these remote memories may be connected to a computer terminal through a network. Examples of the aforementioned networks include, but are not limited to, the Internet, corporate intranets, local area networks, mobile communication networks, and combinations thereof.
  • the transmission device 106 is used to receive or send data via a network.
  • the above-mentioned specific examples of the network may include a wireless network provided by a communication provider of a computer terminal.
  • the transmission device 106 includes a network adapter (Network Interface Controller, NIC for short), which can be connected to other network devices through a base station to communicate with the Internet.
  • the transmission device 106 may be a radio frequency (RF) module, which is used to communicate with the Internet in a wireless manner.
  • RF radio frequency
  • FIG. 2 is a flowchart of a method for locating a target according to the present application. As shown in Figure 2, the process includes the following steps:
  • Step S202 Determine a prediction area of a preset object in the target image, where the target image includes the prediction area;
  • the network inputs an image and a preset object, where the preset object contains the real area of the given target and the attribute data of the given target, that is, the target image and the real area are known.
  • the neural network trains the attribute data of a given target to obtain the predicted area in the image.
  • Step S204 extracting a feature vector of the prediction area, where the feature vector includes multiple sets of border distance values from multiple pixels in the prediction area to the four boundaries of the prediction area;
  • the multiple sets of border distance values in this embodiment include border distance values from each pixel in the prediction area to the upper border, lower border, left border, and right border of the prediction area.
  • Step S206 locate the target area in the target image according to the feature vector.
  • a prediction area is preliminarily determined in the target image according to the feature data of the preset object; the distance value of each pixel in the prediction area to the four borders of the prediction area is calculated; according to each pixel to the prediction area The border distance values of the four borders are used to locate the target area in the target image.
  • the target area of the preset target is located in the prediction area according to the distance value of each pixel to the four boundaries of the area, so that the positioning solution of this application is simple to operate and has a small amount of calculation, which solves related problems.
  • Technical problems such as complex calculation schemes and large amount of calculation for target positioning methods in technology.
  • determining the prediction area of the preset object in the target image includes: extracting a feature map of each object in the target image in the target image; combining the feature map of each object and the attribute data of the preset object Perform matching to determine the prediction area.
  • the network needs to input a target image and real frame (that is, the above-mentioned preset object). Since the convolution operation fits the filtering concept in traditional image processing, the convolution kernel (filter) parameters are updated, Therefore, the convolution operation is performed on the input image, and the feature map in the image is extracted through the method of convolutional neural network training.
  • matching the feature map of each object with the attribute data of the preset object to determine the prediction area includes: obtaining the first attribute and first position of the preset object according to the attribute data of the preset object Information, where the first attribute is used to indicate the type of the preset object, and the first location information is used to indicate the coordinates of multiple key points in the preset object in the real area, where the real area is the preset object in the target image Extract the second attribute and second location information of the feature map, where the second attribute is used to indicate the type of feature map, and the second location information is used to indicate the coordinates of multiple key points in the feature map; matching The first attribute and the second attribute, as well as the matching of the first position information and the second position information; in the case where the first attribute matches the second attribute, the first position information and the second position information, the feature map is placed on the target image The area occupied by is determined as the prediction area.
  • the feature map is classified according to the attribute data of the preset object, and the prediction area and irrelevant area of the preset object in the target image are determined.
  • the neural network will learn according to the attribute data of the real frame to obtain the type information and position information of the preset object, and match it with the extracted feature map, thereby classifying each object in the target image .
  • the neural network performs annotation learning on the attribute data of the preset target, and determines that the preset target is the dog, as well as the dog's head coordinates, and the coordinates of the two front feet and two rear feet; after the network inputs the image, Extract the feature map of each object in the input image by using the convolution operation, and obtain the type and key point position of the feature map; match the feature map with the attribute data of the preset object. If the matching feature map has a dog, And the position information of the dog is similar, the area occupied by the feature map is preliminarily determined as the prediction area of the dog, and other objects with inconsistent matching are determined as the non-prediction area.
  • extracting the feature vector of the prediction area includes: separately calculating the border distance values from each pixel in the prediction area to the four borders of the prediction area to obtain multiple groups of border distance values; converting each group of border distance values into one Sub-feature vector, and merge multiple sub-feature vectors into feature vectors.
  • calculate the border distance values from each pixel in the prediction area to the four borders of the prediction area to obtain multiple sets of border distance values including: for each pixel in the prediction area, the first pixel is calculated The first projection distance projected to the left boundary of the prediction area, the second projection distance of the first pixel point projected to the right boundary of the prediction area, the third projection distance of the first pixel point projected to the upper boundary of the prediction area, the first pixel The fourth projection distance of the point projected to the lower boundary of the prediction area, where the first pixel point is any pixel point in the prediction area; the first projection distance, the second projection distance, the third projection distance, and the fourth projection distance are determined A set of border distance values for the first pixel.
  • the distance l*; r*; t*; b* from any pixel in the prediction target area to the four boundaries of the prediction frame is calculated, where l*, t*, r* , B* represents the distance from any pixel in the prediction area to the left boundary of the prediction frame, the distance from the right boundary of the prediction frame, the distance from the upper boundary of the prediction frame, and the distance from the lower boundary of the prediction frame, which will be calculated
  • the four values obtained are combined into a 4-dimensional feature vector.
  • Fig. 3 is a schematic diagram of the distance from the target to the frame provided according to a specific embodiment of the present application. As shown in Figure 3, the middle dot represents the currently selected pixel, and the distance to the four borders of the prediction area is marked.
  • the calculation formula for the distance to the four borders is as follows:
  • x and y represent the coordinates of the pixel in the prediction
  • x 0 represents the x coordinate projected to the left boundary of the prediction frame
  • y 0 represents the y coordinate projected to the upper boundary of the prediction frame
  • x 1 represents x
  • the coordinates are projected to the x-direction coordinates of the right boundary of the prediction box
  • y 1 represents the x-coordinates projected to the y-direction coordinates of the lower boundary of the prediction box.
  • locating the target area in the target image according to the feature vector includes: extracting the first feature vector of the corresponding pixel in the real area for the corresponding pixel in the prediction area and the real area, and extracting the corresponding pixel in the prediction The second feature vector in the area, where the real area is the area occupied by the preset object in the target image; the target area is located according to the first feature vector and the second feature vector.
  • the neural network when the neural network realizes target detection, it will use the feature map after the convolution operation and the relevant information in the annotation data (that is, the attribute data of the real frame) (that is, the type information and position information of the preset object) Perform pattern matching.
  • the learning ability of the network is weak and cannot achieve more accurate positioning. It is necessary to further learn the feature vectors obtained in the initially determined prediction area according to the real area, and at the same time optimize the parameters to improve the performance of the training model.
  • locating the target area according to the border distance value of the first feature vector and the border distance value of the second feature vector includes: for each corresponding pixel, the four borders in the first feature vector Sum the distance values to obtain the first value, and sum the distances of the four borders in the second feature vector to obtain the second value; calculate the corresponding pixel in the real area and prediction based on the loss function based on the first value and the second value The loss value between regions; the region composed of the corresponding set of corresponding pixels when the loss value reaches the minimum is positioned as the target region.
  • S represents the loss between the prediction area and the real area
  • N represents the total number of pixels
  • i is a positive natural number.
  • the L2 loss function By minimizing the L2 loss function, the difference between the pixel coordinates in the prediction area and the pixel coordinates of the preset object is minimized, the prediction area is closer to the real frame, and the prediction target is closest to the preset object, thereby improving the network
  • the parameters and calculation amount of the model are greatly reduced, which provides the possibility for the productization of the algorithm.
  • a target positioning device is also provided, and the device is used to implement the above-mentioned embodiments and preferred implementations. What has been described will not be repeated here.
  • the term "module" can implement a combination of software and/or hardware with predetermined functions. Although the devices described in the following embodiments are preferably implemented by software, implementation by hardware or a combination of software and hardware is also possible and conceived.
  • FIG. 4 is a structural block diagram of a device for positioning a target according to an embodiment of the present application.
  • the device includes: a determining module 402 for determining a prediction area of a preset object in a target image, wherein the target The image includes a prediction area; the extraction module 404, connected to the above determination module 402, is used to extract the feature vector of the prediction area, where the feature vector includes multiple sets of border distances from multiple pixels in the prediction area to the four boundaries of the prediction area Value; positioning module 406, connected to the aforementioned extraction module 404, used to locate the target area in the target image according to the feature vector.
  • the determining module 402 includes: a first extracting unit, configured to extract a feature map of each object in the target image; a matching unit, configured to combine the feature map of each object with the attributes of the preset object The data is matched to determine the prediction area.
  • the matching unit includes: an obtaining subunit for obtaining the first attribute and first position information of the preset object according to the attribute data of the preset object, wherein the first attribute is used to indicate the type of the preset object, and the first attribute is used to indicate the type of the preset object.
  • a piece of position information is used to indicate the coordinates of multiple key points in the preset object in the real area, where the real area is the area occupied by the preset object in the target image;
  • the extraction subunit is used to extract the second part of the feature map Attribute and second location information, where the second attribute is used to indicate the type of the feature map, and the second location information is used to indicate the coordinates of multiple key points in the feature map;
  • the matching subunit is used to match the first attribute and the second Two attributes, and matching the first location information and the second location information;
  • the first determining subunit is used to combine the feature map when the first attribute matches the second attribute, the first location information, and the second location information.
  • the area occupied in the target image is determined as the prediction area.
  • the extraction module 404 includes: a calculation unit for calculating the border distance values from each pixel in the prediction area to the four borders of the prediction area to obtain multiple groups of border distance values; a merging unit for combining each group The border distance value is converted into a sub feature vector, and multiple sub feature vectors are merged into feature vectors.
  • the calculation unit includes: a first calculation subunit for calculating a first projection distance of the first pixel to the left boundary of the prediction area for each pixel in the prediction area, and the first pixel projection The second projection distance to the right boundary of the prediction area, the third projection distance of the first pixel point to the upper boundary of the prediction area, the fourth projection distance of the first pixel point to the lower boundary of the prediction area, where the first The pixel is any pixel in the prediction area; the second determining subunit is used to determine the first projection distance, the second projection distance, the third projection distance, and the fourth projection distance as a set of frame distances of the first pixel value.
  • the positioning module 406 includes: a second extraction unit for extracting the first feature vector of the corresponding pixel in the real area for the corresponding pixel in the prediction area and the real area, and extracting the corresponding pixel in the prediction area
  • the second feature vector in, where the real area is the area occupied by the preset object in the target image; the positioning unit is used to locate the target area according to the frame distance value of the first feature vector and the frame distance value of the second feature vector.
  • the positioning unit includes: a second calculation subunit, for each corresponding pixel point, summing the four border distance values in the first feature vector to obtain the first value, and calculating the second feature vector Sum the distances of the four borders to obtain the second value; the third calculation subunit is used to calculate the loss value of the corresponding pixel between the real area and the predicted area based on the loss function according to the first value and the second value; locator The unit is used to locate the area composed of the corresponding set of corresponding pixels when the loss value reaches the minimum as the target area.
  • each of the above modules can be implemented by software or hardware.
  • it can be implemented in the following manner, but not limited to this: the above modules are all located in the same processor; or, the above modules can be combined in any combination.
  • the forms are located in different processors.
  • the embodiments of the present application also provide a storage medium, the computer-readable storage medium may be non-volatile or volatile, and a computer program is stored in the storage medium, wherein the computer program is set to The steps in any of the above method embodiments are executed during runtime.
  • the aforementioned storage medium may be configured to store a computer program for executing the following steps:
  • the foregoing storage medium may include, but is not limited to: U disk, Read-Only Memory (Read-Only Memory, ROM for short), Random Access Memory (Random Access Memory, RAM for short), Various media that can store computer programs, such as mobile hard disks, magnetic disks, or optical disks.
  • An embodiment of the present application also provides an electronic device, including a memory and a processor, the memory stores a computer program, and the processor is configured to run the computer program to execute the steps in any one of the foregoing method embodiments.
  • the aforementioned electronic device may further include a transmission device and an input-output device, wherein the transmission device is connected to the aforementioned processor, and the input-output device is connected to the aforementioned processor.
  • the foregoing processor may be configured to execute the following steps through a computer program:
  • modules or steps of this application can be implemented by a general computing device, and they can be concentrated on a single computing device or distributed in a network composed of multiple computing devices.
  • they can be implemented with program codes executable by a computing device, so that they can be stored in a storage device for execution by the computing device, and in some cases, can be executed in a different order than here.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

一种目标的定位方法及装置、计算机设备、计算机存储介质,该方法包括:在目标图像中确定预设对象的预测区域,其中,所述目标图像包括所述预测区域(S202);提取所述预测区域的特征向量,其中,所述特征向量包括所述预测区域中的多个像素点到所述预测区域的四个边界的多组边框距离值(S204);根据所述特征向量定位所述目标图像中的目标区域(S206)。该方法解决了相关技术中的目标定位方法的计算方案复杂且计算量大等技术问题。

Description

目标的定位方法及装置、计算机设备、计算机存储介质
相关申请的交叉引用
本申请申明享有2019年09月20日递交的申请号为CN201910894135.X、名称为“目标的定位方法及装置、计算机设备、计算机存储介质”的中国专利申请的优先权,该中国专利申请的整体内容以参考的方式结合在本申请中。
技术领域
本申请涉及计算机领域,具体而言,涉及一种目标的定位方法及装置、计算机设备、计算机存储介质。
背景技术
相关技术中,目标检测是计算机视觉领域极其重要的一个分支,近年对于目标检测研究不断深入,已经在该领域获得了许多成就。从起初的RCNN(全称为Region with CNN,目标检测)系列,再到SSD(全称为Single Shot multibox Detector,单次多框检测器)和YOLO(全称为You Only Look Once,是一种物体检查方法)系列,目标检测的发展不断进步。现有的目标检测算法大多采用的都是基于传统的生成锚框的机制。从最早目标检测算法采用选择性搜索提取出大量region proposal(备选区域),再到后来的anchor box(锚框)机制的系列算法,都取得了目标定位领域突破性的进展。
然而,发明人发现,基于region proposal和anchor box的方案计算量过大,在实际实现的过程中并不能有效地满足实时性的要求,也加大了AI(全称为Artificial Intelligence,人工智能)算法产品化的难度。
针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
发明内容
本申请实施例提供了一种目标的定位方法及装置、计算机设备、计算机存储介质,以至少解决相关技术中的目标定位方法的计算方案复杂且计算量大等技术问题。
根据本申请的一个实施例,提供了一种目标的定位方法,包括:在目标图像中确定预设对象的预测区域,其中,所述目标图像包括所述预测区域;提取所述预测区域的特征向量,其中,所述特征向量包括所述预测区域中的多个像素点到所述预测区域的四个边界的多组边框距离值;根据所述特征向量定位所述目标图像中的目标区域。
根据本申请的一个实施例,提供了一种目标的定位装置,包括:确定模块,用于在目标图像中确定预设对象的预测区域,其中,所述目标图像包括所述预测区域;提取模块,用于提取所述预测区域的特征向量,其中,所述特征向量包括所述预测区域中的多个像素点到所述预测区域的四个边界的多组边框距离值;定位模块,用于根据所述特征向量定位所述目标图像中的目标区域。
根据本申请的又一个实施例,还提供了一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行上述方法中的如下步骤:在目标图像中确定预设对象的预测区域,其中,所述目标图像包括所述预测区域;提取所述预测区域的特征向量,其中,所述特征向量包括所述预测区域中的多个像素点到所述预测区域的四个边界的多组边框距离值;根据所述特征向量定位所述目标图像中的目标区域。
根据本申请的又一个实施例,还提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行上述方法中的如下步骤:在目标图像中确定预设对象的预测区域,其中,所述目标图像包括所述预测区域;提取所述预测区域的特征向量,其中,所述特征向量包括所述预测区域中的多个像素点到所述预测区域的四个边界的多组边框距离值;根据所述特征向量定位所述目标图像中的目标区域。
通过本申请,根据预设对象的特征数据在目标图像中初步确定一个预测区域;计算预 测区域中的每个像素点到预测区域的四个边界的边框距离值;根据每个像素点到预测区域的四个边界的边框距离值来定位所述目标图像中的目标区域。通过本申请,在预测区域中根据每个像素点到该区域的四个边界的距离值来定位预设目标的目标区域,使得本申请的定位方案操作简单,且计算量较少,解决了相关技术中的目标定位方法的计算方案复杂且计算量大等技术问题。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本申请实施例的一种目标的定位方法应用于计算机终端的硬件结构框图;
图2是根据本申请提供的一种目标的定位方法的流程图;
图3是根据本申请一具体实施例提供的目标到边框的距离示意图;
图4是根据本申请实施例的一种目标的定位装置的结构框图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
实施例1
本申请实施例一所提供的方法实施例可以在移动终端、服务器、计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例,图1是本申请实施例的一种目标的定位方法应用于计算机终端的硬件结构框图。如图1所示,计算机终端可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)和用于存储数据的存储器104,可选地,上述计算机终端还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述计算机终端的结构造成限定。例如,计算机终端还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的目标定位方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端的通信供应商提供的无线网络。在一个实例中,传输装置106包括一个网络适配器(Network Interface Controller,简称为NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置106可以为射频(Radio Frequency,简称为RF)模块,其用于通过无线方式与互联网进行通讯。
在本实施例中提供了一种目标的定位方法,图2是根据本申请提供的一种目标的定位方法的流程图。如图2所示,该流程包括如下步骤:
步骤S202,在目标图像中确定预设对象的预测区域,其中,目标图像包括预测区域;
本实施例中,网络输入一张图像以及预设对象,其中,预设对象包含了给定目标的真实区域以及给定目标的属性数据,即,目标图像和真实区域是已知的,通过采用神经网络训练给定目标的属性数据来获取图像中的预测区域。
步骤S204,提取预测区域的特征向量,其中,特征向量包括预测区域中的多个像素点到预测区域的四个边界的多组边框距离值;
本实施例中的多组边框距离值,包括了预测区域中的每个像素点到预测区域的上边框、下边框、左边框以及右边框的边框距离值。
步骤S206,根据特征向量定位目标图像中的目标区域。
通过上述步骤,根据预设对象的特征数据在目标图像中初步确定一个预测区域;计算预测区域中的每个像素点到预测区域的四个边界的边框距离值;根据每个像素点到预测区域的四个边界的边框距离值来定位目标图像中的目标区域。通过本申请,在预测区域中根据每个像素点到该区域的四个边界的距离值来定位预设目标的目标区域,使得本申请的定位方案操作简单,且计算量较少,解决了相关技术中的目标定位方法的计算方案复杂且计算量大等技术问题。
可选地,在目标图像中确定预设对象的预测区域,包括:提取目标图像中的每个对象在所述目标图像中的特征图;将每个对象的特征图和预设对象的属性数据进行匹配,以确定预测区域。在本实施例中,网络需要输入一张目标图像和真实框(即上述预设对象),由于卷积操作拟合了传统的图像处理中的滤波概念,更新卷积核(滤波器)参数,因此对输入图像实施卷积操作,通过卷积神经网络训练的方式,来提取到图像中的特征图。
在一个可选的示例中,将每个对象的特征图和预设对象的属性数据进行匹配,以确定预测区域包括:根据预设对象的属性数据获取预设对象的第一属性和第一位置信息,其中,第一属性用于指示预设对象的种类,第一位置信息用于指示预设对象中的多个关键点在真实区域中的坐标,其中,真实区域是预设对象在目标图像中占用的区域;提取特征图的第二属性和第二位置信息,其中,第二属性用于指示特征图的种类,第二位置信息用于指示特征图中的多个关键点的坐标;匹配第一属性和第二属性,以及匹配第一位置信息和第二位置信息;在第一属性与第二属性、第一位置信息和第二位置信息均匹配的情况下,将特征图在目标图像中占用的区域确定为预测区域。
在一个可选的示例中,根据预设对象的属性数据对特征图进行分类,确定预设对象在目标图像中的预测区域以及不相关区域。在本实施例中,神经网络会根据真实框的属性数据进行学习,从而获得预设对象的种类信息和位置信息,与提取到的特征图进行匹配,从而对目标图像中的每个对象进行分类。以狗为例,神经网络对预设目标的属性数据进行标注学习,确定出预设对象为狗,以及狗的头部坐标,和两只前脚、两只后脚的坐标;在网络输入图像后,通过利用卷积操作提取输入图像的每个对象的特征图,并获取特征图的种类和关键点位置;将特征图于预设对象的属性数据进行匹配,若匹配到特征图中有与狗,以及狗的位置信息相似,则将特征图所占用的区域初步确定为狗的预测区域,将其他匹配不一致的对象确定为非预测区域。
可选地,提取预测区域的特征向量,包括:分别计算预测区域中每个像素点到预测区域的四个边界的边框距离值,得到多组边框距离值;将每组边框距离值转换为一个子特征向量,并将多个子特征向量合并为特征向量。
可选地,分别计算预测区域中每个像素点到预测区域的四个边界的边框距离值,得到多组边框距离值,包括:针对预测区域中的每个像素点,将计算第一像素点投影至预测区域的左边界的第一投影距离,第一像素点投影至预测区域的右边界的第二投影距离,第一像素点投影至预测区域的上边界的第三投影距离,第一像素点投影至预测区域的下边界的第四投影距离,其中,第一像素点为预测区域中任一像素点;将第一投影距离、第二投影距离、第三投影距离、第四投影距离确定为第一像素点的一组边框距离值。
在一个可选的实施例中,计算计算预测目标区域中任一像素点到预测框的四个边界的距离l*;r*;t*;b*,其中,l*,t*,r*,b*分别代表预测区域中任一像素点到预测框的左边界的距离,与预测框的右边界的距离,与预测框的上边界的距离,与预测框的下边界的距离,将计算得到的四个数值合并为一个4维的特征向量。图3是根据本申请一具体实施例提供的目标到边框的距离示意图。如图3所示,中间圆点代表当前选中的像素点,到预测区域的上下左右四个边界的距离标注,到四个边框的距离的计算公式如下:
Figure PCTCN2020093150-appb-000001
Figure PCTCN2020093150-appb-000002
其中,x和y代表预测中的像素点的坐标,x 0代表x坐标投影到预测框左边界的x方向坐标;y 0代表y坐标投影到预测框上边界的y方向坐标;x 1代表x坐标投影到预测框右边界的x方向坐标;y 1代表x坐标投影到预测框下边界的y方向坐标。
可选地,根据特征向量定位目标图像中的目标区域,包括:针对预测区域和真实区域中的对应像素点,提取对应像素点在真实区域中的第一特征向量,以及提取对应像素点在预测区域中的第二特征向量,其中,真实区域是预设对象在目标图像中占用的区域;根据第一特征向量和第二特征向量定位目标区域。
在本实施例中,神经网络在实现目标检测时,会利用卷积操作后的特征图与标注数据(即真实框的属性数据)中的相关信息(即预设对象的种类信息和位置信息)进行模式匹配。训练初期,网络的学习能力较弱不能实现较为精准的定位,需要根据真实区域,对初步确定的预测区域中获取到的特征向量进一步的学习,同时进行参数优化提升训练模型性能。
在一个可选的实施例中,根据第一特征向量的边框距离值和第二特征向量的边框距离值定位目标区域,包括:针对每个对应像素点,对第一特征向量中的四个边框距离值求和,得到第一数值,以及对第二特征向量中的四个边框距离求和,得到第二数值;根据第一数值和第二数值基于损失函数计算对应像素点在真实区域和预测区域之间的损失值;将在损失值达到最小时对应的对应像素点集合组成的区域定位为目标区域。
根据上述实施例,获取每一个像素点在预测区域中的特征向量以及在真实区域中的特征向量;进而计算预测区域中的每一个像素点到预测区域四边的距离之和,即K 1=l*+t*+r*+b*;以及同样的算法,计算真实区域中的相应的像素点到真实区域四边的距离之和K 2;在一个可选的示例中,通过最小化真实区域和预测区域之间的L2范数损失函数,来确定一个与真实区域最接近的目标区域。
其中,L2范数损失函数计算公式如下:
Figure PCTCN2020093150-appb-000003
其中,针对每个像素点,S表示预测区域与真实区域之间的损失,N表示像素点的总数,i为正自然数。
最小化上述损失函数‖S‖ 2,然后采用Topn算法,从计算得到的损失值的数组中,找出损失值最小对应的前n个像素点,将上述n个像素点集合组成的区域定位为与预设对象最接近的目标区域。
通过对L2损失函数进行最小化,使得预测区域中的像素点坐标与预设对象的像素点坐标的差距最小,让预测区域更加接近真实框,使得预测目标与预设对象最接近,从而提升网络的性能;且在保证原有识别精度的前提下,大大减少模型的参数和计算量,为算法的产品化提供了可能。
实施例2
在本实施例中还提供了一种目标的定位装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本申请实施例的一种目标的定位装置的结构框图,如图4所示,该装置包括:确定模块402,用于在目标图像中确定预设对象的预测区域,其中,目标图像包括预 测区域;提取模块404,连接至上述确定模块402,用于提取预测区域的特征向量,其中,特征向量包括预测区域中的多个像素点到预测区域的四个边界的多组边框距离值;定位模块406,连接至上述提取模块404,用于根据特征向量定位目标图像中的目标区域。
可选的,确定模块402包括:第一提取单元,用于提取目标图像中的每个对象在目标图像中的特征图;匹配单元,用于将每个对象的特征图和预设对象的属性数据进行匹配,以确定预测区域。
可选的,匹配单元包括:获取子单元,用于根据预设对象的属性数据获取预设对象的第一属性和第一位置信息,其中,第一属性用于指示预设对象的种类,第一位置信息用于指示预设对象中的多个关键点在真实区域中的坐标,其中,真实区域是预设对象在目标图像中占用的区域;提取子单元,用于提取特征图的第二属性和第二位置信息,其中,第二属性用于指示特征图的种类,第二位置信息用于指示特征图中的多个关键点的坐标;匹配子单元,用于匹配第一属性和第二属性,以及匹配第一位置信息和第二位置信息;第一确定子单元,用于在第一属性与第二属性、第一位置信息和第二位置信息均匹配的情况下,将特征图在目标图像中占用的区域确定为预测区域。
可选的,提取模块404包括:计算单元,用于分别计算预测区域中每个像素点到预测区域的四个边界的边框距离值,得到多组边框距离值;合并单元,用于将每组边框距离值转换为一个子特征向量,并将多个子特征向量合并为特征向量。
可选的,计算单元包括:第一计算子单元,用于针对预测区域中的每个像素点,将计算第一像素点投影至预测区域的左边界的第一投影距离,第一像素点投影至预测区域的右边界的第二投影距离,第一像素点投影至预测区域的上边界的第三投影距离,第一像素点投影至预测区域的下边界的第四投影距离,其中,第一像素点为预测区域中任一像素点;第二确定子单元,用于将第一投影距离、第二投影距离、第三投影距离、第四投影距离确定为第一像素点的一组边框距离值。
可选的,定位模块406包括:第二提取单元,用于针对预测区域和真实区域中的对应像素点,提取对应像素点在真实区域中的第一特征向量,以及提取对应像素点在预测区域中的第二特征向量,其中,真实区域是预设对象在目标图像中占用的区域;定位单元,用于根据第一特征向量的边框距离值和第二特征向量的边框距离值定位目标区域。
可选的,定位单元包括:第二计算子单元,用于针对每个对应像素点,对第一特征向量中的四个边框距离值求和,得到第一数值,以及对第二特征向量中的四个边框距离求和,得到第二数值;第三计算子单元,用于根据第一数值和第二数值基于损失函数计算对应像素点在真实区域和预测区域之间的损失值;定位子单元,用于将在损失值达到最小时对应的对应像素点集合组成的区域定位为目标区域。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
实施例3
本申请的实施例还提供了一种存储介质,所述计算机可读存储介质可以是非易失性,也可以是易失性,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,在目标图像中确定预设对象的预测区域,其中,所述目标图像包括所述预测区域;
S2,提取所述预测区域的特征向量,其中,所述特征向量包括所述预测区域中的多个像素点到所述预测区域的四个边界的多组边框距离值;
S3,根据所述特征向量定位所述目标图像中的目标区域。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(Read-Only  Memory,简称为ROM)、随机存取存储器(Random Access Memory,简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本申请的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,在目标图像中确定预设对象的预测区域,其中,所述目标图像包括所述预测区域;
S2,提取所述预测区域的特征向量,其中,所述特征向量包括所述预测区域中的多个像素点到所述预测区域的四个边界的多组边框距离值;
S3,根据所述特征向量定位所述目标图像中的目标区域。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (20)

  1. 一种目标的定位方法,其中,包括:
    在目标图像中确定预设对象的预测区域,其中,所述目标图像包括所述预测区域;
    提取所述预测区域的特征向量,其中,所述特征向量包括所述预测区域中的多个像素点到所述预测区域的四个边界的多组边框距离值;
    根据所述特征向量定位所述目标图像中的目标区域。
  2. 根据权利要求1所述的方法,其中,在目标图像中确定预设对象的预测区域,包括:
    提取所述目标图像中的每个对象在所述目标图像中的特征图;
    将每个对象的特征图和所述预设对象的属性数据进行匹配,以确定所述预测区域。
  3. 根据权利要求2所述的方法,其中,将每个对象的特征图和所述预设对象的属性数据进行匹配,以确定所述预测区域包括:
    根据所述预设对象的属性数据获取所述预设对象的第一属性和第一位置信息,其中,所述第一属性用于指示所述预设对象的种类,所述第一位置信息用于指示所述预设对象中的多个关键点在真实区域中的坐标,其中,所述真实区域是所述预设对象在所述目标图像中占用的区域;
    提取所述特征图的第二属性和第二位置信息,其中,所述第二属性用于指示所述特征图的种类,所述第二位置信息用于指示所述特征图中的多个关键点的坐标;
    匹配所述第一属性和所述第二属性,以及匹配所述第一位置信息和所述第二位置信息;
    在所述第一属性与所述第二属性、所述第一位置信息和所述第二位置信息均匹配的情况下,将所述特征图在所述目标图像中占用的区域确定为所述预测区域。
  4. 根据权利要求1所述的方法,其中,提取所述预测区域的特征向量,包括:
    分别计算所述预测区域中每个像素点到所述预测区域的四个边界的边框距离值,得到多组边框距离值;
    将每组边框距离值转换为一个子特征向量,并将多个子特征向量合并为所述特征向量。
  5. 根据权利要求4所述的方法,其中,分别计算所述预测区域中每个像素点到所述预测区域的四个边界的边框距离值,得到多组边框距离值,包括:
    针对所述预测区域中的每个像素点,计算第一像素点投影至所述预测区域的左边界的第一投影距离,第一像素点投影至所述预测区域的右边界的第二投影距离,第一像素点投影至所述预测区域的上边界的第三投影距离,第一像素点投影至所述预测区域的下边界的第四投影距离,其中,所述第一像素点为所述预测区域中任一像素点;
    将所述第一投影距离、所述第二投影距离、所述第三投影距离、所述第四投影距离确定为所述第一像素点的一组边框距离值。
  6. 根据权利要求1所述的方法,其中,根据所述特征向量定位所述目标图像中的目标区域,包括:
    针对所述预测区域和真实区域中的对应像素点,提取所述对应像素点在所述真实区域中的第一特征向量,以及提取所述对应像素点在所述预测区域中的第二特征向量,其中,所述真实区域是所述预设对象在所述目标图像中占用的区域;
    根据所述第一特征向量的边框距离值和所述第二特征向量的边框距离值定位所述目标区域。
  7. 根据权利要求6所述的方法,其中,根据所述第一特征向量的边框距离值和所述第二特征向量的边框距离值定位所述目标区域包括:
    针对每个对应像素点,对所述第一特征向量中的四个边框距离值求和,得到第一数值,以及对所述第二特征向量中的四个边框距离求和,得到第二数值;
    根据所述第一数值和所述第二数值基于损失函数计算所述对应像素点在所述真实区域和所述预测区域之间的损失值;
    将所述损失值达到最小时的对应像素点集合组成的区域定位为所述目标区域。
  8. 一种目标的定位装置,其中,包括:
    确定模块,用于在目标图像中确定预设对象的预测区域,其中,所述目标图像包括所述预测区域;
    提取模块,用于提取所述预测区域的特征向量,其中,所述特征向量包括所述预测区域中的多个像素点到所述预测区域的四个边界的多组边框距离值;
    定位模块,用于根据所述特征向量定位所述目标图像中的目标区域。
  9. 根据权利要求8所述的装置,其中,所述确定模块包括:
    第一提取单元,用于提取所述目标图像中的每个对象在所述目标图像中的特征图;
    匹配单元,用于将每个对象的特征图和所述预设对象的属性数据进行匹配,以确定所述预测区域。
  10. 根据权利要求9所述的装置,其中,所述匹配单元包括:
    获取子单元,用于根据所述预设对象的属性数据获取所述预设对象的第一属性和第一位置信息,其中,所述第一属性用于指示所述预设对象的种类,所述第一位置信息用于指示所述预设对象中的多个关键点在真实区域中的坐标,其中,所述真实区域是所述预设对象在所述目标图像中占用的区域;
    提取子单元,用于提取所述特征图的第二属性和第二位置信息,其中,所述第二属性用于指示所述特征图的种类,所述第二位置信息用于指示所述特征图中的多个关键点的坐标;
    匹配子单元,用于匹配所述第一属性和所述第二属性,以及匹配所述第一位置信息和所述第二位置信息;
    第一确定子单元,用于在所述第一属性与所述第二属性、所述第一位置信息和所述第二位置信息均匹配的情况下,将所述特征图在所述目标图像中占用的区域确定为所述预测区域。
  11. 根据权利要求8所述的装置,其中,所述提取模块包括:
    计算单元,用于分别计算所述预测区域中每个像素点到所述预测区域的四个边界的边框距离值,得到多组边框距离值;
    合并单元,用于将每组边框距离值转换为一个子特征向量,并将多个子特征向量合并为所述特征向量。
  12. 根据权利要求11所述的装置,其中,所述计算单元包括:
    第一计算子单元,用于针对所述预测区域中的每个像素点,将计算第一像素点投影至所述预测区域的左边界的第一投影距离,第一像素点投影至所述预测区域的右边界的第二投影距离,第一像素点投影至所述预测区域的上边界的第三投影距离,第一像素点投影至所述预测区域的下边界的第四投影距离,其中,所述第一像素点为所述预测区域中任一像素点;
    第二确定子单元,用于将所述第一投影距离、所述第二投影距离、所述第三投影距离、所述第四投影距离确定为所述第一像素点的一组边框距离值。
  13. 根据权利要求8所述的装置,其中,所述定位模块包括:
    第二提取单元,用于针对所述预测区域和真实区域中的对应像素点,提取所述对应像素点在所述真实区域中的第一特征向量,以及提取所述对应像素点在所述预测区域中的第二特征向量,其中,所述真实区域是所述预设对象在所述目标图像中占用的区域;
    定位单元,用于根据所述第一特征向量的边框距离值和所述第二特征向量的边框距离值定位所述目标区域。
  14. 根据权利要求13所述的装置,其中,所述定位单元包括:第二计算子单元,用于针对每个对应像素点,对所述第一特征向量中的四个边框距离值求和,得到第一数值,以及对所述第二特征向量中的四个边框距离求和,得到第二数值;第三计算子单元,用于根据所述第一数值和所述第二数值基于损失函数计算所述对应像素点在所述真实区域和所述 预测区域之间的损失值;定位子单元,用于将在所述损失值达到最小时对应的对应像素点集合组成的区域定位为所述目标区域。
  15. 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中,所述处理器执行所述计算机程序时实现如下步骤:
    在目标图像中确定预设对象的预测区域,其中,所述目标图像包括所述预测区域;
    提取所述预测区域的特征向量,其中,所述特征向量包括所述预测区域中的多个像素点到所述预测区域的四个边界的多组边框距离值;
    根据所述特征向量定位所述目标图像中的目标区域。
  16. 根据权利要求15所述的计算机设备,其中,在目标图像中确定预设对象的预测区域的步骤包括:
    提取所述目标图像中的每个对象在所述目标图像中的特征图;
    将每个对象的特征图和所述预设对象的属性数据进行匹配,以确定所述预测区域。
  17. 根据权利要求16所述的计算机设备,其中,将每个对象的特征图和所述预设对象的属性数据进行匹配,以确定所述预测区域的步骤包括:
    根据所述预设对象的属性数据获取所述预设对象的第一属性和第一位置信息,其中,所述第一属性用于指示所述预设对象的种类,所述第一位置信息用于指示所述预设对象中的多个关键点在真实区域中的坐标,其中,所述真实区域是所述预设对象在所述目标图像中占用的区域;
    提取所述特征图的第二属性和第二位置信息,其中,所述第二属性用于指示所述特征图的种类,所述第二位置信息用于指示所述特征图中的多个关键点的坐标;
    匹配所述第一属性和所述第二属性,以及匹配所述第一位置信息和所述第二位置信息;
    在所述第一属性与所述第二属性、所述第一位置信息和所述第二位置信息均匹配的情况下,将所述特征图在所述目标图像中占用的区域确定为所述预测区域。
  18. 一种计算机存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如下步骤:
    在目标图像中确定预设对象的预测区域,其中,所述目标图像包括所述预测区域;
    提取所述预测区域的特征向量,其中,所述特征向量包括所述预测区域中的多个像素点到所述预测区域的四个边界的多组边框距离值;
    根据所述特征向量定位所述目标图像中的目标区域。
  19. 根据权利要求18所述的计算机存储介质,其中,在目标图像中确定预设对象的预测区域的步骤包括:
    提取所述目标图像中的每个对象在所述目标图像中的特征图;
    将每个对象的特征图和所述预设对象的属性数据进行匹配,以确定所述预测区域。
  20. 根据权利要求19所述的计算机设备,其中,将每个对象的特征图和所述预设对象的属性数据进行匹配,以确定所述预测区域的步骤包括:
    根据所述预设对象的属性数据获取所述预设对象的第一属性和第一位置信息,其中,所述第一属性用于指示所述预设对象的种类,所述第一位置信息用于指示所述预设对象中的多个关键点在真实区域中的坐标,其中,所述真实区域是所述预设对象在所述目标图像中占用的区域;
    提取所述特征图的第二属性和第二位置信息,其中,所述第二属性用于指示所述特征图的种类,所述第二位置信息用于指示所述特征图中的多个关键点的坐标;
    匹配所述第一属性和所述第二属性,以及匹配所述第一位置信息和所述第二位置信息;
    在所述第一属性与所述第二属性、所述第一位置信息和所述第二位置信息均匹配的情况下,将所述特征图在所述目标图像中占用的区域确定为所述预测区域。
PCT/CN2020/093150 2019-09-20 2020-05-29 目标的定位方法及装置、计算机设备、计算机存储介质 WO2021051868A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910894135.X 2019-09-20
CN201910894135.XA CN110796135A (zh) 2019-09-20 2019-09-20 目标的定位方法及装置、计算机设备、计算机存储介质

Publications (1)

Publication Number Publication Date
WO2021051868A1 true WO2021051868A1 (zh) 2021-03-25

Family

ID=69438715

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2020/093150 WO2021051868A1 (zh) 2019-09-20 2020-05-29 目标的定位方法及装置、计算机设备、计算机存储介质

Country Status (2)

Country Link
CN (1) CN110796135A (zh)
WO (1) WO2021051868A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159031A (zh) * 2021-04-21 2021-07-23 广州逅艺文化科技有限公司 一种手写文本检测方法、装置及存储介质
CN113610019A (zh) * 2021-08-11 2021-11-05 浙江大华技术股份有限公司 监控图像矫正窗口的调整方法及装置、存储介质
CN114332776A (zh) * 2022-03-07 2022-04-12 深圳市城市交通规划设计研究中心股份有限公司 非机动车占用人行道检测方法、系统、设备及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796135A (zh) * 2019-09-20 2020-02-14 平安科技(深圳)有限公司 目标的定位方法及装置、计算机设备、计算机存储介质
CN112257586B (zh) * 2020-10-22 2024-01-23 无锡禹空间智能科技有限公司 目标检测中的真值框选择方法、装置、存储介质及设备
CN113240656B (zh) * 2021-05-24 2023-04-07 浙江商汤科技开发有限公司 视觉定位方法及相关装置、设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109241862A (zh) * 2018-08-14 2019-01-18 广州杰赛科技股份有限公司 目标区域确定方法和系统、计算机设备、计算机存储介质
CN110135425A (zh) * 2018-02-09 2019-08-16 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
US20190286896A1 (en) * 2018-03-15 2019-09-19 Sureprep, Llc System and method for automatic detection and verification of optical character recognition data
CN110796135A (zh) * 2019-09-20 2020-02-14 平安科技(深圳)有限公司 目标的定位方法及装置、计算机设备、计算机存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105373793A (zh) * 2015-11-25 2016-03-02 暨南大学 一种qr码图像几何校正的顶点定位方法
CN106295678B (zh) * 2016-07-27 2020-03-06 北京旷视科技有限公司 神经网络训练与构建方法和装置以及目标检测方法和装置
CN109409365A (zh) * 2018-10-25 2019-03-01 江苏德劭信息科技有限公司 一种基于深度目标检测的待采摘水果识别和定位方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110135425A (zh) * 2018-02-09 2019-08-16 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
US20190286896A1 (en) * 2018-03-15 2019-09-19 Sureprep, Llc System and method for automatic detection and verification of optical character recognition data
CN109241862A (zh) * 2018-08-14 2019-01-18 广州杰赛科技股份有限公司 目标区域确定方法和系统、计算机设备、计算机存储介质
CN110796135A (zh) * 2019-09-20 2020-02-14 平安科技(深圳)有限公司 目标的定位方法及装置、计算机设备、计算机存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113159031A (zh) * 2021-04-21 2021-07-23 广州逅艺文化科技有限公司 一种手写文本检测方法、装置及存储介质
CN113159031B (zh) * 2021-04-21 2024-05-10 广州逅艺文化科技有限公司 一种手写文本检测方法、装置及存储介质
CN113610019A (zh) * 2021-08-11 2021-11-05 浙江大华技术股份有限公司 监控图像矫正窗口的调整方法及装置、存储介质
CN114332776A (zh) * 2022-03-07 2022-04-12 深圳市城市交通规划设计研究中心股份有限公司 非机动车占用人行道检测方法、系统、设备及存储介质
CN114332776B (zh) * 2022-03-07 2022-08-02 深圳市城市交通规划设计研究中心股份有限公司 非机动车占用人行道检测方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN110796135A (zh) 2020-02-14

Similar Documents

Publication Publication Date Title
WO2021051868A1 (zh) 目标的定位方法及装置、计算机设备、计算机存储介质
US10950271B1 (en) Method for triggering events in a video
CN108205655B (zh) 一种关键点预测方法、装置、电子设备及存储介质
WO2022002150A1 (zh) 一种视觉点云地图的构建方法、装置
CN108764048B (zh) 人脸关键点检测方法及装置
CN109934115B (zh) 人脸识别模型的构建方法、人脸识别方法及电子设备
WO2021017998A1 (zh) 文本位置定位方法和系统以及模型训练方法和系统
US20210182537A1 (en) Method and apparatus for detecting facial key points, computer device, and storage medium
Liu et al. Matching-cnn meets knn: Quasi-parametric human parsing
US20190279045A1 (en) Methods and apparatuses for identifying object category, and electronic devices
CN110147744B (zh) 一种人脸图像质量评估方法、装置及终端
CN109063584B (zh) 基于级联回归的面部特征点定位方法、装置、设备及介质
WO2020015752A1 (zh) 一种对象属性识别方法、装置、计算设备及系统
CN109740537B (zh) 人群视频图像中行人图像属性的精确标注方法及系统
CN109325456A (zh) 目标识别方法、装置、目标识别设备及存储介质
WO2021051526A1 (zh) 多视图3d人体姿态估计方法及相关装置
WO2019041660A1 (zh) 人脸去模糊方法及装置
WO2021174940A1 (zh) 人脸检测方法与系统
US20220139061A1 (en) Model training method and apparatus, keypoint positioning method and apparatus, device and medium
KR20220004009A (ko) 키 포인트 검출 방법, 장치, 전자 기기 및 저장 매체
CN108846855A (zh) 目标跟踪方法及设备
CN112102342B (zh) 平面轮廓识别方法、装置、计算机设备和存储介质
CN109948624A (zh) 特征提取的方法、装置、电子设备和计算机存储介质
CN111353325A (zh) 关键点检测模型训练方法及装置
CN111462098A (zh) 待侦测物体阴影面积重叠的检测方法、装置、设备及介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20865660

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20865660

Country of ref document: EP

Kind code of ref document: A1