WO2018113261A1 - 目标对象的识别方法和装置、机器人 - Google Patents

目标对象的识别方法和装置、机器人 Download PDF

Info

Publication number
WO2018113261A1
WO2018113261A1 PCT/CN2017/092045 CN2017092045W WO2018113261A1 WO 2018113261 A1 WO2018113261 A1 WO 2018113261A1 CN 2017092045 W CN2017092045 W CN 2017092045W WO 2018113261 A1 WO2018113261 A1 WO 2018113261A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature
target object
layer
convolution
layers
Prior art date
Application number
PCT/CN2017/092045
Other languages
English (en)
French (fr)
Inventor
刘若鹏
钱贝贝
赵金玉
Original Assignee
深圳光启合众科技有限公司
深圳光启创新技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳光启合众科技有限公司, 深圳光启创新技术有限公司 filed Critical 深圳光启合众科技有限公司
Publication of WO2018113261A1 publication Critical patent/WO2018113261A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification

Definitions

  • the present invention relates to the field of object recognition, and in particular to a method and device for identifying a target object, and a robot.
  • the first layer is first trained with uncalibrated data, and the training first learns the parameters of the first layer (this layer can be regarded as a hidden layer of a three-layer neural network that minimizes the difference between the output and the input). Due to the limitation of the model capacity and the sparsity constraint, the obtained model can learn the structure of the data itself, and thus obtain the features more representative than the input; after learning the n-1 layer, the n-1 layer The output is used as the input of the nth layer, and the nth layer is trained, thereby obtaining the parameters of each layer separately; this process can be regarded as the feature learning
  • the parameters of the entire multi-layer model are further fine-tune, and the gradient is calculated from the top layer, and the parameters are fine-tuned.
  • the network model of deep learning in the prior art is in the process of learning, the network first performs forward transmission until the last layer, and then calculates the gradient, reverse transmission, until the first layer, the transmission process is The network performs automatic update parameters. However, since the parameters are automatically performed, there are some problems such as the network not converge or the convergence is slow.
  • An embodiment of the present invention provides a method and apparatus for identifying a target object, and a robot, to at least solve the network model based on deep learning in the prior art, where the network does not converge or converge slowly, resulting in identification of the target object. Long, low-tech technical issues.
  • a method for identifying a target object including: acquiring a target object to be identified; performing feature extraction on a target object to be identified by a preset network model, and obtaining a target object a feature and a second feature, wherein the first feature is a specific feature of the target object, and the second feature is a feature obtained by extracting features of the first feature and the basic feature of the target object; The second feature is classified to obtain a recognition result of the target object.
  • the preset network model includes: a plurality of convolution layers, a first pre-convolution layer, a second pre-convolution layer, a first output layer, and a second output layer, wherein the plurality of convolutions The layers are sequentially connected, the first predetermined convolution layer is connected to the plurality of convolution layers, the first output layer is connected to the first predetermined convolution layer, and the second pre-convolution layer is connected to the plurality of convolution layers, the second The output layer is connected to the second predetermined convolutional layer.
  • performing feature extraction on the target object to be identified by using the preset network model, and obtaining the first feature and the second feature of the target object include: performing feature extraction on the target object to be identified by using multiple convolution layers, and obtaining a target The basic feature of the object; extracting the feature of the target object by using the first preset convolution layer to obtain the first feature of the target object; and extracting the feature of the basic feature and the first feature by using the second preset convolution layer, A second feature of the target object is obtained.
  • the second predetermined convolution layer comprises: a first sub-convolution layer and a second sub-convolution layer, the first sub-convolution layer is connected to the plurality of convolution layers, and the second sub-convolution layer is The first preset convolution layer is connected to the first sub-convolution layer, wherein the feature extraction is performed on the basic feature and the first feature by using the second preset convolution layer, and obtaining the second feature of the target object includes: The convolution layer performs feature extraction on the basic feature to obtain a third feature, wherein the third feature is other features of the basic feature of the target object except the specific feature; and the third feature and the first feature are combined to obtain the merged The feature is extracted by the second sub-convolution layer to obtain the second feature.
  • the first feature and the second feature are classified by using a preset network model, and the recognition result of the target object is obtained by: classifying the first feature by using the first output layer to obtain a first recognition result; The second output layer classifies the second feature to obtain a second recognition result; and weights the first recognition result and the second recognition result to obtain a recognition result of the target object.
  • the preset network model further includes: a plurality of first fully connected layers and a plurality of second fully connected layers, wherein the plurality of first fully connected layers are connected to the first preset convolution layer and the first Between the output layers, a plurality of second fully connected layers are connected between the second predetermined convolutional layer and the second output layer.
  • the method further includes: performing the first feature by using the plurality of first fully connected layers a product operation, obtaining the processed first feature; performing inner product operations on the second feature through the plurality of second fully connected layers to obtain the processed second feature; processing the first feature and processing by using a preset network model The second feature is classified to obtain the recognition result of the target object.
  • an apparatus for identifying a target object including: an acquiring unit, configured to acquire a target object to be identified; and an extracting unit, configured to identify by using a preset network model
  • the target object is subjected to feature extraction to obtain a first feature and a second feature of the target object, wherein the first feature is a specific feature of the target object, and the second feature is a feature extraction of the first feature and the basic feature of the target object.
  • a classification unit configured to classify the first feature and the second feature by using a preset network model to obtain a recognition result of the target object.
  • the preset network model includes: a plurality of convolution layers, a first pre-convolution layer, a second pre-convolution layer, a first output layer, and a second output layer, wherein the plurality of convolutions The layers are sequentially connected, the first predetermined convolution layer is connected to the plurality of convolution layers, the first output layer is connected to the first predetermined convolution layer, and the second pre-convolution layer is connected to the plurality of convolution layers, the second The output layer is connected to the second predetermined convolutional layer.
  • the extracting unit includes: a first extracting module, configured to perform feature extraction on the target object to be identified by the plurality of convolution layers, to obtain basic features of the target object; and a second extracting module, configured to pass the first pre- The convolution layer is used to extract the feature of the target object to obtain the first feature of the target object.
  • the third extraction module is configured to extract the feature of the basic feature and the first feature by using the second preset convolution layer to obtain the target. The second feature of the object.
  • the second predetermined convolution layer further includes: a first sub-convolution layer and a second sub-convolution layer, the first sub-convolution layer is connected to the plurality of convolution layers, and the second sub-convolution layer Connected to the first predetermined convolutional layer and the first sub-convolution layer
  • the third extraction module includes: a first extraction sub-module, configured to perform feature extraction on the basic feature by using the first sub-convolution layer to obtain a third feature, wherein the third feature is a specific feature of the target object except Other features than features; a merging sub-module for combining the third feature with the first feature And obtaining the merged feature; the second extracting sub-module is configured to perform feature extraction on the merged feature by using the second sub-convolution layer to obtain the second feature.
  • the classification unit includes: a first classification module, configured to classify the first feature by using the first output layer, to obtain a first recognition result; and a second classification module, configured to use the second output layer to The feature is classified to obtain a second recognition result.
  • the weighting module is configured to weight the first recognition result and the second recognition result to obtain a recognition result of the target object.
  • the preset network model further includes: a plurality of first fully connected layers and a plurality of second fully connected layers, wherein the plurality of first fully connected layers are connected to the first preset convolution layer and the first Between the output layers, a plurality of second fully connected layers are connected between the second predetermined convolutional layer and the second output layer.
  • the foregoing apparatus further includes: a first operation unit, configured to perform an inner product operation on the first feature by using the plurality of first fully connected layers to obtain the processed first feature; and a second operation unit, configured to: Performing an inner product operation on the second feature through the plurality of second fully connected layers to obtain the processed second feature; the classification unit is further configured to perform the processed first feature and the processed second feature by using a preset network model Classification, get the recognition result of the target object.
  • a robot comprising: the identification device of the target object of any of the above embodiments.
  • the target object to be identified is obtained, and the target object to be identified is extracted by the preset network model, and the first feature and the second feature of the target object are obtained, and the network model is determined by the preset network model.
  • a feature and a second feature are classified to obtain a recognition result of the target object, thereby achieving the purpose of identifying the target object.
  • the target object is identified by the preset network model, so that the training time of the preset network model can be accelerated, the target recognition time can be shortened, and the over-fitting of the preset network model can be avoided. , to improve the robustness of target object recognition.
  • FIG. 1 is a flowchart of a method for identifying a target object according to an embodiment of the present invention
  • FIG. 2 is a schematic diagram of an alternative convolutional neural network in accordance with an embodiment of the present invention.
  • FIG. 3 is a schematic diagram of an apparatus for identifying a target object according to an embodiment of the present invention.
  • an embodiment of a method for identifying a target object is provided. It should be noted that the steps shown in the flowchart of the drawing may be in a computer system such as a set of computer executable instructions. Execution, and although the logical order is shown in the flowcharts, in some cases the steps shown or described may be performed in a different order than the ones described herein.
  • 1 is a flowchart of a method for identifying a target object according to an embodiment of the present invention. As shown in FIG. 1, the method includes the following steps:
  • Step S102 Acquire a target object to be identified.
  • the target object may be a face
  • the target object to be identified may be image data including face information.
  • Step S104 Perform feature extraction on the target object to be identified by using a preset network model, to obtain a first feature and a second feature of the target object, where the first feature is a specific feature of the target object, and the second feature is a pair A feature obtained by feature extraction from a feature and a basic feature of the target object.
  • the foregoing preset network model may be a Convolutional Neural Network (Convolutional Neural Network).
  • CNN Network, abbreviated as CNN); the specific features mentioned above may be some important features of the target object, for example, in the field of face recognition, human eyes, nose, eyebrows, ears, mouth, etc.; in the field of face recognition, The above basic features may include: edges, corners, colors, and the like.
  • Step S106 classify the first feature and the second feature by using a preset network model to obtain a recognition result of the target object.
  • the image data to be identified may be input into the trained CNN network, and the image may be imaged through the CNN network.
  • the face in the data is extracted, and the specific features and the second features of the face are obtained.
  • some extracted important features and second features are processed through the CNN network, and the loss value corresponding to each feature is calculated, and then according to The loss value can be used to obtain the face recognition result; or the classification label corresponding to each feature can be obtained, and the face recognition result can be obtained.
  • the target object to be identified is obtained, and the target object to be identified is extracted by the preset network model, and the first feature and the second feature of the target object are obtained, and the network model is determined by the preset network model.
  • a feature and a second feature are classified to obtain a recognition result of the target object, thereby achieving the purpose of identifying the target object.
  • the target object is identified by using a preset network model, It can achieve the training time of accelerating the preset network model, shorten the target recognition time, avoid the over-fitting of the preset network model, and improve the robustness of the target object recognition.
  • the preset network model includes: a plurality of convolution layers, a first pre-convolution layer, a second pre-convolution layer, a first output layer, and a second An output layer, wherein a plurality of convolution layers are sequentially connected, a first preset convolution layer is connected to the plurality of convolution layers, a first output layer is connected to the first preset convolution layer, and a second preset convolution layer is A plurality of convolution layers are connected, and the second output layer is connected to the second predetermined convolution layer.
  • the foregoing preset network model may be a CNN network, and a convolution layer may be added to a convolution layer of the CNN network for extracting specific features of the target object; the first output layer and the foregoing
  • the second output layer can be the SoftmaxWithLoss layer, which calculates the loss value of the feature through a cost function.
  • the number of the first preset convolution layers described above may be set according to characteristics, and multiple convolution layers may be introduced in different convolution layers of the CNN network, so that the network can quickly converge. And learn the specific characteristics of the target object, and the newly added first preset convolution layer does not affect the recognition result of the final target object.
  • step S104 performing feature extraction on the data to be identified of the target object by using the preset network model, and obtaining the first feature and the second feature of the target object include:
  • Step S1042 Perform feature extraction on the target object to be identified by using multiple convolution layers to obtain basic features of the target object.
  • Step S1044 Perform feature extraction on the basic feature of the target object by using the first preset convolution layer to obtain the first feature of the target object.
  • Step S1046 Feature extraction is performed on the basic feature and the first feature by using the second preset convolution layer to obtain a second feature of the target object.
  • a four-layer network in the field of face recognition, can be constructed, that is, a four-layer convolution layer extracts basic features of a face, and then can be in a fifth-layer convolution network. Adding a first preset convolution layer for extracting specific features of the face, and another second preset convolution layer in the fifth layer convolutional network may extract basic features and specific features to obtain a human face The second feature.
  • the second preset convolution layer includes: a first sub-convolution layer and a second sub-converge layer, the first sub-convolution layer and the plurality of volumes a second sub-convolution layer is connected to the first pre-convolution layer and the first sub-convolution layer, wherein step S 1046, the second pre-convolution layer is used to perform the basic feature Performing feature extraction with the first feature, and obtaining the second feature of the target object includes:
  • Step S10462 Feature extraction is performed on the basic feature by using the first sub-convolution layer to obtain a third feature, wherein the third feature is a feature other than the specific feature among the basic features of the target object.
  • the foregoing third feature may be other features of the target object, and may also include specific features.
  • Step S10464 combining the third feature and the first feature to obtain the merged feature.
  • Step S10466 performing feature extraction on the merged feature by using the second sub-convergence layer to obtain the second feature
  • the fifth layer convolution network can be divided into two convolution layers.
  • a convolutional layer module is used to extract a specific feature of the face (ie, the first preset convolutional layer described above), and another module is used to extract other features of the face (ie, the first sub-convolution layer described above)
  • the sixth layer ie, the second sub-convergence layer described above
  • the specific features and other features extracted by the above two modules may be combined, and then feature extraction is performed to obtain the second feature described above.
  • step S106 the first feature and the second feature are classified by using a preset network model, and the recognition result of the target object is obtained by:
  • Step S1062 classify the first feature by using the first output layer to obtain a first recognition result.
  • the specific feature extracted by the four-layer convolution layer and the first preset convolution layer is input into the SoftmaxWithLoss layer, and the SoftmaxWithLoss layer is used as a cost function of the partial feature to calculate the loss value, and the A recognition result.
  • Step S1064 The second feature is classified by the second output layer to obtain a second recognition result.
  • the second feature extracted by the four-layer convolution layer and the second preset convolution layer is input into the SoftmaxWithLoss layer, and the SoftmaxWithLoss layer is used as a cost function of the face recognition to calculate the loss value.
  • a second recognition result is obtained.
  • Step S1066 The first recognition result and the second recognition result are weighted to obtain a recognition result of the target object.
  • two loss values may be weighted and summed to obtain the last entire network.
  • the loss value that is, the recognition result of the target object described above.
  • the preset network model further includes: a plurality of first fully connected layers and a plurality of second fully connected layers, wherein the plurality of first fully connected layers are connected Between a predetermined convolutional layer and the first output layer, a plurality of second fully connected layers are connected between the second predetermined convolutional layer and the second output layer.
  • two fully connected layers may be respectively connected after the first preset convolution layer or the second preset convolution layer
  • the fully connected layer after the first preset convolution layer is only used for network training. After the network is trained, the picture containing the face information is input into the CNN network to obtain the final target location
  • the method before the first feature and the second feature are classified by using a preset network model to obtain the recognition result of the target object, the method further includes:
  • Step S108 performing inner product operations on the first feature by using the plurality of first fully connected layers to obtain the processed first feature.
  • Step S110 performing inner product operations on the second feature through the plurality of second fully connected layers to obtain the processed second feature.
  • Step S112 classify the processed first feature and the processed second feature by using a preset network model to obtain a recognition result of the target object.
  • two fully-connected layers may be input (That is, the first fully connected layer), and finally accessing the SoftmaxWithLoss layer as a cost function of the partial feature to calculate the loss value; after obtaining the second feature of the face through the four-layer convolution layer and the second predetermined convolution layer, Input 2 fully connected layers (ie the second fully connected layer above), and finally SoftmaxWithLoss as the cost function of face recognition to obtain the loss value of face recognition, then weight the two loss values to obtain the final whole CNN network The loss value.
  • FIG. 2 is a schematic diagram of an optional convolutional neural network according to an embodiment of the present invention.
  • the following describes a method for recognizing a face recognition field in conjunction with a convolutional neural network as shown in FIG. 2, such as As shown in Figure 2, we first construct a convolutional neural network for face recognition and construct a four-layer network (such as confl-c in Figure 2).
  • Onv4 Extract the basic features of the face (such as COn v4 in Figure 2), such as edges, corners, colors, etc., and then divide the 5th layer of the convolution network into 2 modules, one module is COn v5_l , used to extract some features (such as COn v5_l in Figure 2), such as human eyes, nose, eyebrows, ears, mouth and other information, specifically, after the conv5_l followed by 2 fully connected layers (as in Figure 2 Fc6 and fc7_l), and finally access the Soft maxWithLoss layer (such as softmaxl in Figure 2) as the cost function of the partial feature to calculate the loss value (such as lossl in Figure 2).
  • Another module COn v5_2 performs other feature extraction (may also include some features)
  • the newly added module can quickly converge during the training phase of the convolutional neural network, avoiding network overfitting. Since the network forces the object to be identified to have certain necessary features, the recognition phase system for face recognition using the convolutional neural network described above is more robust.
  • the above convolutional neural network can be used not only in the field of target recognition, but also in the field of natural language processing or image retrieval.
  • an embodiment of an identification device of a target object is provided.
  • FIG. 3 is a schematic diagram of an apparatus for identifying a target object according to an embodiment of the present invention. As shown in FIG. 3, the apparatus includes:
  • the obtaining unit 31 is configured to acquire a target object to be identified.
  • the target object may be a human face
  • the target object to be identified may be image data including face information.
  • the extracting unit 33 is configured to perform feature extraction on the target object to be identified by using the preset network model, to obtain a first feature and a second feature of the target object, where the first feature is a specific feature of the target object, and the second feature is A feature obtained by feature extraction of the first feature and the basic feature of the target object.
  • the foregoing preset network model may be a Convolutional Neural Network (Convolutional Neural Network)
  • CNN Network, abbreviated as CNN); the specific features mentioned above may be some important features of the target object, for example, in the field of face recognition, human eyes, nose, eyebrows, ears, mouth, etc.; in the field of face recognition, The above basic features may include: edges, corners, colors, and the like.
  • the classification unit 35 is configured to process the first feature and the second feature by using a preset network model to obtain a recognition result of the target object.
  • the image data to be identified may be input into the trained CNN network, and the image may be imaged through the CNN network.
  • the face in the data is extracted, and the specific features and the second features of the face are obtained.
  • some extracted important features and second features are processed through the CNN network, and the loss value corresponding to each feature is calculated, and then according to The loss value can be used to obtain the face recognition result; or the classification label corresponding to each feature can be obtained, and the face recognition result can be obtained.
  • the acquiring unit acquires the target object to be identified, and the extracting unit performs feature extraction on the target object to be identified by the preset network model, and obtains the first feature and the second feature of the target object, and the first process is performed.
  • the unit classifies the first feature and the second feature by using a preset network model to obtain a recognition result of the target object, thereby achieving the purpose of identifying the target object. It is easy to note that since the first feature and the second feature of the target object can be extracted by the preset network model, and the features are combined, the preset network model can be forced to converge rapidly, which solves the problem based on the prior art.
  • the network model of deep learning the network does not converge or the convergence is slow, which leads to the technical problem of long target recognition and low robustness. Therefore, by using the solution provided by the foregoing embodiment of the present invention, the target object is identified by the preset network model, so that the training time of the preset network model can be accelerated, the target recognition time can be shortened, and the over-fitting of the preset network model can be avoided. , to improve the robustness of target object recognition.
  • the preset network model includes: a plurality of convolution layers, a first pre-convolution layer, a second pre-convolution layer, a first output layer, and a second An output layer, wherein a plurality of convolution layers are sequentially connected, a first preset convolution layer is connected to the plurality of convolution layers, a first output layer is connected to the first preset convolution layer, and a second preset convolution layer is A plurality of convolution layers are connected, and the second output layer is connected to the second predetermined convolution layer.
  • the foregoing preset network model may be a CNN network, and may be convolved in a CNN network.
  • a convolution layer is added to the layer for extracting specific features of the target object; the first output layer and the second output layer may be SoftmaxWithLoss layers, and the loss value of the feature is calculated by a cost function.
  • the number of the first preset convolution layers described above may be set according to characteristics, and multiple convolution layers may be introduced in different convolution layers of the CNN network, so that the network can quickly converge. And learn the specific characteristics of the target object, and the newly added first preset convolution layer does not affect the recognition result of the final target object.
  • the extracting unit includes:
  • the first extraction module is configured to perform feature extraction on the target object to be identified by using multiple convolution layers to obtain basic features of the target object.
  • a second extraction module configured to perform feature extraction on a basic feature of the target object by using the first preset convolution layer
  • the third extraction submodule is configured to perform feature extraction on the basic feature and the first feature by using the second preset convolution layer to obtain a second feature of the target object.
  • a four-layer network in the field of face recognition, can be constructed, that is, a four-layer convolution layer extracts basic features of a face, and then can be in a fifth-layer convolution network. Adding a first preset convolution layer for extracting specific features of the face, and another second preset convolution layer in the fifth layer convolutional network may extract basic features and specific features to obtain a human face The second feature.
  • the second preset convolution layer includes: a first sub-convolution layer and a second sub-converge layer, the first sub-convolution layer and the plurality of volumes a second sub-convolution layer is connected to the first pre-convolution layer and the first sub-convergence layer, wherein the third extraction module comprises:
  • a first extraction submodule configured to perform feature extraction on the basic feature by using the first sub-convolution layer, to obtain a third feature, where the third feature is a feature other than the specific feature in the basic feature of the target object .
  • the foregoing third feature may be other features of the target object, and may also include specific features.
  • a merging submodule configured to combine the third feature and the first feature to obtain the merged feature.
  • the second extraction submodule is configured to perform feature extraction on the merged feature by using the second sub-convergence layer to obtain a second feature.
  • the fifth layer convolution network can be divided into two convolution layers.
  • Module a convolutional layer module for Extracting a specific feature of the face (ie, the first preset convolution layer described above), and another module for extracting other features of the face (ie, the first sub-convolution layer described above), in the sixth layer (ie, the above The second sub-convolution layer) may combine the specific features and other features extracted by the above two modules, and then perform feature extraction to obtain the second feature described above.
  • the classification unit includes:
  • a first classification module configured to classify the first feature by using the first output layer, to obtain a first recognition result
  • the specific feature extracted by the four-layer convolution layer and the first preset convolution layer is input into the SoftmaxWithLoss layer, and the SoftmaxWithLoss layer is used as a cost function of the partial feature to calculate the loss value, and the A recognition result.
  • a second classification module configured to classify the second feature by using the second output layer, to obtain a second recognition result
  • the second feature extracted by the four-layer convolution layer and the second preset convolution layer is input into the SoftmaxWithLoss layer, and the SoftmaxWithLoss layer is used as a cost function of the face recognition to calculate the loss value.
  • a second recognition result is obtained.
  • the weighting module is configured to weight the first recognition result and the second recognition result to obtain a recognition result of the target object.
  • two loss values may be weighted and summed to obtain the last entire network.
  • the loss value that is, the recognition result of the target object described above.
  • the preset network model further includes: a plurality of first fully connected layers and a plurality of second fully connected layers, wherein the plurality of first fully connected layers are connected Between a predetermined convolutional layer and the first output layer, a plurality of second fully connected layers are connected between the second predetermined convolutional layer and the second output layer.
  • two fully connected layers may be respectively connected after the first preset convolution layer or the second preset convolution layer, and then connected to the SoftmaxWithLoss layer.
  • the device further includes:
  • the first operation unit is configured to perform inner product operation on the first feature by using the plurality of first fully connected layers to obtain the processed first feature.
  • the second operation unit is configured to perform an inner product operation on the second feature by using the plurality of second fully connected layers to obtain the processed second feature.
  • the classification unit is further configured to classify the processed first feature and the processed second feature by using a preset network model to obtain a recognition result of the target object.
  • two fully-connected layers may be input (That is, the first fully connected layer), and finally accessing the SoftmaxWithLoss layer as a cost function of the partial feature to calculate the loss value; after obtaining the second feature of the face through the four-layer convolution layer and the second predetermined convolution layer, Input 2 fully connected layers (ie the second fully connected layer above), and finally SoftmaxWithLoss as the cost function of face recognition to obtain the loss value of face recognition, then weight the two loss values to obtain the final whole CNN network The loss value.
  • an embodiment of a robot comprising: the identification device of the target object according to any one of the above embodiments 2.
  • the target object to be identified is obtained, and the target object to be identified is extracted by the preset network model, and the first feature and the second feature of the target object are obtained, and the network model is determined by the preset network model.
  • a feature and a second feature are classified to obtain a recognition result of the target object, thereby achieving the purpose of identifying the target object.
  • the target object is identified by the preset network model, so that the training time of the preset network model can be accelerated, the target recognition time can be shortened, and the preset network mode can be avoided.
  • Over-fitting of the type improving the robustness of target object recognition.
  • the disclosed technical content may be implemented in other manners.
  • the device embodiments described above are only schematic.
  • the division of the unit may be a logical function division.
  • the actual implementation may have another division manner.
  • multiple units or components may be combined or may be Integration into another system, or some features can be ignored, or not executed.
  • the mutual coupling or direct coupling or communication connection shown or discussed may be an indirect coupling or communication connection through some interface, unit or module, and may be electrical or otherwise.
  • the unit described as a separate component may or may not be physically distributed, and the component displayed as a unit may or may not be a physical unit, that is, may be located in one place, or may be distributed to multiple On the unit. Some or all of the units may be selected according to actual needs to achieve the objectives of the embodiment of the present embodiment.
  • each functional unit in each embodiment of the present invention may be integrated into one processing unit, or each unit may exist physically separately, or two or more units may be integrated into one unit.
  • the above integrated unit can be implemented in the form of hardware or in the form of a software functional unit.
  • the integrated unit if implemented in the form of a software functional unit and sold or used as a standalone product, may be stored in a computer readable storage medium.
  • the technical solution of the present invention may contribute to the prior art or all or part of the technical solution may be embodied in the form of a software product stored in a storage medium.
  • a number of instructions are included to cause a computer device (which may be a personal computer, server or network device, etc.) to perform all or part of the steps of the methods of the various embodiments of the present invention.
  • the foregoing storage medium includes: a USB flash drive, a read only memory (ROM, Read-Only)

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种目标对象的识别方法和装置、机器人。其中,该方法包括:获取待识别的目标对象;通过预设网络模型对待识别的目标对象进行特征提取,得到目标对象的第一特征和第二特征,其中,第一特征为目标对象的特定特征,第二特征为对第一特征和目标对象的基本特征进行特征提取得到的特征;通过预设网络模型对第一特征和第二特征进行分类,得到目标对象的识别结果。本发明解决了现有技术中的基于深度学习的网络模型,网络不收敛或者收敛慢,导致目标对象的识别时间长,鲁棒性低的技术问题。

Description

发明名称: 目标对象的识别方法和装置、 机器人 技术领域
[0001] 本发明涉及目标识别领域, 具体而言, 涉及一种目标对象的识别方法和装置、 机器人。
背景技术
[0002] 当前, 深度学习的训练都是在输入端输入样本, 末端给出样本标签 (分类网络
) 或者是代价函数 (回归网络) , 训练过程具体如下:
[0003] 1) 使用自下上升非监督学习:
[0004] 具体的, 先用无标定数据训练第一层, 训练吋先学习第一层的参数 (这一层可 以看作是得到一个使得输出和输入差别最小的三层神经网络的隐层) , 由于模 型 capacity的限制以及稀疏性约束, 使得得到的模型能够学习到数据本身的结构 , 从而得到比输入更具有表示能力的特征; 在学习得到第 n-1层后, 将 n-1层的输 出作为第 n层的输入, 训练第 n层, 由此分别得到各层的参数; 这个过程可以看 作是 feature learning过禾呈
[0005] 2) 自顶向下的监督学习:
[0006] 基于第一步得到的各层参数进一步 fine-tune整个多层模型的参数, 从顶层计算 梯度, 进行微调参数。
[0007] 由于在现有技术中的深度学习的网络模型在学习的过程中, 网络首先进行前向 传输, 直到最后一层, 然后再计算梯度, 反向传输, 直到第一层, 传输过程由 网络进行自动更新参数。 然而, 由于参数是自动进行, 因而会存在网络不收敛 或者收敛慢等一些问题。
技术问题
[0008] 针对现有技术中的基于深度学习的网络模型, 网络不收敛或者收敛慢, 导致目 标对象的识别吋间长, 鲁棒性低的问题, 目前尚未提出有效的解决方案。
问题的解决方案
技术解决方案 [0009] 本发明实施例提供了一种目标对象的识别方法和装置、 机器人, 以至少解决现 有技术中的基于深度学习的网络模型, 网络不收敛或者收敛慢, 导致目标对象 的识别吋间长, 鲁棒性低的技术问题。
[0010] 根据本发明实施例的一个方面, 提供了一种目标对象的识别方法, 包括: 获取 待识别的目标对象; 通过预设网络模型对待识别的目标对象进行特征提取, 得 到目标对象的第一特征和第二特征, 其中, 第一特征为目标对象的特定特征, 第二特征为对第一特征和目标对象的基本特征进行特征提取得到的特征; 通过 预设网络模型对第一特征和第二特征进行分类, 得到目标对象的识别结果。
[0011] 进一步地, 预设网络模型包括: 多个卷积层、 第一预设卷积层、 第二预设卷积 层、 第一输出层和第二输出层, 其中, 多个卷积层依次连接, 第一预设卷积层 与多个卷积层连接, 第一输出层与第一预设卷积层连接, 第二预设卷积层与多 个卷积层连接, 第二输出层与第二预设卷积层连接。
[0012] 进一步地, 通过预设网络模型对待识别的目标对象进行特征提取, 得到目标对 象的第一特征和第二特征包括: 通过多个卷积层对待识别的目标对象进行特征 提取, 得到目标对象的基本特征; 通过第一预设卷积层对目标对象的基本特征 进行特征提取, 得到目标对象的第一特征; 通过第二预设卷积层对基本特征和 第一特征进行特征提取, 得到目标对象的第二特征。
[0013] 进一步地, 第二预设卷积层包括: 第一子卷积层和第二子卷积层, 第一子卷积 层与多个卷积层连接, 第二子卷积层与第一预设卷积层和第一子卷积层连接, 其中, 通过第二预设卷积层对基本特征和第一特征进行特征提取, 得到目标对 象的第二特征包括: 通过第一子卷积层对基本特征进行特征提取, 得到第三特 征, 其中, 第三特征为目标对象的基本特征中除特定特征之外的其他特征; 将 第三特征和第一特征进行合并, 得到合并后的特征; 通过第二子卷积层对合并 后的特征进行特征提取, 得到第二特征。
[0014] 进一步地, 通过预设网络模型对第一特征和第二特征进行分类, 得到目标对象 的识别结果包括: 通过第一输出层对第一特征进行分类, 得到第一识别结果; 通过第二输出层对第二特征进行分类, 得到第二识别结果; 将第一识别结果和 第二识别结果进行加权, 得到目标对象的识别结果。 [0015] 进一步地, 预设网络模型还包括: 多个第一全连接层和多个第二全连接层, 其 中, 多个第一全连接层连接在第一预设卷积层和第一输出层之间, 多个第二全 连接层连接在第二预设卷积层和第二输出层之间。
[0016] 进一步地, 在通过预设网络模型对第一特征和第二特征进行分类, 得到目标对 象的识别结果之前, 上述方法还包括: 通过多个第一全连接层对第一特征进行 内积运算, 得到处理后的第一特征; 通过多个第二全连接层对第二特征进行内 积运算, 得到处理后的第二特征; 通过预设网络模型对处理后的第一特征和处 理后的第二特征进行分类, 得到目标对象的识别结果。
[0017] 根据本发明实施例的另一方面, 还提供了一种目标对象的识别装置, 包括: 获 取单元, 用于获取待识别的目标对象; 提取单元, 用于通过预设网络模型对待 识别的目标对象进行特征提取, 得到目标对象的第一特征和第二特征, 其中, 第一特征为目标对象的特定特征, 第二特征为对第一特征和目标对象的基本特 征进行特征提取得到的特征; 分类单元, 用于通过预设网络模型对第一特征和 第二特征进行分类, 得到目标对象的识别结果。
[0018] 进一步地, 预设网络模型包括: 多个卷积层、 第一预设卷积层、 第二预设卷积 层、 第一输出层和第二输出层, 其中, 多个卷积层依次连接, 第一预设卷积层 与多个卷积层连接, 第一输出层与第一预设卷积层连接, 第二预设卷积层与多 个卷积层连接, 第二输出层与第二预设卷积层连接。
[0019] 进一步地, 提取单元包括: 第一提取模块, 用于通过多个卷积层对待识别的目 标对象进行特征提取, 得到目标对象的基本特征; 第二提取模块, 用于通过第 一预设卷积层对目标对象的基本特征进行特征提取, 得到目标对象的第一特征 ; 第三提取模块, 用于通过第二预设卷积层对基本特征和第一特征进行特征提 取, 得到目标对象的第二特征。
[0020] 进一步地, 第二预设卷积层还包括: 第一子卷积层和第二子卷积层, 第一子卷 积层与多个卷积层连接, 第二子卷积层与第一预设卷积层和第一子卷积层连接
, 其中, 第三提取模块包括: 第一提取子模块, 用于通过第一子卷积层对基本 特征进行特征提取, 得到第三特征, 其中, 第三特征为目标对象的基本特征中 除特定特征之外的其他特征; 合并子模块, 用于将第三特征和第一特征进行合 并, 得到合并后的特征; 第二提取子模块, 用于通过第二子卷积层对合并后的 特征进行特征提取, 得到第二特征。
[0021] 进一步地, 分类单元包括: 第一分类模块, 用于通过第一输出层对第一特征进 行分类, 得到第一识别结果; 第二分类模块, 用于通过第二输出层对第二特征 进行分类, 得到第二识别结果; 加权模块, 用于将第一识别结果和第二识别结 果进行加权, 得到目标对象的识别结果。
[0022] 进一步地, 预设网络模型还包括: 多个第一全连接层和多个第二全连接层, 其 中, 多个第一全连接层连接在第一预设卷积层和第一输出层之间, 多个第二全 连接层连接在第二预设卷积层和第二输出层之间。
[0023] 进一步地, 上述装置还包括: 第一运算单元, 用于通过多个第一全连接层对第 一特征进行内积运算, 得到处理后的第一特征; 第二运算单元, 用于通过多个 第二全连接层对第二特征进行内积运算, 得到处理后的第二特征; 分类单元还 用于通过预设网络模型对处理后的第一特征和处理后的第二特征进行分类, 得 到目标对象的识别结果。
[0024] 根据本发明实施例的另一方面, 还提供了一种机器人, 包括: 上述实施例中任 意一项的目标对象的识别装置。
发明的有益效果
有益效果
[0025] 在本发明实施例中, 获取待识别的目标对象, 通过预设网络模型对待识别的目 标对象进行特征提取, 得到目标对象的第一特征和第二特征, 通过预设网络模 型对第一特征和第二特征进行分类, 得到目标对象的识别结果, 从而实现对目 标对象进行识别的目的。 容易注意到的是, 由于可以通过预设网络模型提取目 标对象的第一特征和第二特征, 并对这些特征进行组合, 从而能够迫使预设网 络模型快速收敛, 解决了现有技术中的基于深度学习的网络模型, 网络不收敛 或者收敛慢, 导致目标对象的识别吋间长, 鲁棒性低的技术问题。 因此, 通过 本发明上述实施例提供的方案, 通过预设网络模型对目标对象进行识别, 可以 达到加快预设网络模型的训练吋间, 缩短目标识别吋间, 避免预设网络模型的 过拟合, 提高目标对象识别的鲁棒性的效果。 对附图的简要说明
附图说明
[0026] 此处所说明的附图用来提供对本发明的进一步理解, 构成本申请的一部分, 本 发明的示意性实施例及其说明用于解释本发明, 并不构成对本发明的不当限定 。 在附图中:
[0027] 图 1是根据本发明实施例的一种目标对象的识别方法的流程图;
[0028] 图 2是根据本发明实施例的一种可选的卷积神经网络的示意图; 以及
[0029] 图 3是根据本发明实施例的一种目标对象的识别装置的示意图。
本发明的实施方式
[0030] 为了使本技术领域的人员更好地理解本发明方案, 下面将结合本发明实施例中 的附图, 对本发明实施例中的技术方案进行清楚、 完整地描述, 显然, 所描述 的实施例仅仅是本发明一部分的实施例, 而不是全部的实施例。 基于本发明中 的实施例, 本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其 他实施例, 都应当属于本发明保护的范围。
[0031] 需要说明的是, 本发明的说明书和权利要求书及上述附图中的术语"第一"、 " 第二"等是用于区别类似的对象, 而不必用于描述特定的顺序或先后次序。 应该 理解这样使用的数据在适当情况下可以互换, 以便这里描述的本发明的实施例 能够以除了在这里图示或描述的那些以外的顺序实施。 此外, 术语"包括"和"具 有"以及他们的任何变形, 意图在于覆盖不排他的包含, 例如, 包含了一系列步 骤或单元的过程、 方法、 系统、 产品或设备不必限于清楚地列出的那些步骤或 单元, 而是可包括没有清楚地列出的或对于这些过程、 方法、 产品或设备固有 的其它步骤或单元。
[0032] 实施例 1
[0033] 根据本发明实施例, 提供了一种目标对象的识别方法的实施例, 需要说明的是 , 在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统 中执行, 并且, 虽然在流程图中示出了逻辑顺序, 但是在某些情况下, 可以以 不同于此处的顺序执行所示出或描述的步骤。 [0034] 图 1是根据本发明实施例的一种目标对象的识别方法的流程图, 如图 1所示, 该 方法包括如下步骤:
[0035] 步骤 S 102, 获取待识别的目标对象。
[0036] 具体的, 在人脸识别领域中, 上述的目标对象可以是人脸, 上述的待识别的目 标对象可以是包含人脸信息的图像数据。
[0037] 步骤 S104, 通过预设网络模型对待识别的目标对象进行特征提取, 得到目标对 象的第一特征和第二特征, 其中, 第一特征为目标对象的特定特征, 第二特征 为对第一特征和目标对象的基本特征进行特征提取得到的特征。
[0038] 具体的, 上述的预设网络模型可以是卷积神经网络 (Convolutional Neural
Network, 简写为 CNN) ; 上述的特定特征可以是目标对象的部分重要特征, 例 如, 在人脸识别领域中, 人的眼睛、 鼻子、 眉毛、 耳朵、 嘴巴等特征; 在人脸 识别领域中, 上述的基本特征可以包括: 边缘、 角点、 颜色等特征。
[0039] 步骤 S106, 通过预设网络模型对第一特征和第二特征进行分类, 得到目标对象 的识别结果。
[0040] 在一种可选的方案中, 在需要对图像数据中的人脸进行识别的情况下, 可以将 待识别的图像数据输入至训练好的 CNN网络中, 通过 CNN网络, 可以对图像数 据中的人脸进行特征提取, 得到人脸的特定特征和第二特征, 然后通过 CNN网 络对提取到的部分重要特征和第二特征进行处理, 计算得到每种特征对应的 loss 值, 然后根据 loss值, 即可得到人脸识别结果; 或者给出每种特征对应的分类标 签, 即可得到人脸识别结果。
[0041] 采用本发明上述实施例, 获取待识别的目标对象, 通过预设网络模型对待识别 的目标对象进行特征提取, 得到目标对象的第一特征和第二特征, 通过预设网 络模型对第一特征和第二特征进行分类, 得到目标对象的识别结果, 从而实现 对目标对象进行识别的目的。 容易注意到的是, 由于可以通过预设网络模型提 取目标对象的第一特征和第二特征, 并对这些特征进行组合, 从而能够迫使预 设网络模型快速收敛, 解决了现有技术中的基于深度学习的网络模型, 网络不 收敛或者收敛慢, 导致目标对象的识别吋间长, 鲁棒性低的技术问题。 因此, 通过本发明上述实施例提供的方案, 通过预设网络模型对目标对象进行识别, 可以达到加快预设网络模型的训练吋间, 缩短目标识别吋间, 避免预设网络模 型的过拟合, 提高目标对象识别的鲁棒性的效果。
[0042] 可选地, 在本发明上述实施例中, 预设网络模型包括: 多个卷积层、 第一预设 卷积层、 第二预设卷积层、 第一输出层和第二输出层, 其中, 多个卷积层依次 连接, 第一预设卷积层与多个卷积层连接, 第一输出层与第一预设卷积层连接 , 第二预设卷积层与多个卷积层连接, 第二输出层与第二预设卷积层连接。
[0043] 具体的, 上述的预设网络模型可以是 CNN网络, 可以在 CNN网络的某一个卷积 层中加入一个卷积层, 用于提取目标对象的特定特征; 上述的第一输出层和第 二输出层可以是 SoftmaxWithLoss层, 通过代价函数来计算特征的 loss值。
[0044] 此处需要说明的是, 上述的第一预设卷积层的数量可以根据特征需要进行设定 , 可以在 CNN网络的不同卷积层引入多个卷积层, 以便网络可以迅速收敛, 并 学习到目标对象的特定特征, 而新加入的第一预设卷积层不会影响最终的目标 对象的识别结果。
[0045] 可选地, 在本发明上述实施例中, 步骤 S104, 通过预设网络模型对的目标对象 的待识别数据进行特征提取, 得到目标对象的第一特征和第二特征包括:
[0046] 步骤 S1042, 通过多个卷积层对待识别的目标对象进行特征提取, 得到目标对 象的基本特征。
[0047] 步骤 S1044, 通过第一预设卷积层对目标对象的基本特征进行特征提取, 得到 目标对象的第一特征。
[0048] 步骤 S 1046, 通过第二预设卷积层对基本特征和第一特征进行特征提取, 得到 目标对象的第二特征。
[0049] 在一种可选的方案中, 在人脸识别领域中, 可以构建一个四层网络, 即四层卷 积层提取人脸的基本特征, 然后在第五层的卷积网络中可以增加一个第一预设 卷积层, 用于提取人脸的特定特征, 第五层的卷积网络中的另一个第二预设卷 积层可以对基本特征和特定特征进行提取, 得到人脸的第二特征。
[0050] 可选地, 在本发明上述实施例中, 第二预设卷积层包括: 第一子卷积层和第二 子卷积层, 第一子卷积层与多个所述卷积层连接, 第二子卷积层与第一预设卷 积层和第一子卷积层连接, 其中, 步骤 S 1046, 通过第二预设卷积层对基本特征 和第一特征进行特征提取, 得到目标对象的第二特征包括:
[0051] 步骤 S10462, 通过第一子卷积层对基本特征进行特征提取, 得到第三特征, 其 中, 第三特征为目标对象的基本特征中除特定特征之外的其他特征。
[0052] 具体的, 上述的第三特征可以是目标对象的其他特征, 也可以包括特定特征。
[0053] 步骤 S 10464, 将第三特征和第一特征进行合并, 得到合并后的特征。
[0054] 步骤 S 10466, 通过第二子卷积层对合并后的特征进行特征提取, 得到第二特征
[0055] 在一种可选的方案中, 在人脸识别领域中, 在四层卷积层提取到人脸的基本特 征之后, 可以将第五层的卷积网络分为两个卷积层模块, 一个卷积层模块用于 提取人脸的特定特征 (即上述的第一预设卷积层) , 另一个模块用于提取人脸 的其他特征 (即上述的第一子卷积层) , 在第六层 (即上述的第二子卷积层) , 可以将上述两个模块提取到的特定特征和其他特征进行合并, 再进行特征提 取, 得到上述的第二特征。
[0056] 可选地, 在本发明上述实施例中, 步骤 S106, 通过预设网络模型对第一特征和 第二特征进行分类, 得到目标对象的识别结果包括:
[0057] 步骤 S1062, 通过第一输出层对第一特征进行分类, 得到第一识别结果。
[0058] 在一种可选的方案中, 将通过四层卷积层和第一预设卷积层提取到的特定特征 输入 SoftmaxWithLoss层, SoftmaxWithLoss层作为部分特征的代价函数计算 loss 值, 得到第一识别结果。
[0059] 步骤 S1064, 通过第二输出层对第二特征进行分类, 得到第二识别结果。
[0060] 在一种可选的方案中, 将通过四层卷积层和第二预设卷积层提取到的第二特征 输入 SoftmaxWithLoss层, SoftmaxWithLoss层作为人脸识别的代价函数计算 loss 值, 得到第二识别结果。
[0061] 步骤 S1066 , 将第一识别结果和第二识别结果进行加权, 得到目标对象的识别 结果。
[0062] 在一种可选的方案中, 在确定网络的最终 loss值吋, 可以对两个 loss值 (即上述 的第一识别结果和第二识别结果) 进行加权求和, 得到最后整个网络的 loss值 ( 即上述的目标对象的识别结果) 。 [0063] 通过上述步骤 S1062至步骤 S1066 , 可以对网络自主学习特征和部分模块特征进 行权衡, 以便对网络更好地进行调节。
[0064] 可选地, 在本发明上述实施例中, 预设网络模型还包括: 多个第一全连接层和 多个第二全连接层, 其中, 多个第一全连接层连接在第一预设卷积层和第一输 出层之间, 多个第二全连接层连接在第二预设卷积层和第二输出层之间。
[0065] 具体的, 可以在第一预设卷积层或第二预设卷积层之后分别连接 2个全连接层
, 然后接入 SoftmaxWithLoss层。
[0066] 此处需要说明的是, 第一预设卷积层之后的全连接层仅用于网络训练, 在网络 训练好之后, 将包含人脸信息的图片输入至 CNN网络中, 得到最终的目标位置
[0067] 可选地, 在本发明上述实施例中, 在步骤 S106, 通过预设网络模型对第一特征 和第二特征进行分类, 得到目标对象的识别结果之前, 该方法还包括:
[0068] 步骤 S108, 通过多个第一全连接层对第一特征进行内积运算, 得到处理后的第 一特征。
[0069] 步骤 S110, 通过多个第二全连接层对第二特征进行内积运算, 得到处理后的第 二特征。
[0070] 步骤 S 112, 通过预设网络模型对处理后的第一特征和处理后的第二特征进行分 类, 得到目标对象的识别结果。
[0071] 在一种可选的方案中, 在人脸识别领域中, 在通过四层卷积层和第一预设卷积 层得到人脸的特定特征之后, 可以输入 2个全连接层 (即上述的第一全连接层) , 最后接入 SoftmaxWithLoss层作为部分特征的代价函数计算 loss值; 在通过四层 卷积层和第二预设卷积层得到人脸的第二特征之后, 可以输入 2个全连接层 (即 上述的第二全连接层) , 最后 SoftmaxWithLoss作为人脸识别的代价函数得到人 脸识别的 loss值, 然后对两个 loss值进行加权求和, 得到最后整个 CNN网络的 loss 值。
[0072] 图 2是根据本发明实施例的一种可选的卷积神经网络的示意图, 下面结合如图 2 所示的卷积神经网络, 对人脸识别领域的识别方法进行详细说明, 如图 2所示, 首先我们构建一个人脸识别的卷积神经网络, 构建四层网络 (如图 2中的 convl-c onv4) 提取人脸的基本特征 (如图 2中的 COnv4) , 像边缘、 角点、 颜色等等信息 , 然后将第 5层的卷积网络中分为 2个模块, 一个模块为 COnv5_l, 用于提取部分 特征 (如图 2中的 COnv5_l) , 如人的眼睛、 鼻子、 眉毛、 耳朵、 嘴巴等信息, 具 体来说, 在 conv5_l后面接 2个全连接层 (如图 2中的 fc6和 fc7_l) , 最后接入 Soft maxWithLoss层 (如图 2中的 softmaxl) 作为部分特征的代价函数计算 loss值 (如 图 2的 lossl) 。 另一个模块 COnv5_2完成其他特征提取 (也可能包括部分特征)
(如图 2中的 COnv5_2) 。 在 COnv6层, 将上述两个模块进行合并, 再提取特征 ( 如图 2中的 conv6) , 送入更上一层的模块 (如图 2中的 fc7_2和 fc8) , 最后同样 采用 SoftmaxWithLoss (如图 2中的 softmax2) 作为人脸识别的代价函数得到人脸 识别的 loss值 (如图 2的 loss2) 。 在确定网络的最终 loss值吋, 我们对两个 loss进 行加权求和, 得到最后整个网络的 loss值。 COnv5_l后面的全连接层仅用于训练 , 在网络训练好之后, 将图片输入 CNN网络得到最终的目标位置 (如图 2中的 po s所示) 。
[0073] 通过上述方案, 新加入的模块在卷积神经网络的训练阶段能快速收敛, 避免网 络过拟合。 由于网络迫使待识别的目标具有某些必须的特征, 因此, 在采用上 述的卷积神经网络进行人脸识别的识别阶段系统更加鲁棒。 上述卷积神经网络 不仅仅可以用到目标识别领域, 还可以运用到自然语言处理或者图像检索领域
[0074] 实施例 2
[0075] 根据本发明实施例, 提供了一种目标对象的识别装置的实施例。
[0076] 图 3是根据本发明实施例的一种目标对象的识别装置的示意图, 如图 3所示, 该 装置包括:
[0077] 获取单元 31, 用于获取待识别的目标对象。
[0078] 具体的, 在人脸识别领域中, 上述的目标对象可以是人脸, 上述的待识别的目 标对象可以是包含人脸信息的图像数据。
[0079] 提取单元 33, 用于通过预设网络模型对待识别的目标对象进行特征提取, 得到 目标对象的第一特征和第二特征, 其中, 第一特征为目标对象的特定特征, 第 二特征为对第一特征和目标对象的基本特征进行特征提取得到的特征。 [0080] 具体的, 上述的预设网络模型可以是卷积神经网络 (Convolutional Neural
Network, 简写为 CNN) ; 上述的特定特征可以是目标对象的部分重要特征, 例 如, 在人脸识别领域中, 人的眼睛、 鼻子、 眉毛、 耳朵、 嘴巴等特征; 在人脸 识别领域中, 上述的基本特征可以包括: 边缘、 角点、 颜色等特征。
[0081] 分类单元 35, 用于通过预设网络模型对第一特征和第二特征进行处理, 得到目 标对象的识别结果。
[0082] 在一种可选的方案中, 在需要对图像数据中的人脸进行识别的情况下, 可以将 待识别的图像数据输入至训练好的 CNN网络中, 通过 CNN网络, 可以对图像数 据中的人脸进行特征提取, 得到人脸的特定特征和第二特征, 然后通过 CNN网 络对提取到的部分重要特征和第二特征进行处理, 计算得到每种特征对应的 loss 值, 然后根据 loss值, 即可得到人脸识别结果; 或者给出每种特征对应的分类标 签, 即可得到人脸识别结果。
[0083] 采用本发明上述实施例, 获取单元获取待识别的目标对象, 提取单元通过预设 网络模型对待识别的目标对象进行特征提取, 得到目标对象的第一特征和第二 特征, 第一处理单元通过预设网络模型对第一特征和第二特征进行分类, 得到 目标对象的识别结果, 从而实现对目标对象进行识别的目的。 容易注意到的是 , 由于可以通过预设网络模型提取目标对象的第一特征和第二特征, 并对这些 特征进行组合, 从而能够迫使预设网络模型快速收敛, 解决了现有技术中的基 于深度学习的网络模型, 网络不收敛或者收敛慢, 导致目标对象的识别吋间长 , 鲁棒性低的技术问题。 因此, 通过本发明上述实施例提供的方案, 通过预设 网络模型对目标对象进行识别, 可以达到加快预设网络模型的训练吋间, 缩短 目标识别吋间, 避免预设网络模型的过拟合, 提高目标对象识别的鲁棒性的效 果。
[0084] 可选地, 在本发明上述实施例中, 预设网络模型包括: 多个卷积层、 第一预设 卷积层、 第二预设卷积层、 第一输出层和第二输出层, 其中, 多个卷积层依次 连接, 第一预设卷积层与多个卷积层连接, 第一输出层与第一预设卷积层连接 , 第二预设卷积层与多个卷积层连接, 第二输出层与第二预设卷积层连接。
[0085] 具体的, 上述的预设网络模型可以是 CNN网络, 可以在 CNN网络的某一个卷积 层中加入一个卷积层, 用于提取目标对象的特定特征; 上述的第一输出层和第 二输出层可以是 SoftmaxWithLoss层, 通过代价函数来计算特征的 loss值。
[0086] 此处需要说明的是, 上述的第一预设卷积层的数量可以根据特征需要进行设定 , 可以在 CNN网络的不同卷积层引入多个卷积层, 以便网络可以迅速收敛, 并 学习到目标对象的特定特征, 而新加入的第一预设卷积层不会影响最终的目标 对象的识别结果。
[0087] 可选地, 在本发明上述实施例中, 提取单元包括:
[0088] 第一提取模块, 用于通过多个卷积层对待识别的目标对象进行特征提取, 得到 目标对象的基本特征。
[0089] 第二提取模块, 用于通过第一预设卷积层对目标对象的基本特征进行特征提取
, 得到目标对象的第一特征。
[0090] 第三提取子模块, 用于通过第二预设卷积层对基本特征和第一特征进行特征提 取, 得到目标对象的第二特征。
[0091] 在一种可选的方案中, 在人脸识别领域中, 可以构建一个四层网络, 即四层卷 积层提取人脸的基本特征, 然后在第五层的卷积网络中可以增加一个第一预设 卷积层, 用于提取人脸的特定特征, 第五层的卷积网络中的另一个第二预设卷 积层可以对基本特征和特定特征进行提取, 得到人脸的第二特征。
[0092] 可选地, 在本发明上述实施例中, 第二预设卷积层包括: 第一子卷积层和第二 子卷积层, 第一子卷积层与多个所述卷积层连接, 第二子卷积层与第一预设卷 积层和第一子卷积层连接, 其中, 第三提取模块包括:
[0093] 第一提取子模块, 用于通过第一子卷积层对基本特征进行特征提取, 得到第三 特征, 其中, 第三特征为目标对象的基本特征中除特定特征之外的其他特征。
[0094] 具体的, 上述的第三特征可以是目标对象的其他特征, 也可以包括特定特征。
[0095] 合并子模块, 用于将第三特征和第一特征进行合并, 得到合并后的特征。
[0096] 第二提取子模块, 用于通过第二子卷积层对合并后的特征进行特征提取, 得到 第二特征。
[0097] 在一种可选的方案中, 在人脸识别领域中, 在四层卷积层提取到人脸的基本特 征之后, 可以将第五层的卷积网络分为两个卷积层模块, 一个卷积层模块用于 提取人脸的特定特征 (即上述的第一预设卷积层) , 另一个模块用于提取人脸 的其他特征 (即上述的第一子卷积层) , 在第六层 (即上述的第二子卷积层) , 可以将上述两个模块提取到的特定特征和其他特征进行合并, 再进行特征提 取, 得到上述的第二特征。
[0098] 可选地, 在本发明上述实施例中, 分类单元包括:
[0099] 第一分类模块, 用于通过第一输出层对第一特征进行分类, 得到第一识别结果
[0100] 在一种可选的方案中, 将通过四层卷积层和第一预设卷积层提取到的特定特征 输入 SoftmaxWithLoss层, SoftmaxWithLoss层作为部分特征的代价函数计算 loss 值, 得到第一识别结果。
[0101] 第二分类模块, 用于通过第二输出层对第二特征进行分类, 得到第二识别结果
[0102] 在一种可选的方案中, 将通过四层卷积层和第二预设卷积层提取到的第二特征 输入 SoftmaxWithLoss层, SoftmaxWithLoss层作为人脸识别的代价函数计算 loss 值, 得到第二识别结果。
[0103] 加权模块, 用于将第一识别结果和第二识别结果进行加权, 得到目标对象的识 别结果。
[0104] 在一种可选的方案中, 在确定网络的最终 loss值吋, 可以对两个 loss值 (即上述 的第一识别结果和第二识别结果) 进行加权求和, 得到最后整个网络的 loss值 ( 即上述的目标对象的识别结果) 。
[0105] 通过上述方案, 可以对网络自主学习特征和部分模块特征进行权衡, 以便对网 络更好地进行调节。
[0106] 可选地, 在本发明上述实施例中, 预设网络模型还包括: 多个第一全连接层和 多个第二全连接层, 其中, 多个第一全连接层连接在第一预设卷积层和第一输 出层之间, 多个第二全连接层连接在第二预设卷积层和第二输出层之间。
[0107] 具体的, 可以在第一预设卷积层或第二预设卷积层之后分别连接 2个全连接层 , 然后接入 SoftmaxWithLoss层。
[0108] 此处需要说明的是, 第一预设卷积层之后的全连接层仅用于网络训练, 在网络 训练好之后, 将包含人脸信息的图片输入至 CNN网络中, 得到最终的目标位置 [0109] 可选地, 在本发明上述实施例中, 该装置还包括:
[0110] 第一运算单元, 用于通过多个第一全连接层对第一特征进行内积运算, 得到处 理后的第一特征。
[0111] 第二运算单元, 用于通过多个第二全连接层对第二特征进行内积运算, 得到处 理后的第二特征。
[0112] 分类单元还用于通过预设网络模型对处理后的第一特征和处理后的第二特征进 行分类, 得到目标对象的识别结果。
[0113] 在一种可选的方案中, 在人脸识别领域中, 在通过四层卷积层和第一预设卷积 层得到人脸的特定特征之后, 可以输入 2个全连接层 (即上述的第一全连接层) , 最后接入 SoftmaxWithLoss层作为部分特征的代价函数计算 loss值; 在通过四层 卷积层和第二预设卷积层得到人脸的第二特征之后, 可以输入 2个全连接层 (即 上述的第二全连接层) , 最后 SoftmaxWithLoss作为人脸识别的代价函数得到人 脸识别的 loss值, 然后对两个 loss值进行加权求和, 得到最后整个 CNN网络的 loss 值。
[0114] 实施例 3
[0115] 根据本发明实施例, 提供了一种机器人的实施例, 包括: 上述实施例 2中任意 一项的目标对象的识别装置。
[0116] 采用本发明上述实施例, 获取待识别的目标对象, 通过预设网络模型对待识别 的目标对象进行特征提取, 得到目标对象的第一特征和第二特征, 通过预设网 络模型对第一特征和第二特征进行分类, 得到目标对象的识别结果, 从而实现 对目标对象进行识别的目的。 容易注意到的是, 由于可以通过预设网络模型提 取目标对象的第一特征和第二特征, 并对这些特征进行组合, 从而能够迫使预 设网络模型快速收敛, 解决了现有技术中的基于深度学习的网络模型, 网络不 收敛或者收敛慢, 导致目标对象的识别吋间长, 鲁棒性低的技术问题。 因此, 通过本发明上述实施例提供的方案, 通过预设网络模型对目标对象进行识别, 可以达到加快预设网络模型的训练吋间, 缩短目标识别吋间, 避免预设网络模 型的过拟合, 提高目标对象识别的鲁棒性的效果。
[0117] 上述本发明实施例序号仅仅为了描述, 不代表实施例的优劣。
[0118] 在本发明的上述实施例中, 对各个实施例的描述都各有侧重, 某个实施例中没 有详述的部分, 可以参见其他实施例的相关描述。
[0119] 在本申请所提供的几个实施例中, 应该理解到, 所揭露的技术内容, 可通过其 它的方式实现。 其中, 以上所描述的装置实施例仅仅是示意性的, 例如所述单 元的划分, 可以为一种逻辑功能划分, 实际实现吋可以有另外的划分方式, 例 如多个单元或组件可以结合或者可以集成到另一个系统, 或一些特征可以忽略 , 或不执行。 另一点, 所显示或讨论的相互之间的耦合或直接耦合或通信连接 可以是通过一些接口, 单元或模块的间接耦合或通信连接, 可以是电性或其它 的形式。
[0120] 所述作为分离部件说明的单元可以是或者也可以不是物理上分幵的, 作为单元 显示的部件可以是或者也可以不是物理单元, 即可以位于一个地方, 或者也可 以分布到多个单元上。 可以根据实际的需要选择其中的部分或者全部单元来实 现本实施例方案的目的。
[0121] 另外, 在本发明各个实施例中的各功能单元可以集成在一个处理单元中, 也可 以是各个单元单独物理存在, 也可以两个或两个以上单元集成在一个单元中。 上述集成的单元既可以采用硬件的形式实现, 也可以采用软件功能单元的形式 实现。
[0122] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用 吋, 可以存储在一个计算机可读取存储介质中。 基于这样的理解, 本发明的技 术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分 可以以软件产品的形式体现出来, 该计算机软件产品存储在一个存储介质中, 包括若干指令用以使得一台计算机设备 (可为个人计算机、 服务器或者网络设 备等) 执行本发明各个实施例所述方法的全部或部分步骤。 而前述的存储介质 包括: U盘、 只读存储器 (ROM, Read-Only
Memory) 、 随机存取存储器 (RAM, Random Access Memory) 、 移动硬盘、 磁 碟或者光盘等各种可以存储程序代码的介质。 以上所述仅是本发明的优选实施方式, 应当指出, 对于本技术领域的普通技术 人员来说, 在不脱离本发明原理的前提下, 还可以做出若干改进和润饰, 这些 改进和润饰也应视为本发明的保护范围。

Claims

权利要求书
[权利要求 1] 一种目标对象的识别方法, 其特征在于, 包括:
获取待识别的目标对象;
通过预设网络模型对所述待识别的目标对象进行特征提取, 得到所述 目标对象的第一特征和第二特征, 其中, 所述第一特征为所述目标对 象的特定特征, 所述第二特征为对所述第一特征和所述目标对象的基 本特征进行特征提取得到的特征;
通过所述预设网络模型对所述第一特征和所述第二特征进行分类, 得 到所述目标对象的识别结果。
[权利要求 2] 根据权利要求 1所述的方法, 其特征在于, 所述预设网络模型包括: 多个卷积层、 第一预设卷积层、 第二预设卷积层、 第一输出层和第二 输出层, 其中, 多个所述卷积层依次连接, 所述第一预设卷积层与多 个所述卷积层连接, 所述第一输出层与所述第一预设卷积层连接, 所 述第二预设卷积层与多个所述卷积层和所述第一预设卷积层连接, 所 述第二输出层与所述第二预设卷积层连接。
[权利要求 3] 根据权利要求 2所述的方法, 其特征在于, 通过预设网络模型对所述 待识别的目标对象进行特征提取, 得到所述目标对象的第一特征和第 二特征包括:
通过多个所述卷积层对所述待识别的目标对象进行特征提取, 得到所 述目标对象的基本特征;
通过所述第一预设卷积层对所述目标对象的基本特征进行特征提取, 得到所述目标对象的第一特征;
通过所述第二预设卷积层对所述基本特征和所述第一特征进行特征提 取, 得到所述目标对象的第二特征。
[权利要求 4] 根据权利要求 3所述的方法, 其特征在于, 所述第二预设卷积层包括
: 第一子卷积层和第二子卷积层, 所述第一子卷积层与多个所述卷积 层连接, 所述第二子卷积层与所述第一预设卷积层和所述第一子卷积 层连接, 其中, 通过所述第二预设卷积层对所述基本特征和所述第一 特征进行特征提取, 得到所述目标对象的第二特征包括: 通过所述第一子卷积层对所述基本特征进行特征提取, 得到第三特征
, 其中, 所述第三特征为所述目标对象的基本特征中除所述特定特征 之外的其他特征; 将所述第三特征和所述第一特征进行合并, 得到合并后的特征; 通过所述第二子卷积层对所述合并后的特征进行特征提取, 得到所述 第二特征。
[权利要求 5] 根据权利要求 2所述的方法, 其特征在于, 通过所述预设网络模型对 所述第一特征和所述第二特征进行分类, 得到所述目标对象的识别结 果包括:
通过所述第一输出层对所述第一特征进行分类, 得到第一识别结果; 通过所述第二输出层对所述第二特征进行分类, 得到第二识别结果; 将所述第一识别结果和所述第二识别结果进行加权, 得到所述目标对 象的识别结果。
[权利要求 6] 根据权利要求 2至 5中任意一项所述的方法, 其特征在于, 所述预设网 络模型还包括: 多个第一全连接层和多个第二全连接层, 其中, 多个 所述第一全连接层连接在所述第一预设卷积层和所述第一输出层之间 , 多个所述第二全连接层连接在所述第二预设卷积层和所述第二输出 层之间。
[权利要求 7] 根据权利要求 6所述的方法, 其特征在于, 在通过所述预设网络模型 对所述第一特征和所述第二特征进行分类, 得到所述目标对象的识别 结果之前, 所述方法还包括:
通过多个所述第一全连接层对所述第一特征进行内积运算, 得到处理 后的第一特征;
通过多个所述第二全连接层对所述第二特征进行内积运算, 得到处理 后的第二特征;
通过所述预设网络模型对处理后的所述第一特征和处理后的所述第二 特征进行分类, 得到所述目标对象的识别结果。 一种目标对象的识别装置, 其特征在于, 包括:
获取单元, 用于获取待识别的目标对象;
提取单元, 用于通过预设网络模型对所述待识别的目标对象进行特征 提取, 得到所述目标对象的第一特征和第二特征, 其中, 所述第一特 征为所述目标对象的特定特征, 所述第二特征为对所述第一特征和所 述目标对象的基本特征进行特征提取得到的特征;
分类单元, 用于通过所述预设网络模型对所述第一特征和所述第二特 征进行分类, 得到所述目标对象的识别结果。
根据权利要求 8所述的装置, 其特征在于, 所述预设网络模型包括: 多个卷积层、 第一预设卷积层、 第二预设卷积层、 第一输出层和第二 输出层, 其中, 多个所述卷积层依次连接, 所述第一预设卷积层与多 个所述卷积层连接, 所述第一输出层与所述第一预设卷积层连接, 所 述第二预设卷积层与多个所述卷积层连接, 所述第二输出层与所述第 二预设卷积层连接。
根据权利要求 9所述的装置, 其特征在于, 所述提取单元包括: 第一提取模块, 用于通过多个所述卷积层对所述待识别的目标对象进 行特征提取, 得到所述目标对象的基本特征;
第二提取模块, 用于通过所述第一预设卷积层对所述目标对象的基本 特征进行特征提取, 得到所述目标对象的第一特征;
第三提取模块, 用于通过所述第二预设卷积层对所述基本特征和所述 第一特征进行特征提取, 得到所述目标对象的第二特征。
根据权利要求 10所述的装置, 其特征在于, 所述第二预设卷积层包括 : 第一子卷积层和第二子卷积层, 所述第一子卷积层与多个所述卷积 层连接, 所述第二子卷积层与所述第一预设卷积层和所述第一子卷积 层连接, 其中, 所述第三提取模块包括:
第一提取子模块, 用于通过所述第一子卷积层对所述基本特征进行特 征提取, 得到第三特征, 其中, 所述第三特征为所述目标对象的基本 特征中除所述特定特征之外的其他特征; 合并子模块, 用于将所述第三特征和所述第一特征进行合并, 得到合 并后的特征;
第二提取子模块, 用于通过所述第二子卷积层对所述合并后的特征进 行特征提取, 得到所述第二特征。
根据权利要求 9所述的装置, 其特征在于, 所述分类单元包括: 第一分类模块, 用于通过所述第一输出层对所述第一特征进行分类, 得到第一识别结果;
第二分类模块, 用于通过所述第二输出层对所述第二特征进行分类, 得到第二识别结果;
加权模块, 用于将所述第一识别结果和所述第二识别结果进行加权, 得到所述目标对象的识别结果。
根据权利要求 9至 12中任意一项所述的装置, 其特征在于, 所述预设 网络模型还包括: 多个第一全连接层和多个第二全连接层, 其中, 多 个所述第一全连接层连接在所述第一预设卷积层和所述第一输出层之 间, 多个所述第二全连接层连接在所述第二预设卷积层和所述第二输 出层之间。
根据权利要求 13所述的装置, 其特征在于, 所述装置还包括: 第一运算单元, 用于通过多个所述第一全连接层对所述第一特征进行 内积运算, 得到处理后的第一特征;
第二运算单元, 用于通过多个所述第二全连接层对所述第二特征进行 内积运算, 得到处理后的第二特征;
所述分类单元还用于通过所述预设网络模型对处理后的所述第一特征 和处理后的所述第二特征进行分类, 得到所述目标对象的识别结果。 一种机器人, 其特征在于, 包括: 权利要求 8至 14中任意一项所述的 目标对象的识别装置。
PCT/CN2017/092045 2016-12-22 2017-07-06 目标对象的识别方法和装置、机器人 WO2018113261A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201611202167.1A CN108229263B (zh) 2016-12-22 2016-12-22 目标对象的识别方法和装置、机器人
CN201611202167.1 2016-12-22

Publications (1)

Publication Number Publication Date
WO2018113261A1 true WO2018113261A1 (zh) 2018-06-28

Family

ID=62624409

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2017/092045 WO2018113261A1 (zh) 2016-12-22 2017-07-06 目标对象的识别方法和装置、机器人

Country Status (2)

Country Link
CN (1) CN108229263B (zh)
WO (1) WO2018113261A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508675A (zh) * 2018-11-14 2019-03-22 广州广电银通金融电子科技有限公司 一种针对复杂场景的行人检测方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109934813A (zh) * 2019-03-08 2019-06-25 广州视源电子科技股份有限公司 目标对象的识别方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105095833A (zh) * 2014-05-08 2015-11-25 中国科学院声学研究所 用于人脸识别的网络构建方法、识别方法及系统
CN105631403A (zh) * 2015-12-17 2016-06-01 小米科技有限责任公司 人脸识别方法及装置
CN105631398A (zh) * 2014-11-24 2016-06-01 三星电子株式会社 识别对象的方法和设备以及训练识别器的方法和设备
WO2016090522A1 (en) * 2014-12-12 2016-06-16 Xiaoou Tang Method and apparatus for predicting face attributes
CN105868785A (zh) * 2016-03-30 2016-08-17 乐视控股(北京)有限公司 基于卷积神经网络的图片鉴别方法及系统
US20160300121A1 (en) * 2014-04-01 2016-10-13 Superfish Ltd. Neural network image representation
CN106203298A (zh) * 2016-06-30 2016-12-07 北京集创北方科技股份有限公司 生物特征识别方法及装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103116746B (zh) * 2013-03-08 2016-08-03 中国科学技术大学 一种基于多特征融合技术的视频火焰探测方法
CN104715238B (zh) * 2015-03-11 2018-09-11 南京邮电大学 一种基于多特征融合的行人检测方法
CN104751184B (zh) * 2015-04-08 2017-11-21 西安电子科技大学 基于强度统计稀疏的全极化sar图像分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160300121A1 (en) * 2014-04-01 2016-10-13 Superfish Ltd. Neural network image representation
CN105095833A (zh) * 2014-05-08 2015-11-25 中国科学院声学研究所 用于人脸识别的网络构建方法、识别方法及系统
CN105631398A (zh) * 2014-11-24 2016-06-01 三星电子株式会社 识别对象的方法和设备以及训练识别器的方法和设备
WO2016090522A1 (en) * 2014-12-12 2016-06-16 Xiaoou Tang Method and apparatus for predicting face attributes
CN105631403A (zh) * 2015-12-17 2016-06-01 小米科技有限责任公司 人脸识别方法及装置
CN105868785A (zh) * 2016-03-30 2016-08-17 乐视控股(北京)有限公司 基于卷积神经网络的图片鉴别方法及系统
CN106203298A (zh) * 2016-06-30 2016-12-07 北京集创北方科技股份有限公司 生物特征识别方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508675A (zh) * 2018-11-14 2019-03-22 广州广电银通金融电子科技有限公司 一种针对复杂场景的行人检测方法

Also Published As

Publication number Publication date
CN108229263B (zh) 2021-03-02
CN108229263A (zh) 2018-06-29

Similar Documents

Publication Publication Date Title
WO2020221278A1 (zh) 视频分类方法及其模型的训练方法、装置和电子设备
WO2020088216A1 (zh) 一种音视频处理方法、装置、设备及介质
WO2019119505A1 (zh) 人脸识别的方法和装置、计算机装置及存储介质
CN112800894B (zh) 一种基于时空流间注意力机制的动态表情识别方法及系统
WO2020192112A1 (zh) 人脸识别方法及装置
CN107273872A (zh) 用于图像或视频中行人重识别的深度判别网络模型方法
CN110503076B (zh) 基于人工智能的视频分类方法、装置、设备和介质
CN110569814B (zh) 视频类别识别方法、装置、计算机设备及计算机存储介质
CN109063649B (zh) 基于孪生行人对齐残差网络的行人重识别方法
CN109711422A (zh) 图像数据处理、模型的建立方法、装置、计算机设备和存储介质
CN108492294B (zh) 一种图像色彩和谐程度的评估方法及装置
WO2020238515A1 (zh) 图像匹配方法、装置、设备、介质和程序产品
WO2018036286A1 (zh) 目标对象的识别方法和装置,及机器人
CN111783505A (zh) 伪造人脸的识别方法、装置和计算机可读存储介质
CN108573209A (zh) 一种基于人脸的单模型多输出的年龄性别识别方法及系统
CN110458078A (zh) 一种人脸图像数据聚类方法、系统及设备
CN111723600B (zh) 一种基于多任务学习的行人重识别特征描述子
CN113177612B (zh) 一种基于cnn少样本的农业病虫害图像识别方法
CN116052218B (zh) 一种行人重识别方法
WO2023124278A1 (zh) 图像处理模型的训练方法、图像分类方法及装置
CN109102885B (zh) 基于卷积神经网络与随机森林组合的白内障自动分级方法
CN110070027A (zh) 基于智能物联网系统的行人重识别方法
CN105631404B (zh) 对照片进行聚类的方法及装置
CN111723239A (zh) 一种基于多模态的视频标注方法
WO2018113261A1 (zh) 目标对象的识别方法和装置、机器人

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17882851

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 14/10/2019)

122 Ep: pct application non-entry in european phase

Ref document number: 17882851

Country of ref document: EP

Kind code of ref document: A1