WO2020230244A1 - 学習方法、学習プログラム、および、学習装置 - Google Patents

学習方法、学習プログラム、および、学習装置 Download PDF

Info

Publication number
WO2020230244A1
WO2020230244A1 PCT/JP2019/018980 JP2019018980W WO2020230244A1 WO 2020230244 A1 WO2020230244 A1 WO 2020230244A1 JP 2019018980 W JP2019018980 W JP 2019018980W WO 2020230244 A1 WO2020230244 A1 WO 2020230244A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
sub
learning
module
area
Prior art date
Application number
PCT/JP2019/018980
Other languages
English (en)
French (fr)
Inventor
琢 佐々木
啓太 三上
将司 外山
森賀 邦広
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/608,154 priority Critical patent/US20220222928A1/en
Priority to JP2021519081A priority patent/JP7173309B2/ja
Priority to PCT/JP2019/018980 priority patent/WO2020230244A1/ja
Publication of WO2020230244A1 publication Critical patent/WO2020230244A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • G06V10/422Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Definitions

  • the present invention relates to a learning method, a learning program, and a learning device.
  • the attention model is a model that focuses on some areas included in the cut-out image (cut-out image) and extracts the feature amount for each area of interest. For example, when the object is a person, the attention model picks up the areas of sub-objects such as the head, upper body, and lower body from the cut-out image, and extracts the feature amount for each picked-up area. By extracting the feature amount for each region of interest in this way, it is possible to improve the analysis accuracy when analyzing the cut out portion.
  • one of the attention models is HA-CNN (Harmonious Attention Convolutional Neural Network, see Non-Patent Document 1).
  • the feature extraction module in this HA-CNN includes one global branch and a plurality of local branches. Each of these local branches picks up a part of the object area (sub-object area) from the above cut-out image, and extracts the feature amount of the picked-up area. Then, the analysis module (for example, the object classification module and the attribute estimation module of the image) analyzes the object based on the feature amount of the area of each extracted sub-object (see FIG. 1).
  • the weight parameter of the feature quantity extraction module is updated based on the error back-propagated from the subsequent module (for example, the analysis module) of the feature quantity extraction module. It is done by doing.
  • each local branch of the feature extraction module is optimized to improve the analysis accuracy of the analysis module.
  • the area of the sub-object in charge of each local branch is updated so as to improve the analysis accuracy by the analysis module.
  • the above learning is called indirect reflection of the feature extraction module.
  • each of the cut-out images is an image in which the whole body of the person is reflected and the person is upright, and is a sub-object (for example). , Head, upper body, lower body, etc.) are only assumed to be lined up in the same order. Therefore, the feature amount extraction module learned from the above-mentioned cut-out image can accurately pick up the area of each of the sub-objects of the person for the image in which the whole body of the person is reflected and stands upright. As a result, the accuracy of image analysis by the analysis module was also high.
  • the feature extraction module may not be able to accurately pick up the area of each sub-object. As a result, there is a problem that the accuracy of image analysis by the analysis module is also lowered.
  • the cut-out image handled by HA-CNN is an upright image showing the whole body of a person as shown by reference numeral 101
  • the first local branch of the feature amount extraction module is indicated by reference numeral 101.
  • the upper body of the person is picked up from the image, and the second local branch picks up the lower body of the person from the image indicated by reference numeral 101.
  • the first local branch of the feature amount extraction module is from the image shown by reference numeral 102.
  • the part of the person's trousers is picked up, and the second local branch picks up the part below the person's knee from the image shown by reference numeral 102.
  • the HA-CNN feature extraction module cannot accurately pick up the area of each sub-object (for example, the upper body and lower body of a person). As a result, there is a problem that the accuracy of image analysis by the analysis module is also lowered.
  • an object of the present invention is to solve the above-mentioned problems and improve the analysis accuracy of the image even when the cut-out image in the image analysis is incomplete.
  • the present invention is a learning method executed by a learning device, and the module is described for each module that extracts the feature amount of the object in the image in the deep neural network to be trained.
  • Each of the modules uses the step of assigning which sub-object feature amount to be extracted from the sub-object group constituting the image object and the information indicating the area of the sub-object in the image for each image.
  • the first learning that trains each of the modules and the result of image analysis using the features of the sub-objects picked up by each of the modules are used. It is characterized by including a step of executing a second learning for learning each of the modules so as to further improve the analysis accuracy of the image analysis.
  • the accuracy of image analysis can be improved even when the cropped image in the image analysis is incomplete.
  • FIG. 1 is a diagram for explaining HA-CNN.
  • FIG. 2 is a diagram for explaining the learning of the feature extraction module in HA-CNN.
  • FIG. 3 is a diagram showing an example of extraction of sub-objects in HA-CNN.
  • FIG. 4 is a diagram illustrating an outline of the learning device of the present embodiment.
  • FIG. 5 is a diagram showing a configuration example of the learning device of the present embodiment.
  • FIG. 6 is a diagram showing an example of automatically assigning coordinates of sub-objects in the present embodiment.
  • FIG. 7 is a diagram showing an example of a method of creating a cut-out image in the present embodiment.
  • FIG. 8 is a diagram showing an example of a region picked up by the local branch of the present embodiment.
  • FIG. 1 is a diagram for explaining HA-CNN.
  • FIG. 2 is a diagram for explaining the learning of the feature extraction module in HA-CNN.
  • FIG. 3 is a diagram showing an example of extraction of sub-
  • FIG. 9 is a diagram showing an example of a processing procedure of the learning device of the present embodiment.
  • FIG. 10 is a diagram showing an example of the analysis result by the deep neural network learned by the learning device of the present embodiment.
  • FIG. 11 is a diagram showing an example of a computer that executes the learning program of the present embodiment.
  • the target of learning here is assumed to be a deep neural network that performs image analysis.
  • This deep neural network has a cutout module (not shown in FIG. 4) that cuts out the part where the object is reflected from the image to be analyzed, a feature amount extraction module that extracts the feature amount of the cut out part, and the extracted features. It shall be provided with an analysis module that analyzes the cut out portion based on the quantity.
  • the feature amount extraction module is composed of a plurality of modules that extract feature amounts from images.
  • This module is, for example, a local branch used in HA-CNN and the like.
  • the case where the module constituting the feature amount extraction module is a local branch will be described as an example.
  • This feature extraction module may include a global branch.
  • the case where the analysis module includes a classification module for classifying the objects reflected in the image and an attribute estimation module for estimating the attributes of the objects will be described as an example.
  • the learning device assigns a sub-object that the local branch is in charge of (to be picked up) to each local branch of the feature extraction module.
  • This sub-object is an object that makes up the object.
  • the sub-objects of the object are the upper body, the lower body, and the like.
  • the learning device assigns the upper body of a person as a sub-object in charge of the local branch shown in reference numeral 401, and assigns the lower body of the person as a sub-object in charge of the local branch shown in reference numeral 402.
  • the learning device learns the area to be picked up by each local branch of the feature extraction module. For example, the learning device uses the information indicating the area where the sub-object to be picked up by each local branch exists (the area to be picked up by the local branch) for each cut-out image, and uses the local branch. Each learns the area of the sub-object to be picked up.
  • the learning device is requested to reduce the error. Adjust the parameter value of the local branch. If there is an error between the area of the sub-object in charge of the local branch indicated by reference numeral 402 and the area picked up by the local branch, the learning device adjusts the parameter value of the local branch so as to reduce the error. I do. By repeating such adjustments, each local branch can accurately pick up the area of the sub-object assigned to itself. For convenience of explanation, such adjustment (learning) is called a direct reflection of the feature extraction module. In addition, the learning device also learns which region each local branch should pick up in order to further improve the analysis accuracy of the analysis module (that is, it also performs the indirect reflection described above).
  • the learning device when learning the feature extraction module, the learning device is necessary for learning rather than learning only by the above indirect reflection by performing direct reflection in addition to the above indirect reflection.
  • the number of images and the number of epochs can be significantly reduced.
  • the learning device 10 includes an input / output unit 11, a storage unit 12, and a control unit 13.
  • the input / output unit 11 controls the input and output of various information.
  • the input / output unit 11 receives, for example, input of a partial image or the like referred to by the feature amount extraction module.
  • the storage unit 12 stores various information referred to when the control unit 13 executes the above learning process.
  • the storage unit 12 stores a partial image input via the input / output unit 11 and a model of the deep neural network obtained by learning by the control unit 13.
  • the model is, for example, information showing parameter values of various modules (cutout module, feature amount extraction module, analysis module) used in the above deep neural network. The information of this model is appropriately updated by the learning process by the control unit 13.
  • information on the area where the sub-object exists in the image (that is, the area to be picked up by the local branch) is added to each image.
  • Information (for example, coordinates) of the area where this sub-object exists may be given manually or automatically.
  • the learning device 10 determines that the feature amount extraction module picks up two sub-objects, the upper body and the lower body of a person, and automatically adds information (for example, coordinates) of the area where these sub-objects exist in the image. think of.
  • a cut-out image showing the whole body of a person see reference numeral 601 in FIG. 6
  • a cut-out image showing the upper body see reference numeral 602 in FIG. 6
  • a cut-out image showing the lower body is prepared in advance.
  • the learning device 10 refers to the cut-out image in which the whole body of the person is shown, "the upper half of the cut-out image is the upper body, and the lower half of the cut-out image is the lower body.
  • the learning device 10 assigns the region where the upper body exists and the region where the lower body exists in each cut-out image with the coordinates of the four sides of the rectangular region, for example.
  • the learning device 10 stores the cut-out image to which the coordinates of the region where each sub-object exists is given as a partial image in the storage unit 12.
  • the learning device 10 prepares the cut-out image showing the upper body and the cut-out image showing the lower body, as shown in FIG. 7, the cut-out image showing the whole body is divided into two upper and lower parts. It may be prepared by dividing it.
  • the control unit 13 includes a sub-object allocation unit 131 and a learning unit 132.
  • the sub-object allocation unit 131 allocates a sub-object in charge of the local branch for each local branch that constitutes the feature extraction module. That is, the sub-object allocation unit 131 assigns, for each local branch, which sub-object among the sub-object groups constituting the object is picked up and the feature amount is extracted.
  • the number and types of sub-objects picked up by the feature extraction module may be any number and type.
  • the sub-object allocation unit 131 puts the upper body of the person on the first local branch. Assign the lower body of the person to the second local branch. Similarly, when the number of sub-objects picked up by the feature extraction module is two, the sub-object allocation unit 131 assigns the right half of the person to the first local branch and assigns the person to the second local branch. You may assign the left half of the body.
  • the sub-object allocation unit 131 assigns a person's face to the first local branch, for example, and assigns a person's face to the second local branch. Allocate the upper body excluding, and assign the lower body of the person to the third local branch.
  • the learning unit 132 uses a partial image to directly reflect on the area of the sub-object assigned to each local branch by the sub-object allocation unit 131 (first). (Learning).
  • the learning unit 132 learns each local branch so that each local branch can accurately pick up the area of the sub-object assigned to the local branch by using the information indicating the area of the sub-object in the image for each image.
  • First learning is performed, and the results of image analysis using the feature quantities of the sub-objects picked up by each local branch are used to learn each local branch so as to further improve the analysis accuracy of the image analysis.
  • Second learning is performed.
  • the loss function when the learning unit 132 directly reflects on each local branch (first learning) is, for example, as follows.
  • the shape of the area picked up by each local branch is rectangular
  • the coordinates of the rectangular area actually picked up by the i-th local branch are (x 0 , x 1 , y 0 , y 1 )
  • the i-th local branch picks up.
  • the learning unit 132 uses, for example, the following equation (1) as a loss function that propagates directly to the i-th local branch.
  • the learning unit 132 updates the model in the storage unit 12 by using the parameter values of the feature amount extraction module obtained by the direct reflection and the indirect reflection.
  • the sub-object allocation unit 131 of the learning device 10 allocates sub-objects to each local branch in the feature amount extraction module of the deep neural network to be learned (S1). After that, the learning unit 132 learns each local branch of the feature amount extraction module (S2). That is, the learning unit 132 performs indirect reflection of each local branch using the error back-propagated from the analysis module, and direct reflection of each local branch using the partial image of the storage unit 12.
  • the learning device 10 gives a given area to be picked up by each local branch of the feature extraction module, and further records the error as a loss function to perform direct reflection.
  • each of the local branches of the feature amount extraction module can accurately pick up the target part (sub-object) of the object even for the cut-out image in which the object is incompletely projected.
  • the feature amount extraction module can accurately extract the feature amount of each sub-object, it is possible to improve the accuracy when the analysis module analyzes the object (for example, classification, attribute estimation, collation, etc.). ..
  • the learning by the learning device 10 of the present embodiment is applied to the learning of the deep neural network that automatically analyzes the person reflected in the image with respect to the image taken by the surveillance camera, "the lost red clothes”.
  • the learning device 10 of the present embodiment When there is a request "I want to find a 5-year-old girl wearing a neural network” or “I want to find the criminal in this photo”, I had to handle it visually, "A cutout that shows only a part of the body.” Automatic analysis can also be performed on “finished images”.
  • the top 5 similar to the "person in the border pants” (the person in the image shown in “Find this person” on the left side of FIG. 10) from the cut-out images. I was instructed to look for one image.
  • the deep neural network learned by the conventional technique should originally search for "a person with border pants", but in the above top five images, "Border T” is included. Includes “shirt person” and "border one-piece person”. This is because only the lower half of the person is shown in the cut-out image of the comparison source (the image shown in "Find this person” in FIG. 10), and the deep neural network fails to link the area and the part on the image. It is probable that it was done.
  • the deep neural network learned by the learning device 10 of the present embodiment only the "person with border pants” is included in the above top five images searched from the cut-out images. , "Border T-shirt person” and “Border one-piece person” are not included. From this, it was shown that the deep neural network learned by the learning device 10 of the present embodiment can accurately search even an incomplete cut-out image.
  • the learning device 10 of the present embodiment determines in advance which sub-object each local branch in the feature amount extraction module should be in charge of. As a result, the learning device 10 can perform direct reflection in addition to the indirect reflection of each local branch described above. As a result, each local branch of the feature quantity extraction module can learn to accurately extract the feature quantity even if the cut-out image is incomplete, by using the amount of learning data and the learning time that can be realistically secured.
  • the information processing device can function as the learning device 10 by causing the information processing device to execute the above program provided as package software or online software.
  • the information processing device referred to here includes a desktop type or notebook type personal computer, a rack-mounted server computer, and the like.
  • the information processing device includes smartphones, mobile phones, mobile communication terminals such as PHS (Personal Handyphone System), and PDA (Personal Digital Assistants).
  • the learning device 10 may be mounted on the cloud server.
  • the computer 1000 has, for example, a memory 1010, a CPU 1020, a hard disk drive interface 1030, a disk drive interface 1040, a serial port interface 1050, a video adapter 1060, and a network interface 1070. Each of these parts is connected by a bus 1080.
  • the memory 1010 includes a ROM (Read Only Memory) 1011 and a RAM (Random Access Memory) 1012.
  • the ROM 1011 stores, for example, a boot program such as a BIOS (Basic Input Output System).
  • BIOS Basic Input Output System
  • the hard disk drive interface 1030 is connected to the hard disk drive 1090.
  • the disk drive interface 1040 is connected to the disk drive 1100.
  • a removable storage medium such as a magnetic disk or an optical disk is inserted into the disk drive 1100.
  • a mouse 1110 and a keyboard 1120 are connected to the serial port interface 1050.
  • a display 1130 is connected to the video adapter 1060, for example.
  • the hard disk drive 1090 stores, for example, OS1091, application program 1092, program module 1093, and program data 1094.
  • OS1091, application program 1092, program module 1093, and program data 1094 Various data and information described in the above-described embodiment are stored in, for example, a hard disk drive 1090 or a memory 1010.
  • the CPU 1020 reads the program module 1093 and the program data 1094 stored in the hard disk drive 1090 into the RAM 1012 as needed, and executes each of the above-described procedures.
  • the program module 1093 and program data 1094 related to the above learning program are not limited to the case where they are stored in the hard disk drive 1090. For example, they are stored in a removable storage medium and are stored by the CPU 1020 via the disk drive 1100 or the like. It may be read out. Alternatively, the program module 1093 and program data 1094 related to the above program are stored in another computer connected via a network such as a LAN or WAN (Wide Area Network), and read by the CPU 1020 via the network interface 1070. May be done.
  • a network such as a LAN or WAN (Wide Area Network)

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

学習装置は、学習対象のディープニューラルネットワークにおいて画像内のオブジェクトの特徴量を抽出するモジュールごとに、当該モジュールが、前記画像のオブジェクトを構成するサブオブジェクト群のうち、どのサブオブジェクトの特徴量を抽出するかを割り当てる。その後、学習装置は、画像ごとに当該画像におけるサブオブジェクトの領域を示す情報を用いて、当該モジュールが当該モジュールに割り当てられたサブオブジェクトの領域を精度よくピックアップできるよう、モジュールそれぞれの学習を行う第1の学習と、モジュールそれぞれによりピックアップされたサブオブジェクトの特徴量を用いた画像分析の結果を用いて、画像分析の分析精度をより向上させるよう、モジュールそれぞれの学習を行う第2の学習とを実行する。

Description

学習方法、学習プログラム、および、学習装置
 本発明は、学習方法、学習プログラム、および、学習装置に関する。
 従来、画像解析において、解析対象の画像から、オブジェクト(例えば、人物)の映っている部分を切り出し、切り出した部分の特徴量を抽出し、抽出した特徴量に基づき、切り出した部分の分析を行う技術がある。ここで、深層学習により画像解析を行う場合、上記のオブジェクトの特徴量を抽出する工程において、いわゆるアテンション機構を搭載したモデル(アテンションモデル)を用いることが提案されている(非特許文献1参照)。
 アテンションモデルは、切り出し済みの画像(切出済画像)に含まれるいくつかの領域に着目し、着目する領域ごとに特徴量を抽出するモデルである。例えば、オブジェクトが人物である場合、アテンションモデルは、切出済画像から頭部、上半身、下半身等のサブオブジェクトの領域をピックアップし、ピックアップした領域ごとに特徴量を抽出する。このように着目する領域ごとに特徴量を抽出することで、切り出した部分の分析を行う際、分析精度を向上させることができる。
 ここで、アテンションモデルの一つに、HA-CNN(Harmonious Attention Convolutional Neural Network、非特許文献1参照)がある。このHA-CNNにおける特徴量抽出モジュールは、1本のglobal branchと、複数本のlocal branchとを備える。このlocal branchはそれぞれ、上記の切出済画像からオブジェクトの一部の領域(サブオブジェクトの領域)をピックアップし、そのピックアップした領域の特徴量を抽出する。そして、分析モジュール(例えば、画像のオブジェクトの分類モジュールおよび属性推定モジュール)は、抽出された各サブオブジェクトの領域の特徴量に基づき、オブジェクトの分析を行う(図1参照)。
 ここで、HA-CNNの特徴量抽出モジュールの学習は、当該特徴量抽出モジュールの後続のモジュール(例えば、分析モジュール)から逆伝搬されてきた誤差を元に、特徴量抽出モジュールの重みパラメータを更新することにより行われる。
 例えば、HA-CNNの分析モジュールが、図2に示すように、画像のオブジェクトの分類モジュールおよび属性推定モジュールを備える場合を考える。この場合、分類モジュールおよび属性推定モジュールから逆伝搬されてきた誤差に基づき、特徴量抽出モジュールの各local branchの重みパラメータが更新される。これにより特徴量抽出モジュールの各local branchは、分析モジュールによる分析精度を向上させるように最適化される。例えば、分析モジュールによる分析精度を向上させるよう、各local branchが担当するサブオブジェクトの領域が更新される。上記のような学習を、説明の便宜上、特徴量抽出モジュールの間接的な反省と呼ぶ。
Wei Li et al., Harmonious Attention Network for Person Re-identification, CVPR2018 (arXiv:1802.08122)、[平成31年4月19日検索]、インターネット<URL:https://arxiv.org/abs/1802.08122>
 ここで、上記のHA-CNNが扱う画像のオブジェクトが人物である場合、切出済画像はそれぞれ、人物の全身が映っていて、人物が直立しているような画像であり、サブオブジェクト(例えば、頭、上半身、下半身等)が同じ順序で並んでいる場合しか想定されていない。したがって、上記の切出済画像により学習された特徴量抽出モジュールは、人物の全身が映っていて直立しているような画像については、人物のサブオブジェクトそれぞれの領域を正確にピックアップできる。その結果、分析モジュールによる画像の分析精度も高かった。
 ここで、上記の切出済画像が不完全(例えば、オブジェクトの一部しか映っていない、サブオブジェクトの順序が画像ごとに異なる等)である場合も多々ある。このような場合、特徴量抽出モジュールは、各サブオブジェクトの領域を正確にピックアップできないおそれがある。その結果、分析モジュールによる画像の分析精度も低くなってしまうという問題がある。
 このことを、図3を用いて具体的に説明する。例えば、HA-CNNの扱う切出済画像が符号101に示すように人物の全身が映っていて直立している画像である場合、特徴量抽出モジュールの1本目のlocal branchは、符号101に示す画像から人物の上半身をピックアップし、2本目のlocal branchは、符号101に示す画像から人物の下半身をピックアップする。
 一方、HA-CNNの扱う切出済画像が符号102に示すように、人物の下半身のみが映っている画像である場合、特徴量抽出モジュールの1本目のlocal branchは、符号102に示す画像から人物のズボンの部分をピックアップし、2本目のlocal branchは、符号102に示す画像から人物の膝下の部分をピックアップする。つまり、切出済画像が不完全だと、HA-CNNの特徴量抽出モジュールは、各サブオブジェクトの領域(例えば、人物の上半身、下半身)を正確にピックアップできない。その結果、分析モジュールによる画像の分析精度も低くなってしまうという問題がある。
 そこで、本発明は、前記した問題を解決し、画像解析における切り出し済の画像が不完全である場合でも、画像の分析精度を向上させることを課題とする。
 前記した課題を解決するため、本発明は、学習装置により実行される学習方法であって、学習対象のディープニューラルネットワークにおいて画像内のオブジェクトの特徴量を抽出するモジュールごとに、前記モジュールが、前記画像のオブジェクトを構成するサブオブジェクト群のうち、どのサブオブジェクトの特徴量を抽出するかを割り当てるステップと、画像ごとに当該画像におけるサブオブジェクトの領域を示す情報を用いて、前記モジュールそれぞれが当該モジュールに割り当てられたサブオブジェクトの領域を精度よくピックアップできるよう、前記モジュールそれぞれの学習を行う第1の学習と、前記モジュールそれぞれによりピックアップされたサブオブジェクトの特徴量を用いた画像分析の結果を用いて、前記画像分析の分析精度をより向上させるよう、前記モジュールそれぞれの学習を行う第2の学習とを実行するステップと、を含むことを特徴とする。
 本発明によれば、画像解析における切り出し済の画像が不完全である場合でも、画像の分析精度を向上させることができる。
図1は、HA-CNNを説明するための図である。 図2は、HA-CNNにおける特徴量抽出モジュールの学習を説明するための図である。 図3は、HA-CNNにおけるサブオブジェクトの抽出の例を示す図である。 図4は、本実施形態の学習装置の概要を説明する図である。 図5は、本実施形態の学習装置の構成例を示す図である。 図6は、本実施形態における、サブオブジェクトの座標の自動付与の例を示す図である。 図7は、本実施形態における、切出済画像の作成方法の例を示す図である。 図8は、本実施形態のlocal branchがピックアップする領域の例を示す図である。 図9は、本実施形態の学習装置の処理手順の例を示す図である。 図10は、本実施形態の学習装置により学習されたディープニューラルネットワークによる分析結果の例を示す図である。 図11は、本実施形態の学習プログラムを実行するコンピュータの例を示す図である。
 以下、図面を参照しながら、本発明を実施するための形態(実施形態)について説明する。本発明は、本実施形態に限定されない。
[概要]
 まず、図4を用いて、本実施形態の学習装置の概要を説明する。ここでの学習の対象は、画像解析を行うディープニューラルネットワークであるものとする。このディープニューラルネットワークは、解析対象の画像から、オブジェクトの映っている部分を切り出す切出モジュール(図4において図示省略)と、切り出した部分の特徴量を抽出する特徴量抽出モジュールと、抽出した特徴量に基づき、切り出した部分の分析を行う分析モジュールとを備えるものとする。
 特徴量抽出モジュールは、画像から特徴量を抽出する複数のモジュールから構成される。このモジュールは、例えば、HA-CNN等で用いられるlocal branchである。以下、特徴量抽出モジュールを構成するモジュールはlocal branchである場合を例に説明する。この特徴量抽出モジュールは、global branchを含んでいてもよい。また、分析モジュールは、画像に映ったオブジェクトの分類を行う分類モジュールと、当該オブジェクトの属性を推定する属性推定モジュールとを備える場合を例に説明する。
 学習装置は、特徴量抽出モジュールのlocal branchそれぞれに、当該local branchが担当する(ピックアップすべき)サブオブジェクトを割り当てる。このサブオブジェクトは、オブジェクトを構成するオブジェクトである。
 例えば、オブジェクトが人物である場合、当該オブジェクトのサブオブジェクトは上半身や下半身等である。例えば、学習装置は、図4の符号401に示すlocal branchが担当するサブオブジェクトとして人物の上半身を割り当て、符号402に示すlocal branchが担当するサブオブジェクトとして人物の下半身を割り当てる。
 その後、学習装置は、特徴量抽出モジュールのlocal branchそれぞれがピックアップすべき領域の学習を行う。例えば、学習装置は、切出済画像の1枚1枚に対して各local branchがピックアップすべきサブオブジェクトが存在する領域(local branchがピックアップすべき領域)を示した情報を用いて、local branchそれぞれがピックアップすべきサブオブジェクトの領域の学習を行う。
 例えば、学習装置は、図4の符号401に示すlocal branchが担当するサブオブジェクトの領域と、当該local branchがピックアップした領域との間に誤差があれば、学習装置は、誤差を低減するよう当該local branchのパラメータ値の調整を行う。また、符号402に示すlocal branchが担当するサブオブジェクトの領域と、当該local branchがピックアップした領域との間に誤差があれば、学習装置は、誤差を低減するよう当該local branchのパラメータ値の調整を行う。このような調整を繰り返すことにより、local branchそれぞれは、自身に割り当てられたサブオブジェクトの領域を正確にピックアップできるようになる。このような調整(学習)を、説明の便宜上、特徴量抽出モジュールの直接的な反省と呼ぶ。また、学習装置は、分析モジュールによる分析精度をより向上させるためには、local branchそれぞれがどの領域をピックアップすればよいのかの学習も行う(つまり、前記した間接的な反省も行う)。
 このように学習装置が、特徴量抽出モジュールの学習にあたり、上記の間接的な反省に加え、直接的な反省も行うことで、上記の間接的な反省のみで学習を行うよりも、学習に必要な画像数やエポック数を大幅に低減することができる。
[構成]
 次に、図5を用いて、学習装置の構成例を説明する。学習装置10は、入出力部11と、記憶部12と、制御部13とを備える。
 入出力部11は、各種情報の入力や出力を司る。入出力部11は、例えば、特徴量抽出モジュールが参照する部分画像等の入力を受け付ける。
 記憶部12は、制御部13が上記の学習処理を実行する際に参照する各種情報を記憶する。例えば、記憶部12は、上記の入出力部11経由で入力された部分画像、制御部13による学習により得られたディープニューラルネットワークのモデルを記憶する。モデルは、例えば、上記のディープニューラルネットワークで用いられる各種モジュール(切出モジュール、特徴量抽出モジュール、分析モジュール)のパラメータ値等を示した情報である。このモデルの情報は、制御部13による学習処理により適宜更新される。
 上記の部分画像は、例えば、画像ごとに、当該画像においてサブオブジェクトが存在する領域(つまり、local branchがピックアップすべき領域)の情報を付与したものである。このサブオブジェクトが存在する領域の情報(例えば、座標)は、手動で付与してもよいし、自動で付与してもよい。
 例えば、学習装置10が特徴量抽出モジュールにおいて、人物の上半身と下半身という2つのサブオブジェクトをピックアップすると定め、画像においてこれらのサブオブジェクトが存在する領域の情報(例えば、座標)を自動で付与する場合を考える。
 この場合、例えば、人物の全身が映った切出済画像(図6の符号601参照)と、上半身が映った切出済画像(図6の符号602参照)と、下半身が映った切出済画像(図6の符号603参照)とを予め用意しておく。
 そして、学習装置10は、これらの切出済画像について、人物の全身が映った切出済画像に対しては「切出済画像の上半分が上半身で、切出済画像の下半分が下半身」、上半身が映った切出済画像に対しては「切出済画像の全体が上半身で、下半身は存在せず」、下半身が映った切出済画像に対しては「切出済画像の全体が下半身で、上半身は存在せず」と判断する。その後、学習装置10は、上記の判断結果に基づき、各切出済画像において上半身の存在する領域と下半身の存在する領域とを、例えば、矩形領域の四辺の座標で付与する。そして、学習装置10は、各サブオブジェクトの存在する領域の座標を付与した切出済画像を、部分画像として記憶部12に格納する。なお、学習装置10は、上半身が映った切出済画像と下半身が映った切出済画像とを用意する際、図7に示すように、全身の映った切出済画像を上下2つに分割することにより用意してもよい。
 図5の説明に戻る。制御部13は、サブオブジェクト割当部131と、学習部132とを備える。
 サブオブジェクト割当部131は、特徴量抽出モジュールを構成するlocal branchごとに、当該local branchが担当するサブオブジェクトを割り当てる。つまり、サブオブジェクト割当部131は、local branchごとに、当該local branchが、オブジェクトを構成するサブオブジェクト群のうち、どのサブオブジェクトをピックアップし、特徴量を抽出するかを割り当てる。ここで特徴量抽出モジュールにおいてピックアップするサブオブジェクトの数、種類は任意の数、種類でよい。
 例えば、ディープニューラルネットワークが扱うオブジェクトが人物である場合において、特徴量抽出モジュールがピックアップするサブオブジェクトの数を2個としたとき、サブオブジェクト割当部131は、1本目のlocal branchに人物の上半身を割り当て、2本目のlocal branchに人物の下半身を割り当てる。また、同様に、特徴量抽出モジュールにおいてピックアップするサブオブジェクトの数を2個とした場合、サブオブジェクト割当部131は、1本目のlocal branchに人物の右半身を割り当て、2本目のlocal branchに人物の左半身を割り当ててもよい。
 さらに、特徴量抽出モジュールにおいてピックアップするサブオブジェクトの数を3個とした場合、サブオブジェクト割当部131は、例えば、1本目のlocal branchに人物の顔面を割り当て、2本目のlocal branchに人物の顔面を除く上半身を割り当て、3本目のlocal branchに人物の下半身を割り当てる。
 学習部132は、サブオブジェクト割当部131により各local branchに割り当てられたサブオブジェクトの領域について、前記した間接的反省(第2の学習)に加え、部分画像を用いた直接的反省(第1の学習)を行う。
 つまり、学習部132は、画像ごとに当該画像におけるサブオブジェクトの領域を示す情報を用いて、local branchそれぞれが当該local branchに割り当てられたサブオブジェクトの領域を精度よくピックアップできるようlocal branchそれぞれの学習(第1の学習)を行い、また、local branchそれぞれによりピックアップされたサブオブジェクトの特徴量を用いた画像分析の結果を用いて、当該画像分析の分析精度をより向上させるようlocal branchそれぞれの学習(第2の学習)を行う。
 なお、学習部132が、各local branchの直接的反省(第1の学習)を行う場合の損失関数は、例えば、以下のようなものが考えられる。
 例えば、各local branchがピックアップする領域の形状が矩形であり、i本目のlocal branchが実際にピックアップした矩形領域の座標が(x0,x1,y0,y1)であり、i本目のlocal branchがピックアップすべき矩形領域の座標が以下のように与えられた場合を考える。
Figure JPOXMLDOC01-appb-M000001
 この場合、学習部132は、i本目のlocal branchに直接伝播する損失関数として、例えば以下の式(1)を用いる。
Figure JPOXMLDOC01-appb-M000002
 学習部132は、直接的反省および間接的反省により得られた特徴量抽出モジュールのパラメータ値を用いて、記憶部12内のモデルを更新する。
[処理手順]
 図9を用いて、上記の学習装置10の処理手順の例を説明する。まず、学習装置10のサブオブジェクト割当部131は、学習対象のディープニューラルネットワークの特徴量抽出モジュールにおける各local branchへのサブオブジェクトの割り当てを行う(S1)。その後、学習部132は、上記の特徴量抽出モジュールの各local branchの学習を行う(S2)。すなわち、学習部132は、分析モジュールから逆伝搬されてきた誤差を用いた各local branchの間接的反省に加え、記憶部12の部分画像を用いた各local branchの直接的反省を行う。
[効果]
 上記の学習装置10は、特徴量抽出モジュールのlocal branchそれぞれがピックアップすべき領域を所与のものとし、さらにその誤差を損失関数として計上して、直接的な反省も行う。これにより、特徴量抽出モジュールのlocal branchそれぞれは、オブジェクトの映り方が不完全な切出済画像に対しても、当該オブジェクトの狙った部位(サブオブジェクト)を正確にピックアップすることができる。その結果、特徴量抽出モジュールは各サブオブジェクトの特徴量を精度よく抽出できるので、分析モジュールが当該オブジェクトの分析(例えば、分類、属性推定、照合等)を行う際の精度を向上させることができる。
 例えば、監視カメラで撮影された映像に対し、映像に映った人物の自動解析を行うディープニューラルネットワークの学習に、本実施形態の学習装置10による学習を適用すれば、「迷子になった赤い服を着た5歳の女の子を探したい」、または、「この写真の犯人を捜したい」という要求があった場合に、従来は目視で扱うしかなかった「身体の一部しか映っていない切出済画像」に対しても自動解析を行うことができる。
 監視カメラで撮影された映像に対し、人物自動解析を行うディープニューラルネットワークの学習に、本実施形態の学習装置10による学習を適用した場合と、従来技術(HA-CNN)による学習を適用した場合との比較結果を図10に示す。
 ここでは、それぞれのディープニューラルネットワークに対し、切出済画像の中から、「ボーダーのズボンの人物」(図10の左側の「この人物を探せ」に示す画像の人物)に似ている上位5枚の画像を探すよう指示した。
 この場合、比較例である従来技術(HA-CNN)により学習したディープニューラルネットワークは、本来「ボーダーのズボンの人物」を探すべきところ、上記の上位5枚の画像の中には「ボーダーのTシャツの人物」や「ボーダーのワンピースの人物」が含まれている。これは、比較元の切出済画像(図10の「この人物を探せ」に示す画像)に、人物の下半身しか映っておらず、ディープニューラルネットワークにおいて画像上の領域と部位の紐づけに失敗したためと考えられる。
 一方で、本実施形態の学習装置10により学習したディープニューラルネットワークは、切出済画像の中から探した上記の上位5枚の画像の中に「ボーダーのズボンの人物」のみが含まれており、「ボーダーのTシャツの人物」や「ボーダーのワンピースの人物」が含まれていない。このことから本実施形態の学習装置10により学習したディープニューラルネットワークは、不完全な切出済画像であっても精度よく検索できることが示された。
 つまり、従来技術では、ディープニューラルネットワークの特徴量抽出モジュールにおいて各local branchがどのサブオブジェクトを担当すべきかを事前に決めていなかった。そのため、各local branchがどのサブオブジェクトを担当すべきかは、後続の分析モジュールからの間接的な反省に頼らざるを得なかった。その結果、各local branchが、不完全な切出済画像でも精度よく特徴量を抽出できるよう学習を積むためは、学習用データを多数用意したり、長時間の学習時間を用意したりする必要があった。
 一方、本実施形態の学習装置10は、特徴量抽出モジュールにおける各local branchがどのサブオブジェクトを担当すべきかを事前に決めておく。これにより、学習装置10は、前記した各local branchの間接的な反省に加え、直接的な反省も行えるようになる。その結果、現実的に確保できる量の学習用データや学習時間により、特徴量抽出モジュールの各local branchが、不完全な切出済画像でも精度よく特徴量を抽出できるよう学習することができる。
[プログラム]
 また、上記の実施形態で述べた学習装置10の機能を実現するプログラムを所望の情報処理装置(コンピュータ)にインストールすることによって実装できる。例えば、パッケージソフトウェアやオンラインソフトウェアとして提供される上記のプログラムを情報処理装置に実行させることにより、情報処理装置を学習装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型またはノート型のパーソナルコンピュータ、ラック搭載型のサーバコンピュータ等が含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistants)等がその範疇に含まれる。また、学習装置10を、クラウドサーバに実装してもよい。
 図11を用いて、上記のプログラム(学習プログラム)を実行するコンピュータの一例を説明する。図11に示すように、コンピュータ1000は、例えば、メモリ1010と、CPU1020と、ハードディスクドライブインタフェース1030と、ディスクドライブインタフェース1040と、シリアルポートインタフェース1050と、ビデオアダプタ1060と、ネットワークインタフェース1070とを有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011およびRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。ディスクドライブ1100には、例えば、磁気ディスクや光ディスク等の着脱可能な記憶媒体が挿入される。シリアルポートインタフェース1050には、例えば、マウス1110およびキーボード1120が接続される。ビデオアダプタ1060には、例えば、ディスプレイ1130が接続される。
 ここで、図11に示すように、ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093およびプログラムデータ1094を記憶する。前記した実施形態で説明した各種データや情報は、例えばハードディスクドライブ1090やメモリ1010に記憶される。
 そして、CPU1020が、ハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して、上述した各手順を実行する。
 なお、上記の学習プログラムに係るプログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限られず、例えば、着脱可能な記憶媒体に記憶されて、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、上記のプログラムに係るプログラムモジュール1093やプログラムデータ1094は、LANやWAN(Wide Area Network)等のネットワークを介して接続された他のコンピュータに記憶され、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 学習装置
11 入出力部
13 制御部
12 記憶部
131 サブオブジェクト割当部
132 学習部

Claims (6)

  1.  学習装置により実行される学習方法であって、
     学習対象のディープニューラルネットワークにおいて画像内のオブジェクトの特徴量を抽出するモジュールごとに、前記モジュールが、前記画像のオブジェクトを構成するサブオブジェクト群のうち、どのサブオブジェクトの特徴量を抽出するかを割り当てるステップと、
     画像ごとに当該画像におけるサブオブジェクトの領域を示す情報を用いて、前記モジュールそれぞれが当該モジュールに割り当てられたサブオブジェクトの領域を精度よくピックアップできるよう、前記モジュールそれぞれの学習を行う第1の学習と、前記モジュールそれぞれによりピックアップされたサブオブジェクトの特徴量を用いた画像分析の結果を用いて、前記画像分析の分析精度をより向上させるよう、前記モジュールそれぞれの学習を行う第2の学習とを実行するステップと、
     を含むことを特徴とする学習方法。
  2.  前記第1の学習に用いられる画像は、
     前記オブジェクトの一部しか映っていない画像を含む
     ことを特徴とする請求項1に記載の学習方法。
  3.  前記第1の学習に用いられる画像におけるサブオブジェクトの領域を示す情報は、
     前記サブオブジェクトの領域が、前記画像を矩形に分割した領域のうち、どの領域に属するかを示す情報である
     ことを特徴とする請求項1に記載の学習方法。
  4.  前記第1の学習に用いられる画像におけるサブオブジェクトの領域を示す情報は、
     前記画像における前記サブオブジェクトの座標情報である
     ことを特徴とする請求項1に記載の学習方法。
  5.  学習対象のディープニューラルネットワークにおいて画像内のオブジェクトの特徴量を抽出するモジュールごとに、前記モジュールが、前記画像のオブジェクトを構成するサブオブジェクト群のうち、どのサブオブジェクトの特徴量を抽出するかを割り当てるステップと、
     画像ごとに当該画像におけるサブオブジェクトの領域を示す情報を用いて、前記モジュールそれぞれが当該モジュールに割り当てられたサブオブジェクトの領域を精度よくピックアップできるよう、前記モジュールそれぞれの学習を行う第1の学習と、前記モジュールそれぞれによりピックアップされたサブオブジェクトの特徴量を用いた画像分析の結果を用いて、前記画像分析の分析精度をより向上させるよう、前記モジュールそれぞれの学習を行う第2の学習とを実行するステップと、
     をコンピュータに実行させることを特徴とする学習プログラム。
  6.  学習対象のディープニューラルネットワークにおいて画像内のオブジェクトの特徴量を抽出するモジュールごとに、前記モジュールが、前記画像のオブジェクトを構成するサブオブジェクト群のうち、どのサブオブジェクトの特徴量を抽出するかを割り当てるサブオブジェクト割当部と、
     画像ごとに当該画像におけるサブオブジェクトの領域を示す情報を用いて、前記モジュールそれぞれが当該モジュールに割り当てられたサブオブジェクトの領域を精度よくピックアップできるよう、前記モジュールそれぞれの学習を行う第1の学習と、前記モジュールそれぞれによりピックアップされたサブオブジェクトの特徴量を用いた画像分析の結果を用いて、前記画像分析の分析精度をより向上させるよう、前記モジュールそれぞれの学習を行う第2の学習とを実行する学習部と、
     を備えることを特徴とする学習装置。
PCT/JP2019/018980 2019-05-13 2019-05-13 学習方法、学習プログラム、および、学習装置 WO2020230244A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/608,154 US20220222928A1 (en) 2019-05-13 2019-05-13 Learning method, learning program, and learning device
JP2021519081A JP7173309B2 (ja) 2019-05-13 2019-05-13 学習方法、学習プログラム、および、学習装置
PCT/JP2019/018980 WO2020230244A1 (ja) 2019-05-13 2019-05-13 学習方法、学習プログラム、および、学習装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/018980 WO2020230244A1 (ja) 2019-05-13 2019-05-13 学習方法、学習プログラム、および、学習装置

Publications (1)

Publication Number Publication Date
WO2020230244A1 true WO2020230244A1 (ja) 2020-11-19

Family

ID=73288965

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/018980 WO2020230244A1 (ja) 2019-05-13 2019-05-13 学習方法、学習プログラム、および、学習装置

Country Status (3)

Country Link
US (1) US20220222928A1 (ja)
JP (1) JP7173309B2 (ja)
WO (1) WO2020230244A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113021355A (zh) * 2021-03-31 2021-06-25 重庆正格技术创新服务有限公司 一种用于预测遮挡农作物摘取点的农业机器人作业方法
WO2022172817A1 (ja) * 2021-02-10 2022-08-18 富士フイルム株式会社 学習装置、学習方法、学習済みモデル、及びプログラム
WO2023228230A1 (ja) * 2022-05-23 2023-11-30 日本電気株式会社 分類装置、学習装置、分類方法、学習方法、およびプログラム

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116052220B (zh) * 2023-02-07 2023-11-24 北京多维视通技术有限公司 行人重识别方法、装置、设备及介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180122098A1 (en) * 2016-06-16 2018-05-03 Beijing Sensetime Technology Development Co., Ltd Posture Estimation Method and Apparatus, and Computer System
CN108229492A (zh) * 2017-03-29 2018-06-29 北京市商汤科技开发有限公司 提取特征的方法、装置及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180122098A1 (en) * 2016-06-16 2018-05-03 Beijing Sensetime Technology Development Co., Ltd Posture Estimation Method and Apparatus, and Computer System
CN108229492A (zh) * 2017-03-29 2018-06-29 北京市商汤科技开发有限公司 提取特征的方法、装置及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LI WEI, ZHU XIATIAN, GONG SHAOGANG: "Harmonious attention network for person re-identification", CVPR2018, 22 February 2018 (2018-02-22), pages 1 - 10, XP055723809, Retrieved from the Internet <URL:https://arxiv.org/pdf/1802.08122.pdf> [retrieved on 20190730] *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022172817A1 (ja) * 2021-02-10 2022-08-18 富士フイルム株式会社 学習装置、学習方法、学習済みモデル、及びプログラム
CN113021355A (zh) * 2021-03-31 2021-06-25 重庆正格技术创新服务有限公司 一种用于预测遮挡农作物摘取点的农业机器人作业方法
WO2023228230A1 (ja) * 2022-05-23 2023-11-30 日本電気株式会社 分類装置、学習装置、分類方法、学習方法、およびプログラム

Also Published As

Publication number Publication date
US20220222928A1 (en) 2022-07-14
JPWO2020230244A1 (ja) 2020-11-19
JP7173309B2 (ja) 2022-11-16

Similar Documents

Publication Publication Date Title
US11869194B2 (en) Image processing method and apparatus, computer-readable storage medium
WO2020230244A1 (ja) 学習方法、学習プログラム、および、学習装置
US10936911B2 (en) Logo detection
CN109344701B (zh) 一种基于Kinect的动态手势识别方法
WO2021036059A1 (zh) 图像转换模型训练方法、异质人脸识别方法、装置及设备
CN110473232B (zh) 图像识别方法、装置、存储介质及电子设备
JP7386545B2 (ja) 画像中の物体を識別するための方法、及び当該方法を実施するためのモバイル装置
US11663502B2 (en) Information processing apparatus and rule generation method
US8948500B2 (en) Method of automatically training a classifier hierarchy by dynamic grouping the training samples
CN110084299B (zh) 基于多头融合注意力的目标检测方法和装置
US10679041B2 (en) Hybrid deep learning method for recognizing facial expressions
CN110222686B (zh) 物体检测方法、装置、计算机设备和存储介质
US11030495B2 (en) Systems and methods for instance segmentation
Oloyede et al. Improving face recognition systems using a new image enhancement technique, hybrid features and the convolutional neural network
KR20200108609A (ko) 머신러닝 학습 데이터 증강장치 및 증강방법
JP2007072620A (ja) 画像認識装置及びその方法
JP2014164656A (ja) 画像処理方法およびプログラム
Rahim et al. Hand gesture recognition based on optimal segmentation in human-computer interaction
CN112633297A (zh) 目标对象的识别方法、装置、存储介质以及电子装置
CN108345835B (zh) 一种基于仿复眼感知的目标识别方法
CN109493279B (zh) 一种大规模无人机图像并行拼接方法
CN111444876A (zh) 一种图文处理方法、系统以及计算机可读存储介质
CN114241202A (zh) 着装分类模型的训练方法及装置、着装分类方法及装置
Shukla et al. Deep Learning Model to Identify Hide Images using CNN Algorithm
JP7481171B2 (ja) 画像処理装置、画像処理方法及び画像処理プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19928531

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021519081

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19928531

Country of ref document: EP

Kind code of ref document: A1