WO2020255227A1 - 学習装置、検索装置、学習方法、検索方法、学習プログラム、及び検索プログラム - Google Patents

学習装置、検索装置、学習方法、検索方法、学習プログラム、及び検索プログラム Download PDF

Info

Publication number
WO2020255227A1
WO2020255227A1 PCT/JP2019/023976 JP2019023976W WO2020255227A1 WO 2020255227 A1 WO2020255227 A1 WO 2020255227A1 JP 2019023976 W JP2019023976 W JP 2019023976W WO 2020255227 A1 WO2020255227 A1 WO 2020255227A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
similarity
reference image
feature
similar
Prior art date
Application number
PCT/JP2019/023976
Other languages
English (en)
French (fr)
Inventor
之人 渡邉
崇之 梅田
島村 潤
淳 嵯峨田
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2021528077A priority Critical patent/JP7192990B2/ja
Priority to US17/619,239 priority patent/US11790635B2/en
Priority to PCT/JP2019/023976 priority patent/WO2020255227A1/ja
Publication of WO2020255227A1 publication Critical patent/WO2020255227A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/778Active pattern-learning, e.g. online learning of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Definitions

  • the disclosed technology relates to a learning device, a search device, a learning method, a search method, a learning program, and a search program.
  • Patent Document 1 Conventionally, various techniques for recognizing an object in an image have been disclosed, but a typical procedure based on an image search is outlined in accordance with Patent Document 1.
  • As the local feature amount Scale Invariant Feature Transfer Transfer (SIFT) described in Non-Patent Document 1 is often used.
  • SIFT Scale Invariant Feature Transfer Transfer Transfer
  • the feature vector is compared for the partial regions included in the two images that are different from each other, and the identity is determined. If the number of the same objects is large, the two images are similar and likely to contain the same object, and if they are small, it is low.
  • SIFT Scale Invariant Feature Transfer Transfer Transfer
  • the feature vector is compared for the partial regions included in the two images that are different from each other, and the identity is determined. If
  • Non-Patent Document 2 discloses a method using a convolutional neural network (CNN: Convolutional Neural Network).
  • CNN convolutional neural network
  • a feature vector is extracted from the image using CNN.
  • the search is performed by calculating the cosine similarity as the similarity between the feature vectors included in the two images that are different from each other.
  • CNN training is performed using a set of three training data consisting of a reference image, an image similar to the reference image, and an image not similar to the reference image.
  • the loss function 1/2 ⁇ max (0, dp-dn + m) obtained from the distance dp between the feature vectors of similar images and the distance dn between the feature vectors of dissimilar images becomes small.
  • m is a fixed value parameter representing a margin which is the difference in distance.
  • a method of performing a search by integrating the search results of the above-mentioned multiple search methods is generally known.
  • the similarity x calculated by using the local features and the similarity y calculated by using CNN are combined with the weighted linear sum ax + by of both similarity. It integrates to calculate the final similarity and outputs the search results according to the final similarity.
  • the effect of improving accuracy by integrating a plurality of complementary search methods is widely known.
  • Non-Patent Document 2 the method using CNN described in Non-Patent Document 2 is premised on searching by CNN alone, and does not consider integration with other search methods such as Patent Document 1. Therefore, even if a plurality of search methods including a search by CNN are integrated, if the object images that each search method is not good at match, different objects are searched, and there is a problem that the search accuracy is lowered.
  • the disclosed technology has been developed in view of the above circumstances, and is a search device, a search method, and a search method capable of accurately searching for an object included in an image by complementarily integrating a plurality of image search methods.
  • the purpose is to provide a search program.
  • Another object of the present invention is to provide a learning device, a learning method, and a learning program capable of learning a neural network for accurately searching for an object contained in an image by integrating a plurality of image search methods in a complementary manner. And.
  • the first aspect of the present disclosure is a search device, in which a feature quantity vector extracted from the query image by a feature extraction process that outputs a feature quantity vector learned in advance by inputting a query image to be searched and
  • the first search unit that calculates the first similarity, which is the similarity between the feature vectors of the feature amount vectors extracted from each of the reference images labeled by the feature extraction process, and the query image.
  • a second search unit that calculates a second similarity, which is a similarity using the information about the feature, based on information about a feature different from the feature amount vector and information about the feature of each of the reference images.
  • the first includes an integrated unit that calculates an integrated similarity that integrates the first similarity calculated by the first search unit and the second similarity calculated by the second search unit.
  • the feature extraction process of the search unit determines the degree of similarity between the reference image in each of the reference images, the similar image similar to the reference image, and the dissimilar image not similar to the reference image. The greater the second similarity between the reference image and the dissimilar image with respect to the second similarity with the similar image, the second similarity between the reference image and the similar image and the dissimilarity between the reference image and the dissimilar image. At least it is trained so that the margin based on the second similarity with the similar image becomes large.
  • a second aspect of the present disclosure is a learning device that uses information about features that are different from the feature vector for each of the labeled reference images, and information about the features for combinations between the reference images.
  • a second search unit that calculates the second similarity, which is the similarity using the above, a reference image used as a reference for the label among the reference images, the reference image similar to the reference image as a similar image, and the above.
  • a feature vector of the reference image and a feature vector of the similar image output from a neural network that outputs a feature vector by using the reference image that does not resemble the reference image as a dissimilar image and inputting a predetermined image.
  • the second similarity between the reference image and the dissimilar image with respect to the second similarity between the reference image and the similar image using a loss function that includes a margin based on the second similarity with the image. Includes a parameter update unit that updates the parameters of the neural network so that the larger the value, the larger the margin.
  • a third aspect of the present disclosure is a search method, in which a feature amount vector extracted from the query image by a feature extraction process that outputs a feature amount vector learned in advance by inputting a query image to be searched is used.
  • the first similarity which is the similarity between the feature vectors with the feature vectors extracted from each of the reference images labeled by the feature extraction process, is calculated, and the feature vector of the query image is Based on the information about the different features and the information about the features of each of the reference images, the second similarity, which is the similarity using the information about the features, is calculated, and the calculated first similarity and the first similarity are calculated.
  • the integrated similarity calculated by integrating the calculated second similarity is calculated, and the feature extraction process performs the reference image in each of the reference images, a similar image similar to the reference image, and the reference image.
  • the degree of similarity between dissimilar images that are not similar to the above the greater the second degree of similarity between the reference image and the dissimilar image with respect to the second degree of similarity between the reference image and the similar image, the more the said.
  • the computer executes a process including at least learning so that the margin based on the second similarity between the reference image and the similar image and the second similarity between the reference image and the dissimilar image becomes large. It is characterized by doing.
  • a fourth aspect of the present disclosure is a learning method, in which information about the features is used for combinations between the reference images using information about features that are different from the feature quantity vectors for each of the labeled reference images.
  • the second similarity which is the similarity using the above, is calculated, and among the reference images, the reference image used as the reference for the label, the reference image similar to the reference image is similar to the similar image, and the reference image is not similar to the reference image.
  • the first similarity between the feature amount vector of the reference image and the feature amount vector of the similar image which is output from the neural network that outputs the feature amount vector with the reference image as a dissimilar image and a predetermined image as input, and The first similarity between the feature amount vector of the reference image and the feature amount vector of the dissimilar image, the second similarity between the reference image and the similar image, and the second degree of the reference image and the dissimilar image.
  • a loss function including a margin based on the similarity the larger the second similarity between the reference image and the dissimilar image, the greater the margin with respect to the second similarity between the reference image and the similar image. It is characterized in that the computer executes a process including updating the parameters of the neural network so that
  • the fifth aspect of the present disclosure is a search program, which causes a computer to execute the same processing as the search method of the third aspect.
  • the sixth aspect of the present disclosure is a learning program, in which a computer is made to execute the same processing as the learning method of the fourth aspect.
  • search device search method, and search program of the disclosed technology, it is possible to obtain an effect that an object included in an image can be searched accurately by integrating a plurality of image search methods in a complementary manner.
  • the learning device, learning method, and learning program of the disclosed technology it is possible to learn a neural network for accurately searching for an object contained in an image by complementarily integrating a plurality of image search methods. , The effect can be obtained.
  • FIG. 1 is a block diagram showing a configuration of the learning device of the present embodiment.
  • the learning device 1 includes a second search unit 11, a parameter update unit 12, and a storage unit 13.
  • the second search unit 11 corresponds to the second search unit of the first search unit and the second search unit of the search device described later, and uses information about features different from the feature amount vector to have a second similarity degree. Perform the calculation process.
  • the learning device 1 is connected to the database 2 via a communication means to communicate information with each other.
  • the database 2 can be configured by, for example, a file system implemented in a general general-purpose computer.
  • the reference image of the image set 3 and various data related to the reference image are stored in advance in the database 2.
  • an identifier such as an ID (Identification) by a serial number or a unique image file name that can uniquely identify each reference image of the image set 3 is given.
  • the database 2 stores the identifier of the reference image and the image data of the reference image in association with each reference image.
  • the database 2 may be similarly implemented and configured by an RDBMS (Relational Database Management System) or the like.
  • the information stored in the database 2 is other metadata such as information expressing the content of the reference image (title of the reference image, summary text, keywords, etc.), information on the format of the reference image (data amount of the reference image, etc.). The size of the thumbnail etc.) may be included.
  • the memory of this information is not essential for the implementation of this disclosure.
  • the database 2 may be provided inside or outside the learning device 1, and any known method is used as the communication means. In this embodiment, the database 2 is provided outside the learning device 1.
  • the database 2 is communicatively connected to the learning device 1 by using the Internet and a network such as TCP / IP (Transmission Control Protocol / Internet Protocol) as a communication means.
  • TCP / IP Transmission Control Protocol / Internet Protocol
  • the image set 3 is a reference image group to which a label representing a specific object included in the reference image is attached.
  • the label may be, for example, an integer, and the same integer may be assigned to the reference image having the same specific object. Further, it is assumed that the image set 3 is composed of at least two reference images to which each label is attached. In the following processing, each reference image of the image set 3 is read from the database 2.
  • FIG. 2 is a block diagram showing a hardware configuration of the learning device 1.
  • the learning device 1 includes a CPU (Central Processing Unit) 21, a ROM (Read Only Memory) 22, a RAM (Random Access Memory) 23, a storage 24, an input unit 25, a display unit 26, and a communication interface (communication interface (Read) Memory) 22. It has an I / F) 27. Each configuration is communicably connected to each other via a bus 29.
  • the CPU 21 is a central arithmetic processing unit that executes various programs and controls each part. That is, the CPU 21 reads the program from the ROM 22 or the storage 24, and executes the program using the RAM 23 as a work area. The CPU 21 controls each of the above configurations and performs various arithmetic processes according to the program stored in the ROM 22 or the storage 24. In the present embodiment, the learning program is stored in the ROM 22 or the storage 24.
  • the ROM 22 stores various programs and various data.
  • the RAM 23 temporarily stores a program or data as a work area.
  • the storage 24 is composed of an HDD (Hard Disk Drive) or an SSD (Solid State Drive), and stores various programs including an operating system and various data.
  • the input unit 25 includes a pointing device such as a mouse and a keyboard, and is used for performing various inputs.
  • the display unit 26 is, for example, a liquid crystal display and displays various types of information.
  • the display unit 26 may adopt a touch panel method and function as an input unit 25.
  • the communication interface 27 is an interface for communicating with other devices such as terminals, and standards such as Ethernet (registered trademark), FDDI, and Wi-Fi (registered trademark) are used.
  • Each functional configuration is realized by the CPU 21 reading the learning program stored in the ROM 22 or the storage 24, expanding it into the RAM 23, and executing it.
  • a CNN that outputs a feature amount vector by inputting a predetermined image and a CNN parameter are stored.
  • the CNN of the present embodiment is not limited as long as it outputs a fixed-dimensional feature vector by inputting an image, and any known structure may be used for the configuration of each layer. For example, a configuration in which the fully bonded layer is removed from VGG16, ResNet101, etc. described in Non-Patent Document 2 may be used. Further, an appropriate existing learning parameter or a part thereof may be used as an initial value of a CNN parameter.
  • the processing related to the CNN is read and updated for the CNN of the storage unit 13.
  • the second search unit 11 uses information about features different from the feature amount vector for each of the labeled reference images, and is a degree of similarity using the information about the features for the combination between the reference images. Calculate the similarity.
  • the features in the information about the features are different from the feature vector as explained below.
  • the second search unit 11 reads out each reference image of the image set 3 stored in the database 2, calculates the similarity between each reference image pair, and outputs it as the second similarity.
  • the degree of similarity can be obtained by any method. For example, even if a local feature amount such as SIFT described in Non-Patent Document 1 is calculated from each reference image of the image set 3, the similarity is calculated by matching the local feature amount described in Patent Document 1. Good. Further, when each reference image of the image set 3 has metadata, the similarity may be calculated using them. For example, the degree of relevance of the given keyword and the degree of similarity of the summary sentence can be used. These local features and the like are features different from the feature vector, and these are used as information about the features.
  • the parameter updater 12 uses the loss function to increase the margin of the second similarity between the reference image and the similar image so that the larger the second similarity between the reference image and the dissimilar image, the larger the margin.
  • Update the parameters each reference image is divided into a reference image, a similar image similar to the reference image, and a dissimilar image not similar to the reference image.
  • the reference image, the similar image, and the dissimilar image are discriminated from the label of the reference image, and the reference image having the same label as the reference image is regarded as the similar image, and the reference image having the same label is regarded as the dissimilar image.
  • a specific method of the second search unit 11 will be described.
  • a specific method of the parameter updating unit 12 will be described.
  • the parameter update unit 12 reads out each reference image, performs convolution using the parameters of the CNN as an input to the CNN, and extracts and acquires a feature amount vector having a fixed dimension. Then, the similarity of the feature vectors between the reference images is calculated as the first similarity.
  • the first similarity acquired here is the first similarity between the feature vector of the reference image and the feature vector of the similar image, and the first similarity between the feature vector of the reference image and the feature vector of the dissimilar image. Degree.
  • the loss function includes the first similarity between the feature vector of the reference image and the feature vector of the similar image, the first similarity between the feature vector of the reference image and the feature vector of the dissimilar image, and the margin. ..
  • the margin is a margin based on the second similarity between the reference image and the similar image and the second similarity between the reference image and the dissimilar image, which is represented by the formula (2) described later.
  • any function including the margin m may be used.
  • the case where the Triplet Loss described in Non-Patent Document 2 represented by the formula (1) is used will be described. ... (1)
  • d p is the distance between the feature vector of the reference image and the feature vector of a similar image similar to the reference image
  • d n is the feature vector of the reference image and the feature vector of a dissimilar image dissimilar to the reference image. Is the distance.
  • an arbitrary scale for measuring the distance between feature vector such as L1 distance and L2 distance may be used.
  • m represents a margin which is a difference in distance, and in this embodiment, it is calculated by, for example, the following equation (2). ... (2)
  • s p is the second degree of similarity between the reference image and the similar image
  • s n is a second degree of similarity between the reference image and the non-similar image
  • m 0 is a reference margin that serves as a reference for the margin, and may be, for example, 0.1
  • the parameter update unit 12 optimizes the CNN parameters by using the loss function of the equation (1) using the margin m obtained by the equation (2) for each triplet of the reference image, the similar image, and the dissimilar image. To become. This makes it possible to increase the margin when the second similarity between the reference image and the dissimilar image is high, and to decrease the margin when the second similarity is low, and the CNN parameter is complementary to the second similarity. Can be updated.
  • the above margin may be averaged and used for each label given to the reference image. good. In this case, it is possible to learn robustly for outliers of the second similarity.
  • the learning may be performed using only the pair having a large second similarity between the reference image and the dissimilar image.
  • the third Learning may be performed by a loss function using only a pair.
  • the parameter update unit 12 learns the CNN parameters by back-propagating to the CNN parameters so as to optimize the above loss function, and stores the updated parameters in the storage unit 13.
  • the search device calculates the degree of similarity with the reference image using the query image to be searched as a search key.
  • FIG. 3 is a block diagram showing the configuration of the search device of the present embodiment.
  • the search device 101 includes a first search unit 110, a second search unit 111, an integration unit 112, and a storage unit 113.
  • the search device 101 is connected to the database 102 via a communication means to communicate information with each other.
  • the database 102 has the same configuration as the database 2 and stores an image set 104 which is a labeled reference image. Further, it is not always necessary to use the image of the image set 104 as the reference image, and an image to be a reference image may be stored separately.
  • the storage unit 113 stores the parameters of the CNN learned by the learning device 1 described above.
  • the CNN used in the search device 101 of the present embodiment is the CNN described for the learning device 1 described above.
  • the CNN is a trained neural network used in the first search unit 110 and learned to be complementary to the second similarity calculated by the second search unit 111 by learning the parameters.
  • the feature extraction process that outputs the feature amount vector, which has been learned in advance, is a CNN parameter that outputs the feature amount vector by inputting a predetermined image.
  • the search device 101 can also be configured with the same hardware configuration as the learning device 1. As shown in FIG. 2, the search device 101 includes a CPU 31, a ROM 32, a RAM 33, a storage 34, an input unit 35, a display unit 36, and a communication I / F 37. Each configuration is communicably connected to each other via a bus 39. A search program is stored in the ROM 32 or the storage 34.
  • the first search unit 110 takes the query image 103 to be searched as an input, and calculates the first similarity between the feature amount vector extracted from the query image 103 and the feature amount vector extracted from each of the reference images. ..
  • the first similarity is the similarity between the feature vectors as in the learning device 1.
  • the feature vector is extracted by pre-learned CNN processing.
  • the CNN process is an example of a pre-learned feature extraction process.
  • the processing of CNN used in the first search unit 110 is the similarity between the reference image, the similar image, and the dissimilar image, and the reference image and the dissimilar image with respect to the second similarity between the reference image and the similar image. It is learned that the larger the second similarity with and, the larger the margin. Further, as described above, the CNN process may be learned by narrowing down the sets using the threshold value. The calculation mode of the first similarity will be described below.
  • the first search unit 110 Upon receiving each reference image of the image set 104 stored in the database 102 and the query image 103, the first search unit 110 extracts a feature quantity vector using the CNN parameters stored in the storage unit 113. .. The feature amount vector is extracted by using the same method as the feature amount vector extraction in the parameter update unit 12 described for the learning device 1 described above. Then, the first search unit 110 calculates the similarity between the feature amount vector of the query image 103 and the feature amount vector of each reference image of the image set 104, and outputs it as the first similarity degree. The similarity may be calculated by using an arbitrary scale for calculating the similarity between the feature vectors. For example, cosine similarity is used. Further, as the feature amount vector of each reference image, the feature amount vector of each reference image of the image set 104 stored in the database 102 may be extracted in advance, stored in the database 102, and used.
  • the second search unit 111 calculates the second similarity based on the information about the features of the query image 103 and the information about each feature of the reference image.
  • the information about the feature is the similarity using the information about the feature different from the feature amount vector. For example, as the information about the feature, the local feature amount such as SIFT described above is used. The calculation mode of the second similarity will be described below.
  • the second search unit 111 calculates the degree of similarity between the query image 103 and each image of the image set 104 based on the reception of the reference image of the image set 104 stored in the database 102 and the query image 103. Output as the second similarity.
  • a local feature amount such as SIFT is used as in the similarity in the second search unit 11 described for the learning device 1 described above.
  • the local feature amount of each reference image of the image set 104 stored in the database 102 is extracted in advance, stored in the database 102, and stored in the database 102. You may use it.
  • the integration unit 112 calculates the integrated similarity calculated by integrating the first similarity calculated by the first search unit 110 and the second similarity calculated by the second search unit 111, and outputs the integrated similarity as the search result 105. .. Specifically, the similarity in which the first similarity x and the second similarity y are integrated by the weighted linear sum ax + by of both similarity is defined as the integrated similarity.
  • the integrated similarity may be calculated for each of the query image 103 and the reference image, and the reference image having the integrated similarity equal to or greater than the threshold value may be used as the search result 105.
  • the integration of similarity can be replaced by any method. For example, the similarity may be integrated by binding with SVM or Rank-SVM.
  • the integrated similarity and the information associated with the corresponding reference image are output as the search result 105.
  • FIG. 4 is a flowchart showing the flow of learning processing by the learning device 1.
  • the learning process is performed by the CPU 21 reading the learning program from the ROM 22 or the storage 24, expanding it into the RAM 23, and executing the program.
  • step S100 the CPU 21 calculates the second similarity, which is the similarity using the information about the features, for the combination between the reference images, using the information about the features for each of the labeled reference images.
  • the feature in the information about the feature is a feature different from the feature vector, and for example, a local feature such as SFIT is used.
  • step S102 the CPU 21 uses the loss function so that the larger the second similarity between the reference image and the dissimilar image, the larger the margin with respect to the second similarity between the reference image and the similar image.
  • the loss function includes the first similarity between the feature vector of the reference image and the feature vector of the similar image, the first similarity between the feature vector of the reference image and the feature vector of the dissimilar image, and the margin. ..
  • the margin is a margin based on the second similarity between the reference image and the similar image and the second similarity between the reference image and the dissimilar image.
  • the learning device 1 of the present embodiment it is possible to learn a neural network for accurately searching for an object included in an image by complementarily integrating a plurality of image search methods.
  • FIG. 5 is a flowchart showing the flow of learning processing by the search device 101.
  • the learning process is performed by the CPU 31 reading the learning program from the ROM 32 or the storage 34, expanding it into the RAM 33, and executing the program.
  • step S200 the CPU 31 takes the query image 103 to be searched as an input, and calculates the first similarity between the feature amount vector extracted from the query image 103 and the feature amount vector extracted from each of the reference images. ..
  • the feature vector is extracted by pre-learned CNN processing.
  • the CNN process used here is the second degree of similarity between the reference image, the similar image, and the dissimilar image, the second degree of similarity between the reference image and the similar image, and the second degree between the reference image and the dissimilar image. It is learned that the larger the similarity, the larger the margin.
  • step S202 the CPU 31 calculates the second similarity based on the information about the features of the query image 103 and the information about each feature of the reference image.
  • the feature in the information about the feature is a feature different from the feature vector, and for example, a local feature such as SIFT is used.
  • step S204 the CPU 31 calculates the integrated similarity calculated by integrating the first similarity calculated in step S200 and the second similarity calculated in step S202, and outputs the integrated similarity as the search result 105.
  • the search device 101 of the present embodiment it is possible to accurately search for an object included in an image by complementarily integrating a plurality of image search methods.
  • processors other than the CPU may execute the learning process or the search process executed by the CPU reading the software (program) in each of the above embodiments.
  • the processors include PLD (Programmable Logic Device) whose circuit configuration can be changed after manufacturing FPGA (Field-Programmable Gate Array), and ASIC (Application Specific Integrated Circuit) for executing ASIC (Application Special Integrated Circuit).
  • PLD Programmable Logic Device
  • FPGA Field-Programmable Gate Array
  • ASIC Application Specific Integrated Circuit
  • An example is a dedicated electric circuit or the like, which is a processor having a circuit configuration designed exclusively for the purpose.
  • the learning process or the search process may be executed by one of these various processors, or a combination of two or more processors of the same type or different types (for example, a plurality of FPGAs, and a CPU and an FPGA). It may be executed by the combination of).
  • the hardware structure of these various processors is, more specifically, an electric circuit in which circuit elements such as semiconductor elements are combined.
  • the program is a non-temporary storage medium such as a CD-ROM (Compact Disk Read Only Memory), a DVD-ROM (Digital entirely Disk Online Memory), and a USB (Universal Serial Bus) memory. It may be provided in the form. Further, the program may be downloaded from an external device via a network. The same applies to the search program.
  • the feature extraction process is performed on the reference image and the similar image with respect to the degree of similarity between the reference image in each of the reference images, the similar image similar to the reference image, and the dissimilar image not similar to the reference image.
  • the feature extraction process is performed on the reference image and the similar image with respect to the degree of similarity between the reference image in each of the reference images, the similar image similar to the reference image, and the dissimilar image not similar to the reference image.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

検索装置は、第一検索部と、第二検索部と、第一検索部によって計算された第一類似度と、第二検索部によって計算された第二類似度とを統合した統合類似度を計算する統合部を含む。第一検索部の特徴抽出処理は、参照画像の各々における基準画像と、基準画像に類似する類似画像と、基準画像に類似しない非類似画像との間の類似度について、基準画像と類似画像との第二類似度に対する、基準画像と非類似画像との第二類似度が大きくなるほど、基準画像と類似画像との第二類似度及び基準画像と非類似画像との第二類似度に基づくマージンが大きくなるように、少なくとも学習されている。

Description

学習装置、検索装置、学習方法、検索方法、学習プログラム、及び検索プログラム
 開示の技術は、学習装置、検索装置、学習方法、検索方法、学習プログラム、及び検索プログラムに関する。
 スマートフォン等の小型撮像デバイスの普及に伴い、様々な場所及び環境で任意の対象を撮影したような画像中に写る物体を認識する技術への要望が高まってきている。
 従来、画像中の物体を認識する種々の技術が開示されているが、画像の検索に基づく典型的な手続きを特許文献1に従って概説する。まず、画像から特徴的な部分領域を多数検出し、各部分領域の特徴を実数値又は整数値からなる特徴量ベクトルとして表現する。この特徴量ベクトルは、一般には、「局所特徴量」と呼ばれる。局所特徴量としては、非特許文献1に記載のScale Invariant Feature Transform (SIFT)が用いられることが多い。次に、互いに異なる二つの画像に含まれる部分領域について特徴量ベクトルを比較し、同一性を判定する。同一な物の数が多ければ、この二枚の画像は類似しており同一の物体を含む可能性が高く、小さければ低いと言える。認識したい物体を含む画像を参照画像として参照画像データベースを構築し、新たに入力された画像をクエリ画像として同一の物体が写っている参照画像を検索することにより、クエリ画像中に存在する物体を特定することができる。
 他にも、非特許文献2には、畳み込みニューラルネットワーク(CNN:Convolutional Neural Network)を用いる方法が開示されている。画像からCNNを用いて特徴量ベクトルを抽出する。次に、互いに異なる二つの画像に含まれる特徴量ベクトル同士の類似度としてコサイン類似度などを計算することで検索を行う。基準画像、基準画像と類似する画像、及び、基準画像と類似しない画像からなる3つ組の学習データを用いてCNNの学習を行う。CNNの学習は、類似する画像の特徴量ベクトル間の距離dpと、類似しない画像の特徴量ベクトル間の距離dnとから求める損失関数1/2×max(0,dp-dn+m)が小さくなるように行う。mは距離の差であるマージンを表す固定値のパラメータである。
 また、前述の複数の検索方法による検索結果を統合することにより検索を行う方法が一般的に知られている。例えば、クエリ画像と参照画像との間の類似度において、局所特徴量を用いて算出した類似度xと、CNNを用いて算出した類似度yを、双方の類似度の重み付き線形和ax+byで統合して最終的な類似度を算出し、最終的な類似度に応じた検索結果を出力する。相補的となる複数の検索方法を統合することによる精度向上効果が広く知られている。
D.G.Lowe. Distinctive Image Features from Scale-Invariant Keypoints, International Journal of Computer Vision, pp.91-110, 2004. A. Gordo, J. Almazan, J. Revaud, and D. Larlus. End-to-endlearning of deep visual representations for image retrieval, IJCV,pp.1-18, 2017.
特開2017-16501号公報
 しかしながら、非特許文献2に記載されるCNNを用いる方法は、CNN単体での検索を前提としたものであり、特許文献1などの他の検索方法との統合を考慮していない。そのため、CNNによる検索を含む複数の検索方法を統合しても、各検索方法が不得手とする物体画像が一致した場合、異なる物体が検索されてしまい、検索精度が低下するという課題がある。
 開示の技術は、上記事情を鑑みて成されたものであり、複数の画像検索方法を相補的に統合することで画像に含まれる物体を精度よく検索することができる検索装置、検索方法、及び検索プログラムを提供することを目的とする。
 また、複数の画像検索方法を相補的に統合することで画像に含まれる物体を精度よく検索するためのニューラルネットワークを学習することができる学習装置、学習方法、及び学習プログラムを提供することを目的とする。
 本開示の第1態様は、検索装置であって、検索対象のクエリ画像を入力として、予め学習された、特徴量ベクトルを出力する特徴抽出処理によって前記クエリ画像から抽出される特徴量ベクトルと、前記特徴抽出処理によってラベルが付与された参照画像の各々から抽出される特徴量ベクトルとの、特徴ベクトル間の類似度である第一類似度を計算する第一検索部と、前記クエリ画像の前記特徴量ベクトルとは異なる特徴に関する情報と、前記参照画像の各々の前記特徴に関する情報とに基づいて、前記特徴に関する情報を用いた類似度である第二類似度を計算する第二検索部と、前記第一検索部によって計算された前記第一類似度と、前記第二検索部によって計算された前記第二類似度とを統合した統合類似度を計算する統合部と、を含み、前記第一検索部の特徴抽出処理は、前記参照画像の各々における基準画像と、前記基準画像に類似する類似画像と、前記基準画像に類似しない非類似画像との間の類似度について、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンが大きくなるように、少なくとも学習されている。
 本開示の第2態様は、学習装置であって、ラベルが付与された参照画像の各々についての特徴量ベクトルとは異なる特徴に関する情報を用いて、前記参照画像間の組み合わせについて、前記特徴に関する情報を用いた類似度である第二類似度を計算する第二検索部と、前記参照画像のうち、前記ラベルの基準とする基準画像、前記基準画像に類似する前記参照画像を類似画像、及び前記基準画像に類似しない前記参照画像を非類似画像として、所定の画像を入力として特徴量ベクトルを出力するニューラルネットワークから出力される、前記基準画像の特徴量ベクトルと前記類似画像の特徴量ベクトルとの第一類似度及び前記基準画像の特徴量ベクトルと前記非類似画像の特徴量ベクトルとの第一類似度と、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンとを含む損失関数を用いて、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、マージンが大きくなるように、前記ニューラルネットワークのパラメータを更新するパラメータ更新部と、を含む。
 本開示の第3態様は、検索方法であって、検索対象のクエリ画像を入力として、予め学習された、特徴量ベクトルを出力する特徴抽出処理によって前記クエリ画像から抽出される特徴量ベクトルと、前記特徴抽出処理によってラベルが付与された参照画像の各々から抽出される特徴量ベクトルとの、特徴ベクトル間の類似度である第一類似度を計算し、前記クエリ画像の前記特徴量ベクトルとは異なる特徴に関する情報と、前記参照画像の各々の前記特徴に関する情報とに基づいて、前記特徴に関する情報を用いた類似度である第二類似度を計算し、前記計算された前記第一類似度と、前記計算された前記第二類似度とを統合した統合類似度を計算し、前記特徴抽出処理は、前記参照画像の各々における基準画像と、前記基準画像に類似する類似画像と、前記基準画像に類似しない非類似画像との間の類似度について、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンが大きくなるように、少なくとも学習されている、ことを含む処理をコンピュータが実行することを特徴とする。
 本開示の第4態様は、学習方法であって、ラベルが付与された参照画像の各々についての特徴量ベクトルとは異なる特徴に関する情報を用いて、前記参照画像間の組み合わせについて、前記特徴に関する情報を用いた類似度である第二類似度を計算し、前記参照画像のうち、前記ラベルの基準とする基準画像、前記基準画像に類似する前記参照画像を類似画像、及び前記基準画像に類似しない前記参照画像を非類似画像として、所定の画像を入力として特徴量ベクトルを出力するニューラルネットワークから出力される、前記基準画像の特徴量ベクトルと前記類似画像の特徴量ベクトルとの第一類似度及び前記基準画像の特徴量ベクトルと前記非類似画像の特徴量ベクトルとの第一類似度と、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンとを含む損失関数を用いて、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、マージンが大きくなるように、前記ニューラルネットワークのパラメータを更新する、ことを含む処理をコンピュータが実行することを特徴とする。
 本開示の第5態様は、検索プログラムであって、第3態様の検索方法と同様の処理をコンピュータに実行させる。
 本開示の第6態様は、学習プログラムであって、第4態様の学習方法と同様の処理をコンピュータに実行させる。
 開示の技術の検索装置、検索方法、及び検索プログラムによれば、複数の画像検索方法を相補的に統合することで画像に含まれる物体を精度よく検索することができる、という効果が得られる。
 開示の技術の学習装置、学習方法、及び学習プログラムによれば、複数の画像検索方法を相補的に統合することで画像に含まれる物体を精度よく検索するためのニューラルネットワークを学習することができる、という効果が得られる。
本実施形態の学習装置の構成を示すブロック図である。 学習装置及び検索装置のハードウェア構成を示すブロック図である。 本実施形態の検索装置の構成を示すブロック図である。 学習装置による学習処理の流れを示すフローチャートである。 検索装置による検索処理の流れを示すフローチャートである。
 以下、開示の技術の実施形態の一例を、図面を参照しつつ説明する。なお、各図面において同一又は等価な構成要素及び部分には同一の参照符号を付与している。また、図面の寸法比率は、説明の都合上誇張されており、実際の比率とは異なる場合がある。
 以下、本実施形態の構成及び作用について説明する。
<学習装置の構成>
 図1は、本実施形態の学習装置の構成を示すブロック図である。
 図1に示すように、学習装置1は、第二検索部11と、パラメータ更新部12と、記憶部13とを含んで構成されている。第二検索部11は、後述する検索装置の第一検索部及び第二検索部のうちの第二検索部に対応しており、特徴量ベクトルとは異なる特徴に関する情報を用いて第二類似度計算する処理を行う。
 学習装置1は、データベース2と通信手段を介して接続されて相互に情報通信する。データベース2は、例えば、一般的な汎用コンピュータに実装されているファイルシステムによって構成できる。本実施形態では、一例としてデータベース2には、画像集合3の参照画像、及び参照画像に関する各種データが予め格納されている。本実施形態では、画像集合3の各参照画像それぞれを一意に識別可能な、通し番号によるID(Identification)やユニークな画像ファイル名等の識別子が与えられている。また、データベース2は、各々の参照画像について、当該参照画像の識別子と、当該参照画像の画像データとを関連づけて記憶している。あるいは、データベース2は、同様に、RDBMS(Relational Database Management System)等で実装、構成されていても構わない。データベース2が記憶する情報は、その他、メタデータとして、例えば参照画像の内容を表現する情報(参照画像のタイトル、概要文、又はキーワード等)、参照画像のフォーマットに関する情報(参照画像のデータ量、サムネイル等のサイズ)等を含んでいても構わない。ただし、これらの情報の記憶は本開示の実施においては必須ではない。
 データベース2は、学習装置1の内部及び外部の何れに設けられていても構わず、通信手段は任意の公知の手法を用いる。なお、本実施形態では、データベース2は、学習装置1の外部に設けられている。データベース2は、インターネット、及びTCP/IP(Transmission Control Protocol/Internet Protocol)等のネットワークを通信手段として学習装置1と通信可能に接続されている。
 画像集合3は、参照画像に含まれる特定対象物を表すラベルが付与された参照画像群である。ラベルは、例えば、整数とし、参照画像に含まれる特定対象物が同一であるものは同じ整数を割り当てればよい。また、画像集合3は、各々のラベルが付与された参照画像が少なくとも2枚は含まれて構成されているものとする。以下の処理において、画像集合3の各参照画像はデータベース2から読み出される。
 次に、学習装置1のハードウェア構成を説明する。図2は、学習装置1のハードウェア構成を示すブロック図である。
 図2に示すように、学習装置1は、CPU(Central Processing Unit)21、ROM(Read Only Memory)22、RAM(Random Access Memory)23、ストレージ24、入力部25、表示部26及び通信インタフェース(I/F)27を有する。各構成は、バス29を介して相互に通信可能に接続されている。
 CPU21は、中央演算処理ユニットであり、各種プログラムを実行したり、各部を制御したりする。すなわち、CPU21は、ROM22又はストレージ24からプログラムを読み出し、RAM23を作業領域としてプログラムを実行する。CPU21は、ROM22又はストレージ24に記憶されているプログラムに従って、上記各構成の制御及び各種の演算処理を行う。本実施形態では、ROM22又はストレージ24には、学習プログラムが格納されている。
 ROM22は、各種プログラム及び各種データを格納する。RAM23は、作業領域として一時的にプログラム又はデータを記憶する。ストレージ24は、HDD(Hard Disk Drive)又はSSD(Solid State Drive)により構成され、オペレーティングシステムを含む各種プログラム、及び各種データを格納する。
 入力部25は、マウス等のポインティングデバイス、及びキーボードを含み、各種の入力を行うために使用される。
 表示部26は、例えば、液晶ディスプレイであり、各種の情報を表示する。表示部26は、タッチパネル方式を採用して、入力部25として機能してもよい。
 通信インタフェース27は、端末等の他の機器と通信するためのインタフェースであり、例えば、イーサネット(登録商標)、FDDI、Wi-Fi(登録商標)等の規格が用いられる。
 次に、学習装置1の各機能構成について説明する。各機能構成は、CPU21がROM22又はストレージ24に記憶された学習プログラムを読み出し、RAM23に展開して実行することにより実現される。
 記憶部13には、ニューラルネットワークとして、所定の画像を入力として特徴量ベクトルを出力するCNN、及びCNNのパラメータを格納しておく。本実施形態のCNNは、画像を入力として固定次元の特徴量ベクトルを出力するものであれば限定されず、各層の構成は任意の公知の物を用いてよい。例えば、非特許文献2に記載のVGG16、ResNet101などから全結合層を取り除いた構成を用いればよい。また、既存の適当な学習パラメータ、又はその一部を、CNNのパラメータの初期値として用いてもよい。以下、CNNに関する処理は記憶部13のCNNについて読み出し及び更新される。
 第二検索部11は、ラベルが付与された参照画像の各々についての特徴量ベクトルとは異なる特徴に関する情報を用いて、参照画像間の組み合わせについて、特徴に関する情報を用いた類似度である第二類似度を計算する。特徴に関する情報における特徴は、以下に説明するように特徴量ベクトルとは異なる特徴である。
 第二検索部11は、データベース2に記憶されている画像集合3の各参照画像を読み出して、各参照画像ペア間の類似度を算出して第二類似度として出力する。類似度としては、任意の手法で求めることができる。例えば、非特許文献1に記載されるSIFTのような局所特徴量を画像集合3の各参照画像から算出し、特許文献1に記載される局所特徴量のマッチングによる類似度の算出を行ってもよい。また、画像集合3の各参照画像がメタデータを持つ場合、それらを用いて類似度の算出を行ってもよい。例えば、付与されたキーワードの関連度や、概要文の類似度などを利用可能である。これらの局所特徴量などは、特徴量ベクトルとは異なる特徴であり、これらを特徴に関する情報として用いる。
 パラメータ更新部12は、損失関数を用いて、基準画像と類似画像との第二類似度に対する、基準画像と非類似画像との第二類似度が大きくなるほど、マージンが大きくなるように、CNNのパラメータを更新する。ここで、各参照画像は、基準画像、基準画像に類似する類似画像、及び基準画像に類似しない非類似画像は分けられる。基準画像、類似画像、及び非類似画像は、参照画像のラベルから判別され、基準画像と同一のラベルの参照画像を類似画像とし、同一でないラベルの参照画像を非類似画像とする。以下、第二検索部11の具体的な手法を説明する。以下、パラメータ更新部12の具体的な手法を説明する。
 パラメータ更新部12は、各参照画像を読み出してCNNへの入力として、CNNのパラメータを用いた畳み込みを行い、固定の次元を持つ特徴量ベクトルを抽出して獲得する。そして、参照画像間の特徴ベクトルの類似度を第一類似度として算出する。ここで獲得する第一類似度は、基準画像の特徴量ベクトルと類似画像の特徴量ベクトルとの第一類似度、及び基準画像の特徴量ベクトルと非類似画像の特徴量ベクトルとの第一類似度である。
 損失関数は、基準画像の特徴量ベクトルと類似画像の特徴量ベクトルとの第一類似度及び基準画像の特徴量ベクトルと非類似画像の特徴量ベクトルとの第一類似度と、マージンとを含む。マージンは、後述する式(2)で示される、基準画像と類似画像との第二類似度、及び基準画像と非類似画像との第二類似度に基づくマージンである。
 損失関数は、以下式(1)に示すように、マージンmを含む任意の関数を用いればよい。本実施形態においては、式(1)で表される非特許文献2に記載のTriplet Lossを用いる場合を説明する。
Figure JPOXMLDOC01-appb-M000001

                                   ・・・(1)
 dは基準画像の特徴量ベクトルと、基準画像と類似する類似画像の特徴量ベクトルとの距離、dは基準画像の特徴量ベクトルと、基準画像と類似しない非類似画像の特徴量ベクトルとの距離である。距離としては、L1距離、L2距離など特徴量ベクトル間の距離を測る任意の尺度を用いればよい。mは距離の差であるマージンを表し、本実施形態においては、例えば下記式(2)で求められる。
Figure JPOXMLDOC01-appb-M000002

                                   ・・・(2)
 sは基準画像と類似画像との第二類似度、sは基準画像と非類似画像との第二類似度である。mはマージンの基準となる基準マージンであり、例えば、0.1などとすればよい。λは第二類似度の影響度合いを表すパラメータで、第二類似度に合わせてチューニングする。例えば、第二類似度が-1.0~1.0の値域で、mが0.1であれば、λ=0.05などとすればよい。
 パラメータ更新部12は、基準画像、類似画像、及び非類似画像の3つ組ごとに式(2)で求めたマージンmを用いた式(1)の損失関数を用いて、CNNのパラメータを最適化する。これにより、基準画像と非類似画像との第二類似度が高い場合にはマージンを大きく、低い場合にはマージンを小さくすることが可能となり、第二類似度と相補的になるようCNNのパラメータを更新することができる。
 また、CNN以外の方法による類似度は複数あってもよく、式(2)の1項と同様の項を式(2)追加することで対応可能である。
 また、基準画像、類似画像、及び非類似画像の3つ組ごとに式(2)で求めたマージンを用いるのではなく、基準画像に付与されたラベル毎に上記マージンを平均化して用いても良い。この場合、第二類似度の外れ値に対して頑健に学習することができる。
 また、必ずしも全ての3つ組に対して式(1)の損失関数で学習する必要はなく、基準画像と非類似画像の第二類似度が大きい組のみを用いて学習を行っても良い。例えば、3つ組について、第二類似度sに対する、第二類似度sが事前に定めた閾値以上であって、かつ、式(2)のマージンmが閾値以上の場合に、当該3つ組のみを用いて、損失関数により学習を行う、などとしてもよい。
 パラメータ更新部12は、上記の損失関数を最適化するように、CNNのパラメータに逆伝搬することによりCNNのパラメータを学習し、更新したパラメータを記憶部13へ格納する。
<検索装置の構成>
 次に、本実施形態に係る検索装置の構成について説明する。検索装置は、検索対象のクエリ画像を検索キーとして参照画像との類似度を算出する。
 図3は、本実施形態の検索装置の構成を示すブロック図である。
 図3に示すように、検索装置101は、第一検索部110と、第二検索部111と、統合部112と、記憶部113とを含んで構成されている。
 検索装置101は、データベース102と通信手段を介して接続されて相互に情報通信する。データベース102は、上記データベース2と同様の構成であり、ラベルが付与された参照画像である画像集合104を記憶している。また、参照画像として画像集合104の画像を用いる必要は必ずしもなく、別途参照画像とする画像を格納してもよい。
 記憶部113には、上記の学習装置1で学習されたCNNのパラメータが記憶されている。本実施形態の検索装置101で用いるCNNは、上述した学習装置1について説明したCNNである。CNNは第一検索部110で用いられ、パラメータの学習によって、第二検索部111が算出する第二類似度と相補的になるよう学習された学習済みニューラルネットワークである。予め学習された、特徴量ベクトルを出力する特徴抽出処理が、所定の画像を入力として特徴量ベクトルを出力するCNNのパラメータである。
 なお、検索装置101も学習装置1と同様のハードウェア構成によって構成できる。図2に示すように、検索装置101は、CPU31、ROM32、RAM33、ストレージ34、入力部35、表示部36及び通信I/F37を有する。各構成は、バス39を介して相互に通信可能に接続されている。ROM32又はストレージ34には、検索プログラムが格納されている。
 第一検索部110は、検索対象のクエリ画像103を入力として、クエリ画像103から抽出される特徴量ベクトルと、参照画像の各々から抽出される特徴量ベクトルとの、第一類似度を計算する。第一類似度は、学習装置1と同様に特徴ベクトル間の類似度である。特徴ベクトルは、予め学習されたCNNの処理によって抽出する。CNNの処理が、予め学習された特徴抽出処理の一例である。第一検索部110で用いるCNNの処理は、基準画像と、類似画像と、非類似画像との間の類似度について、基準画像と類似画像との第二類似度に対する、基準画像と非類似画像との第二類似度が大きくなるほど、マージンが大きくなるように学習されている。また、CNNの処理は、上述したように、閾値を用いて組を絞り込んで学習される態様もある。以下に第一類似度の計算態様を説明する。
 第一検索部110は、データベース102に格納された画像集合104の各参照画像と、クエリ画像103とを受け取ったもとで、記憶部113に記憶されたCNNのパラメータを用いて特徴量ベクトルを抽出する。特徴量ベクトルの抽出は、上述した学習装置1について説明したパラメータ更新部12における特徴量ベクトルの抽出と同様の手法を用いる。そして、第一検索部110は、クエリ画像103の特徴量ベクトルと、画像集合104の各参照画像の特徴量ベクトルとの類似度を算出し、第一類似度として出力する。類似度の算出は、特徴量ベクトル間の類似度を算出する任意の尺度を用いてよい。例えば、コサイン類似度などを用いる。また、各参照画像の特徴量ベクトルは、データベース102に格納された画像集合104の各参照画像の特徴量ベクトルを事前に抽出し、データベース102に格納しておき、それを用いても良い。
 第二検索部111は、クエリ画像103の特徴に関する情報と、参照画像の各々の特徴に関する情報とに基づいて、第二類似度を計算する。特徴に関する情報は、特徴量ベクトルとは異なる特徴に関する情報を用いた類似度であり、例えば、特徴に関する情報として、上述したSIFT等の局所特徴量を用いる。以下に第二類似度の計算態様を説明する。
 第二検索部111は、データベース102に格納された画像集合104の各参照画像と、クエリ画像103とを受け取ったもとで、クエリ画像103と、画像集合104の各画像との類似度を算出して第二類似度として出力する。類似度としては、上述した学習装置1について説明した第二検索部11における類似度と同様、例えばSIFTのような局所特徴量を用いる。各参照画像の第二類似度は、局所特徴量を用いる場合、データベース102に格納された画像集合104の各参照画像の局所特徴量を事前に抽出し、データベース102に格納しておき、それを用いても良い。
 統合部112は、第一検索部110によって計算された第一類似度と、第二検索部111によって計算された第二類似度とを統合した統合類似度を計算し、検索結果105として出力する。具体的には、第一類似度xと、第二類似度yを、双方の類似度の重み付き線形和ax+byで統合した類似度を統合類似度とする。統合類似度は、クエリ画像103と参照画像の各々とについて計算し、統合類似度が閾値以上の参照画像を検索結果105とすればよい。また、類似度の統合は任意の方法で代替可能である。例えば、SVMやRank-SVMで結合することで類似度を統合してもよい。上記統合類似度と、対応する参照画像に紐付く情報(通し番号によるIDなど)を、検索結果105として出力する。
<学習装置の作用>
 次に、学習装置1の作用について説明する。
 図4は、学習装置1による学習処理の流れを示すフローチャートである。CPU21がROM22又はストレージ24から学習プログラムを読み出して、RAM23に展開して実行することにより、学習処理が行なわれる。
 ステップS100で、CPU21は、ラベルが付与された参照画像の各々についての特徴に関する情報を用いて、参照画像間の組み合わせについて、特徴に関する情報を用いた類似度である第二類似度を計算する。特徴に関する情報における特徴は、特徴量ベクトルとは異なる特徴であり、例えば、SFIT等の局所特徴量を用いる。
 ステップS102において、CPU21は、損失関数を用いて、基準画像と類似画像との第二類似度に対する、基準画像と非類似画像との第二類似度が大きくなるほど、マージンが大きくなるように、CNNのパラメータを更新する。損失関数は、基準画像の特徴量ベクトルと類似画像の特徴量ベクトルとの第一類似度及び基準画像の特徴量ベクトルと非類似画像の特徴量ベクトルとの第一類似度と、マージンとを含む。マージンは、基準画像と類似画像との第二類似度、及び基準画像と非類似画像との第二類似度に基づくマージンである。
 以上説明したように本実施形態の学習装置1によれば、複数の画像検索方法を相補的に統合することで画像に含まれる物体を精度よく検索するためのニューラルネットワークを学習することができる。
<検索装置の作用>
 次に、検索装置101の作用について説明する。
 図5は、検索装置101による学習処理の流れを示すフローチャートである。CPU31がROM32又はストレージ34から学習プログラムを読み出して、RAM33に展開して実行することにより、学習処理が行なわれる。
 ステップS200で、CPU31は、検索対象のクエリ画像103を入力として、クエリ画像103から抽出される特徴量ベクトルと、参照画像の各々から抽出される特徴量ベクトルとの、第一類似度を計算する。特徴ベクトルは、予め学習されたCNNの処理によって抽出する。ここで用いるCNNの処理は、基準画像と、類似画像と、非類似画像との間の類似度について、基準画像と類似画像との第二類似度に対する、基準画像と非類似画像との第二類似度が大きくなるほど、マージンが大きくなるように学習されている。
 ステップS202で、CPU31は、クエリ画像103の特徴に関する情報と、参照画像の各々の特徴に関する情報とに基づいて、第二類似度を計算する。特徴に関する情報における特徴は、特徴量ベクトルとは異なる特徴であり、例えば、SIFT等の局所特徴量を用いる。
 ステップS204で、CPU31は、ステップS200で計算された第一類似度と、ステップS202で計算された第二類似度とを統合した統合類似度を計算し、検索結果105として出力する。
 以上説明したように本実施形態の検索装置101によれば、複数の画像検索方法を相補的に統合することで画像に含まれる物体を精度よく検索することができる。
 なお、上記各実施形態でCPUがソフトウェア(プログラム)を読み込んで実行した学習処理又は検索処理を、CPU以外の各種のプロセッサが実行してもよい。この場合のプロセッサとしては、FPGA(Field-Programmable Gate Array)等の製造後に回路構成を変更可能なPLD(Programmable Logic Device)、及びASIC(Application Specific Integrated Circuit)等の特定の処理を実行させるために専用に設計された回路構成を有するプロセッサである専用電気回路等が例示される。また、学習処理又は検索処理を、これらの各種のプロセッサのうちの1つで実行してもよいし、同種又は異種の2つ以上のプロセッサの組み合わせ(例えば、複数のFPGA、及びCPUとFPGAとの組み合わせ等)で実行してもよい。また、これらの各種のプロセッサのハードウェア的な構造は、より具体的には、半導体素子等の回路素子を組み合わせた電気回路である。
 また、上記各実施形態では、学習プログラムがストレージ24に予め記憶(インストール)されている態様を説明したが、これに限定されない。プログラムは、CD-ROM(Compact Disk Read Only Memory)、DVD-ROM(Digital Versatile Disk Read Only Memory)、及びUSB(Universal Serial Bus)メモリ等の非一時的(non-transitory)記憶媒体に記憶された形態で提供されてもよい。また、プログラムは、ネットワークを介して外部装置からダウンロードされる形態としてもよい。検索プログラムに関しても同様である。
 以上の実施形態に関し、更に以下の付記を開示する。
 (付記項1)
 メモリと、
 前記メモリに接続された少なくとも1つのプロセッサと、
 を含み、
 前記プロセッサは、
 検索対象のクエリ画像を入力として、予め学習された、特徴量ベクトルを出力する特徴抽出処理によって前記クエリ画像から抽出される特徴量ベクトルと、前記特徴抽出処理によってラベルが付与された参照画像の各々から抽出される特徴量ベクトルとの、特徴ベクトル間の類似度である第一類似度を計算し、
 前記クエリ画像の前記特徴量ベクトルとは異なる特徴に関する情報と、前記参照画像の各々の前記特徴に関する情報とに基づいて、前記特徴に関する情報を用いた類似度である第二類似度を計算し、
 前記第一検索部によって計算された前記第一類似度と、前記第二検索部によって計算された前記第二類似度とを統合した統合類似度を計算し、
 前記特徴抽出処理は、前記参照画像の各々における基準画像と、前記基準画像に類似する類似画像と、前記基準画像に類似しない非類似画像との間の類似度について、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンが大きくなるように、少なくとも学習されている、
 ように構成されている検索装置。
 (付記項2)
 検索対象のクエリ画像を入力として、予め学習された、特徴量ベクトルを出力する特徴抽出処理によって前記クエリ画像から抽出される特徴量ベクトルと、前記特徴抽出処理によってラベルが付与された参照画像の各々から抽出される特徴量ベクトルとの、特徴ベクトル間の類似度である第一類似度を計算し、
 前記クエリ画像の前記特徴量ベクトルとは異なる特徴に関する情報と、前記参照画像の各々の前記特徴に関する情報とに基づいて、前記特徴に関する情報を用いた類似度である第二類似度を計算し、
 前記第一検索部によって計算された前記第一類似度と、前記第二検索部によって計算された前記第二類似度とを統合した統合類似度を計算し、
 前記特徴抽出処理は、前記参照画像の各々における基準画像と、前記基準画像に類似する類似画像と、前記基準画像に類似しない非類似画像との間の類似度について、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンが大きくなるように、少なくとも学習されている、
 ことをコンピュータに実行させる検索プログラムを記憶した非一時的記憶媒体。
1     学習装置
2     データベース
3     画像集合
11   第二検索部
12   パラメータ更新部
13   記憶部
101 検索装置
102 データベース
103 クエリ画像
104 画像集合
105 検索結果
110 第一検索部
111 第二検索部
112 統合部
113 記憶部

Claims (7)

  1.  検索対象のクエリ画像を入力として、予め学習された、特徴量ベクトルを出力する特徴抽出処理によって前記クエリ画像から抽出される特徴量ベクトルと、前記特徴抽出処理によってラベルが付与された参照画像の各々から抽出される特徴量ベクトルとの、特徴ベクトル間の類似度である第一類似度を計算する第一検索部と、
     前記クエリ画像の前記特徴量ベクトルとは異なる特徴に関する情報と、前記参照画像の各々の前記特徴に関する情報とに基づいて、前記特徴に関する情報を用いた類似度である第二類似度を計算する第二検索部と、
     前記第一検索部によって計算された前記第一類似度と、前記第二検索部によって計算された前記第二類似度とを統合した統合類似度を計算する統合部と、を含み、
     前記第一検索部の特徴抽出処理は、前記参照画像の各々における基準画像と、前記基準画像に類似する類似画像と、前記基準画像に類似しない非類似画像との間の類似度について、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンが大きくなるように、少なくとも学習されている検索装置。
  2.  ラベルが付与された参照画像の各々についての特徴量ベクトルとは異なる特徴に関する情報を用いて、前記参照画像間の組み合わせについて、前記特徴に関する情報を用いた類似度である第二類似度を計算する第二検索部と、
     前記参照画像のうち、前記ラベルの基準とする基準画像、前記基準画像に類似する前記参照画像を類似画像、及び前記基準画像に類似しない前記参照画像を非類似画像として、
     所定の画像を入力として特徴量ベクトルを出力するニューラルネットワークから出力される、前記基準画像の特徴量ベクトルと前記類似画像の特徴量ベクトルとの第一類似度及び前記基準画像の特徴量ベクトルと前記非類似画像の特徴量ベクトルとの第一類似度と、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンとを含む損失関数を用いて、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、マージンが大きくなるように、前記ニューラルネットワークのパラメータを更新するパラメータ更新部と、
     を含む学習装置。
  3.  前記パラメータ更新部は、前記基準画像、前記類似画像、及び前記非類似画像の3つ組について、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が閾値以上であって、かつ、前記マージンが閾値以上である前記組のみを用いた、前記損失関数により前記ニューラルネットワークのパラメータを更新する請求項2に記載の学習装置。
  4.  検索対象のクエリ画像を入力として、予め学習された、特徴量ベクトルを出力する特徴抽出処理によって前記クエリ画像から抽出される特徴量ベクトルと、前記特徴抽出処理によってラベルが付与された参照画像の各々から抽出される特徴量ベクトルとの、特徴ベクトル間の類似度である第一類似度を計算し、
     前記クエリ画像の前記特徴量ベクトルとは異なる特徴に関する情報と、前記参照画像の各々の前記特徴に関する情報とに基づいて、前記特徴に関する情報を用いた類似度である第二類似度を計算し、
     前記計算された前記第一類似度と、前記計算された前記第二類似度とを統合した統合類似度を計算し、
     前記特徴抽出処理は、前記参照画像の各々における基準画像と、前記基準画像に類似する類似画像と、前記基準画像に類似しない非類似画像との間の類似度について、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンが大きくなるように、少なくとも学習されている、
     ことを含む処理をコンピュータが実行することを特徴とする検索方法。
  5.  ラベルが付与された参照画像の各々についての特徴量ベクトルとは異なる特徴に関する情報を用いて、前記参照画像間の組み合わせについて、前記特徴に関する情報を用いた類似度である第二類似度を計算し、
     前記参照画像のうち、前記ラベルの基準とする基準画像、前記基準画像に類似する前記参照画像を類似画像、及び前記基準画像に類似しない前記参照画像を非類似画像として、
     所定の画像を入力として特徴量ベクトルを出力するニューラルネットワークから出力される、前記基準画像の特徴量ベクトルと前記類似画像の特徴量ベクトルとの第一類似度及び前記基準画像の特徴量ベクトルと前記非類似画像の特徴量ベクトルとの第一類似度と、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンとを含む損失関数を用いて、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、マージンが大きくなるように、前記ニューラルネットワークのパラメータを更新する、
     ことを含む処理をコンピュータが実行することを特徴とする学習方法。
  6.  検索対象のクエリ画像を入力として、予め学習された、特徴量ベクトルを出力する特徴抽出処理によって前記クエリ画像から抽出される特徴量ベクトルと、前記特徴抽出処理によってラベルが付与された参照画像の各々から抽出される特徴量ベクトルとの、特徴ベクトル間の類似度である第一類似度を計算し、
     前記クエリ画像の前記特徴量ベクトルとは異なる特徴に関する情報と、前記参照画像の各々の前記特徴に関する情報とに基づいて、前記特徴に関する情報を用いた類似度である第二類似度を計算し、
     前記計算された前記第一類似度と、前記計算された前記第二類似度とを統合した統合類似度を計算し、
     前記特徴抽出処理は、前記参照画像の各々における基準画像と、前記基準画像に類似する類似画像と、前記基準画像に類似しない非類似画像との間の類似度について、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンが大きくなるように、少なくとも学習されている、
     ことをコンピュータに実行させる検索プログラム。
  7.  ラベルが付与された参照画像の各々についての特徴量ベクトルとは異なる特徴に関する情報を用いて、前記参照画像間の組み合わせについて、前記特徴に関する情報を用いた類似度である第二類似度を計算し、
     前記参照画像のうち、前記ラベルの基準とする基準画像、前記基準画像に類似する前記参照画像を類似画像、及び前記基準画像に類似しない前記参照画像を非類似画像として、
     所定の画像を入力として特徴量ベクトルを出力するニューラルネットワークから出力される、前記基準画像の特徴量ベクトルと前記類似画像の特徴量ベクトルとの第一類似度及び前記基準画像の特徴量ベクトルと前記非類似画像の特徴量ベクトルとの第一類似度と、前記基準画像と前記類似画像との第二類似度及び前記基準画像と前記非類似画像との第二類似度に基づくマージンとを含む損失関数を用いて、前記基準画像と前記類似画像との前記第二類似度に対する、前記基準画像と前記非類似画像との前記第二類似度が大きくなるほど、マージンが大きくなるように、前記ニューラルネットワークのパラメータを更新する、
     ことをコンピュータに実行させる学習プログラム。
PCT/JP2019/023976 2019-06-17 2019-06-17 学習装置、検索装置、学習方法、検索方法、学習プログラム、及び検索プログラム WO2020255227A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2021528077A JP7192990B2 (ja) 2019-06-17 2019-06-17 学習装置、検索装置、学習方法、検索方法、学習プログラム、及び検索プログラム
US17/619,239 US11790635B2 (en) 2019-06-17 2019-06-17 Learning device, search device, learning method, search method, learning program, and search program
PCT/JP2019/023976 WO2020255227A1 (ja) 2019-06-17 2019-06-17 学習装置、検索装置、学習方法、検索方法、学習プログラム、及び検索プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/023976 WO2020255227A1 (ja) 2019-06-17 2019-06-17 学習装置、検索装置、学習方法、検索方法、学習プログラム、及び検索プログラム

Publications (1)

Publication Number Publication Date
WO2020255227A1 true WO2020255227A1 (ja) 2020-12-24

Family

ID=74037636

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/023976 WO2020255227A1 (ja) 2019-06-17 2019-06-17 学習装置、検索装置、学習方法、検索方法、学習プログラム、及び検索プログラム

Country Status (3)

Country Link
US (1) US11790635B2 (ja)
JP (1) JP7192990B2 (ja)
WO (1) WO2020255227A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020255227A1 (ja) * 2019-06-17 2020-12-24 日本電信電話株式会社 学習装置、検索装置、学習方法、検索方法、学習プログラム、及び検索プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018147392A (ja) * 2017-03-08 2018-09-20 日本電信電話株式会社 モデル学習装置、スコア計算装置、方法、データ構造、及びプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7707132B2 (en) * 2004-10-01 2010-04-27 University Of Southern California User preference techniques for support vector machines in content based image retrieval
CN102473182B (zh) * 2009-06-30 2015-07-22 皇家飞利浦电子股份有限公司 用于基于内容的图像检索的关联性反馈
US8712156B2 (en) * 2010-01-10 2014-04-29 Bronstein Bronstein Kimmel Technologies Ltd. Comparison of visual information
US9075824B2 (en) * 2012-04-27 2015-07-07 Xerox Corporation Retrieval system and method leveraging category-level labels
EP3191980A1 (en) * 2014-09-09 2017-07-19 Thomson Licensing Method and apparatus for image retrieval with feature learning
JP6012819B1 (ja) 2015-07-03 2016-10-25 日本電信電話株式会社 類似画像取得装置、方法、及びプログラム
US11657087B2 (en) * 2018-03-19 2023-05-23 Verily Life Sciences Llc Surgical video retrieval based on preoperative images
CN108563767B (zh) * 2018-04-19 2020-11-27 深圳市商汤科技有限公司 图像检索方法及装置
JP7131195B2 (ja) * 2018-08-14 2022-09-06 日本電信電話株式会社 物体認識装置、物体認識学習装置、方法、及びプログラム
JP7183753B2 (ja) * 2018-12-11 2022-12-06 日本電信電話株式会社 リスト生成装置、被写体識別装置、リスト生成方法、及びプログラム
JP7167832B2 (ja) * 2019-04-19 2022-11-09 日本電信電話株式会社 画像変換装置、画像変換モデル学習装置、方法、及びプログラム
WO2020255227A1 (ja) * 2019-06-17 2020-12-24 日本電信電話株式会社 学習装置、検索装置、学習方法、検索方法、学習プログラム、及び検索プログラム
JP7196058B2 (ja) * 2019-12-24 2022-12-26 株式会社日立製作所 物体検索装置及び物体検索方法
CN111339343A (zh) * 2020-02-12 2020-06-26 腾讯科技(深圳)有限公司 图像检索方法、装置、存储介质及设备
CN113269237B (zh) * 2021-05-10 2022-12-27 青岛理工大学 基于注意力机制的装配体变化检测方法、设备和介质
JP2023032318A (ja) * 2021-08-26 2023-03-09 トヨタ自動車株式会社 学習方法、情報処理装置、学習プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018147392A (ja) * 2017-03-08 2018-09-20 日本電信電話株式会社 モデル学習装置、スコア計算装置、方法、データ構造、及びプログラム

Also Published As

Publication number Publication date
US20220284695A1 (en) 2022-09-08
JPWO2020255227A1 (ja) 2020-12-24
JP7192990B2 (ja) 2022-12-20
US11790635B2 (en) 2023-10-17

Similar Documents

Publication Publication Date Title
WO2022068196A1 (zh) 跨模态的数据处理方法、装置、存储介质以及电子装置
CN110188223B (zh) 图像处理方法、装置及计算机设备
US11048966B2 (en) Method and device for comparing similarities of high dimensional features of images
US9489401B1 (en) Methods and systems for object recognition
CN111274811B (zh) 地址文本相似度确定方法以及地址搜索方法
US8645354B2 (en) Scalable metadata extraction for video search
US8645353B2 (en) Anchor image identification for vertical video search
CN104160390A (zh) 来自潜在关系数据的实体扩充服务
KR20010053788A (ko) 내용기반 이미지 검색 시스템 및 그 방법
CN111078837B (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
WO2019230666A1 (ja) 特徴量抽出装置、方法、及びプログラム
CN111914921A (zh) 一种基于多特征融合的相似性图像检索方法及系统
CN116601626A (zh) 个人知识图谱构建方法、装置及相关设备
CN115129883B (zh) 实体链接方法和装置、存储介质及电子设备
KR20120047622A (ko) 디지털 콘텐츠 관리 시스템 및 방법
WO2020255227A1 (ja) 学習装置、検索装置、学習方法、検索方法、学習プログラム、及び検索プログラム
JP6793925B2 (ja) 検証装置、方法、及びプログラム
CN113254687A (zh) 图像检索、图像量化模型训练方法、装置和存储介质
CN117435685A (zh) 文档检索方法、装置、计算机设备、存储介质和产品
CN115344698A (zh) 标签处理方法、装置、计算机设备、存储介质和程序产品
CN112559810B (zh) 一种利用多层特征融合生成哈希码的方法及装置
Rad et al. A multi-view-group non-negative matrix factorization approach for automatic image annotation
CN109582802B (zh) 一种实体嵌入方法、装置、介质及设备
CN113420699A (zh) 一种人脸匹配方法、装置及电子设备
CN111611981A (zh) 信息识别方法和装置及信息识别神经网络训练方法和装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19933759

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021528077

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19933759

Country of ref document: EP

Kind code of ref document: A1