WO2023084759A1 - 画像処理装置、画像処理方法、及びプログラム - Google Patents

画像処理装置、画像処理方法、及びプログラム Download PDF

Info

Publication number
WO2023084759A1
WO2023084759A1 PCT/JP2021/041801 JP2021041801W WO2023084759A1 WO 2023084759 A1 WO2023084759 A1 WO 2023084759A1 JP 2021041801 W JP2021041801 W JP 2021041801W WO 2023084759 A1 WO2023084759 A1 WO 2023084759A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
text
data
feature amount
understanding
Prior art date
Application number
PCT/JP2021/041801
Other languages
English (en)
French (fr)
Inventor
光甫 西田
京介 西田
秀一 西岡
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/041801 priority Critical patent/WO2023084759A1/ja
Priority to JP2023559416A priority patent/JPWO2023084833A1/ja
Priority to PCT/JP2022/025412 priority patent/WO2023084833A1/ja
Publication of WO2023084759A1 publication Critical patent/WO2023084759A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/56Information retrieval; Database structures therefor; File system structures therefor of still image data having vectorial format
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present disclosure relates to an image processing device, an image processing method, and a program.
  • This image classification is, for example, classifying from some image (medium) whether the image or a specific object in the image is a pigeon or a swallow.
  • Non-Patent Document 1 an image of a pigeon and text data that is a sentence describing the pigeon in the image are used.
  • the present invention has been made in view of the above points, and aims to extract a multimodal feature amount compared to the conventional method.
  • the invention according to claim 1 is an image processing apparatus for extracting a feature amount of image data, comprising image understanding means for extracting an image feature amount by vectorizing an image pattern of the image data. , text understanding means for vectorizing a text pattern of accompanying text data attached to said image data and extracting a text feature amount; and said image feature amount extracted by said image understanding means and extracted by said text understanding means. a feature amount mixing means for projecting the text feature amount into the same vector space and mixing the image feature amount and the text feature amount to generate a mixed feature amount as the feature amount. It is a device.
  • FIG. 1 is a schematic diagram of a communication system according to an embodiment
  • FIG. 2 is a hardware configuration diagram of an image classification device and a communication terminal
  • FIG. 1 is a functional configuration diagram of an image classification device according to an embodiment of the present invention
  • FIG. 3 is a detailed functional configuration diagram of a feature extraction unit in the image classification device
  • FIG. 4 is a detailed functional configuration diagram of a text generation unit in the feature extraction unit
  • FIG. 4 is a flow chart showing processing executed by an image classification device in a training (learning) phase
  • 4 is a flowchart showing detailed processing executed by a feature extraction unit
  • 4 is a flow chart showing processing performed by an image classification device in an inference phase
  • learning training
  • FIG. 4 is a flowchart showing detailed processing executed by a feature extraction unit
  • 4 is a flow chart showing processing performed by an image classification device in an inference phase
  • FIG. 1 is a schematic diagram of a communication system according to an embodiment of the invention.
  • the communication system 1 of this embodiment is constructed by an image classification device 3 and a communication terminal 5.
  • the communication terminal 5 is managed and used by the user Y.
  • the image classification device 3 and the communication terminal 5 can communicate via a communication network 100 such as the Internet.
  • the connection form of the communication network 100 may be either wireless or wired.
  • the image classification device 3 is composed of one or more computers. When the image classification device 3 is composed of a plurality of computers, it may be indicated as “image classification device” or "image classification system”.
  • the image classification device 3 is a device that classifies images using AI (Artificial Intelligence). This image classification is, for example, classifying from some image (medium) whether the image or a specific object in the image is a pigeon or a swallow. Then, the image classification device 3 outputs classification result data as a result of image classification. As an output method, by transmitting the classification result data to the communication terminal 5, the communication terminal 5 can display or print a graph or the like related to the classification result data, or a display connected to the image classification device 3 can be used to display or print the above graph or the like. or printing the graph or the like with a printer or the like connected to the image classification device 3 .
  • AI Artificial Intelligence
  • the communication terminal 5 is a computer, and although a notebook computer is shown as an example in FIG. 1, it is not limited to a node type computer and may be a desktop computer. Also, the communication terminal may be a smart phone or a tablet terminal. In FIG. 1 , user Y operates communication terminal 5 .
  • FIG. 2 is a hardware configuration diagram of an image classification device and a communication terminal.
  • the image classification device 3 has a processor 301, a memory 302, an auxiliary storage device 303, a connection device 304, a communication device 305, and a drive device 306. Each piece of hardware constituting the image classification device 3 is interconnected via a bus 307 .
  • the processor 301 plays the role of a control unit that controls the entire image classification device 3, and has various computing devices such as a CPU (Central Processing Unit).
  • the processor 301 reads various programs onto the memory 302 and executes them.
  • the processor 301 may include a GPGPU (General-purpose computing on graphics processing units).
  • the memory 302 has main storage devices such as ROM (Read Only Memory) and RAM (Random Access Memory).
  • the processor 301 and the memory 302 form a so-called computer, and the processor 301 executes various programs read onto the memory 302, thereby realizing various functions of the computer.
  • the auxiliary storage device 303 stores various programs and various information used when the various programs are executed by the processor 301 .
  • connection device 304 is a connection device that connects an external device (for example, the display device 310, the operation device 311) and the image classification device 3.
  • an external device for example, the display device 310, the operation device 3111
  • the image classification device 3 for example, the image classification device 3.
  • the communication device 305 is a communication device for transmitting and receiving various information to and from other devices.
  • a drive device 306 is a device for setting a recording medium 330 .
  • the recording medium 330 here includes media for optically, electrically, or magnetically recording information such as CD-ROMs (Compact Disc Read-Only Memory), flexible discs, and magneto-optical discs.
  • the recording medium 330 may also include a semiconductor memory that electrically records information, such as a ROM (Read Only Memory) and a flash memory.
  • auxiliary storage device 303 Various programs to be installed in the auxiliary storage device 303 are installed by, for example, setting the distributed recording medium 330 in the drive device 306 and reading the various programs recorded in the recording medium 330 by the drive device 306. be done. Alternatively, various programs installed in the auxiliary storage device 303 may be installed by being downloaded from the network via the communication device 305 .
  • FIG. 2 shows the hardware configuration of the communication terminal 5, but since each configuration is the same except that the reference numerals have changed from the 300s to the 500s, the description thereof will be omitted.
  • FIG. 3 is a functional configuration diagram of the image classification device according to the embodiment of the present invention.
  • the image classification device 3 has an input unit 30, a reading unit 31, a selection unit 32, a feature extraction unit 33, a similarity calculation unit 34, a loss calculation unit 35, a parameter update unit 36, and an output unit 39. ing. These units are functions realized by instructions from the processor 301 in FIG. 2 based on programs.
  • learning models A and B are stored in the memory 302 or the auxiliary storage device 303 in FIG.
  • the learning model A is constructed from a large number of image similarity parameters described later.
  • the learning model B is constructed from a large number of text generation probability parameters, which will be described later.
  • the memory 302 or the auxiliary storage device 303 in FIG. 2 stores a large number of image data that are candidates for support data as teacher data. Text data indicating the content of the image is attached to each of the large number of image data. That is, one pair of support data consists of image data and accompanying text data, and a large amount of pairs of support data are stored in the memory 302 or the auxiliary storage device 303 in FIG.
  • one pair of support data includes image data of a pigeon and text data accompanying this image data, which is a sentence describing the pigeon appearing in the image.
  • the text data attached to this image data will be referred to as "associated text data”.
  • “accompanying” includes the case where text data is added to image data, and the case where text data and image data are separately input or output and associated with each other.
  • Text data accompanying image data may be generated based on the image data by the image classification device 33 (generated text data) and added to the image data.
  • the input unit 30 inputs image data, which is query data as classification target (evaluation target) data for training or inference.
  • image data which is query data as classification target (evaluation target) data for training or inference.
  • the input unit 30 inputs query data transmitted from the communication terminal 5 by the user Y to the image classification device 3 to the image classification device.
  • Associated text data accompanies the image data, which is the query data. That is, one pair of query data is composed of the image data and the accompanying text data.
  • the accompanying text data is always accompanied, but in the case of the inference phase, the accompanying text data may not be accompanying.
  • As a method of accompanying the accompanying text data there are cases where it is captioned in the image data and cases where it is manually input by the user Y.
  • FIG. In many machine learning models, humans cannot intervene in image classification inference, but by allowing user Y to input text data, user Y can intervene in image classification inference. .
  • the reading unit 31 reads a group of support data candidates (M types and j pairs for each type) to be compared with the query data from the memory 302 or the auxiliary storage device 303 in FIG.
  • M is 100 and j is 60.
  • a total of 6000 pairs will be read.
  • M is 100 and j is 60 is an example, M may be more than 100 or less than 100, and j may be more than 60 or less than 60.
  • the selection unit 32 randomly selects N types of k pairs of support data for comparison with the query data from the support data candidate group.
  • This method of selecting one pair of each of the five types of support data is generally performed, but the selection unit 32 does not necessarily need to select one pair of each of the five types of support data. For example, there may be 2 pairs of 10 types (20 pairs in total).
  • the training support data is given information indicating the type of subject (also referred to as "class") in the image of the image data. For example, if the image is an image of a bird, it indicates the type of bird such as "pigeon", "hawk", "swallow".
  • the feature extraction unit 33 extracts the image feature amount from the image data in one pair, and further extracts the text feature amount from the text data in the same pair. Furthermore, the feature extraction unit 33 mixes the image feature amount and the text feature amount to generate a mixed feature amount. The feature extraction unit 33 also generates text data from the image feature quantity.
  • the text data generated from the image feature amount will be referred to as "generated text data”. That is, the generated text data is image-derived text data, and is different in type from text-derived accompanying text data.
  • FIG. 4 is a detailed functional configuration diagram of the feature extraction unit in the image classification device.
  • the feature extraction unit 33 has an image understanding unit 41, a text generation unit 42, a text understanding unit 43, and a feature amount mixing unit 44.
  • Arbitrary neural networks can be used for the image understanding unit 41, the text generation unit 42, the feature amount mixing unit 44, and the similarity calculation unit .
  • the image understanding unit 41 uses a four-layer CNN (Convolutional Neural Network). By pre-learning the text generation unit 42 and the text understanding unit 43, the text generation ability and the text understanding ability are improved.
  • CNN Convolutional Neural Network
  • the image understanding unit 41 acquires image data (an example of first image data) from the query data from the input unit 30, and acquires from the selection unit 32 a specific one pair out of five types of one pair. image data (an example of second image data) in the support data of . Then, the image understanding unit 41 vectorizes the image pattern of the image data of the query data to extract the image feature amount for the query, and vectorizes the image pattern of the image data of the support data to extract the image feature amount for the support. Extract.
  • the image feature amount is a vector
  • the text generation unit 42 can use any neural network, and RNN (Recurrent neural network) and Transformer with the image feature amount as the initial value are common.
  • the text generation unit 42 projects the query image feature amount extracted by the image understanding unit 41 onto the vector space of the text data and decodes it to generate generated text data for the query derived from the image. By projecting the image feature amount for support extracted by the unit 41 onto the vector space of the text data and decoding it, generated text data for support derived from the image is generated.
  • FIG. 5 is a detailed functional block diagram of the text generator.
  • the text generator 42 has a linear transformation layer 421 and a decoder 422. Further, the linear transformation layer 421 holds linear transformation layer parameters 421p, and the decoder 422 holds decoder parameters 422p. The linear transformation layer parameters 421p and the decoder parameters 422p are included in the learning model B shown in FIG.
  • the linear transformation layer 421 uses the linear transformation layer parameter 421p to project the image feature amount acquired from the image understanding unit 41 onto the vector space of the accompanying text data, thereby extracting the image-derived feature amount.
  • the decoder 422 uses the decoder parameter 422p to generate generated text data derived from the image from the feature quantity obtained from the linear transformation layer 421.
  • a language model with an Encoder-Decoder type structure is disclosed, for example, in the reference (Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer).
  • An encoder-decoder type structure is a structure in which text is first given as an input, converted into features by the encoder, the features are input to the decoder, and the decoder generates text.
  • the existing language model Encoder in the reference is not used, and an arbitrary neural network such as a linear transformation layer is used before the Decoder. to add. With this configuration, it is possible to convert the image feature quantity into a feature quantity suitable for the language model, input it to the Decoder, and generate text.
  • the text understanding unit 43 acquires accompanying text data from the query data from the input unit 30, and from the selection unit 32, one specific pair of support data out of one pair of five types. Gets the accompanying text data. Then, the text understanding unit 43 vectorizes the text pattern of the accompanying text data of the query data to extract the text feature amount for the query, and vectorizes the text pattern of the accompanying text data of the support data to extract the text feature for support. Extract quantity.
  • the text understanding unit 43 converts text data into vectors using an existing language model such as BERT (Bidirectional Encoder Representations from Transformers).
  • BERT Bidirectional Encoder Representations from Transformers
  • accompanying text data is attached to image data in the training phase, but accompanying text data may not be attached to image data in the inference phase.
  • the text understanding unit 43 treats (deems) the image-derived query text data generated by the text generation unit 42 as accompanying text data. Extract features of data.
  • the feature amount mixing unit 44 projects the query image feature amount extracted by the image understanding unit 41 and the query text feature amount extracted by the text understanding unit 43 onto the same vector space, By mixing the image feature amount for query and the text feature amount for query, a mixed feature amount as a feature amount for query is generated.
  • the feature amount mixing unit 44 projects the image feature amount for support extracted by the image understanding unit 41 and the text feature amount for support extracted by the text understanding unit 43 into the same vector space, and By mixing the image feature amount for support and the text feature amount for support, a mixed feature amount as a feature amount for support is generated.
  • the vector space of one feature amount is projected onto the other feature amount, and where the other feature amount is projected onto a third vector space different from each other.
  • the feature amount mixing unit 44 can reflect both the image feature amount and the text feature amount in the similarity calculation.
  • the feature mixing unit 44 can use any neural network that accepts both image features and text features as inputs.
  • the following model is used as the feature quantity mixing unit 44 .
  • x image be the image feature amount
  • x Lang be the text feature amount output by the text understanding unit 43 .
  • MLP Multilayer perceptron
  • Linear be a linear transformation layer to two dimensions.
  • [ ; ] be an operation to connect vectors vertically.
  • the vector h output by the feature quantity mixing unit is represented by (Equation 1), (Equation 2), and (Equation 3) as follows.
  • the feature amount mixing unit 44 projects the text feature amount output by BERT by MLP into the same space as the image feature amount (z Lang ), using (Formula 1).
  • the feature amount mixing unit 44 dynamically determines the importance of the image feature amount and the text feature amount from ⁇ image and ⁇ Lang using (Formula 2).
  • ⁇ image and ⁇ Lang are guaranteed to be non-negative numbers summing to 1 by the softmax operation.
  • the degree to which the accompanying text data attached to the image data affects the classification result is ⁇ image and ⁇ Lang are dynamically determined to increase.
  • the user can manually change the degree to which the text entered by the user is reflected in the classification results.
  • Linear is the operation of multiplying the weight matrix from the left and adding the bias vector. The weight matrix and bias vector in the Linear operation are included in the learning model A's image similarity parameter and the learning model B's text generation probability parameter.
  • the feature amount mixing unit 44 uses (Formula 3) to determine the feature amount to be output by a weighted sum according to the degree of importance.
  • the image similarity parameter of the learning model A is used when the image understanding unit 41, the text understanding unit 43, and the feature amount mixing unit 44 execute each process.
  • the text generation probability parameter of learning model B is used when the image understanding unit 41 and the text generation unit 42 execute each process.
  • the text generation probability parameter of learning model B is not used.
  • the text generation probability parameter of learning model B is used and updated by training (learning). This is done so that the text generator 42 can generate the generated text data even when the accompanying text data is not attached to the image data in the inference phase. This is also because training (learning) the learning model B has a positive effect of improving the comprehension ability of the image understanding unit 41 that uses the text generation probability parameter.
  • the similarity calculation unit 34 compares the mixed feature amount for query and the mixed feature amount for support to calculate the image similarity.
  • this image similarity is output to the output unit 39 and used as classification result data for image classification.
  • this image similarity is output to the loss calculator 35 .
  • the similarity calculation unit 34 is a bilinear layer.
  • the similarity calculation unit 54 first provides k supporting feature amounts (vectors) for each class. A vector obtained by averaging these is used as a class feature.
  • X be a matrix in which N class feature values (vectors) are arranged.
  • y be the feature value of the query data and W be the learnable parameter.
  • the score that the query data belongs to each class is expressed as follows.
  • Each component of this vector indicates the probability that the query data belongs to each class.
  • the loss calculator 35 calculates a loss function value from the image similarity. Further, the loss calculation unit 35 calculates a loss function value from the generated text data of the query data/support data, the generation probability distribution of the query data/support data, and the accompanying text data of the query data/support data.
  • the loss function calculated by the loss calculation unit 35 can use the classification score of the similarity calculation unit 34 or any loss related to text generation.
  • Cross-Entropy Loss and negative log-likelihood function are typically used.
  • the parameter update unit 36 updates the neural network of the feature extraction unit 33 and the similarity calculation unit 34 based on the loss function value calculated by the loss calculation unit 35 from the image similarity calculated by the similarity calculation unit 34.
  • the image similarity parameter of learning model A is updated.
  • the loss calculation unit 35 performs learning so that the degree of similarity between the image data of the support data and the image data of the query data is reduced, and further, the degree of similarity with the incorrect image is increased.
  • the parameter updating unit 36 updates the text generation probability parameter of the learning model B of the neural network constituting the feature extracting unit 33 and the similarity calculating unit 34 based on the loss function value calculated by the loss calculating unit 35.
  • the loss calculator 35 performs learning so as to increase the probability that the generated text data is similar to the accompanying text data.
  • the parameter updating unit 56 calculates the slope of the loss based on the loss calculated by the loss calculating unit 35 and updates the parameters.
  • FIG. In addition, it divides into a training (learning) phase and an inference phase, and demonstrates.
  • FIG. 6 is a flow chart showing the processing performed by the image classification device in the training (learning) phase.
  • the input unit 30 inputs training teacher data (query data) (S10).
  • the reading unit 31 reads out a candidate group of teacher data (support data) for training (S11).
  • the selection unit 32 randomly selects one pair of five types of support data (image data and accompanying text data) as teacher data from the candidate group (S12).
  • the selection unit 32 also selects an arbitrary number of pairs from the same five types as query data.
  • the selection unit 32 defines the same type of support data as the correct answer for the query data, and defines different types of support data as the incorrect answer for the query data. By defining , the data defining the correct or incorrect answer is added to the support data.
  • the support data indicating "pigeon” is defined as the correct answer
  • the support data indicating the other types (classes) is defined as the incorrect answer. It should be noted that the correct answer or the incorrect answer may be defined by the reading unit 31 .
  • the feature extraction unit 33 generates a mixed feature amount for query based on the query data acquired from the input unit 30, and extracts the support data of 5 types and 1 pair (a total of 5 pairs) selected by the selection unit 32.
  • a mixed feature quantity for support is generated based on a predetermined one of the support data (S13).
  • the feature extraction unit 33 receives defined set data of correct or incorrect answers (query data, support data, and definition data of correct or incorrect answers), and extracts the query data and support data included in the set data. is calculated and output to the similarity calculation unit.
  • a vector obtained by averaging the image feature amounts of the image data of each pair may be used as the image feature amount of the support data.
  • FIG. 7 is a flowchart showing detailed processing executed by the feature extraction unit.
  • the image understanding unit 41 extracts each image feature amount (image feature amount for query, image feature amount for support) based on each image data of query data and support data. (S131).
  • the text generation unit 42 generates each generation text data based on each image feature amount (S132).
  • steps S133 and S135, which will be described later, are not executed, and subsequently, the text understanding unit 43 acquires each text feature quantity (text feature quantity for query, text feature quantity for text) is extracted (S134).
  • the feature amount mixing unit 44 mixes the image feature amount for query and the text feature amount for query to generate a mixed feature amount for query, and mixes the image feature amount for support and the text feature amount for support. Then, a mixed feature quantity for support is generated (S136).
  • the similarity calculation unit 34 compares the mixed feature amount for query (an example of the first mixed feature amount) and the mixed feature amount for support (an example of the second mixed feature amount). Then, the image similarity is calculated (S14). At this time, the similarity calculation unit 34 calculates the similarity of each pair of query data and support data included in the set data, and passes it to the loss calculation unit.
  • the feature extracting unit 33 determines whether or not the calculation of the similarities for all five pairs out of the five types of one pair of support data (five pairs in total) selected by the selecting unit 32 has been completed (S15). ). Then, when the feature extraction unit 33 determines that the calculation of the similarities for all the five pairs of support data has not been completed (S15; NO), the process returns to step S13, and the calculation of the similarities has not been completed. Step S13 and subsequent steps are performed on the support data. As for the query data acquired from the input unit 30, since the mixed feature amount has already been generated, the reprocessing after step S13 is not performed.
  • the loss calculation unit 35 calculates the loss (S16). .
  • the loss calculation unit 35 calculates the loss based on the similarity of each pair of query data and support data included in each set data, and the definition data of correct or incorrect answers for each pair of support data with respect to the query data. do. Note that this degree of similarity includes the degree of similarity between images and the degree of similarity between accompanying texts.
  • the parameter updating unit 36 calculates the gradient of the loss, and updates (trains) the image similarity parameter of learning model A and the text generation probability parameter of learning model B (S17). At this time, the parameter updating unit 36 updates the parameters so as to minimize the loss.
  • the selection unit 32 determines whether or not a specified number of selections (for example, 20 times) has been completed (S18). For example, when the selection unit 32 selects 20 times as the prescribed number of times, 5 pairs of support data are selected in one selection, and thus 100 pairs of support data are selected in total. However, since the selection unit 32 randomly selects one pair of five types of support data (five pairs in total) from the candidate group, the same support data may be selected multiple times.
  • a specified number of selections for example, 20 times
  • 5 pairs of support data are selected in one selection, and thus 100 pairs of support data are selected in total.
  • the selection unit 32 randomly selects one pair of five types of support data (five pairs in total) from the candidate group, the same support data may be selected multiple times.
  • step S18 when the selection unit 32 determines that the specified number of selections has not been completed (S18; NO), the process returns to step S12, and the selection unit 32 selects a new random candidate from the candidate group. 1 pair of 5 types (total 5 pairs) of support data are selected, and then the processing from step S13 onwards is performed.
  • step S18 when the selection unit 32 determines that the specified number of selections has been completed (S18; YES), the processing of the training phase shown in FIG. 6 ends.
  • FIG. 8 is a flow chart showing the processing performed by the image classifier in the inference phase.
  • the input unit 30 inputs query data, which is data to be classified for inference (S30).
  • the reading unit 31 reads support data for inference (S31).
  • the feature extraction unit 33 generates a mixed feature amount for query based on the query data, which is the classification target data acquired from the input unit 30, and selects one pair of five types selected by the selection unit 32 (five pairs in total). ), a mixed feature amount for support is generated based on a predetermined one of the support data (S32).
  • FIG. 7 is a flowchart showing detailed processing executed by the feature extraction unit.
  • the image understanding unit 41 extracts each image feature amount (image feature amount for query, image feature amount for support) based on each image data of query data and support data. (S131).
  • the text generation unit 42 generates each generation text data based on each image feature amount (S132). In the inference phase, steps S133 and S135, which will be described later, are executed.
  • the text understanding unit 43 determines whether both the query data and the support data include associated text data, that is, whether the image data of the query data and the image data of the support data each include accompanying text data. (S133). Then, the text understanding unit 43 determines that both the query data and the support data include accompanying text data, that is, both the query data image data and the support data image data are accompanied by accompanying text data. (S133; YES), the text understanding unit 43 extracts each text feature amount (text feature amount for query, text for text feature amount) is extracted (S134).
  • step S133 if the text understanding unit 43 determines that both the query data and the support data do not include accompanying text data, that is, if both the query data image data and the support data image data When it is determined that accompanying text data is not attached (S133; NO), the text understanding section 43 performs the following processing.
  • the text understanding unit 43 extracts the text feature amount based on the accompanying text of the query data, Based on this, the text feature amount is extracted (S135).
  • the text understanding unit 43 extracts the text feature amount based on the accompanying text of the support data, and extracts the generated text of the query data. (S135).
  • the text understanding unit 43 performs , extracts the respective text features (S135).
  • the feature amount mixing unit 44 mixes the query image feature amount and the query text feature amount to generate a mixed feature amount for query, and also generates a mixed feature amount for query. and text features for support are mixed to generate a mixed feature for support (S136).
  • the similarity calculation unit 34 compares the mixed feature amount for query (an example of the first mixed feature amount) and the mixed feature amount for support (an example of the second mixed feature amount). Then, the image similarity is calculated (S33).
  • the extraction unit 33 determines whether the comparison of all five pairs of support data out of the five pairs of support data selected by the selection unit 32 (five pairs in total) has been completed (S34). ). Then, when the feature extraction unit 33 determines that the comparison of all five pairs of support data has not been completed (S35; NO), the process returns to step 32, and five types of one pair of support data (five pairs in total) are extracted. Step S32 and subsequent steps are performed for the support data for which the comparison of . As for the query data, which is the classification target data acquired from the input unit 30, since the mixed feature amount has already been generated, the reprocessing after step S32 is not performed.
  • step S34 when the feature extraction unit 33 determines that the comparison of all five pairs of support data has been completed (S34; YES), the output unit 39 outputs a , and outputs classification result data indicating the classification result (S35).
  • the image related to the classification target data is an image of a pigeon, and there is a 90% chance that it is a pigeon image and a 10% chance that it is another bird image. It is shown.
  • the image classification device 3 mixes the image feature amount of the image data and the text feature amount of the accompanying text data attached to the image data to obtain the mixed feature amount. Generate.
  • the image classification device 3 as a feature extraction device, can extract multimodal feature quantities compared to simply comparing feature quantities between image data and comparing text data. Effective.
  • the image classification device 3 extracts feature amounts related to image data with higher accuracy, thereby achieving the effect of being able to perform image classification with higher accuracy.
  • the present invention is not limited to the above-described embodiments, and may be configured or processed (operations) as described below.
  • the image classification device 3 can be realized by a computer and a program, but it is also possible to record this program on a (non-temporary) recording medium or provide it via the communication network 100.
  • the image classification device 3 is shown in the above embodiment, if the feature extraction unit 33 is specialized, it can be expressed as a feature extraction device. Further, both the image classification device 3 and the feature extraction device can be expressed as image processing devices.
  • the number of data can be inflated by performing rule-based paraphrasing of accompanying text data to be input.
  • paraphrasing there is a paraphrasing of "Thisbirdislarge” by replacing “big” in “Thisbirdisbig” with “large”.
  • An image processing device for extracting a feature amount of image data, an image understanding step of vectorizing the image pattern of the image data and extracting an image feature quantity; a text understanding step of vectorizing a text pattern of accompanying text data attached to the image data to extract a text feature quantity; Projecting the image feature amount extracted by the image understanding step and the text feature amount extracted by the text understanding step into the same vector space, and mixing the image feature amount and the text feature amount, A feature quantity mixing step of generating a mixed feature quantity as a feature quantity; An image processing device that executes
  • the image understanding step, the text understanding step, and the feature amount mixing step are each realized by a neural network, and the image understanding step, the text understanding step, and the feature amount mixing step are based on model parameters of the neural network. 2.
  • the image processing device according to additional item 2, The processor a text generating step of generating generated text data by projecting the image feature amount extracted by the image understanding step onto a vector space of the accompanying text data; a parameter update step of updating text generation probability parameters included in the model parameters based on the generated text data generated by the text generation step and the accompanying text data; An image processing device that executes
  • An image processing method executed by an image processing device for extracting a feature amount of image data The image processing device is an image understanding step of vectorizing the image pattern of the image data and extracting an image feature quantity; a text understanding step of vectorizing a text pattern of accompanying text data attached to the image data to extract a text feature quantity; By projecting the image feature amount extracted by the image understanding step and the text feature amount extracted by the text understanding step into the same vector space and mixing the image feature amount and the text feature amount, the A feature quantity mixing step of generating a mixed feature quantity as a feature quantity; An image processing method that performs
  • Appendix 7 A non-transitory recording medium recording a program that causes a computer to execute the method according to claim 6.
  • Communication system 3 Image classification device (an example of an image processing device) 5 Communication terminal 30 input unit (an example of input means) 31 reading unit 32 selection unit (an example of selection means) 33 feature extraction unit (an example of feature extraction means) 34 similarity calculation unit (an example of similarity calculation means) 35 loss calculation unit 36 parameter update unit (an example of parameter update means) 39 output unit 41 image understanding unit (an example of image understanding means) 42 text generator (an example of text generator) 43 text understanding unit (an example of text understanding means) 44 feature quantity mixing unit (an example of feature quantity mixing means) 422 decoder

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本開示内容は、マルチモーダルな特徴量を抽出することを目的とする。 そのため、本開示内容の画像処理装置は、画像データの特徴量を抽出する画像処理装置であって、画像データの画像パターンをベクトル化して画像特徴量を抽出する画像理解部41と、画像データに付随している付随テキストデータのテキストパターンをベクトル化してテキスト特徴量を抽出するテキスト理解部43と、画像理解部41によって抽出された画像特徴量とテキスト理解部43によって抽出されたテキスト特徴量を同じベクトル空間に射影して、画像特徴量とテキスト特徴量を混合することで、特徴量としての混合特徴量を生成する特徴量混合部44とを有する。

Description

画像処理装置、画像処理方法、及びプログラム
 本開示内容は、画像処理装置、画像処理方法、及びプログラムに関する。
 近年、AI(Artificial Intelligence)の進歩により、画像分類の精度が向上している。この画像分類は、例えば、何らかの画像(媒体)からその画像又は画像の中にある特定物が鳩なのか燕なのかをクラス分けすることである。
 従来、画像分類において、画像データ同士の特徴量の比較だけでなく、画像データに付随する又はユーザにより入力されたテキストデータ同士の比較結果を利用することで、画像分類の精度を向上させる技術が提案されている(非特許文献1参照)。この場合、例えば、鳩の画像と、画像中に写っている鳩を描写した文であるテキストデータが用いられる。
Shaping Visual Representations with Language for Few-Shot Classification
 しかしながら、従来技術では、画像データ同士の特徴量の比較、及びテキストデータ同士の比較は独立して行っているに過ぎないため、マルチモーダルな特徴量を抽出することができないという課題が生じる。
 本発明は、上記の点に鑑みてなされたものであって、従来に比べて、マルチモーダルな特徴量を抽出することを目的とする。
 上記課題を解決するため、請求項1に係る発明は、画像データの特徴量を抽出する画像処理装置であって、前記画像データの画像パターンをベクトル化して画像特徴量を抽出する画像理解手段と、前記画像データに付随している付随テキストデータのテキストパターンをベクトル化してテキスト特徴量を抽出するテキスト理解手段と、前記画像理解手段によって抽出された前記画像特徴量と前記テキスト理解手段によって抽出された前記テキスト特徴量を同じベクトル空間に射影して、前記画像特徴量と前記テキスト特徴量を混合することで、前記特徴量としての混合特徴量を生成する特徴量混合手段と、を有する画像処理装置である。
 以上説明したように本発明によれば、従来に比べて、マルチモーダルな特徴量を抽出することができるという効果を奏する。
本実施形態の通信システムの概略図である。 画像分類装置及び通信端末のハードウェア構成図である。 本発明の実施形態に係る画像分類装置の機能構成図である。 画像分類装置における特徴抽出部の詳細な機能構成図である。 特徴抽出部におけるテキスト生成部の詳細な機能構成図である。 訓練(学習)フェーズにおいて画像分類装置が実行する処理を示すフローチャートである。 特徴抽出部が実行する詳細な処理を示すフローチャートである。 推論フェーズにおいて画像分類装置が実行する処理を示すフローチャートである。
 以下、図面に基づいて本発明の実施形態を説明する。
 〔実施形態のシステム構成〕
 まず、図1を用いて、本実施形態の通信システム1の構成の概略について説明する。図1は、本発明の実施形態に係る通信システムの概略図である。
 図1に示されているように、本実施形態の通信システム1は、画像分類装置3、及び通信端末5によって構築されている。通信端末5は、ユーザYによって管理及び使用される。
 また、画像分類装置3と通信端末5は、インターネット等の通信ネットワーク100を介して通信することができる。通信ネットワーク100の接続形態は、無線又は有線のいずれでも良い。
 画像分類装置3は、単数又は複数のコンピュータによって構成されている。画像分類装置3が複数のコンピュータによって構成されている場合には、「画像分類装置」と示しても良いし、「画像分類システム」と示しても良い。
 画像分類装置3は、AI(Artificial Intelligence)により、画像分類を行う装置である。この画像分類は、例えば、何らかの画像(媒体)からその画像又は画像の中にある特定物が鳩なのか燕なのかをクラス分けすることである。そして、画像分類装置3は、画像分類した結果である分類結果データを出力する。出力方法としては、通信端末5に分類結果データを送信することにより、通信端末5側で分類結果データに係るグラフ等を表示又は印刷したり、画像分類装置3に接続されたディスプレイで上記グラフ等を表示したり、画像分類装置3に接続されたプリンタ等で上記グラフ等を印刷したりすることが挙げられる。
 通信端末5は、コンピュータであり、図1では、一例としてノート型パソコンが示されているが、ノード型に限るものではなく、デスクトップパソコンであってもよい。また、通信端末は、スマートフォン、又はタブレット型端末であってもよい。図1では、ユーザYが、通信端末5を操作する。
 〔画像分類装置及び通信端末のハードウェア構成〕
 次に、図2を用いて、画像分類装置3及び通信端末5のハードウェア構成を説明する。図2は、画像分類装置及び通信端末のハードウェア構成図である。
 図2に示されているように、画像分類装置3は、プロセッサ301、メモリ302、補助記憶装置303、接続装置304、通信装置305、ドライブ装置306を有する。なお、画像分類装置3を構成する各ハードウェアは、バス307を介して相互に接続される。
 プロセッサ301は、画像分類装置3全体の制御を行う制御部の役割を果たし、CPU(Central Processing Unit)等の各種演算デバイスを有する。プロセッサ301は、各種プログラムをメモリ302上に読み出して実行する。なお、プロセッサ301には、GPGPU(General-purpose computing on graphics processing units)が含まれていてもよい。
 メモリ302は、ROM(Read Only Memory)、RAM(Random Access Memory)等の主記憶デバイスを有する。プロセッサ301とメモリ302とは、いわゆるコンピュータを形成し、プロセッサ301が、メモリ302上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能を実現する。
 補助記憶装置303は、各種プログラムや、各種プログラムがプロセッサ301によって実行される際に用いられる各種情報を格納する。
 接続装置304は、外部装置(例えば、表示装置310、操作装置311)と画像分類装置3とを接続する接続デバイスである。
 通信装置305は、他の装置との間で各種情報を送受信するための通信デバイスである。
 ドライブ装置306は記録媒体330をセットするためのデバイスである。ここでいう記録媒体330には、CD-ROM(Compact Disc Read-Only Memory)、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体330には、ROM(Read Only Memory)、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。
 なお、補助記憶装置303にインストールされる各種プログラムは、例えば、配布された記録媒体330がドライブ装置306にセットされ、該記録媒体330に記録された各種プログラムがドライブ装置306により読み出されることでインストールされる。あるいは、補助記憶装置303にインストールされる各種プログラムは、通信装置305を介してネットワークからダウンロードされることで、インストールされてもよい。
 また、図2には、通信端末5のハードウェア構成が示されているが、符号が300番台から500番台に変わっただけで、各構成は同様であるため、これらの説明を省略する。
 〔画像分類装置の機能構成〕
 次に、図3を用いて、画像分類装置の機能構成について説明する。図3は、本発明の実施形態に係る画像分類装置の機能構成図である。
 図3において、画像分類装置3は、入力部30、読出部31、選択部32、特徴抽出部33、類似度計算部34、損失計算部35、パラメータ更新部36、及び出力部39を有している。これら各部は、プログラムに基づき図2のプロセッサ301による命令によって実現される機能である。
 更に、図2のメモリ302又は補助記憶装置303には、学習モデルA,Bが記憶されている。学習モデルAは、後述の多数の画像類似度パラメータによって構築されている。また、学習モデルBは、後述の多数のテキスト生成確率パラメータによって構築されている。更に、図2のメモリ302又は補助記憶装置303には、教師データとしてのサポートデータの候補群である多数の画像データが記憶されている。また、多数の画像データのそれぞれには、画像の内容を示すテキストデータが付随している。即ち、画像データと付随テキストデータによって1ペアのサポートデータが構成されており、図2のメモリ302又は補助記憶装置303には、大量のペアのサポートデータが記憶されている。例えば、1ペアのサポートデータには、鳩の画像データと、この画像データに付随して画像中に写っている鳩を描写した文であるテキストデータが含まれている。以降、この画像データに付随するテキストデータを「付随テキストデータ」と示す。なお、「付随している」には、テキストデータが画像データに付加されている場合、テキストデータと画像データが別々に入力又は出力されて関連づいている場合が含まれる。なお、画像データに付随するテキストデータが、画像分類装置33で画像データに基づいて生成され(生成テキストデータ)、この画像データに付加される場合もある。
 入力部30は、訓練用又は推論用の分類対象(評価対象)データとしてのクエリデータである画像データを入力する。例えば、入力部30は、ユーザYが通信端末5から画像分類装置3に対して送信したクエリデータを画像分類装置に入力する。このクエリデータである画像データには付随テキストデータが付随している。即ち、画像データと付随テキストデータによって1ペアのクエリデータが構成されている。なお、訓練フェーズの場合には、必ず付随テキストデータが付随されているが、推論フェーズの場合には、付随テキストデータが付随されていないことがある。付随テキストデータの付随の方法としては、画像データにキャプション(caption)されている場合と、ユーザYによる手入力の場合がある。多くの機械学習モデルでは、画像分類の推論に人間が介入することができないが、ユーザYによるテキストデータの入力を可能とすることで、ユーザYが画像分類の推論に介入することが可能となる。
 読出部31は、図2のメモリ302又は補助記憶装置303から、クエリデータと比較するためのサポートデータの候補群(M種類で、かつ各種類でjペア)を読み出す。例えば、Mが100でjが60である。この場合、合計で6000ペアが読み出されることになる。なお、Mが100でjが60は一例であり、Mが100超又は100未満であってもよく、jが60超又は60未満であってもよい。
 選択部32は、サポートデータの候補群から、クエリデータと比較するためのN種類kペアずつのサポートデータをランダムに選択する。ここでは例えばNが5種類で、kが1ペアずつ(合計5ペア)のサポートデータをランダムに選択したものとして以降の説明を行う。この5種類で1ペアずつのサポートデータを選択する方法は一般的に行われる処理であるが、選択部32は、必ずしも5種類で1ペアずつのサポートデータを選択する必要はない。例えば、10種類で2ペアずつ(合計20ペア)でもよい。なお、訓練用のサポートデータには、画像データ及び付随テキストデータに加えて、画像データの画像中に写っている被写体の種類(「クラス」)ともいう)を示す情報が付与されている、クラスは、例えば、画像が鳥の画像なのであれば、「鳩」、「鷹」、「燕」等など、鳥の種類を示すものとする。
 特徴抽出部33は、1ペアの中の画像データから画像特徴量を抽出し、更に、同じペアの中のテキストデータからテキスト特徴量も抽出する。更に、特徴抽出部33は、画像特徴量とテキスト特徴量を混合させて混合特徴量を生成する。また、特徴抽出部33は、画像特徴量からテキストデータも生成する。以降、画像特徴量から生成されたテキストデータを「生成テキストデータ」と示す。即ち、生成テキストデータは、画像由来のテキストデータであり、テキスト由来の付随テキストデータとは種類が異なる。
 <特徴抽出部>
 ここで、図4を用いて、画像分類装置における特徴抽出部を詳細に説明する、図4は、画像分類装置における特徴抽出部の詳細な機能構成図である。
 図4に示されているように、特徴抽出部33は、画像理解部41、テキスト生成部42、テキスト理解部43、及び特徴量混合部44を有している。なお、画像理解部41、テキスト生成部42、特徴量混合部44、及び類似度計算部34には、任意のニューラルネットワークを使用することができる。例えば、画像理解部41に4層のCNN(Convolutional Neural Network)が使用されている。テキスト生成部42及びテキスト理解部43の事前学習を行うことで、テキスト生成能力及びテキスト理解能力を向上させる。
 これらのうち、画像理解部41は、入力部30からクエリデータのうちの画像データ(第1の画像データの一例)を取得すると共に、選択部32から5種類1ペアのうちの特定の1ペアのサポートデータのうちの画像データ(第2の画像データの一例)を取得する。そして、画像理解部41は、クエリデータの画像データの画像パターンをベクトル化してクエリ用の画像特徴量を抽出すると共に、サポートデータの画像データの画像パターンをベクトル化してサポート用の画像特徴量を抽出する。画像特徴量はベクトルであり、テキスト生成部42は任意のニューラルネットワークを利用でき、画像特徴量を初期値とするRNN(Recurrent neural network)やTransformerが一般的である。
 テキスト生成部42は、画像理解部41が抽出したクエリ用の画像特徴量をテキストデータのベクトル空間に射影し、デコードすることで、画像由来のクエリ用の生成テキストデータを生成すると共に、画像理解部41が抽出したサポート用の画像特徴量をテキストデータのベクトル空間に射影し、デコードすることで、画像由来のサポート用の生成テキストデータを生成する。
 (テキスト生成部)
 ここで、図5を用いて、テキスト生成部42について、更に詳細に説明する。図5は、テキスト生成部の詳細な機能ブロック図である。
 図5に示されているように、テキスト生成部42は、線形変換層421、及びデコーダ422を有している。更に、線形変換層421は線形変換層用パラメータ421pを保持しており、デコーダ422はデコーダパラメータ422pを保持している。なお、線形変換層用パラメータ421p及びデコーダパラメータ422pは、図4に示されている学習モデルBに含まれている。
 線形変換層421は、線形変換層用パラメータ421pを用いることで、画像理解部41から取得した画像特徴量を付随テキストデータのベクトル空間に射影することで、画像由来の特徴量を抽出する。
 デコーダ422は、デコーダパラメータ422pを用いることで、線形変換層421から取得した特徴量から、画像由来の生成テキストデータを生成する。
 ここで、テキスト生成部42及びテキスト理解部43に、既存の事前学習済み言語モデルを流用することで、テキスト生成部42及びテキスト理解部43の事前学習を行ったとみなすことができる。但し、テキスト生成部42については既存の言語モデルをそのまま利用することができない。これは、テキストを生成する能力を有する既存の言語モデルが、Encoder-Decoder型の構造を持つためである。
 Encoder-Decoder型の構造を持つ言語モデルについては、例えば、参考文献(Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer)に開示されている。Encoder-Decoder型の構造とは、まずテキストを入力として与えられてEncoderによって特徴量に変換し、Decoderにその特徴量を入力し、Decoderがテキストを生成する構造のことをいう。本実施形態においては、テキスト生成部62に画像特徴量が入力されるため、参考文献における既存の言語モデルのEncoderを使用せず、代わりに線形変換層などの任意のニューラルネットワークをDecoderの前に追加する。この構成によって、画像特徴量を言語モデルに適した特徴量に変換し、Decoderに入力し、テキストを生成することが可能になる。
 続いて、図4に戻り、テキスト理解部43は、入力部30からクエリデータのうちの付随テキストデータを取得すると共に、選択部32から5種類1ペアのうちの特定の1ペアのサポートデータのうちの付随テキストデータを取得する。そして、テキスト理解部43は、クエリデータの付随テキストデータのテキストパターンをベクトル化してクエリ用のテキスト特徴量を抽出すると共に、サポートデータの付随テキストデータのテキストパターンをベクトル化してサポート用のテキスト特徴量を抽出する。
 例えば、テキスト理解部43は、BERT(Bidirectional Encoder Representations from Transformers)などの既存の言語モデルによってテキストデータをベクトルに変換する。
 なお、上述のように、訓練フェーズでは画像データに付随テキストデータが付随されているが、推論フェーズでは画像データに付随テキストデータが付随されていない場合がある。このような場合には、テキスト理解部43は、テキスト生成部42が生成した画像由来のクエリ用の生成テキストデータを付随テキストデータとする(みなす)ことで、画像由来ではあるがクエリ用のテキストデータの特徴量を抽出する。
 次に、特徴量混合部44は、画像理解部41によって抽出されたクエリ用の画像特徴量と、テキスト理解部43によって抽出されたクエリ用のテキスト特徴量とを同じベクトル空間に射影して、クエリ用の画像特徴量とクエリ用のテキスト特徴量を混合することで、クエリ用の特徴量としての混合特徴量を生成する。同様に、特徴量混合部44は、画像理解部41によって抽出されたサポート用の画像特徴量とテキスト理解部43によって抽出されたサポート用のテキスト特徴量とを同じベクトル空間に射影して、サポート用の画像特徴量とサポート用のテキスト特徴量を混合することで、サポート用の特徴量としての混合特徴量を生成する。なお、画像特徴量とテキスト特徴量を混合する処理は、一方の特徴量のベクトル空間に他方の特徴量を射影する場合と、互いに異なる第三のベクトル空間に射影する場合がある。
 例えば、特徴量混合部44は、画像特徴量とテキスト特徴量の双方を類似度計算に反映することが可能となる。特徴量混合部44は画像特徴量とテキスト特徴量の双方を入力として受け付ける任意のニューラルネットワークが利用可能である。
 ここで、特徴量混合部44について、更に詳細に説明する。
 特徴量混合部44として以下のモデルを利用する。画像特徴量をximage、テキスト理解部43が出力するテキスト特徴量をxLangとする。MLP(Multilayer perceptron)を3層ニューラルネットワークとする。Linearを2次元への線形変換層とする。[ ; ]をベクトルを縦に繋げる操作とする。このとき、特徴量混合部が出力するベクトルhは、(式1)、(式2)、(式3)により、以下のように示される。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
 まず、特徴量混合部44は、(式1)を用いて、MLPによってBERTが出力するテキスト特徴量を画像特徴量と同じ空間に射影する(zLang)。
 次に、特徴量混合部44は、(式2)を用いて、画像特徴量とテキスト特徴量の重要度をλimageとλLangによって動的に決定している。λimage,λLangは、和が1になる非負の数であることがsoftmax演算によって保証されている。例えば、画像データの元の解像度が低い場合(画像中で目的の物体が極端に小さく、ぼやけて写っている場合)には、画像データに付随されている付随テキストデータが分類結果に与える度合いを大きくするようにλimageとλLangが動的に決定される。また、ユーザ自身がλimageとλLangを0から1の範囲に調整することで、ユーザが入力したテキストが分類結果に反映される度合いを手動で変更することも可能である。なお、Linearは重み行列を左から掛け,バイアスベクトルを加える操作のことである。Linear操作中の重み行列とバイアスベクトルが、学習モデルAの画像類似度パラメータ及び学習モデルBのテキスト生成確率パラメータに含まれる。
 最後に、特徴量混合部44は、(式3)を用いて、出力する特徴量を重要度による重み付き和によって決定している。
 また、図4に示されているように、学習モデルAの画像類似度パラメータは、画像理解部41、テキスト理解部43、及び特徴量混合部44が各処理を実行する場合に使用される。学習モデルBのテキスト生成確率パラメータは、画像理解部41及びテキスト生成部42が各処理を実行する場合に用いられる。但し、推論フェーズの場合で、画像データに付随テキストデータが付随されているときには、学習モデルBのテキスト生成確率パラメータは使用されない。
 なお、訓練フェーズの場合には、画像データに付随テキストデータが付随されているときであっても、学習モデルBのテキスト生成確率パラメータは使用され、訓練(学習)による更新も行われる。このようにするのは、推論フェーズの場合に、画像データに付随テキストデータが付随されていないときでも、テキスト生成部42が生成テキストデータを生成することができるようにするためである。また、学習モデルBを訓練(学習)することで、テキスト生成確率パラメータを使用する画像理解部41の理解能力が向上するという良い影響を与えるためでもある。
 続いて、図3に戻り、類似度計算部34は、クエリ用の混合特徴量とサポート用の混合特徴量を比較して画像類似度を計算する。推論フェーズの場合、この画像類似度は出力部39に出力されて画像分類の分類結果データに用いられる。一方、訓練フェーズの場合、この画像類似度は損失計算部35に出力される。
 例えば、類似度計算部34は、双線形層である。ここで、N-way k-shot image classificationを考える。類似度計算部54では、まず各クラスについてk個のサポート特徴量(ベクトル)が与えられる。これらを平均したベクトルをクラス特徴量とする。N個のクラス特徴量(ベクトル)を並べた行列をXとする。クエリデータの特徴量をy、学習可能なパラメータをWとする。このとき、クエリデータが各クラスであることのスコアは以下のように表される。
Figure JPOXMLDOC01-appb-M000004
 このベクトルの各成分が、クエリデータが各クラスに属することの確からしさを示す。
 損失計算部35は、画像類似度から損失関数値を計算する。また、損失計算部35は、クエリデータ・サポートデータの生成テキストデータと、クエリデータ・サポートデータの生成確率分布と、クエリデータ・サポートデータの付随テキストデータから損失関数値を計算する。
 例えば、損失計算部35が計算する損失関数には、類似度計算部34の分類スコアやテキスト生成に関する任意の損失を利用することができる。標準的にはCross-Entropy Lossや負の対数尤度関数が用いられる。
 パラメータ更新部36は、類似度計算部34によって計算された画像類似度から損失計算部35によって計算された損失関数値に基づいて、特徴抽出部33、類似度計算部34を構成するニューラルネットワークの学習モデルAの画像類似度パラメータを更新する。この場合、損失計算部35は、サポートデータの画像データとクエリデータの画像データの類似度が縮まるように、更には、不正解画像との類似度は大きくなるように学習を行う。
 また、パラメータ更新部36は、損失計算部35によって計算された損失関数値に基づいて、特徴抽出部33、類似度計算部34を構成するニューラルネットワークの学習モデルBのテキスト生成確率パラメータを更新する。この場合、損失計算部35は、生成テキストデータが付随テキストデータに類似する確率が高くなるように学習を行う。
 例えば、パラメータ更新部56は、損失計算部35によって計算された損失に基づいて、損失の勾配を計算し、パラメータを更新する。
 〔実施形態の処理又は動作〕
 続いて、図6乃至図8を用いて、本実施形態の処理又は動作について詳細に説明する。なお、訓練(学習)フェーズと推論フェーズに分けて説明する。
 <訓練フェーズ>
 まずは、図6及び図7を用いて、訓練フェーズについて説明する。図6は、訓練(学習)フェーズにおいて画像分類装置が実行する処理を示すフローチャートである。
 まず、入力部30は、訓練用の教師データ(クエリデータ)を入力する(S10)。読出部31は、訓練用の教師データ(サポートデータ)の候補群を読み出す(S11)。選択部32は、候補群から教師データとしてランダムに5種類1ペア(画像データと付随テキストデータ)のサポートデータを選択する(S12)。また、選択部32は、同じ5種類から任意の数のペアをクエリデータとして選択する。この際、選択部32は、選択した各クエリデータに対して、同じ種類のサポートデータを、該クエリデータに対する正解であると定義し、異なる種類のサポートデータを、該クエリデータに対する不正解であると定義することで、サポートデータに正解又は不正解を定義したデータを付加する。例えば、クエリデータが「鳩」を示す場合、サポートデータの5種の内、「鳩」を示すサポートデータは正解、その他の種類(クラス)を示すサポートデータは不正解と定義される。なお、正解又は不正解の定義は、読出部31によって行われてもよい。
 次に、特徴抽出部33は、入力部30から取得したクエリデータに基づいてクエリ用の混合特徴量を生成すると共に、選択部32が選択した5種類1ペア(合計5ペア)のサポートデータのうちの所定の1つのサポートデータに基づいてサポート用の混合特徴量を生成する(S13)。この際、特徴抽出部33は、正解又は不正解の定義済みのセットデータ(クエリデータ、サポートデータ、及び正解又は不正解の定義データ)を受け取り、このセットデータ内に含まれるクエリデータ、サポートデータの混合特徴量を算出して類似度計算部に出力する。なお、この際、サポートデータのペア数kが2以上の場合は、各ペアの画像のデータの画像特徴量を平均したベクトルを、そのサポートデータの画像特徴量とすればよい。
 ここで、図7を用いて、特徴抽出部が実行する詳細な処理を説明する。図7は、特徴抽出部が実行する詳細な処理を示すフローチャートである。
 図7に示されているように、画像理解部41は、クエリデータ及びサポートデータの各画像データに基づいて、各画像特徴量(クエリ用の画像特徴量、サポート用の画像特徴量)を抽出する(S131)。テキスト生成部42は、各画像特徴量に基づいて、各生成テキストデータを生成する(S132)。訓練フェーズでは、後述のステップS133,S135は実行されず、続いて、テキスト理解部43は、クエリデータ及びサポートデータの各付随テキストデータに基づいて、各テキスト特徴量(クエリ用のテキスト特徴量、テキスト用のテキスト特徴量)を抽出する(S134)。特徴量混合部44は、クエリ用の画像特徴量とクエリ用のテキスト特徴量を混合してクエリ用の混合特徴量を生成すると共に、サポート用の画像特徴量とサポート用のテキスト特徴量を混合してサポート用の混合特徴量を生成する(S136)。
 続いて、図6に戻り、類似度計算部34は、クエリ用の混合特徴量(第1の混合特徴量の一例)とサポート用の混合特徴量(第2の混合特徴量の一例)を比較して、画像類似度を計算する(S14)。この際、類似度計算部34は、セットデータ内に含まれるクエリデータとサポートデータ各ペアの類似度を計算して損失計算部に渡す。
 そして、特徴抽出部33が、選択部32によって選択された5種類1ペア(合計5ペア)のサポートデータのうちの5ペア全ての類似度の計算が終了しているか否かを判断する(S15)。そして、特徴抽出部33が、5ペア全てのサポートデータに対する類似度の計算が終了していないと判断した場合には(S15;NO)、ステップS13に戻り、類似度の計算が終了していないサポートデータに対して、ステップS13以降が行われる。なお、入力部30から取得されたクエリデータに関しては、既に混合特徴量が生成されているため、ステップS13以降の再処理は行われない。
 一方、ステップS15において、特徴抽出部33が、5ペア全ての類似度の計算が終了していると判断した場合には(S15;YES)、損失計算部35は、損失を計算する(S16)。この際、損失計算部35は、各セットデータ内に含まれるクエリデータとサポートデータのペアの各類似度、クエリデータに対するサポートデータの各ペアの正解又は不正解の定義データを基に損失を計算する。なお、この類似度には、画像間の類似度と、付随テキスト間の類似度が含まれる。
 次に、パラメータ更新部36が、損失の勾配を計算し、学習モデルAの画像類似度パラメータ、及び学習モデルBのテキスト生成確率パラメータを更新(訓練)する(S17)。この際、パラメータ更新部36は、上記損失を最小化するよう、パラメータを更新する。
 次に、選択部32が、規定回数(例えば、20回)の選択を終了したかを判断する(S18)。例えば、選択部32が、規定回数として20回の選択をする場合、1回の選択で5ペアのサポートデータを選択するため、合計で100ペアのサポートデータを選択することになる。但し、選択部32は、候補群からランダムに5種類1ペア(合計5ペア)のサポートデータを選択するため、同じサポートデータが複数回選択される場合が生じる。
 そして、上記ステップS18において、選択部32が、規定回数の選択が終了していないと判断した場合には(S18;NO)、ステップS12の処理に戻り、選択部32は新たに候補群からランダムに5種類1ペア(合計5ペア)のサポートデータを選択し、その後、ステップS13以降の処理が行われる。
 一方、上記ステップS18において、選択部32が、規定回数の選択が終了していると判断した場合には(S18;YES)、図6に示されている訓練フェーズの処理が終了する。
 <推論フェーズ>
 次に、図7及び図8を用いて、訓練フェーズについて説明する。図8は、推論フェーズにおいて画像分類装置が実行する処理を示すフローチャートである。
 まず、入力部30は、推論用の分類対象データであるクエリデータを入力する(S30)。読出部31は、推論用のサポートデータを読み出す(S31)。
 次に、特徴抽出部33は、入力部30から取得した分類対象データであるクエリデータに基づいてクエリ用の混合特徴量を生成すると共に、選択部32が選択した5種類1ペア(合計5ペア)のサポートデータのうちの所定の1つのサポートデータに基づいてサポート用の混合特徴量を生成する(S32)。ここで、図7を用いて、特徴抽出部が実行する詳細な処理を説明する。図7は、特徴抽出部が実行する詳細な処理を示すフローチャートである。
 図7に示されているように、画像理解部41は、クエリデータ及びサポートデータの各画像データに基づいて、各画像特徴量(クエリ用の画像特徴量、サポート用の画像特徴量)を抽出する(S131)。テキスト生成部42は、各画像特徴量に基づいて、各生成テキストデータを生成する(S132)。推論フェーズでは、後述のステップS133,S135は実行される。
 よって、テキスト理解部43は、クエリデータとサポートデータの両方にそれそれ付随テキストデータが含まれているか、即ち、クエリデータの画像データとサポートデータの画像データの両方にそれぞれ付随テキストデータが付随されているかを判断する(S133)。そして、テキスト理解部43は、クエリデータとサポートデータの両方にそれそれ付随テキストデータが含まれている、即ち、クエリデータの画像データとサポートデータの画像データの両方にそれぞれ付随テキストデータが付随されていると判断した場合には(S133;YES)、テキスト理解部43は、クエリデータ及びサポートデータの各付随テキストデータに基づいて、各テキスト特徴量(クエリ用のテキスト特徴量、テキスト用のテキスト特徴量)を抽出する(S134)。
 一方、ステップS133において、テキスト理解部43が、クエリデータとサポートデータの両方にそれぞれ付随テキストデータが含まれていないと判断した場合、即ち、クエリデータの画像データとサポートデータの画像データの両方にそれぞれ付随テキストデータが付随されていないと判断した場合には(S133;NO)、テキスト理解部43は、以下の処理を行う。
 即ち、上記の場合(S133;NO)、サポートデータに付随データが含まれていないときには、テキスト理解部43は、クエリデータの付随テキストに基づいてテキスト特徴量を抽出し、サポートデータの生成テキストに基づいてテキスト特徴量を抽出する(S135)。同様の場合であって(S133;NO)、クエリデータに付随データが含まれていないときには、テキスト理解部43は、サポートデータの付随テキストに基づいてテキスト特徴量を抽出し、クエリデータの生成テキストに基づいてテキスト特徴量を抽出する(S135)。同様の場合であって(S133;NO)、クエリデータとサポートデータの両方にそれぞれ付随テキストデータが含まれていないときには、テキスト理解部43は、クエリデータ及びサポートデータのそれぞれの生成テキストに基づいて、それぞれのテキスト特徴量を抽出する(S135)。
 そして、ステップS134又はS135の後、特徴量混合部44は、クエリ用の画像特徴量とクエリ用のテキスト特徴量を混合してクエリ用の混合特徴量を生成すると共に、サポート用の画像特徴量とサポート用のテキスト特徴量を混合してサポート用の混合特徴量を生成する(S136)。
 続いて、図8に戻り、類似度計算部34は、クエリ用の混合特徴量(第1の混合特徴量の一例)とサポート用の混合特徴量(第2の混合特徴量の一例)を比較して、画像類似度を計算する(S33)。
 次に、抽出部33が、選択部32によって選択された5種類1ペア(合計5ペア)のサポートデータのうちの5ペア全てのサポートデータに対する比較が終了しているか否かを判断する(S34)。そして、特徴抽出部33が、5ペア全てのサポートデータに対する比較が終了していないと判断した場合には(S35;NO)、ステップ32に戻り、5種類1ペア(合計5ペア)のサポートデータの比較が終了していないサポートデータに対して、ステップS32以降が行われる。なお、入力部30から取得された分類対象データであるクエリデータに関しては、既に混合特徴量が生成されているため、ステップS32以降の再処理は行われない。
 一方、ステップS34において、特徴抽出部33が、5ペア全てのサポートデータに対する比較が終了していると判断した場合には(S34;YES)、出力部39は、これまでの比較結果に基づいて、分類結果を示す分類結果データを出力する(S35)。分類結果データには、例えば、分類対象データに係る画像は、鳩の画像である、鳩の画像である可能性が90%であり、他の鳥の画像である可能性が10%である等が示されている。
 〔実施形態の主な効果〕
 以上説明したように本実施形態によれば、画像分類装置3は、画像データの画像特徴量と、画像データに付随している付随テキストデータのテキスト特徴量を混合することで、混合特徴量を生成する。これにより、画像分類装置3は、特徴抽出装置として、単に、画像像データ同士の特徴量の比較、及びテキストデータ同士の比較の場合に比べて、マルチモーダルな特徴量を抽出することができるという効果を奏する。また、画像分類装置3は、より高精度な画像データに関する特徴量を抽出することで、より高精度な画像分類を行うことができるという効果を奏する。
 〔補足〕
 本発明は上述の実施形態に限定されるものではなく、以下に示すような構成又は処理(動作)であってもよい。
 画像分類装置3はコンピュータとプログラムによって実現できるが、このプログラムを(非一時的)記録媒体に記録することも、通信ネットワーク100を介して提供することも可能である。
 上記実施形態では、画像分類装置3が示されているが、特徴抽出部33に特化した場合には、特徴抽出装置と表現することが可能である。また、画像分類装置3及び特徴抽出装置は、共に画像処理装置と表現することが可能である。
 また、上記実施形態以外に、ニューラルネットワークの学習で用いられる任意の処理を、上記実施形態に追加することができる。例えば、入力する付随テキストデータについてルールベースによる言い換えを行うことでデータの数を水増しすることができる。言い換え例としては、「This bird is big」の「big」を「large」に言い換えて、「This bird is large」とする言い換えがある。
 〔付記項〕
 上述の実施形態には、以下に示す発明としても表すことができる。
 〔付記項1〕
 画像データの特徴量を抽出する画像処理装置であって、
 前記画像データの画像パターンをベクトル化して画像特徴量を抽出する画像理解ステップと、
 前記画像データに付随している付随テキストデータのテキストパターンをベクトル化してテキスト特徴量を抽出するテキスト理解ステップと、
 前記画像理解ステップによって抽出された前記画像特徴量と前記テキスト理解ステップによって抽出された前記テキスト特徴量を同じベクトル空間に射影して、前記画像特徴量と前記テキスト特徴量を混合することで、前記特徴量としての混合特徴量を生成する特徴量混合ステップと、
 を実行する画像処理装置。
 〔付記項2〕
 前記画像理解ステップ、前記テキスト理解ステップ、及び前記特徴量混合ステップは、それぞれニューラルネットワークで実現され、前記画像理解ステップ、前記テキスト理解ステップ、及び前記特徴量混合ステップは前記ニューラルネットワークのモデルパラメータに基づいて処理を行う、付記項1に記載の画像処理装置。
 〔付記項3〕
 付記項2に記載の画像処理装置であって、
 前記プロセッサは、
 前記特徴量混合ステップによって生成された第1の画像データに係る第1の混合特徴量、及び前記特徴量混合ステップによって生成された第2の画像データに係る第2の混合特徴量の画像類似度を計算する類似度計算ステップと、
 前記類似度計算ステップによって計算された前記画像類似度に基づいて、前記モデルパラメータに含まれる画像類似度パラメータを更新するパラメータ更新ステップと、
 を実行する画像処理装置。
 〔付記項4〕
 付記項2に記載の画像処理装置であって、
 前記プロセッサは、
 前記画像理解ステップによって抽出された前記画像特徴量を前記付随テキストデータのベクトル空間に射影することで生成テキストデータを生成するテキスト生成ステップと、
 前記テキスト生成ステップによって生成された前記生成テキストデータと前記付随テキストデータに基づいて、前記モデルパラメータに含まれるテキスト生成確率パラメータを更新するパラメータ更新ステップと、
 を実行する画像処理装置。
 〔付記項5〕
 付記項1に記載の画像処理装置であって、
 前記プロセッサは、
 前記画像理解ステップによって抽出された前記画像特徴量を前記付随テキストデータのベクトル空間に射影することで生成テキストデータを生成するテキスト生成ステップを実行し、
 前記画像データに前記付随テキストデータが付随していない場合には、前記テキスト理解ステップは、前記テキスト生成ステップによって生成された前記生成テキストデータを前記付随テキストデータとすることで、前記テキスト特徴量を抽出する処理を含む、画像処理装置。
 〔付記項6〕
 画像データの特徴量を抽出する画像処理装置が実行する画像処理方法であって、
 前記画像処理装置は、
 前記画像データの画像パターンをベクトル化して画像特徴量を抽出する画像理解ステップと、
 前記画像データに付随している付随テキストデータのテキストパターンをベクトル化してテキスト特徴量を抽出するテキスト理解ステップと、
 前記画像理解ステップによって抽出された前記画像特徴量と前記テキスト理解ステップによって抽出された前記テキスト特徴量を同じベクトル空間に射影して、前記画像特徴量と前記テキスト特徴量を混合することで、前記特徴量としての混合特徴量を生成する特徴量混合ステップと、
 を実行する画像処理方法。
 〔付記項7〕
 コンピュータに、付記項6に記載の方法を実行させるプログラムを記録した非一時的記録媒体。
1 通信システム
3 画像分類装置(画像処理装置の一例)
5 通信端末
30  入力部(入力手段の一例)
31 読出部
32 選択部(選択手段の一例)
33 特徴抽出部(特徴抽出手段の一例)
34 類似度計算部(類似度計算手段の一例)
35 損失計算部
36 パラメータ更新部(パラメータ更新手段の一例)
39 出力部
41 画像理解部(画像理解手段の一例)
42 テキスト生成部(テキスト生成手段の一例)
43 テキスト理解部(テキスト理解手段の一例)
44 特徴量混合部(特徴量混合手段の一例)
422 デコーダ

Claims (8)

  1.  画像データの特徴量を抽出する画像処理装置であって、
     前記画像データの画像パターンをベクトル化して画像特徴量を抽出する画像理解手段と、
     前記画像データに付随している付随テキストデータのテキストパターンをベクトル化してテキスト特徴量を抽出するテキスト理解手段と、
     前記画像理解手段によって抽出された前記画像特徴量と前記テキスト理解手段によって抽出された前記テキスト特徴量を同じベクトル空間に射影して、前記画像特徴量と前記テキスト特徴量を混合することで、前記特徴量としての混合特徴量を生成する特徴量混合手段と、
     を有する画像処理装置。
  2.  前記画像理解手段、前記テキスト理解手段、及び前記特徴量混合手段は、それぞれニューラルネットワークで構成され、前記画像理解手段、前記テキスト理解手段、及び前記特徴量混合手段は前記ニューラルネットワークのモデルパラメータに基づいて処理を行う、請求項1に記載の画像処理装置。
  3.  請求項2に記載の画像処理装置であって、
     前記特徴量混合手段によって生成された第1の画像データに係る第1の混合特徴量、及び前記特徴量混合手段によって生成された第2の画像データに係る第2の混合特徴量の画像類似度を計算する類似度計算手段と、
     前記類似度計算手段によって計算された前記画像類似度に基づいて、前記モデルパラメータに含まれる画像類似度パラメータを更新するパラメータ更新手段と、
     を有する画像処理装置。
  4.  請求項2に記載の画像処理装置であって、
     前記画像理解手段によって抽出された前記画像特徴量を前記付随テキストデータのベクトル空間に射影することで生成テキストデータを生成するテキスト生成手段を有し、
     前記テキスト生成手段によって生成された前記生成テキストデータと前記付随テキストデータに基づいて、前記モデルパラメータに含まれるテキスト生成確率パラメータを更新するパラメータ更新手段と、
     を有する画像処理装置。
  5.  請求項1に記載の画像処理装置であって、
     前記画像理解手段によって抽出された前記画像特徴量を前記付随テキストデータのベクトル空間に射影することで生成テキストデータを生成するテキスト生成手段を有し、
     前記画像データに前記付随テキストデータが付随していない場合には、前記テキスト理解手段は、前記テキスト生成手段によって生成された前記生成テキストデータを前記付随テキストデータとすることで、前記テキスト特徴量を抽出する画像処理装置。
  6.  請求項2乃至5のいずれか一項に記載の画像処理装置と、
     通信ネットワークを介して前記画像処理装置に前記画像データを送信し、前記通信ネットワークを介して前記画像処理装置から前画像類似度に基づく画像の分類結果データを受信する通信端末と、
     を有する通信システム。
  7.  画像データの特徴量を抽出する画像処理装置が実行する画像処理方法であって、
     前記画像処理装置は、
     前記画像データの画像パターンをベクトル化して画像特徴量を抽出する画像理解ステップと、
     前記画像データに付随している付随テキストデータのテキストパターンをベクトル化してテキスト特徴量を抽出するテキスト理解ステップと、
     前記画像理解ステップによって抽出された前記画像特徴量と前記テキスト理解ステップによって抽出された前記テキスト特徴量を同じベクトル空間に射影して、前記画像特徴量と前記テキスト特徴量を混合することで、前記特徴量としての混合特徴量を生成する特徴量混合ステップと、
     を実行する画像処理方法。
  8.  コンピュータに、請求項7に記載の方法を実行させるプログラム。
PCT/JP2021/041801 2021-11-12 2021-11-12 画像処理装置、画像処理方法、及びプログラム WO2023084759A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2021/041801 WO2023084759A1 (ja) 2021-11-12 2021-11-12 画像処理装置、画像処理方法、及びプログラム
JP2023559416A JPWO2023084833A1 (ja) 2021-11-12 2022-06-24
PCT/JP2022/025412 WO2023084833A1 (ja) 2021-11-12 2022-06-24 画像処理装置、画像処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/041801 WO2023084759A1 (ja) 2021-11-12 2021-11-12 画像処理装置、画像処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2023084759A1 true WO2023084759A1 (ja) 2023-05-19

Family

ID=86335445

Family Applications (2)

Application Number Title Priority Date Filing Date
PCT/JP2021/041801 WO2023084759A1 (ja) 2021-11-12 2021-11-12 画像処理装置、画像処理方法、及びプログラム
PCT/JP2022/025412 WO2023084833A1 (ja) 2021-11-12 2022-06-24 画像処理装置、画像処理方法、及びプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/025412 WO2023084833A1 (ja) 2021-11-12 2022-06-24 画像処理装置、画像処理方法、及びプログラム

Country Status (2)

Country Link
JP (1) JPWO2023084833A1 (ja)
WO (2) WO2023084759A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020052463A (ja) * 2018-09-21 2020-04-02 株式会社マクロミル 情報処理方法および情報処理装置
US20200311467A1 (en) * 2019-03-29 2020-10-01 Microsoft Technology Licensing, Llc Generating multi modal image representation for an image

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020052463A (ja) * 2018-09-21 2020-04-02 株式会社マクロミル 情報処理方法および情報処理装置
US20200311467A1 (en) * 2019-03-29 2020-10-01 Microsoft Technology Licensing, Llc Generating multi modal image representation for an image

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WATANABE, YASUHIKO, NAGAO, MAKOTO: "Image Analysis Using Natural Language Information Extracted from Explanation Text", JOURNAL OF THE JAPANESE SOCIETY FOR ARTIFICIAL INTELLIGENCE, vol. 13, no. 1, 1 January 1998 (1998-01-01), pages 66 - 74, XP093065527 *

Also Published As

Publication number Publication date
JPWO2023084833A1 (ja) 2023-05-19
WO2023084833A1 (ja) 2023-05-19

Similar Documents

Publication Publication Date Title
Murphy Probabilistic machine learning: an introduction
US11507800B2 (en) Semantic class localization digital environment
Zhou et al. Deep semantic dictionary learning for multi-label image classification
US11023806B2 (en) Learning apparatus, identifying apparatus, learning and identifying system, and recording medium
US11030997B2 (en) Slim embedding layers for recurrent neural language models
CN108959482B (zh) 基于深度学习的单轮对话数据分类方法、装置和电子设备
CN109815459A (zh) 生成被调整到目标受众词汇的文本内容的目标概要
CN112487182A (zh) 文本处理模型的训练方法、文本处理方法及装置
JP6772213B2 (ja) 質問応答装置、質問応答方法及びプログラム
CN111105013B (zh) 对抗网络架构的优化方法、图像描述生成方法和系统
WO2019146057A1 (ja) 学習装置、実写画像分類装置の生成システム、実写画像分類装置の生成装置、学習方法及びプログラム
CN112329476A (zh) 一种文本纠错方法及装置、设备、存储介质
CN115221846A (zh) 一种数据处理方法及相关设备
CN111079374A (zh) 字体生成方法、装置和存储介质
CN112000788A (zh) 一种数据处理方法、装置以及计算机可读存储介质
CN113408674B (zh) 模型训练方法及装置、图像识别方法及装置
CN111538841A (zh) 基于知识互蒸馏的评论情感分析方法、装置及系统
CN113435531B (zh) 零样本图像分类方法、系统、电子设备及存储介质
James et al. Deep learning
CN114444476A (zh) 信息处理方法、装置和计算机可读存储介质
CN111488460A (zh) 数据处理方法、装置和计算机可读存储介质
CN111445545B (zh) 一种文本转贴图方法、装置、存储介质及电子设备
KR20220081398A (ko) 검색어 추천 장치, 방법 및 기록매체
WO2023084759A1 (ja) 画像処理装置、画像処理方法、及びプログラム
JP6947460B1 (ja) プログラム、情報処理装置、及び方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21964113

Country of ref document: EP

Kind code of ref document: A1