WO2023228276A1 - 画像処理装置、方法およびプログラム - Google Patents

画像処理装置、方法およびプログラム Download PDF

Info

Publication number
WO2023228276A1
WO2023228276A1 PCT/JP2022/021254 JP2022021254W WO2023228276A1 WO 2023228276 A1 WO2023228276 A1 WO 2023228276A1 JP 2022021254 W JP2022021254 W JP 2022021254W WO 2023228276 A1 WO2023228276 A1 WO 2023228276A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
image data
situation
semantic role
word
Prior art date
Application number
PCT/JP2022/021254
Other languages
English (en)
French (fr)
Inventor
香織 熊谷
基宏 高木
重邦 近藤
裕司 青野
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/021254 priority Critical patent/WO2023228276A1/ja
Publication of WO2023228276A1 publication Critical patent/WO2023228276A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • Embodiments of the present invention relate to an image processing device, method, and program.
  • image explanation text generation technique that describes the situation captured in image data (sometimes simply called an image) in text.
  • This technology is expected to be used to reduce the cost of clerical work that requires human labor, such as automatic recording of photographed work in factories, etc., or automatic entry of electronic medical records in medical settings. and has been widely studied.
  • Non-Patent Document 1 a set of a large number of images and a sentence explaining the situation captured in the image is used as learning data (data), and the images are input to an image explanation generation model (model). , it is disclosed that a model is trained to estimate a sentence that describes a situation captured in the image.
  • This image description generation model can generate simple sentences using common words that are often included in the dataset, but it is not possible to control what is mentioned in the sentence according to the purpose. .
  • Controllable image description generation technology is a technology that generates image descriptions while controlling the content by giving a control signal along with image data as input to an image description generator, and has begun to be researched in recent years. .
  • an object area specification type image description generation technique that provides a partial area of an image to be mentioned as a control signal.
  • the object area of the control signal in this technology is automatically selected from multiple object areas detected by the object detection technology that specifies the position and name of the object in the display area of the image, so the object area of the control signal is the reference target indicated by the image. It may include areas that are not directly related to the event that indicates the situation.
  • an unnatural sentence may be generated due to the use of words that are unrelated to the event to be mentioned. For example, when the event to be referred to is blood pressure measurement, but the control information includes a chair area, the phrase "with the chair", which is not directly related to the event, will be included in the generated sentence.
  • Non-Patent Document 2 discloses a technique for an image description generation method in which a reference target event name and semantic role information related to the event are given as control signals. Semantic roles are sometimes referred to as thematic roles.
  • the event name in this technology is, for example, "test”, and is a name indicating the activity to be mentioned in the image.
  • the semantic role information is, for example, "subject”, "object”, or "place”, and is a necessary element when explaining in a sentence the event name indicating the activity to be mentioned. It is unlikely that a sentence generated using this technology will contain words that are unrelated to the event to be mentioned.
  • Non-Patent Document 2 the image description generation method described in Non-Patent Document 2 is divided into multiple steps, and each step requires a neural network model, so there is a cost associated with learning and inference.
  • the problem is that it is large.
  • the neural network models used in the above multiple steps include a model that estimates the area in the image for each semantic role given as a control signal, a model that estimates the order of the semantic roles, and a model that estimates the order of the semantic roles. It consists of a model that estimates words.
  • learning and inference it is necessary to learn and infer each model in turn, which requires time and effort to adjust model parameters, which is expected to increase costs.
  • Non-Patent Document 2 since the estimation result of the previous step is used to perform the inference of the subsequent step, errors in the inference in the previous step cannot be corrected in the subsequent step. If the inference is incorrect when estimating the order of semantic roles, a sentence with an unnatural word order may be generated.
  • the present invention has been made in view of the above-mentioned circumstances, and its purpose is to provide an image processing device capable of appropriately generating an image description text explaining the situation captured in image data;
  • the purpose of the present invention is to provide methods and programs.
  • An image processing device includes image data, name information indicating a name of a situation captured in the image data, and the meaning of each word in an explanatory sentence explaining the situation captured in the image data.
  • an input unit that accepts input of semantic role information indicating a role, correct answer information of an explanatory sentence explaining the situation captured in the image data, and correct answer information of the semantic role of each word in the explanatory sentence explaining the situation. and an explanatory text that explains the situation depicted in the image data based on the image data, name information, semantic role information, correct answer information of the explanatory text, and correct answer information of the semantic role input by the input unit.
  • an output unit that outputs information indicating the position of each word of the explanatory sentence explaining the situation in the display area of the image data, and the semantic role of each word of the output explanatory sentence; Equipped with.
  • An image processing method is a method performed by an image processing device, wherein the image processing device includes image data, name information indicating a name of a situation captured in the image data, Semantic role information indicating the semantic role of each word in an explanatory sentence explaining the situation captured in the image data, correct answer information for the explanatory sentence explaining the situation captured in the image data, and an explanatory text explaining the situation.
  • the image processing device receives input of the input image data, name information, semantic role information, correct information of the explanatory text, and correct answer information of the semantic role of each word.
  • an explanatory sentence explaining the situation captured in the image data is output, and the position of each word of the explanatory sentence explaining the situation in the display area of the image data, and the output and outputting information indicating the semantic role of each word in the explanatory text.
  • FIG. 1 is a diagram showing an example of application of an image processing apparatus according to an embodiment of the present invention.
  • FIG. 2 is a diagram showing an example of the configuration of an image description generator.
  • FIG. 3 is a flow chart illustrating an example of a learning processing routine executed by the image processing device.
  • FIG. 4 is a flowchart showing an example of an inference processing routine executed by the image processing device.
  • FIG. 5 is a block diagram illustrating an example of the hardware configuration of an image processing apparatus according to an embodiment of the present invention.
  • FIG. 1 is a diagram showing an example of application of an image processing apparatus 100 according to an embodiment of the present invention.
  • the image processing device 100 includes a CPU (Central Processing Unit), a RAM (Random Access Memory), and a ROM (Read Only Memory) that stores a program for executing an image description text processing routine to be described later. It consists of a computer, and its functional structure is as shown below.
  • the image processing apparatus 100 includes a fusion information creation section 1, a storage section 2, an image explanation section 3, a parameter update section 4, an output section 5, and a decoder fusion It consists of an information creation section.
  • the fused information creation unit 1 receives input of image feature quantity x, event information y, and semantic role information z from the storage unit 2, and combines these image feature quantity x, event information y, semantic role information z, and The fused information w is created by merging the .
  • the image feature amount x may be any tensor extracted from a certain image data I, for example, a tensor output by inputting an image to a VGG network (Visual Geometry Group network) in Non-Patent Document 2. be.
  • VGG network Visual Geometry Group network
  • the event information y is not particularly limited as long as it is a vector indicating an event name that is the name of a situation captured in the display area of a certain image data I.
  • event information y is a vector whose length corresponds to the number of event types, and only the index value corresponding to the event shown in the image is "1", and the other index values are "0". ” vector.
  • an event recognition model that can recognize the pre-given event type can be used to create a vector representing an event in a certain image. The depicted event may be recognized and the results of this recognition may be used to create a vector representing the event in the image.
  • Semantic role information z is information necessary to explain the content of an event shown by certain image data I, that is, semantic role information that indicates the semantic role of each word in a sentence that explains the situation captured in the image data. It is not particularly limited as long as it is a vector that indicates.
  • the semantic role information z is a vector whose length corresponds to the number of types of semantic roles, and only the index value corresponding to the semantic role necessary to explain the content of the event shown in the image is "1".
  • the other index values are vectors of "0".
  • a vector indicating the semantic role of the image may be created using the results of analysis by a language analyzer that classifies each word in a predetermined semantic role type.
  • the fused information w is not particularly limited as long as it is a tensor created from the image feature x, event information y, and semantic role information z.
  • the size of the image feature x is expressed by the width w, the height h, and the number of channels c
  • the event information y is a vector with length l_y
  • the fused information w is a tensor in which each vector of the event information y and the semantic role information z is duplicated according to the width w and h of the image feature x.
  • This tensor has a width w when the image feature x quantity, a tensor made by duplicating the vector of event information y, and a tensor made by duplicating the vector of semantic role information z are superimposed in the channel direction. , the vertical width h, and the number of channels (c+l_y+l_z).
  • the storage unit 2 stores the neural network of the image explanatory sentence generator A (sometimes referred to as a screen explanatory model), image feature amounts x, event information y, semantic role information z, and correct sentences C. , a correct answer position B, and one or more sets of correct answer semantic role series S are stored.
  • FIG. 2 is a diagram showing an example of the configuration of an image description generator. In FIG. 2, the concept of the configuration of image feature amount x, event information y, semantic role information z, fusion information w created by fusion information creation section 1, and image description text generator A is shown.
  • the neural network of the image description generator A is composed of an encoder neural network, a decoder neural network, a description estimation neural network, a position estimation neural network, and a semantic role estimation neural network. be done.
  • the neural network of this image description generator A inputs the fusion information w to the encoder neural network to obtain the encoder output feature amount e, and then inputs the encoder output feature amount e and the decoder fusion information v to the decoder neural network. to output the common feature h, input the common feature h to the explanatory text estimation neural network to output the explanatory text estimation result c, and input the common feature h to the position estimation neural network to obtain the position estimation result b. It is not particularly limited as long as it is a neural network that outputs a semantic role estimation result s by inputting the common feature amount h to the semantic role estimation neural network.
  • the encoder neural network is not particularly limited as long as it is a neural network that inputs the fusion information w and outputs the encoder output feature amount e.
  • the encoder output feature amount e is not particularly limited as long as it is a tensor indicating the feature amount extracted from the event information y, the semantic role information z, and the image feature amount x, and is, for example, a tensor with a size of 100x512.
  • the decoder neural network is not particularly limited as long as it is a neural network that inputs the encoder output feature amount e and the decoder fusion information v and outputs the common feature amount h.
  • This common feature h is not particularly limited as long as it is a tensor consisting of feature vectors representing each word of the output sentence, and is, for example, a tensor whose size is output sentence length x l_h.
  • the explanatory text estimation neural network is not particularly limited as long as it is a network that inputs the common feature amount h and outputs the explanatory text estimation result c.
  • This explanatory sentence estimation result c is not particularly limited as long as it is a tensor that indicates a word string of an output sentence that is an image explanatory sentence. For example, it is a tensor whose size is "output sentence length l_h x number of vocabulary D", and this tensor is Each element of is the appearance probability of each word in the output sentence.
  • the position estimation neural network is not particularly limited as long as it is a network that inputs the common feature amount h and outputs the position estimation result b.
  • This position estimation result b is not limited to a tensor that indicates the position in the display area of the image corresponding to each word of the output sentence, which is a sentence explaining the situation captured in the image data. It is a tensor with "output sentence length l_h x 4", and each element of this tensor is, for example, the coordinates x, y based on the upper left of the area corresponding to each word of the output sentence in the image data, the width w and This is the value of the vertical width h.
  • the semantic role estimation neural network is not particularly limited as long as it is a network that inputs the common feature amount h and outputs the semantic role estimation result s.
  • This semantic role estimation result s is not particularly limited as long as it is a tensor that indicates the semantic role of each word of the output sentence, for example, it is a tensor whose size is "output sentence length l_h x number of semantic role types p". , and each element of this tensor is the appearance probability for the semantic role of each word in the output sentence.
  • the correct sentence C stored in the storage unit 2 is not limited to a tensor that indicates the correct information of a word string of an output sentence that describes a situation captured in a certain image data I. is a tensor with "output sentence length l_h x number of vocabulary D", and each element has only the value of the index corresponding to each word of the output sentence as "1", and the value of other indexes as "0". It is a tensor.
  • the correct position B stored in the storage unit 2 refers to the position in the display area of the image data that corresponds to each word of the output sentence, which is a sentence explaining the situation captured in the image data I.
  • it is a tensor whose size is "output sentence length l_h x 4", and each element of this tensor is, for example, the area corresponding to each word of the output sentence in the image data.
  • These are the values of coordinates x, y, width w, and height h with the upper left as a reference.
  • the correct semantic role sequence S stored in the storage unit 2 is limited to a tensor that indicates the semantic role of each word of an output sentence that is a sentence that explains the situation captured in a certain image data I.
  • it is a tensor whose size is "output sentence length l_h x number of types of semantic roles", and each element has only the value of the index corresponding to the semantic role of each word in the output sentence is "1", The other index values are tensors with "0".
  • the decoder fusion information creation unit 6 reads and receives the correct sentence C and the correct semantic role sequence S from the storage unit 2, and creates decoder fusion information v based on the received results.
  • the decoder fusion information creation unit 6 receives the partial explanatory sentence estimation result c' and the partial semantic role estimation result s' estimated up to the last minute from the image explanation unit 3, and uses these received results to Based on this, decoder fusion information v is created.
  • the partial explanatory sentence estimation result c' is not limited to any particular tensor, as long as it is a tensor that indicates a word string that has been output halfway.For example, when the third word from the beginning of the sentence has been output, the size is ⁇ 3 x number of vocabulary''. D'', and each element of the tensor is the probability of each word.
  • the partial semantic role estimation result s' is not particularly limited to any tensor that indicates the semantic role of each word for a word string that has been output halfway; for example, when the third word from the beginning of a sentence is output. is a tensor whose size is "3 x number of semantic role types", and each element of the tensor is a probability for the semantic role of each word.
  • the decoder fusion information v is not particularly limited as long as it is a tensor created from the correct sentence C and the correct semantic role sequence S as described above.
  • the decoder fusion information creation unit 6 is a tensor whose size of the correct sentence C is "output sentence length I_h x number of vocabulary D", and uses a neural network to convert this from "number of vocabulary D dimensions" to 512 dimensions. Let the converted tensor whose size is "output sentence length I_h x 512" be the language feature tensor.
  • the decoder fusion information creation unit 6 generates a tensor whose size of the correct semantic role sequence S is "output sentence length l_h x number of types of semantic roles", and converts this into "number of types of semantic roles".
  • a tensor whose size is "output sentence length I_h x 512" and which is converted by a neural network that converts from "dimensional” to 512 dimensions is defined as a semantic role feature tensor.
  • the decoder fusion information creation unit 6 uses the tensor created using the positional encoder proposed in Non-Patent Document 2 and whose size is "output sentence length I_h x 512" as a positional information tensor, and uses the language feature as a positional information tensor.
  • the tensor is a sum of the element-by-element tensor, the semantic role feature tensor, and the position information tensor, and the size is "output sentence length I_h ⁇ 512", and the tensor is the decoder fusion information v.
  • the decoder fusion information v is not particularly limited as long as it is a tensor created from the partial explanatory sentence estimation result c' and the partial semantic role estimation result s' as described above.
  • the decoder fused information creation unit 6 generates a tensor whose partial explanatory text estimation result c' is a tensor whose size is "3 x number of vocabulary D", and a neural network that converts this from "number of vocabulary D dimension" to 512 dimensions.
  • the tensor transformed by the network and having a size of "3x512" is defined as a language feature tensor.
  • the decoder fusion information creation unit 6 determines that the partial semantic role estimation result s' is a tensor whose size is "3 x the number of types of semantic roles", and that the partial semantic role estimation result s' is A tensor with a size of ⁇ 3 x 512'' that is converted by a neural network that converts from ⁇ dimension'' to 512 dimensions is defined as a semantic role feature tensor.
  • the decoder fusion information creation unit 6 uses, for example, a tensor with a size of "3 x 512" created using the positional encoder proposed in Non-Patent Document 2 as a positional information tensor, and uses the language feature tensor as a positional information tensor.
  • the image explanation unit 3 receives the fusion information w from the fusion information creation unit 1, receives the decoder fusion information v from the decoder fusion information creation unit 6, receives the image description generator A from the storage unit 2, and generates the fusion information w and the decoder.
  • the fused information v is input to the neural network of the image description generator A.
  • the image explanation unit 3 outputs an explanation text estimation result c, a position estimation result b, and a semantic role estimation result s output from the neural network.
  • the image explanation unit 3 uses the partial explanatory text estimation result c', the partial position estimation result b', and the partial semantic role estimation result s' output from the neural network of the image explanatory text generator A. are output, respectively, and a sentence generation completion determination process, which will be described later, is performed.
  • the partial position estimation result b' is not particularly limited to any tensor that indicates the position in the image corresponding to each word for a word string that has been output halfway; for example, it is a tensor that indicates the position in the image corresponding to each word. is a tensor whose size is "3 x 4", and each element of the tensor is the upper left coordinates "x, y" of the area corresponding to each word, the width w, and the height h.
  • the above sentence generation end determination process is not particularly limited as long as it is a process for determining whether sentence generation has ended, and the image explanation unit 3 determines to end sentence generation when, for example, ⁇ EOS> indicating the end of a sentence is output. However, if any other word is output, it is determined that sentence generation should be continued.
  • the parameter update unit 4 receives the explanatory text estimation result c, the position estimation result b, and the semantic role estimation result s from the image explanation unit 3, and updates the image explanatory text generator A, the correct answer sentence C, from the storage unit 2. Receiving the correct answer position B and the correct answer semantic role sequence S, the parameters of each neural network of the image explanation sentence generator A (sometimes referred to as the parameters of the image explanation sentence generator A) are set so as to satisfy the following three constraints. Update.
  • the first constraint is to update the parameters of the image explanation generator A so that the contents of the explanation sentence estimation result c and the correct sentence C become closer or the same.
  • the parameter update unit 4 calculates the cross-entropy loss between the explanatory sentence estimation result c and the correct sentence C, as shown in equation (1) below, and until this error reaches a certain value or less, The parameters of the explanatory text estimation neural network of the image explanatory text generator A are updated so that they become smaller or become zero.
  • k in equation (1) is the index of the explanatory sentence estimation result c and the correct sentence C
  • y k is the value in the explanatory sentence estimation result c output from the neural network of the image explanatory sentence generator A
  • t k is the value in the correct sentence C
  • tk is a value in which only the index value of the correct answer class (class) is "1" and the other index values are "0".
  • the second constraint is to update the parameters of the image description generator A so that the position estimation result b and the correct position B become closer or the same, and the parameters of the image description generator A are set to satisfy this constraint.
  • the parameter updating unit 4 updates ⁇ Calculate the L1 distance between x b , y b , w b , h b ⁇ and ⁇ x B , y B , w B , h B ⁇ , and set the distance so that this distance decreases to, for example, a certain value or less, or becomes zero. Then, the parameters of the position estimation neural network of the image description detector A are updated.
  • the L1 distance is expressed as follows.
  • the third constraint is to update the parameters of the image explanation sentence generator A so that the contents of the semantic role estimation result s and the correct semantic role sequence S become closer or the same, and this constraint is satisfied.
  • the parameter updating unit 4 calculates the cross-entropy error between the semantic role estimation result s and the correct semantic role sequence S, for example, as shown in equation (2) below, and calculates the cross-entropy error when this error is reduced to, for example, a certain value or less, or
  • the parameters of the semantic role neural network of the image explanation sentence generator A are updated so that they become zero.
  • m in equation (2) is the index of the semantic role estimation result s and the correct semantic role sequence S
  • y m is the index of the semantic role estimation result s output from the neural network of the image explanation sentence generator A.
  • t m is the value in the correct semantic role sequence S.
  • t m is a value in which only the index value of the correct class is "1" and the other index values are "0".
  • the output unit 5 receives the explanatory text estimation result c, the position estimation result b, and the semantic role estimation result s from the image explanation unit 3, and outputs these estimation results.
  • This estimation result can be obtained by adding the position output information b' based on the position estimation result b in addition to this output sentence c' if the explanatory text estimation result c is converted into a word string and only the output sentence c' is sufficient.
  • an output semantic role s' in which each word of the output sentence is estimated from the semantic role estimation result s may be further output as the estimation result.
  • the above output sentence c' is not particularly limited as long as it is a word string obtained based on the explanatory sentence estimation result c.
  • the explanatory sentence estimation result c is the size of "output sentence length I_h x number of vocabulary D" is a tensor, and each element of this tensor is the probability of appearance of each word in the output sentence, then beam search searches for the sentence with the maximum probability from the beginning of the output sentence with a beam width of "5". It may be a word string obtained by using a grid search method, or it may be a word string with the maximum probability obtained by calculating the appearance probabilities of all possible word strings by grid search.
  • the above position output information b' is not particularly limited as long as it is data based on the position estimation result b; for example, a rectangle is superimposed on the position indicated by the position estimation result b on the display area of the image data. It may be a visualized image, or it may be a file in which the position estimation result b is output as text data.
  • the above output semantic role s' is not particularly limited as long as it is data based on the semantic role estimation result s.
  • a rectangle is superimposed on the position indicated by the position estimation result b on the display area of the image data, and this It may be a visualized image in which the index of the maximum value of the semantic role estimation result s is superimposed near the rectangle, for example in the upper left, or it may be a file in which the index of the maximum value of the semantic role estimation result s is output as text data.
  • FIG. 3 is a flowchart illustrating an example of a learning processing routine executed by the image processing device.
  • this learning processing routine first, input of image feature quantity x, event information y, and semantic role information z is accepted, and the fused information w that combines these information is sent to the neural network of the image explanation sentence generator A. is input. Then, the neural network of the image explanatory text generator A outputs an explanatory text estimation result c, a position estimation result b, and a semantic role estimation result s.
  • the correct sentence C, the correct position B, and the correct meaning role sequence S are received from the storage unit 2, and (1) the contents of the explanatory sentence estimation result c outputted above and the correct sentence C are close to each other, or are the same. and (2) so that the output position estimation result b and the correct position B approach or become the same, and (3) the output semantic role estimation result s and the correct semantic role sequence.
  • the parameters of the various neural networks of the image description generator A are updated so that the above three constraints, ie, the contents of the image description text generator A become closer to or the same as the image description text generator A, are satisfied.
  • the fused information creation unit 1 receives input of the image feature x, event information y, and semantic role information z from the storage unit 2, and inputs the image feature x and the event information y. and the semantic role information z are combined to create fused information w, and the created fused information w is output to the image explanation section 3.
  • step S102 the decoder fusion information creation unit 6 receives the correct sentence C and the correct semantic role sequence S from the storage unit 2, creates decoder fusion information v based on the received results, and converts this decoder fusion information v into It is transmitted to the image explanation section 3.
  • step S103 the image explanation unit 3 receives the fusion information w output in step S101, the decoder fusion information v received in step S102, and the image explanation generator A stored in the storage unit 2. , the received fusion information w and decoder fusion information v are input to the neural network of the image description estimator A.
  • the image explanation unit 3 outputs the explanation text estimation result c, the position estimation result b, and the semantic role estimation result s from the neural network of the image explanation text estimator A, and outputs the explanation text estimation result c,
  • the position estimation result b and the semantic role estimation result s are output to the parameter updating unit 4.
  • step S104 the parameter updating unit 4 receives the explanatory text estimation result c, the position estimation result b, and the semantic role estimation result s output in step S103, and generates an image explanatory text stored in the storage unit 2.
  • Receiving the device A, the correct sentence C, the correct position B, and the correct semantic role sequence S calculate the error between the explanatory sentence estimation result c and the correct sentence C (sometimes referred to as image explanatory sentence loss), and the position.
  • the error between the estimation result b and the correct position B (sometimes called a position estimation loss), and the error between the semantic role estimation result s and the correct semantic role sequence S (sometimes called a semantic role estimation loss) ).
  • step S105 the parameter updating unit 4 adjusts (1) the contents of the explanatory sentence estimation result c and the correct sentence C to be close to each other or the same, and (2) the position estimation result b and the correct position B
  • the image explanation is performed so that the following three constraints are satisfied: (3) the content of the semantic role estimation result s and the correct semantic role sequence S should approach or be the same.
  • the parameters of various neural networks of the sentence generator A (parameters of the image explanatory sentence model) are updated.
  • the parameter update unit 4 stores the image description generator A whose parameters have been updated in the storage unit 2.
  • FIG. 4 is a flowchart showing an example of an inference processing routine executed by the image processing device.
  • this inference processing routine first, input of image feature quantity x, event information y, and semantic role information z is accepted, and the fused information w obtained by fusing these is sent to the neural network of the image explanation sentence generator A. is input. Then, the neural network of the image explanatory text generator A outputs an explanatory text estimation result c, a position estimation result b, and a semantic role estimation result s.
  • each word of the output sentence is estimated from the output sentence c′ obtained by converting the explanatory sentence estimation result c into a word string, the position output information b′ obtained by visualizing the position estimation result b, and the semantic role estimation result s.
  • the output semantic roles s′ and s′ are respectively output.
  • the fused information creation unit 1 receives input of the image feature x, event information y, and semantic role information z from the storage unit 2, and inputs the image feature x and the event information y. and the semantic role information z are combined to create fused information w, and this fused information w is output to the image explanation section 3.
  • step S202 the decoder fusion information creation section 6 receives the partial explanatory text estimation result c' and the partial semantic role estimation result s' from the image explanation section 3, and creates decoder fusion information v based on these received results. Then, this decoder fusion information v is output to the image explanation section 3.
  • step S203 the image explanation unit 3 inputs the fusion information w output in step S201, the decoder fusion information v output in step S202, and the image explanation generator A stored in the storage unit 2, respectively. and inputs the received fusion information w and decoder fusion information v to the neural network of the image description text generator A.
  • the image explanation unit 3 outputs the partial explanation sentence estimation result c', the partial position estimation result b', and the partial meaning role estimation result s' from the neural network of the image explanation sentence estimator A, and outputs the partial explanation sentence estimation result c', the partial position estimation result b', and the partial meaning role estimation result s'.
  • a sentence generation end determination process is performed on the estimation result c'.
  • step S204 when the image explanation unit 3 determines to continue sentence generation, the image explanation unit 3 sends the partial explanatory text estimation result c′, the partial position estimation result b′, and the partial semantic role estimation result s′ to the image explanation unit 3. Output to 3.
  • step S204 when the image explanation unit 3 determines to end the sentence generation, it calculates the partial explanatory text estimation result c', the partial position estimation result b', and the partial semantic role estimation result s'. , are outputted to the output unit 5 as an explanatory text estimation result c, a position estimation result b, and a semantic role estimation result s, respectively.
  • step S205 the output unit 5 outputs the explanatory sentence estimation result c converted into a word string based on the explanatory sentence estimation result c, position estimation result b, and semantic role estimation result s output in step S203.
  • the sentence c', the position output information b' made by visualizing the position estimation result b, and the output semantic role s' obtained by estimating each word of the output sentence from the semantic role estimation result s are output, respectively.
  • image data and event names and semantic role information as control signals are input, and the event name and semantic role information are controlled at low cost and with high accuracy using a neural network.
  • the effect is that an image description given as a signal can be generated.
  • image data, an event name as a control signal, and semantic role information are input, and a semantic role
  • a semantic role Another advantage is that it is possible to train a neural network that simultaneously estimates the area, the order of semantic roles, and the words from the semantic roles using a single neural network.
  • FIG. 5 is a block diagram showing an example of the hardware configuration of an image processing apparatus according to an embodiment of the present invention.
  • the image processing apparatus 100 according to the above embodiment is configured by, for example, a server computer or a personal computer, and includes a hardware processor such as a CPU 111A. has.
  • a program memory 111B, a data memory 112, an input/output interface 113, and a communication interface 114 are connected to the hardware processor 111A via a bus 115. .
  • the communication interface 114 includes, for example, one or more wireless communication interface units, and enables the transmission and reception of information with a communication network NW.
  • a wireless interface for example, an interface adopting a low power wireless data communication standard such as a wireless LAN (Local Area Network) is used.
  • the input/output interface 113 is connected to an input device 200 and an output device 300 attached to the image processing apparatus 100 and used by a user or the like.
  • the input/output interface 113 imports operation data input by a user through an input device 200 such as a keyboard, touch panel, touchpad, mouse, etc., and outputs data on a liquid crystal display.
  • an input device 200 such as a keyboard, touch panel, touchpad, mouse, etc.
  • a process of outputting and displaying the image to an output device 300 including a display device using organic EL (Electro Luminescence) or the like is performed.
  • a device built into the image processing apparatus 100 may be used as the input device 200 and the output device 300, or an input device of another information terminal that can communicate with the image processing apparatus 100 via the network NW. Devices and output devices may also be used.
  • the program memory 111B is a non-temporary tangible storage medium, such as a non-volatile memory that can be written to and read from at any time, such as an HDD (Hard Disk Drive) or an SSD (Solid State Drive). It is used in combination with a non-volatile memory such as a ROM, and stores programs necessary for executing various control processes and the like according to one embodiment.
  • a non-volatile memory such as a ROM, and stores programs necessary for executing various control processes and the like according to one embodiment.
  • the data memory 112 is a tangible storage medium that uses a combination of the above-mentioned non-volatile memory and volatile memory such as RAM, and is acquired and created during various processes. It is used to store various types of data.
  • the image processing apparatus 100 includes each part shown in FIG. 5 and a decoder fusion information creation section 6.
  • Each information storage unit and storage unit 2 used as a working memory by each unit of the image processing device 100 may be configured by using the data memory 112 shown in FIG. 5.
  • these configured storage areas are not essential configurations within the image processing apparatus 100, and are, for example, external storage media such as a USB (Universal Serial Bus) memory, or a database server (cloud) located in the cloud. It may be an area provided in a storage device such as a database server).
  • the processing function units in each of the above fused information creation unit 1, image explanation unit 3, parameter update unit 4, output unit 5, and decoder fusion information creation unit 6 all process the program stored in the program memory 111B. This can be realized by having the hardware processor 111A read and execute it. Note that some or all of these processing functions may be implemented in a variety of other formats, including integrated circuits such as application specific integrated circuits (ASICs) or field-programmable gate arrays (FPGAs). May be realized.
  • ASICs application specific integrated circuits
  • FPGAs field-programmable gate arrays
  • each embodiment can be applied to a magnetic disk (floppy (registered trademark) disk, hard disk) as a program (software means) that can be executed by a computer (computer). etc.), optical discs (CD-ROM, DVD, MO, etc.), semiconductor memories (ROM, RAM, Flash memory, etc.), and are stored in recording media, or transmitted and distributed via communication media. can be done.
  • the programs stored on the medium side also include a setting program for configuring software means (including not only execution programs but also tables and data structures) in the computer to be executed by the computer.
  • a computer that realizes this device reads a program recorded on a recording medium, and if necessary, constructs software means using a setting program, and executes the above-described processing by controlling the operation of the software means.
  • the recording medium referred to in this specification is not limited to one for distribution, and includes storage media such as a magnetic disk and a semiconductor memory provided inside a computer or in a device connected via a network.
  • the present invention is not limited to the above-described embodiments, and can be variously modified at the implementation stage without departing from the gist thereof.
  • each embodiment may be implemented in combination as appropriate, and in that case, the combined effect can be obtained.
  • the embodiments described above include various inventions, and various inventions can be extracted by combinations selected from the plurality of constituent features disclosed. For example, if a problem can be solved and an effect can be obtained even if some constituent features are deleted from all the constituent features shown in the embodiment, the configuration from which these constituent features are deleted can be extracted as an invention.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Machine Translation (AREA)

Abstract

一実施形態に係る画像処理装置は、画像データと、前記画像データに写される状況の名称を示す名称情報と、前記画像データに写される状況を説明する説明文の各単語の意味役割を示す意味役割情報と、前記画像データに写される状況を説明する説明文の正解情報と、前記状況を説明する説明文の各単語の意味役割の正解情報と、の入力を受け付ける入力部と、前記入力部により入力された画像データ、名称情報、意味役割情報、前記説明文の正解情報、および前記意味役割の正解情報に基づいて、前記画像データに写される状況を説明する説明文を出力し、かつ前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置、および前記出力される説明文の各単語の意味役割を示す情報を出力する出力部と、を有する。

Description

画像処理装置、方法およびプログラム
 本発明の実施形態は、画像処理装置、方法およびプログラムに関する。
 画像データ(単に画像と称することもある)中に写された状況を文で説明する技術としての画像説明文生成技術がある。この技術は、工場などで撮影された作業の自動記録、または医療現場での電子カルテ(electronic medical records)の自動記入など、人手が必要な事務作業コスト(cost)を削減するための活用が期待され、広く研究されている。
 例えば非特許文献1では、大量の画像と、当該画像に写された状況を説明する文とのセット(set)を学習データ(data)とし、画像を画像説明文生成モデル(model)に入力し、当該画像写された状況を説明する文を推定するようにモデルを学習することが開示される。この画像説明文生成モデルは、データセットに多く含まれるような一般的な単語が使用された単純な文を生成することは可能だが、文中で言及する内容を目的に合わせて制御することはできない。
 制御可能な画像説明文の生成技術は、画像説明文生成器の入力として、画像データと共に制御信号を与え、言及する内容を制御しながら画像説明文を生成する技術であり、近年研究され始めている。
 また、制御信号として、言及したい画像の部分領域を与える、物体領域指定型の画像説明文生成技術がある。当該技術における制御信号の物体領域とは、画像の表示領域中の物体の位置と名称を特定する物体検出技術で検出された複数の物体領域から自動選択されるため、画像により示される、言及対象の状況を示すイベント(event)とは直接関連のない領域が含まれる場合がある。 
 このとき、言及対象のイベントに関連が無い単語が使用されることで、不自然な文が生成される可能性がある。例えば、言及対象のイベントが血圧測定である一方で、制御情報として椅子の領域が含まれるとき、イベントに直接関係が無い“with the chair”という文言が生成文中に含まれてしまう。
 非特許文献2には、制御信号として言及対象のイベント名と当該イベントに関連する意味役割(semantic role)情報とが与えられる画像説明文生成方法の技術が開示される。意味役割は主題役割(thematic role)と称されることもある。当該技術におけるイベント名とは、例えば “test”であり、画像中で言及したい活動を示す名称である。また、意味役割情報とは、例えば“主体”、“目的語”または“場所”であり、言及対象の活動を示すイベント名を文で説明するときに必要な要素である。当該技術を使用して生成された文中に、言及したいイベントに関連が無い単語が含まれる可能性は少ない。
Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi and Rita Cucchiara, "Meshed-Memory Transformer for Image Captioning", in Proc. Of CVPR2020. Long Chen, Zhihong Jiang, Jun Xiao and Wei Liu, "Human-like Controllable Image Captioning with Verb-specific Semantic Roles", in Proc. Of CVPR2021.
 しかしながら非特許文献2に記載される画像説明文生成方法は、複数のステップ(step)に分かれてなり、各ステップにおいてニューラルネットワークモデル(neural network model)が必要であるため、学習および推論に係るコストが大きいことが問題である。 
 上記複数のステップにおけるニューラルネットワークモデルとは、制御信号として与えられた各意味役割について画像中の領域を推定するモデルと、意味役割の順番推定をするモデルと、順番に並べられた意味役割ごとに単語推定するモデルとでなる。学習および推論時は、各モデルを順番に学習および推論する必要があるため、モデルのパラメータ(parameter)調整などの手間がかかり、コストが大きくなることが想定される。
 また、非特許文献2は、前段ステップの推定結果を使用して後段ステップの推論も行なうため、前段での推論の誤りを後段で修正することができない。意味役割の順番推定時に推論を誤ると、不自然な単語順の文が生成される可能性がある。
 この発明は、上記事情に着目してなされたもので、その目的とするところは、画像データに写される状況を説明する画像説明文を適切に生成することができるようにした画像処理装置、方法およびプログラムを提供することにある。
 本発明の一態様に係る画像処理装置は、画像データと、前記画像データに写される状況の名称を示す名称情報と、前記画像データに写される状況を説明する説明文の各単語の意味役割を示す意味役割情報と、前記画像データに写される状況を説明する説明文の正解情報と、前記状況を説明する説明文の各単語の意味役割の正解情報と、の入力を受け付ける入力部と、前記入力部により入力された画像データ、名称情報、意味役割情報、前記説明文の正解情報、および前記意味役割の正解情報に基づいて、前記画像データに写される状況を説明する説明文を出力し、かつ前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置、および前記出力される説明文の各単語の意味役割を示す情報を出力する出力部と、を備える。
 本発明の一態様に係る画像処理方法は、画像処理装置により行なわれる方法であって、前記画像処理装置が、画像データと、前記画像データに写される状況の名称を示す名称情報と、前記画像データに写される状況を説明する説明文の各単語の意味役割を示す意味役割情報と、前記画像データに写される状況を説明する説明文の正解情報と、前記状況を説明する説明文の各単語の意味役割の正解情報と、の入力を受け付けることと、前記画像処理装置が、前記入力された画像データ、名称情報、意味役割情報、前記説明文の正解情報、および前記意味役割の正解情報に基づいて、前記画像データに写される状況を説明する説明文を出力し、かつ前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置、および前記出力される説明文の各単語の意味役割を示す情報を出力することと、を備える。
 本発明によれば、画像データに写される状況を説明する画像説明文を適切に生成することができる。
図1は、本発明の一実施形態に係る画像処理装置の適用例を示す図である。 図2は、画像説明文生成器の構成の一例を示す図である。 図3は、画像処理装置により実行される学習処理ルーチン(routine)の一例を示すフローチャート(flow chart)である。 図4は、画像処理装置により実行される推論処理ルーチンの一例を示すフローチャートである。 図5は、本発明の一実施形態に係る画像処理装置のハードウエア(hardware)構成の一例を示すブロック図(block diagram)である。
 以下、図面を参照しながら、この発明に係わる一実施形態を説明する。 
 <構成>
 まず、本発明の一実施形態に係る画像処理装置の構成について説明する。この画像処理装置は、画像説明文生成装置または画像説明装置と称されることもある。図1は、本発明の一実施形態に係る画像処理装置100の適用例を示す図である。 
 画像処理装置100は、CPU(Central Processing Unit)とRAM(Random Access Memory)と、後述する画像説明文処理ルーチンを実行するためのプログラム(program)を記憶したROM(Read Only Memory)とを備えたコンピュータ(computer)で構成され、機能的には以下に示す様に構成されている。
 図1に示される様に、本実施形態に係る画像処理装置100は、融合情報作成部1と、記憶部2と、画像説明部3と、パラメータ更新部4と、出力部5と、デコーダ融合情報作成部とを備えて構成される。
 融合情報作成部1は、記憶部2から画像特徴量xと、イベント情報yと、意味役割情報zとの入力を受け付け、これらの画像特徴量xと、イベント情報yと、意味役割情報zとが融合されてなる融合情報wを作成する。
 画像特徴量xとは、ある画像データIから抽出されたテンソル(tensor)であれば何でも良く、例えば非特許文献2におけるVGGネットワーク(Visual Geometry Group network)に画像を入力して出力されたテンソルである。
 イベント情報yとは、ある画像データIの表示領域に写される状況の名称であるイベント名を示すベクトル(vector)であれば特に限られない。例えば、イベント情報yは、イベント種類数に応じた長さのベクトルで、かつ当該画像で示されるイベントに相当するインデックス(index)の値のみが「1」で、その他のインデックスの値は「0」のベクトルである。 
 例えば、あらかじめ与えられたイベントの種類の中から、人手により、ある画像でのイベントを示すベクトルが作成されても良ければ、あらかじめ与えられたイベント種類を認識可能なイベント認識モデルにより、ある画像で示されているイベントを認識し、この認識結果を用いて、上記画像でのイベントを示すベクトルが作成されても良い。
 意味役割情報zとは、ある画像データIにより示されるイベントの内容を説明する際に必要な情報、すなわち画像データに写される状況を説明する文の各単語の意味役割を示す意味役割情報を示すベクトルであれば特に限られない。例えば、意味役割情報zは、意味役割の種類数に応じた長さのベクトルで、当該画像で示されるイベントの内容を説明する際に必要な意味役割に相当するインデックスの値のみが「1」で、その他のインデックスの値は「0」のベクトルである。 
 例えば、あらかじめ与えられた意味役割の種類の中から、人手により、ある画像での意味役割を示すベクトルが作成されても良ければ、ある画像中で示されるイベントと同じイベントの内容について説明する文中の各単語を、あらかじめ与えられた意味役割の種類に分類する言語解析器により解析された結果を用いて、上記画像の意味役割を示すベクトルが作成されてもよい。
 融合情報wとは、画像特徴量xと、イベント情報yと、意味役割情報zとから作成されたテンソルであれば特に限られない。 
 ここで、例えば、画像特徴量xのサイズ(size)が、横幅w、縦幅h、およびチャネル(channel)数cで表現され、イベント情報yが、長さl_yを有するベクトルであり、意味役割情報zが、長さl_zを有するベクトルであると仮定する。 
 この場合、融合情報wは、イベント情報yと意味役割情報zの各ベクトルが、画像特徴量xの横幅wと縦幅hのサイズに応じて複製されたテンソルである。このテンソルは、画像特徴x量と、イベント情報yのベクトルが複製されてなるテンソルと、意味役割情報zのベクトルが複製されてなるテンソルとがチャネル方向に重畳されたときのサイズが、横幅w、縦幅h、およびチャネル数(c+l_y+l_z)であるテンソルである。
 記憶部2には、画像説明文生成器Aのニューラルネットワーク(画面説明モデルと称されることもある)と、画像特徴量xと、イベント情報yと、意味役割情報zと、正解文Cと、正解位置Bと、正解意味役割系列Sとの1以上のセットが格納される。図2は、画像説明文生成器の構成の一例を示す図である。この図2では、画像特徴量xと、イベント情報yと、意味役割情報zと、融合情報作成部1で作成された融合情報wと、画像説明文生成器Aの構成の概念が示される。
 図2に示されるように、画像説明文生成器Aのニューラルネットワークは、エンコーダニューラルネットワークと、デコーダニューラルネットワークと、説明文推定ニューラルネットワークと、位置推定ニューラルネットワークと、意味役割推定ニューラルネットワークとから構成される。
 この画像説明文生成器Aのニューラルネットワークは、エンコーダニューラルネットワークに融合情報wを入力してエンコーダ出力特徴量eを得た後、デコーダニューラルネットワークにエンコーダ出力特徴量eとデコーダ融合情報vを入力して共通特徴量hを出力し、説明文推定ニューラルネットワークに共通特徴量hを入力して説明文推定結果cを出力し、位置推定ニューラルネットワークに共通特徴量hを入力して位置推定結果bを出力し、意味役割推定ニューラルネットワークに共通特徴量hを入力して意味役割推定結果sを出力するニューラルネットワークであれば特に限られない。
 エンコーダニューラルネットワークとは、融合情報wを入力しエンコーダ出力特徴量eを出力するニューラルネットワークであれば特に限られない。
 エンコーダ出力特徴量eとは,イベント情報yと意味役割情報zと画像特徴量xとから抽出された特徴量を示すテンソルであれば特に限られず、例えばサイズが100x512のテンソルである。
 デコーダニューラルネットワークとは、エンコーダ出力特徴量eとデコーダ融合情報vとを入力し共通特徴量hを出力するニューラルネットワークであれば特に限られない。 
 この共通特徴量hとは、出力文の各単語を示す特徴ベクトルから成るテンソルであれば特に限られず、例えばサイズが出力文長×l_hであるテンソルである。
 説明文推定ニューラルネットワークとは、共通特徴量hを入力し、説明文推定結果cを出力するネットワークであれば特に限られない。 
 この説明文推定結果cは、画像説明文である出力文の単語列を示すテンソルであれば特に限られず、例えば、サイズが「出力文長l_h×語彙数D」であるテンソルであり、このテンソルの各要素は、出力文の各単語の出現確率である。
 位置推定ニューラルネットワークとは、共通特徴量hを入力し、位置推定結果bを出力するネットワークであれば特に限られない。 
 この位置推定結果bは、画像データに写される状況を説明する文である出力文の各単語に相当する、画像の表示領域中の位置を示すテンソルであれば特に限られず、例えば、サイズが「出力文長l_h×4」であるテンソルであり、このテンソルの各要素は、例えば、画像データにおける、出力文の各単語に相当する領域の左上を基準とする座標x,yならびに横幅wおよび縦幅hの値である。
 意味役割推定ニューラルネットワークとは、共通特徴量hを入力し、意味役割推定結果sを出力するネットワークであれば特に限られない。 
 この意味役割推定結果sとは、上記出力文の各単語の意味役割を示すテンソルであれば特に限られず、例えば、サイズが「出力文長l_h×意味役割の種類の数p」であるテンソルであり、このテンソルの各要素は、出力文の各単語の意味役割についての出現確率である。
 上記のように記憶部2に格納される正解文Cとは、ある画像データIに写される状況を説明する出力文の単語列の正解情報を示すテンソルであれば特に限られず、例えば、サイズが「出力文長l_h×語彙数D」であるテンソルであり、各要素が、出力文の各単語に相当するインデックスの値のみが「1」であり、その他のインデックスの値は「0」であるテンソルである。
 上記のように記憶部2に格納される正解位置Bとは、ある画像データIに写される状況を説明する文である出力文の各単語に相当する、画像データの表示領域中の位置を示すテンソルであれば特に限られず、例えば、サイズが「出力文長l_h×4」であるテンソルであり、このテンソルの各要素は、例えば、画像データにおける、出力文の各単語に相当する領域の左上を基準とする座標x,yならびに横幅w、縦幅hの値である。
 上記のように記憶部2に格納される正解意味役割系列Sとは、ある画像データIに写される状況を説明する文である出力文の各単語の意味役割を示すテンソルであれば特に限られず、例えば、サイズが「出力文長l_h×意味役割の種類の数」であるテンソルであり、各要素が、出力文の各単語の意味役割に相当するインデックスの値のみが「1」で、その他のインデックスの値は「0」であるテンソルである。
 デコーダ融合情報作成部6は、学習処理時は、記憶部2から正解文Cと正解意味役割系列Sを読み出して受け付け、これらの受け付けた結果に基づいてデコーダ融合情報vを作成する。
 デコーダ融合情報作成部6は、推論処理時は、画像説明部3からの、直前まで推定された部分説明文推定結果c´と部分意味役割推定結果s´とを受け付け、これらの受け付けた結果に基づいてデコーダ融合情報vを作成する。
 部分説明文推定結果c´とは、途中まで出力された単語列を示すテンソルであれば特に限られず、例えば文頭から3つ目の単語まで出力した時点のときは、サイズが「3×語彙数D」であるテンソルであり、当該テンソルの各要素は、各単語の確率である。
 また、部分意味役割推定結果s´とは、途中まで出力された単語列について、各単語の意味役割を示すテンソルであれば特に限られず、例えば文頭から3つ目の単語まで出力した時点のときは、サイズが「3×意味役割種類数」であるテンソルであり、当該テンソルの各要素は、各単語の意味役割についての確率である。
 デコーダ融合情報vとは、学習処理時は、上記のように正解文Cと正解意味役割系列Sとから作成されたテンソルであれば特に限られない。 
 デコーダ融合情報作成部6は、例えば、正解文Cのサイズが「出力文長I_h×語彙数D」であるテンソルであって、これを「語彙数D次元」から512次元に変換するニューラルネットワークにより変換された、サイズが「出力文長I_h×512」であるテンソルを言語特徴テンソルとする。
 そして、デコーダ融合情報作成部6は、例えば、正解意味役割系列Sのサイズが「出力文長l_h×意味役割の種類数」の長さであるテンソルであって、これを「意味役割の種類数次元」から512次元に変換するニューラルネットワークにより変換された、サイズが「出力文長I_h×512」であるテンソルを意味役割特徴テンソルとする。
 そして、デコーダ融合情報作成部6は、非特許文献2で提案されたpositional encoderを使用して作成された、サイズが「出力文長I_h×512」であるテンソルを位置情報テンソルとし、当該言語特徴テンソルと意味役割特徴テンソルと位置情報テンソルの要素ごとの和であるテンソルであって、サイズが「出力文長I_h×512」であテンソルをデコーダ融合情報vとする。
 また、推論処理時は、デコーダ融合情報vとは、上記のように部分説明文推定結果c´と部分意味役割推定結果s´とから作成されたテンソルであれば特に限られない。 
 デコーダ融合情報作成部6は、例えば、部分説明文推定結果c´が、サイズが「3×語彙数D」であるテンソルであって、これを「語彙数D次元」から512次元に変換するニューラルネットワークにより変換された、サイズが「3×512」であるテンソルを言語特徴テンソルとする。
 そして、デコーダ融合情報作成部6は、例えば、部分意味役割推定結果s´が、サイズが「3×意味役割の種類数」の長さであるテンソルであって、これを「意味役割の種類数次元」から512次元に変換するニューラルネットワークにより変換された、サイズが「3×512」であるテンソルを意味役割特徴テンソルとする。
 そして、デコーダ融合情報作成部6は、例えば、非特許文献2で提案されたpositional encoderを使用して作成された、サイズが「3×512」であるテンソルを位置情報テンソルとし、当該言語特徴テンソルと意味役割特徴テンソルと位置情報テンソルの要素ごとの和である、サイズが「3×512」であるテンソルをデコーダ融合情報vとする。
 画像説明部3は、融合情報作成部1から融合情報wを受け取り、デコーダ融合情報作成部6からデコーダ融合情報vを受け取り、記憶部2から画像説明文生成器Aを受け取り、融合情報wとデコーダ融合情報vとを画像説明文生成器Aのニューラルネットワークに入力する。 
 画像説明部3は、学習処理時は、このニューラルネットワークから出力される説明文推定結果cと、位置推定結果bと、意味役割推定結果sとをそれぞれ出力する。また、画像説明部3は、推論処理時は,画像説明文生成器Aのニューラルネットワークから出力される部分説明文推定結果c´と、部分位置推定結果b´と、部分意味役割推定結果s´とをそれぞれ出力し、後述する文生成終了判定処理を行なう。
 部分位置推定結果b´とは、途中まで出力された単語列について、各単語に相当する画像中の位置を示すテンソルであれば特に限られず、例えば文頭から3つ目の単語まで出力した時点のときはサイズが「3×4」であるテンソルであり、当該テンソルの各要素は、各単語に相当する領域の左上の座標「x, y」と横幅wと縦幅hである。
 上記の文生成終了判定処理とは、文生成が終了したか判定する処理であれば特に限られず、画像説明部3は、例えば文末を示す<EOS>が出力されたとき文生成を終了すると判定し、それ以外の単語が出力されたときは文生成を継続すると判定する。
 パラメータ更新部4は、画像説明部3から説明文推定結果cと、位置推定結果bと、意味役割推定結果sとを受け取り、記憶部2から画像説明文生成器Aと、正解文Cと、正解位置Bと、正解意味役割系列Sとを受け取り、下記の3つの制約を満たすように画像説明文生成器Aの各ニューラルネットワークのパラメータ(画像説明文生成器Aのパラメータと称することもある)を更新する。
 1つ目の制約は、説明文推定結果cと正解文Cとの内容が近付く、または同じになるように、画像説明文生成器Aのパラメータを更新することであり、この制約を満たす様に設定された学習方法であれば特に限られない。例えば、パラメータ更新部4は、下記の式(1)の様に、説明文推定結果cと正解文Cとのクロスエントロピー誤差(cross-entropy loss)を算出し、この誤差が例えば一定値以下まで小さくなる、またはゼロ(zero)となるように、画像説明文生成器Aの説明文推定ニューラルネットワークのパラメータを更新する。
Figure JPOXMLDOC01-appb-M000001
 ここで、式(1)のkは、説明文推定結果cおよび正解文Cのインデックスであり、yは、画像説明文生成器Aのニューラルネットワークから出力される説明文推定結果c中の値であり、tは正解文C中の値である。tは、正解クラス(class)となるインデックスの値のみが「1」で、その他のインデックスの値が「0」である値である。
 2つ目の制約は、位置推定結果bと正解位置Bとが近付く、または同じになるように、画像説明文生成器Aのパラメータを更新することであり、この制約を満たす様に設定された学習方法であれば特に限られない。例えば、パラメータ更新部4は、位置推定結果bが{x, y, w, h}であり、正解位置Bが{x, y, w, h}の時に、{x, y, w, h}と{x, y, w, h}とのL1距離を計算し、この距離が例えば一定値以下まで小さくなる、またはゼロとなるように、画像説明文検出器Aの位置推定ニューラルネットワークのパラメータを更新する。L1距離とは、下記のように表現される。 
 |x-x|+|y-y|+|w-w|+|h-h|
 3つ目の制約は、意味役割推定結果sと正解意味役割系列Sとの内容が近付く、または同じになるように、画像説明文生成器Aのパラメータを更新することであり、この制約を満たす様に設定された学習方法であれば特に限られない。パラメータ更新部4は、例えば、下記の式(2)の様に、意味役割推定結果sと正解意味役割系列Sとのクロスエントロピー誤差を算出し、この誤差が例えば一定値以下まで小さくなる、またはゼロとなるように、画像説明文生成器Aの意味役割ニューラルネットワークのパラメータを更新する。
Figure JPOXMLDOC01-appb-M000002
 ここで、式(2)のmは、意味役割推定結果sおよび正解意味役割系列Sのインデックスであり、yは、画像説明文生成器Aのニューラルネットワークから出力される意味役割推定結果s中の値であり、tは、正解意味役割系列S中の値である。tは、正解クラスとなるインデックスの値のみが「1」で、その他のインデックスの値が「0」である値である。
 出力部5は、画像説明部3から説明文推定結果cと、位置推定結果bと、意味役割推定結果sを受け取り、これらの推定結果を出力する。この推定結果は、説明文推定結果cが単語列に変換された出力文c´のみでも良ければ、この出力文c´に加えて、位置推定結果bに基づいた位置出力情報b´が推定結果としてさらに出力されても良いし、意味役割推定結果sから出力文の各単語が推定された出力意味役割s´が推定結果としてさらに出力されても良い。
 上記の出力文c´とは、説明文推定結果cに基づいて求められた単語列であれば特に限られず、例えば、説明文推定結果cが、サイズが「出力文長I_h×語彙数D」であるテンソルであって、このテンソルの各要素が出力文の各単語の出現確率であるとき、ビームサーチ(beam search)により、出力文の文頭からビーム幅「5」で最大確率の文が探索されて求められた単語列でも良ければ、グリッドサーチ(grid search)により、全てのあり得る単語列について出現確率が計算されてなる、最大確率の単語列でも良い。
 上記の位置出力情報b´とは、位置推定結果bに基づくデータであれば特に限られず、例えば、画像データの表示領域上での位置推定結果bで示される位置に矩形(rectangle)が重畳された可視化画像でも良ければ、位置推定結果bがテキストデータ(text data)として出力されてなるファイル(file)でも良い。
 上記の出力意味役割s´とは、意味役割推定結果sに基づくデータであれば特に限られず、例えば、画像データの表示領域上での位置推定結果bで示される位置に矩形が重畳され、この矩形の付近、例えば左上に意味役割推定結果sの最大値のインデックスが重畳されてなる可視化画像でも良ければ、意味役割推定結果sの最大値のインデックスがテキストデータとして出力されてなるファイルでも良い。
 <画像処理装置による作用>
 次に、本実施形態に係る画像処理装置100の作用について説明する。 
 画像処理装置100は、以下に説明する学習処理ルーチンと推論処理ルーチンとをそれぞれ実行する。 
 <<学習処理ルーチン>>
 まず、学習処理ルーチンについて説明する。図3は、画像処理装置により実行される学習処理ルーチンの一例を示すフローチャートである。 
 この学習処理ルーチンでは、まず、画像特徴量xと、イベント情報yと、意味役割情報zとの入力が受け付けられ、これらの情報を融合した融合情報wが画像説明文生成器Aのニューラルネットワークに入力される。そして、画像説明文生成器Aのニューラルネットワークから説明文推定結果cと、位置推定結果bと、意味役割推定結果sとが出力される。
 そして、記憶部2から正解文Cと、正解位置Bと、正解意味役割系列Sとが受け取られ、(1)上記出力された説明文推定結果cと正解文Cとの内容が近付く、または同じになるように、かつ(2)上記出力された位置推定結果bと正解位置Bとが近付く、または同じになるように、かつ(3)上記出力された意味役割推定結果sと正解意味役割系列Sとの内容が近付く、または同じになるように、という上記の3つの制約が満たされるように、画像説明文生成器Aの各種ニューラルネットワークのパラメータが更新される。
 まず、ステップS101では、融合情報作成部1は、記憶部2からの画像特徴量xと、イベント情報yと、意味役割情報zとの入力を受け付け、これらの画像特徴量xと、イベント情報yと、意味役割情報zとが融合されてなる融合情報wを作成し、この作成された融合情報wを画像説明部3に出力する。
 ステップS102では、デコーダ融合情報作成部6は、記憶部2から正解文Cと正解意味役割系列Sを受け付け、これらの受け付けた結果に基づいてデコーダ融合情報vを作成し、このデコーダ融合情報vを画像説明部3に伝達する。
 ステップS103では、画像説明部3は、ステップS101で出力された融合情報wと、ステップS102で受け付けたデコーダ融合情報vと、記憶部2に格納されている画像説明文生成器Aとをそれぞれ受け取り、この受け取った融合情報wとデコーダ融合情報vを画像説明文推定器Aのニューラルネットワークに入力する。画像説明部3は、この画像説明文推定器Aのニューラルネットワークから説明文推定結果cと、位置推定結果bと、意味役割推定結果sとをそれぞれ出力し、これらの説明文推定結果cと、位置推定結果bと、意味役割推定結果sとをパラメータ更新部4に出力する。
 ステップS104では、パラメータ更新部4は、ステップS103で出力された説明文推定結果cと、位置推定結果bと、意味役割推定結果sとを受け取り、記憶部2に格納されている画像説明文生成器Aと、正解文Cと、正解位置Bと、正解意味役割系列Sとを受け取り、説明文推定結果cと正解文Cとの誤差(画像説明文ロスと称されることもある)、位置推定結果bと正解位置Bとの誤差(位置推定ロスと称されることもある)、および意味役割推定結果sと正解意味役割系列Sとの誤差(意味役割推定ロスと称されることもある)を計算する。
 そして、ステップS105では、パラメータ更新部4は、(1)説明文推定結果cと正解文Cとの内容が近付く、または同じになるように、かつ(2)位置推定結果bと正解位置Bとが近付く、または同じになるように、かつ(3)意味役割推定結果sと正解意味役割系列Sとの内容が近付く、または同じになるように、という3つの制約が満たされるように、画像説明文生成器Aの各種ニューラルネットワークのパラメータ(画像説明文モデルのパラメータ)を更新する。パラメータ更新部4は、パラメータが更新された画像説明文生成器Aを記憶部2に格納する。
 <<推論処理ルーチン>>
 次に、推論処理ルーチンについて説明する。図4は、画像処理装置により実行される推論処理ルーチンの一例を示すフローチャートである。 
 この推論処理ルーチンでは、まず、画像特徴量xと、イベント情報yと、意味役割情報zとの入力が受け付けられ、これらが融合されてなる融合情報wが、画像説明文生成器Aのニューラルネットワークに入力される。そして、画像説明文生成器Aのニューラルネットワークから、説明文推定結果cと、位置推定結果bと、意味役割推定結果sとが出力される。
 そして、説明文推定結果cが単語列に変換されてなる出力文c´と、位置推定結果bが可視化されてなる位置出力情報b´と、意味役割推定結果sから出力文の各単語が推定されてなる出力意味役割s´とがそれぞれ出力される。
 まず、ステップS201では、融合情報作成部1は、記憶部2からの画像特徴量xと、イベント情報yと、意味役割情報zとの入力を受け付け、これらの画像特徴量xと、イベント情報yと、意味役割情報zとが融合されてなる融合情報wを作成し、この融合情報wを画像説明部3に出力する。
 ステップS202では、デコーダ融合情報作成部6は、画像説明部3から部分説明文推定結果c´と、部分意味役割推定結果s´とを受け付け、これら受け付けた結果に基づいてデコーダ融合情報vを作成し、このデコーダ融合情報vを画像説明部3に出力する。
 ステップS203では、画像説明部3は、ステップS201で出力された融合情報wと、ステップS202で出力されたデコーダ融合情報vと、記憶部2に格納されている画像説明文生成器Aとをそれぞれ受け取り、これらの受け取った融合情報wとデコーダ融合情報vとを画像説明文生成器Aのニューラルネットワークに入力する。
 画像説明部3は、この画像説明文推定器Aのニューラルネットワークから部分説明文推定結果c´と、部分位置推定結果b´と、部分意味役割推定結果s´とを出力し、上記部分説明文推定結果c´について文生成終了判定処理を行なう。
 ステップS204では、画像説明部3は、文生成を継続すると判定したとき、上記の部分説明文推定結果c´と、部分位置推定結果b´と、部分意味役割推定結果s´とを画像説明部3に出力する。
 一方で、ステップS204では、画像説明部3は、文生成を終了すると判定したとき、上記の部分説明文推定結果c´と、部分位置推定結果b´と、部分意味役割推定結果s´とを、それぞれ説明文推定結果cと、位置推定結果bと、意味役割推定結果sとして出力部5に出力する。
 ステップS205では、出力部5は、ステップS203で出力された説明文推定結果cと位置推定結果bと意味役割推定結果sとを基に、説明文推定結果cが単語列に変換されてなる出力文c´と、位置推定結果bが可視化されてなる位置出力情報b´と、意味役割推定結果sから出力文の各単語が推定されてなる出力意味役割s´をそれぞれ出力する。
 本発明の一実施形態によれば、画像データと、制御信号としてのイベント名と意味役割情報とを入力とし、ニューラルネットワークを用いて、低コストかつ高精度にイベント名と意味役割情報とが制御信号として与えられた画像説明文を生成することができる、という効果が得られる。
 また、本発明の一実施形態によれば、画像データと、制御信号としてのイベント名と意味役割情報とを入力し、上記の非特許文献2に開示されたような手法を用いて、意味役割の領域推定と、意味役割の順番推定と、意味役割からの単語推定とを、単一のニューラルネットワークで同時に推定するニューラルネットワークを学習することができる、という効果も得られる。
 図5は、本発明の一実施形態に係る画像処理装置のハードウエア構成の一例を示すブロック図である。 
 図5に示された例では、上記の実施形態に係る画像処理装置100は、例えばサーバコンピュータ(server computer)またはパーソナルコンピュータ(personal computer)により構成され、CPU等のハードウエアプロセッサ(hardware processor)111Aを有する。そして、このハードウエアプロセッサ111Aに対し、プログラムメモリ(program memory)111B、データメモリ(data memory)112、入出力インタフェース(interface)113及び通信インタフェース114が、バス(bus)115を介して接続される。
 通信インタフェース114は、例えば1つ以上の無線の通信インタフェースユニット(interface unit)を含んでおり、通信ネットワーク(network)NWとの間で情報の送受信を可能にする。無線インタフェースとしては、例えば無線LAN(Local Area Network)などの小電力無線データ通信規格が採用されたインタフェースが使用される。
 入出力インタフェース113には、画像処理装置100に付設される、利用者などにより用いられる入力デバイス(device)200および出力デバイス300が接続される。 
 入出力インタフェース113は、キーボード(keyboard)、タッチパネル(touch panel)、タッチパッド(touchpad)、マウス(mouse)等の入力デバイス200を通じて利用者などにより入力された操作データを取り込むとともに、出力データを液晶または有機EL(Electro Luminescence)等が用いられた表示デバイスを含む出力デバイス300へ出力して表示させる処理を行なう。なお、入力デバイス200および出力デバイス300には、画像処理装置100に内蔵されたデバイスが使用されてもよく、また、ネットワークNWを介して画像処理装置100と通信可能である他の情報端末の入力デバイスおよび出力デバイスが使用されてもよい。
 プログラムメモリ111Bは、非一時的な有形の記憶媒体として、例えば、HDD(Hard Disk Drive)またはSSD(Solid State Drive)等の随時書込みおよび読出しが可能な不揮発性メモリ(non-volatile memory)と、ROM等の不揮発性メモリとが組み合わせて使用されたもので、一実施形態に係る各種制御処理等を実行する為に必要なプログラムが格納されている。
 データメモリ112は、有形の記憶媒体として、例えば、上記の不揮発性メモリと、RAM等の揮発性メモリ(volatile memory)とが組み合わせて使用されたもので、各種処理が行なわれる過程で取得および作成された各種データが記憶される為に用いられる。
 本発明の一実施形態に係る画像処理装置100は、ソフトウエア(software)による処理機能部として、図1に示される各部、すなわち融合情報作成部1、画像説明部3、パラメータ更新部4、出力部5、およびデコーダ融合情報作成部6を有するデータ処理装置として構成され得る。
 画像処理装置100の各部によるワークメモリ(working memory)などとして用いられる各情報記憶部および記憶部2は、図5に示されたデータメモリ112が用いられることで構成され得る。ただし、これらの構成される記憶領域は画像処理装置100内に必須の構成ではなく、例えば、USB(Universal Serial Bus)メモリなどの外付け記憶媒体、又はクラウド(cloud)に配置されたデータベースサーバ(database server)等の記憶装置に設けられた領域であってもよい。
 上記の融合情報作成部1、画像説明部3、パラメータ更新部4、出力部5、およびデコーダ融合情報作成部6の各部における処理機能部は、いずれも、プログラムメモリ111Bに格納されたプログラムを上記ハードウエアプロセッサ111Aにより読み出させて実行させることにより実現され得る。なお、これらの処理機能部の一部または全部は、特定用途向け集積回路(ASIC(Application Specific Integrated Circuit))またはFPGA(Field-Programmable Gate Array)などの集積回路を含む、他の多様な形式によって実現されてもよい。
 また、各実施形態に記載された手法は、計算機(コンピュータ)に実行させることができるプログラム(ソフトウエア手段)として、例えば磁気ディスク(フロッピー(登録商標)ディスク(Floppy disk)、ハードディスク(hard disk)等)、光ディスク(optical disc)(CD-ROM、DVD、MO等)、半導体メモリ(ROM、RAM、フラッシュメモリ(Flash memory)等)等の記録媒体に格納し、また通信媒体により伝送して頒布され得る。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウエア手段(実行プログラムのみならずテーブル(table)、データ構造も含む)を計算機内に構成させる設定プログラムをも含む。本装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウエア手段を構築し、このソフトウエア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスク、半導体メモリ等の記憶媒体を含むものである。
 なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
  100…画像処理装置
  1…融合情報作成部
  2…記憶部
  3…画像説明部
  4…パラメータ更新部
  5…出力部
  6…デコーダ融合情報作成部

Claims (8)

  1.  画像データと、前記画像データに写される状況の名称を示す名称情報と、前記画像データに写される状況を説明する説明文の各単語の意味役割を示す意味役割情報と、前記画像データに写される状況を説明する説明文の正解情報と、前記状況を説明する説明文の各単語の意味役割の正解情報と、の入力を受け付ける入力部と、
     前記入力部により入力された画像データ、名称情報、意味役割情報、前記説明文の正解情報、および前記意味役割の正解情報に基づいて、前記画像データに写される状況を説明する説明文を出力し、かつ前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置、および前記出力される説明文の各単語の意味役割を示す情報を出力する出力部と、
     を備える画像処理装置。
  2.  前記出力部は、
      前記入力部により入力された画像データ、名称情報、意味役割情報、前記説明文の正解情報、および前記意味役割の正解情報をニューラルネットワークに入力し、この入力の結果に基づいて、前記画像データに写される状況を説明する説明文を出力し、かつ前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置、および前記出力される説明文の各単語の意味役割を示す情報を出力する、
     請求項1に記載の画像処理装置。
  3.  前記入力部により入力された画像データ、名称情報、および意味役割情報を融合してなる第1の融合情報を作成する第1の融合情報作成部と、
     前記画像データに写される状況を説明する説明文の正解情報および前記状況を説明する説明文の各単語の意味役割の正解情報を融合してなる第2の融合情報を作成する第2の融合情報作成部と、をさらに備え、
     前記出力部は、
      前記第1の融合情報作成部により作成された第1の融合情報および前記第2の融合情報作成部により作成された第2の融合情報をニューラルネットワークに入力し、これらの入力の結果に基づいて、前記状況を説明する説明文の各単語の特徴が示される特徴情報を出力し、
      前記特徴情報に基づいて、前記状況を説明する説明文の推定結果と、前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置の推定結果と、前記状況を説明する文の各単語の意味役割の推定結果とをそれぞれ出力する、
     請求項1に記載の画像処理装置。
  4.   画像データに写される状況を説明する説明文の正解情報、前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置の正解情報、および前記状況を説明する説明文の各単語の意味役割の正解情報と、前記ニューラルネットワークを用いて出力される、前記画像データに写される状況を説明する説明文、前記ニューラルネットワークを用いて出力される、前記画像データにおける、前記状況を説明する説明文の各単語に係る位置、および前記ニューラルネットワークを用いて出力される、前記説明文の各単語の意味役割を示す情報と、に基づいて、
      前記ニューラルネットワークを用いて出力される、前記画像データに写される状況を説明する説明文が前記説明文の正解情報に近づくように、前記ニューラルネットワークのパラメータを更新し、
      前記ニューラルネットワークを用いて出力される、前記画像データにおける、前記状況を説明する説明文の各単語に係る位置が前記位置の正解情報に近づくように、前記ニューラルネットワークのパラメータを更新し、
      前記ニューラルネットワークを用いて出力される、前記説明文の各単語の意味役割を示す情報が前記意味役割の正解情報に近づくように、前記ニューラルネットワークのパラメータを更新する
    更新部をさらに備える、
     請求項2に記載の画像処理装置。
  5.  画像処理装置により行なわれる方法であって、
     前記画像処理装置が、画像データと、前記画像データに写される状況の名称を示す名称情報と、前記画像データに写される状況を説明する説明文の各単語の意味役割を示す意味役割情報と、前記画像データに写される状況を説明する説明文の正解情報と、前記状況を説明する説明文の各単語の意味役割の正解情報と、の入力を受け付けることと、
     前記画像処理装置が、前記入力された画像データ、名称情報、意味役割情報、前記説明文の正解情報、および前記意味役割の正解情報に基づいて、前記画像データに写される状況を説明する説明文を出力し、かつ前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置、および前記出力される説明文の各単語の意味役割を示す情報を出力することと、
     を備える画像処理方法。
  6.  前記出力することは、
      前記入力された画像データ、名称情報、意味役割情報、前記説明文の正解情報、および前記意味役割の正解情報をニューラルネットワークに入力し、この入力の結果に基づいて、前記画像データに写される状況を説明する説明文を出力し、かつ前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置、および前記出力される説明文の各単語の意味役割を示す情報を出力することを含む、
     請求項5に記載の画像処理方法。
  7.  前記入力された画像データ、名称情報、および意味役割情報を融合してなる第1の融合情報を作成することと、
      前記画像データに写される状況を説明する説明文の正解情報および前記状況を説明する説明文の各単語の意味役割の正解情報を融合してなる第2の融合情報を作成することと、をさらに備え、
     前記出力することは、
      前記作成された第1および第2の融合情報をニューラルネットワークに入力し、これらの入力の結果に基づいて、前記状況を説明する説明文の各単語の特徴が示される特徴情報を出力し、
      前記特徴情報に基づいて、前記状況を説明する説明文の推定結果と、前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置の推定結果と、前記状況を説明する文の各単語の意味役割の推定結果とをそれぞれ出力する、ことを含む、
     請求項5に記載の画像処理方法。
  8.  請求項1乃至4のいずれか1項に記載の画像処理装置の各部としてプロセッサを機能させる画像処理プログラム。
PCT/JP2022/021254 2022-05-24 2022-05-24 画像処理装置、方法およびプログラム WO2023228276A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/021254 WO2023228276A1 (ja) 2022-05-24 2022-05-24 画像処理装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/021254 WO2023228276A1 (ja) 2022-05-24 2022-05-24 画像処理装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
WO2023228276A1 true WO2023228276A1 (ja) 2023-11-30

Family

ID=88918843

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/021254 WO2023228276A1 (ja) 2022-05-24 2022-05-24 画像処理装置、方法およびプログラム

Country Status (1)

Country Link
WO (1) WO2023228276A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021036388A (ja) * 2019-08-30 2021-03-04 大日本印刷株式会社 データ構造及び画像処理装置
US20220019734A1 (en) * 2020-06-17 2022-01-20 Tata Consultancy Services Limited Method and system for visio-linguistic understanding using contextual language model reasoners

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021036388A (ja) * 2019-08-30 2021-03-04 大日本印刷株式会社 データ構造及び画像処理装置
US20220019734A1 (en) * 2020-06-17 2022-01-20 Tata Consultancy Services Limited Method and system for visio-linguistic understanding using contextual language model reasoners

Similar Documents

Publication Publication Date Title
JP6842167B2 (ja) 要約生成装置、要約生成方法及びコンピュータプログラム
US10445654B2 (en) Learning parameters in a feed forward probabilistic graphical model
US11100917B2 (en) Generating ground truth annotations corresponding to digital image editing dialogues for training state tracking models
JP2021108096A (ja) 情報を出力する方法および装置
CN110415679B (zh) 语音纠错方法、装置、设备和存储介质
US9613185B2 (en) Influence filtering in graphical models
US11537797B2 (en) Hierarchical entity recognition and semantic modeling framework for information extraction
CN111159220B (zh) 用于输出结构化查询语句的方法和装置
US20180247183A1 (en) Method and system for generative model learning, and recording medium
CN114462616A (zh) 用于防止敏感数据在线公开的机器学习模型
US11127494B2 (en) Context-specific vocabulary selection for image reporting
US12032607B2 (en) Context-based recommendation system for feature search
JP7068242B2 (ja) 学習装置、学習方法およびプログラム
JP2020135456A (ja) 生成装置、学習装置、生成方法及びプログラム
US11531807B2 (en) System and method for customized text macros
CN112582073B (zh) 医疗信息获取方法、装置、电子设备和介质
JP2020135457A (ja) 生成装置、学習装置、生成方法及びプログラム
US20220415481A1 (en) Mesh topology adaptation
CN108932225A (zh) 用于将自然语言需求转换成为语义建模语言语句的方法和系统
WO2023228276A1 (ja) 画像処理装置、方法およびプログラム
US9940320B2 (en) Plugin tool for collecting user generated document segmentation feedback
WO2023084704A1 (ja) 画像処理装置、方法およびプログラム
US20220147703A1 (en) Voice activated clinical reporting systems and methods thereof
JP2022185799A (ja) 情報処理プログラム、情報処理方法および情報処理装置
WO2024018532A1 (ja) 映像処理装置、方法、及びプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22943681

Country of ref document: EP

Kind code of ref document: A1