WO2023084704A1 - 画像処理装置、方法およびプログラム - Google Patents

画像処理装置、方法およびプログラム Download PDF

Info

Publication number
WO2023084704A1
WO2023084704A1 PCT/JP2021/041576 JP2021041576W WO2023084704A1 WO 2023084704 A1 WO2023084704 A1 WO 2023084704A1 JP 2021041576 W JP2021041576 W JP 2021041576W WO 2023084704 A1 WO2023084704 A1 WO 2023084704A1
Authority
WO
WIPO (PCT)
Prior art keywords
image data
situation
information
word
semantic role
Prior art date
Application number
PCT/JP2021/041576
Other languages
English (en)
French (fr)
Inventor
香織 熊谷
基宏 高木
重邦 近藤
裕司 青野
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/041576 priority Critical patent/WO2023084704A1/ja
Publication of WO2023084704A1 publication Critical patent/WO2023084704A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Definitions

  • the embodiments of the present invention relate to an image processing device, method and program.
  • image description text generation technology as a technology to describe the situation captured in the image data (sometimes simply referred to as an image). This technology is expected to be used to reduce the cost of clerical work that requires manual labor, such as automatic recording of work taken in factories and the automatic entry of electronic medical records at medical sites. have been extensively studied.
  • Non-Patent Document 1 a set (set) of a large number of images and a sentence explaining the situation captured in the image is used as learning data (data), and the image is input to an image explanation sentence generation model (model). , training a model to estimate sentences describing the imaged situation.
  • This image description generation model can generate simple sentences using common words that are often included in the dataset, but cannot control what is mentioned in the sentences according to the purpose. .
  • the controllable image description generation technology is a technology that generates an image description while controlling the content to be referred to by giving a control signal together with the image data as an input to the image description generator, and has begun to be researched in recent years. .
  • an object area designation type image explanation text generation technique that gives a partial area of an image to be referred to as a control signal.
  • the object area of the control signal in this technology is automatically selected from a plurality of object areas detected by object detection technology that identifies the position and name of the object in the display area of the image, so the reference target indicated by the image may include areas that are not directly related to the event that indicates the status of
  • unnatural sentences may be generated by using words that are not related to the event to be mentioned. For example, when the event to be referred to is blood pressure measurement and the area of the chair is included as the control information, the phrase "with the chair", which is not directly related to the event, is included in the generated sentence.
  • Non-Patent Document 2 discloses a technique of an image explanatory text generation method in which the name of an event to be mentioned and semantic role information related to the event are given as control signals. Semantic roles are sometimes called thematic roles.
  • An event name in this technique is, for example, "test” (see FIG. 1), which is a name indicating an activity to be mentioned in an image.
  • the semantic role information is, for example, "subject”, "object” or "location”, and is an element necessary when describing the event name indicating the activity to be referred to in sentences. A sentence generated using this technique is unlikely to contain words unrelated to the event you wish to mention.
  • the image description generation method described in Non-Patent Document 2 is divided into a plurality of steps, and each step requires a neural network model.
  • the problem is that is large.
  • the neural network model in the above multiple steps consists of a model for estimating regions in an image for each semantic role given as a control signal, a model for estimating the order of semantic roles, and a model for estimating the order of semantic roles. It becomes a model that estimates words. At the time of learning and inference, it is necessary to learn and infer each model in turn, so it is assumed that it will take time and effort to adjust the parameters of the model, and the cost will increase.
  • Non-Patent Document 2 inference in the latter step is also performed using the estimation results of the previous step, so errors in inference in the previous step cannot be corrected in the latter step. Errors in reasoning when estimating the order of semantic roles may result in sentences with unnatural word order.
  • the present invention has been made in view of the above circumstances, and its object is to provide an image processing apparatus capable of appropriately generating an image description that describes a situation represented in image data.
  • the object is to provide a method and a program.
  • An image processing apparatus includes image data, name information indicating the name of a situation represented in the image data, and the meaning of each word in a description explaining the situation represented in the image data.
  • an input unit for receiving input of semantic role information indicating a role; and outputting a description explaining a situation represented in the image data based on the image data, name information, and semantic role information input by the input unit.
  • an output unit configured to output, in the image data display area, information indicating the position of each word of the description describing the situation and the semantic role of each word of the output description. .
  • An image processing method is a method performed by an image processing apparatus, wherein the image processing apparatus processes image data, name information indicating the name of a situation represented in the image data, and Receiving input of semantic role information indicating the semantic role of each word of a descriptive text describing a situation represented in image data; and outputting a description explaining the situation shown in the image data based on the position of each word of the explanation explaining the situation in the display area of the image data, and the description to be output and outputting information indicating the semantic role of each word in the sentence.
  • FIG. 1 is a diagram showing an application example of an image processing apparatus according to one embodiment of the present invention.
  • FIG. 2 is a diagram showing an example of the configuration of an image description generator.
  • FIG. 3 is a flow chart showing an example of a learning processing routine executed by the image processing device.
  • FIG. 4 is a flow chart showing an example of an inference processing routine executed by the image processing device.
  • FIG. 5 is a block diagram showing an example of the hardware configuration of the image processing apparatus according to one embodiment of the present invention.
  • FIG. 1 is a diagram showing an application example of an image processing apparatus 100 according to one embodiment of the present invention.
  • the image processing apparatus 100 includes a CPU (Central Processing Unit), a RAM (Random Access Memory), and a ROM (Read Only Memory) storing a program for executing an image description processing routine, which will be described later. It consists of a computer and is functionally configured as shown below.
  • CPU Central Processing Unit
  • RAM Random Access Memory
  • ROM Read Only Memory
  • the fusion information creation unit 1 receives the input of the image feature x, the event information y, and the semantic role information z from the storage unit 2, and converts the image feature x, the event information y, and the semantic role information z. Create fusion information w in which are merged.
  • the event information y is not particularly limited as long as it is a vector indicating an event name, which is the name of the situation displayed in the display area of certain image data I.
  • FIG. the event information y is a vector with a length corresponding to the number of event types, and only the index value corresponding to the event shown in the image is "1", and the other index values are "0". ” vector.
  • an event recognition model capable of recognizing the given event type can be used to The events shown may be recognized and the recognition results used to create a vector representing the events in the image.
  • the fusion information w is not particularly limited as long as it is a tensor created from the image feature amount x, the event information y, and the semantic role information z.
  • the size of the image feature x is represented by the horizontal width w, the vertical width h, and the number of channels c
  • the event information y is a vector having the length l_y
  • the semantic role Suppose the information z is a vector with length l_z.
  • the fusion information w is a tensor in which each vector of the event information y and the semantic role information z is duplicated according to the size of the horizontal width w and the vertical width h of the image feature amount x. This tensor has a horizontal width w , height h, and number of channels (c+l_y+l_z).
  • FIG. 2 is a diagram showing an example of the configuration of an image description generator.
  • FIG. 2 shows the concept of the configuration of image feature x, event information y, semantic role information z, fusion information w created by fusion information creation unit 1, and image description generator A.
  • the neural network of image description generator A is composed of a common neural network, a description estimation neural network, a location estimation neural network, and a semantic role estimation neural network.
  • the neural network of this image description text generator A inputs the fusion information w to the common network to obtain the common feature quantity h, and then inputs the common feature quantity h to the description text estimation neural network to obtain the description text estimation result c. , input the common feature h to the localization neural network and output the localization result b, input the common feature h to the semantic role estimation neural network and output the semantic role estimation result s.
  • the common feature h to the localization neural network and output the localization result b
  • the common feature h to the semantic role estimation neural network There is no particular limitation, if any.
  • the common neural network is not particularly limited as long as it is a neural network that inputs fusion information w and outputs common feature amount h.
  • This common feature amount h is not particularly limited as long as it is a tensor composed of feature vectors representing each word of the output sentence, and is, for example, a tensor whose size is output sentence length ⁇ l_h.
  • the explanation sentence estimation neural network is not particularly limited as long as it is a network that inputs the common feature quantity h and outputs the explanation sentence estimation result c.
  • This description text estimation result c is not particularly limited as long as it is a tensor that indicates the word string of the output sentence that is the image description text. Each element of is the occurrence probability of each word in the output sentence.
  • the position estimation neural network is not particularly limited as long as it is a network that inputs the common feature quantity h and outputs the position estimation result b.
  • This position estimation result b is not particularly limited as long as it is a tensor indicating the position in the display area of the image corresponding to each word of the output sentence, which is a sentence explaining the situation shown in the image data. It is a tensor that is "output sentence length l_h ⁇ 4", and each element of this tensor is, for example, the coordinates x, y based on the upper left of the area corresponding to each word of the output sentence in the image data, and the width w and It is the value of the vertical width h.
  • the semantic role estimation neural network is not particularly limited as long as it is a network that inputs a common feature quantity h and outputs a semantic role estimation result s.
  • the semantic role estimation result s is not particularly limited as long as it is a tensor indicating the semantic role of each word in the output sentence. , and each element of this tensor is the occurrence probability for the semantic role of each word in the output sentence.
  • the correct sentence C stored in the storage unit 2 as described above is not particularly limited as long as it is a tensor indicating the correct information of the word string of the output sentence explaining the situation represented in the certain image data I.
  • the size is a tensor that is "output sentence length l_h ⁇ number of vocabulary D", and each element corresponds to each word in the output sentence. Only the index value is "1", and the other index values are "0". is some tensor.
  • the correct position B stored in the storage unit 2 as described above is the position in the display area of the image data corresponding to each word of the output sentence, which is a sentence explaining the situation shown in the image data I.
  • it is a tensor whose size is “output sentence length l_h ⁇ 4”, and each element of this tensor is, for example, the area of the image data corresponding to each word of the output sentence. Values of coordinates x, y, width w, and height h with reference to the upper left.
  • the correct semantic role sequence S stored in the storage unit 2 is particularly limited to a tensor indicating the semantic role of each word of an output sentence, which is a sentence explaining a situation represented in certain image data I.
  • a tensor whose size is "output sentence length l_h x number of semantic role types", and each element corresponds to the semantic role of each word in the output sentence. Only the index value is "1", Other indices are tensors whose values are '0'.
  • the image description unit 3 receives the fusion information w from the fusion information creation unit 1, receives the image description text generator A from the storage unit 2, inputs the fusion information w to the neural network of the image description text generator A, and generates this
  • the explanatory sentence estimation result c, the position estimation result b, and the semantic role estimation result s output from the neural network are respectively output.
  • the parameter updating unit 4 receives the descriptive text estimation result c, the position estimation result b, and the semantic role estimation result s from the image description unit 3, and the image description text generator A, the correct sentence C, and the The correct position B and the correct semantic role sequence S are received, and the parameters of each neural network of the image description generator A (also referred to as the parameters of the image description generator A) are set so as to satisfy the following three constraints: to update.
  • the first constraint is to update the parameters of the image explanatory text generator A so that the contents of the explanatory text estimation result c and the correct text C are close to or the same.
  • the parameter update unit 4 calculates the cross-entropy loss between the explanation sentence estimation result c and the correct sentence C as shown in the following equation (1), and this error reaches a certain value or less. Update the parameters of the description estimation neural network of the image description generator A so that they become smaller or zero.
  • Equation (1) is an index of explanatory sentence estimation result c and correct sentence C
  • y k is a value in explanatory sentence estimation result c output from the neural network of image explanation sentence generator A.
  • tk is the value in the correct sentence C.
  • tk is a value where only the value of the index that is the correct class (class) is "1" and the value of the other indices is "0".
  • the second constraint is to update the parameters of the image description generator A so that the position estimation result b and the correct position B are close to or the same.
  • the learning method is not particularly limited.
  • the parameter updating unit 4 updates ⁇ Calculate the L1 distance between xb , yb , wb , hb ⁇ and ⁇ xB , yB , wB , hB ⁇ , and set the distance so that it becomes smaller, for example, below a certain value or becomes zero.
  • the parameters of the position estimation neural network of the image caption detector A are updated.
  • the L1 distance is expressed as follows.
  • the third constraint is to update the parameters of the image explanatory text generator A so that the contents of the semantic role estimation result s and the correct semantic role series S are close to or the same, and this constraint is satisfied.
  • the parameter updating unit 4 calculates the cross-entropy error between the semantic role estimation result s and the correct semantic role sequence S, for example, as in the following equation (2), and this error becomes smaller, for example, below a certain value, or Update the parameters of the semantic role neural network of the image description generator A to be zero.
  • Equation (2) is the index of the semantic role estimation result s and the correct semantic role sequence S
  • y m is the semantic role estimation result s output from the neural network of the image description generator A
  • t m is a value in the correct semantic role sequence S.
  • tm is a value where only the index value of the correct class is "1" and the other index values are "0".
  • the output unit 5 receives the explanatory text estimation result c, the position estimation result b, and the semantic role estimation result s from the image explanation unit 3, and outputs these estimation results.
  • this estimation result if only the output sentence c' converted from the explanation sentence estimation result c into the word string is sufficient, in addition to this output sentence c', the position output information b' based on the position estimation result b is the estimation result. , or an output semantic role s' obtained by estimating each word of the output sentence from the semantic role estimation result s may be further output as an estimation result.
  • the position output information b′ is not particularly limited as long as it is data based on the position estimation result b. It may be a visualized image, or a file in which the position estimation result b is output as text data.
  • the output semantic role s′ is not particularly limited as long as it is data based on the semantic role estimation result s. It may be a visualized image in which the index of the maximum value of the semantic role estimation result s is superimposed in the vicinity of the rectangle, for example, in the upper left, or a file in which the index of the maximum value of the semantic role estimation result s is output as text data.
  • FIG. 3 is a flow chart showing an example of a learning processing routine executed by the image processing device.
  • this learning processing routine first, input of image feature quantity x, event information y, and semantic role information z is accepted, and fusion information w obtained by fusing these pieces of information is sent to the neural network of image description generator A. is entered. Then, the neural network of the image description text generator A outputs the description text estimation result c, the position estimation result b, and the semantic role estimation result s.
  • the correct sentence C, the correct position B, and the correct semantic role series S are received from the storage unit 2, and (1) the content of the output explanation sentence estimation result c and the correct sentence C are close to or the same. and (2) the output position estimation result b and the correct position B are close or the same, and (3) the output semantic role estimation result s and the correct semantic role sequence
  • the parameters of the various neural networks of the image description generator A are updated so that the above three constraints of being close or identical to S are satisfied.
  • the fusion information creation unit 1 receives the input of the image feature x, the event information y, and the semantic role information z from the storage unit 2, and converts the image feature x and the event information y. and the semantic role information z are merged to create fusion information w, and the generated fusion information w is output to the image explanation unit 3 .
  • step S102 the image description unit 3 receives the fusion information w output in step S101 and the image description text generator A stored in the storage unit 2, and converts the received fusion information w into an image description text. Input to the neural network of the estimator A.
  • the image description unit 3 outputs the descriptive text estimation result c, the position estimation result b, and the semantic role estimation result s from the neural network of the image description text estimator A, respectively.
  • the position estimation result b and the semantic role estimation result s are output to the parameter updating unit 4 .
  • step S103 the parameter updating unit 4 receives the explanatory text estimation result c, the position estimation result b, and the semantic role estimation result s output in step S102, and generates an image explanatory text stored in the storage unit 2.
  • a device A, a correct sentence C, a correct position B, and a correct semantic role sequence S are received.
  • the error between the estimation result b and the correct position B (sometimes called position estimation loss), and the error between the semantic role estimation result s and the correct semantic role sequence S (sometimes called the semantic role estimation loss ).
  • the parameter update unit 4 (1) makes the contents of the explanatory text estimation result c and the correct text C closer or the same, and (2) makes the location estimation result b and the correct location B closer, or and (3) the contents of the semantic role estimation result s and the correct semantic role sequence S are close to each other or are the same. Update the parameters of various neural networks (parameters of the image description model).
  • the parameter update unit 4 stores the image description text generator A with updated parameters in the storage unit 2 .
  • FIG. 4 is a flow chart showing an example of an inference processing routine executed by the image processing device.
  • this inference processing routine first, input of image feature quantity x, event information y, and semantic role information z is accepted, and fusion information w obtained by fusing these is generated by the neural network of image description generator A. is entered in Then, the neural network of the image description text generator A outputs the description text estimation result c, the position estimation result b, and the semantic role estimation result s.
  • each word of the output sentence is estimated from the output sentence c′ obtained by converting the explanation sentence estimation result c into a word string, the position output information b′ obtained by visualizing the position estimation result b, and the semantic role estimation result s.
  • the output semantic roles s' are output respectively.
  • the fusion information creation unit 1 receives the input of the image feature x, the event information y, and the semantic role information z from the storage unit 2, and converts the image feature x and the event information y. and the semantic role information z are merged to create fusion information w, and this fusion information w is output to the image explanation unit 3 .
  • step S202 the image description unit 3 receives the fusion information w output in step S202 and the image description text generator A stored in the storage unit 2, and converts the received fusion information w into an image description text. Input to the neural network of generator A.
  • the image explanation unit 3 outputs the explanatory sentence estimation result c, the position estimation result b, and the semantic role estimation result s from the neural network of the image explanation sentence estimator A, respectively.
  • the estimation result b and the semantic role estimation result s are output to the output unit 5 .
  • step S203 the output unit 5 converts the descriptive text estimation result c into a word string based on the descriptive text estimation result c, the position estimation result b, and the semantic role estimation result s output in step S202.
  • Sentence c', location output information b' in which position estimation result b is visualized, and output semantic role s' in which each word of the output sentence is estimated from semantic role estimation result s are output.
  • image data and event names and semantic role information as control signals are input, and event names and semantic role information are controlled at low cost and with high accuracy using a neural network. An effect is obtained that an image description given as a signal can be generated.
  • image data, an event name as a control signal, and semantic role information are input, and the semantic role It is also possible to learn a neural network that simultaneously estimates region estimation, order estimation of semantic roles, and word estimation from semantic roles with a single neural network.
  • FIG. 5 is a block diagram showing an example hardware configuration of an image processing apparatus according to an embodiment of the present invention.
  • the image processing apparatus 100 according to the above embodiment is configured by, for example, a server computer or a personal computer, and has a hardware processor 111A such as a CPU.
  • a hardware processor 111A such as a CPU.
  • a program memory 111B a data memory 112
  • an input/output interface 113 and a communication interface 114 are connected to the hardware processor 111A via a bus 115.
  • the communication interface 114 includes, for example, one or more wireless communication interface units, and enables information to be sent and received with a communication network NW.
  • a wireless interface an interface adopting a low-power wireless data communication standard such as a wireless LAN (Local Area Network) is used.
  • An input device 200 and an output device 300 attached to the image processing apparatus 100 and used by a user or the like are connected to the input/output interface 113 .
  • the input/output interface 113 captures operation data input by a user or the like through an input device 200 such as a keyboard, touch panel, touchpad, mouse, etc., and outputs output data to a liquid crystal display.
  • an input device 200 such as a keyboard, touch panel, touchpad, mouse, etc.
  • a process of outputting to an output device 300 including a display device using organic EL (Electro Luminescence) or the like for display is performed.
  • Devices built into the image processing apparatus 100 may be used as the input device 200 and the output device 300.
  • an input device of another information terminal capable of communicating with the image processing apparatus 100 via the network NW may be used.
  • Devices and output devices may be used.
  • the program memory 111B is a non-temporary tangible storage medium, for example, a non-volatile memory that can be written and read at any time, such as a HDD (Hard Disk Drive) or SSD (Solid State Drive), It is used in combination with a non-volatile memory such as a ROM, and stores programs necessary for executing various control processes and the like according to one embodiment.
  • a non-volatile memory such as a ROM, and stores programs necessary for executing various control processes and the like according to one embodiment.
  • the data memory 112 is used as a tangible storage medium, for example, by combining the above-mentioned nonvolatile memory and a volatile memory such as RAM. It is used to store various data that has been written.
  • An image processing apparatus 100 includes a fusion information creation unit 1, an image description unit 3, a parameter update unit 4, and an output unit 5 shown in FIG. 1 as processing function units by software.
  • a fusion information creation unit 1 an image description unit 3, a parameter update unit 4, and an output unit 5 shown in FIG. 1 as processing function units by software.
  • Each information storage unit and the storage unit 2 used as a working memory by each unit of the image processing apparatus 100 can be configured by using the data memory 112 shown in FIG.
  • these configured storage areas are not essential components in the image processing apparatus 100.
  • an external storage medium such as a USB (Universal Serial Bus) memory, or a database server (cloud) located in the cloud ( It may be an area provided in a storage device such as a database server).
  • the processing function units in each unit of the fusion information creation unit 1, the image description unit 3, the parameter update unit 4, and the output unit 5 read out the program stored in the program memory 111B by the hardware processor 111A. It can be realized by letting the Some or all of these processing functions may be implemented in a variety of other forms, including integrated circuits such as Application Specific Integrated Circuits (ASICs) or Field-Programmable Gate Arrays (FPGAs). may be implemented.
  • ASICs Application Specific Integrated Circuits
  • FPGAs Field-Programmable Gate Arrays
  • each embodiment can be applied to a program (software means) that can be executed by a computer (computer), such as a magnetic disk (floppy disk, hard disk). etc.), optical discs (CD-ROM, DVD, MO, etc.), semiconductor memory (ROM, RAM, flash memory, etc.) and other recording media, or transmitted and distributed via communication media can be
  • the programs stored on the medium also include a setting program for configuring software means (including not only execution programs but also tables and data structures) to be executed by the computer.
  • a computer that realizes this apparatus reads a program recorded on a recording medium, and optionally constructs software means by a setting program, and executes the above-described processing by controlling the operation by this software means.
  • the term "recording medium” as used herein is not limited to those for distribution, and includes storage media such as magnetic disks, semiconductor memories, etc. provided in computers or devices connected via a network.
  • the present invention is not limited to the above-described embodiments, and can be variously modified in the implementation stage without departing from the gist of the present invention. Further, each embodiment may be implemented in combination as appropriate, in which case the combined effect can be obtained. Furthermore, various inventions are included in the above embodiments, and various inventions can be extracted by combinations selected from a plurality of disclosed constituent elements. For example, even if some constituent elements are deleted from all the constituent elements shown in the embodiments, if the problem can be solved and effects can be obtained, the configuration with the constituent elements deleted can be extracted as an invention.

Abstract

一実施形態に係る画像処理装置は、画像データと、前記画像データに写される状況の名称を示す名称情報と、前記画像データに写される状況を説明する説明文の各単語の意味役割を示す意味役割情報の入力を受け付ける入力部と、前記入力部により入力された画像データ、名称情報、および意味役割情報に基づいて、前記画像データに写される状況を説明する説明文を出力し、かつ前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置、および前記出力される説明文の各単語の意味役割を示す情報を出力する出力部と、を有する。

Description

画像処理装置、方法およびプログラム
 本発明の実施形態は、画像処理装置、方法およびプログラムに関する。
 画像データ(単に画像と称することもある)中に写された状況を文で説明する技術としての画像説明文生成技術がある。この技術は、工場などで撮影された作業の自動記録、または医療現場での電子カルテ(electronic medical records)の自動記入など、人手が必要な事務作業コスト(cost)を削減するための活用が期待され、広く研究されている。
 例えば非特許文献1では、大量の画像と、当該画像に写された状況を説明する文とのセット(set)を学習データ(data)とし、画像を画像説明文生成モデル(model)に入力し、当該画像写された状況を説明する文を推定するようにモデルを学習することが開示される。この画像説明文生成モデルは、データセットに多く含まれるような一般的な単語が使用された単純な文を生成することは可能だが、文中で言及する内容を目的に合わせて制御することはできない。
 制御可能な画像説明文の生成技術は、画像説明文生成器の入力として、画像データと共に制御信号を与え、言及する内容を制御しながら画像説明文を生成する技術であり、近年研究され始めている。
 また、制御信号として、言及したい画像の部分領域を与える、物体領域指定型の画像説明文生成技術がある。当該技術における制御信号の物体領域とは、画像の表示領域中の物体の位置と名称を特定する物体検出技術で検出された複数の物体領域から自動選択されるため、画像により示される、言及対象の状況を示すイベント(event)とは直接関連のない領域が含まれる場合がある。 
 このとき、言及対象のイベントに関連が無い単語が使用されることで、不自然な文が生成される可能性がある。例えば、言及対象のイベントが血圧測定である一方で、制御情報として椅子の領域が含まれるとき、イベントに直接関係が無い“with the chair”という文言が生成文中に含まれてしまう。
 非特許文献2には、制御信号として言及対象のイベント名と当該イベントに関連する意味役割(semantic role)情報とが与えられる画像説明文生成方法の技術が開示される。意味役割は主題役割(thematic role)と称されることもある。当該技術におけるイベント名とは、例えば “test”(図1参照)であり、画像中で言及したい活動を示す名称である。また、意味役割情報とは、例えば“主体”、“目的語”または“場所”であり、言及対象の活動を示すイベント名を文で説明するときに必要な要素である。当該技術を使用して生成された文中に、言及したいイベントに関連が無い単語が含まれる可能性は少ない。
Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi and Rita Cucchiara, "Meshed-Memory Transformer for Image Captioning", in Proc. Of CVPR2020. Long Chen, Zhihong Jiang, Jun Xiao and Wei Liu, "Human-like Controllable Image Captioning with Verb-specific Semantic Roles", in Proc. Of CVPR2021.
 しかしながら非特許文献2に記載される画像説明文生成方法は、複数のステップ(step)に分かれてなり、各ステップにおいてニューラルネットワークモデル(neural network model)が必要であるため、学習および推論に係るコストが大きいことが問題である。 
 上記複数のステップにおけるニューラルネットワークモデルとは、制御信号として与えられた各意味役割について画像中の領域を推定するモデルと、意味役割の順番推定をするモデルと、順番に並べられた意味役割ごとに単語推定するモデルとでなる。学習および推論時は、各モデルを順番に学習および推論する必要があるため、モデルのパラメータ(parameter)調整などの手間がかかり、コストが大きくなることが想定される。
 また、非特許文献2は、前段ステップの推定結果を使用して後段ステップの推論も行なうため、前段での推論の誤りを後段で修正することができない。意味役割の順番推定時に推論を誤ると、不自然な単語順の文が生成される可能性がある。
 この発明は、上記事情に着目してなされたもので、その目的とするところは、画像データに写される状況を説明する画像説明文を適切に生成することができるようにした画像処理装置、方法およびプログラムを提供することにある。
 本発明の一態様に係る画像処理装置は、画像データと、前記画像データに写される状況の名称を示す名称情報と、前記画像データに写される状況を説明する説明文の各単語の意味役割を示す意味役割情報の入力を受け付ける入力部と、前記入力部により入力された画像データ、名称情報、および意味役割情報に基づいて、前記画像データに写される状況を説明する説明文を出力し、かつ前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置、および前記出力される説明文の各単語の意味役割を示す情報を出力する出力部と、を備える。
 本発明の一態様に係る画像処理方法は、画像処理装置により行なわれる方法であって、前記画像処理装置が、画像データと、前記画像データに写される状況の名称を示す名称情報と、前記画像データに写される状況を説明する説明文の各単語の意味役割を示す意味役割情報の入力を受け付けることと、前記画像処理装置が、前記入力された画像データ、名称情報、および意味役割情報に基づいて、前記画像データに写される状況を説明する説明文を出力し、かつ前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置、および前記出力される説明文の各単語の意味役割を示す情報を出力することと、を備える。
 本発明によれば、画像データに写される状況を説明する画像説明文を適切に生成することができる。
図1は、本発明の一実施形態に係る画像処理装置の適用例を示す図である。 図2は、画像説明文生成器の構成の一例を示す図である。 図3は、画像処理装置により実行される学習処理ルーチン(routine)の一例を示すフローチャート(flow chart)である。 図4は、画像処理装置により実行される推論処理ルーチンの一例を示すフローチャートである。 図5は、本発明の一実施形態に係る画像処理装置のハードウエア(hardware)構成の一例を示すブロック図(block diagram)である。
 以下、図面を参照しながら、この発明に係わる一実施形態を説明する。 
 <構成>
 まず、本発明の一実施形態に係る画像処理装置の構成について説明する。この画像処理装置は、画像説明文生成装置または画像説明装置と称されることもある。図1は、本発明の一実施形態に係る画像処理装置100の適用例を示す図である。 
 画像処理装置100は、CPU(Central Processing Unit)とRAM(Random Access Memory)と、後述する画像説明文処理ルーチンを実行するためのプログラム(program)を記憶したROM(Read Only Memory)とを備えたコンピュータ(computer)で構成され、機能的には以下に示す様に構成されている。
 図1に示される様に、本実施形態に係る画像処理装置100は、融合情報作成部1と、記憶部2と、画像説明部3と、パラメータ更新部4と、出力部5とを備えて構成される。
 融合情報作成部1は、記憶部2から画像特徴量xと、イベント情報yと、意味役割情報zとの入力を受け付け、これらの画像特徴量xと、イベント情報yと、意味役割情報zとが融合されてなる融合情報wを作成する。
 画像特徴量xとは、ある画像データIから抽出されたテンソル(tensor)であれば何でも良く、例えば非特許文献2におけるVGGネットワーク(Visual Geometry Group network)に画像を入力して出力されたテンソルである。
 イベント情報yとは、ある画像データIの表示領域に写される状況の名称であるイベント名を示すベクトル(vector)であれば特に限られない。例えば、イベント情報yは、イベント種類数に応じた長さのベクトルで、かつ当該画像で示されるイベントに相当するインデックス(index)の値のみが「1」で、その他のインデックスの値は「0」のベクトルである。 
 例えば、あらかじめ与えられたイベントの種類の中から、人手により、ある画像でのイベントを示すベクトルが作成されても良ければ、あらかじめ与えられたイベント種類を認識可能なイベント認識モデルにより、ある画像で示されているイベントを認識し、この認識結果を用いて、上記画像でのイベントを示すベクトルが作成されても良い。
 意味役割情報zとは、ある画像データIにより示されるイベントの内容を説明する際に必要な情報、すなわち画像データに写される状況を説明する文の各単語の意味役割を示す意味役割情報を示すベクトルであれば特に限られない。例えば、意味役割情報zは、意味役割の種類数に応じた長さのベクトルで、当該画像で示されるイベントの内容を説明する際に必要な意味役割に相当するインデックスの値のみが「1」で、その他のインデックスの値は「0」のベクトルである。 
 例えば、あらかじめ与えられた意味役割の種類の中から、人手により、ある画像での意味役割を示すベクトルが作成されても良ければ、ある画像中で示されるイベントと同じイベントの内容について説明する文中の各単語を、あらかじめ与えられた意味役割の種類に分類する言語解析器により解析された結果を用いて、上記画像の意味役割を示すベクトルが作成されてもよい。
 融合情報wとは、画像特徴量xと、イベント情報yと、意味役割情報zとから作成されたテンソルであれば特に限られない。 
 ここで、例えば、画像特徴量xのサイズ(size)が、横幅w、縦幅h、およびチャネル(channel)数cで表現され、イベント情報yが、長さl_yを有するベクトルであり、意味役割情報zが、長さl_zを有するベクトルであると仮定する。 
 この場合、融合情報wは、イベント情報yと意味役割情報zの各ベクトルが、画像特徴量xの横幅wと縦幅hのサイズに応じて複製されたテンソルである。このテンソルは、画像特徴x量と、イベント情報yのベクトルが複製されてなるテンソルと、意味役割情報zのベクトルが複製されてなるテンソルとがチャネル方向に重畳されたときのサイズが、横幅w、縦幅h、およびチャネル数(c+l_y+l_z)であるテンソルである。
 記憶部2には、画像説明文生成器Aのニューラルネットワーク(画面説明モデルと称されることもある)と、画像特徴量xと、イベント情報yと、意味役割情報zと、正解文Cと、正解位置Bと、正解意味役割系列Sとの1以上のセットが格納される。図2は、画像説明文生成器の構成の一例を示す図である。この図2では、画像特徴量xと、イベント情報yと、意味役割情報zと、融合情報作成部1で作成された融合情報wと、画像説明文生成器Aの構成の概念が示される。
 図2に示されるように、画像説明文生成器Aのニューラルネットワークは、共通ニューラルネットワークと、説明文推定ニューラルネットワークと、位置推定ニューラルネットワークと、意味役割推定ニューラルネットワークとから構成される。
 この画像説明文生成器Aのニューラルネットワークは、共通ネットワークに融合情報wを入力して共通特徴量hを得た後、説明文推定ニューラルネットワークに共通特徴量hを入力して説明文推定結果cを出力し、位置推定ニューラルネットワークに共通特徴量hを入力して位置推定結果bを出力し、意味役割推定ニューラルネットワークに共通特徴量hを入力して意味役割推定結果sを出力するニューラルネットワークであれば特に限られない。
 共通ニューラルネットワークとは、融合情報wを入力し共通特徴量hを出力するニューラルネットワークであれば特に限られない。 
 この共通特徴量hとは、出力文の各単語を示す特徴ベクトルから成るテンソルであれば特に限られず、例えばサイズが出力文長×l_hであるテンソルである。
 説明文推定ニューラルネットワークとは、共通特徴量hを入力し、説明文推定結果cを出力するネットワークであれば特に限られない。 
 この説明文推定結果cは、画像説明文である出力文の単語列を示すテンソルであれば特に限られず、例えば、サイズが「出力文長l_h×語彙数D」であるテンソルであり、このテンソルの各要素は、出力文の各単語の出現確率である。
 位置推定ニューラルネットワークとは、共通特徴量hを入力し、位置推定結果bを出力するネットワークであれば特に限られない。 
 この位置推定結果bは、画像データに写される状況を説明する文である出力文の各単語に相当する、画像の表示領域中の位置を示すテンソルであれば特に限られず、例えば、サイズが「出力文長l_h×4」であるテンソルであり、このテンソルの各要素は、例えば、画像データにおける、出力文の各単語に相当する領域の左上を基準とする座標x,yならびに横幅wおよび縦幅hの値である。
 意味役割推定ニューラルネットワークとは、共通特徴量hを入力し、意味役割推定結果sを出力するネットワークであれば特に限られない。 
 この意味役割推定結果sとは、上記出力文の各単語の意味役割を示すテンソルであれば特に限られず、例えば、サイズが「出力文長l_h×意味役割の種類の数p」であるテンソルであり、このテンソルの各要素は、出力文の各単語の意味役割についての出現確率である。
 上記のように記憶部2に格納される正解文Cとは、ある画像データIに写される状況を説明する出力文の単語列の正解情報を示すテンソルであれば特に限られず、例えば、サイズが「出力文長l_h×語彙数D」であるテンソルであり、各要素が、出力文の各単語に相当するインデックスの値のみが「1」であり、その他のインデックスの値は「0」であるテンソルである。
 上記のように記憶部2に格納される正解位置Bとは、ある画像データIに写される状況を説明する文である出力文の各単語に相当する、画像データの表示領域中の位置を示すテンソルであれば特に限られず、例えば、サイズが「出力文長l_h×4」であるテンソルであり、このテンソルの各要素は、例えば、画像データにおける、出力文の各単語に相当する領域の左上を基準とする座標x,yならびに横幅w、縦幅hの値である。
 上記のように記憶部2に格納される正解意味役割系列Sとは、ある画像データIに写される状況を説明する文である出力文の各単語の意味役割を示すテンソルであれば特に限られず、例えば、サイズが「出力文長l_h×意味役割の種類の数」であるテンソルであり、各要素が、出力文の各単語の意味役割に相当するインデックスの値のみが「1」で、その他のインデックスの値は「0」であるテンソルである。
 画像説明部3は、融合情報作成部1から融合情報wを受け取り、記憶部2から画像説明文生成器Aを受け取り、融合情報wを画像説明文生成器Aのニューラルネットワークに入力して、このニューラルネットワークから出力される説明文推定結果cと、位置推定結果bと、意味役割推定結果sとをそれぞれ出力する。
 パラメータ更新部4は、画像説明部3から説明文推定結果cと、位置推定結果bと、意味役割推定結果sとを受け取り、記憶部2から画像説明文生成器Aと、正解文Cと、正解位置Bと、正解意味役割系列Sとを受け取り、下記の3つの制約を満たすように画像説明文生成器Aの各ニューラルネットワークのパラメータ(画像説明文生成器Aのパラメータと称することもある)を更新する。
 1つ目の制約は、説明文推定結果cと正解文Cとの内容が近付く、または同じになるように、画像説明文生成器Aのパラメータを更新することであり、この制約を満たす様に設定された学習方法であれば特に限られない。例えば、パラメータ更新部4は、下記の式(1)の様に、説明文推定結果cと正解文Cとのクロスエントロピー誤差(cross-entropy loss)を算出し、この誤差が例えば一定値以下まで小さくなる、またはゼロ(zero)となるように、画像説明文生成器Aの説明文推定ニューラルネットワークのパラメータを更新する。
Figure JPOXMLDOC01-appb-M000001
 ここで、式(1)のkは、説明文推定結果cおよび正解文Cのインデックスであり、yは、画像説明文生成器Aのニューラルネットワークから出力される説明文推定結果c中の値であり、tは正解文C中の値である。tは、正解クラス(class)となるインデックスの値のみが「1」で、その他のインデックスの値が「0」である値である。
 2つ目の制約は、位置推定結果bと正解位置Bとが近付く、または同じになるように、画像説明文生成器Aのパラメータを更新することであり、この制約を満たす様に設定された学習方法であれば特に限られない。例えば、パラメータ更新部4は、位置推定結果bが{x, y, w, h}であり、正解位置Bが{x, y, w, h}の時に、{x, y, w, h}と{x, y, w, h}とのL1距離を計算し、この距離が例えば一定値以下まで小さくなる、またはゼロとなるように、画像説明文検出器Aの位置推定ニューラルネットワークのパラメータを更新する。L1距離とは、下記のように表現される。 
 |x-x|+|y-y|+|w-w|+|h-h|
 3つ目の制約は、意味役割推定結果sと正解意味役割系列Sとの内容が近付く、または同じになるように、画像説明文生成器Aのパラメータを更新することであり、この制約を満たす様に設定された学習方法であれば特に限られない。パラメータ更新部4は、例えば、下記の式(2)の様に、意味役割推定結果sと正解意味役割系列Sとのクロスエントロピー誤差を算出し、この誤差が例えば一定値以下まで小さくなる、またはゼロとなるように、画像説明文生成器Aの意味役割ニューラルネットワークのパラメータを更新する。
Figure JPOXMLDOC01-appb-M000002
 ここで、式(2)のmは、意味役割推定結果sおよび正解意味役割系列Sのインデックスであり、yは、画像説明文生成器Aのニューラルネットワークから出力される意味役割推定結果s中の値であり、tは、正解意味役割系列S中の値である。tは、正解クラスとなるインデックスの値のみが「1」で、その他のインデックスの値が「0」である値である。
 出力部5は、画像説明部3から説明文推定結果cと、位置推定結果bと、意味役割推定結果sを受け取り、これらの推定結果を出力する。この推定結果は、説明文推定結果cが単語列に変換された出力文c´のみでも良ければ、この出力文c´に加えて、位置推定結果bに基づいた位置出力情報b´が推定結果としてさらに出力されても良いし、意味役割推定結果sから出力文の各単語が推定された出力意味役割s´が推定結果としてさらに出力されても良い。
 上記の出力文c´とは、説明文推定結果cに基づいて求められた単語列であれば特に限られず、例えば、説明文推定結果cが、サイズが「出力文長I_h×語彙数D」であるテンソルであって、このテンソルの各要素が出力文の各単語の出現確率であるとき、ビームサーチ(beam search)により、出力文の文頭からビーム幅「5」で最大確率の文が探索されて求められた単語列でも良ければ、グリッドサーチ(grid search)により、全てのあり得る単語列について出現確率が計算されてなる、最大確率の単語列でも良い。
 上記の位置出力情報b´とは、位置推定結果bに基づくデータであれば特に限られず、例えば、画像データの表示領域上での位置推定結果bで示される位置に矩形(rectangle)が重畳された可視化画像でも良ければ、位置推定結果bがテキストデータ(text data)として出力されてなるファイル(file)でも良い。
 上記の出力意味役割s´とは、意味役割推定結果sに基づくデータであれば特に限られず、例えば、画像データの表示領域上での位置推定結果bで示される位置に矩形が重畳され、この矩形の付近、例えば左上に意味役割推定結果sの最大値のインデックスが重畳されてなる可視化画像でも良ければ、意味役割推定結果sの最大値のインデックスがテキストデータとして出力されてなるファイルでも良い。
 <画像処理装置による作用>
 次に、本実施形態に係る画像処理装置100の作用について説明する。 
 画像処理装置100は、以下に説明する学習処理ルーチンと推論処理ルーチンとをそれぞれ実行する。 
 <<学習処理ルーチン>>
 まず、学習処理ルーチンについて説明する。図3は、画像処理装置により実行される学習処理ルーチンの一例を示すフローチャートである。 
 この学習処理ルーチンでは、まず、画像特徴量xと、イベント情報yと、意味役割情報zとの入力が受け付けられ、これらの情報を融合した融合情報wが画像説明文生成器Aのニューラルネットワークに入力される。そして、画像説明文生成器Aのニューラルネットワークから説明文推定結果cと、位置推定結果bと、意味役割推定結果sとが出力される。
 そして、記憶部2から正解文Cと、正解位置Bと、正解意味役割系列Sとが受け取られ、(1)上記出力された説明文推定結果cと正解文Cとの内容が近付く、または同じになるように、かつ(2)上記出力された位置推定結果bと正解位置Bとが近付く、または同じになるように、かつ(3)上記出力された意味役割推定結果sと正解意味役割系列Sとの内容が近付く、または同じになるように、という上記の3つの制約が満たされるように、画像説明文生成器Aの各種ニューラルネットワークのパラメータが更新される。
 まず、ステップS101では、融合情報作成部1は、記憶部2からの画像特徴量xと、イベント情報yと、意味役割情報zとの入力を受け付け、これらの画像特徴量xと、イベント情報yと、意味役割情報zとが融合されてなる融合情報wを作成し、この作成された融合情報wを画像説明部3に出力する。
 ステップS102では、画像説明部3は、ステップS101で出力された融合情報wと、記憶部2に格納されている画像説明文生成器Aとをそれぞれ受け取り、この受け取った融合情報wを画像説明文推定器Aのニューラルネットワークに入力する。画像説明部3は、この画像説明文推定器Aのニューラルネットワークから説明文推定結果cと、位置推定結果bと、意味役割推定結果sとをそれぞれ出力し、これらの説明文推定結果cと、位置推定結果bと、意味役割推定結果sとをパラメータ更新部4に出力する。
 ステップS103では、パラメータ更新部4は、ステップS102で出力された説明文推定結果cと、位置推定結果bと、意味役割推定結果sとを受け取り、記憶部2に格納されている画像説明文生成器Aと、正解文Cと、正解位置Bと、正解意味役割系列Sとを受け取り、説明文推定結果cと正解文Cとの誤差(画像説明文ロスと称されることもある)、位置推定結果bと正解位置Bとの誤差(位置推定ロスと称されることもある)、および意味役割推定結果sと正解意味役割系列Sとの誤差(意味役割推定ロスと称されることもある)を計算する。
 そして、パラメータ更新部4は、(1)説明文推定結果cと正解文Cとの内容が近付く、または同じになるように、かつ(2)位置推定結果bと正解位置Bとが近付く、または同じになるように、かつ(3)意味役割推定結果sと正解意味役割系列Sとの内容が近付く、または同じになるように、という3つの制約が満たされるように、画像説明文生成器Aの各種ニューラルネットワークのパラメータ(画像説明文モデルのパラメータ)を更新する。パラメータ更新部4は、パラメータが更新された画像説明文生成器Aを記憶部2に格納する。
 <<推論処理ルーチン>>
 次に、推論処理ルーチンについて説明する。図4は、画像処理装置により実行される推論処理ルーチンの一例を示すフローチャートである。 
 この推論処理ルーチンでは、まず、画像特徴量xと、イベント情報yと、意味役割情報zとの入力が受け付けられ、これらが融合されてなる融合情報wが、画像説明文生成器Aのニューラルネットワークに入力される。そして、画像説明文生成器Aのニューラルネットワークから、説明文推定結果cと、位置推定結果bと、意味役割推定結果sとが出力される。
 そして、説明文推定結果cが単語列に変換されてなる出力文c´と、位置推定結果bが可視化されてなる位置出力情報b´と、意味役割推定結果sから出力文の各単語が推定されてなる出力意味役割s´とがそれぞれ出力される。
 まず、ステップS201では、融合情報作成部1は、記憶部2からの画像特徴量xと、イベント情報yと、意味役割情報zとの入力を受け付け、これらの画像特徴量xと、イベント情報yと、意味役割情報zとが融合されてなる融合情報wを作成し、この融合情報wを画像説明部3に出力する。
 ステップS202では、画像説明部3は、ステップS202で出力された融合情報wと、記憶部2に格納されている画像説明文生成器Aとをそれぞれ受け取り、この受け取った融合情報wを画像説明文生成器Aのニューラルネットワークに入力する。画像説明部3は、この画像説明文推定器Aのニューラルネットワークから説明文推定結果cと、位置推定結果bと、意味役割推定結果sとをそれぞれ出力し、これら説明文推定結果cと、位置推定結果bと、意味役割推定結果sとを出力部5に出力する。
 ステップS203では、出力部5は、ステップS202で出力された説明文推定結果cと位置推定結果bと意味役割推定結果sとを基に、説明文推定結果cが単語列に変換されてなる出力文c´と、位置推定結果bが可視化されてなる位置出力情報b´と、意味役割推定結果sから出力文の各単語が推定されてなる出力意味役割s´をそれぞれ出力する。
 本発明の一実施形態によれば、画像データと、制御信号としてのイベント名と意味役割情報とを入力とし、ニューラルネットワークを用いて、低コストかつ高精度にイベント名と意味役割情報とが制御信号として与えられた画像説明文を生成することができる、という効果が得られる。
 また、本発明の一実施形態によれば、画像データと、制御信号としてのイベント名と意味役割情報とを入力し、上記の非特許文献2に開示されたような手法を用いて、意味役割の領域推定と、意味役割の順番推定と、意味役割からの単語推定とを、単一のニューラルネットワークで同時に推定するニューラルネットワークを学習することができる、という効果も得られる。
 図5は、本発明の一実施形態に係る画像処理装置のハードウエア構成の一例を示すブロック図である。 
 図5に示された例では、上記の実施形態に係る画像処理装置100は、例えばサーバコンピュータ(server computer)またはパーソナルコンピュータ(personal computer)により構成され、CPU等のハードウエアプロセッサ(hardware processor)111Aを有する。そして、このハードウエアプロセッサ111Aに対し、プログラムメモリ(program memory)111B、データメモリ(data memory)112、入出力インタフェース(interface)113及び通信インタフェース114が、バス(bus)115を介して接続される。
 通信インタフェース114は、例えば1つ以上の無線の通信インタフェースユニット(interface unit)を含んでおり、通信ネットワーク(network)NWとの間で情報の送受信を可能にする。無線インタフェースとしては、例えば無線LAN(Local Area Network)などの小電力無線データ通信規格が採用されたインタフェースが使用される。
 入出力インタフェース113には、画像処理装置100に付設される、利用者などにより用いられる入力デバイス(device)200および出力デバイス300が接続される。 
 入出力インタフェース113は、キーボード(keyboard)、タッチパネル(touch panel)、タッチパッド(touchpad)、マウス(mouse)等の入力デバイス200を通じて利用者などにより入力された操作データを取り込むとともに、出力データを液晶または有機EL(Electro Luminescence)等が用いられた表示デバイスを含む出力デバイス300へ出力して表示させる処理を行なう。なお、入力デバイス200および出力デバイス300には、画像処理装置100に内蔵されたデバイスが使用されてもよく、また、ネットワークNWを介して画像処理装置100と通信可能である他の情報端末の入力デバイスおよび出力デバイスが使用されてもよい。
 プログラムメモリ111Bは、非一時的な有形の記憶媒体として、例えば、HDD(Hard Disk Drive)またはSSD(Solid State Drive)等の随時書込みおよび読出しが可能な不揮発性メモリ(non-volatile memory)と、ROM等の不揮発性メモリとが組み合わせて使用されたもので、一実施形態に係る各種制御処理等を実行する為に必要なプログラムが格納されている。
 データメモリ112は、有形の記憶媒体として、例えば、上記の不揮発性メモリと、RAM等の揮発性メモリ(volatile memory)とが組み合わせて使用されたもので、各種処理が行なわれる過程で取得および作成された各種データが記憶される為に用いられる。
 本発明の一実施形態に係る画像処理装置100は、ソフトウエア(software)による処理機能部として、図1に示される融合情報作成部1、画像説明部3、パラメータ更新部4、および出力部5を有するデータ処理装置として構成され得る。
 画像処理装置100の各部によるワークメモリ(working memory)などとして用いられる各情報記憶部および記憶部2は、図5に示されたデータメモリ112が用いられることで構成され得る。ただし、これらの構成される記憶領域は画像処理装置100内に必須の構成ではなく、例えば、USB(Universal Serial Bus)メモリなどの外付け記憶媒体、又はクラウド(cloud)に配置されたデータベースサーバ(database server)等の記憶装置に設けられた領域であってもよい。
 上記の融合情報作成部1、画像説明部3、パラメータ更新部4、および出力部5の各部における処理機能部は、いずれも、プログラムメモリ111Bに格納されたプログラムを上記ハードウエアプロセッサ111Aにより読み出させて実行させることにより実現され得る。なお、これらの処理機能部の一部または全部は、特定用途向け集積回路(ASIC(Application Specific Integrated Circuit))またはFPGA(Field-Programmable Gate Array)などの集積回路を含む、他の多様な形式によって実現されてもよい。
 また、各実施形態に記載された手法は、計算機(コンピュータ)に実行させることができるプログラム(ソフトウエア手段)として、例えば磁気ディスク(フロッピー(登録商標)ディスク(Floppy disk)、ハードディスク(hard disk)等)、光ディスク(optical disc)(CD-ROM、DVD、MO等)、半導体メモリ(ROM、RAM、フラッシュメモリ(Flash memory)等)等の記録媒体に格納し、また通信媒体により伝送して頒布され得る。なお、媒体側に格納されるプログラムには、計算機に実行させるソフトウエア手段(実行プログラムのみならずテーブル(table)、データ構造も含む)を計算機内に構成させる設定プログラムをも含む。本装置を実現する計算機は、記録媒体に記録されたプログラムを読み込み、また場合により設定プログラムによりソフトウエア手段を構築し、このソフトウエア手段によって動作が制御されることにより上述した処理を実行する。なお、本明細書でいう記録媒体は、頒布用に限らず、計算機内部あるいはネットワークを介して接続される機器に設けられた磁気ディスク、半導体メモリ等の記憶媒体を含むものである。
 なお、本発明は、上記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。また、各実施形態は適宜組み合わせて実施してもよく、その場合組み合わせた効果が得られる。更に、上記実施形態には種々の発明が含まれており、開示される複数の構成要件から選択された組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件からいくつかの構成要件が削除されても、課題が解決でき、効果が得られる場合には、この構成要件が削除された構成が発明として抽出され得る。
  100…画像処理装置
  1…融合情報作成部
  2…記憶部
  3…画像説明部
  4…パラメータ更新部
  5…出力部

Claims (8)

  1.  画像データと、前記画像データに写される状況の名称を示す名称情報と、前記画像データに写される状況を説明する説明文の各単語の意味役割を示す意味役割情報の入力を受け付ける入力部と、
     前記入力部により入力された画像データ、名称情報、および意味役割情報に基づいて、前記画像データに写される状況を説明する説明文を出力し、かつ前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置、および前記出力される説明文の各単語の意味役割を示す情報を出力する出力部と、
     を備える画像処理装置。
  2.  前記出力部は、
      前記入力部により入力された画像データ、名称情報、および意味役割情報をニューラルネットワークに入力し、この入力の結果に基づいて、前記画像データに写される状況を説明する説明文を出力し、かつ前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置、および前記出力される説明文の各単語の意味役割を示す情報を出力する、
     請求項1に記載の画像処理装置。
  3.  前記入力部により入力された画像データ、名称情報、および意味役割情報を融合してなる融合情報を作成する融合情報作成部をさらに備え、
     前記出力部は、
      前記融合情報作成部により作成された融合情報をニューラルネットワークに入力し、この入力の結果に基づいて、前記状況を説明する説明文の各単語の特徴が示される特徴情報を出力し、
      前記特徴情報に基づいて、前記状況を説明する説明文の推定結果と、前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置の推定結果と、前記状況を説明する文の各単語の意味役割の推定結果とをそれぞれ出力する、
     請求項1に記載の画像処理装置。
  4.   画像データに写される状況を説明する説明文の正解情報、前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置の正解情報、および前記状況を説明する説明文の各単語の意味役割の正解情報と、前記ニューラルネットワークを用いて出力される、前記画像データに写される状況を説明する説明文、前記ニューラルネットワークを用いて出力される、前記画像データにおける、前記状況を説明する説明文の各単語に係る位置、および前記ニューラルネットワークを用いて出力される、前記説明文の各単語の意味役割を示す情報と、に基づいて、
      前記ニューラルネットワークを用いて出力される、前記画像データに写される状況を説明する説明文が前記説明文の正解情報に近づくように、前記ニューラルネットワークのパラメータを更新し、
      前記ニューラルネットワークを用いて出力される、前記画像データにおける、前記状況を説明する説明文の各単語に係る位置が前記位置の正解情報に近づくように、前記ニューラルネットワークのパラメータを更新し、
      前記ニューラルネットワークを用いて出力される、前記説明文の各単語の意味役割を示す情報が前記意味役割の正解情報に近づくように、前記ニューラルネットワークのパラメータを更新する
    更新部をさらに備える、
     請求項2に記載の画像処理装置。
  5.  画像処理装置により行なわれる方法であって、
     前記画像処理装置が、画像データと、前記画像データに写される状況の名称を示す名称情報と、前記画像データに写される状況を説明する説明文の各単語の意味役割を示す意味役割情報の入力を受け付けることと、
     前記画像処理装置が、前記入力された画像データ、名称情報、および意味役割情報に基づいて、前記画像データに写される状況を説明する説明文を出力し、かつ前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置、および前記出力される説明文の各単語の意味役割を示す情報を出力することと、
     を備える画像処理方法。
  6.  前記出力することは、
      前記入力された画像データ、名称情報、および意味役割情報をニューラルネットワークに入力し、この入力の結果に基づいて、前記画像データに写される状況を説明する説明文を出力し、かつ前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置、および前記出力される説明文の各単語の意味役割を示す情報を出力することを含む、
     請求項5に記載の画像処理方法。
  7.  前記入力された画像データ、名称情報、および意味役割情報を融合してなる融合情報を作成することをさらに備え、
     前記出力することは、
      前記作成された融合情報をニューラルネットワークに入力し、この入力の結果に基づいて、前記状況を説明する説明文の各単語の特徴が示される特徴情報を出力し、
      前記特徴情報に基づいて、前記状況を説明する説明文の推定結果と、前記画像データの表示領域における、前記状況を説明する説明文の各単語に係る位置の推定結果と、前記状況を説明する文の各単語の意味役割の推定結果とをそれぞれ出力する、ことを含む、
     請求項5に記載の画像処理方法。
  8.  請求項1乃至4のいずれか1項に記載の画像処理装置の各部としてプロセッサを機能させる画像処理プログラム。
PCT/JP2021/041576 2021-11-11 2021-11-11 画像処理装置、方法およびプログラム WO2023084704A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/041576 WO2023084704A1 (ja) 2021-11-11 2021-11-11 画像処理装置、方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/041576 WO2023084704A1 (ja) 2021-11-11 2021-11-11 画像処理装置、方法およびプログラム

Publications (1)

Publication Number Publication Date
WO2023084704A1 true WO2023084704A1 (ja) 2023-05-19

Family

ID=86335320

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/041576 WO2023084704A1 (ja) 2021-11-11 2021-11-11 画像処理装置、方法およびプログラム

Country Status (1)

Country Link
WO (1) WO2023084704A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784848A (zh) * 2021-02-04 2021-05-11 东北大学 一种基于多种注意力机制和外部知识的图像描述生成方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784848A (zh) * 2021-02-04 2021-05-11 东北大学 一种基于多种注意力机制和外部知识的图像描述生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHEN LONG; JIANG ZHIHONG; XIAO JUN; LIU WEI: "Human-like Controllable Image Captioning with Verb-specific Semantic Roles", 2021 IEEE/CVF CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR), IEEE, 20 June 2021 (2021-06-20), pages 16841 - 16851, XP034007021, DOI: 10.1109/CVPR46437.2021.01657 *
KOJIMA ATSUHIRO, ASANUMA KATSUNORI, FUKUNAGA KUNIO: "Text Generation about Human Behavior from Video Images Using Hierarchical Concepts of Motions of Body Parts", IEEJ TRANSACTIONS ON ELECTRONICS INFORMATION AND SYSTEMS, vol. 120, no. 11, 1 November 2000 (2000-11-01), pages 1587 - 1595, XP093065098, DOI: 10.1541/ieejeiss1987.120.11_158 *
MUKAUKA, MASAYASII: "Recognition of relationships between objects directed at image description generation", PROCEEDINGS OF HE 22ND ANNUAL MEETING OF THE ASSOCIATION FOR NATURAL LANGUAGE PROCESSING, 29 February 2016 (2016-02-29), pages 669 - 672, XP009545908 *

Similar Documents

Publication Publication Date Title
US20210256390A1 (en) Computationally efficient neural network architecture search
US10445654B2 (en) Learning parameters in a feed forward probabilistic graphical model
Caramiaux et al. Segmenting and parsing instrumentalists' gestures
US10073827B2 (en) Method and system to generate a process flow diagram
US11537797B2 (en) Hierarchical entity recognition and semantic modeling framework for information extraction
CN114462616A (zh) 用于防止敏感数据在线公开的机器学习模型
JP2021523509A (ja) エキスパートレポートエディタ
US20230223112A1 (en) Retrosynthesis using neural networks
JP2019144639A (ja) 画像に対応するタグセットを表すベクトルを出力するモデルを訓練する方法
JP2019032704A (ja) 表データ構造化システムおよび表データ構造化方法
US20210034983A1 (en) Learning device, learning method, and computer program product
US11769013B2 (en) Machine learning based tenant-specific chatbots for performing actions in a multi-tenant system
WO2023084704A1 (ja) 画像処理装置、方法およびプログラム
WO2023103815A1 (en) Contextual dialogue framework over dynamic tables
WO2023228276A1 (ja) 画像処理装置、方法およびプログラム
KR102340485B1 (ko) 시놉시스 텍스트 분석 및 시청률 예측 방법
WO2018150453A1 (ja) データ分析装置およびデータ分析方法
JP2022185799A (ja) 情報処理プログラム、情報処理方法および情報処理装置
JP2019204415A (ja) 言い回し文生成方法、言い回し文装置及びプログラム
WO2024018532A1 (ja) 映像処理装置、方法、及びプログラム
JP2020140674A (ja) 回答選択装置及びプログラム
JP5302784B2 (ja) 機械翻訳方法、及びシステム
JP7295463B2 (ja) 業務フロー作成支援装置、業務フロー作成支援方法、および、業務フロー作成支援プログラム
JP5600826B1 (ja) 非構造化データ処理システム、非構造化データ処理方法およびプログラム
US20230281392A1 (en) Computer-readable recording medium storing computer program, machine learning method, and natural language processing apparatus

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21964059

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023559315

Country of ref document: JP