WO2021261547A1 - 画像解析方法、学習用画像又は解析用画像生成方法、学習済モデル生成方法、画像解析装置及び画像解析プログラム - Google Patents

画像解析方法、学習用画像又は解析用画像生成方法、学習済モデル生成方法、画像解析装置及び画像解析プログラム Download PDF

Info

Publication number
WO2021261547A1
WO2021261547A1 PCT/JP2021/023916 JP2021023916W WO2021261547A1 WO 2021261547 A1 WO2021261547 A1 WO 2021261547A1 JP 2021023916 W JP2021023916 W JP 2021023916W WO 2021261547 A1 WO2021261547 A1 WO 2021261547A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
images
inference
gradation information
procedure
Prior art date
Application number
PCT/JP2021/023916
Other languages
English (en)
French (fr)
Inventor
克己 薮崎
隆雄 篠原
Original Assignee
興和株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 興和株式会社 filed Critical 興和株式会社
Priority to JP2022532532A priority Critical patent/JPWO2021261547A1/ja
Priority to EP21828345.5A priority patent/EP4174763A1/en
Priority to US18/002,429 priority patent/US20230171369A1/en
Priority to CN202180044139.4A priority patent/CN115943430A/zh
Publication of WO2021261547A1 publication Critical patent/WO2021261547A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/2624Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects for obtaining an image which is composed of whole input images, e.g. splitscreen
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/174Segmentation; Edge detection involving the use of two or more images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10072Tomographic images
    • G06T2207/10101Optical tomography; Optical coherence tomography [OCT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30101Blood vessel; Artery; Vein; Vascular
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance

Definitions

  • the present invention relates to an image analysis method for a plurality of images having temporal or spatial continuity, a learning image or an image generation method for analysis, a trained model generation method, an image analysis device, and an image analysis program.
  • Patent Document 1 has been proposed as a method of executing an analysis process using a composite image synthesized based on a plurality of frames of images constituting a moving image.
  • Patent Document 1 a plurality of images of a human body continuously imaged are superposed to generate one composite image, and the composite image is analyzed by a trained convolutional neural network (CNN).
  • CNN convolutional neural network
  • Patent Document 1 According to the image analysis method described in Patent Document 1 above, it is possible to include information for a plurality of frames in one composite image, but in the technique of Patent Document 1, the brightness values of a plurality of images can be obtained. Since the composite image is generated by simply adding the images, the composite image does not include information for grasping the temporal context of the movement of the object included in the image. Therefore, there is a problem that it is not possible to capture the characteristics of fine movements other than the joint position, and the estimation accuracy of the behavior class based on the composite image is not sufficient.
  • the present invention has been made in view of the above problems, and is an image analysis method capable of accurately and quickly inferring the motion and attributes of an object based on a plurality of images having temporal or spatial continuity. It is an object of the present invention to provide a training image or an image generation method for analysis, a trained model generation method, an image analysis device, and an image analysis program.
  • the image analysis method includes an image acquisition procedure for acquiring a plurality of images having continuity in time or space, and color gradation information and / or color gradation information that can be acquired from each image for the plurality of images.
  • a channel allocation procedure for allocating different channels to at least a part of the brightness gradation information based on a predetermined rule, and extracting gradation information to which the channel is assigned from each of the plurality of images.
  • the composite image generation procedure for generating one composite image in which at least a part of the gradation information of each image can be identified by the channel, and the composite image is analyzed for the plurality of images. It is characterized by including an inference procedure for making an inference.
  • tone information is used as channel-assigned gradation information
  • composite image generation procedure colors with different hues are obtained by extracting and synthesizing the channel-assigned gradation information from each of the plurality of images. It is characterized in that one color composite image in which the gradation information image corresponding to the above is combined is generated.
  • the image analysis method further, in the inference procedure, for a trained model in which machine learning is performed in advance based on a plurality of synthetic images generated from a plurality of sample images to be used for learning. , The composite image generated in the composite image generation procedure is input, and the output of the trained model is obtained as an inference result.
  • the plurality of images are constant from moving images composed of a plurality of images having temporal continuity obtained by shooting a moving image of a predetermined moving object.
  • a plurality of images are extracted at time intervals, and the inference procedure is characterized in that inference regarding an operation pattern of the predetermined object is executed from the synthetic image generated based on the moving image.
  • the image analysis method further includes a position information acquisition procedure for acquiring position information of the object when a plurality of images are acquired in the image acquisition procedure, and analyzes a plurality of objects.
  • the image acquisition procedure the plurality of images are acquired for each of the plurality of objects, and in the position information acquisition procedure, the position information is acquired for each of the plurality of objects.
  • the channel allocation procedure a channel is assigned to each of the acquired plurality of images for each object, the composite image is generated for each object in the composite image generation procedure, and the inference procedure is described. It is characterized in that the inference about the operation pattern of the plurality of objects is executed by inputting the plurality of composite images generated for each object and the position information of each of the plurality of objects.
  • the plurality of images have continuity in the specific direction when a three-dimensional region is represented by stacking the acquired plurality of tomographic images in a specific direction.
  • This is a tomographic image of the above, or a plurality of tomographic images extracted from the three-dimensional model so as to have continuity in a specific direction when the three-dimensional region is represented by a three-dimensional model capable of arbitrarily extracting the tomographic image.
  • the inference procedure is characterized in that inference regarding the three-dimensional region is performed from the composite image.
  • the learning image or analysis image generation method includes an image acquisition procedure for acquiring a plurality of images having temporal or spatial continuity, and a color that can be acquired from each image for the plurality of images.
  • a channel allocation procedure for allocating different channels to at least a part of the gradation information and / or the gradation information of brightness based on a predetermined rule, and allocating the channel from each of the plurality of images. It is characterized by including a composite image generation procedure for generating one composite image in which at least a part of the gradation information of each image can be identified by the channel by extracting and synthesizing the gradation information.
  • the trained model generation method includes an image acquisition procedure for acquiring a plurality of images having continuity in time or space, and color gradation information and color gradation information that can be acquired from each image for the plurality of images. / Or a channel allocation procedure for allocating different channels to at least a part of the gradation information of brightness based on a predetermined rule, and gradation information for allocating the channel from each of the plurality of images.
  • a composite image generation procedure that generates one composite image in which at least a part of the gradation information of each image can be identified by the channel by extracting and synthesizing the data, and a correct answer when the inference for the composite image is executed.
  • the inference procedure for inputting the composite image to the model configured by the neural network, executing the inference, and outputting the inference result, and the inference result and the correct answer data. It is characterized by including a parameter update procedure for updating the parameters of the model.
  • the image analysis apparatus has an image acquisition unit that acquires a plurality of images having continuity in time or space, and color gradation information and / or color gradation information that can be acquired from each image for the plurality of images.
  • a channel assigning unit that assigns different channels to at least a part of the brightness gradation information based on a predetermined rule, and the gradation information to which the channel is assigned from each of the plurality of images is extracted.
  • the composite image generation unit that generates one composite image in which at least a part of the gradation information of each image can be identified by the channel, and the composite image is analyzed for the plurality of images. It is characterized by having a reasoning unit for performing reasoning.
  • the image analysis program has an image acquisition function for acquiring a plurality of images having continuity in time or space, and color gradation information and / or color gradation information that can be acquired from each image for the plurality of images.
  • a channel allocation function that allocates different channels to at least a part of the brightness gradation information based on a predetermined rule, and the gradation information that allocates the channel from each of the plurality of images is extracted.
  • a composite image generation function that generates one composite image in which at least a part of the gradation information of each image can be identified by the channel, and the composite image is analyzed for the plurality of images. It is characterized by realizing a reasoning function for making a reasoning on a computer.
  • OCT optical coherence tomography apparatus
  • FIG. 1 is a block diagram showing an example of a configuration of an image analysis device corresponding to at least one of the embodiments of the present invention.
  • the image analysis device 10A which is an example of the image analysis device 10
  • the image analysis device 10 includes an image acquisition unit 11, a channel allocation unit 12, a composite image generation unit 13, an inference unit 14, and a storage unit 15. It is equipped with.
  • the image analysis device 10 may be a device designed as a dedicated machine, but it is assumed that the image analysis device 10 can be realized by a general computer.
  • the image analysis device 10 includes at least a CPU (Central Processing Unit) and a memory that a general computer would normally have. Further, it may be equipped with a GPU (Graphics Processing Unit). Further, an input device such as a mouse or a keyboard, an output device such as a printer, and a communication device for connecting to a communication network may be connected via a bus.
  • the processing in each part of the image analysis apparatus 10 is realized by reading a program for executing the processing in each part from the memory and executing the processing in the CPU or GPU that functions as a control circuit (Processing circuit). In other words, by executing the program, the processor (processing circuit) is configured to be able to execute each process of each device.
  • FIG. 2 is a block diagram showing an example of an environment in which an image analysis device corresponding to at least one of the embodiments of the present invention is applied.
  • a server device and a plurality of terminal devices are configured to be connectable to each other via a communication network.
  • the server device in FIG. 2 is made to function as an image analysis device 10, and is used by connecting to a server device functioning as an image analysis device 10 from any of a plurality of terminal devices via a communication network. You may.
  • the configuration may be such that a program for using the image analysis apparatus is installed in the terminal device, or the program on the server may be used via the browser.
  • the terminal device in FIG. 2 is made to function as the image analysis device 10, but the server device is provided with some functions of the image analysis device 10 in that case, and the server device is accessed from the terminal device via the communication network. By doing so, the configuration may be such that the partial function is used.
  • the image analysis device 10 it is not necessary that all the components of the image analysis device 10 described below are provided in the same device, and a part of the components of the image analysis device 10 is provided in another device, for example, a server device that can be connected via a communication network.
  • One of the plurality of terminal devices may be provided with a partial configuration, and the image analysis device 10 may utilize the configuration provided in the other device while communicating.
  • the number of server devices is not limited to one, and a plurality of server devices may be used.
  • the trained model described later is stored in the device itself that functions as the image analysis device 10, learning to be used by distributing the trained model to a server device as another device, a plurality of terminal devices, and the like.
  • It may be configured to be used by connecting to a device provided with a completed model via a communication network each time. That is, as long as the trained model stored by some storage means can be used, it does not matter whether the trained model storage means is provided by the image analysis device itself or by another device.
  • the image acquisition unit 11 has a function of acquiring a plurality of images having continuity in time or space.
  • the plurality of images having continuity in time refer to a plurality of images acquired continuously in time, for example, a plurality of images acquired based on a predetermined rule from a moving image or the like. ..
  • a plurality of images having spatial continuity means that when the information of the three-dimensional space on the plane when the three-dimensional space in a predetermined range intersects the predetermined plane is called a tomographic image, the plurality of predetermined planes are present.
  • a plurality of images obtained by acquiring tomographic images on each of a plurality of predetermined planes so as to be continuous in parallel in one direction for example, a predetermined three-dimensional region obtained by an OCT (optical interference tomography device) or the like. It refers to a plurality of images acquired from the represented box cell data based on a predetermined rule.
  • the plurality of images having spatial continuity are a plurality of tomographic images having continuity in a specific direction when expressing a three-dimensional region by stacking the acquired plurality of tomographic images in a specific direction.
  • it may be a plurality of tomographic images extracted from the three-dimensional model so as to have continuity in a specific direction when the three-dimensional region is represented by a three-dimensional model capable of arbitrarily extracting the tomographic image.
  • the plurality of images may be continuous as long as they are temporally or spatially continuous, and do not require that they are continuously acquired at the time of acquisition. For example, it does not require that continuous frames be selected when a 60 fps moving image is shot. For example, one frame is acquired every 15 frames and four frames of images are acquired per second. It can be said that the case also has continuity in time.
  • the channel allocation unit 12 differs from each other for at least a part of the color gradation information and / or the brightness gradation information that can be acquired from each image for a plurality of images based on a predetermined rule. It has a function to assign channels.
  • the channel is used to distinguish the color gradation information and / or the brightness gradation information (luminance information) that can be acquired from each image when a plurality of images are combined from those of other images. It refers to the assigned identification information. Any channel may be set as long as the gradation information of each image can be identified. For example, for each of a plurality of images, colors having different hues are assigned as channels, and the assigned colors are assigned.
  • the gradation information corresponding to the color may be used as the gradation information for identifying the image.
  • the composite image generation unit 13 extracts and synthesizes gradation information to which channels are assigned from each of a plurality of images, thereby creating one composite image in which at least a part of the gradation information of each image can be identified by the channel. It has a function to generate.
  • the method of image composition here may be different depending on the type of channel and the like. For example, when three images are acquired and three colors of RGB are assigned as channels to the three images, the gradation information of only one of RGB colors is extracted from each image and the same image is used. As in the case of generating a color image from the RGB gradation information, a color composite image is generated based on the RGB gradation information acquired from the three images.
  • the inference unit 14 has a function of analyzing a composite image and inferring a plurality of images.
  • the content of the inference here differs depending on the object to be handled, and various inferences can be adopted.
  • the inference unit 14 executes inference related to image analysis and obtains an inference result. Further, the inference process in the inference unit 14 may be executed based on the learned model obtained by performing learning in advance.
  • the learning process of the trained model may be executed, for example, as a set of a composite image for training and correct answer data for inference of the composite image.
  • Various trained models can be applied as long as they are trained by machine learning, and for example, training a neural network by deep learning is applicable.
  • CNN convolutional neural network
  • VGG convolutional neural network
  • additional learning transfer learning
  • the method of preparing a large number of synthetic images for learning about the inference target and learning the trained model from scratch there is an advantage that a trained model capable of high-precision inference that fits well with the tendency of the synthetic image for learning can be obtained.
  • the method of adopting the existing trained model has an advantage that inference processing such as a classification problem can be executed immediately even if there is no time to learn from scratch.
  • the storage unit 15 has a function of storing information necessary for processing of each part in the image analysis device 10A, and also storing various information generated by the processing of each part. Further, the trained model may be stored in the storage unit 15. The trained model may be stored in a server device that can be connected via a communication network, and the server device may be provided with the function of the inference unit 14.
  • FIG. 3 is an explanatory diagram showing the concept of composite image generation in an image analysis apparatus corresponding to at least one of the embodiments of the present invention.
  • a plurality of images for example, three images are extracted from temporally or spatially continuous data such as moving images and voxel data at predetermined intervals, and for each image. After allocating channels, a composite image is generated, and the composite image is used to perform inference as image analysis.
  • FIG. 4 is a flowchart showing an example of a flow of image analysis processing corresponding to at least one of the embodiments of the present invention.
  • the image analysis process is started by acquiring a plurality of images having continuity in time or space in the image analysis apparatus 10A (step S101).
  • the image analysis device 10A assigns different channels to the acquired plurality of images (step S102).
  • the image analysis device 10A extracts gradation information to which channels are assigned to each of the plurality of images and combines them into one to generate a composite image (step S103).
  • the image analysis device 10A executes inference based on the composite image, acquires the inference result related to the image analysis (step S104), and ends the image analysis process.
  • FIG. 5 is a flowchart showing an example of a flow of learning processing corresponding to at least one of the embodiments of the present invention.
  • the learning process is started by acquiring a plurality of images having continuity in time or space as data used for learning in the image analysis apparatus 10A (step S201).
  • the image analysis device 10A assigns different channels to the acquired plurality of images (step S202).
  • the image analysis device 10A extracts gradation information to which channels are assigned to each of the plurality of images and combines them into one to generate a composite image (step S203). Further, the image analysis device 10A acquires correct answer data regarding the generated composite image (step S204). Correct answer data is data showing the correct answer regarding inference, and is usually annotated by human hands. Then, the image analysis device 10A inputs a composite image to the neural network to be learned, executes inference, and acquires an inference result related to image analysis (step S205). Then, the parameters of the neural network are updated using the obtained inference result and the correct answer data, and the learning process is completed. In the flowchart shown in FIG.
  • the learning process is performed until the parameters of the neural network are updated once based on one composite image, but in reality, it is based on a large number of composite images so as to improve the inference accuracy. It is necessary to update the parameters sequentially.
  • a method of executing the calculation of the loss of the inference result based on the loss function and updating the parameters in the direction in which the loss becomes smaller can be considered.
  • the image analysis device 10A according to the first embodiment of the present invention is intended to be applied to a plurality of images having continuity in time, that is, to be captured as a moving image, and is to be captured. It can be said that the situation where is operated according to the passage of time is applicable.
  • the image analysis device 10A can be applied to analyze a moving image taken of a moving animal such as a mouse as an object.
  • a forced swimming test as an experiment related to mouse movements. This is done, for example, by administering a drug to mice to investigate the efficacy of a drug for depression or a drug for schizophrenia, and conducting an experiment to investigate the effect of the drug. Whether or not the effect of the drug causes changes such as diminished motivation of the mouse is determined by the time during active behavior (moving time: Mobility) and immobility time (non-moving time: Immobility) in the forced swimming test. ) And specify. For example, the length of immobility time is used as an index of drug efficacy.
  • the difficult point in the motion analysis of this forced swimming test is that, for example, the behavior of a mouse fluttering only its hind limbs (one leg) near the wall of the case needs to be specified as an akinesia time in which the mouse itself is moving but not motivated. Therefore, the determination to specify the immobility time even though the mouse is in motion is a determination error in the computer analysis based on the presence or absence of the motion. Therefore, an image analysis device 10A is applied for highly accurate analysis of mouse movements in the forced swimming test.
  • FIG. 6 is an explanatory diagram showing a state of synthetic image generation when the image analysis device 10A is applied for motion analysis of a mouse in a forced swimming test. Images for 3 frames are extracted from the moving image of the mouse during the forced swimming test at predetermined intervals, and RGB channels are assigned to the extracted 3 frames. Only the gradation information of the assigned color is extracted from each image. Each of the three images is an image having only the gradation information of R, an image having only the gradation information of G, and an image having only the gradation information of B, and a composite image is obtained by synthesizing these. Inference is executed using the composite image generated in this way.
  • FIG. 7 is an explanatory diagram showing the state of synthetic image generation shown in FIG. 6 more schematically.
  • the elliptical portion corresponding to the body of the mouse does not move, and only the rectangular portion corresponding to the foot of the mouse moves and changes.
  • the RGB gradation information is combined in the non-moving elliptical part.
  • an image acquisition unit that acquires a plurality of images having continuity in time or space, and a color scale that can be acquired from each image for the plurality of images.
  • a channel assigning unit that assigns different channels to at least a part of the toning information and / or the gradation information of the brightness based on a predetermined rule, and a gradation that assigns channels from each of a plurality of images.
  • a composite image generation unit that generates one composite image in which at least a part of the gradation information of each image can be identified by a channel by extracting and synthesizing the information, and a composite image is analyzed for a plurality of images. Since the inference unit for inferring is provided, it is possible to accurately infer the motion and attributes of the object based on a plurality of images having continuity in time or space.
  • the composite image used for inference is a two-dimensional image unlike moving images and three-dimensional data, which are a plurality of images having continuity in time or space, it is input to a neural network for learning processing or actual operation. Convergence of learning can be expected when executing analysis processing, and it can be said that the processing capacity of hardware can be sufficiently processed by the current commercially available computer.
  • this composite image is a two-dimensional image, it contains information from multiple images, so it is possible to make highly accurate inferences using information on the movement of objects and spatial correlations that cannot be understood from a single image. Become.
  • the image analysis apparatus of the present invention is used for a situation in which a plurality of objects are assumed as analysis targets and the positional relationship between the plurality of objects also affects the analysis result.
  • the case of application will be explained. Specifically, a case where the image analysis apparatus of the present invention is applied to the analysis of social behavior by a plurality of mice will be described as an example.
  • FIG. 8 is a block diagram showing an example of the configuration of an image analysis device corresponding to at least one of the embodiments of the present invention.
  • the image analysis device 10B which is an example of the image analysis device 10
  • a storage unit 15 and a storage unit 15 are provided.
  • the configuration with the same reference numerals as those of the first embodiment has the same functions as those described in the first embodiment, and detailed description of the same functions will be omitted.
  • the second embodiment it is assumed that a plurality of objects are photographed at the same time, and in that case, the point of performing image acquisition and composite image generation for each object is the first embodiment. Is different.
  • the image acquisition unit 11 acquires a plurality of images having continuity in time or space, and identifies a place where a plurality of objects included in each acquired image are reflected, and each object is selected from each image. It also has a function to acquire images in a predetermined range to be reflected.
  • the channel allocation unit 12 has a function of allocating a channel to each of a plurality of acquired images for each object.
  • a plurality of images in a predetermined range in which the object is reflected are acquired for each object, and channels are assigned to the plurality of images for each object.
  • the composite image generation unit 13 has a function of generating a composite image for each object. If two objects are shown in the moving image, two composite images are generated.
  • the position information acquisition unit 16 has a function of acquiring the position information of an object when a plurality of images are acquired.
  • a plurality of images are acquired from a moving image of a plurality of objects, and the position information of each of the plurality of objects in each image is acquired.
  • the position information may be, for example, coordinate data.
  • the position information of the object in all the images may be acquired, the position information in the first image and the last image may be acquired, or at least one. Get the position information of the object in one image.
  • the inference unit 14 has a function of executing inference regarding an operation pattern of a plurality of objects by inputting a plurality of composite images generated for each object and position information of each of the plurality of objects.
  • Various methods can be adopted for inference, but as an example, when adopting a method for inference using a trained model that has been trained for a neural network in advance, as in this example, for multiple objects.
  • FIG. 9 is a flowchart showing an example of a flow of image analysis processing corresponding to at least one of the embodiments of the present invention.
  • the image analysis process is started by extracting a plurality of frames having temporal continuity from a moving image in which a plurality of objects are photographed in the image analysis apparatus 10B (step S301).
  • the image analysis device 10B acquires a plurality of images for each object by extracting an image corresponding to the region of each object from each frame (step S302).
  • the position information of each object in at least one frame is acquired (step S303).
  • the image analysis device 10B assigns different channels to the acquired plurality of images for each object (step S304).
  • the image analysis device 10B extracts gradation information to which channels are assigned to each of the plurality of images for each object and combines them into one to generate a composite image (step S305).
  • the image analysis device 10B executes inference based on the composite image generated for each object and the position information of each object, acquires the inference result related to the image analysis (step S306), and performs the image analysis process. finish.
  • the image analysis apparatus 10B according to the second embodiment of the present invention is applicable to a plurality of images having temporal continuity, that is, a situation in which a plurality of objects are included as objects to be captured as moving images.
  • the image analysis device 10B can be applied to analyze the social behavior of mice when a plurality of mice are placed together in the same cage and their behavior is observed.
  • mice There is a social interaction test as an experiment to investigate the sociality of mice. It is a test in which two mice are released into the same cage and observed how much social behavior is performed in a predetermined time.
  • a drug may be administered to mice to investigate the efficacy of a drug for depression or a drug for schizophrenia, and a social interaction test may be conducted as an experiment to investigate the effect of the drug.
  • Mice that exhibit a medical condition similar to depression or schizophrenia tend to have decreased social behavior, and social interaction tests may be performed to analyze social behavior to determine drug efficacy.
  • FIG. 10 is an explanatory diagram showing an example of the social behavior of the mouse to be analyzed in the social interaction test.
  • the social behaviors of the mouse include "Sniffing” that sniffs the partner's body, “Following” that follows the partner, and “Grooming” that grooms the partner's body. It will be specified from the transition of the behavior of one mouse with respect to the other mouse. Even if the positional relationship between the two animals and the orientation of the body on the two-dimensional image are close to "Sniffing", there may be cases where the other person's body is not actually sniffed just because it happens to be in that positional relationship. Therefore, it is difficult to judge social behavior with high accuracy only from still images. Therefore, the image analysis device 10B is applied to the moving image of the state of the social interaction test.
  • FIG. 11 is an explanatory diagram showing an example of a method of extracting the position of a mouse to be analyzed in a social interaction test.
  • FIG. 11 shows (A) a photographed image of a cage released by two mice from above and (B) a background image of the same shooting range without a mouse, and the difference between them.
  • (C) It is a binary image obtained by performing a binarization process by calculating. The white part in the binary image of (C) represents the position of the mouse. Position information may be extracted from such a binary image.
  • FIG. 12 is an explanatory diagram showing a state of synthetic image generation for one mouse.
  • the positions of the two mice are extracted by a method as shown in FIG. 11, and only the region containing the mice is extracted as an image.
  • three images as shown in FIG. 12 are acquired for each mouse. For example, RGB channels are assigned to these three images, and only the gradation information of the assigned color is extracted from each image.
  • Each of the three images is an image having only the gradation information of R, an image having only the gradation information of G, and an image having only the gradation information of B, and a composite image is obtained by synthesizing these. Such a composite image is generated for each mouse.
  • FIG. 13 is a block diagram showing an example of the configuration of the entire model for realizing multimodal learning.
  • a composite image of the mouse 1, a composite image of the mouse 2, and position information of the mice 1 and 2 are prepared, and a neural network portion for inputting each of these is provided.
  • a pre-learned neural network such as VGG16 may be applied.
  • a connecting layer and a classification layer are provided in the subsequent stage of the three neural network portions corresponding to each of the inputs so that the inference result can be obtained.
  • the inference may be configured to classify and output which of the four behaviors shown in FIG. 10 is applicable as an example of social behavior.
  • the image acquisition unit further includes a position information acquisition unit that acquires position information of the object when a plurality of images are acquired, and analyzes a plurality of objects.
  • a position information acquisition unit that acquires position information of the object when a plurality of images are acquired, and analyzes a plurality of objects.
  • a channel is assigned to each of the plurality of acquired images
  • a composite image is generated for each object in the composite image generation unit, and a plurality of composite images generated for each object in the inference unit. Since the inference about the operation pattern of the plurality of objects is executed by inputting the position information of each of the plurality of objects, the target is based on a plurality of images having temporal continuity with respect to the plurality of objects. It is possible to accurately infer the movements and attributes of objects.
  • an image analysis device is applied to three-dimensional data capable of extracting a plurality of images having spatial continuity.
  • FIG. 14 is a block diagram showing an example of the configuration of an image analysis device corresponding to at least one of the embodiments of the present invention.
  • the image analysis device 10C which is an example of the image analysis device 10
  • a storage unit 15 The configurations with the same reference numerals as those of the first embodiment have the same functions as those described in the first embodiment, and detailed description of the same functions will be omitted.
  • the area division unit 17 has a function of dividing a composite image into a plurality of areas having a preset size.
  • the size of the region is preferably determined according to the features desired to be identified by image analysis.
  • Each of the regions divided here is the target of inference in the inference unit 14.
  • FIG. 15 is a flowchart showing an example of a flow of image analysis processing corresponding to at least one of the embodiments of the present invention.
  • the image analysis process is started by acquiring a plurality of images having spatial continuity in the image analysis apparatus 10C (step S401).
  • the image analysis device 10C assigns different channels to the acquired plurality of images (step S402).
  • the image analysis device 10C extracts gradation information to which channels are assigned to each of the plurality of images and combines them into one to generate a composite image (step S403).
  • the image analysis device 10C divides the composite image into a plurality of regions (step S404).
  • the image analysis device 10C executes inference for each region of the composite image, and acquires the inference result regarding the image analysis for each region (step S405).
  • the image analysis process is terminated when the inference results are obtained for all the regions of the composite image by switching the regions and executing the inference sequentially.
  • the image analysis device 10C according to the third embodiment of the present invention is applied with analysis processing for a plurality of spatially continuous images, that is, tomographic images continuously acquired in parallel from three-dimensional data. It is a target.
  • the image analysis device 10C can be applied to analyze voxel data representing a predetermined three-dimensional region obtained by an OCT (optical interference tomography device) or the like.
  • FIG. 16 is an explanatory diagram showing a flow when the image analysis device 10C executes an image analysis process for identifying a blood vessel region from voxel data obtained when the fundus is imaged by an OCT (optical coherence tomography device). ..
  • voxel data is converted into, for example, 300 slices of raster data, 3 slices are extracted from the 300 slices of raster data, and a composite image is generated based on the 3 slices of image.
  • the composite image is divided into a plurality of areas.
  • the size of the region at this time is preferably a size suitable for appropriately identifying the blood vessel region.
  • the plurality of images have continuity in a specific direction when the three-dimensional region is represented by stacking the acquired plurality of tomographic images in a specific direction. It is a plurality of tomographic images extracted from the 3D model so as to have continuity in a specific direction when the 3D region is represented by the tomographic image of the above or a 3D model capable of arbitrarily extracting the tomographic image.
  • the inference about the 3D region is executed from the composite image, it is possible to accurately infer the characteristics, attributes, etc. of the 3D region based on a plurality of images having spatial continuity. Will be.
  • FIG. 17 is an explanatory diagram showing another method of generating a composite image in an image analysis apparatus corresponding to at least one of the embodiments of the present invention. As shown in FIG. 17, the two images before the channel assignment may be combined, for example, by light-dark comparison, and the channel may be assigned to the combined image.
  • the gradation information of each color is expressed by 256 gradations
  • one of the two images is converted so that the gradation of the color falls within the range of 0 to 127.
  • the other image is converted so that the color gradation falls within the range of 128 to 255, and these two images are combined to assign two images to one channel corresponding to a specific one color.
  • this method it is possible to increase the amount of information included in the composite image. If this method is adopted, for example, when using 3 channels of RGB, two images are combined in light and dark for each of the 3 channels of RGB and then assigned, and information of 6 images is assigned to one composite image. It is possible to include it.
  • Each image of the RGB channel is mixed at an arbitrary ratio to generate a luminance image (the difference is that the luminance image is processed rather than simply extracted).
  • a luminance image in which each of them is simply added and divided by 3 may be used, or may be mixed at a ratio in consideration of the wavelength sensitivity characteristics of the human eye.
  • the object of interest by extracting Hue in a predetermined range, it is possible to extract the object of interest, and it is assumed that the scene is more useful than a simple luminance image. Specifically, it is possible to easily extract the skin part (palm and face) of the human body by extracting Hue in the vicinity of red. Extending this, if there are multiple objects of interest with different hues in the image, the difference in hue can be used as a brightness image (general hues start with red, the hue circle, yellow, green, light blue, blue, etc. It is shown by a cyclic structure that advances to purple and returns to red, but it is possible to quantify the hue by giving a numerical value that increases by 60 for each of the above colors, where red is 0), and identification of the object.
  • a brightness image generally hues start with red, the hue circle, yellow, green, light blue, blue, etc. It is shown by a cyclic structure that advances to purple and returns to red, but it is possible to quantify the hue by giving a numerical value that increases by 60
  • Hue can also improve the prediction accuracy by shifting the color or making corrections as needed.
  • Saturation and Value are available as well as hue. Saturation shows the vividness of colors, so it can be used when focusing on vivid areas regardless of the type of color. However, unlike Hue, Saturation is susceptible to the effects of lighting and shadows, so its use is limited when such effects are low and it is optimal to focus on vividness.
  • the channel setting related to the gradation information for example, in the case of four colors or less, it can be dealt with by adopting the RGB (A) method or the CMYK method. Further, in the fifth embodiment, six colors (red, yellow, green, water, blue, and purple) are illustrated in the explanation of Hue, but the channel setting may be set to these six colors. Although it is possible to use a large number of colors properly, it is preferable to use clear and easily distinguishable colors such as the above six colors as the colors assigned to each channel.
  • the most popular method for recording video / images at present is the processing using the RGB color space, such as the CMYK method and the 6-color (red, yellow, green, water, blue, purple) method.
  • the RGB color space such as the CMYK method and the 6-color (red, yellow, green, water, blue, purple) method.
  • the channel setting including the color expression other than RGB there arises a problem that the color of the overlapped portion cannot be correctly expressed at the time of compositing.
  • FIG. 18 is an explanatory diagram showing the relationship between each color and the RGB value when the 6-color method is adopted as a channel related to gradation information.
  • FIG. 18A is an explanatory diagram showing the relationship (no limitation) between each color and the RGB value when the six-color method of red, yellow, green, water, blue, and purple is adopted.
  • FIG. 18A shows the case where each of the currently most popular RGB channels of six colors of red, yellow, green, water, blue, and purple is shown with 8-bit resolution (expressed at a brightness level of 0 to 255). It represents the upper limit of each value of RGB in. For example, focusing on yellow, the values of R and G are 255, and B is 0.
  • FIG. 18B is an explanatory diagram showing the relationship between each of the six colors and the RGB value when the upper limit is set so as not to break the image at the time of compositing.
  • different channels are set for a plurality of images, gradation information corresponding to each channel is extracted from each image, and the extracted gradation information is synthesized into one. It is described as generating one composite image, and when generating a composite image, it is described as synthesizing a plurality of gradation information in each pixel to determine the gradation information and the brightness information of each pixel. However, it is not limited to this. For example, the pixel values of the new image or the old image in time series may be adopted as the values of the gradation information and the luminance information of each pixel.
  • the pixel values of the image on the back side or the image on the front side in the case of being spatially continuous may be adopted as the values of the gradation information and the luminance information of each pixel. That is, instead of compositing, a composite image may be obtained by adopting a process of overwriting and superimposing.
  • FIG. 19 is an explanatory diagram showing an example of a composite image generated by the process of overwriting and superimposing.
  • gradation information of 6 colors is adopted as a channel, and channels of different colors are assigned to 6 images having continuity in time.
  • the new image is combined so that the new image is superimposed on the oldest image in time, and the second oldest image is overwritten on the oldest image in time.
  • the pixel information in the effective domain overwrites the old image.
  • the information of the oldest image may be adopted, or the same composition processing as in the first to third embodiments may be executed.
  • the trajectory of the movement is further grasped. It has the effect of making it easier to do.
  • FIG. 19 shows a contour line obtained by extracting only the outline of the effective area of each image with a predetermined pixel thickness. It may be overlapped in the same manner as above. Similar to FIG. 19, this method also has the effect of making it easier to grasp the trajectory of the movement of the object.
  • the inference process is performed on the premise that the inference process may be executed by the trained model that has been trained in advance in the inference in the inference unit 14.
  • the image analysis device 10 may be configured to include a learning unit.
  • FIG. 20 is a block diagram showing an example of the configuration of an image analysis device corresponding to at least one of the embodiments of the present invention.
  • FIG. 20 shows an image analysis device 10D in which the image analysis device 10A described according to the first embodiment is further provided with a learning unit 18.
  • the learning unit 18 has a function of executing a learning process with a composite image and correct answer data of the analysis result of the composite image as a set, and updating the parameters of the neural network. That is, by providing the learning unit 18, it becomes possible to execute the learning process of the trained model adopted in the image analysis device 10D in the own device, and further additional learning process is performed for the obtained trained model. It is also possible to execute.
  • the learning process is executed according to the same flow as in FIG.
  • embodiments of the present invention have been described according to the first to eighth embodiments, the present invention is not limited to these and can be applied to various uses.
  • embodiments such as individual identification and abnormal behavior detection of a person from a surveillance camera, abnormal driving detection of a car from a road surveillance camera, behavior classification from a sports broadcast video, and abnormal location detection from organ 3D data are naturally possible. Conceivable.
  • Image analysis device 11 Image acquisition unit 12 Extraction unit 13 Prediction unit 14 Reasoning unit 15 Storage unit 16 Position information acquisition unit 17 Area division unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Radiology & Medical Imaging (AREA)
  • Quality & Reliability (AREA)
  • Image Analysis (AREA)

Abstract

時間的又は空間的に連続性を有する複数の画像に基づいて対象物の動作や属性を精度よく推測するために、時間的又は空間的に連続性を有する複数の画像を取得する画像取得部と、前記複数の画像について、各画像から取得可能な色の階調情報及び/又は明るさの階調情報のうちの少なくとも一部に対して、所定の規則に基づいて、互いに異なるチャンネルを割り当てるチャンネル割当部と、前記複数の画像のそれぞれから前記チャンネルを割り当てた階調情報を抽出して合成することで、前記チャンネルにより各画像の少なくとも一部の階調情報が識別可能な1つの合成画像を生成する合成画像生成部と、前記合成画像を解析して、前記複数の画像に対する推論を行う推論部とを備えるようにした。

Description

画像解析方法、学習用画像又は解析用画像生成方法、学習済モデル生成方法、画像解析装置及び画像解析プログラム
 本発明は、時間的又は空間的に連続性を有する複数の画像に関する画像解析方法、学習用画像又は解析用画像生成方法、学習済モデル生成方法、画像解析装置及び画像解析プログラムに関するものである。
 従来、様々な状況において取得された動画や3次元データから所望の特徴を抽出する解析処理をコンピュータに実行させたいというニーズが存在する。また、所望の特徴を抽出することをニューラルネットワークに学習させて学習済モデルによって実行する、いわゆる人工知能によって解析処理を実行させたいという要望も増えている。しかし、動画データや3次元データは2次元の画像データに比較してデータ容量が膨大であり、これらを直接的にニューラルネットワークに入力して学習処理や実際の解析処理を実行させることは、学習の収束性やハードウェアの処理能力などの観点から現時点では容易ではないことが想定される。
 これに対して、動画を構成する複数フレームの画像に基づいて合成された合成画像によって解析処理を実行するものとして、例えば、特許文献1が提案されている。
 特許文献1には、人体を連続的に撮像した複数枚の画像を重ね合わせて、1枚の合成画像を生成し、学習済みの畳み込みニュートラルネットワーク(Convolutional Neural Network:CNN)により合成画像を解析して人体の関節位置を判別する技術が開示されている。
特開2019-003565号公報
 上記の特許文献1に記載の画像解析手法によれば、複数フレーム分の情報を1つの合成画像に含めることが可能となるが、この特許文献1の技術では、複数枚の画像の輝度値を単純に加算して合成画像を生成するため、合成画像には画像に含まれる対象物の動作の時間的な前後関係を把握するための情報は含まれないことになる。そのため、関節位置以外の細かい動きの特徴を捉えきれず、合成画像に基づく行動クラスの推測精度が十分でないという問題がある。
 本発明は、上記問題点に鑑みなされたものであり、時間的又は空間的に連続性を有する複数の画像に基づいて対象物の動作や属性を精度よくかつ高速に推測可能な画像解析方法、学習用画像又は解析用画像生成方法、学習済モデル生成方法、画像解析装置及び画像解析プログラムを提供することを目的とする。
 本発明に係る画像解析方法は、時間的又は空間的に連続性を有する複数の画像を取得する画像取得手順と、前記複数の画像について、各画像から取得可能な色の階調情報及び/又は明るさの階調情報のうちの少なくとも一部に対して、所定の規則に基づいて、互いに異なるチャンネルを割り当てるチャンネル割当手順と、前記複数の画像のそれぞれから前記チャンネルを割り当てた階調情報を抽出して合成することで、前記チャンネルにより各画像の少なくとも一部の階調情報が識別可能な1つの合成画像を生成する合成画像生成手順と、前記合成画像を解析して、前記複数の画像に対する推論を行う推論手順とを含むことを特徴とする。
 また、本発明に係る画像解析方法において、さらに、前記チャンネル割当手順においては、前記複数の画像のそれぞれに対して、チャンネルとして互いに色相の異なる色を割り当てるものとし、割り当てられた色に対応する階調情報をチャンネルの割り当てられた階調情報とし、前記合成画像生成手順においては、前記複数の画像のそれぞれから前記チャンネルの割り当てられた階調情報を抽出して合成することで、色相の異なる色に対応した階調情報像が合成された1つのカラー合成画像を生成することを特徴とする。
 また、本発明に係る画像解析方法において、さらに、前記推論手順においては、学習に用いるための複数のサンプル画像から生成した複数の合成画像に基づいて予め機械学習を行った学習済モデルに対して、前記合成画像生成手順において生成された前記合成画像を入力して、当該学習済モデルの出力を推論結果として得ることを特徴とする。
 また、本発明に係る画像解析方法において、さらに、前記複数の画像は、動作する所定の対象物を動画撮影することで得られた時間的に連続性を有する複数の画像からなる動画から一定の時間間隔で複数抽出されたものであり、前記推論手順においては、前記動画に基づいて生成された前記合成画像から、前記所定の対象物の動作パターンに関する推論を実行することを特徴とする。
 また、本発明に係る画像解析方法において、さらに、前記画像取得手順において複数の画像を取得した時の前記対象物の位置情報を取得する位置情報取得手順をさらに含み、複数の対象物を解析対象とする場合において、前記画像取得手順において、前記複数の対象物のそれぞれについて前記複数の画像を取得し、前記位置情報取得手順において、前記複数の対象物のそれぞれについて前記位置情報を取得し、前記チャンネル割当手順において、前記対象物毎に、取得した複数の画像のそれぞれに対してチャンネルを割り当て、前記合成画像生成手順において、前記対象物毎に前記合成画像を生成し、前記推論手順において、前記対象物毎に生成された複数の前記合成画像と、複数の対象物のそれぞれの前記位置情報とを入力として、前記複数の対象物の動作パターンに関する推論を実行することを特徴とする。
 また、本発明に係る画像解析方法において、さらに、前記複数の画像は、取得された複数の断層画像の特定方向への積層によって3次元領域を表現する場合の前記特定方向に連続性を有する複数の断層画像、又は、任意に断層画像を抽出可能な3次元モデルによって3次元領域を表現する場合において特定方向に連続性を有するように3次元モデルから抽出された複数の断層画像であり、前記推論手順においては、前記合成画像から、前記3次元領域に関する推論を実行することを特徴とする。
 本発明に係る学習用画像又は解析用画像生成方法は、時間的又は空間的に連続性を有する複数の画像を取得する画像取得手順と、前記複数の画像について、各画像から取得可能な色の階調情報及び/又は明るさの階調情報のうちの少なくとも一部に対して、所定の規則に基づいて、互いに異なるチャンネルを割り当てるチャンネル割当手順と、前記複数の画像のそれぞれから前記チャンネルを割り当てた階調情報を抽出して合成することで、前記チャンネルにより各画像の少なくとも一部の階調情報が識別可能な1つの合成画像を生成する合成画像生成手順とを含むことを特徴とする。
 本発明に係る学習済モデル生成方法は、時間的又は空間的に連続性を有する複数の画像を取得する画像取得手順と、前記複数の画像について、各画像から取得可能な色の階調情報及び/又は明るさの階調情報のうちの少なくとも一部に対して、所定の規則に基づいて、互いに異なるチャンネルを割り当てるチャンネル割当手順と、前記複数の画像のそれぞれから前記チャンネルを割り当てた階調情報を抽出して合成することで、前記チャンネルにより各画像の少なくとも一部の階調情報が識別可能な1つの合成画像を生成する合成画像生成手順と、前記合成画像に対する推論を実行した場合の正解データを取得する正解データ取得手順と、ニューラルネットワークで構成されたモデルに対して前記合成画像を入力して推論を実行させて推論結果を出力させる推論手順と、前記推論結果と正解データとを用いて前記モデルのパラメータを更新するパラメータ更新手順とを含むことを特徴とする。
 本発明に係る画像解析装置は、時間的又は空間的に連続性を有する複数の画像を取得する画像取得部と、前記複数の画像について、各画像から取得可能な色の階調情報及び/又は明るさの階調情報のうちの少なくとも一部に対して、所定の規則に基づいて、互いに異なるチャンネルを割り当てるチャンネル割当部と、前記複数の画像のそれぞれから前記チャンネルを割り当てた階調情報を抽出して合成することで、前記チャンネルにより各画像の少なくとも一部の階調情報が識別可能な1つの合成画像を生成する合成画像生成部と、前記合成画像を解析して、前記複数の画像に対する推論を行う推論部とを備えることを特徴とする。
 本発明に係る画像解析プログラムは、時間的又は空間的に連続性を有する複数の画像を取得する画像取得機能と、前記複数の画像について、各画像から取得可能な色の階調情報及び/又は明るさの階調情報のうちの少なくとも一部に対して、所定の規則に基づいて、互いに異なるチャンネルを割り当てるチャンネル割当機能と、前記複数の画像のそれぞれから前記チャンネルを割り当てた階調情報を抽出して合成することで、前記チャンネルにより各画像の少なくとも一部の階調情報が識別可能な1つの合成画像を生成する合成画像生成機能と、前記合成画像を解析して、前記複数の画像に対する推論を行う推論機能とをコンピュータに実現させることを特徴とする。
 本願の実施の形態により1又は2以上の不足が解決される。
本発明の実施の形態の少なくとも1つに対応する画像解析装置の構成の一例を示すブロック図である。 本発明の実施の形態の少なくとも1つに対応する画像解析装置が適用される環境の一例を示すブロック図である。 本発明の実施の形態の少なくとも1つに対応する画像解析装置における合成画像生成の概念を表した説明図である。 本発明の実施の形態の少なくとも1つに対応する画像解析処理の流れの一例を示すフローチャート図である。 本発明の実施の形態の少なくとも1つに対応する学習処理の流れの一例を示すフローチャート図である。 強制水泳試験におけるマウスの動作解析のために画像解析装置10Aを適用する場合の合成画像生成の様子を表した説明図である。 図6に示した合成画像生成の様子をより模式的に表した説明図である。 本発明の実施の形態の少なくとも1つに対応する画像解析装置の構成の一例を示すブロック図である。 本発明の実施の形態の少なくとも1つに対応する画像解析処理の流れの一例を示すフローチャート図である。 ソーシャル・インタラクション試験において解析対象となるマウスの社会性行動の例を表した説明図である。 ソーシャル・インタラクション試験において解析対象となるマウスの位置を抽出する方法の一例を表した説明図である。 1匹のマウスについての合成画像生成の様子を表した説明図である。 マルチモーダル学習を実現するためのモデル全体の構成の一例を表したブロック図である。 本発明の実施の形態の少なくとも1つに対応する画像解析装置の構成の一例を示すブロック図である。 本発明の実施の形態の少なくとも1つに対応する画像解析処理の流れの一例を示すフローチャート図である。 OCT(光干渉断層撮影装置)によって眼底を撮影した場合に得られるボクセルデータから血管領域を特定する画像解析処理を画像解析装置10Cによって実行する場合の流れを表した説明図である。 本発明の実施の形態の少なくとも1つに対応する画像解析装置における合成画像生成の他の方法を表した説明図である。 階調情報に関するチャンネルとして6色方式を採用する場合の各色とRGB値の関係を表した説明図である。 上書きして重ね合わせる処理によって生成した合成画像の例を表した説明図である。 本発明の実施の形態の少なくとも1つに対応する画像解析装置の構成の一例を示すブロック図である。
 以下、本発明の実施形態の例について図面を参照して説明する。なお、以下で説明する各実施形態の例における各種構成要素は、矛盾等が生じない範囲で適宜組み合わせ可能である。また、ある実施形態の例として説明した内容については、他の実施形態においてその説明を省略している場合がある。また、各実施形態の特徴部分に関係しない動作や処理については、その内容を省略している場合がある。さらに、以下で説明する各種フローを構成する各種処理の順序は、処理内容に矛盾等が生じない範囲で順不同である。
[第1の実施の形態]
 以下、図面を参照しながら、本発明の第1の実施の形態に係る画像解析装置の例について説明する。図1は、本発明の実施の形態の少なくとも1つに対応する画像解析装置の構成の一例を示すブロック図である。この図1に示すように、画像解析装置10の一例である画像解析装置10Aは、画像取得部11と、チャンネル割当部12と、合成画像生成部13と、推論部14と、記憶部15とを備えている。なお、画像解析装置10は、専用マシンとして設計した装置であってもよいが、一般的なコンピュータによって実現可能なものであるものとする。すなわち画像解析装置10は、一般的なコンピュータが通常備えているであろうCPU(Central Processing Unit:中央演算処理装置)と、メモリとを少なくとも備えている。また、GPU(Graphics Processing Unit:画像処理装置)を備えているものであってもよい。また、マウス、キーボード等の入力装置と、プリンタ等の出力装置と、通信ネットワークと接続するための通信装置とがバスを介して接続されている構成であってもよい。画像解析装置10の各部における処理は、これらの各部における処理を実行するためのプログラムをメモリから読み込んで制御回路(Processing circuit、Processing circuitry)として機能するCPUやGPUにおいて実行することで実現する。言い換えると、当該プログラムの実行により、プロセッサ(処理回路)が、各装置の各処理を実行できるように構成される。
 図2は、本発明の実施の形態の少なくとも1つに対応する画像解析装置が適用される環境の一例を示すブロック図である。図2には、サーバ装置と、複数の端末装置とが、通信ネットワークを介して相互に接続可能に構成されている。例えば、この図2におけるサーバ装置を画像解析装置10として機能させ、複数の端末装置の何れかから画像解析装置10として機能するサーバ装置に対して通信ネットワークを介して接続して利用するものであってもよい。その際、端末装置に画像解析装置を利用するためのプログラムをインストールする構成であってもよいし、サーバ上のプログラムをブラウザを介して利用する構成であってもよい。また、例えば、この図2における端末装置を画像解析装置10として機能させるが、その場合の画像解析装置10の一部機能をサーバ装置に備えさせ、端末装置から通信ネットワークを介してサーバ装置にアクセスすることで当該一部機能を利用する構成であってもよい。
 また、以下に説明する画像解析装置10の構成要素を全て同一の装置が備えている必要はなく、一部構成を他の装置に備えさせる、例えば、通信ネットワークを介して接続可能なサーバ装置と複数の端末装置の何れかにそれぞれ一部の構成を備えさせるようにして、画像解析装置10が通信を行いながら他の装置に備えられた構成を利用するものであってもよい。また、サーバ装置は1台である場合に限らず、複数のサーバ装置を利用する構成であってもよい。また、後述する学習済モデルは、画像解析装置10として機能する装置自体に格納する場合の他、他の装置としてのサーバ装置、複数の端末装置などに分散させて備えさせるようにし、利用する学習済モデルを備えた装置にその都度通信ネットワークを介して接続して利用する構成であってもよい。すなわち、何らかの記憶手段によって記憶された学習済モデルを利用可能であれば、学習済モデル記憶手段を画像解析装置自身で備えているのか他の装置において備えているのかについては問わない。
 画像取得部11は、時間的又は空間的に連続性を有する複数の画像を取得する機能を有する。ここで、時間的に連続性を有する複数の画像とは、時間的に連続的に取得された複数の画像、例えば、動画などから所定の規則に基づいて取得された複数の画像のことをいう。また、空間的に連続性を有する複数の画像とは、所定範囲の3次元空間が所定平面と交差する場合の当該平面上の3次元空間の情報を断層画像という場合に、複数の所定平面が一方向に平行に連続するように複数の所定平面のそれぞれにおいて断層画像を取得することで得られた複数の画像、例えば、OCT(光干渉断層撮影装置)等によって得られる所定の3次元領域を表すボクセルデータから所定規則に基づいて取得された複数の画像のことをいう。なお、空間的に連続性を有する複数の画像は、取得された複数の断層画像の特定方向への積層によって3次元領域を表現する場合の特定方向に連続性を有する複数の断層画像であってもよいし、任意に断層画像を抽出可能な3次元モデルによって3次元領域を表現する場合において特定方向に連続性を有するように3次元モデルから抽出された複数の断層画像であってもよい。
 また、複数の画像は、時間的又は空間的に連続性を有するものであればよいのであって、取得時に連続的に取得されたことまでを要求するものではない。例えば、60fpsの動画を撮影した場合の連続するフレームを必ず選択することを要求するものではなく、例えば、15フレーム毎に1フレームを取得して1秒間に4フレーム分の画像を取得するような場合も時間的に連続性を有しているものといえる。
 チャンネル割当部12は、複数の画像について、各画像から取得可能な色の階調情報及び/又は明るさの階調情報のうちの少なくとも一部に対して、所定の規則に基づいて、互いに異なるチャンネルを割り当てる機能を有する。ここで、チャンネルとは、複数の画像を合成した場合に各画像から取得可能な色の階調情報及び/又は明るさの階調情報(輝度情報)を他の画像のものと識別するために割り当てられる識別用の情報のことをいう。各画像の階調情報を識別可能であればどのようなチャンネルを設定してもよいが、例えば、複数の画像のそれぞれに対して、チャンネルとして互いに色相の異なる色を割り当てるものとし、割り当てられた色に対応する階調情報をその画像を識別するための階調情報としてもよい。具体的な例としては、3枚の画像を取得し、その3枚の画像に対してRGBの3色をそれぞれチャンネルとして割り当てることが考えられる。各画像においては、RGBの何れか一色のみをチャンネルの割り当てられた階調情報として扱う。
 合成画像生成部13は、複数の画像のそれぞれからチャンネルを割り当てた階調情報を抽出して合成することで、チャンネルにより各画像の少なくとも一部の階調情報が識別可能な1つの合成画像を生成する機能を有する。ここでの画像合成の方法はチャンネルの種類等に応じて異なるものであってもよい。例えば、3枚の画像を取得し、その3枚の画像に対してRGBの3色をそれぞれチャンネルとして割り当てる場合には、各画像においてRGBの何れか一色のみの階調情報を抽出し、同一画像内においてRGBの階調情報からカラー画像を生成する場合と同様に、3つの画像から取得したRGBの階調情報に基づいてカラーの合成画像を生成する。
 推論部14は、合成画像を解析して、複数の画像に対する推論を行う機能を有する。ここでの推論の内容は、扱う対象物によっても異なるものであり、様々な推論が採用され得る。推論部14では、画像解析に関する推論を実行して推論結果を得る。また、推論部14における推論処理は、予め学習を行うことで得られた学習済モデルに基づいて実行されるものであってもよい。学習済モデルの学習処理は、例えば、学習用の合成画像とその合成画像の推論の正解データとをセットとして実行されるものであってもよい。学習済モデルは、機械学習によって学習を行うものであれば様々なものが適用可能であるが、例えば、深層学習によってニューラルネットワークを学習させることが該当する。さらに、一例としては、ResNetやVGGのような既存の学習済みの畳込みニューラルネットワーク(CNN)を採用して、必要に応じて追加学習(転移学習)を行ったものを採用することも可能である。推論対象に関する学習用合成画像を多数用意して学習済モデルを一から学習する手法によれば、学習用合成画像の傾向に良くフィットした高精度の推論が可能な学習済モデルが得られるというメリットがある。他方、既存の学習済モデルを採用する手法は、一から学習させる時間のない中でも即座に分類問題等の推論処理を実行できるというメリットがある。
 記憶部15は、画像解析装置10Aにおける各部の処理に必要な情報を記憶し、また、各部の処理で生じた各種の情報を記憶する機能を有する。また、この記憶部15において、学習済モデルを格納するようにしてもよい。なお、通信ネットワークを介して接続可能なサーバ装置に学習済モデルを格納して、サーバ装置に推論部14の機能を持たせる構成であってもよい。
 図3は、本発明の実施の形態の少なくとも1つに対応する画像解析装置における合成画像生成の概念を表した説明図である。この図3に示すように、本実施の形態においては、動画やボクセルデータなどの時間的又は空間的に連続するデータから複数の画像、例えば3つの画像を所定間隔で抽出し、各画像に対してチャンネルを割り当てた上で合成画像を生成し、その合成画像を用いて画像解析としての推論を実行することになる。
 次に、本発明の実施の形態の少なくとも1つに対応する画像解析処理の流れについて説明を行う。図4は、本発明の実施の形態の少なくとも1つに対応する画像解析処理の流れの一例を示すフローチャート図である。この図4において、画像解析処理は、画像解析装置10Aにおいて、時間的又は空間的に連続性を有する複数の画像を取得することによって開始される(ステップS101)。次に、画像解析装置10Aは、取得した複数の画像に対して異なるチャンネルを割り当てる(ステップS102)。次に、画像解析装置10Aは、複数の画像のそれぞれにおいてチャンネルを割り当てた階調情報を抽出してそれらを1つに合成して合成画像を生成する(ステップS103)。そして、画像解析装置10Aは、合成画像に基づいて推論を実行して、画像解析に関する推論結果を取得して(ステップS104)、画像解析処理を終了する。
 上記の画像解析処理における推論は、どのような処理であってもよいが、学習済モデルを用いて推論を行う場合には、予め学習が必要となる場合がある。そこで、本発明の実施の形態の少なくとも1つに対応する学習処理の流れについて、学習対象がニューラルネットワークからなるモデルである場合を例に説明を行う。図5は、本発明の実施の形態の少なくとも1つに対応する学習処理の流れの一例を示すフローチャート図である。この図5において、学習処理は、画像解析装置10Aにおいて、学習に用いるデータとして、時間的又は空間的に連続性を有する複数の画像を取得することによって開始される(ステップS201)。次に、画像解析装置10Aは、取得した複数の画像に対して異なるチャンネルを割り当てる(ステップS202)。次に、画像解析装置10Aは、複数の画像のそれぞれにおいてチャンネルを割り当てた階調情報を抽出してそれらを1つに合成して合成画像を生成する(ステップS203)。また、画像解析装置10Aは、生成した合成画像に関する正解データを取得する(ステップS204)。正解データは、推論に関する正解を示すデータであり、通常は人間の手によってannotation(付注)される。そして、画像解析装置10Aは、合成画像を学習対象のニューラルネットワークに対して入力して推論を実行して、画像解析に関する推論結果を取得する(ステップS205)。そして、得られた推論結果と正解データとを用いてニューラルネットワークのパラメータを更新して、学習処理を終了する。図5に示すフローチャートでは1つの合成画像に基づいてニューラルネットワークのパラメータが一回更新されるまでの学習処理として説明を行ったが、実際には推論精度が向上するように多数の合成画像に基づいてパラメータを順次更新する必要がある。パラメータの更新には、例えば、損失関数に基づいて推論結果の損失の計算を実行して、損失が小さくなる方向にパラメータを更新するという方法が考えられる。
 ここで、本発明の第1の実施の形態に係る画像解析装置10Aを適用して行う画像解析の具体例について説明する。本発明の第1の実施の形態に係る画像解析装置10Aは、時間的に連続性を有する複数の画像に適用するもの、すなわち、動画として撮影したもの対象とするものであり、撮影の対象物が時間経過に応じて動作する状況が適用対象であるといえる。具体的には、マウスのような動く動物を対象物として撮影した動画について解析することに画像解析装置10Aを適用できる。
 マウスの動作に関する実験として、強制水泳試験というものが存在する。これは、例えば、うつ病のための薬や統合失調症のための薬の薬効を調べるためにマウスに対して薬を投与し、薬の影響の調査実験として行われる。薬の影響によりマウスの意欲の減退等の変化が生じるか否かを強制水泳試験における能動的な行動を行っている時間(動いている時間:Mobility)と無動時間(動いていない時間:Immobility)とから特定する。例えば、無動時間の長さなどが薬効の指標に用いられる。この強制水泳試験についての動作解析で難しい点が、例えば、マウスがケースの壁際で後肢のみバタ足(片足)する行動は、マウス自体は動いているが意欲のない無動時間として特定する必要があり、このような動作中のマウスであるにもかかわらず無動時間と特定する判定は、単なる動作の有無に基づくコンピュータ解析では判定ミスとなってしまう。そこで、強制水泳試験におけるマウスの動作に関する高精度の解析のために、画像解析装置10Aを適用する。
 図6は、強制水泳試験におけるマウスの動作解析のために画像解析装置10Aを適用する場合の合成画像生成の様子を表した説明図である。強制水泳試験中のマウスを撮影した動画から所定間隔で3フレーム分の画像を抽出し、抽出した3フレームに対してRGBのチャンネルを割り当てる。それぞれの画像から割り当てられた色の階調情報のみを抽出する。3つの画像はそれぞれ、Rの階調情報のみの画像、Gの階調情報のみの画像、Bの階調情報のみの画像となっており、これらを合成することで合成画像を得る。このように生成された合成画像を用いて推論を実行するようにする。
 図7は、図6に示した合成画像生成の様子をより模式的に表した説明図である。この図7における3つの画像は、マウスの胴体に相当する楕円個所は動きがなく、マウスの足に相当する長方形個所のみが動いて変化したものとなっている。この3つの画像に対してRGBのチャンネルを割り当てて、割り当てられた色の階調情報を抽出して合成画像を生成すると、動きのない楕円個所はRGBの階調情報がそろって合成されるため、元の画像と同じように表示されることになるが、動きのある長方形個所は、それぞれの階調情報のみが表示されるため、それぞれRGBの単色で表示される(少なくとも元のカラーとは異なる色で表示される)ことになる。このように、選択された3つの画像の間で動いた個所が存在する場合には、合成画像を目視で確認しても動いた個所を認識することが可能となる。
 このように、マウスの強制水泳試験におけるマウスの各種動作についてその時の合成画像と正解データとを用いて例えばニューラルネットワークの学習を行うことで得られた学習済モデルを用いることで、例えば、壁際で後肢のみバタ足(片足)する行動を適切に無動時間と判定することが可能となる。
 以上のように、第1の実施形態の一側面として、時間的又は空間的に連続性を有する複数の画像を取得する画像取得部と、複数の画像について、各画像から取得可能な色の階調情報及び/又は明るさの階調情報のうちの少なくとも一部に対して、所定の規則に基づいて、互いに異なるチャンネルを割り当てるチャンネル割当部と、複数の画像のそれぞれからチャンネルを割り当てた階調情報を抽出して合成することで、チャンネルにより各画像の少なくとも一部の階調情報が識別可能な1つの合成画像を生成する合成画像生成部と、合成画像を解析して、複数の画像に対する推論を行う推論部とを備えるようにしたので、時間的又は空間的に連続性を有する複数の画像に基づいて対象物の動作や属性を精度よく推測することが可能となる。
 すなわち、推論に用いる合成画像は、時間的又は空間的に連続性を有する複数の画像である動画や3次元データとは異なり2次元画像であるため、ニューラルネットワークに入力して学習処理や実際の解析処理を実行させる場合の学習の収束性が期待でき、ハードウェアの処理能力も現状の市販のコンピュータで十分な処理が可能であるといえる。この合成画像は2次元画像でありながら、複数の画像の情報を含んでいるため、単一の画像からは分からない対象物の動きや空間の相関の情報を用いて高精度な推論が可能となる。
[第2の実施の形態]
 以下、図面を参照しながら、本発明の第2の実施の形態に係る画像解析装置の例について説明する。この第2の実施の形態においては、解析対象として複数の対象物を想定して、それらの複数の対象物の位置関係も解析結果に影響するような状況に対して本発明の画像解析装置を適用する場合について説明を行う。具体的には、複数のマウスによる社会性行動の解析に対して本発明の画像解析装置を適用する場合を例として説明を行う。
 図8は、本発明の実施の形態の少なくとも1つに対応する画像解析装置の構成の一例を示すブロック図である。この図8に示すように、画像解析装置10の一例である画像解析装置10Bは、画像取得部11と、チャンネル割当部12と、合成画像生成部13と、位置情報取得部16と、推論部14と、記憶部15とを備えている。第1の実施の形態と同じ符号を付した構成に関しては、第1の実施の形態において説明したものと同様の機能を有するものであり、同じ機能については詳細な説明を省略するが、この第2の実施の形態においては、複数の対象物が同時に撮影される状況を想定しており、その場合に、対象物毎に画像取得及び合成画像生成を実行する点が、第1の実施の形態とは異なる。
 画像取得部11は、時間的又は空間的に連続性を有する複数の画像を取得するが、取得した各画像に含まれる複数の対象物が映る個所を特定して、各画像から各対象物が映る所定範囲の画像をそれぞれ取得する機能をさらに有する。
 チャンネル割当部12は、対象物毎に、取得した複数の画像のそれぞれに対してチャンネルを割り当てる機能を有する。対象物毎にその対象物が映る所定範囲の画像が複数取得され、その複数の画像に対して、対象物毎にチャンネルが割り当てられる。
 合成画像生成部13は、対象物毎に合成画像を生成する機能を有する。動画に対象物が2つ映っている場合には、2つの合成画像が生成される。
 位置情報取得部16は、複数の画像を取得した時の対象物の位置情報を取得する機能を有する。複数の対象物を撮影した動画から複数の画像を取得するが、その各画像における複数の対象物のそれぞれの位置情報を取得する。位置情報は、例えば、座標データとすることが考えられる。複数の画像を取得する場合に、全ての画像における対象物の位置情報を取得するようにしてもよいし、最初の画像と最後の画像における位置情報を取得するようにしてもよいし、少なくとも1つの画像における対象物の位置情報を取得するようにする。
 推論部14は、対象物毎に生成された複数の合成画像と、複数の対象物のそれぞれの位置情報とを入力として、複数の対象物の動作パターンに関する推論を実行する機能を有する。推論は様々な手法を採用し得るが、一例として、予めニューラルネットワークに対して学習を行った学習済モデルを用いて推論を行う手法を採用する場合、本例のように複数の対象物についての合成画像と、複数の対象物のそれぞれの位置情報というように、互いに異なる要素を入力として用いるモデルを実現するためには、マルチモーダル学習を実行するためのニューラルネットワークを構成することが好ましい。
 次に、本発明の実施の形態の少なくとも1つに対応する画像解析処理の流れについて説明を行う。図9は、本発明の実施の形態の少なくとも1つに対応する画像解析処理の流れの一例を示すフローチャート図である。この図9において、画像解析処理は、画像解析装置10Bにおいて、複数の対象物を撮影した動画から時間的に連続性を有する複数フレームを抽出することによって開始される(ステップS301)。次に、画像解析装置10Bは、各フレームから各対象物の領域に該当する画像を抽出することで、対象物毎に複数の画像を取得する(ステップS302)。次に、少なくとも何れか1フレームにおける各対象物の位置情報を取得する(ステップS303)。次に、画像解析装置10Bは、対象物毎に、取得した複数の画像に対して異なるチャンネルを割り当てる(ステップS304)。次に、画像解析装置10Bは、対象物毎に、複数の画像のそれぞれにおいてチャンネルを割り当てた階調情報を抽出してそれらを1つに合成して合成画像を生成する(ステップS305)。そして、画像解析装置10Bは、対象物毎に生成した合成画像及び各対象物の位置情報に基づいて推論を実行して、画像解析に関する推論結果を取得して(ステップS306)、画像解析処理を終了する。
 ここで、本発明の第2の実施の形態に係る画像解析装置10Bを適用して行う画像解析の具体例について説明する。本発明の第2の実施の形態に係る画像解析装置10Bは、時間的に連続性を有する複数の画像、すなわち、動画として撮影する対象として複数の対象物が含まれる状況が適用対象である。具体的には、同一のケージの中に複数のマウスを一緒に入れて行動観察した場合のマウスの社会性行動を解析することに画像解析装置10Bを適用できる。
 マウスの社会性を調べる実験として、ソーシャル・インタラクション試験というものが存在する。2匹のマウスを同じケージの中に放ち、所定時間の間に社会性行動(Sociability)をどれだけ行ったかを観察する試験である。例えば、うつ病のための薬や統合失調症のための薬の薬効を調べるためにマウスに対して薬を投与し、薬の影響の調査実験としてソーシャル・インタラクション試験を行う場合がある。うつ病や統合失調症に似た病状を見せるマウスは社会性行動が減少する傾向があり、薬効の判断のためにソーシャル・インタラクション試験による社会性行動の解析が行われることがある。
 図10は、ソーシャル・インタラクション試験において解析対象となるマウスの社会性行動の例を表した説明図である。この図10に示すように、マウスの社会性行動には、相手の体を嗅ぐ「Sniffing」、相手の後追いをする「Following」、相手の体を毛づくろいする「Grooming」などがあり、一方のマウスの他方のマウスに対する行動の推移から特定することになる。2次元画像上の2匹の位置関係や身体の向きなどが「Sniffing」に近いとしても、たまたまその位置関係になっただけで実際には相手の体を嗅ぐ行為を行っていない場合もあり得るため、静止画のみでは社会性行動を高精度に判定することは困難である。そこで、ソーシャル・インタラクション試験の様子を撮影した動画に対して画像解析装置10Bを適用する。
 図11は、ソーシャル・インタラクション試験において解析対象となるマウスの位置を抽出する方法の一例を表した説明図である。図11に示すのは、2匹のマウスが放たれたケージを上部から撮影した(A)撮影画像と、同じ撮影範囲についてマウスのいない状態の(B)背景画像とを用意し、これらの差分を演算して二値化処理を行って得られた(C)二値画像である。(C)の二値画像のうちの白色個所はマウスの位置を表している。このような二値画像から位置情報を抽出するようにしてもよい。
 図12は、1匹のマウスについての合成画像生成の様子を表した説明図である。図11に示すような手法によって2匹のマウスの位置を抽出して、それぞれマウスが含まれる領域のみを画像として抽出する。3つのフレームのそれぞれから2匹のマウスが含まれる領域を抽出すると、マウス毎に、図12に示すような3つの画像が取得される。これら3つの画像に対して、例えば、RGBのチャンネルを割り当て、それぞれの画像から割り当てられた色の階調情報のみを抽出する。3つの画像はそれぞれ、Rの階調情報のみの画像、Gの階調情報のみの画像、Bの階調情報のみの画像となっており、これらを合成することで合成画像を得る。このような合成画像の生成をマウス毎に行う。
 図13は、マルチモーダル学習を実現するためのモデル全体の構成の一例を表したブロック図である。入力データとして、マウス1についての合成画像、マウス2についての合成画像、及び、マウス1及び2の位置情報とを用意し、これらのそれぞれを入力するニューラルネットワーク部分を設ける。合成画像を入力する部分のニューラルネットワークについては、例えば、VGG16といった事前学習済みのニューラルネットワークを適用してもよい。そして、入力のそれぞれに対応した3つのニューラルネットワーク部分の後段には、結合層及び分類層を設けて、推論結果を得るようにする。推論は、例えば、社会性行動の例示として図10に示した4つの行動から何れに該当するかを分類して出力する構成とすることが考えられる。
 以上のように、第2の実施形態の一側面として、画像取得部において複数の画像を取得した時の対象物の位置情報を取得する位置情報取得部をさらに備え、複数の対象物を解析対象とする場合において、画像取得部において、複数の対象物のそれぞれについて複数の画像を取得し、位置情報取得部において、複数の対象物のそれぞれについて位置情報を取得し、チャンネル割当部において、対象物毎に、取得した複数の画像のそれぞれに対してチャンネルを割り当て、合成画像生成部において、対象物毎に合成画像を生成し、推論部において、対象物毎に生成された複数の合成画像と、複数の対象物のそれぞれの位置情報とを入力として、複数の対象物の動作パターンに関する推論を実行するようにしたので、複数の対象物に関する時間的に連続性を有する複数の画像に基づいて対象物の動作や属性を精度よく推測することが可能となる。
[第3の実施の形態]
 以下、図面を参照しながら、本発明の第3の実施の形態に係る画像解析装置の例について説明する。この第3の実施の形態では、空間的に連続性を有する複数の画像を抽出可能な3次元データに対して画像解析装置を適用する。
 図14は、本発明の実施の形態の少なくとも1つに対応する画像解析装置の構成の一例を示すブロック図である。この図14に示すように、画像解析装置10の一例である画像解析装置10Cは、画像取得部11と、チャンネル割当部12と、合成画像生成部13と、領域分割部17と、推論部14と、記憶部15とを備えている。第1の実施の形態と同じ符号を付した構成に関しては、第1の実施の形態において説明したものと同様の機能を有するものであり、同じ機能については詳細な説明を省略する。
 領域分割部17は、合成画像を予め設定したサイズの複数の領域に分割する機能を有する。領域のサイズは、画像解析によって特定したい特徴に応じて決定されることが好ましい。ここで分割されたそれぞれの領域が、推論部14における推論の対象となる。
 次に、本発明の実施の形態の少なくとも1つに対応する画像解析処理の流れについて説明を行う。図15は、本発明の実施の形態の少なくとも1つに対応する画像解析処理の流れの一例を示すフローチャート図である。この図15において、画像解析処理は、画像解析装置10Cにおいて、空間的に連続性を有する複数の画像を取得することによって開始される(ステップS401)。次に、画像解析装置10Cは、取得した複数の画像に対して異なるチャンネルを割り当てる(ステップS402)。次に、画像解析装置10Cは、複数の画像のそれぞれにおいてチャンネルを割り当てた階調情報を抽出してそれらを1つに合成して合成画像を生成する(ステップS403)。次に、画像解析装置10Cは、合成画像を複数の領域に分割する(ステップS404)。そして、画像解析装置10Cは、合成画像の領域毎に推論を実行して、領域毎に画像解析に関する推論結果を取得する(ステップS405)。領域を切り替えて順次推論を実行して、合成画像の全ての領域について推論結果を取得した時点で、画像解析処理を終了する。
 ここで、本発明の第3の実施の形態に係る画像解析装置10Cを適用して行う画像解析の具体例について説明する。本発明の第3の実施の形態に係る画像解析装置10Cは、空間的に連続性を有する複数の画像、すなわち、3次元データから平行に連続的に取得される断層画像などに対する解析処理が適用対象である。具体的には、OCT(光干渉断層撮影装置)等によって得られる所定の3次元領域を表すボクセルデータを解析することに画像解析装置10Cを適用できる。
 図16は、OCT(光干渉断層撮影装置)によって眼底を撮影した場合に得られるボクセルデータから血管領域を特定する画像解析処理を画像解析装置10Cによって実行する場合の流れを表した説明図である。先ず、この図16に示すように、ボクセルデータを例えば300スライスのラスターデータに変換し、300スライスのラスターデータから3スライスずつ抽出して、その3スライスの画像に基づいて合成画像を生成する。次に、合成画像を複数の領域に分割する。この時の領域のサイズは、血管領域を適切に特定するために適したサイズとすることが好ましい。そして、領域ごとに推論を実行して、全ての領域について血管領域に該当するか否かの推論結果を得ることで、合成画像における血管領域を特定する。同様の処理を他のラスターデータの組み合わせに対しても繰り返し実行する。そして、全ての合成画像に対する推論処理が終了した段階で最終的に特定された血管領域群でボリュームデータを再構築することで、ボクセルデータに対応する3D血管モデルを得ることができる。
 なお、ラスターデータ毎に血管領域を特定することも可能であるが、1スライスずつ画像解析を行うよりも、複数スライス、例えば3スライスで合成画像を生成してから画像解析を行う方が、空間上の血管の延伸方向等の把握が容易になるため、合成画像にしてから画像解析を行う方が血管領域の特定精度が向上するという効果が得られる。
 以上のように、第3の実施形態の一側面として、複数の画像は、取得された複数の断層画像の特定方向への積層によって3次元領域を表現する場合の特定方向に連続性を有する複数の断層画像、又は、任意に断層画像を抽出可能な3次元モデルによって3次元領域を表現する場合において特定方向に連続性を有するように3次元モデルから抽出された複数の断層画像であり、推論部においては、合成画像から、3次元領域に関する推論を実行するようにしたので、空間的に連続性を有する複数の画像に基づいて3次元領域の特性、属性等を精度よく推測することが可能となる。
[第4の実施の形態]
 第1乃至第3の実施の形態においては、画像取得部11で取得した1つの画像に対して1つのチャンネルを割り当てるものとして説明を行ったが、これに限定されるものではない。この第4の実施の形態においては、2つの画像を合成したものに対して1つのチャンネルを割り当てる例について説明する。図17は、本発明の実施の形態の少なくとも1つに対応する画像解析装置における合成画像生成の他の方法を表した説明図である。この図17に示すように、チャンネルを割り当てる前の2つの画像を、例えば、明暗比較等で合成し、その合成後の画像に対してチャンネルを割り当てるようにしてもよい。明暗で合成とは、例えば、各色の階調情報を256階調で表現する場合に、2つの画像のうちの一方の画像は色の階調が0~127の範囲に収まるように変換し、他方の画像は色の階調が128~255の範囲に収まるように変換して、これら2つの画像を合成することで、特定の1色に対応させる1チャンネルに対して2つの画像を割り当てることが可能となる。このような手法を用いることで、合成画像に含ませる情報量を増やすことが可能となる。この手法を採用すれば、例えば、RGBの3チャンネルを用いる場合には、RGBの3チャンネルに対してそれぞれ2つの画像を明暗で合成してから割り当て、1つの合成画像に6つの画像の情報を含ませることが可能となる。
[第5の実施の形態]
 第1乃至第3の実施の形態においては、合成画像を生成するためのチャンネルの割り当ての一例として、RGBの3色をチャンネルとして用いる場合について説明を行ったが、この第5の実施の形態においては、チャンネルとして設定し得る様々な階調情報の例の一つとして、輝度情報を抽出する方法について説明を行う。
(1)カラー画像から輝度(明るさ)画像を生成する方法
 [前提条件]
 映像が白黒カメラで撮影されている場合は、映像がグレー階調で保存されている場合は単一チャンネルしか含まないのでその画像を輝度画像とする。一方、グレー画像がカラー画像として保存されている場合も多いので、その場合は任意のチャンネルを利用すればよい。
 [単一チャンネルの利用]
 RGBのいずれかのカラーチャンネルの画像を利用する。その際、対象物の色に応じて最適なチャンネルを選択するのが良い。あるいは、カラー画像において、輝度情報を最も反映しているGチャンネルの画像を利用するのでもよい。
 [複数のチャンネルの加工]
 RGBチャンネルの各画像を任意の割合で混合して輝度画像を生成する(単純に抽出するのではなく、輝度画像を加工して得ている点が異なる)。単純にそれぞれを足し合わせて3で除した輝度画像を利用してもよいし、人の目の波長感度特性を考慮した比率で混合してもよい。例えば、NTSC標準カラーシステムのカラー画像をグレー階調に変換する手法として各画素の輝度Yを式Y=0.299R+0.587g+0.114Bで算出する方法が知られている。
 [抽出した輝度画像の加工]
 画像の背景と注目物体の輝度の関係がより明瞭になるようにするための加工を抽出した画像に対して施すことも有効である。例えば、背景が暗く、白い物体(実施例の白いネズミが該当)を撮影したり、明るい背景での黒い物体(黒いネズミも実験にはよく用いる)を撮影したりする場合、必要に応じて輝度の反転を行うことも有効である。また、抽出した画像の背景が灰色でそこに映っている注目物体が背景よりやや明るい灰色の場合、背景を黒く、注目物体が白くなるように輝度補正を行うことは予測精度を高めるためには非常に有効である。
(2)カラー画像から輝度以外の情報を抽出あるいは加工して、それを輝度画像として利用する方法
 [予備情報]
 RGBの3チャンネルのカラー(RGB色空間)で得られた画像は色相(Hue)、彩度(Saturation)、輝度(Value / Luminance)からなる色空間(HSV色空間、あるいは、それとほぼ同等のHLS色空間)と相互に変換可能である。
 [色相を輝度画像として利用]
 HSV色空間のHueは画像の輝度を含まないため、陰影があってもその物体の色を情報として抽出できる。これは、照明むらや影の映り込みに対して堅牢性が高いことを意味している。また、所定の範囲のHueを抽出することにより、着目物体を抽出することが可能であり、単純な輝度画像よりも有用性が高い場面が想定される。具体的には、赤色付近のHueを抽出することにより人体の皮膚の部分(手のひらや顔面)を容易に抽出することが可能である。これを拡張すると、複数の色相が異なる注目物体が画像内に存在する場合、色相の違いを輝度画像として利用できるため(一般的な色相は色相環という赤から始まり黄、緑、水色、青、紫と進んで赤に戻る環状構造で示されるが、赤を0として、上記のそれぞれの色に対して60ずつ増加する数値を与えることにより、色合いを数値化することが可能)、物体の識別抽出も可能となってくる。Hueも必要に応じて色のシフトをさせたり補正を行うなどして予測精度を向上させることが可能である。
 [色相以外を輝度画像として利用]
 色相と同様にSaturationやValueも利用可能である。Saturationは色の鮮やかさを示すので、色の種類は問わず、鮮やかな領域に注目する場合に利用できる。しかしながら、SaturationはHueと異なり、照明や影の映り込みの影響を受けやすいため、そのような影響が低く、かつ、鮮やかさに着目することが最適な場合に利用は限定される。一方、Valueは一般的には各画素において最大値となるチャンネルの輝度を用いるため[V=max(R, G, B)]、若干異なるが、上記の複数チャンネルの加工で述べたような見た目に自然なグレー階調画像と類似した結果が得られる。これらについても輝度補正が可能である。
[第6の実施の形態]
 第1乃至第3の実施の形態においては、合成画像を生成するためのチャンネルの割り当ての一例として、RGBの3色をチャンネルとして用いる場合について説明を行ったが、これに限定されるものではなく、4色以上の色の階調情報をチャンネルとして採用するようにしてもよい。
階調情報に関するチャンネル設定の具体例としては、例えば、4色以下の場合には、RGB(A)方式、又は、CMYK方式を採用することで対応することができる。また、第5の実施の形態において、Hueの説明で6色(赤、黄、緑、水、青、紫)の例示をしたが、チャンネル設定をこの6色と設定するようにしてもよい。さらに多数の色を使い分けることも可能ではあるが、各チャンネルに割り当てられる色は、上記6色のように明瞭で区別しやすい色を採用することが好ましい。
 ここで、映像・画像の記録法として現状最も普及している方法はRGB色空間を利用した処理であり、CMYK方式や6色(赤、黄、緑、水、青、紫)の方式など、RGB以外の色表現を含むチャンネル設定においては、合成時に重なった部分の色を正しく表現できないという問題が生じる。
 図18は、階調情報に関するチャンネルとして6色方式を採用する場合の各色とRGB値の関係を表した説明図である。このうち、図18(a)は、赤、黄、緑、水、青、紫の6色方式を採用する場合の各色とRGB値の関係(制限なし)を表した説明図である。この図18(a)は、赤、黄、緑、水、青、紫の6色を現在最も普及しているRGBの各チャンネルを8ビット分解能(0~255の輝度レベルで表現)で示す場合におけるRGBの各値の上限値を表している。例えば、黄色に着目するとRとGの値が255となっておりBが0となっている。これは、赤色のと緑色が重なった部分と同じ値となるので、画像中の黄色の領域が、合成の結果として赤色と緑色の重なった部分なのか黄色単独の部分なのかを区別することはできない。また、複数の画像が重なった結果、RGBの値が255を超えた場合、その色は飽和してしまいそれ以上の値は反映されずに255に丸められるため、正しいレイヤの重なりを示すことができない場合が発生する。
 図18(b)は、合成時に画像を破綻させないために上限設定を行った場合の6色の各色とRGB値の関係を表した説明図である。制限なしの場合の図18(a)に示すように、全ての色のチャンネルを合成したとしても、RGBのチャンネルはどの要素もその値は最大3回の重層に留まることが分かる(255×3)。このことから、レイヤに使用するRGBの各値を85(=255÷3)としておけば、全てのレイヤで重なりあった場合であってもその画素の各チャンネルの輝度値を最大255止まりにすることが可能である。これにより、レイヤのすべての重なりの組み合わせの色を保持することが可能となる。
[第7の実施の形態]
 第1乃至第3の実施の形態においては、複数の画像に異なるチャンネルを設定して、各画像においてそれぞれのチャンネルに対応した階調情報を抽出して、抽出した階調情報を合成して一つの合成画像を生成するものとして説明し、合成画像を生成する際には、各画素において複数の階調情報を合成して各画素の階調情報、輝度情報を決定するものとして説明を行っていたが、これに限定されるものではない。例えば、時系列的に新しい画像或いは古い画像の画素値が各画素の階調情報、輝度情報の値として採用される構成であってもよい。同様に、空間的に連続する場合の奥側の画像又は手前側の画像の画素値が各画素の階調情報、輝度情報の値として採用される構成であってもよい。すなわち、合成するのではなく、上書きして重ね合わせる処理を採用して合成画像を得るようにしてもよい。
 図19は、上書きして重ね合わせる処理によって生成した合成画像の例を表した説明図である。この図19においては、チャンネルとして6色の階調情報を採用して、時間的に連続性を有する6つの画像に異なる色のチャンネルを割り当てている。そして、6つの画像を合成する際に、時間的に最も古い画像に対して2番目に古い画像を上書きするといったように、時間的に新しい画像が上に重なるように合成する。この際、各画像における有効領域を決定する必要がある。例えば、マウスの動きを解析したい場合には、マウスの輪郭を抽出して輪郭の内側は有効な領域と定めるようにしてもよい。有効領域内の画素の情報は、古い画像に対して上書きを行う。有効領域外の情報は最も古い画像の情報を採用するか、第1乃至第3の実施の形態と同様の合成処理を実行するようにしてもよい。このようにして、時間的に古い画像に対して順次上書きを行いながら重ね合わせを実行すると、図19に示すように、対象物が移動している場合には、その移動の軌跡がより一層把握し易くなるという効果がある。
 なお、図19の例では有効領域内の全ての画素を上書きして重ね合わせ処理を実行しているが、各画像の有効領域の輪郭のみを所定の画素の厚みで抽出した輪郭線を図19と同様に重ね合わせるようにしてもよい。この手法によっても、図19と同様に、対象物の移動の軌跡をより一層把握し易くなるという効果が得られる。
[第8の実施の形態]
 第1乃至第3の実施の形態においては、推論部14における推論において、予め学習を行った学習済モデルによって推論処理を実行する場合があるという前提で説明を行った。その場合の学習済モデルを生成する主体については明記していなかったが、画像解析装置10が学習部を備える構成としてもよいことはいうまでもない。
 図20は、本発明の実施の形態の少なくとも1つに対応する画像解析装置の構成の一例を示すブロック図である。この図20は、第1の実施の形態によって説明した画像解析装置10Aに、さらに学習部18を備えさせた画像解析装置10Dを表している。学習部18は、合成画像と、その合成画像についての解析結果の正解データとをセットとして学習処理を実行して、ニューラルネットワークのパラメータの更新を実行する機能を有する。すなわち、学習部18を備えることによって、画像解析装置10Dにおいて採用する学習済モデルの学習処理を自装置において実行することが可能となるし、得られた学習済モデルに対してさらに追加の学習処理を実行することも可能となる。なお、学習処理は、図5と同様の流れによって実行される。
 第1乃至第8の実施の形態によって本発明の様々な実施形態について説明を行ったが、これらに限定されるものではなく、様々な用途に適用可能である。例えば、監視カメラからの人の個体識別や異常行動検出、道路監視カメラからの車の異常走行検出、スポーツ中継動画からの行動分類、臓器3Dデータからの異常箇所検出、のような実施形態も当然考えられる。
 10       画像解析装置
 11       画像取得部
 12       抽出部
 13       予測部
 14       推論部
 15       記憶部
 16       位置情報取得部
 17       領域分割部

Claims (10)

  1.  時間的又は空間的に連続性を有する複数の画像を取得する画像取得手順と、
     前記複数の画像について、各画像から取得可能な色の階調情報及び/又は明るさの階調情報のうちの少なくとも一部に対して、所定の規則に基づいて、互いに異なるチャンネルを割り当てるチャンネル割当手順と、
     前記複数の画像のそれぞれから前記チャンネルを割り当てた階調情報を抽出して合成することで、前記チャンネルにより各画像の少なくとも一部の階調情報が識別可能な1つの合成画像を生成する合成画像生成手順と、
     前記合成画像を解析して、前記複数の画像に対する推論を行う推論手順と
     を含む画像解析方法。
  2.  前記チャンネル割当手順においては、前記複数の画像のそれぞれに対して、チャンネルとして互いに色相の異なる色を割り当てるものとし、割り当てられた色に対応する階調情報をチャンネルの割り当てられた階調情報とし、
     前記合成画像生成手順においては、前記複数の画像のそれぞれから前記チャンネルの割り当てられた階調情報を抽出して合成することで、色相の異なる色に対応した階調情報が合成された1つのカラー合成画像を生成する
     請求項1に記載の画像解析方法。
  3.  前記推論手順においては、学習に用いるための複数のサンプル画像から生成した複数の合成画像に基づいて予め機械学習を行った学習済モデルに対して、前記合成画像生成手順において生成された前記合成画像を入力して、当該学習済モデルの出力を推論結果として得る
     請求項1又は請求項2に記載の画像解析方法。
  4.  前記複数の画像は、動作する所定の対象物を動画撮影することで得られた時間的に連続性を有する複数の画像からなる動画から一定の時間間隔で複数抽出されたものであり、
     前記推論手順においては、前記動画に基づいて生成された前記合成画像から、前記所定の対象物の動作パターンに関する推論を実行する
     請求項1から請求項3の何れか一項に記載の画像解析方法。
  5.  前記画像取得手順において複数の画像を取得した時の前記対象物の位置情報を取得する位置情報取得手順をさらに含み、
     複数の対象物を解析対象とする場合において、
     前記画像取得手順において、前記複数の対象物のそれぞれについて前記複数の画像を取得し、
     前記位置情報取得手順において、前記複数の対象物のそれぞれについて前記位置情報を取得し、
     前記チャンネル割当手順において、前記対象物毎に、取得した複数の画像のそれぞれに対してチャンネルを割り当て、
     前記合成画像生成手順において、前記対象物毎に前記合成画像を生成し、
     前記推論手順において、前記対象物毎に生成された複数の前記合成画像と、複数の対象物のそれぞれの前記位置情報とを入力として、前記複数の対象物の動作パターンに関する推論を実行する
     請求項4に記載の画像解析方法。
  6.  前記複数の画像は、取得された複数の断層画像の特定方向への積層によって3次元領域を表現する場合の前記特定方向に連続性を有する複数の断層画像、又は、任意に断層画像を抽出可能な3次元モデルによって3次元領域を表現する場合において特定方向に連続性を有するように3次元モデルから抽出された複数の断層画像であり、
     前記推論手順においては、前記合成画像から、前記3次元領域に関する推論を実行する
     請求項1から請求項3の何れか一項に記載の画像解析方法。
  7.  時間的又は空間的に連続性を有する複数の画像を取得する画像取得手順と、
     前記複数の画像について、各画像から取得可能な色の階調情報及び/又は明るさの階調情報のうちの少なくとも一部に対して、所定の規則に基づいて、互いに異なるチャンネルを割り当てるチャンネル割当手順と、
     前記複数の画像のそれぞれから前記チャンネルを割り当てた階調情報を抽出して合成することで、前記チャンネルにより各画像の少なくとも一部の階調情報が識別可能な1つの合成画像を生成する合成画像生成手順と
     を含む学習用画像又は解析用画像生成方法。
  8.  時間的又は空間的に連続性を有する複数の画像を取得する画像取得手順と、
     前記複数の画像について、各画像から取得可能な色の階調情報及び/又は明るさの階調情報のうちの少なくとも一部に対して、所定の規則に基づいて、互いに異なるチャンネルを割り当てるチャンネル割当手順と、
     前記複数の画像のそれぞれから前記チャンネルを割り当てた階調情報を抽出して合成することで、前記チャンネルにより各画像の少なくとも一部の階調情報が識別可能な1つの合成画像を生成する合成画像生成手順と、
     前記合成画像に対する推論を実行した場合の正解データを取得する正解データ取得手順と、
     ニューラルネットワークで構成されたモデルに対して前記合成画像を入力して推論を実行させて推論結果を出力させる推論手順と、
     前記推論結果と正解データとを用いて前記モデルのパラメータを更新するパラメータ更新手順と
     を含む学習済モデル生成方法。
  9.  時間的又は空間的に連続性を有する複数の画像を取得する画像取得部と、
     前記複数の画像について、各画像から取得可能な色の階調情報及び/又は明るさの階調情報のうちの少なくとも一部に対して、所定の規則に基づいて、互いに異なるチャンネルを割り当てるチャンネル割当部と、
     前記複数の画像のそれぞれから前記チャンネルを割り当てた階調情報を抽出して合成することで、前記チャンネルにより各画像の少なくとも一部の階調情報が識別可能な1つの合成画像を生成する合成画像生成部と、
     前記合成画像を解析して、前記複数の画像に対する推論を行う推論部と
     を備える画像解析装置。
  10.  時間的又は空間的に連続性を有する複数の画像を取得する画像取得機能と、
     前記複数の画像について、各画像から取得可能な色の階調情報及び/又は明るさの階調情報のうちの少なくとも一部に対して、所定の規則に基づいて、互いに異なるチャンネルを割り当てるチャンネル割当機能と、
     前記複数の画像のそれぞれから前記チャンネルを割り当てた階調情報を抽出して合成することで、前記チャンネルにより各画像の少なくとも一部の階調情報が識別可能な1つの合成画像を生成する合成画像生成機能と、
     前記合成画像を解析して、前記複数の画像に対する推論を行う推論機能と
     をコンピュータに実現させる画像解析プログラム。
PCT/JP2021/023916 2020-06-25 2021-06-24 画像解析方法、学習用画像又は解析用画像生成方法、学習済モデル生成方法、画像解析装置及び画像解析プログラム WO2021261547A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2022532532A JPWO2021261547A1 (ja) 2020-06-25 2021-06-24
EP21828345.5A EP4174763A1 (en) 2020-06-25 2021-06-24 Image analysis method, learning image or analysis image generation method, trained model generation method, image analysis device, and image analysis program
US18/002,429 US20230171369A1 (en) 2020-06-25 2021-06-24 Image analysis method, learning image or analysis image generation method, learned model generation method, image analysis apparatus, and image analysis program
CN202180044139.4A CN115943430A (zh) 2020-06-25 2021-06-24 图像分析方法、学习用图像或分析用图像生成方法、完成学习模型生成方法、图像分析装置及图像分析程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-109810 2020-06-25
JP2020109810 2020-06-25

Publications (1)

Publication Number Publication Date
WO2021261547A1 true WO2021261547A1 (ja) 2021-12-30

Family

ID=79281248

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/023916 WO2021261547A1 (ja) 2020-06-25 2021-06-24 画像解析方法、学習用画像又は解析用画像生成方法、学習済モデル生成方法、画像解析装置及び画像解析プログラム

Country Status (5)

Country Link
US (1) US20230171369A1 (ja)
EP (1) EP4174763A1 (ja)
JP (1) JPWO2021261547A1 (ja)
CN (1) CN115943430A (ja)
WO (1) WO2021261547A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7514669B2 (ja) 2020-06-30 2024-07-11 ジオテクノロジーズ株式会社 推論装置、推論方法、推論プログラム、およびコンピュータにより読み取り可能な記憶媒体

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022138187A (ja) * 2021-03-10 2022-09-26 富士通株式会社 画像分割プログラム、画像分割装置、及びモデル生成方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004186994A (ja) * 2002-12-03 2004-07-02 Toshiba Corp オブジェクト画像合成方法、オブジェクト画像合成装置、オブジェクト画像合成プログラム
JP2016036686A (ja) * 2014-08-11 2016-03-22 キヤノン株式会社 画像処理装置、画像処理方法、医用画像診断システムおよびプログラム
JP2019003565A (ja) 2017-06-19 2019-01-10 コニカミノルタ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004186994A (ja) * 2002-12-03 2004-07-02 Toshiba Corp オブジェクト画像合成方法、オブジェクト画像合成装置、オブジェクト画像合成プログラム
JP2016036686A (ja) * 2014-08-11 2016-03-22 キヤノン株式会社 画像処理装置、画像処理方法、医用画像診断システムおよびプログラム
JP2019003565A (ja) 2017-06-19 2019-01-10 コニカミノルタ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7514669B2 (ja) 2020-06-30 2024-07-11 ジオテクノロジーズ株式会社 推論装置、推論方法、推論プログラム、およびコンピュータにより読み取り可能な記憶媒体

Also Published As

Publication number Publication date
EP4174763A1 (en) 2023-05-03
US20230171369A1 (en) 2023-06-01
JPWO2021261547A1 (ja) 2021-12-30
CN115943430A (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
US10685454B2 (en) Apparatus and method for generating synthetic training data for motion recognition
US8320622B2 (en) Color gradient object tracking
CN111369644A (zh) 人脸图像的试妆处理方法、装置、计算机设备和存储介质
CN108463823B (zh) 一种用户头发模型的重建方法、装置及终端
KR20170017911A (ko) 디지털 이미지들의 컬러 프로세싱을 위한 방법들 및 시스템들
CN103914699A (zh) 一种基于色彩空间的自动唇彩的图像增强的方法
CN109844819A (zh) 用于动态遮挡处置的系统和方法
CN108021881B (zh) 一种肤色分割方法、装置和存储介质
US11576478B2 (en) Method for simulating the rendering of a make-up product on a body area
WO2023005743A1 (zh) 图像处理方法及装置、计算机设备、存储介质和计算机程序产品
WO2021261547A1 (ja) 画像解析方法、学習用画像又は解析用画像生成方法、学習済モデル生成方法、画像解析装置及び画像解析プログラム
US20180285674A1 (en) Method and apparatus for distinguishing between objects
CN116569218A (zh) 图像处理方法和图像处理装置
CN110227264B (zh) 虚拟对象控制方法、装置、可读存储介质和计算机设备
CN116740261A (zh) 图像重建方法和装置、图像重建模型的训练方法和装置
JPWO2018203514A1 (ja) 画像解析評価方法、コンピュータプログラム、画像解析評価装置
WO2015189369A1 (en) Methods and systems for color processing of digital images
CN115797276A (zh) 用于内窥镜的病灶图像处理方法、装置、电子设备及介质
Wang Colorizing grayscale CT images of human lung using deep learning
JP2019145940A (ja) 画像処理装置、画像処理方法、およびプログラム
CN114663570A (zh) 贴图生成方法、装置、电子装置及可读存储介质
CN114170071A (zh) 一种图像处理方法、装置、设备及介质
EP3038059A1 (en) Methods and systems for color processing of digital images
JP2021197599A (ja) 画像処理装置、画像処理方法及びプログラム
Liu et al. Self-adaptive single and multi-illuminant estimation framework based on deep learning

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21828345

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022532532

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2021828345

Country of ref document: EP

Effective date: 20230125