WO2020071472A1 - 差異検出装置及び差異検出プログラム - Google Patents
差異検出装置及び差異検出プログラムInfo
- Publication number
- WO2020071472A1 WO2020071472A1 PCT/JP2019/039074 JP2019039074W WO2020071472A1 WO 2020071472 A1 WO2020071472 A1 WO 2020071472A1 JP 2019039074 W JP2019039074 W JP 2019039074W WO 2020071472 A1 WO2020071472 A1 WO 2020071472A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- image
- difference detection
- unit
- information
- encoded
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/102—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
- H04N19/103—Selection of coding mode or of prediction mode
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
- G06T9/002—Image coding using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/136—Incoming video signal characteristics or properties
- H04N19/137—Motion inside a coding unit, e.g. average field, frame or block difference
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/134—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
- H04N19/157—Assigned coding mode, i.e. the coding mode being predefined or preselected to be further used for selection of another element or parameter
- H04N19/159—Prediction type, e.g. intra-frame, inter-frame or bidirectional frame prediction
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/172—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/10—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
- H04N19/169—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
- H04N19/17—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
- H04N19/176—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a block, e.g. a macroblock
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/50—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
- H04N19/503—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving temporal prediction
- H04N19/51—Motion estimation or motion compensation
- H04N19/537—Motion estimation other than block-based
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N19/00—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
- H04N19/60—Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/18—Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
Definitions
- the present invention relates to a difference detection device and a difference detection program.
- Non-Patent Document 1 a technology has been proposed in which a difference detection device detects a difference between images using a neural network (see Non-Patent Document 1).
- Non-Patent Document 1 images of a building, vegetation, and a road in two images representing the same space taken at different times are different for each of a building class, a vegetation class, and a road class.
- the detector class ifies.
- the difference detection device generates a mask image of a building based on the images classified into the building class.
- the difference detection device detects an image of a new building by detecting a difference between a mask image of the building in the two captured images.
- the difference detection device generates a mask image for each of the captured images by performing the segmentation process on the two captured images.
- the difference detection device detects a difference (change area) between the images based on a difference between the mask images in the two captured images.
- the conventional difference detection device inputs only the captured image to the neural network, and does not use information other than the image features output from the neural network for the process of detecting the difference. In other words, it is unknown what feature is to be learned for each image group used as the learning data. For this reason, the conventional difference detection device has a problem that the accuracy of detecting a difference between images cannot be improved.
- an object of the present invention is to provide a difference detection device and a difference detection program capable of improving the accuracy of detecting a difference between images.
- One embodiment of the present invention relates to a method of combining a first image and a second image representing substantially the same space captured at different times with encoded information of the first image and encoded information of the second image.
- a difference detection unit configured to detect a difference between a third image and a fourth image representing substantially the same space captured at different times based on the association, wherein the encoded information is encoded by the encoded
- An inverse transform process is performed in each of the decoding processes performed on the first image and the second image from the data including the first image and the data including the encoded second image. It is the difference detection device, which is the information obtained previously.
- One embodiment of the present invention is the above-described difference detection device, wherein the third image and the fourth image are blocks that divide a frame related to an image, and the difference detection unit is configured to: A difference between a third image and the fourth image is detected for each of the blocks.
- One embodiment of the present invention is the above-described difference detection device, wherein the association is performed before the learning is performed based on any of the first image, the second image, and the encoded information. This is the association between the output values of each neural network.
- One embodiment of the present invention is the above difference detection device, wherein the output value approaches the first value when it is determined that there is a difference between the first image and the second image,
- the image processing apparatus further includes a neural network at a subsequent stage in which learning is performed such that the output value approaches the second value when it is determined that there is no difference between the first image and the second image.
- One embodiment of the present invention is the above-described difference detection device, wherein the encoded information is any one of a code amount, an intra prediction mode, a transform coefficient, and a feature related to an image.
- One aspect of the present invention is the above difference detection device, further comprising a conversion unit that converts the encoded information into an image format, wherein the difference detection unit is based on the encoded information converted into an image format. Then, a difference between the third image and the fourth image is detected.
- One embodiment of the present invention relates to a method of combining a first image and a second image representing substantially the same space captured at different times with encoded information of the first image and encoded information of the second image.
- a difference detection unit configured to detect a difference between a third image and a fourth image representing substantially the same space captured at different times based on the association, wherein the encoded information includes the first information in a code. From the data including the image and the data including the second image being encoded after the conversion process is performed in the encoding process performed on the first image and the second image. This is the difference detection device.
- One embodiment of the present invention is a difference detection program for causing a computer to function as the above difference detection device.
- FIG. 2 is a diagram illustrating a configuration example of a difference detection device according to the first embodiment.
- FIG. 3 is a diagram illustrating a configuration example of a machine learning model such as deep learning according to the first embodiment.
- 6 is a flowchart illustrating an operation example of a learning unit according to the first embodiment.
- 5 is a flowchart illustrating an operation example of a detection unit according to the first embodiment.
- 6 is a flowchart illustrating an operation example of an image decoding unit according to the first embodiment.
- 5 is a flowchart illustrating an operation example of an image dividing unit according to the first embodiment.
- 5 is a flowchart illustrating an operation example of an image feature generation unit according to the first embodiment.
- FIG. 5 is a flowchart illustrating an operation example of an encoding feature generation unit in the first embodiment.
- 5 is a flowchart illustrating an operation example of a parameter learning unit according to the first embodiment.
- 5 is a flowchart illustrating an operation example of a difference detection unit in the first embodiment.
- FIG. 9 is a diagram illustrating a configuration example of a difference detection device according to a second embodiment.
- 11 is a flowchart illustrating an operation example of an encoded feature image forming unit according to the second embodiment.
- FIG. 1 is a diagram illustrating a configuration example of the difference detection device 1a.
- the difference detection device 1a is an information processing device that detects a difference between images.
- the image is, for example, an image representing the ground taken from the sky by an artificial satellite or the like.
- the difference between the images is, for example, a difference (change area) between the images that are captured at different times and represent substantially the same space.
- the difference detection device 1a includes a learning unit 10 and a detection unit 11.
- the difference detection device 1a may further include a storage unit.
- Part or all of the learning unit 10 and the detection unit 11 are realized by a processor such as a CPU (Central Processing Unit) executing a program stored in a storage unit.
- Some or all of the functional units of the learning unit 10 and the detecting unit 11 may be realized by using hardware such as an LSI (Large Scale Integration) or an ASIC (Application Specific Integrated Circuit).
- the storage unit is preferably a non-volatile recording medium (non-temporary recording medium) such as a flash memory or an HDD (Hard Disk Drive).
- the storage unit may include a volatile recording medium such as a RAM (Random Access Memory).
- the storage unit stores, for example, data and programs of a model of machine learning such as deep learning.
- the learning unit 10 learns model parameters by machine learning such as deep learning.
- the learning unit 10 includes an image decoding unit 101, an image division unit 102, an image feature generation unit 103, an encoding feature generation unit 104, and a parameter learning unit 105.
- the image decoding unit 101 acquires a plurality of image streams to be learned.
- the image stream is a moving image stream.
- the image decoding unit 101 decodes an image frame group from an image stream.
- the image decoding unit 101 outputs the image frame group to the image dividing unit 102.
- the image stream is data including a group of encoded images, and is, for example, a stream of a group of images captured in the same space at different times.
- the image stream is, for example, a stream of an image encoded using an algorithm such as H.265 / HEVC (High Efficiency Video Coding) and JPEG (Joint Photographic Experts Group).
- the image stream is, for example, a stream of an image encoded using the H.265 / HEVC algorithm.
- the image decoding unit 101 acquires one or more pieces of encoded information (a set of encoded information) from the learning target image stream for each learning target image stream. For example, the image decoding unit 101 acquires one or more pieces of encoded information from a header of an image stream to be learned. The image decoding unit 101 outputs one or more pieces of encoded information to the encoded feature generation unit 104 for each image stream to be learned.
- the encoding information is information relating to the encoding of the image stream, and includes, for example, information of the code amount of the image, information of the encoding mode of the image frame (for example, intra prediction mode), information of the transform coefficient, and And information of feature information (for example, spatial frequency) related to the image.
- the code amount of the vacant area is calculated according to the edge and texture of the building, etc., if there is a building or the like in the area in the future image. May increase in comparison with past images. For this reason, when the difference detection unit 115 detects an image (change area) of a new building, the encoded information is, for example, information on a code amount.
- the image of the solar panel is represented by a specific pattern (repetition of the pattern of the solar panel). Images of ground grass are often not represented by a particular pattern. Therefore, when the difference detection unit 115 detects an image (change area) of grass growing on a solar panel built on the ground, the encoded information is information on an encoding mode such as an intra prediction mode. These are only examples.
- the encoded information may be a combination of a plurality of types of information.
- the coded information may be a combination of the code amount information and the coding mode information.
- the encoded information may include information representing a feature of the image (hereinafter, referred to as “image feature information”).
- the image dividing unit 102 acquires an image frame group from the image decoding unit 101.
- the image dividing unit 102 generates an image block group by dividing an image frame into image blocks of (N ⁇ N) size.
- N is an integer of 2 or more (the number of pixels), for example, 256.
- the image dividing unit 102 divides an image frame into image blocks so that the image blocks do not overlap each other.
- the image division unit 102 outputs an image block group to the image feature generation unit 103 and the parameter learning unit 105.
- the image block group includes information on the shooting time and information on the position on the ground or the like where the shooting was performed. Thereby, the plurality of image streams are associated with each other based on the time information and the position information.
- the image feature generation unit 103 acquires the image block group from the image division unit 102.
- the image feature generation unit 103 generates image feature information for each image block.
- the image features include, for example, a frequency as a result of discrete cosine transform (conversion processing) of each pixel value (each power value) of the image block, a local binary pattern (LBP: ⁇ Local ⁇ Binary ⁇ Pattern ⁇ ) for each image block, and the like. Is a feature vector.
- the image feature generation unit 103 outputs the image feature information to the parameter learning unit 105 for each image block.
- the image feature information includes information on the time at which the image was taken and information on the position on the ground where the image was taken.
- Each piece of image feature information of the plurality of image streams is associated with each other based on time information and position information.
- the encoding feature generation unit 104 acquires one or more pieces of encoding information from the image decoding unit 101.
- information representing a feature of one or more pieces of encoded information is referred to as “encoded feature information”.
- the encoding feature information for each image block may be information (one-dimensional feature vector) of an average value of four code amounts.
- the encoding feature generation unit 104 outputs the encoding feature information to the parameter learning unit 105 for each image block.
- the parameter learning unit 105 acquires an image block and image feature information and coding feature information of the image block in a plurality of image streams to be learned for each image block representing the same space photographed at different times. .
- the ⁇ parameter learning unit 105 acquires label data indicating whether or not the area is a change area (difference) from an external device or the like for each image block representing the same space captured at different times. For example, the label data “1” indicates a change area. Label data “0” indicates that the area is not a change area.
- the parameter learning unit 105 inputs an image block and image feature information and coding feature information of the image block to a machine learning model.
- FIG. 2 is a diagram illustrating a configuration example of a model 2 of machine learning such as deep learning.
- the model 2 is a machine learning model such as a deep neural network (Deep Neural Network).
- a convolutional neural network CNN: Convolutional Neural Network
- Model 2 is used for estimating the area of change.
- the model 2 is stored, for example, in the storage unit of the difference detection device 1a. This storage unit is provided in the parameter learning unit 105, for example.
- Model 2 includes a first network 20, a second network 21, a third network 22, a fourth network 23, and a fifth network 24.
- the first network 20 has a superposition of a convolutional layer (Covolution @ Layer) and a pooling layer (Pooling @ Layer).
- the parameter learning unit 105 inputs an image block representing a space captured at time “A” to the first network 20.
- the first network 20 repeatedly performs learning using a convolutional layer and a pooling layer on an image block captured at time “A”.
- the second network 21 has a superposition of a convolutional layer and a pooling layer.
- the parameter learning unit 105 inputs an image block representing the same space captured at time “B” to the second network 21.
- the second network 21 repeatedly executes learning (for example, a convolution operation) using a convolution layer and a pooling layer for image blocks representing the same space captured at time “B”.
- the third network 22 has a superposition of a convolutional layer and a pooling layer.
- the parameter learning unit 105 compares the image feature information of the image block representing the space captured at time “A” and the image feature information of the image block representing the same space captured at time “B” with the third network 22. To enter.
- the third network 22 converts the image feature information of the image block representing the space captured at time “A” and the image feature information of the image block representing the same space captured at time “B” into convolutional layers. And learning using the pooling layer.
- the fourth network 23 has a superposition of a convolutional layer and a pooling layer.
- the parameter learning unit 105 calculates the encoded feature information of the image block representing the space captured at time “A” and the encoded feature information of the image block representing the same space captured at time “B” in the fourth Input to the network 23.
- the fourth network 23 converts the encoded feature information of the image block representing the space captured at time “A” and the encoded feature information of the image block representing the same space captured at time “B” into: Learning using the convolutional layer and the pooling layer is repeatedly executed.
- the parameter learning unit 105 associates the output of the first network 20, the output of the second network 21, the output of the third network 22, and the output of the fourth network 23. In other words, it aims at associating the difference in the feature of the image according to the presence or absence of the difference between the times A and B with the difference in the encoding information.
- the fifth network 24 (a neural network at the subsequent stage) is a connection layer (all connection layers) of the outputs of the first network 20, the second network 21, the third network 22, and the fourth network 23.
- the fifth network 24 calculates an estimated value in a range from 0 to 1 based on the outputs of the first network 20, the second network 21, the third network 22, and the fourth network 23, which are the neural networks in the preceding stage, as a parameter. Let the learning unit 105 acquire it.
- the estimated value “1” (first value) indicates that it is a change area.
- the estimated value “0” (second value) indicates that it is not a change area.
- the parameter learning unit 105 acquires the estimated value output from the machine learning model 2.
- the parameter learning unit 105 derives an error between the label data indicating whether the area is a change area and the estimated value.
- the parameter learning unit 105 learns (updates) the parameters of the machine learning model 2 based on the comparison result (estimation error) between the estimated value and the label data.
- the parameter learning unit 105 updates the parameters of the model 2 based on the derived error. For example, the parameter learning unit 105 updates the parameters by an error back propagation method (Back Propagation) or the like.
- the parameter learning unit 105 outputs the model 2 whose parameters have been learned to the detection unit 11.
- the parameter learning unit 105 may determine, for each image block, whether or not the image block is a change area (difference) based on a comparison result between the estimated value output from the model 2 and a threshold. When the estimated value is equal to or larger than the threshold value, the parameter learning unit 105 determines that the image block is a change area. When the estimated value is smaller than the threshold value, the parameter learning unit 105 determines that the image block is not a change area. The parameter learning unit 105 uses the determination result instead of using the estimated value, and based on the error between the determination result indicating whether the image block is a changing area and the label data, and the model 2 of the machine learning. The parameters may be updated. That is, the parameter learning unit 105 may update the parameters of the machine learning model 2 when the determination result indicating whether or not the image block is a change area is different from the label data.
- the parameter learning unit 105 updates the parameters of the model 2 based on the encoded feature information input to the model 2, thereby reducing the degree to which the learning of the parameters of the model 2 depends on the image feature information (image characteristics). be able to. For example, an image block group having second image feature information is input to a model 2 in which parameters are learned using an image block group having first image feature information, and the model 2 calculates an estimated value for each image block. When outputting, if the encoded information feature input to the model 2 holds the second image feature information (image characteristics), the parameter learning unit 105 determines that the learning of the parameter of the model 2 is the first image feature. The degree of information dependence can be reduced. Thus, the difference detection device 1a can improve the accuracy of detecting a difference between the image having the first image feature information and the image having the second image feature information.
- the detecting unit 11 detects a difference (change area) between images representing the same space captured at different times using the learned model.
- the detection unit 11 includes an image decoding unit 111, an image division unit 112, an image feature generation unit 113, an encoded feature generation unit 114, and a difference detection unit 115.
- the configuration of the image decoding unit 111 is the same as the configuration of the image decoding unit 101.
- the image decoding unit 111 acquires a plurality of image streams to be detected (data including encoded images).
- the plurality of image streams are a stream of an image representing a space captured in a first time slot and a stream of an image representing the same space captured in a second time slot.
- the image decoding unit 111 decodes a group of image frames from the image stream.
- the image decoding unit 111 outputs the image frame group to the image dividing unit 112.
- the configuration of the image division unit 112 is the same as the configuration of the image division unit 102.
- the image dividing unit 112 acquires an image frame group from the image decoding unit 111.
- the image dividing unit 112 generates an image block group by dividing an image frame into image blocks of (N ⁇ N) size.
- the image division unit 112 outputs an image block group to the image feature generation unit 113 and the difference detection unit 115.
- the configuration of the image feature generation unit 113 is the same as the configuration of the image feature generation unit 103.
- the image feature generation unit 113 acquires the image block group from the image division unit 112.
- the image feature generation unit 113 generates image feature information for each image block.
- the image feature generation unit 113 outputs the image feature information to the difference detection unit 115 for each image block.
- the configuration of the encoding feature generation unit 114 is the same as the configuration of the encoding feature generation unit 104.
- the encoding feature generation unit 114 acquires one or more pieces of encoding information from the image decoding unit 111.
- the coding feature generation unit 114 generates coding feature information for each image block (aggregates them into image blocks).
- the encoding feature generation unit 114 outputs the encoding feature information to the difference detection unit 115 for each image block.
- the difference detection unit 115 acquires the learned model from the parameter learning unit 105.
- the difference detection unit 115 acquires an image block and image feature information and encoding feature information of the image block in a plurality of image streams to be detected for each image block representing the same space captured at different times. .
- the difference detection unit 115 inputs the image block and the image feature information and the encoded feature information of the image block to the machine learning model 2.
- the difference detection unit 115 acquires an estimated value (output value) output from the machine learning model 2.
- the difference detection unit 115 determines whether or not the image block is a change area based on the estimated value output from the machine learning model 2 and a threshold.
- the difference detection unit 115 outputs a determination result indicating whether the image block is a change area between images to a predetermined external device.
- FIG. 3 is a flowchart illustrating an operation example of the learning unit 10.
- the flowchart illustrated in FIG. 3 illustrates an operation example in which the learning unit 10 outputs the learned model 2 to the detection unit 11.
- the image decoding unit 101 acquires a plurality of image streams to be learned (step S101).
- the image decoding unit 101 decodes the image frame group from the image stream, and outputs the image frame group to the image division unit 102 (Step S102).
- the image decoding unit 101 acquires the encoded information from the image stream, and outputs it to the encoded feature generating unit 104 for each image stream to be learned (step S103).
- the image dividing unit 102 divides the image frame into image blocks of (N ⁇ N) size (Step S104).
- the image feature generation unit 103 generates image feature information for each image block (step S105).
- the coding feature generation unit 104 generates coding feature information for each image block of (N ⁇ N) size (step S106).
- the parameter learning unit 105 inputs the image block and the image feature information and the encoding feature information of the image block to the model 2 for each image block (Step S107).
- the parameter learning unit 105 updates the parameters of the model 2 based on the image block and the label data, the image feature information, and the encoded feature information of the image block (Step S108).
- the parameter learning unit 105 determines whether or not the parameters of the model 2 have been learned (whether or not the learned condition is satisfied). For example, when the model 2 learns parameters using a predetermined number or more of images, the parameter learning unit 105 determines that an error between the estimated value output from the model 2 and the label data (estimated error) is within a predetermined range. When the number of times is equal to or more than a certain number, it is determined that the parameters of the model 2 have been learned. When it is determined that the parameters of the model 2 have been learned, the parameter learning unit 105 ends the updating of the parameters of the model 2 (step S109). The parameter learning unit 105 outputs the learned model 2 to the difference detection unit 115 (Step S110).
- FIG. 4 is a flowchart illustrating an operation example of the detection unit 11.
- the flowchart illustrated in FIG. 4 illustrates an operation example of outputting an estimated value to the detection unit 11.
- the image decoding unit 111 acquires a plurality of image streams to be detected (Step S201).
- the image decoding unit 111 decodes the image frame group from the image stream, and outputs the image frame group to the image dividing unit 112 (Step S202).
- the image decoding unit 111 acquires the encoded information from the image stream, and outputs it to the encoded feature generating unit 114 for each image stream to be learned (Step S203).
- the image dividing unit 112 divides the image frame into image blocks of (N ⁇ N) size (Step S204).
- the image feature generation unit 113 generates image feature information for each image block (step S205).
- the encoding feature generation unit 114 generates encoding feature information for each (N ⁇ N) size image block (step S206).
- the difference detection unit 115 inputs the image block and the image feature information and the encoding feature information of the image block to the model 2 for each image block (step S207).
- the difference detection unit 115 acquires an estimated value (output value) in the range from 0 to 1 from the model 2 (step S208).
- the difference detection unit 115 detects a change area based on the estimated value. That is, the difference detection unit 115 determines, for each image block, whether or not the image block is a change area (difference), based on the comparison result between the estimated value output from the model 2 and the threshold. For example, when the estimated value is equal to or larger than the threshold value “0.5”, the difference detection unit 115 determines that the image block is a change area. When the estimated value is smaller than the threshold value “0.5”, the difference detection unit 115 determines that the image block is not a change area (Step S209).
- FIG. 5 is a flowchart illustrating an operation example of the image decoding unit 101.
- the image decoding unit 101 acquires a plurality of image streams to be learned (Step S301).
- the image decoding unit 101 decodes the image frame group from the image stream (Step S302).
- the image decoding unit 101 outputs the image frame group to the image dividing unit 102 (Step S303).
- the image decoding unit 101 outputs one or more pieces of encoded information to the encoded feature generating unit 104 for each image stream to be learned (step S304).
- FIG. 6 is a flowchart showing an operation example of the image division unit 102.
- the image dividing unit 102 acquires an image frame group from the image decoding unit 101 (Step S401).
- the image dividing unit 102 generates an image block group by dividing the image frame into image blocks of (N ⁇ N) size (Step S402).
- the image division unit 102 outputs the image block group to the image feature generation unit 103 and the parameter learning unit 105 (Step S403).
- FIG. 7 is a flowchart illustrating an operation example of the image feature generation unit 103.
- the image feature generation unit 103 acquires an image block group from the image division unit 102 (Step S501).
- the image feature generation unit 103 generates one or more pieces of image feature information for each image block.
- the image feature generation unit 103 generates four pieces of image feature information of 128 ⁇ 128 size for each image block of 256 ⁇ 256 size (step S502).
- the image feature generation unit 103 outputs one or more pieces of image feature information to the parameter learning unit 105 for each image block (step S503).
- FIG. 8 is a flowchart illustrating an operation example of the encoding feature generation unit 104.
- the encoding feature generation unit 104 acquires one or more pieces of encoding information from the image decoding unit 101 (Step S601).
- the encoding feature generation unit 104 generates one or more pieces of encoding feature information for each image block.
- the coding feature generation unit 104 generates four pieces of coding feature information having a size of 128 ⁇ 128 for each image block having a size of 256 ⁇ 256 (step S602).
- the encoding feature generation unit 104 outputs one or more pieces of encoding feature information to the parameter learning unit 105 for each image block (step S603).
- FIG. 9 is a flowchart showing an operation example of the parameter learning unit 105.
- the parameter learning unit 105 acquires an image block and image feature information and coding feature information of the image block in a plurality of image streams to be learned for each image block representing the same space photographed at different times. (Step S701).
- the parameter learning unit 105 acquires, from an external device or the like, label data indicating whether or not the area is a change area (difference) for each image block representing the same space photographed at different times (step S702).
- the ⁇ parameter learning unit 105 inputs the image block and the image feature information and the encoding feature information of the image block to the machine learning model 2 (step S703).
- the parameter learning unit 105 acquires the estimated value output from the machine learning model 2 (step S704).
- the parameter learning unit 105 determines whether the image block is a change area based on the estimated value and the threshold (Step S705).
- the parameter learning unit 105 derives an error between the label data and the determination result or the estimated value (Step S706).
- the parameter learning unit 105 updates the parameters of the model 2 based on the derived error (Step S707).
- the parameter learning unit 105 determines whether the parameters of the model 2 have been learned (whether or not the learned condition is satisfied) (step S708). If the parameters of the model 2 have not been learned (step S708: NO), the parameter learning unit 105 returns the process to step S703. When the parameters of the model 2 have been learned (step S708: YES), the parameter learning unit 105 outputs the learned model 2 to the difference detection unit 115 (step S709).
- FIG. 10 is a flowchart illustrating an operation example of the difference detection unit 115.
- the difference detection unit 115 acquires an image block and image feature information and encoding feature information of the image block in a plurality of image streams to be detected for each image block representing the same space captured at different times. (Step S801).
- the difference detection unit 115 inputs the image block and the image feature information and the encoding feature information of the image block to the learned model 2 (step S802).
- the difference detection unit 115 acquires an estimated value (output value) output from the learned model 2 (step S803).
- the difference detection unit 115 determines whether or not the image block is a change area based on the estimated value output from the learned model 2 and the threshold (step S804).
- the difference detection device 1a includes the difference detection unit 115.
- the difference detection unit 115 includes a first image block and a second image block (each of the learning target image blocks) representing substantially the same space photographed at different times, and encoding information of the first image block and the second image block.
- the encoded information is obtained from the data including the encoded first image block (first image stream) and the data including the encoded second image block (second image stream).
- Each of the decoding processes is executed in the order of, for example, a process of acquiring encoded information such as header information from an image stream, an inverse quantization process, and an inverse transform process.
- the encoding information may include image feature information.
- the encoded information is obtained from the data including the first image block being encoded (first image stream) and the data including the second image block being encoded (second image stream). May be information obtained after the conversion process (discrete cosine transform or the like) is performed in each of the coding processes performed on the image block and the second image block.
- Each of the encoding processes is executed in the order of, for example, a conversion process and a process of acquiring encoded information such as header information.
- the encoding information used for detecting the difference may be acquired when the encoding process is performed (during encoding).
- the difference detection device 1a of the first embodiment can improve the accuracy of detecting a difference between images.
- the process executed on the encoded image is, for example, a type of process (function) for extracting image feature information (image feature amount).
- the encoded feature information may include image feature information. That is, the difference detection device 1a not only uses the image data as the learning data, but also uses the encoded information as the learning data. The difference detection device 1a reliably uses the encoded information as learning data so that the encoded feature information that may be lost in machine learning is not lost in machine learning.
- the conventional threshold value used for determining whether or not the difference between the mask images is a change area needs to be adjusted in advance.
- Conventional thresholds may be different for each captured image. For this reason, the conventional threshold requires a high adjustment cost.
- the threshold value used by the difference detection device 1a is predetermined to a fixed value (for example, 0.5). Therefore, no adjustment cost is required for the threshold value used by the difference detection device 1a.
- the third image block and the fourth image block are image blocks generated by dividing an image frame (a frame relating to an image).
- the difference detection unit 115 detects a difference between a third image block and a fourth image block for each image block.
- the association is an association of the output values from the first network 20 to the fourth network 23 on which learning has been performed based on the first image block, the second image block, and the encoding information.
- the difference detection device 1a further includes a fifth network 24.
- the fifth network 24 approaches the first value (for example, 1) and outputs the first image block and the second image block.
- This is a neural network in a subsequent stage in which learning is performed such that an output value approaches a second value (for example, 0) when it is determined that there is no difference between the two images.
- the second embodiment is different from the first embodiment in that the encoded feature information is imaged. In the second embodiment, differences from the first embodiment will be described.
- FIG. 11 is a diagram illustrating a configuration example of the difference detection device 1b.
- the difference detection device 1b is an information processing device that detects a difference between images.
- the difference detection device 1b includes a learning unit 10 and a detection unit 11.
- the difference detection device 1b may further include a storage unit.
- the learning unit 10 includes an image decoding unit 101, an image division unit 102, an image feature generation unit 103, a parameter learning unit 105, and an encoded feature image generation unit 106.
- the coded feature imaging unit 106 includes the coded feature generation unit 104 and a conversion unit that converts coded information or coded feature information into an image format.
- the encoding feature imaging unit 106 acquires one or more pieces of encoding information from the image decoding unit 101 for each image block of (N ⁇ N) size.
- the encoding feature imaging unit 106 generates the encoding feature information for each (N ⁇ N) image block (aggregates them into image blocks).
- the encoded feature image conversion unit 106 generates an image having a size of 128 ⁇ 128 based on the encoded feature information.
- the coded feature imaging unit 106 generates four images of 128 ⁇ 128 size for each (N ⁇ N) size image block based on the four pieces of coded feature information.
- the encoded feature imaging unit 106 outputs the encoded feature information (hereinafter referred to as “encoded feature image”) to the parameter learning unit 105 for each image block.
- the parameter learning unit 105 acquires an image block, image feature information of the image block, and an encoded feature image of each of the plurality of image streams to be learned for each image block representing the same space photographed at different times. .
- the parameter learning unit 105 inputs the image block and the image feature information and the encoded feature image of the image block to the machine learning model 2. For example, the parameter learning unit 105 calculates the encoded feature image of the image block representing the space captured at time “A” and the encoded feature image of the image block representing the same space captured at time “B”. Input to the fourth network 23.
- the detection unit 11 includes an image decoding unit 111, an image division unit 112, an image feature generation unit 113, a difference detection unit 115, and an encoded feature image generation unit 116.
- the encoded feature imaging unit 116 includes an encoded feature generation unit 114 and a conversion unit that converts encoded information or encoded feature information into an image format.
- the encoding feature imaging unit 116 acquires one or more pieces of encoding information from the image decoding unit 111 for each (N ⁇ N) size image block.
- the encoding feature imaging unit 116 generates the encoding feature information for each (N ⁇ N) size image block (aggregates them into image blocks).
- the encoded feature imaging unit 116 images the encoded feature information.
- the encoded feature image conversion unit 116 outputs the encoded feature image to the difference detection unit 115 for each image block.
- the difference detection unit 115 acquires an image block, and image feature information and an encoded feature image of the image block in a plurality of image streams to be detected, for each image block representing the same space photographed at different times. .
- the difference detection unit 115 inputs the image block and the image feature information and the encoded feature image of the image block to the machine learning model 2. For example, the difference detection unit 115 calculates the encoded feature image of the image block representing the space captured at time “A” and the encoded feature image of the image block representing the same space captured at time “B”, Input to the fourth network 23.
- FIG. 12 is a flowchart illustrating an operation example of the encoding feature image conversion unit 106.
- the encoding feature imaging unit 106 acquires one or more pieces of encoding information from the image decoding unit 101 (Step S901).
- the encoded feature image generation unit 106 generates one or more encoded feature images for each image block.
- the coding feature generation unit 104 generates four coding feature images of a size of 128 ⁇ 128 for each image block of a size of 256 ⁇ 256 (step S902).
- the encoded feature image forming unit 106 outputs one or more encoded feature images to the parameter learning unit 105 for each image block (step S903).
- An operation example of the encoded characteristic image forming unit 116 is the same as the operation example of the encoded characteristic image forming unit 106.
- the encoded feature imaging unit 116 outputs one or more encoded feature images to the difference detection unit 115 for each image block.
- the difference detection device 1b further includes a conversion unit that converts encoded information into an image format.
- the difference detection unit 115 detects a difference between the third image block and the fourth image block based on the encoded information or the encoded feature information converted into the image format.
- the difference detection device 1b of the second embodiment inputs the image information generated from the encoded information to the convolutional neural network, so that it is possible to detect the difference in consideration of the spatial correlation of the encoded information, It is possible to further improve the accuracy of detecting differences between images.
- the difference detection device detects a difference between images representing the same space taken at different times, but the difference detection device detects images representing the same space taken at different times.
- a plurality of images other than the above may be acquired.
- the difference detection device may detect a difference between images irrespective of shooting times and shooting positions of a plurality of images.
- the image may be a still image.
- the difference detection device in the above-described embodiment may be realized by a computer.
- a program for realizing this function may be recorded on a computer-readable recording medium, and the program recorded on this recording medium may be read and executed by a computer system.
- the “computer system” includes an OS and hardware such as peripheral devices.
- the “computer-readable recording medium” refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, and a CD-ROM, and a storage device such as a hard disk built in a computer system.
- a "computer-readable recording medium” refers to a communication line for transmitting a program via a network such as the Internet or a communication line such as a telephone line, and dynamically holds the program for a short time.
- a program may include a program that holds a program for a certain period of time, such as a volatile memory in a computer system serving as a server or a client in that case.
- the program may be for realizing a part of the functions described above, or may be a program that can realize the functions described above in combination with a program already recorded in a computer system. It may be realized using a programmable logic device such as an FPGA (Field Programmable Gate Array).
- FPGA Field Programmable Gate Array
- the present invention is applicable to an image processing system.
- 1a, 1b Difference detection device
- 2 Model
- 11 Detection unit
- 20 First network
- 21 Second network
- 22 Third network
- 23 Fourth network
- 24 Fifth network
- 102 Image division unit
- 103 Image feature generation unit
- 104 Encoding feature generation unit
- 105 Parameter learning unit
- 106 Encoding feature image generation unit
- 111 Image decoding unit
- 112 Image division unit .., 113... Image feature generator, 114... Encoded feature generator, 115.
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
差異検出装置は、異なる時刻に撮影されたほぼ同一空間を表す第1の画像及び第2の画像と、第1の画像の符号化情報及び第2の画像の符号化情報との関連付けに基づいて、異なる時刻に撮影されたほぼ同一空間を表す第3の画像及び第4の画像の間の差異を検出する差異検出部を備え、符号化情報は、符号化された第1の画像を含むデータと符号化された第2の画像を含むデータとから、第1の画像及び第2の画像に対して実行された各復号処理において逆変換処理が実行される前に取得された情報である。
Description
本発明は、差異検出装置及び差異検出プログラムに関する。
近年、異なる時刻に撮影された同一空間を表す画像間の差異を検出する技術が注目されている。例えば、地上に新規の建造物や道路が造られた場合、人工衛星等から撮影された新規の建造物等の画像は、画像間の差異(変化領域)として検出される。撮影された地上の画像に基づいて地図が更新される場合、撮影された地上の大量の画像群を人が比較し、地上に造られた新規の建造物等の画像を人が検出する場合がある。
しかしながら、大量の画像間の差異を人が検出する場合、時間及び人件費に関して高いコストが必要となる。そこで、画像間の差異を差異検出装置がニューラルネットワークを用いて検出する技術が提案されている(非特許文献1参照)。
非特許文献1に提案された方法では、異なる時刻に撮影された同一空間を表す2枚の画像における、建造物、植生及び道路の画像を、建造物クラス、植生クラス及び道路クラスのそれぞれに差異検出装置が分類する。差異検出装置は、建造物クラスに分類された画像に基づいて、建造物のマスク画像を生成する。差異検出装置は、撮影された2枚の画像における建造物のマスク画像の差分を検出することによって、新規の建造物の画像を検出する。
このように、差異検出装置は、撮影された2枚の画像に対してセグメンテーション処理を実行することによって、撮影された画像ごとにマスク画像を生成する。差異検出装置は、撮影された2枚の画像におけるマスク画像の差分に基づいて、画像間の差異(変化領域)を検出する。
田代、外6名、「植生・道路領域除去による空撮画像間の変化検出の精度向上」、電子情報通信学会 総合大会、D-11-37、2018.
しかしながら、従来の差異検出装置は、撮影された画像のみをニューラルネットワークに入力しており、ニューラルネットワークから出力された画像特徴以外の情報を、差異を検出する処理に使用していない。言い換えると、学習データとして用いられる画像群ごとにどのような特徴を抽出するよう学習されるかは不明である。このため、従来の差異検出装置は、画像間の差異を検出する精度を向上させることができないという問題があった。
上記事情に鑑み、本発明は、画像間の差異を検出する精度を向上させることが可能である差異検出装置及び差異検出プログラムを提供することを目的としている。
本発明の一態様は、異なる時刻に撮影されたほぼ同一空間を表す第1の画像及び第2の画像と、前記第1の画像の符号化情報及び前記第2の画像の符号化情報との関連付けに基づいて、異なる時刻に撮影されたほぼ同一空間を表す第3の画像及び第4の画像の間の差異を検出する差異検出部を備え、前記符号化情報は、符号化された前記第1の画像を含むデータと符号化された前記第2の画像を含むデータとから、前記第1の画像及び前記第2の画像に対して実行された各復号処理において逆変換処理が実行される前に取得された情報である、差異検出装置である。
本発明の一態様は、上記の差異検出装置であって、前記第3の画像及び前記第4の画像は、画像に関するフレームを分割するブロックであり、前記差異検出部は、前記フレームについて、前記第3の画像及び前記第4の画像の間の差異を前記ブロックごとに検出する。
本発明の一態様は、上記の差異検出装置であって、前記関連付けは、前記第1の画像と前記第2の画像と前記符号化情報とのいずれかに基づいて学習が実行された前段の各ニューラルネットワークの出力値の関連付けである。
本発明の一態様は、上記の差異検出装置であって、前記第1の画像及び前記第2の画像の間に差異があると判定された場合に前記出力値が第1の値に近づき、前記第1の画像及び前記第2の画像の間に差異がないと判定された場合に前記出力値が第2の値に近づくように学習が実行された後段のニューラルネットワークを更に備える。
本発明の一態様は、上記の差異検出装置であって、前記符号化情報は、符号量と、イントラ予測モードと、変換係数と、画像に関する特徴とのいずれかの情報である。
本発明の一態様は、上記の差異検出装置であって、前記符号化情報を画像形式に変換する変換部を更に備え、前記差異検出部は、画像形式に変換された前記符号化情報に基づいて、前記第3の画像及び前記第4の画像の間の差異を検出する。
本発明の一態様は、異なる時刻に撮影されたほぼ同一空間を表す第1の画像及び第2の画像と、前記第1の画像の符号化情報及び前記第2の画像の符号化情報との関連付けに基づいて、異なる時刻に撮影されたほぼ同一空間を表す第3の画像及び第4の画像の間の差異を検出する差異検出部を備え、前記符号化情報は、符号中の前記第1の画像を含むデータと符号化中の前記第2の画像を含むデータとから、前記第1の画像及び前記第2の画像に対して実行された符号化処理において変換処理が実行された後に取得された情報である、差異検出装置である。
本発明の一態様は、上記の差異検出装置としてコンピュータを機能させるための差異検出プログラムである。
本発明により、画像間の差異を検出する精度を向上させることが可能である。
本発明の実施形態について、図面を参照して詳細に説明する。
(第1実施形態)
図1は、差異検出装置1aの構成例を示す図である。差異検出装置1aは、画像間の差異を検出する情報処理装置である。画像は、例えば、人工衛星等によって上空から撮影された地上を表す画像である。画像間の差異は、例えば、異なる時刻に撮影されたほぼ同一空間を表す画像間の差異(変化領域)である。
(第1実施形態)
図1は、差異検出装置1aの構成例を示す図である。差異検出装置1aは、画像間の差異を検出する情報処理装置である。画像は、例えば、人工衛星等によって上空から撮影された地上を表す画像である。画像間の差異は、例えば、異なる時刻に撮影されたほぼ同一空間を表す画像間の差異(変化領域)である。
差異検出装置1aは、学習部10と、検出部11とを備える。差異検出装置1aは、記憶部を更に備えてもよい。学習部10及び検出部11の一部又は全部は、CPU(Central Processing Unit)等のプロセッサが、記憶部に記憶されたプログラムを実行することにより実現される。学習部10及び検出部11の各機能部のうち一部又は全部は、例えば、LSI(Large Scale Integration)やASIC(Application Specific Integrated Circuit)等のハードウェアを用いて実現されてもよい。
記憶部は、例えばフラッシュメモリ、HDD(Hard Disk Drive)などの不揮発性の記録媒体(非一時的な記録媒体)が好ましい。記憶部は、RAM(Random Access Memory)などの揮発性の記録媒体を備えてもよい。記憶部は、例えば、深層学習等の機械学習のモデルのデータ、プログラムを記憶する。
学習部10は、深層学習等の機械学習によってモデルのパラメータを学習する。学習部10は、画像復号部101と、画像分割部102と、画像特徴生成部103と、符号化特徴生成部104と、パラメータ学習部105とを備える。
画像復号部101は、学習対象の複数の画像ストリームを取得する。画像ストリームは、動画像のストリームである。画像復号部101は、画像フレーム群を画像ストリームから復号する。画像復号部101は、画像フレーム群を画像分割部102に出力する。
画像ストリームは、符号化された画像群を含むデータであり、例えば、異なる時刻の同一空間が撮影された画像群のストリームである。画像ストリームは、例えば、H.265/HEVC(High Efficiency Video Coding)、JPEG(Joint Photographic Experts Group)等のアルゴリズムを用いて符号化された画像のストリームである。以下、画像ストリームは、一例として、H.265/HEVCのアルゴリズムを用いて符号化された画像のストリームである。
画像復号部101は、1以上の符号化情報(符号化情報の集合)を、学習対象の画像ストリームごとに、学習対象の画像ストリームから取得する。例えば、画像復号部101は、1以上の符号化情報を、学習対象の画像ストリームのヘッダから取得する。画像復号部101は、1以上の符号化情報を、学習対象の画像ストリームごとに符号化特徴生成部104に出力する。
符号化情報は、画像ストリームの符号化に関する情報であり、例えば、画像の符号量の情報、画像フレームの符号化モード(例えば、イントラ予測モード)の情報、変換係数の情報と、変換係数のうちの有意な係数の個数の情報と、画像に関する特徴情報(例えば、空間周波数)の情報である。
上空から撮影された過去の画像において更地であった領域の符号量は、未来の画像においてその領域に建造物等が存在した場合、その領域の符号量は建造物等のエッジやテクスチャに応じて過去の画像と比較して増加する場合がある。このため、新規の建造物の画像(変化領域)を差異検出部115が検出する場合、符号化情報は、例えば符号量の情報である。
太陽光パネルの画像は、特定の模様パターン(太陽光パネルの模様の繰り返し)で表される。地上の草の画像は、特定の模様パターンでは表されないことが多い。このため、地上に造られた太陽光パネルに生えた草の画像(変化領域)を差異検出部115が検出する場合、符号化情報は、イントラ予測モード等の符号化モードの情報である。なお、これらは一例である。符号化情報は、複数の種類の情報の組み合わせでもよい。例えば、符号化情報は、符号量の情報と符号化モードの情報との組み合わせでもよい。なお、符号化情報は、画像の特徴を表す情報(以下「画像特徴情報」という。)を含んでもよい。
画像分割部102は、画像フレーム群を画像復号部101から取得する。画像分割部102は、画像フレームを(N×N)のサイズの画像ブロックに分割することによって、画像ブロック群を生成する。Nは、2以上の整数(画素数)であり、例えば256である。
画像分割部102は、画像ブロックが互いに重ならないように、画像フレームを画像ブロックに分割する。画像分割部102は、画像特徴生成部103及びパラメータ学習部105に、画像ブロック群を出力する。
画像分割部102は、画像ブロックが互いに重ならないように、画像フレームを画像ブロックに分割する。画像分割部102は、画像特徴生成部103及びパラメータ学習部105に、画像ブロック群を出力する。
画像ブロック群は、撮影された時刻の情報と、撮影された地上等の位置の情報を含む。
これによって、複数の画像ストリームは、時刻の情報と位置の情報とに基づいて、互いに対応付けられる。
これによって、複数の画像ストリームは、時刻の情報と位置の情報とに基づいて、互いに対応付けられる。
画像特徴生成部103は、画像ブロック群を画像分割部102から取得する。画像特徴生成部103は、画像特徴情報を画像ブロックごとに生成する。画像の特徴は、例えば、画像ブロックの各画素値(各電力値)が離散コサイン変換(変換処理)された結果である周波数、画像ブロックごとのローカル・バイナリ・パターン(LBP: Local Binary Pattern)等の特徴ベクトルである。画像特徴生成部103は、画像特徴情報を画像ブロックごとに、パラメータ学習部105に出力する。
画像特徴情報は、撮影された時刻の情報と、撮影された地上等の位置の情報を含む。複数の画像ストリームの各画像特徴情報は、時刻の情報と位置の情報とに基づいて、互いに対応付けられる。
符号化特徴生成部104は、1以上の符号化情報を、画像復号部101から取得する。
以下、1以上の符号化情報の特徴を表す情報を「符号化特徴情報」という。符号化特徴生成部104は、符号化特徴情報を画像ブロックごとに生成(画像ブロックに集約)する。
例えば、(N×N)(=256×256)のサイズの画像ブロックに対して、128×128のサイズごとに符号化特徴情報が生成される場合、画像ブロックごとの符号化特徴情報は、4個の符号化情報(例えば、符号量の情報)を含む特徴ベクトル(4次元の特徴ベクトル)である。画像ブロックごとの符号化特徴情報は、4個の符号量の平均値の情報(1次元の特徴ベクトル)でもよい。符号化特徴生成部104は、符号化特徴情報を画像ブロックごとに、パラメータ学習部105に出力する。
以下、1以上の符号化情報の特徴を表す情報を「符号化特徴情報」という。符号化特徴生成部104は、符号化特徴情報を画像ブロックごとに生成(画像ブロックに集約)する。
例えば、(N×N)(=256×256)のサイズの画像ブロックに対して、128×128のサイズごとに符号化特徴情報が生成される場合、画像ブロックごとの符号化特徴情報は、4個の符号化情報(例えば、符号量の情報)を含む特徴ベクトル(4次元の特徴ベクトル)である。画像ブロックごとの符号化特徴情報は、4個の符号量の平均値の情報(1次元の特徴ベクトル)でもよい。符号化特徴生成部104は、符号化特徴情報を画像ブロックごとに、パラメータ学習部105に出力する。
パラメータ学習部105は、学習対象の複数の画像ストリームにおける、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、異なる時刻に撮影された同一空間を表す画像ブロックごとに取得する。
パラメータ学習部105は、変化領域(差異)であるか否かを表すラベルデータを、異なる時刻に撮影された同一空間を表す画像ブロックごとに外部装置等から取得する。例えば、ラベルデータ「1」は変化領域であることを表す。ラベルデータ「0」は変化領域でないことを表す。パラメータ学習部105は、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、機械学習のモデルに入力する。
図2は、深層学習等の機械学習のモデル2の構成例を示す図である。モデル2は、ディープニューラルネットワーク(Deep Neural Network)等の機械学習のモデルであり、図2では、一例として、畳み込みニューラルネットワーク(CNN: Convolutional Neural Network)である。モデル2は、変化領域の推定に使用される。モデル2は、例えば、差異検出装置1aの記憶部に記憶される。この記憶部は、例えば、パラメータ学習部105に備えられる。
モデル2は、第1ネットワーク20と、第2ネットワーク21と、第3ネットワーク22と、第4ネットワーク23と、第5ネットワーク24とを備える。第1ネットワーク20は、畳み込み層(Covolution Layer)とプーリング層(Pooling Layer)との重ね合わせを有する。パラメータ学習部105は、時刻「A」に撮影された空間を表す画像ブロックを、第1ネットワーク20に入力する。第1ネットワーク20は、時刻「A」に撮影された画像ブロックに対して、畳み込み層とプーリング層とを用いた学習を繰り返し実行する。
第2ネットワーク21は、畳み込み層とプーリング層との重ね合わせを有する。パラメータ学習部105は、時刻「B」に撮影された同一空間を表す画像ブロックを、第2ネットワーク21に入力する。第2ネットワーク21は、時刻「B」に撮影された同一空間を表す画像ブロックに対して、畳み込み層とプーリング層とを用いた学習(例えば、畳み込み演算)を繰り返し実行する。
第3ネットワーク22は、畳み込み層とプーリング層との重ね合わせを有する。パラメータ学習部105は、時刻「A」に撮影された空間を表す画像ブロックの画像特徴情報と、時刻「B」に撮影された同一空間を表す画像ブロックの画像特徴情報とを、第3ネットワーク22に入力する。第3ネットワーク22は、時刻「A」に撮影された空間を表す画像ブロックの画像特徴情報と、時刻「B」に撮影された同一空間を表す画像ブロックの画像特徴情報とに対して、畳み込み層とプーリング層とを用いた学習を繰り返し実行する。
第4ネットワーク23は、畳み込み層とプーリング層との重ね合わせを有する。パラメータ学習部105は、時刻「A」に撮影された空間を表す画像ブロックの符号化特徴情報と、時刻「B」に撮影された同一空間を表す画像ブロックの符号化特徴情報とを、第4ネットワーク23に入力する。第4ネットワーク23は、時刻「A」に撮影された空間を表す画像ブロックの符号化特徴情報と、時刻「B」に撮影された同一空間を表す画像ブロックの符号化特徴情報とに対して、畳み込み層とプーリング層とを用いた学習を繰り返し実行する。
このようにして、パラメータ学習部105は、第1ネットワーク20の出力と、第2ネットワーク21の出力と、第3ネットワーク22の出力と、第4ネットワーク23の出力とを関連付ける。言い換えると、時刻A、Bにおける差異の有無に応じた画像の特徴の差異と符号化情報の差異とを関連付けることを狙う。
第5ネットワーク24(後段のニューラルネットワーク)は、第1ネットワーク20、第2ネットワーク21、第3ネットワーク22及び第4ネットワーク23の各出力の結合層(全結合層)である。第5ネットワーク24は、前段のニューラルネットワークである第1ネットワーク20、第2ネットワーク21、第3ネットワーク22及び第4ネットワーク23の各出力に基づいて、0から1までの範囲の推定値を、パラメータ学習部105に取得させる。推定値「1」(第1の値)は変化領域であることを表す。推定値「0」(第2の値)は変化領域でないことを表す。これらの対応関係は一例である。
パラメータ学習部105は、機械学習のモデル2から出力された推定値を取得する。パラメータ学習部105は、変化領域であるか否かを表すラベルデータと推定値との誤差を導出する。パラメータ学習部105は、推定値とラベルデータとの比較結果(推定誤差)に基づいて、機械学習のモデル2のパラメータを学習(更新)する。パラメータ学習部105は、導出された誤差に基づいて、モデル2のパラメータを更新する。例えば、パラメータ学習部105は、誤差逆伝播法(バック・プロパゲーション:Back Propagation)等でパラメータを更新する。パラメータ学習部105は、パラメータが学習済であるモデル2を、検出部11に出力する。
なお、パラメータ学習部105は、モデル2の出力である推定値と閾値との比較結果に基づいて、画像ブロックが変化領域(差異)であるか否かを画像ブロックごとに判定してもよい。パラメータ学習部105は、推定値が閾値以上である場合、画像ブロックが変化領域であると判定する。パラメータ学習部105は、推定値が閾値未満である場合、画像ブロックが変化領域でないと判定する。パラメータ学習部105は、推定値を使用する代わりに判定結果を使用して、画像ブロックが変化領域であるか否かを表す判定結果とラベルデータとの誤差に基づいて、機械学習のモデル2のパラメータを更新してもよい。すなわち、パラメータ学習部105は、画像ブロックが変化領域であるか否かを表す判定結果とラベルデータとが異なった場合、機械学習のモデル2のパラメータを更新してもよい。
パラメータ学習部105は、モデル2に入力された符号化特徴情報に基づいてモデル2のパラメータを更新することによって、モデル2のパラメータの学習が画像特徴情報(画像特性)に依存する度合いを減少させることができる。例えば、第1の画像特徴情報を有する画像ブロック群を用いてパラメータが学習されたモデル2に、第2の画像特徴情報を有する画像ブロック群が入力され、モデル2が推定値を画像ブロックごとに出力する場合、モデル2に入力された符号化情報特徴が第2の画像特徴情報(画像特性)を保持していれば、パラメータ学習部105は、モデル2のパラメータの学習が第1の画像特徴情報に依存する度合いを減少させることができる。これによって、差異検出装置1aは、第1の画像特徴情報を有する画像と第2の画像特徴情報を有する画像との間の差異を検出する精度を向上させることが可能である。
図1に戻り、差異検出装置1aの構成例の説明を続ける。検出部11は、学習済であるモデルを用いて、異なる時刻に撮影された同一空間を表す画像間の差異(変化領域)を検出する。検出部11は、画像復号部111と、画像分割部112と、画像特徴生成部113と、符号化特徴生成部114と、差異検出部115とを備える。
画像復号部111の構成は、画像復号部101の構成と同様である。画像復号部111は、検出対象の複数の画像ストリーム(符号化された画像を含むデータ)を取得する。複数の画像ストリームは、第1時間帯に撮影された空間を表す画像のストリームと、第2時間帯に撮影された同一空間を表す画像のストリームとである。画像復号部111は、画像フレーム群を画像ストリームから復号する。画像復号部111は、画像フレーム群を画像分割部112に出力する。
画像分割部112の構成は、画像分割部102の構成と同様である。画像分割部112は、画像フレーム群を画像復号部111から取得する。画像分割部112は、画像フレームを(N×N)のサイズの画像ブロックに分割することによって、画像ブロック群を生成する。画像分割部112は、画像特徴生成部113及び差異検出部115に、画像ブロック群を出力する。
画像特徴生成部113の構成は、画像特徴生成部103の構成と同様である。画像特徴生成部113は、画像ブロック群を画像分割部112から取得する。画像特徴生成部113は、画像特徴情報を画像ブロックごとに生成する。画像特徴生成部113は、画像特徴情報を画像ブロックごとに、差異検出部115に出力する。
符号化特徴生成部114の構成は、符号化特徴生成部104の構成と同様である。符号化特徴生成部114は、1以上の符号化情報を、画像復号部111から取得する。符号化特徴生成部114は、符号化特徴情報を画像ブロックごとに生成(画像ブロックに集約)する。符号化特徴生成部114は、符号化特徴情報を画像ブロックごとに、差異検出部115に出力する。
差異検出部115は、学習済であるモデルを、パラメータ学習部105から取得する。
差異検出部115は、検出対象の複数の画像ストリームにおける、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、異なる時刻に撮影された同一空間を表す画像ブロックごとに取得する。
差異検出部115は、検出対象の複数の画像ストリームにおける、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、異なる時刻に撮影された同一空間を表す画像ブロックごとに取得する。
差異検出部115は、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、機械学習のモデル2に入力する。差異検出部115は、機械学習のモデル2から出力された推定値(出力値)を取得する。差異検出部115は、その画像ブロックが変化領域であるか否かを、機械学習のモデル2から出力された推定値と閾値とに基づいて判定する。差異検出部115は、画像ブロックが画像間の変化領域であるか否かを表す判定結果を、所定の外部装置に出力する。
次に、差異検出装置1aの動作例を説明する。
図3は、学習部10の動作例を示すフローチャートである。図3に示されたフローチャートは、学習済であるモデル2を学習部10が検出部11に出力する動作例を示す。
図3は、学習部10の動作例を示すフローチャートである。図3に示されたフローチャートは、学習済であるモデル2を学習部10が検出部11に出力する動作例を示す。
画像復号部101は、学習対象の複数の画像ストリームを取得する(ステップS101)。画像復号部101は、画像フレーム群を画像ストリームから復号し、画像フレーム群を画像分割部102に出力する(ステップS102)。画像復号部101は、符号化情報を画像ストリームから取得し、学習対象の画像ストリームごとに符号化特徴生成部104に出力する(ステップS103)。画像分割部102は、画像フレームを(N×N)のサイズの画像ブロックに分割する(ステップS104)。画像特徴生成部103は、画像特徴情報を画像ブロックごとに生成する(ステップS105)。
符号化特徴生成部104は、符号化特徴情報を(N×N)のサイズの画像ブロックごとに生成する(ステップS106)。パラメータ学習部105は、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、画像ブロックごとにモデル2に入力する(ステップS107)。パラメータ学習部105は、画像ブロックと、その画像ブロックのラベルデータ、画像特徴情報及び符号化特徴情報とに基づいて、モデル2のパラメータを更新する(ステップS108)。
パラメータ学習部105は、モデル2のパラメータが学習済になったか否か(学習済の条件を満たすか否か)を判定する。例えば、パラメータ学習部105は、所定枚数以上の画像を用いてモデル2がパラメータを学習した場合において、モデル2の出力である推定値とラベルデータとの誤差(推定誤差)が所定範囲内である回数が一定回数以上となった場合、モデル2のパラメータが学習済になったと判定する。パラメータ学習部105は、モデル2のパラメータが学習済になったと判定された場合、モデル2のパラメータの更新を終了する(ステップS109)。パラメータ学習部105は、学習済であるモデル2を差異検出部115に出力する(ステップS110)。
図4は、検出部11の動作例を示すフローチャートである。図4に示されたフローチャートは、検出部11に推定値を出力する動作例を示す。
画像復号部111は、検出対象の複数の画像ストリームを取得する(ステップS201)。画像復号部111は、画像フレーム群を画像ストリームから復号し、画像フレーム群を画像分割部112に出力する(ステップS202)。画像復号部111は、符号化情報を画像ストリームから取得し、学習対象の画像ストリームごとに符号化特徴生成部114に出力する(ステップS203)。画像分割部112は、画像フレームを(N×N)のサイズの画像ブロックに分割する(ステップS204)。画像特徴生成部113は、画像特徴情報を画像ブロックごとに生成する(ステップS205)。
符号化特徴生成部114は、符号化特徴情報を(N×N)のサイズの画像ブロックごとに生成する(ステップS206)。差異検出部115は、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、画像ブロックごとにモデル2に入力する(ステップS207)。
差異検出部115は、0から1までの範囲の推定値(出力値)を、モデル2から取得する(ステップS208)。差異検出部115は、推定値に基づいて変化領域を検出する。
すなわち、差異検出部115は、画像ブロックが変化領域(差異)であるか否かを、モデル2の出力である推定値と閾値との比較結果に基づいて、画像ブロックごとに判定する。
例えば、差異検出部115は、推定値が閾値「0.5」以上である場合、画像ブロックが変化領域であると判定する。差異検出部115は、推定値が閾値「0.5」未満である場合、画像ブロックが変化領域でないと判定する(ステップS209)。
すなわち、差異検出部115は、画像ブロックが変化領域(差異)であるか否かを、モデル2の出力である推定値と閾値との比較結果に基づいて、画像ブロックごとに判定する。
例えば、差異検出部115は、推定値が閾値「0.5」以上である場合、画像ブロックが変化領域であると判定する。差異検出部115は、推定値が閾値「0.5」未満である場合、画像ブロックが変化領域でないと判定する(ステップS209)。
次に、学習部10の動作例の詳細を説明する。
図5は、画像復号部101の動作例を示すフローチャートである。画像復号部101は、学習対象の複数の画像ストリームを取得する(ステップS301)。画像復号部101は、画像フレーム群を画像ストリームから復号する(ステップS302)。画像復号部101は、画像フレーム群を画像分割部102に出力する(ステップS303)。画像復号部101は、1以上の符号化情報を、学習対象の画像ストリームごとに符号化特徴生成部104に出力する(ステップS304)。
図5は、画像復号部101の動作例を示すフローチャートである。画像復号部101は、学習対象の複数の画像ストリームを取得する(ステップS301)。画像復号部101は、画像フレーム群を画像ストリームから復号する(ステップS302)。画像復号部101は、画像フレーム群を画像分割部102に出力する(ステップS303)。画像復号部101は、1以上の符号化情報を、学習対象の画像ストリームごとに符号化特徴生成部104に出力する(ステップS304)。
図6は、画像分割部102の動作例を示すフローチャートである。画像分割部102は、画像フレーム群を画像復号部101から取得する(ステップS401)。画像分割部102は、画像フレームを(N×N)のサイズの画像ブロックに分割することによって、画像ブロック群を生成する(ステップS402)。画像分割部102は、画像特徴生成部103及びパラメータ学習部105に、画像ブロック群を出力する(ステップS403)。
図7は、画像特徴生成部103の動作例を示すフローチャートである。画像特徴生成部103は、画像ブロック群を画像分割部102から取得する(ステップS501)。画像特徴生成部103は、1以上の画像特徴情報を、画像ブロックごとに生成する。例えば、画像特徴生成部103は、128×128のサイズの4個の画像特徴情報を、256×256のサイズの画像ブロックごとに生成する(ステップS502)。画像特徴生成部103は、1以上の画像特徴情報を画像ブロックごとに、パラメータ学習部105に出力する(ステップS503)。
図8は、符号化特徴生成部104の動作例を示すフローチャートである。符号化特徴生成部104は、1以上の符号化情報を、画像復号部101から取得する(ステップS601)。符号化特徴生成部104は、1以上の符号化特徴情報を、画像ブロックごとに生成する。例えば、符号化特徴生成部104は、128×128のサイズの4個の符号化特徴情報を、256×256のサイズの画像ブロックごとに生成する(ステップS602)。
符号化特徴生成部104は、1以上の符号化特徴情報を画像ブロックごとに、パラメータ学習部105に出力する(ステップS603)。
符号化特徴生成部104は、1以上の符号化特徴情報を画像ブロックごとに、パラメータ学習部105に出力する(ステップS603)。
図9は、パラメータ学習部105の動作例を示すフローチャートである。パラメータ学習部105は、学習対象の複数の画像ストリームにおける、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、異なる時刻に撮影された同一空間を表す画像ブロックごとに取得する(ステップS701)。パラメータ学習部105は、変化領域(差異)であるか否かを表すラベルデータを、異なる時刻に撮影された同一空間を表す画像ブロックごとに外部装置等から取得する(ステップS702)。
パラメータ学習部105は、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、機械学習のモデル2に入力する(ステップS703)。パラメータ学習部105は、機械学習のモデル2から出力された推定値を取得する(ステップS704)。パラメータ学習部105は、その画像ブロックが変化領域であるか否かを、推定値及び閾値に基づいて判定する(ステップS705)。パラメータ学習部105は、ラベルデータと判定結果又は推定値との誤差を導出する(ステップS706)。パラメータ学習部105は、モデル2のパラメータを、導出された誤差に基づいて更新する(ステップS707)。
パラメータ学習部105は、モデル2のパラメータが学習済になったか否か(学習済の条件を満たすか否か)を判定する(ステップS708)。モデル2のパラメータが学習済になっていない場合(ステップS708:NO)、パラメータ学習部105は、ステップS703に処理を戻す。モデル2のパラメータが学習済になった場合(ステップS708:YES)、パラメータ学習部105は、学習済であるモデル2を差異検出部115に出力する(ステップS709)。
次に、検出部11の動作例の詳細を説明する。
図10は、差異検出部115の動作例を示すフローチャートである。差異検出部115は、検出対象の複数の画像ストリームにおける、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、異なる時刻に撮影された同一空間を表す画像ブロックごとに取得する(ステップS801)。
図10は、差異検出部115の動作例を示すフローチャートである。差異検出部115は、検出対象の複数の画像ストリームにおける、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、異なる時刻に撮影された同一空間を表す画像ブロックごとに取得する(ステップS801)。
差異検出部115は、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴情報とを、学習済であるモデル2に入力する(ステップS802)。差異検出部115は、学習済であるモデル2から出力された推定値(出力値)を取得する(ステップS803)。差異検出部115は、その画像ブロックが変化領域であるか否かを、学習済であるモデル2から出力された推定値と閾値とに基づいて判定する(ステップS804)。
以上のように、第1実施形態の差異検出装置1aは、差異検出部115を備える。差異検出部115は、異なる時刻に撮影されたほぼ同一空間を表す第1の画像ブロック及び第2の画像ブロック(学習対象の各画像ブロック)と、第1の画像ブロックの符号化情報及び第2の画像ブロックの符号化情報との関連付けに基づいて、異なる時刻に撮影されたほぼ同一空間を表す第3の画像ブロック及び第4の画像ブロック(検出対象の各画像ブロック)の間の差異を検出する。符号化情報は、符号化された第1の画像ブロックを含むデータ(第1の画像ストリーム)と、符号化された第2の画像ブロックを含むデータ(第2の画像ストリーム)とから、第1の画像ブロック及び第2の画像ブロックに対して実行された各復号処理において逆変換処理(逆離散コサイン変換等)が実行される前に取得された情報である。この各復号処理は、例えば、ヘッダ情報等である符号化情報を画像ストリームから取得する処理と、逆量子化処理と、逆変換処理との順に実行される。符号化情報は、画像特徴情報を含んでもよい。符号化情報は、符号化中の第1の画像ブロックを含むデータ(第1の画像ストリーム)と、符号化中の第2の画像ブロックを含むデータ(第2の画像ストリーム)とから、第1の画像ブロック及び第2の画像ブロックに対して実行された各符号化処理において変換処理(離散コサイン変換等)が実行された後に取得された情報でもよい。この各符号化処理は、例えば、変換処理と、ヘッダ情報等である符号化情報を取得する処理との順に実行される。このように、差異の検出に使用される符号化情報は、符号化処理が実行される際(符号化中)に取得されてもよい。
これによって、第1実施形態の差異検出装置1aは、画像間の差異を検出する精度を向上させることが可能である。
各実施形態では、符号化された画像に対して実行される処理は、例えば、画像特徴情報(画像の特徴量)を抽出する処理(関数)の一種である。符号化特徴情報は、画像特徴情報を含んでもよい。つまり、差異検出装置1aは、画像データを学習データとして用いるだけでなく、符号化情報も学習データとして用いる。差異検出装置1aは、機械学習において失われる場合がある符号化特徴情報が機械学習において失われないように、符号化情報も学習データとして確実に用いる。
マスク画像の差分が変化領域であるか否かの判定に使用される従来の閾値は、予め調整されている必要がある。従来の閾値は、撮影された画像ごとに異なる可能性がある。このため、従来の閾値には、高い調整コストが必要である。これに対して、差異検出装置1aが使用する閾値は、一定値(例えば、0.5)に予め定められる。このため、差異検出装置1aが使用する閾値には、調整コストが不要である。
第3の画像ブロック及び第4の画像ブロックは、画像フレーム(画像に関するフレーム)が分割されたことによって生成された画像ブロックである。差異検出部115は、画像フレームについて、第3の画像ブロック及び第4の画像ブロックの間の差異を、画像ブロックごとに検出する。関連付けは、第1の画像ブロックと第2の画像ブロックと符号化情報とに基づいて学習が実行された第1ネットワーク20から第4ネットワーク23までの出力値の関連付けである。
第1実施形態の差異検出装置1aは、第5ネットワーク24を更に備える。第5ネットワーク24は、第1の画像ブロック及び第2の画像ブロックの間に差異があると判定された場合に出力値が第1の値(例えば、1)に近づき、第1の画像及び第2の画像の間に差異がないと判定された場合に出力値が第2の値(例えば、0)に近づくように学習が実行された後段のニューラルネットワークである。
(第2実施形態)
第2実施形態では、符号化特徴情報が画像化される点が、第1実施形態と相違する。第2実施形態では、第1実施形態との相違点を説明する。
第2実施形態では、符号化特徴情報が画像化される点が、第1実施形態と相違する。第2実施形態では、第1実施形態との相違点を説明する。
図11は、差異検出装置1bの構成例を示す図である。差異検出装置1bは、画像間の差異を検出する情報処理装置である。差異検出装置1bは、学習部10と、検出部11とを備える。差異検出装置1bは、記憶部を更に備えてもよい。学習部10は、画像復号部101と、画像分割部102と、画像特徴生成部103と、パラメータ学習部105と、符号化特徴画像化部106とを備える。符号化特徴画像化部106は、符号化特徴生成部104と、符号化情報又は符号化特徴情報を画像形式に変換する変換部とを備える。
符号化特徴画像化部106は、1以上の符号化情報を、(N×N)のサイズの画像ブロックごとに画像復号部101から取得する。符号化特徴画像化部106は、符号化特徴情報を、(N×N)のサイズの画像ブロックごとに生成(画像ブロックに集約)する。符号化特徴画像化部106は、符号化特徴情報を画像化(画像の形式に変換)する。例えば、(N×N)(=256×256)のサイズの画像ブロックに対して、128×128のサイズごとに符号化特徴情報が生成される場合、符号化特徴画像化部106は、128×128のサイズごとに符号化特徴情報を画像化する。すなわち、符号化特徴画像化部106は、128×128のサイズの画像を、符号化特徴情報に基づいて生成する。この場合、符号化特徴画像化部106は、128×128のサイズの4枚の画像を、4個の符号化特徴情報に基づいて、(N×N)のサイズの画像ブロックごとに生成する。符号化特徴画像化部106は、画像化された符号化特徴情報(以下「符号化特徴画像」という。)を、画像ブロックごとにパラメータ学習部105に出力する。
パラメータ学習部105は、学習対象の複数の画像ストリームにおける、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴画像とを、異なる時刻に撮影された同一空間を表す画像ブロックごとに取得する。パラメータ学習部105は、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴画像とを、機械学習のモデル2に入力する。例えば、パラメータ学習部105は、時刻「A」に撮影された空間を表す画像ブロックの符号化特徴画像と、時刻「B」に撮影された同一空間を表す画像ブロックの符号化特徴画像とを、第4ネットワーク23に入力する。
検出部11は、画像復号部111と、画像分割部112と、画像特徴生成部113と、差異検出部115と、符号化特徴画像化部116とを備える。符号化特徴画像化部116は、符号化特徴生成部114と、符号化情報又は符号化特徴情報を画像形式に変換する変換部とを備える。
符号化特徴画像化部116は、1以上の符号化情報を、(N×N)のサイズの画像ブロックごとに画像復号部111から取得する。符号化特徴画像化部116は、符号化特徴情報を、(N×N)のサイズの画像ブロックごとに生成(画像ブロックに集約)する。符号化特徴画像化部116は、符号化特徴情報を画像化する。符号化特徴画像化部116は、符号化特徴画像を画像ブロックごとに差異検出部115に出力する。
差異検出部115は、検出対象の複数の画像ストリームにおける、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴画像とを、異なる時刻に撮影された同一空間を表す画像ブロックごとに取得する。差異検出部115は、画像ブロックと、その画像ブロックの画像特徴情報及び符号化特徴画像とを、機械学習のモデル2に入力する。例えば、差異検出部115は、時刻「A」に撮影された空間を表す画像ブロックの符号化特徴画像と、時刻「B」に撮影された同一空間を表す画像ブロックの符号化特徴画像とを、第4ネットワーク23に入力する。
次に、学習部10及び検出部11の動作例の詳細を説明する。
図12は、符号化特徴画像化部106の動作例を示すフローチャートである。符号化特徴画像化部106は、1以上の符号化情報を、画像復号部101から取得する(ステップS901)。符号化特徴画像化部106は、1以上の符号化特徴画像を、画像ブロックごとに生成する。例えば、符号化特徴生成部104は、128×128のサイズの4個の符号化特徴画像を、256×256のサイズの画像ブロックごとに生成する(ステップS902)。符号化特徴画像化部106は、1以上の符号化特徴画像を画像ブロックごとに、パラメータ学習部105に出力する(ステップS903)。
図12は、符号化特徴画像化部106の動作例を示すフローチャートである。符号化特徴画像化部106は、1以上の符号化情報を、画像復号部101から取得する(ステップS901)。符号化特徴画像化部106は、1以上の符号化特徴画像を、画像ブロックごとに生成する。例えば、符号化特徴生成部104は、128×128のサイズの4個の符号化特徴画像を、256×256のサイズの画像ブロックごとに生成する(ステップS902)。符号化特徴画像化部106は、1以上の符号化特徴画像を画像ブロックごとに、パラメータ学習部105に出力する(ステップS903)。
符号化特徴画像化部116の動作例は、符号化特徴画像化部106の動作例と同様である。符号化特徴画像化部116は、1以上の符号化特徴画像を画像ブロックごとに、差異検出部115に出力する。
以上のように、第2実施形態の差異検出装置1bは、符号化情報を画像形式に変換する変換部を更に備える。差異検出部115は、画像形式に変換された符号化情報又は符号化特徴情報に基づいて、第3の画像ブロック及び第4の画像ブロックの間の差異を検出する。
これによって、第2実施形態の差異検出装置1bは、符号化情報から生成された画像情報を畳み込みニューラルネットワークに入力するので、符号化情報の空間的な相関を考慮した差異の検出が可能となり、画像間の差異を検出する精度を更に向上させることが可能である。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
例えば、上記の各実施形態では、異なる時刻に撮影された同一空間を表す画像間の差異を差異検出装置が検出しているが、差異検出装置は、異なる時刻に撮影された同一空間を表す画像以外の複数の画像を取得してもよい。差異検出装置は、複数の画像の撮影時刻及び撮影位置に関係なく、画像間の差異を検出してもよい。画像は、静止画像でもよい。
上述した実施形態における差異検出装置をコンピュータで実現するようにしてもよい。
その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
本発明は、画像処理システムに適用可能である。
1a,1b…差異検出装置、2…モデル、11…検出部、20…第1ネットワーク、21…第2ネットワーク、22…第3ネットワーク、23…第4ネットワーク、24…第5ネットワーク、101…画像復号部、102…画像分割部、103…画像特徴生成部、104…符号化特徴生成部、105…パラメータ学習部、106…符号化特徴画像化部、111…画像復号部、112…画像分割部、113…画像特徴生成部、114…符号化特徴生成部、115…差異検出部、116…符号化特徴画像化部
Claims (8)
- 異なる時刻に撮影されたほぼ同一空間を表す第1の画像及び第2の画像と、前記第1の画像の符号化情報及び前記第2の画像の符号化情報との関連付けに基づいて、異なる時刻に撮影されたほぼ同一空間を表す第3の画像及び第4の画像の間の差異を検出する差異検出部を備え、
前記符号化情報は、符号化された前記第1の画像を含むデータと符号化された前記第2の画像を含むデータとから、前記第1の画像及び前記第2の画像に対して実行された各復号処理において逆変換処理が実行される前に取得された情報である、
差異検出装置。 - 前記第3の画像及び前記第4の画像は、画像に関するフレームを分割するブロックであり、
前記差異検出部は、前記フレームについて、前記第3の画像及び前記第4の画像の間の差異を前記ブロックごとに検出する、
請求項1に記載の差異検出装置。 - 前記関連付けは、前記第1の画像と前記第2の画像と前記符号化情報とのいずれかに基づいて学習が実行された前段の各ニューラルネットワークの出力値の関連付けである、
請求項2に記載の差異検出装置。 - 前記第1の画像及び前記第2の画像の間に差異があると判定された場合に前記出力値が第1の値に近づき、前記第1の画像及び前記第2の画像の間に差異がないと判定された場合に前記出力値が第2の値に近づくように学習が実行された後段のニューラルネットワークを更に備える、
請求項3に記載の差異検出装置。 - 前記符号化情報は、符号量と、イントラ予測モードと、変換係数と、画像に関する特徴とのいずれかの情報である、
請求項1から請求項4のいずれか一項に記載の差異検出装置。 - 前記符号化情報を画像形式に変換する変換部を更に備え、
前記差異検出部は、画像形式に変換された前記符号化情報に基づいて、前記第3の画像及び前記第4の画像の間の差異を検出する、
請求項1又は請求項2に記載の差異検出装置。 - 異なる時刻に撮影されたほぼ同一空間を表す第1の画像及び第2の画像と、前記第1の画像の符号化情報及び前記第2の画像の符号化情報との関連付けに基づいて、異なる時刻に撮影されたほぼ同一空間を表す第3の画像及び第4の画像の間の差異を検出する差異検出部を備え、
前記符号化情報は、符号化中の前記第1の画像を含むデータと符号中の前記第2の画像を含むデータとから、前記第1の画像及び前記第2の画像に対して実行された符号化処理において変換処理が実行された後に取得された情報である、
差異検出装置。 - 請求項1から請求項7のいずれか一項に記載の差異検出装置としてコンピュータを機能させるための差異検出プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/282,112 US11967121B2 (en) | 2018-10-04 | 2019-10-03 | Difference detection apparatus and difference detection program |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018189513A JP7244738B2 (ja) | 2018-10-04 | 2018-10-04 | 差異検出装置及び差異検出プログラム |
JP2018-189513 | 2018-10-04 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2020071472A1 true WO2020071472A1 (ja) | 2020-04-09 |
Family
ID=70055267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2019/039074 WO2020071472A1 (ja) | 2018-10-04 | 2019-10-03 | 差異検出装置及び差異検出プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US11967121B2 (ja) |
JP (1) | JP7244738B2 (ja) |
WO (1) | WO2020071472A1 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7466165B1 (ja) | 2023-10-20 | 2024-04-12 | 株式会社Ridge-i | 情報処理装置、情報処理方法及び情報処理プログラム |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017062776A (ja) * | 2015-09-04 | 2017-03-30 | 株式会社東芝 | 構造物に対する変化を検出するための方法、装置およびコンピュータ可読媒体 |
JP2018078454A (ja) * | 2016-11-09 | 2018-05-17 | 日本電信電話株式会社 | 画像生成方法、画像差異検出方法、画像生成装置及び画像生成プログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010136292A (ja) * | 2008-12-08 | 2010-06-17 | Toshiba Corp | 画像処理装置 |
-
2018
- 2018-10-04 JP JP2018189513A patent/JP7244738B2/ja active Active
-
2019
- 2019-10-03 WO PCT/JP2019/039074 patent/WO2020071472A1/ja active Application Filing
- 2019-10-03 US US17/282,112 patent/US11967121B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017062776A (ja) * | 2015-09-04 | 2017-03-30 | 株式会社東芝 | 構造物に対する変化を検出するための方法、装置およびコンピュータ可読媒体 |
JP2018078454A (ja) * | 2016-11-09 | 2018-05-17 | 日本電信電話株式会社 | 画像生成方法、画像差異検出方法、画像生成装置及び画像生成プログラム |
Non-Patent Citations (4)
Title |
---|
F. PACIFICI ET AL.: "A New Neural Architecture for Detecting Urban Changes in Quickbird Imagery", URBAN REMOTE SENSING JOINT EVENT, 18 June 2007 (2007-06-18), pages 1 - 7 * |
HAYASE, KAZUYA ET AL.: "A study on a method for estimating changes between satellite images using encoded data", PROCEEDINGS OF THE 2017 ITE WINTER ANNUAL CONVENTION, December 2017 (2017-12-01) * |
KALINICHEVA, EKATERINA ET AL.: "Neural Network Autoencoder for Change Detection in Satellite Image Time Series", 2018 25TH IEEE INTERNATIONAL CONFERENCE ON ELECTRONICS , CIRCUITS AND SYSTEMS (ICECS, 21 January 2019 (2019-01-21), pages 641 - 642 * |
LIM, KYUNGSUN ET AL.: "Change Detection in High Resolution Satellite Images Using an Ensemble of Convolutional Neural Networks", 2018 ASIA-PACIFIC SIGNAL AND INFORMATION PROCESSING ASSOCIATION ANNUAL SUMMIT AND CONFERENCE (APSIPA ASC, 7 March 2019 (2019-03-07), pages 509 - 515, XP033525959 * |
Also Published As
Publication number | Publication date |
---|---|
JP2020061596A (ja) | 2020-04-16 |
US20210375006A1 (en) | 2021-12-02 |
JP7244738B2 (ja) | 2023-03-23 |
US11967121B2 (en) | 2024-04-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108780499B (zh) | 基于量化参数的视频处理的系统和方法 | |
JP4004653B2 (ja) | 動きベクトル検出方法および装置、記録媒体 | |
JP6599294B2 (ja) | 異常検知装置、学習装置、異常検知方法、学習方法、異常検知プログラム、および学習プログラム | |
JP2011517526A (ja) | 着目物の適応的な色モデル・パラメータ推定に係る方法および装置 | |
JP2009147807A (ja) | 画像処理装置 | |
KR20160032137A (ko) | 특징 기반 영상 집합 압축 | |
CN115375589B (zh) | 一种去除图像阴影模型及其构建方法、装置及应用 | |
Akbari et al. | Joint sparse learning with nonlocal and local image priors for image error concealment | |
JP7174298B2 (ja) | 差異検出装置、差異検出方法及びプログラム | |
Fayed et al. | Adaptive compressive sensing for target tracking within wireless visual sensor networks-based surveillance applications | |
WO2020071472A1 (ja) | 差異検出装置及び差異検出プログラム | |
Rhee et al. | Channel-wise progressive learning for lossless image compression | |
JP2006518157A (ja) | オブジェクトベースの動き補償の方法及び装置 | |
WO2016189404A1 (en) | Foreground motion detection in compressed video data | |
KR20230040286A (ko) | 영상정보의 비트스트림정보에 기반하여 물체 유기이벤트를 감지하는 방법 및 시스템 | |
JP6748022B2 (ja) | 分割形状決定装置、学習装置、分割形状決定方法及び分割形状決定プログラム | |
Han et al. | ABCD: Arbitrary Bitwise Coefficient for De-quantization | |
JP5431501B2 (ja) | 画像処理装置、及びその方法 | |
Taheri et al. | Sparse representation based facial image compression via multiple dictionaries and separated ROI | |
Tang et al. | A gradient based predictive coding for lossless image compression | |
CN112584146B (zh) | 帧间相似度评估方法和系统 | |
Van Luong et al. | A reconstruction algorithm with multiple side information for distributed compression of sparse sources | |
JP5809574B2 (ja) | 符号化方法、復号方法、符号化装置、復号装置、符号化プログラム及び復号プログラム | |
JP2018078454A (ja) | 画像生成方法、画像差異検出方法、画像生成装置及び画像生成プログラム | |
WO2019225344A1 (ja) | 符号化装置、画像補間システム及び符号化プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 19868437 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 19868437 Country of ref document: EP Kind code of ref document: A1 |