WO2022130496A1 - 画像処理装置、画像処理方法及び画像処理プログラム - Google Patents

画像処理装置、画像処理方法及び画像処理プログラム Download PDF

Info

Publication number
WO2022130496A1
WO2022130496A1 PCT/JP2020/046729 JP2020046729W WO2022130496A1 WO 2022130496 A1 WO2022130496 A1 WO 2022130496A1 JP 2020046729 W JP2020046729 W JP 2020046729W WO 2022130496 A1 WO2022130496 A1 WO 2022130496A1
Authority
WO
WIPO (PCT)
Prior art keywords
feature map
unit
image data
processing
image
Prior art date
Application number
PCT/JP2020/046729
Other languages
English (en)
French (fr)
Inventor
智規 久保田
旭穎 雷
鷹詔 中尾
Original Assignee
富士通株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 富士通株式会社 filed Critical 富士通株式会社
Priority to PCT/JP2020/046729 priority Critical patent/WO2022130496A1/ja
Priority to JP2022569366A priority patent/JPWO2022130496A1/ja
Publication of WO2022130496A1 publication Critical patent/WO2022130496A1/ja
Priority to US18/300,433 priority patent/US20230252683A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/41Bandwidth or redundancy reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/90Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using coding techniques not provided for in groups H04N19/10-H04N19/85, e.g. fractals

Definitions

  • the present invention relates to an image processing device, an image processing method, and an image processing program.
  • image data is input to the deep learning model in advance, and intermediate information (feature map) extracted from the intermediate layer is compressed and transmitted.
  • intermediate information feature map
  • the technology to do is known.
  • a high compression rate can be realized as compared with the case where the image data is directly compressed and transmitted, and the deep learning model of the transmission destination is similar to the case where the image data is directly compressed and transmitted.
  • Appropriate processing results can be output in the output layer of.
  • Japanese Unexamined Patent Publication No. 2018-195231 Japanese Unexamined Patent Publication No. 2019-036899 JP-A-2018-097662 Japanese Unexamined Patent Publication No. 2019-029938
  • the intermediate information extracted from the intermediate layer of the deep learning model includes not only the information necessary for outputting the appropriate processing result in the output layer but also the information not necessary for outputting the appropriate processing result. ..
  • One aspect is to improve the compression rate when compressing the intermediate information extracted from the deep learning model.
  • the image processing device is A calculation unit that calculates the degree of influence of each pixel of the image data, which affects the processing result when the image data is input to the deep learning model.
  • a reduction unit that reduces the amount of intermediate information extracted from the deep learning model based on the degree of influence. It has a compression unit that compresses the intermediate information in which the amount of information is reduced.
  • FIG. 1 is a diagram showing an example of a system configuration of an image processing system.
  • FIG. 2 is a diagram showing an example of a hardware configuration of an edge device.
  • FIG. 3 is a first diagram showing an example of the functional configuration of the image reduction unit, the important portion extraction unit, and the compression unit of the edge device.
  • FIG. 4 is a first diagram showing a specific example of processing by the image reduction unit and the important portion extraction unit.
  • FIG. 5 is a first flowchart showing the flow of compression processing by the edge device.
  • FIG. 6 is a second diagram showing an example of the functional configuration of the image reduction unit and the compression unit of the edge device.
  • FIG. 7 is a second diagram showing a specific example of processing by the image reduction unit and the important portion extraction unit.
  • FIG. 1 is a diagram showing an example of a system configuration of an image processing system.
  • FIG. 2 is a diagram showing an example of a hardware configuration of an edge device.
  • FIG. 3 is a first diagram showing an example of the functional
  • FIG. 8 is a second flowchart showing the flow of compression processing by the edge device.
  • FIG. 9 is a third diagram showing an example of the functional configuration of the image reduction unit, the important portion extraction unit, and the compression unit of the edge device.
  • FIG. 10 is a third diagram showing a specific example of processing by the image reduction unit and the important portion extraction unit.
  • FIG. 11 is a third flowchart showing the flow of compression processing by the edge device.
  • FIG. 12 is a fourth diagram showing an example of the functional configuration of the image reduction unit, the important portion extraction unit, and the compression unit of the edge device.
  • FIG. 13 is a fourth diagram showing a specific example of processing by the image reduction unit and the important portion extraction unit.
  • FIG. 14 is a fourth flowchart showing the flow of compression processing by the edge device.
  • FIG. 1 is a diagram showing an example of a system configuration of an image processing system.
  • the image processing system 100 includes an image pickup device 110, an edge device 120, and a server device 130.
  • the image pickup device 110 takes a picture at a predetermined frame cycle and transmits the image data to the edge device 120. It is assumed that the image data may include an object that is the target of image analysis processing by the deep learning model described later. If the image data does not include an object to be subject to image analysis processing by the deep learning model described later, for example, the entire image data will be invalidated by image processing described later.
  • An image processing program is installed in the edge device 120, and when the program is executed, the edge device 120 functions as an image reduction unit 121, an important point extraction unit 122, and a compression unit 123.
  • the image reduction unit 121 is an example of the reduction unit and has a deep learning model 140.
  • each layer from the input layer to the intermediate layer (for example, the second layer) from which the intermediate information (“feature map”) is extracted is set as the first stage. Called a department.
  • each layer from the layer next to the intermediate layer from which the feature map is extracted to the output layer is referred to as a rear stage portion.
  • the image reduction unit 121 reduces the amount of information of the feature map extracted from the intermediate layer (for example, the second layer) located at the rearmost position in the front stage portion by reducing the amount of information of the image data input to the front stage portion. do. As a result, the image reduction unit 121 generates a “post-reduction feature map”. Further, the image reduction unit 121 notifies the compression unit 123 of the generated reduced feature map.
  • the important part extraction unit 122 is an example of the calculation unit, and generates an "important feature map" showing the degree of influence of each pixel that affects the processing result by the deep learning model 140 in the image data.
  • the generated important feature map is notified to the image reduction unit 121, and is used when reducing the amount of information of the image data input to the front stage unit.
  • the compression unit 123 compresses the reduced feature map notified by the image reduction unit 121 by performing quantization and / or coding processing to generate a “post-compressed feature map”. Further, the compression unit 123 transmits the compressed feature map to the server device 130.
  • the compression ratio when compressing the feature map can be improved.
  • An image analysis processing program is installed in the server device 130, and when the program is executed, the server device 130 functions as a decoding unit 131 and an image analysis unit 132.
  • the decoding unit 131 receives the post-compressed feature map transmitted from the edge device 120, and performs dequantization and / or decoding processing on the received post-compressed feature map to generate a reduced feature map. .. Further, the decoding unit 131 notifies the image analysis unit 132 of the generated reduced feature map.
  • the image analysis unit 132 has a rear stage portion of the deep learning model 140, and outputs the processing result from the output layer by inputting the reduced feature map notified by the decoding unit 131.
  • FIG. 2 is a diagram showing an example of a hardware configuration of an edge device.
  • the edge device 120 includes a processor 201, a memory 202, an auxiliary storage device 203, an I / F (Interface) device 204, a communication device 205, and a drive device 206.
  • the hardware of the edge device 120 is connected to each other via the bus 207.
  • the processor 201 has various arithmetic devices such as a CPU (Central Processing Unit) and a GPU (Graphics Processing Unit).
  • the processor 201 reads various programs (for example, an image processing program, etc.) onto the memory 202 and executes them.
  • the memory 202 has a main storage device such as a ROM (ReadOnlyMemory) and a RAM (RandomAccessMemory).
  • the processor 201 and the memory 202 form a so-called computer, and the processor 201 executes various programs read on the memory 202, so that the computer has various functions (image reduction unit 121, important part extraction unit 122, and compression). Part 123) is realized. The details of the functional configuration of each function will be described later.
  • the auxiliary storage device 203 stores various programs and various data used when various programs are executed by the processor 201.
  • the I / F device 204 is a connection device that connects the operation device 210, the display device 211, and the edge device 120, which are examples of external devices.
  • the I / F device 204 receives an operation on the edge device 120 via the operating device 210. Further, the I / F device 204 outputs the result of the internal processing by the edge device 120 and displays it via the display device 211.
  • the communication device 205 is a communication device for communicating with other devices.
  • the edge device 120 communicates with the image pickup device 110 and the server device 130 via the communication device 205.
  • the drive device 206 is a device for setting the recording medium 212.
  • the recording medium 212 referred to here includes a medium such as a CD-ROM, a flexible disk, a magneto-optical disk, or the like that optically, electrically, or magnetically records information. Further, the recording medium 212 may include a semiconductor memory or the like for electrically recording information such as a ROM or a flash memory.
  • the various programs installed in the auxiliary storage device 203 are installed, for example, by setting the distributed recording medium 212 in the drive device 206 and reading the various programs recorded in the recording medium 212 by the drive device 206. Will be done.
  • various programs installed in the auxiliary storage device 203 may be installed by being downloaded from the network via the communication device 205.
  • FIG. 3 is a first diagram showing an example of the functional configuration of the image reduction unit, the important portion extraction unit, and the compression unit of the edge device.
  • the image reduction unit 121 includes a front stage unit 301, a rear stage unit 302, an error calculation unit 303, and an image processing unit 304.
  • the front stage portion 301 has each layer from the input layer to the intermediate layer from which the feature map is extracted from the deep learning model 140.
  • the front stage portion 301 extracts the feature map from the intermediate layer and notifies the rear stage portion 302.
  • the front stage unit 301 extracts the reduced feature map from the intermediate layer by inputting the “reduced image data” and notifies the compression unit 123.
  • the reduced image data is an image generated by processing the image data based on the important feature map, and is generated by the image processing unit 304 (details will be described later).
  • the latter part 302 has each layer from the layer next to the intermediate layer from which the feature map is extracted to the output layer in the deep learning model 140.
  • the processing result is output from the output layer.
  • the latter stage unit 302 notifies the error calculation unit 303 of the processing result output from the output layer.
  • the error calculation unit 303 calculates an error between the processing result notified from the latter stage unit 302 and the reference result.
  • the reference result refers to a predetermined classification probability for an object (correct answer data) included in the image data.
  • the image reduction unit 121 may use, for example, -The classification probability of recognizing an object in a predetermined area of image data (x 1 , y 1 , h 1 , w 1 ) as a human is 0.8, -The classification probability of recognizing an object in a predetermined area of image data (x 1 , y 1 , h 1 , w 1 ) as a non-human object is 0.1,
  • the data set, etc. to be used is specified as the standard result.
  • the error between the processing result and the reference result refers to, for example, the difference between the classification probability of each object of the processing result notified from the latter stage portion 302 and the classification probability of each object of the reference result.
  • the error is an index (for example, IoU) indicating the amount of deviation between the predetermined region included in the processing result notified from the latter stage portion 302 and the predetermined region included in the reference result. (Intersection Over Union)) may be included.
  • the error calculation unit 303 back-propagates the calculated error.
  • the important part extraction unit 122 can generate an important feature map showing the degree of influence of each pixel that affects the processing result by the deep learning model 140 in the image data.
  • the method for back-propagating the error by the error calculation unit 303 includes a plurality of methods such as "normal back-error propagation”, “Guided Backpropagation”, “selective back-error propagation”, and “extended selective back-error propagation”. Is included.
  • Normal reverse error propagation is a method of backpropagating all errors of the processing result notified from the latter stage portion 302.
  • Guided Backpropagation is a method of back-propagating an error by using only a positive gradient among the gradients calculated in each layer in the front stage portion 301 and the rear stage portion 302.
  • the selective back error propagation is a method of back-propagating only the error of the processing result of the correct answer among the processing results notified from the latter stage portion 302 by "normal back error propagation" or "Guided Backpropagation”. ..
  • the extended selective back error propagation is the back propagation of the magnitude error obtained by performing a predetermined operation on the processing result notified from the latter stage portion 302 by "normal back error propagation" or "Guided Backpropagation". It is a method to make it.
  • the image processing unit 304 reduces the amount of image data information by processing the image data using the important feature map notified from the important part extraction unit 122, which will be described later, and generates the reduced image data. Specifically, the image processing unit 304 processes the image data based on the degree of influence of each pixel of the important feature map notified by the important part extraction unit 122, thereby reducing the amount of information in the image data. Post-image data is generated.
  • the method of processing the image data by the image processing unit 304 is arbitrary. For example, even if a pixel having an influence degree of less than a predetermined threshold value is specified in the important feature map and the pixel value in the image data of the specified pixel is set to zero. Good (may invalidate the specified pixel). Alternatively, pixels having an influence degree of not less than a predetermined threshold value may be specified in the important feature map, and a low-pass filter may be applied to the image data for the specified pixels. Alternatively, pixels having an influence degree of not less than a predetermined threshold value may be specified in the important feature map, and the color of the image data may be reduced for the specified pixels. That is, the processing of image data is to process the image data so that the deep learning model 140 does not regard unnecessary features as features, and any processing method is permitted as long as it is a processing method that fulfills the purpose. To.
  • the image processing unit 304 notifies the previous stage unit 301 of the generated reduced image data.
  • the reduced feature map is extracted from the intermediate layer and notified to the compression unit 123.
  • the important part extraction unit 122 generates an important feature map using the back-propagated error. As described above, the important feature map shows the degree of influence of how much each pixel of the image data affects the processing result. The important part extraction unit 122 notifies the image processing unit 304 of the generated important feature map.
  • the compression unit 123 has a quantization unit 311 and a coding unit 312.
  • the quantization unit 311 quantizes the post-reduction feature map notified from the front-stage unit 301 of the image reduction unit 121, and notifies the coding unit 312.
  • the coding unit 312 performs, for example, entropy coding processing or other arbitrary compression processing on the quantized post-reduction feature map notified by the quantization unit 311. , Generate a feature map after compression. Further, the coding unit 312 transmits the generated post-compressed feature map to the server device 130.
  • FIG. 4 is a first diagram showing a specific example of processing by the image reduction unit and the important portion extraction unit.
  • the image reduction unit 121 when the image data 410 is input, the front stage unit 301 and the rear stage unit 302 operate, and the processing result is output. Subsequently, in the image reduction unit 121, the error calculation unit 303 operates, calculates an error between the processing result and the reference result, and then back-propagates the calculated error.
  • the important part extraction unit 122 operates to generate the important feature map 420 using the back-propagated error.
  • the pixels having a large influence on the processing result are shown in white, and the pixels having a low influence are shown in black.
  • the image processing unit 304 operates, and among the image data 410, the pixels whose influence degree is equal to or less than a predetermined threshold value in the important feature map 420 are invalidated, so that the reduced image data 430 is used. To generate.
  • the image reduction unit 121 by inputting the reduced image data 430 into the front stage unit 301, the front stage unit 301 is operated again, and the intermediate layer (second layer in the example of FIG. 4) of the front stage unit 301 is displayed. Extract the feature map. Further, the image reduction unit 121 notifies the compression unit 123 of the extracted feature map as a post-reduction feature map.
  • FIG. 5 is a first flowchart showing the flow of compression processing by the edge device.
  • step S501 each part (here, the front part 301 and the rear part 302) of the image reduction unit 121 of the edge device 120 and the important part extraction unit 122 are initialized.
  • step S502 the image reduction unit 121 of the edge device 120 operates the front stage unit 301.
  • the front stage portion 301 extracts a feature map by inputting image data.
  • step S503 the image reduction unit 121 of the edge device 120 operates the rear unit 302.
  • the latter part 302 outputs the processing result by inputting the feature map.
  • step S504 the image reduction unit 121 of the edge device 120 operates the error calculation unit 303.
  • the error calculation unit 303 back-propagates the calculated error by calculating the error between the processing result and the reference result.
  • step S505 the important part extraction unit 122 of the edge device 120 generates an important feature map using the back-propagated error.
  • step S506 the image reduction unit 121 of the edge device 120 operates the image processing unit 304.
  • the image processing unit 304 reduces the amount of information in the image data by processing the image data based on the important feature map, and generates the reduced image data.
  • step S507 the image reduction unit 121 of the edge device 120 causes the front stage unit 301 to operate again.
  • the front stage portion 301 extracts the post-reduction feature map by inputting the post-reduction image data.
  • step S508 the compression unit 123 of the edge device 120 operates the quantization unit 311 and / or the coding unit 312.
  • the quantization unit 311 and / or the coding unit 312 generates a post-compressed feature map by performing a quantization and / or coding process on the reduced feature map.
  • step S509 the compression unit 123 of the edge device 120 transmits the compressed feature map to the server device 130.
  • step S510 the image reduction unit 121 of the edge device 120 determines whether or not to end the compression process, and if it is determined to continue (if No in step S510), returns to step S502.
  • step S510 if it is determined in step S510 that the compression process is to be completed (yes in step S510), the compression process is terminated.
  • the image processing apparatus (edge device 120) according to the first embodiment affects the processing result when the image data is input to the deep learning model 140, and each pixel of the image data. Calculate the degree of influence of and generate an important feature map. Further, the image processing apparatus (edge device 120) according to the first embodiment reduces the amount of information in the image data by processing the image data based on the important feature map. Further, the image processing apparatus (edge device 120) according to the first embodiment reduces the amount of information of the feature map extracted from the intermediate layer of the deep learning model by inputting the reduced image data into the deep learning model. do. Further, the image processing apparatus (edge device 120) according to the first embodiment compresses the reduced feature map with a reduced amount of information.
  • the first embodiment it is possible to improve the compression rate when compressing the feature map extracted from the deep learning model.
  • FIG. 6 is a second diagram showing an example of the functional configuration of the image reduction unit, the important portion extraction unit, and the compression unit of the edge device.
  • the image reduction unit 600 is another example of the reduction unit, and has a front stage unit 601 and an image processing unit 304.
  • the front stage portion 601 has each layer from the input layer to the intermediate layer in the deep learning model 140.
  • the front stage portion 601 receives a feature map extracted from each layer (for example, a feature map 1 extracted from the first layer, a feature map 2 extracted from the second layer, ...) By inputting image data. , Notify the important part extraction unit 610.
  • the front stage unit 601 notifies the compression unit 123 of the reduced feature map extracted from the intermediate layer located at the rearmost position in the front stage unit 601 by inputting the reduced image data.
  • the image processing unit 304 processes the image data using the important feature map notified by the important part extraction unit 610, thereby reducing the amount of information in the image data and generating the reduced image data. Specifically, the image processing unit 304 reduces the amount of information in the image data by processing the image data according to the degree of attention of each pixel of the important feature map notified by the important part extraction unit 610. Post-image data is generated.
  • the image processing unit 304 notifies the front stage unit 601 of the generated reduced image data.
  • the reduced feature map is extracted from the intermediate layer and notified to the compression unit 123.
  • the important part extraction unit 610 is another example of the calculation unit, and the important feature map is generated by weighting and adding the feature maps of each layer notified from the front stage portion 601.
  • the important feature map represents the degree of attention to which pixel each layer of the front stage portion 601 focused on when processing the image data.
  • the important part extraction unit 610 notifies the image processing unit 304 of the generated important feature map.
  • the compression unit 123 shown in FIG. 6 is the same as the compression unit 123 shown in FIG. 3, the description thereof is omitted here.
  • FIG. 7 is a second diagram showing a specific example of processing by the image reduction unit and the important portion extraction unit.
  • the front stage unit 601 when the image data 410 is input, the front stage unit 601 operates and the feature map is extracted from each layer.
  • the example of FIG. 7 shows a state in which the front stage portion 601 has an input layer, a first layer, and a second layer, the feature map 1 is extracted from the first layer, and the feature map 2 is extracted from the second layer. There is.
  • the important part extraction unit 610 operates, and the important feature map 710 is generated by weighting and adding each feature map extracted from the previous stage unit 601.
  • the important feature map 710 the pixels having a high degree of attention are shown in white, and the pixels having a low degree of attention are shown in black.
  • the image processing unit 304 operates, and among the image data 410, the pixels whose attention level is equal to or less than a predetermined threshold value in the important feature map 710 are invalidated, so that the reduced image data 720 To generate.
  • the reduced image data 720 is input to the front stage unit 601 to operate the front stage unit 601 again, and the intermediate layer located at the rearmost position in the front stage unit 601 (in the example of FIG. 7).
  • the feature map is extracted from the second layer). Further, the image reduction unit 600 notifies the compression unit 123 of the extracted feature map as a post-reduction feature map.
  • FIG. 7 is a second flowchart showing the flow of compression processing by the edge device. The difference from the first flowchart described with reference to FIG. 5 is steps S801 and S802.
  • step S801 the image reduction unit 600 of the edge device 120 operates the front stage unit 601.
  • the front stage portion 601 extracts a feature map from each layer by inputting image data.
  • step S802 the important point extraction unit 610 of the edge device 120 generates an important feature map by weighting and adding each feature map extracted from each layer of the front stage portion 601.
  • the image processing apparatus (edge device 120) according to the second embodiment pays attention to each pixel of the image data, which each layer pays attention to when the image data is input to the deep learning model 140. Calculate the degree and generate an important feature map. Further, the image processing device (edge device 120) according to the second embodiment reduces the amount of information in the image data by processing the image data based on the important feature map. Further, the image processing apparatus (edge device 120) according to the second embodiment reduces the amount of information of the feature map extracted from the intermediate layer of the deep learning model by inputting the reduced image data into the deep learning model. do. Further, the image processing apparatus (edge device 120) according to the second embodiment compresses the reduced feature map with a reduced amount of information.
  • the amount of information in the image data is reduced by processing the image data based on the important feature map, and the reduced image data is input to the deep learning model to form an intermediate layer of the deep learning model.
  • the case of reducing the amount of information of the feature map extracted more was explained.
  • the third embodiment a case where the amount of information of the feature map extracted from the intermediate layer of the deep learning model is directly reduced based on the important feature map will be described.
  • the third embodiment will be described focusing on the differences from the first embodiment.
  • FIG. 9 is a third diagram showing an example of the functional configuration of the image reduction unit, the important portion extraction unit, and the compression unit of the edge device.
  • the image reduction unit 900 is another example of the reduction unit, and has a front stage unit 901, a rear stage unit 302, an error calculation unit 303, and a feature map processing unit 902.
  • the front stage portion 901 has each layer from the input layer to the intermediate layer from which the feature map is extracted in the deep learning model 140.
  • the feature map is extracted from the intermediate layer and notified to the rear stage portion 302 and the feature map processing unit 902.
  • rear stage unit 302 and the error calculation unit 303 are the same as the rear stage unit 302 and the error calculation unit 303 described with reference to FIG. 3 in the first embodiment, the description thereof will be omitted here.
  • the feature map processing unit 902 reduces the amount of information in the feature map by processing the feature map based on the important feature map notified from the important part extraction unit 910, and generates the reduced feature map. Specifically, the feature map processing unit 902 reduces the amount of information in the feature map by processing the feature map based on the degree of influence of each pixel of the important feature map notified by the important part extraction unit 910. Generate a feature map after reduction.
  • the feature map processing method by the feature map processing unit 902 is arbitrary.
  • a pixel having an influence degree of less than or equal to a predetermined threshold value may be specified in the important feature map, and the pixel value in the feature map of the specified pixel may be set to zero (the specified pixel may be invalidated).
  • a pixel whose degree of influence is equal to or less than a predetermined threshold value may be specified in the important feature map, and a low-pass filter may be applied to the feature map for the specified pixel.
  • the feature map processing unit 902 notifies the compression unit 123 of the generated reduced feature map.
  • the important part extraction unit 910 is another example of the calculation unit, and generates an important feature map using the back-propagated error. As described in the first embodiment, the important feature map represents the degree of influence of how much each pixel of the image data affects the processing result. The important part extraction unit 910 notifies the feature map processing unit 902 of the generated important feature map.
  • FIG. 9 is a third diagram showing a specific example of processing by the image reduction unit and the important portion extraction unit.
  • the front-stage unit 301 operates to extract the feature map
  • the rear-stage unit 302 operates to output the processing result.
  • the error calculation unit 303 operates, calculates the error between the processing result and the reference result, and then back-propagates the calculated error.
  • the important part extraction unit 910 operates to generate the important feature map 420 using the back-propagated error.
  • the feature map processing unit 902 operates, and for the feature map extracted from the front stage unit 901, the pixels whose influence degree is equal to or less than a predetermined threshold value in the important feature map 420 are invalidated. , Generate a feature map after reduction.
  • FIG. 11 is a third flowchart showing the flow of compression processing by the edge device. The difference from the first flowchart described with reference to FIG. 5 is step S1101.
  • step S1101 the image reduction unit 900 of the edge device 120 operates the feature map processing unit 902.
  • the feature map processing unit 902 reduces the amount of information in the feature map by processing the feature map based on the important feature map, and generates the reduced feature map.
  • the image processing device (edge device 120) according to the third embodiment affects the processing result when the image data is input to the deep learning model 140, and each pixel of the image data. Calculate the degree of influence of and generate an important feature map. Further, the image processing apparatus (edge device 120) according to the third embodiment processes the feature map extracted from the intermediate layer of the deep learning model based on the important feature map to reduce the amount of information in the feature map. Reduce. Further, the image processing apparatus (edge device 120) according to the third embodiment compresses the reduced feature map with a reduced amount of information.
  • the third embodiment it is possible to improve the compression rate when compressing the feature map extracted from the deep learning model.
  • the amount of information in the image data is reduced by processing the image data based on the important feature map, and the reduced image data is input to the deep learning model to form an intermediate layer of the deep learning model.
  • the case of reducing the amount of information of the feature map extracted more was explained.
  • the fourth embodiment a case where the amount of information of the feature map extracted from the intermediate layer of the deep learning model is directly reduced based on the important feature map will be described.
  • the fourth embodiment will be described focusing on the differences from the second embodiment.
  • FIG. 12 is a fourth diagram showing an example of the functional configuration of the image reduction unit, the important portion extraction unit, and the compression unit of the edge device.
  • the image reduction unit 1200 is another example of the reduction unit, and has a front stage unit 601 and a feature map processing unit 1201.
  • front stage portion 601 is the same as the front stage portion 601 described with reference to FIG. 6 in the second embodiment, the description thereof is omitted here.
  • the feature map processing unit 1201 reduces the amount of information in the feature map by processing the feature map using the important feature map notified from the important part extraction unit 1210, and generates the reduced feature map. Specifically, the feature map processing unit 1201 reduces the amount of information in the feature map by processing the feature map according to the degree of attention of each pixel of the important feature map notified by the important part extraction unit 1210. Notify the compression unit 123 of the feature map after reduction.
  • the important part extraction unit 1210 is another example of the calculation unit, and the important feature map is generated by weighting and adding the feature maps of each layer notified from the front stage portion 601. As described in the second embodiment, the important feature map represents the degree of attention to which pixel each layer of the front stage portion 601 focused on when processing the image data. The important part extraction unit 1210 notifies the feature map processing unit 1201 of the generated important feature map.
  • the compression unit 123 shown in FIG. 12 is the same as the compression unit 123 shown in FIG. 3, the description thereof is omitted here.
  • FIG. 13 is a fourth diagram showing a specific example of processing by the image reduction unit and the important portion extraction unit.
  • the front stage unit 601 when the image data 410 is input, the front stage unit 601 operates and the feature map is extracted from each layer.
  • the example of FIG. 13 shows a state in which the front stage portion 601 has an input layer, a first layer, and a second layer, the feature map 1 is extracted from the first layer, and the feature map 2 is extracted from the second layer. There is.
  • the important part extraction unit 1210 operates, and the important feature map 710 is generated by weighting and adding each feature map extracted from the front stage unit 601.
  • the feature map processing unit 1201 operates.
  • the feature map processing unit 1201 acquires a feature map extracted from the front stage portion 601 (a feature map extracted from the intermediate layer (second layer in the example of FIG. 13) located at the rearmost position in the front stage portion 601). .. Further, the feature map processing unit 1201 generates a reduced feature map by invalidating the pixels whose attention level is equal to or less than a predetermined threshold value in the important feature map 710 among the acquired feature maps.
  • FIG. 14 is a fourth flowchart showing the flow of compression processing by the edge device. The difference from the second flowchart described with reference to FIG. 8 is step S1401.
  • step S1401 the image reduction unit 1200 of the edge device 120 operates the feature map processing unit 1201.
  • the feature map processing unit 1201 processes the feature map based on the important feature map to reduce the amount of information in the feature map and generate the reduced feature map.
  • the image processing apparatus (edge device 120) according to the fourth embodiment pays attention to each pixel of the image data, which each layer pays attention to when the image data is input to the deep learning model 140. Calculate the degree and generate an important feature map. Further, the image processing apparatus (edge device 120) according to the fourth embodiment processes the feature map extracted from the intermediate layer of the deep learning model based on the important feature map to reduce the amount of information in the feature map. Reduce. Further, the image processing apparatus (edge device 120) according to the fourth embodiment compresses the reduced feature map with a reduced amount of information.
  • the image data used for generating the important feature map and the image data processed based on the important feature map are the same image data.
  • the image data used to generate the important feature map and the image data processed based on the important feature map may be image data taken at different timings.
  • the important feature map is converted according to the time interval of both image data, and the image data is processed based on the converted important feature map.
  • the image data used to generate the important feature map and the image data when the feature map processed based on the important feature map is extracted are the same image.
  • the image data used to generate the important feature map and the image data when the feature map processed based on the important feature map is extracted may be image data taken at different timings.
  • the important feature map is converted according to the time interval of both image data, and the feature map is processed based on the converted important feature map.
  • the image data used for generating the important feature map and the image data processed based on the important feature map were taken at different timings. It may be a thing.
  • the image data used to generate the important feature map and the image data when the feature map processed based on the important feature map is extracted may be image data taken at different timings.
  • each component in the image reduction units 121, 600, 900, and 1200 described in the first to fourth embodiments are not arranged at the locations exemplified in the first to fourth embodiments. May be good.
  • each component in the important portion extraction units 122, 610, 910, and 1210 described in the first to fourth embodiments is arranged in the locations exemplified in the first to fourth embodiments. It does not have to be.
  • each component may be located on another device connected via a network. Further, each component may be arranged in a plurality of devices.
  • the true meaning of this disclosure is that when the deep learning model 140 performs image analysis processing, -The importance of each pixel for extracting the target object is extracted from the information at any part of the deep learning model 140. -Reducing the amount of information in any of the processing processes of the deep learning model 140 including image data (where there is an effect of reducing the amount of intermediate information) based on the extracted information.
  • the information extraction method that satisfies the purpose may be a method other than the extraction method shown in each of the above embodiments.
  • the information extraction may be performed in the parts necessary for extracting the information such as the front stage portion and the rear stage portion of the deep learning model 140, as illustrated in each of the above embodiments.
  • the part necessary for extracting information may be a part exemplified in each of the above embodiments, a part thereof, or another part. That is, it suffices if the purpose of the above information extraction method is satisfied.
  • the error at any part of the deep learning model 140 may be used.
  • the important feature map is derived by the extended selective inverse error propagation, the latter part may not be provided.
  • the compression unit 123 shown in each of the above embodiments compresses the reduced feature map notified by the image reduction unit 121 by performing quantization and / or coding processing, but a single reduction.
  • the post-feature map may be compressed by performing quantization and / or coding processing.
  • compression may be performed by performing quantization and / or coding processing using the correlation of a plurality of reduced feature maps.
  • An example of using the correlation of a plurality of reduced feature maps is a moving image.
  • Image processing system 110 Image pickup device 120: Edge device 121: Image reduction section 122: Important part extraction section 123: Compression section 130: Server device 131: Decoding section 132: Image analysis section 140: Deep learning model 201: Processor 202 : Memory 203: Auxiliary storage device 204: I / F device 205: Communication device 206: Drive device 210: Operation device 211: Display device 212: Recording medium 301: Front stage part 302: Rear stage part 303: Error calculation unit 304: Image processing Part 310: Compression part 311: Quantization part 312: Coding part 410: Image data 420: Important feature map 430: Image data after reduction 600: Image reduction part 601: Previous stage part 610: Important part extraction part 710: Important feature map 720: Image data after reduction 900: Image reduction part 901: Front stage part 902: Feature map processing part 910: Important part extraction part 1200: Image reduction part 1201: Feature map processing part 1210: Important part extraction part

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Neurology (AREA)
  • Compression Of Band Width Or Redundancy In Fax (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

深層学習モデルより抽出される中間情報を圧縮する際の圧縮率を向上させる。画像処理装置は、深層学習モデルに画像データを入力した場合の処理結果に影響を与える、画像データの各画素の影響度を算出する算出部と、前記影響度に基づいて、前記深層学習モデルより抽出される中間情報の情報量を削減する削減部と、情報量が削減された前記中間情報を圧縮する圧縮部とを有する。

Description

画像処理装置、画像処理方法及び画像処理プログラム
 本発明は、画像処理装置、画像処理方法及び画像処理プログラムに関する。
 深層学習モデルによる画像解析処理に用いられる画像データを圧縮して伝送する技術として、例えば、画像データを予め深層学習モデルに入力し、中間層より抽出した中間情報(特徴マップ)を圧縮して伝送する技術が知られている。当該圧縮技術によれば、画像データを直接圧縮して伝送する場合と比較して、高い圧縮率が実現できるとともに、画像データを直接圧縮して伝送する場合と同様に、伝送先の深層学習モデルの出力層において適切な処理結果を出力することができる。
特開2018-195231号公報 特開2019-036899号公報 特開2018-097662号公報 特開2019-029938号公報
 しかしながら、深層学習モデルの中間層より抽出される中間情報は、出力層において適切な処理結果を出力するのに必要な情報だけでなく、適切な処理結果を出力するのに必要でない情報も含まれる。
 一つの側面では、深層学習モデルより抽出される中間情報を圧縮する際の圧縮率を向上させることを目的とする。
 一態様によれば、画像処理装置は、
 深層学習モデルに画像データを入力した場合の処理結果に影響を与える、画像データの各画素の影響度を算出する算出部と、
 前記影響度に基づいて、前記深層学習モデルより抽出される中間情報の情報量を削減する削減部と、
 情報量が削減された前記中間情報を圧縮する圧縮部とを有する。
 深層学習モデルより抽出される中間情報を圧縮する際の圧縮率を向上させることができる。
図1は、画像処理システムのシステム構成の一例を示す図である。 図2は、エッジデバイスのハードウェア構成の一例を示す図である。 図3は、エッジデバイスの画像削減部、重要箇所抽出部及び圧縮部の機能構成の一例を示す第1の図である。 図4は、画像削減部及び重要箇所抽出部による処理の具体例を示す第1の図である。 図5は、エッジデバイスによる圧縮処理の流れを示す第1のフローチャートである。 図6は、エッジデバイスの画像削減部及び圧縮部の機能構成の一例を示す第2の図である。 図7は、画像削減部及び重要箇所抽出部による処理の具体例を示す第2の図である。 図8は、エッジデバイスによる圧縮処理の流れを示す第2のフローチャートである。 図9は、エッジデバイスの画像削減部、重要箇所抽出部及び圧縮部の機能構成の一例を示す第3の図である。 図10は、画像削減部及び重要箇所抽出部による処理の具体例を示す第3の図である。 図11は、エッジデバイスによる圧縮処理の流れを示す第3のフローチャートである。 図12は、エッジデバイスの画像削減部、重要箇所抽出部及び圧縮部の機能構成の一例を示す第4の図である。 図13は、画像削減部及び重要箇所抽出部による処理の具体例を示す第4の図である。 図14は、エッジデバイスによる圧縮処理の流れを示す第4のフローチャートである。
 以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。
 [第1の実施形態]
 <画像処理システムのシステム構成>
 はじめに、第1の実施形態に係る画像処理装置の一例であるエッジデバイスを含む、画像処理システム全体のシステム構成について説明する。図1は、画像処理システムのシステム構成の一例を示す図である。
 図1に示すように、画像処理システム100は、撮像装置110と、エッジデバイス120と、サーバ装置130とを有する。
 撮像装置110は、所定のフレーム周期で撮影を行い、画像データをエッジデバイス120に送信する。なお、画像データには、後述する深層学習モデルによる画像解析処理の対象となるオブジェクトが含まれている可能性があるものとする。画像データに後述する深層学習モデルによる画像解析処理の対象となるオブジェクトが含まれていない場合には、例えば、後述する画像加工によって、画像データ全体が無効化されることになる。
 エッジデバイス120には、画像処理プログラムがインストールされており、当該プログラムが実行されることで、エッジデバイス120は、画像削減部121、重要箇所抽出部122、圧縮部123として機能する。
 画像削減部121は削減部の一例であり、深層学習モデル140を有する。図1に示すように、本実施形態では、深層学習モデル140のうち、入力層から、中間情報(「特徴マップ」)が抽出される中間層(例えば、第2層)までの各層を、前段部と称す。また、深層学習モデル140のうち、特徴マップが抽出される中間層の次の層から、出力層までの各層を、後段部と称す。
 画像削減部121は、前段部に入力する画像データの情報量を削減することにより、前段部内において最も後ろに位置する中間層(例えば、第2層)より抽出される特徴マップの情報量を削減する。これにより、画像削減部121は「削減後特徴マップ」を生成する。また、画像削減部121は、生成した削減後特徴マップを圧縮部123に通知する。
 重要箇所抽出部122は算出部の一例であり、画像データのうち、深層学習モデル140による処理結果に影響を与える各画素の影響度を表す「重要特徴マップ」を生成する。生成した重要特徴マップは、画像削減部121に通知され、前段部に入力される画像データの情報量を削減する際に用いられる。
 圧縮部123は、画像削減部121より通知された削減後特徴マップに対して、量子化及び/または符号化処理を行うことで圧縮し、「圧縮後特徴マップ」を生成する。また、圧縮部123は、圧縮後特徴マップをサーバ装置130に伝送する。
 このように、第1の実施形態では、深層学習モデル140の中間層より抽出される特徴マップを圧縮する際、画像データの情報量を削減することで、特徴マップの情報量を削減し、削減後特徴マップを生成したうえで圧縮する。これにより、第1の実施形態によれば、特徴マップを圧縮する際の圧縮率を向上させることができる。
 サーバ装置130には、画像解析処理プログラムがインストールされており、当該プログラムが実行されることで、サーバ装置130は、復号部131と画像解析部132として機能する。
 復号部131は、エッジデバイス120より伝送された圧縮後特徴マップを受信し、受信した圧縮後特徴マップに対して、逆量子化及び/または復号処理を行うことで、削減後特徴マップを生成する。また、復号部131は、生成した削減後特徴マップを画像解析部132に通知する。
 画像解析部132は、深層学習モデル140の後段部を有し、復号部131より通知された削減後特徴マップを入力することで、出力層から処理結果を出力する。
 <エッジデバイスのハードウェア構成>
 次に、エッジデバイス120のハードウェア構成について説明する。図2は、エッジデバイスのハードウェア構成の一例を示す図である。エッジデバイス120は、プロセッサ201、メモリ202、補助記憶装置203、I/F(Interface)装置204、通信装置205、ドライブ装置206を有する。なお、エッジデバイス120の各ハードウェアは、バス207を介して相互に接続されている。
 プロセッサ201は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)等の各種演算デバイスを有する。プロセッサ201は、各種プログラム(例えば、画像処理プログラム等)をメモリ202上に読み出して実行する。
 メモリ202は、ROM(Read Only Memory)、RAM(Random Access Memory)等の主記憶デバイスを有する。プロセッサ201とメモリ202とは、いわゆるコンピュータを形成し、プロセッサ201が、メモリ202上に読み出した各種プログラムを実行することで、当該コンピュータは各種機能(画像削減部121、重要箇所抽出部122及び圧縮部123)を実現する。なお、各種機能の機能構成の詳細は後述する。
 補助記憶装置203は、各種プログラムや、各種プログラムがプロセッサ201によって実行される際に用いられる各種データを格納する。
 I/F装置204は、外部装置の一例である操作装置210、表示装置211とエッジデバイス120とを接続する接続デバイスである。I/F装置204は、エッジデバイス120に対する操作を、操作装置210を介して受け付ける。また、I/F装置204は、エッジデバイス120による内部処理の結果を出力し、表示装置211を介して表示する。
 通信装置205は、他の装置と通信するための通信デバイスである。画像処理システム100の場合、エッジデバイス120は、通信装置205を介して撮像装置110及びサーバ装置130と通信する。
 ドライブ装置206は記録媒体212をセットするためのデバイスである。ここでいう記録媒体212には、CD-ROM、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記録媒体212には、ROM、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。
 なお、補助記憶装置203にインストールされる各種プログラムは、例えば、配布された記録媒体212がドライブ装置206にセットされ、該記録媒体212に記録された各種プログラムがドライブ装置206により読み出されることでインストールされる。あるいは、補助記憶装置203にインストールされる各種プログラムは、通信装置205を介してネットワークからダウンロードされることで、インストールされてもよい。
 <画像削減部、重要箇所抽出部及び圧縮部の機能構成>
 次に、エッジデバイス120において、画像処理プログラムが実行されることで実現される各種機能(画像削減部121、重要箇所抽出部122及び圧縮部123)の機能構成の詳細について説明する。図3は、エッジデバイスの画像削減部、重要箇所抽出部及び圧縮部の機能構成の一例を示す第1の図である。
 図3に示すように、画像削減部121は、前段部301、後段部302、誤差算出部303、画像加工部304を有する。
 前段部301は、深層学習モデル140のうち、入力層から、特徴マップが抽出される中間層までの各層を有する。前段部301は、画像データが入力されることで、中間層から特徴マップを抽出し、後段部302に通知する。また、前段部301は、「削減後画像データ」が入力されることで、中間層から削減後特徴マップを抽出し、圧縮部123に通知する。なお、削減後画像データとは、重要特徴マップに基づいて画像データを加工することで生成される画像であり、画像加工部304によって生成される(詳細は後述)。
 後段部302は、深層学習モデル140のうち、特徴マップが抽出される中間層の次の層から、出力層までの各層を有する。後段部302は特徴マップが入力されることで、出力層から処理結果が出力される。また、後段部302は、出力層から出力された処理結果を誤差算出部303に通知する。
 誤差算出部303は、後段部302より通知された処理結果と、基準結果との誤差を算出する。基準結果とは、画像データに含まれるオブジェクト(正解データ)について予め定められた分類確率を指す。例えば、画像処理システム100が、画像データ内に映る人間の行動解析を行うのに用いる処理結果を提供することを目的とするシステムであった場合、画像削減部121では、例えば、
・画像データの所定の領域(x、y、h、w)のオブジェクトを人間と認識する分類確率を0.8、
・画像データの所定の領域(x、y、h、w)のオブジェクトを人間以外のオブジェクトと認識する分類確率を0.1、
とするデータセット等が基準結果として規定される。
 また、処理結果と基準結果との誤差とは、例えば、後段部302より通知される処理結果の各オブジェクトの分類確率と、基準結果の各オブジェクトの分類確率との差分を指す。なお、誤差には、分類確率の差分に加えて、後段部302より通知される処理結果に含まれる所定の領域と、基準結果に含まれる所定の領域とのずれ量を示す指標(例えば、IoU(Intersection Over Union))が含まれていてもよい。
 また、誤差算出部303では、算出した誤差を逆伝播させる。これにより、重要箇所抽出部122では、画像データのうち、深層学習モデル140による処理結果に影響を与える各画素の影響度を表す重要特徴マップを生成することができる。
 なお、誤差算出部303が誤差を逆伝播させる方法には、"通常の逆誤差伝播"、"Guided Backpropagation"、"選択的逆誤差伝播"、"拡張選択的逆誤差伝播"等の複数の方法が含まれる。
 通常の逆誤差伝播とは、後段部302より通知された処理結果すべての誤差を逆伝播させる方法である。また、Guided Backpropagationとは、前段部301、後段部302における各層で計算する勾配のうち、正値の勾配のみを用いて誤差を逆伝播させる方法である。
 また、選択的逆誤差伝播とは、後段部302より通知された処理結果のうち、正解の処理結果の誤差のみを、"通常の逆誤差伝播"または"Guided Backpropagation"により逆伝播させる方法である。
 拡張選択的逆誤差伝播とは、後段部302より通知された処理結果に対して所定の操作をすることで得られる大小の誤差を、"通常の逆誤差伝播"または"Guided Backpropagation"により逆伝播させる方法である。
 画像加工部304は、後述する重要箇所抽出部122より通知された重要特徴マップを用いて、画像データを加工することで画像データの情報量を削減し、削減後画像データを生成する。具体的には、画像加工部304は、重要箇所抽出部122より通知された重要特徴マップの各画素の影響度に基づいて画像データを加工することで、画像データの情報量を削減し、削減後画像データを生成する。
 なお、画像加工部304による画像データの加工方法は任意であり、例えば、重要特徴マップにおいて影響度が所定の閾値以下の画素を特定し、特定した画素の画像データにおける画素値をゼロにしてもよい(特定した画素を無効化してもよい)。あるいは、重要特徴マップにおいて影響度が所定の閾値以下の画素を特定し、特定した画素を対象に画像データに対してローパスフィルタをかけてもよい。あるいは、重要特徴マップにおいて影響度が所定の閾値以下の画素を特定し、特定した画素を対象に画像データの色を削減してもよい。つまり、画像データの加工とは、不要な特徴を深層学習モデル140が特徴と捉えないように画像データを加工することであり、その目的を果たす加工方法であれば、任意の加工方法が許容される。
 また、画像加工部304は、生成した削減後画像データを前段部301に通知する。なお、上述したように、削減後画像データが通知された前段部301では、中間層から削減後特徴マップを抽出し、圧縮部123に通知する。
 重要箇所抽出部122は、逆伝播された誤差を用いて重要特徴マップを生成する。上述したように、重要特徴マップは、画像データの各画素が処理結果にどの程度影響を与えたかの影響度を表している。重要箇所抽出部122は、生成した重要特徴マップを画像加工部304に通知する。
 また、図3に示すように、圧縮部123は、量子化部311、符号化部312を有する。
 量子化部311は、画像削減部121の前段部301より通知された削減後特徴マップを量子化し、符号化部312に通知する。
 符号化部312は、量子化部311より通知された、量子化された削減後特徴マップに対して、例えば、エントロピ符号化処理を行うことで、あるいは、他の任意の圧縮処理を行うことで、圧縮後特徴マップを生成する。また、符号化部312は、生成した圧縮後特徴マップを、サーバ装置130に伝送する。
 <画像削減部及び重要箇所抽出部の処理の具体例>
 次に、エッジデバイス120の画像削減部121及び重要箇所抽出部122による処理の具体例について説明する。図4は、画像削減部及び重要箇所抽出部による処理の具体例を示す第1の図である。図4に示すように、画像削減部121では、画像データ410が入力されると、前段部301及び後段部302が動作し、処理結果を出力する。続いて、画像削減部121では、誤差算出部303が動作し、処理結果と基準結果との誤差を算出した後、算出した誤差を逆伝播させる。
 続いて、重要箇所抽出部122が動作し、逆伝播された誤差を用いて重要特徴マップ420を生成する。なお、図4に示す重要特徴マップ420の場合、処理結果に対して影響度の大きい画素を白色で、影響度の小さい画素を黒色で示している。
 続いて、画像削減部121では、画像加工部304が動作し、画像データ410のうち、重要特徴マップ420において影響度が所定の閾値以下となる画素を無効化することで、削減後画像データ430を生成する。
 続いて、画像削減部121では、削減後画像データ430を前段部301に入力することで、前段部301を再度動作させ、前段部301の中間層(図4の例では第2層)から、特徴マップを抽出する。更に、画像削減部121では、抽出した特徴マップを、削減後特徴マップとして、圧縮部123に通知する。
 <エッジデバイスによる圧縮処理の流れ>
 次に、エッジデバイス120による圧縮処理の流れについて説明する。図5は、エッジデバイスによる圧縮処理の流れを示す第1のフローチャートである。
 ステップS501において、エッジデバイス120の画像削減部121の各部(ここでは、前段部301、後段部302)及び重要箇所抽出部122を初期化する。
 ステップS502において、エッジデバイス120の画像削減部121は、前段部301を動作させる。前段部301は、画像データが入力されることで、特徴マップを抽出する。
 ステップS503において、エッジデバイス120の画像削減部121は、後段部302を動作させる。後段部302は、特徴マップが入力されることで、処理結果を出力する。
 ステップS504において、エッジデバイス120の画像削減部121は、誤差算出部303を動作させる。誤差算出部303は、処理結果と基準結果との誤差を算出することで、算出した誤差を逆伝播させる。
 ステップS505において、エッジデバイス120の重要箇所抽出部122は、逆伝播された誤差を用いて重要特徴マップを生成する。
 ステップS506において、エッジデバイス120の画像削減部121は、画像加工部304を動作させる。画像加工部304は、重要特徴マップに基づき画像データを加工することで画像データの情報量を削減し、削減後画像データを生成する。
 ステップS507において、エッジデバイス120の画像削減部121は、前段部301を再度動作させる。前段部301は、削減後画像データが入力されることで、削減後特徴マップを抽出する。
 ステップS508において、エッジデバイス120の圧縮部123は、量子化部311及び/または符号化部312を動作させる。量子化部311及び/または符号化部312は、削減後特徴マップに対して量子化及び/または符号化処理を行うことで、圧縮後特徴マップを生成する。
 ステップS509において、エッジデバイス120の圧縮部123は、圧縮後特徴マップを、サーバ装置130に伝送する。
 ステップS510において、エッジデバイス120の画像削減部121は、圧縮処理を終了するか否かを判定し、継続すると判定した場合には(ステップS510においてNoの場合には)、ステップS502に戻る。
 一方、ステップS510において、圧縮処理を終了すると判定した場合には(ステップS510においてYesの場合には)、圧縮処理を終了する。
 以上の説明から明らかなように、第1の実施形態に係る画像処理装置(エッジデバイス120)は、深層学習モデル140に画像データを入力した場合の処理結果に影響を与える、画像データの各画素の影響度を算出し、重要特徴マップを生成する。また、第1の実施形態に係る画像処理装置(エッジデバイス120)は、重要特徴マップに基づいて画像データを加工することで、画像データの情報量を削減する。また、第1の実施形態に係る画像処理装置(エッジデバイス120)は、削減後画像データを深層学習モデルに入力することで、深層学習モデルの中間層より抽出される特徴マップの情報量を削減する。更に、第1の実施形態に係る画像処理装置(エッジデバイス120)は、情報量を削減した削減後特徴マップを圧縮する。
 この結果、第1の実施形態によれば、深層学習モデルより抽出される特徴マップを圧縮する際の圧縮率を向上させることができる。
 [第2の実施形態]
 上記第1の実施形態では、重要特徴マップを生成する際、逆伝播された誤差を用いるものとして説明した。これに対して、第2の実施形態では、重要特徴マップを生成する際、前段部の各層より抽出される各特徴マップを用いる。以下、第2の実施形態について、上記第1の実施形態との相違点を中心に説明する。
 <画像削減部、重要箇所抽出部及び圧縮部の機能構成>
 はじめに、第2の実施形態に係る画像処理装置の一例であるエッジデバイス120の画像削減部、重要箇所抽出部及び圧縮部の機能構成の詳細について説明する。図6は、エッジデバイスの画像削減部、重要箇所抽出部及び圧縮部の機能構成の一例を示す第2の図である。
 図6に示すように、画像削減部600は削減部の他の一例であり、前段部601、画像加工部304を有する。
 前段部601は、深層学習モデル140のうち、入力層から中間層までの各層を有する。前段部601は画像データが入力されることで、各層から抽出される特徴マップ(例えば、第1層から抽出される特徴マップ1、第2層から抽出される特徴マップ2、・・・)を、重要箇所抽出部610に通知する。
 また、前段部601は、削減後画像データが入力されることで、前段部601内において最も後ろに位置する中間層より抽出される削減後特徴マップを、圧縮部123に通知する。
 画像加工部304は、重要箇所抽出部610より通知された重要特徴マップを用いて、画像データを加工することで、画像データの情報量を削減し、削減後画像データを生成する。具体的には、画像加工部304は、重要箇所抽出部610より通知された重要特徴マップの各画素の注目度に応じて画像データを加工することで、画像データの情報量を削減し、削減後画像データを生成する。
 また、画像加工部304は、生成した削減後画像データを前段部601に通知する。なお、上述したように、削減後画像データが通知された前段部601では、中間層から削減後特徴マップを抽出し、圧縮部123に通知する。
 重要箇所抽出部610は算出部の他の一例であり、前段部601より通知される各層の特徴マップを、重み付け加算することで、重要特徴マップを生成する。なお、第2の実施形態において、重要特徴マップは、前段部601の各層が画像データを処理する際、どの画素に注目したかの注目度を表している。重要箇所抽出部610は、生成した重要特徴マップを画像加工部304に通知する。
 また、図6に示す圧縮部123は、図3に示す圧縮部123と同じであるため、ここでは説明を省略する。
 <画像削減部及び重要箇所抽出部の処理の具体例>
 次に、エッジデバイス120の画像削減部600及び重要箇所抽出部610による処理の具体例について説明する。図7は、画像削減部及び重要箇所抽出部による処理の具体例を示す第2の図である。図7に示すように、画像削減部600では、画像データ410が入力されると、前段部601が動作し、各層より特徴マップが抽出される。図7の例は、前段部601が入力層、第1層、第2層を有し、第1層より特徴マップ1が抽出され、第2層より特徴マップ2が抽出された様子を示している。
 続いて、重要箇所抽出部610が動作し、前段部601から抽出された各特徴マップを重み付け加算することで、重要特徴マップ710を生成する。なお、図7の例では、重要特徴マップ710のうち、注目度の大きい画素を白色で、注目度の小さい画素を黒色で示している。
 続いて、画像削減部121では、画像加工部304が動作し、画像データ410のうち、重要特徴マップ710において注目度が所定の閾値以下となる画素を無効化することで、削減後画像データ720を生成する。
 続いて、画像削減部600では、削減後画像データ720を前段部601に入力することで、前段部601を再度動作させ、前段部601内において最も後ろに位置する中間層(図7の例では第2層)から、特徴マップを抽出する。更に、画像削減部600では、抽出した特徴マップを、削減後特徴マップとして、圧縮部123に通知する。
 <エッジデバイスによる圧縮処理の流れ>
 次に、エッジデバイス120による圧縮処理の流れについて説明する。図7は、エッジデバイスによる圧縮処理の流れを示す第2のフローチャートである。図5を用いて説明した第1のフローチャートとの相違点は、ステップS801、S802である。
 ステップS801において、エッジデバイス120の画像削減部600は、前段部601を動作させる。前段部601は、画像データが入力されることで、各層から特徴マップを抽出する。
 ステップS802において、エッジデバイス120の重要箇所抽出部610は、前段部601の各層より抽出された各特徴マップを重み付け加算することで、重要特徴マップを生成する。
 以上の説明から明らかなように、第2の実施形態に係る画像処理装置(エッジデバイス120)は、深層学習モデル140に画像データを入力した場合に各層が注目する、画像データの各画素の注目度を算出し、重要特徴マップを生成する。また、第2の実施形態に係る画像処理装置(エッジデバイス120)は、重要特徴マップに基づいて画像データを加工することで画像データの情報量を削減する。また、第2の実施形態に係る画像処理装置(エッジデバイス120)は、削減後画像データを深層学習モデルに入力することで、深層学習モデルの中間層より抽出される特徴マップの情報量を削減する。更に、第2の実施形態に係る画像処理装置(エッジデバイス120)は、情報量を削減した削減後特徴マップを圧縮する。
 この結果、第2の実施形態によれば、深層学習モデルより抽出される特徴マップを圧縮する際の圧縮率を向上させることができる。
 [第3の実施形態]
 上記第1の実施形態では、重要特徴マップに基づいて画像データを加工することで画像データの情報量を削減し、削減後画像データを深層学習モデルに入力することで、深層学習モデルの中間層より抽出される特徴マップの情報量を削減する場合について説明した。
 これに対して、第3の実施形態では、深層学習モデルの中間層より抽出される特徴マップの情報量を、重要特徴マップに基づいて直接削減する場合について説明する。以下、第3の実施形態について、上記第1の実施形態との相違点を中心に説明する。
 <画像削減部、重要箇所抽出部及び圧縮部の機能構成>
 はじめに、第3の実施形態に係る画像処理装置の一例であるエッジデバイス120の画像削減部、重要箇所抽出部及び圧縮部の機能構成の詳細について説明する。図9は、エッジデバイスの画像削減部、重要箇所抽出部及び圧縮部の機能構成の一例を示す第3の図である。
 図9に示すように、画像削減部900は削減部の他の一例であり、前段部901、後段部302、誤差算出部303、特徴マップ加工部902を有する。
 前段部901は、深層学習モデル140のうち、入力層から、特徴マップが抽出される中間層までの各層を有する。前段部901は画像データが入力されることで、中間層から特徴マップを抽出し、後段部302及び特徴マップ加工部902に通知する。
 後段部302及び誤差算出部303は、上記第1の実施形態において、図3を用いて説明した後段部302及び誤差算出部303と同じであるため、ここでは説明を省略する。
 特徴マップ加工部902は、重要箇所抽出部910より通知された重要特徴マップに基づいて特徴マップを加工することで特徴マップの情報量を削減し、削減後特徴マップを生成する。具体的には、特徴マップ加工部902は、重要箇所抽出部910より通知された重要特徴マップの各画素の影響度に基づいて特徴マップを加工することで、特徴マップの情報量を削減し、削減後特徴マップを生成する。
 なお、特徴マップ加工部902による特徴マップの加工方法は任意である。例えば、重要特徴マップにおいて影響度が所定の閾値以下の画素を特定し、特定した画素の特徴マップにおける画素値をゼロにしてもよい(特定した画素を無効化してもよい)。あるいは、重要特徴マップにおいて影響度が所定の閾値以下の画素を特定し、特定した画素を対象に特徴マップに対してローパスフィルタをかけてもよい。
 また、特徴マップ加工部902は、生成した削減後特徴マップを圧縮部123に通知する。
 重要箇所抽出部910は算出部の他の一例であり、逆伝播された誤差を用いて重要特徴マップを生成する。上記第1の実施形態で説明したように、重要特徴マップは、画像データの各画素が処理結果にどの程度影響を与えたかの影響度を表している。重要箇所抽出部910は、生成した重要特徴マップを特徴マップ加工部902に通知する。
 また、図9に示す圧縮部123は、図3に示す圧縮部123と同じであるため、ここでは説明を省略する。
 <画像削減部及び重要箇所抽出部の処理の具体例>
 次に、エッジデバイス120の画像削減部900及び重要箇所抽出部910による処理の具体例について説明する。図9は、画像削減部及び重要箇所抽出部による処理の具体例を示す第3の図である。図10に示すように、画像削減部900では、画像データ410が入力されると、前段部301が動作し、特徴マップを抽出するとともに、後段部302が動作し、処理結果を出力する。
 続いて、画像削減部900では、誤差算出部303が動作し、処理結果と基準結果との誤差を算出した後、算出した誤差を逆伝播させる。
 続いて、重要箇所抽出部910が動作し、逆伝播された誤差を用いて重要特徴マップ420を生成する。
 続いて、画像削減部900では、特徴マップ加工部902が動作し、前段部901より抽出された特徴マップについて、重要特徴マップ420において影響度が所定の閾値以下となる画素を無効化することで、削減後特徴マップを生成する。
 <エッジデバイスによる圧縮処理の流れ>
 次に、エッジデバイス120による圧縮処理の流れについて説明する。図11は、エッジデバイスによる圧縮処理の流れを示す第3のフローチャートである。図5を用いて説明した第1のフローチャートとの相違点は、ステップS1101である。
 ステップS1101において、エッジデバイス120の画像削減部900は、特徴マップ加工部902を動作させる。特徴マップ加工部902は、重要特徴マップに基づいて特徴マップを加工することで、特徴マップの情報量を削減し、削減後特徴マップを生成する。
 以上の説明から明らかなように、第3の実施形態に係る画像処理装置(エッジデバイス120)は、深層学習モデル140に画像データを入力した場合の処理結果に影響を与える、画像データの各画素の影響度を算出し、重要特徴マップを生成する。また、第3の実施形態に係る画像処理装置(エッジデバイス120)は、深層学習モデルの中間層より抽出される特徴マップを、重要特徴マップに基づいて加工することで、特徴マップの情報量を削減する。更に、第3の実施形態に係る画像処理装置(エッジデバイス120)は、情報量を削減した削減後特徴マップを圧縮する。
 この結果、第3の実施形態によれば、深層学習モデルより抽出される特徴マップを圧縮する際の圧縮率を向上させることができる。
 [第4の実施形態]
 上記第2の実施形態では、重要特徴マップに基づいて画像データを加工することで画像データの情報量を削減し、削減後画像データを深層学習モデルに入力することで、深層学習モデルの中間層より抽出される特徴マップの情報量を削減する場合について説明した。
 これに対して、第4の実施形態では、深層学習モデルの中間層より抽出される特徴マップの情報量を重要特徴マップに基づいて直接削減する場合について説明する。以下、第4の実施形態について、上記第2の実施形態との相違点を中心に説明する。
 <画像削減部、重要箇所抽出部及び圧縮部の機能構成>
 はじめに、第4の実施形態に係る画像処理装置の一例であるエッジデバイス120の画像削減部、重要箇所抽出部及び圧縮部の機能構成の詳細について説明する。図12は、エッジデバイスの画像削減部、重要箇所抽出部及び圧縮部の機能構成の一例を示す第4の図である。
 図12に示すように、画像削減部1200は削減部の他の一例であり、前段部601、特徴マップ加工部1201を有する。
 前段部601は、上記第2の実施形態において図6を用いて説明した前段部601と同じであるため、ここでは説明を省略する。
 特徴マップ加工部1201は、重要箇所抽出部1210より通知された重要特徴マップを用いて、特徴マップを加工することで特徴マップの情報量を削減し、削減後特徴マップを生成する。具体的には、特徴マップ加工部1201は、重要箇所抽出部1210より通知された重要特徴マップの各画素の注目度に応じて特徴マップを加工することで、特徴マップの情報量を削減し、削減後特徴マップを圧縮部123に通知する。
 重要箇所抽出部1210は算出部の他の一例であり、前段部601より通知される各層の特徴マップを、重み付け加算することで、重要特徴マップを生成する。なお、上記第2の実施形態で説明したように、重要特徴マップは、前段部601の各層が画像データを処理する際、どの画素に注目したかの注目度を表している。重要箇所抽出部1210は、生成した重要特徴マップを特徴マップ加工部1201に通知する。
 また、図12に示す圧縮部123は、図3に示す圧縮部123と同じであるため、ここでは説明を省略する。
 <画像削減部及び重要箇所抽出部の処理の具体例>
 次に、エッジデバイス120の画像削減部1200及び重要箇所抽出部1210による処理の具体例について説明する。図13は、画像削減部及び重要箇所抽出部による処理の具体例を示す第4の図である。図13に示すように、画像削減部1200では、画像データ410が入力されると、前段部601が動作し、各層より特徴マップが抽出される。図13の例は、前段部601が入力層、第1層、第2層を有し、第1層より特徴マップ1が抽出され、第2層より特徴マップ2が抽出された様子を示している。
 続いて、重要箇所抽出部1210が動作し、前段部601から抽出された各特徴マップを重み付け加算することで、重要特徴マップ710を生成する。
 続いて、画像削減部1200では、特徴マップ加工部1201が動作する。特徴マップ加工部1201は、前段部601より抽出された特徴マップ(前段部601内において最も後ろに位置する中間層(図13の例では、第2層)から抽出された特徴マップ)を取得する。また、特徴マップ加工部1201は、取得した特徴マップのうち、重要特徴マップ710において注目度が所定の閾値以下となる画素を無効化することで、削減後特徴マップを生成する。
 <エッジデバイスによる圧縮処理の流れ>
 次に、エッジデバイス120による圧縮処理の流れについて説明する。図14は、エッジデバイスによる圧縮処理の流れを示す第4のフローチャートである。図8を用いて説明した第2のフローチャートとの相違点は、ステップS1401である。
 ステップS1401において、エッジデバイス120の画像削減部1200は、特徴マップ加工部1201を動作させる。特徴マップ加工部1201は、重要特徴マップに基づいて特徴マップを加工することで、特徴マップの情報量を削減し、削減後特徴マップを生成する。
 以上の説明から明らかなように、第4の実施形態に係る画像処理装置(エッジデバイス120)は、深層学習モデル140に画像データを入力した場合に各層が注目する、画像データの各画素の注目度を算出し、重要特徴マップを生成する。また、第4の実施形態に係る画像処理装置(エッジデバイス120)は、深層学習モデルの中間層より抽出される特徴マップを、重要特徴マップに基づいて加工することで、特徴マップの情報量を削減する。更に、第4の実施形態に係る画像処理装置(エッジデバイス120)は、情報量を削減した削減後特徴マップを圧縮する。
 この結果、第4の実施形態によれば、深層学習モデルより抽出される特徴マップを圧縮する際の圧縮率を向上させることができる。
 [その他の実施形態]
 上記第1及び第2の実施形態では、重要特徴マップの生成に用いられる画像データと、重要特徴マップに基づいて加工される画像データとが同一の画像データであるとして説明した。しかしながら、重要特徴マップの生成に用いられる画像データと、重要特徴マップに基づいて加工される画像データとは、異なるタイミングで撮影された画像データであってもよい。ただし、異なるタイミングで撮影された画像データの場合、両画像データの時間間隔に応じて重要特徴マップを変換し、変換後の重要特徴マップに基づいて画像データを加工するものとする。
 同様に、上記第3及び第4の実施形態では、重要特徴マップの生成に用いられる画像データと、重要特徴マップに基づいて加工される特徴マップが抽出された際の画像データとが同一の画像データであるとして説明した。しかしながら、重要特徴マップの生成に用いられる画像データと、重要特徴マップに基づいて加工される特徴マップが抽出された際の画像データとは、異なるタイミングで撮影された画像データであってもよい。ただし、異なるタイミングで撮影された画像データの場合、両画像データの時間間隔に応じて重要特徴マップを変換し、変換後の重要特徴マップに基づいて特徴マップを加工するものとする。
 また、上記第1乃至第4の実施形態では言及しなかったが、重要特徴マップの生成に用いられる画像データと、重要特徴マップに基づいて加工される画像データとは、異なるタイミングで撮影されたものであってもよい。あるいは、重要特徴マップの生成に用いられる画像データと、重要特徴マップに基づいて加工される特徴マップが抽出された際の画像データとは、異なるタイミングで撮影された画像データであってもよい。
 また、上記第1乃至第4の実施形態において説明した画像削減部121、600、900、1200内の各構成要素は、上記第1乃至第4の実施形態において例示した箇所に配置されていなくてもよい。同様に、上記第1乃至第4の実施形態において説明した重要箇所抽出部122、610、910、1210内の各構成要素は、上記第1乃至第4の実施形態において例示した箇所に配置されていなくてもよい。例えば、各構成要素はネットワークを介して接続された他の装置に配置されていてもよい。また、各構成要素は、複数の装置に配置されていてもよい。
 なお、本開示の真意は、深層学習モデル140が画像解析処理する際に、
・対象となるオブジェクトを抽出するための各画素の重要度を、深層学習モデル140のいずれかの箇所の情報から抽出し、
・抽出した情報に基づき、画像データを含む深層学習モデル140の処理過程のいずれか(中間情報の情報量を削減する効果がある箇所)で情報量を削減すること、
にあり、その目的を満たす情報の抽出手法は、上記各実施形態で示した抽出手法以外の手法であってもよい。
 また、情報の抽出は、上記各実施形態で例示したように、深層学習モデル140の前段部、後段部等の情報の抽出に必要な部分において行われてもよい。情報の抽出に必要な部分とは、上記各実施形態で例示した部分でもよいし、その一部でも、他の部分でもよい。つまり、上記情報の抽出手法の目的を満たしていればよい。
 また、上記第1の実施形態で述べた拡張選択的逆誤差伝播を実施するにあたっては、深層学習モデル140の任意の箇所の誤差を用いてもよい。例えば、上記第1の実施形態において、拡張選択的逆誤差伝播により重要特徴マップを導出する際、後段部はなくてもよい。
 また、上記各実施形態で示した圧縮部123は、画像削減部121より通知された削減後特徴マップに対して、量子化及び/または符号化処理を行うことで圧縮するが、単一の削減後特徴マップに対して量子化及び/または符号化処理を行うことで圧縮してもよい。あるいは、複数の削減後特徴マップの相関性を用いて量子化及び/または符号化処理を行うことで圧縮してもよい。複数の削減後特徴マップの相関性を用いる例としては、動画像などが挙げられる。
 なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。
 100   :画像処理システム
 110   :撮像装置
 120   :エッジデバイス
 121   :画像削減部
 122   :重要箇所抽出部
 123   :圧縮部
 130   :サーバ装置
 131   :復号部
 132   :画像解析部
 140   :深層学習モデル
 201   :プロセッサ
 202   :メモリ
 203   :補助記憶装置
 204   :I/F装置
 205   :通信装置
 206   :ドライブ装置
 210   :操作装置
 211   :表示装置
 212   :記録媒体
 301   :前段部
 302   :後段部
 303   :誤差算出部
 304   :画像加工部
 310   :圧縮部
 311   :量子化部
 312   :符号化部
 410   :画像データ
 420   :重要特徴マップ
 430   :削減後画像データ
 600   :画像削減部
 601   :前段部
 610   :重要箇所抽出部
 710   :重要特徴マップ
 720   :削減後画像データ
 900   :画像削減部
 901   :前段部
 902   :特徴マップ加工部
 910   :重要箇所抽出部
 1200  :画像削減部
 1201  :特徴マップ加工部
 1210  :重要箇所抽出部

Claims (10)

  1.  深層学習モデルに画像データを入力した場合の処理結果に影響を与える、画像データの各画素の影響度を算出する算出部と、
     前記影響度に基づいて、前記深層学習モデルより抽出される中間情報の情報量を削減する削減部と、
     情報量が削減された前記中間情報を圧縮する圧縮部と
     を有する画像処理装置。
  2.  前記削減部は、
     前記影響度が所定の閾値以下の前記画像データの画素を加工し、加工した前記画像データを前記深層学習モデルに入力することで、前記深層学習モデルより抽出される前記中間情報の情報量を削減する、請求項1に記載の画像処理装置。
  3.  前記削減部は、
     前記影響度が所定の閾値以下の前記中間情報の画素を加工することで、前記中間情報の情報量を削減する、請求項1に記載の画像処理装置。
  4.  深層学習モデルに画像データを入力した場合に各層が注目する、画像データの各画素の注目度を算出する算出部と、
     前記注目度に基づいて、前記深層学習モデルより抽出される中間情報の情報量を削減する削減部と、
     情報量が削減された前記中間情報を圧縮する圧縮部と
     を有する画像処理装置。
  5.  前記削減部は、
     前記注目度が所定の閾値以下の前記画像データの画素を加工し、加工した前記画像データを前記深層学習モデルに入力することで、前記深層学習モデルより抽出される前記中間情報の情報量を削減する、請求項4に記載の画像処理装置。
  6.  前記削減部は、
     前記注目度が所定の閾値以下の前記中間情報の画素を加工することで、前記中間情報の情報量を削減する、請求項4に記載の画像処理装置。
  7.  深層学習モデルに画像データを入力した場合の処理結果に影響を与える、画像データの各画素の影響度を算出し、
     前記影響度に基づいて、前記深層学習モデルより抽出される中間情報の情報量を削減し、
     情報量が削減された前記中間情報を圧縮する、
     処理をコンピュータが実行する画像処理方法。
  8.  深層学習モデルに画像データを入力した場合に各層が注目する、画像データの各画素の注目度を算出し、
     前記注目度に基づいて、前記深層学習モデルより抽出される中間情報の情報量を削減し、
     情報量が削減された前記中間情報を圧縮する、
     処理をコンピュータが実行する画像処理方法。
  9.  深層学習モデルに画像データを入力した場合の処理結果に影響を与える、画像データの各画素の影響度を算出し、
     前記影響度に基づいて、前記深層学習モデルより抽出される中間情報の情報量を削減し、
     情報量が削減された前記中間情報を圧縮する、
     処理をコンピュータに実行させるための画像処理プログラム。
  10.  深層学習モデルに画像データを入力した場合に各層が注目する、画像データの各画素の注目度を算出し、
     前記注目度に基づいて、前記深層学習モデルより抽出される中間情報の情報量を削減し、
     情報量が削減された前記中間情報を圧縮する、
     処理をコンピュータに実行させるための画像処理プログラム。
PCT/JP2020/046729 2020-12-15 2020-12-15 画像処理装置、画像処理方法及び画像処理プログラム WO2022130496A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2020/046729 WO2022130496A1 (ja) 2020-12-15 2020-12-15 画像処理装置、画像処理方法及び画像処理プログラム
JP2022569366A JPWO2022130496A1 (ja) 2020-12-15 2020-12-15
US18/300,433 US20230252683A1 (en) 2020-12-15 2023-04-14 Image processing device, image processing method, and computer-readable recording medium storing image processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/046729 WO2022130496A1 (ja) 2020-12-15 2020-12-15 画像処理装置、画像処理方法及び画像処理プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/300,433 Continuation US20230252683A1 (en) 2020-12-15 2023-04-14 Image processing device, image processing method, and computer-readable recording medium storing image processing program

Publications (1)

Publication Number Publication Date
WO2022130496A1 true WO2022130496A1 (ja) 2022-06-23

Family

ID=82057414

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/046729 WO2022130496A1 (ja) 2020-12-15 2020-12-15 画像処理装置、画像処理方法及び画像処理プログラム

Country Status (3)

Country Link
US (1) US20230252683A1 (ja)
JP (1) JPWO2022130496A1 (ja)
WO (1) WO2022130496A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024057374A1 (ja) * 2022-09-12 2024-03-21 日本電信電話株式会社 抽出システム、抽出方法および抽出プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020092329A (ja) * 2018-12-05 2020-06-11 日本電信電話株式会社 画像処理装置、学習装置、画像処理方法、学習方法、及びプログラム
JP2020113809A (ja) * 2019-01-08 2020-07-27 ソニー株式会社 固体撮像素子およびその信号処理方法、並びに電子機器
JP2020191631A (ja) * 2019-05-22 2020-11-26 富士通株式会社 画像符号化装置、確率モデル生成装置及び画像圧縮システム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020092329A (ja) * 2018-12-05 2020-06-11 日本電信電話株式会社 画像処理装置、学習装置、画像処理方法、学習方法、及びプログラム
JP2020113809A (ja) * 2019-01-08 2020-07-27 ソニー株式会社 固体撮像素子およびその信号処理方法、並びに電子機器
JP2020191631A (ja) * 2019-05-22 2020-11-26 富士通株式会社 画像符号化装置、確率モデル生成装置及び画像圧縮システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CHOI HYOMIN; BAJIC IVAN V.: "High Efficiency Compression for Object Detection", 2018 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP), IEEE, 15 April 2018 (2018-04-15), pages 1792 - 1796, XP033401964, DOI: 10.1109/ICASSP.2018.8462653 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024057374A1 (ja) * 2022-09-12 2024-03-21 日本電信電話株式会社 抽出システム、抽出方法および抽出プログラム
WO2024057578A1 (ja) * 2022-09-12 2024-03-21 日本電信電話株式会社 抽出システム、抽出方法および抽出プログラム

Also Published As

Publication number Publication date
US20230252683A1 (en) 2023-08-10
JPWO2022130496A1 (ja) 2022-06-23

Similar Documents

Publication Publication Date Title
US11861816B2 (en) System and method for detecting image forgery through convolutional neural network and method for providing non-manipulation detection service using the same
WO2019153830A1 (zh) 行人再识别方法、装置、电子设备和存储介质
WO2018166438A1 (zh) 图像处理方法、装置及电子设备
US20190362171A1 (en) Living body detection method, electronic device and computer readable medium
CN108235116B (zh) 特征传播方法和装置、电子设备和介质
CN112508782B (zh) 网络模型的训练方法、人脸图像超分辨率重建方法及设备
US20200380261A1 (en) Resource optimization based on video frame analysis
CN113191495A (zh) 超分模型的训练及人脸识别方法、装置、介质及电子设备
CN109743566B (zh) 一种用于识别vr视频格式的方法与设备
WO2022064656A1 (ja) 処理システム、処理方法及び処理プログラム
Xu et al. Video salient object detection using dual-stream spatiotemporal attention
Wang et al. Skip-connection convolutional neural network for still image crowd counting
US20230252683A1 (en) Image processing device, image processing method, and computer-readable recording medium storing image processing program
CN113379707A (zh) 一种基于动态滤波解耦卷积网络的rgb-d显著性检测方法
CN114998814B (zh) 目标视频生成方法、装置、计算机设备和存储介质
WO2019150649A1 (ja) 画像処理装置および画像処理方法
CN111861877A (zh) 视频超分变率的方法和装置
CN112052863B (zh) 一种图像检测方法及装置、计算机存储介质、电子设备
CN111539420B (zh) 基于注意力感知特征的全景图像显著性预测方法及系统
CN113450276A (zh) 视频图像增强方法及其模型训练方法、相关设备
KR101212845B1 (ko) 동영상 샘플링 방법 및 시스템
KR101174176B1 (ko) 동영상 샘플링 방법 및 시스템
CN111062337B (zh) 人流方向检测方法及装置、存储介质和电子设备
US7236528B1 (en) System and method for processing time-based media
CN118101862A (zh) 图像处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20965884

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022569366

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20965884

Country of ref document: EP

Kind code of ref document: A1