WO2023223440A1 - Image processing device, attack countering method, and attack countering program - Google Patents

Image processing device, attack countering method, and attack countering program Download PDF

Info

Publication number
WO2023223440A1
WO2023223440A1 PCT/JP2022/020591 JP2022020591W WO2023223440A1 WO 2023223440 A1 WO2023223440 A1 WO 2023223440A1 JP 2022020591 W JP2022020591 W JP 2022020591W WO 2023223440 A1 WO2023223440 A1 WO 2023223440A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
filled
bounding box
score value
target image
Prior art date
Application number
PCT/JP2022/020591
Other languages
French (fr)
Japanese (ja)
Inventor
義博 小関
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2022/020591 priority Critical patent/WO2023223440A1/en
Priority to JP2024507069A priority patent/JPWO2023223440A1/ja
Publication of WO2023223440A1 publication Critical patent/WO2023223440A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present disclosure relates to countermeasure techniques against hostile sample patch attacks.
  • Object detection indicates the position of each object shown in the input image using a bounding box, and indicates the type (label) of each object.
  • label indicates the position of each object shown in the input image using a bounding box, and indicates the type (label) of each object.
  • An image classifier is constructed using deep learning. Additionally, adversarial examples attacks on image classifiers are known. Adversarial sample attacks falsify the classification results obtained from multiclass classifiers by adding perturbations to the input data.
  • Non-Patent Document 1 discloses an attack method different from a method of electronically adding perturbation to an input image in an object detection task.
  • the attack method involves physically placing an adversarial sample patch printed with a perturbation image, and escaping object detection when the image obtained by photographing it is input.
  • the present disclosure aims to make it possible to detect an attack that obstructs object detection using an adversarial sample patch.
  • the image processing device of the present disclosure includes: a first detection unit that calculates a bounding box and a score value for each object detected from the target image by performing object detection on the target image; a processing unit that obtains a group of filled images by generating the target image in which the bounding box is filled in for each of the bounding boxes of the target image as a filled image; a second detection unit that calculates a bounding box and a score value for each object detected from the filled image by performing the object detection on the filled image for each filled image; Based on the score value of each bounding box of the target image and the score value of each bounding box of the filled image group, it is determined whether an adversarial sample patch attack for placing an adversarial sample patch on the target image has been performed.
  • a determination section Equipped with.
  • an attack can be detected when an attack that obstructs object detection is performed using a hostile sample patch.
  • FIG. 1 is a configuration diagram of an image processing apparatus 100 in Embodiment 1.
  • FIG. 1 is a functional configuration diagram of an image processing apparatus 100 in Embodiment 1.
  • 5 is a flowchart of an attack countermeasure method in Embodiment 1.
  • FIG. 3 is a diagram showing object detection for a target image 200 in the first embodiment.
  • FIG. 3 is a diagram showing object detection for a filled-in image 210 in the first embodiment.
  • FIG. 3 is a diagram showing object detection for a filled-in image 220 in the first embodiment.
  • FIG. 3 is a diagram showing object detection for a filled-in image 230 in the first embodiment.
  • 1 is a hardware configuration diagram of an image processing apparatus 100 in Embodiment 1.
  • FIG. 1 is a hardware configuration diagram of an image processing apparatus 100 in Embodiment 1.
  • FIG. 1 is a hardware configuration diagram of an image processing apparatus 100 in Embodiment 1.
  • FIG. 1 is
  • Embodiment 1 Countermeasures against hostile sample patch attacks will be explained based on FIGS. 1 to 9.
  • the configuration of the image processing device 100 will be explained based on FIG. 1.
  • the image processing device 100 is also referred to as an attack countermeasure device.
  • the image processing device 100 is a computer that includes hardware such as a processor 101, a memory 102, an auxiliary storage device 103, a communication device 104, and an input/output interface 105. These pieces of hardware are connected to each other via signal lines.
  • the processor 101 is an IC that performs arithmetic processing and controls other hardware.
  • processor 101 is a CPU.
  • IC is an abbreviation for Integrated Circuit.
  • CPU is an abbreviation for Central Processing Unit.
  • Memory 102 is a volatile or non-volatile storage device. Memory 102 is also called main storage or main memory. For example, memory 102 is a RAM. The data stored in memory 102 is saved in auxiliary storage device 103 as needed. RAM is an abbreviation for Random Access Memory.
  • the auxiliary storage device 103 is a nonvolatile storage device.
  • the auxiliary storage device 103 is a ROM, an HDD, a flash memory, or a combination thereof. Data stored in the auxiliary storage device 103 is loaded into the memory 102 as needed.
  • ROM is an abbreviation for Read Only Memory.
  • HDD is an abbreviation for Hard Disk Drive.
  • Communication device 104 is a receiver and transmitter.
  • communication device 104 is a communication chip or NIC.
  • Communication between the image processing device 100 is performed using a communication device 104.
  • NIC is an abbreviation for Network Interface Card.
  • the input/output interface 105 is a port to which an input device and an output device are connected.
  • the input/output interface 105 is a USB terminal
  • the input device is a keyboard and a mouse
  • the output device is a display.
  • Input/output of the image processing apparatus 100 is performed using an input/output interface 105.
  • USB is an abbreviation for Universal Serial Bus.
  • the image processing device 100 includes elements such as a reception section 110, a detection section 120, a processing section 130, a determination section 140, and an output section 150.
  • the detection unit 120 includes a first detection unit 121 and a second detection unit 122. These elements are implemented in software.
  • the auxiliary storage device 103 stores an attack countermeasure program for making the computer function as a receiving section 110, a detecting section 120, a processing section 130, a determining section 140, and an output section 150.
  • the attack countermeasure program is loaded into memory 102 and executed by processor 101.
  • the auxiliary storage device 103 further stores an OS. At least a portion of the OS is loaded into memory 102 and executed by processor 101.
  • the processor 101 executes an attack countermeasure program while executing the OS.
  • OS is an abbreviation for Operating System.
  • Input/output data of the attack countermeasure program is stored in the storage unit 190.
  • the memory 102 functions as a storage unit 190.
  • storage devices such as the auxiliary storage device 103, a register in the processor 101, and a cache memory in the processor 101 may function as the storage unit 190 instead of the memory 102 or together with the memory 102.
  • the image processing device 100 may include a plurality of processors that replace the processor 101.
  • the attack countermeasure program can be recorded (stored) in a computer-readable manner on a non-volatile recording medium such as an optical disk or a flash memory.
  • FIG. 2 shows the functional configuration of the image processing apparatus 100. The functions of each element of the image processing device 100 will be described later.
  • the operation procedure of the image processing device 100 corresponds to an attack countermeasure method. Further, the operation procedure of the image processing device 100 corresponds to the processing procedure by an attack countermeasure program.
  • step S110 the receiving unit 110 receives the target image 191.
  • a user inputs a target image 191 into the image processing device 100. Then, the receiving unit 110 receives the input target image 191.
  • the target image 191 is an image processed in the attack countermeasure method.
  • Target image 191 shows one or more objects.
  • an adversarial sample patch attack is performed, an adversarial sample patch is placed on a portion of the object shown in the target image 191.
  • Adversarial sample patch attacks impede object detection on images by placing adversarial sample patches on the images.
  • An adversarial sample patch attack is an example of an adversarial sample attack, and is also referred to as an attack or an adversarial patch attack.
  • An adversarial sample patch is an example of an adversarial sample, and is also referred to as a patch or an adversarial patch.
  • step S120 the first detection unit 121 performs object detection on the target image 191.
  • a bounding box, score value, and label are calculated for each object detected from the target image 191. That is, one or more sets of bounding boxes, score values, and labels are calculated.
  • Object detection is a process of detecting one or more objects shown in an image, and calculates a bounding box, score value, and label for each detected object.
  • the bounding box indicates the area that encompasses the detected object.
  • the position and range of the bounding box are specified by coordinate values in the image.
  • the score value indicates the confidence level of the bounding box.
  • the score value is also referred to as a score or confidence score.
  • the label indicates the type of object detected.
  • the first detection unit 121 operates an object detector using the target image 191 as input.
  • the object detector is prepared in advance.
  • Object detectors are built using machine learning, for example.
  • the object detector is built using deep learning.
  • an object detector corresponds to a trained model and is implemented in software.
  • YOLO, SSD, Faster R-CNN, etc. are used as a technology for object detection.
  • YOLO is an abbreviation for You Only Look Once.
  • SSD is an abbreviation for Single Shot MultiBox Detector.
  • R-CNN is an abbreviation for Region Based Convolutional Neural Networks.
  • step S130 the processing unit 130 generates a filled-in image for each bounding box of the target image 191.
  • a group of filled-in images is obtained.
  • the filled image is the target image 191 in which the bounding box is filled in.
  • the bounding box is filled with a single color.
  • the filled image group is one or more filled images.
  • the filled image group is obtained as follows. First, the processing unit 130 selects each score value within a predetermined range from one or more score values of the target image 191.
  • the predetermined range is a predetermined range for score values.
  • the processing unit 130 selects a bounding box corresponding to each selected score value.
  • the processing unit 130 then generates a filled-in image for each selected bounding box.
  • step S140 the second detection unit 122 performs object detection on the filled-in image for each filled-in image.
  • the method of object detection is the same as the method in step S120.
  • a bounding box, score value, and label are calculated for each object detected from the filled image. That is, one or more sets of bounding boxes, score values, and labels are calculated.
  • step S150 the determination unit 140 determines whether a hostile sample patch attack has been performed based on the score value of each bounding box of the target image 191 and the score value of each bounding box of the filled-in image group.
  • step S150 the determination unit 140 selects the maximum score value in the target image 191. That is, the determination unit 140 selects the maximum score value from one or more score values of the target image 191.
  • step S152 the determination unit 140 selects the maximum score value in the group of filled-in images. That is, the determination unit 140 selects the maximum score value from one or more score values of the filled-in image group.
  • step S153 the determination unit 140 calculates the difference between the maximum score value in the target image 191 and the maximum score value in the filled-in image group.
  • the calculated difference is referred to as a score difference.
  • the determination unit 140 calculates the score difference by subtracting the maximum score value in the target image 191 from the maximum score value in the filled-in image group.
  • the determination unit 140 compares the score difference with a threshold value and determines the magnitude relationship between the score difference and the threshold value.
  • the threshold value is determined in advance. If the score difference is greater than or equal to the threshold, the process proceeds to step S155. If the score difference is less than the threshold, the process proceeds to step S156.
  • step S155 the determination unit 140 determines that a hostile sample patch attack has been performed.
  • step S156 the determination unit 140 determines that a hostile sample patch attack has not been performed.
  • the determination unit 140 sends the determination flag and the detection result to the output unit 150.
  • the output unit 150 receives the determination flag and the detection result from the output unit 150. The determination flag and detection results will be described later.
  • step S160 the output unit 150 outputs the processing result 192.
  • the output unit 150 displays the processing result 192 on a display.
  • the processing result 192 includes a determination flag and a detection result.
  • the determination flag indicates whether or not a hostile sample patch attack has been performed. If it is determined that an adversarial sample patch attack has been performed, the detection results are the bounding box corresponding to the maximum score value in the filled image group and the object detection result for the target image 191. The bounding box corresponding to the maximum score value in the filled-in image group becomes a bounding box candidate for the object shown in the target image 191. The result of object detection for the target image 191 shows a bounding box, a score value, and a label for each object detected from the target image 191. If it is not determined that a hostile sample patch attack has been performed, the detection result is the result of object detection for the target image 191.
  • FIG. 5 shows a target image 200.
  • Target image 200 is an example of target image 191 that has been subjected to an adversarial sample patch attack.
  • a person is shown in the target image 200.
  • a person is an example of an object to be detected.
  • the hostile sample patch 209 is placed over the person.
  • the bounding boxes (201 to 203) are bounding boxes calculated by object detection for the target image 200. Due to the influence of the adversarial sample patch 209, the recognition score (score value) of each bounding box is low. However, each bounding box has a recognition score of a certain size.
  • the recognition score of each bounding box is a value within a predetermined range (0.1 or more and 0.6 or less).
  • Each bounding box (201-203) is filled assuming that a bounding box with a recognition score within a predetermined range appears near the adversarial sample patch 209.
  • FIG. 6 shows a filled-in image 210.
  • the filled-in image 210 is a filled-in image obtained by filling in the bounding box 201.
  • the bounding boxes (211, 212) are bounding boxes calculated by object detection on the filled-in image 210.
  • FIG. 7 shows a filled-in image 220.
  • the filled image 220 is a filled image obtained by filling in the bounding box 202.
  • the bounding box (221) is a bounding box calculated by object detection for the filled-in image 220.
  • FIG. 8 shows a filled-in image 230.
  • the filled image 230 is a filled image obtained by filling in the bounding box 203.
  • the bounding boxes (231, 232) are bounding boxes calculated by object detection for the filled-in image 230.
  • the maximum value of the recognition score in the group of filled-in images (210 to 230) is higher than the maximum value of the recognition score in the target image 200. For example, if the maximum recognition score in the target image 200 is 0.36 and the maximum recognition score in the filled image group (210 to 230) is 0.64, the maximum recognition score increases by 0.28. That's what I did. The fact that the maximum value of the recognition score increases by a certain degree due to filling means that the recognition score of the target image 200 has been lowered by the adversarial sample patch attack. Then, the bounding box corresponding to the maximum recognition score in the group of filled-in images (210 to 230) becomes a bounding box candidate for the person.
  • Embodiment 1 ***Effects of Embodiment 1*** According to the first embodiment, when an attack that obstructs object detection is performed using a hostile sample patch, it is possible to detect the attack. Furthermore, it is possible to output bounding box candidates that should originally be output.
  • Embodiment 1 addresses an adversarial sample patch attack on object detection.
  • the image processing device 100 estimates the position of the hostile sample patch based on the score value of the bounding box output by the object detector for the input image. Then, the image processing device 100 reduces the effect of the attack by filling out the estimated position.
  • the object detector calculates, for the input image, coordinates representing the position of each object's bounding box, a label representing the type of object within the bounding box, and a score value corresponding to probability as a confidence level. Output.
  • the image processing device 100 inputs an image to an object detector.
  • the object detector calculates the bounding box and score value. When the score value falls within a certain threshold value, the image processing device 100 generates an image in which the area within the corresponding bounding box is filled with a single color. One image is generated for each applicable bounding box.
  • the image processing device 100 inputs the filled-in image group to the object detector again.
  • the object detector calculates a bounding box and a score value for each input image. If the maximum score value among the plurality of newly obtained score values exceeds the maximum score value in the original image by a certain amount or more, the image processing device 100 reduces the effectiveness of the attack by filling out the hostile sample patch. judge that it has been done.
  • the image processing device 100 then outputs the attack detection. Further, the image processing device 100 outputs the bounding box having the highest score value in the group of filled-in images as a candidate bounding box for the target of the attack.
  • the image processing apparatus 100 calculates a bounding box and a score value for an image input for object detection.
  • the image processing device 100 generates, for each applicable bounding box, an image in which bounding boxes whose score values fall within a certain range are filled in.
  • the image processing device 100 performs object detection again for each generated image. Then, if the difference between the maximum score values before and after filling is equal to or greater than a certain threshold, the image processing apparatus 100 determines that a hostile sample patch attack is being performed. In this case, the image processing device 100 outputs a bounding box having a flag indicating attack detection and a maximum score value after filling.
  • the image processing device 100 includes a processing circuit 109.
  • the processing circuit 109 is hardware that implements the reception section 110, the detection section 120, the processing section 130, the determination section 140, and the output section 150.
  • the processing circuit 109 may be dedicated hardware or may be the processor 101 that executes a program stored in the memory 102.
  • processing circuit 109 is dedicated hardware, processing circuit 109 is, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, an ASIC, an FPGA, or a combination thereof.
  • ASIC is an abbreviation for Application Specific Integrated Circuit.
  • FPGA is an abbreviation for Field Programmable Gate Array.
  • the image processing device 100 may include a plurality of processing circuits that replace the processing circuit 109.
  • processing circuit 109 some functions may be realized by dedicated hardware, and the remaining functions may be realized by software or firmware.
  • the functions of the image processing device 100 can be realized by hardware, software, firmware, or a combination thereof.
  • Embodiment 1 is an illustration of a preferred embodiment and is not intended to limit the technical scope of the present disclosure. Embodiment 1 may be implemented partially or in combination with other embodiments. The procedures described using flowcharts and the like may be modified as appropriate.
  • the "unit" of each element of the image processing device 100 may be read as “process”, “process”, “circuit”, or “circuitry”.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

A first detection unit (121) executes object detection for a subject image. A processing unit (130) generates a paint-out image for each bounding box in the subject image, which is the subject image with the bounding box painted out. For each paint-out image, a second detection unit (122) executes the object detection for the paint-out image. On the basis of score values of the individual bounding boxes in the subject image, as well as score values of the individual bounding boxes in the set of paint-out images, a determination unit (140) determines whether or not an adversarial sample patch attack has been conducted.

Description

画像処理装置、攻撃対策方法および攻撃対策プログラムImage processing device, attack countermeasure method, and attack countermeasure program
 本開示は、敵対的サンプルパッチ攻撃に対する対策技術に関するものである。 The present disclosure relates to countermeasure techniques against hostile sample patch attacks.
 物体検知によって、入力画像に示される各物体の位置がバウンディングボックスを使って示され、各物体の種類(ラベル)が示される。
 物体検知のタスクにおいて、近年、ニューラルネットワークを用いた深層学習の手法が非常に高い精度を達成している。
Object detection indicates the position of each object shown in the input image using a bounding box, and indicates the type (label) of each object.
In recent years, deep learning methods using neural networks have achieved extremely high accuracy in object detection tasks.
 深層学習によって画像分類器が構築される。また、画像分類器に対する敵対的サンプル攻撃(Adversarial Examples)が知られている。
 敵対的サンプル攻撃は、入力データに摂動を加えることによって、多クラス分類器から得られる分類結果を誤らせる。
An image classifier is constructed using deep learning. Additionally, adversarial examples attacks on image classifiers are known.
Adversarial sample attacks falsify the classification results obtained from multiclass classifiers by adding perturbations to the input data.
 非特許文献1は、物体検知のタスクにおいて入力画像に電子的に摂動を加える手法とは異なる攻撃手法を開示している。
 その攻撃手法は、摂動の画像を印刷した敵対的サンプルパッチを物理的に配置し、それを撮影して得られた画像が入力された際に物体検知を逃れる。
Non-Patent Document 1 discloses an attack method different from a method of electronically adding perturbation to an input image in an object detection task.
The attack method involves physically placing an adversarial sample patch printed with a perturbation image, and escaping object detection when the image obtained by photographing it is input.
 本開示は、敵対的サンプルパッチを用いて物体検知を阻害する攻撃が行われた場合に攻撃を検知できるようにすることを目的とする。 The present disclosure aims to make it possible to detect an attack that obstructs object detection using an adversarial sample patch.
 本開示の画像処理装置は、
 対象画像に対して物体検知を実行することによって、前記対象画像から検知された物体ごとにバウンディングボックスとスコア値を算出する第1検知部と、
 前記対象画像の前記バウンディングボックスごとに前記バウンディングボックスが塗りつぶされた前記対象画像を塗りつぶし画像として生成することによって、塗りつぶし画像群を得る加工部と、
 前記塗りつぶし画像ごとに、前記塗りつぶし画像に対して前記物体検知を実行することによって、前記塗りつぶし画像から検知された物体ごとにバウンディングボックスとスコア値を算出する第2検知部と、
 前記対象画像の各バウンディングボックスの前記スコア値と前記塗りつぶし画像群の各バウンディングボックスの前記スコア値に基づいて、前記対象画像に敵対的サンプルパッチを配置する敵対的サンプルパッチ攻撃が行われたか判定する判定部と、
を備える。
The image processing device of the present disclosure includes:
a first detection unit that calculates a bounding box and a score value for each object detected from the target image by performing object detection on the target image;
a processing unit that obtains a group of filled images by generating the target image in which the bounding box is filled in for each of the bounding boxes of the target image as a filled image;
a second detection unit that calculates a bounding box and a score value for each object detected from the filled image by performing the object detection on the filled image for each filled image;
Based on the score value of each bounding box of the target image and the score value of each bounding box of the filled image group, it is determined whether an adversarial sample patch attack for placing an adversarial sample patch on the target image has been performed. A determination section;
Equipped with.
 本開示によれば、敵対的サンプルパッチを用いて物体検知を阻害する攻撃が行われた場合に攻撃を検知することができる。 According to the present disclosure, an attack can be detected when an attack that obstructs object detection is performed using a hostile sample patch.
実施の形態1における画像処理装置100の構成図。FIG. 1 is a configuration diagram of an image processing apparatus 100 in Embodiment 1. 実施の形態1における画像処理装置100の機能構成図。FIG. 1 is a functional configuration diagram of an image processing apparatus 100 in Embodiment 1. 実施の形態1における攻撃対策方法のフローチャート。5 is a flowchart of an attack countermeasure method in Embodiment 1. 実施の形態1におけるステップS150のフローチャート。Flowchart of step S150 in Embodiment 1. 実施の形態1における対象画像200に対する物体検知を示す図。FIG. 3 is a diagram showing object detection for a target image 200 in the first embodiment. 実施の形態1における塗りつぶし画像210に対する物体検知を示す図。FIG. 3 is a diagram showing object detection for a filled-in image 210 in the first embodiment. 実施の形態1における塗りつぶし画像220に対する物体検知を示す図。FIG. 3 is a diagram showing object detection for a filled-in image 220 in the first embodiment. 実施の形態1における塗りつぶし画像230に対する物体検知を示す図。FIG. 3 is a diagram showing object detection for a filled-in image 230 in the first embodiment. 実施の形態1における画像処理装置100のハードウェア構成図。1 is a hardware configuration diagram of an image processing apparatus 100 in Embodiment 1. FIG.
 実施の形態および図面において、同じ要素または対応する要素には同じ符号を付している。説明した要素と同じ符号が付された要素の説明は適宜に省略または簡略化する。図中の矢印はデータの流れ又は処理の流れを主に示している。 In the embodiments and drawings, the same or corresponding elements are given the same reference numerals. Descriptions of elements assigned the same reference numerals as explained elements will be omitted or simplified as appropriate. Arrows in the figure mainly indicate the flow of data or processing.
 実施の形態1.
 敵対的サンプルパッチ攻撃に対する対策について、図1から図9に基づいて説明する。
Embodiment 1.
Countermeasures against hostile sample patch attacks will be explained based on FIGS. 1 to 9.
***構成の説明***
 図1に基づいて、画像処理装置100の構成を説明する。画像処理装置100は、攻撃対策装置ともいう。
 画像処理装置100は、プロセッサ101とメモリ102と補助記憶装置103と通信装置104と入出力インタフェース105といったハードウェアを備えるコンピュータである。これらのハードウェアは、信号線を介して互いに接続されている。
***Explanation of configuration***
The configuration of the image processing device 100 will be explained based on FIG. 1. The image processing device 100 is also referred to as an attack countermeasure device.
The image processing device 100 is a computer that includes hardware such as a processor 101, a memory 102, an auxiliary storage device 103, a communication device 104, and an input/output interface 105. These pieces of hardware are connected to each other via signal lines.
 プロセッサ101は、演算処理を行うICであり、他のハードウェアを制御する。例えば、プロセッサ101はCPUである。
 ICは、Integrated Circuitの略称である。
 CPUは、Central Processing Unitの略称である。
The processor 101 is an IC that performs arithmetic processing and controls other hardware. For example, processor 101 is a CPU.
IC is an abbreviation for Integrated Circuit.
CPU is an abbreviation for Central Processing Unit.
 メモリ102は揮発性または不揮発性の記憶装置である。メモリ102は、主記憶装置またはメインメモリとも呼ばれる。例えば、メモリ102はRAMである。メモリ102に記憶されたデータは必要に応じて補助記憶装置103に保存される。
 RAMは、Random Access Memoryの略称である。
Memory 102 is a volatile or non-volatile storage device. Memory 102 is also called main storage or main memory. For example, memory 102 is a RAM. The data stored in memory 102 is saved in auxiliary storage device 103 as needed.
RAM is an abbreviation for Random Access Memory.
 補助記憶装置103は不揮発性の記憶装置である。例えば、補助記憶装置103は、ROM、HDD、フラッシュメモリまたはこれらの組み合わせである。補助記憶装置103に記憶されたデータは必要に応じてメモリ102にロードされる。
 ROMは、Read Only Memoryの略称である。
 HDDは、Hard Disk Driveの略称である。
The auxiliary storage device 103 is a nonvolatile storage device. For example, the auxiliary storage device 103 is a ROM, an HDD, a flash memory, or a combination thereof. Data stored in the auxiliary storage device 103 is loaded into the memory 102 as needed.
ROM is an abbreviation for Read Only Memory.
HDD is an abbreviation for Hard Disk Drive.
 通信装置104はレシーバ及びトランスミッタである。例えば、通信装置104は通信チップまたはNICである。画像処理装置100の通信は通信装置104を用いて行われる。
 NICは、Network Interface Cardの略称である。
Communication device 104 is a receiver and transmitter. For example, communication device 104 is a communication chip or NIC. Communication between the image processing device 100 is performed using a communication device 104.
NIC is an abbreviation for Network Interface Card.
 入出力インタフェース105は、入力装置および出力装置が接続されるポートである。例えば、入出力インタフェース105はUSB端子であり、入力装置はキーボードおよびマウスであり、出力装置はディスプレイである。画像処理装置100の入出力は入出力インタフェース105を用いて行われる。
 USBは、Universal Serial Busの略称である。
The input/output interface 105 is a port to which an input device and an output device are connected. For example, the input/output interface 105 is a USB terminal, the input device is a keyboard and a mouse, and the output device is a display. Input/output of the image processing apparatus 100 is performed using an input/output interface 105.
USB is an abbreviation for Universal Serial Bus.
 画像処理装置100は、受付部110と検知部120と加工部130と判定部140と出力部150といった要素を備える。検知部120は、第1検知部121と第2検知部122を備える。これらの要素はソフトウェアで実現される。 The image processing device 100 includes elements such as a reception section 110, a detection section 120, a processing section 130, a determination section 140, and an output section 150. The detection unit 120 includes a first detection unit 121 and a second detection unit 122. These elements are implemented in software.
 補助記憶装置103には、受付部110と検知部120と加工部130と判定部140と出力部150としてコンピュータを機能させるための攻撃対策プログラムが記憶されている。攻撃対策プログラムは、メモリ102にロードされて、プロセッサ101によって実行される。
 補助記憶装置103には、さらに、OSが記憶されている。OSの少なくとも一部は、メモリ102にロードされて、プロセッサ101によって実行される。
 プロセッサ101は、OSを実行しながら、攻撃対策プログラムを実行する。
 OSは、Operating Systemの略称である。
The auxiliary storage device 103 stores an attack countermeasure program for making the computer function as a receiving section 110, a detecting section 120, a processing section 130, a determining section 140, and an output section 150. The attack countermeasure program is loaded into memory 102 and executed by processor 101.
The auxiliary storage device 103 further stores an OS. At least a portion of the OS is loaded into memory 102 and executed by processor 101.
The processor 101 executes an attack countermeasure program while executing the OS.
OS is an abbreviation for Operating System.
 攻撃対策プログラムの入出力データは記憶部190に記憶される。
 メモリ102は記憶部190として機能する。但し、補助記憶装置103、プロセッサ101内のレジスタおよびプロセッサ101内のキャッシュメモリなどの記憶装置が、メモリ102の代わりに、又は、メモリ102と共に、記憶部190として機能してもよい。
Input/output data of the attack countermeasure program is stored in the storage unit 190.
The memory 102 functions as a storage unit 190. However, storage devices such as the auxiliary storage device 103, a register in the processor 101, and a cache memory in the processor 101 may function as the storage unit 190 instead of the memory 102 or together with the memory 102.
 画像処理装置100は、プロセッサ101を代替する複数のプロセッサを備えてもよい。 The image processing device 100 may include a plurality of processors that replace the processor 101.
 攻撃対策プログラムは、光ディスクまたはフラッシュメモリ等の不揮発性の記録媒体にコンピュータ読み取り可能に記録(格納)することができる。 The attack countermeasure program can be recorded (stored) in a computer-readable manner on a non-volatile recording medium such as an optical disk or a flash memory.
 図2に、画像処理装置100の機能構成を示す。
 画像処理装置100の各要素の機能を後述する。
FIG. 2 shows the functional configuration of the image processing apparatus 100.
The functions of each element of the image processing device 100 will be described later.
***動作の説明***
 画像処理装置100の動作の手順は攻撃対策方法に相当する。また、画像処理装置100の動作の手順は攻撃対策プログラムによる処理の手順に相当する。
***Operation explanation***
The operation procedure of the image processing device 100 corresponds to an attack countermeasure method. Further, the operation procedure of the image processing device 100 corresponds to the processing procedure by an attack countermeasure program.
 図3に基づいて、攻撃対策方法を説明する。
 ステップS110において、受付部110は、対象画像191を受け付ける。
 例えば、利用者が対象画像191を画像処理装置100に入力する。そして、受付部110は、入力された対象画像191を受け付ける。
The attack countermeasure method will be explained based on FIG. 3.
In step S110, the receiving unit 110 receives the target image 191.
For example, a user inputs a target image 191 into the image processing device 100. Then, the receiving unit 110 receives the input target image 191.
 対象画像191は、攻撃対策方法において処理される画像である。
 対象画像191には、1つ以上の物体が示されている。敵対的サンプルパッチ攻撃が行われた場合、敵対的サンプルパッチが対象画像191に示される物体の部分に配置されている。
 敵対的サンプルパッチ攻撃は、敵対的サンプルパッチを画像に配置することによって、画像に対する物体検知を阻害する。敵対的サンプルパッチ攻撃は、敵対的サンプル攻撃の一例であり、攻撃または敵対的パッチ攻撃ともいう。
 敵対的サンプルパッチは、敵対的サンプルの一例であり、パッチまたは敵対的パッチともいう。
The target image 191 is an image processed in the attack countermeasure method.
Target image 191 shows one or more objects. When an adversarial sample patch attack is performed, an adversarial sample patch is placed on a portion of the object shown in the target image 191.
Adversarial sample patch attacks impede object detection on images by placing adversarial sample patches on the images. An adversarial sample patch attack is an example of an adversarial sample attack, and is also referred to as an attack or an adversarial patch attack.
An adversarial sample patch is an example of an adversarial sample, and is also referred to as a patch or an adversarial patch.
 ステップS120において、第1検知部121は、対象画像191に対して物体検知を実行する。
 これにより、対象画像191から検知された物体ごとにバウンディングボックスとスコア値とラベルが算出される。つまり、バウンディングボックスとスコア値とラベルの組が1つ以上算出される。
In step S120, the first detection unit 121 performs object detection on the target image 191.
As a result, a bounding box, score value, and label are calculated for each object detected from the target image 191. That is, one or more sets of bounding boxes, score values, and labels are calculated.
 物体検知は、画像に示される1つ以上の物体を検知する処理であり、検知された物体ごとにバウンディングボックスとスコア値とラベルを算出する。
 バウンディングボックスは、検知された物体を包含する領域を示す。バウンディングボックスの位置及び範囲は、画像における座標値で特定される。
 スコア値は、バウンディングボックスの信頼度を示す。スコア値は、スコアまたは信頼度スコアともいう。
 ラベルは、検知された物体の種類を示す。
Object detection is a process of detecting one or more objects shown in an image, and calculates a bounding box, score value, and label for each detected object.
The bounding box indicates the area that encompasses the detected object. The position and range of the bounding box are specified by coordinate values in the image.
The score value indicates the confidence level of the bounding box. The score value is also referred to as a score or confidence score.
The label indicates the type of object detected.
 例えば、第1検知部121は、対象画像191を入力にして物体検知器を動作させる。物体検知器は予め用意される。
 物体検知器は、例えば機械学習を使って構築される。具体的には、物体検知器は深層学習を使って構築される。例えば、物体検知器は、学習済みモデルに相当し、ソフトウェアで実現される。
 物体検知のための技術として、YOLO、SSDまたはFaster R-CNNなどが使用される。
 YOLOは、You Only Look Onceの略称である。
 SSDは、Single Shot MultiBox Detectorの略称である。
 R-CNNは、Region Based Convolutional Neural Networksの略称である。
For example, the first detection unit 121 operates an object detector using the target image 191 as input. The object detector is prepared in advance.
Object detectors are built using machine learning, for example. Specifically, the object detector is built using deep learning. For example, an object detector corresponds to a trained model and is implemented in software.
As a technology for object detection, YOLO, SSD, Faster R-CNN, etc. are used.
YOLO is an abbreviation for You Only Look Once.
SSD is an abbreviation for Single Shot MultiBox Detector.
R-CNN is an abbreviation for Region Based Convolutional Neural Networks.
 ステップS130において、加工部130は、対象画像191のバウンディングボックスごとに塗りつぶし画像を生成する。これにより、塗りつぶし画像群が得られる。
 塗りつぶし画像は、バウンディングボックスが塗りつぶされた対象画像191である。具体的には、バウンディングボックスは単色で塗りつぶされる。
 塗りつぶし画像群は、1つ以上の塗りつぶし画像である。
In step S130, the processing unit 130 generates a filled-in image for each bounding box of the target image 191. As a result, a group of filled-in images is obtained.
The filled image is the target image 191 in which the bounding box is filled in. Specifically, the bounding box is filled with a single color.
The filled image group is one or more filled images.
 塗りつぶし画像群は、以下のように得られる。
 まず、加工部130は、対象画像191の1つ以上のスコア値から既定範囲内の各スコア値を選択する。既定範囲は、スコア値について予め決められた範囲である。
 次に、加工部130は、選択された各スコア値に対応するバウンディングボックスを選択する。
 そして、加工部130は、選択されたバウンディングボックスごとに塗りつぶし画像を生成する。
The filled image group is obtained as follows.
First, the processing unit 130 selects each score value within a predetermined range from one or more score values of the target image 191. The predetermined range is a predetermined range for score values.
Next, the processing unit 130 selects a bounding box corresponding to each selected score value.
The processing unit 130 then generates a filled-in image for each selected bounding box.
 ステップS140において、第2検知部122は、塗りつぶし画像ごとに、塗りつぶし画像に対して物体検知を実行する。物体検知の方法は、ステップS120における方法と同じである。
 これにより、塗りつぶし画像から検知された物体ごとにバウンディングボックスとスコア値とラベルが算出される。つまり、バウンディングボックスとスコア値とラベルの組が1つ以上算出される。
In step S140, the second detection unit 122 performs object detection on the filled-in image for each filled-in image. The method of object detection is the same as the method in step S120.
As a result, a bounding box, score value, and label are calculated for each object detected from the filled image. That is, one or more sets of bounding boxes, score values, and labels are calculated.
 ステップS150において、判定部140は、対象画像191の各バウンディングボックスのスコア値と塗りつぶし画像群の各バウンディングボックスのスコア値に基づいて、敵対的サンプルパッチ攻撃が行われたか判定する。 In step S150, the determination unit 140 determines whether a hostile sample patch attack has been performed based on the score value of each bounding box of the target image 191 and the score value of each bounding box of the filled-in image group.
 図4に基づいて、ステップS150の手順を説明する。
 ステップS151において、判定部140は、対象画像191における最大スコア値を選択する。つまり、判定部140は、対象画像191の1つ以上のスコア値から最大スコア値を選択する。
The procedure of step S150 will be explained based on FIG. 4.
In step S151, the determination unit 140 selects the maximum score value in the target image 191. That is, the determination unit 140 selects the maximum score value from one or more score values of the target image 191.
 ステップS152において、判定部140は、塗りつぶし画像群における最大スコア値を選択する。つまり、判定部140は、塗りつぶし画像群の1つ以上のスコア値から最大スコア値を選択する。 In step S152, the determination unit 140 selects the maximum score value in the group of filled-in images. That is, the determination unit 140 selects the maximum score value from one or more score values of the filled-in image group.
 ステップS153において、判定部140は、対象画像191における最大スコア値と塗りつぶし画像群における最大スコア値の差を算出する。算出された差を、スコア差と称する。
 具体的には、判定部140は、塗りつぶし画像群における最大スコア値から対象画像191における最大スコア値を引いて、スコア差を算出する。
In step S153, the determination unit 140 calculates the difference between the maximum score value in the target image 191 and the maximum score value in the filled-in image group. The calculated difference is referred to as a score difference.
Specifically, the determination unit 140 calculates the score difference by subtracting the maximum score value in the target image 191 from the maximum score value in the filled-in image group.
 S154において、判定部140は、スコア差を閾値と比較し、スコア差と閾値の大小関係を判定する。閾値は予め決められる。
 スコア差が閾値以上である場合、処理はステップS155に進む。
 スコア差が閾値未満である場合、処理はステップS156に進む。
In S154, the determination unit 140 compares the score difference with a threshold value and determines the magnitude relationship between the score difference and the threshold value. The threshold value is determined in advance.
If the score difference is greater than or equal to the threshold, the process proceeds to step S155.
If the score difference is less than the threshold, the process proceeds to step S156.
 ステップS155において、判定部140は、敵対的サンプルパッチ攻撃が行われたと判定する。 In step S155, the determination unit 140 determines that a hostile sample patch attack has been performed.
 ステップS156において、判定部140は、敵対的サンプルパッチ攻撃が行われなかったと判定する。 In step S156, the determination unit 140 determines that a hostile sample patch attack has not been performed.
 図3に戻り、説明を続ける。
 判定部140は、判定フラグおよび検知結果を出力部150へ送る。出力部150は、判定フラグおよび検知結果を出力部150から受け取る。
 判定フラグおよび検知結果について後述する。
Returning to FIG. 3, the explanation will be continued.
The determination unit 140 sends the determination flag and the detection result to the output unit 150. The output unit 150 receives the determination flag and the detection result from the output unit 150.
The determination flag and detection results will be described later.
 ステップS160において、出力部150は、処理結果192を出力する。例えば、出力部150は、処理結果192をディスプレイに表示する。
 処理結果192は、判定フラグと検知結果を含む。
In step S160, the output unit 150 outputs the processing result 192. For example, the output unit 150 displays the processing result 192 on a display.
The processing result 192 includes a determination flag and a detection result.
 判定フラグは、敵対的サンプルパッチ攻撃が行われたか否かを示す。
 敵対的サンプルパッチ攻撃が行われたと判定された場合、検知結果は、塗りつぶし画像群における最大スコア値に対応するバウンディングボックスと、対象画像191に対する物体検知の結果である。
 塗りつぶし画像群における最大スコア値に対応するバウンディングボックスは、対象画像191に示される物体に対するバウンディングボックスの候補となる。
 対象画像191に対する物体検知の結果は、対象画像191から検知された物体ごとにバウンディングボックスとスコア値とラベルを示す。
 敵対的サンプルパッチ攻撃が行われたと判定されなかった場合、検知結果は、対象画像191に対する物体検知の結果である。
The determination flag indicates whether or not a hostile sample patch attack has been performed.
If it is determined that an adversarial sample patch attack has been performed, the detection results are the bounding box corresponding to the maximum score value in the filled image group and the object detection result for the target image 191.
The bounding box corresponding to the maximum score value in the filled-in image group becomes a bounding box candidate for the object shown in the target image 191.
The result of object detection for the target image 191 shows a bounding box, a score value, and a label for each object detected from the target image 191.
If it is not determined that a hostile sample patch attack has been performed, the detection result is the result of object detection for the target image 191.
 図5から図8に基づいて、攻撃対策方法を補足する。
 図5に、対象画像200を示す。対象画像200は、敵対的サンプルパッチ攻撃を受けた対象画像191の例である。
 対象画像200には、人物が示されている。人物は、検知される物体の一例である。
 敵対的サンプルパッチ209は、人物に重ねて配置されている。
 バウンディングボックス(201~203)は、対象画像200に対する物体検知によって算出されたバウンディングボックスである。
 敵対的サンプルパッチ209の影響により、各バウンディングボックスの認識スコア(スコア値)は低い。但し、各バウンディングボックスは、ある程度の大きさの認識スコアを持つ。各バウンディングボックスの認識スコアは、既定範囲(0.1以上0.6以下)内の値である。
 既定範囲内の認識スコアを持つバウンディングボックスが敵対的サンプルパッチ209の近くに現れると仮定して、各バウンディングボックス(201~203)が塗りつぶされる。
 図6に、塗りつぶし画像210を示す。塗りつぶし画像210は、バウンディングボックス201を塗りつぶして得られる塗りつぶし画像である。
 バウンディングボックス(211、212)は、塗りつぶし画像210に対する物体検知によって算出されたバウンディングボックスである。
 図7に、塗りつぶし画像220を示す。塗りつぶし画像220は、バウンディングボックス202を塗りつぶして得られる塗りつぶし画像である。
 バウンディングボックス(221)は、塗りつぶし画像220に対する物体検知によって算出されたバウンディングボックスである。
 図8に、塗りつぶし画像230を示す。塗りつぶし画像230は、バウンディングボックス203を塗りつぶして得られる塗りつぶし画像である。
 バウンディングボックス(231、232)は、塗りつぶし画像230に対する物体検知によって算出されたバウンディングボックスである。
The attack countermeasure method will be supplemented based on FIGS. 5 to 8.
FIG. 5 shows a target image 200. Target image 200 is an example of target image 191 that has been subjected to an adversarial sample patch attack.
A person is shown in the target image 200. A person is an example of an object to be detected.
The hostile sample patch 209 is placed over the person.
The bounding boxes (201 to 203) are bounding boxes calculated by object detection for the target image 200.
Due to the influence of the adversarial sample patch 209, the recognition score (score value) of each bounding box is low. However, each bounding box has a recognition score of a certain size. The recognition score of each bounding box is a value within a predetermined range (0.1 or more and 0.6 or less).
Each bounding box (201-203) is filled assuming that a bounding box with a recognition score within a predetermined range appears near the adversarial sample patch 209.
FIG. 6 shows a filled-in image 210. The filled-in image 210 is a filled-in image obtained by filling in the bounding box 201.
The bounding boxes (211, 212) are bounding boxes calculated by object detection on the filled-in image 210.
FIG. 7 shows a filled-in image 220. The filled image 220 is a filled image obtained by filling in the bounding box 202.
The bounding box (221) is a bounding box calculated by object detection for the filled-in image 220.
FIG. 8 shows a filled-in image 230. The filled image 230 is a filled image obtained by filling in the bounding box 203.
The bounding boxes (231, 232) are bounding boxes calculated by object detection for the filled-in image 230.
 塗りつぶしが敵対的サンプルパッチ209を上手く覆っていれば、人物に対するバウンディングボックスの認識スコアは上昇する。
 そのため、塗りつぶし画像群(210~230)における認識スコアの最大値は、対象画像200における認識スコアの最大値よりも高い。
 例えば、対象画像200における認識スコアの最大値が0.36であり、塗りつぶし画像群(210~230)における認識スコアの最大値が0.64である場合、認識スコアの最大値が0.28上昇したことになる。
 塗りつぶしによって認識スコアの最大値が一定程度上昇することは、敵対的サンプルパッチ攻撃によって対象画像200における認識スコアが低下されたことを意味する。そして、塗りつぶし画像群(210~230)における認識スコアの最大値に対応するバウンディングボックスが、人物に対するバウンディングボックスの候補となる。
If the fill covers the adversarial sample patch 209 well, the bounding box recognition score for the person increases.
Therefore, the maximum value of the recognition score in the group of filled-in images (210 to 230) is higher than the maximum value of the recognition score in the target image 200.
For example, if the maximum recognition score in the target image 200 is 0.36 and the maximum recognition score in the filled image group (210 to 230) is 0.64, the maximum recognition score increases by 0.28. That's what I did.
The fact that the maximum value of the recognition score increases by a certain degree due to filling means that the recognition score of the target image 200 has been lowered by the adversarial sample patch attack. Then, the bounding box corresponding to the maximum recognition score in the group of filled-in images (210 to 230) becomes a bounding box candidate for the person.
***実施の形態1の効果***
 実施の形態1により、敵対的サンプルパッチを用いて物体検知を阻害する攻撃が行われた場合に攻撃を検知することができる。
 また、本来出力すべきバウンディングボックスの候補を出力することができる。
***Effects of Embodiment 1***
According to the first embodiment, when an attack that obstructs object detection is performed using a hostile sample patch, it is possible to detect the attack.
Furthermore, it is possible to output bounding box candidates that should originally be output.
***実施の形態1の特徴***
 実施の形態1は、物体検知に対する敵対的サンプルパッチ攻撃に対処する。
 画像処理装置100は、物体検知器が入力画像に対して出力するバウンディングボックスのスコア値に基づいて敵対的サンプルパッチの位置を推定する。そして、画像処理装置100は、推定された位置を塗りつぶすことで攻撃の効果を低減させる。
 物体検知器は、入力された画像に対して、各物体のバウンディングボックスの位置を表わす座標と、バウンディングボックス内の物体の種類を表わすラベルと、確信度としての確率に相当するスコア値と、を出力する。
***Features of Embodiment 1***
Embodiment 1 addresses an adversarial sample patch attack on object detection.
The image processing device 100 estimates the position of the hostile sample patch based on the score value of the bounding box output by the object detector for the input image. Then, the image processing device 100 reduces the effect of the attack by filling out the estimated position.
The object detector calculates, for the input image, coordinates representing the position of each object's bounding box, a label representing the type of object within the bounding box, and a score value corresponding to probability as a confidence level. Output.
 画像処理装置100は、画像を物体検知器に入力する。物体検知器は、バウンディングボックスとスコア値を算出する。
 スコア値が一定の閾値の範囲内に入る場合に、画像処理装置100は、該当するバウンディングボックス内の領域を単色で塗りつぶした画像を生成する。画像は、該当するバウンディングボックスごとに1枚ずつ生成される。
 画像処理装置100は、塗りつぶしを行った画像群を再び物体検知器に入力する。物体検知器は、入力された画像ごとにバウンディングボックスとスコア値を算出する。
 新たに得られた複数のスコア値における最大のスコア値が、元の画像における最大のスコア値を一定以上上回る場合に、画像処理装置100は、敵対的サンプルパッチを塗りつぶすことによって攻撃の効果が低減されたと判断する。そして、画像処理装置100は、攻撃の検知を出力する。さらに、画像処理装置100は、塗りつぶしを行った画像群において最大のスコア値を有するバウンディングボックスを、攻撃が行われた対象のバウンディングボックスの候補として出力する。
The image processing device 100 inputs an image to an object detector. The object detector calculates the bounding box and score value.
When the score value falls within a certain threshold value, the image processing device 100 generates an image in which the area within the corresponding bounding box is filled with a single color. One image is generated for each applicable bounding box.
The image processing device 100 inputs the filled-in image group to the object detector again. The object detector calculates a bounding box and a score value for each input image.
If the maximum score value among the plurality of newly obtained score values exceeds the maximum score value in the original image by a certain amount or more, the image processing device 100 reduces the effectiveness of the attack by filling out the hostile sample patch. judge that it has been done. The image processing device 100 then outputs the attack detection. Further, the image processing device 100 outputs the bounding box having the highest score value in the group of filled-in images as a candidate bounding box for the target of the attack.
 まず、画像処理装置100は、物体検知のために入力される画像に対してバウンディングボックスとスコア値を算出する。
 次に、画像処理装置100は、スコア値が一定の範囲に入るバウンディングボックスを塗りつぶした画像を、該当するバウンディングボックスごとに生成する。
 次に、画像処理装置100は、生成された画像ごとに再び物体検知を行う。
 そして、塗りつぶし前後での最大スコア値の差が一定の閾値以上の場合に、画像処理装置100は、敵対的サンプルパッチ攻撃が行われていると判断する。この場合、画像処理装置100は、攻撃検知を示すフラグと、塗りつぶし後の最大スコア値を有するバウンディングボックスを出力する。
First, the image processing apparatus 100 calculates a bounding box and a score value for an image input for object detection.
Next, the image processing device 100 generates, for each applicable bounding box, an image in which bounding boxes whose score values fall within a certain range are filled in.
Next, the image processing device 100 performs object detection again for each generated image.
Then, if the difference between the maximum score values before and after filling is equal to or greater than a certain threshold, the image processing apparatus 100 determines that a hostile sample patch attack is being performed. In this case, the image processing device 100 outputs a bounding box having a flag indicating attack detection and a maximum score value after filling.
***実施の形態1の補足***
 図9に基づいて、画像処理装置100のハードウェア構成を説明する。
 画像処理装置100は処理回路109を備える。
 処理回路109は、受付部110と検知部120と加工部130と判定部140と出力部150を実現するハードウェアである。
 処理回路109は、専用のハードウェアであってもよいし、メモリ102に格納されるプログラムを実行するプロセッサ101であってもよい。
***Supplement to Embodiment 1***
The hardware configuration of the image processing device 100 will be described based on FIG. 9.
The image processing device 100 includes a processing circuit 109.
The processing circuit 109 is hardware that implements the reception section 110, the detection section 120, the processing section 130, the determination section 140, and the output section 150.
The processing circuit 109 may be dedicated hardware or may be the processor 101 that executes a program stored in the memory 102.
 処理回路109が専用のハードウェアである場合、処理回路109は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC、FPGAまたはこれらの組み合わせである。
 ASICは、Application Specific Integrated Circuitの略称である。
 FPGAは、Field Programmable Gate Arrayの略称である。
When processing circuit 109 is dedicated hardware, processing circuit 109 is, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, an ASIC, an FPGA, or a combination thereof.
ASIC is an abbreviation for Application Specific Integrated Circuit.
FPGA is an abbreviation for Field Programmable Gate Array.
 画像処理装置100は、処理回路109を代替する複数の処理回路を備えてもよい。 The image processing device 100 may include a plurality of processing circuits that replace the processing circuit 109.
 処理回路109において、一部の機能が専用のハードウェアで実現されて、残りの機能がソフトウェアまたはファームウェアで実現されてもよい。 In the processing circuit 109, some functions may be realized by dedicated hardware, and the remaining functions may be realized by software or firmware.
 このように、画像処理装置100の機能はハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせで実現することができる。 In this way, the functions of the image processing device 100 can be realized by hardware, software, firmware, or a combination thereof.
 実施の形態1は、好ましい形態の例示であり、本開示の技術的範囲を制限することを意図するものではない。実施の形態1は、部分的に実施してもよいし、他の形態と組み合わせて実施してもよい。フローチャート等を用いて説明した手順は、適宜に変更してもよい。 Embodiment 1 is an illustration of a preferred embodiment and is not intended to limit the technical scope of the present disclosure. Embodiment 1 may be implemented partially or in combination with other embodiments. The procedures described using flowcharts and the like may be modified as appropriate.
 画像処理装置100の各要素の「部」は、「処理」、「工程」、「回路」または「サーキットリ」と読み替えてもよい。 The "unit" of each element of the image processing device 100 may be read as "process", "process", "circuit", or "circuitry".
 100 画像処理装置、101 プロセッサ、102 メモリ、103 補助記憶装置、104 通信装置、105 入出力インタフェース、109 処理回路、110 受付部、120 検知部、121 第1検知部、122 第2検知部、130 加工部、140 判定部、150 出力部、190 記憶部、191 対象画像、192 処理結果、200 対象画像、201 バウンディングボックス、202 バウンディングボックス、203 バウンディングボックス、209 敵対的サンプルパッチ、210 塗りつぶし画像、211 バウンディングボックス、212 バウンディングボックス、220 塗りつぶし画像、221 バウンディングボックス、230 塗りつぶし画像、231 バウンディングボックス、232 バウンディングボックス。 100 image processing device, 101 processor, 102 memory, 103 auxiliary storage device, 104 communication device, 105 input/output interface, 109 processing circuit, 110 reception unit, 120 detection unit, 121 first detection unit, 122 second detection unit, 130 Processing unit, 140 Judgment unit, 150 Output unit, 190 Storage unit, 191 Target image, 192 Processing result, 200 Target image, 201 Bounding box, 202 Bounding box, 203 Bounding box, 209 Adversarial sample patch, 210 Filled image, 211 Bounding box, 212 bounding box, 220 filled image, 221 bounding box, 230 filled image, 231 bounding box, 232 bounding box.

Claims (6)

  1.  対象画像に対して物体検知を実行することによって、前記対象画像から検知された物体ごとにバウンディングボックスとスコア値を算出する第1検知部と、
     前記対象画像の前記バウンディングボックスごとに前記バウンディングボックスが塗りつぶされた前記対象画像を塗りつぶし画像として生成することによって、塗りつぶし画像群を得る加工部と、
     前記塗りつぶし画像ごとに、前記塗りつぶし画像に対して前記物体検知を実行することによって、前記塗りつぶし画像から検知された物体ごとにバウンディングボックスとスコア値を算出する第2検知部と、
     前記対象画像の各バウンディングボックスの前記スコア値と前記塗りつぶし画像群の各バウンディングボックスの前記スコア値に基づいて、前記対象画像に敵対的サンプルパッチを配置する敵対的サンプルパッチ攻撃が行われたか判定する判定部と、
    を備える画像処理装置。
    a first detection unit that calculates a bounding box and a score value for each object detected from the target image by performing object detection on the target image;
    a processing unit that obtains a group of filled images by generating the target image in which the bounding box is filled in for each of the bounding boxes of the target image as a filled image;
    a second detection unit that calculates a bounding box and a score value for each object detected from the filled image by performing the object detection on the filled image for each filled image;
    Based on the score value of each bounding box of the target image and the score value of each bounding box of the filled image group, it is determined whether an adversarial sample patch attack for placing an adversarial sample patch on the target image has been performed. A determination section;
    An image processing device comprising:
  2.  前記加工部は、前記対象画像の1つ以上の前記スコア値から既定範囲内の各スコア値を選択し、選択された各スコア値に対応する前記バウンディングボックスを選択し、選択された前記バウンディングボックスごとに前記塗りつぶし画像を生成する
    請求項1に記載の画像処理装置。
    The processing unit selects each score value within a predetermined range from one or more of the score values of the target image, selects the bounding box corresponding to each selected score value, and selects the bounding box corresponding to each selected score value. The image processing device according to claim 1, wherein the image processing device generates the filled-in image every time.
  3.  前記判定部は、前記対象画像における最大スコア値と前記塗りつぶし画像群における最大スコア値を選択し、前記対象画像における最大スコア値と前記塗りつぶし画像群における最大スコア値の差をスコア差として算出し、前記敵対的サンプルパッチ攻撃が行われたかを前記スコア差に基づいて判定する
    請求項1または請求項2に記載の画像処理装置。
    The determination unit selects the maximum score value in the target image and the maximum score value in the filled image group, and calculates the difference between the maximum score value in the target image and the maximum score value in the filled image group as a score difference, The image processing apparatus according to claim 1 or 2, wherein it is determined whether the hostile sample patch attack has been performed based on the score difference.
  4.  前記敵対的サンプルパッチ攻撃が行われたと判定された場合に、前記塗りつぶし画像群における前記最大スコア値に対応する前記バウンディングボックスを示す処理結果を出力する出力部を備える
    請求項3に記載の画像処理装置。
    The image processing according to claim 3, further comprising an output unit that outputs a processing result indicating the bounding box corresponding to the maximum score value in the filled image group when it is determined that the adversarial sample patch attack has been performed. Device.
  5.  対象画像に対して物体検知を実行することによって、前記対象画像から検知された物体ごとにバウンディングボックスとスコア値を算出し、
     前記対象画像の前記バウンディングボックスごとに前記バウンディングボックスが塗りつぶされた前記対象画像を塗りつぶし画像として生成することによって、塗りつぶし画像群を得て、
     前記塗りつぶし画像ごとに、前記塗りつぶし画像に対して前記物体検知を実行することによって、前記塗りつぶし画像から検知された物体ごとにバウンディングボックスとスコア値を算出し、
     前記対象画像の各バウンディングボックスの前記スコア値と前記塗りつぶし画像群の各バウンディングボックスの前記スコア値に基づいて、前記対象画像に敵対的サンプルパッチを配置する敵対的サンプルパッチ攻撃が行われたか判定する
    攻撃対策方法。
    calculating a bounding box and a score value for each object detected from the target image by performing object detection on the target image;
    Obtaining a group of filled images by generating the target image in which the bounding box is filled in for each of the bounding boxes of the target image as a filled image,
    calculating a bounding box and a score value for each object detected from the filled image by performing the object detection on the filled image for each filled image;
    Based on the score value of each bounding box of the target image and the score value of each bounding box of the filled image group, it is determined whether an adversarial sample patch attack for placing an adversarial sample patch on the target image has been performed. Attack countermeasure methods.
  6.  対象画像に対して物体検知を実行することによって、前記対象画像から検知された物体ごとにバウンディングボックスとスコア値を算出する第1検知処理と、
     前記対象画像の前記バウンディングボックスごとに前記バウンディングボックスが塗りつぶされた前記対象画像を塗りつぶし画像として生成することによって、塗りつぶし画像群を得る加工処理と、
     前記塗りつぶし画像ごとに、前記塗りつぶし画像に対して前記物体検知を実行することによって、前記塗りつぶし画像から検知された物体ごとにバウンディングボックスとスコア値を算出する第2検知処理と、
     前記対象画像の各バウンディングボックスの前記スコア値と前記塗りつぶし画像群の各バウンディングボックスの前記スコア値に基づいて、前記対象画像に敵対的サンプルパッチを配置する敵対的サンプルパッチ攻撃が行われたか判定する判定処理と、
    をコンピュータに実行させるための攻撃対策プログラム。
    a first detection process of calculating a bounding box and a score value for each object detected from the target image by performing object detection on the target image;
    processing for obtaining a group of filled images by generating the target image in which the bounding box is filled in for each of the bounding boxes of the target image as a filled image;
    a second detection process of calculating a bounding box and a score value for each object detected from the filled image by performing the object detection on the filled image for each filled image;
    Based on the score value of each bounding box of the target image and the score value of each bounding box of the filled image group, it is determined whether an adversarial sample patch attack for placing an adversarial sample patch on the target image has been performed. Judgment processing and
    An anti-attack program that allows computers to execute
PCT/JP2022/020591 2022-05-17 2022-05-17 Image processing device, attack countering method, and attack countering program WO2023223440A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2022/020591 WO2023223440A1 (en) 2022-05-17 2022-05-17 Image processing device, attack countering method, and attack countering program
JP2024507069A JPWO2023223440A1 (en) 2022-05-17 2022-05-17

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/020591 WO2023223440A1 (en) 2022-05-17 2022-05-17 Image processing device, attack countering method, and attack countering program

Publications (1)

Publication Number Publication Date
WO2023223440A1 true WO2023223440A1 (en) 2023-11-23

Family

ID=88834857

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/020591 WO2023223440A1 (en) 2022-05-17 2022-05-17 Image processing device, attack countering method, and attack countering program

Country Status (2)

Country Link
JP (1) JPWO2023223440A1 (en)
WO (1) WO2023223440A1 (en)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020200033A (en) * 2019-06-13 2020-12-17 バイドゥ ユーエスエイ エルエルシーBaidu USA LLC Detecting adversarial samples by vision based perception system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020200033A (en) * 2019-06-13 2020-12-17 バイドゥ ユーエスエイ エルエルシーBaidu USA LLC Detecting adversarial samples by vision based perception system

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KOTA NAKAMURA, EIICHIRO MONMA, TAKASHI ONO, YOSHIO NAKAMURA: "Examination of learning methods using adversarial example in deep learning to disaster management field", THE PAPERS OF JOINT TECHNICAL MEETING ON "PERCEPTION INFORMATION" AND "INNOVATIVE INDUSTRIAL SYSTEM", 2021.8.31, IEE JAPAN, JP, no. PI-21-046-051/IIS-21-032-037, 28 August 2021 (2021-08-28) - 31 August 2021 (2021-08-31), JP, pages 25 - 30, XP009550748 *

Also Published As

Publication number Publication date
JPWO2023223440A1 (en) 2023-11-23

Similar Documents

Publication Publication Date Title
CN105095905B (en) Target identification method and Target Identification Unit
WO2020082258A1 (en) Multi-objective real-time tracking method and apparatus, and electronic device
JP6977873B2 (en) Image processing device, image processing method, and image processing program
CN109919002B (en) Yellow stop line identification method and device, computer equipment and storage medium
CN107169489B (en) Method and apparatus for tilt image correction
CN111164575B (en) Sample data generating device, sample data generating method, and computer-readable storage medium
CN110414330B (en) Palm image detection method and device
TW201810186A (en) Method and apparatus for updating a background model
CN115797670A (en) Bucket wheel performance monitoring method and system based on convolutional neural network
US10929719B2 (en) Adversarial attack on black box object detection algorithm
CN113537145B (en) Method, device and storage medium for rapidly solving false detection and missing detection in target detection
WO2023223440A1 (en) Image processing device, attack countering method, and attack countering program
US10210414B2 (en) Object detection system and computer program product
CN107239776B (en) Method and apparatus for tilt image correction
US20230162530A1 (en) Facial recognition adversarial patch adjustment
KR102339342B1 (en) Method and system for detecting wave overtopping
JP7056751B2 (en) Ship detection systems, methods and programs
CN114155174A (en) Edge detection algorithm based on fusion histogram layering and nonlinear derivative
CN113762027A (en) Abnormal behavior identification method, device, equipment and storage medium
US20240064157A1 (en) Attack detection device, adversarial sample patch detection system, attack detection method, and non-transitory computer readable medium
CN111507339B (en) Target point cloud acquisition method based on intensity image
CN115499251B (en) Abnormal flow and attack detection method and system for edge IoT (Internet of things) equipment
JP2015036929A (en) Image feature extraction device, image feature extraction method, image feature extraction program and image processing system
JP7101920B2 (en) Attack detection system, attack detection method and attack detection program
JP6060638B2 (en) Object identification device, learning sample creation device, and program

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22942645

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2024507069

Country of ref document: JP

Kind code of ref document: A