WO2021161513A1 - 画像処理装置、画像処理システム、画像処理方法、および画像処理プログラム - Google Patents

画像処理装置、画像処理システム、画像処理方法、および画像処理プログラム Download PDF

Info

Publication number
WO2021161513A1
WO2021161513A1 PCT/JP2020/005812 JP2020005812W WO2021161513A1 WO 2021161513 A1 WO2021161513 A1 WO 2021161513A1 JP 2020005812 W JP2020005812 W JP 2020005812W WO 2021161513 A1 WO2021161513 A1 WO 2021161513A1
Authority
WO
WIPO (PCT)
Prior art keywords
metadata
image
attribute information
input
attribute
Prior art date
Application number
PCT/JP2020/005812
Other languages
English (en)
French (fr)
Inventor
寛之 鵜澤
周平 吉田
新田 高庸
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to EP20919274.9A priority Critical patent/EP4105885A4/en
Priority to US17/799,528 priority patent/US20230058896A1/en
Priority to JP2022500183A priority patent/JP7239050B2/ja
Priority to PCT/JP2020/005812 priority patent/WO2021161513A1/ja
Publication of WO2021161513A1 publication Critical patent/WO2021161513A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Definitions

  • the present invention relates to an image processing apparatus, an image processing system, an image processing method, and an image processing program, and particularly to an image processing technique used for object detection.
  • the size of the original image is resized to either 320 (width) ⁇ 320 (height) pixels, 416 ⁇ 416 pixels, or 608 ⁇ 608 pixels.
  • the input image is used.
  • the original image is a high-definition image such as full HD or 4K
  • the characteristic portion of the object included in the image is also reduced, so that it may be difficult to detect an object that is relatively small with respect to the input image.
  • Non-Patent Document 3 discloses a technique of dividing an input image into a plurality of images and detecting an object for each of the divided images.
  • the characteristic portion of the object is also divided, so that it may be difficult to detect the large object this time.
  • the present invention has been made to solve the above-mentioned problems, and even when a high-definition image is used as an input image, both a relatively large object and a relatively small object contained in the input image can be displayed.
  • the purpose is to realize an image processing technology that can be detected by an object detection model based on deep learning.
  • a division unit that divides an input image and outputs a plurality of first images, and each of the plurality of first images are prepared in advance.
  • the calculation of the object detection model is performed, and a set of attribute information including the attribute value of the object included in each of the plurality of first images and the first region surrounding the object.
  • the first processing unit that acquires the first metadata of the first image, the scaling unit that outputs the second image obtained by reducing the input image, and the second image are given to the object detection model as inputs.
  • the calculation of the object detection model is performed, and a set of attribute information including the attribute value of the object included in the second image and the second region surrounding the object is used as the second metadata of the second image.
  • the second processing unit to be acquired, the set of attribute information of the second metadata, and the set of attribute information not common to the second metadata and the first metadata are combined to form the third input image.
  • a synthesis processing unit that generates metadata is provided, and the first region has coordinate information in the input image, and the second region has coordinate information in the input image.
  • the image processing system includes the above-mentioned image processing device, a dividing unit, a dividing device, a scaling device, a second processing device, and a compositing processing device.
  • the dividing device divides an input image and outputs a plurality of third images
  • a plurality of the image processing devices are provided
  • each of the image processing devices is a processing system of the plurality of third images.
  • a fourth metadata showing a set of attribute information of the third image is generated, and each of the image processing devices divides the third image.
  • the calculation of the object detection model is performed, and the plurality of first images are calculated.
  • the first processing unit that acquires a set of attribute information including an object attribute value included in each of the images and a first region surrounding the object as the first metadata of the first image, and the third.
  • the scaling unit that outputs a second image obtained by reducing the image and the second image as inputs to the object detection model, the object detection model is calculated and the object included in the second image is calculated.
  • the second processing unit that acquires a set of attribute information including an attribute value and a second region surrounding the object as the second metadata of the second image, and a set of attribute information of the second metadata.
  • the first region includes the synthesis processing unit that generates the fourth metadata of the third image by combining the set of attribute information that is not common to the second metadata and the first metadata.
  • the second region has the coordinate information in the input image
  • the scaling device outputs a fifth image obtained by reducing the input image, and the second process.
  • the device performs the calculation of the object detection model by giving the fifth image as an input to the object detection model prepared in advance, and performs the calculation of the object detection model, the attribute value of the object included in the fifth image, and the first surrounding the object.
  • a set of attribute information including the three regions is acquired as the fifth metadata of the fifth image, and the synthesis processing apparatus obtains the set of attribute information of the fifth metadata, the fifth metadata, and the fifth metadata.
  • the sixth metadata of the input image is generated by combining with the set of attribute information that is not common to the four metadata, and the third region has the coordinate information of the input image.
  • a division step of dividing an input image and outputting a plurality of first images, and each of the plurality of first images are prepared in advance.
  • the calculation of the object detection model is performed, and a set of attribute information including the attribute value of the object included in each of the plurality of first images and the first region surrounding the object.
  • the first processing step of acquiring the first metadata of the first image, the scaling step of outputting the second image obtained by reducing the input image, and the second image are given to the object detection model as inputs.
  • the second processing step to be acquired, the set of attribute information of the second metadata, and the set of attribute information not common to the second metadata and the first metadata are combined to form the third input image.
  • the first region has coordinate information in the input image
  • the second region has coordinate information in the input image, including a synthesis processing step for generating metadata.
  • the image processing program according to the present invention is applied to a computer.
  • the calculation of the object detection model is performed by dividing the input image and outputting a plurality of first images, and by giving each of the plurality of first images as input to an object detection model prepared in advance.
  • the first processing step of acquiring a set of attribute information including the attribute value of the object included in each of the plurality of first images and the first region surrounding the object as the first metadata of the first image.
  • the second region has the coordinate information in the input image, and the second region has the coordinate information in the input image.
  • the third metadata of the input image is generated. Therefore, both a relatively large object and a small object included in the input image of the high-definition image can be detected by the object detection model based on deep learning.
  • FIG. 1 is a block diagram showing a functional configuration of an image processing apparatus according to the first embodiment of the present invention.
  • FIG. 2 is an explanatory diagram showing an outline of the image processing apparatus according to the first embodiment.
  • FIG. 3 is a block diagram showing an example of a computer configuration that realizes the image processing apparatus according to the first embodiment.
  • FIG. 4 is a diagram for explaining a divided image processed by the image processing apparatus according to the first embodiment.
  • FIG. 5 is a flowchart for explaining the operation of the image processing apparatus according to the first embodiment.
  • FIG. 6 is a flowchart for explaining the division process by the image processing apparatus according to the first embodiment.
  • FIG. 7 is a flowchart for explaining the overall processing by the image processing apparatus according to the first embodiment.
  • FIG. 1 is a block diagram showing a functional configuration of an image processing apparatus according to the first embodiment of the present invention.
  • FIG. 2 is an explanatory diagram showing an outline of the image processing apparatus according to the first embodiment.
  • FIG. 3 is a
  • FIG. 8 is a flowchart for explaining the composition process by the image processing apparatus according to the first embodiment.
  • FIG. 9 is a flowchart for explaining the metadata selection process by the image processing apparatus according to the first embodiment.
  • FIG. 10 is a flowchart for explaining the metadata selection process by the image processing apparatus according to the second embodiment.
  • FIG. 11 is a flowchart for explaining the metadata selection process by the image processing apparatus according to the third embodiment.
  • FIG. 12 is a block diagram showing a configuration of an image processing system according to a fourth embodiment.
  • the input image I in is divided into a plurality of images, the object detection is performed for each divided image, and the object detection of the entire image obtained by reducing the input image I in is performed. The whole process is executed.
  • object detection is performed using an object detection model prepared in advance for each divided image, and as a result of the object detection, metadata MD1 containing a set of attribute information of the divided image ( The first metadata) is acquired.
  • metadata MD1 containing a set of attribute information of the divided image
  • the overall processing object detection is performed on the entire image using an object detection model prepared in advance, and as a result of the object detection, metadata MD2 (second meta) including a set of attribute information of the entire image is included. Data) is acquired.
  • the attribute information of the metadata MD1 of the divided image generated by the image processing device 1 by the division processing includes the attribute value of the object included in the divided image (for example, "dog” shown in FIG. 2) and the square surrounding the object.
  • a frame (first area) is included.
  • the square frame surrounding the object included in the metadata MD1 includes the coordinate information in the input image I in.
  • the attribute information of the metadata MD2 of the whole image includes the attribute value of the object included in the whole image and the square frame (second area) surrounding the object.
  • the square frame surrounding the object included in the metadata MD2 includes the coordinate information in the input image I in of the object.
  • the image processing device 1 combines the set of attribute information of the metadata MD2 of the entire image and the set of attribute information not common to the metadata MD1 of the divided image, and inputs the input image I in.
  • the synthesis process (third process) generated as the metadata MD (third metadata) of the above is executed.
  • the metadata MD added to the input image I in which is image data, is additional information in which duplication of metadata is eliminated between the divided image and the entire image, that is, the metadata MD2 of the entire image is the metadata of the divided image. This is additional information interpolated by the data MD1.
  • the metadata MD is the final result of object detection of the input image I in.
  • the image processing device 1 interpolates the metadata MD2 of the entire image in which the object that could not be detected in the entire image exists by the metadata MD1 including the object detected only in the divided image. do.
  • the image processing apparatus 1 according to this embodiment even when a high-definition image is used as the input image I in, it is possible to detect the object in the size of both large and small in the input image I in.
  • the image processing apparatus 1 receives the input image I in as an input, performs division processing (first processing), overall processing (second processing), and composition processing (third processing), and performs the input image. Generates and outputs I- in metadata MD.
  • the image processing device 1 includes a first processing unit 110, a second processing unit 120, and a third processing unit 130.
  • the first processing unit 110 includes a dividing unit 111, a scaling unit 112, an object detection unit 113, and a metadata adjusting unit 114.
  • the first processing unit 110 is a functional block that executes the division processing described with reference to FIG.
  • the division unit 111 divides the original image of the high-definition image input as the input image I in into a plurality of divided images (first image) and outputs the original image.
  • the width of the input image I in refers to the length along the left-right direction of the paper surface
  • the height of the input image I in refers to the length in the vertical direction of the paper surface.
  • the division unit 111 divides the input image I in into a plurality of divided images, with the number of divisions N w in the width direction and the number of divisions N h in the height direction of the input image I in.
  • the scaling unit 112 performs a scaling process of reducing each of the plurality of divided images to a specified image size that can be input to the object detection model based on deep learning.
  • the scaling unit 112 reduces the image size while maintaining parameter values such as the ratio of the width and height of each divided image so as to correspond to the size of the input image of the object detection model used by the object detection unit 113 described later. ..
  • the object detection unit 113 uses the divided image reduced by the scaling unit 112 as an input, performs a calculation of the trained object detection model based on a predetermined deep learning, and performs the operation of the learned object detection model, the attribute value of the object included in the divided image, and the input image I.
  • a set of attribute information including a square frame (first region) surrounding the object having coordinate information of the object in in is acquired as metadata MD1 of the divided image.
  • the metadata MD1 is a set of attribute information including the attribute value of the object and the square frame BB1.
  • the square frame that encloses the object detected in the divided image, which is included in the metadata MD1 acquired by the object detection unit 113, is also called a bounding box, and for example, circumscribes the detected object and encloses the object. Has the smallest rectangular range possible.
  • the square frame surrounding the object included in the metadata MD1 will be referred to as “square frame BB1”.
  • the input image I in shown in FIG. 2 includes a dog, a bicycle, and a car, and the dog sits in the foreground, and behind the dog, the bicycle leans against the wall, and further along the road.
  • a car is parked on the other side of the road.
  • "dog”, "bicycle”, and "car” are used as attribute values of object detection representing an object's unique shape, shape, and property.
  • the input image I in is divided into four divided images. Further, each divided image is input to the learned object detection model by the object detection unit 113, the object included in each divided image is detected, and the square frame BB1 is created for each detected object.
  • the uppermost divided image includes the upper part of the bicycle and the dog's head, and the object detection unit 113 includes these objects (based on a part of the object).
  • the attribute values "bicycle” and "dog” shown in FIG. 2) are detected, and the square frame BB1 is designated.
  • a car attribute value "car” in FIG. 2 is detected and a square frame BB1 is designated.
  • the image of a part or the whole of the objects attribute values "dog”, “bicycle”, and “car” in FIG. 2 detected in each divided image in the "division process" of FIG. The boundary of is specified by the square frame BB1.
  • the square frame BB1 includes at least the center coordinates (X, Y), the frame height “H”, and the frame width “W”. These are the position information of the object in the input image I in, which shows the positional relationship corresponding to the input image I in reduced by the scaling unit 112.
  • the object detection unit 113 uses, for example, an object detection model such as YOLO using a convolutional neural network (CNN) learned in advance by a computing device such as an external server to generate a divided image reduced by the scaling unit 112.
  • an object detection model such as YOLO using a convolutional neural network (CNN) learned in advance by a computing device such as an external server to generate a divided image reduced by the scaling unit 112.
  • CNN convolutional neural network
  • the metadata adjustment unit 114 adjusts the metadata MD1 for mapping the square frame BB1 of the object detected by the object detection unit 113 to the original image before division, that is, the input image I in.
  • N w min (N w_max, ceiling (W in / W det)) ⁇ (1)
  • N h min (N h_max , ceiling (H in / H det )) ...
  • N w_max indicates the upper limit of the number of divisions of the input image I in in the width direction
  • N h_max indicates the upper limit of the number of divisions of the input image I in in the height direction.
  • FIG. 4 shows an example of a divided image when N w is 2 and N h is 2. Coordinates of each divided image in FIG. 4 (x ', y') are each 0 ⁇ x ' ⁇ floor (W in / N w), 0 ⁇ y' is ⁇ floor (H in / N h ).
  • the metadata adjustment unit 114 maps the coordinates of the square frame BB1 surrounding the object detected in the divided image to the input image I in which is the original image. More specifically, the center coordinates (x bb_div , y) of the square frame BB1 of the object detected in the divided images [i] [j] (0 ⁇ i ⁇ N w -1, 0 ⁇ j ⁇ N h -1). bb_div ), width w bb_div , height h bb_div , the center coordinates of the square frame BB1 adjusted to the coordinates of the original image are (x bb , y bb ), the width is w bb , and the height is h bb .
  • the metadata adjustment unit 114 maps the square frame BB1 to the input image I in based on the following equations.
  • x bb x bb_div ⁇ floor ( W in / N w) + floor (W in / N w) ⁇ i ⁇ (3)
  • y bb y bb_div x floor (H in / N h ) + floor (H in / N h ) x j ...
  • w bb w bb_div ⁇ floor ( W in / N w) ⁇ (5)
  • h bb h bb_div ⁇ floor (H in / N h ) ⁇ ⁇ ⁇ (6)
  • the second processing unit 120 is a functional block that executes the entire processing described with reference to FIG. As shown in FIG. 1, the second processing unit 120 includes a scaling unit 121, an object detection unit 122, and a metadata scaling unit 123.
  • Scaling unit 121 an input image I in the high-definition image, reduced to the specified image size that can be input to the object detection model based on a predetermined depth learning, and outputs the reduced entire image (second image) .
  • the scaling unit 121 can reduce the image size while maintaining the ratio of the width and the height of the input image I in, for example.
  • the object detection unit 122 gives the entire image to the object detection model prepared in advance as an input, performs the calculation of the object detection model, and performs the attribute value of the object included in the overall image and the second region surrounding the object (hereinafter, ""
  • a set of attribute information including "square frame BB2" is generated as metadata MD2 of the entire image.
  • the square frame BB2 contains the coordinate information in the input image I in of the corresponding object.
  • the metadata MD2 is a set of attribute information including the attribute value of the object and the square frame BB2.
  • the object detection unit 122 uses, for example, an object detection model such as YOLO using a convolutional neural network (CNN) learned in advance by an arithmetic unit such as an external server.
  • the object detection unit 122 detects an object included in the entire image by inputting the entire image reduced by the scaling unit 121.
  • the size of the input image is specified in advance, as in the object detection model used in the first processing unit 110.
  • the metadata scaling unit 123 performs a scaling process for enlarging the area of the square frame BB2 of the object included in the metadata MD2 of the entire image generated by the object detection unit 122.
  • the metadata scaling unit 123 scales the square frame BB2 included in the metadata MD2 of the entire image by using, for example, a bilinear interpolation method.
  • the width of the input image I in is the original image W in
  • the height is H in the width of the entire image is reduced by the scaling unit 121 is W det
  • height and is H det.
  • the metadata scaling unit 123 the center coordinates of the rectangular frame BB2 (X bb, Y bb) a (X bb ⁇ W in / W det, Y bb ⁇ H in / H det), the width W of the rectangular frame BB2 the bb and height H bb, W bb ⁇ W in / W det, maps the rectangular frame BB2 in the input image I in the original image by scaling the H bb ⁇ H in / H det .
  • the third processing unit 130 combines a set of attribute information that is not common to the metadata MD2 of the entire image and the metadata MD1 of the divided image shown in FIG. 2, and the metadata MD of the input image I in (third metadata MD). ).
  • the third processing unit 130 includes a sorting unit 131 and a synthesis unit 132.
  • the sorting unit 131 includes a calculation unit 310 and a determination unit 311.
  • the calculation unit 310 includes the attribute value of the object included in the metadata MD2 of the entire image generated by the second processing unit 120 and the attribute of the object included in the metadata MD1 of the divided image generated by the first processing unit 110.
  • the degree of overlap obtained by dividing the overlapping area of the square frame BB2 of the metadata MD2 and the square frame BB1 of the metadata MD1 by the area of the square frame BB1 of the metadata MD1 (first). Value).
  • the degree of duplication is an index showing the degree of duplication between the attribute information of the metadata.
  • the determination unit 311 determines whether or not the degree of duplication obtained by the calculation unit 310 exceeds a preset first threshold value.
  • the sorting unit 131 shares the attribute information of the metadata MD1 of the divided image with the attribute information of the metadata MD2 of the entire image. It is determined that the data exists, and the common attribute information is removed from the metadata MD1.
  • the compositing unit 132 generates the metadata MD of the input image I in by combining the metadata MD1 of the divided image from which the attribute information of the metadata common to the sorting unit 131 has been removed and the metadata MD2 of the entire image. That is, the synthesis unit 132 interpolates the metadata MD2 of the entire image with the metadata MD1 of the divided image from which the duplicate attribute information is excluded, and generates the metadata MD of the input image I in.
  • the image processing device 1 includes, for example, a computer including a processor 102, a main storage device 103, a communication I / F 104, an auxiliary storage device 105, and an input / output I / O 106 connected via a bus 101. , It can be realized by a program that controls these hardware resources.
  • an external input device 107 and a display device 108 are connected to each other via a bus 101.
  • the main storage device 103 stores in advance programs for the processor 102 to perform various controls and calculations.
  • the main storage device 103 is composed of a semiconductor memory or the like.
  • the processor 102 and the main storage device 103 realize each function of the image processing device 1 including the first processing unit 110, the second processing unit 120, and the third processing unit 130 shown in FIG.
  • the processor 102 can be realized by a device that constitutes an arbitrary logic circuit such as a GPU, a CPU, and an FPGA.
  • the communication I / F 104 is an interface circuit for communicating with various external electronic devices via the communication network NW. For example, an object detection model learned in advance by an external server (not shown) or the like can be received from the communication I / F 104 and stored in the auxiliary storage device 105 described later. Further, the communication I / F 104 may send the input image I in and the metadata MD which is the output data to a preset external server or the like.
  • the communication I / F 104 for example, a communication control circuit and an antenna corresponding to wireless data communication standards such as 3G, 4G, 5G, wireless LAN, and Bluetooth (registered trademark) are used.
  • wireless data communication standards such as 3G, 4G, 5G, wireless LAN, and Bluetooth (registered trademark) are used.
  • the auxiliary storage device 105 is composed of a readable and writable storage medium and a drive device for reading and writing various information such as programs and data to the storage medium.
  • a semiconductor memory such as a hard disk or a flash memory can be used as the storage medium in the auxiliary storage device 105.
  • the auxiliary storage device 105 has a program storage area for storing various parameters and programs for the image processing device 1 to perform image processing including division processing, overall processing, and composition processing. Further, the auxiliary storage device 105 stores a learned object detection model based on deep learning used by the image processing device 1 for the object detection process.
  • the auxiliary storage device 105 described above may have, for example, a backup area for backing up the above-mentioned data, programs, and the like.
  • the input / output I / O 106 is composed of I / O terminals that input signals from external devices and output signals to external devices.
  • the input device 107 is composed of a keyboard, a touch panel, or the like, receives an operation input from the outside, and generates a signal corresponding to the operation input.
  • the display device 108 is realized by a liquid crystal display or the like.
  • the display device 108 can display the input image I in , the metadata MD which is the output data, and the like.
  • FIG. 5 is a flowchart for explaining an outline of the operation of the image processing device 1.
  • the input image I in is input (step S1).
  • an image taken by an external camera (not shown) is received by the communication I / F 104 and input to the image processing device 1 as an input image I in.
  • a high-definition image or the like is used as the input image I in .
  • the first processing unit 110 executes a division process for each of the plurality of divided images in which the input image I in is divided (step S2).
  • the second processing unit 120 executes the entire processing on the entire image in which the input image I in is reduced (step S3).
  • the third processing unit 130 performs a metadata composition process based on the result of the division process in step S2 and the result of the overall process in step S3 (step S4). After that, the third processing unit 130 outputs the metadata MD of the input image I in (step S5).
  • the division process in step S2 and the overall process in step S3 may be executed in parallel, and the order in which steps S2 and S3 are executed may be reversed.
  • the division unit 111 divides the input image I in and outputs a plurality of divided images (step S20). For example, dividing section 111, the input image I in the image size W in (Width) ⁇ H in (height), as shown in FIG. 4, is divided into four, to generate the four divided images Can be done.
  • the scaling unit 112 scales each divided image to a preset image size (step S21). More specifically, the scaling unit 112 reduces each divided image so that the size of the divided image corresponds to the size of the specified input image of the object detection model used by the object detection unit 113. If the size of the input image I in is divisible by the image size used in the object detection process by the object detection unit 113, the scaling process in step S21 is omitted.
  • the object detection unit 113 takes a divided image scaled to a specified image size as an input, reads out a learned object detection model based on deep learning stored in the auxiliary storage device 105, and reads an object detection model. Is performed to detect an object included in the divided image (step S22). More specifically, the object detection unit 113 acquires a set of attribute information including the attribute value of the object included in the divided image and the square frame BB1 surrounding the object as the metadata MD1 of the divided image.
  • the metadata adjusting unit 114 uses the above equations (3) to (6) to determine the coordinates of the square frame BB1 of the object included in the metadata MD1 of the divided image, and sets the input image I in which is the original image. (Step S23).
  • the metadata adjustment unit 114 outputs the metadata MD1 of the divided image (step S24).
  • the metadata MD1 of each divided image is input to the third processing unit 130.
  • step S3 in FIG. 5 the entire processing for the input image I in executed by the second processing unit 120 will be described in more detail with reference to the flowchart of FIG.
  • the scaling unit 121 reduces the input image I in to a designated image size (step S30). More specifically, the scaling unit 121 reduces the input image I in to a specified image size that can be input to the object detection model used by the object detection unit 122, and outputs the reduced overall image.
  • the object detection unit 122 reads out the learned object detection model stored in the auxiliary storage device 105, inputs the entire image scaled in step S30, calculates the object detection model, and converts the entire image into the overall image.
  • a set of attribute information including the attributes of the included object and the square frame BB2 of the object is acquired as the metadata MD2 of the entire image (step S31).
  • the metadata scaling unit 123 performs scaling to expand the square frame BB2 of the object included in the metadata MD2 of the entire image generated in step S31 (step S32).
  • the metadata scaling unit 123 scales the square frame BB2 by using, for example, a bilinear interpolation method, and maps the square frame BB2 to the input image I in.
  • the metadata scaling unit 123 outputs the metadata MD2 in which each square frame BB2 is scaled and mapped to the input image I in (step S33).
  • the metadata MD2 is input to the third processing unit 130.
  • step S4 in FIG. 5 the synthesis process executed by the third processing unit 130 will be described with reference to the flowcharts of FIGS. 8 and 9.
  • the sorting unit 131 executes the metadata sorting process for each divided image based on the metadata MD1 of the divided image and the metadata MD2 of the entire image (step S40).
  • the metadata MD1 and MD2 are a set of attribute information including the attribute value of the object detected from the image and the square frames BB1 and BB2 surrounding the object.
  • each of the plurality of attribute information included in the metadata MD1 and MD2 is created for, for example, the attribute value (for example, "dog") of each object detected from the image by the object detection and the detected object.
  • the information (coordinates and size) of the square frames BB1 and BB2 are included.
  • FIG. 9 a case where the sorting process is executed for each attribute information of each divided image will be described as an example.
  • the metadata MD2 of the entire image generated by the second processing unit 120 is input to the sorting unit 131 (step S400).
  • the metadata MD1 of one of the plurality of divided images generated by the first processing unit 110 is input to the sorting unit 131 (step S401).
  • the sorting unit 131 determines whether or not the attribute value of the metadata MD2 of the entire image matches the attribute value of the metadata MD1 of the divided image (step S402).
  • the calculation unit 310 calculates the degree of duplication (step S403). More specifically, the calculation unit 310 divides the area overlapped by the square frame BB2 included in the metadata MD2 of the entire image and the square frame BB1 included in the metadata MD1 of the divided image by the area of the square frame BB1. The degree of duplication obtained is calculated.
  • step S402 If the attribute value included in the metadata MD2 of the entire image does not match the attribute value included in the metadata MD1 of the divided image in step S402 (step S402: NO), the process proceeds to step S401. Another attribute information included in the metadata MD1 of the same divided image is input (step S401).
  • the attribute value included in the metadata MD1 of the divided image and the attribute value included in the metadata MD2 of the entire image may be different from each other, for example, "dog” and "bicycle".
  • step S404 determines the degree of duplication calculated in step S403 exceeds the preset first threshold value (step S404: YES)
  • the determination unit 311 determines the attribute information of the metadata MD1 of the divided image and It is determined that the attribute information of the metadata MD2 of the entire image is the same attribute information, and the same attribute information is removed from the metadata MD1 (step S405). That is, the attribute value of the object detected in the divided image and the whole image is the same, and the attribute information of the metadata in which the object has the corresponding positional relationship in the input image I in is obtained from the metadata MD1 of the divided image. Be excluded.
  • step S404 if the degree of duplication is equal to or less than the first threshold value (step S404: NO), the process ends. After that, the attribute information of the metadata MD2 of the entire image is sorted, and the attribute information of the metadata common to the divided image and the entire image is excluded (steps S400 to S405). In addition, the sorting unit 131 executes a metadata sorting process for each of the plurality of divided images.
  • the processing is returned to the flow of the compositing process of FIG. 8, and the compositing unit 132 synthesizes the metadata MD1 of the plurality of divided images and the metadata MD2 of the entire image, and the metadata MD of the input image I in is generated. It is generated (step S41).
  • the split image metadata MD1 contains attribute information about a small size object that is not included in the overall image metadata MD2. Further, the metadata MD2 of the entire image may include attribute information regarding a relatively large-sized object that is not included in the metadata MD1 of the divided image.
  • the metadata MD of the input image I in obtained by synthesis can be added to the input image I in and displayed as an image file on the display screen of the display device 108.
  • the whole image obtained by reducing the input image I in performs an object detection based on deep learning, and a plurality of dividing the input image I in divided Object detection based on deep learning is also performed for each of the images. Further, based on the result of object detection using the whole image and the result of object detection of each of the plurality of divided images, after removing the attribute information of the metadata common to the whole image and the divided image, the whole image
  • the metadata MD2 of the above and the metadata MD1 of the plurality of divided images are combined to generate the metadata MD of the input image I in.
  • the degree of duplication of metadata is calculated from the results of object detection in each of the divided image and the entire image, and when the degree of duplication exceeds the first threshold value, the metadata of the divided image is calculated. It was determined that the attribute information of MD1 and the attribute information of the entire image were common to the metadata MD2, and the common attribute information was removed from the metadata MD1 of the divided image.
  • the duplication of metadata is eliminated based on the two-step threshold value determination.
  • the configuration of the image processing device 1 according to the second embodiment is the same as that of the first embodiment (FIG. 1). Further, the operation of the image processing device 1 according to the present embodiment is the same as that of the first embodiment except for the metadata selection process (FIGS. 2 to 8).
  • the metadata selection process executed by the image processing device 1 according to the present embodiment will be described with reference to the flowchart of FIG.
  • the sorting unit 131 executes the metadata sorting process for each divided image based on the metadata MD1 of the divided image and the metadata MD2 of the entire image.
  • the metadata MD1 and MD2 are a set of attribute information including the attribute value of the object and the square frames BB1 and BB2 surrounding the object.
  • one attribute information of the metadata MD1 and MD2 includes the attribute value (for example, "dog") of each object detected from the image by the object detection and the square frame BB1 created for the detected object.
  • BB2 information (coordinates and size) is included.
  • FIG. 10 a case where the sorting process is executed for each attribute information of each divided image will be described as an example.
  • the metadata MD2 of the entire image processed by the second processing unit 120 is input to the sorting unit 131 (step S400).
  • the metadata MD1 of one of the plurality of divided images processed by the first processing unit 110 is input to the sorting unit 131 (step S401).
  • the sorting unit 131 determines whether or not the attribute value of the metadata MD2 of the entire image matches the attribute value of the metadata MD1 of the divided image (step S402).
  • the calculation unit 310 calculates the degree of duplication (step S403). More specifically, the calculation unit 310 divides the area overlapped by the square frame BB2 included in the metadata MD2 of the entire image and the square frame BB1 included in the metadata MD1 of the divided image by the area of the square frame BB1. The degree of duplication obtained is calculated.
  • step S402 If the attribute value of the metadata MD2 of the entire image does not match the attribute value of the metadata MD1 of the divided image in step S402 (step S402: NO), the process proceeds to step S401, and the same divided image is used. Another attribute information included in the metadata MD1 is input (step S401).
  • step S403 the degree of duplication calculated in step S403 exceeds the preset first threshold value (step S404: YES), and the determination unit 311 (second determination unit) determines the metadata MD1 of the divided image.
  • step S404A the area ratio of the square frame BB1 included in the image and the area ratio of the square frame BB2 of the entire image exceeds the preset second threshold value (step S404A: YES)
  • step S404A the sorting unit 131 is determined.
  • the attribute information that has become is removed from the metadata MD1 (step S405).
  • the determination target The attribute information is removed from the interpolation target in the compositing process of the metadata MD1 of the divided image and the metadata MD2 of the entire image by the compositing unit 132.
  • the position information in the input image I in of the object detected by the object detection units 113 and 122 is represented by the square frames BB1 and BB2.
  • the area of the square frame BB2 of the object becomes large, and the square frame BB1 of the object detected in the divided image becomes large. May cover the area. In such a case, it is possible to prevent the attribute information of the metadata MD1 of the divided image from being accidentally removed.
  • the overlap between the metadata MD1 of the divided image and the metadata MD2 of the entire image is eliminated based on the degree of overlap and the area ratio between the objects.
  • step S404: NO if the degree of duplication is equal to or less than the first threshold value (step S404: NO), the process ends. Even if the degree of overlap exceeds the first threshold value (step S404: YES), if the area ratio between the square frames BB1 and BB2 is equal to or less than the second threshold value (step S404A: NO). , Similarly, the process ends.
  • step S400 all the attribute information included in the metadata MD2 of the whole image is sorted, and the attribute information duplicated in the metadata MD1 of the divided image and the metadata MD2 of the whole image is eliminated (step S400). From step S405).
  • the sorting unit 131 executes a metadata sorting process for each of the plurality of divided images.
  • the processing is returned to the flow of the compositing process of FIG. 8, and the compositing unit 132 synthesizes the metadata MD1 of the plurality of divided images and the metadata MD2 of the entire image, and the metadata MD of the input image I in is generated. It is generated (step S41 in FIG. 8).
  • the sorting unit 131 considers not only the degree of overlap but also the area ratio between objects, and has a two-step threshold value. By the processing, the attribute information common to the metadata MD1 of the divided image and the metadata MD2 of the entire image is excluded from the interpolation target.
  • the image processing device 1 can more accurately detect both a relatively large object and a small object included in the high-definition image by object detection based on deep learning.
  • the second embodiment in the metadata selection process, a two-step threshold process is performed, and even if the degree of duplication is equal to or higher than the first threshold value, the square frame included in the metadata MD1 of the divided image is included.
  • the ratio of the area of BB1 to the area of the square frame BB2 of the object included in the metadata MD2 of the entire image is equal to or less than the second threshold value, the attribute information of the metadata MD1 of the divided image and the entire image Judging that it is not common with the attribute information of the metadata MD2, it was set as the target of the interpolation processing by the synthesis unit 132.
  • the attribute information having an attribute value that does not match any of the attribute values included in the metadata MD2 of the entire image. Is included in the metadata MD1 of the divided image.
  • the metadata MD1 contains attribute information having non-matching attribute values, the area of the square frame BB1 of the object included in the metadata MD1 of the divided image and the area of the area of the input image I in corresponding to the square frame BB1. Is compared with.
  • the configuration of the image processing device 1 according to the third embodiment is the same as that of the first embodiment (FIG. 1). Further, the operation of the image processing device 1 according to the present embodiment is the same as that of the first embodiment except for the metadata selection process (FIGS. 2 to 8). Further, as for the metadata sorting process, the processes from step S400 to step S405 of the metadata sorting process (FIG. 10) according to the second embodiment are the same.
  • the metadata selection process executed by the image processing device 1 according to the present embodiment will be described with reference to the flowchart of FIG.
  • the sorting unit 131 executes the metadata sorting process for each divided image based on the metadata MD1 of the divided image and the metadata MD2 of the entire image.
  • the metadata MD1 and MD2 are a set of attribute information including the attribute value of the object and the square frames BB1 and BB2 surrounding the object.
  • the attribute information of the metadata MD1 and MD2 includes the attribute value of each object (for example, "dog") and the information (coordinates and size) of the square frames BB1 and BB2 created for the detected object. Is done.
  • FIG. 10 a case where the selection process is executed for each attribute information included in the metadata MD1 of each divided image will be described as an example.
  • the metadata MD2 of the entire image generated by the second processing unit 120 is input to the sorting unit 131 (step S400).
  • the metadata MD1 of one of the plurality of divided images generated by the first processing unit 110 is input to the sorting unit 131 (step S401).
  • the sorting unit 131 determines whether or not the attribute value of the metadata MD2 of the entire image matches the attribute value of the metadata MD1 of the divided image (step S402).
  • the calculation unit 310 calculates the degree of duplication (step S403). More specifically, the calculation unit 310 divides the area overlapped by the square frame BB2 included in the metadata MD2 of the entire image and the square frame BB1 included in the metadata MD1 of the divided image by the area of the square frame BB1. The degree of duplication obtained is calculated.
  • step S402 If the attribute value of the metadata MD2 of the entire image does not match the attribute value of the metadata MD1 of the divided image in step S402 (step S402: NO), the process proceeds to step S401, and the same divided image is used. Another attribute information included in the metadata MD1 is input (step S401).
  • step S403 the degree of overlap calculated in step S403 is equal to or higher than the preset first threshold value (step S404: YES), and the square frame BB1 of the metadata MD1 of the divided image
  • step S404A the area ratio of the square frame BB2 related to the metadata MD2 of the area and the entire image exceeds the second threshold value
  • step S404A the area ratio of the square frame BB2 related to the metadata MD2 of the area and the entire image exceeds the second threshold value
  • step S404A the sorting unit 131 selects the attribute information to be determined from the metadata MD1. Remove (step S405).
  • the area of the square frame BB1 included in the metadata MD1 of the divided image is set to a preset second threshold value with respect to the area of the square frame BB2 included in the metadata MD2 of the entire image.
  • the attribute information of the determination target is removed from the interpolation target in the synthesis process by the synthesis unit 132.
  • the duplication of the metadata included in the divided image and the entire image is eliminated based on the degree of duplication and the area ratio between the objects.
  • step S404: NO if the degree of duplication is equal to or less than the first threshold value (step S404: NO), the process proceeds to step S406. Further, even if the degree of overlap exceeds the first threshold value (step S404: YES), if the area ratio is equal to or less than the second threshold value (step S404A: NO), the process is similarly performed in steps. Move to S406.
  • the sorting unit 131 processes all the attribute information included in the metadata MD2 of the entire image from step S404 to step S405 until the processing from step S402 to step S404A is completed (step S406: NO). repeat. After that, when the processing from step S402 to step S404A is completed for all the attribute information of the metadata MD2 of the whole image (step S406: YES), the sorting unit 131 divides the attribute value of the metadata MD2 of the whole image and the division. The attribute value of the image metadata MD1 is compared (step S407).
  • the sorting unit 131 includes attribute information having an attribute value that does not match any of the attribute values included in all the attribute information of the metadata MD2 of the entire image in the metadata MD1 of the divided image (Ste S407: YES)
  • the area of the square frame BB1 of the metadata MD1 of the divided image relating to the non-overlapping attribute value is compared with the area of the area of the input image I in corresponding to the square frame BB1 (step S408). ..
  • the determination unit 311 is a value obtained by dividing the area of the square frame BB1 included in the metadata MD1 of the divided image by the area of the corresponding region of the input image I in which is the original image (No. 1). It is determined whether or not the value (3) exceeds a preset third threshold value.
  • the value obtained by dividing the area of the square frame BB1 by the area of the corresponding area of the input image I in exceeds the preset third threshold value step S408: YES
  • the third threshold value is determined.
  • the attribute information to be determined is erroneously detected because the feature amount of the object included in the input image I in is divided due to the influence of the image division processing by the first processing unit 110. It is judged that it is the attribute information of the object.
  • the sorting unit 131 removes the attribute information related to the object erroneously detected based on the third threshold value from the metadata MD1 of the divided image, and synthesizes the metadata MD1 of the divided image and the metadata MD2 of the entire image. Exclude in advance from the interpolation target in.
  • step S408: NO when the value obtained by dividing the area of the square frame BB1 by the area of the corresponding area of the input image I in is equal to or less than the third threshold value (step S408: NO), the process ends. Further, even when the attribute information having an attribute value that does not overlap with any of the attribute values included in the metadata MD2 of the entire image is not included in the metadata MD1 of the divided image (step S407: NO), the same processing is performed. Is finished.
  • step S408 when the value is equal to or less than the third threshold value, the sorting unit 131 determines the metadata of the divided image relating to the attribute value that does not match any of the attribute values of the object group detected in the entire image. It is determined that the attribute information of the MD1 is the attribute information related to an object having a relatively small size that could not be detected by the entire processing in the second processing unit 120.
  • the sorting unit 131 executes a metadata sorting process for each of the plurality of divided images (steps S400 to S409).
  • the processing is returned to the flow of the compositing process of FIG. 8, and the compositing unit 132 synthesizes the metadata MD1 of the plurality of divided images and the metadata MD2 of the entire image, and the metadata MD of the input image I in is generated. It is generated and output (step S41 in FIG. 8).
  • the metadata selection process division relating to an object having an attribute value that does not match any of the attribute values of the object group included in the metadata MD2 of the entire image. If there is attribute information of the image metadata MD1, further threshold processing is performed to exclude common attribute information from the metadata MD1.
  • the second processing unit 120 can interpolate an object having a relatively small size, which could not be detected in the reduced whole image of the input image I in, based on the metadata MD1 of the divided image.
  • the image processing device 1 can more accurately detect both a relatively large object and a small object included in the high-definition image by object detection based on deep learning.
  • the image processing apparatus 1 includes one each of the first processing unit 110, the second processing unit 120, and the third processing unit 130 has been described.
  • the image processing system 1B includes a plurality of image processing devices 1A, and the plurality of image processing devices 1A detect an object included in the input image I in.
  • FIG. 12 is a block diagram showing the configuration of the image processing system 1B according to the fourth embodiment.
  • the image processing system 1B includes a plurality of image processing devices 1A, a second processing unit (second processing device) 120B, a third processing unit (synthesis processing device) 130B, and a dividing unit (dividing device). It is equipped with 140.
  • the image processing system 1B includes M (M> 1) image processing devices 1A.
  • Each image processing device 1A includes a first processing unit 110, a second processing unit 120, and a third processing unit 130, as in the first to third embodiments (FIGS. 1 and 12).
  • first processing unit 110 the second processing units 120 and 120B, and the third processing units 130 and 130B are the same as the corresponding configurations described with reference to FIG.
  • the image processing system 1B includes a division unit 140 in front of the plurality of image processing devices 1A.
  • the dividing unit 140 divides the input image I in input to the image processing system 1B into M-1 images.
  • the dividing unit 140 inputs M divided images (third images) to the M image processing device 1A.
  • the M image processing device 1A further divides the M divided images into M'(M'> M).
  • the M image processing devices 1A perform object detection for each of the M'divided images further divided.
  • the division unit 140 divides the input image I in into M divided images [0], ..., [M].
  • the divided image [0] is input to the image processing device 1A, and is divided into a plurality of divided images by the dividing unit 111 of the first processing unit 110.
  • Each divided image is scaled to the image size specified by the scaling unit 112 and input to the object detection unit 113.
  • the object detection unit 113 detects an object included in the divided image by using a trained object detection model prepared in advance.
  • the object detection result includes the attribute value of the detected object and the square frame bb1 surrounding the object.
  • the result of object detection is input to the metadata adjustment unit 114, and the coordinates of the square frame bb1 are mapped to the original divided image [0].
  • the second processing unit 120 detects an object in the entire image obtained by reducing the divided image [0]. More specifically, the scaling unit 121 reduces the divided image [0] so that the image size can be input to the object detection model specified in advance.
  • the scaled divided image [0] is input to the object detection unit 122, and the object included in the divided image [0] is detected by the calculation of the object detection model. More specifically, the object detection unit 122 specifies the attribute value of the object included in the divided image [0] and the square frame bb2 surrounding the object.
  • the metadata scaling unit 123 performs scaling processing to expand the area of the square frame bb2 of the object included in the entire divided image [0] detected by the object detection unit 122, and squares the divided image [0] of the original image. Map frame bb2.
  • the third processing unit 130 includes metadata md1 of a plurality of divided images obtained by further dividing the divided image [0] output from the first processing unit 110, and the divided image [0] output from the second processing unit 120. Based on the metadata md2, the metadata md1 and the metadata md2 are combined.
  • the calculation unit 310 calculates the degree of overlap between the metadata md1 of the plurality of divided images obtained by further dividing the divided image [0] and the metadata md2 of the divided image [0].
  • the determination unit 311 removes the attribute information to be determined from the metadata md1.
  • the metadata is selected by the sorting unit 131, and the metadata md1 and the metadata in which the divided image of the divided image [0] and the duplicate metadata included in the entire divided image [0] are excluded are excluded.
  • the metadata md (fourth metadata) of the divided image [0] combined with md2 is generated.
  • the above processing is executed for each of the M divided images by using the M image processing devices 1A. Therefore, a total of M metadata md for each divided image synthesized from each of the M image processing devices 1A is output.
  • the image processing system 1B includes a second processing unit 120B and a third processing unit 130B.
  • the image processing system 1B is composed of M second processing units 120 and M third processing units 130, and second processing units 120B and third processing units 130B included in the M image processing devices 1A, for a total of M + 1.
  • the second processing units 120 and 120B of the above and M + 1 third processing units 130 and 130B are provided.
  • the second processing unit 120B executes the entire processing of the input image I in.
  • the second processing unit 120B includes a scaling unit 121, an object detection unit 122, and a metadata scaling unit 123.
  • the scaling unit 121 outputs an entire image (fifth image) obtained by reducing the input image I in , which is the original image.
  • the object detection unit 122 performs the calculation of the trained object detection model by inputting the scaled whole image, and the attribute value of the object included in the whole image and the square frame BB2 (third area) surrounding the object.
  • a set of attribute information including is acquired as metadata MD2 (fifth metadata) of the entire image.
  • the square frame BB2 contains the coordinate information in the input image I in.
  • the metadata MD2 of the entire image generated by the object detection unit 122 is input to the metadata scaling unit 123, and the coordinates of the square frame BB2 of the detected object are mapped to the input image I in.
  • the third processing unit 130B includes a sorting unit 131 and a synthesis unit 132. Further, the sorting unit 131 includes a calculation unit 310 and a determination unit 311. The third processing unit 130B contains M metadata md obtained by the M image processing apparatus 1A, and metadata of the entire image obtained by the second processing unit 120B in which the input image I in is reduced. MD2 is input.
  • the metadata md corresponding to each of the divided images [0] ... [M] obtained by the M image processing devices 1A and the input image I in obtained by the second processing unit 120B are provided.
  • the degree of overlap with the metadata MD2 of the reduced whole image is calculated.
  • the determination unit 311 determines whether or not the degree of duplication calculated by the calculation unit 310 exceeds a preset first threshold value.
  • the selection unit 131 removes the attribute information to be determined from the metadata md.
  • the metadata is selected by the sorting unit 131, and the metadata included in the divided images [0] ... [M] and the entire image in which the input image I in is reduced is eliminated.
  • the data md and the metadata MD2 are combined to generate and output the metadata MD (sixth metadata) of the input image I in.
  • the image processing system 1B includes M first processing units 110, M + 1 second processing units 120 and 120B, and M + 1 third processing units.
  • the 130 and 130B are provided, and the division process and the composition process are executed hierarchically. Therefore, when the number of divisions of the input image I in is increased, it is possible to suppress that the characteristic portion included in the image is not detected due to the division of the image.
  • the image processing system 1B includes a plurality of image processing devices 1A, for example, even if the upper limit of the images that can be divided by the image processing device 1A is M', the upper limit of the number of images that can be divided can be expanded. ..
  • each functional block included in the image processing devices 1 and 1A can be configured by one computer or distributed to a plurality of computers connected via a network.
  • each functional block included in the image processing system 1B can be realized not only by one computer but also by adopting a configuration distributed among a plurality of computers on the network.
  • the image processing device 1 and the image processing system 1B according to the described embodiment can be realized by a computer and a program, and the program can be recorded on a storage medium or provided through a network.
  • image processing devices 1 according to the first to fourth embodiments described above can be realized in combination with each other.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

画像処理装置(1)は、入力画像Iinを分割して複数の分割画像を出力する分割部(111)と、分割画像の各々を物体検出モデルに入力として与えることで物体検出モデルの演算を行い、分割画像各々に含まれる物体の属性値と物体を囲う四角枠BB1とを含む属性情報の集合を、分割画像のメタデータMD1として取得する第1処理部(110)と、入力画像Iinを縮小した全体画像を出力するスケーリング部(121)と、全体画像を物体検出モデルに入力として与えて物体検出モデルの演算を行い、全体画像に含まれる物体の属性値と四角枠BB2とを含む属性情報の集合を、全体画像のメタデータMD2として取得する第2処理部(120)と、メタデータMD2の属性情報の集合と、メタデータMD2とメタデータMD1とで共通しない属性情報の集合とを合わせて、入力画像IinのメタデータMDを生成する第3処理部(130)とを備える。

Description

画像処理装置、画像処理システム、画像処理方法、および画像処理プログラム
 本発明は、画像処理装置、画像処理システム、画像処理方法、および画像処理プログラムに関し、特に物体検出に用いる画像処理技術に関する。
 近年、深層学習を用いて高速に物体を検出する技術が提案されている。一つのネットワークで領域抽出とカテゴリ識別を同時に高速に処理するSingle-stage法を用いた代表的なモデルとして、YOLO(You Only Look Once)や、SSD(Single Shot multibox Detector)が知られている(非特許文献1、非特許文献2参照)。このような物体検出技術は、監視カメラやエッジコンピューティングにおけるAI画像処理などへの利用が検討されている。
 例えば、非特許文献1に記載されているYOLOv3による物体検出では、元画像のサイズを320(幅)×320(高さ)画素、416×416画素、または、608×608画素のいずれかにリサイズした入力画像が用いられる。
 例えば、元画像がフルHDや4Kなどの高精細画像である場合には、上記のような画像サイズの制約の下では、画像を縮小することが必要となる。高精細画像を縮小することで、画像に含まれる物体の特徴的な部位も縮小されるため、入力画像に対して比較的小さい物体の検出が困難となる場合がある。
 そこで、例えば、非特許文献3は、入力画像を複数の画像に分割して、分割された画像ごとに物体検出を行う技術を開示している。しかし、分割された画像を跨ぐような比較的大きい物体は、物体の特徴的な部位も分割されてしまうため、今度は大きい物体の検出が困難となる場合がある。
Joseph Redmon et.al, "YOLOv3: An Incremental Improvement", https://arxiv.org/abs/1804.02767 (https://arxiv.org/pdf/1804.02767.pdf) Wei Liu et.al, "SSD: Single Shot MultiBox Detector", https://arxiv.org/abs/1512.02325 (https://arxiv.org/pdf/1512.02325.pdf) Vit Ruzicka et.al, "Fast and accurate object detection in high resolution 4K and 8K video using GPUs", 2018 IEEE High Performance extreme Computing Conference (HPEC)
 従来の技術では、高精細画像を入力画像として用いた場合、深層学習に基づく物体検出モデルにより、入力画像に含まれる比較的大きな物体および比較的小さな物体の両方を検出することが困難であった。
 本発明は、上述した課題を解決するためになされたものであり、高精細画像を入力画像として用いた場合であっても、入力画像に含まれる比較的大きな物体および比較的小さな物体の両方を、深層学習に基づく物体検出モデルにより検出できる画像処理技術の実現を目的とする。
 上述した課題を解決するために、本発明に係る画像処理装置は、入力画像を分割して複数の第1画像を出力する分割部と、前記複数の第1画像の各々を、予め用意された物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記複数の第1画像の各々に含まれる物体の属性値と、前記物体を囲う第1領域とを含む属性情報の集合を、第1画像の第1メタデータとして取得する第1処理部と、前記入力画像を縮小した第2画像を出力するスケーリング部と、前記第2画像を、前記物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記第2画像に含まれる物体の属性値と、前記物体を囲う第2領域とを含む属性情報の集合を、前記第2画像の第2メタデータとして取得する第2処理部と、前記第2メタデータの属性情報の集合と、前記第2メタデータと前記第1メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の第3メタデータを生成する合成処理部とを備え、前記第1領域は、前記入力画像における座標情報を有し、前記第2領域は、前記入力画像における座標情報を有することを特徴とする。
 上述した課題を解決するために、本発明に係る画像処理システムは、上記の画像処理装置と、分割部と、分割装置と、スケーリング装置と、第2処理装置と、合成処理装置とを備える画像処理システムであって、前記分割装置は、入力画像を分割して複数の第3画像を出力し、前記画像処理装置は複数設けられ、前記画像処理装置の各々は、前記複数の第3画像のうちのいずれか1つの第3画像を入力として用いて、前記第3画像の属性情報の集合を示す第4メタデータを生成し、前記画像処理装置の各々は、前記第3画像を分割して複数の第1画像を出力する前記分割部と、前記複数の第1画像の各々を、予め用意された物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記複数の第1画像の各々に含まれる物体の属性値と、前記物体を囲う第1領域とを含む属性情報の集合を、第1画像の第1メタデータとして取得する前記第1処理部と、前記第3画像を縮小した第2画像を出力する前記スケーリング部と、前記第2画像を、前記物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記第2画像に含まれる物体の属性値と、前記物体を囲う第2領域とを含む属性情報の集合を、前記第2画像の第2メタデータとして取得する前記第2処理部と、前記第2メタデータの属性情報の集合と、前記第2メタデータと前記第1メタデータとで共通しない属性情報の集合とを合わせて、前記第3画像の前記第4メタデータを生成する前記合成処理部とを備え、前記第1領域は、前記入力画像における座標情報を有し、前記第2領域は、前記入力画像における座標情報を有し、前記スケーリング装置は、前記入力画像を縮小した第5画像を出力し、前記第2処理装置は、前記第5画像を、予め用意された物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記第5画像に含まれる物体の属性値と、前記物体を囲う第3領域とを含む属性情報の集合を、前記第5画像の第5メタデータとして取得し、前記合成処理装置は、前記第5メタデータの属性情報の集合と、前記第5メタデータと前記第4メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の第6メタデータを生成し、前記第3領域は、前記入力画像における座標情報を有することを特徴とする。
 上述した課題を解決するために、本発明に係る画像処理方法は、入力画像を分割して複数の第1画像を出力する分割ステップと、前記複数の第1画像の各々を、予め用意された物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記複数の第1画像の各々に含まれる物体の属性値と、前記物体を囲う第1領域とを含む属性情報の集合を、第1画像の第1メタデータとして取得する第1処理ステップと、前記入力画像を縮小した第2画像を出力するスケーリングステップと、前記第2画像を、前記物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記第2画像に含まれる物体の属性値と、前記物体を囲う第2領域とを含む属性情報の集合を、前記第2画像の第2メタデータとして取得する第2処理ステップと、前記第2メタデータの属性情報の集合と、前記第2メタデータと前記第1メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の第3メタデータを生成する合成処理ステップとを備え、前記第1領域は、前記入力画像における座標情報を有し、前記第2領域は、前記入力画像における座標情報を有することを特徴とする。
 上述した課題を解決するために、本発明に係る画像処理プログラムは、コンピュータに、
 入力画像を分割して複数の第1画像を出力する分割ステップと、前記複数の第1画像の各々を、予め用意された物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記複数の第1画像の各々に含まれる物体の属性値と、前記物体を囲う第1領域とを含む属性情報の集合を、第1画像の第1メタデータとして取得する第1処理ステップと、前記入力画像を縮小した第2画像を出力するスケーリングステップと、前記第2画像を、前記物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記第2画像に含まれる物体の属性値と、前記物体を囲う第2領域とを含む属性情報の集合を、前記第2画像の第2メタデータとして取得する第2処理ステップと、前記第2メタデータの属性情報の集合と、前記第2メタデータと前記第1メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の第3メタデータを生成する合成処理ステップとを実行させ、前記第1領域は、前記入力画像における座標情報を有し、前記第2領域は、前記入力画像における座標情報を有することを特徴とする。
 本発明によれば、入力画像を縮小した第2画像の第2メタデータの属性情報の集合と、入力画像を分割した複数の第1画像の第1メタデータとで共通しない属性情報の集合と第2メタデータの属性情報の集合とを合わせて、入力画像の第3メタデータを生成する。そのため、高精細画像の入力画像に含まれる比較的大きな物体および小さな物体の両方を、深層学習に基づく物体検出モデルにより検出することができる。
図1は、本発明の第1の実施の形態に係る画像処理装置の機能構成を示すブロック図である。 図2は、第1の実施の形態に係る画像処理装置の概要を示す説明図である。 図3は、第1の実施の形態に係る画像処理装置を実現するコンピュータ構成の一例を示すブロック図である。 図4は、第1の実施の形態に係る画像処理装置によって処理される分割画像を説明するための図である。 図5は、第1の実施の形態に係る画像処理装置の動作を説明するためのフローチャートである。 図6は、第1の実施の形態に係る画像処理装置による分割処理を説明するためのフローチャートである。 図7は、第1の実施の形態に係る画像処理装置による全体処理を説明するためのフローチャートである。 図8は、第1の実施の形態に係る画像処理装置による合成処理を説明するためのフローチャートである。 図9は、第1の実施の形態に係る画像処理装置によるメタデータの選別処理を説明するためのフローチャートである。 図10は、第2の実施の形態に係る画像処理装置によるメタデータの選別処理を説明するためのフローチャートである。 図11は、第3の実施の形態に係る画像処理装置によるメタデータの選別処理を説明するためのフローチャートである。 図12は、第4の実施の形態に係る画像処理システムの構成を示すブロック図である。
 以下、本発明の好適な実施の形態について、図1から図12を参照して詳細に説明する。
 [発明の概要]
 はじめに、本発明の実施の形態に係る画像処理装置1の概要について図2を参照して説明する。本実施の形態に係る画像処理装置1では、入力画像Iinを複数の画像に分割した、分割画像ごとに物体検出を行う分割処理と、入力画像Iinを縮小した全体画像の物体検出を行う全体処理とが実行される。
 分割処理では、図2に示すように、分割画像ごとに予め用意された物体検出モデルを用いて物体検出が行われ、物体検出の結果として、分割画像の属性情報の集合を含むメタデータMD1(第1メタデータ)が取得される。一方において、全体処理では、全体画像に対して予め用意された物体検出モデルを用いて物体検出が行われ、物体検出の結果として、全体画像の属性情報の集合を含むメタデータMD2(第2メタデータ)が取得される。
 画像処理装置1が、分割処理により生成する分割画像のメタデータMD1の属性情報には、分割画像に含まれる物体の属性値(例えば、図2に示す「dog」)と、その物体を囲う四角枠(第1領域)とが含まれる。メタデータMD1に含まれる物体を囲う四角枠には、入力画像Iinにおける座標情報が含まれる。
 同様に、全体画像のメタデータMD2の属性情報には、全体画像に含まれる物体の属性値と、その物体を囲う四角枠(第2領域)とが含まれる。メタデータMD2に含まれる物体を囲う四角枠には、物体の入力画像Iinにおける座標情報が含まれる。
 また、本実施の形態に係る画像処理装置1は、全体画像のメタデータMD2の属性情報の集合と、分割画像のメタデータMD1とで共通しない属性情報の集合とを合わせて、入力画像IinのメタデータMD(第3メタデータ)として生成する合成処理(第3処理)を実行する。画像データである入力画像Iinに付加されるメタデータMDは、分割画像と全体画像との間でメタデータの重複が排除された付加情報、つまり、全体画像のメタデータMD2を分割画像のメタデータMD1で補間した付加情報である。メタデータMDは、入力画像Iinの物体検出の最終的な結果である。
 このように、本実施の形態に係る画像処理装置1は、全体画像で検出できなかった物体が存在する全体画像のメタデータMD2を、分割画像でのみ検出された物体を含むメタデータMD1で補間する。本実施の形態に係る画像処理装置1は、入力画像Iinとして高精細画像が用いられた場合であっても、入力画像Iinに含まれる大小両方のサイズの物体を検出することができる。
 [第1の実施の形態]
 まず、本発明の第1の実施の形態に係る画像処理装置1の機能構成について図1のブロック図を参照して説明する。図1に示すように、画像処理装置1は、入力画像Iinを入力とし、分割処理(第1処理)、全体処理(第2処理)、および合成処理(第3処理)を行い、入力画像IinのメタデータMDを生成し出力する。
 [画像処理装置の機能ブロック]
 画像処理装置1は、第1処理部110、第2処理部120、および第3処理部130を備える。
 第1処理部110は、分割部111、スケーリング部112、物体検出部113、およびメタデータ調整部114を備える。第1処理部110は、図2で説明した分割処理を実行する機能ブロックである。
 分割部111は、入力画像Iinとして入力される高精細画像の元画像を複数の分割画像(第1画像)に分割して出力する。例えば、入力画像IinのサイズをWin(幅)×Hin(高さ)とする。入力画像Iinの幅は、図2に示すように、紙面の左右方向に沿った長さをいい、入力画像Iinの高さは、紙面の上下方向の長さをいう。
 分割部111は、入力画像Iinの幅方向の分割数N、高さ方向の分割数Nとして、入力画像Iinを複数の分割画像に分割する。図2の「分割処理」、および図4に示す例では、入力画像IinがN=2、N=2の、合計4つの分割画像に分割されている。
 スケーリング部112は、複数の分割画像の各々を、深層学習に基づく物体検出モデルに入力することができる指定の画像サイズに縮小するスケーリング処理を行う。スケーリング部112は、後述の物体検出部113が用いる物体検出モデルの入力画像のサイズに対応するように、各分割画像の幅と高さとの比などのパラメータ値を維持したまま画像サイズを縮小する。
 物体検出部113は、スケーリング部112で縮小された分割画像を入力として、所定の深層学習に基づく学習済みの物体検出モデルの演算を行い、分割画像に含まれる物体の属性値と、入力画像Iinにおける物体の座標情報を有するその物体を囲う四角い枠(第1領域)とを含む属性情報の集合を、分割画像のメタデータMD1として取得する。このように、メタデータMD1は、物体の属性値と四角枠BB1とからなる属性情報の集合である。
 物体検出部113によって取得されるメタデータMD1に含まれる、分割画像で検出された物体を囲う四角い枠は、バウンディングボックスとも呼ばれ、例えば、検出された物体に外接して、その物体を囲うことが可能な最小の矩形の範囲を有する。以下において、メタデータMD1に含まれる物体を囲う四角い枠を「四角枠BB1」と呼ぶ。
 ここで、図2に示す入力画像Iinには、犬と自転車と車とが含まれ、最も手前に犬が座っており、犬の背後には、自転車が壁に立てかけてあり、さらに道を挟んだ向こう側には、車が止まっている。例えば、物体の固有の姿、形、性質を表す物体検出の属性値として、「犬(dog)」、「自転車(bicycle)」、および「車(car)」を用いるものとする。
 図2の「分割処理」に示すように、入力画像Iinは、4つの分割画像に分割されている。また、各分割画像は、物体検出部113によって学習済みの物体検出モデルに入力されて、各分割画像に含まれる物体が検出され、検出された物体ごとに四角枠BB1が作成されている。例えば、図2の「分割処理」において、最も上段の分割画像には、自転車の上部と、犬の頭が含まれているが、物体検出部113は、物体の一部分に基づいてこれらの物体(図2に示す属性値「bicycle」、「dog」)を検出し、四角枠BB1を指定している。
 また、図2の「分割処理」に示す、上から3番目の分割画像では、車(図2の属性値「car」)が検出されて、四角枠BB1が指定されている。このように、図2の「分割処理」で、各分割画像で検出された物体(図2の属性値「dog」、「bicycle」、および「car」)それぞれの物体の一部あるいは全体の画像の境界を四角枠BB1で指定している。
 ここで、四角枠BB1には、少なくとも中心座標(X,Y)、枠の高さ「H」、枠の幅「W」が含まれる。これらは、スケーリング部112によって縮小された入力画像Iinに対応する位置関係を示した、入力画像Iinにおける物体の位置情報である。
 物体検出部113は、例えば、事前に外部のサーバなどの演算装置で学習された畳み込みニューラルネットワーク(CNN)を用いたYOLOなどの物体検出モデルを用いて、スケーリング部112で縮小された分割画像を入力として、分割画像に含まれる物体を検出し、分割画像のメタデータMD1を求める。
 メタデータ調整部114は、物体検出部113によって検出された物体の四角枠BB1を分割前の元画像、つまり、入力画像IinにマッピングするためのメタデータMD1の調整処理を行う。
 ここで、入力画像Iinのサイズは前述したように、Win(幅)×Hin(高さ)であり、予め用意された物体検出モデルに入力することができる指定の画像サイズを、Wdet(幅)×Hdet(高さ)とする。この場合、入力画像Iinの幅方向の分割数N、高さ方向の分割数Nは、以下の式(1)および(2)で与えられる。
 N=min(Nw_max,ceiling(Win/Wdet))・・・(1)
 N=min(Nh_max,ceiling(Hin/Hdet))・・・(2)
 上式(1)および(2)において、Nw_maxは入力画像Iinの幅方向の分割数の上限値、Nh_maxは、入力画像Iinの高さ方向の分割数の上限値を示している。
 図4は、Nが2、Nが2の場合の分割画像の例を示している。図4の各分割画像の座標(x’,y’)は、いずれも0≦x’≦floor(Win/N)、0≦y’≦floor(Hin/N)である。
 メタデータ調整部114は、分割画像で検出された物体を囲う四角枠BB1の座標を、元画像である入力画像Iinにマッピングする。より具体的には、分割画像[i][j](0≦i≦N-1,0≦j≦N-1)で検出された物体の四角枠BB1の中心座標(xbb_div,ybb_div)、幅wbb_div、高さhbb_divとし、元画像の座標への調整後の四角枠BB1の中心座標を(xbb,ybb)、幅をwbb、高さをhbbとする。メタデータ調整部114は、以下の各式に基づいて四角枠BB1を入力画像Iinへマッピングする。
 xbb=xbb_div×floor(Win/N)+floor(Win/N)×i   ・・・(3)
 ybb=ybb_div×floor(Hin/N)+floor(Hin/N)×j   ・・・(4)
  wbb=wbb_div×floor(Win/N)   ・・・(5)
  hbb=hbb_div×floor(Hin/N)   ・・・(6)
 次に、第2処理部120について説明する。第2処理部120は、図2で説明した全体処理を実行する機能ブロックである。第2処理部120は、図1に示すように、スケーリング部121、物体検出部122、およびメタデータスケーリング部123を備える。
 スケーリング部121は、高精細画像の入力画像Iinを、所定の深層学習に基づく物体検出モデルに入力することができる指定の画像サイズに縮小し、縮小した全体画像(第2画像)を出力する。スケーリング部121は、例えば、入力画像Iinの幅および高さの比を維持したまま、画像サイズを縮小することができる。
 物体検出部122は、全体画像を予め用意された物体検出モデルに入力として与え、物体検出モデルの演算を行い、全体画像に含まれる物体の属性値と、物体を囲う第2領域(以下、「四角枠BB2」という。)とを含む属性情報の集合を、全体画像のメタデータMD2として生成する。四角枠BB2には、対応する物体の入力画像Iinにおける座標情報が含まれる。このように、メタデータMD2は、物体の属性値と四角枠BB2とからなる属性情報の集合である。
 例えば、図2に示す「全体処理」において、全体画像で検出された物体の属性値「dog」、「bicycle」、および「car」のそれぞれの物体の画像の境界が四角枠BB2で指定されている。
 また、物体検出部122は、例えば、事前に外部のサーバなどの演算装置で学習された畳み込みニューラルネットワーク(CNN)を用いたYOLOなどの物体検出モデルを用いる。物体検出部122は、スケーリング部121で縮小された全体画像を入力として、全体画像に含まれる物体を検出する。物体検出部122が用いる物体検出モデルは、第1処理部110で用いられる物体検出モデルと同様に、入力画像のサイズが予め指定されている。
 メタデータスケーリング部123は、物体検出部122によって生成された全体画像のメタデータMD2に含まれる物体の四角枠BB2の領域を拡大するスケーリング処理を行う。メタデータスケーリング部123は、例えば、双線形補間法を用いて全体画像のメタデータMD2に含まれる四角枠BB2のスケーリングを行う。
 例えば、元画像である入力画像Iinの幅がWin、高さがHinであり、スケーリング部121で縮小された全体画像の幅がWdet、高さがHdetであるとする。この場合、メタデータスケーリング部123は、四角枠BB2の中心座標(Xbb,Ybb)を(Xbb×Win/Wdet,Ybb×Hin/Hdet)、四角枠BB2の幅Wbbおよび高さHbbを、Wbb×Win/Wdet,Hbb×Hin/Hdetにスケーリングすることで元画像の入力画像Iinに四角枠BB2をマッピングする。
 次に、第3処理部130の構成について説明する。第3処理部130は、図2に示した全体画像のメタデータMD2と分割画像のメタデータMD1とで共通しない属性情報の集合を合わせて、入力画像IinのメタデータMD(第3メタデータ)として生成する。第3処理部130は、図1に示すように、選別部131、および合成部132を備える。また、選別部131は、算出部310と判定部311とを備える
 算出部310は、第2処理部120で生成された全体画像のメタデータMD2に含まれる物体の属性値と、第1処理部110で生成された分割画像のメタデータMD1に含まれる物体の属性値とが一致する場合に、メタデータMD2の四角枠BB2とメタデータMD1の四角枠BB1とで重複した面積を、メタデータMD1の四角枠BB1の面積で除算して得られる重複度(第1の値)を求める。重複度は、メタデータの属性情報間の重複度合いを表す指標である。
 判定部311は、算出部310で求められた重複度が、予め設定された第1しきい値を上回るか否かを判定する。
 選別部131は、判定部311において、重複度が第1しきい値を上回ると判定された場合に、分割画像のメタデータMD1の属性情報は全体画像のメタデータMD2の属性情報と共通していると判断し、共通した属性情報をメタデータMD1から除去する。
 合成部132は、選別部131によって共通するメタデータの属性情報が除去された分割画像のメタデータMD1と全体画像のメタデータMD2とを合わせて、入力画像IinのメタデータMDを生成する。つまり、合成部132は、重複する属性情報が排除された分割画像のメタデータMD1で全体画像のメタデータMD2を補間して、入力画像IinのメタデータMDを生成する。
 [画像処理装置のハートウェア構成]
 次に、上述した機能を有する画像処理装置1を実現するコンピュータ構成の一例について、図3を参照して説明する。
 図3に示すように、画像処理装置1は、例えば、バス101を介して接続されるプロセッサ102、主記憶装置103、通信I/F104、補助記憶装置105、入出力I/O106を備えるコンピュータと、これらのハードウェア資源を制御するプログラムによって実現することができる。画像処理装置1は、例えば、外部に設けられた入力装置107と、表示装置108とがそれぞれバス101を介して接続されている。
 主記憶装置103には、プロセッサ102が各種制御や演算を行うためのプログラムが予め格納されている。主記憶装置103は、半導体メモリなどで構成される。プロセッサ102と主記憶装置103とによって、図1に示した第1処理部110、第2処理部120、第3処理部130を含む画像処理装置1の各機能が実現される。
 プロセッサ102は、GPU、CPU、FPGAなど任意の論理回路を構成するものにより実現することができる。
 通信I/F104は、通信ネットワークNWを介して各種外部電子機器との通信を行うためのインターフェース回路である。例えば、通信I/F104から、図示されない外部のサーバなどで事前に学習された物体検出モデルを受信して、後述の補助記憶装置105に格納することができる。また、通信I/F104は、入力画像Iinや出力データであるメタデータMDを、予め設定された外部のサーバなどへ送出してもよい。
 通信I/F104としては、例えば、3G、4G、5G、無線LAN、Bluetooth(登録商標)などの無線データ通信規格に対応した通信制御回路およびアンテナが用いられる。
 補助記憶装置105は、読み書き可能な記憶媒体と、その記憶媒体に対してプログラムやデータなどの各種情報を読み書きするための駆動装置とで構成されている。補助記憶装置105には、記憶媒体としてハードディスクやフラッシュメモリなどの半導体メモリを使用することができる。
 補助記憶装置105は、画像処理装置1が分割処理、全体処理、合成処理を含む画像処理を行うための各種パラメータやプログラムを格納するプログラム格納領域を有する。また、補助記憶装置105には、画像処理装置1が物体検出処理に用いる深層学習に基づく学習済みの物体検出モデルが格納されている。上述した補助記憶装置105は、例えば、上述したデータやプログラムなどをバックアップするためのバックアップ領域などを有していてもよい。
 入出力I/O106は、外部機器からの信号を入力したり、外部機器へ信号を出力したりするI/O端子により構成される。
 入力装置107は、キーボードやタッチパネルなどで構成され、外部からの操作入力を受け付け、操作入力に応じた信号を生成する。
 表示装置108は、液晶ディスプレイなどによって実現される。表示装置108は、入力画像Iinや出力データであるメタデータMDなどを表示することができる。
 [画像処理装置の動作の概要]
 次に、上述した構成を有する画像処理装置1の動作について、図5から図9のフローチャートを参照して説明する。なお、以下において、補助記憶装置105には、学習済みの物体検出モデルが格納されているものとする。
 図5は、画像処理装置1の動作の概要を説明するためのフローチャートである。図5に示すように、まず、入力画像Iinが入力される(ステップS1)。例えば、図示されない外部のカメラなどで撮影された画像が通信I/F104で受信され、入力画像Iinとして画像処理装置1に入力される。また、入力画像Iinとしては、高精細画像などが用いられる。
 次に、第1処理部110は、入力画像Iinが分割された複数の分割画像の各々に対して分割処理を実行する(ステップS2)。次に、第2処理部120は、入力画像Iinが縮小された全体画像に対する全体処理を実行する(ステップS3)。
 その後、第3処理部130は、ステップS2での分割処理の結果とステップS3での全体処理の結果とに基づいて、メタデータの合成処理を行う(ステップS4)。その後、第3処理部130は、入力画像IinのメタデータMDを出力する(ステップS5)。なお、ステップS2での分割処理とステップS3での全体処理とは、並列に実行されてもよく、また、ステップS2とステップS3とが実行される順番は逆であってもよい。
 [分割処理]
 次に、分割処理(図5のステップS2)について図6のフローチャートを用いてより詳細に説明する。
 まず、分割部111は、入力画像Iinを分割して複数の分割画像を出力する(ステップS20)。例えば、分割部111は、画像サイズがWin(幅)×Hin(高さ)の入力画像Iinを、図4に示すように、4つに分割し、4つの分割画像を生成することができる。
 次に、スケーリング部112は、各分割画像を予め設定された画像サイズにスケーリングする(ステップS21)。より詳細には、スケーリング部112は、分割画像のサイズを、物体検出部113が用いる物体検出モデルの指定の入力画像のサイズに対応するように、各分割画像を縮小する。なお、入力画像Iinのサイズが、物体検出部113による物体検出処理で用いる画像サイズで割り切れる場合には、ステップS21のスケーリング処理は省略される。
 次に、物体検出部113は、指定された画像サイズにスケーリングされた分割画像を入力として、補助記憶装置105に格納されている深層学習に基づく学習済みの物体検出モデルを読み出して、物体検出モデルの演算を行い、分割画像に含まれる物体を検出する(ステップS22)。より詳細には、物体検出部113は、分割画像に含まれる物体の属性値と、その物体を囲う四角枠BB1とを含む属性情報の集合を、分割画像のメタデータMD1として取得する。
 次に、メタデータ調整部114は、分割画像のメタデータMD1に含まれる物体の四角枠BB1の座標を、上述した式(3)から(6)を用いて、元画像である入力画像Iinにマッピングする(ステップS23)。
 その後、メタデータ調整部114は、分割画像のメタデータMD1を出力する(ステップS24)。各分割画像のメタデータMD1は、第3処理部130に入力される。
 [全体処理]
 次に、第2処理部120によって実行される入力画像Iinに対する全体処理(図5のステップS3)について図7のフローチャートを参照してより詳細に説明する。
 図7に示すように、まず、スケーリング部121は、入力画像Iinを、指定の画像サイズに縮小する(ステップS30)。より詳細には、スケーリング部121は、入力画像Iinを、物体検出部122によって用いられる物体検出モデルに入力することができる、指定の画像サイズに縮小し、縮小された全体画像を出力する。
 次に、物体検出部122は、補助記憶装置105に格納されている学習済みの物体検出モデルを読み出し、ステップS30でスケーリングされた全体画像を入力として、物体検出モデルの演算を行い、全体画像に含まれる物体の属性とその物体の四角枠BB2とを含む属性情報の集合を、全体画像のメタデータMD2として取得する(ステップS31)。
 次に、メタデータスケーリング部123は、ステップS31で生成された全体画像のメタデータMD2に含まれる物体の四角枠BB2を拡張するスケーリングを行う(ステップS32)。メタデータスケーリング部123は、例えば、双線形補間法を用いて四角枠BB2のスケーリングを行い、四角枠BB2を入力画像Iinにマッピングする。
 その後、メタデータスケーリング部123は、各四角枠BB2がスケーリングされ入力画像IinにマッピングされたメタデータMD2を出力する(ステップS33)。メタデータMD2は、第3処理部130へ入力される。
 [合成処理]
 次に、第3処理部130によって実行される合成処理(図5のステップS4)について、図8および図9のフローチャートを用いて説明する。
 図8に示すように、選別部131は、分割画像のメタデータMD1と、全体画像のメタデータMD2とに基づいて、分割画像ごとにメタデータの選別処理を実行する(ステップS40)。
 ここで、ステップS40の選別処理について、図9のフローチャートを参照してより詳細に説明する。なお、メタデータMD1、MD2は、画像から検出された物体の属性値と、その物体を囲う四角枠BB1、BB2とを含む属性情報の集合である。例えば、メタデータMD1、MD2に含まれる複数の属性情報の各々には、例えば、物体検出により画像から検出された各物体の属性値(例えば、「dog」)および検出された物体に対して作成された四角枠BB1、BB2の情報(座標およびサイズ)が含まれる。図9では、各分割画像の1つの属性情報ごとに選別処理が実行される場合を例に挙げて説明する。
 図9に示すように、まず、選別部131に、第2処理部120で生成された全体画像のメタデータMD2が入力される(ステップS400)。次に、選別部131には、第1処理部110で生成された複数の分割画像のうちの1枚の分割画像のメタデータMD1が入力される(ステップS401)。
 次に、選別部131は、全体画像のメタデータMD2の属性値が分割画像のメタデータMD1の属性値と一致するか否かを判断する(ステップS402)。全体画像のメタデータMD2の属性値が分割画像のメタデータMD1の属性値と一致する場合には(ステップS402:YES)、算出部310が重複度を計算する(ステップS403)。より詳細には、算出部310は、全体画像のメタデータMD2に含まれる四角枠BB2と、分割画像のメタデータMD1に含まれる四角枠BB1とで重複した面積を、四角枠BB1の面積で除算して得られる重複度を算出する。
 なお、ステップS402において、全体画像のメタデータMD2に含まれる属性値が分割画像のメタデータMD1に含まれる属性値と一致しない場合には(ステップS402:NO)、処理はステップS401に移行し、同じ分割画像のメタデータMD1に含まれる別の属性情報が入力される(ステップS401)。
 例えば、分割画像のメタデータMD1に含まれる属性値と、全体画像のメタデータMD2に含まれる属性値とが、例えば、「dog」、「bicycle」のように、互いに異なる場合が挙げられる。
 次に、判定部311は、ステップS403で算出された重複度が、予め設定された第1しきい値を上回る場合には(ステップS404:YES)、分割画像のメタデータMD1の属性情報と、全体画像のメタデータMD2の属性情報とは同一の属性情報であると判断し、同じ属性情報をメタデータMD1から除去する(ステップS405)。つまり、分割画像と全体画像とで検出された物体の属性値が同じであり、かつ、その物体が入力画像Iinにおいて対応する位置関係にあるメタデータの属性情報が分割画像のメタデータMD1から排除される。
 一方において、重複度が第1しきい値以下の場合には(ステップS404:NO)、処理は終了する。その後、全体画像のメタデータMD2の属性情報について選別処理が行われ、分割画像と全体画像とで共通しているメタデータの属性情報が排除される(ステップS400からステップS405)。また、選別部131は、複数の分割画像の各々について、メタデータの選別処理を実行する。
 その後、処理は、図8の合成処理のフローに戻され、合成部132により、複数の分割画像のメタデータMD1と全体画像のメタデータMD2とが合成され、入力画像IinのメタデータMDが生成される(ステップS41)。分割画像のメタデータMD1には、全体画像のメタデータMD2に含まれていないような小さいサイズの物体に関する属性情報が含まれる。また、全体画像のメタデータMD2には、分割画像のメタデータMD1には含まれていない比較的大きいサイズの物体に関する属性情報が含まれている場合がある。
 その後、合成されて得られた入力画像IinのメタデータMDは、入力画像Iinに付加されて画像ファイルとして表示装置108の表示画面に表示されることができる。
 以上説明したように、第1の実施の形態によれば、入力画像Iinを縮小した全体画像を用いて、深層学習に基づく物体検出を行い、かつ、入力画像Iinを分割した複数の分割画像の各々についても深層学習に基づく物体検出を行う。また、全体画像を用いた物体検出の結果と、複数の分割画像各々の物体検出の結果とに基づいて、全体画像と分割画像とで共通するメタデータの属性情報を除去した上で、全体画像のメタデータMD2と複数の分割画像のメタデータMD1とを合成し、入力画像IinのメタデータMDを生成する。
 そのため、高精細画像に含まれる比較的大きな物体および小さな物体の両方を、深層学習に基づく物体検出により検出することができる。
 [第2の実施の形態]
 次に、本発明の第2の実施の形態について説明する。なお、以下の説明では、上述した第1の実施の形態と同じ構成については同一の符号を付し、その説明を省略する。
 第1の実施の形態では、分割画像および全体画像のそれぞれでの物体検出の結果から、メタデータの重複度を計算し、重複度が第1しきい値を上回る場合に、分割画像のメタデータMD1の属性情報と全体画像のメタデータMD2の属性情報とは共通すると判断して、共通する属性情報を分割画像のメタデータMD1から除去した。これに対して、第2の実施の形態では、2段階のしきい値判定に基づいてメタデータの重複を排除する。
 第2の実施の形態に係る画像処理装置1の構成は、第1の実施の形態(図1)と同様である。また、本実施の形態に係る画像処理装置1の動作については、メタデータの選別処理以外については第1の実施の形態と同様である(図2から図8)。以下、本実施の形態に係る画像処理装置1によって実行されるメタデータの選別処理について、図10のフローチャートを参照して説明する。
 図10に示すように、選別部131は、分割画像のメタデータMD1と、全体画像のメタデータMD2とに基づいて、分割画像ごとにメタデータの選別処理を実行する。
 なお、メタデータMD1、MD2は、物体の属性値と、その物体を囲う四角枠BB1、BB2とを含む属性情報の集合である。例えば、メタデータMD1、MD2の1つの属性情報には、物体検出により画像から検出された各物体の属性値(例えば、「dog」)および検出された物体に対して作成された四角枠BB1、BB2の情報(座標およびサイズ)が含まれる。図10では、各分割画像の1つの属性情報ごとに選別処理が実行される場合を例に挙げて説明する。
 図10に示すように、まず、選別部131に、第2処理部120で処理された全体画像のメタデータMD2が入力される(ステップS400)。次に、選別部131には、第1処理部110で処理された複数の分割画像のうちの1枚の分割画像のメタデータMD1が入力される(ステップS401)。
 次に、選別部131は、全体画像のメタデータMD2の属性値が分割画像のメタデータMD1の属性値と一致するか否かを判断する(ステップS402)。全体画像のメタデータMD2の属性値が分割画像のメタデータMD1の属性値と一致する場合には(ステップS402:YES)、算出部310が重複度を計算する(ステップS403)。より詳細には、算出部310は、全体画像のメタデータMD2に含まれる四角枠BB2と、分割画像のメタデータMD1に含まれる四角枠BB1とで重複した面積を、四角枠BB1の面積で除算して得られる重複度を算出する。
 なお、ステップS402において、全体画像のメタデータMD2の属性値が分割画像のメタデータMD1の属性値と一致しない場合には(ステップS402:NO)、処理はステップS401に移行し、同じ分割画像のメタデータMD1に含まれる別の属性情報が入力される(ステップS401)。
 次に、ステップS403で算出された重複度が、予め設定された第1しきい値を上回り(ステップS404:YES)、かつ、判定部311(第2判定部)において、分割画像のメタデータMD1に含まれる四角枠BB1の面積と全体画像の四角枠BB2の面積比が、予め設定された第2しきい値を上回る(ステップS404A:YES)と判定された場合、選別部131は、判定対象となっている属性情報をメタデータMD1から除去する(ステップS405)。
 より詳細には、全体画像のメタデータMD2に含まれる四角枠BB2の面積に対する分割画像のメタデータMD1の四角枠BB1の面積が、予め設定された第2しきい値を上回る場合に、判定対象となっている属性情報を、合成部132による分割画像のメタデータMD1と全体画像のメタデータMD2との合成処理における補間対象から除去する。
 本実施の形態では、物体検出部113、122で検出される物体の入力画像Iinにおける位置情報は、四角枠BB1、BB2で表現されている。これに伴い、全体画像において検出された物体の大きさが、画像全体の面積に対して比較的大きい場合、物体の四角枠BB2の面積が大きくなり、分割画像において検出された物体の四角枠BB1を覆ってしまう場合がある。このような場合に、分割画像のメタデータMD1の属性情報を誤って除去してしまうことを防止する。
 このように本実施の形態では、重複度と物体間の面積比とに基づいて、分割画像のメタデータMD1と全体画像のメタデータMD2との重複を排除する。
 一方において、重複度が第1しきい値以下となる場合には(ステップS404:NO)、処理は終了する。また、重複度が第1しきい値を上回る場合であっても(ステップS404:YES)、四角枠BB1、BB2間の面積比が第2しきい値以下の場合には(ステップS404A:NO)、同様に処理は終了する。
 その後、全体画像のメタデータMD2に含まれるすべての属性情報について選別処理が行われ、分割画像のメタデータMD1と全体画像のメタデータMD2とで重複している属性情報が排除される(ステップS400からステップS405)。また、選別部131は、複数の分割画像の各々について、メタデータの選別処理を実行する。
 その後、処理は、図8の合成処理のフローに戻され、合成部132により、複数の分割画像のメタデータMD1と全体画像のメタデータMD2とが合成され、入力画像IinのメタデータMDが生成される(図8のステップS41)。
 以上説明したように、第2の実施の形態によれば、メタデータの選別処理において、選別部131は、重複度に加えて、物体間の面積比についても考慮し、2段階のしきい値処理により、分割画像のメタデータMD1と全体画像のメタデータMD2とで共通する属性情報を補間対象から排除する。
 その結果として、画像処理装置1は、高精細画像に含まれる比較的大きな物体および小さな物体の両方を、深層学習に基づく物体検出によって、より精度よく検出することができる。
 [第3の実施の形態]
 次に、本発明の第3の実施の形態について説明する。なお、以下の説明では、上述した第1および第2の実施の形態と同じ構成については同一の符号を付し、その説明を省略する。
 第2の実施の形態では、メタデータの選別処理において、2段階のしきい値処理を行い、重複度が第1しきい値以上であっても、分割画像のメタデータMD1に含まれる四角枠BB1の面積と全体画像のメタデータMD2に含まれる物体の四角枠BB2の面積との比が、第2しきい値以下となる場合には、分割画像のメタデータMD1の属性情報と全体画像のメタデータMD2の属性情報とは共通しないと判断し、合成部132による補間処理の対象とした。
 これに対して、第3の実施の形態では、メタデータの選別処理において、さらに、全体画像のメタデータMD2に含まれる属性値のうちの、いずれの属性値とも一致しない属性値を有する属性情報が、分割画像のメタデータMD1に含まれるか否かを判断する。一致しない属性値を有する属性情報がメタデータMD1に含まれる場合、分割画像のメタデータMD1に含まれる物体の四角枠BB1の面積と、その四角枠BB1に対応する入力画像Iinの領域の面積とが比較される。
 第3の実施の形態に係る画像処理装置1の構成は、第1の実施の形態(図1)と同様である。また、本実施の形態に係る画像処理装置1の動作については、メタデータの選別処理以外については第1の実施の形態と同様である(図2から図8)。また、メタデータの選別処理についても、第2の実施の形態に係るメタデータの選別処理(図10)のステップS400からステップS405までの処理は同様である。以下、本実施の形態に係る画像処理装置1によって実行されるメタデータの選別処理について、図11のフローチャートを参照して説明する。
 図11に示すように、選別部131は、分割画像のメタデータMD1と、全体画像のメタデータMD2とに基づいて、分割画像ごとにメタデータの選別処理を実行する。
 なお、メタデータMD1、MD2は、物体の属性値と、その物体を囲う四角枠BB1、BB2とを含む属性情報の集合である。例えば、メタデータMD1、MD2の属性情報には、各物体の属性値(例えば、「dog」)および検出された物体に対して作成された四角枠BB1、BB2の情報(座標およびサイズ)が含まれる。図10では、各分割画像のメタデータMD1に含まれる属性情報ごとに選別処理が実行される場合を例に挙げて説明する。
 図11に示すように、まず、選別部131に、第2処理部120で生成された全体画像のメタデータMD2が入力される(ステップS400)。次に、選別部131には、第1処理部110で生成された複数の分割画像のうちの1枚の分割画像のメタデータMD1が入力される(ステップS401)。
 次に、選別部131は、全体画像のメタデータMD2の属性値が分割画像のメタデータMD1の属性値と一致するか否かを判断する(ステップS402)。全体画像のメタデータMD2の属性値が分割画像のメタデータMD1の属性値と一致する場合には(ステップS402:YES)、算出部310が重複度を計算する(ステップS403)。より詳細には、算出部310は、全体画像のメタデータMD2に含まれる四角枠BB2と、分割画像のメタデータMD1に含まれる四角枠BB1とで重複した面積を、四角枠BB1の面積で除算して得られる重複度を算出する。
 なお、ステップS402において、全体画像のメタデータMD2の属性値が分割画像のメタデータMD1の属性値と一致しない場合には(ステップS402:NO)、処理はステップS401に移行し、同じ分割画像のメタデータMD1に含まれる別の属性情報が入力される(ステップS401)。
 次に、判定部311は、ステップS403で算出された重複度が、予め設定された第1しきい値以上であり(ステップS404:YES)、かつ、分割画像のメタデータMD1の四角枠BB1の面積と全体画像のメタデータMD2に係る四角枠BB2の面積比が第2しきい値を上回ると判定した場合(ステップS404A:YES)、選別部131は、判定対象の属性情報をメタデータMD1から除去する(ステップS405)。
 より詳細には、選別部131は、全体画像のメタデータMD2に含まれる四角枠BB2の面積に対する分割画像のメタデータMD1に含まれる四角枠BB1の面積が、予め設定された第2しきい値を上回る場合に、判定対象の属性情報を、合成部132による合成処理における補間対象から除去する。
 このように本実施の形態では、重複度と物体間の面積比とに基づいて、分割画像と全体画像とに含まれるメタデータの重複を排除する。
 一方において、重複度が第1しきい値以下となる場合には(ステップS404:NO)、ステップS406に移行する。また、重複度が第1しきい値を上回る場合であっても(ステップS404:YES)、面積比が第2しきい値以下となる場合には(ステップS404A:NO)、同様に処理はステップS406に移行する。
 次に、選別部131は、全体画像のメタデータMD2に含まれるすべての属性情報について、ステップS402からステップS404Aまでの処理が完了するまで(ステップS406:NO)、ステップS404からステップS405までの処理を繰り返す。その後、全体画像のメタデータMD2のすべての属性情報について、ステップS402からステップS404Aまでの処理を完了すると(ステップS406:YES)、選別部131は、全体画像のメタデータMD2の属性値と、分割画像のメタデータMD1の属性値とを比較する(ステップS407)。
 より詳細には、選別部131は、全体画像のメタデータMD2のすべての属性情報に含まれる属性値のいずれとも一致しない属性値を有する属性情報が、分割画像のメタデータMD1に含まれる場合(ステップS407:YES)、その重複しない属性値に係る分割画像のメタデータMD1の四角枠BB1の面積と、この四角枠BB1に対応する入力画像Iinの領域の面積とを比較する(ステップS408)。
 より具体的には、判定部311は、分割画像のメタデータMD1に含まれる四角枠BB1の面積を、元画像である入力画像Iinの対応する領域の面積で除算して得られる値(第3の値)が、予め設定された第3しきい値を上回るか否かを判定する。四角枠BB1の面積を入力画像Iinの対応する領域の面積で除算した値が予め設定された第3しきい値を上回る場合には(ステップS408:YES)、比較対象となっている属性情報を分割画像のメタデータMD1から除去する(ステップS409)。
 このように、全体画像で検出された物体群のいずれとも一致しない属性値を有する物体が、分割画像において検出された場合において、その一致しない属性値に対応する四角枠BB1の面積の元画像のサイズにおける割合が、第3しきい値を上回るか否かが判定される。第3しきい値を上回った場合、判定対象の属性情報は、第1処理部110による画像の分割処理の影響により、入力画像Iinに含まれる物体の特徴量が分割されたために誤検出された物体の属性情報であると判断される。
 選別部131は、第3しきい値に基づいて誤検出された物体に係る属性情報を分割画像のメタデータMD1から除去し、分割画像のメタデータMD1と全体画像のメタデータMD2との合成処理における補間対象から事前に排除する。
 一方において、四角枠BB1の面積を入力画像Iinの対応する領域の面積で除算した値が第3しきい値以下である場合には(ステップS408:NO)、処理は終了する。また、全体画像のメタデータMD2に含まれる属性値のいずれとも重複しない属性値を有する属性情報が、分割画像のメタデータMD1に含まれていない場合にも(ステップS407:NO)、同様に処理は終了する。
 このように、ステップS408において、第3しきい値以下となる場合には、選別部131は、全体画像で検出された物体群の属性値のいずれとも一致しない属性値に係る分割画像のメタデータMD1の属性情報は、第2処理部120における全体処理で検出できなかった比較的小さいサイズの物体に係る属性情報であると判断する。
 その後、選別部131は、複数の分割画像の各々について、メタデータの選別処理を実行する(ステップS400からステップS409)。
 その後、処理は、図8の合成処理のフローに戻され、合成部132により、複数の分割画像のメタデータMD1と全体画像のメタデータMD2とが合成され、入力画像IinのメタデータMDが生成されて出力される(図8のステップS41)。
 以上説明したように、第3の実施の形態によれば、メタデータの選別処理において、全体画像のメタデータMD2に含まれる物体群の属性値のいずれとも一致しない属性値を有する物体に係る分割画像のメタデータMD1の属性情報がある場合には、さらにしきい値処理を行い、共通する属性情報をメタデータMD1から排除する。
 そのため、第1処理部110によって入力画像Iinが分割されたことに伴う物体の誤検出に係るメタデータMD1を排除することができる。また、第2処理部120が、入力画像Iinを縮小した全体画像で検出することができなかった、比較的小さいサイズの物体を、分割画像のメタデータMD1に基づいて補間することができる。
 その結果として、画像処理装置1は、高精細画像に含まれる比較的大きな物体および小さな物体の両方を、深層学習に基づく物体検出によって、より精度よく検出することができる。
 [第4の実施の形態]
 次に、本発明の第4の実施の形態について説明する。なお、以下の説明では、上述した第1から第3の実施の形態と同じ構成については同一の符号を付し、その説明を省略する。
 第1から第3の実施の形態では、画像処理装置1は、第1処理部110、第2処理部120、および第3処理部130をそれぞれ1つずつ備える場合について説明した。これに対し、第4の実施の形態では、画像処理システム1Bが複数の画像処理装置1Aを備え、複数の画像処理装置1Aにより、入力画像Iinに含まれる物体が検出される。
 図12は、第4の実施の形態に係る画像処理システム1Bの構成を示すブロック図である。図12に示すように、画像処理システム1Bは、複数の画像処理装置1A、第2処理部(第2処理装置)120B、第3処理部(合成処理装置)130B、および分割部(分割装置)140を備える。
 本実施の形態では、画像処理システム1Bは、M個(M>1)の画像処理装置1Aを備える。それぞれの画像処理装置1Aは、第1から第3の実施の形態と同様に、第1処理部110、第2処理部120、および第3処理部130を備える(図1、図12)。
 また、第1処理部110、第2処理部120、120B、および第3処理部130、130Bのそれぞれの構成は、図1で説明した対応する構成と同様である。
 図12に示すように、画像処理システム1Bは、複数の画像処理装置1Aの前段に、分割部140を備える。分割部140は、画像処理システム1Bに入力される入力画像IinをM-1個の画像に分割する。分割部140は、M個の分割画像(第3画像)を、M個の画像処理装置1Aに入力する。
 M個の画像処理装置1Aは、M個の分割画像を、さらにM’個(M’>M)に分割する。M個の画像処理装置1Aは、さらに分割されたM’個の分割画像ごとに物体検出を行う。例えば、図12に示すように、分割部140は、入力画像IinをM個の分割画像[0],・・・,[M]に分割する。分割画像[0]は、画像処理装置1Aに入力され、第1処理部110の分割部111で、複数の分割画像に分割される。各分割画像は、スケーリング部112で指定された画像サイズにスケーリングされ、物体検出部113に入力される。物体検出部113は、予め用意された学習済みの物体検出モデルを用いて、分割画像に含まれる物体を検出する。物体検出の結果には、検出された物体の属性値と、その物体を囲う四角枠bb1とが含まれる。
 物体検出の結果は、メタデータ調整部114に入力され、四角枠bb1の座標が元の分割画像[0]にマッピングされる。
 第2処理部120は、分割画像[0]を縮小した全体画像の物体検出を行う。より詳細には、スケーリング部121は、予め指定されている物体検出モデルに入力可能な画像サイズとなるように、分割画像[0]を縮小する。
 スケーリングされた分割画像[0]は、物体検出部122に入力され、物体検出モデルの演算により、分割画像[0]に含まれる物体が検出される。より詳細には、物体検出部122は、分割画像[0]に含まれる物体の属性値、および物体を囲う四角枠bb2を指定する。
 メタデータスケーリング部123は、物体検出部122によって検出された分割画像[0]の全体に含まれる物体の四角枠bb2の領域を拡大するスケーリング処理を行い、元画像の分割画像[0]に四角枠bb2をマッピングする。
 第3処理部130は、第1処理部110から出力される分割画像[0]をさらに分割した複数の分割画像のメタデータmd1と、第2処理部120から出力される分割画像[0]のメタデータmd2とに基づいて、メタデータmd1とメタデータmd2とを合成する。
 より詳細には、算出部310は、分割画像[0]をさらに分割した複数の分割画像のメタデータmd1と分割画像[0]のメタデータmd2との重複度を計算する。判定部311は、重複度が第1しきい値を上回る場合、判定対象の属性情報をメタデータmd1から除去する。
 合成部132は、選別部131によってメタデータが選別され、分割画像[0]の分割画像と、分割画像[0]の全体とに含まれる重複するメタデータが排除されたメタデータmd1とメタデータmd2とを合わせた、分割画像[0]のメタデータmd(第4メタデータ)を生成する。
 本実施の形態では、図12に示すように、M個の画像処理装置1Aを用いて、M個の分割画像の各々について、上記の処理が実行される。したがって、M個の画像処理装置1Aの各々から合成された分割画像ごとの合計M個のメタデータmdが出力される。
 また、図12に示すように、画像処理システム1Bには、第2処理部120Bおよび第3処理部130Bが含まれる。画像処理システム1Bは、M個の画像処理装置1Aが備えるM個の第2処理部120およびM個の第3処理部130、ならびに第2処理部120Bおよび第3処理部130Bにより、合計M+1個の第2処理部120、120BとM+1個の第3処理部130、130Bとを備える。
 第2処理部120Bは、入力画像Iinの全体処理を実行する。第2処理部120Bは、スケーリング部121、物体検出部122、およびメタデータスケーリング部123を備える。
 スケーリング部121は、元画像である入力画像Iinを縮小した全体画像(第5画像)を出力する。物体検出部122は、スケーリングされた全体画像を入力として、学習済みの物体検出モデルの演算を行い、全体画像に含まれる物体の属性値と、その物体を囲う四角枠BB2(第3領域)とを含む属性情報の集合を全体画像のメタデータMD2(第5メタデータ)として取得する。四角枠BB2には、入力画像Iinにおける座標情報が含まれる。
 物体検出部122で生成された全体画像のメタデータMD2は、メタデータスケーリング部123に入力されて、検出された物体の四角枠BB2の座標が入力画像Iinへマッピングされる。
 第3処理部130Bは、選別部131および合成部132を備える。また、選別部131は、算出部310および判定部311を備える。第3処理部130Bには、M個の画像処理装置1Aで得られたM個のメタデータmd、および第2処理部120Bで得られた、入力画像Iinが縮小された全体画像のメタデータMD2が入力される。
 算出部310は、M個の画像処理装置1Aで求められた分割画像[0]・・・[M]各々に対応するメタデータmdと、第2処理部120Bで得られた入力画像Iinが縮小された全体画像のメタデータMD2との重複度を計算する。
 判定部311は、算出部310で算出された重複度が予め設定された第1しきい値を上回るか否かを判定する。
 選別部131は、判定部311が第1しきい値を上回ると判定した場合に、判定対象の属性情報をメタデータmdから除去する。
 合成部132は、選別部131によりメタデータが選別され、分割画像[0]・・・[M]と、入力画像Iinを縮小した全体画像とに含まれる重複するメタデータが排除されたメタデータmdとメタデータMD2とを合わせて、入力画像IinのメタデータMD(第6メタデータ)を生成し、出力する。
 以上説明したように、第4の実施の形態によれば、画像処理システム1Bは、M個の第1処理部110、M+1個の第2処理部120、120B、およびM+1個の第3処理部130、130Bを備え、分割処理と合成処理とを階層的に実行する。そのため、入力画像Iinの分割数を増加した場合において、画像の分割に伴い画像に含まれる特徴的な部位が検出されないことを抑制できる。
 また、画像処理システム1Bは、複数の画像処理装置1Aを備えるので、例えば、画像処理装置1Aで分割できる画像の上限がM’個であったとしても、分割可能な画像の上限数を拡張できる。
 その結果として、深層学習に基づく物体検出モデルに入力可能な画像サイズを上回る高精細画像を入力画像Iinとして用いても、入力画像Iinに含まれる比較的大きいサイズの物体および比較的小さいサイズの物体の両方を検出することができる。
 なお、説明した実施の形態では、画像処理装置1、1Aが備える各機能ブロックは、1つのコンピュータにより構成しても、ネットワークを介して接続された複数のコンピュータに分散することも可能である。同様に、画像処理システム1Bが備える各機能ブロックについても、1つのコンピュータにより実現する場合のほか、ネットワーク上の複数のコンピュータに分散した構成を採用することもできる。
 また、説明した実施の形態に係る画像処理装置1、および画像処理システム1Bは、コンピュータとプログラムによっても実現でき、プログラムを記憶媒体に記録することも、ネットワークを通じて提供することも可能である。
 また、説明した第1の実施の形態から第4の実施の形態に係る画像処理装置1は、それぞれ組み合わせて実現することも可能である。
 以上、本発明に係る画像処理装置、画像処理方法、画像処理システム、および画像処理プログラムにおける実施の形態について説明したが、本発明は説明した実施の形態に限定されるものではなく、請求項に記載した発明の範囲において当業者が想定し得る各種の変形を行うことが可能である。例えば、画像処理方法の各ステップの順序は上記説明した順序に限られない。
1…画像処理装置、110…第1処理部、111…分割部、112、121…スケーリング部、113、122…物体検出部、114…メタデータ調整部、120…第2処理部、123…メタデータスケーリング部、130…第3処理部、131…選別部、132…合成部、310…算出部、311…判定部、101…バス、102…プロセッサ、103…主記憶装置、104…通信I/F、105…補助記憶装置、106…入出力I/O、107…入力装置、108…表示装置。

Claims (7)

  1.  入力画像を分割して複数の第1画像を出力する分割部と、
     前記複数の第1画像の各々を、予め用意された物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記複数の第1画像の各々に含まれる物体の属性値と、前記物体を囲う第1領域とを含む属性情報の集合を、第1画像の第1メタデータとして取得する第1処理部と、
     前記入力画像を縮小した第2画像を出力するスケーリング部と、
     前記第2画像を、前記物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記第2画像に含まれる物体の属性値と、前記物体を囲う第2領域とを含む属性情報の集合を、前記第2画像の第2メタデータとして取得する第2処理部と、
     前記第2メタデータの属性情報の集合と、前記第2メタデータと前記第1メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の第3メタデータを生成する合成処理部と
     を備え、
     前記第1領域は、前記入力画像における座標情報を有し、
     前記第2領域は、前記入力画像における座標情報を有する
     ことを特徴とする画像処理装置。
  2.  請求項1に記載の画像処理装置において、
     前記合成処理部は、
     前記第2メタデータに含まれる物体の属性値と前記第1メタデータに含まれる物体の属性値とが一致する場合に、前記第2領域と前記第1領域とで重複した面積を、前記第1領域の面積で除算して得られるメタデータの属性情報間の重複度合いを表す第1の値を求める算出部と、
     前記算出部で算出された前記第1の値が、予め設定された第1しきい値を上回るか否かを判定する第1判定部と
     をさらに備え、
     前記合成処理部は、前記第1判定部が、前記第1の値が前記第1しきい値を上回ると判定した場合に、前記第1メタデータの属性情報は前記第2メタデータの属性情報と共通していると判断し、共通していると判断された属性情報を前記第1メタデータから排除して、前記第2メタデータの属性情報の集合と、前記第2メタデータと前記第1メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の前記第3メタデータを生成する
     ことを特徴とする画像処理装置。
  3.  請求項2に記載の画像処理装置において、
     前記合成処理部は、
     前記第1判定部によって前記第1の値が、前記第1しきい値を上回ると判定された場合に、前記第1メタデータの前記第1領域の面積を、前記第2領域の面積で除算して得られる第2の値が、予め設定された第2しきい値を上回るか否かを判定する第2判定部をさらに備え、
     前記合成処理部は、前記第1判定部によって前記第1の値が前記第1しきい値を上回ると判定され、かつ、前記第2判定部が、前記第2の値が前記第2しきい値を上回ると判定した場合に、前記第1メタデータの属性情報は、前記第2メタデータの属性情報と共通していると判断し、共通していると判断された属性情報を前記第1メタデータから排除して、前記第2メタデータの属性情報の集合と、前記第2メタデータと前記第1メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の前記第3メタデータを生成する
     ことを特徴とする画像処理装置。
  4.  請求項1から3のいずれか1項に記載の画像処理装置において、
     前記合成処理部は、
     前記第2メタデータに含まれる属性値のいずれとも一致しない属性値を有する物体が前記第1メタデータに含まれている場合、前記一致しない属性値に係る前記第1領域の面積を、前記第1領域に対応する前記入力画像の領域の面積で除算して得られる第3の値が、予め設定された第3しきい値を上回るか否かを判定する第3判定部をさらに備え、
     前記合成処理部は、前記第3判定部が、前記第3の値が前記第3しきい値を上回ると判定した場合に、前記第1メタデータの属性情報は、前記第2メタデータの属性情報と共通していると判断し、共通していると判断された属性情報を前記第1メタデータから排除して、前記第2メタデータの属性情報の集合と、前記第2メタデータと前記第1メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の前記第3メタデータを生成する
     ことを特徴とする画像処理装置。
  5.  請求項1から4のいずれか1項に記載の画像処理装置と、分割装置と、スケーリング装置と、第2処理装置と、合成処理装置とを備える画像処理システムであって、
     前記分割装置は、入力画像を分割して複数の第3画像を出力し、
     前記画像処理装置は複数設けられ、前記画像処理装置の各々は、前記複数の第3画像のうちのいずれか1つの第3画像を入力として用いて、前記第3画像の属性情報の集合を示す第4メタデータを生成し、
     前記画像処理装置の各々は、
     前記第3画像を分割して複数の第1画像を出力する前記分割部と、
     前記複数の第1画像の各々を、予め用意された物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記複数の第1画像の各々に含まれる物体の属性値と、前記物体を囲う第1領域とを含む属性情報の集合を、第1画像の第1メタデータとして取得する前記第1処理部と、
     前記第3画像を縮小した第2画像を出力する前記スケーリング部と、
     前記第2画像を、前記物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記第2画像に含まれる物体の属性値と、前記物体を囲う第2領域とを含む属性情報の集合を、前記第2画像の第2メタデータとして取得する前記第2処理部と、
     前記第2メタデータの属性情報の集合と、前記第2メタデータと前記第1メタデータとで共通しない属性情報の集合とを合わせて、前記第3画像の前記第4メタデータを生成する前記合成処理部と
     を備え、
     前記第1領域は、前記入力画像における座標情報を有し、
     前記第2領域は、前記入力画像における座標情報を有し、
     前記スケーリング装置は、前記入力画像を縮小した第5画像を出力し、
     前記第2処理装置は、前記第5画像を、予め用意された物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記第5画像に含まれる物体の属性値と、前記物体を囲う第3領域とを含む属性情報の集合を、前記第5画像の第5メタデータとして取得し、
     前記合成処理装置は、前記第5メタデータの属性情報の集合と、前記第5メタデータと前記第4メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の第6メタデータを生成し、
     前記第3領域は、前記入力画像における座標情報を有する
     ことを特徴とする画像処理システム。
  6.  入力画像を分割して複数の第1画像を出力する分割ステップと、
     前記複数の第1画像の各々を、予め用意された物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記複数の第1画像の各々に含まれる物体の属性値と、前記物体を囲う第1領域とを含む属性情報の集合を、第1画像の第1メタデータとして取得する第1処理ステップと、
     前記入力画像を縮小した第2画像を出力するスケーリングステップと、
     前記第2画像を、前記物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記第2画像に含まれる物体の属性値と、前記物体を囲う第2領域とを含む属性情報の集合を、前記第2画像の第2メタデータとして取得する第2処理ステップと、
     前記第2メタデータの属性情報の集合と、前記第2メタデータと前記第1メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の第3メタデータを生成する合成処理ステップと
     を備え、
     前記第1領域は、前記入力画像における座標情報を有し、
     前記第2領域は、前記入力画像における座標情報を有する
     ことを特徴とする画像処理方法。
  7.  コンピュータに、
     入力画像を分割して複数の第1画像を出力する分割ステップと、
     前記複数の第1画像の各々を、予め用意された物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記複数の第1画像の各々に含まれる物体の属性値と、前記物体を囲う第1領域とを含む属性情報の集合を、第1画像の第1メタデータとして取得する第1処理ステップと、
     前記入力画像を縮小した第2画像を出力するスケーリングステップと、
     前記第2画像を、前記物体検出モデルに入力として与えることで、前記物体検出モデルの演算を行い、前記第2画像に含まれる物体の属性値と、前記物体を囲う第2領域とを含む属性情報の集合を、前記第2画像の第2メタデータとして取得する第2処理ステップと、
     前記第2メタデータの属性情報の集合と、前記第2メタデータと前記第1メタデータとで共通しない属性情報の集合とを合わせて、前記入力画像の第3メタデータを生成する合成処理ステップと
     を実行させ、
     前記第1領域は、前記入力画像における座標情報を有し、
     前記第2領域は、前記入力画像における座標情報を有する
     ことを特徴とする画像処理プログラム。
PCT/JP2020/005812 2020-02-14 2020-02-14 画像処理装置、画像処理システム、画像処理方法、および画像処理プログラム WO2021161513A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP20919274.9A EP4105885A4 (en) 2020-02-14 2020-02-14 IMAGE PROCESSING DEVICE, IMAGE PROCESSING SYSTEM, IMAGE PROCESSING METHOD AND IMAGE PROCESSING PROGRAM
US17/799,528 US20230058896A1 (en) 2020-02-14 2020-02-14 Image Processing Device, Image Processing System, Image Processing Method, and Image Processing Program
JP2022500183A JP7239050B2 (ja) 2020-02-14 2020-02-14 画像処理装置、画像処理システム、画像処理方法、および画像処理プログラム
PCT/JP2020/005812 WO2021161513A1 (ja) 2020-02-14 2020-02-14 画像処理装置、画像処理システム、画像処理方法、および画像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/005812 WO2021161513A1 (ja) 2020-02-14 2020-02-14 画像処理装置、画像処理システム、画像処理方法、および画像処理プログラム

Publications (1)

Publication Number Publication Date
WO2021161513A1 true WO2021161513A1 (ja) 2021-08-19

Family

ID=77292164

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/005812 WO2021161513A1 (ja) 2020-02-14 2020-02-14 画像処理装置、画像処理システム、画像処理方法、および画像処理プログラム

Country Status (4)

Country Link
US (1) US20230058896A1 (ja)
EP (1) EP4105885A4 (ja)
JP (1) JP7239050B2 (ja)
WO (1) WO2021161513A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023238248A1 (ja) * 2022-06-07 2023-12-14 日本電信電話株式会社 物体検出装置、及び物体検出方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016095640A (ja) * 2014-11-13 2016-05-26 株式会社東芝 密度計測装置、密度計測方法、およびプログラム
JP2018018313A (ja) * 2016-07-28 2018-02-01 国立大学法人信州大学 画像判別装置及び画像判別方法
JP2019160240A (ja) * 2018-03-16 2019-09-19 日本電信電話株式会社 情報処理装置および情報処理方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2018379107A1 (en) * 2017-12-08 2020-06-25 Geomni, Inc. Computer vision systems and methods for geospatial property feature detection and extraction from digital images

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016095640A (ja) * 2014-11-13 2016-05-26 株式会社東芝 密度計測装置、密度計測方法、およびプログラム
JP2018018313A (ja) * 2016-07-28 2018-02-01 国立大学法人信州大学 画像判別装置及び画像判別方法
JP2019160240A (ja) * 2018-03-16 2019-09-19 日本電信電話株式会社 情報処理装置および情報処理方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
REDMON JOSEPH ET AL.: "YOLOv3:An Incremental Improvement", ARXIV, 9 April 2018 (2018-04-09), pages 1 - 6, XP080868709, Retrieved from the Internet <URL:https://arxiv.org/pdf/1804.02767.pdf> *
RUZICKA VIT ET AL.: "Fast and accurate object detection in high resolution 4K and 8K video using CPUs", 2018 IEEE HIGH PERFORMANCE EXTREME COMPUTING CONFERENCE (HPEC), 1 September 2018 (2018-09-01), pages 1 - 7, XP055748517 *
VIT RUZICKA: "Fast and accurate object detection in high resolution 4K and 8K video using GPUs", IEEE HIGH PERFORMANCE EXTREME COMPUTING CONFERENCE (HPEC, 2018

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023238248A1 (ja) * 2022-06-07 2023-12-14 日本電信電話株式会社 物体検出装置、及び物体検出方法

Also Published As

Publication number Publication date
EP4105885A1 (en) 2022-12-21
JP7239050B2 (ja) 2023-03-14
JPWO2021161513A1 (ja) 2021-08-19
US20230058896A1 (en) 2023-02-23
EP4105885A4 (en) 2023-11-01

Similar Documents

Publication Publication Date Title
EP3540637B1 (en) Neural network model training method, device and storage medium for image processing
US8717390B2 (en) Art-directable retargeting for streaming video
US8487926B2 (en) Method and apparatus for generating 3D image using 2D photograph images
US10818018B2 (en) Image processing apparatus, image processing method, and non-transitory computer-readable storage medium
GB2520613A (en) Target region fill utilizing transformations
US8373802B1 (en) Art-directable retargeting for streaming video
CA2875426C (en) Resizing an image
US11189041B2 (en) Image processing apparatus, control method of image processing apparatus, and non-transitory computer-readable storage medium
CN112189220B (zh) 用于计算机图形渲染的软遮挡
US20220319145A1 (en) Image processing device, image processing method, moving device, and storage medium
WO2024001360A1 (zh) 绿幕抠图方法、装置及电子设备
US11373350B2 (en) Apparatus and method for editing data and program
CN114450717A (zh) 用于增强现实应用的遮挡和碰撞检测
KR101875047B1 (ko) 사진측량을 이용한 3d 모델링 시스템 및 방법
WO2021161513A1 (ja) 画像処理装置、画像処理システム、画像処理方法、および画像処理プログラム
US9959672B2 (en) Color-based dynamic sub-division to generate 3D mesh
US20120038785A1 (en) Method for producing high resolution image
JP7195220B2 (ja) 学習装置、学習装置の作動方法、および学習装置の作動プログラム
CN115546027B (zh) 图像缝合线确定方法、装置以及存储介质
US20240062506A1 (en) Object detection device, object detection method, and object detection program
US7646385B2 (en) Computer graphics rendering method and apparatus
KR20120118462A (ko) 이미지 기반의 비주얼 헐에서의 오목 표면 모델링
US9330434B1 (en) Art-directable retargeting for streaming video
US20200351456A1 (en) Image processing device, image processing method, and program
US20130021332A1 (en) Image processing method, image processing device and display device

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20919274

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022500183

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020919274

Country of ref document: EP

Effective date: 20220914