WO2019239743A1 - 物体検出装置、方法、及びプログラム - Google Patents

物体検出装置、方法、及びプログラム Download PDF

Info

Publication number
WO2019239743A1
WO2019239743A1 PCT/JP2019/018269 JP2019018269W WO2019239743A1 WO 2019239743 A1 WO2019239743 A1 WO 2019239743A1 JP 2019018269 W JP2019018269 W JP 2019018269W WO 2019239743 A1 WO2019239743 A1 WO 2019239743A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
common pattern
unit
pair
region
Prior art date
Application number
PCT/JP2019/018269
Other languages
English (en)
French (fr)
Inventor
周平 田良島
峻司 細野
之人 渡邉
島村 潤
杵渕 哲也
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to US17/251,172 priority Critical patent/US11594009B2/en
Publication of WO2019239743A1 publication Critical patent/WO2019239743A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/30Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/162Segmentation; Edge detection involving graph-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/457Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/7635Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks based on graphs, e.g. graph cuts or spectral clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction

Definitions

  • the present invention relates to an object detection apparatus, method, and program, and more particularly, to an object detection apparatus, method, and program for specifying a position in an image of an object that is commonly captured in an image set.
  • object detection can be said to be an elemental technology having a wide range of industrial applicability.
  • the label refers to information indicating the type of an object shown in each of the images as learning data, and position information within the image of the object.
  • the position information is, for example, information on the coordinate positions of the four corners of a rectangle that encloses an area showing an object in the image without excess or deficiency. In general, it is very expensive to manually construct such learning data.
  • target object area an area indicating a target object (hereinafter referred to as “target object area”) is specified. For example, based on the error when first estimating a close association in pixel units between image pairs with similar regions of high saliency and reconstructing each pixel of each image with a similar image using the estimation result A method for specifying a target object region has been proposed (for example, Non-Patent Document 1).
  • Non-Patent Document 2 A method for identifying a target object region at high speed by evaluating the ease of reconstruction per feature amount has been proposed (for example, Non-Patent Document 2).
  • the conventional weakly supervised object detection technology described above has the following two major problems.
  • the first point is that in the conventional weakly supervised object detection technique, the assumption that “the saliency of the target object region is high”, which is implicitly assumed, is often not satisfied.
  • the target object region is a rectangular region (rectangular region indicated by a broken line in FIG. 16) that encloses the “AA Life” logo displayed on the television screen without excess or deficiency.
  • the saliency map estimated using the conventional technique is as shown in the right part of FIG.
  • the pixel value included in the region with higher saliency has a higher pixel value (white pixel), and the pixel included in the region with lower saliency has a lower pixel value (black pixel).
  • a sex map it can be seen that many regions other than the target object region are estimated as highly significant regions, or even the target object region is not estimated as a highly significant region. .
  • This is generally defined as a region that satisfies the conditions such as a large contrast difference with the surrounding area, high saturation, and a large image near the center of the image. Due to not satisfying. Therefore, when an image set as shown in FIG. 16 is input, the conventional technique cannot accurately detect the target object region.
  • the “AA life” regions that are target object regions are naturally similar to each other (regions indicated by solid ellipses connected by solid arrows in FIG. 17).
  • there are many areas other than the target object area that have a common appearance on the image for example, areas indicated by dashed ellipses connected by dashed arrows in FIG. 17.
  • Areas with common appearance on the image are easily associated, and of course, similar images can be easily reconstructed. Therefore, in the conventional technology, these “not subject object areas, but the appearance on the image is common. Many “regions” are also detected. As a result, the conventional technique cannot accurately detect the target object region.
  • the weakly-supervised object detection technique of the prior art includes an image including an area that has low saliency of the target object area and has a common appearance on the image other than the target object area. In this case, there is a problem that the target object region cannot be detected accurately.
  • the present invention has been made in view of the above circumstances, and an image including a region where the detection target object is not noticeable in the image and the appearance on the image is common other than the detection target object is input. It is an object to provide an object detection apparatus, method, and program that can accurately detect a region indicating an object to be detected.
  • an object detection apparatus includes a local feature extraction unit that extracts local features of feature points from each image included in an input image set, and an image included in the image set.
  • a feature point set that is a set of feature point pairs in which the local features extracted by the local feature extraction unit are similar between the images constituting the image pair for each image pair selected from the above, and is geometrically similar
  • An image pair common pattern extraction unit that extracts a common pattern composed of a set of pairs, and an area based on a common pattern that is ubiquitous in the image set among the common patterns extracted by the image pair common pattern extraction unit, And an area detection unit that detects an area indicating an object to be detected in each image included in the set.
  • the local feature extraction unit extracts local features of feature points from each image included in the input image set, and the image pair common pattern extraction unit is included in the image set. For each image pair selected from the selected images, a set of feature point pairs in which the local features extracted by the local feature extraction unit are similar between the images constituting the image pair, and geometrically similar feature points Extract a common pattern consisting of a set of pairs. In this way, since a common pattern is extracted without making any assumptions about the position, size, contrast, etc. of the area to be detected, even if it is an area that does not satisfy the saliency condition, Can be extracted well.
  • the region detection unit indicates a region based on the common pattern ubiquitous in the image set among the common patterns extracted by the image pair common pattern extraction unit, and indicates a detection target object in each image included in the image set. Detect as. As a result, it is possible to exclude non-target common patterns that can be included in a specific image pair in the input image set from the detection target region candidates.
  • the input includes an image that includes a region that is not noticeable in the image and that has a common appearance on the image other than the detection target object. Even in such a case, it is possible to accurately detect the area indicating the object to be detected.
  • the image pair common pattern extraction unit includes: an image pair selection unit that selects an image pair from the image set; and the image pair selected by the image pair selection unit, A feature point pair that temporarily associates feature points with similar local features extracted by the local feature extraction unit as a feature point pair, and a feature point pair that is associated with the provisional association unit is a node.
  • a correspondence graph clustering unit for extracting a cluster of node sets corresponding to a set of feature point pairs constituting the same common pattern;
  • a cluster integration unit that extracts, as the common pattern, a region obtained by integrating the regions on the image corresponding to the clusters extracted by the Stalling unit based on the spatial overlap between the regions.
  • the correspondence graph construction unit determines whether or not a condition indicating that the geometric consistency is satisfied, whether or not the feature point pair is associated with the provisional association unit. It can be determined using the local features of the feature points included in. By using the local feature of the feature point, specifically, the position and attribute (scale and orientation) of the feature point, the geometric consistency can be appropriately determined.
  • the correspondence graph clustering unit extracts, from the feature point pairs corresponding to all the nodes included in the cluster, a cluster in which the feature point pairs are not composed of common feature points. To do. Thereby, a feature point pair inappropriate as a feature point pair constituting the common pattern can be excluded.
  • the region detection unit uses each common pattern extracted by the image pair common pattern extraction unit as a node, and is common within images and between images included in the image set.
  • a common pattern graph constructing unit for constructing a common pattern graph in which nodes corresponding to a common pattern are connected by edges and the identification information of the image from which the common pattern is extracted is assigned to each corresponding node; and the common pattern Of the paths included in the common pattern graph constructed by the graph construction unit, the identification information set of the image assigned to each node included in the path with respect to the identification information set of all images included in the image set.
  • a ubiquitous common pattern selection unit that selects a common pattern corresponding to a path with high coverage as a ubiquitous common pattern, and the ubiquitous common
  • the ubiquitous common pattern selected by the turn selection unit is determined based on at least one of the commonality of paths corresponding to the ubiquitous common pattern and the spatial overlap of the ubiquitous common pattern in the image.
  • a ubiquitous common pattern integration unit that detects the region integrated as described above as a region indicating the object to be detected.
  • the area detection unit corrects a boundary of the area indicating the ubiquitous common pattern based on information on peripheral pixels of the area indicating the ubiquitous common pattern. It can comprise further including a part. Thereby, the detection target region can be detected more appropriately.
  • the local feature extraction unit extracts local features of feature points from each image included in the input image set
  • the image pair common pattern extraction unit extracts the image set. For each image pair selected from the included images, a set of feature point pairs in which the local features extracted by the local feature extraction unit are similar and geometrically similar between the images constituting the image pair A common pattern consisting of a set of feature point pairs to be extracted, and an area detection unit, based on the common pattern extracted by the image pair common pattern extraction unit, based on a common pattern ubiquitous in the image set, This is a method of detecting an area indicating an object to be detected in each image included in an image set.
  • the object detection program according to the present invention is a program for causing a computer to function as each part constituting the object detection apparatus.
  • the object to be detected is not noticeable in the image, and the appearance on the image other than the object to be detected is common. Even if an image including the selected region is included in the input, it is possible to accurately detect the region indicating the detection target object.
  • FIG. 1 schematically shows an example of an image set input to the object detection apparatus.
  • a case will be described in which a logo “AA Life” included in a television image is set as a target object region.
  • Each image included in the input image set is labeled “AA Life”.
  • an image that does not actually include any object to be detected, that is, an image that is not assigned the “AA life” label may be mixed in a part of the input image set.
  • the object detection device detects a region (logo region “AA life”) corresponding to the object indicated by the label from each image included in the input image set, and the target object indicating the position of the detected region Output area information.
  • the object detection apparatus is configured as a computer including a CPU (Central Processing Unit), a RAM (Random Access Memory), a ROM (Read Only Memory), an HDD (Hard Disk Drive), and the like.
  • the ROM stores an object detection program according to the present embodiment.
  • the object detection program may be stored in the HDD.
  • the object detection program may be installed in advance in the object detection device, for example.
  • the object detection program may be realized by being stored in a nonvolatile storage medium or distributed via a network and appropriately installed in the object detection apparatus.
  • nonvolatile storage media include CD-ROM (Compact Disc Read Only Memory), magneto-optical disk, DVD-ROM (Digital Versatile Disc Disc Read Only Memory), flash memory, memory card, and the like.
  • the CPU functions as each functional unit of an object detection device described later by reading and executing an object detection program stored in the ROM.
  • the object detection apparatus 10 functionally includes a local feature extraction unit 20, an image pair common pattern extraction unit 30, and a region detection unit 50.
  • the local feature extraction unit 20 extracts local features from each image included in the input image set.
  • the local feature is the position in the image of the feature point p (x p, y p) and, and the attributes of the feature point p (scale s p and orientation theta p), it is defined from the position and attributes of the feature point p
  • the patch feature description d p shown below is assumed to be configured.
  • N is the dimension of the feature descriptor.
  • Local feature extraction consists of feature point detection and feature description.
  • An arbitrary number of feature points are detected from one image. Any known technique can be used for the feature point detection. For example, DoG, Harris-Laplace, Hessian-Affine, Hessian-Hessian, Hessian Laplace, Harris Laplace, etc. disclosed in Reference Document 1 are used. Can do. A plurality of these methods may be used simultaneously. In this case, since almost the same feature points may be detected from different methods, it is desirable to exclude redundant feature points based on the positions and attributes of the feature points.
  • the feature description method is arbitrary, and the SIFT or SURF, the Spread-Out Descriptor disclosed in Reference Document 2, or all pixels constituting the patch may be vectorized and used.
  • the obtained feature description may be subjected to normalization processing such as L2 normalization.
  • the image pair common pattern extraction unit 30 is configured so that, for each of one or more image pairs selected from the input image set, the appearance on the image is between the images constituting the image pair.
  • a common pattern hereinafter, referred to as “common pattern”
  • common pattern a set of feature point pairs with similar local features extracted by the local feature extraction unit 20, and a set of geometrically similar feature point pairs.
  • a common pattern is extracted.
  • the image pair common pattern extraction unit 30 includes an image pair selection unit 32, a provisional association unit 34, a correspondence graph construction unit 36, a correspondence graph clustering unit 38, and a cluster integration unit 40. It can be expressed in configuration.
  • the image pair selection unit 32 selects one or more image pairs from the input image set.
  • the image pair selection method is arbitrary, and the image pair selection unit 32 can select, for example, a combination of all image pairs or can randomly select a predetermined number of pairs from among them.
  • the image pair selection unit 32 compares arbitrary features extracted from each image, constructs an undirected graph in which each image is a node, and particularly similar nodes (that is, images) are connected by edges. The image pair corresponding to the nodes at both ends of each edge included in the graph can be selected.
  • the image pair selection unit 32 may select an image pair by utilizing the local feature extracted by the local feature extraction unit 20.
  • a selection method for example, when the similarity between feature points in the other image that is most similar to a certain feature point in one image is sufficiently higher than the similarity of the second similar feature point Ratio Test that performs only association, Cross Check that performs association only when the feature points pairs are most similar to each other, Number of feature point pairs whose similarity or distance between feature points satisfies a predetermined condition (threshold) A method of using as a similarity can be applied.
  • the image pair selection unit 32 integrates the local features extracted from each image by the method disclosed in Reference 3, and uses the distance between the obtained vectors to select an image pair. Good.
  • the image pair selection unit 32 delivers information indicating the selection result of the image pair to the provisional association unit 34.
  • the information indicating the selection result of the image pair can be, for example, a set of image ids that are identification information of each image constituting the image pair.
  • image x an image having an image id x is referred to as “image x”.
  • the provisional association unit 34 provisionally associates feature points with similar local features extracted by the local feature extraction unit 20 for each image pair indicated by the selection result received from the image pair selection unit 32.
  • a pair of feature points provisionally associated is referred to as a “provisional correspondence pair”.
  • the method of associating the feature points is arbitrary, and for example, the above-described method such as Ratio Test, Cross Check, feature point pair similarity or distance threshold processing can be used.
  • Fig. 4 shows an example of a provisional correspondence pair.
  • the feature points having similar local features between the images are connected by lines to represent the provisional correspondence pair.
  • the provisional association unit 34 passes the provisional correspondence pair information to the correspondence graph construction unit 36. Preliminary to the information of the corresponding pair, the position of each feature point constituting the tentative corresponding pair (x p, y p) is included and attributes (scale s p and orientation theta p).
  • the correspondence graph construction unit 36 uses the provisional correspondence pair indicated by the provisional correspondence pair information passed from the provisional association unit 34 as a node, and corresponds to the provisional correspondence pair that satisfies the condition indicating that there is geometric consistency. Build a correspondence graph with nodes connected by edges.
  • the correspondence graph construction unit 36 includes a node v a corresponding to the provisional correspondence pair ⁇ p, q ⁇ configured by the feature point p of the image 1 and the feature point q of the image 2, and A node v b corresponding to the provisional correspondence pair ⁇ p ′, q ′ ⁇ composed of the feature point p ′ of the image 1 and the feature point q ′ of the image 2 is generated.
  • the correspondence graph construction unit 36 sets the node v when the provisional correspondence pair ⁇ p, q ⁇ and the provisional correspondence pair ⁇ p ′, q ′ ⁇ satisfy the condition indicating that the geometric correspondence is consistent. connected by an edge between a and node v b.
  • the determination as to whether or not the condition indicating that the two provisional correspondence pairs are geometrically consistent is satisfied is performed using the position and / or attribute of each feature point constituting the provisional correspondence pair. .
  • the method for realizing this determination is arbitrary. In the following, five examples are shown for the condition indicating that the two provisional correspondence pairs are geometrically consistent.
  • Equation (1) ⁇ s is a parameter, s n is a scale of the feature point n, and l nn ′ is a distance between the feature point n and the feature point n ′ on the same image.
  • [X] is a function that outputs 1 when the condition X is satisfied and outputs 0 when the condition X is not satisfied.
  • ⁇ ⁇ is a parameter
  • ⁇ n is an orientation of the feature point n.
  • ⁇ a is a parameter.
  • ⁇ b is a parameter.
  • the correspondence graph construction unit 36 constructs a correspondence graph by connecting the nodes corresponding to the provisional correspondence pairs that output 1 for all the consistency conditions (i) to (v) with edges. can do. It should be noted that when 1 is output for any one of the above (i)-(v) consistency conditions, or when 1 is output for a predetermined number (for example, 3) or more of the consistency conditions, You may make it connect between by an edge.
  • the correspondence graph construction unit 36 passes the constructed correspondence graph to the correspondence graph clustering unit 38.
  • the nodes corresponding to the provisional correspondence pair set of feature points constituting the same common pattern are connected to each other by edges, It is considered that a cluster is formed.
  • the correspondence graph clustering unit 38 extracts the cluster as described above from the correspondence graph delivered from the correspondence graph construction unit 36.
  • the number of clusters to be extracted is arbitrary.
  • the extracted cluster is a cluster in which the provisional correspondence pair is not composed of common feature points for all provisional correspondence pairs included in the cluster. This condition is that a certain feature point in an image can be included in a plurality of provisional correspondence pairs, while one feature point in one image is physically associated with a plurality of feature points in the other image. In view of the impossibility, this is a natural assumption.
  • the correspondence graph clustering unit 38 can use, for example, a method of extracting clusters satisfying the following formula (5) by an algorithm shown in the correspondence graph clustering process (FIG. 14, details will be described later).
  • ⁇ S is the sum of the edges connecting the node set S and the difference set between the graphs G and S
  • vol (S) is the order sum of the nodes in the node set S. is there.
  • the corresponding graph clustering unit 38 passes the extracted cluster information to the cluster integration unit 40.
  • the cluster information includes information on nodes (provisional correspondence pairs) included in the cluster.
  • FIG. 4 shows an example of provisional correspondence pairs clustered.
  • the provisional correspondence pairs shown in the middle stage are represented by connecting the provisional correspondence pairs corresponding to the nodes included in the cluster extracted from the constructed correspondence graph with lines.
  • the color of the line indicating the provisional corresponding pair included in the cluster is different.
  • a plurality of patterns (regions) indicated by feature point sets constituting a temporary correspondence pair corresponding to a node included in the cluster extracted by the correspondence graph clustering unit 38 may be extracted.
  • the overlapping patterns are likely to form a pattern corresponding to one object.
  • the cluster integration unit 40 combines the patterns with high spatial redundancy among the patterns indicated by each piece of cluster information delivered from the corresponding graph clustering unit 38.
  • the method for realizing this is arbitrary. For example, for each region defined as a convex hull of a feature point set that constitutes a provisional correspondence pair corresponding to a node included in the cluster, the degree of overlap is evaluated by the Jaccard similarity, and one region equal to or greater than a predetermined threshold A method of summarizing can be used.
  • the cluster integration unit 40 passes the integrated region information to the region detection unit 50 as information indicating a common pattern.
  • the common pattern extracted by the image pair common pattern extraction unit 30 is extracted without using any prior knowledge about the target object, as shown in FIG. It may be captured or contain a common pattern that is not a detection target.
  • a portion having a pixel value higher (thin) than other portions represents a common pattern extracted by the image pair common pattern extraction unit 30.
  • the region detection unit 50 includes a common pattern that is ubiquitous in the image set among the common patterns extracted by the image pair common pattern extraction unit 30 (hereinafter referred to as “ubiquitous common pattern”). A region based on is detected as a target object region.
  • the region detection unit 50 is represented by a configuration including a common pattern graph construction unit 52, a ubiquitous common pattern selection unit 54, a ubiquitous common pattern integration unit 56, and a detection region correction unit 58. Can do.
  • the common pattern graph construction unit 52 uses each common pattern extracted by the image pair common pattern extraction unit 30 as a node, and uses an edge between nodes corresponding to a common pattern in the images included in the image set and between the images. Build a connected common pattern graph.
  • the common pattern graph construction unit 52 generates a node corresponding to the common pattern extracted from each image constituting each image pair, and the common pattern graph construction unit 52
  • the image id is assigned to the corresponding node.
  • the number in the node represents the image id.
  • the common pattern graph construction unit 52 connects the nodes corresponding to the common patterns extracted as common patterns between the image pairs by the image pair common pattern extraction unit 30 with edges.
  • an edge is used between nodes corresponding to the common pattern extracted from image 1 and the common pattern extracted from image 2.
  • An example of connection is shown (A in FIG. 9).
  • image 1 and image 3 are selected as an image pair, nodes corresponding to the common pattern extracted from image 1 and the common pattern extracted from image 3 are connected by edges. (B in FIG. 9).
  • the common pattern graph construction unit 52 is a common pattern extracted in each image pair when the same image is selected as a different image pair, and the overlapping degree of the common pattern in the image is a predetermined value or more. In this case, the nodes corresponding to the common pattern are connected by edges.
  • the method for calculating the overlapping degree of the common pattern in the image is arbitrary, and for example, it can be calculated by a Jaccard coefficient between binary masks corresponding to the common pattern. In the example of FIG. 9, when the image 1 and the image 2 are selected as the image pair, the common pattern extracted from the image 1 and the image 1 and the image 3 are selected as the image pair. An example in which nodes corresponding to the common pattern extracted from the image 1 are connected by edges (C in FIG. 9) is shown.
  • the common pattern graph construction unit 52 passes the constructed common pattern graph to the ubiquitous common pattern selection unit 54.
  • the ubiquitous common pattern selection unit 54 detects one or more arbitrary paths from the common pattern graph passed from the common pattern graph construction unit 52, and an image id set corresponding to the node set constituting the detected path is obtained.
  • a common pattern that is “ubiquitous” in many images is selected by evaluating the degree of covering all the image ids of the input image set.
  • the method of detecting a path from the common pattern graph is arbitrary. For example, a path is detected by selecting one or more nodes at random and performing a depth-first search or a breadth-first search using each node as a start node. be able to.
  • a common pattern “AA” and a common pattern “life” that are ubiquitous in the entire image set are selected as ubiquitous common patterns.
  • the common pattern (the time display at the upper left of the screen and the character portion at the lower left) included in the image pair shown in the second row in FIG. 8 is not omnipresent for the entire image set. Not selected as.
  • the ubiquitous common pattern selection unit 54 passes information on the selected ubiquitous common pattern to the ubiquitous common pattern integration unit 56.
  • the ubiquitous common pattern integration unit 56 identifies the target object region by integrating the ubiquitous common patterns transferred from the ubiquitous common pattern selection unit 54 in each image.
  • the method for integrating the ubiquitous common patterns is arbitrary.
  • the ubiquitous common pattern integration unit 56 has a path pair obtained by the ubiquitous common pattern selection unit 54 for each of the two ubiquitous common patterns.
  • the minimum circumscribed rectangle that includes all the two omnipresent common patterns can be specified as the target object region.
  • the ubiquitous common pattern integration unit 56 may integrate the ubiquitous common patterns in consideration of the duplication of the ubiquitous common patterns in the same image.
  • the ubiquitous common pattern integration unit 56 passes the information on the specified target object region to the detection region correction unit 58.
  • the boundary of the object is not necessarily accurately captured.
  • the detection area correction unit 58 corrects the target object area passed from the ubiquitous common pattern integration unit 56 using boundary line information extracted from the image.
  • the correction method is arbitrary. For example, as disclosed in Reference 4, a method of correcting an edge detected from an image into a region that does not straddle as much as possible can be used.
  • the detection area correction unit 58 outputs target object area information indicating the position information of the corrected target object area.
  • the target object area information can be, for example, coordinate information of four corners of a rectangular area indicating the target object area. As illustrated in FIG. 11, the detection area correction unit 58 can superimpose and output a rectangle indicated by the target object area information on each image included in the input image set.
  • FIG. 12 is a flowchart showing an example of the flow of processing by the object detection program according to the present embodiment.
  • the local feature extraction unit 20 extracts local features from each image included in the input image set.
  • step S30 the image pair common pattern extraction process shown in FIG. 13 is executed.
  • step S32 of FIG. 13 the image pair selection unit 32 selects one image pair from the input image set.
  • step S34 the provisional association unit 34 provisionally associates feature points with similar local features extracted in step S20 with respect to the image pair selected in step S32.
  • step S36 the correspondence graph construction unit 36 uses the provisional correspondence pair provisionally associated in step S34 as a node, and copes with the provisional correspondence pair that satisfies the condition indicating that there is geometric consistency. Construct a correspondence graph that connects nodes to each other with edges.
  • step S38 the correspondence graph clustering process shown in FIG. 14 is executed.
  • the correspondence graph clustering unit 38 selects the node with the highest degree among the nodes in the correspondence graph constructed in step S36.
  • step S384 the corresponding graph clustering unit 38 ranks the neighboring nodes using the page rank algorithm or the like with the selected node as the start node. For example, by using the approximate page rank algorithm disclosed in Reference 5, it is possible to rank neighboring nodes at a calculation cost that does not depend on the size of the graph.
  • step S386 the corresponding graph clustering unit 38 inserts nodes into the cluster S in the ranking order obtained in step S384.
  • the correspondence graph clustering unit 38 calculates ⁇ S / vol (S) each time a node is inserted into the cluster S, and stores it in a predetermined storage area. At this time, if the feature point that forms the provisional correspondence pair corresponding to the newly inserted node is used as the feature point that constitutes the provisional correspondence pair corresponding to the already selected node, Do not include the node in the cluster.
  • step S388 the correspondence graph clustering unit 38 selects the node set inserted in the cluster S until the time ⁇ S / vol (S) calculated in step S386 is minimized is selected in step S382. Store as a cluster corresponding to the start node.
  • step S390 the correspondence graph clustering unit 38 deletes the nodes constituting the cluster S obtained in step S388 from the correspondence graph.
  • step S392 the correspondence graph clustering unit 38 determines whether or not there is no node in the correspondence graph. If there is still a node, the process returns to step S382. If the node no longer exists, the correspondence graph clustering process is terminated, and the process returns to the image pair common pattern extraction process (FIG. 13).
  • step S40 of FIG. 13 among the common patterns corresponding to the clusters clustered in step S38, those having a high spatial redundancy are integrated.
  • step S42 the image pair selection unit 32 determines whether or not all image pairs have been selected in the input image set. If there is an unselected image pair, the process returns to step S32. If all image pairs have been selected, the image pair common pattern extraction process ends, and the process returns to the object detection process (FIG. 12).
  • step S50 of FIG. 12 the area detection process shown in FIG. 15 is executed.
  • step S52 of FIG. 15 the common pattern graph construction unit 52 uses each common pattern extracted in step S30 as a node, and between nodes corresponding to a common pattern common in the images included in the image set and between the images. Construct a common pattern graph with connected edges.
  • step S54 the ubiquitous common pattern selection unit 54 detects one arbitrary path from the common pattern graph constructed in step S52.
  • step S56 the omnipresent common pattern selection unit 54 sets the coverage indicating the degree to which the image id set corresponding to the node set constituting the detected path covers all the image ids of the input image set. calculate.
  • step S58 the ubiquitous common pattern selection unit 54 determines whether or not to detect the next path from the common pattern graph. When the next path is detected, the process returns to step S54, and when the path detection is finished, the process proceeds to step S60.
  • step S60 the ubiquitous common pattern selection unit 54 selects, as a ubiquitous common pattern, a common pattern corresponding to a path whose coverage calculated in step S56 is a predetermined value or more.
  • step S62 the ubiquitous common pattern integration unit 56 integrates the ubiquitous common pattern selected in step S60 in each image to identify the target object region.
  • step S64 the detection area correction unit 58 corrects the target object area specified in step S62 using the boundary line information extracted from the image, ends the area detection process, and performs object detection. Return to the process (FIG. 12).
  • step S70 of FIG. 12 the detection area correction unit 58 outputs target object area information indicating the position information of the target object area corrected in step S64, and the object detection process ends.
  • a common pattern having a common appearance on an image is extracted as a candidate for a target object region between image pairs in an input image set. .
  • the common pattern is extracted without making any assumptions about the position, size, contrast, etc. of the target object area, even if the target object is an area that does not satisfy the saliency condition assumed in the prior art It can be accurately extracted as a region candidate.
  • a common pattern that is ubiquitous in the input image set is selected as a target object region from among the common patterns extracted between image pairs. As a result, a non-target common pattern that can be included in a specific image pair in the input image set can be excluded from the target object region candidates.
  • the detection target object is not noticeable in the image, and other than the detection target object, the appearance on the image includes a common area between the image pairs. Even if an image is included in the input, it is possible to accurately detect a region indicating an object to be detected.
  • each structure of the object detection apparatus demonstrated by the said embodiment is an example, You may change according to a condition within the range which does not deviate from the main point.
  • processing flow of the program described in the above embodiment is an example, and unnecessary steps may be deleted, new steps may be added, or the processing order may be changed within a range not departing from the gist. Good.
  • the processing according to the embodiment is realized by a software configuration using a computer by executing a program.
  • the present invention is not limited to this.
  • the embodiment may be realized by, for example, a hardware configuration or a combination of a hardware configuration and a software configuration.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Discrete Mathematics (AREA)
  • Image Analysis (AREA)

Abstract

検出対象の物体が画像中で顕著でなく、また検出対象の物体以外の、画像上での見え方が共通した領域を含む画像が入力に含まれていても、検出対象の物体を示す領域を精度良く検出する。 局所特徴抽出部(20)が、入力された画像集合に含まれる各画像から、特徴点の局所特徴を抽出し、画像ペア共通パターン抽出部(30)が、画像集合に含まれる画像から選択した画像ペア毎に、画像ペアを構成する画像間において、局所特徴抽出部(20)により抽出された局所特徴が類似する特徴点ペアの集合であって、かつ、幾何的に類似する特徴点ペアの集合からなる共通パターンを抽出し、領域検出部(50)が、画像ペア共通パターン抽出部(30)により抽出された共通パターンのうち、画像集合に遍在する共通パターンに基づく領域を、画像集合に含まれる各画像における検出対象の物体を示す領域として検出する。

Description

物体検出装置、方法、及びプログラム
 本発明は、物体検出装置、方法、及びプログラムに係り、特に、画像集合に共通して写る物体の画像内における位置を特定する物体検出装置、方法、及びプログラムに関する。
 画像や映像に写る商品やロゴなどの物体を自動で検出すること、より具体的には、物体の種類及び物体の画像内での位置を把握することは、実世界の状況を理解し、高度な分析を行う上で極めて重要である。例えば、SNSに投稿された画像から特定の商品が自動検出できれば、その商品の利用シーンや同時に購入されている商品が明らかになり、より緻密なマーケティング調査の実現につながる。また、テレビ映像から企業ロゴが自動検出できれば、ロゴが表示された時間やテレビ画面中での表示位置が定量化され、プロモーション効果の測定や柔軟な広告料の設定等が可能になる。このように、物体検出は、幅広い産業応用可能性を有する要素技術と言える。
 公知の物体検出技術の多くは、物体に関する大量のラベル付き学習データから、物体検出器のモデルを学習することを前提としている。ここで、ラベルとは、学習データである画像の各々に写る物体の種類を示す情報、及び物体の画像内での位置情報を指す。位置情報は、例えば、画像内に写る物体を示す領域を過不足なく囲う矩形の四隅の座標位置の情報などである。一般的に、このような学習データを人手で構築するには膨大なコストがかかる。
 上記の問題を解消するために、画像に写る物体の種類を示すラベルのみであれば比較的容易に入手可能、又は、低コストに付与可能であることに着目し、同一ラベルが付与された複数の画像集合から、その中に写る物体を自動で検出する技術を「弱教師有り物体検出」と呼ぶ。
 従来の弱教師有り物体検出技術では、例えば、各画像で顕著性の高い領域を推定し、得られた領域を画像集合間で対応付け、その再構成のし易さを評価することで、検出対象の物体を示す領域(以下、「対象物体領域」という)を特定する場合が多い。例えば、まず顕著性の高い領域が類似した画像ペア間でピクセル単位の密な対応付けを推定し、推定結果を用いて各画像の各ピクセルを類似した画像で再構成したときの誤差に基づいて、対象物体領域を特定する方法が提案されている(例えば、非特許文献1)。
 また、非特許文献1で提案されている技術では、多くの画像ペアに対し密な対応付けを算出する必要があり、処理コストが高いという点に着目し、顕著性の高い領域から抽出される特徴量あたりの再構成のし易さを評価することで、高速に対象物体領域を特定する方法が提案されている(例えば、非特許文献2)。
 しかし、上述した従来の弱教師有り物体検出技術には、大きく以下2点の課題がある。まず1点目として、従来の弱教師有り物体検出技術において、暗黙のうちに仮定している、「対象物体領域の顕著性は高い」という仮定は、しばしば満たされないという点が挙げられる。
 例えば、図16に示すように、対象物体領域が、テレビ画面上に表示された「AA生命」のロゴを過不足なく囲う矩形領域(図16中の破線で示す矩形領域)であるとする。この場合において、従来技術を用いて推定される顕著性マップは図16右部に示すようになる。なお、図16右部は、顕著性の高い領域に含まれる画素ほど画素値を高く(白画素)、顕著性の低い領域に含まれる画素ほど画素値を低く(黒画素)して表した顕著性マップの例である。図16の例では、対象物体領域以外の多くの領域が、顕著性の高い領域として推定されていたり、対象物体領域であっても、顕著性の高い領域として推定されていなかったりすることが分かる。
 これは、一般に、顕著性の高い領域が、周辺とのコントラスト差が大きい、彩度が高い、画像中心付近に大きく写るなどといった条件を満たす領域として定義されるのに対し、対象物体領域がそれらを満たさないことに起因する。したがって、図16に示すような画像集合が入力された場合、従来技術では、対象物体領域を正確に検出することができない。
 2点目として、これもまた従来の弱教師有り物体検出技術における、「入力された画像集合中の画像ペアには対象物体領域以外に類似した領域は含まれない」という仮定が、しばしば満たされないという点が挙げられる。
 例えば、図17に示す画像ペアにおいて、対象物体領域である「AA生命」の領域は当然互いに類似している(図17において、実線の矢印で接続された実線の楕円で示す領域)。しかし、対象物体領域以外にも、画像上での見え方が共通した領域が数多く含まれていることが分かる(例えば図17において、破線の矢印で接続された破線の楕円で示す領域)。画像上での見え方が共通した領域は容易に対応付き、当然類似した画像で再構成もし易いため、従来技術では、これらの「対象物体領域ではないが、画像上での見え方が共通した領域」も多く検出されることになる。これにより、従来技術では、対象物体領域を正確に検出することができない。
 このように、従来技術の弱教師有り物体検出技術では、対象物体領域の顕著性が低く、また対象物体領域以外の、画像上での見え方が共通した領域を含む画像が入力に含まれていた場合、対象物体領域を正確に検出することができないという問題がある。
 本発明は、上記の事情に鑑みてなされたもので、検出対象の物体が画像中で顕著でなく、また検出対象の物体以外の、画像上での見え方が共通した領域を含む画像が入力に含まれていても、検出対象の物体を示す領域を精度良く検出することができる物体検出装置、方法、及びプログラムを提供することを目的とする。
 上記目的を達成するために、本発明に係る物体検出装置は、入力された画像集合に含まれる各画像から、特徴点の局所特徴を抽出する局所特徴抽出部と、前記画像集合に含まれる画像から選択した画像ペア毎に、前記画像ペアを構成する画像間において、前記局所特徴抽出部により抽出された局所特徴が類似する特徴点ペアの集合であって、かつ、幾何的に類似する特徴点ペアの集合からなる共通パターンを抽出する画像ペア共通パターン抽出部と、前記画像ペア共通パターン抽出部により抽出された共通パターンのうち、前記画像集合に遍在する共通パターンに基づく領域を、前記画像集合に含まれる各画像における検出対象の物体を示す領域として検出する領域検出部と、を含んで構成されている。
 本発明に係る物体検出装置によれば、局所特徴抽出部が、入力された画像集合に含まれる各画像から、特徴点の局所特徴を抽出し、画像ペア共通パターン抽出部が、画像集合に含まれる画像から選択した画像ペア毎に、画像ペアを構成する画像間において、局所特徴抽出部により抽出された局所特徴が類似する特徴点ペアの集合であって、かつ、幾何的に類似する特徴点ペアの集合からなる共通パターンを抽出する。このように、検出する領域の位置、サイズ、コントラスト等に何ら仮定をおくことなく共通パターンを抽出するため、顕著性の条件を満たさない領域であっても、検出対象の領域の候補として、精度よく抽出することができる。
 また、領域検出部が、画像ペア共通パターン抽出部により抽出された共通パターンのうち、画像集合に遍在する共通パターンに基づく領域を、画像集合に含まれる各画像における検出対象の物体を示す領域として検出する。これにより、入力された画像集合中の特定の画像ペアに含まれうる、対象外の共通パターンを、検出対象の領域の候補から除外することができる。
 すなわち、本発明に係る物体検出装置によれば、検出対象の物体が画像中で顕著でなく、また検出対象の物体以外の、画像上での見え方が共通した領域を含む画像が入力に含まれていても、検出対象の物体を示す領域を精度良く検出することができる。
 また、本発明に係る物体検出装置において、前記画像ペア共通パターン抽出部は、前記画像集合から画像ペアを選択する画像ペア選択部と、前記画像ペア選択部で選択された各画像ペアについて、前記局所特徴抽出部により抽出された局所特徴が類似する特徴点同士を、特徴点ペアとして暫定的に対応付ける暫定対応付け部と、前記暫定対応付け部で対応付けられた特徴点ペアをノードとし、幾何的に一貫性があることを示す条件を満たす前記特徴点ペアに対応するノード間をエッジで接続した対応グラフを構築する対応グラフ構築部と、前記対応グラフ構築部により構築された対応グラフから、同一の共通パターンを構成する特徴点ペア集合に対応するノード集合のクラスタを抽出する対応グラフクラスタリング部と、前記対応グラフクラスタリング部で抽出された各クラスタに対応する画像上の各領域を、前記領域間の空間的な重複度に基づいて統合した領域を、前記共通パターンとして抽出するクラスタ統合部と、を含んで構成することができる。
 また、本発明に係る物体検出装置において、前記対応グラフ構築部は、前記幾何的に一貫性があることを示す条件を満たすか否かを、前記暫定対応付け部で対応付けられた特徴点ペアに含まれる特徴点の局所特徴を用いて判定することができる。特徴点の局所特徴、具体的には、特徴点の位置及び属性(スケール及びオリエンテーション)を用いることで、幾何的な一貫性を適切に判定することができる。
 また、本発明に係る物体検出装置において、前記対応グラフクラスタリング部は、クラスタに含まれる全てのノードに対応する特徴点ペアについて、前記特徴点ペアが共通の特徴点から構成されていないクラスタを抽出する。これにより、共通パターンを構成する特徴点ペアとして不適切な特徴点ペアを除外することができる。
 また、本発明に係る物体検出装置において、前記領域検出部は、前記画像ペア共通パターン抽出部で抽出された各共通パターンをノードとし、前記画像集合に含まれる画像内、及び画像間で共通する共通パターンに対応するノード間をエッジで接続し、かつ、共通パターンが抽出された画像の識別情報を、対応する各ノードに付与した共通パターングラフを構築する共通パターングラフ構築部と、前記共通パターングラフ構築部で構築された前記共通パターングラフに含まれるパスのうち、前記画像集合に含まれる全画像の識別情報集合に対する、前記パスに含まれる各ノードに付与された前記画像の識別情報集合の網羅度が高いパスに対応する共通パターンを、遍在共通パターンとして選択する遍在共通パターン選択部と、前記遍在共通パターン選択部で選択された遍在共通パターンを、前記遍在共通パターンに対応するパスの共通性、及び前記画像における前記遍在共通パターンの空間的な重複度の少なくとも一方に基づいて各画像内で統合した領域を、前記検出対象の物体を示す領域として検出する遍在共通パターン統合部と、を含んで構成することができる。
 また、本発明に係る物体検出装置において、前記領域検出部は、前記遍在共通パターンを示す領域の周辺画素の情報に基づいて、前記遍在共通パターンを示す領域の境界を修正する検出領域修正部を更に含んで構成することができる。これにより、より適切に検出対象の領域を検出することができる。
 また、本発明に係る物体検出方法は、局所特徴抽出部が、入力された画像集合に含まれる各画像から、特徴点の局所特徴を抽出し、画像ペア共通パターン抽出部が、前記画像集合に含まれる画像から選択した画像ペア毎に、前記画像ペアを構成する画像間において、前記局所特徴抽出部により抽出された局所特徴が類似する特徴点ペアの集合であって、かつ、幾何的に類似する特徴点ペアの集合からなる共通パターンを抽出し、領域検出部が、前記画像ペア共通パターン抽出部により抽出された共通パターンのうち、前記画像集合に遍在する共通パターンに基づく領域を、前記画像集合に含まれる各画像における検出対象の物体を示す領域として検出する方法である。
 また、本発明に係る物体検出プログラムは、コンピュータを、上記の物体検出装置を構成する各部として機能させるためのプログラムである。
 以上説明したように、本発明に係る物体検出装置、方法、及びプログラムによれば、検出対象の物体が画像中で顕著でなく、また検出対象の物体以外の、画像上での見え方が共通した領域を含む画像が入力に含まれていても、検出対象の物体を示す領域を精度良く検出することができる。
画像集合の一例を概略的に示す図である。 本実施形態に係る物体検出装置の機能ブロック図である。 共通パターンの抽出を説明するための図である。 共通パターンの抽出を説明するための図である。 対応グラフの構築を説明するための図である。 対応グラフのクラスタリングを説明するための図である。 画像ペア共通パターン抽出部により抽出された共通パターンの一例を概略的に示す図である。 遍在共通パターンの選択を説明するための図である。 共通パターングラフの構築を説明するための図である。 対象物体領域の修正を説明するための図である。 対象物体領域の検出結果の一例を概略的に示す図である。 本実施形態に係る物体検出処理の一例を示すフローチャートである。 画像ペア共通パターン抽出処理の一例を示すフローチャートである。 対応グラフクラスタリング処理の一例を示すフローチャートである。 領域検出処理の一例を示すフローチャートである。 顕著性が高い領域を対象物体領域として検出する場合の問題点を説明するための図である。 画像ペア間の共通パターンを対象物体領域として検出する場合の問題点を説明するための図である。
 以下、図面を参照して、本発明を実施するための形態の一例について詳細に説明する。
 本実施形態に係る物体検出装置には、同一の物体を示すラベルが付与された画像集合が入力される。図1に、物体検出装置に入力される画像集合の一例を概略的に示す。本実施形態では、テレビ映像に含まれる「AA生命」というロゴを対象物体領域とする場合について説明する。入力された画像集合に含まれる各画像には、「AA生命」のラベルが付与されている。なお、入力される画像集合の一部に、実際には検出対象の物体を全く含まない画像、すなわち、「AA生命」のラベルが付与されていない画像が混在していてもよい。
 また、物体検出装置は、入力された画像集合に含まれる各画像から、ラベルが示す物体に対応する領域(「AA生命」というロゴの領域)を検出し、検出した領域の位置を示す対象物体領域情報を出力する。
 本実施形態に係る物体検出装置は、CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、及びHDD(Hard Disk Drive)等を備えたコンピュータとして構成される。ROMには、本実施形態に係る物体検出プログラムが記憶される。なお、物体検出プログラムは、HDDに記憶されてもよい。
 また、物体検出プログラムは、例えば、物体検出装置に予めインストールされていてもよい。この物体検出プログラムは、不揮発性の記憶媒体に記憶して、又は、ネットワークを介して配布して、物体検出装置に適宜インストールすることで実現してもよい。なお、不揮発性の記憶媒体の例としては、CD-ROM(Compact Disc Read Only Memory)、光磁気ディスク、DVD-ROM(Digital Versatile Disc Read Only Memory)、フラッシュメモリ、メモリカード等が挙げられる。
 CPUは、ROMに記憶された物体検出プログラムを読み込んで実行することにより、後述する物体検出装置の各機能部として機能する。
 図2に示すように、本実施形態に係る物体検出装置10は、機能的には、局所特徴抽出部20と、画像ペア共通パターン抽出部30と、領域検出部50とを含む。
 局所特徴抽出部20は、入力された画像集合に含まれる各画像から局所特徴を抽出する。ここで、局所特徴は、特徴点pの画像中の位置(x,y)と、特徴点pの属性(スケールs及びオリエンテーションθ)と、特徴点pの位置及び属性から定義される、下記に示すパッチの特徴記述dから構成されるものとする。なお、Nは特徴記述子の次元である。
Figure JPOXMLDOC01-appb-M000001
 局所特徴の抽出は、特徴点検出及び特徴記述から構成される。特徴点は、一つの画像から任意の数が検出される。特徴点検出は任意の公知の技術を用いることが可能であり、例えば、参考文献1に開示されているDoG、Harris-Laplace、Hessian-Affine、Hessian-Hessian、Hessian Laplace、Harris Laplace等を用いることができる。これらの方法を複数同時に用いてもよい。この場合、異なる方法からほぼ同一の特徴点が検出されることがあるため、特徴点の位置や属性に基づいて冗長な特徴点は除外することが望ましい。
 また特徴記述の方法も任意であり、SIFTやSURF、参考文献2に開示されているSpread-Out Descriptor、あるいはパッチを構成する全ピクセルをベクトル化して用いてもよい。得られた特徴記述には、例えば、L2正規化等の正規化処理を施してもよい。
  参考文献1:K. Mikolajczyk et al., "A Comparison of Affine Region Detectors", in IJCV, 2005.
  参考文献2:X. Zhang et al., "Learning Spread-out Local Feature Descriptors", in ICCV, 2017.
 画像ペア共通パターン抽出部30は、図3に示すように、入力された画像集合から選択された一つ以上の画像ペア毎に、画像上での見え方が、画像ペアを構成する画像間で共通しているパターン(以下、「共通パターン」という)として、局所特徴抽出部20で抽出された局所特徴が類似する特徴点ペアの集合であって、幾何的に類似する特徴点ペアの集合からなる共通パターンを抽出する。
 より詳細には、画像ペア共通パターン抽出部30は、画像ペア選択部32と、暫定対応付け部34と、対応グラフ構築部36と、対応グラフクラスタリング部38と、クラスタ統合部40とを含んだ構成で表すことができる。
 画像ペア選択部32は、入力された画像集合から一つ以上の画像ペアを選択する。画像ペアの選択方法は任意であり、画像ペア選択部32は、例えば全ての画像ペアの組み合わせを選択したり、その中から所定の数のペアをランダムに選択したりすることができる。また、画像ペア選択部32は、各画像から抽出された任意の特徴を比較し、各画像をノードとし、特に類似したノード(すなわち画像)間をエッジで接続した無向グラフを構築した上で、グラフに含まれる各エッジの両端のノードに対応する画像ペアを選択することができる。
 また、画像ペア選択部32は、局所特徴抽出部20で抽出された局所特徴を活用して、画像ペアを選択してもよい。この場合の選択方法として、例えば、一方の画像中のある特徴点に最も類似した他方の画像中の特徴点間の類似度が、2番目に類似した特徴点の類似度よりも十分に高い場合のみ対応付けを行うRatio Test、互いに最も類似している特徴点ペアである場合のみ対応付けを行うCross Check、特徴点間の類似度又は距離が所定の条件(閾値)を満たす特徴点ペアの数を類似度として用いる方法等を適用することができる。また、画像ペア選択部32は、各画像から抽出された局所特徴を、参考文献3で開示されている方法で統合し、得られたベクトル間の距離を用いて、画像ペアを選択してもよい。
  参考文献3:H. Jegou et al., "Aggregating Local Descriptors into a Compact Image Representation", in CVPR, 2010.
 画像ペア選択部32は、画像ペアの選択結果を示す情報を、暫定対応付け部34に受け渡す。画像ペアの選択結果を示す情報は、例えば、画像ペアを構成する各画像の識別情報である画像idの組とすることができる。以下では、画像idがxの画像を「画像x」と表記する。なお、後述する暫定対応付け部34、対応グラフ構築部36、及び対応グラフクラスタリング部38の各々の処理は、画像ペアの各々に対して独立に実施される。
 暫定対応付け部34は、画像ペア選択部32から受け渡された選択結果が示す各画像ペアについて、局所特徴抽出部20により抽出された局所特徴が類似する特徴点同士を、暫定的に対応付ける。以下では、暫定的に対応付けられた特徴点のペアを「暫定対応ペア」という。特徴点同士を対応付ける方法は任意であり、例えば上述したRatio Test、Cross Check、特徴点ペアの類似度又は距離に対する閾値処理等の方法を用いることができる。
 図4に、暫定対応ペアの一例を示す。図4では、上段に示す画像ペアの各々について、中段の図に示すように、画像間で局所特徴が類似する特徴点間を線で結ぶことにより、暫定対応ペアを表している。
 暫定対応付け部34は、暫定対応ペアの情報を、対応グラフ構築部36へ受け渡す。暫定対応ペアの情報には、暫定対応ペアを構成する各特徴点の位置(x,y)及び属性(スケールs及びオリエンテーションθ)が含まれる。
 対応グラフ構築部36は、暫定対応付け部34から受け渡された暫定対応ペアの情報が示す暫定対応ペアをノードとし、幾何的に一貫性があることを示す条件を満たす暫定対応ペアに対応するノード間をエッジで接続した対応グラフを構築する。
 例えば、対応グラフ構築部36は、図5に示すように、画像1の特徴点pと画像2の特徴点qとで構成された暫定対応ペア{p,q}に対応するノードv、及び画像1の特徴点p’と画像2の特徴点q’とで構成された暫定対応ペア{p’,q’}に対応するノードvを生成する。そして、対応グラフ構築部36は、暫定対応ペア{p,q}と、暫定対応ペア{p’,q’}とが、幾何的に一貫性があることを示す条件を満たす場合に、ノードvとノードvとの間をエッジで接続する。
 ここで、2つの暫定対応ペアが幾何的に一貫性があることを示す条件を満たすか否かの判定は、暫定対応ペアを構成する各特徴点の位置若しくは属性、又はその両方を用いて行う。この判定の実現方法は任意である。以下に、2つの暫定対応ペアが幾何的に一貫性があることを示す条件について、5つの例を示す。
(i)距離の一貫性
 同一の物体上の特徴点に対応する実際の位置は、空間的に近くに存在すると考えられる。これは、同一の物体を示す画像上のパターンを構成する特徴点同士は画像中で空間的に近い距離に位置すると言い換えることができる。そこで、例えば、画像ペアを構成する各画像中の特徴点集合について、各特徴点の位置に関するk近傍無向グラフを事前に構築しておき(kは所定のパラメータ)、2つの暫定対応ペアを構成する特徴点の各々のうち、同一の画像上に存在する特徴点同士(図5の例では、pとp’、及びqとq’)が、構築したk近傍無向グラフの中で接続されている場合は、2つの暫定対応ペアが距離の一貫性を満たすと判定し、「1」を出力する。一方、同一の画像上に存在するいずれかの特徴点同士が、構築したk近傍無向グラフの中で接続されていない場合には、2つの暫定対応ペアが距離の一貫性を満たさないと判定し、「0」を出力する。
(ii)特徴点と共通パターンとのスケール比の一貫性
 2つの暫定対応ペアを構成する特徴点がある共通パターンを構成すると仮定すると、2つの暫定対応ペアを構成する特徴点のうち、同一の画像上の特徴点間の距離から、各画像におけるその共通パターンのスケールを推定することができる。推定された共通パターンのスケールと各特徴点の属性に含まれるスケールとの比は、2つの暫定対応ペアを構成する特徴点間で一貫性があると考えられる。この一貫性を満たすか否かは、例えば下記(1)式により判定することができる。
Figure JPOXMLDOC01-appb-M000002
 (1)式において、τはパラメータ、sは特徴点nのスケール、lnn’は同一の画像上の特徴点nと特徴点n’との距離を表す。[X]は条件Xが満たされる場合に1を出力し、満たされない場合に0を出力する関数である。
(iii)特徴点と共通パターンとの相対的なオリエンテーションの一貫性
 (ii)の場合と同様に、2つの暫定対応ペアを構成する特徴点がある共通パターンを構成すると仮定すると、2つの暫定対応ペアを構成する特徴点のうち、同一の画像上の特徴点間の位置関係から、各画像におけるその共通パターンのオリエンテーションを推定することができる。推定された共通パターンのオリエンテーションと、各特徴点の属性に含まれるオリエンテーションとがなす相対的なオリエンテーションとは、2つの暫定対応ペアを構成する特徴点間で一貫性があると考えられる。この一貫性を満たすか否かは、例えば下記(2)式により判定することができる。
Figure JPOXMLDOC01-appb-M000003
 (2)式において、τθはパラメータ、θは特徴点nのオリエンテーションである。
Figure JPOXMLDOC01-appb-M000004
(iv)パターンのスケールの一貫性
 検出対象の物体によっては、画像中に出現する、その物体を示すパターンのスケールが一定である場合がある。この一貫性を満たすか否かは、例えば下記(3)式により判定することができる。
Figure JPOXMLDOC01-appb-M000005
 (3)式において、τはパラメータである。
(v)パターンの向きの一貫性
 (iv)の場合と同様に、検出対象の物体によっては、画像中に出現する、その物体を示すパターンの向きが一定である場合がある。この一貫性を満たすか否かは、例えば下記(4)式により判定することができる。
Figure JPOXMLDOC01-appb-M000006
 (4)式において、τはパラメータである。
 対応グラフ構築部36は、例えば、上記の(i)-(v)の全ての一貫性の条件について1を出力する暫定対応ペアに対応するノード間をエッジで接続することにより、対応グラフを構築することができる。なお、上記の(i)-(v)のいずれか1つの一貫性の条件について1を出力する場合や、所定個(例えば3個)以上の一貫性の条件について1を出力する場合に、ノード間をエッジで接続するようにしてもよい。
 対応グラフ構築部36は、構築した対応グラフを、対応グラフクラスタリング部38に受け渡す。
 図6に示すように、対応グラフ構築部36で構築された対応グラフにおいて、同一の共通パターンを構成する特徴点同士の暫定対応ペア集合に対応するノード間は、互いにエッジで接続されており、クラスタを形成していると考えられる。
 そこで、対応グラフクラスタリング部38は、対応グラフ構築部36から受け渡された対応グラフから、上記のようなクラスタを抽出する。抽出されるクラスタの数は任意である。ここで、抽出するクラスタは、クラスタに含まれる全ての暫定対応ペアについて、暫定対応ペアが共通の特徴点から構成されていないようなクラスタを抽出するものとする。この条件は、画像中のある特徴点が、複数の暫定対応ペアに含まれうる一方で、ある画像中の一つの特徴点が他方の画像中の複数の特徴点と対応付くことは物理的にあり得ないことを鑑みると、当然の仮定であると言える。
 クラスタリングの方法としては、上記を満たすクラスタリング方法であれば、任意の方法を用いることが可能である。対応グラフクラスタリング部38は、例えば、下記(5)式を満たすクラスタを、対応グラフのクラスタリング処理(図14、詳細は後述)に示すアルゴリズムによって抽出するといった方法を用いることができる。
Figure JPOXMLDOC01-appb-M000007
 (5)式において、δSは、ノード集合Sと、グラフGとSとの差集合との間を接続するエッジの和であり、vol(S)は、ノード集合S中のノードの次数和である。
 対応グラフクラスタリング部38は、抽出したクラスタの情報を、クラスタ統合部40へ受け渡す。クラスタの情報には、クラスタに含まれるノード(暫定対応ペア)の情報が含まれる。
 図4に、クラスタリングされた暫定対応ペアの一例を示す。図4では、中段に示す暫定対応ペアについて、構築された対応グラフから抽出されたクラスタに含まれるノードに対応する暫定対応ペア間を線で結んで表している。なお、図4の例では、抽出されたクラスタ毎に、そのクラスタに含まれる暫定対応ペアを示す線の色を異ならせて表している。
 対応グラフクラスタリング部38で抽出されたクラスタに含まれるノードに対応する暫定対応ペアを構成する特徴点集合が示すパターン(領域)は、互いに重複し合ったものが複数抽出される場合があり、この重複しあったパターンは、1つの物体に対応するパターンを形成している可能性が高い。
 そこで、クラスタ統合部40は、対応グラフクラスタリング部38から受け渡されたクラスタの情報の各々が示す各パターンのうち、空間的な重複度が高いものを一つにまとめる。これを実現する方法は任意である。例えば、クラスタに含まれるノードに対応する暫定対応ペアを構成する特徴点集合の凸包として定義される領域毎にその重複度をJaccard類似度で評価し、所定の閾値以上の領域は一つにまとめるといった方法を用いることができる。
 クラスタ統合部40は、統合した領域の情報を、共通パターンを示す情報として、領域検出部50へ受け渡す。
 画像ペア共通パターン抽出部30により抽出された共通パターンは、対象物体に関する事前知識を何ら用いずに抽出されたものであるため、図7に示すように、中には対象物体の一部のみを捉えていたり、検出対象ではない共通パターンを含んでいたりすることがある。なお、図7では、他の部分より画素値が高い(薄い)部分が、画像ペア共通パターン抽出部30により抽出された共通パターンを表している。
 そこで、領域検出部50は、図8に示すように、画像ペア共通パターン抽出部30により抽出された共通パターンのうち、画像集合に遍在する共通パターン(以下、「遍在共通パターン」という)に基づく領域を、対象物体領域として検出する。
 より詳細には、領域検出部50は、共通パターングラフ構築部52と、遍在共通パターン選択部54と、遍在共通パターン統合部56と、検出領域修正部58とを含んだ構成で表すことができる。
 共通パターングラフ構築部52は、画像ペア共通パターン抽出部30で抽出された各共通パターンをノードとし、画像集合に含まれる画像内、及び画像間で共通する共通パターンに対応するノード間をエッジで接続した共通パターングラフを構築する。
 具体的には、共通パターングラフ構築部52は、図9に示すように、各画像ペアを構成する各画像から抽出された共通パターンに対応するノードを生成し、共通パターンが抽出された画像の画像idを、対応するノードに付与する。図9の例では、ノード内の数字が、画像idを表している。
 共通パターングラフ構築部52は、画像ペア共通パターン抽出部30で、画像ペア間の共通パターンとして抽出されている共通パターンに対応するノード間をエッジで接続する。図9の例では、画像1と画像2とが画像ペアとして選択されている際に、画像1から抽出された共通パターンと、画像2から抽出された共通パターンとに対応するノード間をエッジで接続した例を示している(図9中のA)。同様に、画像1と画像3とが画像ペアとして選択されている際に、画像1から抽出された共通パターンと、画像3から抽出された共通パターンとに対応するノード間をエッジで接続した例を示している(図9中のB)。
 また、共通パターングラフ構築部52は、同一の画像が異なる画像ペアとして選択された際にそれぞれの画像ペアにおいて抽出された共通パターンであって、画像内での共通パターンの重複度が所定値以上の場合、その共通パターンに対応するノード間をエッジで接続する。画像内における共通パターンの重複度を算出する方法は任意であり、例えば共通パターンに対応するバイナリマスク間のJaccard係数によって算出することができる。図9の例では、画像1と画像2とが画像ペアとして選択されている際に、画像1から抽出された共通パターンと、画像1と画像3とが画像ペアとして選択されている際に、画像1から抽出された共通パターンとに対応するノード間をエッジで接続した例を示している(図9中のC)。
 共通パターングラフ構築部52は、構築した共通パターングラフを遍在共通パターン選択部54に受け渡す。
 遍在共通パターン選択部54は、共通パターングラフ構築部52から受け渡された共通パターングラフから、任意のパスを一つ以上検出し、検出したパスを構成するノード集合に対応する画像id集合が、入力された画像集合の全画像idを網羅する度合を評価することで、多くの画像に「遍在」する共通パターンを選択する。共通パターングラフからパスを検出する方法は任意であり、例えば、ノードをランダムに一つ以上選択し、その各ノードを開始ノードとして深さ優先探索や幅優先探索を実行することにより、パスを検出することができる。
 これにより、例えば、図8に示すように、画像集合全体に遍在している「AA」という共通パターンと、「生命」という共通パターンが、遍在共通パターンとして選択される。一方、図8の2段目に示す画像ペアに含まれる共通パターン(画面左上の時刻表示、及び左下のキャラクターの部分)は、画像集合全体に対して遍在していないため、遍在共通パターンとして選択されない。
 遍在共通パターン選択部54は、選択した遍在共通パターンの情報を、遍在共通パターン統合部56へ受け渡す。
 遍在共通パターン統合部56は、遍在共通パターン選択部54から受け渡された遍在共通パターンを各画像内で統合することで、対象物体領域を特定する。遍在共通パターンを統合する方法は任意であり、例えば、遍在共通パターン統合部56は、2つの遍在共通パターンの各々について、遍在共通パターン選択部54で得られたパスのペアが、共通パターングラフにおいて、全く同一の部分集合で共起していた場合、その2つの遍在共通パターンを全て含むような最小外接矩形を、対象物体領域として特定することができる。また、遍在共通パターン統合部56は、同一画像中での遍在共通パターンの重複性を考慮して、遍在共通パターンを統合してもよい。
 遍在共通パターン統合部56は、特定した対象物体領域の情報を、検出領域修正部58へ受け渡す。
 遍在共通パターン統合部56で特定された領域は、特徴点集合の位置に基づいて推定されたものであるため、必ずしも物体の境界を正確に捉えているとは限らない。
 そこで、検出領域修正部58は、図10に示すように、遍在共通パターン統合部56から受け渡された対象物体領域を、画像から抽出される境界線情報を用いて修正する。修正する方法は任意であり、例えば、参考文献4で開示されているような、画像から検出されたエッジを極力跨がないような領域へ修正する方法を用いることができる。
  参考文献4:C. L. Zitnick et al., "Edge Boxes: Locating Object Proposals from Edges", in ECCV, 2014.
 検出領域修正部58は、修正した対象物体領域の位置情報を示す対象物体領域情報を出力する。対象物体領域情報は、例えば、対象物体領域を示す矩形領域の四隅の座標情報とすることができる。検出領域修正部58は、図11に示すように、入力された画像集合に含まれる各画像に対して、対象物体領域情報が示す矩形を重畳して出力することができる。
 次に、図12を参照して、本実施形態に係る物体検出装置10の作用を説明する。なお、図12は、本実施形態に係る物体検出プログラムによる処理の流れの一例を示すフローチャートである。
 図12のステップS20で、局所特徴抽出部20が、入力された画像集合に含まれる各画像から局所特徴を抽出する。
 次に、ステップS30で、図13に示す画像ペア共通パターン抽出処理が実行される。
 図13のステップS32で、画像ペア選択部32が、入力された画像集合から一つの画像ペアを選択する。
 次に、ステップS34で、暫定対応付け部34が、上記ステップS32で選択された画像ペアについて、上記ステップS20で抽出された局所特徴が類似する特徴点同士を、暫定的に対応付ける。
 次に、ステップS36で、対応グラフ構築部36が、上記ステップS34で暫定的に対応付けられた暫定対応ペアをノードとし、幾何的に一貫性があることを示す条件を満たす暫定対応ペアに対応するノード間をエッジで接続した対応グラフを構築する。
 次に、ステップS38で、図14に示す対応グラフクラスタリング処理が実行される。
 図14のステップS382で、対応グラフクラスタリング部38が、上記ステップS36で構築された対応グラフ中のノードのうち、最も次数の高いノードを選択する。
 次に、ステップS384で、対応グラフクラスタリング部38が、選択したノードを開始ノードとして、ページランクアルゴリズム等を用いて周辺ノードをランキングする。例えば、参考文献5で開示されている近似ページランクアルゴリズムを用いることで、グラフのサイズに依存しない計算コストで周辺ノードをランキングすることができる。
  参考文献5:R. Andersen et al., "Local Graph Partitioning using PageRank Vectors", in FOCS, 2006.
 次に、ステップS386で、対応グラフクラスタリング部38が、上記ステップS384で得られたランキング順に、ノードをクラスタSに挿入する。対応グラフクラスタリング部38は、ノードをクラスタSに挿入する度に、δS/vol(S)を計算し、所定の記憶領域に記憶しておく。このとき、新たに挿入対象となっているノードに対応する暫定対応ペアを構成する特徴点が、既に選択されたノードに対応する暫定対応ペアを構成する特徴点として使用されていた場合は、そのノードはクラスタに含めない。
 次に、ステップS388で、対応グラフクラスタリング部38が、上記ステップS386で計算したδS/vol(S)が最小となるときまでにクラスタSに挿入されたノード集合を、上記ステップS382で選択された開始ノードに対応するクラスタとして記憶する。
 次に、ステップS390で、対応グラフクラスタリング部38が、上記ステップS388で得られたクラスタSを構成するノードを対応グラフから削除する。
 次に、ステップS392で、対応グラフクラスタリング部38が、対応グラフにノードが存在しなくなったか否かを判定する。まだノードが存在する場合には、ステップS382に戻る。ノードが存在しなくなった場合には、対応グラフクラスタリング処理を終了し、画像ペア共通パターン抽出処理(図13)に戻る。
 なお、上記ステップS388で得られたクラスタを、任意の手法でクレンジングする処理を追加してもよい。例えば、クラスタを構成するノード数が少ないものは、偶発的に類似したものである可能性が少なくないため、クラスタ内のノード数が所定の閾値以下であるものは棄却するといった処理を加えることができる。また、パターンを構成する特徴点集合で定義される凸包領域が小さい場合も、偶発的に類似したものである可能性が少なくないため、凸包領域の面積を閾値処理することで、閾値以下のクラスタは棄却するといった処理を加えてもよい。
 次に、図13のステップS40で、上記ステップS38でクラスタリングされた各クラスタに対応する各共通パターンのうち、空間的な重複度が高いもの統合する。
 次に、ステップS42で、画像ペア選択部32が、入力された画像集合において、全ての画像ペアを選択したか否かを判定する。未選択の画像ペアがある場合には、処理はステップS32に戻り、全ての画像ペアを選択済みの場合には、画像ペア共通パターン抽出処理を終了し、物体検出処理(図12)に戻る。
 次に、図12のステップS50で、図15に示す領域検出処理が実行される。
 図15のステップS52で、共通パターングラフ構築部52は、上記ステップS30で抽出された各共通パターンをノードとし、画像集合に含まれる画像内、及び画像間で共通する共通パターンに対応するノード間をエッジで接続した共通パターングラフを構築する。
 次に、ステップS54で、遍在共通パターン選択部54が、上記ステップS52で構築された共通パターングラフから、任意のパスを一つ検出する。
 次に、ステップS56で、遍在共通パターン選択部54が、検出したパスを構成するノード集合に対応する画像id集合が、入力された画像集合の全画像idを網羅する度合を示す網羅度を算出する。
 次に、ステップS58で、遍在共通パターン選択部54が、共通パターングラフから次のパスを検出するか否かを判定する。次のパスを検出する場合には、ステップS54に戻り、パスの検出を終了する場合には、ステップS60へ移行する。
 ステップS60では、遍在共通パターン選択部54が、上記ステップS56で算出した網羅度が所定値以上のパスに対応する共通パターンを、遍在共通パターンとして選択する。
 次に、ステップS62で、遍在共通パターン統合部56が、上記ステップS60で選択された遍在共通パターンを各画像内で統合して、対象物体領域を特定する。
 次に、ステップS64で、検出領域修正部58が、上記ステップS62で特定された対象物体領域を、画像から抽出される境界線情報を用いて修正し、領域検出処理を終了して、物体検出処理(図12)に戻る。
 次に、図12のステップS70で、検出領域修正部58が、上記ステップS64で修正した対象物体領域の位置情報を示す対象物体領域情報を出力し、物体検出処理は終了する。
 以上説明したように、本実施形態に係る物体検出装置によれば、入力された画像集合中の画像ペア間で、画像上の見え方が共通する共通パターンを、対象物体領域の候補として抽出する。このように、対象物体領域の位置、サイズ、コントラスト等に何ら仮定をおくことなく共通パターンを抽出するため、従来技術で仮定されている顕著性の条件を満たさない領域であっても、対象物体領域の候補として精度良く抽出することができる。また、本実施形態に係る物体検出装置によれば、画像ペア間において抽出された共通パターンのうち、入力された画像集合において遍在する共通パターンを、対象物体領域として選択する。これにより、入力された画像集合中の特定の画像ペアに含まれうる、対象外の共通パターンを、対象物体領域の候補から除外することができる。
 すなわち、本実施形態に係る物体検出装置によれば、検出対象の物体が画像中で顕著でなく、また検出対象の物体以外の、画像上での見え方が画像ペア間で共通した領域を含む画像が入力に含まれていても、検出対象の物体を示す領域を精度良く検出することができる。
 なお、上記実施形態で説明した物体検出装置の各々の構成は、一例であり、主旨を逸脱しない範囲内において状況に応じて変更してもよい。
 また、上記実施形態で説明したプログラムの処理の流れも、一例であり、主旨を逸脱しない範囲内において不要なステップを削除したり、新たなステップを追加したり、処理順序を入れ替えたりしてもよい。
 また、上記実施形態では、プログラムを実行することにより、実施形態に係る処理がコンピュータを利用してソフトウェア構成により実現される場合について説明したが、これに限らない。実施形態は、例えば、ハードウェア構成や、ハードウェア構成とソフトウェア構成との組み合わせによって実現してもよい。
10 物体検出装置
20 局所特徴抽出部
30 画像ペア共通パターン抽出部
32 画像ペア選択部
34 暫定対応付け部
36 対応グラフ構築部
38 対応グラフクラスタリング部
40 クラスタ統合部
50 領域検出部
52 共通パターングラフ構築部
54 遍在共通パターン選択部
56 遍在共通パターン統合部
58 検出領域修正部

Claims (8)

  1.  入力された画像集合に含まれる各画像から、特徴点の局所特徴を抽出する局所特徴抽出部と、
     前記画像集合に含まれる画像から選択した画像ペア毎に、前記画像ペアを構成する画像間において、前記局所特徴抽出部により抽出された局所特徴が類似する特徴点ペアの集合であって、かつ、幾何的に類似する特徴点ペアの集合からなる共通パターンを抽出する画像ペア共通パターン抽出部と、
     前記画像ペア共通パターン抽出部により抽出された共通パターンのうち、前記画像集合に遍在する共通パターンに基づく領域を、前記画像集合に含まれる各画像における検出対象の物体を示す領域として検出する領域検出部と、
     を含む物体検出装置。
  2.  前記画像ペア共通パターン抽出部は、
      前記画像集合から画像ペアを選択する画像ペア選択部と、
      前記画像ペア選択部で選択された各画像ペアについて、前記局所特徴抽出部により抽出された局所特徴が類似する特徴点同士を、特徴点ペアとして暫定的に対応付ける暫定対応付け部と、
      前記暫定対応付け部で対応付けられた特徴点ペアをノードとし、幾何的に一貫性があることを示す条件を満たす前記特徴点ペアに対応するノード間をエッジで接続した対応グラフを構築する対応グラフ構築部と、
      前記対応グラフ構築部により構築された対応グラフから、同一の共通パターンを構成する特徴点ペア集合に対応するノード集合のクラスタを抽出する対応グラフクラスタリング部と、
      前記対応グラフクラスタリング部で抽出された各クラスタに対応する画像上の各領域を、前記領域間の空間的な重複度に基づいて統合した領域を、前記共通パターンとして抽出するクラスタ統合部と、
     を含む請求項1に記載の物体検出装置。
  3.  前記対応グラフ構築部は、前記幾何的に一貫性があることを示す条件を満たすか否かを、前記暫定対応付け部で対応付けられた特徴点ペアに含まれる特徴点の局所特徴を用いて判定する請求項2に記載の物体検出装置。
  4.  前記対応グラフクラスタリング部は、クラスタに含まれる全てのノードに対応する特徴点ペアについて、前記特徴点ペアが共通の特徴点から構成されていないクラスタを抽出する請求項2又は請求項3に記載の物体検出装置。
  5.  前記領域検出部は、
      前記画像ペア共通パターン抽出部で抽出された各共通パターンをノードとし、前記画像集合に含まれる画像内、及び画像間で共通する共通パターンに対応するノード間をエッジで接続し、かつ、共通パターンが抽出された画像の識別情報を、対応する各ノードに付与した共通パターングラフを構築する共通パターングラフ構築部と、
      前記共通パターングラフ構築部で構築された前記共通パターングラフに含まれるパスのうち、前記画像集合に含まれる全画像の識別情報集合に対する、前記パスに含まれる各ノードに付与された前記画像の識別情報集合の網羅度が高いパスに対応する共通パターンを、遍在共通パターンとして選択する遍在共通パターン選択部と、
      前記遍在共通パターン選択部で選択された遍在共通パターンを、前記遍在共通パターンに対応するパスの共通性、及び前記画像における前記遍在共通パターンの空間的な重複度の少なくとも一方に基づいて各画像内で統合した領域を、前記検出対象の物体を示す領域として検出する遍在共通パターン統合部と、
     を含む請求項1~請求項4のいずれか1項に記載の物体検出装置。
  6.  前記領域検出部は、前記遍在共通パターンを示す領域の周辺画素の情報に基づいて、前記遍在共通パターンを示す領域の境界を修正する検出領域修正部を更に含む請求項5に記載の物体検出装置。
  7.  局所特徴抽出部が、入力された画像集合に含まれる各画像から、特徴点の局所特徴を抽出し、
     画像ペア共通パターン抽出部が、前記画像集合に含まれる画像から選択した画像ペア毎に、前記画像ペアを構成する画像間において、前記局所特徴抽出部により抽出された局所特徴が類似する特徴点ペアの集合であって、かつ、幾何的に類似する特徴点ペアの集合からなる共通パターンを抽出し、
     領域検出部が、前記画像ペア共通パターン抽出部により抽出された共通パターンのうち、前記画像集合に遍在する共通パターンに基づく領域を、前記画像集合に含まれる各画像における検出対象の物体を示す領域として検出する
     物体検出方法。
  8.  コンピュータを、請求項1~請求項6のいずれか1項に記載の物体検出装置を構成する各部として機能させるための物体検出プログラム。
PCT/JP2019/018269 2018-06-11 2019-05-07 物体検出装置、方法、及びプログラム WO2019239743A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/251,172 US11594009B2 (en) 2018-06-11 2019-05-07 Object detection device, method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018110996A JP6814178B2 (ja) 2018-06-11 2018-06-11 物体検出装置、方法、及びプログラム
JP2018-110996 2018-06-11

Publications (1)

Publication Number Publication Date
WO2019239743A1 true WO2019239743A1 (ja) 2019-12-19

Family

ID=68842098

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/018269 WO2019239743A1 (ja) 2018-06-11 2019-05-07 物体検出装置、方法、及びプログラム

Country Status (3)

Country Link
US (1) US11594009B2 (ja)
JP (1) JP6814178B2 (ja)
WO (1) WO2019239743A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704480A (zh) * 2021-11-01 2021-11-26 成都我行我数科技有限公司 一种智能最小库存量单位匹配方法

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11900643B2 (en) * 2021-09-17 2024-02-13 Himax Technologies Limited Object detection method and object detection system

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007074091A (ja) * 2005-09-05 2007-03-22 Pioneer Electronic Corp テロップ検出装置及び方法並びにレコーダ
JP2016099980A (ja) * 2014-11-26 2016-05-30 日本電信電話株式会社 画像セグメンテーション方法、装置、及びプログラム
WO2017006852A1 (ja) * 2015-07-06 2017-01-12 日本電信電話株式会社 画像照合装置、画像照合方法、及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4497236B2 (ja) * 2008-08-11 2010-07-07 オムロン株式会社 検出用情報登録装置、電子機器、検出用情報登録装置の制御方法、電子機器の制御方法、検出用情報登録装置制御プログラム、電子機器の制御プログラム
JP5051174B2 (ja) * 2009-05-11 2012-10-17 富士通株式会社 帳票辞書生成装置、帳票識別装置、帳票辞書生成方法、及びプログラム
US10242293B2 (en) * 2015-08-04 2019-03-26 The Asan Foundation Method and program for computing bone age by deep neural network
US20170060986A1 (en) * 2015-08-31 2017-03-02 Shine Security Ltd. Systems and methods for detection of content of a predefined content category in a network document

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007074091A (ja) * 2005-09-05 2007-03-22 Pioneer Electronic Corp テロップ検出装置及び方法並びにレコーダ
JP2016099980A (ja) * 2014-11-26 2016-05-30 日本電信電話株式会社 画像セグメンテーション方法、装置、及びプログラム
WO2017006852A1 (ja) * 2015-07-06 2017-01-12 日本電信電話株式会社 画像照合装置、画像照合方法、及びプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113704480A (zh) * 2021-11-01 2021-11-26 成都我行我数科技有限公司 一种智能最小库存量单位匹配方法
CN113704480B (zh) * 2021-11-01 2022-01-25 成都我行我数科技有限公司 一种智能最小库存量单位匹配方法

Also Published As

Publication number Publication date
US20210209403A1 (en) 2021-07-08
US11594009B2 (en) 2023-02-28
JP2019215609A (ja) 2019-12-19
JP6814178B2 (ja) 2021-01-13

Similar Documents

Publication Publication Date Title
US20200372662A1 (en) Logo Recognition in Images and Videos
US9519660B2 (en) Information processing apparatus, clustering method, and recording medium storing clustering program
US9898686B2 (en) Object re-identification using self-dissimilarity
Ge et al. Co-saliency detection via inter and intra saliency propagation
CN107209942B (zh) 对象检测方法和图像检索系统
WO2017181892A1 (zh) 前景分割方法及装置
Jiang et al. Robust image matching via local graph structure consensus
US10007678B2 (en) Image processing apparatus, image processing method, and recording medium
Shi et al. An affine invariant approach for dense wide baseline image matching
Lee et al. Photographic composition classification and dominant geometric element detection for outdoor scenes
JP6589144B2 (ja) 姿勢推定方法および姿勢推定装置
Li et al. Example-based image colorization via automatic feature selection and fusion
Davy et al. Reducing anomaly detection in images to detection in noise
Ren et al. Saliency integration driven by similar images
WO2019239743A1 (ja) 物体検出装置、方法、及びプログラム
Oliveira et al. A bi-directional evaluation-based approach for image retargeting quality assessment
Shen et al. Gestalt rule feature points
Maigrot et al. Tampering detection and localization in images from social networks: A CBIR approach
Pang et al. Salient object detection via effective background prior and novel graph
Wang et al. Geodesic weighted Bayesian model for saliency optimization
Xu et al. Saliency detection via bi-directional propagation
Li et al. Anomaly detection based on superpixels in videos
Kalboussi et al. Object proposals for salient object segmentation in videos
Jerripothula et al. Appfuse: An appearance fusion framework for saliency cues
Zhang et al. Parametric chamfer alignment based on mesh deformation

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19820447

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19820447

Country of ref document: EP

Kind code of ref document: A1