WO2012164804A1 - 物体検出装置、物体検出方法および物体検出プログラム - Google Patents

物体検出装置、物体検出方法および物体検出プログラム Download PDF

Info

Publication number
WO2012164804A1
WO2012164804A1 PCT/JP2012/002375 JP2012002375W WO2012164804A1 WO 2012164804 A1 WO2012164804 A1 WO 2012164804A1 JP 2012002375 W JP2012002375 W JP 2012002375W WO 2012164804 A1 WO2012164804 A1 WO 2012164804A1
Authority
WO
WIPO (PCT)
Prior art keywords
video
distance
object detection
image
unit
Prior art date
Application number
PCT/JP2012/002375
Other languages
English (en)
French (fr)
Inventor
洋一 村松
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to JP2013517820A priority Critical patent/JP5877376B2/ja
Priority to CN201280001918.7A priority patent/CN102985945B/zh
Priority to EP12788099.5A priority patent/EP2717219B1/en
Priority to US13/672,002 priority patent/US9152887B2/en
Publication of WO2012164804A1 publication Critical patent/WO2012164804A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • G06V10/7515Shifting the patterns to accommodate for positional errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Definitions

  • the present invention relates to an object detection device, an object detection method, and an object detection program, and more particularly, to an object detection device, an object detection method, and an object detection program capable of detecting an object such as a pedestrian existing around a vehicle.
  • an in-vehicle camera imaging device
  • a front part or a rear part of a vehicle captures an image around the vehicle.
  • the captured video is displayed on a display installed in the driver's seat.
  • the driver can confirm the presence or absence of an object such as a pedestrian around the vehicle when the vehicle is traveling.
  • a sensor that detects a heat source and a distance is mounted separately from the in-vehicle camera.
  • the mounting of another sensor has disadvantages in terms of cost and versatility, and there is a demand for practical use of an image recognition means that detects an object only from an on-vehicle camera image.
  • the above-described object detection method based on image recognition still has a problem related to processing time.
  • image recognition since video processing is complicated and it is necessary to scan the entire video, it takes time to obtain an object detection result in one frame of video. For this reason, there has been a problem that the frame rate of the object detection process is lower than the frame rate of the camera and a delay time until an object detection result is obtained for the video.
  • the object detection device described in Patent Document 1 creates a reduced image obtained by reducing the input image, first detects roughly the presence or absence of an object on the reduced image, and displays the reduced image on the reduced image.
  • Discloses a technique for performing two-stage detection in which detection processing is performed again with an input image of the original size only when an object is detected in (1). Accordingly, scanning is performed with a reduced image size, so that the detection process can be speeded up.
  • An object of the present invention is to provide an object detection apparatus, method, and program capable of speeding up detection processing time without sacrificing detection performance while performing object detection only by image recognition. .
  • One aspect of the present invention is an object detection device that detects an object in the vicinity of a vehicle from an input image using an image around the vehicle captured from the vehicle as an input image.
  • the object detection device converts an input image into an input image.
  • the video conversion unit that converts the image features from the image to the extracted feature video, and extracts the different regions for each distance from the feature video as a video by distance, and the composite video using the video by distance
  • the first object detection process is performed to scan the synthesized video synthesized by the distance-based video extraction and synthesis unit and the distance-based video extraction and synthesis unit to obtain the position of the object detected from the synthesized video on the synthesized video.
  • a first object detection unit, and an object candidate position designation unit that obtains an object candidate position where an object may exist in the image by distance based on the position of the object detected by the first object detection unit on the composite image;
  • Object candidate A second object detection unit that performs a second object detection process for identifying a corresponding object position in the image by distance with respect to the object candidate position obtained by the position designation unit, and the object position obtained by the second object detection unit
  • an object position specifying unit for specifying an object position in the input video.
  • Another aspect of the present invention is an object detection method for detecting an object in the vicinity of a vehicle from an input image using an image around the vehicle photographed from the vehicle as an input image, and the object detection method uses an input image as an input image.
  • the video conversion step that converts the image features into the feature video extracted from the image, the different video for each distance is extracted from the feature video as the distance video, and the composite video using the distance video.
  • the first object detection processing is performed to obtain the position of the object detected from the synthesized video by scanning the synthesized video synthesized by the distance-based video extracting and synthesizing step and the distance-based video extracting and synthesizing step.
  • an object candidate position where the object may exist in the image by distance is obtained.
  • Another aspect of the present invention is an object detection program for detecting an object in the vicinity of a vehicle from an input image using an image around the vehicle photographed from the vehicle as an input image.
  • the object detection program sends an input image to a computer.
  • Video conversion function that converts image features from input video into feature video, and distance-based video extraction that extracts and synthesizes different areas for each distance from feature video based on distance from vehicle
  • the first object detection function that performs the first object detection process by scanning the composite video that is synthesized by the synthesis function and the distance-based video extraction and synthesis function, and the position on the composite video where the object is detected by the first object detection function
  • a second object detection function for performing object detection processing and specifying an object position in a video according to distance, and an object position specifying function for specifying an object position in an input video based on the object position obtained by
  • FIG. 1 is a block diagram showing a configuration of an object detection apparatus according to an embodiment of the present invention.
  • 2 (a) is an explanatory diagram showing an example of a pedestrian having a height of 200cm at a distance Am point.
  • FIG. 2 (b) is an explanatory diagram showing an example of a pedestrian having a height of 200cm at a point of distance Bm.
  • (C) is an explanatory diagram showing an example in which a pedestrian having a height of 200 cm is present at a distance Cm.
  • FIG. 2D is an explanatory diagram showing an example in which a pedestrian having a height of 100 cm is present at a distance Am.
  • FIG. 3A is an explanatory diagram showing an imaging region when a pedestrian having a height of 200 cm exists at a distance Am point.
  • FIG. 3B is an imaging region when a pedestrian having a height of 200 cm exists at a point of distance Bm.
  • 3 (c) is an explanatory diagram showing an imaging region when a pedestrian having a height of 200 cm is present at a distance Cm.
  • FIG. 3 (d) is an explanatory diagram showing a pedestrian having a height of 100 cm at a distance Am.
  • FIG. 3 (e) is an explanatory diagram showing an imaging region when a pedestrian having a height of 100 cm is present at a distance Bm.
  • FIG. 3 (f) is an explanatory diagram showing a pedestrian having a height of 100 cm. Explanatory drawing which shows the imaging region when existing at a point
  • FIG. 4 is an explanatory diagram for comparing imaging regions when a pedestrian having a height of 200 cm and 100 cm exists at a point of a distance
  • Am. 5 (a) is an explanatory diagram showing an example of an Am video corresponding to the Am point.
  • FIG. 5 (b) is an explanatory diagram showing an example of a Bm video corresponding to the Bm point.
  • FIG. 5 (c) is a diagram showing the Cm point.
  • FIG. 6A is an explanatory diagram showing an example before and after the Am video is scaled
  • FIG. 6B is an explanatory diagram showing an example before and after the Bm video is scaled.
  • FIG. 7 is an explanatory diagram showing an example of the center alignment of the video by distance.
  • FIG. 8 is an explanatory diagram showing an example of the number of overlapping images by distance.
  • 9A is a diagram showing an example of the composite number of Am video and an image feature amount.
  • FIG. 9B is a diagram showing an example of the composite number of Bm video and an image feature amount.
  • FIG. 9C is a diagram showing Cm.
  • FIG. 10 (a) is a diagram showing an example of a composite coefficient for Am video.
  • Fig. 10 (b) is a diagram showing an example of a composite coefficient for Bm video.
  • Fig. 10 (c) is a diagram showing an example of a composite coefficient for Cm video.
  • Figure 11 (a) is a diagram showing an example of an input video
  • FIG. 11 (b) is a diagram showing an example of an Am video
  • FIG. 11 (c) is a diagram showing an example of a Bm video
  • FIG. 11 (d) is Cm.
  • Fig. 11 (e) is a diagram showing an example of a composite image.
  • FIG. 12 is an explanatory diagram showing an example of a pedestrian correctly normalized on the composite video
  • FIG. 13 (a) is an explanatory diagram showing an example of clipping from a synthesized video targeting a height of 100 cm.
  • FIG. 13 (b) is an explanatory diagram showing an example of enlarging the synthesized video after clipping.
  • FIG. 14 is a diagram illustrating an example of image feature count scanning on a composite video.
  • FIG. 15A is an explanatory diagram showing an example of the input video.
  • FIG. 15B is an explanatory diagram showing an example of the detection result obtained by performing the first part object detection process on the synthesized video.
  • FIG. An explanatory diagram showing an example of specifying an object candidate position on the Am video.
  • FIG. 15D is an explanatory diagram showing an example of specifying an object candidate position on the Bm video.
  • FIG. 15E is an object candidate on the Cm video.
  • Explanatory drawing showing an example of specifying the position 16 (a) is an explanatory diagram showing an example of an object detection result in an Am video.
  • FIG. 16 (b) is an explanatory diagram showing an example of an object detection result in a Bm video.
  • FIG. 16 (c) is an object detection in a Cm video.
  • FIG. 17A is an explanatory diagram showing an example of the extracted coordinates of the video by distance on the input video.
  • FIG. 17B is an explanatory diagram showing an example of the detected coordinates on the video by distance.
  • FIG. Is an explanatory diagram showing an example of detected coordinates on the input video
  • An object detection device is an object detection device that detects an object in the vicinity of a vehicle from an input image using an image around the vehicle captured from the vehicle as an input image, and extracts the input image and image features from the input image.
  • a video conversion unit that converts to a feature video, and a video by distance that extracts different areas as distance-based video from the feature video based on the distance from the vehicle and synthesizes a composite video using the video by distance
  • a first object detection unit that performs a first object detection process for obtaining a position on the composite image of an object detected from the composite image by scanning the composite image synthesized by the extraction and synthesis unit; ,
  • An object candidate position specifying unit for obtaining an object candidate position where an object may exist in the image according to distance based on the position of the object detected by the first object detection unit, and an object candidate position specifying unit Asked in
  • a second object detection unit that performs a second object detection process for identifying a corresponding object position in the image according to distance with respect to the object candidate
  • the video conversion unit extracts an edge feature as an image feature.
  • the input video can be converted into a video that retains only the edge features used in the object detection process.
  • the image extraction / synthesis unit for each distance changes the size of the region extracted from the feature image based on the distance from the vehicle.
  • object detection can be performed in accordance with the size of the detection target object imaged as a different size on the video depending on the distance from the vehicle.
  • the distance-by-distance video extraction / synthesizing unit scales the video extracted for each distance so that the vertical sizes of all the distance-by-distance videos are equal.
  • the distance-by-distance video extraction / synthesizing unit synthesizes the positions of the horizontal central axis and the vertical central axis of the distance-by-distance video.
  • the center position of the composite image is aligned for all the distance-based images, so that the position of the detected object can be easily grasped.
  • the size of the composite image is smaller than the total size of all the distance-based images, the object detection process can be speeded up.
  • the distance-by-distance video extraction and synthesis unit synthesizes the distance-by-distance video by ⁇ blending.
  • the synthesis coefficient it is possible to adjust the degree of influence of each distance-based video in the synthesized video.
  • the distance-by-distance video extraction / synthesis unit partially synthesizes by adjusting the ⁇ blending synthesis coefficient partially in accordance with the number of synthesized videos by distance.
  • the distance-by-distance video extraction / synthesis unit adjusts the ⁇ blending synthesis coefficient in accordance with the image feature amount included in the distance-by-distance video.
  • the vertical size of the object to be detected in the object detection process of the first object detection unit is equal to the vertical size of the composite image.
  • the first object detection unit performs the object detection process by scanning the composite image only in the horizontal direction. With this configuration, since the number of object detection scans can be reduced, the object detection process can be speeded up.
  • the first object detection unit cuts out an area in contact with the lower end of the composite video and expands the vertical size of the cut-out area so as to be equal to the vertical size of the composite video
  • a synthesized video cutout enlargement unit that generates With this configuration, it is possible to use the assumption that the lower end of the object is always in contact with the lower end of the composite video when dealing with differences in the size of the detection target object (for example, differences in pedestrian height). Since the region on the video where no object can exist is not scanned, the object detection process can be speeded up. Further, since the size of the cut out synthesized video is matched with the size of the synthesized video before being cut out, there is an advantage that it is not necessary to consider the size of the detection target object on the video in the object detection processing.
  • the first object detection unit performs object detection processing on the enlarged composite image.
  • a difference in size of the detection target object for example, a difference in pedestrian height
  • the first object detection unit performs the object detection process by scanning the enlarged composite image only in the horizontal direction.
  • the first object detection unit can adjust the detection criterion for performing object detection separately from the second object detection unit, and the object detection unit is more object-oriented than the second object detection unit. It is preferable that the detection reference is adjusted so that it can be easily determined that there is. With this configuration, the first object detection unit makes coarse detection, that is, it is easy to detect, prevents detection omission on the composite image, and the second object detection unit strictly determines that the detection object exists. , Can prevent false detection.
  • the first object detection unit performs the first object detection process only for a portion where an image feature exists on the synthesized video. With this configuration, it is not necessary to scan a portion where a detection object cannot exist, so that the detection process can be speeded up.
  • the object position specifying unit obtains the distance from the vehicle to the detected object based on the object position on the image according to distance detected by the second object detection unit.
  • An object detection method of the present invention is an object detection method for detecting an object in the vicinity of a vehicle from an input image using an image around the vehicle photographed from the vehicle as an input image, and extracting an input image and an image feature from the input image Based on the video conversion step to convert to feature video and the distance from the vehicle, a different video for each distance is extracted from the feature video as a video by distance, and the video by distance that synthesizes the composite video using the video by distance
  • a first object detection step for performing a first object detection process for obtaining a position on the composite video of an object detected from the composite video by scanning the composite video synthesized in the extraction video synthesis step and the distance-based video extraction and synthesis step; Detecting object candidate position for finding object candidate position where object may exist in video according to distance based on position of synthesized object detected in first object detection step And a second object detection step for performing a second object detection process for identifying a corresponding object position in the image by distance with respect to the object candidate position obtained in the object candidate position detection step,
  • An object detection program of the present invention is an object detection program for detecting an object near a vehicle from an input image using an image around the vehicle photographed from the vehicle as an input image, wherein the input image is imaged from the input image to a computer.
  • a video conversion function that converts images into feature video
  • a distance-based video extraction and synthesis function that extracts and synthesizes different regions for each distance from the feature video based on distance from the vehicle, and distance-specific video
  • Based on the first object detection function that scans the synthesized video synthesized by the video extraction and synthesis function and performs the first object detection process, and the position on the synthesized video where the object was detected by the first object detection function
  • An object candidate position detection function that obtains an object candidate position where an object may exist in the image, and a second object detection process for the object candidate position obtained by the object candidate position detection function
  • a second object detection function for specifying an object position in a video according to distance
  • an object position specification function for specifying an object position in an input video based
  • the detection processing time can be increased without sacrificing the detection performance, and the distance from the vehicle to the object can also be measured. It is possible to obtain an excellent effect that is possible.
  • FIG. 1 is a block diagram showing a configuration of an object detection apparatus according to an embodiment of the present invention.
  • the object detection apparatus 10 shown in the figure converts an input video input from the outside into a feature video obtained by extracting an image feature from the input video, and from the feature video for each distance based on the distance from the vehicle.
  • a distance-by-distance video extracting and synthesizing unit 30 for synthesizing a video by distance from which different areas are extracted, a first object detecting unit 40 for performing a first object detection process from the obtained synthesized video, and a result of the first object detection process
  • An object candidate position specifying unit 50 for obtaining an object candidate position where an object may exist in a distance-by-distance video
  • a second object detection unit for performing a second object detection process on the object candidate position on the distance-by-distance video 60 and an object position specifying unit 70 for specifying an object position on the input video from the detection result of the second object detecting unit.
  • the input image input from the outside is, for example, an image obtained by photographing the periphery of the vehicle with a vehicle-mounted camera attached at a predetermined angle near a license plate on the front or rear side of the vehicle.
  • the video conversion unit 20 performs video conversion processing for extracting image features on the video based on the input video.
  • the edge feature is extracted as the image feature, and the processing focusing on the edge feature is performed in the subsequent processing.
  • the target image feature in the present invention is limited to the edge feature. It is not a thing. For example, for the purpose of detecting signs and traffic lights on the road, it is effective to perform a process of extracting a specific color as an image feature.
  • Specific processing for extracting edge features includes embossing and edge extraction using a Sobel filter. However, the present invention is not limited to these processes.
  • the distance-by-distance video extraction / composition unit 30 includes a distance-by-distance video extraction unit 31, a distance-by-distance video enlargement / reduction unit 32, a center alignment unit 33, a distance-by-distance video feature amount determination unit 34, a synthesis coefficient adjustment unit 35, Part 36 is provided.
  • the distance-by-distance video extraction unit 31 has a different size for each distance in a region where the detection target object may be imaged on the video when the detection target object is located at a predetermined distance from the vehicle. , Extracted from each feature video.
  • the distance-by-distance video enlargement / reduction unit 32 enlarges or reduces the distance-by-distance video corresponding to each distance extracted by the distance-by-distance video extraction unit 31 so that the vertical size of the distance-by-distance video becomes a predetermined size.
  • the vertical sizes of all the images by distance are equal (the horizontal sizes are different).
  • the video by distance refers to the video by distance after being enlarged or reduced by the video enlargement / reduction unit 32 by distance.
  • the center position aligning unit 33 aligns the positions of the horizontal center axis and the vertical center axis of the distance-based image resized by the distance-based image enlargement / reduction unit 32 and obtains the number of composites based on the image position.
  • the number of composites is the number of superimposed images by distance.
  • the distance-by-distance video feature determination unit 34 obtains an image feature amount existing on each distance-by-distance video.
  • the synthesis coefficient adjustment unit 35 obtains a synthesis coefficient for each partial region of the video by distance based on the number of synthesis obtained by the center alignment unit 33 and the image feature quantity obtained by the video feature quantity determination unit 34 by distance.
  • the distance-by-distance video synthesis unit 36 multiplies the distance-by-distance video obtained by adjusting the center position by the center alignment unit 33 by the synthesis coefficient obtained by the synthesis coefficient adjustment unit 35 to generate a synthesized video by synthesizing all the video by distance. To do. At this time, the synthesized video is smaller than the total number of pixels of all the video by distance.
  • the first object detection unit 40 includes a composite video cutout enlargement unit 41, a composite video feature amount determination unit 42, and a composite video object detection unit 43.
  • the synthesized video cut-out enlargement unit 41 cuts out a part of the synthesized video and enlarges the video so that the cut-out synthesized video becomes equal to the vertical size before being cut out.
  • the purpose of this process is a process for dealing with a difference in the size of the object detection target (for example, a difference in pedestrian height).
  • the composite video feature amount determination unit 42 specifies a location where an image feature exists on the composite video output from the composite video cut-out enlargement unit 41.
  • the composite video object detection unit 43 performs object detection processing on only the portion where the image feature exists in the composite video feature amount determination unit 42 on the composite video output from the video cutout enlargement / magnification unit 41. Since there is no detection target object in the first place where there is no image feature, it can be expected to speed up the object detection process by excluding it in advance.
  • the synthesized image in the first object detection unit and the subsequent stage refers to a synthesized image after cutting and enlargement.
  • the object candidate position designating unit 50 determines where the detected position on the composite image detected by the first object detecting unit 40 corresponds to the image classified by distance. For example, if a composite video is combining two video images according to distance, if one object is detected on the composite video, there is one position where the object may exist on each video according to distance. Therefore, there are two object candidate positions in total.
  • the second object detection unit 60 performs object detection only on the candidate positions on the distance-by-distance video designated by the object candidate position designation unit 50, and specifies the object positions existing on the distance-by-distance video.
  • the object position specifying unit 70 calculates the object position on the input image based on the detection result of the second object detection unit 60, and further outputs the final result together with the distance from the vehicle to the object. .
  • the input image is 640 pixels in the horizontal direction and 480 pixels in the vertical direction.
  • the vertical size of the distance-by-distance video output from the distance-by-distance video enlargement / reduction unit 32 and the synthesized video output from the synthesized video cut-out enlargement unit 41 is 128 pixels.
  • the size of the scanning frame when the target object detection processing is performed by the first object detection unit and the second object detection unit is assumed to be 64 pixels horizontally and 128 pixels vertically.
  • the object to be detected is a pedestrian existing on the road surface, and the height of the pedestrian to be detected is 100 cm to 200 cm.
  • the pedestrian who exists in three points, the distance from a vehicle, A meter, B meter, and C meter is made into a detection target. Note that the example given here is for explanation purposes, and the present embodiment is not limited to this.
  • the distance-by-distance video extraction unit 31 generates a distance-by-distance video by extracting video from the input image for each distance from the vehicle.
  • the pedestrian is imaged on the input video according to the distance between the vehicle and the pedestrian.
  • the area to be determined is uniquely determined.
  • FIG. 2 shows an input image when a pedestrian having a height of 200 cm and a pedestrian having a height of 100 cm are present at points of A meter, B meter, and C meter (hereinafter referred to as Am, Bm, and Cm) from the vehicle. .
  • A, B, and C The magnitude relationship between A, B, and C is A ⁇ B ⁇ C, where Am is the closest to the vehicle and Cm is the farthest from the vehicle.
  • a pedestrian having a height of 200 cm is present at a point at a distance Am in FIG. 2A
  • FIG. 2B is at a point at a distance Bm
  • FIG. 2C is at a point at a distance Cm.
  • FIG. 2 (d) shows that a pedestrian with a height of 100 cm exists at a distance Am
  • FIG. 2 (e) shows that a pedestrian exists at a distance Bm
  • FIG. 3 shows a region where a pedestrian to be detected is imaged on each distance video when the input video is as shown in FIG.
  • FIGS. 3A to 3F correspond to FIGS.
  • the distance-by-distance video enlargement / reduction unit 32 enlarges / reduces each distance-by-distance video extracted by the distance-by-distance video extraction unit 31 and normalizes the vertical size of the distance-by-distance video to 128 pixels.
  • the aspect ratio of the image by distance is unchanged before and after the enlargement / reduction.
  • FIG. 6 shows an example of a distance-by-distance video enlargement / reduction process.
  • FIG. 6A shows a distance-by-distance video corresponding to the distance Am (hereinafter referred to as Am video), and
  • FIG. 6B shows a distance Bm.
  • Corresponding video by distance hereinafter referred to as “Bm video”
  • Cm video are before and after scaling of the video by distance corresponding to distance Cm (hereinafter referred to as “Cm video”).
  • the horizontal size of each distance image before scaling is equal to 640 pixels, and the vertical size is Ya pixels for Am video, Yb pixels for Bm video, and Yc pixels for Cm video.
  • the vertical size of the images by distance after scaling is 128 pixels, and the horizontal size is (640 ⁇ 120 / Ya) pixels for Am video, (640 ⁇ 128 / Yb) pixels for Bm video, and (640 ⁇ 128) for Cm video. / Yc) pixel.
  • the sizes of the pedestrians are equal in the video according to distance after expansion / reduction regardless of the distance from the vehicle.
  • the center position aligning unit 33 aligns the center position of the distance-by-distance video whose vertical size is normalized to 128 pixels by the distance-by-distance image enlargement / reduction unit 32.
  • FIG. 7 shows an example in which three center positions of an Am video, a Bm video, and a Cm video are combined as the video by distance. As shown in FIG. 7, when the center positions of the distance-based images are matched, the vertical size of the distance-based images is normalized to 128 pixels, but the horizontal sizes are different. .
  • FIG. 8 illustrates the number of overlapping images according to distance in the example of FIG. 7 and decreases from the center position to 3, 2, and 1. This number of overlaps is the composite number.
  • the distance-by-distance video feature amount determination unit 34 counts how many image features each exist on the distance-by-distance video output from the distance-by-distance video enlargement / reduction unit 32.
  • edge features are used as image features.
  • the image feature amount included in the Am-by-distance video is Ea
  • the image feature amount of Bm is Eb
  • the image feature amount of Cm is Ec.
  • edge features are targeted, but other image features can also be targeted.
  • the presence / absence of a specific color may be determined, or processing for determining the presence / absence of a certain level of brightness or more may be performed.
  • the distance-by-distance video output from the distance-by-distance video enlargement / reduction unit has a different video size. Therefore, the image feature amount existing in the video is normalized by the video size. May be.
  • the synthesis coefficient adjustment unit 35 is based on the number of synthesized videos by distance obtained by the center alignment unit 33 and the image feature values Ea, Eb, and Ec for each video by distance obtained by the video feature value judgment unit 34 by distance. Then, a composite coefficient of each distance video is calculated.
  • 9A to 9C summarize a correspondence list between the number of synthesized images and image feature amounts for the distance-by-distance videos of the distances Am, Bm, and Cm. A method for calculating the synthesis coefficient in such a case will be described with reference to FIG.
  • FIGS. 10 (a) to 10 (c) show synthesis coefficients set for distance images of distances Am, Bm, and Cm.
  • Am video is one type of synthesis coefficient Ma1
  • Bm video is a synthesis coefficient Mb1.
  • Two types of Mb2 and Cm video have three types of synthesis coefficients Mc1 to Mc3.
  • Ma1, Mb1, and Mc1 are portions where three images of Am video, Bm video, and Cm video are combined
  • Mb2 and Mc2 are portions where two images of Bm video and Cm video are combined.
  • Mc3 is only one Cm video.
  • the basic idea of the synthesis coefficient is that the synthesis coefficient is evenly allocated to the video for each distance to be synthesized according to the number of synthesis. That is, the total of three composite portions is 1 with 1/3 of each distance video, and the total of 2 composite portions is 1 with 1/2 of each distance video.
  • the synthesis coefficient is adjusted using image feature amounts Ea to Ec corresponding to the distance videos.
  • the idea of adjustment based on the image feature amount is to increase the composition coefficient of the distance-by-distance video having a large amount of image feature amount and to reduce the synthesis coefficient of the distance-by-distance image having a small image feature amount.
  • the synthesis coefficients Ma1, Mb1, Mb2, Mc1, Mc2, and Mc3 can be obtained by the following formulas 1 to 6, respectively.
  • calculation method is not limited to the above calculation formula as long as the total sum of the synthesis coefficients is 1.
  • the distance-by-distance video synthesis unit 36 synthesizes the distance-by-distance video that has been aligned by the center alignment unit 33 using the synthesis coefficient obtained by the synthesis coefficient adjustment unit 35 to generate one synthesized video.
  • General image blending is used for video composition processing using a composition coefficient.
  • FIG. 11 is a diagram illustrating a specific example of video composition.
  • FIG. 11A shows an example of the input video, and there are four pedestrians in the video. Explaining four pedestrians, the left part of the input image has two bodies of 200 cm and 100 cm tall at a distance of Am from the vehicle, and the center part of the input image has a height of 200 cm at a distance of Bm from the vehicle.
  • FIG. 11B is an Am video
  • FIG. 11C is a Bm video
  • FIG. 11D is a Cm video
  • FIG. 11E is a composite image obtained by normalizing the sizes of three images according to distance. It is an example of a result.
  • the synthesized video cutout enlargement unit 41 cuts out a part of the synthesized video output from the distance-based video synthesis unit 36 and enlarges it to a predetermined size.
  • the purpose of cutting out the synthesized video is to cope with the difference in the size of the detection target object. For example, in FIG. 11, it is for detecting both a 100 cm tall pedestrian and a 200 cm tall pedestrian.
  • FIG. 12 shows a diagram in which only four pedestrians whose sizes are correctly normalized in accordance with the distance from the vehicle are extracted from the synthesized video in FIG. 11 (e).
  • the positions of the feet of all pedestrians are the same regardless of the height, but the position of the head differs depending on the height, and if the height is the same, the size is the same regardless of the distance from the vehicle.
  • the vertical size of the pedestrian needs to be about 128 pixels because of the setting of the scanning frame. Therefore, a pedestrian having a height of 100 cm cannot be detected as it is. Therefore, this is dealt with by cutting out and expanding the synthesized video.
  • the image is enlarged while the aspect ratio of the image is preserved so that the extracted image has a vertical size of 128 pixels which is the vertical size of the synthesized image before being extracted.
  • FIG. 13 is an example of cut-out enlargement for a height of 100 cm
  • FIG. 13 (a) is a view showing a cut-out area
  • FIG. 13 (b) is an enlarged view of the cut-out video.
  • FIG. 13 (a) is a view showing a cut-out area
  • FIG. 13 (b) is an enlarged view of the cut-out video.
  • an example of cut-out enlargement with a height of 100 cm is shown, but cut-out enlargement processing is performed for other heights as much as necessary.
  • the foot since the foot always exists at the lower end of the composite image regardless of the height of the pedestrian, the cutout position is always in contact with the lower end of the composite image.
  • the cut-out enlargement process may be appropriately performed on the height to be detected.
  • the composite video feature amount determination unit 42 will be described with reference to FIG.
  • the image feature amount existing in the scanning frame (horizontal 64 pixels, vertical 128 pixels) of the object detection process on the composite video clipped and magnified by the composite video cropping enlargement unit 41 is counted.
  • the edge feature is targeted, and the edge counting method is the same as that of the distance-by-distance video feature amount determination unit 34, and thus the description thereof is omitted.
  • the composite video object detection unit 43 performs object detection processing on the composite video. Since the vertical size of the composite image and the vertical size of the scanning frame of the object detection process are the same, a process of scanning only once in the horizontal direction on the composite image and determining whether a detection target object exists in the scan Become. At this time, instead of performing detection processing at all scanning positions in scanning, it is determined whether to perform detection processing using the result of the composite video feature amount determination unit 42. That is, when there is no image feature in the scanning frame, no object can exist, and thus the entire detection process is speeded up by performing scanning without performing the detection process. Whether or not an image feature exists is determined by performing a detection process only when a threshold value is appropriately set and an image feature exceeding a certain level is present.
  • the object detection process in this embodiment uses an object detection method based on edge features.
  • a method using the edge feature a method using the HOG feature using the strength and direction of the edge is general and can be applied to the present invention. Further, the present invention is not limited to the method using the HOG feature, and any object detection using an edge feature can be applied. In the present invention, an image feature other than an edge feature can be applied.
  • FIG. 15A shows the input video
  • FIG. 15B shows the detection result of the first object detection process on the composite video
  • FIG. 15C shows the output of the video enlargement / reduction unit 32 by distance from the first object detection process.
  • FIG. 15D shows the result of designating the object candidate position on the Bm video
  • FIG. 15E shows the result of designating the object candidate position on the Cm video.
  • the input video here indicates that there are one pedestrian having a height of 200 cm at points of distance Am and Cm, and two pedestrians are detected as a detection result on the composite video.
  • the synthesized video is composed of three videos of Am video, Bm video, and Cm video
  • object candidates are present in each of the Am video, Bm video, and Cm video.
  • One position can be specified. Since the center position of the synthesized video and each distance-based video match, the candidate position on each distance-based video can be designated on the same coordinates from the detection position on the synthesized video.
  • the composite video is not composed of three videos in all areas, but is partially generated from two videos or one video, so depending on the position of the detection result on the composite video, it may not necessarily be Object candidate positions cannot be specified on all distance-based images. In the example shown in FIG. 15, one object candidate position is designated on the Am video, and two object candidate positions are designated on the Bm and Cm distance-by-distance videos.
  • the second object detection unit 60 performs object detection processing on the object candidate positions designated on the video for each distance by the object candidate position designation unit 50, and specifies the position where the object exists on the video for each distance.
  • the object detection process here does not need to be scanned as performed by the composite video object detection unit 43, and the object detection process may be limited to the candidate positions designated by the object candidate position designation unit 50.
  • FIG. 16 shows detection results obtained by performing the object detection process on the object candidate positions designated in FIGS. 15 (c) to 15 (e).
  • 16A shows detection results in Am video
  • FIG. 16B shows detection results in Bm video
  • FIG. 16C shows detection results in Cm video, and 1 in Am video and Cm video. The body is detected.
  • the object detection processing means an object detection method based on edge features is used as in the composite video object detection unit 43.
  • the method used may be the same detection method as that of the composite video object detection unit 43 or may be different.
  • the accuracy of object detection in the composite video object detection unit 43 and the second object detection unit 60 may be changed. In this case, the detection accuracy of the second object detection unit 60 may be made stricter than the synthesized video object detection unit 43.
  • the composite video object detection unit 43 Since the composite video object detection unit 43 has a larger processing amount than the second object detection unit 60, it performs simple object detection to the extent that some erroneous detection is allowed, and the object candidates are limited to reduce the processing amount. In the second object detection process, erroneous detection is excluded, and only the detection target object is reliably set as a detection result. As a result, it is possible to increase the speed of the object detection process without reducing the detection accuracy.
  • the object position specifying unit 70 specifies the object position on the input image based on the object detection result on the image by distance detected by the second object detection unit 60.
  • the object position on the input video can be easily obtained from the extracted coordinate position and the enlargement / reduction ratio when the video by distance is generated by the video extraction unit 31 by distance and the video enlargement / reduction unit 32 by distance.
  • a procedure for obtaining the position coordinates on the input image from the detected position coordinates on the image by distance will be described with reference to FIG.
  • FIG. 17A shows the coordinate position for extracting video by distance from the input video.
  • the upper left of the input video is the origin (0, 0), and the upper left (Xos, Yos) to the lower right (Xoe, Yoe).
  • FIG. 17B shows the coordinate position where the object position is specified on the image classified by distance extracted in FIG. 17A, and the upper left (Xds, The range surrounded by the lower right (Xde, Yde) from Yds) is the detection position.
  • FIG. 17C shows the result of converting the coordinates of the object position specified on the video by distance to the coordinates on the input video.
  • the upper left of the input video is the origin (0, 0) and the upper left (Xrs, Yrs).
  • the range surrounded by the lower right (Xre, Yre) is the coordinates of the final object detection result.
  • Xrs, Yrs, Xre, and Yre can be obtained by the following formulas 7 to 10 using the variables shown in FIGS. 17A and 17B.
  • the object detection device on the video obtained by converting the video image of the periphery of the vehicle into the characteristic video, and extracting and synthesizing different regions from the characteristic video for each distance based on the distance from the vehicle.
  • the object detection position is obtained by performing the first object detection process, and the object detection position is specified after performing the second object detection process on the object candidate position, so that the object detection performance is not sacrificed.
  • the speed of the object detection process can be increased, and the distance from the vehicle to the object can also be measured.
  • the object detection method of the present invention can be a method including each step realized by the object detection device, and each function realized by the object detection device is also a computer for the object detection program of the present invention. There is no particular limitation as long as it is realized.
  • the object detection device converts a video obtained by photographing the periphery of a vehicle into a feature video, and extracts different regions for each distance from the feature video based on the distance from the vehicle.
  • the first object detection process is performed to obtain the object candidate position, and the object detection position is specified after performing the second object detection process on the object candidate position, so that the object detection performance is sacrificed.
  • it has an excellent effect of speeding up the object detection process and measuring the distance from the vehicle to the object, and is useful as an object detection device for detecting an object around the vehicle.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

 物体検出装置(10)は、車両周辺を撮影した入力映像を、この入力映像から画像特徴を抽出した特徴映像に変換する映像変換部(20)と、車両からの距離に基づいて、特徴映像から距離毎に異なる領域を抽出して合成する距離別映像抽出合成部(30)と、合成映像を走査して第一の物体検出処理を行う第一物体検出部(40)と、第一物体検出処理の結果から物体候補位置を求める物体候補位置指定部(50)と、物体候補位置に対して第二の物体検出処理を行う第二物体検出部(60)と、第二物体検出部の結果から物体位置を特定する物体位置特定部(70)とを備える。これにより、検出性能を低下させずに、車両周辺の物体を高速で検出することができる。

Description

物体検出装置、物体検出方法および物体検出プログラム
 本発明は、物体検出装置、物体検出方法および物体検出プログラムに関し、特に、車両周辺に存在する歩行者等の物体を検出可能な物体検出装置、物体検出方法および物体検出プログラムに関する。
 近年、自動車の安全運転を支援する目的で、車載カメラが普及してきている。例えば、車載カメラ(撮像装置)は、車両の前方部分や後方部分に設置され、車両周辺の映像を撮影する。撮影された映像は、運転席に設置したディスプレイに表示される。これにより、運転手は、車両の走行時に、車両周辺に存在する歩行者等の物体の有無を確認することができる。
 また、車両周辺の映像を単にディスプレイに表示するのではなく、歩行者等の物体をあらかじめ何らかの手段で検出しておき、検出結果の情報を映像に付加したうえで表示したり、音声による警告を発したりすることで、運転手の注意を喚起する取組みもなされている。
 歩行者等の物体を検出する手段としては、例えば、熱源や距離を関知するセンサを、車載カメラとは別に搭載するものが、これまでの主流であった。しかし、別センサの搭載には、コストや汎用性の点でデメリットがあり、車載カメラの映像だけで物体を検出する画像認識手段の実用化が望まれている。
 画像認識による物体検出手法として、研究分野においては、以前より、映像中のエッジ特徴を利用する手法が有効とされている。また、検出対象物体の映像をあらかじめ大量に学習して、統計データとして活用するブースティング手法が確立されている。エッジ特徴を利用する手法とブースティング手法とを組み合わせた物体検出手法は、研究分野においては、検出精度の点で既に実用レベルに至っている。
 しかし、実用化の点からは、上記の画像認識による物体検出手法には、処理時間に係る課題が残されている。画像認識の場合、映像処理が複雑であり、かつ、映像上を一通り走査する必要があるため、映像1フレームにおける物体検出結果を得るまでに時間がかかる。このため、カメラのフレームレートに対して物体検出処理のフレームレートが低くなるという問題や、映像に対して物体検出結果を得るまでの遅延時間が生ずるという問題があった。
 このような処理時間に係る課題に対して、特許文献1に記載の物体検出装置では、入力画像を縮小した縮小画像を作成し、まず縮小画像上で物体の有無を粗く検出し、縮小画像上で物体を検出したときだけ元の大きさの入力画像で再度検出処理をかける二段階検出を行う技術が開示されている。これにより、実質的には縮小画像サイズでの走査になるので、検出処理の高速化を図ることができる。
 しかしながら、特許文献1に記載の方法では、縮小画像を使って検出処理を行っているために、物体検出処理で利用している画像特徴が縮小化によって失われてしまう。このため、特に物体検出対象が元々映像上で小さく撮像されている場合において、検出性能が十分に発揮できないという課題があった。物体検出対象が小さく撮像される要因としては、検出対象物体が元々小さいものを対象としていること、または、検出対象物体がカメラから距離が遠い位置に存在していること、のいずれか一方、もしくは両方の要因が考えられる。このとき、前者の場合には、検出対象とする物体によっては検出精度が十分に得られず、後者の場合には、検出できる物体までの距離範囲が短縮化するという弊害を生じていた。
特開2007-265390号公報
 本発明は、上記背景の下でなされたものである。本発明の目的は、物体検出を画像認識だけで行いながら、検出性能を犠牲にすることなく、検出処理時間を高速化することが可能な物体検出装置及び方法、並びにプログラムを提供することにある。
 本発明の一の態様は、車両から撮影した車両周辺の映像を入力映像として、入力映像から車両付近の物体を検出する物体検出装置であって、この物体検出装置は、入力映像を、入力映像から画像特徴を抽出した特徴映像へと変換する映像変換部と、車両からの距離に基づいて、特徴映像から、距離毎に異なる領域を距離別映像として抽出し、距離別映像を用いた合成映像を合成する距離別映像抽出合成部と、距離別映像抽出合成部で合成した合成映像を走査して、合成映像から検出される物体の合成映像上の位置を求める第一の物体検出処理を行う第一物体検出部と、第一物体検出部で検出された物体の合成映像上の位置に基づいて、距離別映像において物体が存在する可能性がある物体候補位置を求める物体候補位置指定部と、物体候補位置指定部で求めた物体候補位置に対して、距離別映像において対応する物体位置を特定する第二の物体検出処理を行う第二物体検出部と、第二物体検出部で求めた物体位置に基づいて、入力映像における物体位置を特定する物体位置特定部と、を備えている。
 本発明の別の態様は、車両から撮影した車両周辺の映像を入力映像として、入力映像から車両付近の物体を検出する物体検出方法であって、この物体検出方法は、入力映像を、入力映像から画像特徴を抽出した特徴映像へと変換する映像変換ステップと、車両からの距離に基づいて、特徴映像から、距離毎に異なる領域を距離別映像として抽出し、距離別映像を用いた合成映像を合成する距離別映像抽出合成ステップと、距離別映像抽出合成ステップで合成した合成映像を走査して、合成映像から検出される物体の合成映像上の位置を求める第一の物体検出処理を行う第一物体検出ステップと、第一物体検出ステップで検出された物体の合成映像上の位置に基づいて、距離別映像において物体が存在する可能性がある物体候補位置を求める物体候補位置検出ステップと、物体候補位置検出ステップで求めた物体候補位置に対して、距離別映像において対応する物体位置を特定する第二の物体検出処理を行う第二物体検出ステップと、第二物体検出ステップで求めた物体位置に基づいて、入力映像における物体位置を特定する物体位置特定ステップと、を含んでいる。
 本発明の別の態様は、車両から撮影した車両周辺の映像を入力映像として、入力映像から車両付近の物体を検出する物体検出プログラムであって、この物体検出プログラムは、コンピュータに、入力映像を、入力映像から画像特徴を抽出した特徴映像へと変換する映像変換機能と、車両からの距離に基づいて、特徴映像から、距離毎に異なる領域を距離別映像として抽出し合成する距離別映像抽出合成機能と、距離別映像抽出合成機能で合成した合成映像を走査して第一の物体検出処理を行う第一物体検出機能と、第一物体検出機能で物体が検出された合成映像上の位置に基づいて、距離別映像において物体が存在する可能性がある物体候補位置を求める物体候補位置検出機能と、物体候補位置検出機能で求めた物体候補位置に対して第二の物体検出処理を行い距離別映像における物体位置を特定する第二物体検出機能と、第二物体検出機能で求めた物体位置に基づいて、入力映像における物体位置を特定する物体位置特定機能と、を実現させる。
 以下に説明するように、本発明には他の態様が存在する。したがって、この発明の開示は、本発明の一部の態様の提供を意図しており、ここで記述され請求される発明の範囲を制限することは意図していない。
図1は、本発明の一実施形態に係る物体検出装置の構成を示すブロック図 図2(a)は、身長200cmの歩行者が距離Am地点に存在する一例を示す説明図 図2(b)は、身長200cmの歩行者が距離Bm地点に存在する一例を示す説明図 図2(c)は、身長200cmの歩行者が距離Cm地点に存在する一例を示す説明図 図2(d)は、身長100cmの歩行者が距離Am地点に存在する一例を示す説明図 図2(e)は、身長100cmの歩行者が距離Bm地点に存在する一例を示す説明図 図2(f)は、身長100cmの歩行者が距離Cm地点に存在する一例を示す説明図 図3(a)は、身長200cmの歩行者が距離Am地点に存在するときの撮像領域を示す説明図 図3(b)は、身長200cmの歩行者が距離Bm地点に存在するときの撮像領域を示す説明図 図3(c)は、身長200cmの歩行者が距離Cm地点に存在するときの撮像領域を示す説明図 図3(d)は、身長100cmの歩行者が距離Am地点に存在するときの撮像領域を示す説明図 図3(e)は、身長100cmの歩行者が距離Bm地点に存在するときの撮像領域を示す説明図 図3(f)は、身長100cmの歩行者が距離Cm地点に存在するときの撮像領域を示す説明図 図4は、距離Amの地点に身長200cmと100cmの歩行者が存在するときの撮像領域を比較する説明図 図5(a)は、Am地点に対応するAm映像の一例を示す説明図 図5(b)は、Bm地点に対応するBm映像の一例を示す説明図 図5(c)は、Cm地点に対応するCm映像の一例を示す説明図 図6(a)は、Am映像の拡縮前と拡縮後の一例を示す説明図 図6(b)は、Bm映像の拡縮前と拡縮後の一例を示す説明図 図6(c)は、Cm映像の拡縮前と拡縮後の一例を示す説明図 図7は、距離別映像の中心位置合わせの一例を示す説明図 図8は、距離別映像の重なり枚数の一例を示す説明図 図9(a)は、Am映像の合成数と画像特徴量の一例を示す図 図9(b)は、Bm映像の合成数と画像特徴量の一例を示す図 図9(c)は、Cm映像の合成数と画像特徴量の一例を示す図 図10(a)は、Am映像の合成係数の一例を示す図 図10(b)は、Bm映像の合成係数の一例を示す図 図10(c)は、Cm映像の合成係数の一例を示す図 図11(a)は、入力映像の一例を示す図 図11(b)は、Am映像の一例を示す図 図11(c)は、Bm映像の一例を示す図 図11(d)は、Cm映像の一例を示す図 図11(e)は、合成映像の一例を示す図 図12は、合成映像上で正しく正規化された歩行者の一例を示す説明図 図13(a)は、身長100cmを対象とした合成映像からの切り出しの一例を示す説明図 図13(b)は、切り出し後の合成映像を拡大する一例を示す説明図 図14は、合成映像上での画像特徴量のカウント走査の一例を示す図 図15(a)は、入力映像の一例を示す説明図 図15(b)は、合成映像上で第一部物体検出処理を行った検出結果の一例を示す説明図 図15(c)は、Am映像上において物体候補位置を指定した一例を示す説明図 図15(d)は、Bm映像上において物体候補位置を指定した一例を示す説明図 図15(e)は、Cm映像上において物体候補位置を指定した一例を示す説明図 図16(a)は、Am映像における物体検出結果の一例を示す説明図 図16(b)は、Bm映像における物体検出結果の一例を示す説明図 図16(c)は、Cm映像における物体検出結果の一例を示す説明図 図17(a)は、入力映像上での距離別映像の抽出座標の一例を示す説明図 図17(b)は、距離別映像上での検出座標の一例を示す説明図 図17(c)は、入力映像上での検出座標の一例を示す説明図
 以下に本発明の詳細な説明を述べる。ただし、以下の詳細な説明と添付の図面は発明を限定するものではない。
 本発明の物体検出装置は、車両から撮影した車両周辺の映像を入力映像として、入力映像から車両付近の物体を検出する物体検出装置であって、入力映像を、入力映像から画像特徴を抽出した特徴映像へと変換する映像変換部と、車両からの距離に基づいて、特徴映像から、距離毎に異なる領域を距離別映像として抽出し、距離別映像を用いた合成映像を合成する距離別映像抽出合成部と、距離別映像抽出合成部で合成した合成映像を走査して、合成映像から検出される物体の合成映像上の位置を求める第一の物体検出処理を行う第一物体検出部と、第一物体検出部で検出された物体の合成映像上の位置に基づいて、距離別映像において物体が存在する可能性がある物体候補位置を求める物体候補位置指定部と、物体候補位置指定部で求めた物体候補位置に対して、距離別映像において対応する物体位置を特定する第二の物体検出処理を行う第二物体検出部と、第二物体検出部で求めた物体位置に基づいて、入力映像における物体位置を特定する物体位置特定部と、を備える構成を有する。
 この構成によれば、入力映像の画像特徴を損なわないので、検出性能を犠牲にせずに検出処理時間を高速化することが可能な物体検出装置を提供することが可能になる。
 本発明の物体検出装置においては、映像変換部が、画像特徴としてエッジ特徴を抽出することが好ましい。この構成により、入力映像を、物体検出処理で用いるエッジ特徴だけを残した映像に変換することができる。
 本発明の物体検出装置においては、距離別映像抽出合成部が、車両からの距離に基づいて、特徴映像から抽出する領域の大きさを変更することが好ましい。この構成により、車両からの距離によって映像上で異なる大きさとして撮像される検出対象物体の大きさに対応して、物体検出を行うことができる。
 本発明の物体検出装置においては、距離別映像抽出合成部が、全ての距離別映像の垂直サイズが等しくなるよう、距離毎に抽出した映像を拡縮することが好ましい。この構成により、車両からの距離によって映像上で異なる大きさとして撮像される検出対象物体の大きさを等しくすることができるので、物体検出処理が簡易となる。
 本発明の物体検出装置においては、距離別映像抽出合成部が、距離別映像の水平中心軸および垂直中心軸の位置を合わせて合成することが好ましい。この構成により、合成映像の中心位置が全ての距離別映像で揃うので、検出物体の位置把握が容易になる。また、合成映像のサイズが全ての距離別映像の合計サイズよりも小さくなるので、物体検出処理を高速化できる。
 本発明の物体検出装置においては、距離別映像抽出合成部が、距離別映像をαブレンディングで合成することが好ましい。この構成により、合成係数を調整することよって、合成映像における各距離別映像の影響度を調整することができる。
 本発明の物体検出装置においては、距離別映像抽出合成部が、距離別映像の合成数に応じて、部分的にαブレンディングの合成係数を調整して合成することが好ましい。この構成により、合成映像上において合成される距離別映像の合成数が異なる場合に、合成映像にした段階で、部分的に最適な画像特徴を保持した状態とすることができる。
 本発明の物体検出装置においては、距離別映像抽出合成部が、距離別映像に含まれる画像特徴量に応じて、αブレンディングの合成係数を調整して合成することが好ましい。この構成により、画像特徴が多く含まれる距離別映像の合成係数を高めることで、合成映像にしたときに画像特徴を保持した状態とすることができる。
 本発明の物体検出装置においては、第一物体検出部の、物体検出処理において検出対象とする物体の垂直サイズが、合成映像の垂直サイズと等しいことが好ましい。この構成により、検出対象処理における物体検出走査を簡易にすることができる。
 本発明の物体検出装置においては、第一物体検出部が、合成映像上を水平方向だけに走査して物体検出処理を行うことが好ましい。この構成により、物体検出の走査数を削減できるので物体検出処理を高速化できる。
 本発明の物体検出装置においては、第一物体検出部が、合成映像の下端部に接する領域を切り出して、切り出した領域の垂直サイズを合成映像の垂直サイズと等しくなるように拡大した拡大合成映像を生成する合成映像切出拡大部を備えることが好ましい。この構成により、検出対象物体の大きさの違い(例えば、歩行者の身長の違い)に対応する際に、物体の下端部が必ず合成映像の下端部に接しているとの前提を利用できるので、物体が存在しえない映像上の領域を走査対象にすることがないため、物体検出処理を高速化することができる。また、切り出した合成映像の大きさを切り出す前の合成映像の大きさに合わせるので、物体検出処理について検出対象物体の映像上の大きさを考慮する必要がないというメリットがある。
 本発明の物体検出装置においては、第一物体検出部が、拡大合成映像に対して物体検出処理を行うことが好ましい。この構成により、検出対象物体の大きさの違い(例えば、歩行者の身長の違い)に対応することができる。
 本発明の物体検出装置においては、第一物体検出部が、拡大合成映像上を水平方向だけに走査して物体検出処理を行うことが好ましい。この構成により、物体検出の走査数を削減できるので、物体検出処理を高速化できる。
 本発明の物体検出装置においては、第一物体検出部が、物体検出を行う検出判定基準を第二物体検出部とは別々に調整可能であって、かつ、第二物体検出部よりも物体であると判定しやすくなるように検出基準が調整されていることが好ましい。この構成により、第一物体検出部では検出を粗く、すなわち、検出しやすくして、合成映像上における検出漏れを防止し、第二物体検出部で検出物体が存在することを厳密に判断して、誤検出を防ぐことができる。
 本発明の物体検出装置においては、第一物体検出部が、合成映像上で画像特徴が存在する部分だけを対象として、第一の物体検出処理を行うことが好ましい。この構成により、検出物体が存在しえない箇所を走査することがなくなるので、検出処理を高速化することができる。
 本発明の物体検出装置においては、物体位置特定部が、第二物体検出部で検出された距離別映像上の物体位置に基づいて、車両から検出された物体までの距離を求めることが好ましい。この構成により、検出対象物体の有無を検出すると同時に物体までの距離情報が得られるので、検出結果に基づく警告等に有用である。
 本発明の物体検出方法は、車両から撮影した車両周辺の映像を入力映像として、入力映像から車両付近の物体を検出する物体検出方法であって、入力映像を、入力映像から画像特徴を抽出した特徴映像へと変換する映像変換ステップと、車両からの距離に基づいて、特徴映像から、距離毎に異なる領域を距離別映像として抽出し、距離別映像を用いた合成映像を合成する距離別映像抽出合成ステップと、距離別映像抽出合成ステップで合成した合成映像を走査して、合成映像から検出される物体の合成映像上の位置を求める第一の物体検出処理を行う第一物体検出ステップと、第一物体検出ステップで検出された物体の合成映像上の位置に基づいて、距離別映像において物体が存在する可能性がある物体候補位置を求める物体候補位置検出ステップと、物体候補位置検出ステップで求めた物体候補位置に対して、距離別映像において対応する物体位置を特定する第二の物体検出処理を行う第二物体検出ステップと、第二物体検出ステップで求めた物体位置に基づいて、入力映像における物体位置を特定する物体位置特定ステップと、を含むものである。この方法によっても、上記の装置と同様の効果を得ることができる。
 本発明の物体検出プログラムは、車両から撮影した車両周辺の映像を入力映像として、入力映像から車両付近の物体を検出する物体検出プログラムであって、コンピュータに、入力映像を、入力映像から画像特徴を抽出した特徴映像へと変換する映像変換機能と、車両からの距離に基づいて、特徴映像から、距離毎に異なる領域を距離別映像として抽出し合成する距離別映像抽出合成機能と、距離別映像抽出合成機能で合成した合成映像を走査して第一の物体検出処理を行う第一物体検出機能と、第一物体検出機能で物体が検出された合成映像上の位置に基づいて、距離別映像において物体が存在する可能性がある物体候補位置を求める物体候補位置検出機能と、物体候補位置検出機能で求めた物体候補位置に対して第二の物体検出処理を行い距離別映像における物体位置を特定する第二物体検出機能と、第二物体検出機能で求めた物体位置に基づいて、入力映像における物体位置を特定する物体位置特定機能と、を実現させるためのものである。このプログラムによっても、上記の装置と同様の効果を得ることができる。
 本発明によれば、入力映像の画像特徴を損なわずに映像を小さくできるので、検出性能を犠牲にすることなく検出処理時間を高速化することができ、車両から物体までの距離も測定することが可能になるという優れた効果が得られる。
(実施の形態)
 以下、本発明の一実施形態に係る物体検出装置について、図面を参照して説明する。
 図1は、本発明の一実施形態に係る物体検出装置の構成を示すブロック図である。図示する物体検出装置10は、外部より入力される入力映像を、この入力映像から画像特徴を抽出した特徴映像に変換する映像変換部20と、車両からの距離に基づいて、特徴映像から距離毎に異なる領域を抽出した距離別映像を合成する距離別映像抽出合成部30と、得られた合成映像から第一の物体検出処理を行う第一物体検出部40と、第一物体検出処理の結果から距離別映像において物体が存在する可能性がある物体候補位置を求める物体候補位置指定部50と、距離別映像上の物体候補位置に対して第二の物体検出処理を行う第二物体検出部60と、前記第二物体検出部の検出結果から入力映像上での物体位置を特定する物体位置特定部70とを備える。
 外部より入力される入力映像は、例えば、車両前側または後側のナンバープレート近くの所定位置に、所定角度で取り付けられた車載カメラにより、車両周辺を撮影した映像を想定する。
 映像変換部20は、入力映像を基に、画像特徴を映像上で抽出する映像変換処理を行う。本発明の実施例では、画像特徴としてエッジ特徴を抽出するものとし、後段の処理でエッジ特徴に注目した処理を行なっているが、本発明において対象とする画像特徴は、エッジ特徴に限定されるものではない。例えば、道路上の標識や信号機を検出する目的の場合、画像特徴として特定の色を抽出する処理を行うことが有効である。また、エッジ特徴を抽出する具体的な処理としては、エンボス加工やSobelフィルタによるエッジ抽出があるが、本発明ではこれらの処理についても限定されるものではない。
 距離別映像抽出合成部30は、距離別映像抽出部31、距離別映像拡縮部32、中心位置合わせ部33、距離別映像特徴量判定部34、合成係数調整部35、および、距離別映像合成部36を備える。距離別映像抽出部31は、検出対象物体が車両から所定の距離だけ離れた位置に存在したときに映像上において検出対象物体が撮像される可能性のある領域を、距離毎に異なる大きさで、それぞれ特徴映像より抽出する。距離別映像拡縮部32は、距離別映像抽出部31で抽出された各距離に対応する距離別映像を、距離別映像の垂直サイズが所定のサイズになるように、拡大または縮小する。これにより、全ての距離別画像の垂直サイズは等しくなる(水平サイズはそれぞれ異なる)。なお、以降の説明では、特に断りが無い限り、距離別映像とは距離別映像拡縮部32で拡縮した後の距離別映像を指す。中心位置合わせ部33は、距離別映像拡縮部32でリサイズした距離別映像の水平中心軸および垂直中心軸の位置を合わせ、映像位置による合成数を求める。合成数は、距離別映像を重ねあわせた枚数である。距離別映像特徴判定部34は、各距離別映像上に存在する画像特徴量を求める。合成係数調整部35は、中心位置合わせ部33で求めた合成数と、距離別映像特徴量判定部34で求めた画像特徴量に基づき、距離別映像の部分領域毎に合成係数を求める。距離別映像合成部36は、中心位置合わせ部33で中心位置を合わせた距離別映像に対して合成係数調整部35で求めた合成係数を乗じ、全ての距離別映像を合成した合成映像を生成する。このとき、合成映像は、全ての距離別映像の画素数の総和よりも小さくなる。
 第一物体検出部40は、合成映像切出拡大部41、合成映像特徴量判定部42、および、合成映像物体検出部43を備える。合成映像切出拡大部41は、合成映像の一部分を切り出して、切り出した合成映像が切り出す前の垂直サイズと等しくなるように映像を拡大する。この処理の目的は、物体検出対象の大きさの違い(例えば、歩行者の身長差)に対応するための処理である。合成映像特徴量判定部42は、合成映像切出拡大部41から出力される合成映像上で画像特徴が存在する箇所を特定する。合成映像物体検出部43は、映像切出拡大拡大部41から出力される合成映像上で、合成映像特徴量判定部42で画像特徴が存在した箇所だけを対象として物体検出処理を行う。画像特徴が存在しない箇所はそもそも検出対象物体が存在しないため、あらかじめ除外しておくことで物体検出処理の高速化が期待できる。なお、以降の説明では特に断りが無い限り、第一物体検出部およびそれより後段部における合成映像とは切出拡大後の合成映像を指す。
 物体候補位置指定部50は、第一物体検出部40で物体検出された合成映像上の検出位置が、距離別映像上のどこに該当するかを求める。例えば、合成映像が2つの距離別映像を合成していたとき、合成映像上で1つの物体が検出されれば、それぞれの距離別映像上で物体が存在する可能性がある位置が1箇所あるので、合計で2箇所の物体候補位置が存在する。
 第二物体検出部60は、物体候補位置指定部50において指定された距離別映像上の候補位置のみを対象に物体検出を行い、距離別映像上に存在する物体位置を特定する。
 物体位置特定部70は、第二物体検出部60の検出結果に基づいて、入力映像上での物体位置を算出し、さらに車両からその物体までの距離も併せて、最終的な結果として出力する。
 以上が本発明の一実施形態に係る物体検出装置の構成と、処理の流れの説明である。
 次に、距離別映像抽出合成部30、第一物体検出部40、物体候補位置指定部50、第二物体検出部60、および、物体位置特定部70の一連の処理について、図面を参照して詳細に説明する。また、ここからは説明を具体化するために、説明用の数値を次のように設定する。入力画像を、水平640画素、垂直480画素とする。距離別映像拡縮部32から出力される距離別映像と、合成映像切出拡大部41から出力される合成映像の垂直サイズを、128画素とする。第一物体検出部および第二物体検出部で対象物体の検出処理を行うときの走査枠の大きさを、水平64画素、垂直128画素とする。検出対象の物体は路面上に存在する歩行者とし、検出対象とする歩行者の身長を100cm~200cmとする。また、車両からの距離がAメートル、Bメートル、Cメートルの3地点に存在する歩行者を検出対象とする。なお、ここで挙げた例は説明用途であり、本実施はこれに限定されない。
 まず、距離別映像抽出合成部30について、詳細に説明する。
 距離別映像抽出部31は、車両からの距離毎に、入力画像から映像を抽出した距離別映像を生成する。前述したように、入力映像は、所定の位置に所定の角度で車両に設置された車載カメラで撮影されたものであるので、車両と歩行者との距離によって入力映像上で歩行者が撮像される領域は一意的に決まる。図2に、身長200cmの歩行者と、身長100cmの歩行者が車両からAメートル、Bメートル、Cメートル(以降、Am、Bm、Cmと表記する)の地点に存在したときの入力映像を示す。なお、A、B、Cの大小関係はA<B<Cとし、Amが最も車両に近く、Cmが最も車両から遠い。身長200cmの歩行者が距離Amの地点に存在するのが図2(a)、距離Bmの地点に存在するのが図2(b)、距離Cmの地点に存在するのが図2(c)、身長100cmの歩行者が距離Amの地点に存在するのが図2(d)、距離Bmの地点に存在するのが図2(e)、距離Cmの地点に存在するのが図2(f)となる。図2のような入力映像であるとき、検出対象となる歩行者が各距離映像上に撮像される領域を図3に示す。図3(a)~(f)はそれぞれ図2(a)~(f)に対応する。歩行者が路面上に存在していることを考えると、車両と歩行者との距離が同じであれば、歩行者の身長によらず歩行者の足元の位置は同じになる。従って、距離Amの地点に身長100cmと身長200cmの歩行者がいたとき、映像上にそれぞれが撮像される領域は図4のようになり、身長200cmの歩行者が撮像される領域が、身長100cmの歩行者が撮像される領域を包含する。以上より、身長100~200cmの歩行者が車両からの距離Am、Bm、Cmの地点に存在するとき、Am、Bm、Cmの距離別映像は図5(a)~(c)のようになる。
 距離別映像拡縮部32は、距離別映像抽出部31で抽出した各距離別映像を拡大縮小して、距離別映像の垂直サイズを128画素に正規化する。また、距離別画像の縦横比は拡縮前後で不変とする。図6は、距離別映像の拡縮処理の例を示しており、図6(a)は距離Amに対応する距離別映像(以下、Am映像と表記する)、図6(b)は距離Bmに対応する距離別映像(以下、Bm映像と表記する)、図6(c)は距離Cmに対応する距離別映像(以下、Cm映像と表記する)の拡縮前および拡縮後である。拡縮前の各距離別映像の水平サイズは640画素で等しく、垂直サイズはAm映像がYa画素、Bm映像がYb画素、Cm映像がYc画素となる。拡縮後の距離別画像の垂直サイズはいずれも128画素となり、水平サイズはAm映像が(640×120/Ya)画素、Bm映像が(640×128/Yb)画素、Cm映像が(640×128/Yc)画素となる。このとき、同じ身長の歩行者が撮影されていた場合は、車両からの距離によらず拡縮後の距離別映像において歩行者の大きさが等しくなる。
 中心位置合わせ部33は、距離別映像拡縮部32で垂直サイズを128画素に正規化した距離別映像の中心位置を合わせる。図7に、距離別映像としてAm映像、Bm映像、Cm映像の3つの中心位置を合わせた例を示す。図7のように距離別映像の中心位置を合わせたとき、距離別映像の垂直サイズは128画素で正規化されているが水平サイズはそれぞれ異なるため、部分ごとに距離別映像の重なり枚数は異なる。図8は、図7の例における距離別映像の重なり枚数を図示したものであり、中心位置から3枚、2枚、1枚と減少する。この重なり枚数が合成数となる。
 距離別映像特徴量判定部34は、距離別映像拡縮部32から出力される距離別映像上にそれぞれどの程度の画像特徴が存在しているかをカウントする。本実施例では、画像特徴としてエッジ特徴を用いる。エッジ量のカウント手段としては各種存在するが、本発明では、その手段については限定されるものではない。例えば、単純にエッジが存在する画素数や、エッジが存在する画素のエッジの大きさの総和でもよい。あるいは、検出対象物体が特定の方向のエッジが多いとあらかじめ分かっているならば、特定の方向のエッジだけを対象にカウントする手段も有効である。ここでは、Amの距離別映像に含まれる画像特徴量をEa、Bmの画像特徴量をEb、Cmの画像特徴量をEcとする。本実施例ではエッジ特徴を対象にしているが、他の画像特徴を対象とすることも可能である。例えば、特定色の有無を判定してもよいし、一定以上の明るさの有無を判定するような処理でもよい。さらに、図6で図示したように、距離別映像拡縮部から出力される距離別映像はそれぞれ映像の大きさが異なるので、映像内に存在する画像特徴量を映像の大きさで正規化しておいてもよい。
 合成係数調整部35は、中心位置合わせ部33で求めた距離別映像の合成数と、距離別映像特徴量判定部34で求めた距離別映像毎の画像特徴量Ea、Eb、Ecに基づいて、各距離別映像の合成係数を算出する。距離Am、Bm、Cmの距離別映像について、合成数と画像特徴量の対応一覧を、図9(a)~(c)にまとめる。このような対応であるときの合成係数の算出方法について、図10を参照して説明する。図10(a)~(c)は、距離Am、Bm、Cmの各距離映像に設定する合成係数を示したものであり、Am映像は合成係数Ma1の1種類、Bm映像は合成係数Mb1、Mb2の2種類、Cm映像は合成係数Mc1~Mc3の3種類を有する。このうち、Ma1、Mb1、Mc1は、Am映像、Bm映像、Cm映像の3枚が合成される部分であり、Mb2、Mc2は、Bm映像とCm映像の2枚が合成される部分となる。Mc3はCm映像1枚のみとなる。合成係数の基本的な考え方は、合成数によって、合成対象となる距離別映像に合成係数を均等に割りふる。すなわち、3枚の合成部分は各距離映像の合成係数を1/3ずつにして合計1となり、2枚の合成部分は各距離映像の合成係数を1/2ずつにして合計1とする。この合計係数の考えに基づいて、本実施例では、複数枚の距離別映像が合成される部分については距離別映像に対応する画像特徴量Ea~Ecを用いて合成係数を調整する。画像特徴量による調整の考え方としては、画像特徴量が多く存在する距離別映像の合成係数を大きく、画像特徴量が少ない距離別映像の合成係数は小さくするという考えである。この考えに基づき、合成係数Ma1、Mb1、Mb2、Mc1、Mc2、Mc3は、それぞれ下記の数式1~6で求めることができる。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000006
 なお、合成係数の総和が1になるような算出方法であれば、上記の計算式に限定されるものではない。
 距離別映像合成部36は、合成係数調整部35で求めた合成係数を用いて、中心位置合わせ部33で位置合わせを行った距離別映像を合成して、1枚の合成映像を生成する。合成係数を使った映像合成処理には、一般的なαブレンディングを用いる。図11は、具体的な映像合成例を示す図である。図11(a)は入力映像の一例を示しており、映像中に4体の歩行者が存在する。4体の歩行者を説明すると、入力映像の左部分には車両からAmの距離に身長200cmと100cmの2体が並んで存在し、入力映像の中央部分には車両からBmの距離に身長200cmの1体が存在し、入力映像の右部分には車両からCmの距離に身長200cmの1体が存在する。図11(b)はAm映像、図11(c)はBm映像、図11(d)はCm映像であり、図11(e)は3枚の距離別画像の大きさを正規化して合成した結果例である。
 次に、第一物体検出部40について説明する。
 合成映像切出拡大部41は、距離別映像合成部36から出力される合成映像の一部分を切り出し、所定の大きさに拡大する。ここで、合成映像を切り出す目的は、検出対象物体の大きさの違いに対応するためである。例えば、図11において身長100cmの歩行者と身長200cmの歩行者を両方とも検出するためである。ここで、図11(e)の合成映像において、車両からの距離に対応して正しく大きさが正規化された4体の歩行者だけを抽出した図を、図12に示す。このとき、身長に関わらず全ての歩行者の足元の位置は一致しているが、頭部の位置は身長によって異なり、身長が同じであるならば車両からの距離に関わらず同じ大きさとなる。後段の物体検出処理は、走査枠の設定上、歩行者の垂直サイズが128画素程度である必要があるので、このままでは身長100cmの歩行者は検出できない。そこで、合成映像を切り出して拡大することで対応する。拡大処理は、切り出した映像の垂直サイズが切り出す前の合成映像の垂直サイズである128画素となるように、映像の縦横比を保存したままで拡大する。図13は、身長100cmを対象にした切出拡大の例であり、図13(a)は切出領域を示した図であり、図13(b)は切り出した映像を拡大した図を示している。ここでは身長100cmの切出拡大例を示したが、他の身長についても必要な分だけ切出拡大処理を行う。このとき、歩行者の身長によらず足元は必ず合成映像の下端部に存在するため、切り出し位置は必ず合成映像の下端に接触するのが特徴である。なお、切り出しおよび拡大を行わない場合は、身長200cmの検出に対応する。また、一般的に物体検出処理が対応できる大きさにはマージンがあるので、検出対象とする身長に対して、適宜切出拡大処理を行えばよい。
 次に、合成映像特徴量判定部42について、図14を参照して説明する。ここでの判定処理は、合成映像切出拡大部41で切出拡大された合成映像上において、物体検出処理の走査枠(水平64画素、垂直128画素)内に存在する画像特徴量をカウントする。本実施例ではエッジ特徴を対象とし、エッジのカウント方法は距離別映像特徴量判定部34と同様であるので、説明は割愛する。
 合成映像物体検出部43は、合成映像に対して物体検出処理を行う。合成映像の垂直サイズと物体検出処理の走査枠の垂直サイズは一致しているので、合成映像上で水平方向のみに1回走査し、走査内に検出対象物体が存在するかを判定する処理となる。このとき、走査において全ての走査位置で検出処理を行うのではなく、合成映像特徴量判定部42の結果を用いて検出処理を行うかどうかを判断する。すなわち、走査枠内に画像特徴が存在しない場合は物体が存在しえないので、検出処理を行わずに走査を進めることで全体の検出処理を高速化する。画像特徴が存在するかどうかの判定は、閾値を適宜に設定して一定以上の画像特徴が存在する場合にのみ検出処理を行うようにする。
 本実施例における物体検出処理は、エッジ特徴をベースにした物体検出手法を用いる。エッジ特徴を使う手法としては、エッジの強度と方向を用いるHOG特徴を利用した手法が一般的であり、本発明にも適用できる。また、HOG特徴を利用した手法に限らず、エッジ特徴を用いる物体検出ならば、いずれも適用が可能である。また、本発明においては、画像特徴としてエッジ特徴以外のものでも適用可能である。
 次に、物体候補位置指定部50について、図15を参照して説明する。図15(a)は入力映像、図15(b)は合成映像上で第一物体検出処理を行った検出結果、図15(c)は第一物体検出処理より距離別映像拡縮部32の出力であるAm映像上における物体候補位置を指定した結果、図15(d)はBm映像上における物体候補位置を指定した結果、図15(e)はCm映像上における物体候補位置を指定した結果である。ここでの入力映像は、距離AmとCmの地点に身長200cmの歩行者が1体ずついることを示しており、合成映像上の検出結果として、2体の歩行者が検出されている。このとき、合成映像はAm映像、Bm映像、Cm映像の3つの映像を合成しているので、合成映像上で検出結果が1つ存在すると、Am映像、Bm映像、Cm映像のそれぞれに物体候補位置が1つ指定できる。合成映像と各距離別映像の中心位置は一致しているので、合成映像上の検出位置から各距離別映像上の候補位置は同一座標上で指定できる。但し、合成映像は全ての領域で3つの映像が合成されているのではなく、部分的には2つの映像もしくは1つの映像から生成されるため、合成映像上の検出結果の位置によっては、必ずしも全ての距離別映像上に物体候補位置が指定できるわけではない。図15に示した例では、Am映像上では物体候補位置は1つ、BmおよびCmの距離別映像上では2つの物体候補位置が指定される。
 第二物体検出部60は、物体候補位置指定部50によって各距離別映像上に指定された物体候補位置に対して物体検出処理を行い、距離別映像上で物体が存在する位置を特定する。ここでの物体検出処理は、合成映像物体検出部43で行ったような走査の必要はなく、物体候補位置指定部50によって指定された候補位置に限定して、物体検出処理を行えばよい。図16に、図15(c)~(e)で指定された物体候補位置に対して物体検出処理を行った検出結果を示す。図16(a)はAm映像での検出結果、図16(b)はBm映像での検出結果、図16(c)はCm映像での検出結果を示しており、Am映像およびCm映像で1体ずつ検出される。すなわち、車両からAmの距離に1体、Cmの距離に1体の歩行者が存在することが分かる。また、物体検出処理の手段については、合成映像物体検出部43と同様に、エッジ特徴をベースにした物体検出手法を用いる。用いる手法としては、合成映像物体検出部43と同じ検出手法でもよいし、異なっていても構わない。さらに、合成映像物体検出部43と第二物体検出部60における物体検出の精度を変えてもよい。この場合、合成映像物体検出部43よりも第二物体検出部60の検出精度をより厳密にしておくとよい。合成映像物体検出部43は第二物体検出部60と比較して処理量が多いので、誤検出を多少許容する程度の簡易的な物体検出を行い、物体候補が限定されて処理量が少なくなった第二物体検出処理で誤検出を除外し、確実に検出対象物体だけを検出結果とする。これによって、検出精度を落とさずに物体検出処理の高速化が実現できる。
 物体位置特定部70は、第二物体検出部60で検出した距離別映像上の物体検出結果に基づいて、入力映像上での物体位置を特定する。入力映像上での物体位置は、距離別映像抽出部31および距離別映像拡縮部32において距離別映像を生成した際の抽出座標位置および拡縮率より、容易に求めることができる。距離別映像上の検出位置座標から入力映像上の位置座標を求める手順について、図17を参照して説明する。図17(a)は、入力映像から距離別映像を抽出する座標位置を示しており、入力映像の左上を原点(0,0)として、左上(Xos,Yos)から右下(Xoe,Yoe)で囲まれる領域に対し、拡縮率kをかけたものが距離別映像となる。図17(b)は、図17(a)で抽出した距離別映像上で物体位置を特定した座標位置を示しており、距離別映像の左上を原点(0,0)として、左上(Xds,Yds)から右下(Xde,Yde)で囲まれる範囲が検出位置となる。図17(c)は、距離別映像上で特定した物体位置の座標を入力映像上の座標に変換した結果となり、入力映像の左上を原点(0,0)として、左上(Xrs、Yrs)から右下(Xre、Yre)で囲まれる範囲が最終的な物体検出結果の座標となる。このとき、Xrs、Yrs、Xre、Yreは、図17(a)および図17(b)の各変数を用いて、下記の数式7~10で求めることができる。
Figure JPOXMLDOC01-appb-M000007
Figure JPOXMLDOC01-appb-M000008
Figure JPOXMLDOC01-appb-M000009
Figure JPOXMLDOC01-appb-M000010
 これにより、入力映像上で物体位置を特定することができる。また、物体位置を特定するとともに、距離別映像上で一旦物体位置を求めているので、車両から物体までの距離も併せて特定することが可能である。
 上記実施形態に係る物体検出装置によれば、車両周辺を撮影した映像から特徴映像に変換し、車両からの距離に基づいて、特徴映像から距離毎に異なる領域を抽出して合成した映像上で第一物体検出処理を行って物体候補位置を求め、さらに、物体候補位置に対して第二の物体検出処理を行った上で物体検出位置を特定するので、物体検出性能を犠牲にすることなく物体検出処理を高速化し、併せて車両から物体までの距離も測定することができる。
 以上に、現時点で考えられる本発明の好適な実施の形態を説明したが、本実施の形態に対して多様な変形が可能であり、そして、本発明の真実の精神と範囲内にあるそのようなすべての変形を請求の範囲が含むことが意図されている。
 また、本発明の物体検出方法は、上記物体検出装置により実現される各ステップを含む方法とすることができ、本発明の物体検出プログラムについても、上記物体検出装置により実現される各機能をコンピュータに実現させるものとすればよく、特に制限されるものではない。
 以上に現時点で考えられる本発明の好適な実施の形態を説明したが、本実施の形態に対して多様な変形が可能なことが理解され、そして、本発明の真実の精神と範囲内にあるそのようなすべての変形を添付の請求の範囲が含むことが意図されている。
 以上のように、本発明の物体検出装置は、車両周辺を撮影した映像から特徴映像に変換し、車両からの距離に基づいて、特徴映像から距離毎に異なる領域を抽出して合成した映像上で第一物体検出処理を行って物体候補位置を求め、さらに、物体候補位置に対して第二の物体検出処理を行った上で物体検出位置を特定するので、物体検出性能を犠牲にすることなく物体検出処理を高速化し、併せて車両から物体までの距離も測定することができるという優れた効果を有し、車両周辺の物体を検出するため物体検出装置等として有用である。
 10 物体検出装置
 20 映像変換部
 30 距離別映像抽出合成部
 31 距離別映像抽出部
 32 距離別映像拡縮部
 33 中心位置合わせ部
 34 距離別映像特徴量判定部
 35 合成係数調整部
 36 距離別映像合成部
 40 第一物体検出部
 41 合成映像切出拡大部
 42 合成映像特徴量判定部
 43 合成映像物体検出部
 50 物体候補位置指定部
 60 第二物体検出部
 70 物体位置特定部

Claims (18)

  1.  車両から撮影した車両周辺の映像を入力映像として、該入力映像から車両付近の物体を検出する物体検出装置であって、
     前記入力映像を、該入力映像から画像特徴を抽出した特徴映像へと変換する映像変換部と、
     前記車両からの距離に基づいて、前記特徴映像から、距離毎に異なる領域を距離別映像として抽出し、前記距離別映像を用いた合成映像を合成する距離別映像抽出合成部と、
     前記距離別映像抽出合成部で合成した前記合成映像を走査して、前記合成映像から検出される物体の前記合成映像上の位置を求める第一の物体検出処理を行う第一物体検出部と、
     前記第一物体検出部で検出された物体の前記合成映像上の位置に基づいて、前記距離別映像において前記物体が存在する可能性がある物体候補位置を求める物体候補位置指定部と、
     前記物体候補位置指定部で求めた物体候補位置に対して、前記距離別映像において対応する物体位置を特定する第二の物体検出処理を行う第二物体検出部と、
     前記第二物体検出部で求めた物体位置に基づいて、前記入力映像における物体位置を特定する物体位置特定部と、
    を備えることを特徴とする物体検出装置。
  2.  前記映像変換部が、前記画像特徴としてエッジ特徴を抽出することを特徴とする請求項1記載の物体検出装置。
  3.  前記距離別映像抽出合成部が、前記車両からの距離に基づいて、前記特徴映像から抽出する領域の大きさを変更することを特徴とする請求項1に記載の物体検出装置。
  4.  前記距離別映像抽出合成部が、全ての前記距離別映像の垂直サイズが等しくなるよう、距離毎に抽出した映像を拡縮することを特徴とする請求項1に記載の物体検出装置。
  5.  前記距離別映像抽出合成部が、前記距離別映像の水平中心軸および垂直中心軸の位置を合わせて合成することを特徴とする請求項1に記載の物体検出装置。
  6.  前記距離別映像抽出合成部が、前記距離別映像をαブレンディングで合成することを特徴とする請求項1に記載の物体検出装置。
  7.  前記距離別映像抽出合成部が、前記距離別映像の合成数に応じて、部分的にαブレンディングの合成係数を調整して合成することを特徴とする請求項1に記載の物体検出装置。
  8.  前記距離別映像抽出合成部が、前記距離別映像に含まれる画像特徴量に応じて、αブレンディングの合成係数を調整して合成することを特徴とする請求項1に記載の物体検出装置。
  9.  前記第一物体検出部が、前記第一の物体検出処理において、検出対象とする物体の垂直サイズを、前記合成映像の垂直サイズと等しく設定することを特徴とする請求項1に記載の物体検出装置。
  10.  前記第一物体検出部が、前記合成映像上を水平方向だけに走査して物体検出処理を行うことを特徴とする請求項1に記載の物体検出装置。
  11.  前記第一物体検出部が、前記合成映像の下端部に接する領域を切り出して、切り出した領域の垂直サイズを前記合成映像の垂直サイズと等しくなるように拡大した拡大合成映像を生成する合成映像切出拡大部を備えることを特徴とする請求項1に記載の物体検出装置。
  12.  前記第一物体検出部が、前記拡大合成映像に対して物体検出処理を行うことを特徴とする請求項11に記載の物体検出装置。
  13.  前記第一物体検出部が、前記拡大合成映像上を水平方向だけに走査して物体検出処理を行うことを特徴とする請求項12に記載の物体検出装置。
  14.  前記第一物体検出部が、物体検出を行う検出判定基準を前記第二物体検出部とは別々に調整可能であって、かつ、前記第二物体検出部よりも物体であると判定しやすくなるように検出基準が調整されていることを特徴とする請求項1に記載の物体検出装置。
  15.  前記第一物体検出部が、前記合成映像上で画像特徴が存在する部分だけを対象として、第一の物体検出処理を行うことを特徴とする請求項1に記載の物体検出装置。
  16.  前記物体位置特定部が、前記第二物体検出部で検出された前記距離別映像上の物体位置に基づいて、前記車両から検出された物体までの距離を求めることを特徴とする請求項1に記載の物体検出装置。
  17.  車両から撮影した車両周辺の映像を入力映像として、該入力映像から車両付近の物体を検出する物体検出方法であって、
     前記入力映像を、該入力映像から画像特徴を抽出した特徴映像へと変換する映像変換ステップと、
     前記車両からの距離に基づいて、前記特徴映像から、距離毎に異なる領域を距離別映像として抽出し、前記距離別映像を用いた合成映像を合成する距離別映像抽出合成ステップと、
     前記距離別映像抽出合成ステップで合成した前記合成映像を走査して、前記合成映像から検出される物体の前記合成映像上の位置を求める第一の物体検出処理を行う第一物体検出ステップと、
     前記第一物体検出ステップで検出された物体の前記合成映像上の位置に基づいて、前記距離別映像において前記物体が存在する可能性がある物体候補位置を求める物体候補位置検出ステップと、
     前記物体候補位置検出ステップで求めた物体候補位置に対して、前記距離別映像において対応する物体位置を特定する第二の物体検出処理を行う第二物体検出ステップと、
     前記第二物体検出ステップで求めた物体位置に基づいて、前記入力映像における物体位置を特定する物体位置特定ステップと、
    を含むことを特徴とする物体検出方法。
  18.  車両から撮影した車両周辺の映像を入力映像として、該入力映像から車両付近の物体を検出する物体検出プログラムであって、
     コンピュータに、
     前記入力映像を、該入力映像から画像特徴を抽出した特徴映像へと変換する映像変換機能と、
     前記車両からの距離に基づいて、前記特徴映像から、距離毎に異なる領域を距離別映像として抽出し合成する距離別映像抽出合成機能と、
     前記距離別映像抽出合成機能で合成した合成映像を走査して第一の物体検出処理を行う第一物体検出機能と、
     前記第一物体検出機能で物体が検出された前記合成映像上の位置に基づいて、前記距離別映像において物体が存在する可能性がある物体候補位置を求める物体候補位置検出機能と、
     前記物体候補位置検出機能で求めた物体候補位置に対して第二の物体検出処理を行い前記距離別映像における物体位置を特定する第二物体検出機能と、
     前記第二物体検出機能で求めた物体位置に基づいて、前記入力映像における物体位置を特定する物体位置特定機能と、
    を実現させることを特徴とする物体検出プログラム。
PCT/JP2012/002375 2011-06-02 2012-04-05 物体検出装置、物体検出方法および物体検出プログラム WO2012164804A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2013517820A JP5877376B2 (ja) 2011-06-02 2012-04-05 物体検出装置、物体検出方法および物体検出プログラム
CN201280001918.7A CN102985945B (zh) 2011-06-02 2012-04-05 物体检测装置、物体检测方法
EP12788099.5A EP2717219B1 (en) 2011-06-02 2012-04-05 Object detection device, object detection method, and object detection program
US13/672,002 US9152887B2 (en) 2011-06-02 2012-11-08 Object detection device, object detection method, and object detection program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011124362 2011-06-02
JP2011-124362 2011-06-02

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/672,002 Continuation US9152887B2 (en) 2011-06-02 2012-11-08 Object detection device, object detection method, and object detection program

Publications (1)

Publication Number Publication Date
WO2012164804A1 true WO2012164804A1 (ja) 2012-12-06

Family

ID=47258682

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/002375 WO2012164804A1 (ja) 2011-06-02 2012-04-05 物体検出装置、物体検出方法および物体検出プログラム

Country Status (5)

Country Link
US (1) US9152887B2 (ja)
EP (1) EP2717219B1 (ja)
JP (1) JP5877376B2 (ja)
CN (1) CN102985945B (ja)
WO (1) WO2012164804A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150102525A (ko) * 2014-02-28 2015-09-07 경북대학교 산학협력단 동등-높이 정합 영상을 이용하여 물체를 검출하기 위한 영상 처리 장치 및 방법, 그리고 그를 이용한 차량 운전 보조 시스템
KR101593484B1 (ko) * 2014-07-10 2016-02-15 경북대학교 산학협력단 동등-높이 주변영역 정합 영상을 이용하여 측면에서 접근하는 일부분만 보이는 물체를 검출하기 위한 영상 처리 장치 및 방법, 그리고 그를 이용한 차량 운전 보조 시스템
CN108491795A (zh) * 2018-03-22 2018-09-04 北京航空航天大学 轨道交通场景的行人检测方法与装置
KR20200091331A (ko) * 2019-01-22 2020-07-30 주식회사 스트라드비젼 다중 카메라 혹은 서라운드 뷰 모니터링에 이용되기 위해, 타겟 객체 통합 네트워크 및 타겟 영역 예측 네트워크를 이용하여 핵심성과지표와 같은 사용자 요구 사항에 적응 가능한 cnn 기반 객체 검출기를 학습하는 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치
JP2021174147A (ja) * 2020-04-22 2021-11-01 富士通クライアントコンピューティング株式会社 情報処理装置、情報処理システムおよびプログラム
WO2024069778A1 (ja) * 2022-09-28 2024-04-04 株式会社日立国際電気 物体検知システム、カメラ、及び物体検知方法

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014103433A1 (ja) * 2012-12-25 2014-07-03 本田技研工業株式会社 車両周辺監視装置
JP6471528B2 (ja) * 2014-02-24 2019-02-20 株式会社リコー 物体認識装置、物体認識方法
KR102199094B1 (ko) * 2014-05-26 2021-01-07 에스케이텔레콤 주식회사 관심객체 검출을 위한 관심영역 학습장치 및 방법
RU2714091C1 (ru) * 2016-06-27 2020-02-11 Ниссан Мотор Ко., Лтд. Способ отслеживания объектов и устройство отслеживания объектов
JP2018136803A (ja) * 2017-02-23 2018-08-30 株式会社日立製作所 画像認識システム
KR101958275B1 (ko) * 2017-07-07 2019-03-14 한국항공우주연구원 영상 패치 정규화 방법 및 시스템

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001052171A (ja) * 1999-08-06 2001-02-23 Nissan Motor Co Ltd 周囲環境認識装置
JP2007265390A (ja) 2006-02-28 2007-10-11 Sanyo Electric Co Ltd 物体検出装置
JP2007272555A (ja) * 2006-03-31 2007-10-18 Victor Co Of Japan Ltd 画像処理装置
JP2007316790A (ja) * 2006-05-24 2007-12-06 Nissan Motor Co Ltd 歩行者検出装置および歩行者検出方法
JP2011055366A (ja) * 2009-09-03 2011-03-17 Panasonic Corp 画像処理装置及び画像処理方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7243945B2 (en) * 1992-05-05 2007-07-17 Automotive Technologies International, Inc. Weight measuring systems and methods for vehicles
US7415126B2 (en) * 1992-05-05 2008-08-19 Automotive Technologies International Inc. Occupant sensing system
US7477758B2 (en) * 1992-05-05 2009-01-13 Automotive Technologies International, Inc. System and method for detecting objects in vehicular compartments
WO1997016807A1 (en) * 1995-10-31 1997-05-09 Sarnoff Corporation Method and apparatus for image-based object detection and tracking
US6757009B1 (en) * 1997-06-11 2004-06-29 Eaton Corporation Apparatus for detecting the presence of an occupant in a motor vehicle
JP3298851B2 (ja) * 1999-08-18 2002-07-08 松下電器産業株式会社 多機能車載カメラシステムと多機能車載カメラの画像表示方法
JP3599639B2 (ja) * 2000-05-26 2004-12-08 松下電器産業株式会社 画像処理装置
JP2002359839A (ja) * 2001-03-29 2002-12-13 Matsushita Electric Ind Co Ltd リアビューカメラの画像表示方法及びその装置
JP2003016429A (ja) * 2001-06-28 2003-01-17 Honda Motor Co Ltd 車両周辺監視装置
US20030137586A1 (en) * 2002-01-22 2003-07-24 Infinite Innovations, Inc. Vehicle video switching system and method
EP1398601A3 (en) * 2002-09-13 2014-05-07 Canon Kabushiki Kaisha Head up display for navigation purposes in a vehicle
US7782374B2 (en) * 2005-03-03 2010-08-24 Nissan Motor Co., Ltd. Processor and processing method for generating a panoramic image for a vehicle
EP1901225A1 (en) * 2005-05-10 2008-03-19 Olympus Corporation Image processing device, image processing method, and image processing program
US8885045B2 (en) * 2005-08-02 2014-11-11 Nissan Motor Co., Ltd. Device and method for monitoring vehicle surroundings
EP2000889B1 (en) * 2006-03-15 2018-06-27 Omron Corporation Monitor and monitoring method, controller and control method, and program
EP2168079B1 (en) * 2007-01-23 2015-01-14 Valeo Schalter und Sensoren GmbH Method and system for universal lane boundary detection
JP4863922B2 (ja) * 2007-04-18 2012-01-25 三洋電機株式会社 運転支援システム並びに車両
EP2674323B1 (en) * 2007-04-30 2018-07-11 Mobileye Vision Technologies Ltd. Rear obstruction detection
JP4595976B2 (ja) * 2007-08-28 2010-12-08 株式会社デンソー 映像処理装置及びカメラ
JP4450036B2 (ja) * 2007-09-10 2010-04-14 トヨタ自動車株式会社 複合画像生成装置、及びプログラム
US8988525B2 (en) * 2009-08-27 2015-03-24 Robert Bosch Gmbh System and method for providing guidance information to a driver of a vehicle
WO2011028686A1 (en) * 2009-09-01 2011-03-10 Magna Mirrors Of America, Inc. Imaging and display system for vehicle
JP4689758B1 (ja) * 2010-04-22 2011-05-25 株式会社市川ソフトラボラトリー 画像一致点検出装置、画像一致点検出方法および記録媒体
US10089537B2 (en) * 2012-05-18 2018-10-02 Magna Electronics Inc. Vehicle vision system with front and rear camera integration

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001052171A (ja) * 1999-08-06 2001-02-23 Nissan Motor Co Ltd 周囲環境認識装置
JP2007265390A (ja) 2006-02-28 2007-10-11 Sanyo Electric Co Ltd 物体検出装置
JP2007272555A (ja) * 2006-03-31 2007-10-18 Victor Co Of Japan Ltd 画像処理装置
JP2007316790A (ja) * 2006-05-24 2007-12-06 Nissan Motor Co Ltd 歩行者検出装置および歩行者検出方法
JP2011055366A (ja) * 2009-09-03 2011-03-17 Panasonic Corp 画像処理装置及び画像処理方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP2717219A4

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150102525A (ko) * 2014-02-28 2015-09-07 경북대학교 산학협력단 동등-높이 정합 영상을 이용하여 물체를 검출하기 위한 영상 처리 장치 및 방법, 그리고 그를 이용한 차량 운전 보조 시스템
KR101593483B1 (ko) * 2014-02-28 2016-02-12 경북대학교 산학협력단 동등-높이 정합 영상을 이용하여 물체를 검출하기 위한 영상 처리 장치 및 방법, 그리고 그를 이용한 차량 운전 보조 시스템
US9646363B2 (en) 2014-02-28 2017-05-09 Kyungpook National University Industry-Academic Cooperation Foundation Image processing apparatus and method for detecting object using equi-height mosaicking image, and vehicle operation assisting system employing same
KR101593484B1 (ko) * 2014-07-10 2016-02-15 경북대학교 산학협력단 동등-높이 주변영역 정합 영상을 이용하여 측면에서 접근하는 일부분만 보이는 물체를 검출하기 위한 영상 처리 장치 및 방법, 그리고 그를 이용한 차량 운전 보조 시스템
US9569685B2 (en) 2014-07-10 2017-02-14 Kyungpook National University Industry-Academic Cooperation Foundation Image processing apparatus and method for detecting partially visible object approaching from side using equi-height peripheral mosaicking image, and driving assistance system employing the same
CN108491795A (zh) * 2018-03-22 2018-09-04 北京航空航天大学 轨道交通场景的行人检测方法与装置
CN108491795B (zh) * 2018-03-22 2022-05-13 北京航空航天大学 轨道交通场景的行人检测方法与装置
KR20200091331A (ko) * 2019-01-22 2020-07-30 주식회사 스트라드비젼 다중 카메라 혹은 서라운드 뷰 모니터링에 이용되기 위해, 타겟 객체 통합 네트워크 및 타겟 영역 예측 네트워크를 이용하여 핵심성과지표와 같은 사용자 요구 사항에 적응 가능한 cnn 기반 객체 검출기를 학습하는 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치
KR102328731B1 (ko) 2019-01-22 2021-11-22 주식회사 스트라드비젼 다중 카메라 혹은 서라운드 뷰 모니터링에 이용되기 위해, 타겟 객체 통합 네트워크 및 타겟 영역 예측 네트워크를 이용하여 핵심성과지표와 같은 사용자 요구 사항에 적응 가능한 cnn 기반 객체 검출기를 학습하는 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치
JP2021174147A (ja) * 2020-04-22 2021-11-01 富士通クライアントコンピューティング株式会社 情報処理装置、情報処理システムおよびプログラム
WO2024069778A1 (ja) * 2022-09-28 2024-04-04 株式会社日立国際電気 物体検知システム、カメラ、及び物体検知方法

Also Published As

Publication number Publication date
US9152887B2 (en) 2015-10-06
EP2717219B1 (en) 2018-05-30
JPWO2012164804A1 (ja) 2014-07-31
CN102985945B (zh) 2016-09-07
US20130070096A1 (en) 2013-03-21
EP2717219A4 (en) 2016-05-25
JP5877376B2 (ja) 2016-03-08
CN102985945A (zh) 2013-03-20
EP2717219A1 (en) 2014-04-09

Similar Documents

Publication Publication Date Title
JP5877376B2 (ja) 物体検出装置、物体検出方法および物体検出プログラム
JP4930046B2 (ja) 路面判別方法および路面判別装置
JP4171501B2 (ja) 車両の周辺監視装置
JP5959073B2 (ja) 検出装置、検出方法、及び、プログラム
JP4872769B2 (ja) 路面判別装置および路面判別方法
JP5401257B2 (ja) 遠赤外線歩行者検知装置
EP2237988A2 (en) Object detection and recognition system
EP3115966A1 (en) Object detection device, object detection method, and computer program
JP2018025906A (ja) 画像処理装置、撮像装置、移動体機器制御システム、画像処理方法、及びプログラム
JP2018147393A (ja) 標識認識システム
JP2012252501A (ja) 走行路認識装置及び走行路認識用プログラム
JP2017207874A (ja) 画像処理装置、撮像装置、移動体機器制御システム、画像処理方法、及びプログラム
JP6711128B2 (ja) 画像処理装置、撮像装置、移動体機器制御システム、画像処理方法、及びプログラム
JP5062091B2 (ja) 移動体識別装置、コンピュータプログラム及び光軸方向特定方法
US10789727B2 (en) Information processing apparatus and non-transitory recording medium storing thereon a computer program
JP2012185555A (ja) 物体検出装置及び方法、並びにプログラム
JP2011033594A (ja) 車両用距離算出装置
JP2006003994A (ja) 道路標識認識装置
JP6802999B2 (ja) 区画線検出システム
EP3287948A1 (en) Image processing apparatus, image capturing apparatus, moving body apparatus control system, image processing method, and program
JP2002150302A (ja) 路面認識装置
CN111133439B (zh) 全景监视系统
JP2010239448A (ja) 道路標識認識装置
KR20150111611A (ko) 차량 후보 검출 장치 및 그 방법
JP2004310282A (ja) 車両検出装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201280001918.7

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2012788099

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12788099

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013517820

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE