WO2018207969A1 - 객체 검출 및 분류 방법 - Google Patents

객체 검출 및 분류 방법 Download PDF

Info

Publication number
WO2018207969A1
WO2018207969A1 PCT/KR2017/005915 KR2017005915W WO2018207969A1 WO 2018207969 A1 WO2018207969 A1 WO 2018207969A1 KR 2017005915 W KR2017005915 W KR 2017005915W WO 2018207969 A1 WO2018207969 A1 WO 2018207969A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
specific object
classification result
class classification
processing unit
Prior art date
Application number
PCT/KR2017/005915
Other languages
English (en)
French (fr)
Inventor
민지홍
강행봉
오상일
Original Assignee
국방과학연구소
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 국방과학연구소 filed Critical 국방과학연구소
Publication of WO2018207969A1 publication Critical patent/WO2018207969A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30204Marker

Definitions

  • the present invention relates to a method of extracting and classifying an object from an image.
  • ADAS Advanced driver assistant systems
  • the cognitive system and the alert notification interface.
  • the first part include collision prediction and inadvertent detection of the driver, and the second part provides the driver with information about the event.
  • both parts have in common that they require reliable object and event detection such as continuous area detection, mapping, and moving object tracking and detection.
  • Object detection and recognition methods for effective identification and area detection of objects of interest are of great importance in various fields. Object detection is performed on a real-time map while driving, and object classification is performed using a classification model learned from an offline database.
  • the object detection and classification system is divided into a candidate detector for detecting object candidates and a classification model for classifying the detected object candidate regions.
  • the region of interest is usually represented as a feature vector, which is traditionally classified using machine learning models such as support vector machine (SVM) and Adaboost.
  • SVM support vector machine
  • Adaboost Adaboost
  • the feature fusion method is a method of selectively fusing unprocessed data or data-specific characteristics. Although many feature fusion methods have been proposed, a problem with one of the sensors included in the multi-sensor modality can have a negative effect on the entire system. In contrast, the decision fusion method performs the object detection and classification process independently for each sensor and derives the final result by fusing the results from each sensor.
  • the present invention proposes a method for detecting an object candidate region for each sensor.
  • the goal is to find a small number of meaningful object candidate regions. It is possible to effectively detect object candidate regions through image segmentation and semantic segmentation of image grouping by applying color smoothing to image data measured by a CCD sensor.
  • the object candidate regions are detected by applying the super voxel segmentation and region growth method to the 3D point cloud data measured by the LIDAR sensor.
  • CNN convolutional neural network
  • An object of the present invention is to improve the accuracy of object detection of an object detection apparatus.
  • another object of the present invention is to fuse sensor information of a plurality of sensors installed in an object detecting apparatus to improve accuracy of object detecting.
  • the present invention provides a two-dimensional image sensor for photographing a two-dimensional image, a two-dimensional image processing unit for extracting a specific object from the photographed two-dimensional image and classifying the class for the specific object, and a three-dimensional image sensor for capturing a three-dimensional image. And a three-dimensional image processing unit for extracting the specific object from the photographed three-dimensional image and classifying a class for the specific object, a class classification result of the specific object extracted by the two-dimensional image processing unit, and the three-dimensional image processing unit. And a convergence processor configured to calculate a final class classification result for the specific object using the extracted class classification result of the specific object.
  • the 2D image processor may perform color smoothing on the 2D image and detect an object candidate region from the color smoothed 2D image.
  • the two-dimensional image processing unit divides the color smoothed two-dimensional image into a plurality of regions, and based on dissimilarity of colors and textures, at least a portion of the plurality of regions as an object candidate region. It is characterized in that the extraction.
  • the 3D image is composed of point cloud data
  • the 3D image processor converts the point cloud data forming the 3D image into a voxel space, and converts the converted voxel space into a unit size.
  • the super voxel is divided into a super voxel, and the object candidate region is detected by grouping the super voxels based on the height difference of the point cloud data included in each space.
  • the voxel space has a predetermined size to minimize noise effects.
  • the fusion processing unit calculates an association between a class classification result of a specific object extracted by the 2D image processing unit and a class classification result of a specific object extracted by the 3D image processing unit, Based on the above, the final class classification result for the specific object is calculated.
  • the fusion processor may determine that the class classification result of the specific object extracted by the 2D image processing unit and the class classification result of the specific object extracted by the 3D image processing unit are related to each other.
  • the final class classification result is calculated by combining the class classification result of the specific object extracted by the dimensional image processing unit and the class classification result of the specific object extracted by the 3D image processing unit, and the specific object extracted by the 2D image processing unit. If it is determined that the class classification result of and the class classification result of the specific object extracted by the 3D image processor are not related to each other, the final class classification result is not calculated.
  • the present invention detects and classifies specific objects in two-dimensional and three-dimensional images, respectively, and determines whether or not the two results are merged according to whether the detected and classified result information is related to each other. Can be improved.
  • FIG. 1 is a conceptual diagram illustrating a configuration of an object detecting apparatus.
  • FIG. 2 is a conceptual diagram illustrating a state in which the object detecting apparatus 1000 is installed in a vehicle.
  • FIG. 3 is a flowchart illustrating a method of detecting a specific object by the object detecting apparatus according to the present invention.
  • FIG. 4 is a flowchart illustrating a method of extracting a specific object from a 3D image by the object detecting apparatus according to the present invention.
  • FIG. 5 is a flowchart illustrating a method in which the object detecting apparatus according to the present invention combines extraction results extracted through a plurality of sensors.
  • the term 'unit' or 'module' includes a unit realized by hardware or software, a unit realized by using both, and one unit may be realized by using two or more pieces of hardware. Two or more units may be realized by one hardware.
  • Autonomous vehicles require technology for detecting and classifying objects that exist in the vicinity of the vehicle for autonomous driving.
  • the present invention proposes a method for detecting and classifying an object present in the vicinity of a vehicle by using a plurality of measurement results measured by a plurality of sensors in an autonomous vehicle.
  • the object detecting apparatus 1000 may detect and classify an object using a plurality of measurement results measured by a plurality of sensors.
  • the object detecting apparatus 1000 may be an internal component of the vehicle, or may be formed to communicate with other components of the vehicle by wire or wirelessly as an external component of the vehicle.
  • the object detecting apparatus 1000 may include a 2D image sensor 110, a 2D image processor 120, a 3D image sensor 210, a 3D image processor 220, and a fusion processor 310. It may include.
  • the 2D image sensor 110 is an image sensor for photographing a 2D image.
  • An example of such an image sensor is a charging coupled device (CCD) sensor.
  • the 2D image sensor 110 may be included in the binocular camera. Therefore, the 2D image sensor 110 may generate a 2D image photographed 360 degrees around the vehicle.
  • the 2D image sensor 110 may be installed on an outer circumferential surface of the vehicle to photograph the surrounding environment of the vehicle.
  • the 2D image sensor 110 may be installed on a ceiling of a vehicle.
  • the 2D image processor 120 may serve to detect a specific object from the 2D image photographed by the 2D image sensor 110.
  • the specific object may be, for example, an object located around a vehicle, and may be, for example, a pedestrian, a nearby vehicle, a bicycle, a street lamp, or the like.
  • the 3D image sensor 210 is an image sensor which captures a 3D image.
  • An example of the 3D image sensor 210 is a 3D leisure scanner sensor.
  • the 3D image sensor 210 may generate a 3D image of 360 degrees of the surrounding of the vehicle. As shown in FIG. 2, the 3D image sensor 210 may be installed on the ceiling of the vehicle.
  • the 3D image processor 220 may serve to detect a specific object from the 3D image captured by the 3D image sensor 210.
  • the fusion processor 310 may detect and classify a specific object located near a vehicle by combining the specific object detected by the 2D image processor 120 and the specific object detected by the 3D image processor 220. have.
  • the object classification apparatus 1000 for detecting and classifying a specific object present around a vehicle has been described.
  • FIG. 3 is a flowchart illustrating a method of detecting a specific object by the object detecting apparatus according to the present invention.
  • the 2D image processor 120 may perform a color smoothing process on the 2D image data (S310).
  • the 2D image processor 120 may perform color smoothing on the 2D image to improve the efficiency of object detection when detecting the object from the 2D image.
  • the color smoothing is an algorithm that uniformly processes the colors of the 2D image. That is, the 2D image processing unit 120 may monochromaticly change the color of the 2D image to more efficiently detect a specific object included in the 2D image.
  • the color smoothing is based on the L1 image color conversion technology.
  • the 2D image processor 120 may generate a converted image by performing color smoothing on the 2D image by using an L1 image color conversion technique.
  • the 2D image before the L1 image color conversion is performed the original image ( )
  • converts the 2D image on which the L1 image conversion is performed Name it
  • the 2D image processor 120 may convert the original image into a converted image by using an energy function defined by Equation 1 below.
  • the 2D image processor 120 may determine an internal similarity between pixels of the original image and pixels of the converted image. ) Can be calculated. remind May be defined by Equation 2 below.
  • a large value of means that the similarity between the pixels of the original image and the pixels of the converted image is low.
  • the smaller value means that the similarity between the pixels of the original image and the pixels of the converted image is high.
  • the 2D image processor 120 indicates internal similarity between the pixels. Based on the color smoothing, all pixels included in the 2D image may be prevented from being converted to the same brightness.
  • the 2D image processor 120 In order to minimize Finds the minimum value.
  • the 2D image processor 120 Repeatedly changing the number of times, Is minimized You can find remind Orientation for can be determined through the split bregman method.
  • the two-dimensional image processing unit 120 has a similarity between neighboring pixels ( ) Can be calculated.
  • the similarity between neighboring pixels can also be referred to as the local smoothness.
  • two neighboring pixels will be described as pixel pairs.
  • the weight may be assigned a high value to a pair of pixels having similar color values in the original image. Accordingly, the present invention can perform color smoothing by minimizing a difference in color values between neighboring pixels of a transformed image by giving a high weight to a pair of pixels having similar color values.
  • the weight may be calculated by Equation 4 below.
  • the pixel pair can be insensitive to changes in illumination.
  • Equation 3 and Equation 4 may be optimized through Equation 5 below.
  • the 2D image processor 120 may determine an object candidate region by using the similarity between colors and textures (S320).
  • the 2D image processor 120 may divide the converted image subjected to the color smoothing process into a plurality of regions.
  • one divided region may be named as a partition.
  • the 2D image processor 120 may include adjacent partitions ( , Depending on the similarity between), at least one partition can be grouped into one group.
  • the similarity between the partitions is the similarity for color and texture.
  • the 2D image processing unit 120 may partition adjacent to each other (Equation 7) below. , You can calculate dissimilarity between
  • the 2D image processing unit 120 uses the histogram of the HSV (Hue Saturation Value) space to determine the color dissimilarity ( ) Can be calculated. More specifically, the 2D image processor 120 may convert each color channel of the color space of each partition into a histogram of 25 columns. The two-dimensional image processor 120 concatenates histograms of 25 spaces in H, S, and V color spaces, and totals 75 histograms ( ) Can be calculated.
  • HSV Human Saturation Value
  • the 2D image processor 120 may include a histogram corresponding to partitions adjacent to each other. By calculating the distance between ) Can be calculated.
  • the 2D image processor 120 may include a histogram (Scale Invariant Feature Transform) of the original image. ), Texture dissimilarity ( ) Can be calculated.
  • the histogram of the SIFT is This is a histogram that applies Gaussian derivative for 8 channels in to each channel.
  • the present invention may improve the accuracy of the texture dissimilarity calculation by calculating the texture dissimilarity using the original image instead of the transformed image to which a lot of compression is applied to the texture.
  • the 2D image processor 120 may generate a histogram of 10 cells in each direction. Therefore, the 2D image processor 120 may calculate the SIFT histogram into 240 spaces.
  • the 2D image processor 120 may calculate texture dissimilarity using Equation 8 below.
  • the 2D image processor 120 may optimize dissimilarity of Equation 7 by using Equation 9 below.
  • the 2D image processor 120 may calculate the dissimilarity diagram ( If is less than a predetermined value, at least two partitions can be grouped to create a group. For example, the 2D image processor 120 may have a first partition adjacent to each other. ) And the second partition ( Dissimilarity of) ) Is the preset value ( Less than), the first partition ( ) And the second partition ( ) Can be set to one group. Meanwhile, here, the preset value ( ) Is a constant determined through repeated experiments.
  • the 2D image processor 120 may determine a group of partitions having high similarity as the object candidate region.
  • the 2D image processor 120 may extract a specific object from the object candidate region (S330).
  • the 2D image processor 120 may extract a specific object from the determined object candidate region by using the CNN model structure.
  • the 2D image processor 120 may construct a convolution cube (ConvCube) using outputs of a plurality of convolutional layers with respect to the determined object candidate region.
  • the convolutional layer is a layer that performs a function of applying a convolution operation to the input data
  • the convolutional cube is a pasted output of two or more layers as a 3D image.
  • the sizes may be standardized by applying different sampling methods according to the size of a specific object.
  • the 2D image processor 120 may minimize feature loss by changing the sampling method according to the size of the specific object, the 2D image processor 120 may detect the specific object even if the size of the specific object is small.
  • the Max pooling sampling scheme may be applied, and vice versa, the Deconvolution sampling scheme may be applied.
  • the 2D image processor 120 may perform normalization of values through local response normalization (LRN) with respect to convolutional layers that have been sampled for each size.
  • LRN local response normalization
  • the 2D image processing unit 120 does not apply the CNN model structure to the entire object candidate region, but constructs a convolution cube for one frame constituting the object candidate region and applies ROI-pooing to the object candidate. You can build convolutional cubes for the entire area.
  • the 2D image processor 120 may sequentially apply two convolutional layers and two fully-connected layers to the convolution cube constructed for the entire object candidate region to obtain a final output.
  • the 2D image processor 120 may extract a specific object and classify a class of the specific object through the softmax classification layer.
  • the class represents the type of object, and may be defined as, for example, a car, a person, or a person in a two-wheeled vehicle.
  • FIG. 4 is a flowchart illustrating a method of extracting a specific object from a 3D image by the object detecting apparatus according to the present invention.
  • the 3D image processor 220 may convert 3D point cloud data forming a 3D image into voxels (S410).
  • the 3D image sensor 210 may capture a 3D image of the surrounding environment of the vehicle.
  • the 3D image may be composed of 3D point cloud data.
  • the 3D image processor 220 may convert the point cloud data forming the 3D image into a 3D activated voxel space.
  • the three-dimensional activated voxel space means a space containing three-dimensional point cloud data.
  • the voxel space corresponding to the three-dimensional point cloud data i Is defined.
  • the voxel space corresponding to the three-dimensional point cloud data i may include the three-dimensional point cloud data i and three-dimensional point cloud data in the vicinity thereof.
  • the voxel space may have a preset size.
  • the voxel space should have a size in which the shape of the meaningful object is not compressed while minimizing the noise data, and the size of the voxel space can be determined by experiment.
  • the size of the voxel space may be determined as 0.1X0.1X0.1.
  • the 3D image processor 220 may calculate an activation probability of each voxel space by using Equation 10 below.
  • Voxel ( ) The probability of activation : The number of voxels, : Voxel ( The number of three-dimensional point cloud data : Voxel ( J-th 3D point cloud data)
  • the 3D image processor 220 may convert the plurality of converted voxel spaces into a plurality of super voxels and determine an object candidate area by using the height difference between the super voxels (S420).
  • the 3D image processor 220 may divide the voxel space into super voxels having a unit size in order to accurately extract the boundary lines of the objects included in the 3D image. More specifically, the 3D image processor 220 may divide the voxel space into a plurality of super voxels through voxel cloud connectivity segmentation (VCCS).
  • VCCS voxel cloud connectivity segmentation
  • the voxel cloud connectivity segmentation performs spatial segmentation using a seeding methodology on three-dimensional data space.
  • the 3D image processor 220 projects the super voxel in a 3D space into a 0.1m X 0.1m grid in a 2D [X, Z] space so that the super voxel may include a partition of an object unit for object extraction. can do.
  • the 3D image processor 220 may determine whether the grids are connected by using the height difference of the super voxels in each grid. That is, when the height difference between the super voxels in the grating is 0.1 m or less, the 3D image processor 220 may group the super voxels in each grating. On the contrary, when the height difference between the super voxels in the grating exceeds 0.1 m, the 3D image processor 220 may not group the super voxels in each grating.
  • the 3D image processor 220 may set an area corresponding to the grouped super voxel as an object candidate area.
  • the 3D image processor 220 may extract a specific object from the determined object candidate region (S430).
  • the 3D image processing unit 220 may convert 3D point cloud data into 2D image depth information data to extract a specific object and classify the class of the specific object in the same manner as the 2D image processing unit 120. . That is, the 3D image processor 220 may extract a specific object by using the CNN model structure. Therefore, the detailed description thereof will be replaced with the description of S330.
  • FIG. 5 illustrates a method of combining the extraction results extracted by the plurality of sensors by the object detecting apparatus according to the present invention.
  • the fusion processor 310 of the object detecting apparatus 1000 may receive an extraction result of extracting a specific object from the 2D image processor 120 and the 3D image processor 220, respectively.
  • the fusion processor 310 may fuse two extraction results to detect a specific object.
  • the control of the fusion processor 310 will be described in more detail.
  • the fusion processor 310 may calculate similarity with respect to different object information extracted from image data measured by different sensors (S510).
  • the fusion processor 310 may calculate the similarity between the two objects with respect to the extraction result representing the specific object extracted by the 2D image sensor 120 and the 3D image sensor 210.
  • Such a similarity calculation method may use a basic belief assingment (BBA) method.
  • the fusion processor 310 may detect a plurality of boundary regions including outlines of specific objects from object candidate regions of each of the 2D and 3D images. That is, the fusion processor 310 detects the first boundary region including the outline of the specific object from the object candidate region of the 2D image, and the second boundary region including the outline of the specific object from the object candidate region of the 3D image. Can be detected.
  • the fusion processing unit 310 the distance of the class classification result ( ) And class dissimilarity diagram ( ), Relationship information between the boundary regions can be obtained.
  • Yager's coupling theory can be used.
  • the fusion processing unit 310 determines the distance (the class classification result). ), A relation matrix between the first boundary region and the second boundary region may be calculated.
  • the relation matrix may be represented by an n X m matrix by n, which is the number of partitions included in the first boundary region, and m, which is the number of super voxels included in the second boundary region.
  • the relation matrix may include a partition included in a first boundary region ( ) And the super voxel included in the second boundary region ( Relationship between It can be composed of).
  • the fusion processor 310 may express a hypothesis group between the first boundary region and the second boundary region by using the relation matrix, using Equation 11 below.
  • the fusion processor 310 may determine the distance between the first boundary area and the class classification result.
  • the basic trust assignment of can be calculated by Equation 12 below.
  • the fusion processing unit 310 may use the following equation (13) to return a large value when the distance between each other is close.
  • the fusion processing unit 310 may include a partition included in the first boundary area ( ) And a super voxel included in the second boundary region ( Class dissimilarity diagram representing the class relationship between ) Can be calculated.
  • the class relationship refers to a partition included in the first boundary area ( ) And a super voxel included in the second boundary region ( ) Is the same or different class.
  • Partition included in the first boundary area ( ) And a super voxel included in the second boundary region ( ) Are of the same class, the partition included in the first boundary area ( ) And a super voxel included in the second boundary region ( ) May have the same object or may include different objects.
  • the partition included in the first boundary area ( ) And a super voxel included in the second boundary region ( ) Are different classes, the partition included in the first boundary area ( ) And a super voxel included in the second boundary region ( ) Can have different objects.
  • the class similarity is measured, so that the partition included in the first boundary region ( ) And a super voxel included in the second boundary region ( Calculate the case where) has different objects.
  • the fusion processing unit 310 calculates a hypothesis group of class relations in order to calculate class dissimilarity. Can be defined as The fusion processor 310 may convert the probability ratio for each class into a BBA density function using pignistic trasformation.
  • the BBA density function is It can be defined as. From here, Denotes the class density of the k th bounding box provided from the sensor S.
  • the fusion processor 310 may calculate the class dissimilarity as shown in Equation 14 below.
  • the fusion processor 310 may calculate the distance of the calculated class classification result ( ) And class dissimilarity diagram ( ), The final relationship component ( ) Can be calculated.
  • the fusion processor 310 may determine whether or not the two boundary regions are related by the final relationship component (S520). That is, when the final relationship component has a predetermined value or more, the fusion processing unit 310 may determine that there is an association, and in the opposite case, may determine that there is no association.
  • the fusion processor 310 may connect the convolution cube and class classification results corresponding to the two boundary regions (S530). That is, the fusion processor 310 may finally output a 2048-dimensional vector through two convolutional layers and two fully-connected layers.
  • the fusion processor 310 may reconstruct the 2048-dimensional vector into a 2054 vector connecting a total of 6-dimensional vectors by connecting the 3D vector of each sensor.
  • the fusion processor 310 may determine the final object candidate region, calculate a final specific object extraction, and classify the final specific object by passing the reconstructed vector through the fully-connected layer and the last previous SVM.
  • the fusion processor 310 may not use the final detection and classification result when the two boundary regions are not related to each other by the final relationship component. Therefore, the present invention can improve the accuracy of object extraction by not including two boundary region information that are not related to each other in the extraction of the final specific object and the calculation of the class classification result of the final specific object.
  • the present invention detects and classifies specific objects in 2D and 3D images, respectively, and determines whether or not the two results are merged according to whether the detected and classified result information is related, respectively. Improve the accuracy of extraction and classification.
  • Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media.
  • Computer readable media may include both computer storage media and communication media.
  • Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
  • Communication media typically includes computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave, or other transmission mechanism, and includes any information delivery media.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 영상에서 객체를 추출 및 분류하는 방법에 관한 것으로, 2차원 영상을 촬영하는 2차원 영상 센서와 상기 촬영된 2차원 영상으로부터 특정 객체를 추출 및 상기 특정 객체에 대한 클래스를 분류하는 2차원 영상 처리부와 3차원 영상을 촬영하는 3차원 영상 센서와 상기 촬영된 3차원 영상으로부터 상기 특정 객체를 추출 및 상기 특정 객체에 대한 클래스를 분류하는 3차원 영상 처리부와 상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과를 이용하여, 상기 특정 객체에 대한 최종 클래스 분류 결과를 산출하는 융합 처리부를 포함한다.

Description

객체 검출 및 분류 방법
본 발명은 영상에서 객체를 추출 및 분류하는 방법에 관한 것이다.
첨단 운전자 보조 시스템 (ADAS, Advanced driver assistant system)는 예측 불가능한 주행 상황에서 운전자의 안전을 위해 도움을 제공한다. ADAS는 2가지 부분으로 나누어 질 수 있는데, 인지 시스템과 경고 알림 인터페이스가 이에 해당된다. 첫 번째 부분에 대한 예로는 충돌 예측과 운전자의 부주의 검출, 두 번 째 부분은 운전자에게 이벤트에 대한 정보 제공을 포함한다. 하지만, 두 부분 모두 연속적인 지역 검출, 매핑, 그리고 운동 물체 추적, 검출 등 신뢰성 높은 객체 및 이벤트 검출을 요구한다는 공통점이 있다.
효과적인 관심 객체에 대한 식별 및 지역 검출을 수행하는 객체 검출 및 인식 방법은 다양한 분야에서 중요하게 적요된다. 객체 검출은 주행 중 실시간 지도에서 진행되어지며 객체 분류는 오프라인 데이터베이스에서 학습된 분류 모델을 사용해 진행된다. 객체 검출 및 분류 시스템은 객체 후보를 검출하는 후보 검출기와 검출된 객체 후보 영역을 분류하는 분류 모델로 나누어진다. 관심 객체 영역은 보통 하나의 특징 벡터로써 표현되며, support vector machine (SVM), Adaboost 등 의 기계학습 모델을 통해 분류하는 것이 전통적인 방식이다.
지능형 차량 시스템에서, 객체 검출 및 분류 성능을 향상시키기 위한 한 가지 방법은 몇 가지 센서의 측정을 융합하는 것이다. 이 때, 서로 다른 센서의 불완전한 측정을 관리하는 것은 이러한 시스템을 구성하는데 있어 매우 중요하다. 서로 다른 센서의 융합을 위한 방법은 크게 두 가지로 나누어지는데 특징 융합과 결정 융합이 포함된다. 특징 융합 방법은 비 가공 데이터 혹은 데이터별 특성을 선택적으로 융합하는 방법이다. 비록 많은 특징 융합 방법이 제안되었음에도 불구하고 다중 센서 모달리티에 포함되는 센서 중 하나의 센서에 문제가 발생 할 경우 시스템 전체에 부정적 영향을 미칠 수 있다. 이에 반해 결정 융합 방법은 객체 검출 및 분류 과정을 각 센서별로 독립적 수행을 하며 각 센서에서의 결과를 융합해 최종 결과를 도출하는 방식이다.
본 발명에서는 각 센서 별 객체 후보 영역을 검출하는 방법을 제안한다. 효과적인 객체 후보 검출을 위해, 적은 수의 의미있는 객체 후보 영역을 찾는 것을 목표로 한다. CCD 센서에서 측정된 영상 데이터에 대해 색상 평활화를 적용한 영상 분할 및 의미적 분할된 영상 그루핑을 통해 효과적으로 객체 후보 영역을 검출 할 수 있다. LIDAR 센서를 통해 측정된 3차원 점 구름 데이터에 대해서 슈퍼복셀 분할 및 영역 성장 방법을 적용해 객체 후보 영역을 각각 검출 한다. 또한 다중 레이어 레이저 스캐너 (3D LIDAR)와 CCD 센서를 융합하는 객체 분류 방법을 제안한다. 이를 위해, 각 센서에서 검출된 객체 후보 영역을 컨벌루션 인공 신경망 (이하 CNN, Convolutional Neural Network)을 사용해 분류하고 또 다른 CNN을 통해 최종 융합 분류를 수행한다.
본 발명은 객체 검출 장치의 객체 검출의 정확도를 향상시키는 것을 일 목적으로 한다.
또한, 본 발명은 객체 검출 장치에 설치된 다수의 센서들의 센서 정보들을 융합하여, 객체 검출의 정확도를 향상시키는 것을 또 다른 목적으로 한다.
본 발명은 2차원 영상을 촬영하는 2차원 영상 센서와 상기 촬영된 2차원 영상으로부터 특정 객체를 추출 및 상기 특정 객체에 대한 클래스를 분류하는 2차원 영상 처리부와 3차원 영상을 촬영하는 3차원 영상 센서와 상기 촬영된 3차원 영상으로부터 상기 특정 객체를 추출 및 상기 특정 객체에 대한 클래스를 분류하는 3차원 영상 처리부와 상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과를 이용하여, 상기 특정 객체에 대한 최종 클래스 분류 결과를 산출하는 융합 처리부를 포함한다.
일 실시 예에 있어서, 상기 2차원 영상 처리부는 상기 2차원 영상을 색상 평활화 처리하고, 상기 색상 평활화 처리된 2차원 영상으로부터 객체 후보 영역을 검출하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 2차원 영상 처리부는 상기 색상 평활화 처리된 2차원 영상을 복수의 영역으로 분할하고, 색상 및 텍스쳐의 비유사도에 근거하여, 상기 복수의 영역의 적어도 일부를 객체 후보 영역으로 추출하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 3차원 영상은 점 구름 데이터들로 이루어져 있고, 상기 3차원 영상 처리부는 상기 3차원 영상을 이루는 점 구름 데이터들을 복셀 공간으로 변환하고, 상기 변환된 복셀 공간을 단위 크기를 갖는 슈퍼 복셀로 분할하며, 각 공간에 포함된 점 구름 데이터의 높이차에 근거하여, 상기 슈퍼 복셀을 그룹핑하여, 객체 후보 영역을 검출하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 복셀 공간은 잡음 효과를 최소화하도록 기 설정된 크기를 갖는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 융합 처리부는 상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과 사이의 연관성을 계산하고, 상기 연관성에 근거하여, 상기 특정 객체에 대한 최종 클래스 분류 결과를 산출하는 것을 특징으로 한다.
일 실시 예에 있어서, 상기 융합 처리부는, 상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과가 서로 연관되었다고 판단되면, 상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과를 조합하여, 최종 클래스 분류 결과를 산출하고, 상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과가 서로 연관되지 않았다고 판단되면, 최종 클래스 분류 결과를 산출하지 않는 것을 특징으로 한다.
본 발명은 2차원 영상과 3차원 영상에서 각각 특정 객체를 검출 및 분류하고, 각각 검출 및 분류된 결과 정보의 연관성 여부에 따라, 두 결과의 융합 여부를 결정함으로써, 특정 객체 추출 및 분류의 정확도를 향상시킬 수 있다.
도 1은 객체 검출 장치의 구성을 나타낸 개념도이다.
도 2는 차량에 객체 검출 장치(1000)가 설치된 모습을 나타낸 개념도이다.
도 3은 본 발명에 따른 객체 검출 장치가 특정 객체를 검출하는 방법을 나타낸 흐름도이다.
도 4는 본 발명에 따른 객체 검출 장치가 3차원 영상에서 특정 객체를 추출하는 방법을 나타낸 흐름도이다.
도 5는 본 발명에 따른 객체 검출 장치가 복수의 센서를 통하여 추출된 추출 결과들을 조합하는 방법을 나타낸 흐름도이다.
이하에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시 예를 상세히 설명한다. 그러나 본 발명은 이하의 실시 예에 한정되지 않으며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 효율적으로 설명하기 위한 수단일 뿐이다.
그리고 본 발명을 명확하게 설명하기 위하여, 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명은 생략하였다. 또한, 본 발명의 도면에서는, 명세서 전체를 통하여 동일한 구성 요소에 대하여, 동일한 도면 부호를 붙여 설명한다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 명세서에 있어서 '부' 또는 ‘모듈’이란, 하드웨어 또는 소프트웨어에 의해 실현되는 유닛(unit), 양방을 이용하여 실현되는 유닛을 포함하며, 하나의 유닛이 둘 이상의 하드웨어를 이용하여 실현되어도 되고, 둘 이상의 유닛이 하나의 하드웨어에 의해 실현되어도 된다.
그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
자율 주행 차량은 자율 주행을 위하여, 차량의 주변에 존재하는 객체의 검출 및 분류 기술을 필요로 한다. 본 발명은 자율 주행 차량에서, 다수의 센서에서 측정된 다수의 측정 결과를 이용하여, 차량의 주변에 존재하는 객체의 검출 및 분류를 수행하는 방법에 대하여 제안한다.
본 발명에 따른 객체 검출 장치(1000)는 다수에 센서에서 측정된 다수의 측정 결과를 이용하여 객체의 검출 및 분류를 수행할 수 있다.
상기 객체 검출 장치(1000)는 차량의 내부 구성 요소일 수도 있고, 차량의 외부 구성 요소로써, 차량의 다른 구성 요소들과 유선 또는 무선으로 통신 가능하도록 형성될 수 있다.
이하에서는, 도 1 및 도 2와 함께 객체 검출 장치(1000)의 구성에 대하여 살펴본다.
도 1을 참고하면, 객체 검출 장치(1000)는 2차원 영상 센서(110), 2차원 영상 처리부(120), 3차원 영상 센서(210), 3차원 영상 처리부(220) 및 융합 처리부(310)을 포함할 수 있다.
2차원 영상 센서(110)는 2차원 영상을 촬영하는 이미지 센서이다. 이러한 이미지 센서의 일 예로, CCD(charging coupled device) 센서가 있다. 2차원 영상 센서(110)는 양안 카메라에 포함될 수 있다. 따라서, 2차원 영상 센서(110)는 차량 주변을 360도로 촬영한 2차원 영상을 생성할 수 있다.
2차원 영상 센서(110)는 차량의 주변 환경을 촬영하도록 차량의 외주면에 설치될 수 있다. 특히, 도 2를 참조하면, 2차원 영상 센서(110)는 차량의 천장에 설치될 수 있다.
2차원 영상 처리부(120)는 상기 2차원 영상 센서(110)를 통하여 촬영된 2차원 영상으로부터 특정 객체를 검출하는 역할을 수행할 수 있다. 특정 객체는, 차량 주변에 위치한 객체로써, 예를 들어, 보행자, 주변 차량, 자전거, 가로등 등이 될 수 있다.
3차원 영상 센서(210)는 3차원 영상을 촬영하는 이미지 센서이다. 3차원 영상 센서(210)의 일 예로, 3차원 레저스캐너 센서가 있다. 3차원 영상 센서(210)는 차량의 주변을 360도로 촬영한 3차원 영상을 생성할 수 있다. 도 2와 같이, 3차원 영상 센서(210)는 차량의 천장 쪽에 설치될 수 있다.
3차원 영상 처리부(220)는 상기 3차원 영상 센서(210)를 통하여 촬영된 3차원 영상으로부터 특정 객체를 검출하는 역할을 수행할 수 있다.
융합 처리부(310)는 상기 2차원 영상 처리부(120)에서 검출한 특정 객체와, 상기 3차원 영상 처리부(220)에서 검출한 특정 객체를 조합하여, 차량 주변에 위치한 특정 객체를 검출 및 분류할 수 있다.
이상에서는 차량 주변에 존재하는 특정 객체를 검출 및 분류하는 객체 분류 장치(1000)에 대하여 설명하였다.
이하에서는 본 발명에 따른 객체 검출 장치가 2차원 영상으로부터 객체를 검출하는 방법에 대하여 설명한다. 도 3은 본 발명에 따른 객체 검출 장치가 특정 객체를 검출하는 방법을 나타낸 흐름도이다.
우선, 2차원 영상 처리부(120)는, 2차원 영상 데이터에 대하여, 색상 평활화 처리를 수행할 수 있다(S310).
2차원 영상 처리부(120)는 2차원 영상으로부터 객체 검출 시, 객체 검출의 효율성을 향상시키기 위하여, 2차원 영상을 색상 평활화 처리할 수 있다. 상기 색상 평활화는 2차원 영상의 색상을 균일하게 처리하는 알고리즘이다. 즉, 2차원 영상 처리부(120)는 2차원 영상의 색상을 단조롭게 변경하여, 2차원 영상에 포함된 특정 객체를 더욱 효율적으로 검출할 수 있다.
상기 색상 평활화는 L1 영상 색상 변환 기술에 기반을 두고 있다. 상기 2차원 영상 처리부(120)는 2차원 영상을 L1 영상 색상 변환 기술을 이용하여, 색상 평활화를 수행한 변환 영상을 생성할 수 있다. 이하에서는, L1 영상 색상 변환이 수행되기 이전의 2차원 영상을 원본 영상(
Figure PCTKR2017005915-appb-I000001
), L1 영상 변환이 수행된 2차원 영상을 변환 영상(
Figure PCTKR2017005915-appb-I000002
)으로 명명한다.
2차원 영상 처리부(120)는 하기의 수학식 1로 정의된 에너지 함수를 이용하여, 원본 영상을 변환 영상으로 변환할 수 있다.
[수학식 1]
Figure PCTKR2017005915-appb-I000003
(
Figure PCTKR2017005915-appb-I000004
: 에너지 함수,
Figure PCTKR2017005915-appb-I000005
: 원본 영상의 픽셀과 변환 영상의 픽셀 간의 내부적 유사도,
Figure PCTKR2017005915-appb-I000006
: 이웃하는 두 픽셀 사이의 유사도)
보다 구체적으로, 2차원 영상 처리부(120)는 원본 영상의 픽셀과 변환 영상의 픽셀 간의 내부적 유사도(
Figure PCTKR2017005915-appb-I000007
)를 계산할 수 있다. 상기
Figure PCTKR2017005915-appb-I000008
는 하기의 수학식 2로 정의될 수 있다.
[수학식 2]
Figure PCTKR2017005915-appb-I000009
(
Figure PCTKR2017005915-appb-I000010
: 원본 영상과 변환 영상 사이의 픽셀 간의 내부적 유사도,
Figure PCTKR2017005915-appb-I000011
: 변환 영상의 모든 픽셀 값을 이어 붙인 벡터,
Figure PCTKR2017005915-appb-I000012
: 원본 영상의 모든 픽셀 값을 이어 붙인 벡터)
즉,
Figure PCTKR2017005915-appb-I000013
는 원본 영상의 픽셀과, 변환 영상의 픽셀 간의 차이 값이 클수록 더 큰 값을 가질 수 있다. 따라서,
Figure PCTKR2017005915-appb-I000014
의 값이 크다는 것은, 원본 영상의 픽셀과 변환 영상의 픽셀 사이의 유사도가 낮다는 의미이고,
Figure PCTKR2017005915-appb-I000015
값이 작다는 것은, 원본 영상의 픽셀과 변환 영상의 픽셀 사이의 유사도가 높다는 의미이다.
2차원 영상 처리부(120)는 상기 픽셀 간 내부적 유사도를 나타내는
Figure PCTKR2017005915-appb-I000016
에 근거하여, 색상 평활화를 수행함으로써, 2차원 영상에 포함된 모든 픽셀이 동일한 밝기 로 변환되는 것을 방지할 수 있다.
보다 구체적으로, 2차원 영상 처리부(120)는
Figure PCTKR2017005915-appb-I000017
를 최소화하기 위하여,
Figure PCTKR2017005915-appb-I000018
가 최소가 되는 값을 찾을 수 있다. 2차원 영상 처리부(120)는
Figure PCTKR2017005915-appb-I000019
를 기 설정된 횟수만큼 반복적으로 변경하면서,
Figure PCTKR2017005915-appb-I000020
가 최소화되는
Figure PCTKR2017005915-appb-I000021
을 찾을 수 있다. 상기
Figure PCTKR2017005915-appb-I000022
에 대한 방향성은 split bregman 방법을 통하여, 결정될 수 있다.
또한, 상기 2차원 영상 처리부(120)는 서로 이웃하는 픽셀 사이의 유사도(
Figure PCTKR2017005915-appb-I000023
)를 계산할 수 있다. 이렇게 서로 이웃하는 픽셀 사이의 유사도를 지역적 완만함이라는 용어로도 명명할 수 있다. 이하, 설명의 편의를 위하여, 서로 이웃하는 2개의 픽셀을 픽셀 쌍이라고 명명하여 설명한다.
상기
Figure PCTKR2017005915-appb-I000024
는 하기의 수학식 3에 의하여 계산될 수 있다.
[수학식 3]
Figure PCTKR2017005915-appb-I000025
(
Figure PCTKR2017005915-appb-I000026
: 이웃하는 픽셀 사이의 유사도,
Figure PCTKR2017005915-appb-I000027
: 변환 영상의 픽셀(
Figure PCTKR2017005915-appb-I000028
)에서의 RGB 벡터,
Figure PCTKR2017005915-appb-I000029
: 픽셀 쌍(
Figure PCTKR2017005915-appb-I000030
,
Figure PCTKR2017005915-appb-I000031
)의 가중치,
Figure PCTKR2017005915-appb-I000032
: 변환 영상의 픽셀 수,
Figure PCTKR2017005915-appb-I000033
: 변환 영상의 픽셀(
Figure PCTKR2017005915-appb-I000034
)에 이웃하는 mXm 픽셀 범위)
상기 가중치는, 원본 영상에서 서로 유사한 색상 값을 갖는 픽셀 쌍에 높은 값이 할당될 수 있다. 따라서, 본 발명은, 서로 유사한 색상 값을 갖는 픽셀 쌍에 높은 가중치를 부여함으로써, 변환 영상의 서로 이웃하는 픽셀 사이의 색상 값의 차이를 최소화하여, 색상 평활화를 수행할 수 있다.
상기 가중치는, 하기의 수학식 4로 계산될 수 있다.
[수학식 4]
Figure PCTKR2017005915-appb-I000035
(
Figure PCTKR2017005915-appb-I000036
: 픽셀 쌍(
Figure PCTKR2017005915-appb-I000037
,
Figure PCTKR2017005915-appb-I000038
)의 가중치,
Figure PCTKR2017005915-appb-I000039
: CIELab 색상 공간에서의 픽셀(
Figure PCTKR2017005915-appb-I000040
) ,
Figure PCTKR2017005915-appb-I000041
: 조명 변화와 관련된 상수,
Figure PCTKR2017005915-appb-I000042
: 분산,
Figure PCTKR2017005915-appb-I000043
: i번째 픽셀의 CIELab 색상 공간에서의 l, a, b 값)
여기에서,
Figure PCTKR2017005915-appb-I000044
는 조명 변화와 관련된 상수로,
Figure PCTKR2017005915-appb-I000045
값을 조정하여, 조명 변화를 최소화 시킬 수 있다. 보다 구체적으로,
Figure PCTKR2017005915-appb-I000046
<1 일 때, 픽셀 쌍은 조명 변화에 대해 둔감해 질 수 있다.
이러한
Figure PCTKR2017005915-appb-I000047
Figure PCTKR2017005915-appb-I000048
는 반복적인 실험을 통하여, 최적의 성능을 도출하기 위한 상수 값이 결정될 수 있다. 바람직하게는, 실험 결과에 따라
Figure PCTKR2017005915-appb-I000049
Figure PCTKR2017005915-appb-I000050
는 각각 0.3과 1.0으로 설정할 수 있다.
한편, 상기 2차원 영상 처리부(120)는 최적의 변환 벡터
Figure PCTKR2017005915-appb-I000051
을 찾기 위하여, 하기의 수학식 5를 통하여, 수학식 3 및 수학식 4를 최적화할 수 있다.
[수학식 5]
Figure PCTKR2017005915-appb-I000052
(z : 변환 벡터,
Figure PCTKR2017005915-appb-I000053
: 상수,
Figure PCTKR2017005915-appb-I000054
: 최소 제곱 형태의 L1 에너지 항의 가중치를 제어하는 상수,
Figure PCTKR2017005915-appb-I000055
,
Figure PCTKR2017005915-appb-I000056
: split bregman 방법의 중간 변수)
상기
Figure PCTKR2017005915-appb-I000057
은 서로 이웃하는 픽셀에 속하는 상태를 나타내는 행렬일 수 있다. 보다 구체적으로,
Figure PCTKR2017005915-appb-I000058
은 mXn 행렬이며, pi가 pj의 mXm 이웃 픽셀에 속하는 경우,
Figure PCTKR2017005915-appb-I000059
, 그렇지 않은 경우,
Figure PCTKR2017005915-appb-I000060
을 가질 수 있다.
상기 2차원 영상 처리부(120)는 색상 및 텍스쳐의 유사도를 이용하여, 객체 후보 영역을 결정할 수 있다(S320).
2차원 영상 처리부(120)는 상기 색상 평활화 처리가 수행된 변환 영상을 복수의 영역으로 분할할 수 있다. 여기에서, 분할된 하나의 영역을 파티션(partition)으로 명명할 수 있다.
2차원 영상 처리부(120)는 서로 인접한 파티션(
Figure PCTKR2017005915-appb-I000061
,
Figure PCTKR2017005915-appb-I000062
) 사이의 유사도에 따라, 적어도 하나의 파티션을 하나의 그룹으로 그룹화할 수 있다. 상기 파티션 사이의 유사도는 색상 및 텍스쳐에 대한 유사도이다.
보다 구체적으로, 2차원 영상 처리부(120)는 하기의 [수학식 7]을 통하여, 서로 인접한 파티션(
Figure PCTKR2017005915-appb-I000063
,
Figure PCTKR2017005915-appb-I000064
) 사이의 비유사도를 계산할 수 있다.
[수학식 7]
Figure PCTKR2017005915-appb-I000065
(
Figure PCTKR2017005915-appb-I000066
: 서로 인접한 파티션 간의 비유사도,
Figure PCTKR2017005915-appb-I000067
: 서로 인접한 파티션(i, j) 간의 색상 비유사도,
Figure PCTKR2017005915-appb-I000068
: 서로 인접한 파티션(i,j) 간의 텍스쳐 비유사도,
Figure PCTKR2017005915-appb-I000069
: 색상, 텍스쳐 각각에 대한 가중치 상수)
2차원 영상 처리부(120)는 HSV(Hue Saturation Value) 공간의 히스토그램을 이용하여, 색상 비유사도(
Figure PCTKR2017005915-appb-I000070
)를 계산할 수 있다. 보다 구체적으로, 2차원 영상 처리부(120)는 각 파티션의 색상 공간에 대한 각 색상 채널을 25칸의 히스토그램으로 변환할 수 있다. 그리고, 2차원 영상 처리부(120)는 H, S, V 색상 공간의 각 25칸 히스토그램을 이어 붙여, 총 75칸의 히스토그램(
Figure PCTKR2017005915-appb-I000071
)을 계산할 수 있다.
상기 2차원 영상 처리부(120)는 서로 인접한 파티션들에 각각 대응되는 히스토그램(
Figure PCTKR2017005915-appb-I000072
) 사이의 거리를 계산하여, 색상 비유사도(
Figure PCTKR2017005915-appb-I000073
)를 계산할 수 있다.
또한, 2차원 영상 처리부(120)는 원본 영상에 대하여, SIFT(Scale Invariant Feature Transform)의 히스토그램(
Figure PCTKR2017005915-appb-I000074
)을 이용하여, 텍스쳐 비유사도(
Figure PCTKR2017005915-appb-I000075
)를 계산할 수 있다. 여기에서, SIFT의 히스토그램은
Figure PCTKR2017005915-appb-I000076
에서 8 방향에 대한 가우시안 미분을 RGB 각 채널에 적용하는 히스토그램이다. 또한, 본 발명은 텍스처에 많은 압축이 가해진 변환 영상 대신 원본 영상을 이용하여, 텍스쳐 비유사도를 계산함으로써, 텍스처 비유사도 계산의 정확도를 향상시킬 수 있다.
보다 구체적으로, 2차원 영상 처리부(120)는 각 방향에 대하여, 10개의 칸으로 구성된 히스토그램을 생성할 수 있다. 따라서, 2차원 영상 처리부(120)는 SIFT 히스토그램을 240개의 칸으로 계산할 수 있다.
상기 2차원 영상 처리부(120)는 하기의 [수학식 8]을 이용하여, 텍스처 비유사도를 계산할 수 있다.
[수학식 8]
Figure PCTKR2017005915-appb-I000077
(
Figure PCTKR2017005915-appb-I000078
: 텍스쳐 비유사도,
Figure PCTKR2017005915-appb-I000079
: i 번째 파티션의 SIFT 히스토그램,
Figure PCTKR2017005915-appb-I000080
: j번째 파티션의 SIFT 히스토그램)
2차원 영상 처리부(120)는 하기의 수학식 9를 이용하여, 수학식 7의 비유사도를 최적화할 수 있다.
[수학식 9]
Figure PCTKR2017005915-appb-I000081
(
Figure PCTKR2017005915-appb-I000082
: 비유사도 함수를 통해 계산된 영상 분할 결과,
Figure PCTKR2017005915-appb-I000083
: 기존 데이터 셋에서 결과를 알고있는 분할 결과(ground truth segmentation),
Figure PCTKR2017005915-appb-I000084
: 선형 SVM을 통해 미리 정의된 규칙화 변수,
Figure PCTKR2017005915-appb-I000085
: slack 변수)
2차원 영상 처리부(120)는 상기 계산된 비유사도(
Figure PCTKR2017005915-appb-I000086
)가 기 설정된 값 미만인 경우, 적어도 두 개의 파티션을 그룹화하여, 그룹을 생성할 있다. 예를 들어, 2차원 영상 처리부(120)는 서로 인접한 제1파티션(
Figure PCTKR2017005915-appb-I000087
)과 제2파티션(
Figure PCTKR2017005915-appb-I000088
)의 비유사도(
Figure PCTKR2017005915-appb-I000089
)가 기 설정된 값(
Figure PCTKR2017005915-appb-I000090
) 미만인 경우, 제1파티션(
Figure PCTKR2017005915-appb-I000091
)과 제2파티션(
Figure PCTKR2017005915-appb-I000092
)을 하나의 그룹으로 설정할 수 있다. 한편, 여기에서, 기 설정된 값(
Figure PCTKR2017005915-appb-I000093
)은 반복적인 실험을 통하여 결정되는 상수이다.
그리고, 2차원 영상 처리부(120)는, 유사도가 높은 파티션들이 모인 그룹을 객체 후보 영역으로 결정할 수 있다.
2차원 영상 처리부(120)는 객체 후보 영역으로부터 특정 객체를 추출할 수 있다(S330).
2차원 영상 처리부(120)는 CNN 모델 구조를 이용하여, 상기 결정된 객체 후보 영역으로부터 특정 객체를 추출할 수 있다.
2차원 영상 처리부(120)는 특정 객체의 추출 정확도를 향상시키기 위하여, t상기 결정된 객체 후보 영역에 대하여, 복수의 컨벌루션 레이어의 출력을 사용하는 컨벌루션 큐브(ConvCube)를 구축할 수 있다. 여기에서, 컨벌루션 레이어는, 입력된 데이터에 컨벌루션 연산을 적용하는 기능을 수행하는 레이어이며, 컨벌루션 큐브는두 개 이상의 레이어의 출력물을 3차원 영상으로 이여 붙인 것이다.
한편, 컨벌루션 큐브에 사용되는 복수의 컨벌루션 레이어의 출력물은 서로 다른 크기를 갖기 때문에, 특정 객체의 크기에 따라, 서로 다른 샘플링 방법을 적용하여, 크기를 규격화할 수 있다. 따라서, 2차원 영상 처리부(120)는 특정 객체의 크기에 따라 샘플링 방법을 달리함으로써, 특징 손실을 최소화할 수 있기 때문에, 특정 객체의 크기가 작더라도, 특정 객체를 검출할 수 있다.
보다 구체적으로, 컨벌루션 큐브의 크기보다 큰 출력을 갖는 컨벌루션 레이어는, Max pooling 샘플링 방식이 적용될 수 있고, 이와 반대의 경우, Deconvolution 샘플링 방식이 적용될 수 있다.
2차원 영상 처리부(120)는, 크기 별로 샘플링이 완료된 컨벌루션 레이어들에 대하여, 지역 응답 정규화(LRN, local response normalization)을 통하여 값의 정규화를 수행할 수 있다.
한편 2차원 영상 처리부(120)는, 객체 후보 영역 전체에 대하여, CNN 모델 구조를 적용하는 것이 아니라, 객체 후보 영역을 이루는 일 프레임에 대하여 컨벌루션 큐브를 구축하고, ROI-pooing을 적용하여, 객체 후보 영역 전체에 대한 컨벌류션 큐브를 구축할 수 있다.
2차원 영상 처리부(120)는 상기 객체 후보 영역 전체에 대하여 구축된 컨벌루션 큐브를, 2개의 컨벌루션 레이어와 2개의 완전 연결(fully-connected) 레이어를 순차적으로 적용하여, 최종 출력을 획득할 수 있다.
2개의 컨벌루션 레이어와 2개의 완전 연결(fully-connected) 레이어를 순차적으로 통과한 후, 2차원 영상 처리부(120)는 softmax 분류 레이어를 통하여, 특정 객체를 추출 및 특정 객체의 클래스를 분류할 수 있다. 여기에서, 클래스는 객체의 종류를 나타내는 것으로, 예를 들어, 자동차, 사람, 2륜차를 탄 사람으로 정의될 수 있다.
이상에서는, 본 발명에 따른 객체 검출 장치가 2차원 영상에서, 특정 객체를 추출하는 방법에 대하여 설명하였다.
이하에서는, 본 발명에 따른 객체 검출 장치가 3차원 영상에서, 특정 객체를 추출하는 방법에 대하여 설명한다. 도 4는 본 발명에 따른 객체 검출 장치가 3차원 영상에서 특정 객체를 추출하는 방법을 나타낸 흐름도이다.
도 4를 참조하면, 3차원 영상 처리부(220)는 3차원 영상을 이루는 3차원 점 구름 데이터를 복셀로 변환할 수 있다(S410).
3차원 영상 센서(210)는 차량의 주변 환경을 3차원 영상으로 촬영할 수 있다. 3차원 영상은 3차원 점 구름 데이터로 이루어질 수 있다.
3차원 영상 처리부(220)은 상기 3차원 영상을 이루는 점 구름 데이터를 3차원 활성화 복셀 공간으로 변환할 수 있다. 3차원 활성화 복셀 공간이란, 3차원 점 구름 데이터를 포함하는 공간을 의미한다. 예를 들어, 3차원 점 구름 데이터 i의 좌표를
Figure PCTKR2017005915-appb-I000094
라고 정의했을 때, 3차원 점 구름 데이터 i에 해당하는 복셀 공간은,
Figure PCTKR2017005915-appb-I000095
으로 정의된다. 3차원 점 구름 데이터 i에 해당하는 복셀 공간은, 3차원 점 구름 데이터 i와 그 주변의 3차원 점 구름 데이터를 포함할 수 있다.
상기 복셀 공간은 기 설정된 크기를 가질 수 있다. 복셀 공간의 크기가 작은 경우, 잡음 데이터를 감소시키기 어렵고, 복셀 공간의 크기가 큰 경우, 의미 있는 객체 형태가 압축되는 문제점이 발생한다. 이에, 복셀 공간은, 잡음 데이터를 최소화하면서, 의미 있는 객체의 형태가 압축되지 않는 크기를 가져야 하며, 이러한 복셀 공간의 크기는 실험에 의하여 결정될 수 있다. 바람직하게는 상기 복셀 공간의 크기는, 0.1X0.1X0.1로 결정될 수 있다. 이를 통하여, 3차원 영상 처리부(220)는 3차원 점 구름 데이터들을 특정 크기를 갖는 복수의 복셀 공간으로 그룹핑하여, 잡음 데이터의 영향을 최소화할 수 있다.
3차원 영상 처리부(220)는 하기의 [수학식 10]에 의하여, 각 복셀 공간의 활성화 확률을 계산할 수 있다.
[수학식 10]
Figure PCTKR2017005915-appb-I000096
(
Figure PCTKR2017005915-appb-I000097
: 복셀(
Figure PCTKR2017005915-appb-I000098
)의 활성화 확률,
Figure PCTKR2017005915-appb-I000099
:복셀 개수,
Figure PCTKR2017005915-appb-I000100
: 복셀(
Figure PCTKR2017005915-appb-I000101
)을 이루는 3차원 점 구름 데이터의 수,
Figure PCTKR2017005915-appb-I000102
: 복셀(
Figure PCTKR2017005915-appb-I000103
)의 j번째 3차원 점 구름 데이터)
상기
Figure PCTKR2017005915-appb-I000104
는 j번째 레이저가 장애물에 반사된 경우, 1, 반사되지 않은 경우, 0을 가질 수 있다.
3차원 영상 처리부(220)는 상기 변환된 복수의 복셀 공간을 복수의 슈퍼 복셀로 변환하고, 슈퍼 복셀 간의 높이차를 이용하여, 객체 후보 영역을 결정할 수 있다(S420).
3차원 영상 처리부(220)는 3차원 영상에 포함된 객체의 경계선을 정확하게 추출하기 위하여, 복셀 공간을 단위 크기를 갖는 슈퍼 복셀로 분할할 수 있다. 보다 구체적으로, 3차원 영상 처리부(220)는 복셀 구름 연결성 분할(VCCS, Voxel cloud connectivity segmentation)을 통하여, 복셀 공간을 복수의 슈퍼 복셀로 분할할 수 있다. 상기 복셀 구름 연결성 분할은 3차원 데이터 공간 상에 씨뿌리기 방법(seeding methodology)를 이용하여, 공간 분할을 수행한다.
상기 3차원 영상 처리부(220)는 상기 슈퍼 복셀이 객체 추출을 위한 객체 단위의 파티션을 포함할 수 있도록 3차원 공간 상의 슈퍼 복셀을 2차원 [X,Z] 공간 상의 0.1m X 0.1m 격자로 투영할 수 있다.
그리고, 3차원 영상 처리부(220)는 각 격자 안의 슈퍼 복셀의 높이 차이를 이용하여, 격자의 연결 여부를 결정할 수 있다. 즉, 3차원 영상 처리부(220)는 격자 안의 슈퍼 복셀 간의 높이 차이가 0.1m 이하인 경우, 각 격자 안의 슈퍼 복셀을 그룹핑할 수 있다. 이와 반대로, 3차원 영상 처리부(220)는 격자 안의 슈퍼 복셀 간의 높이 차이가 0.1m 를 초과하는 경우, 각 격자 안의 슈퍼 복셀을 그룹핑하지 않을 수 있다.
상기 3차원 영상 처리부(220)는 상기 그룹핑된 슈퍼 복셀에 해당하는 영역을 객체 후보 영역으로 설정할 수 있다.
3차원 영상 처리부(220)는 상기 결정된 객체 후보 영역으로부터 특정 객체를 추출할 수 있다(S430).
3차원 영상 처리부(220)는 3차원 점 구름 데이터를, 2차원 영상 깊이 정보 데이터로 변환하여, 2차원 영상 처리부(120)와 동일한 방식으로 특정 객체를 추출 및 특정 객체의 클래스를 분류할 수 있다. 즉, 3차원 영상 처리부(220)는 CNN 모델 구조를 이용하여, 특정 객체를 추출할 수 있다. 따라서, 이에 대한 구체적인 설명은 S330의 설명으로 대체한다.
이상에서는 3차원 영상으로부터 특정 객체를 추출하는 방법에 대하여 설명하였다.
이하에서는 2차원 영상에서 특정 객체를 추출한 결과와, 3차원 영상에서 특정 객체를 추출한 결과를 이용하여, 특정 객체의 추출 정확도를 향상시키는 방법에 대하여 설명한다. 도 5는 본 발명에 따른 객체 검출 장치가 복수의 센서를 통하여 추출된 추출 결과들을 조합하는 방법을 설명한다.
본 발명에 따른 객체 검출 장치(1000)의 융합 처리부(310)는, 2차원 영상 처리부(120)와, 3차원 영상 처리부(220)로부터 각각 특정 객체를 추출한 추출 결과를 수신할 수 있다. 그리고, 융합 처리부(310)는 두 개의 추출 결과를 융합하여, 특정 객체를 검출할 수 있다. 이하, 융합 처리부(310)의 제어에 대하여 보다 구체적으로 살펴본다.
도 5를 참조하면, 융합 처리부(310)는 서로 다른 센서에서 측정된 영상 데이터로부터 추출된 서로 다른 객체 정보에 대한 유사도를 산출할 수 있다(S510).
융합 처리부(310)는 2차원 영상 센서(120)와 3차원 영상 센서(210)에서 추출된 특정 객체를 나타내는 추출 결과에 대하여, 서로 간의 유사도를 계산할 수 있다. 이러한 유사도 계산 방식은, 기본적 신뢰 할당(BBA, basic belief assingment) 방식을 이용할 수 있다.
보다 구체적으로, 융합 처리부(310)는 2차원 영상과 3차원 영상 각각의 객체 후보 영역으로부터 특정 객체의 윤곽선이 포함된 복수의 경계 영역을 검출할 수 있다. 즉, 융합 처리부(310)는 2차원 영상의 객체 후보 영역으로부터 특정 객체의 윤곽선이 포함된 제1경계 영역을 검출하고, 3차원 영상의 객체 후보 영역으로부터 특정 객체의 윤곽선이 포함된 제2경계 영역을 검출할 수 있다.
상기 융합 처리부(310)는, 클래스 분류 결과의 거리(
Figure PCTKR2017005915-appb-I000105
) 및 클래스 비유사도(
Figure PCTKR2017005915-appb-I000106
)에 근거하여, 경계 영역 간의 관계 정보를 획득할 수 있다. 여기에서, Yager의 결합 이론이 사용될 수 있다.
우선, 융합 처리부(310)는, 클래스 분류 결과의 거리(
Figure PCTKR2017005915-appb-I000107
)를 계산하기 위하여, 제1경계 영역과 제2경계 영역 간의 관계 행렬을 계산할 수 있다.
상기 관계 행렬은 제1경계 영역에 포함된 파티션의 수인 n과 제2경계 영역에 포함된 슈퍼 복셀의 수인 m에 의하여, n X m 행렬로 나타낼 수 있다. 또한, 상기 관계 행렬은, 제1경계 영역에 포함된 파티션(
Figure PCTKR2017005915-appb-I000108
)과, 제2경계 영역에 포함된 슈퍼 복셀(
Figure PCTKR2017005915-appb-I000109
) 사이의 관계 성분 (
Figure PCTKR2017005915-appb-I000110
)으로 구성될 수 있다.
상기 융합 처리부(310)는 관계 행렬을 이용하여, 제1경계 영역과 제2경계 영역 간의 가설 집단을 하기의 수학식 11을 통하여 표현할 수 있다.
[수학식 11]
Figure PCTKR2017005915-appb-I000111
여기에서,
Figure PCTKR2017005915-appb-I000112
는 관계 확률
Figure PCTKR2017005915-appb-I000113
이고,
Figure PCTKR2017005915-appb-I000114
은 관계 확률
Figure PCTKR2017005915-appb-I000115
이다.
상기 융합 처리부(310)는 상기 제1경계 영역과, 상기 클래스 분류 결과의 거리(
Figure PCTKR2017005915-appb-I000116
)의 기본적 신뢰 할당을 하기의 수학식 12에 의하여 계산할 수 있다.
[수학식 12]
Figure PCTKR2017005915-appb-I000117
(
Figure PCTKR2017005915-appb-I000118
: 증거 감소 팩터(evidence discounting factor),
Figure PCTKR2017005915-appb-I000119
:
Figure PCTKR2017005915-appb-I000120
Figure PCTKR2017005915-appb-I000121
사이의 Mahalanobis 거리)
한편, 상기 융합 처리부(310)는, 서로 거리가 가까울 때, 클 값을 반환하기 위하여, 하기의 수학식 13을 이용할 수 있다.
[수학식 13]
Figure PCTKR2017005915-appb-I000122
(
Figure PCTKR2017005915-appb-I000123
: 거리의 가까움을 나타내는 상수)
또한, 상기 융합 처리부(310)는, 상기 제1경계 영역에 포함된 파티션(
Figure PCTKR2017005915-appb-I000124
)과, 상기 제2경계 영역에 포함된 슈퍼 복셀(
Figure PCTKR2017005915-appb-I000125
) 사이의 클래스 관계를 나타내는 클래스 비유사도(
Figure PCTKR2017005915-appb-I000126
)를 계산할 수 있다.
상기 클래스 관계란 상기 제1경계 영역에 포함된 파티션(
Figure PCTKR2017005915-appb-I000127
)과, 상기 제2경계 영역에 포함된 슈퍼 복셀(
Figure PCTKR2017005915-appb-I000128
)이 동일한 클래스인지 다른 클래스인지 여부를 의미한다.
상기 제1경계 영역에 포함된 파티션(
Figure PCTKR2017005915-appb-I000129
)과, 상기 제2경계 영역에 포함된 슈퍼 복셀(
Figure PCTKR2017005915-appb-I000130
)이 동일한 클래스인 경우, 상기 제1경계 영역에 포함된 파티션(
Figure PCTKR2017005915-appb-I000131
)과, 상기 제2경계 영역에 포함된 슈퍼 복셀(
Figure PCTKR2017005915-appb-I000132
)은 동일한 객체를 가질 수 있기도 하고, 서로 다른 객체를 포함할 수도 있다. 반면에, 상기 제1경계 영역에 포함된 파티션(
Figure PCTKR2017005915-appb-I000133
)과, 상기 제2경계 영역에 포함된 슈퍼 복셀(
Figure PCTKR2017005915-appb-I000134
)이 서로 다른 클래스인 경우, 상기 제1경계 영역에 포함된 파티션(
Figure PCTKR2017005915-appb-I000135
)과, 상기 제2경계 영역에 포함된 슈퍼 복셀(
Figure PCTKR2017005915-appb-I000136
)은 서로 다른 객체를 가질 수 있다. 따라서, 본 발명에서는, 클래스 유사도가 아닌, 클래스 비유사도를 측정하여, 상기 제1경계 영역에 포함된 파티션(
Figure PCTKR2017005915-appb-I000137
)과, 상기 제2경계 영역에 포함된 슈퍼 복셀(
Figure PCTKR2017005915-appb-I000138
)이 서로 다른 객체를 가지는 경우를 계산한다.
융합 처리부(310)는, 클래스 비유사도를 계산하기 위하여, 클래스 관계의 가설집단을
Figure PCTKR2017005915-appb-I000139
으로 정의할 수 있다. 융합 처리부(310)는 각 클래스에 대한 확률 비율을 pignistic trasformation을 사용하여, BBA 밀도 함수로 변환할 수 있다. 상기 BBA 밀도 함수는,
Figure PCTKR2017005915-appb-I000140
으로 정의될 수 있다. 여기에서,
Figure PCTKR2017005915-appb-I000141
는 센서 S로부터 제공되는 k번째 경계 박스의 클래스 밀도를 의미한다.
융합 처리부(310)는 클래스 비유사도를 하기의 수학식 14와 같이 계산할 수 있다.
[수학식 14]
Figure PCTKR2017005915-appb-I000142
상기 융합 처리부(310)는, 상기 계산된 클래스 분류 결과의 거리(
Figure PCTKR2017005915-appb-I000143
)와 클래스 비유사도(
Figure PCTKR2017005915-appb-I000144
)를 이용하여, 최종 관계 성분(
Figure PCTKR2017005915-appb-I000145
)을 계산할 수 있다.
최종 관계 성분(
Figure PCTKR2017005915-appb-I000146
)은 하기의 수학식 15에 의하여 계산될 수 있다.
[수학식 15]
Figure PCTKR2017005915-appb-I000147
(D, C : 각 센서의 경계 영역의 공간)
융합 처리부(310)는 최종 관계 성분에 의하여 두 경계 영역의 연관성 여부를 판단할 수 있다(S520). 즉, 융합 처리부(310)는 최종 관계 성분이 기 설정된 값 이상을 갖는 경우, 연관성이 있다고 판단하고, 반대의 경우, 연관성이 없다고 판단할 수 있다.
보다 구체적으로, 융합 처리부(310)는 최종 관계 성분에 의하여 두 경계 영역이 서로 연관성이 있다고 판단되면, 두 경계 영역에 대응되는 컨벌루션 큐브 및 클래스 분류 결과를 이어 붙일 수 있다(S530). 즉, 융합 처리부(310)는, 두 개의 컨벌류션 레이어와 두 개의 fully-connected layer를 통과하여, 최종적으로 2048 차원의 벡터를 출력할 수 있다.
또한, 융합 처리부(310)는, 상기 2048 차원의 벡터를 각 센서에서의 3차원 벡터와 연결하여, 총 6차원 벡터를 연결한 2054 벡터로 재구성할 수 있다. 그리고, 융합 처리부(310)는 재구성된 벡터를 fully-connected layer와 최종 이전 SVM을 통과함으로써, 최종 객체 후보 영역을 결정하고, 최종 특정 객체 추출 및 최종 특정 객체의 클래스 분류 결과를 계산할 수 있다.
이와 달리, 융합 처리부(310)는, 최종 관계 성분에 의하여 두 경계 영역이 서로 연관성이 없는 경우, 최종 검출 및 분류 결과로 사용하지 않을 수 있다. 따라서, 본 발명은 서로 연관성이 없는 두 경계 영역 정보를 최종 특정 객체의 추출 및 최종 특정 객체의 클래스 분류 결과의 계산에 포함시키지 않음으로써, 객체 추출의 정확도를 향상시킬 수 있다.
이상에서 살펴본 바와 같이, 본 발명은 2차원 영상과 3차원 영상에서 각각 특정 객체를 검출 및 분류하고, 각각 검출 및 분류된 결과 정보의 연관성 여부에 따라, 두 결과의 융합 여부를 결정함으로써, 특정 객체 추출 및 분류의 정확도를 향상시킬 수 있다.
본 발명의 일 실시 예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (7)

  1. 2차원 영상을 촬영하는 2차원 영상 센서;
    상기 촬영된 2차원 영상으로부터 특정 객체를 추출 및 상기 특정 객체에 대한 클래스를 분류하는 2차원 영상 처리부;
    3차원 영상을 촬영하는 3차원 영상 센서;
    상기 촬영된 3차원 영상으로부터 상기 특정 객체를 추출 및 상기 특정 객체에 대한 클래스를 분류하는 3차원 영상 처리부;
    상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과를 이용하여, 상기 특정 객체에 대한 최종 클래스 분류 결과를 산출하는 융합 처리부를 포함하는 객체 검출 장치.
  2. 제1항에 있어서,
    상기 2차원 영상 처리부는
    상기 2차원 영상을 색상 평활화 처리하고,
    상기 색상 평활화 처리된 2차원 영상으로부터 객체 후보 영역을 검출하는 것을 특징으로 하는 객체 검출 장치.
  3. 제2항에 있어서,
    상기 2차원 영상 처리부는
    상기 색상 평활화 처리된 2차원 영상을 복수의 영역으로 분할하고,
    색상 및 텍스쳐의 비유사도에 근거하여, 상기 복수의 영역의 적어도 일부를 객체 후보 영역으로 추출하는 것을 특징으로 하는 객체 검출 장치.
  4. 제1항에 있어서,
    상기 3차원 영상은 점 구름 데이터들로 이루어져 있고,
    상기 3차원 영상 처리부는
    상기 3차원 영상을 이루는 점 구름 데이터들을 복셀 공간으로 변환하고,
    상기 변환된 복셀 공간을 단위 크기를 갖는 슈퍼 복셀로 분할하며,
    각 공간에 포함된 점 구름 데이터의 높이차에 근거하여, 상기 슈퍼 복셀을 그룹핑하여, 객체 후보 영역을 검출하는 것을 특징으로 하는 객체 검출 장치.
  5. 제4항에 있어서,
    상기 복셀 공간은
    잡음 효과를 최소화하도록 기 설정된 크기를 갖는 것을 특징으로 하는 객체 검출 장치.
  6. 제1항에 있어서,
    상기 융합 처리부는
    상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과 사이의 연관성을 계산하고,
    상기 연관성에 근거하여, 상기 특정 객체에 대한 최종 클래스 분류 결과를 산출하는 것을 특징으로 하는 객체 검출 장치.
  7. 제6항에 있어서,
    상기 융합 처리부는,
    상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과가 서로 연관되었다고 판단되면, 상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과를 조합하여, 최종 클래스 분류 결과를 산출하고,
    상기 2차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과와, 상기 3차원 영상 처리부에서 추출된 특정 객체의 클래스 분류 결과가 서로 연관되지 않았다고 판단되면, 최종 클래스 분류 결과를 산출하지 않는 것을 특징으로 하는 객체 검출 장치.
PCT/KR2017/005915 2017-05-10 2017-06-07 객체 검출 및 분류 방법 WO2018207969A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0058182 2017-05-10
KR1020170058182A KR101907883B1 (ko) 2017-05-10 2017-05-10 객체 검출 및 분류 방법

Publications (1)

Publication Number Publication Date
WO2018207969A1 true WO2018207969A1 (ko) 2018-11-15

Family

ID=64105649

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/005915 WO2018207969A1 (ko) 2017-05-10 2017-06-07 객체 검출 및 분류 방법

Country Status (2)

Country Link
KR (1) KR101907883B1 (ko)
WO (1) WO2018207969A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3620978A1 (de) * 2018-09-07 2020-03-11 Ibeo Automotive Systems GmbH Verfahren und vorrichtung zur klassifizierung von objekten
WO2020116988A1 (ko) * 2018-12-07 2020-06-11 (주)제이엘케이 영상 분석 장치, 영상 분석 방법 및 기록 매체
KR20200117772A (ko) * 2019-04-05 2020-10-14 삼성전자주식회사 전자 장치 및 그 제어 방법
KR102186751B1 (ko) 2019-09-05 2020-12-04 주식회사 아이에스피디 객체 검출을 이용한 클래시피케이션의 다중 인식 및 인식률 개선 장치 및 방법
KR102338665B1 (ko) * 2020-03-02 2021-12-10 건국대학교 산학협력단 의미론적 영상을 활용한 포인트 클라우드 분류 장치 및 방법
CN111598131B (zh) * 2020-04-17 2023-08-25 北京百度网讯科技有限公司 图像处理方法、装置、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090304263A1 (en) * 2004-02-13 2009-12-10 Thomas Engelberg Method for classifying an object using a stereo camera
WO2013165048A1 (ko) * 2012-04-30 2013-11-07 전자부품연구원 영상 검색 시스템 및 영상 분석 서버
WO2014003237A1 (ko) * 2012-06-29 2014-01-03 에스케이플래닛 주식회사 영상 추출 및 합성 장치, 이의 방법
US20160154999A1 (en) * 2014-12-02 2016-06-02 Nokia Technologies Oy Objection recognition in a 3d scene
US20160371549A1 (en) * 2013-09-09 2016-12-22 Conti Temic Microelectronic Gmbh Method and Device for Detecting Objects from Depth-Resolved Image Data

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100752333B1 (ko) * 2005-01-24 2007-08-28 주식회사 메디슨 3차원 초음파 도플러 이미지의 화질 개선 방법
JP2016212653A (ja) * 2015-05-11 2016-12-15 日本放送協会 オブジェクト抽出分類装置およびそのプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090304263A1 (en) * 2004-02-13 2009-12-10 Thomas Engelberg Method for classifying an object using a stereo camera
WO2013165048A1 (ko) * 2012-04-30 2013-11-07 전자부품연구원 영상 검색 시스템 및 영상 분석 서버
WO2014003237A1 (ko) * 2012-06-29 2014-01-03 에스케이플래닛 주식회사 영상 추출 및 합성 장치, 이의 방법
US20160371549A1 (en) * 2013-09-09 2016-12-22 Conti Temic Microelectronic Gmbh Method and Device for Detecting Objects from Depth-Resolved Image Data
US20160154999A1 (en) * 2014-12-02 2016-06-02 Nokia Technologies Oy Objection recognition in a 3d scene

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
OH, SANG-IL ET AL.: "Object Detection and Classification by Decision-Level Fusion for Intelligent Vehicle Systems", SENSORS, vol. 17, no. 1, 22 January 2017 (2017-01-22), pages 1 - 21, XP055546817, ISSN: 1424-8220 *

Also Published As

Publication number Publication date
KR101907883B1 (ko) 2018-10-16

Similar Documents

Publication Publication Date Title
WO2018207969A1 (ko) 객체 검출 및 분류 방법
EP3830792A1 (en) Joint unsupervised object segmentation and inpainting
EP4099220A1 (en) Processing apparatus, method and storage medium
WO2021201422A1 (ko) Ar에 적용 가능한 의미적인 분할 방법 및 시스템
KR20170034226A (ko) 객체 인식 장치 및 방법, 객체 인식 모델 학습 장치 및 방법
WO2015115681A1 (ko) 표정 동작사전을 이용한 표정인식 방법 및 장치
KR20180097944A (ko) 공유 특징맵을 이용한 다중 객체 추적 장치 및 그 방법
CN104601964A (zh) 非重叠视域跨摄像机室内行人目标跟踪方法及系统
Monteiro et al. Tracking and classification of dynamic obstacles using laser range finder and vision
CN113393503B (zh) 一种分割驱动形状先验变形的类别级物体6d位姿估计方法
Cui et al. Vehicle re-identification by fusing multiple deep neural networks
John et al. Free space, visible and missing lane marker estimation using the PsiNet and extra trees regression
Khatri et al. Detection of animals in thermal imagery for surveillance using GAN and object detection framework
WO2024155137A1 (ko) 비주얼 로컬라이제이션을 수행하기 위한 방법 및 장치
Zhang et al. Depth Monocular Estimation with Attention-based Encoder-Decoder Network from Single Image
CN109740405B (zh) 一种非对齐相似车辆前窗差异信息检测方法
Xu et al. Deep Learning-Based Pedestrian Detection Using RGB Images and Sparse LiDAR Point Clouds
Talluri et al. Low-resolution Human Identification in thermal imagery
CN116051872A (zh) 一种跨光谱图像的特征点匹配方法
CN114638953B (zh) 点云数据的分割方法、装置及计算机可读存储介质
Zhao et al. Advancements in 3D Lane Detection Using LiDAR Point Clouds: From Data Collection to Model Development
Li et al. A real-time vehicle window positioning system based on nanodet
Li et al. Real time obstacle estimation based on dense stereo vision for robotic lawn mowers
WO2017171142A1 (ko) 얼굴의 특징점 검출 시스템 및 방법
WO2023017947A1 (ko) 자율주행에서의 시각적 속성 추정을 위한 시각 정보 처리 방법 및 시스템

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17909506

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17909506

Country of ref document: EP

Kind code of ref document: A1