WO2011136407A1 - 스테레오 카메라를 이용한 영상인식장치 및 방법 - Google Patents

스테레오 카메라를 이용한 영상인식장치 및 방법 Download PDF

Info

Publication number
WO2011136407A1
WO2011136407A1 PCT/KR2010/002673 KR2010002673W WO2011136407A1 WO 2011136407 A1 WO2011136407 A1 WO 2011136407A1 KR 2010002673 W KR2010002673 W KR 2010002673W WO 2011136407 A1 WO2011136407 A1 WO 2011136407A1
Authority
WO
WIPO (PCT)
Prior art keywords
central axis
image
stereo camera
length
range
Prior art date
Application number
PCT/KR2010/002673
Other languages
English (en)
French (fr)
Inventor
강인배
Original Assignee
(주)아이티엑스시큐리티
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)아이티엑스시큐리티 filed Critical (주)아이티엑스시큐리티
Publication of WO2011136407A1 publication Critical patent/WO2011136407A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/60Analysis of geometric attributes
    • G06T7/62Analysis of geometric attributes of area, perimeter, diameter or volume
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • H04N13/239Image signal generators using stereoscopic image cameras using two 2D image sensors having a relative position equal to or related to the interocular distance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30172Centreline of tubular or elongated structure

Definitions

  • the present invention relates to an image recognition apparatus and method using a stereo camera that can recognize an object based on three-dimensional depth map data acquired using two cameras.
  • a method of using a stereo camera, a method of using a laser scan, or a method of using a time of flight (TOF) The back is known.
  • stereo matching using a stereo camera is a hardware implementation of a process of recognizing a stereoscopic object using two eyes, and a pair of images obtained by photographing the same subject with two cameras. It is a method of extracting information about depth (or distance) in space through the interpretation process of.
  • binocular differences on the same Epipolar Line of images obtained from two cameras are calculated.
  • the binocular difference includes distance information, and the geometrical characteristic calculated from the binocular difference becomes the depth.
  • the binocular difference value is calculated in real time from the input image, three-dimensional distance information of the observation space can be measured.
  • stereo matching algorithm for example, "image matching method using a plurality of image lines” of the Republic of Korea Patent No. 0517876 or "binocular difference estimation method for three-dimensional object recognition” of the Republic of Korea Patent No. 0601958.
  • An object of the present invention is to provide an image recognition apparatus and method using a stereo camera, which can recognize a subject based on 3D depth map data acquired using two cameras.
  • an image recognition method using a stereo camera of the present invention includes generating a pair of digital images using two cameras photographing the same region, and using the converted pair of digital images. Calculating 3D depth map data, extracting a region of a moving object by comparing one of the digital images with a reference background image, extracting a central axis of the extracted object, and identifying the depth map data Calculating a representative length which is an actual length representing the object based on distance information to the object, and when the representative length of the calculated object is within a first range, a plurality of pattern masks mapped to the first range; Recognizing the object by a method of comparing the central axis of the extracted object.
  • the representative length of the object is preferably any one of the actual length of the central axis, the actual width of the object and the actual height of the object.
  • the method may further include recognizing the object by a method of comparing the central axes.
  • Image recognition apparatus using a stereo camera according to another embodiment of the present invention, a stereo camera unit, a distance information calculation unit, an object extraction unit, a central axis extraction unit and an object recognition unit.
  • the stereo camera unit includes two cameras for capturing the same area, and generates a pair of digital images, and the distance information calculator calculates 3D depth map data using the pair of digital images generated by the stereo camera unit. do.
  • the object extractor extracts an area of the moving object by comparing one of the digital images generated by the stereo camera unit with a reference background image, and extracts a central axis of the extracted object.
  • the object recognition unit calculates a representative length which is an actual length representing the object based on the distance information to the object identified from the depth map data, and if the calculated representative length of the object falls within the first range, The object is recognized by comparing a plurality of mapped pattern masks with a central axis of the extracted object.
  • the image recognition device of the present invention can recognize a moving object in the photographing area in a simpler method.
  • the recognition algorithm is relatively simple compared to the two-dimensional image processing, instead of processing the image generated using the two cameras, the recognition speed and efficiency is improved, and above all, the recognition rate is excellent.
  • FIG. 1 is a block diagram of a 3D image recognition device according to an embodiment of the present invention.
  • 3 is a view showing an image processing result in the step of extracting an object region from an image
  • FIG. 4 is a view provided for explaining a method of extracting a central axis of an object.
  • 5 is a diagram provided to explain a method of calculating a representative length of an object.
  • the image recognition device 100 of the present invention includes a stereo camera unit 110 and an image processor 130 to recognize a subject in a three-dimensional space.
  • the stereo camera unit 110 includes a first camera 111, a second camera 113, and an image receiver 115.
  • the first camera 111 and the second camera 113 are a pair of cameras spaced apart from each other to photograph the same area, and are called a stereo camera.
  • the first camera 111 and the second camera 113 output an analog image signal photographing an area to the image receiver 115.
  • the image receiver 115 converts a video signal (or image) of a continuous frame input from the first camera 111 and the second camera 113 into a digital image and synchronizes the frame to the image processor 130 in synchronization with the frame. to provide.
  • the first camera 111 and the second camera 113 of the stereo camera unit 110 may be a camera that generates a digital video signal instead of an analog image.
  • the image receiver 115 may be different. It provides an interface with the image processor 130 without conversion processing and serves to match frame synchronization of a pair of images.
  • the stereo camera unit 110 may further include a wired or wireless interface for connecting to the image processing unit 130 through an IP (Internet Protocol) network.
  • IP Internet Protocol
  • the image processor 130 extracts an area of an object moving on the shooting area from the pair of digital image frames output from the stereo camera unit 110 to determine whether the object is an object of interest, and continuously from the stereo camera unit 110.
  • the above determination process may be performed in real time on all frames of the image (video) that is input to the image.
  • the image processor 130 includes a distance information calculator 131, an object extractor 133, and an object recognizer 137.
  • a distance information calculator 131 for the above process, the image processor 130 includes a distance information calculator 131, an object extractor 133, and an object recognizer 137.
  • operations of the distance information calculator 131, the object extractor 133, the central axis extractor 135, and the object recognizer 137 will be described with reference to FIG. 2.
  • the image receiver 115 converts the analog video signal into a digital video signal and then synchronizes the frame to the image processor 130. Provided to (step S201).
  • the distance information calculator 131 calculates 3D depth map data including distance information of each pixel from a pair of digital images received in real time from the image receiver 115.
  • the distance information of each pixel is binocular difference information obtained by the stereo matching method described in the prior art, and the "three-dimensional image matching method using a plurality of image lines" of Korean Patent No. 0517876 or the Korean Patent No. 0601958.
  • the depth map data calculated by the distance information calculator 131 may include distance information about each pixel. .
  • the object extractor 133 extracts a region of the moving object from one image of the pair of digital images input through the image receiver 115.
  • the moving object refers to an object existing in the photographing area of the camera and an object whose position or motion is changed or newly entered into the photographing area.
  • the method of extracting the area of the moving object may be variously performed.
  • the object extracting unit 133 of the present invention extracts a region of a moving object by a method of subtracting a background image previously held from an input image frame.
  • the subtraction operation is performed by subtracting pixel values of each pixel of two corresponding image frames.
  • the reference background image is an image in which no moving object is set, and the object extractor 133 may store and use the reference background image in a storage medium (not shown).
  • the object extractor 133 may perform a Gaussian distribution on the resultant image of the subtraction operation.
  • Background Modeling which applies the Distribution process, can cope with noise or light changes.
  • (a) is an image input from the image receiver 115
  • (b) is a basic background image
  • (c) is a result image of a subtraction operation.
  • FIG. 3C it can be seen that a region of a moving object is extracted from an image input from the image receiver 115.
  • the object extractor 133 detects an outline of a moving object by performing outline detection on the resultant image of the subtraction operation of step S207. Edge detection is handled using different types of edges, depending on the borderline width and shape of the object.
  • the object extractor 133 may remove a noise by applying a morphology operation to a subtraction image and simplify an outline or a skeleton line to detect an outline.
  • the morphology operation can basically use erosion operation to remove noise and dilation operation to fill small holes in an object.
  • the central axis extractor 135 extracts a media axis of an object having a width of 1 pixel by applying a skeletonization or thinning algorithm to the object extracted by the object extractor 133.
  • a skeletonization or thinning algorithm e.g., a Medial Axis Transform (MAT) algorithm using the outline or Zhang Suen algorithm.
  • the central axis a of the object is a set of points having a plurality of boundary points among the respective points (or pixels) in the object R as shown in FIG. 4.
  • the boundary point refers to a point closest to the point in the object among the points on the outline B, and the points b1 and b2 on the outline become the boundary point of the point P1 in the object R. Therefore, the central axis algorithm is a process of extracting points having a plurality of boundary points and may be expressed as in Equation 1 below.
  • Pma is a central axis represented by a set of x
  • x is a point present in the object R
  • bmin (x) is the number of boundary points of the point x.
  • the central axis is a set of points x whose number of boundary points is greater than one.
  • the structure of the skeleton may change somewhat according to a method of obtaining a distance from an internal point x to an arbitrary pixel on the outline (for example, 4-Distance, 8-Distance, Euclidean Distance, etc.). .
  • the center line may be extracted by extracting a peak value of the Gaussian value for the object, and in this case, the edge detection step of step S207 may be omitted.
  • the object recognition unit 137 obtains the representative length of the object extracted in the step S207 or S209 using the depth map data obtained in the step S205.
  • the representative length of the object is a value calculated from an image as an actual length of an object set to represent the object, and may correspond to an actual length of a central axis, an actual width of an object, or an actual height of an object. However, the representative length of the object is affected by the position of the camera, the shooting angle, and the characteristics of the shooting area.
  • the pixel representing the object After calculating the actual length per pixel (hereinafter referred to as the 'unit length' of the pixel) at the distance (do) where the object extracted in step S205 is located, the pixel representing the object This is done by multiplying the number of.
  • the number of pixels representing the object may correspond to the number of pixels forming the central axis, the number of pixels to be the width or height of the object.
  • the width or height of the object as the number of pixels representing the object, can be obtained through the range of the x-axis coordinate or the y-axis coordinate of the object area, and the length of the central axis is, for example, the number of pixels included in the central axis. It can be obtained by adding.
  • the unit length of a particular pixel varies from pixel to pixel (exactly depending on the depth of the pixel), and can be obtained as follows with reference to FIG. 5.
  • the size of the image frame is 720x640 pixels.
  • the corresponding actual length L (do) is indicated.
  • the actual length L (do) corresponding to the vertical axis (or horizontal axis) of the entire frame at the depth do where the object is located may be obtained as in Equation 2 below.
  • L (do) is the actual length corresponding to the vertical axis (or the horizontal axis) of the entire frame at the depth do
  • Lmax is the vertical axis (or the horizontal axis) of the entire frame at the maximum distance L based on the existing background image.
  • the corresponding actual length, do is the depth of the object
  • D is the maximum depth.
  • Lp (do) is the unit length of the pixel included in the object region located at the depth do
  • Py is the number of pixels along the vertical axis of the entire frame.
  • the object recognition unit 137 obtains the representative length of the object.
  • the representative length of the object can be obtained by the following equation (4) by multiplying the unit length Lp (do) of the pixel by the number of pixels po representing the object.
  • po is the number of pixels representing the object.
  • the object recognition unit 137 recognizes the object using the representative length of the object and the skeleton of the object.
  • the object recognition unit 137 primarily determines whether the representative length of the object falls within the first range (S213).
  • the first range is a range of a representative length of the first thing (or a group of things) to be searched.
  • the representative length of the object is affected by the position of the camera, the shooting angle, and the characteristics of the shooting area. For example, in the case of a camera photographing a road at an angle of 45 ° downward from an intersection and a photograph of a closed space at a relatively low height, the representative length of the same object may be different. Also, depending on the position of the camera, the representative lengths of various objects existing in the same image may also vary according to their morphological characteristics. Therefore, the representative length should be set in consideration of these points.
  • the object recognition unit 137 may again determine whether the representative length of the object belongs to the second range corresponding to the representative length of the second object (S215).
  • the object recognition unit 137 secondly determines whether the pattern of the central axis of the object matches one of the pattern masks of the first group, and finally recognizes the object. do.
  • the pattern mask of the first group may also correspond to the first object or the objects of the first group.
  • the coincidence of the pattern may mean a coincidence within an acceptable range.
  • the image recognition device of the present invention obtains 3D depth map data using a stereo camera and recognizes an object captured in the image.
  • the calculation of the depth map data of step S203 can be performed in parallel with the extraction process of the moving object of steps S205 and S207 as shown in FIG. And after step S207.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Geometry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)
  • Length Measuring Devices By Optical Means (AREA)

Abstract

스테레오 카메라를 이용한 영상인식장치 및 방법이 개시된다. 본 발명의 영상처리장치는 영상으로부터 움직이는 객체를 추출하고, 해당 객체의 중심축과 객체를 대표하는 길이를 구하여 기 설정된 값이나 패턴 마스크와 비교하는 방법으로 해당 객체를 인식한다. 여기서, 객체를 대표하는 실제 길이는 두 개의 카메라를 이용하여 획득한 3차원 심도 맵(Depth Map) 데이터를 이용하여 구할 수 있다.

Description

스테레오 카메라를 이용한 영상인식장치 및 방법
본 발명은, 2개의 카메라를 이용하여 획득한 3차원 심도 맵(Depth Map) 데이터를 기반으로 사물을 인식할 수 있는, 스테레오 카메라를 이용한 영상인식장치 및 방법에 관한 것이다.
영상으로부터 3차원 공간상의 심도 정보(Depth Map), 다시 말해 3차원 공간상의 피사체와의 거리를 얻기 위한 방법에는, 스테레오 카메라를 이용하는 방법, 레이저 스캔을 이용하는 방법, TOF(Time of Flight)를 이용하는 방법 등이 알려지고 있다.
이 중에서, 스테레오 카메라를 이용하는 스테레오 정합(Stereo Matching)은, 사람이 두 눈을 이용하여 입체를 인지하는 과정을 하드웨어적으로 구현한 것으로서, 동일한 피사체를 두 개의 카메라로 촬영하여 획득한 한 쌍의 이미지에 대한 해석과정을 통해 공간에서의 깊이(또는 거리)에 대한 정보를 추출하는 방법이다. 이를 위해, 두 개의 카메라로부터 획득한 영상의 동일한 에피폴라 선(Epipolar Line)상의 양안차를 계산한다. 양안차는 거리 정보를 포함하며, 이러한 양안차로부터 계산된 기하학적 특성이 깊이(depth)가 된다. 입력 영상으로부터 실시간으로 양안차값을 계산하면 관측 공간의 삼차원 거리 정보 등을 측정할 수 있다.
스테레오 정합 알고리즘으로 알려진 것에는, 예컨대, 대한민국 등록특허 제0517876호의 "복수 영상 라인을 이용한 영상 정합 방법"이나, 대한민국 등록특허 제0601958호의 "3차원 객체 인식을 위한 양안차 추정방법"이 있다.
본 발명의 목적은 2개의 카메라를 이용하여 획득한 3D 심도 맵 데이터를 기반으로 피사체를 인식할 수 있는, 스테레오 카메라를 이용한 영상인식장치 및 방법을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 스테레오 카메라를 이용한 영상인식방법은, 동일한 영역을 촬영하는 두 개의 카메라를 이용하여, 한 쌍의 디지털 영상을 생성하는 단계, 상기 변환된 한 쌍의 디지털 영상을 이용하여 3차원 심도 맵 데이터를 계산하는 단계, 상기 디지털 영상 중 하나를 기준 배경영상과 비교하여 움직이는 객체의 영역을 추출하는 단계, 상기 추출된 객체의 중심축을 추출하는 단계, 상기 심도 맵 데이터로부터 확인한 상기 객체까지의 거리정보를 기초로 상기 객체를 대표하는 실제 길이인 대표 길이를 계산하는 단계, 및 상기 계산된 객체의 대표 길이가 제1 범위 내에 속하는 경우, 제1 범위에 매핑된 복수 개의 패턴 마스크와 상기 추출된 객체의 중심축을 비교하는 방법으로 상기 객체를 인식하는 단계를 포함한다.
여기서, 상기 객체의 대표 길이는, 상기 중심축의 실제 길이, 상기 객체의 실제 폭 및 상기 객체의 실제 높이 중 어느 하나인 것이 바람직하다.
실시 예에 따라, 본 발명의 영상처리방법은, 상기 계산된 객체의 대표 길이가 상기 제1 범위와 다른 제2 범위 내에 속하는 경우, 제2 범위에 매핑된 복수 개의 패턴 마스크와 상기 추출된 객체의 중심축을 비교하는 방법으로 상기 객체를 인식하는 단계를 더 포함할 수 있다.
본 발명의 다른 실시 예에 따른 스테레오 카메라를 이용한 영상인식장치는, 스테레오카메라부, 거리정보계산부, 객체추출부, 중심축추출부 및 객체인식부를 포함한다.
스테레오카메라부는 동일한 영역을 촬영하는 두 개의 카메라를 구비하여, 한 쌍의 디지털 영상을 생성하고, 거리정보계산부는 상기 스테레오카메라부에서 생성한 한 쌍의 디지털 영상을 이용하여 3차원 심도 맵 데이터를 계산한다.
객체추출부는 상기 스테레오카메라부에서 생성한 디지털 영상 중 하나를 기준 배경영상과 비교하여 움직이는 객체의 영역을 추출하고, 중심축추출부 상기 추출된 객체의 중심축을 추출한다.
객체인식부는 상기 심도 맵 데이터로부터 확인한 상기 객체까지의 거리정보를 기초로 상기 객체를 대표하는 실제 길이인 대표 길이를 계산하고, 상기 계산된 객체의 대표 길이가 제1 범위 내에 속하는 경우 제1 범위에 매핑된 복수 개의 패턴 마스크와 상기 추출된 객체의 중심축을 비교하는 방법으로 상기 객체를 인식한다.
본 발명의 영상인식장치는 촬영 영역에서 움직이는 객체를 보다 간단한 방법으로 인식할 수 있다. 이러한 방법은, 두 개의 카메라를 이용하여 생성한 영상을 처리하는 대신에, 2차원 이미지 처리에 비해 그 인식 알고리즘이 상대적으로 간단하여 인식 속도와 효율이 개선되며, 무엇보다 인식률이 뛰어난 특징이 있다.
도 1은 본 발명의 일 실시 예에 따른 3차원 영상인식장치의 블록도,
도 2는 본 발명의 3차원 영상인식과정의 설명에 제공되는 흐름도,
도 3은 영상으로부터 객체영역을 추출하는 단계에서의 영상처리 결과를 도시한 도면,
도 4는 객체의 중심축의 추출방법의 설명에 제공되는 도면, 그리고
도 5는 객체의 대표길이를 계산하는 방법의 설명에 제공되는 도면이다.
이하 도면을 참조하여 본 발명을 더욱 상세히 설명한다.
도 1을 참조하면, 본 발명의 영상인식장치(100)는 스테레오카메라부(110) 및 영상처리부(130)를 포함하여 3차원 공간상의 피사체를 인식하게 된다.
스테레오카메라부(110)는 제1 카메라(111), 제2 카메라(113) 및 영상수신부(115)를 포함한다.
제1 카메라(111) 및 제2 카메라(113)는 동일한 영역을 촬영하도록 상호 이격되어 설치된 한 쌍의 카메라들로서, 소위 스테레오 카메라라고 한다. 제1 카메라(111) 및 제2 카메라(113)는 영역을 촬영한 아날로그 영상신호를 영상수신부(115)로 출력한다.
영상수신부(115)는 제1 카메라(111) 및 제2 카메라(113)에서 입력되는 연속적인 프레임의 영상신호(또는 이미지)를 디지털 영상으로 변환하고, 그 프레임 동기를 맞추어 영상처리부(130)에게 제공한다.
실시 예에 따라, 스테레오카메라부(110)의 제1 카메라(111)와 제2 카메라(113)는 아날로그 영상이 아닌 디지털 영상신호를 생성하는 카메라일 수 있으며, 이 경우 영상수신부(115)는 다른 변환처리없이 영상처리부(130)와의 인터페이스를 제공하며 한 쌍의 영상의 프레임 동기를 맞추는 역할을 한다.
또한, 스테레오카메라부(110)는 IP(Internet Protocol) 망을 통해 영상처리부(130)에 연결되기 위한 유선 또는 무선 인터페이스를 더 포함할 수 있다.
영상처리부(130)는 스테레오카메라부(110)로부터 출력되는 한 쌍의 디지털 영상 프레임으로부터 촬영영역 상에서 움직이는 객체의 영역을 추출하여 해당 객체가 관심 사물인지를 판단하며, 스테레오카메라부(110)로부터 연속적으로 입력되는 영상(동영상)의 모든 프레임에 대해 실시간으로 이상의 판단과정을 수행할 수 있다.
이상의 처리를 위해, 영상처리부(130)는 거리정보계산부(131), 객체추출부(133) 및 객체인식부(137)를 포함한다. 이하에서는, 도 2를 참조하여 거리정보계산부(131), 객체추출부(133), 중심축추출부(135) 및 객체인식부(137)의 동작을 설명한다.
먼저, 제1 카메라(111) 및 제2 카메라(113)가 아날로그 영상신호를 생성하면, 영상수신부(115)가 해당 아날로그 영상신호를 디지털 영상신호로 변환한 다음 프레임 동기를 맞추어 영상처리부(130)에게 제공한다(S201 단계).
<심도 맵 데이터 계산: S203 단계>
거리정보계산부(131)는 영상수신부(115)로부터 실시간으로 입력받는 한 쌍의 디지털 영상으로부터 각 픽셀의 거리정보를 포함하는 3차원 심도 맵(3D Depth Map) 데이터를 계산한다.
여기서, 각 픽셀의 거리 정보는 종래기술에서 설명한 스테레오 정합방법에 의해 구해지는 양안차 정보로서, 대한민국 등록특허 제0517876호의 "복수 영상 라인을 이용한 영상 정합 방법"이나 대한민국 등록특허 제0601958호의 "3차원 객체 인식을 위한 양안차 추정방법에 제시된 그래프 컷(Graph Cut) 알고리즘 등을 이용하여 계산할 수 있다. 따라서, 거리정보계산부(131)에서 계산한 심도 맵 데이터에는 각 픽셀에 대한 거리정보가 포함된다.
<움직이는 객체의 영역 추출: S205 단계>
객체추출부(133)는 영상수신부(115)를 통해 입력되는 한 쌍의 디지털 이미지 중 하나의 이미지로부터 움직이는 객체의 영역을 추출한다. 여기서, 움직이는 객체라 함은, 카메라의 촬영 영역 내에 존재한 객체로서 그 위치나 동작이 변경된 객체 또는 촬영 영역 내로 새롭게 진입한 객체를 말한다.
이러한 움직이는 객체의 영역을 추출하는 방법은 다양하게 이루어질 수 있다. 예컨대, 본 발명의 객체추출부(133)는 입력된 영상 프레임에서 기 보유한 배경영상을 빼는 방법(Background Subtraction)으로 움직이는 객체의 영역을 추출한다. 여기서, 뺄셈 연산은 대응되는 두 개 영상 프레임의 각 픽셀의 화소 값을 빼는 방법으로 이루어진다. 또한, 기준 배경영상은 움직이는 객체가 없다고 설정한 경우의 영상으로서, 객체추출부(133)는 저장매체(미도시)에 기준 배경영상을 저장해 두었다가 사용할 수 있다.
나아가, 객체 영역이 아닌 배경부분에서도 카메라 잡음이나 촬영영역에 대한 조명의 변화에 의한 차 영상(Difference Image)이 발생할 수 있으므로, 객체추출부(133)는 뺄셈 연산의 결과영상에 대하여 가우시안 분포(Gaussian Distribution)처리 등을 적용하는 배경 모델링(Background Modeling)을 통해 잡음이나 조명의 변화 등에 대응할 수 있다.
도 3을 참조하면, (a)는 영상수신부(115)로부터 입력된 영상, (b)는 기본 배경영상, 그리고 (c)는 뺄셈연산의 결과영상이다. 도 3의 (c)를 참조하면, 영상수신부(115)로부터 입력된 영상에서 움직이는 객체의 영역이 추출되었음을 알 수 있다.
<움직이는 객체의 외곽선 검출: S207 단계>
객체추출부(133)는 S207 단계의 뺄셈 연산의 결과영상에서 외곽선 검출을 수행하여 움직이는 객체의 외곽선을 검출한다. 외곽선 검출은 객체의 경계선 넓이와 형태에 따라 여러 종류의 형태의 에지를 사용하여 처리된다.
객체추출부(133)는 외곽선 검출을 위해, 뺄셈 영상에 모폴로지(Morphology) 연산을 적용하여 잡음을 제거하고, 외각선이나 골격선을 간단하게 할 수 있다. 모폴로지 연산에는 기본적으로 잡음을 제거하는 침식(Erosion) 연산과 객체 내의 작은 구멍을 메우는 팽창(Dilation) 연산이 사용될 수 있다.
<움직이는 객체의 중심축 추출: S209 단계>
중심축추출부(135)는 객체추출부(133)가 추출한 객체에 대해 골격화 또는 세선화 알고리즘을 적용하여 1 픽셀의 폭을 가지는 객체의 중심축(Medial Axis}을 추출한다. 골격화 알고리즘에는 외곽선을 이용하는 중심축변환(MAT: Medial Axis Transform)알고리즘 또는 Zhang Suen 알고리즘과 같이 기 알려진 다양한 방식을 적용할 수 있다.
예컨대, 중심축 변환에 의할 경우, 객체의 중심축(a)은 도 4에서처럼 객체(R) 내의 각 점(또는 픽셀)들 중에서 복수 개의 경계점을 가지는 점들의 집합이다. 여기서, 경계점은 외곽선(B) 상의 점들 중에서 객체 내의 해당 점과의 거리가 가장 가까운 점을 말하는 것으로, 외곽선상의 점 b1, b2는 객체(R) 내의 점 P1의 경계점이 된다. 따라서, 중심축 알고리즘은 경계점이 복수 개인 점들을 추출하는 과정이 되며 다음의 수학식 1과 같이 표현될 수 있다.
수학식 1
Figure PCTKR2010002673-appb-M000001
여기서, Pma는 x의 집합으로 표시되는 중심축이고, x는 객체(R)내에 존재하는 점, bmin(x)는 점 x의 경계점의 수이다. 따라서, 중심축은 경계점의 수가 1보다 큰 점 x들의 집합이 된다. 여기서, 경계점을 계산하기 위해, 내부의 점 x에서 외곽선상의 임의의 픽셀까지의 거리를 구하는 방법(예컨대, 4-Distance, 8-Distance, Euclidean Distance 등)에 따라, 골격의 구조가 다소 바뀔 수 있다.
그 밖에도, 객체가 비교적 간단한 형태의 것인 경우, 객체에 대한 가우시안 값의 피크값을 추출하는 방법으로 중심선을 추출할 수 있으며, 이러한 알고리즘에 의할 경우 S207 단계의 외곽선 검출단계는 생략될 수도 있다.
<움직이는 객체의 대표 길이 계산: S211 단계>
객체인식부(137)는 S205 단계에서 구한 심도 맵 데이터를 이용하여, S207 또는 S209 단계에서 추출한 객체의 대표 길이를 구한다. 객체의 대표 길이는 객체를 대표하는 것으로 설정된 객체의 실제 길이로서 영상으로부터 계산된 값이며, 중심축의 실제 길이, 객체의 실제 폭 또는 객체의 실제높이 등이 해당할 수 있다. 다만, 객체의 대표 길이는 카메라의 위치, 촬영각도 및 촬영영역의 특성 등에 따라 영향을 받게 된다.
나아가, 객체의 실제길이의 계산은, S205 단계에서 추출된 객체가 위치한 거리(do)에서의 픽셀 당 실제 길이(이하, 픽셀의 '단위 길이'라 함)를 구한 다음, 해당 객체를 대표하는 픽셀의 수를 곱하는 방법으로 이루어진다. 여기서, 객체를 대표하는 픽셀의 수는 앞서 중심축을 형성하는 픽셀의 수, 해당 객체의 폭이나 높이가 되는 픽셀의 수 등이 해당될 수 있다.
객체를 대표하는 픽셀의 수로서의, 객체의 폭이나 높이는 객체 영역의 x축좌표의 범위 또는 y축좌표의 범위를 통해 구해질 수 있으며, 중심축의 길이는 예컨대 중심축에 포함된 픽셀의 수를 모두 더함으로써 구할 수 있다.
특정 픽셀의 단위 길이는 픽셀마다(정확하게는 픽셀의 심도에 따라) 달라지며, 도 5를 참조하여 다음과 같이 구할 수 있다. 여기서, 설명의 편리를 위해, 영상 프레임의 크기를 720×640 픽셀이라 가정한다.
도 5에서, 기존 배경영상을 기준으로 최대 심도(D)에서의 전체 프레임의 세로축(또는 가로축)에 대응하는 실제길이 Lmax와, 추출된 객체의 위치 do에서의 전체 프레임의 세로축(또는 가로축)에 대응하는 실제길이 L(do)가 표시되어 있다. 먼저 해당 객체가 위치하는 심도 do에서의 프레임 전체의 세로축(또는 가로축)에 대응되는 실제길이 L(do)는 다음의 수학식 2와 같이 구할 수 있다.
수학식 2
Figure PCTKR2010002673-appb-M000002
여기서, L(do)는 심도 do에서의 프레임 전체의 세로축(또는 가로축)에 대응되는 실제 길이이고, Lmax는 기존 배경영상을 기준으로 최대 거리(L)에서의 전체 프레임의 세로축(또는 가로축)에 대응되는 실제 길이이며, do는 객체의 심도, D는 최대 심도이다.
다음으로, 객체가 위치하는 거리(do)에서의 전체 프레임의 세로축(또는 가로축)에 대응되는 실제 길이 L(do)을 프레임 전체의 세로축(또는 가로축)의 픽셀 수(Px, Py, 예에서 Px=720, Py=640)로 나눔으로써, 객체 영역에 포함된 픽셀의 단위 길이 Lp(do)을 다음의 수학식 3과 같이 구할 수 있다.
수학식 3
Figure PCTKR2010002673-appb-M000003
여기서, Lp(do)는 심도 do에 위치한 객체 영역에 포함된 픽셀의 단위 길이, Py는 프레임 전체의 세로축의 픽셀 수이다. 수학식 2에 의하면, Lp(do)은 3차원 심도 맵 데이터의 거리 정보로부터 확인한 해당 객체까지의 심도(do)와 맵 데이터 상의 최대 심도에 따라 달라짐을 알 수 있다.
픽셀의 단위 길이가 구해지면, 객체인식부(137)는 객체의 대표 길이를 구한다. 객체의 대표 길이는 픽셀의 단위 길이 Lp(do)에 해당 객체를 대표하는 픽셀의 수 po를 곱함으로써 다음의 수학식 4와 같이 구할 수 있다.
수학식 4
Figure PCTKR2010002673-appb-M000004
여기서, po는 해당 객체를 대표하는 픽셀의 수이다.
<움직이는 객체의 골격패턴 및 크기로 객체 인식: S213 ~ S217 단계>
픽셀의 단위 길이가 구해지면, 객체인식부(137)는 객체의 대표길이와 객체의 골격을 이용하여 객체를 인식한다.
먼저, 객체인식부(137)는 객체의 대표길이가 제1 범위 내에 속하는지를 1차 판단한다(S213).
여기서, 제1 범위는 검색하고자 하는 제1 사물(또는 1군의 사물들)의 대표 길이의 범위가 된다. 앞서 설명한 바와 같이, 객체를 대표 길이는 카메라의 위치, 촬영각도 및 촬영영역의 특성 등에 따라 영향을 받게 된다. 예컨대, 교차로에서 하방 45°의 각도로 도로를 촬영하는 카메라의 경우와 비교적 낮은 높이에서 밀폐 공간을 촬영하는 경우에 동일한 사물에 대한 대표 길이가 달라질 수 밖에 없다. 또한, 카메라의 위치에 따라, 같은 영상내에서 존재하는 각종 사물의 대표 길이도 그 형태적 특성에 따라 달라질 수 있다. 따라서 대표 길이는 이러한 점들을 고려하여 설정되어야 한다.
만약, 객체의 대표길이가 제1 범위 내에 속하지 않으면, 객체인식부(137)는 객체의 대표길이가 제2 사물의 대표 길이에 해당하는 제2 범위에 속하는지를 다시 판단할 수 있다(S215).
객체인식부(137)는 객체의 대표길이가 제1 범위 내에 속하는 경우, 해당 객체의 중심축의 패턴이 제1군의 패턴 마스크들 중 하나와 일치하는지 여부를 2차 판단하여, 최종적으로 객체를 인식한다. 다시 말해, 제1 범위가 제1 사물 또는 제1군의 사물들에 대응되는 것처럼, 제1군의 패턴 마스크 역시 제1 사물 또는 제1군의 사물들에 대응될 수 있다. 여기서, 패턴이 일치한다 함은 용인 가능한 범위내에서의 일치를 의미할 수 있다.
이상의 과정을 통해 본 발명의 영상인식장치는 스테레오 카메라를 이용한 3차원 심도 맵 데이터를 구하고, 영상에 포착된 객체를 인식하게 된다.
여기에서 시계열적으로 선행하는 것처럼 설명되는 것과 달리, S203 단계의 심도 맵 데이터의 계산은 도 2에 도시된 것처럼 S205 및 S207 단계의 움직이는 객체의 추출과정과 병렬적으로 수행될 수 있을 뿐만 아니라, S205 및 S207 단계 후에 수행될 수도 있다.
이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안 될 것이다.

Claims (5)

  1. 동일한 영역을 촬영하는 두 개의 카메라를 이용하여, 한 쌍의 디지털 영상을 생성하는 단계;
    상기 변환된 한 쌍의 디지털 영상을 이용하여 3차원 심도 맵 데이터를 계산하는 단계;
    상기 디지털 영상 중 하나를 기준 배경영상과 비교하여 움직이는 객체의 영역을 추출하는 단계;
    상기 추출된 객체의 중심축을 추출하는 단계;
    상기 심도 맵 데이터로부터 확인한 상기 객체까지의 거리정보를 기초로 상기 객체를 대표하는 실제 길이인 대표 길이를 계산하는 단계: 및
    상기 계산된 객체의 대표 길이가 제1 범위 내에 속하는 경우, 제1 범위에 매핑된 복수 개의 패턴 마스크와 상기 추출된 객체의 중심축을 비교하는 방법으로 상기 객체를 인식하는 단계를 포함하는 것을 특징으로 하는 스테레오 카메라를 이용한 영상인식방법.
  2. 제1항에 있어서,
    상기 객체의 대표 길이는,
    상기 중심축의 실제 길이, 상기 객체의 실제 폭 및 상기 객체의 실제 높이 중 어느 하나인 것을 특징으로 하는 스테레오 카메라를 이용한 영상인식방법.
  3. 제1항에 있어서,
    상기 계산된 객체의 대표 길이가 상기 제1 범위와 다른 제2 범위 내에 속하는 경우, 제2 범위에 매핑된 복수 개의 패턴 마스크와 상기 추출된 객체의 중심축을 비교하는 방법으로 상기 객체를 인식하는 단계를 포함하는 것을 특징으로 하는 스테레오 카메라를 이용한 영상인식방법.
  4. 동일한 영역을 촬영하는 두 개의 카메라를 구비하여, 한 쌍의 디지털 영상을 생성하는 스테레오카메라부;
    상기 스테레오카메라부에서 생성한 한 쌍의 디지털 영상을 이용하여 3차원 심도 맵 데이터를 계산하는 거리정보계산부;
    상기 스테레오카메라부에서 생성한 디지털 영상 중 하나를 기준 배경영상과 비교하여 움직이는 객체의 영역을 추출하는 객체추출부;
    상기 추출된 객체의 중심축을 추출하는 중심축추출부; 및
    상기 심도 맵 데이터로부터 확인한 상기 객체까지의 거리정보를 기초로 상기 객체를 대표하는 실제 길이인 대표 길이를 계산하고, 상기 계산된 객체의 대표 길이가 제1 범위 내에 속하는 경우 제1 범위에 매핑된 복수 개의 패턴 마스크와 상기 추출된 객체의 중심축을 비교하는 방법으로 상기 객체를 인식하는 객체인식부를 포함하는 것을 특징으로 하는 스테레오 카메라를 이용한 영상인식장치.
  5. 제4항에 있어서,
    상기 객체의 대표 길이는,
    상기 중심축의 실제 길이, 상기 객체의 실제 폭 및 상기 객체의 실제 높이 중 어느 하나인 것을 특징으로 하는 스테레오 카메라를 이용한 영상인식장치.
PCT/KR2010/002673 2010-04-28 2010-04-28 스테레오 카메라를 이용한 영상인식장치 및 방법 WO2011136407A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2010-0039366 2010-04-28
KR1020100039366A KR101139389B1 (ko) 2010-04-28 2010-04-28 스테레오 카메라를 이용한 영상인식장치 및 방법

Publications (1)

Publication Number Publication Date
WO2011136407A1 true WO2011136407A1 (ko) 2011-11-03

Family

ID=44861683

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2010/002673 WO2011136407A1 (ko) 2010-04-28 2010-04-28 스테레오 카메라를 이용한 영상인식장치 및 방법

Country Status (2)

Country Link
KR (1) KR101139389B1 (ko)
WO (1) WO2011136407A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9373034B2 (en) 2012-07-23 2016-06-21 Hanwha Techwin Co., Ltd. Apparatus and method for tracking object

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101203121B1 (ko) * 2012-04-20 2012-11-21 주식회사 아이티엑스시큐리티 스테레오 카메라를 이용한 3차원 동작 인식장치 및 인식방법
KR101942288B1 (ko) * 2012-04-23 2019-01-25 한국전자통신연구원 위치 보정 장치 및 방법
KR101645451B1 (ko) * 2015-04-14 2016-08-12 공간정보기술 주식회사 스테레오 카메라를 이용한 감지영역 내의 이동객체 감지시스템
KR101976495B1 (ko) * 2016-05-17 2019-05-10 에스케이 텔레콤주식회사 카메라 설치높이 측정을 위한 영상 분석 장치 및 방법
KR101748780B1 (ko) * 2016-12-02 2017-06-19 (주) 비전에스티 스테레오 카메라를 이용한 도로객체 인식방법 및 장치
KR102048381B1 (ko) * 2018-04-16 2019-11-25 주식회사 루씨드드림 삼차원 스테레오스코픽 영상 내의 객체 합성을 위한 시점별 양안 시차 영상의 렌더링 방법 및 시스템
KR20200046437A (ko) 2018-10-24 2020-05-07 삼성전자주식회사 영상 및 맵 데이터 기반 측위 방법 및 장치
CN112686931A (zh) * 2020-12-22 2021-04-20 北京百度网讯科技有限公司 图像识别方法、垃圾倾倒行为检测方法、设备和介质
WO2024063242A1 (ko) * 2022-09-20 2024-03-28 한화비전 주식회사 영상 분석 장치 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09145362A (ja) * 1995-11-29 1997-06-06 Ikegami Tsushinki Co Ltd ステレオ画像による物体の高さ測定方法
JPH09145368A (ja) * 1995-11-29 1997-06-06 Ikegami Tsushinki Co Ltd ステレオ画像による物体の移動追跡方法
KR20000032853A (ko) * 1998-11-18 2000-06-15 김운용 3차원 마스킹법에 의한 형상인식시스템 및 그 방법
KR20050066400A (ko) * 2003-12-26 2005-06-30 한국전자통신연구원 다시점 영상 및 깊이 정보를 이용한 3차원 객체 추적 장치및 그 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09145362A (ja) * 1995-11-29 1997-06-06 Ikegami Tsushinki Co Ltd ステレオ画像による物体の高さ測定方法
JPH09145368A (ja) * 1995-11-29 1997-06-06 Ikegami Tsushinki Co Ltd ステレオ画像による物体の移動追跡方法
KR20000032853A (ko) * 1998-11-18 2000-06-15 김운용 3차원 마스킹법에 의한 형상인식시스템 및 그 방법
KR20050066400A (ko) * 2003-12-26 2005-06-30 한국전자통신연구원 다시점 영상 및 깊이 정보를 이용한 3차원 객체 추적 장치및 그 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9373034B2 (en) 2012-07-23 2016-06-21 Hanwha Techwin Co., Ltd. Apparatus and method for tracking object

Also Published As

Publication number Publication date
KR101139389B1 (ko) 2012-04-27
KR20110119933A (ko) 2011-11-03

Similar Documents

Publication Publication Date Title
WO2011136407A1 (ko) 스테레오 카메라를 이용한 영상인식장치 및 방법
CN109472776B (zh) 一种基于深度显著性的绝缘子检测及自爆识别方法
WO2020101103A1 (ko) 옵티컬 플로우 영상 처리를 이용하는 하천 유속 측정 장치 및 방법
WO2016122069A1 (ko) 타이어 마모도 측정 방법 및 그 장치
WO2017188732A1 (ko) 구조광을 이용한 3차원 스캐닝 장치
WO2012124852A1 (ko) 감시구역 상의 객체의 경로를 추적할 수 있는 스테레오 카메라 장치, 그를 이용한 감시시스템 및 방법
WO2013042992A1 (ko) 얼굴 표정 인식 방법 및 시스템
WO2013151270A1 (en) Apparatus and method for reconstructing high density three-dimensional image
WO2011136405A1 (ko) 3d 카메라를 이용한 영상인식장치 및 방법
WO2014035103A1 (ko) 촬영영상으로부터 객체를 감시하기 위한 장치 및 방법
CN112045676A (zh) 一种基于深度学习的机器人抓取透明物体的方法
WO2015182904A1 (ko) 관심객체 검출을 위한 관심영역 학습장치 및 방법
WO2013129729A1 (ko) 레이아웃 기술자와 이미지 특징점을 이용한 실시간 증강현실 이미지 검색시스템
WO2015069063A1 (en) Method and system for creating a camera refocus effect
WO2012133962A1 (ko) 스테레오 카메라를 이용한 3차원 동작 인식장치 및 인식방법
CN115035546A (zh) 三维人体姿态检测方法、装置及电子设备
WO2019098421A1 (ko) 모션 정보를 이용한 객체 복원 장치 및 이를 이용한 객체 복원 방법
WO2018101746A2 (ko) 도로면 폐색 영역 복원 장치 및 방법
WO2014185691A1 (ko) 연속 촬영 이미지에서의 고조점 이미지 추출 장치 및 방법
WO2018021657A1 (ko) 스테레오 매칭을 통한 깊이값의 신뢰도 측정 방법 및 장치
WO2017086522A1 (ko) 배경스크린이 필요 없는 크로마키 영상 합성 방법
WO2016104842A1 (ko) 카메라의 왜곡을 고려한 물체 인식 시스템 및 방법
KR20170001448A (ko) 스테레오 카메라를 이용한 카메라 위치 측정 장치 및 방법
WO2022075516A1 (ko) 절리면 안전성 평가 장치
CN110706357B (zh) 导航系统

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10850775

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10850775

Country of ref document: EP

Kind code of ref document: A1