WO2019117374A1 - Apparatus and method for detecting dynamic object - Google Patents

Apparatus and method for detecting dynamic object Download PDF

Info

Publication number
WO2019117374A1
WO2019117374A1 PCT/KR2017/014775 KR2017014775W WO2019117374A1 WO 2019117374 A1 WO2019117374 A1 WO 2019117374A1 KR 2017014775 W KR2017014775 W KR 2017014775W WO 2019117374 A1 WO2019117374 A1 WO 2019117374A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
frame
frame image
transformed
optical flow
Prior art date
Application number
PCT/KR2017/014775
Other languages
French (fr)
Korean (ko)
Inventor
정태영
이상윤
황상원
이경재
이준협
이주성
김우진
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Publication of WO2019117374A1 publication Critical patent/WO2019117374A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/262Analysis of motion using transform domain methods, e.g. Fourier domain methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/285Analysis of motion using a sequence of stereo image pairs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • G06T2207/10012Stereo images

Definitions

  • Embodiments of the present invention relate to an apparatus and method for detecting dynamic objects, and more particularly to an apparatus and method for detecting a dynamic object from an acquired image for three-dimensional map generation.
  • a 3D map generated by an image obtained by attaching a camera to an automobile should include only background information. Objects such as a moving car or a pedestrian need to be removed from the map.
  • the optical flow image is generated by computing the optical flow using the difference between the current frame and the next frame, and by using the dynamic flow object, .
  • Such an optical flow image can effectively detect a dynamic object when the camera is stopped.
  • a dynamic object can not be properly detected when an image is acquired in a moving state as in the case of producing a three-dimensional map.
  • the present invention proposes a method and apparatus for effectively detecting a dynamic object in an image captured in a moving state of a camera.
  • an image processing apparatus including an image acquiring unit acquiring a stereo image of a first frame image and a second frame image; A camera motion detector for detecting camera motion in a first frame and a second frame; A depth information operation unit for obtaining a depth of each pixel of the first frame image using a stereo image of the first frame image; A transformed image generation unit for generating a transformed image obtained by transforming the first frame image based on the camera motion and the depth per pixel; An optical flow image generation unit generating an optical flow image using the second frame image and the transformed image; And a dynamic object detecting unit for detecting a dynamic object using the generated optical flow image, wherein the transformed image is a transformed image of the camera motion reflected on the first frame image.
  • the camera motion detection unit independently detects the rotational motion and the linear motion.
  • the transformed image generating unit independently applies the rotational motion and the linear motion to generate a transformed image.
  • the transformed image generating unit transforms the first frame image according to the following equation according to the rotational motion.
  • r u denotes a rotational motion with respect to the first frame image pixel coordinate u
  • r v denotes rotational motion with respect to the first frame image pixel coordinate v
  • yaw pitch
  • FoV denotes the viewing angle
  • d denotes the depth information acquired for each pixel
  • s denotes the distance from the vanishing point (uv)
  • height denotes the number of pixels in the vertical axis of the first frame image
  • width denotes the number of pixels in the horizontal axis of the first frame image.
  • the transformed image generation unit transforms the first frame image according to the following equation based on the linear motion.
  • t u and t v refers to the conversion of the u-axis and v-axis in the first frame image coordinates (u, v), and, d is the depth information obtained for each pixel, ⁇ is the first frame Height means the number of pixels in the vertical axis of the first frame image, and width means the number of pixels in the horizontal axis of the first frame image.
  • the optical flow image generation unit generates an optical flow image using the difference image of the transformed image and the second frame image.
  • the optical flow image generation unit generates an optical flow image using the difference image of the transformed image and the second frame image.
  • the dynamic object detection apparatus further includes a post-processing unit for applying an erosion filter and an expansion filter to the generated optical flow image to perform post-processing.
  • an image processing apparatus including an image acquiring unit acquiring a stereo image of a first frame image and a second frame image; A camera motion detector for detecting camera motion in a first frame and a second frame; A depth information operation unit for obtaining a depth of each pixel of the first frame image using a stereo image of the first frame image; A transformed image generation unit for generating a transformed image obtained by transforming the first frame image based on the camera motion and the depth per pixel; An optical flow image generation unit generating an optical flow image using the second frame image and the transformed image; And a dynamic object detecting unit for detecting a dynamic object using the generated optical flow image, wherein the camera motion detecting unit independently detects a rotational motion and a linear motion.
  • a stereoscopic image processing method comprising the steps of: (a) acquiring a stereo image of a first frame image and a second frame image; (B) detecting camera motion in a first frame and a second frame period; (C) obtaining a depth of each pixel of the first frame image using a stereo image of the first frame image; (D) generating a transformed image obtained by transforming the first frame image based on the camera motion and the depth per pixel; (E) generating an optical flow image using the second frame image and the transformed image; And a step (f) of detecting a dynamic object using the generated optical flow image, wherein the transformed image is a transformed image of the camera motion reflected on the first frame image, .
  • dynamic objects can be effectively detected in an image captured in a moving state.
  • FIG. 1 is a block diagram showing a schematic structure of a dynamic object detection apparatus according to an embodiment of the present invention
  • FIG. 2 is a diagram for explaining a rotational motion and a linear motion detected in accordance with an embodiment of the present invention
  • FIG. 3 is a diagram for describing components of a rotational motion detected in accordance with an embodiment of the present invention.
  • FIG. 4 is a diagram for explaining a relationship between a world coordinate system and an image obtained through a camera
  • FIG. 5 is a flowchart showing an overall flow of a dynamic object detection method according to an embodiment of the present invention.
  • FIG. 1 is a block diagram showing a schematic structure of a dynamic object detecting apparatus according to an embodiment of the present invention.
  • a dynamic object detecting apparatus includes a stereo image acquiring unit 100, a camera motion detecting unit 110, a depth information calculating unit 120, a transformed image generating unit 130, A flow image generating unit 140, a post-processing unit 150, and a dynamic object detecting unit 160.
  • the dynamic object detection apparatus can be installed in a vehicle and used to produce a three-dimensional map. It is difficult to detect only the dynamic object from the acquired image because the vehicle is moving when acquiring the image from the vehicle to produce the 3D map. Of course, in addition to these applications, if you need to detect dynamic objects from moving images, you can use them for a variety of other purposes.
  • the stereo image acquisition unit 100 acquires a stereo image using a stereo camera.
  • the stereo image acquisition unit 100 includes a first camera device for acquiring a left image and a second camera device for acquiring a right image, and independently acquires a left image and a right image.
  • the dynamic object should be detected by reflecting the motion.
  • the depth information should be obtained from the photographed image, and a stereo image is acquired using two or more cameras.
  • the camera motion detection unit 110 detects camera motion and detects a camera motion to generate a converted image to be described later.
  • the camera movement may occur due to the movement of the vehicle, and movement may be caused by the movement of the camera itself.
  • the camera motion detection unit 110 detects a camera motion occurring between a first frame image and a second frame image among frames of an image acquired from the stereo image acquisition unit.
  • the camera motion detection unit 110 detects motion information of the camera.
  • the motion of the camera is detected as two motions.
  • the movement of the first camera is the rotation movement of the camera and the movement of the second camera is the movement of the straight line.
  • the combination of the rotational motion and the linear motion can be regarded as a substantial motion of the camera, but the present invention distinguishes it.
  • FIG. 2 is a diagram for explaining a rotational motion and a linear motion detected according to an embodiment of the present invention.
  • Fig. 2 (a) is a view showing the actual movement of the camera
  • Fig. 2 (b) is a view showing a linear movement of the camera during movement of Fig. to be.
  • the movement of the camera is represented by the sum of the rotational motion and the linear motion, and the camera motion detection unit 110 independently detects the linear motion and the rotational motion as shown in FIG.
  • the movement of the camera may be detected using various sensors known as acceleration sensors.
  • Rotational motion includes motion for three components yaw, pitch, and roll, and linear motion includes motion in the x-, y-, and z-axis directions.
  • FIG. 3 is a diagram for explaining components of rotational motion detected according to an embodiment of the present invention.
  • roll means a motion in which the object rotates in a specific longitudinal direction (for example, z axis).
  • yaw means a movement in which the object rotates in the lateral direction (for example, the x axis).
  • pitch means a motion in which the object rotates in the up-and-down direction (for example, the y-axis).
  • the depth information calculation unit 120 calculates depth information of an image to be acquired, and calculates depth information for each pixel.
  • Various arithmetic methods for acquiring depth information using a stereo image may be used.
  • the variation may be estimated based on the difference image between the left image and the right image, and the depth information per pixel may be calculated based on the estimated variation.
  • the depth information calculation unit 120 calculates depth information of the first frame image using the left and right images of the first frame image.
  • the transformed image generation unit 130 generates transformed information based on the rotational motion and the linear motion that are obtained separately, and generates a transformed image based on the transformed information.
  • the conversion information is information for converting the first frame image based on the motion generated between the first frame image and the second frame image to be acquired, and the conversion information is information for converting one of the stereo images of the first frame image For example, a left image).
  • Such conversion information is generated to distinguish a fixed object from a dynamic object among the objects in the first frame image and the second frame image.
  • the conversion information is information on how to convert each pixel of the first frame image (left image) based on the detected camera motion, and the converted image is how the first frame image changes It can be said that it is a video that predicts whether or not it will be.
  • the relationship between the world coordinate system and the image coordinate system should be used.
  • the world coordinate system is represented by (X, Y, Z)
  • the pixel coordinates of the acquired image are represented by (u, v).
  • FIG. 4 is a diagram for explaining a relationship between a world coordinate system and an image obtained through a camera.
  • f denotes the distance between the camera lens and the image plane, that is, the focal distance.
  • D represents the distance between the object and the camera lens.
  • FoV Field of View
  • (u, v) is the coordinates of the image.
  • Equation 1 the relational expression between the world coordinate system and the image pixel is expressed by Equation 1 below.
  • a method of generating a transformed image based on the motion of the camera on the basis of the relationship between the world coordinate system and the image coordinates is described.
  • Equation (2) Denotes an angle formed by the vertical axis of the first frame image and the coordinate (uv), FoV denotes a viewing angle, d denotes depth information obtained for each pixel, s denotes a vanishing point To (uv).
  • linear motion (tx, ty, tz) a first frame image coordinates (u, v) conversion of t u and t v of the made according to the following equation (3).
  • d is the depth information obtained for each pixel
  • is the angle between the vertical axis of the first frame image and the coordinate (uv)
  • height is the height of the y-axis of the image
  • width is the x-axis width of the image (number of x-axis pixels)
  • the rotation transformation according to Equation (2) and the linear transformation according to Equation (3) are performed independently. This means that it is not necessary to perform the sequential conversion irrespective of the order of the conversion. For example, it is possible to perform the linear conversion after performing the rotation conversion first, and conversely, the conversion may be performed.
  • the optical flow image generating unit 140 When the converted image is generated by the converted image generating unit 130, the optical flow image generating unit 140 generates an optical flow image using the converted image and the second frame image.
  • the optical flow image is generated using the difference image between the transformed image and the second frame image.
  • Various methods of generating an optical flow image using two images are known, and an optical flow image can be generated by any method.
  • the optical flow image may be generated using the Lukas-kanade method, or may be generated using a deep-running model such as Flownet.
  • the static object is positioned at the same position in the transformed image and the second frame image.
  • the position of the dynamic object is different in the transformed image and the second frame image.
  • the post-processing unit 150 performs a post-process on the transformed image for correct dynamic object recognition.
  • the outline portion of the optical flow image may not be clear, which may make it difficult to detect the dynamic object region, and the post-processing unit 150 performs post-processing for accurate dynamic object region detection.
  • post-processing may be performed through filtering using an erosion and a dialing filter.
  • the expansion filter is a filter that adds pixels to the edge of an object in an image.
  • the erosion filter is a filter that removes pixels of an edge of an object in an image.
  • the present invention can perform post-processing by combining these two filters. It will be apparent to those skilled in the art that post-processing may be omitted as needed.
  • the dynamic object detection unit 160 detects the dynamic object from the post-processed optical flow image.
  • the optical flow image is a binary image, and detects an object in a region having a different color in the optical flow image as a dynamic object.
  • the dynamic objects detected in this manner can be utilized in various forms. As described above, it can be used to remove dynamic objects in 3D map production.
  • FIG. 5 is a flowchart showing an overall flow of a dynamic object detection method according to an embodiment of the present invention.
  • a stereo image is acquired using a camera (step 500). And acquires the first frame image and the second frame image using a camera.
  • a camera motion occurring between the two frames is detected (step 502).
  • the motion of the camera is divided into a rotational motion and a linear motion.
  • depth information of each pixel of the first frame image (left image in the stereo image) is obtained from the acquired stereo image (step 504).
  • the converted image for the first frame image (left image in the stereo image) is generated based on the pixel-by-pixel depth information and the camera motion information (step 506).
  • the transformed image can be generated by sequentially performing the rotation transformation and the linear transformation on the first frame image.
  • the rotation transformation can be performed as shown in Equation (2), and the linear transformation can be performed as Equation (3).
  • an optical flow image is generated using the transformed image and the second frame image (left image in the stereo image) (step 508). As described above, the optical flow image is generated using the difference image between the transformed image and the second frame image.
  • a post-processing is performed to further clarify the object area, and an erosion filter and an expansion filter may be used as an example, as described above, for post-processing (step 510).
  • a dynamic object is detected from the post-processed optical flow image (step 512).

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Human Computer Interaction (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

An apparatus and a method for detecting a dynamic object are disclosed. The disclosed apparatus comprises: an image obtaining unit for obtaining a stereo image of a first frame image and a second frame image; a camera movement detection unit for detecting camera movement in a first frame period and a second frame period; a depth information operation unit for obtaining a depth per pixel measurement of the first frame image by using the stereo image of the first frame image; a transformed image generation unit for generating a transformed image obtained by transforming the first frame image on the basis of the camera movement and the depth per pixel measurement; an optical flow image generation unit for generating an optical flow image by using the second frame image and the transformed image; and a dynamic object detection unit for detecting a dynamic object by using the generated optical flow image, wherein the transformed image is an image transformed by reflecting the camera movement onto the first frame image. According to the disclosed apparatus and the method, it is possible to effectively detect a dynamic object in an image captured in a moving state.

Description

동적 객체 검출 장치 및 방법Dynamic object detection apparatus and method
본 발명의 실시예들은 동적 객체 검출 장치 및 방법에 관한 것으로서, 더욱 상세하게는 3차원 지도 생성을 위한 획득하는 영상으로부터 동적 객체를 검출하는 장치 및 방법에 관한 것이다. Embodiments of the present invention relate to an apparatus and method for detecting dynamic objects, and more particularly to an apparatus and method for detecting a dynamic object from an acquired image for three-dimensional map generation.
근래에 들어 자율 주행 자동차에 대한 연구가 진행됨에 따라 자동차에 여러 센서들을 장착하여 학습을 통해 정교한 3차원 지도를 생성하는 연구가 활발히 진행되고 있다. Recently, studies on autonomous vehicles have progressed, and studies have been actively carried out to generate sophisticated three-dimensional maps through learning by attaching various sensors to an automobile.
자동차에 카메라를 장착하여 획득한 영상을 통해 생성하는 3차원 지도는 배경 정보만을 포함하여야 하며, 움직이는 자동차나 보행자와 같은 객체는 지도에서 제될 필요가 있다. A 3D map generated by an image obtained by attaching a camera to an automobile should include only background information. Objects such as a moving car or a pedestrian need to be removed from the map.
그러나, 카메라 센서에서 취득된 영상을 그대로 3차원 지도 생성에 이용할 경우, 이러한 동적 객체들이 그대로 지도에 남기 때문에 이를 검출하여 제거할 필요가 있다. However, when the image obtained from the camera sensor is directly used for generating the three-dimensional map, it is necessary to detect and remove the dynamic objects because they remain on the map.
이와 같은 동적 객체를 검출하는 기술로 대표적인 기술이 광학 플로우(Optical Flow) 영상을 이용하는 것이다.광학 플로우 영상은 현재 프레임과 다음 프레임간의 차이를 이용하여 광학 플로우를 연산하여 생성되고 이를 이용하여 동적 객체를 검출하도록 한다. The optical flow image is generated by computing the optical flow using the difference between the current frame and the next frame, and by using the dynamic flow object, .
이러한 이와 같은 광학 플로우 영상은 카메라가 정지된 상태에서는 효과적으로 동적 객체를 검출할 수 있으나 3차원 지도를 제작하는 경우와 같이 움직이는 상태에서 영상이 획득될 경우 적절히 동적 객체를 검출할 수 없는 문제점이 있었다. Such an optical flow image can effectively detect a dynamic object when the camera is stopped. However, there is a problem in that a dynamic object can not be properly detected when an image is acquired in a moving state as in the case of producing a three-dimensional map.
본 발명은 카메라가 움직이는 상태에서 포착되는 영상에서 동적 객체를 효과적으로 검출할 수 있는 방법 및 장치를 제안한다. The present invention proposes a method and apparatus for effectively detecting a dynamic object in an image captured in a moving state of a camera.
본 발명의 일 측면에 따르면, 제1 프레임 영상 및 제2 프레임 영상의 스테레오 영상을 획득하는 영상 획득부; 제1 프레임 및 제2 프레임 구간에서의 카메라 움직임을 검출하는 카메라 움직임 검출부; 상기 제1 프레임 영상의 스테레오 영상을 이용하여 상기 제1 프레임 영상의 픽셀별 깊이를 획득하는 깊이 정보 연산부; 상기 카메라 움직임 및 상기 픽셀별 깊이에 기초하여 상기 제1 프레임 영상을 변환한 변환 영상을 생성하는 변환 영상 생성부; 상기 제2 프레임 영상 및 상기 변환 영상을 이용하여 광학 플로우 영상을 생성하는 광학 플로우 영상 생성부; 및 상기 생성된 광학 플로우 영상을 이용하여 동적 객체를 검출하는 동적 객체 검출부를 포함하되, 상기 변환 영상은 상기 카메라 움직임을 상기 제1 프레임 영상에 반영하여 변환한 영상인 동적 객체 검출 장치가 제공된다. According to an aspect of the present invention, there is provided an image processing apparatus including an image acquiring unit acquiring a stereo image of a first frame image and a second frame image; A camera motion detector for detecting camera motion in a first frame and a second frame; A depth information operation unit for obtaining a depth of each pixel of the first frame image using a stereo image of the first frame image; A transformed image generation unit for generating a transformed image obtained by transforming the first frame image based on the camera motion and the depth per pixel; An optical flow image generation unit generating an optical flow image using the second frame image and the transformed image; And a dynamic object detecting unit for detecting a dynamic object using the generated optical flow image, wherein the transformed image is a transformed image of the camera motion reflected on the first frame image.
상기 카메라 움직임 검출부는 회전 움직임 및 직선 움직임을 독립적으로 검출한다. The camera motion detection unit independently detects the rotational motion and the linear motion.
상기 변환 영상 생성부는 상기 회전 움직임 및 상기 직선 움직임을 독립적으로 적용하여 변환 영상을 생성한다. The transformed image generating unit independently applies the rotational motion and the linear motion to generate a transformed image.
상기 변환 영상 생성부는 상기 회전 움직임에 기초하여 상기 제1 프레임 영상을 다음의 수학식과 같이 변환한다. And the transformed image generating unit transforms the first frame image according to the following equation according to the rotational motion.
Figure PCTKR2017014775-appb-I000001
Figure PCTKR2017014775-appb-I000001
위 수학식에서, ru는 제1 프레임 영상 픽셀 좌표 u에 대한 회전 움직임을 의미하고, rv는 제1 프레임 영상 픽셀 좌표 v에 대한 회전 움직임을 의미하며, yaw, pitch, roll은 검출된 회전 움직임 성분을 의미하고, θ는 제1 프레임 영상의 수직축과 좌표(u.v)가 이루는 각도를 의미하고, FoV는 시야각을 의미하며, d는 각 픽셀에 대해 획득된 깊이 정보를 의미하고, s는 소실점에서 (u.v)까지의 거리를 의미하며, height는 제1 프레임 영상의 수직축 픽셀 수를 의미하고, width는 제1 프레임 영상의 수평축 픽셀 수를 의미함. In the above equation, r u denotes a rotational motion with respect to the first frame image pixel coordinate u, r v denotes rotational motion with respect to the first frame image pixel coordinate v, yaw, pitch, Denotes the angle formed by the vertical axis of the first frame image and the coordinate (uv), FoV denotes the viewing angle, d denotes the depth information acquired for each pixel, s denotes the distance from the vanishing point (uv), height denotes the number of pixels in the vertical axis of the first frame image, and width denotes the number of pixels in the horizontal axis of the first frame image.
상기 변환 영상 생성부는 상기 직선 움직임에 기초하여 상기 제1 프레임 영상을 다음의 수학식과 같이 변환한다. The transformed image generation unit transforms the first frame image according to the following equation based on the linear motion.
Figure PCTKR2017014775-appb-I000002
Figure PCTKR2017014775-appb-I000002
위 수학식에서, tu 및 tv는 제1 프레임 영상 좌표 (u,v)의 u축 및 v축으로의 변환을 의미하고, d는 각 픽셀에 대해 획득된 깊이 정보이고, θ는 제1 프레임 영상의 수직축과 좌표(u.v)가 이루는 각도를 의미하며, height는 제1 프레임 영상의 수직축 픽셀 수를 의미하고, width는 제1 프레임 영상의 수평축 픽셀 수를 의미함.The above equation, t u and t v refers to the conversion of the u-axis and v-axis in the first frame image coordinates (u, v), and, d is the depth information obtained for each pixel, θ is the first frame Height means the number of pixels in the vertical axis of the first frame image, and width means the number of pixels in the horizontal axis of the first frame image.
상기 광학 플로우 영상 생성부는 상기 변환 영상 및 상기 제2 프레임 영상의 차영상을 이용하여 광학 플로우 영상을 생성한다.The optical flow image generation unit generates an optical flow image using the difference image of the transformed image and the second frame image.
상기 광학 플로우 영상 생성부는 상기 변환 영상 및 상기 제2 프레임 영상의 차영상을 이용하여 광학 플로우 영상을 생성한다. The optical flow image generation unit generates an optical flow image using the difference image of the transformed image and the second frame image.
상기 동적 객체 검출 장치는 상기 생성된 광학 플로우 영상에 대해 침식 필터 및 확장 필터를 적용하여 후처리를 수행하는 후처리부를 더 포함한다. The dynamic object detection apparatus further includes a post-processing unit for applying an erosion filter and an expansion filter to the generated optical flow image to perform post-processing.
본 발명의 다른 측면에 따르면, 제1 프레임 영상 및 제2 프레임 영상의 스테레오 영상을 획득하는 영상 획득부; 제1 프레임 및 제2 프레임 구간에서의 카메라 움직임을 검출하는 카메라 움직임 검출부; 상기 제1 프레임 영상의 스테레오 영상을 이용하여 상기 제1 프레임 영상의 픽셀별 깊이를 획득하는 깊이 정보 연산부; 상기 카메라 움직임 및 상기 픽셀별 깊이에 기초하여 상기 제1 프레임 영상을 변환한 변환 영상을 생성하는 변환 영상 생성부; 상기 제2 프레임 영상 및 상기 변환 영상을 이용하여 광학 플로우 영상을 생성하는 광학 플로우 영상 생성부; 및 상기 생성된 광학 플로우 영상을 이용하여 동적 객체를 검출하는 동적 객체 검출부를 포함하되,상기 카메라 움직임 검출부는 회전 움직임 및 직선 움직임을 독립적으로 검출하는 동적 객체 검출 장치가 제공된다. According to another aspect of the present invention, there is provided an image processing apparatus including an image acquiring unit acquiring a stereo image of a first frame image and a second frame image; A camera motion detector for detecting camera motion in a first frame and a second frame; A depth information operation unit for obtaining a depth of each pixel of the first frame image using a stereo image of the first frame image; A transformed image generation unit for generating a transformed image obtained by transforming the first frame image based on the camera motion and the depth per pixel; An optical flow image generation unit generating an optical flow image using the second frame image and the transformed image; And a dynamic object detecting unit for detecting a dynamic object using the generated optical flow image, wherein the camera motion detecting unit independently detects a rotational motion and a linear motion.
본 발명의 또 다른 측면에 따르면, 제1 프레임 영상 및 제2 프레임 영상의 스테레오 영상을 획득하는 단계(a); 제1 프레임 및 제2 프레임 구간에서의 카메라 움직임을 검출하는 단계(b); 상기 제1 프레임 영상의 스테레오 영상을 이용하여 상기 제1 프레임 영상의 픽셀별 깊이를 획득하는 단계(c); 상기 카메라 움직임 및 상기 픽셀별 깊이에 기초하여 상기 제1 프레임 영상을 변환한 변환 영상을 생성하는 단계(d); 상기 제2 프레임 영상 및 상기 변환 영상을 이용하여 광학 플로우 영상을 생성하는 단계(e); 및 상기 생성된 광학 플로우 영상을 이용하여 동적 객체를 검출하는 단계(f)를 포함하되, 상기 변환 영상은 상기 카메라 움직임을 상기 제1 프레임 영상에 반영하여 변환한 영상인 동적 객체 검출 방법이 제공된다. According to another aspect of the present invention, there is provided a stereoscopic image processing method comprising the steps of: (a) acquiring a stereo image of a first frame image and a second frame image; (B) detecting camera motion in a first frame and a second frame period; (C) obtaining a depth of each pixel of the first frame image using a stereo image of the first frame image; (D) generating a transformed image obtained by transforming the first frame image based on the camera motion and the depth per pixel; (E) generating an optical flow image using the second frame image and the transformed image; And a step (f) of detecting a dynamic object using the generated optical flow image, wherein the transformed image is a transformed image of the camera motion reflected on the first frame image, .
본 발명에 의하면, 움직이는 상태에서 포착되는 영상에서 동적 객체를 효과적으로 검출할 수 있는 장점이 있다. According to the present invention, dynamic objects can be effectively detected in an image captured in a moving state.
도 1은 본 발명의 일 실시예에 따른 동적 객체 검출 장치의 개략적 구조를 도시한 블록도.1 is a block diagram showing a schematic structure of a dynamic object detection apparatus according to an embodiment of the present invention;
도 2는 본 발명의 일 실시예에 따라 검출되는 회전 움직임과 직선 움직임을 설명하기 위한 도면.2 is a diagram for explaining a rotational motion and a linear motion detected in accordance with an embodiment of the present invention;
도 3은 본 발명의 일 실시예에 따라 검출되는 회전 움직임의 성분을 설명하기 위한 도면.3 is a diagram for describing components of a rotational motion detected in accordance with an embodiment of the present invention;
도 4는 월드 좌표계와 카메라를 통해 획득되는 이미지간의 관계를 설명하기 위한 도면.4 is a diagram for explaining a relationship between a world coordinate system and an image obtained through a camera;
도 5는 본 발명의 일 실시예에 따른 동적 객체 검출 방법의 전체적인 흐름을 도시한 순서도.5 is a flowchart showing an overall flow of a dynamic object detection method according to an embodiment of the present invention.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다. While the invention is susceptible to various modifications and alternative forms, specific embodiments thereof are shown by way of example in the drawings and will herein be described in detail. It should be understood, however, that the invention is not intended to be limited to the particular embodiments, but includes all modifications, equivalents, and alternatives falling within the spirit and scope of the invention. Like reference numerals are used for like elements in describing each drawing.
이하에서, 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. Hereinafter, embodiments according to the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 일 실시예에 따른 동적 객체 검출 장치의 개략적 구조를 도시한 블록도이다. 1 is a block diagram showing a schematic structure of a dynamic object detecting apparatus according to an embodiment of the present invention.
도 1을 참조하면, 본 발명의 일 실시예에 따른 동적 객체 검출 장치는 스테레오 영상 획득부(100), 카메라 움직임 검출부(110), 깊이 정보 연산부(120), 변환 영상 생성부(130), 광학 플로우 영상 생성부(140), 후처리부(150) 및 동적 객체 검출부(160)를 포함한다. Referring to FIG. 1, a dynamic object detecting apparatus according to an exemplary embodiment of the present invention includes a stereo image acquiring unit 100, a camera motion detecting unit 110, a depth information calculating unit 120, a transformed image generating unit 130, A flow image generating unit 140, a post-processing unit 150, and a dynamic object detecting unit 160.
본 발명의 일 실시예에 따른 동적 객체 검출 장치는 차량에 설치되어 3차원 지도를 제작하는데 사용될 수 있다. 3차원 지도를 제작하기 위해 차량에서 영상을 획득할 경우 차량이 움직이는 상태이기에 획득하는 영상으로부터 동적 객체만을 검출하는 것은 어려운 작업이다. 물론, 이와 같은 용도 이외에도 움직이면서 획득한 영상으로부터 동적 객체를 검출할 필요가 있다면 이와 다른 다양한 용도로 사용될 수 있을 것이다. The dynamic object detection apparatus according to an embodiment of the present invention can be installed in a vehicle and used to produce a three-dimensional map. It is difficult to detect only the dynamic object from the acquired image because the vehicle is moving when acquiring the image from the vehicle to produce the 3D map. Of course, in addition to these applications, if you need to detect dynamic objects from moving images, you can use them for a variety of other purposes.
스테레오 영상 획득부(100)는 스테레오 카메라를 이용하여 스테레오 영상을 획득한다. 스테레오 영상 획득부(100)는 좌영상 획득을 위한 제1 카메라 장치와 우영상 획득을 위한 제2 카메라 장치를 포함하여 좌영상 및 우영상을 독립적으로 획득한다. The stereo image acquisition unit 100 acquires a stereo image using a stereo camera. The stereo image acquisition unit 100 includes a first camera device for acquiring a left image and a second camera device for acquiring a right image, and independently acquires a left image and a right image.
본 발명은 움직임을 반영하여 동적 객체를 검출하여야 하며 추후 설명하겠지만 이 경우 촬영된 영상으로부터 깊이 정보를 획득하여야 하고, 이를 위해 둘 이상의 카메라를 이용하여 스테레오 영상을 획득한다.In the present invention, the dynamic object should be detected by reflecting the motion. In this case, the depth information should be obtained from the photographed image, and a stereo image is acquired using two or more cameras.
카메라 움직임 검출부(110)는 카메라의 움직임을 검출하며 추후 설명하는 변환 영상을 생성하기 위해 카메라 움직임을 검출한다. The camera motion detection unit 110 detects camera motion and detects a camera motion to generate a converted image to be described later.
카메라가 차량에 고정되어 있다면 차량의 움직임으로 임해 카메라의 움직임이 발생할 수 있으며 카메라 자체의 움직임으로 인해 움직임이 발생할 수도 있다. If the camera is fixed on the vehicle, the camera movement may occur due to the movement of the vehicle, and movement may be caused by the movement of the camera itself.
카메라 움직임 검출부(110)는 스테레오 영상 획득부로부터 획득하는 영상의 프레임들 중 제1 프레임 영상과 제2 프레임 영상 사이에 발생하는 카메라의 움직임을 검출한다. The camera motion detection unit 110 detects a camera motion occurring between a first frame image and a second frame image among frames of an image acquired from the stereo image acquisition unit.
카메라 움직임 검출부(110)는 카메라의 움직임 정보를 검출하게 되는데 본 발명은 카메라의 움직임을 두 개의 움직임으로 구분하여 검출한다. 첫 번째 카메라의 움직임은 카메라의 회전 움직임이고 두 번째 카메라 움직임은 직선 움직임이다. 회전 움직임과 직선 움직임의 조합이 실질적인 카메라의 움직임으로 볼 수 있으나, 본 발명은 이를 구분하여 검출한다. The camera motion detection unit 110 detects motion information of the camera. In the present invention, the motion of the camera is detected as two motions. The movement of the first camera is the rotation movement of the camera and the movement of the second camera is the movement of the straight line. The combination of the rotational motion and the linear motion can be regarded as a substantial motion of the camera, but the present invention distinguishes it.
도 2는 본 발명의 일 실시예에 따라 검출되는 회전 움직임과 직선 움직임을 설명하기 위한 도면이다. FIG. 2 is a diagram for explaining a rotational motion and a linear motion detected according to an embodiment of the present invention. FIG.
도 2의 (a)는 카메라의 실제 움직임을 나타낸 도면이고, (b)는 (a)의 움직임 중 카메라의 직선 움직임을 나타낸 도면이며, (c)는 (a)의 움직임 중 회전 움직임만을 나타낸 도면이다. Fig. 2 (a) is a view showing the actual movement of the camera, Fig. 2 (b) is a view showing a linear movement of the camera during movement of Fig. to be.
도 2에 도시된 바와 같이, 카메라의 움직임은 회전 움직임과 직선 움직임의 합으로 표현되며, 카메라 움직임 검출부(110)는 도 2에 도시된 바와 같은 직선 움직임과 회전 움직임을 각각 독립적으로 검출한다. As shown in FIG. 2, the movement of the camera is represented by the sum of the rotational motion and the linear motion, and the camera motion detection unit 110 independently detects the linear motion and the rotational motion as shown in FIG.
본 발명의 바람직한 실시예에 따르면, 카메라의 움직임은 가속도 센서와 같은 알려진 다양한 센서를 이용하여 검출될 수 있을 것이다.According to a preferred embodiment of the present invention, the movement of the camera may be detected using various sensors known as acceleration sensors.
회전 움직임은 yaw, pitch, roll의 세 가지 성분에 대한 움직임을 포함하며, 직선 움직임은 x축, y축, z축 방향으로의 움직임을 포함한다. Rotational motion includes motion for three components yaw, pitch, and roll, and linear motion includes motion in the x-, y-, and z-axis directions.
도 3은 본 발명의 일 실시예에 따라 검출되는 회전 움직임의 성분을 설명하기 위한 도면이다. FIG. 3 is a diagram for explaining components of rotational motion detected according to an embodiment of the present invention.
도 3을 참조하면, roll은 대상체의 특정 길이 방향(예를 들어, z축)을 기준으로 자가 회전하는 움직임을 의미한다. yaw는 대상체가 좌우 방향(예를 들어, x축)으로 회전하는 움직임을 의미한다. 또한, pitch는 대상체가 상하 방향(예를 들어, y축)으로 회전하는 움직임을 의미한다. Referring to FIG. 3, roll means a motion in which the object rotates in a specific longitudinal direction (for example, z axis). yaw means a movement in which the object rotates in the lateral direction (for example, the x axis). In addition, pitch means a motion in which the object rotates in the up-and-down direction (for example, the y-axis).
깊이 정보 연산부(120)는 획득하는 영상의 깊이 정보를 연산하며, 픽셀별로 깊이 정보를 연산한다. 스테레오 영상을 이용하여 깊이 정보를 획득하는 다양한 연산 방식이 사용될 수 있을 것이다. 예를 들어, 좌영상과 우영상의 차영상에 기초하여 변이를 추정하고, 추정된 변이에 기초하여 픽셀별 깊이 정보를 연산할 수 있을 것이다. 깊이 정보 연산부(120)는 제1 프레임 영상의 좌영상 및 우영상을 이용하여 제1 프레임 영상의 깊이 정보를 연산한다. The depth information calculation unit 120 calculates depth information of an image to be acquired, and calculates depth information for each pixel. Various arithmetic methods for acquiring depth information using a stereo image may be used. For example, the variation may be estimated based on the difference image between the left image and the right image, and the depth information per pixel may be calculated based on the estimated variation. The depth information calculation unit 120 calculates depth information of the first frame image using the left and right images of the first frame image.
변환 영상 생성부(130)는 구분되어 획득한 회전 움직임 및 직선 움직임에 기초하여 변환 정보를 생성하고, 이에 기초하여 변환 영상을 생성한다. 여기서, 변환 정보는 획득하는 제1 프레임 영상과 제2 프레임 영상 사이에 발생하는 움직임에 기초하여 제1 프레임 영상을 변환시키기 위한 정보이며, 제1 프레임 영상의 스테레오 영상 중 어느 하나의 영상(예를 들어, 좌영상)에 대해 변환을 수행한다. The transformed image generation unit 130 generates transformed information based on the rotational motion and the linear motion that are obtained separately, and generates a transformed image based on the transformed information. Here, the conversion information is information for converting the first frame image based on the motion generated between the first frame image and the second frame image to be acquired, and the conversion information is information for converting one of the stereo images of the first frame image For example, a left image).
이와 같은 변환 정보는 제1 프레임 영상과 제2 프레임 영상에 있는 객체들 중 고정 객체와 동적 객체를 구분하기 위해 생성되는 정보이다. Such conversion information is generated to distinguish a fixed object from a dynamic object among the objects in the first frame image and the second frame image.
결국, 변환 정보는 제1 프레임 영상(좌영상)의 각 픽셀들을 검출된 카메라 움직임에 기초하여 어떻게 변환시킬 것인가에 대한 정보이며, 변환 영상은 검출된 카메라 움직임이 있을 경우 제1 프레임 영상이 어떻게 변화될 것인가를 예측한 영상이라고 할 수 있다. In other words, the conversion information is information on how to convert each pixel of the first frame image (left image) based on the detected camera motion, and the converted image is how the first frame image changes It can be said that it is a video that predicts whether or not it will be.
이와 같은 변환 영상의 생성을 위해서는 월드 좌표계와 이미지 좌표계간의 관계를 이용하여야 한다. 본 명세서에서는 월드 좌표계는 (X, Y, Z)로 표현하기로 하며, 획득되는 이미지의 픽셀 좌표는 (u,v)로 표현하기로 한다. In order to generate such a transformed image, the relationship between the world coordinate system and the image coordinate system should be used. In this specification, the world coordinate system is represented by (X, Y, Z), and the pixel coordinates of the acquired image are represented by (u, v).
도 4는 월드 좌표계와 카메라를 통해 획득되는 이미지간의 관계를 설명하기 위한 도면이다.4 is a diagram for explaining a relationship between a world coordinate system and an image obtained through a camera.
도 4를 참조하면, f는 카메라 렌즈와 이미지 평면 사이의 거리, 즉 초점 거리를 의미한다. 또한, d는 물체와 카메라 렌즈 사이의 거리를 나타낸다. FoV(Eield of View)는 카메라의 시야각을 의미하며, 앞서 설명한 바와 같이, (u,v)는 영상의 좌표이다. Referring to FIG. 4, f denotes the distance between the camera lens and the image plane, that is, the focal distance. D represents the distance between the object and the camera lens. FoV (Eield of View) means the viewing angle of the camera. As described above, (u, v) is the coordinates of the image.
도 4에서, 월드 좌표계의 단위는 실제 거리인 미터이고, (u,v)의 단위는 픽셀이 된다. 도 4와 같은 관계에 있을 때, 월드 좌표계와 영상 픽셀간의 관계식은 다음의 수학식 1과 같다. In Fig. 4, the unit of the world coordinate system is the actual distance, and the unit of (u, v) is the pixel. 4, the relational expression between the world coordinate system and the image pixel is expressed by Equation 1 below.
Figure PCTKR2017014775-appb-M000001
Figure PCTKR2017014775-appb-M000001
월드 좌표계와 이미지 좌표가 위와 같은 관계에 있다는 점에 기초하여 카메라의 움직임에 기초하여 변환 영상을 생성하는 방법을 설명한다.A method of generating a transformed image based on the motion of the camera on the basis of the relationship between the world coordinate system and the image coordinates is described.
검출된 회전 움직임(yaw, pitch, roll)에 기초하여 영상(구체적으로 제1 프레임 영상의 좌영상) 픽셀 좌표 u에 대한 회전 움직임으로 인한 변환(ru) 및 픽셀 좌표v에 대한 회전 움직임으로 인한 변환(rv)은 다음의 수학식 2와 같이 이루어진다. (R u ) due to the rotational motion about the pixel coordinate u and the rotational motion for the pixel coordinate v based on the detected rotational motion (yaw, pitch, roll) conversion (r v) is performed as in the following equation (2).
Figure PCTKR2017014775-appb-M000002
Figure PCTKR2017014775-appb-M000002
위 수학식 2에서, θ는 제1 프레임 영상의 수직축과 좌표(u.v)가 이루는 각도를 의미하고, FoV는 시야각을 의미하며, d는 각 픽셀에 대해 획득된 깊이 정보를 의미하고, s는 소실점에서 (u.v)까지의 거리를 의미한다. In Equation (2),? Denotes an angle formed by the vertical axis of the first frame image and the coordinate (uv), FoV denotes a viewing angle, d denotes depth information obtained for each pixel, s denotes a vanishing point To (uv).
한편, 직선 움직임(tx, ty, tz)에 따른 제1 프레임 영상 좌표 (u,v)의 변환인 tu 및 tv는 다음의 수학식 3과 같이 이루어진다. On the other hand, linear motion (tx, ty, tz) a first frame image coordinates (u, v) conversion of t u and t v of the made according to the following equation (3).
Figure PCTKR2017014775-appb-M000003
Figure PCTKR2017014775-appb-M000003
위 수학식에서, d는 각 픽셀에 대해 획득된 깊이 정보이고, θ는 제1 프레임 영상의 수직축과 좌표(u.v)가 이루는 각도를 의미하며, height는 이미지의 y축 높이(y축 픽셀수)를 나타내고 width는 이미지의 x축 너비(x축 픽셀수)를 나타낸다In the above equation, d is the depth information obtained for each pixel, θ is the angle between the vertical axis of the first frame image and the coordinate (uv), and height is the height of the y-axis of the image And width is the x-axis width of the image (number of x-axis pixels)
수학식 2에 따른 회전 변환과 수학식 3에 따른 직선 변환은 독립적으로 이루어진다. 이는 변환의 순서에 무관하게 순차적으로 변환이 이루어지면 무방하다는 것을 의미하며, 일례로 회전 변환을 먼저 수행한 후 직선 변환을 수행할 수 있을 것이며 그 역으로 변환이 이루어져도 무방하다. The rotation transformation according to Equation (2) and the linear transformation according to Equation (3) are performed independently. This means that it is not necessary to perform the sequential conversion irrespective of the order of the conversion. For example, it is possible to perform the linear conversion after performing the rotation conversion first, and conversely, the conversion may be performed.
이와 같이 생성되는 변환 영상을 통해 고정 객체들이 검출된 카메라 움직임에 따라 제2 프레임 영상(좌영상)에서 어떻게 그 위치가 이동할 것인가를 예측할 수 있다. According to the camera movement detected by the fixed objects through the generated transformed image, it is possible to predict how the position will move in the second frame image (left image).
변환 영상 생성부(130)에 의해 변환 영상을 생성하면 광학 플로우 영상 생성부(140)는 변환 영상과 제2 프레임 영상을 이용하여 광학 플로우 영상을 생성한다. 광학 플로우 영상은 변환 영상과 제2 프레임 영상의 차영상을 이용하여 생성된다. 두 개의 영상을 이용하여 광학 플로우 영상을 생성하는 다양한 방법이 알려져 있으며, 어떠한 방법에 의해서도 광학 플로우 영상을 생성할 수 있을 것이다. When the converted image is generated by the converted image generating unit 130, the optical flow image generating unit 140 generates an optical flow image using the converted image and the second frame image. The optical flow image is generated using the difference image between the transformed image and the second frame image. Various methods of generating an optical flow image using two images are known, and an optical flow image can be generated by any method.
일례로, 광학 플로우 영상은 Lukas-kanade 방식을 이용하여 생성될 수도 있으며, Flownet과 같은 딥러닝 모델을 이용하여 생성될 수도 있을 것이다. For example, the optical flow image may be generated using the Lukas-kanade method, or may be generated using a deep-running model such as Flownet.
변환 영상 생성부(130)에 의해 생성된 변환 영상은 카메라의 움직임을 반영한 영상이기에 정적 객체는 변환 영상과 제2 프레임 영상에 그 위치가 동일하게 나타난다. 그러나, 동적 객체는 변환 영상과 제2 프레임 영상에서 그 위치가 상이하게 나타나게 된다. Since the transformed image generated by the transformed image generating unit 130 is an image reflecting the motion of the camera, the static object is positioned at the same position in the transformed image and the second frame image. However, the position of the dynamic object is different in the transformed image and the second frame image.
후처리부(150)는 정확한 동적 객체 인식을 위해 변환 영상에 대한 후처리를 수행한다. 광학 플로우 영상의 외곽선 부분은 명확하지 않을 수 있으며 이로 인해 동적 객체 영역의 검출이 어려울 수 있으며, 후처리부(150)는 정확한 동적 객체 영역 검출을 위한 후처리를 수행한다. The post-processing unit 150 performs a post-process on the transformed image for correct dynamic object recognition. The outline portion of the optical flow image may not be clear, which may make it difficult to detect the dynamic object region, and the post-processing unit 150 performs post-processing for accurate dynamic object region detection.
본 발명의 일 실시예에 따르면, 침식(Erosion) 및 팽창(Dialation) 필터를 이용한 필터링을 통해 후처리를 수행할 수 있다. 확장 필터는 영상 내 물체의 가장자리에 픽셀을 추가하는 필터를 의미하며, 침식 필터는 영상 내 물체의 가장자리의 픽셀을 제거하는 필터이다. 본 발명은 이 두 개의 필터를 조합하여 후처리를 수행할 수 있다. 필요에 따라 후처리가 생략될 수도 있다는 점은 당업자에게 있어 자명할 것이다. According to an embodiment of the present invention, post-processing may be performed through filtering using an erosion and a dialing filter. The expansion filter is a filter that adds pixels to the edge of an object in an image. The erosion filter is a filter that removes pixels of an edge of an object in an image. The present invention can perform post-processing by combining these two filters. It will be apparent to those skilled in the art that post-processing may be omitted as needed.
동적 객체 검출부(160)는 후처리가 완료된 광학 플로우 영상으로부터 동적 객체를 검출한다. 광학 플로우 영상은 바이너리 형태의 영상으로서 광학 플로우 영상에서 다른 색상을 가지는 영역의 객체를 동적 객체로 검출한다. The dynamic object detection unit 160 detects the dynamic object from the post-processed optical flow image. The optical flow image is a binary image, and detects an object in a region having a different color in the optical flow image as a dynamic object.
이와 같이 검출되는 동적 객체는 다양한 형태로 활용될 수 있다. 앞서 설명한 바와 같이 3D 지도 제작 시 동적 객체를 제거하는데 사용될 수 있을 것이다. The dynamic objects detected in this manner can be utilized in various forms. As described above, it can be used to remove dynamic objects in 3D map production.
도 5는 본 발명의 일 실시예에 따른 동적 객체 검출 방법의 전체적인 흐름을 도시한 순서도이다. 5 is a flowchart showing an overall flow of a dynamic object detection method according to an embodiment of the present invention.
도 5를 참조하면, 우선 카메라를 이용하여 스테레오 영상을 획득한다(단계 500). 카메라를 이용하여 제1 프레임 영상 및 제2 프레임 영상을 획득하게 된다. Referring to FIG. 5, first, a stereo image is acquired using a camera (step 500). And acquires the first frame image and the second frame image using a camera.
제1 프레임 영상 및 제2 프레임 영상이 획득하면서, 두 프레임 사이에 발생하는 카메라 움직임을 검출한다(단계 502). 본 발명은 카메라의 움직임을 회전 움직임과 직선 움직임으로 구분하여 검출한다. As the first frame image and the second frame image are acquired, a camera motion occurring between the two frames is detected (step 502). In the present invention, the motion of the camera is divided into a rotational motion and a linear motion.
한편, 획득한 스테레오 영상으로부터 제1 프레임 영상(스테레오 영상 중 좌영상)의 픽셀별 깊이 정보를 획득한다(단계 504). Meanwhile, depth information of each pixel of the first frame image (left image in the stereo image) is obtained from the acquired stereo image (step 504).
픽셀별 깊이 정보 및 카메라 움직임 정보를 기초하여 제1 프레임 영상(스테레오 영상 중 좌영상)에 대한 변환 영상을 생성한다(단계 506). 변환 영상은 제1 프레임 영상에 대한 회전 변환과 직선 변환을 순차적으로 수행하면서 생성할 수 있다. 회전 변환은 수학식 2와 같이 이루어질 수 있으며, 직선 변환은 수학식 3과 같이 이루어질 수 있다. The converted image for the first frame image (left image in the stereo image) is generated based on the pixel-by-pixel depth information and the camera motion information (step 506). The transformed image can be generated by sequentially performing the rotation transformation and the linear transformation on the first frame image. The rotation transformation can be performed as shown in Equation (2), and the linear transformation can be performed as Equation (3).
변환 영상이 생성되면, 변환 영상과 제2 프레임 영상(스테레오 영상 중 좌영상)을 이용하여 광학 플로우 영상을 생성한다(단계 508). 앞서 설명한 바와 같이, 변환 영상과 제2 프레임 영상의 차영상을 이용하여 광학 플로우 영상을 생성한다.When the transformed image is generated, an optical flow image is generated using the transformed image and the second frame image (left image in the stereo image) (step 508). As described above, the optical flow image is generated using the difference image between the transformed image and the second frame image.
광학 플로우 영상이 생성되면, 객체 영역을 보다 명확히 하기 위한 후처리를 수행하며, 앞서 설명한 바와 같이 일례로 침식 필터 및 확장 필터가 후처리를 위해 사용될 수 있다(단계 510). Once the optical flow image is created, a post-processing is performed to further clarify the object area, and an erosion filter and an expansion filter may be used as an example, as described above, for post-processing (step 510).
후처리가 완료된 광학 플로우 영상으로부터 동적 객체를 검출한다(단계 512). A dynamic object is detected from the post-processed optical flow image (step 512).
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.As described above, the present invention has been described with reference to particular embodiments, such as specific elements, and specific embodiments and drawings. However, it should be understood that the present invention is not limited to the above- And various modifications and changes may be made thereto by those skilled in the art to which the present invention pertains. Accordingly, the spirit of the present invention should not be construed as being limited to the embodiments described, and all of the equivalents or equivalents of the claims, as well as the following claims, belong to the scope of the present invention .

Claims (18)

  1. 제1 프레임 영상 및 제2 프레임 영상의 스테레오 영상을 획득하는 영상 획득부;An image acquiring unit acquiring a stereo image of the first frame image and the second frame image;
    제1 프레임 및 제2 프레임 구간에서의 카메라 움직임을 검출하는 카메라 움직임 검출부;A camera motion detector for detecting camera motion in a first frame and a second frame;
    상기 제1 프레임 영상의 스테레오 영상을 이용하여 상기 제1 프레임 영상의 픽셀별 깊이를 획득하는 깊이 정보 연산부;A depth information operation unit for obtaining a depth of each pixel of the first frame image using a stereo image of the first frame image;
    상기 카메라 움직임 및 상기 픽셀별 깊이에 기초하여 상기 제1 프레임 영상을 변환한 변환 영상을 생성하는 변환 영상 생성부;A transformed image generation unit for generating a transformed image obtained by transforming the first frame image based on the camera motion and the depth per pixel;
    상기 제2 프레임 영상 및 상기 변환 영상을 이용하여 광학 플로우 영상을 생성하는 광학 플로우 영상 생성부; 및An optical flow image generation unit generating an optical flow image using the second frame image and the transformed image; And
    상기 생성된 광학 플로우 영상을 이용하여 동적 객체를 검출하는 동적 객체 검출부를 포함하되,And a dynamic object detection unit for detecting a dynamic object using the generated optical flow image,
    상기 변환 영상은 상기 카메라 움직임을 상기 제1 프레임 영상에 반영하여 변환한 영상인 것을 특징으로 하는 동적 객체 검출 장치. Wherein the transformed image is a transformed image of the camera motion reflected on the first frame image.
  2. 제1항에 있어서,The method according to claim 1,
    상기 카메라 움직임 검출부는 회전 움직임 및 직선 움직임을 독립적으로 검출하는 것을 특징으로 하는 동적 객체 검출 장치. Wherein the camera motion detecting unit independently detects the rotational motion and the linear motion.
  3. 제2항에 있어서,3. The method of claim 2,
    상기 변환 영상 생성부는 상기 회전 움직임 및 상기 직선 움직임을 독립적으로 적용하여 변환 영상을 생성하는 것을 특징으로 하는 동적 객체 검출 장치. Wherein the transformed image generator independently generates the transformed image by applying the rotational motion and the linear motion independently.
  4. 제3항에 있어서,The method of claim 3,
    상기 변환 영상 생성부는 상기 회전 움직임에 기초하여 상기 제1 프레임 영상을 다음의 수학식과 같이 변환하는 것을 특징으로 하는 동적 객체 검출 장치. Wherein the transformed image generating unit transforms the first frame image according to the rotational motion according to the following equation.
    Figure PCTKR2017014775-appb-I000003
    Figure PCTKR2017014775-appb-I000003
    위 수학식에서, ru는 제1 프레임 영상 픽셀 좌표 u에 대한 회전 움직임을 의미하고, rv는 제1 프레임 영상 픽셀 좌표 v에 대한 회전 움직임을 의미하며, yaw, pitch, roll은 검출된 회전 움직임 성분을 의미하고, θ는 제1 프레임 영상의 수직축과 좌표(u.v)가 이루는 각도를 의미하고, FoV는 시야각을 의미하며, d는 각 픽셀에 대해 획득된 깊이 정보를 의미하고, s는 소실점에서 (u.v)까지의 거리를 의미하며, height는 제1 프레임 영상의 수직축 픽셀 수를 의미하고, width는 제1 프레임 영상의 수평축 픽셀 수를 의미함. In the above equation, r u denotes a rotational motion with respect to the first frame image pixel coordinate u, r v denotes rotational motion with respect to the first frame image pixel coordinate v, yaw, pitch, Denotes the angle formed by the vertical axis of the first frame image and the coordinate (uv), FoV denotes the viewing angle, d denotes the depth information acquired for each pixel, s denotes the distance from the vanishing point (uv), height denotes the number of pixels in the vertical axis of the first frame image, and width denotes the number of pixels in the horizontal axis of the first frame image.
  5. 제3항에 있어서,The method of claim 3,
    상기 변환 영상 생성부는 상기 직선 움직임에 기초하여 상기 제1 프레임 영상을 다음의 수학식과 같이 변환하는 것을 특징으로 하는 동적 객체 검출 장치. Wherein the transformed image generating unit transforms the first frame image according to the following equation according to the linear motion.
    Figure PCTKR2017014775-appb-I000004
    Figure PCTKR2017014775-appb-I000004
    위 수학식에서, tu 및 tv는 제1 프레임 영상 좌표 (u,v)의 u축 및 v축으로의 변환을 의미하고, d는 각 픽셀에 대해 획득된 깊이 정보이고, θ는 제1 프레임 영상의 수직축과 좌표(u.v)가 이루는 각도를 의미하며, height는 제1 프레임 영상의 수직축 픽셀 수를 의미하고, width는 제1 프레임 영상의 수평축 픽셀 수를 의미함.The above equation, t u and t v refers to the conversion of the u-axis and v-axis in the first frame image coordinates (u, v), and, d is the depth information obtained for each pixel, θ is the first frame Height means the number of pixels in the vertical axis of the first frame image, and width means the number of pixels in the horizontal axis of the first frame image.
  6. 제1항에 있어서,The method according to claim 1,
    상기 광학 플로우 영상 생성부는 상기 변환 영상 및 상기 제2 프레임 영상의 차영상을 이용하여 광학 플로우 영상을 생성하는 것을 특징으로 하는 동적 객체 검출 장치. Wherein the optical flow image generating unit generates an optical flow image using the difference image of the transformed image and the second frame image.
  7. 제1항에 있어서,The method according to claim 1,
    상기 광학 플로우 영상 생성부는 상기 변환 영상 및 상기 제2 프레임 영상의 차영상을 이용하여 광학 플로우 영상을 생성하는 것을 특징으로 하는 동적 객체 검출 장치. Wherein the optical flow image generating unit generates an optical flow image using the difference image of the transformed image and the second frame image.
  8. 제1항에 있어서,The method according to claim 1,
    상기 생성된 광학 플로우 영상에 대해 침식 필터 및 확장 필터를 적용하여 후처리를 수행하는 후처리부를 더 포함하는 것을 특징으로 하는 동적 객체 검출 장치. Further comprising a post-processing unit for performing post-processing by applying an erosion filter and an expansion filter to the generated optical flow image.
  9. 제1 프레임 영상 및 제2 프레임 영상의 스테레오 영상을 획득하는 영상 획득부;An image acquiring unit acquiring a stereo image of the first frame image and the second frame image;
    제1 프레임 및 제2 프레임 구간에서의 카메라 움직임을 검출하는 카메라 움직임 검출부;A camera motion detector for detecting camera motion in a first frame and a second frame;
    상기 제1 프레임 영상의 스테레오 영상을 이용하여 상기 제1 프레임 영상의 픽셀별 깊이를 획득하는 깊이 정보 연산부;A depth information operation unit for obtaining a depth of each pixel of the first frame image using a stereo image of the first frame image;
    상기 카메라 움직임 및 상기 픽셀별 깊이에 기초하여 상기 제1 프레임 영상을 변환한 변환 영상을 생성하는 변환 영상 생성부;A transformed image generation unit for generating a transformed image obtained by transforming the first frame image based on the camera motion and the depth per pixel;
    상기 제2 프레임 영상 및 상기 변환 영상을 이용하여 광학 플로우 영상을 생성하는 광학 플로우 영상 생성부; 및An optical flow image generation unit generating an optical flow image using the second frame image and the transformed image; And
    상기 생성된 광학 플로우 영상을 이용하여 동적 객체를 검출하는 동적 객체 검출부를 포함하되,And a dynamic object detection unit for detecting a dynamic object using the generated optical flow image,
    상기 카메라 움직임 검출부는 회전 움직임 및 직선 움직임을 독립적으로 검출하는 것을 특징으로 하는 동적 객체 검출 장치. Wherein the camera motion detecting unit independently detects the rotational motion and the linear motion.
  10. 제9항에 있어서,10. The method of claim 9,
    상기 변환 영상 생성부는 상기 회전 움직임 및 상기 직선 움직임을 독립적으로 적용하여 변환 영상을 생성하는 것을 특징으로 하는 동적 객체 검출 장치. Wherein the transformed image generator independently generates the transformed image by applying the rotational motion and the linear motion independently.
  11. 제1 프레임 영상 및 제2 프레임 영상의 스테레오 영상을 획득하는 단계(a);(A) obtaining a stereo image of a first frame image and a second frame image;
    제1 프레임 및 제2 프레임 구간에서의 카메라 움직임을 검출하는 단계(b);(B) detecting camera motion in a first frame and a second frame period;
    상기 제1 프레임 영상의 스테레오 영상을 이용하여 상기 제1 프레임 영상의 픽셀별 깊이를 획득하는 단계(c);(C) obtaining a depth of each pixel of the first frame image using a stereo image of the first frame image;
    상기 카메라 움직임 및 상기 픽셀별 깊이에 기초하여 상기 제1 프레임 영상을 변환한 변환 영상을 생성하는 단계(d);(D) generating a transformed image obtained by transforming the first frame image based on the camera motion and the depth per pixel;
    상기 제2 프레임 영상 및 상기 변환 영상을 이용하여 광학 플로우 영상을 생성하는 단계(e); 및(E) generating an optical flow image using the second frame image and the transformed image; And
    상기 생성된 광학 플로우 영상을 이용하여 동적 객체를 검출하는 단계(f)를 포함하되,(F) detecting a dynamic object using the generated optical flow image,
    상기 변환 영상은 상기 카메라 움직임을 상기 제1 프레임 영상에 반영하여 변환한 영상인 것을 특징으로 하는 동적 객체 검출 방법. Wherein the transformed image is a transformed image of the camera motion reflected on the first frame image.
  12. 제11항에 있어서,12. The method of claim 11,
    상기 단계(b)는 회전 움직임 및 직선 움직임을 독립적으로 검출하는 것을 특징으로 하는 동적 객체 검출 방법. Wherein the step (b) independently detects the rotational motion and the linear motion.
  13. 제12항에 있어서,13. The method of claim 12,
    상기 단계(d)는 상기 회전 움직임 및 상기 직선 움직임을 독립적으로 적용하여 변환 영상을 생성하는 것을 특징으로 하는 동적 객체 검출 방법. Wherein the step (d) independently applies the rotational motion and the linear motion to generate a transformed image.
  14. 제13항에 있어서,14. The method of claim 13,
    상기 단계(d)는 상기 회전 움직임에 기초하여 상기 제1 프레임 영상을 다음의 수학식과 같이 변환하는 것을 특징으로 하는 동적 객체 검출 방법. Wherein the step (d) transforms the first frame image according to the rotation motion as expressed by the following equation.
    Figure PCTKR2017014775-appb-I000005
    Figure PCTKR2017014775-appb-I000005
    위 수학식에서, ru는 제1 프레임 영상 픽셀 좌표 u에 대한 회전 움직임을 의미하고, rv는 제1 프레임 영상 픽셀 좌표 v에 대한 회전 움직임을 의미하며, yaw, pitch, roll은 검출된 회전 움직임 성분을 의미하고, θ는 제1 프레임 영상의 수직축과 좌표(u.v)가 이루는 각도를 의미하고, FoV는 시야각을 의미하며, d는 각 픽셀에 대해 획득된 깊이 정보를 의미하고, s는 소실점에서 (u.v)까지의 거리를 의미하며, height는 제1 프레임 영상의 수직축 픽셀 수를 의미하고, width는 제1 프레임 영상의 수평축 픽셀 수를 의미함. In the above equation, r u denotes a rotational motion with respect to the first frame image pixel coordinate u, r v denotes rotational motion with respect to the first frame image pixel coordinate v, yaw, pitch, Denotes the angle formed by the vertical axis of the first frame image and the coordinate (uv), FoV denotes the viewing angle, d denotes the depth information acquired for each pixel, s denotes the distance from the vanishing point (uv), height denotes the number of pixels in the vertical axis of the first frame image, and width denotes the number of pixels in the horizontal axis of the first frame image.
  15. 제13항에 있어서,14. The method of claim 13,
    상기 단계(d)는 상기 직선 움직임에 기초하여 상기 제1 프레임 영상을 다음의 수학식과 같이 변환하는 것을 특징으로 하는 동적 객체 검출 방법. Wherein the step (d) transforms the first frame image according to the following equation according to the linear motion.
    Figure PCTKR2017014775-appb-I000006
    Figure PCTKR2017014775-appb-I000006
    위 수학식에서, tu 및 tv는 제1 프레임 영상 좌표 (u,v)의 u축 및 v축으로의 변환을 의미하고, d는 각 픽셀에 대해 획득된 깊이 정보이고, θ는 제1 프레임 영상의 수직축과 좌표(u.v)가 이루는 각도를 의미하며, height는 제1 프레임 영상의 수직축 픽셀 수를 의미하고, width는 제1 프레임 영상의 수평축 픽셀 수를 의미함.The above equation, t u and t v refers to the conversion of the u-axis and v-axis in the first frame image coordinates (u, v), and, d is the depth information obtained for each pixel, θ is the first frame Height means the number of pixels in the vertical axis of the first frame image, and width means the number of pixels in the horizontal axis of the first frame image.
  16. 제11항에 있어서,12. The method of claim 11,
    상기 단계(e)는 상기 변환 영상 및 상기 제2 프레임 영상의 차영상을 이용하여 광학 플로우 영상을 생성하는 것을 특징으로 하는 동적 객체 검출 방법.Wherein the step (e) generates an optical flow image using a difference image of the transformed image and the second frame image.
  17. 제11항에 있어서,12. The method of claim 11,
    상기 단계(e)는 상기 변환 영상 및 상기 제2 프레임 영상의 차영상을 이용하여 광학 플로우 영상을 생성하는 것을 특징으로 하는 동적 객체 검출 방법. Wherein the step (e) generates an optical flow image using a difference image of the transformed image and the second frame image.
  18. 제11항에 있어서,12. The method of claim 11,
    상기 생성된 광학 플로우 영상에 대해 침식 필터 및 확장 필터를 적용하여 후처리를 수행하는 단계를 더 포함하는 것을 특징으로 하는 동적 객체 검출 방법. Further comprising: applying an erosion filter and an expansion filter to the generated optical flow image to perform post-processing.
PCT/KR2017/014775 2017-12-12 2017-12-14 Apparatus and method for detecting dynamic object WO2019117374A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020170170348A KR102002228B1 (en) 2017-12-12 2017-12-12 Apparatus and Method for Detecting Moving Object
KR10-2017-0170348 2017-12-12

Publications (1)

Publication Number Publication Date
WO2019117374A1 true WO2019117374A1 (en) 2019-06-20

Family

ID=66819680

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/014775 WO2019117374A1 (en) 2017-12-12 2017-12-14 Apparatus and method for detecting dynamic object

Country Status (2)

Country Link
KR (1) KR102002228B1 (en)
WO (1) WO2019117374A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112669294B (en) * 2020-12-30 2024-04-02 深圳云天励飞技术股份有限公司 Camera shielding detection method and device, electronic equipment and storage medium

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050089266A (en) * 2004-03-04 2005-09-08 삼성전자주식회사 Method and apparatus for detecting people using a stereo camera
KR100574227B1 (en) * 2003-12-18 2006-04-26 한국전자통신연구원 Apparatus and method for separating object motion from camera motion
KR20080107345A (en) * 2008-11-26 2008-12-10 (주) 비전에스티 Stereo camera and method for recognizing stereoscopic image of stereo camera
KR101464489B1 (en) * 2013-05-24 2014-11-25 모본주식회사 Method and system for detecting an approaching obstacle based on image recognition
KR101532320B1 (en) * 2014-04-18 2015-07-22 국방과학연구소 Method for detecting a moving object using stereo camera installed in autonomous vehicle

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100574227B1 (en) * 2003-12-18 2006-04-26 한국전자통신연구원 Apparatus and method for separating object motion from camera motion
KR20050089266A (en) * 2004-03-04 2005-09-08 삼성전자주식회사 Method and apparatus for detecting people using a stereo camera
KR20080107345A (en) * 2008-11-26 2008-12-10 (주) 비전에스티 Stereo camera and method for recognizing stereoscopic image of stereo camera
KR101464489B1 (en) * 2013-05-24 2014-11-25 모본주식회사 Method and system for detecting an approaching obstacle based on image recognition
KR101532320B1 (en) * 2014-04-18 2015-07-22 국방과학연구소 Method for detecting a moving object using stereo camera installed in autonomous vehicle

Also Published As

Publication number Publication date
KR102002228B1 (en) 2019-07-19
KR20190069958A (en) 2019-06-20

Similar Documents

Publication Publication Date Title
CN109034047B (en) Lane line detection method and device
CN101755190B (en) Calibration method, calibration device, and calibration system having the device
WO2021112462A1 (en) Method for estimating three-dimensional coordinate values for each pixel of two-dimensional image, and method for estimating autonomous driving information using same
WO2011052827A1 (en) Slip detection apparatus and method for a mobile robot
WO2015182904A1 (en) Area of interest studying apparatus and method for detecting object of interest
WO2010113239A1 (en) Image integration unit and image integration method
JP6743882B2 (en) Image processing device, device control system, imaging device, image processing method, and program
WO2020235734A1 (en) Method for estimating distance to and location of autonomous vehicle by using mono camera
WO2018124337A1 (en) Object detection method and apparatus utilizing adaptive area of interest and discovery window
EP3438603A1 (en) Road surface displacement detection device and suspension control method
WO2011136407A1 (en) Apparatus and method for image recognition using a stereo camera
WO2017195965A1 (en) Apparatus and method for image processing according to vehicle speed
WO2018101746A2 (en) Apparatus and method for reconstructing road surface blocked area
JPH11351862A (en) Foregoing vehicle detecting method and equipment
JP2003304561A (en) Stereo image processing apparatus
JP2008309519A (en) Object detection device using image processing
WO2019117374A1 (en) Apparatus and method for detecting dynamic object
CN109522779B (en) Image processing apparatus and method
WO2014058165A1 (en) Image monitoring apparatus for estimating size of singleton, and method therefor
WO2016035924A1 (en) Running sensing method and system
WO2016104842A1 (en) Object recognition system and method of taking account of camera distortion
WO2019098421A1 (en) Object reconstruction device using motion information and object reconstruction method using same
WO2020204350A2 (en) Movement path generating apparatus and method for autonomous vehicle using around view monitoring system
WO2019009579A1 (en) Stereo matching method and apparatus using support point interpolation
JP5330341B2 (en) Ranging device using in-vehicle camera

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17934401

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17934401

Country of ref document: EP

Kind code of ref document: A1