WO2020045767A1 - Lidar를 이용한 이미지 생성 방법 및 이를 위한 장치 - Google Patents

Lidar를 이용한 이미지 생성 방법 및 이를 위한 장치 Download PDF

Info

Publication number
WO2020045767A1
WO2020045767A1 PCT/KR2019/000017 KR2019000017W WO2020045767A1 WO 2020045767 A1 WO2020045767 A1 WO 2020045767A1 KR 2019000017 W KR2019000017 W KR 2019000017W WO 2020045767 A1 WO2020045767 A1 WO 2020045767A1
Authority
WO
WIPO (PCT)
Prior art keywords
image
lidar
deep learning
fcn
generating
Prior art date
Application number
PCT/KR2019/000017
Other languages
English (en)
French (fr)
Inventor
김현구
정호열
유국열
박주현
Original Assignee
영남대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 영남대학교 산학협력단 filed Critical 영남대학교 산학협력단
Priority to US16/324,956 priority Critical patent/US11609332B2/en
Publication of WO2020045767A1 publication Critical patent/WO2020045767A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • G01S17/8943D imaging with simultaneous measurement of time-of-flight at a 2D array of receiver pixels, e.g. time-of-flight cameras or flash lidar
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/93Lidar systems specially adapted for specific applications for anti-collision purposes
    • G01S17/931Lidar systems specially adapted for specific applications for anti-collision purposes of land vehicles
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S7/00Details of systems according to groups G01S13/00, G01S15/00, G01S17/00
    • G01S7/48Details of systems according to groups G01S13/00, G01S15/00, G01S17/00 of systems according to group G01S17/00
    • G01S7/4808Evaluating distance, position or velocity data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/15Processing image signals for colour aspects of image signals

Definitions

  • the present invention relates to a method and apparatus for generating an image using LiDAR.
  • LiDAR Light Detection And Ranging
  • the distance from the object is measured using the time taken to receive the light again and shoot the object, and at this time, the amount of reflected light is also measured.
  • the image may be unclear due to light or shadow.
  • data of a certain performance may be acquired regardless of weather and illumination. For example, an image acquired using a camera at night is difficult to determine the presence or shape of an object, but data acquired using a lidar can confirm the existence and shape of an object.
  • lidars are used to construct three-dimensional Geographic Information System (GIS) information, and have been developed in the form of visualizing information measured using lidar, and applied to construction, aviation, and defense. Furthermore, recently, it is under development to apply LiDAR to autonomous vehicles and mobile robots.
  • GIS Geographic Information System
  • Lidars are used to identify or detect objects with cameras.
  • the present embodiment has a main object to provide a method and apparatus for generating an image using a lidar.
  • the method for generating a color image using a lidar the process of reconstructing the two-dimensional reflectance image by projecting the three-dimensional reflectance data measured using the lidar in two dimensions, and the projected
  • the process involves applying a two-dimensional reflectance image to a deep learning network to generate a color image.
  • an apparatus for generating a color image using a lidar includes a lidar projection image generating unit configured to reconstruct a two-dimensional reflectance image by projecting two-dimensional reflectance data measured using the lidar in two dimensions. And an image generator using the deep learning network to apply the projected 2D reflectance image to the deep learning network to generate a color image.
  • an image such as a day may be acquired even at night, and an image such as a clear day may be acquired even on a cloudy day.
  • an image such as a clear day may be acquired even on a cloudy day.
  • FIG. 1 is a block diagram of an apparatus for generating an image using a lidar according to the present disclosure
  • FIG. 2 is a view sequentially showing an image generated according to the present disclosure as an example
  • FIG. 3 is a diagram illustrating a learning and reasoning process performed in an image generator using a deep learning network according to an embodiment of the present disclosure
  • FIG. 4 illustrates a structure of a deep learning network according to an embodiment of the present disclosure
  • FIG. 1 is a block diagram of an apparatus for generating an image using a lidar according to the present disclosure.
  • An apparatus for generating an image using a LiDAR may be configured with a LiDAR data acquisition unit 110, a LiDAR projection image generator 120, and an image generator 130 using a deep learning network. .
  • the lidar data acquisition unit 110 measures the distance from the object and the amount of reflection of light reflected from the object using the lidar. Because of the presence of objects and their distance to the object, Lidar data is generally not uniform and not dense. 2A illustrates an example of visualizing data acquired by the lidar data obtaining unit 110.
  • the lidar projection image generating unit 120 projects the reflection amount data having the three-dimensional coordinates obtained by the lidar data obtaining unit 110 in two-dimensional coordinates.
  • the reflection data having the three-dimensional coordinates may have a form of a point cloud.
  • a viewing angle, resolution, tilt angle, height, etc. of the image to be projected may be considered.
  • Projection matrices can be used to project three-dimensional coordinates to two-dimensional coordinates.
  • Equation 1 below shows an equation for converting 3D coordinates to 2D coordinates using a projection matrix.
  • X, Y, and Z represent three-dimensional coordinates to be converted
  • u and v represent converted two-dimensional coordinates.
  • FIG. 2B illustrates an example of projecting reflection amount data having three-dimensional coordinates acquired by the lidar data acquisition unit 110 in two-dimensional coordinates.
  • the image generator 130 using the deep learning network generates an image by applying the data generated from the lidar projection image generator 120, that is, the reflection amount data projected by the two-dimensional coordinates to the learned deep learning network.
  • the image generated using the deep learning network may be a black and white or color image.
  • the image generator 130 using the deep learning network will be described in detail below.
  • Each of the components included in the image generating apparatus (FIG. 1) using the lidar of the present invention is divided into respective components by functions in order to help the understanding of the present invention, and in reality, one processing such as a CPU, an MPU, a GPU, or an ECU is used. It may be implemented through a device or various devices.
  • the image generator 130 using the deep learning network of FIG. 1 may be formed using a GPU. That is, color image generation can be implemented by other processing apparatuses, but it is preferable to use a GPU for faster processing.
  • the lidar projection image generator 120 of FIG. 1 and the image generator 130 using the deep learning network may be integrated with the lidar data acquirer 110.
  • FIG. 3 is a diagram illustrating a learning and reasoning process performed in an image generator using a deep learning network according to an embodiment of the present disclosure.
  • FIG. 3 is a diagram illustrating a learning and reasoning process for generating a color image.
  • the reflection amount image 310 projected by two-dimensional coordinates generated by the lidar projection image generator 120 is input to the deep learning network 320, and the color component 330 is output.
  • three-dimensional coordinates (or distances to objects) may also be input to the deep learning network 320.
  • the coefficients of the deep learning network 320 are learned so that the color component 330 output by the deep learning network 320 matches the color components of the original color image 340.
  • the color image 340 of the original used in the learning process may be an image acquired by the camera.
  • the original color image 340 may be an image in which the shadow is removed from the image obtained by the camera.
  • the output value has a value between -1 and 1.
  • the color component extracted from the original color image 340 does not match the effective range with the color component 330 output from the deep learning network 320, the color component extracted from the original color image 340 The range must be converted (350).
  • the color component 330 output from the deep learning network 320 needs to be converted to fall within the effective range of the color component extracted from the original color image 340.
  • the color components can be represented by R, G, and B. In general, the image ranges from 0 to 255.
  • the color component is not necessarily converted to RGB, and may be converted to various color components Gray, YUV, YCbYr, CIE Lab, and the like.
  • the color component 330 output by the deep learning network 320 has a value between -1 and 1 by the activation function, the range of the color component in the original color image 340 is between -1 and 1.
  • the conversion is made to have a value of 350. In other words, the range of data to be converted must also change according to the active function of the deep learning network.
  • the reflection amount image projected by the two-dimensional coordinates generated by the lidar projection image generator 120 is input to the deep learning network 320, and the color component 330 is output.
  • three-dimensional coordinates (or distance to an object) may optionally be input to the deep learning network 320 together.
  • the value of the color component 330 output from the deep learning network 320 is converted to have a value between 0 and 255 because it has a value between -1 and 1 (370).
  • a color image 360 is generated using the converted value.
  • FIG. 4 is a diagram illustrating a structure of a deep learning network according to an embodiment of the present disclosure.
  • FIG. 4 illustrates an image of a size of 592 ⁇ 112 as an example. Therefore, when the size of the image is changed, the number of convolution groups or the number of sampling may be changed.
  • the input of the deep learning network can be a reflectance image projected in two-dimensional coordinates. In this case, when only the reflection amount is input, one channel may be used. When three-dimensional coordinates (or a distance to an object) are also input, two channels may be used.
  • the output of the deep learning network can be three channels, R, G and B, representing the components of the color image.
  • the deep learning network may be composed of an encoder unit 410 and a decoder unit 420.
  • the encoder unit 410 and the decoder unit 420 of the deep learning network may be an asymmetrically configured fully convolutional network (FCN).
  • FCN fully convolutional network
  • the encoder unit 410 may be composed of at least one convolution group and a sub-sampling unit
  • the decoder unit 420 may be composed of at least one convolution group and an up-sampling unit.
  • the convolution group may be composed of at least one convolution block.
  • the convolution block may consist of a convolution layer including K 3x3 filters, a batch normalization layer, and an active function.
  • the convolutional layer may be set to have the same stride of 1 and the same padding, and tanh may be used as the active function of the last convolutional block of the decoding unit 420.
  • a rectified linear unit (ReLU) may be used (see Equation 2).
  • the number of repetitions of the convolution blocks constituting the i-th convolution group of the encoder unit 410 is The number of repetitions of the convolution blocks constituting the j th convolution group of the decoder 420 is The number of repetitions is variable.
  • the encoder unit 410 and the decoder unit 420 of the FCN may have an asymmetric structure.
  • max-pooling may be applied as a factor of 2.
  • the number of up-sampling times of the decoder unit 420 may be un-pooling as a factor of two.
  • FIG. 5 is a flowchart illustrating a method of generating an image using a lidar according to the present disclosure.
  • the distance to the object and the amount of reflection are measured using the lidar (510).
  • the distance to the object may be expressed in three-dimensional coordinates by measuring distances on X, Y, and Z coordinates, respectively.
  • 3D reflectance data is generated using the measured distance and reflectance (520).
  • the generated 3D reflectance data is projected as a 2D reflectance image (530).
  • the generated 3D reflectance data may be converted into a 2D reflectance image using a projection matrix.
  • the projected two-dimensional reflectance image is applied to a deep learning network to generate a black and white or color image (540).
  • the deep learning network may be an FCN.
  • the measured distance or three-dimensional coordinates may be further input to the FCN.
  • the FCN may include an encoding unit and a decoding unit, and the encoding unit and the decoding unit may be configured asymmetrically. The FCN can be learned using the image without the shadow as the original image.
  • FIG. 5 processes 510 to 540 are sequentially executed, but this is merely illustrative of the technical idea of the exemplary embodiment of the present invention.
  • a person of ordinary skill in the art to which an embodiment of the present invention belongs may execute or change the order described in FIG. 5 without departing from the essential characteristics of the embodiment of the present invention or one of processes 510 to 540. Since the above processes may be variously modified and modified to be executed in parallel, FIG. 5 is not limited to the time series order.
  • the processes illustrated in FIG. 5 may be embodied as computer readable codes on a computer readable recording medium.
  • the computer-readable recording medium includes all kinds of recording devices in which data that can be read by a computer system is stored. That is, the computer-readable recording medium may be a magnetic storage medium (for example, a ROM, a floppy disk, a hard disk, etc.), an optical reading medium (for example, a CD-ROM, a DVD, etc.) and a carrier wave (for example, the Internet Storage medium).
  • the computer readable recording medium can also be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.

Abstract

라이다를 이용한 이미지 생성 방법 및 이를 위한 장치를 개시한다. 본 실시예의 일 측면에 의하면, 라이다를 이용해 컬러 이미지를 생성하는 방법은, 상기 라이다를 이용해 측정된 3차원 반사량 데이터를 2차원으로 투영하여 2차원 반사량 이미지로 재구성하는 과정, 및 상기 투영된 2차원 반사량 이미지를 FCN(Fully Convolutional Network)에 적용해 컬러 이미지를 생성하는 과정을 포함한다.

Description

LIDAR를 이용한 이미지 생성 방법 및 이를 위한 장치
본 발명은 LiDAR를 이용해 이미지를 생성하는 방법 및 그 장치에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 발명에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
LiDAR(Light Detection And Ranging, 이하 '라이다')는 물체와의 거리 및 상기 물체에서 반사된 정보를 측정하는데 이용된다. 즉, 물체에 빛을 쏘아 다시 수신하는데 걸린 시간을 이용해 상기 물체와의 거리를 측정하고, 이때 반사되어 돌아온 빛의 양도 측정한다. 카메라를 이용하는 경우 빛이나 그림자 등에 영향을 받아 이미지가 불명확할 수 있으나, 라이다를 이용하면 빛에 영향을 받지 않기 때문에 날씨 및 조도에 상관없이 일정한 성능의 데이터를 획득할 수 있다. 일예로 밤에 카메라를 이용해 획득한 이미지는 물체의 유무나 형상을 확인하기 어려우나, 라이다를 이용해 획득한 데이터는 물체의 유무 및 형상을 확인할 수 있다.
이러한 라이다는 3차원 GIS(Geographic Information System) 정보 구축에 이용되고 있으며, 라이다를 이용해 측정한 정보를 가시화하는 형태로 발전시켜 건설, 항공, 국방 등의 분야에도 응용되고 있다. 더 나아가 최근에는 자율주행자동차 및 이동로봇 등에 라이다를 적용하기 위해 개발 중에 있다.
그러나, 라이다를 이용해 획득한 이미지는 스파스(sparse)하기 때문에 물체를 식별하거나 검출하기에는 어려움이 있다. 이에 라이다는 카메라와 함께 물체를 식별하거나 검출하는데 이용되고 있다.
본 실시예는, 라이다를 이용해 이미지를 생성하는 방법 및 장치를 제공하는 데 주된 목적이 있다.
본 실시예의 일 측면에 의하면, 라이다를 이용해 컬러 이미지를 생성하는 방법은, 상기 라이다를 이용해 측정된 3차원 반사량 데이터를 2차원으로 투영하여 2차원 반사량 이미지로 재구성하는 과정, 및 상기 투영된 2차원 반사량 이미지를 딥 러닝 네트워크에 적용해 컬러 이미지를 생성하는 과정을 포함한다.
본 실시예의 다른 측면에 의하면, 라이다를 이용해 컬러 이미지를 생성하는 장치는, 상기 라이다를 이용해 측정된 3 차원 반사량 데이터를 2차원으로 투영하여 2차원 반사량 이미지로 재구성하는 라이다 투영 이미지 생성부, 및 상기 투영된 2차원 반사량 이미지를 딥 러닝 네트워크에 적용해 컬러 이미지를 생성하는 딥 러닝 네트워크를 이용한 이미지 생성부를 포함한다.
이상에서 설명한 바와 같이 본 실시예에 의하면, 밤에도 낮과 같은 이미지를 획득할 수 있으며, 또한 흐린 날에도 맑은 날과 같은 이미지를 획득할 수 있다. 본 발명을 자율주행자동차에 적용하는 경우 카메라를 이용하는 경우보다 주변 환경에 영향을 덜 받을 수 있다. 본 발명을 방범에 적용하는 경우 밤이나 흐린 날에도 선명한 이미지를 획득할 수 있다.
도 1은 본 개시에 따라 라이다를 이용해 이미지를 생성하는 장치의 구성도를 나타낸 도면,
도 2는 일예로 본 개시에 따라 생성되는 이미지를 순차적으로 나타낸 도면,
도 3은 본 개시의 일 실시예에 따라 딥 러닝 네트워크를 이용한 이미지 생성부에서 수행되는 학습과 추론 과정을 나타낸 도면,
도 4는 본 개시의 일 실시예에 따른 딥 러닝 네트워크의 구조를 나타낸 도면,
도 5는 본 개시에 따라 라이다를 이용해 이미지를 생성하는 방법의 순서도를 나타낸 도면이다.
이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 개시에 따라 라이다를 이용해 이미지를 생성하는 장치의 구성도를 나타낸 도면이다.
본 개시에 따른 라이다를 이용해 이미지를 생성하는 장치는 라이다 데이터 획득부(110), 라이다 투영 이미지 생성부(120), 및 딥 러닝 네트워크를 이용한 이미지 생성부(130)로 구성될 수 있다.
도 1에서는 다수의 구성으로 나누어 설명하나 여러 개의 구성이 하나의 구성으로 통합되어 구현될 수 있으며 또는 하나의 구성이 여러 개의 구성으로 나누어 구현될 수도 있다.
라이다 데이터 획득부(110)는 라이다를 이용해 물체와의 거리 및 상기 물체로부터 반사되는 빛의 반사량을 측정한다. 이때 물체의 유무 및 물체와의 거리 때문에 라이다 데이터는 일반적으로 일정하지 못 할 뿐 아니라 조밀하지 못하다. 도 2의 (a)는 라이다 데이터 획득부(110)에 의해 획득된 데이터를 가시화한 일예를 나타낸 것이다.
라이다 투영 이미지 생성부(120)는 라이다 데이터 획득부(110)에 의해 획득된 3차원 좌표를 가진 반사량 데이터를 2차원 좌표로 투영한다. 상기 3차원 좌표를 가진 반사량 데이터는 점구름(point cloud)의 형태를 가질 수 있다. 이때 투영할 이미지의 시야각, 해상도, 틸트 각도, 높이 등이 고려될 수 있다. 3차원 좌표를 2차원 좌표로 투영하기 위해 투영 행렬을 이용할 수 있다. 일예로 아래의 [수학식 1]은 투영 행렬을 이용해 3차원 좌표를 2차원 좌표로 변환하는 수학식을 나타낸 것이다. 여기서, X, Y, Z는 변환할 3차원 좌표를 나타내며, u, v는 변환된 2차원 좌표를 나타낸다.
Figure PCTKR2019000017-appb-M000001
그 외에, s는 스케일 인자(scale factor), cu, cv는 카메라의 주점(principal point), fu, fv는 초점 거리(focal length),
Figure PCTKR2019000017-appb-I000001
∈R3x3
Figure PCTKR2019000017-appb-I000002
∈R1x3는 라이다를 카메라의 위치로 변환하기 위한 회전 행렬과 변환 행렬을 의미한다. 도 2의 (b)는 라이다 데이터 획득부(110)에 의해 획득된 3차원 좌표를 가진 반사량 데이터를 2차원 좌표로 투영한 일예를 나타낸 것이다.
딥 러닝 네트워크를 이용한 이미지 생성부(130)는 라이다 투영 이미지 생성부(120)로부터 생성된 데이터, 즉, 2차원 좌표로 투영된 반사량 데이터를 학습된 딥 러닝 네트워크에 적용해 이미지를 생성한다. 상기 딥 러닝 네트워크를 이용해 생성하는 이미지는 흑백 또는 컬러 이미지일 수도 있다. 딥 러닝 네트워크를 이용한 이미지 생성부(130)는 이하에서 자세히 설명한다.
본 발명의 라이다를 이용한 이미지 생성 장치(도 1)에 포함된 각 구성들은 본 발명의 이해를 돕기 위해 기능별로 각 구성을 구분한 것이고, 실제로는 CPU, MPU, GPU 또는 ECU와 같은 하나의 처리 장치 또는 여러 장치를 통해 구현될 수 있다.  특히, 도 1의 딥 러닝 네트워크를 이용한 이미지 생성부(130)는 GPU를 사용하여 이루어질 수 있다. 즉, 컬러 이미지 생성은 다른 처리 장치로도 구현이 가능하나, 보다 고속으로의 처리를 위해 GPU를 이용하는 것이 바람직하다. 따라서, 도 1의 라이다 투영 이미지 생성부(120)와 딥러닝 네트워크를 이용한 이미지 생성부(130)는 라이다 데이터 획득부(110)와 일체로 구성될 수 있다.
도 3은 본 개시의 일 실시예에 따라 딥 러닝 네트워크를 이용한 이미지 생성부에서 수행되는 학습 및 추론 과정을 나타낸 도면이다.
구체적으로, 도 3은 컬러 이미지를 생성하기 위한 학습 및 추론 과정을 나타낸 도면이다.
먼저, 학습 과정에서 라이다 투영 이미지 생성부(120)에 의해 생성된 2차원 좌표로 투영된 반사량 이미지(310)는 딥 러닝 네트워크(320)에 입력되어 컬러 성분(330)이 출력된다. 선택적으로 3차원 좌표(또는 물체까지의 거리)도 함께 딥 러닝 네트워크(320)에 입력될 수 있다. 딥 러닝 네트워크(320)에 의해 출력되는 컬러 성분(330)은 원본 컬러 이미지(340)의 컬러 성분과 일치하도록 딥 러닝 네트워크(320)의 계수가 학습된다. 학습 과정에 이용되는 원본의 컬러 이미지(340)는 카메라에 의해 획득된 이미지일 수 있다. 또한, 원본의 컬러 이미지(340)는 상기 카메라에 의해 획득된 이미지에서 그림자가 삭제된 이미지일 수 있다. 본 개시에서 그림자가 없는 이미지를 이용하여 학습을 수행하는 것은 라이다는 그림자나 빛에 영향을 받지 않기 때문에 그림자가 발생하는 환경이나 야간에도 주간과 동일한 데이터를 얻을 수 있기 때문이다. 다시 말해 반사량 (또는, 반사율) 정보에는 그림자의 특징이 나타나지 않기 때문에 그림자가 없는 이미지를 이용해 학습을 수행하게 된다. 만약 그림자가 있는 이미지를 이용하여 학습한다면, 그림자에 의해 컬러 성분이 왜곡될 수 있다. 그 밖에도 이와 같이 그림자가 없는 이미지를 획득하는 것은 이동 로봇, 자동차 등의 자율 주행 알고리즘에 있어 매우 중요한 기술이며, 이에 대한 다양한 연구도 진행 중에 있다.
한편, 딥 러닝 네트워크(320)에서 활성 함수(activation function)로 tanh 함수를 사용하는 경우 출력되는 값은 -1에서 1 사이의 값을 갖게 된다. 이 경우 원본의 컬러 이미지(340)에서 추출된 컬러 성분은 딥 러닝 네트워크(320)에서 출력되는 컬러 성분(330)과 유효 범위가 일치하지 않기 때문에 원본의 컬러 이미지(340)에서 추출된 컬러 성분의 범위를 변환해야 한다(350). 또는 딥 러닝 네트워크(320)에서 출력되는 컬러 성분(330)을 원본의 컬러 이미지(340)에서 추출된 컬러 성분의 유효 범위 내에 포함되도록 변환해야 한다. 이하에서는 원본의 컬러 이미지(340)에서 추출된 컬러 성분의 범위를 변환하는 예로 설명한다. 컬러 성분은 R, G, B로 나타낼 수 있으며 일반적으로 이미지에서는 그 범위가 0에서 255사이의 값을 갖는다. 컬러 성분은 반드시 RGB로 변환되는 것은 아니며 다양한 컬러 성분인 Gray, YUV, YCbYr, CIE Lab 등으로도 변환될 수 있다. 그러나, 딥 러닝 네트워크(320)에 의해 출력된 컬러 성분(330)은 활성 함수에 의해 -1에서 1사이의 값을 갖기 때문에 원본의 컬러 이미지(340)에서 컬러 성분의 범위를 -1에서 1사이의 값을 갖도록 변환한다(350). 즉, 딥 러닝 네트워크의 활성 함수에 따라 변환되는 데이터의 범위도 변경되어야 한다.
이후 추론 과정에서는 라이다 투영 이미지 생성부(120)에 의해 생성된 2차원 좌표로 투영된 반사량 이미지가 딥 러닝 네트워크(320)에 입력되어 컬러 성분(330)이 출력된다. 학습 과정에서와 마찬가지로 선택적으로 3차원 좌표(또는 물체까지의 거리)도 함께 딥 러닝 네트워크(320)에 입력될 수 있다. 딥 러닝 네트워크(320)에서 출력된 컬러 성분(330)의 값은 -1에서 1 사이의 값을 갖기 때문에 0에서 255 사이의 값을 갖도록 변환된다(370). 상기 변환된 값을 이용해 컬러 이미지(360)를 생성한다.
도 4는 본 개시의 일 실시예에 따른 딥 러닝 네트워크의 구조를 나타낸 도면이다.
구체적으로, 도 4는 592 x 112 크기의 이미지를 일 예로 설명하고 있다. 따라서 이미지의 크기가 바뀌는 경우 컨볼루션 그룹의 개수나 샘플링의 횟수 등이 변경될 수 있다.
딥 러닝 네트워크의 입력은 2차원 좌표로 투영된 반사량 이미지가 될 수 있다. 이 때 반사량만을 입력으로 하는 경우에는 1 채널이 되고, 3차원 좌표(또는 물체까지의 거리)도 함께 입력되는 경우에는 2 채널이 될 수 있다. 딥 러닝 네트워크의 출력은 컬러 이미지의 성분을 나타내는 R, G, B로 3채널이 될 수 있다.
본 개시에 따른 딥 러닝 네트워크는 인코더부(410)와 디코더부(420)로 구성될 수 있다. 상기 딥 러닝 네트워크의 인코더부(410)와 디코더부(420)는 비대칭적으로 구성된 FCN(Fully Convolutional Network)이 될 수 있다.
인코더부(410)는 적어도 하나 이상의 컨볼루션 그룹과 서브 샘플링(sub-sampling)부로 구성될 수 있으며, 디코더부(420)도 적어도 하나 이상의 컨볼루션 그룹과 업 샘플링(up-sampling)부로 구성될 수 있다. 상기 컨볼루션 그룹은 적어도 하나 이상의 컨볼루션 블록으로 구성될 수 있다. 상기 컨볼루션 블록(convolution-K block)은 K개의 3x3 필터를 포함하는 컨볼루션 레이어, 배치 정규화(batch normalization) 레이어, 및 활성 함수 순으로 구성될 수 있다. 또한, 컨볼루션 레이어는 stride가 1, padding은 모두 동일하게 설정될 수 있으며, 디코딩부(420)의 마지막 컨볼루션 블록은 활성 함수로 tanh가 이용될 수 있다. 그 외의 모든 컨볼루션 블록의 활성 함수는 ReLU(Rectified Linear Unit)가 이용될 수 있다([수학식 2] 참조).
Figure PCTKR2019000017-appb-M000002
도 4에서는 인코더부(410)의 i 번째 컨볼루션 그룹을 구성하는 컨볼루션 블록의 반복 횟수는
Figure PCTKR2019000017-appb-I000003
, 디코더부(420)의 j 번째 컨볼루션 그룹을 구성하는 컨볼루션 블록의 반복 횟수는
Figure PCTKR2019000017-appb-I000004
로 나타내고 있으며, 상기 반복 횟수는 가변이 가능하다.
인코더부(410)의 컨볼루션 그룹을 구성하는 컨볼루션 블록의 총 개수
Figure PCTKR2019000017-appb-I000005
와 디코더부(420)의 컨볼루션 그룹을 구성하는 컨볼루션 블록의 총 개수는
Figure PCTKR2019000017-appb-I000006
로 디코더부(420)의 컨볼루션 블록의 총 개수가 인코더부(420)의 컨볼루션 블록의 총 개수보다 많게 설계(
Figure PCTKR2019000017-appb-I000007
)됨으로 인해 FCN의 인코더부(410)와 디코더부(420)는 비대칭적인 구조를 가질 수 있다.
인코더부(410)의 서브 샘플링 횟수는 2의 인수(factor)로 max-pooling이 적용될 수 있다. 디코더부(420)의 업 샘플링 횟수는 2의 인수(factor)로 un-pooling이 적용될 수 있다.
도 5는 본 개시에 따라 라이다를 이용해 이미지를 생성하는 방법의 순서도를 나타낸 도면이다.
라이다를 이용해 물체까지의 거리 및 반사량을 측정한다(510). 일예로 상기 물체까지의 거리는 X, Y, Z 좌표 상의 거리가 각각 측정되어 3차원의 좌표로 표현될 수 있다.
상기 측정한 거리와 반사량을 이용해 3차원 반사량 데이터를 생성한다(520).
상기 생성된 3차원 반사량 데이터를 2차원 반사량 이미지로 투영한다(530). 일예로 투영 행렬을 이용하여 상기 생성된 3차원 반사량 데이터를 2차원 반사량 이미지로 변환할 수 있다.
상기 투영된 2차원 반사량 이미지를 딥 러닝 네트워크에 적용해 흑백 또는 컬러 이미지를 생성한다(540). 상기 딥 러닝 네트워크는 FCN이 될 수 있다. 이때 상기 투영된 2차원 반사량 이미지 외에 상기 측정한 거리 또는 3차원 좌표가 상기 FCN에 더 입력될 수 있다. 상기 FCN은 인코딩부와 디코딩부로 구성될 수 있으며, 상기 인코딩부와 상기 디코딩부는 비대칭적으로 구성될 수 있다. 상기 FCN은 그림자가 없는 이미지를 원본 이미지로 하여 학습될 수 있다.
도 5에서는 과정 510 내지 과정 540을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 발명의 일 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것이다. 다시 말해, 본 발명의 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 일 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 도 5에 기재된 순서를 변경하여 실행하거나 과정 510 내지 과정 540 중 하나 이상의 과정을 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 도 5는 시계열적인 순서로 한정되는 것은 아니다.
한편, 도 5에 도시된 과정들은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 즉, 컴퓨터가 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
CROSS-REFERENCE TO RELATED APPLICATION
본 특허출원은, 본 명세서에 그 전체가 참고로서 포함되는, 2018년 08월 27일 한국에 출원한 특허출원번호 제10-2018-0100639호에 대해 우선권을 주장한다.

Claims (12)

  1. 라이다를 이용해 컬러 이미지를 생성하는 방법에 있어서,
    상기 라이다를 이용해 측정된 3차원 반사량 데이터를 2차원으로 투영하여 2차원 반사량 이미지로 재구성하는 과정, 및
    상기 투영된 2차원 반사량 이미지를 딥 러닝(Deep Learning) 네트워크에 적용해 컬러 이미지를 생성하는 과정을 포함하는 이미지 생성 방법.
  2. 제1항에 있어서,
    상기 딥 러닝 네트워크는 FCN(Fully Convolutional Network)임을 특징으로 하는 이미지 생성 방법.
  3. 제2항에 있어서,
    상기 FCN은 인코딩 과정과 디코딩 과정을 포함하고,
    상기 인코딩 과정과 상기 디코딩 과정은 서로 비대칭으로 수행됨을 특징으로 하는 이미지 생성 방법.
  4. 제2항에 있어서,
    상기 FCN은 그림자가 없는 이미지를 원본 이미지로 하여 학습된 네트워크임을 특징으로 하는 이미지 생성 방법.
  5. 제2항에 있어서,
    상기 투영된 2차원 반사량 이미지를 FCN에 적용해 컬러 이미지를 생성하는 과정은,
    상기 투영된 2차원 반사량 이미지와 상기 측정한 거리를 상기 FCN에 적용해 컬러 이미지를 생성하는 과정임을 특징으로 하는 이미지 생성 방법.
  6. 제1항에 있어서,
    상기 투영된 2차원 반사량 이미지는 0에서 1, 또는 -1에서 1 사이의 값으로 표현되고,
    상기 컬러 이미지는 0에서 255 사이의 값으로 표현됨을 특징으로 하는 이미지 생성 방법.
  7. 라이다를 이용해 컬러 이미지를 생성하는 장치에 있어서,
    상기 라이다를 이용해 측정된 3 차원 반사량 데이터를 2차원으로 투영하여 2차원 반사량 이미지로 재구성하는 라이다 투영 이미지 생성부, 및
    상기 투영된 2차원 반사량 이미지를 딥 러닝(Deep Learning) 네트워크에 적용해 컬러 이미지를 생성하는 딥 러닝 네트워크를 이용한 이미지 생성부를 포함하는 이미지 생성 장치.
  8. 제7항에 있어서,
    상기 딥 러닝 네트워크는 FCN(Fully Convolutional Network)임을 특징으로 하는 이미지 생성 장치.
  9. 제8항에 있어서,
    상기 FCN은 인코딩부와 디코딩부를 포함하고,
    상기 인코딩부와 상기 디코딩부는 서로 비대칭적으로 구성됨을 특징으로 하는 이미지 생성 장치.
  10. 제8항에 있어서,
    상기 FCN은 그림자가 없는 이미지를 원본 이미지로 하여 학습된 네트워크임을 특징으로 하는 이미지 생성 장치.
  11. 제8항에 있어서,
    상기 딥 러닝 네트워크를 이용한 이미지 생성부는,
    상기 투영된 2차원 반사량 이미지와 상기 측정한 거리를 상기 FCN에 적용해 컬러 이미지를 생성함을 특징으로 하는 이미지 생성 장치.
  12. 제8항에 있어서,
    상기 투영된 2차원 반사량 이미지는 0에서 1, 또는 -1에서 1 사이의 값으로 표현되고, 상기 컬러 이미지는 0에서 255 사이의 값으로 표현됨을 특징으로 하는 이미지 생성 장치.
PCT/KR2019/000017 2018-08-27 2019-01-02 Lidar를 이용한 이미지 생성 방법 및 이를 위한 장치 WO2020045767A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US16/324,956 US11609332B2 (en) 2018-08-27 2019-01-02 Method and apparatus for generating image using LiDAR

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020180100639A KR102025113B1 (ko) 2018-08-27 2018-08-27 LiDAR를 이용한 이미지 생성 방법 및 이를 위한 장치
KR10-2018-0100639 2018-08-27

Publications (1)

Publication Number Publication Date
WO2020045767A1 true WO2020045767A1 (ko) 2020-03-05

Family

ID=68068277

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2019/000017 WO2020045767A1 (ko) 2018-08-27 2019-01-02 Lidar를 이용한 이미지 생성 방법 및 이를 위한 장치

Country Status (3)

Country Link
US (1) US11609332B2 (ko)
KR (1) KR102025113B1 (ko)
WO (1) WO2020045767A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102347001B1 (ko) * 2020-06-11 2022-01-04 한양대학교 산학협력단 하이퍼 탄젠트 손실 함수를 이용한 강인한 거리 추정 방법 및 장치
KR102407174B1 (ko) 2020-08-28 2022-06-10 한국로봇융합연구원 해상 환경에서 복수의 레이더 및 라이더를 이용하여 목표 대상물과 장치 간 상대 정보를 추정하기 위한 방법
KR102602147B1 (ko) * 2021-03-18 2023-11-13 충북대학교 산학협력단 CycleGAN을 이용한 라이다 데이터의 렌더링 방법 및 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140049769A1 (en) * 2012-08-15 2014-02-20 Digital Signal Corporation System and Method for Detecting a Face Contour Using a Three-Dimensional Measurement System
KR20170063002A (ko) * 2015-11-30 2017-06-08 현대엠엔소프트 주식회사 Las 데이터를 이용한 도로 지문 데이터 구축 시스템 및 그 방법
KR20170113251A (ko) * 2016-03-24 2017-10-12 재단법인 아산사회복지재단 딥러닝을 이용한 혈관내 초음파 영상에서의 혈관내외경 자동 분할 방법 및 장치
US20170307735A1 (en) * 2016-04-22 2017-10-26 Mohsen Rohani Object detection using radar and machine learning
JP2018515825A (ja) * 2015-02-24 2018-06-14 ハイプヴイアール Lidarステレオ融合実写3dモデルバーチャルリアリティビデオ

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010141631A1 (en) * 2009-06-02 2010-12-09 Velodyne Acoustics, Inc. Color lidar scanner
KR101097182B1 (ko) * 2010-07-12 2011-12-21 국방과학연구소 3차원 거리정보에서 고도지도와의 정합에 유리한 정보를 추출하는 방법
EP3340106B1 (en) * 2016-12-23 2023-02-08 Hexagon Technology Center GmbH Method and system for assigning particular classes of interest within measurement data
US10679355B2 (en) * 2017-05-02 2020-06-09 Hrl Laboratories, Llc System and method for detecting moving obstacles based on sensory prediction from ego-motion
US20190035113A1 (en) * 2017-07-27 2019-01-31 Nvidia Corporation Temporally stable data reconstruction with an external recurrent neural network

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140049769A1 (en) * 2012-08-15 2014-02-20 Digital Signal Corporation System and Method for Detecting a Face Contour Using a Three-Dimensional Measurement System
JP2018515825A (ja) * 2015-02-24 2018-06-14 ハイプヴイアール Lidarステレオ融合実写3dモデルバーチャルリアリティビデオ
KR20170063002A (ko) * 2015-11-30 2017-06-08 현대엠엔소프트 주식회사 Las 데이터를 이용한 도로 지문 데이터 구축 시스템 및 그 방법
KR20170113251A (ko) * 2016-03-24 2017-10-12 재단법인 아산사회복지재단 딥러닝을 이용한 혈관내 초음파 영상에서의 혈관내외경 자동 분할 방법 및 장치
US20170307735A1 (en) * 2016-04-22 2017-10-26 Mohsen Rohani Object detection using radar and machine learning

Also Published As

Publication number Publication date
KR102025113B1 (ko) 2019-09-25
US11609332B2 (en) 2023-03-21
US20210333400A1 (en) 2021-10-28

Similar Documents

Publication Publication Date Title
CN108665496B (zh) 一种基于深度学习的端到端的语义即时定位与建图方法
CN110675418B (zh) 一种基于ds证据理论的目标轨迹优化方法
WO2020045767A1 (ko) Lidar를 이용한 이미지 생성 방법 및 이를 위한 장치
CN104835158B (zh) 基于格雷码结构光与极线约束的三维点云获取方法
CN111563923A (zh) 获得稠密深度图的方法及相关装置
CN110689562A (zh) 一种基于生成对抗网络的轨迹回环检测优化方法
KR20170106931A (ko) 광 필드 데이터 처리 방법 및 디바이스
CN110969670B (zh) 基于显著特征的多光谱相机动态立体标定方法
US11455806B2 (en) System and method for free space estimation
CN112183578B (zh) 一种目标检测方法、介质及系统
CN111753698A (zh) 一种多模态三维点云分割系统和方法
CN111462128A (zh) 一种基于多模态光谱图像的像素级图像分割系统及方法
WO2021096324A1 (en) Method for estimating depth of scene in image and computing device for implementation of the same
CN111965636A (zh) 一种基于毫米波雷达和视觉融合的夜间目标检测方法
CN112257668A (zh) 主辅路判断方法、装置、电子设备及存储介质
CN115565044A (zh) 一种目标检测方法及系统
WO2023284255A1 (en) Systems and methods for processing images
Jia et al. Depth measurement based on a convolutional neural network and structured light
CN116468768B (zh) 基于条件变分自编码器和几何引导的场景深度补全方法
CN112233079B (zh) 多传感器图像融合的方法及系统
CN115620150A (zh) 基于孪生Transformer的多模态图像地面建筑识别方法及装置
CN107843341A (zh) 一种天基空间目标高分辨多光谱成像方法及系统
CN116229224A (zh) 融合感知方法、装置、电子设备及存储介质
CN107025636A (zh) 结合深度信息的图像去雾方法及装置和电子装置
CN115393404A (zh) 双光图像配准方法、装置及设备、存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19853488

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19853488

Country of ref document: EP

Kind code of ref document: A1