KR20220009247A - Method for constructing input data for deep neural network (DNN) based on Light Detection and Ranging (LiDAR) and Radio Azimuth Direction and Ranging (RADAR) signal - Google Patents

Method for constructing input data for deep neural network (DNN) based on Light Detection and Ranging (LiDAR) and Radio Azimuth Direction and Ranging (RADAR) signal Download PDF

Info

Publication number
KR20220009247A
KR20220009247A KR1020200087722A KR20200087722A KR20220009247A KR 20220009247 A KR20220009247 A KR 20220009247A KR 1020200087722 A KR1020200087722 A KR 1020200087722A KR 20200087722 A KR20200087722 A KR 20200087722A KR 20220009247 A KR20220009247 A KR 20220009247A
Authority
KR
South Korea
Prior art keywords
information
unit
scan
plane
dimensional
Prior art date
Application number
KR1020200087722A
Other languages
Korean (ko)
Other versions
KR102504719B1 (en
Inventor
이정우
박지현
황정환
이나현
최영호
Original Assignee
한국로봇융합연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국로봇융합연구원 filed Critical 한국로봇융합연구원
Priority to KR1020200087722A priority Critical patent/KR102504719B1/en
Publication of KR20220009247A publication Critical patent/KR20220009247A/en
Application granted granted Critical
Publication of KR102504719B1 publication Critical patent/KR102504719B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T17/00Three dimensional [3D] modelling, e.g. data description of 3D objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • G06T2207/10044Radar image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

An objective of the present invention is to eliminate problems such as the divergence of a filter algorithm or the position error generation caused by the accumulation of sensor error information. According to an embodiment of the present invention, a method for constructing input data of a deep neural network based on LiDAR and radar signals comprises: a step in which, when scan data including coordinates representing the positions of a plurality of points making up an object and reflection intensities representing intensities at which a laser or a radio wave is reflected from the plurality of points are inputted through a three-dimensional orthogonal coordinate system from at least one among LiDAR and radar sensors, a plane classification unit classifies the reflection intensities included in the scan data in accordance with the coordinates to generate a plurality of pieces of two-dimensional plane information; and a step in which a three-dimensional formation unit generates three-dimensional information having a three-dimensional structure by stacking the plurality of pieces of plane information in a plurality of layers.

Description

라이다 및 레이다 신호를 기반으로 심층신경망 모델에 대한 입력 데이터를 구성하기 위한 방법{Method for constructing input data for deep neural network (DNN) based on Light Detection and Ranging (LiDAR) and Radio Azimuth Direction and Ranging (RADAR) signal} Method for constructing input data for deep neural network (DNN) based on Light Detection and Ranging (LiDAR) and Radio Azimuth Direction and Ranging (RADAR) ) signal}

본 발명은 심층신경망(DNN: deep neural network)의 입력데이터를 구성하는 기술에 관한 것으로, 보다 상세하게는, 라이다(Light Detection and Ranging: LiDAR) 및 레이다(Radio Azimuth Direction and Ranging: RADAR)의 출력 정보를 심층신경망 모델의 입력데이터로 구성하는 방법에 관한 것이다. The present invention relates to a technique for constructing input data of a deep neural network (DNN), and more particularly, of LiDAR (Light Detection and Ranging: LiDAR) and Radar (Radio Azimuth Direction and Ranging: RADAR) It relates to a method of composing output information as input data of a deep neural network model.

레이더 센서는 전자기파를 방사하고 객체에 반사되어 다시 돌아오는 전자기파의 강도를 이용하여 객체를 탐지하고, 라이다 센서는 빛(레이저)을 방사하여 객체에 반사되어 다시 돌아오는 빛의 강도를 이용하여 주변을 이미지화 시킨다. The radar sensor detects an object using the intensity of the electromagnetic wave that emits electromagnetic waves and is reflected back to the object, and the lidar sensor emits light (laser) and uses the intensity of the light that is reflected back to the object to detect the surrounding area. image it.

한국등록특허 제1987846호 2019년 06월 04일 등록 (명칭: 레이더장치 모니터의 영상 분석을 통한 선박 충돌 회피 장치 및 방법)Korean Patent No. 19987846 registered on June 04, 2019 (Title: Ship collision avoidance device and method through image analysis of radar device monitor)

본 발명의 목적은 실내 및 실외 환경에서 다수의 LiDAR(Light Detection and Ranging) 센서 및 RADAR(Radio Azimuth Direction and Ranging) 센서를 이용하여, 환경 내에서 객체의 자세 정보를 추정하는 심층신경망을 학습시키기 위한 입력데이터를 도출하는 방법을 제공함에 있다. An object of the present invention is to use a plurality of LiDAR (Light Detection and Ranging) sensors and RADAR (Radio Azimuth Direction and Ranging) sensors in indoor and outdoor environments to learn a deep neural network that estimates the posture information of an object in the environment. To provide a method for deriving input data.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 라이다 및 레이다 신호를 기반으로 심층신경망 모델의 입력데이터를 구성하기 위한 방법은 평면분류부가 라이다 및 레이다 센서 중 적어도 하나로부터 레이저 혹은 전파를 반사하는 객체 표면의 복수의 점 각각의 3차원 직교좌표계 상의 좌표와 상기 객체 표면의 복수의 점 각각에서 반사되는 레이저 또는 전파의 강도인 반사 강도를 나타내는 복수의 스캔 정보가 입력되면, 상기 복수의 스캔 정보 각각의 좌표에 따라 분류하여 2차원의 복수의 평면 정보를 생성하는 단계와, 입체형성부가 상기 복수의 평면 정보를 복수의 층으로 쌓아 3차원 구조를 가지는 복수의 입체 정보를 생성하는 단계를 포함한다. In a method for constructing input data of a deep neural network model based on a lidar and a radar signal according to a preferred embodiment of the present invention for achieving the above object, the plane classification unit receives a laser beam from at least one of the lidar and the radar sensor. Alternatively, when a plurality of scan information indicating the coordinates on the three-dimensional Cartesian coordinate system of each of the plurality of points on the object surface that reflects the radio waves and the reflection intensity, which is the intensity of the laser or radio waves reflected from each of the plurality of points on the object surface, are input, the Generating a plurality of two-dimensional plane information by classifying a plurality of pieces of scan information according to respective coordinates, and a three-dimensional forming unit stacking the plurality of plane information in a plurality of layers to generate a plurality of three-dimensional information having a three-dimensional structure includes steps.

상기 복수의 평면 정보를 생성하는 단계는 상기 평면분류부가 상기 복수의 스캔 정보의 좌표 중 Z축을 기준으로 상기 복수의 스캔 정보를 복수의 단위 구간으로 분류하는 단계와, 상기 복수의 단위 구간 각각에 포함된 상기 스캔 정보의 반사 강도를 상기 분류된 복수의 단위 구간 각각에 대응하는 평면 공간에 사상하여 복수의 평면 정보를 생성하는 단계를 포함한다. The generating of the plurality of plane information includes: classifying, by the plane classification unit, the plurality of scan information into a plurality of unit sections based on the Z-axis among the coordinates of the plurality of scan information, and each of the plurality of unit sections and generating a plurality of plane information by mapping the reflected intensity of the scanned information to a plane space corresponding to each of the plurality of classified unit sections.

상기 복수의 단위 구간으로 분류하는 단계는 상기 평면분류부가 상기 복수의 스캔 정보의 Z축 상의 최대 높이(Zmax)를 설정하는 단계와, 상기 평면분류부가 최대 높이(Zmax) 이상의 Z축의 값을 가지는 스캔 정보의 Z축의 값을 유효 최대 높이(Zmax-1)로 대체하거나, 소거하는 단계와, 상기 평면분류부가 수학식

Figure pat00001
에 따라 상기 스캔 데이터에 포함된 복수의 스캔 정보를 스캔 정보의 좌표의 Z축을 기준으로 소정의 분할 수의 단위 구간으로 구분하는 단계를 포함한다. The step of classifying into the plurality of unit sections includes the steps of: the plane classifying unit setting a maximum height (Zmax) on the Z-axis of the plurality of scan information; Replacing or erasing the value of the Z-axis of the information with the effective maximum height (Zmax-1);
Figure pat00001
and dividing the plurality of scan information included in the scan data into unit sections of a predetermined number of divisions based on the Z-axis of the coordinates of the scan information.

여기서, 상기 M은 상기 분할 수이고, 상기 Zstart는 단위 구간의 Z축 상의 시작점이고, 상기 Zend는 단위 구간의 Z축 상의 종료점이고, 상기 Zmax는 상기 Z축의 최대 높이인 것을 특징으로 한다. Here, M is the number of divisions, Zstart is a starting point on the Z-axis of a unit section, Zend is an end point on the Z-axis of a unit section, and Zmax is the maximum height of the Z-axis.

상기 복수의 평면 정보를 생성하는 단계는 상기 평면분류부가 상기 스캔 데이터에 포함된 복수의 스캔 정보 각각의 반사 강도를 상기 스캔 데이터에 포함된 복수의 스캔 정보의 반사 강도 중 최댓값으로 나누어 0 내지 1 사이의 실수값으로 변환하는 단계와, 상기 평면분류부가 복수의 단위 구간에 대응하는 복수의 평면 공간을 형성하는 단계와, 상기 평면분류부가 상기 복수의 단위 구간 각각에 포함된 복수의 스캔 정보 각각의 직교 좌표를 구면 좌표로 변환하여 구면 좌표에 따른 거리 및 각도를 도출하는 단계와, 상기 평면분류부가 상기 복수의 단위 구간에 대응하는 상기 복수의 평면 공간의 중심점으로부터 상기 도출된 거리 및 각도에 따른 선분을 형성하는 단계와, 상기 단위 구간의 스캔 정보 중 좌표 상 상기 선분과 만나는 모든 스캔 정보의 반사 강도를 상기 선분에 사상하는 단계를 포함한다. In the generating of the plurality of plane information, the plane classifying unit divides the reflection intensity of each of the plurality of scan information included in the scan data by a maximum value among the reflection intensities of the plurality of scan information included in the scan data, between 0 and 1 converting to a real value of , forming a plurality of planar spaces corresponding to a plurality of unit sections by the planar classification unit, and orthogonal to each of a plurality of scan information included in each of the plurality of unit sections by the planar classifying unit converting coordinates into spherical coordinates to derive distances and angles according to spherical coordinates; and mapping the reflection intensity of all scan information that meets the line segment on coordinates among the scan information of the unit section to the line segment.

상기 구면 좌표에 따른 거리 및 각도를 도출하는 단계는 상기 평면분류부가 상기 복수의 단위 구간 각각에 포함된 복수의 스캔 정보 각각의 직교 좌표를 수학식

Figure pat00002
,
Figure pat00003
에 따라 구면 좌표로 변환하여 구면 좌표에 따른 거리 및 각도를 도출하며, 상기 k는 스캔 정보의 인덱스이고, 상기 x, y, z는 스캔 정보의 직교좌표계의 좌표이고, 상기
Figure pat00004
은 구면좌표계에 따른 원점에서의 거리이고, 상기
Figure pat00005
는 구면좌표계에 따른 z축을 축으로 양의 방향의 x축과 이루는 각도를 나타내는 것을 특징으로 한다. In the step of deriving the distance and the angle according to the spherical coordinates, the plane classification unit calculates the orthogonal coordinates of each of the plurality of scan information included in each of the plurality of unit sections.
Figure pat00002
,
Figure pat00003
Converts to spherical coordinates according to , and derives distances and angles according to spherical coordinates, wherein k is an index of scan information, and x, y, and z are coordinates of a Cartesian coordinate system of scan information, and
Figure pat00004
is the distance from the origin according to the spherical coordinate system,
Figure pat00005
It is characterized in that it represents an angle formed with the x-axis in the positive direction with respect to the z-axis according to the spherical coordinate system.

상기 방법은 격자형성부가 복수의 입체 정보를 격자로 배열하여 격자 정보를 형성하는 단계와, 상기 격자 정보에 포함되는 복수의 입체 정보 중 적어도 하나의 높이가 다른 경우, 적어도 하나의 입체 정보로부터 적어도 하나의 평면 정보를 소거하거나, 적어도 하나의 입체 정보에 적어도 하나의 패딩 정보를 부가하여 상기 격자 정보에 포함되는 복수의 입체 정보의 높이를 일치시키는 단계를 더 포함한다. The method includes the steps of: a grid forming unit arranging a plurality of three-dimensional information in a grid to form grid information; The method further includes the step of matching the heights of a plurality of stereoscopic information included in the grid information by erasing the plane information of , or adding at least one piece of padding information to the at least one piece of stereoscopic information.

상기 격자 정보를 형성하는 단계는 상기 격자형성부가 복수의 입체 정보가 생성된 시간 순서에 따라 미리 설정된 위치에 배열하여 격자로 배열하여 격자 정보를 형성하는 것을 특징으로 한다. The forming of the grid information is characterized in that the grid forming unit forms the grid information by arranging a plurality of three-dimensional information in a preset position according to a time sequence in which the three-dimensional information is generated and arranging the grid information.

상기 방법은 학습부가 상기 입체 정보 혹은 상기 격자 정보인 입력 데이터에 대응하여 객체의 자세 정보를 레이블 데이터로 수집하는 단계와, 학습부가 상기 레이블 데이터인 자세 정보를 상기 입력 데이터에 레이블링하여 학습 데이터를 생성하는 단계를 더 포함한다. The method includes the steps of: a learning unit collecting the posture information of an object as label data in response to the input data that is the three-dimensional information or the grid information; further comprising the step of

본 발명에 따르면, 복수의 라이다 센서 혹은 복수의 레이다 센서의 스캔 정보로부터 3차원의 입력데이터, 즉, 입체 정보 혹은 격자 정보를 생성하고, 이를 이용하여 심층신경망을 학습시킬 수 있다. 이를 통해 학습된 심층신경망은 복잡한 필터 계산 없이 객체에 대한 자세의 추정이 가능하며, 센서 오차 정보의 누적으로 인한 위치 오차 발생이나 필터 알고리즘의 발산과 같은 문제가 없다. According to the present invention, three-dimensional input data, that is, three-dimensional information or grid information, can be generated from a plurality of lidar sensors or scan information of a plurality of radar sensors, and a deep neural network can be trained using this. The deep neural network learned through this can estimate the posture of an object without complicated filter calculations, and there is no problem such as the occurrence of position errors due to the accumulation of sensor error information or the divergence of filter algorithms.

도 1은 본 발명의 실시예에 따른 구성장치의 정보 도출 방법을 설명하기 위한 개념도이다.
도 2는 본 발명의 실시예에 따른 라이다 및 레이다 신호를 기반으로 심층신경망 모델에 대한 입력 데이터를 구성하기 위한 장치의 구성을 설명하기 위한 도면이다.
도 3은 라이다 및 레이다 신호를 기반으로 심층신경망 모델에 대한 입력 데이터를 구성하기 위한 장치의 제어부의 세부 구성을 설명하기 위한 도면이다.
도 4는 본 발명의 실시예에 따른 라이다 및 레이다 신호를 기반의 입력 데이터를 기초로 자세 정보를 추정하기 위한 심층신경망 모델의 일례를 설명하기 위한 도면이다.
도 5는 라이다 및 레이다 신호를 기반으로 심층신경망 모델에 대한 입력 데이터를 구성하기 위한 방법을 설명하기 위한 흐름도이다.
도 6은 본 발명의 실시예에 따른 라이다 및 레이다 신호로부터 입체 정보를 생성하는 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명의 일 실시예에 따른 라이다 및 레이다 신호를 기반으로 격자 영상을 생성하는 방법을 설명하기 위한 도면이다.
도 8은 본 발명의 다른 실시예에 따른 라이다 및 레이다 신호를 기반으로 격자 영상을 생성하는 방법을 설명하기 위한 도면이다.
도 9는 본 발명의 실시예에 따른 입체 정보(SI)를 생성하는 방법을 설명하기 위한 흐름도이다.
도 10은 본 발명의 실시예에 따른 학습 데이터를 생성하는 방법을 설명하기 위한 흐름도이다.
1 is a conceptual diagram for explaining a method of deriving information of a component device according to an embodiment of the present invention.
2 is a diagram for explaining the configuration of an apparatus for configuring input data for a deep neural network model based on a lidar and a radar signal according to an embodiment of the present invention.
3 is a diagram for explaining a detailed configuration of a control unit of an apparatus for configuring input data for a deep neural network model based on a lidar and a radar signal.
4 is a diagram for explaining an example of a deep neural network model for estimating posture information based on input data based on lidar and radar signals according to an embodiment of the present invention.
5 is a flowchart illustrating a method for constructing input data for a deep neural network model based on lidar and radar signals.
6 is a flowchart illustrating a lidar and a method of generating stereoscopic information from a radar signal according to an embodiment of the present invention.
7 is a diagram for explaining a method of generating a grid image based on a lidar and a radar signal according to an embodiment of the present invention.
8 is a diagram for explaining a method of generating a lattice image based on a lidar and a radar signal according to another embodiment of the present invention.
9 is a flowchart illustrating a method of generating stereoscopic information (SI) according to an embodiment of the present invention.
10 is a flowchart illustrating a method of generating learning data according to an embodiment of the present invention.

본 발명의 상세한 설명에 앞서, 이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 실시예에 불과할 뿐, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다. Prior to the detailed description of the present invention, the terms or words used in the present specification and claims described below should not be construed as being limited to their ordinary or dictionary meanings, and the inventors should develop their own inventions in the best way. It should be interpreted as meaning and concept consistent with the technical idea of the present invention based on the principle that it can be appropriately defined as a concept of a term for explanation. Therefore, the embodiments described in the present specification and the configurations shown in the drawings are only the most preferred embodiments of the present invention, and do not represent all the technical spirit of the present invention, so various equivalents that can be substituted for them at the time of the present application It should be understood that there may be water and variations.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이때, 첨부된 도면에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음을 유의해야 한다. 또한, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다. 마찬가지의 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In this case, it should be noted that in the accompanying drawings, the same components are denoted by the same reference numerals as much as possible. In addition, detailed descriptions of well-known functions and configurations that may obscure the gist of the present invention will be omitted. For the same reason, some components are exaggerated, omitted, or schematically illustrated in the accompanying drawings, and the size of each component does not fully reflect the actual size.

먼저, 본 발명의 실시예에 따른 라이다 및 레이다 신호를 기반으로 심층신경망 모델에 대한 입력 데이터를 구성하기 위한 장치에 대해서 설명하기로 한다. 도 1은 본 발명의 실시예에 따른 구성장치의 정보 도출 방법을 설명하기 위한 개념도이다. 도 2는 본 발명의 실시예에 따른 라이다 및 레이다 신호를 기반으로 심층신경망 모델에 대한 입력 데이터를 구성하기 위한 장치의 구성을 설명하기 위한 도면이다. 도 3은 라이다 및 레이다 신호를 기반으로 심층신경망 모델에 대한 입력 데이터를 구성하기 위한 장치의 제어부의 세부 구성을 설명하기 위한 도면이다. 도 4는 본 발명의 실시예에 따른 라이다 및 레이다 신호를 기반의 입력 데이터를 기초로 자세 정보를 추정하기 위한 심층신경망 모델의 일례를 설명하기 위한 도면이다. First, an apparatus for configuring input data for a deep neural network model based on lidar and radar signals according to an embodiment of the present invention will be described. 1 is a conceptual diagram for explaining a method of deriving information of a component device according to an embodiment of the present invention. 2 is a diagram for explaining the configuration of an apparatus for configuring input data for a deep neural network model based on a lidar and a radar signal according to an embodiment of the present invention. 3 is a diagram for explaining a detailed configuration of a control unit of an apparatus for configuring input data for a deep neural network model based on a lidar and a radar signal. 4 is a diagram for explaining an example of a deep neural network model for estimating posture information based on input data based on lidar and radar signals according to an embodiment of the present invention.

먼저, 도 1을 참조하면, 본 발명의 실시예에 따른 라이다 및 레이다 신호를 기반으로 심층신경망 모델에 대한 입력 데이터를 구성하기 위한 장치(10: 이하, '구성장치'로 축약함)는 본 발명의 실시예에 따른 심층신경망을 학습시킬 수 있다. First, referring to FIG. 1 , an apparatus (10: hereinafter, abbreviated as 'configuration device') for configuring input data for a deep neural network model based on lidar and radar signals according to an embodiment of the present invention is this A deep neural network according to an embodiment of the invention can be trained.

도시된 바와 같이, 구성장치(10)는 로봇(R) 혹은 컴퓨팅구성장치(C) 내에 설치되어 심층신경망을 학습시킬 수 있다. 컴퓨팅구성장치(C) 내에 설치되어 심층신경망을 학습시킨 경우, 해당 심층신경망은 로봇(R)에 포팅 될 수 있다. 이러한 심층신경망은 객체(obj1, obj2, obj3)의 자세 정보를 추정하도록 학습될 수 있다. 이를 위하여, 본 발명은 라이더 센서 및 레이더 센서 중 적어도 하나에 의해 측정된 객체에 대한 스캔 데이터를 이용한다. As shown, the component device 10 may be installed in the robot (R) or the computing component device (C) to learn a deep neural network. If it is installed in the computing device (C) and trained a deep neural network, the deep neural network can be ported to the robot (R). Such a deep neural network can be trained to estimate the posture information of the objects obj1, obj2, and obj3. To this end, the present invention uses scan data of an object measured by at least one of a lidar sensor and a radar sensor.

도 2를 참조하면, 구성장치(10)는 스캔부(11), 입력부(12), 표시부(13), 저장부(14), 통신부(15), 센서부(16), 위치정보부(17) 및 제어부(18)를 포함한다. Referring to FIG. 2 , the configuration device 10 includes a scan unit 11 , an input unit 12 , a display unit 13 , a storage unit 14 , a communication unit 15 , a sensor unit 16 , and a location information unit 17 . and a control unit 18 .

스캔부(11)는 객체(obj1, obj2, obj3)를 스캔하기 위한 것이다. 이를 위하여 스캔부(11)는 라이다(LiDAR)센서(110) 및 레이다(RADAR)센서(120)를 포함한다. 라이다센서(110) 및 레이다센서(120)는 객체(obj1, obj2, obj3)를 스캔하여 복수의 스캔 정보를 포함하는 스캔 데이터를 출력한다. The scan unit 11 is for scanning the objects obj1 , obj2 , and obj3 . To this end, the scan unit 11 includes a lidar (LiDAR) sensor 110 and a radar (RADAR) sensor 120 . The lidar sensor 110 and the radar sensor 120 scan the objects obj1 , obj2 , and obj3 to output scan data including a plurality of scan information.

라이다센서(110) 및 레이다센서(120)는 레이저 또는 전파를 전방향(Omni-Directional)으로 방사하여 센서(110, 120)의 중심으로부터 3차원 공간의 수직 또는 수평 방향 또는 2차원 공간의 수평 방향의 각도별 객체에 대한 좌표 및 빛이 반사된 강도를 나타내는 반사 강도로 이루어진 복수의 스캔 정보를 포함하는 복수의 스캔 데이터를 출력한다. 스캔 정보는 지면과 평행한 평면의 X축 및 Y축과 높이 방향의 Z축으로 구성되는 3차원 직교좌표계(Catesian Coordinate) 상의 객체에 대한 좌표 및 레이저 또는 전파가 반사된 강도(Intensity)를 반사 강도이다. 즉, 라이다센서(110) 및 레이다센서(120)가 객체(obj1, obj2, obj3)를 스캔하여 출력하는 스캔 정보는 3차원 직교좌표계를 통해 객체 표면을 구성하는 복수의 점 중 어느 하나의 위치를 나타내는 좌표와, 해당 점으로부터 레이저 혹은 전파가 반사되는 강도를 나타내는 반사 강도를 포함한다. 이와 같이, 라이다센서(110) 및 레이다센서(120)가 출력하는 스캔 데이터는 다음의 수학식 1과 같다. The lidar sensor 110 and the radar sensor 120 radiate a laser or radio wave in an omni-Directional direction from the center of the sensors 110 and 120 in a vertical or horizontal direction in a three-dimensional space or a horizontal in a two-dimensional space. A plurality of scan data including a plurality of scan information including coordinates of an object for each angle of direction and a reflection intensity indicating a light reflected intensity is output. The scan information is the coordinates of the object on the three-dimensional Cartesian coordinate system consisting of the X and Y axes of a plane parallel to the ground and the Z axis in the height direction, and the reflected intensity of the laser or radio waves. to be. That is, the scan information output by the lidar sensor 110 and the radar sensor 120 by scanning the objects obj1, obj2, and obj3 is the position of any one of a plurality of points constituting the object surface through a three-dimensional Cartesian coordinate system. and a reflection intensity indicating the intensity at which the laser or radio wave is reflected from the point. In this way, the scan data output by the lidar sensor 110 and the radar sensor 120 is expressed by Equation 1 below.

Figure pat00006
Figure pat00006

수학식 1에서, Sensor_output은 스캔 데이터를 나타낸다. 또한, 스캔 데이터를 통해 N은 출력되는 스캔 정보의 수를 나타낸다. 즉, 스캔 정보의 수는 레이저 혹은 전파가 반사되는 객체 표면의 복수의 점이 있을 때, 그 복수의 점의 수를 나타낸다. 실내외 환경 내에서 라이다센서(110) 및 레이다센서(120)의 스캔 순간마다 스캔 정보의 수 N은 달라질 수 있다. 또한, (x, y, z)는 레이저 혹은 전파를 반사하는 객체 표면의 복수의 점 각각의 직교좌표계에 따른 좌표이며, v_intensity는 객체 표면의 복수의 점 각각에서 반사되는 레이저 또는 전파의 강도를 나타내는 반사 강도이다. In Equation 1, Sensor_output represents scan data. In addition, through the scan data, N represents the number of output scan information. That is, the number of scan information indicates the number of the plurality of points when there are a plurality of points on the surface of the object where the laser or radio waves are reflected. The number N of scan information may vary for each scan moment of the lidar sensor 110 and the radar sensor 120 in an indoor or outdoor environment. In addition, (x, y, z) is a coordinate according to the Cartesian coordinate system of each of a plurality of points on the surface of an object that reflects a laser or radio wave, and v_intensity represents the intensity of a laser or radio wave reflected from each of a plurality of points on the surface of the object. is the reflection intensity.

입력부(12)는 구성장치(10)를 제어하기 위한 사용자의 조작을 입력받고 입력 신호를 생성하여 제어부(18)에 전달할 수 있다. 입력부(12)는 구성장치(10)를 제어하기 위한 각 종 버튼, 키 등을 포함한다. 입력부(12)는 표시부(13)가 터치스크린으로 이루어진 경우, 각 종 키들의 기능이 표시부(13)에서 이루어질 수 있으며, 터치스크린만으로 모든 기능을 수행할 수 있는 경우, 입력부(12)는 생략될 수도 있다. The input unit 12 may receive a user's operation for controlling the component device 10 , generate an input signal, and transmit it to the control unit 18 . The input unit 12 includes various types of buttons, keys, and the like for controlling the component device 10 . In the input unit 12, when the display unit 13 is formed of a touch screen, the functions of various keys can be performed on the display unit 13, and when all functions can be performed only with the touch screen, the input unit 12 may be omitted. may be

표시부(13)는 화면 표시를 위한 것으로, 구성장치(10)의 메뉴, 입력된 데이터, 기능 설정 정보 및 기타 다양한 정보를 사용자에게 시각적으로 제공할 수 있다. 표시부(13)는 액정표시장치(LCD, Liquid Crystal Display), 유기 발광 다이오드(OLED, Organic Light Emitting Diodes), 능동형 유기 발광 다이오드(AMOLED, Active Matrix Organic Light Emitting Diodes) 등으로 형성될 수 있다. 한편, 표시부(13)는 터치스크린으로 구현될 수 있다. 이러한 경우, 표시부(13)는 터치센서를 포함한다. 터치센서는 사용자의 터치 입력을 감지한다. 터치센서는 정전용량 방식(capacitive overlay), 압력식, 저항막 방식(resistive overlay), 적외선 감지 방식(infrared beam) 등의 터치 감지 센서로 구성되거나, 압력 감지 센서(pressure sensor)로 구성될 수도 있다. 상기 센서들 이외에도 물체의 접촉 또는 압력을 감지할 수 있는 모든 종류의 센서 기기가 본 발명의 터치센서로 이용될 수 있다. 터치센서는 사용자의 터치 입력을 감지하고, 터치된 위치를 나타내는 입력 좌표를 포함하는 감지 신호를 발생시켜 제어부(18)로 전송할 수 있다. 특히, 표시부(13)가 터치스크린으로 이루어진 경우, 입력부(12) 기능의 일부 또는 전부는 표시부(13)를 통해 이루어질 수 있다. The display unit 13 is for screen display, and may visually provide a menu of the component device 10, input data, function setting information, and various other information to the user. The display unit 13 may be formed of a liquid crystal display (LCD), an organic light emitting diode (OLED), an active matrix organic light emitting diode (AMOLED), or the like. Meanwhile, the display unit 13 may be implemented as a touch screen. In this case, the display unit 13 includes a touch sensor. The touch sensor detects a user's touch input. The touch sensor may be composed of a touch sensing sensor such as a capacitive overlay, a pressure type, a resistive overlay, or an infrared beam, or may be composed of a pressure sensor. . In addition to the above sensors, all types of sensor devices capable of sensing contact or pressure of an object may be used as the touch sensor of the present invention. The touch sensor may detect a user's touch input, generate a detection signal including input coordinates indicating the touched position, and transmit it to the controller 18 . In particular, when the display unit 13 is formed of a touch screen, some or all of the functions of the input unit 12 may be performed through the display unit 13 .

저장부(14)는 구성장치(10)의 동작에 필요한 프로그램 및 데이터를 저장하는 역할을 수행한다. 저장부(14)는 스캔부(11)가 객체를 스캔한 스캔 데이터, 센서부(12)가 감지한 관성 정보, 위치정보부(17)가 수신한 GPS 신호 등을 소정 기간 저장할 수 있다. 저장부(14)에 저장되는 각 종 데이터는 사용자의 조작에 따라, 삭제, 변경, 추가될 수 있다. The storage unit 14 serves to store programs and data necessary for the operation of the component device 10 . The storage unit 14 may store scan data obtained by scanning an object by the scanning unit 11 , inertia information detected by the sensor unit 12 , a GPS signal received by the location information unit 17 , and the like for a predetermined period of time. Various types of data stored in the storage unit 14 may be deleted, changed, or added according to a user's operation.

통신부(15)는 예컨대, 로봇 등의 통신 가능한 객체(obj1)와 통신하기 위한 것이다. 통신부(15)는 객체(obj1)로부터 객체(obj1)가 수신한 GPS 신호, 객체(obj1)가 측정한 관성 정보, 객체가 측정한 자세 정보 등을 수신할 수 있다. 통신부(15)는 송신되는 신호의 주파수를 상승 변환 및 증폭하는 RF 송신기와, 수신되는 신호를 저 잡음 증폭하고 주파수를 하강 변환하는 RF 수신기를 포함한다. 또한, 통신부(15)는 송신되는 신호를 변조하고, 수신되는 신호를 복조하는 모뎀(modem)을 포함한다. The communication unit 15 is for communicating with a communicable object obj1, such as a robot. The communication unit 15 may receive, from the object obj1 , a GPS signal received by the object obj1 , inertia information measured by the object obj1 , posture information measured by the object, and the like. The communication unit 15 includes an RF transmitter for up-converting and amplifying a frequency of a transmitted signal, and an RF receiver for low-noise amplifying and down-converting a received signal. In addition, the communication unit 15 includes a modem that modulates a transmitted signal and demodulates a received signal.

센서부(16)는 관성을 측정하기 위한 것이다. 이러한 센서부(16)는 속도 센서, 가속도 센서, 각속도 센서, 자이로센서, 관성센서(Inertial Measurement Unit: IMU), 도플러속도센서(Doppler Velocity Log: DVL) 및 자세방위각센서(Attitude and Heading Reference. System: AHRS) 중 적어도 하나를 포함한다. 이러한 센서는 MEMS(micro electro-mechanical systems)로 구현될 수 있다. The sensor unit 16 is for measuring inertia. The sensor unit 16 includes a speed sensor, an acceleration sensor, an angular velocity sensor, a gyro sensor, an inertial measurement unit (IMU), a Doppler Velocity Log (DVL), and an attitude and heading reference. : AHRS). Such a sensor may be implemented as micro electro-mechanical systems (MEMS).

위치정보부(17)는 GPS(Global Positioning System) 신호를 수신하기 위한 것이다. 예컨대, 위치정보부(17)는 지속적으로 GPS 위성 등으로부터 GPS 신호를 수신하여, 수신된 GPS 신호로부터 위치 정보를 도출한다. 도출된 위치 정보는 제어부(18)로 전달된다. 이러한 위치 정보는 위도, 경도, 고도 등의 좌표가 될 수 있다. The location information unit 17 is for receiving a Global Positioning System (GPS) signal. For example, the location information unit 17 continuously receives a GPS signal from a GPS satellite or the like, and derives location information from the received GPS signal. The derived location information is transmitted to the control unit 18 . Such location information may be coordinates such as latitude, longitude, and altitude.

제어부(18)는 구성장치(10)의 전반적인 동작 및 구성장치(10)의 내부 블록들(11 내지 18)간 신호 흐름을 제어하고, 데이터를 처리하는 데이터 처리 기능을 수행할 수 있다. 또한, 제어부(18)는 기본적으로, 구성장치(10)의 각 종 기능을 제어하는 역할을 수행한다. 제어부(18)는 중앙처리장치(CPU: Central Processing Unit), 디지털신호처리기(DSP: Digital Signal Processor) 등을 예시할 수 있다. The control unit 18 may control the overall operation of the component device 10 and the signal flow between the internal blocks 11 to 18 of the component device 10 , and perform a data processing function of processing data. Also, the control unit 18 basically serves to control various functions of the component device 10 . The control unit 18 may be exemplified by a central processing unit (CPU), a digital signal processor (DSP), or the like.

다음으로, 도 3을 참조하면, 제어부(18)는 구성부(200), 학습부(300), 심층신경망(400: Deep Neural Network, DNN) 및 추정부(500)를 포함한다. Next, referring to FIG. 3 , the control unit 18 includes a configuration unit 200 , a learning unit 300 , a deep neural network (DNN) 400 , and an estimator 500 .

구성부(200)는 스캔부(11)가 객체(obj1, obj2, obj3)를 스캔하여 생성한 복수의 스캔 정보(SCI: SCan Information)로부터 심층신경망(400)에 입력되는 입력데이터를 생성하기 위한 것이다. 구성부(200)는 스캔부(11)로부터 복수의 스캔 정보(SCI)를 포함하는 스캔 데이터(SD: Scan Data)가 입력되면, 복수의 스캔 정보(SCI) 각각의 좌표에 따라 스캔 정보(SCI)를 분류하여 2차원의 복수의 평면 정보(FI: Flat Information)를 생성하고, 복수의 평면 정보(FI)를 복수의 층으로 쌓아 3차원 구조를 가지는 복수의 입체 정보(SI: Stereo Information)를 생성할 수 있다. 그런 다음, 구성부(200)는 복수의 입체 정보(SI)를 격자로 배열하여 격자 정보(GI: Grid Information)를 생성한다. 이러한 입체 정보(SI) 또는 격자 정보(GI)는 심층신경망(400)에 입력되는 입력데이터로 이용될 수 있다. The configuration unit 200 is configured to generate input data input to the deep neural network 400 from a plurality of scan information (SCI: SCan Information) generated by the scan unit 11 scanning the objects obj1, obj2, obj3. will be. When scan data (SD) including a plurality of scan information (SCI) is input from the scan unit 11 , the configuration unit 200 is configured to perform the scan information (SCI) according to the coordinates of each of the plurality of scan information (SCI). ) to generate a plurality of two-dimensional flat information (FI), and a plurality of three-dimensional information (SI: Stereo Information) having a three-dimensional structure by stacking a plurality of flat information (FI) can create Then, the configuration unit 200 generates grid information (GI) by arranging a plurality of three-dimensional information SI in a grid. Such stereoscopic information (SI) or grid information (GI) may be used as input data input to the deep neural network 400 .

이를 위하여, 구성부(200)는 평면형성부(210), 입체형성부(220) 및 격자형성부(230)를 포함한다. 평면형성부(210)는 복수의 스캔 정보(SCI)가 입력되면, 스캔 정보(SCI) 중 Z축을 기준으로 복수의 스캔 정보(SCI)를 분류하여 복수의 평면 정보(FI)를 생성한다. To this end, the constituent unit 200 includes a planar forming unit 210 , a three-dimensional forming unit 220 , and a grid forming unit 230 . When a plurality of scan information SCI is input, the plane forming unit 210 classifies the plurality of scan information SCIs based on the Z-axis among the scan information SCI to generate a plurality of plane information FI.

입체형성부(220)는 평면형성부(210)가 생성한 복수의 평면 정보(FI)를 복수의 층으로 쌓아 3차원 구조를 가지는 입체 정보(SI)를 생성한다. 격자형성부(230)는 복수의 입체 정보(SI)를 격자로 배열하여 격자 정보(GI)를 형성한다. 이러한 평면형성부(210), 입체형성부(220) 및 격자형성부(230)를 포함하는 구성부(200)의 동작은 아래에서 더 상세하게 설명될 것이다. The three-dimensional forming unit 220 generates the three-dimensional information SI having a three-dimensional structure by stacking the plurality of planar information FI generated by the planar forming unit 210 in a plurality of layers. The grid forming unit 230 forms grid information GI by arranging a plurality of three-dimensional information SI in a grid. The operation of the component 200 including the planar forming unit 210 , the three-dimensional forming unit 220 , and the grid forming unit 230 will be described in more detail below.

학습부(300)는 입력데이터에 레이블을 부여하는 레이블링을 수행하여 심층신경망(400)에 대한 학습 데이터를 생성하고, 이를 이용하여 심층신경망(400)을 학습시키기 위한 것이다. The learning unit 300 generates learning data for the deep neural network 400 by performing labeling to give a label to the input data, and uses this to learn the deep neural network 400 .

심층신경망(400)은 영상에 포함된 객체의 자세 정보를 추정하기 위한 확률을 제공한다. 심층신경망(400)은 CNN(Convolution Neural Network) 등과 같은 컨볼루션 신경망이거나, RNN(Recurrent Neural Network), LTSM(Long Short-Term Memory) 등의 순환 신경망이 될 수 있다. 하지만, 심층신경망(400)을 이에 한정하는 것은 아니며, 은닉층이 복수의 계층으로 이루어진 모든 종류의 인공신경망은 본 발명의 실시예에 따른 심층신경망(400)이 될 수 있다. The deep neural network 400 provides a probability for estimating posture information of an object included in an image. The deep neural network 400 may be a convolutional neural network, such as a Convolution Neural Network (CNN), or a recurrent neural network, such as a Recurrent Neural Network (RNN) or Long Short-Term Memory (LTSM). However, the deep neural network 400 is not limited thereto, and any type of artificial neural network in which the hidden layer is composed of a plurality of layers may be the deep neural network 400 according to an embodiment of the present invention.

본 발명의 일 실시예에 따르면, 심층신경망(400)이 컨벌루션 신경망인 경우, 심층신경망(400)은 입력층(input layer: IL), 교번으로 반복되는 적어도 한 쌍의 컨벌루션층(convolution layer: CL)과 풀링층(pooling layer: PL), 적어도 하나의 완전연결층(fully-connected layer: FL) 및 출력층(output layer: OL)을 포함할 수 있다. 도 4에 도시된 바와 같이, 본 발명의 일 실시예에 따른 심층신경망(400)은 순차로 입력층(IL), 컨볼루션층(CL), 풀링층(PL), 완전연결층(FL) 및 출력층(OL)을 포함한다. According to an embodiment of the present invention, when the deep neural network 400 is a convolutional neural network, the deep neural network 400 is an input layer (IL), at least a pair of alternately repeated convolution layers (convolution layer: CL) ), a pooling layer (PL), and at least one fully-connected layer (FL) and an output layer (OL). As shown in FIG. 4 , the deep neural network 400 according to an embodiment of the present invention sequentially includes an input layer (IL), a convolution layer (CL), a pooling layer (PL), a fully connected layer (FL) and and an output layer OL.

컨볼루션층(CL) 및 풀링층(PL)은 적어도 하나의 특징맵(FM: Feature Map)으로 구성된다. 특징맵(FM)은 이전 계층의 연산 결과에 대해 가중치 및 임계치를 적용한 값을 입력받고, 입력받은 값에 대한 연산을 수행한 결과로 도출된다. 이러한 가중치는 소정 크기의 가중치 행렬인 필터 혹은 커널(W)을 통해 적용된다. 본 발명의 실시예에서 컨볼루션층(CL)의 컨벌루션 연산은 제1 필터(W1)가 사용되며, 풀링층(PL)의 풀링 연산은 제2 필터(W2)가 사용된다. The convolution layer CL and the pooling layer PL include at least one feature map (FM). The feature map FM is derived as a result of receiving a value to which a weight and a threshold are applied to the operation result of the previous layer, and performing an operation on the input value. These weights are applied through a filter or kernel W that is a weight matrix of a predetermined size. In the embodiment of the present invention, the first filter W1 is used for the convolution operation of the convolutional layer CL, and the second filter W2 is used for the pooling operation of the pooling layer PL.

입력층(IL)에 입력데이터(소정 크기의 행렬 혹은 벡터열)가 입력되면, 컨볼루션층(CL)은 입력층(IL)의 입력 데이터에 대해 제1 필터(W1)를 이용한 컨벌루션(convolution) 연산 및 활성화함수에 의한 연산을 수행하여 적어도 하나의 제1 특징맵(FM1)을 도출한다. 이어서, 풀링층(PL)은 컨볼루션층(CL)의 적어도 하나의 제1 특징맵(FM1)에 대해 제2 필터(W2)를 이용한 풀링(pooling 또는 sub-sampling) 연산을 수행하여 적어도 하나의 제2 특징맵(FM2)을 도출한다. When input data (a matrix or vector column of a predetermined size) is input to the input layer IL, the convolution layer CL performs convolution using the first filter W1 on the input data of the input layer IL. At least one first feature map FM1 is derived by performing an operation using an operation and an activation function. Next, the pooling layer PL performs a pooling or sub-sampling operation using the second filter W2 on at least one first feature map FM1 of the convolution layer CL to obtain at least one A second feature map FM2 is derived.

완결연결층(FL)은 복수의 연산노드(f1 내지 fx)로 이루어진다. 완결연결층(FL)의 복수의 연산노드(f1 내지 fx)는 풀링층(PL)의 적어도 하나의 제2 특징맵(FM2)에 대해 활성화함수에 의한 연산을 통해 복수의 연산값을 산출한다. The final connection layer FL includes a plurality of operation nodes f1 to fx. The plurality of operation nodes f1 to fx of the final connection layer FL calculates a plurality of operation values through an operation using an activation function with respect to at least one second feature map FM2 of the pooling layer PL.

출력층(OL)은 복수의 출력노드(g1 내지 gy)를 포함한다. 완결연결층(FL)의 복수의 연산노드(f1 내지 fx) 각각은 가중치(W: weight)를 가지는 채널로 출력층(OL)의 출력노드(g1 내지 gy)와 연결된다. 다른 말로, 복수의 연산노드(f1 내지 fx)의 복수의 연산값은 가중치가 적용되어 복수의 출력노드(g1 내지 gy) 각각에 입력된다. 이에 따라, 출력층(OL)의 복수의 출력노드(g1 내지 gy)는 완결연결층(FL)의 가중치가 적용되는 복수의 연산값에 대해 활성화함수에 의한 연산을 통해 출력값을 산출한다. The output layer OL includes a plurality of output nodes g1 to gy. Each of the plurality of operation nodes f1 to fx of the final connection layer FL is connected to the output nodes g1 to gy of the output layer OL through a channel having a weight (W). In other words, a weight is applied to the plurality of operation values of the plurality of operation nodes f1 to fx and is input to each of the plurality of output nodes g1 to gy. Accordingly, the plurality of output nodes g1 to gy of the output layer OL calculates an output value through an activation function operation for a plurality of calculated values to which the weight of the final connection layer FL is applied.

전술한 컨벌루션층(CL), 완결연결층(FL) 및 출력층(OL)에서 사용되는 활성화함수는 시그모이드(Sigmoid), 하이퍼볼릭탄젠트(tanh: Hyperbolic tangent), ELU(Exponential Linear Unit), ReLU(Rectified Linear Unit), Leakly ReLU, Maxout, Minout, Softmax 등을 예시할 수 있다. 컨벌루션층(CL), 완결연결층(FL) 및 출력층(OL)에 이러한 활성화함수 중 어느 하나를 선택하여 적용할 수 있다. The activation functions used in the convolutional layer (CL), final connection layer (FL) and output layer (OL) described above are Sigmoid, Hyperbolic tangent (tanh), Exponential Linear Unit (ELU), and ReLU. (Rectified Linear Unit), Leakly ReLU, Maxout, Minout, Softmax, etc. can be exemplified. Any one of these activation functions may be selected and applied to the convolutional layer CL, the finite connection layer FL, and the output layer OL.

정리하면, 전술한 바와 같이, 심층신경망(400)은 복수의 계층을 포함한다. 또한, 심층신경망(400)의 복수의 계층은 복수의 연산을 포함한다. 복수의 계층 각각의 연산 결과는 파라미터, 즉, 가중치, 임계치 등이 적용되어 다음 계층으로 전달된다. 이에 따라, 심층신경망(400)은 입력데이터에 대해 복수의 계층의 가중치가 적용되는 복수의 연산을 수행하여 출력값을 산출하고, 산출된 출력값을 출력할 수 있다. In summary, as described above, the deep neural network 400 includes a plurality of layers. In addition, the plurality of layers of the deep neural network 400 includes a plurality of operations. The calculation result of each of the plurality of layers is transmitted to the next layer by applying parameters, ie, weights, thresholds, and the like. Accordingly, the deep neural network 400 may calculate an output value by performing a plurality of operations to which the weights of a plurality of layers are applied to the input data, and may output the calculated output value.

추정부(500)는 심층신경망(400)을 이용하여 스캔 데이터에 포함된 객체의 자세 정보를 추정한다. 심층신경망(400)의 출력값은 확률이 될 수 있다. 추정부(500)는 이러한 심층신경망(400) 출력한 확률을 기초로 스캔 데이터에 포함된 객체의 자세 정보를 추정한다. The estimator 500 estimates the posture information of the object included in the scan data by using the deep neural network 400 . The output value of the deep neural network 400 may be a probability. The estimator 500 estimates the posture information of the object included in the scan data based on the output probability of the deep neural network 400 .

다음으로, 라이다 및 레이다 신호를 기반으로 심층신경망 모델에 대한 입력 데이터를 구성하기 위한 방법에 대해서 설명하기로 한다. 도 5는 라이다 및 레이다 신호를 기반으로 심층신경망 모델에 대한 입력 데이터를 구성하기 위한 방법을 설명하기 위한 흐름도이다. 도 6은 본 발명의 실시예에 따른 라이다 및 레이다 신호로부터 입체 정보를 생성하는 방법을 설명하기 위한 흐름도이다. 도 7은 본 발명의 일 실시예에 따른 라이다 및 레이다 신호를 기반으로 격자 영상을 생성하는 방법을 설명하기 위한 도면이다. 도 8은 본 발명의 다른 실시예에 따른 라이다 및 레이다 신호를 기반으로 격자 영상을 생성하는 방법을 설명하기 위한 도면이다. Next, a method for constructing input data for a deep neural network model based on lidar and radar signals will be described. 5 is a flowchart illustrating a method for constructing input data for a deep neural network model based on lidar and radar signals. 6 is a flowchart illustrating a method of generating stereoscopic information from a lidar and a radar signal according to an embodiment of the present invention. 7 is a diagram for explaining a method of generating a grid image based on a lidar and a radar signal according to an embodiment of the present invention. 8 is a diagram for explaining a method of generating a grid image based on a lidar and a radar signal according to another embodiment of the present invention.

도 5, 도 6, 도 7 및 도 8을 참조하면, 스캔부(11)는 복수의 라이다센서(110) 및 복수의 레이다센서(120)를 포함하며, 구성부(200)는 S110 단계에서 스캔부(11)의 복수의 라이다센서(110) 및 복수의 레이다센서(120) 중 적어도 하나로부터 출력되는 복수의 스캔 정보(SCI: SCan Information)를 포함하는 스캔 데이터(SD: Scan Data)를 입력받을 수 있다. 수학식 1과 같이, 복수의 스캔 정보(SCI) 각각은 레이저 혹은 전파를 반사하는 객체 표면의 복수의 점 각각의 3차원 직교좌표계 상의 좌표와 객체 표면의 복수의 점 각각에서 반사되는 레이저 또는 전파의 강도를 나타내는 반사 강도를 포함한다. 5, 6, 7 and 8, the scan unit 11 includes a plurality of lidar sensors 110 and a plurality of radar sensors 120, and the configuration unit 200 is configured in step S110. Scan data (SD: Scan Data) including a plurality of scan information (SCI: SCan Information) output from at least one of the plurality of lidar sensors 110 and the plurality of radar sensors 120 of the scan unit 11 can be input. As shown in Equation 1, each of the plurality of scan information (SCI) includes coordinates on the three-dimensional Cartesian coordinate system of each of a plurality of points on the surface of an object that reflects lasers or radio waves, and the laser or radio waves reflected from each of the plurality of points on the surface of the object. Includes reflection intensity indicating intensity.

구성부(200)의 평면분류부(210)는 S120 단계에서 좌표(Z축)에 따라 복수의 스캔 정보(SCI)를 분류하여 분류된 복수의 스캔 정보(SCI)를 각 분류에 속하는 복수의 스캔 정보(SCI)를 이용하여 2차원의 복수의 평면 정보(FI)를 생성하고, 구성부(200)의 입체형성부(220)는 평면분류부(210)가 생성한 복수의 평면 정보(FI: Flat Information)를 복수의 층으로 쌓아 3차원 구조를 가지는 복수의 입체 정보(SI: Stereo Information)를 생성한다. 특히, 복수의 평면 정보를 생성할 때, 평면분류부(210)는 스캔 정보(SCI)의 Z축을 기준으로 복수의 스캔 정보(SCI)를 분류하기 위한 복수의 단위 구간을 설정하고, 복수의 단위 구간 각각에 포함된 하나 이상의 스캔 정보(SCI)의 반사 강도를 분류된 복수의 단위 구간 각각에 대응하는 평면 공간에 사상하여 복수의 평면 정보를 생성할 수 있다. 이러한 S120 단계는 아래에서 더 상세하게 설명될 것이다. The plane classifying unit 210 of the configuration unit 200 classifies the plurality of scan information (SCI) according to the coordinates (Z-axis) in step S120 and divides the classified plurality of scan information (SCI) into a plurality of scans belonging to each classification. A plurality of two-dimensional plane information FI is generated by using the information SCI, and the three-dimensional forming unit 220 of the configuration unit 200 includes a plurality of plane information (FI: Flat) generated by the plane classifying unit 210 . Information) is stacked in a plurality of layers to generate a plurality of stereo information (SI) having a three-dimensional structure. In particular, when generating the plurality of plane information, the plane classification unit 210 sets a plurality of unit sections for classifying the plurality of scan information SCI based on the Z-axis of the scan information SCI, and sets the plurality of units. A plurality of plane information may be generated by mapping the reflection intensity of one or more pieces of scan information (SCI) included in each section to a plane space corresponding to each of the plurality of classified unit sections. This step S120 will be described in more detail below.

복수의 입체 정보(SI)가 생성되면, 격자형성부(230)는 S130 단계에서 복수의 입체 정보(SI)를 격자로 배열하여 격자 정보(GI: Grid Information)를 형성한다. When the plurality of three-dimensional information SI is generated, the grid forming unit 230 forms grid information (GI) by arranging the plurality of three-dimensional information SI in a grid in step S130 .

일 실시예에 따르면, 스캔부(110)는 제1 라이다센서(111) 및 제2 라이다센서(112)와, 제1 레이다센서(121) 및 제2 레이다센서(122)를 포함한다고 가정한다. 또한, 제1 라이다센서(111) 및 제2 라이다센서(112)와, 제1 레이다센서(121) 및 제2 레이다센서(122)가 동일 시점에 객체를 스캔하여 제1 라이다센서(111)가 제1 스캔 데이터를 출력하고, 제2 라이다센서(112)가 제2 스캔 데이터를 출력하고, 제1 레이다센서(121)가 제3 스캔 데이터를 출력하고, 제2 레이다센서(121)가 제4 스캔 데이터를 출력하였다고 가정한다. 이에 따라, 구성부(200)는 도 7에 도시된 바와 같이, 제1 스캔 데이터로부터 제1 입체 정보(SI1), 제2 스캔 데이터로부터 제2 입체 정보(SI2), 제3 스캔 데이터로부터 제3 입체 정보(SI3), 그리고 제4 스캔 데이터로부터 제4 입체 정보(SI4)를 생성할 수 있다. 그러면, 격자형성부(230)는 도 7에 도시된 바와 같이, 제1 입체 정보(SI1), 제2 입체 정보(SI2), 제3 입체 정보(SI3) 및 제4 입체 정보(SI4)를 격자로 배열하여 격자 정보(GI)를 형성한다. According to an embodiment, it is assumed that the scan unit 110 includes a first lidar sensor 111 and a second lidar sensor 112 , and a first radar sensor 121 and a second radar sensor 122 . do. In addition, the first lidar sensor 111 and the second lidar sensor 112, the first radar sensor 121, and the second radar sensor 122 scan the object at the same time point to the first lidar sensor ( 111) outputs the first scan data, the second lidar sensor 112 outputs the second scan data, the first radar sensor 121 outputs the third scan data, and the second radar sensor 121 It is assumed that ) outputs the fourth scan data. Accordingly, as shown in FIG. 7 , the configuration unit 200 generates the first stereoscopic information SI1 from the first scan data, the second stereoscopic information SI2 from the second scan data, and the third stereoscopic information SI1 from the second scan data. The fourth stereoscopic information SI4 may be generated from the stereoscopic information SI3 and the fourth scan data. Then, the grid forming unit 230 lattices the first three-dimensional information SI1, the second three-dimensional information SI2, the third three-dimensional information SI3, and the fourth three-dimensional information SI4 as shown in FIG. 7 . to form lattice information (GI).

다른 실시예에 따르면, 스캔부(110)는 하나의 라이다센서(110)를 포함한다고 가정한다. 라이다센서(110)는 시간 t-3, t-2, t-1 및 t 각각에서 객체를 스캔하여 제1 내지 제4 스캔 데이터를 출력하였다고 가정한다. 이에 따라, 구성부(200)는 도 8에 도시된 바와 같이, 제1 스캔 데이터로부터 제t-3 입체 정보(SIt-3), 제2 스캔 데이터로부터 제t-2 입체 정보(SIt-2), 제3 스캔 데이터로부터 제t-1 입체 정보(SIt-1), 그리고 제4 스캔 데이터로부터 제t 입체 정보(SIt)를 생성할 수 있다. According to another embodiment, it is assumed that the scan unit 110 includes one lidar sensor 110 . It is assumed that the lidar sensor 110 scans an object at times t-3, t-2, t-1, and t, respectively, and outputs first to fourth scan data. Accordingly, as shown in FIG. 8 , the configuration unit 200 generates t-3 th stereoscopic information SIt-3 from the first scan data and t-2 th stereoscopic information SIt-2 from the second scan data. , t-1 th stereoscopic information SIt-1 from the third scan data, and t-th stereoscopic information SIt from the fourth scan data may be generated.

그러면, 격자형성부(230)는 도 8에 도시된 바와 같이, 복수의 입체 정보(SIt-3, SIt-2, SIt-1, SIt)가 생성된 시간 순서에 따라 소정의 규칙을 적용하여 미리 설정된 위치에 격자로 배열하여 격자 정보(GI)를 형성한다. 도 8의 예에서는 시간 순서에 따라 반시계방향으로 배치하였다. Then, as shown in FIG. 8 , the grid forming unit 230 applies a predetermined rule according to the time sequence in which a plurality of three-dimensional information SIt-3, SIt-2, SIt-1, and SIt are generated in advance. The grid information GI is formed by arranging the grids at the set positions. In the example of FIG. 8 , they were arranged in a counterclockwise direction according to the time sequence.

한편, S130 단계에서 격자 정보에 포함되는 복수의 입체 정보(SI1, SI2, SI3, SI4) 중 적어도 하나의 높이가 다른 경우, 격자형성부(230)는 적어도 하나의 입체 정보(SI)로부터 적어도 하나의 평면 정보(FI)를 소거하거나, 적어도 하나의 입체 정보(SI)에 적어도 하나의 패딩 정보(PI: Padding Information)를 부가하여 격자 정보(GI)에 포함되는 복수의 입체 정보(SI1, SI2, SI3, SI4)의 높이를 일치시킬 수 있다. 여기서, 패딩 정보(PI)는 해당 평면 공간의 모든 값이 상수인 평면 정보(FI)를 의미한다. Meanwhile, when at least one of the plurality of three-dimensional information SI1, SI2, SI3, and SI4 included in the grid information has a different height in step S130 , the grid forming unit 230 receives at least one of the three-dimensional information SI from the at least one stereoscopic information SI. A plurality of stereoscopic information SI1, SI2, included in the lattice information GI by erasing the plane information FI of The heights of SI3 and SI4) can be matched. Here, the padding information PI means plane information FI in which all values of the corresponding plane space are constants.

전술한 바와 같이, 생성된 입체 정보 및 격자 정보 중 적어도 하나는 심층신경망(400)에 대한 입력데이터로 이용된다. 이러한 입력데이터가 마련되면, 학습부(300)는 S140 단계에서 입력데이터를 기초로 학습데이터를 생성한다. 이러한 학습 데이터를 생성하는 방법에 대해서는 아래에서 더 상세하게 설명될 것이다. As described above, at least one of the generated stereoscopic information and grid information is used as input data for the deep neural network 400 . When such input data is prepared, the learning unit 300 generates learning data based on the input data in step S140. A method of generating such training data will be described in more detail below.

그러면, 전술한 S120 단계에 대해 보다 상세하게 설명하기로 한다. 즉, 본 발명의 실시예에 따른 입체 정보(SI)를 생성하는 방법에 대해서 설명하기로 한다. 도 9는 본 발명의 실시예에 따른 입체 정보(SI)를 생성하는 방법을 설명하기 위한 흐름도이다. Then, the above-described step S120 will be described in more detail. That is, a method for generating stereoscopic information (SI) according to an embodiment of the present invention will be described. 9 is a flowchart illustrating a method of generating stereoscopic information (SI) according to an embodiment of the present invention.

도 6 및 도 9를 참조하면, 전술한 바와 같이 S120 단계는 구성부(200)에 복수의 스캔 정보(SCI)를 포함하는 스캔 데이터(SD)가 입력되는 경우 개시된다. 복수의 스캔 정보(SCI)가 입력되면, 평면분류부(210)는 S210 단계에서 복수의 스캔 정보(SCI)를 포함하는 스캔 데이터(SD)의 Z축 상의 최대 높이를 결정하여 Z축 상의 유효 범위 {T | 0 ≤ T < Zmax}를 설정한다. 6 and 9 , as described above, step S120 is started when scan data SD including a plurality of scan information SCI is input to the configuration unit 200 . When the plurality of scan information (SCI) is input, the plane classification unit 210 determines the maximum height on the Z-axis of the scan data SD including the plurality of scan information (SCI) in step S210 to determine the effective range on the Z-axis {T | Set 0 ≤ T < Zmax}.

그런 다음, 평면분류부(210)는 S220 단계에서 Z축 상의 최대 높이(Zmax) 이상의 스캔 정보(SD)의 Z축의 값을 유효 최대 높이(Zmax-1)로 대체하거나, 소거한다. 유효 최대 높이(Zmax-1)는 앞서 설정된 Z축 상의 유효 범위 {T | 0 ≤ T < Tmax}와 같이 종료 범위가 폐구간이기 때문에 유효 최대 높이(Zmax-1)는 유효 범위의 Z축 상의 최대 높이(Zmax)에서 1을 차감한다. Then, the plane classification unit 210 replaces or deletes the Z-axis value of the scan information SD equal to or greater than the maximum height Zmax on the Z-axis with the effective maximum height Zmax-1 in step S220. The effective maximum height (Zmax-1) is the effective range {T | As 0 ≤ T < Tmax}, since the end range is a closed section, the effective maximum height (Zmax-1) is subtracted by 1 from the maximum height (Zmax) on the Z axis of the effective range.

그런 다음, 평면분류부(210)는 S230 단계에서 다음의 수학식 2에 따라 스캔 데이터에 포함된 복수의 스캔 정보를 스캔 정보의 좌표의 Z축을 기준으로 소정의 분할 수의 단위 구간으로 구분한다. Then, in step S230 , the plane classifying unit 210 divides the plurality of scan information included in the scan data into unit sections of a predetermined number of divisions based on the Z-axis of the coordinates of the scan information according to Equation 2 below.

Figure pat00007
Figure pat00007

수학식 2에서, M은 분할 수이고, 미리 설정된다. 또한, Zstart는 단위 구간의 Z축 상의 시작점이고, Zend는 단위 구간의 Z축 상의 종료점이고, Zmax는 상기 스캔 데이터의 Z축 상의 최대 높이를 의미한다. In Equation 2, M is the number of divisions, and is preset. In addition, Zstart is the starting point on the Z-axis of the unit section, Zend is the end point on the Z-axis of the unit section, and Zmax is the maximum height on the Z-axis of the scan data.

다음으로, 평면분류부(210)는 S240 단계에서 스캔 데이터에 포함된 복수의 스캔 정보의 반사 강도를 정규화한다. 예컨대, 평면분류부(210)는 스캔 데이터(SD)에 포함된 복수의 스캔 정보(SCI) 각각의 반사 강도를 상기 스캔 데이터(SD)에 포함된 복수의 스캔 정보(SCI)의 반사 강도 중 최대값으로 나누어 0 내지 1 사이의 실수값으로 변환할 수 있다. Next, the plane classification unit 210 normalizes the reflection intensity of the plurality of scan information included in the scan data in step S240. For example, the plane classifying unit 210 sets the maximum reflection intensity of each of the plurality of scan information SCI included in the scan data SD among the reflection intensities of the plurality of scan information SCI included in the scan data SD. It can be converted to a real value between 0 and 1 by dividing by a value.

다음으로, 평면분류부(210)는 S250 단계에서 복수(M개)의 단위 구간에 대응하는 2차원의 복수(M개)의 평면 공간을 형성한다. 여기서, 평면 공간은 Z=0인 구면좌표계이다. 이와 같이, 복수(M개)의 평면 공간이 마련되면, 복수의 스캔 정보(SCI) 각각을 대응하는 평면 공간에 사상한다. 이에 대해 구체적으로 설명하면 다음과 같다. Next, the plane classifying unit 210 forms a plurality (M pieces) of two-dimensional planar spaces corresponding to the plurality (M pieces) of unit sections in step S250 . Here, the plane space is a spherical coordinate system with Z=0. In this way, when a plurality (M pieces) of planar spaces are provided, each of the plurality of pieces of scan information SCI is mapped to a corresponding planar space. This will be described in detail as follows.

평면분류부(210)는 S260 단계에서 복수의 단위 구간에 포함된 스캔 정보(SCI)의 직교 좌표를 다음의 수학식 3에 따라 구면 좌표로 변환하여 구면 좌표에 따른 거리 및 각도를 도출한다. The plane classifying unit 210 converts the orthogonal coordinates of the scan information (SCI) included in the plurality of unit sections into spherical coordinates according to Equation 3 below in step S260 to derive distances and angles according to the spherical coordinates.

Figure pat00008
Figure pat00008

Figure pat00009
Figure pat00009

여기서, k는 스캔 정보의 인덱스를 나타낸다. 또한, x, y, z는 스캔 정보의 직교좌표계의 좌표를 나타낸다. 특히,

Figure pat00010
은 구면좌표계에 따른 원점에서의 거리이고,
Figure pat00011
는 구면좌표계에 따른 z축을 축으로 양의 방향의 x축과 이루는 각도를 나타낸다. 한편, 구면좌표계의 양의 방향의 z축과 이루는 각도 ??는 M개의 단위 구간 각각에 대응하는 평면 공간이 Z=0인 구면좌표계이기 때문에 고려하지 않는다. Here, k represents an index of scan information. In addition, x, y, and z represent coordinates of the Cartesian coordinate system of the scan information. Especially,
Figure pat00010
is the distance from the origin according to the spherical coordinate system,
Figure pat00011
represents the angle formed with the z-axis in the spherical coordinate system and the x-axis in the positive direction. On the other hand, the angle ?? formed with the z-axis in the positive direction of the spherical coordinate system is not considered because the plane space corresponding to each of the M unit sections is a spherical coordinate system in which Z=0.

다음으로, 평면분류부(210)는 S270 단계에서 앞서(250) 형성된 복수(M개)의 단위 구간에 대응하는 2차원의 복수(M개)의 평면 공간의 중심점으로부터 도출된 거리

Figure pat00012
및 각도
Figure pat00013
에 따른 선분을 형성한다. 그런 다음, 평면분류부(210)는 S280 단계에서 단위 구간의 스캔 정보 중 좌표 상 선분과 만나는 모든 스캔 정보의 반사 강도를 선분에 사상하여 평면 정보(FI)를 생성한다. Next, the plane classifying unit 210 determines the distance derived from the center point of a plurality of (M) two-dimensional planar spaces corresponding to the plurality of (M) unit sections formed earlier ( 250 ) in step S270 .
Figure pat00012
and angle
Figure pat00013
form a line segment according to Then, in step S280 , the plane classifying unit 210 maps the reflection intensity of all scan information that meets the line segment on the coordinates among the scan information of the unit section to the line segment to generate the plane information FI.

다음으로, 입체형성부(220)는 S290 단계에서 앞서 생성된 복수(M개)의 평면 정보(FI)를 복수의 층, 즉, 깊이 방향으로 쌓아 3차원 구조를 가지는 입체 정보(SI)를 생성한다. 이어서, 입체형성부(220)는 선택적으로, S300 단계에서 입체 정보(SI)에 적어도 하나의 패딩 정보(PI)를 부가할 수 있다. 여기서, 패딩 정보(PI)는 평면 공간의 모든 값이 상수 C(여기서, C는 실수)인 평면 정보(FI)를 의미한다. 이러한 패딩 정보(PI)는 깊이 방향에 대한 기준값을 부여하기 위한 것이다. Next, the three-dimensional forming unit 220 generates the three-dimensional information SI having a three-dimensional structure by stacking the plurality (M pieces) of the previously generated planar information FI in step S290 in a plurality of layers, that is, in the depth direction. . Subsequently, the three-dimensional forming unit 220 may optionally add at least one piece of padding information PI to the three-dimensional information SI in step S300 . Here, the padding information PI means plane information FI in which all values of the plane space are constant C (here, C is a real number). The padding information PI is used to provide a reference value for the depth direction.

전술한 입체 정보(SI) 혹은 격자 정보(GI)는 심층신경망(400)에 대한 입력데이터이며, 이러한 입력데이터에 레이블을 부여하여 심층신경망(400)에 대한 학습 데이터로 활용할 수 있다. 이러한 학습 데이터를 생성하는 방법에 대해서 설명하기로 한다. 도 10은 본 발명의 실시예에 따른 학습 데이터를 생성하는 방법을 설명하기 위한 흐름도이다. The three-dimensional information (SI) or lattice information (GI) described above is input data for the deep neural network 400 , and may be used as learning data for the deep neural network 400 by giving a label to the input data. A method of generating such training data will be described. 10 is a flowchart illustrating a method of generating learning data according to an embodiment of the present invention.

도 10을 참조하면, 스캔부(11)는 라이다센서(110) 및 레이더센서(120) 중 적어도 하나를 통해 객체를 스캔하여 각각이 복수의 스캔 정보(SCI)를 포함하는 복수의 스캔 데이터(SD)를 생성할 수 있다. 스캔부(11)로부터 복수의 스캔 데이터가 입력되면, 구성부(200)는 S410 단계에서 복수의 스캔 데이터(SD)로부터 복수의 입체 영상(SI)을 생성하고, 복수의 입체 영상(SI)을 격자로 배열하여 격자 정보(GI)를 형성할 수 있다. 이러한 복수의 입체 영상(SI) 또는 격자 정보(GI)는 심층신경망(400)에 대한 입력데이터로 이용된다. Referring to FIG. 10 , the scan unit 11 scans an object through at least one of the lidar sensor 110 and the radar sensor 120 to scan a plurality of scan data each including a plurality of scan information (SCI) ( SD) can be created. When a plurality of scan data is input from the scan unit 11 , the configuration unit 200 generates a plurality of stereoscopic images SI from the plurality of scan data SD in step S410 , and generates the plurality of stereoscopic images SI. The grid information GI may be formed by arranging them in a grid. The plurality of stereoscopic images (SI) or grid information (GI) is used as input data to the deep neural network 400 .

그러면, 학습부(300)는 S420 단계에서 입력데이터에 대응하는 레이블 데이터를 수집한다. 이러한 레이블 데이터는 심층신경망(400)을 학습시키기 위한 목적에 따라 달라질 수 있다. 레이블 데이터는 객체(obj)의 자세 정보를 포함할 수 있다. Then, the learning unit 300 collects label data corresponding to the input data in step S420 . Such label data may vary depending on the purpose for training the deep neural network 400 . The label data may include posture information of the object obj.

그런 다음, 학습부(300)는 S430 단계에서 앞서 수집된 레이블 데이터를 입력데이터에 대한 레이블로 설정하여 학습 데이터를 생성한다. 즉, 학습부(300)는 스캔 데이터에 대응하여 생성된 입체 정보 혹은 격자 정보인 입력데이터에 수집된 레이블 데이터로 레이블링(Labeling)한다. Then, the learning unit 300 generates training data by setting the previously collected label data as a label for the input data in step S430 . That is, the learning unit 300 labels with label data collected in input data that is three-dimensional information or grid information generated in response to the scan data.

일 실시예에 따르면, 학습부(300)는 심층신경망(400)이 실내외 공간에서 로봇(R) 및 객체(obj1, obj2, obj3)의 자세를 추정하기 위한 학습 데이터를 마련할 수 있다. 이를 위하여, 구성부(200)가 입력데이터를 생성하면, 학습부(300)는 구성부(200)가 입력데이터를 생성한 시점, 즉, 시점 t에 대응하여 모션 캡쳐 장치, AHRS(attitude/heading reference system) 장치를 통해 로봇(R) 또는 객체(obj1)의 자세 정보를 레이블 데이터로 획득할 수 있다. 이어서, 학습부(300)는 시점 t의 입력데이터에 대해 획득한 자세 정보를 레이블링한다. According to an embodiment, the learning unit 300 may provide training data for the deep neural network 400 to estimate the postures of the robot R and the objects obj1, obj2, and obj3 in indoor and outdoor spaces. To this end, when the configuration unit 200 generates input data, the learning unit 300 generates the input data by the configuration unit 200, that is, in response to the time point t, the motion capture device, AHRS (attitude/heading) It is possible to obtain the posture information of the robot (R) or the object (obj1) as label data through the reference system) device. Next, the learning unit 300 labels the posture information obtained with respect to the input data at time t.

전술한 바와 같이 학습 데이터가 마련되면, 학습부(300)는 S440 단계에서 심층신경망(400)을 학습시킬 수 있다. 예컨대, 학습부(300)는 입력데이터를 심층신경망(400)에 입력하고, 심층신경망(400)이 각각이 가중치가 적용되는 복수의 계층의 복수의 연산을 통해 출력값을 산출하면, 출력값과 레이블 데이터와의 차이가 최소가 되도록 심층신경망(400)의 파라미터를 수정하는 최적화를 통해 심층신경망(400)을 학습시킬 수 있다. When the learning data is prepared as described above, the learning unit 300 may train the deep neural network 400 in step S440 . For example, the learning unit 300 inputs input data to the deep neural network 400 , and when the deep neural network 400 calculates an output value through a plurality of operations of a plurality of layers to which each weight is applied, the output value and the label data The deep neural network 400 can be trained through optimization of modifying the parameters of the deep neural network 400 so that the difference between .

전술한 바와 같이, 학습이 완료되면, 구성장치(10)의 구성부(200)는 라이다센서(110) 혹은 레이다센서(110)가 객체를 스캔한 스캔 데이터로부터 복수의 입체 영상(SI)을 생성하고, 복수의 입체 영상(SI)을 격자로 배열하여 격자 정보(GI)를 생성할 수 있다. 그런 다음, 구성부(200)는 입체 영상(SI) 혹은 격자 정보(GI)를 입력데이터로 심층신경망(400)에 입력할 수 있다. 그러면, 심층신경망(400)은 학습된 파라미터에 따라 복수의 계층의 가중치가 적용되는 복수의 연산을 통해 출력값으로 자세 정보에 대한 확률을 출력할 것이다. 그러면, 추정부(500)는 출력값인 확률을 통해 로봇(R) 혹은 객체(obj1, obj2, obj3)의 자세를 추정할 수 있다. As described above, when the learning is completed, the configuration unit 200 of the configuration device 10 generates a plurality of stereoscopic images SI from the scan data of the lidar sensor 110 or the object scanned by the radar sensor 110 . and arranging the plurality of stereoscopic images SI in a grid to generate grid information GI. Then, the configuration unit 200 may input the stereoscopic image (SI) or grid information (GI) as input data to the deep neural network 400 . Then, the deep neural network 400 will output the probability of the posture information as an output value through a plurality of calculations to which the weights of a plurality of layers are applied according to the learned parameters. Then, the estimator 500 may estimate the posture of the robot R or the objects obj1 , obj2 , and obj3 through the probability that is the output value.

한편, 전술한 본 발명의 실시예에 따른 방법은 다양한 컴퓨터수단을 통하여 판독 가능한 프로그램 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다. Meanwhile, the method according to the embodiment of the present invention described above may be implemented in the form of a program readable by various computer means and recorded in a computer readable recording medium. Here, the recording medium may include a program command, a data file, a data structure, etc. alone or in combination. The program instructions recorded on the recording medium may be specially designed and configured for the present invention, or may be known and available to those skilled in the art of computer software. For example, the recording medium includes magnetic media such as hard disks, floppy disks and magnetic tapes, optical recording media such as CD-ROMs and DVDs, and magneto-optical media such as floppy disks ( magneto-optical media) and hardware devices specially configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions may include high-level languages that can be executed by a computer using an interpreter or the like as well as machine language such as generated by a compiler. Such hardware devices may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 이와 같이, 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 균등론에 따라 다양한 변화와 수정을 가할 수 있음을 이해할 것이다. Although the present invention has been described above using several preferred embodiments, these examples are illustrative and not restrictive. As such, those of ordinary skill in the art to which the present invention pertains will understand that various changes and modifications can be made in accordance with the doctrine of equivalents without departing from the spirit of the present invention and the scope of rights set forth in the appended claims.

10: 구성장치 11: 스캔부
12: 입력부 13: 표시부
14: 저장부 15: 통신부
16: 센서부 17: 위치정보부
18: 제어부 110: 라이다센서
120: 레이다센서 200: 구성부
210: 평면분류부 220: 입체형성부
230: 격자형성부 300: 학습부
400: 심층신경망 500: 추정부
10: component 11: scan unit
12: input unit 13: display unit
14: storage unit 15: communication unit
16: sensor unit 17: location information unit
18: control unit 110: lidar sensor
120: radar sensor 200: component
210: plane classification unit 220: three-dimensional forming unit
230: grid forming unit 300: learning unit
400: deep neural network 500: estimator

Claims (8)

라이다 및 레이다 신호를 기반으로 심층신경망 모델의 입력데이터를 구성하기 위한 방법에 있어서,
평면분류부가 라이다 및 레이다 센서 중 적어도 하나로부터 레이저 혹은 전파를 반사하는 객체 표면의 복수의 점 각각의 3차원 직교좌표계 상의 좌표와 상기 객체 표면의 복수의 점 각각에서 반사되는 레이저 또는 전파의 강도인 반사 강도를 나타내는 복수의 스캔 정보가 입력되면, 상기 복수의 스캔 정보 각각의 좌표에 따라 분류하여 2차원의 복수의 평면 정보를 생성하는 단계; 및
입체형성부가 상기 복수의 평면 정보를 복수의 층으로 쌓아 3차원 구조를 가지는 복수의 입체 정보를 생성하는 단계;
를 포함하는 것을 특징으로 하는
입력데이터를 구성하기 위한 방법.
A method for constructing input data of a deep neural network model based on lidar and radar signals,
Coordinates on the three-dimensional Cartesian coordinate system of each of the plurality of points on the object surface that the plane classification unit reflects the laser or radio wave from at least one of the lidar and the radar sensor, and the intensity of the laser or radio wave reflected from each of the plurality of points on the object surface generating a plurality of two-dimensional plane information by classifying a plurality of pieces of scan information indicating reflection intensity according to respective coordinates of the plurality of pieces of scan information; and
generating, by a three-dimensional forming unit, a plurality of three-dimensional information having a three-dimensional structure by stacking the plurality of plane information in a plurality of layers;
characterized in that it comprises
A method for organizing the input data.
제1항에 있어서,
상기 복수의 평면 정보를 생성하는 단계는
상기 평면분류부가
상기 복수의 스캔 정보의 좌표 중 Z축을 기준으로 상기 복수의 스캔 정보를 복수의 단위 구간으로 분류하는 단계; 및
상기 복수의 단위 구간 각각에 포함된 상기 스캔 정보의 반사 강도를 상기 분류된 복수의 단위 구간 각각에 대응하는 평면 공간에 사상하여 복수의 평면 정보를 생성하는 단계;
를 포함하는 것을 특징으로 하는
입력데이터를 구성하기 위한 방법.
According to claim 1,
The step of generating the plurality of plane information is
The plane classification unit
classifying the plurality of scan information into a plurality of unit sections based on a Z-axis among coordinates of the plurality of scan information; and
generating a plurality of plane information by mapping the reflection intensity of the scan information included in each of the plurality of unit sections to a plane space corresponding to each of the classified plurality of unit sections;
characterized in that it comprises
A method for organizing the input data.
제2항에 있어서,
상기 복수의 단위 구간으로 분류하는 단계는
상기 평면분류부가 상기 복수의 스캔 정보의 Z축 상의 최대 높이(Zmax)를 설정하는 단계;
상기 평면분류부가 최대 높이(Zmax) 이상의 Z축의 값을 가지는 스캔 정보의 Z축의 값을 유효 최대 높이(Zmax-1)로 대체하거나, 소거하는 단계;
상기 평면분류부가
수학식
Figure pat00014

에 따라 상기 스캔 데이터에 포함된 복수의 스캔 정보를 스캔 정보의 좌표의 Z축을 기준으로 소정의 분할 수의 단위 구간으로 구분하는 단계;를 포함하며,
상기 M은 상기 분할 수이고,
상기 Zstart는 단위 구간의 Z축 상의 시작점이고,
상기 Zend는 단위 구간의 Z축 상의 종료점이고,
상기 Zmax는 상기 Z축의 최대 높이인 것
을 특징으로 하는
입력데이터를 구성하기 위한 방법.
3. The method of claim 2,
The step of classifying into the plurality of unit sections is
setting, by the plane classification unit, a maximum height (Zmax) on the Z-axis of the plurality of scan information;
replacing or erasing a Z-axis value of scan information having a Z-axis value greater than or equal to the maximum height (Zmax) by the plane classification unit with an effective maximum height (Zmax-1);
The plane classification unit
formula
Figure pat00014

dividing the plurality of scan information included in the scan data into unit sections of a predetermined number of divisions based on the Z-axis of the coordinates of the scan information according to
wherein M is the number of divisions,
The Zstart is the starting point on the Z-axis of the unit section,
Zend is the end point on the Z-axis of the unit section,
The Zmax is the maximum height of the Z-axis
characterized by
A method for organizing the input data.
제3항에 있어서,
상기 복수의 평면 정보를 생성하는 단계는
상기 평면분류부가 상기 스캔 데이터에 포함된 복수의 스캔 정보 각각의 반사 강도를 상기 스캔 데이터에 포함된 복수의 스캔 정보의 반사 강도 중 최대값으로 나누어 0 내지 1 사이의 실수값으로 변환하는 단계;
상기 평면분류부가 복수의 단위 구간에 대응하는 복수의 평면 공간을 형성하는 단계;
상기 평면분류부가 상기 복수의 단위 구간 각각에 포함된 복수의 스캔 정보 각각의 직교 좌표를 구면 좌표로 변환하여 구면 좌표에 따른 거리 및 각도를 도출하는 단계;
상기 평면분류부가 상기 복수의 단위 구간에 대응하는 상기 복수의 평면 공간의 중심점으로부터 상기 도출된 거리 및 각도에 따른 선분을 형성하는 단계; 및
상기 단위 구간의 스캔 정보 중 좌표 상 상기 선분과 만나는 모든 스캔 정보의 반사 강도를 상기 선분에 사상하는 단계;
를 포함하는 것을 특징으로 하는
입력데이터를 구성하기 위한 방법.
4. The method of claim 3,
The step of generating the plurality of plane information is
converting, by the plane classifying unit, the reflection intensity of each of the plurality of scan information included in the scan data by a maximum value among the reflection intensities of the plurality of scan information included in the scan data, into a real value between 0 and 1;
forming a plurality of planar spaces corresponding to a plurality of unit sections by the planar classification unit;
deriving a distance and an angle according to the spherical coordinates by the plane classifying unit converting the orthogonal coordinates of each of the plurality of scan information included in each of the plurality of unit sections into spherical coordinates;
forming, by the plane classification unit, a line segment according to the derived distance and angle from the center point of the plurality of planar spaces corresponding to the plurality of unit sections; and
mapping the reflection intensity of all scan information that meets the line segment on coordinates among the scan information of the unit section to the line segment;
characterized in that it comprises
A method for organizing the input data.
제4항에 있어서,
상기 구면 좌표에 따른 거리 및 각도를 도출하는 단계는
상기 평면분류부가
상기 복수의 단위 구간 각각에 포함된 복수의 스캔 정보 각각의 직교 좌표를
수학식
Figure pat00015
,
Figure pat00016

에 따라 구면 좌표로 변환하여 구면 좌표에 따른 거리 및 각도를 도출하며,
상기 k는 스캔 정보의 인덱스이고,
상기 x, y, z는 스캔 정보의 직교좌표계의 좌표이고,
상기
Figure pat00017
은 구면좌표계에 따른 원점에서의 거리이고,
상기
Figure pat00018
는 구면좌표계에 따른 z축을 축으로 양의 방향의 x축과 이루는 각도를 나타내는 것
을 특징으로 하는
입력데이터를 구성하기 위한 방법.
5. The method of claim 4,
The step of deriving the distance and angle according to the spherical coordinates
The plane classification unit
Cartesian coordinates of each of the plurality of scan information included in each of the plurality of unit sections
formula
Figure pat00015
,
Figure pat00016

Converts to spherical coordinates according to
where k is an index of scan information,
Wherein x, y, z are coordinates of the Cartesian coordinate system of the scan information,
remind
Figure pat00017
is the distance from the origin according to the spherical coordinate system,
remind
Figure pat00018
represents the angle formed with the z-axis in the spherical coordinate system and the x-axis in the positive direction.
characterized by
A method for organizing the input data.
제1항에 있어서,
격자형성부가 복수의 입체 정보를 격자로 배열하여 격자 정보를 형성하는 단계; 및
상기 격자 정보에 포함되는 복수의 입체 정보 중 적어도 하나의 높이가 다른 경우, 적어도 하나의 입체 정보로부터 적어도 하나의 평면 정보를 소거하거나, 적어도 하나의 입체 정보에 적어도 하나의 패딩 정보를 부가하여 상기 격자 정보에 포함되는 복수의 입체 정보의 높이를 일치시키는 단계;
를 더 포함하는 것을 특징으로 하는
입력데이터를 구성하기 위한 방법.
According to claim 1,
forming grid information by arranging a plurality of three-dimensional information in a grid by a grid forming unit; and
When at least one of the plurality of stereoscopic information included in the grid information has a different height, at least one piece of plane information is deleted from the at least one piece of stereoscopic information, or at least one piece of padding information is added to the at least one piece of stereoscopic information to add at least one piece of padding information to the grid. matching the heights of a plurality of stereoscopic information included in the information;
characterized in that it further comprises
A method for organizing the input data.
제6항에 있어서,
상기 격자 정보를 형성하는 단계는
상기 격자형성부가 복수의 입체 정보가 생성된 시간 순서에 따라 미리 설정된 위치에 배열하여 격자로 배열하여 격자 정보를 형성하는 것을 특징으로 하는
입력데이터를 구성하기 위한 방법.
7. The method of claim 6,
The step of forming the grid information
wherein the grid forming unit forms grid information by arranging a plurality of three-dimensional information in a preset position according to a time sequence in which the three-dimensional information is generated and arranging them in a grid
A method for organizing the input data.
제6항에 있어서,
학습부가 상기 입체 정보 혹은 상기 격자 정보인 입력 데이터에 대응하여 객체의 자세 정보를 레이블 데이터로 수집하는 단계; 및
학습부가 상기 레이블 데이터인 자세 정보를 상기 입력 데이터에 레이블링하여 학습 데이터를 생성하는 단계;
를 더 포함하는 것을 특징으로 하는
입력데이터를 구성하기 위한 방법.
7. The method of claim 6,
collecting, by a learning unit, posture information of an object as label data in response to input data that is the three-dimensional information or the grid information; and
generating learning data by labeling, by a learning unit, posture information, which is the label data, on the input data;
characterized in that it further comprises
A method for organizing the input data.
KR1020200087722A 2020-07-15 2020-07-15 Method for constructing input data for deep neural network (DNN) based on Light Detection and Ranging (LiDAR) and Radio Azimuth Direction and Ranging (RADAR) signal KR102504719B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200087722A KR102504719B1 (en) 2020-07-15 2020-07-15 Method for constructing input data for deep neural network (DNN) based on Light Detection and Ranging (LiDAR) and Radio Azimuth Direction and Ranging (RADAR) signal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200087722A KR102504719B1 (en) 2020-07-15 2020-07-15 Method for constructing input data for deep neural network (DNN) based on Light Detection and Ranging (LiDAR) and Radio Azimuth Direction and Ranging (RADAR) signal

Publications (2)

Publication Number Publication Date
KR20220009247A true KR20220009247A (en) 2022-01-24
KR102504719B1 KR102504719B1 (en) 2023-02-27

Family

ID=80050017

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200087722A KR102504719B1 (en) 2020-07-15 2020-07-15 Method for constructing input data for deep neural network (DNN) based on Light Detection and Ranging (LiDAR) and Radio Azimuth Direction and Ranging (RADAR) signal

Country Status (1)

Country Link
KR (1) KR102504719B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102511101B1 (en) * 2022-09-13 2023-03-16 국방과학연구소 Apparatus, method, computer-readable storage medium and computer program for classifying target of radar based on 3d tensor generated by combination of wavelet separation component

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101964100B1 (en) * 2017-10-23 2019-04-01 국민대학교산학협력단 Object detection apparatus based on neural network learning and method of the same
KR101987846B1 (en) 2018-07-26 2019-06-11 한국해양과학기술원 Apparatus and method for avoiding ship collision by image analysis of monitor of radar device
KR20200023006A (en) * 2018-08-24 2020-03-04 대전대학교 산학협력단 Method and system for controlling lidar sensor

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101964100B1 (en) * 2017-10-23 2019-04-01 국민대학교산학협력단 Object detection apparatus based on neural network learning and method of the same
KR101987846B1 (en) 2018-07-26 2019-06-11 한국해양과학기술원 Apparatus and method for avoiding ship collision by image analysis of monitor of radar device
KR20200023006A (en) * 2018-08-24 2020-03-04 대전대학교 산학협력단 Method and system for controlling lidar sensor

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102511101B1 (en) * 2022-09-13 2023-03-16 국방과학연구소 Apparatus, method, computer-readable storage medium and computer program for classifying target of radar based on 3d tensor generated by combination of wavelet separation component

Also Published As

Publication number Publication date
KR102504719B1 (en) 2023-02-27

Similar Documents

Publication Publication Date Title
US10809376B2 (en) Systems and methods for detecting objects in underwater environments
Ribas et al. Underwater SLAM for structured environments using an imaging sonar
JP5181704B2 (en) Data processing apparatus, posture estimation system, posture estimation method and program
KR102526542B1 (en) 2d vehicle localizing using geoarcs
CN110235027A (en) More object trackings based on LIDAR point cloud
Guizilini et al. Dynamic hilbert maps: Real-time occupancy predictions in changing environments
Jiang et al. A survey of underwater acoustic SLAM system
KR102504719B1 (en) Method for constructing input data for deep neural network (DNN) based on Light Detection and Ranging (LiDAR) and Radio Azimuth Direction and Ranging (RADAR) signal
Loebis et al. Review of multisensor data fusion techniques and their application to autonomous underwater vehicle navigation
Muller et al. A probabilistic sonar sensor model for robust localization of a small-size blimp in indoor environments using a particle filter
Fan et al. Survey of Terrain-Aided Navigation Methods for Underwater Vehicles
Shen et al. An autonomous integrated system for 3-D underwater terrain map reconstruction
Madhavan et al. Moving object prediction for off-road autonomous navigation
KR102469164B1 (en) Apparatus and method for geophysical navigation of USV(Unmanned Surface Vehicles)
Kamsvåg Fusion between camera and lidar for autonomous surface vehicles
WO2021235100A1 (en) Information processing device, information processing method, and program
Melim et al. Towards autonomous navigation with the Yellowfin AUV
LaValle Sensing and filtering: A tutorial based on preimages and information spaces
JP6774085B2 (en) Active sensor signal processing system, signal processing method and signal processing program
Chen et al. An obstacle detection method for USV by fusing of radar and motion stereo
KR102453834B1 (en) A method for structuring the output information of multiple thermal and image cameras as input data of a deep neural network model
Singh Active Simultaneous Localization and Mapping in Perceptually Aliased Underwater Environments
Padial Underwater robotic terrain-relative navigation using acoustic shadows in sonar imagery
Der Lee et al. An Introduction to Comparative Localization Method Using AI-based Underwater Terrain Mapping
Karimian et al. Sounds good: Simulation and evaluation of audio communication for multi-robot exploration

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant