WO2022097814A1 - 3d 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조 - Google Patents

3d 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조 Download PDF

Info

Publication number
WO2022097814A1
WO2022097814A1 PCT/KR2020/016791 KR2020016791W WO2022097814A1 WO 2022097814 A1 WO2022097814 A1 WO 2022097814A1 KR 2020016791 W KR2020016791 W KR 2020016791W WO 2022097814 A1 WO2022097814 A1 WO 2022097814A1
Authority
WO
WIPO (PCT)
Prior art keywords
channel
lidar
convolution
data
convolutional
Prior art date
Application number
PCT/KR2020/016791
Other languages
English (en)
French (fr)
Inventor
박태형
Original Assignee
충북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 충북대학교 산학협력단 filed Critical 충북대학교 산학협력단
Priority to EP20914755.2A priority Critical patent/EP4024284A4/en
Priority to JP2021540158A priority patent/JP7364680B2/ja
Priority to US17/419,788 priority patent/US20230280467A1/en
Publication of WO2022097814A1 publication Critical patent/WO2022097814A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • G01S17/8943D imaging with simultaneous measurement of time-of-flight at a 2D array of receiver pixels, e.g. time-of-flight cameras or flash lidar
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Electromagnetism (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Optical Radar Systems And Details Thereof (AREA)

Abstract

본 발명은 3D 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조에 관한 것으로서, 라이다 데이터의 각 채널 내 특징을 추출하기 위한 채널 내부 컨볼루션 네트워크, 상기 채널 내부 컨볼루션 네트워크의 각 채널별 출력을 이용하여 각 채널 간의 특징을 추출하고, 추출한 각 채널 간의 특징을 나타내는 특징맵을 생성하기 위한 채널 외부 컨볼루션 네트워크 및 상기 채널 외부 컨볼루션 네트워크에서 생성된 특징맵을 이용하여 객체의 위치 및 클래스를 탐색하는 디텍션 네트워크를 포함한다. 본 발명에 의하면, 3D 라이다의 고속 객체 인식 과정에서, 라이다에서 들어오는 로(RAW) 데이터를 직접 사용하기 때문에 데이터 손실이 발생하지 않는 다는 효과가 있다.

Description

3D 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조
본 발명은 합성곱 신경망에 관한 것으로서, 더욱 상세하게는 3D 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조에 관한 것이다.
3D 라이다(LiDAR)는 자율주행 자동차에서 많이 사용하는 센서로서, 라이다 본체에서 레이저를 발사하고 반사되어 돌아오는 시간을 가지고 주변 물체의 거리를 측정하는 장치이다. 카메라와 달리 라이다는 빛의 영향을 덜 받기 때문에 주야간 관계 없이 주변 물체 감지가 가능하다.
라이다 데이터는 점(point)의 집합으로 구성되어 있으며 이를 포인트 클라우드(pointcloud)라고 한다. 각 점(point)에는 위치(x, y, z)와 반사도(I) 데이터가 포함되어 있다.
라이다 데이터를 출력하면 여러개의 점으로 구성된 배경과 물체가 있는 것을 확인할 수 있다. 라이다 데이터에서 객체(주로 사람, 자동차)의 위치 및 클래스(class)를 찾는 일련의 과정을 객체 인식(object recognition)이라고 한다.
3D 라이다를 이용한 객체인식 방법은 여러 가지가 있지만, 최근 몇 년 동안 가장 성능이 좋은 방법은 합성곱 신경망(Convolutional Neural Network, CNN)을 사용하는 것이다.
CNN은 입력 데이터가 들어오면 여러 번의 컨볼루션 과정을 통해 특징을 추출하고, 추출한 특징을 이용하여 객체를 인식한다. 기존의 CNN에서 입력 데이터로 사용하는 방법은 3D 라이다 데이터를 복셀(voxel)이나 이미지(image)로 변환하여 사용하는 방식이다. 이러한 기존 CNN의 객체 인식 과정은 도 1과 같다.
도 1은 기존 CNN을 이용한 객체 인식 과정을 도시한 것이다.
도 1을 참조하면, 기존 CNN을 이용한 객체 인식 과정은, 라이다에서 감지된 포인트 클라우드 데이터를 복셀 또는 이미지로 변환하는 과정을 거치고, 변환된 데이터를 입력으로 하여 CNN을 수행하여 결과 데이터를 출력하는 방식이다.
이러한 종래 CNN을 이용한 객체 인식 방식의 문제점은 변환 방식에 따라 다양하지만, 그 중에서 공통되는 문제점은 라이다를 통해 생성된 로(raw) 데이터를 변환하기 때문에 손실되는 데이터가 발생한다는 것이다.
종래 복셀 변환 방식과 이미지 변환 방식 각각의 단점은 다음과 같다.
먼저, 포인트 클라우드를 복셀로 변환하는 방법의 경우, 3D 컨볼루션을 사용해야 하는데 연산량이 많아져 수행시간에 영향을 준다는 문제점이 있다.
또한, 포인트 클라우드를 이미지로 변환하는 방법의 경우, 2D 데이터를 입력으로 사용하므로 출력도 2D와 관련된 데이터가 나오기 때문에, 정확한 3D 자세를 찾기 위해서는 추가 알고리즘이 적용되야 해서, 결국 수행시간에 영향을 준다는 문제점이 있다.
이러한 기존의 방법을 개선하기 위해서는 포인트 클라우드를 복셀이나 이미지로 변환하는 과정을 없애야 하는 방안이 필요하다.
본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 3D 라이다의 고속 객체 인식 과정에서 포인트 클라우드 데이터를 복셀이나 이미지로 변환하는 과정을 없애기 위한, 채널별 컨볼루션 기반의 합성곱 신경망 구조를 제공하는데 그 목적이 있다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
이와 같은 목적을 달성하기 위한 본 발명은 3D 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조에 관한 것으로서, 라이다 데이터의 각 채널 내 특징을 추출하기 위한 채널 내부 컨볼루션 네트워크, 상기 채널 내부 컨볼루션 네트워크의 각 채널별 출력을 이용하여 각 채널 간의 특징을 추출하고, 추출한 각 채널 간의 특징을 나타내는 특징맵을 생성하기 위한 채널 외부 컨볼루션 네트워크 및 상기 채널 외부 컨볼루션 네트워크에서 생성된 특징맵을 이용하여 객체의 위치 및 클래스를 탐색하는 디텍션 네트워크를 포함한다.
상기 채널 내부 컨볼루션 네트워크는, 각 채널 별로 컨볼루션을 진행하는 하나 이상의 컨볼루션 레이어와 풀링을 진행하는 풀링 레이어를 하나의 세트로 하여, 소정 갯수의 세트를 연속하여 구비하고, 각 채널 별로 라이다의 채널 데이터가 입력되고, 각 채널의 특징을 나타내는 특징 데이터를 출력할 수 있다.
상기 채널 외부 컨볼루션 네트워크는, 상기 각 채널별 특징 데이터를 합친 입력 특징맵을 입력으로 하여 컨볼루션을 진행하는 하나 이상의 컨볼루션 레이어를 구비하고, 상기 입력 특징맵과 상기 컨볼루션 레이어의 결과인 결과 특징맵을 연결하여 최종 특징맵을 출력할 수 있다.
상기 디텍션 네트워크는, 상기 결과 특징맵을 입력으로 하여 컨볼루션을 진행하는 하나 이상의 컨볼루션 레이어와, 상기 컨볼루션 레이어를 통해 나오는 결과 데이터를 이용하여 객체의 클래스와 점수를 출력하는 클래스 레이어와, 상기 컨볼루션 레이어를 통해 나오는 결과 데이터를 이용하여 객체의 위치, 박스의 크기 및 객체의 각도를 표시하는 박스 레이어를 구비할 수 있다.
본 발명에 의하면, 3D 라이다의 고속 객체 인식 과정에서, 라이다에서 들어오는 로(RAW) 데이터를 직접 사용하기 때문에 데이터 손실이 발생하지 않는 다는 효과가 있다.
또한, 본 발명에 의하면, 포인트 클라우드 데이터를 변환하는 방식이 아닌, 원래 라이다에서 있는 채널을 이용하기 때문에 변환 알고리즘이 따로 필요 없으므로, 채널 내부 컨볼루션 네트워크의 경우 같은 채널내 데이터만 컨볼루션을 적용하기 때문에 컨볼루션 차원이 낮아 처리속도가 빠르다는 효과가 있다.
도 1은 기존 CNN을 이용한 객체 인식 과정을 도시한 것이다.
도 2는 본 발명의 일 실시예에 따른 3D 라이다의 고속 객체 인식 과정을 도시한 것이다.
도 3은 본 발명의 일 실시예에 따른 3D 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조를 보여주는 도면이다.
도 4는 포인트 클라우드 데이터의 표시 방법을 예시한 도면이다.
도 5는 라이다의 물체 감지 방식을 설명하기 위한 예시도이다.
도 6은 본 발명의 일 실시예에 따른 합성곱 신경망 구조에서 채널 내부 컨볼루션 네트워크의 구성을 도시한 것이다.
도 7은 본 발명의 일 실시예에 따른 합성곱 신경망 구조에서 채널 외부 컨볼루션 네트워크의 구성을 도시한 것이다.
도 8은 본 발명의 일 실시예에 따른 합성곱 신경망 구조에서 디텍션 네트워크의 구성을 도시한 것이다.
본 발명은 3D 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조에 관한 것으로서, 라이다 데이터의 각 채널 내 특징을 추출하기 위한 채널 내부 컨볼루션 네트워크, 상기 채널 내부 컨볼루션 네트워크의 각 채널별 출력을 이용하여 각 채널 간의 특징을 추출하고, 추출한 각 채널 간의 특징을 나타내는 특징맵을 생성하기 위한 채널 외부 컨볼루션 네트워크 및 상기 채널 외부 컨볼루션 네트워크에서 생성된 특징맵을 이용하여 객체의 위치 및 클래스를 탐색하는 디텍션 네트워크를 포함한다.
본 명세서에서 개시된 실시 예의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 개시에서 제안하고자 하는 실시 예는 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 당해 기술분야에서 통상의 지식을 가진 자에게 실시 예들의 범주를 완전하게 알려주기 위해 제공되는 것일 뿐이다.
본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 개시된 실시 예에 대해 구체적으로 설명하기로 한다.
본 명세서에서 사용되는 용어는 개시된 실시 예들의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 관련 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 명세서의 상세한 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 명세서의 전반에 걸친 내용을 토대로 정의되어야 한다.
본 명세서에서의 단수의 표현은 문맥상 명백하게 단수인 것으로 특정하지 않는 한, 복수의 표현을 포함한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에서 사용되는 "부"라는 용어는 소프트웨어, FPGA 또는 ASIC과 같은 하드웨어 구성요소를 의미하며, "부"는 어떤 역할들을 수행한다. 그렇지만 "부"는 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. "부"는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다. 따라서, 일 예로서 "부"는 소프트웨어 구성요소들, 객체지향 소프트웨어 구성요소들, 클래스 구성요소들 및 태스크 구성요소들과 같은 구성요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다. 구성요소들과 "부"들 안에서 제공되는 기능은 더 작은 수의 구성요소들 및 "부"들로 결합되거나 추가적인 구성요소들과 "부"들로 더 분리될 수 있다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 2는 본 발명의 일 실시예에 따른 3D 라이다의 고속 객체 인식 과정을 도시한 것이다.
도 2를 참조하면, 본 발명의 일 실시예에 따른 3D 라이다의 고속 객체 인식 과정은 라이다에서 감지된 포인트 클라우드 데이터를 입력으로 하여 CNN(Convolutional Neural Network)을 수행하여 결과 데이터를 출력하는 방식이다.
이러한 본 발명의 CNN을 이용한 3D 라이다의 고속 객체 인식 과정은 기존 방식과 대비하여 포인트 클라우드 데이터를 복셀 또는 이미지로 변환하는 과정이 생략되어 있다. 이를 위하여 본 발명에서는 다음과 같은 채널별 컨볼루션 기반의 합성곱 신경망 구조를 제안한다.
도 3은 본 발명의 일 실시예에 따른 3D 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조를 보여주는 도면이다.
도 3을 참조하면, 본 발명에서 제안하는 3D 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조(100)는 라이다의 채널 내 특징을 추출하는 채널 내부 컨볼루션 네트워크(110), 라이다의 채널 간 특징을 추출하는 채널 외부 컨볼루션 네트워크(120), 객체의 위치와 클래스(class)를 찾는 디텍션(Detection) 네트워크(130)의 총 3개의 네트워크로 구성되어 있다.
채널 내부 컨볼루션 네트워크(110)는 채널 내 특징을 추출하는 네트워크이다.
이러한 채널 내부 컨볼루션 네트워크(110)의 구성을 설명하기 전에 라이다 데이터의 특징을 설명하면 다음과 같다.
도 4는 포인트 클라우드 데이터의 표시 방법을 예시한 도면이다.
도 4에서 (a)는 라이다 데이터인 포인트 클라우드의 출력 데이터이고, (b)는 출력 데이터를 정렬한 정렬 데이터를 도시한 것이다. 즉, 도 4 (a)는 거리에 따라 출력되는 라이다 데이터를 표시한 것이고, (b)는 라이다 데이터를 정렬한 정렬 데이터를 표시한 것이다.
라이다 데이터 L은 다음과 같이 구성되어 있다.
L={p i,j}
p i,j={x i,j, y i,j, z i,j, I ij} (1)
도 4 (b)에 표시된 정렬 데이터를 수식으로 나타내면 다음과 같다.
L= [C 1 C 2 ... C i] T
C i=[p i,1 p i,2 ... p i,j] (2)
여기서, L은 전체 라이다 데이터를 의미하고, i는 채널을 의미하고, C i는 채널 i에 속해있는 점의 집합을 의미하고, j는 각 채널에 있는 인덱스를 의미하고, p i,j는 하나의 포인트를 나타낸다. p i,j 안에는 위치(x,y,z)와 반사도(I)값이 포함되어 있다.
라이다는 수직해상도는 낮지만 수평해상도가 높기 때문에 같은 채널에 있는 점들은 많은 유사성을 가지게 된다. 이를 도면을 참조하여 설명하면 다음과 같다.
도 5는 라이다의 물체 감지 방식을 설명하기 위한 예시도이다.
도 5의 예시에서, 라이다가 두 개의 물체를 감지했을 때, (a)에서 라이다에서 측정한 데이터를 정렬해서 보면, (b)에서 보는 바와 같이, 동일한 채널(i가 같음)의 라이다 데이터의 경우, 지면 측정하던 중에 물체가 인식된 부분에서 거리와 반사도 값이 달라진다. 그리고 물체 영역을 지나가면 지면을 측정하기 때문에 거리와 반사도 값이 다시 달라진다. 만약 연속으로 다른 물체가 있는 경우, 거리는 같지만 반사도에서 차이가 발생하기 때문에, 이를 통해 해당하는 물체 정보를 얻을 수 있다.
360° 스캔이 가능한 라이다의 경우, 같은 채널에 있는 점들은 많은 유사성을 가지게 된다. 예를 들면, 평지를 스캔했을 때 같은 채널에 있는 라이다 데이터 거리 및 반사도 값은 비슷하다. 그러나 도 5 (a)와 같이, 객체가 있는 경우 중간에 거리나 반사도 값이 다른 경우가 생긴다. 따라서, 채널별 데이터는 서로 관계가 깊기 때문에 데이터를 채널 별로 분리한다. 그리고, 분리된 채널 데이터를 이용해 채널 내부 컨볼루션을 진행한다.
이러한 라이다의 채널 특성을 이용하여 채널 내부 컨볼루션 네트워크를 도 6과 같이 나타날 수 있다.
도 6은 본 발명의 일 실시예에 따른 합성곱 신경망 구조에서 채널 내부 컨볼루션 네트워크의 구성을 도시한 것이다.
도 6에서, F i는 채널 i에서 결과로 나온 특징 데이터이다.
도 6의 실시예에서 채널 내부 컨볼루션 네트워크(110)는 각 채널 당 12개의 컨볼루션 레이어(convolution layer)와 4개의 풀링 레이어(pooling layer)로 구성되어 있는 것을 확인할 수 있다. 그리고, 채널 내부 컨볼루션 네트워크(110) 전체로 보면 컨볼루션 레이어는 12×i개, 풀링 레이어는 4×i개를 포함하고 있다.
그리고, 컨볼루션 레이어의 컨볼루션 마스크 크기는 1×3으로 구성되어 있다. 각 라이다 채널 별로 라이다 데이터의 x,y,z,I 값에 대해 컨볼루션을 진행한다. 3번의 컨볼루션을 진행하고 1번의 풀링을 진행하는 것을 1세트로 해서 총 4세트를 진행한다.
다음, 채널 외부 컨볼루션 네트워크(120)는 채널 간 특징을 추출하는 네트워크이다. 도 5 (b)를 세로 방향으로 보면, 물체가 연속으로 감지되다가 물체가 없어지면 지면을 감지하는 것을 확인할 수 있다. 이를 다시 말하면 동일한 인덱스(j가 같음)에 있는 경우에도 물체의 특징을 뽑을 수가 있다는 것을 의미한다. 이러한 채널 간의 특성을 이용해서 채널 외부 컨볼루션 네트워크를 다음 도 7과 같이 나타낼 수 있다.
도 7은 본 발명의 일 실시예에 따른 합성곱 신경망 구조에서 채널 외부 컨볼루션 네트워크의 구성을 도시한 것이다.
도 7에서 채널 외부 컨볼루션 네트워크(120)는 채널 내부 컨볼루션 네트워크에서 나온 F i를 입력으로 사용하여 특징맵
Figure PCTKR2020016791-appb-img-000001
을 생성한다.
도 7에서 보는 바와 같이, 본 발명의 일 실시예에서 채널 외부 컨볼루션 네트워크(120)는 3개의 컨볼루션 레이어로 구성된다. 그리고 컨볼루션 레이어의 마스크 크기는 3×3을 사용한다. 그리고, 채널 외부 컨볼루션 네트워크(120) 끝단에서는 컨볼루션 결과 특징맵(F′)과 입력으로 사용했던 특징맵(F)을 연결하여 새로운 특징맵(
Figure PCTKR2020016791-appb-img-000002
)을 만든다.
채널 외부 컨볼루션 네트워크(120)의 입력 데이터는 채널 내부 컨볼루션 네트워크의 결과(F 1, F 2,..., F i)를 합친 하나의 F를 사용하고, 출력 데이터는
Figure PCTKR2020016791-appb-img-000003
으로 특징맵의 크기는 F 와 동일하다.
다음, 디텍션 네트워크(130)는 채널 외부 컨볼루션 네트워크(120)에서 구한 특징맵
Figure PCTKR2020016791-appb-img-000004
을 이용하여 객체의 위치 및 클래스를 찾는 네트워크이다.
도 8은 본 발명의 일 실시예에 따른 합성곱 신경망 구조에서 디텍션 네트워크의 구성을 도시한 것이다.
도 8을 참조하면, 디텍션 네트워크(130)는 객체의 클래스와 점수(c, s)를 출력하는 클래스(class) 레이어와, 객체의 위치, 크기 및 회전(w, h, l, d, θ)을 알아내는 박스(box) 레이어로 구성되어 있다.
도 8의 실시예에서 디텍션 네트워크(130)는 4개의 컨볼루션 레이어를 가지고, 마스크 크기는 3×3을 사용한다. 그리고, 디텍션 네트워크(130)에서 4번의 컨볼루션 레이어를 거쳐서 나오는 최종 데이터는 클래스 레어어와 박스 레이어의 입력으로 사용한다.
클래스 레이어는 해당 객체의 클래스와 점수(c, s)를 출력하도록 구성되어 있다. 그리고, 박스 레이어는 객체의 위치, 박스의 크기 및 객체의 각도(w, h, l, d, θ)를 표시하도록 구성되어 있다.
본 발명에서는 라이다 채널 기반의 채널별 컨볼루션 기반의 합성곱 신경 망 구조를 제안하였다. 기존에는 3차원 컨볼루션 사용하거나 데이터를 변환한 객체인식 방법을 사용했지만, 본 발명에서 제안하는 방법은 라이다 데이터의 특징을 이용해 객체를 인식하는 네트워크이다. 즉, 객체인식을 위해 라이다 데이터를 채널별로 특징을 추출할 수 있게 채널 내부 컨볼루션 네트워크를 사용하고, 다음으로 채널 외부 컨볼루션 네트워크를 이용해 채널 간 특징을 추출하고, 마지막으로 디텍션 네트워크를 이용해 객체를 찾는 방식이다.
기존의 3D 라이다의 객체 인식 과정에서 복셀 변환이나 이미지 변환 방법은 결국 네트워크의 입력 데이터로 사용하기 위해 라이다 데이터를 변환해야 한다. 그러나 이러한 데이터 변환은 결국 로(RAW) 데이터의 일부가 손실 될 수 있고, 데이터 변환을 위한 변환 알고리즘을 추가하거나 후처리 알고리즘을 추가해야 하고, 복셀 한정으로 3D 컨볼루션을 사용하기 때문에 수행시간이 길어진다.
이러한 점을 개선하기 위하여, 본 발명에서 제안하는 방법의 경우 라이다에서 들어오는 로 데이터를 직접 사용하기 때문에 데이터 손실이 발생하지 않고, 데이터 변환이 아닌 원래 라이다에서 있는 채널을 이용하기 때문에 변환 알고리즘이 따로 필요없다. 또한, 채널 내부 컨볼루션 네트워크의 경우, 같은 채널 내 데이터만 컨볼루션을 적용하기 때문에 컨볼루션 차원이 낮아 처리속도가 빠르다.
이상 본 발명을 몇 가지 바람직한 실시 예를 사용하여 설명하였으나, 이들 실시 예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.

Claims (4)

  1. 3D 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조에서,
    라이다 데이터의 각 채널 내 특징을 추출하기 위한 채널 내부 컨볼루션 네트워크;
    상기 채널 내부 컨볼루션 네트워크의 각 채널별 출력을 이용하여 각 채널 간의 특징을 추출하고, 추출한 각 채널 간의 특징을 나타내는 특징맵을 생성하기 위한 채널 외부 컨볼루션 네트워크; 및
    상기 채널 외부 컨볼루션 네트워크에서 생성된 특징맵을 이용하여 객체의 위치 및 클래스를 탐색하는 디텍션 네트워크
    를 포함하는 합성곱 신경망 구조.
  2. 청구항 1에 있어서,
    상기 채널 내부 컨볼루션 네트워크는,
    각 채널 별로 컨볼루션을 진행하는 하나 이상의 컨볼루션 레이어와 풀링을 진행하는 풀링 레이어를 하나의 세트로 하여, 소정 갯수의 세트를 연속하여 구비하고,
    각 채널 별로 라이다의 채널 데이터가 입력되고, 각 채널의 특징을 나타내는 특징 데이터를 출력하는 것을 특징으로 하는 합성곱 신경망 구조.
  3. 청구항 2에 있어서,
    상기 채널 외부 컨볼루션 네트워크는,
    상기 각 채널별 특징 데이터를 합친 입력 특징맵을 입력으로 하여 컨볼루션을 진행하는 하나 이상의 컨볼루션 레이어를 구비하고,
    상기 입력 특징맵과 상기 컨볼루션 레이어의 결과인 결과 특징맵을 연결하여 최종 특징맵을 출력하는 것을 특징으로 하는 합성곱 신경망 구조.
  4. 청구항 3에 있어서,
    상기 디텍션 네트워크는,
    상기 결과 특징맵을 입력으로 하여 컨볼루션을 진행하는 하나 이상의 컨볼루션 레이어와, 상기 컨볼루션 레이어를 통해 나오는 결과 데이터를 이용하여 객체의 클래스와 점수를 출력하는 클래스 레이어와, 상기 컨볼루션 레이어를 통해 나오는 결과 데이터를 이용하여 객체의 위치, 박스의 크기 및 객체의 각도를 표시하는 박스 레이어를 구비하는 것을 특징으로 하는 합성곱 신경망 구조.
PCT/KR2020/016791 2020-11-09 2020-11-25 3d 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조 WO2022097814A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
EP20914755.2A EP4024284A4 (en) 2020-11-09 2020-11-25 CONVOLUTIVE NETWORK STRUCTURE BASED ON CHANNEL-SPECIFIC CONVOLUTION AND ENABLES VERY FAST OBJECT RECOGNITION USING 3D LIDAR
JP2021540158A JP7364680B2 (ja) 2020-11-09 2020-11-25 3dライダーの高速物体認識のためのチャンネル別コンボリューション基盤の畳み込みニューラルネットワーク構造
US17/419,788 US20230280467A1 (en) 2020-11-09 2020-11-25 CONVOLUTIONAL NEURAL NETWORK BASED ON CHANNEL-SPECIFIC CONVOLUTION FOR HIGH-SPEED OBJECT RECOGNITION OF 3D LiDAR

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020200148870A KR20220063026A (ko) 2020-11-09 2020-11-09 3d 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조
KR10-2020-0148870 2020-11-09

Publications (1)

Publication Number Publication Date
WO2022097814A1 true WO2022097814A1 (ko) 2022-05-12

Family

ID=81307372

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/016791 WO2022097814A1 (ko) 2020-11-09 2020-11-25 3d 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조

Country Status (6)

Country Link
US (1) US20230280467A1 (ko)
EP (1) EP4024284A4 (ko)
JP (1) JP7364680B2 (ko)
KR (1) KR20220063026A (ko)
DE (1) DE202020005928U1 (ko)
WO (1) WO2022097814A1 (ko)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190034794A1 (en) * 2017-07-27 2019-01-31 Waymo Llc Neural Networks for Vehicle Trajectory Planning
KR20190038137A (ko) * 2017-09-29 2019-04-08 에스케이텔레콤 주식회사 채널별 객체 검출 최적화를 위한 영상분석 방법 및 서버장치
US20200202168A1 (en) * 2018-12-21 2020-06-25 Waymo Llc Neural networks for coarse- and fine-object classifications
US10733506B1 (en) * 2016-12-14 2020-08-04 Waymo Llc Object detection neural network
KR20200115704A (ko) * 2019-03-08 2020-10-08 한국전자통신연구원 영상 인식 장치 및 방법
KR102168753B1 (ko) 2020-03-17 2020-10-22 한국과학기술원 카메라와 레이더 센서 융합 기반 3차원 객체 검출을 위한 전자 장치 및 그의 동작 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180034853A (ko) * 2016-09-28 2018-04-05 에스케이하이닉스 주식회사 합성곱 신경망의 연산 장치 및 방법
US10318827B2 (en) * 2016-12-19 2019-06-11 Waymo Llc Object detection neural networks

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10733506B1 (en) * 2016-12-14 2020-08-04 Waymo Llc Object detection neural network
US20190034794A1 (en) * 2017-07-27 2019-01-31 Waymo Llc Neural Networks for Vehicle Trajectory Planning
KR20190038137A (ko) * 2017-09-29 2019-04-08 에스케이텔레콤 주식회사 채널별 객체 검출 최적화를 위한 영상분석 방법 및 서버장치
US20200202168A1 (en) * 2018-12-21 2020-06-25 Waymo Llc Neural networks for coarse- and fine-object classifications
KR20200115704A (ko) * 2019-03-08 2020-10-08 한국전자통신연구원 영상 인식 장치 및 방법
KR102168753B1 (ko) 2020-03-17 2020-10-22 한국과학기술원 카메라와 레이더 센서 융합 기반 3차원 객체 검출을 위한 전자 장치 및 그의 동작 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KWON SOONSUB, PARK TAEHYOUNG: "Channel-Based Network for Fast Object Detection of 3D LiDAR", ELECTRONICS, vol. 9, no. 7, 10 July 2020 (2020-07-10), pages 1122, XP055852034, DOI: 10.3390/electronics9071122 *
KWON, SOON-SUB ET AL.: "Channel based Network for Object Recognition of Low-Channel 3D Lidar", JOURNAL OF INSTITUTE OF CONTROL ROBOTICS AND SYSTEMS, vol. 26, no. 7, July 2020 (2020-07-01), pages 589 - 595, XP009534798, DOI: 10.5302/J.ICROS.2020.19.0167 *

Also Published As

Publication number Publication date
KR20220063026A (ko) 2022-05-17
US20230280467A1 (en) 2023-09-07
EP4024284A1 (en) 2022-07-06
JP2023509104A (ja) 2023-03-07
JP7364680B2 (ja) 2023-10-18
DE202020005928U1 (de) 2023-05-26
EP4024284A4 (en) 2022-10-26

Similar Documents

Publication Publication Date Title
CN104599275B (zh) 基于概率图模型的非参数化的rgb-d场景理解方法
CN108154102B (zh) 一种道路交通标志识别方法
WO2020122456A1 (ko) 이미지와 텍스트간 유사도 매칭 시스템 및 방법
US20180349716A1 (en) Apparatus and method for recognizing traffic signs
CN104484658A (zh) 一种基于多通道卷积神经网络的人脸性别识别方法及装置
CN110992325A (zh) 基于深度学习的目标清点方法、装置和设备
CN113326735B (zh) 一种基于YOLOv5的多模态小目标检测方法
CN110910378A (zh) 一种基于深度融合网络的双模态图像能见度检测方法
CN104978582B (zh) 基于轮廓弦角特征的遮挡目标识别方法
CN110889398A (zh) 一种基于相似度网络的多模态图像能见度检测方法
CN110619373A (zh) 一种基于bp神经网络的红外多光谱微弱目标检测方法
CN113408472A (zh) 目标重识别模型的训练方法、目标重识别方法及装置
CN106407951A (zh) 一种基于单目视觉的夜间前方车辆检测方法
CN1598487A (zh) 人工路标视觉导航方法
CN110222638B (zh) 一种基于素描图候选框策略和Fast R-CNN的飞机目标检测方法
WO2022097814A1 (ko) 3d 라이다의 고속 객체 인식을 위한 채널별 컨볼루션 기반의 합성곱 신경망 구조
CN104964684B (zh) 一种高动态下快速星跟踪方法
CN116310837B (zh) 一种sar舰船目标旋转检测方法及系统
CN109740405B (zh) 一种非对齐相似车辆前窗差异信息检测方法
CN109919973A (zh) 基于多特征联合的多视角目标关联方法、系统及介质
KR102161948B1 (ko) 신경망을 이용한 차량 번호판 인식 기술이 적용된 주차 유도 시스템 및 이의 주차 차량 위치 정보 제공 방법
WO2012077909A2 (ko) 근전도 센서와 자이로 센서를 이용한 지화 인식 방법 및 장치
WO2021201474A1 (ko) 객체를 분류하는 레이더 장치 및 방법
CN111462195B (zh) 基于主线约束的非规则角度方向代价聚合路径确定方法
CN109740618B (zh) 基于fhog特征的试卷分数自动统计方法和装置

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2021540158

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 2020914755

Country of ref document: EP

Effective date: 20210726

NENP Non-entry into the national phase

Ref country code: DE