KR20210040415A - 물체 분류 방법 및 디바이스 - Google Patents

물체 분류 방법 및 디바이스 Download PDF

Info

Publication number
KR20210040415A
KR20210040415A KR1020217006494A KR20217006494A KR20210040415A KR 20210040415 A KR20210040415 A KR 20210040415A KR 1020217006494 A KR1020217006494 A KR 1020217006494A KR 20217006494 A KR20217006494 A KR 20217006494A KR 20210040415 A KR20210040415 A KR 20210040415A
Authority
KR
South Korea
Prior art keywords
modality
feature
sensor
features
unit
Prior art date
Application number
KR1020217006494A
Other languages
English (en)
Other versions
KR102625493B1 (ko
Inventor
율리아 니치
막스 슈미트
Original Assignee
이베오 오토모티브 시스템즈 게엠베하
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 이베오 오토모티브 시스템즈 게엠베하 filed Critical 이베오 오토모티브 시스템즈 게엠베하
Publication of KR20210040415A publication Critical patent/KR20210040415A/ko
Application granted granted Critical
Publication of KR102625493B1 publication Critical patent/KR102625493B1/ko

Links

Images

Classifications

    • G06K9/00805
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • G06K9/4628
    • G06K9/629
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

물체 분류 방법(100)으로서, 피처 추출 유닛(13)을 위해 센서로부터 데이터를 측정하여 제공하는 단계(106)와 상기 피처 추출 유닛(13)에 의한 측정 데이터로부터 모달리티-독립적 피처들을 추출하는 단계(107)를 포함한다. 상기 모달리티-독립적 피처들은 상기 센서의 센서 모달리티와 독립적이고, 상기 모달리티-독립적 피처들로부터 상기 센서의 상시 센서 모달리티를 판단하는 것은 불가능하다.

Description

물체 분류 방법 및 디바이스
본 발명은 물체 분류 방법 및 디바이스에 관한 것이다.
차량의 무인 내비게이션에 사용하려면 차량을 둘러싼 도로 사용자 유형과 주변 지역에 어떤 유형의 인프라가 있는지 아는 것이 중요하다. 즉, 물체를 분류하는 것이 필수적이다. 물체 분류 또는 물체 검출을 위해 다른 센서 모달리티의 측정 데이터를 사용하는 것은 종래 기술로부터 알려져 있다. 이것은 다른 센서 모달리티의 측정 데이터가 주변 영역과 관련된 보완 정보를 부분적으로 제공할 수 있기 때문에 특히 유리하다. 개별 센서의 데이터는 일반적으로 개별적으로 처리되고 따라서 이후에 별도로 분류된다. 이후에만 데이터를 다시 병합하고 추가로 처리 할 수 있다.
종래 기술에 따르면, 측정 데이터에서 추출된 데이터는 추가적으로 모달리티 종속적이므로, 별도의 분류 모듈을 사용할 수 있어야 하고 각 센서 모달리티에 대해 훈련을 받아야 한다. 이는 특히 영상 데이터가 포함되지 않은 경우 극심한 노력과 관련이 있다. 분류 모듈 훈련을 위한 라이더 또는 레이더 데이터 세트의 주석은 시간이 많이 걸리고 오류가 발생하기 쉽기 때문이다. 그 이유는 측정된 데이터를 사람이 이해하기 어렵고 해당 데이터 세트에 주석을 추가하는 사람은 작업을 시작하기 전에 시간이 많이 걸리는 방식으로 교육을 받아야 하기 때문이다. 또한 라이더 및 레이더와 관련하여 사용 가능한 주석 데이터 세트는 영상 데이터 세트에 비해 훨씬 작다.
본 발명은 종래 기술과 비교하여 피처를 분류하기 위한 분류 유닛이 다른 센서 모달리티의 측정 데이터에 대해 별도로 훈련될 필요가 없고 단일 센서 모달리티의 측정 데이터 기반으로 한 번에 훈련할 수 있는 방식으로 물체를 분류하기 위한 디바이스 및 방법을 개선하는 목적에 기초한다.
상술한 목적은 본 발명에 따른 물체 분류 방법에 의해 해결된다. 상기 방법은 피처 추출 유닛을 위해 센서로부터 측정 데이터를 제공하는 것을 포함한다. 상기 방법은 측정 데이터로부터 특히 피처 추출 유닛에 의해 모달리티-독립적 특징들을 추출하는 단계를 더 포함한다. 모달리티 독립적 피처들은 센서의 센서 모달리티와 독립적이므로 센서 모달리티에 대한 판단은 모달리티 독립적 피처에서 불가능하다. 상기 방법은 또한 모달리티 종속적 피처를 추출하는 단계를 추가로 포함할 수 있다.
용어 "Sensormodalitat"는 특히 영어 용어 "센서 모달리티"에 대한 독일어 용어이다. 즉, 센서 모달리티(sensor modality)는 센서 카테고리 또는 센서 유형이다. 따라서 센서들은 특히 센서 모달리티, 즉 센서 유형 또는 센서 카테고리에서 다르다. 특히 센서 모달리티는 측정 데이터가 생성되는 측정 방법을 결정한다. 센서 모달리티는 바람직하게는 라이더(lidar), 레이더(radar), 영상 또는 초음파이다. 이는 바람직하게는 해당 모달리티의 센서가 라이더 센서, 레이더 센서, 영상 센서, 특히 카메라 또는 초음파 센서임을 의미한다.
특히 "피처(features)"라는 용어는 측정 데이터의 특징적 속성을 나타낸다. 특히 측정 데이터를 획득한 센서의 센서 모달리티에 일반적으로 종속되는 것이 특히 소위 "피처"이다. 그러나 모달리티에 독립적 피처들은 측정 데이터를 수집한 센서의 센서 모달리티와 무관하다. 즉, 동일한 물체의 최소 두 가지 센서 모달리티의 측정 데이터에서 모달리티 독립적 피처를 감지 할 수 있다. 따라서 공통 피처들이라고도 한다. 즉, 센서 독립적 피처들이다. 센서의 센서 모달리티에 대한 판단은 모달리티 독립적 피처들을 기반으로 할 수 없다. 모달리티 독립적 피처들은 특히 측정 데이터가 얻어지는 측정 방법의 유형과 무관하다.
즉 상기 방법은 센서의 센서 모달리티와 독립적인 측정 데이터에서 모달리티 독립적 피처들을 추출할 수 있다. 따라서 피처를 분류하기 위한 분류 유닛이 더 이상 각 센서 모달리티에 대해 별도로 제공되고 훈련될 필요가 없다. 서로 다른 센서 모달리티의 모든 측정 데이터에 대해 단일 분류 유닛을 제공하는 것으로 충분하다.
바람직하게는 적어도 제1 및 제2 센서 모달리티가 있으며, 여기서 상기 방법은 제2 측정 모달리티의 센서로부터 측정 데이터를 재구성하는 방식으로 제1 센서 모달리티의 센서로부터의 측정 데이터로부터 모달리티-독립적 피처들을 추출하도록 구성된다. 상기 방법은 바람직하게는, 즉 제1 모달리티의 측정 데이터가 재구성될 수 있는 방식으로 제2 센서 모달리티의 측정 데이터로부터 모달리티-독립적 피처들을 추출하도록 구성된다. 특히 두 개 이상의 센서 모달리티, 특히 세 개 또는 네 개의 센서 모달리티가 있으며, 상기 방법은 각 센서 모달리티의 측정 데이터가 이러한 피처들로부터 재구성될 수 있는 방식으로 모달리티 독립적 피처들을 추출한다.
재구성 가능함은 각 센서 모달리티를 위한 하나의 디코더를 제공할 때, 따라서 제1 센서 모달리티에 대한 하나의 디코더 및 제2 측정 모달리티에 대한 하나의 디코더를 제공할 때, 그들은 모달리티 독립적 피처들로부터 해당 모달리티의 측정 데이터를 생성할 수 있는 것을 의미한다. 예를 들어 제1 센서 모달리티는 라이더이고 제2 모달리티는 영상이다. 피처 추출 유닛은 라이더 측정 데이터에서 모달리티독립적 피처들을 추출할 수 있다. 영상, 즉 제2 센서 모달리티의 측정 데이터는 모달리티 독립적 피처들이 라이더 측정 데이터에서만 발생하더라도 이러한 모달리티에 독립적 피처들로부터 재구성될 수 있다.
센서 모달리티는 바람직하게는 측정 데이터의 유형을 결정하며, 여기서 측정 데이터의 유형은 레이더 측정 데이터, 라이더 측정 데이터, 영상 데이터 또는 초음파 측정 데이터이다.
측정 데이터는 특히 포인트 클라우드(point clouds) 및/또는 영상 데이터 일 수 있다. 포인트 클라우드는 특히 정렬되지 않은 포인트 클라우드이다. 상기 방법은 바람직하게는 각각의 다른 측정 모달리티의 측정 데이터가 재구성될 수 있는 방법으로 포인트 클라우드 및/또는 영상 데이터로부터 모달리티-독립적 피처들을 추출하도록 구성된다. 피처 추출 유닛은 특히 포인트 클라우드 및/또는 영상 데이터로부터 모달리티 독립적 피처들을 추출하도록 구성되어, 각각의 다른 센서 모달리티, 즉 영상 및/또는 포인트 클라우드의 측정 데이터를 모달리티 독립적 피처들로부터 재구성할 수 있다.
특히 센서는 제1 센서 모달리티를 가지며, 이는 바람직하게 센서가 특정 센서 모달리티에 대응함을 의미한다. 센서는 바람직하게는 단일 센서 모달리티만 가질 수 있다.
상기 방법은 특히 측정 데이터, 특히 분류 목적을 위한 측정 데이터의 생성을 포함하며, 이는 후속적으로 피처 추출 유닛으로 전달된다. 측정 데이터는 특히 라이더 측정 데이터이므로 제1 센서 모달리티의 센서는 라이더 센서이다. 측정 데이터를 생성하기 위해, 상기 방법은 특히 라이더 측정 데이터를 생성하기 위해, 특히 복수의 측정 펄스의 전송을 포함한다. 서로 다른 센서 모달리티의 측정 데이터는 특히 동일한 씬(scene)에서 발생한다.
측정 펄스는 특히 광학, 특히 전자기 신호이다. 측정 펄스는 바람직하게는 사람의 눈으로 볼 수 있는 범위에서 발생하지 않는 파장을 갖는다. 안전상의 이유로 보이지 않는 적외선을 사용하는 것이 좋다. 측정 펄스는 바람직하게는 펄스 폭을 가지므로 측정 펄스는 전자기 방사의 시간 제한 부분으로 이해 될 수 있다. 측정 펄스가 전자기 신호이고 측정 펄스의 속도가 알려져 있기 때문에 측정 펄스의 비행 시간으로부터의 빛의 속도를 통해 비행 시간 동안 측정 펄스가 커버한 거리에 대한 결론을 도출할 수 있다.
특히 상기 방법은 복수의 스캔의 수행을 포함한다. 즉, 측정 펄스 또는 일련의 측정 펄스가 서로 다른 방향으로 순차적으로 전송된다. 이 방법은 특히 스캐닝 라이더 방법이다. 측정 펄스를 측정 할 범위로 전송 한 후 각 스캔이 종료되고 새 스캔을 시작할 수 있다. 각 스캔이 완료된 후, 물체를 분류하기 위해 특히 피처 추출 유닛을 통해 측정 데이터에서 모달리티 독립적 피처들을 추출한다.
특히, 상기 방법은 제2 센서 모달리티의 센서로부터 측정 데이터를 생성하는 단계를 포함하며, 여기서 상기 방법은 피처 추출 유닛에 대한 측정 데이터의 제공을 포함한다. 제2 센서 모달리티와 제1 센서 모달리티는 바람직하게는 다르다. 즉, 상기 방법은 바람직하게는 제2 센서 모달리티의 센서로부터의 측정 데이터의 생성뿐만 아니라 제1 센서 모달리티의 센서로부터의 측정 데이터의 생성을 포함하며, 여기서 상기 방법은 피처 추출 유닛에 대한 두 센서 모달리티의 측정 데이터의 제공을 포함한다. 상기 방법은 피처 추출 유닛을 위해 마찬가지로 제공되는 제3 센서 모달리티의 센서로부터 측정 데이터를 생성하는 단계를 더 포함할 수 있다. 제3 센서 모달리티, 제2 센서 모달리티 및 제1 센서 모달리티는 바람직하게는 다르다. 상기 방법은 피처 추출 유닛을 위해 마찬가지로 제공되는 제4 센서 모달리티의 센서로부터 측정 데이터를 생성하는 단계를 더 포함할 수 있다. 제1 센서 모달리티 및/또는 제2 센서 모달리티 및/또는 제3 센서 모달리티 및/또는 제4 센서 모달리티는 라이더, 레이더, 영상 또는 초음파일 수 있다. 특히 센서 모달리티들이 다르다.
따라서, 상기 방법은 특히 다른 센서 모달리티들의 측정 데이터의 생성 및 모달리티 독립적 피처 추출을 포함하고, 분류 유닛을 훈련하기 위해 다른 센서 데이터로 폴백(fall back)할 수 있다는 이점이 있다.
피처 추출 유닛은 바람직하게는 각각의 센서 모달리티에 대한 적어도 하나의 피처 추출기를 포함하고, 피처 추출기는 측정 데이터로부터 피처를 추출한다. 각 경우에 피처 추출 유닛은 특히 측정 데이터를 생성하는 센서의 각 센서 모달리티에 대해 하나의 피처 추출기를 포함한다. 피처 추출 유닛은 특히 제1 센서 모달리티에 대한, 즉 바람직하게는 라이더 측정 데이터에 대한 피처 추출기를 포함하고, 여기서 피처 추출기는 라이더 측정 데이터로부터 라이더 피처를 추출하도록 구성된다.
피처 추출기들에 의해 추출된 피처들은 따라서 하나의 센서 모달리티의 측정 데이터에서만 볼 수 있는 피처들, 즉 모달리티 종속적 피처들뿐만 아니라 여러 센서 모달리티에서 볼 수 있는 피처들, 즉 모달리티 독립적 피처들을 포함한다. 그러나 피처 추출기들은 이러한 피처들을 서로 구별할 수 없다. 즉, 피처 추출기들은 어떤 피처들이 모달리티 종속적이며, 어떤 피처들이 모달리티 독립적인지 알지 못한다.
바람직하게는 피처 추출 유닛은 제2 센서 모달리티 및/또는 제3 센서 모달리티 및/또는 제4 센서 모달리티에 대한 각각에 대응하는 피처 추출기를 보다 바람직하게는 포함하며, 피처 추출기는 대응하는 측정 데이터로부터 피처, 예를 들면 레이더 측정 데이터로부터 대응하는 레이더 피처 또는 영상 데이터로부터 대응하는 영상 피처를 추출하도록 구성된다.
피처 추출기는 특히 "인코더", 바람직하게는 센서 모달리티에 따라 라이더 인코더, 레이더 인코더, 영상 인코더 또는 초음파 인코더이다. 인코더는 바람직하게는 특히 측정 데이터가 라이다 측정 데이터인 경우 포인트 클라우드 인코더 일 수 있다.
각 경우의 피처 추출기들은 특히 뉴럴 네트워크를 포함한다. 피처 추출기들은 특히 뉴럴 네트워크들이다. 바람직하게는 뉴럴 네트워크이 각 센서 모달리티에 사용되며, 이는 그 안에서 감지될 수 있는 피처들을 최적으로 추출한다.
더욱 바람직하게는 피처 추출기는 제2 센서 모달리티를 위해, 즉 바람직하게는 영상 데이터를 위해, 적어도 하나의 콘볼루션 레이어를 포함하는 콘볼루션 뉴럴 네트워크(CNN)을 포함한다. 각 레이어는 다수의 인공 뉴런(neurons)이 포함되어 있다.
CNN의 각 레이어는 콘볼루션 레이어로 구성 할 수 있다. 특히 콘볼루션 레이어는 콘볼루션을 수행한다. 특히 CNN은 적어도 5개, 바람직하게는 적어도 10 개, 특히 적어도 15 개의 레이어를 포함한다.
모든 레이어(마지막 레이어는 제외)는 각각의 경우에 특히 비선형 함수, 특히 소위 ReLU 함수에 의해 활성화된다. 따라서 ReLU 함수는 "Rectified Linear Unit"이다. 즉, 양의 x 값 범위에서는 선형이지만, 음의 x 값 범위에서는 0 인 함수이다. 여기서 x는 뉴런의 입력 값을 나타낸다. 마지막 레이어는 마지막 단계로서 모든 수치를 허용하기 위해 활성화 함수를 가지지 않는 것이 바람직하다.
CNN은 영상, 특히 행렬 형태의 입력을 처리할 수 있다. 마지막 레이어에서 CNN은 직선과 같은 단순한 피처를 추출하며, 네트워크가 깊어질수록 추출되는 피처들이 더 복잡해진다(예 : L 피처, 원 피처, 별 피처, 고차원 피처). 따라서 네트워크의 출력은 특히 벡터 형태의 피처이다. 피처 재변환 유닛의 재생성된 영상 코드와 구분하기 위해 이 영상 코드는 이하 '실제 영상 코드'라고도 한다.
제1 센서 모달리티, 즉 바람직하게는 라이더 측정 데이터를 위한 피처 추출기는 특히 레이어로서 적어도 하나의 "다층 퍼셉트론"(MLP 레이어)을 포함하는 "다층 퍼셉트론"(MLP) 네트워크를 특히 포함한다. 각 레이어에는 다수의 인공 뉴런이 포함되어 있다. 특히 MLP 네트워크는 복수의 MLP 레이어를 포함한다. 모든 MLP 레이어는 바람직하게는 각각의 경우 비선형 함수, 특히 소위 ReLU 함수에 의해 활성화된다. MLP는 바람직하게는 적어도 3개, 특히 적어도 5 개의 층을 가지며, 이는 여러 하위 레이어를 포함할 수 있다.
MLP 네트워크는 비선형 함수, 특히 소위 ReLU 함수에 의해 활성화 될 수도 있는 적어도 하나의 완전히 연결된 레이어를 더 포함할 수 있다.
MLP 네트워크는 포인트 클라우드 형태의 입력을 처리 할 수 있다. 따라서 네트워크의 출력은 특히 벡터 형태의 피처들이다. 출력은 포인트 클라우드 코드라고도한다. 이 포인트 클라우드 코드는 피처 재변환 유닛의 재생성된 포인트 클라우드 코드와 구별하기 위해 이하 '실제 포인트 클라우드 코드'라고도 한다.
더욱 바람직하게는 피처 추출 유닛은 적어도 2개의 피처 추출기의 피처로부터 모달리티 독립적 피처를 추출하는 피처 변환 유닛을 포함한다. 용어 "변환(transfoming)"은 특히 모달리티-독립적 피처의 찾기(finding)로 이해되어야 하며, 여기서 후자는 공통 피처 공간에 저장된다. 즉, 피처가 찾아져서 공통 공간에 표시됩니다. 즉, 피처 변환 유닛는 모달리티에 독립적 피처들을 찾기 위한 유닛로 이해되어야 한다. 피처 추출기가 추출하는 모든 피처는 특히 피처 변환 유닛을 위해 제공되며, 여기서 피처 변환 유닛은 그로부터 모달리티-독립적 피처들을 추출한다.
장점은 모달리티 독립적 피처를 기반으로 더 이상 피처가 발생된 센서의 센서 모달리리에 대한 결론을 도출할 수 없다는 것이다. 추출 및 변환의 결과로 특히 피처 추출 유닛은 모달리티 독립적 피처 벡터를 발행한다. 피처 추출 유닛은 특히 분류 목적을 위해 분류 유닛에 피처 벡터를 제공한다.
피처 변환 유닛은 특히 각 센서 모달리티에 대해 하나의 뉴럴 네트워크로 구성된다. 네트워크는 모달리티 독립적 피처 및 선택적으로 모달리티 종속적 피처를 찾고 공통 피처 공간에 저장하는 목적으로 사용된다. 피처 변환 유닛은 피처, 특히 피처 추출기에서 발생하는 피처 벡터를 입력으로 처리하도록 구성된다.
피처 변환 유닛의 각 뉴럴 네트워크는 특히 적어도 하나의 완전히 연결된 레이어를 포함한다. 바람직하게는, 네트워크는 적어도 2개, 바람직하게는 적어도 3개의 완전히 연결된 레이어를 포함한다. 완전히 연결된 레이어는 바람직하게는 각각의 경우 비선형 함수, 특히 소위 ReLU 함수에 의해 활성화된다. 네트워크는 적어도 하나의 드롭아웃 레이어를 더 포함할 수 있다. 네트워크는 특히 하나의 드롭아웃 레이어가 두 개의 완전히 연결된 레이어 사이에 배열되는 방식으로 설정된다. 네트워크는 특히 5개의 레이어로 구성된다. 따라서 마지막 레이어는 활성화되지 않을 수 있다. 피처 변환 유닛의 다른 센서 모달리티의 모든 뉴럴 네트워크는 특히 동일하게 설정된다.
피처 변환 유닛의 네트워크 출력은 특히 벡터 형태의 모달리티 독립적 피처이다. 피처 변환 유닛은 추가로 모달리티 종속적 피처를 추가로 발행할 수도 있다. 즉, 피처 변환 유닛은 다른 센서 모달리티의 모든 측정 데이터에서 감지할 수 있는 피처, 즉 모든 센서 모달리티 공통인 피처를 찾는다. 이러한 모달리티 독립적 피처가 발행된다. 그러나 하나의 센서 모달리티에서만 나타나는 피처, 즉 모달리티 종속적 피처도 추가로 발행할 수 있다.
제1 센서 모달리티의 뉴럴 네트워크는 특히 모달리티 독립적인 즉 공통 피처들과 선택적으로 라이더-지정 피처들을 발행한다. 제2 센서 모달리티의 뉴럴 네트워크는 특히 모달리티 독립적인 즉 공통 피처들과 선택적으로 영상-지정 피처들을 발행한다. 공통 피처들은 동일한 씬(scene)의 라이더 측정 데이터 및 영상 데이터에 포함된 피처들이다.
출력을 피처 코드라고도 부른다. 네트워크가 모달리티 종속적 피처도 발행하는 경우, 모달리티 종속적 및 모달리티 독립적 피처들이 배열되는 위치, 즉 출력의 색인이 네트워크에 지정될 수 있다. 출력은 따라서 나누어질 수 있다.
구체적인 예로 줄무늬 벽(striped wall)은 라이더 측정 데이터 및 영상 데이터를 사용할 수 있다. 줄무늬는 라이더 측정 데이터에서는 감지할 수 없지만 영상 데이터에서는 감지 할 수 있다. 벽의 깊이 정보에 대해서는 상황이 반대이다. 후자는 라이더 측정 데이터에서 도출될 수 있지만 영상 데이터에서는 도출되지 않는다. 따라서 줄무늬는 영상-특정 피처가 되고, 깊이 정보는 라이더 특정 피처가 된다. 영상 데이터와 라이더 측정 데이터에서 감지 할 수 있는 벽의 윤곽은 공통 피처가 될 것이다.
적어도 하나의 피처 추출기의 추출된 피처는 바람직하게는 벡터, 소위 피처 벡터이다. 특히 각각의 피처 추출기는 특히 벡터의 형태로 피처를 추출하지만, 각각의 경우 센서 모달리티에 따라 별도의 공간에서 추출한다. 즉, 서로 다른 센서 모달리티의 피처들이 별도의 공간에 있다.
피처 변환 유닛은 별도의 공간의 피처들을 소위 피처 공간이라는 공통 공간으로 변환하도록 구성될 수 있다. 피처 공간은 특히 벡터 공간, 바람직하게는 메트릭 공간(metric space)이다.
서로 다른 센서 모달리티로부터 모든 피처들, 즉 모든 피처 추출기들의 출력은 특히 피처 변환 유닛에 제공된다. 후자는 피처들의 제1 부분이 공통 피처 공간에 존재하는 방식으로 피처들을 변환한다. 이러한 공간에는 양 모달리티에서 공통된 피처들이 표시된다. 양 모달리티에서 공통된 이러한 피처들은 모달리티 독립적 피처들, 즉 공통 피처들이다.
또한, 피처의 다른 부분은 각각 모달리티 종속적 또는 모달리티 특정 피처 공간에 다르게 존재할 수 있다. 예를 들어, 제2 부분은 제1 센서 모달리티에 할당 된 피처 공간에 존재하고, 제3 부분은 제2 센서 모달리티에 할당된 피처 공간에 존재한다. 제3 및 제4 센서 모달리티에도 동일하게 적용될 수 있다. 이러한 특별한 공간에는 각각 하나의 특정 모달리티에서만 볼 수 있는 피처들이 포함된다.
바람직하게는, 상기 방법은 피처 추출 유닛, 특히 피처 변환 유닛 및/또는 각각의 피처 추출기의 사전 훈련을 포함 할 수 있다. 용어 "사전(previous)"은 보다 바람직하게는 분류 목적을 위해 측정 데이터를 생성하기 전에 훈련이 수행됨을 의미한다. 이를 위해 적어도 하나의 데이터 세트가 특히 학습 목적을 위해 피처 추출 유닛에 제공된다. 모니터링되지 않는 학습은 특히 적어도 하나의 주석이 없는 데이터 세트를 기반으로 수행된다. 피처 변환 유닛, 바람직하게는 피처 변환 유닛 및/또는 각각의 특징 추출기는 특히 모달리티-독립적 피처들을 학습하기 위해 모니터링되지 않는 학습에 의해 훈련된다.
피처 추출 유닛, 특히 피처 변환 유닛 및/또는 각각의 피처 추출기는 특히 훈련될 수있다. 피처 변환 유닛은 소위 딥 러닝(deep learning)이라고하는 심층 학습을 통해 추가로 훈련될 수 있다.
피처 변환 유닛 및/또는 각각의 피처 추출기는 특히 모니터링되지 않는 학습을 통해 훈련된다. 훈련된 각각의 뉴럴 네트워크는 따라서 학습을 통해 지정된 가중치를 포함한다.
바람직하게는 피처 추출기가 먼저 훈련된다. 인코더라고하는 피처 추출기는 바람직하게는 대응하는 디코더와 함께 훈련된다. 이것은 그들이 서로 다른 유닛의 외부 레이어를 나타내기 때문에 유리하다. 따라서 각 센서 모달리티의 인코더 및 디코더는 다른 센서 모달리티와 별도로 학습되므로 서로 다른 데이터 세트으로 학습될 수 있다. 따라서 특히 여러 센서 모달리티의 측정 데이터를 포함하는 광범위하게 생성된 데이터 세트들에 대한 의존성이 없다.
피처 추출기의 훈련은 입력 제공을 포함한다. 입력은 특히 센서 모달리티에 따라 다르다. 즉, 제1 센서 모달리티를 위한 피처 추출기에 대한 입력은 라이더 측정 데이터, 즉 포인트 클라우드이고, 제2 센서 모달리티에 대한 입력은 영상 데이터이다.
바람직하게 출력으로 피처들을 발행하는 피처 추출기에 입력이 삽입된다. 제1 센서 모달리티의 피처 추출기는 포인트 클라우드 코드를 발행하고, 제2 센서 모달리티의 피처 추출기는 영상 코드를 발행한다. 이 '실제' 코드는 센서 모달리티에 따른 출력을 다시 생성하는 각각의 디코더에 직접 삽입된다. 즉, 제1 센서 모달리티에 대한 디코더는 포인트 클라우드를 다시 생성하는 반면, 제2 센서 모달리티에 대한 디코더는 영상, 특히 그레이 스케일 값 영상을 다시 생성한다.
디코더들의 센서 모달리티별 출력은 각 인코더에 삽입된 각 센서 모달리티별 입력과 비교된다. 디코더의 출력이 인코더에 주어진 입력과 동일해야하는 조건으로 설정된다. 해당 뉴럴 네트워크의 가중치는 이 조건에 기초하여 지정되므로 유사성이 가능한 높다.
바람직하게는, 제2 센서 모달리티에 대한 디코더는 원래 입력 영상의 그레이 스케일 값과 비교되는 "재생성된" 영상의 그레이 스케일 값을 발행한다. 입력으로 컬러 영상이면, 각 픽셀의 R, G, B 값을 단순 합산한 후 3으로 나누어서 입력의 그레이 스케일 값 영상을 생성할 수 있다. 비교를 위해 특히 손실 함수가 사용되어, 디코더의 생성된 그레이 스케일 값 영상의 그레이 스케일 값과 입력의 실제 그레이 스케일 값 영상의 그레이 스케일 값의 "평균 제곱 오차(mean squared error)"를 비교한다. 손실은 0이다.
바람직하게는, 제1 센서 모달리티에 대한 디코더는 피처 추출기에 제공된 포인트 클라우드와 비교되는 "재생성된" 포인트 클라우드를 발행한다. 비교를 위해 포인트 클라우드 간의 챔퍼(chamfer) 거리를 결정하는 것이 바람직하다. 따라서 다른 포인트 클라우드의 가장 가까운 포인트까지의 거리는 바람직하게는 하나의 포인트 클라우드의 각 포인트에 대해 결정된다. 다른 포인트 클라우드의 각 포인트에 대해서도 동일하게 수행된다. 거리들이 합산된다. 모든 거리의 합이 챔퍼 거리이다. 포인트 클라우드가 유사할수록 그것은 더 작아진다. 특히 손실 함수가 사용되어 디코더에서 생성된 포인트 클라우드와 원래 포인트 클라우드 간의 챔퍼 거리를 비교한다. 손실은 0이다.
피처 변환 유닛은 두 번째 단계로 학습할 수 있다. 바람직하게는, 피처 변환 유닛은 재변환 유닛과 함께 훈련된다. 피처 재변환 유닛은 바람직하게는 마찬가지로 각각의 센서 모달리티에 대한 뉴럴 네트워크를 가진다. 훈련 목적을 위해, 다른 센서 모달리티의 대응하는 인코더 및 디코더가 또한 사용되며, 그 시점에서 이미 훈련이 종결되었기 때문에 그 가중치가 지정된다.
피처 재변환 유닛의 뉴럴 네트워크는 적어도 하나의 완전히 연결된 레이어를 가진다. 뉴럴 네트워크는 특히 두 개의 서브 유닛을 가지는데, 모달리티 종속적 피처가 처리되는 유닛 하나와, 모달리티 독립적 피처가 처리될 수 있는 유닛 하나이다.
바람직하게는, 네트워크는 적어도 2개, 바람직하게는 적어도 3개의 완전히 연결된 레이어들을 포함한다. 완전히 연결된 레이어들은 바람직하게는 비선형 함수, 특히 소위 ReLU 함수에 의해 각각 활성화된다. 네트워크는 적어도 하나의 드롭아웃 레이어를 더 포함할 수 있다. 네트워크는 특히 하나의 드롭아웃 레이어가 두 개의 완전히 연결된 레이어 사이에 배열되는 방식으로 설정된다. 마지막 레이어는 활성화가 없다.
피처 변환 유닛을 훈련하기 위해, 센서 모달리티 종속적, 즉 동일한 씬(scene)의 모달리티-특정 입력이 피처 추출기에 각 경우에 제공된다. 즉, 제1 센서 모달리티를 위한 피처 추출기에 대한 입력은 라이더 측정 데이터, 즉 포인트 클라우드이고, 제2 센서 모달리티에 대한 입력은 영상 데이터이다.
출력으로 피처를 발행하는 피처 추출기에 입력이 바람직하게 삽입된다. 제1센서 모달리티의 피처 추출기는 포인트 클라우드 코드를 발행하고, 제2 센서 모달리티의 피처 추출기는 영상 코드를 발행한다. 이러한 코드들은 이제 피처 변환 유닛의 대응하는 뉴럴 네트워크에 삽입되며, 이들로부터 모달리티 독립적 피처 및 선택적으로 모달리티 종속적 피처를 추출한다.
뉴럴 네트워크의 출력은 피처 재변환 유닛의 대응하는 뉴럴 네트워크에 삽입되어, 피처들에서 다시 센서 모달리티 종속적 코드를 생성한다. 즉, 제1 센서 모달리티에 대한 피처 재변환 유닛의 뉴럴 네트워크는 다시 포인트 클라우드 코드를 생성하고, 제2 센서 모달리티에 대한 피처 재변환의 뉴럴 네트워크는 다시 영상 코드를 생성한다.
서로 다른 네트워크 또는 서로 다른 모달리티의 공통 피처들이 각각 동일하다는 것이 주요 조건으로 설정된다. 이를 위해 제1 센서 모달리티에 대한 피처 변환 유닛의 뉴럴 네트워크가 생성한 공통 피처들과 제2 센서 모달리티에 대한 뉴럴 네트워크가 생성한 공통 피처들을 비교한다. 양 모달리티 모두에서 감지 할 수 있는 동일한 피처의 코사인 유사성은 특히 0과 같다. 이것은 공통 피처들을 발견하는 목적으로 사용된다.
피처 재변환 유닛의 각 뉴럴 네트워크의 코드는 해당 피처 추출기의 '실제'코드, 즉 피처 추출기의 출력과 더 비교된다. 순방향 변환과 역변환이 동일한 코드, 즉 동일한 피처를 수신하는 것이 첫 번째 단계에서 2차 조건으로 설정된다. 즉, 평균 제곱 오차가 0이라는 것이 2차 조건으로 지정된다. 이것은 특히 피처 변환 유닛에 대한 뉴럴(neural)의 초기 가중치를 학습하는 목적으로 사용된다.
바람직하게는, 손실 함수가 사용되며, 이는 첫 번째, 바람직하게는 적어도 100, 최대 300, 가장 바람직하게는 200 에포크(epochs)에서 다음 조건을 가진다 :
● 두 모달리티의 공통 피처들의 코사인 유사성
● 피처 추출기의 '실제 영상 코드'와 피처 재변환 유닛의 재변환된 영상 코드 사이의 평균 제곱 오차
● 피처 추출기의 '실제 포인트 클라우드 코드'와 피처 재변환 유닛의 재변환된 포인트 클라우드 코드 간의 평균 제곱 오차
위에서 언급 한 조건의 공통 손실이 결정되며, 이는 0과 같으며, 가중치를 조정하여 최적화된다.
두 번째 단계에서, 피처 재변환 유닛의 뉴럴 네트워크의 출력은 각 디코더에 삽입되고, 다음으로 디코더의 출력은 피처 추출기에 삽입된 입력과 비교된다. 주요 조건은 더 이상 피처 또는 코드의 ID(identity)가 아니라 피처 추출기의 원래 모달리티 종속적 입력 및 디코더 출력의 ID를 나타낸다.
바람직하게는, 제2 센서 모달리티에 대한 디코더는 원래 입력 영상의 그레이스케일 값과 비교되는 "재생성된" 영상의 그레이스케일 값을 발행한다. 비교를 위해, 디코더의 생성된 그레이스케일 값 영상의 그레이스케일 값과 입력의 실제 그레이스케일 값 영상의 그레이스케일 값의 "평균 제곱 오차"가 비교된다.
바람직하게는, 제1 센서 모달리티에 대한 디코더는 포인트 클라우드와 비교되는 "재생성된" 포인트 클라우드를 발행한다. 비교를 위해 챔퍼 거리를 결정하는 것이 바람직하다.
다음 조건은 마지막, 바람직하게는 최소 100, 최대 300, 가장 바람직하게는 200, 에포크에 설정된다.
● 두 모달리티의 공통 피처의 코사인 유사성
● '실제 영상 데이터'와 생성된 영상 데이터 간의 평균 제곱 오차
● '실제 포인트 클라우드'와 생성 된 포인트 클라우드 간의 챔퍼 거리
위에서 언급한 조건의 공통 손실이 결정되고 가중치를 조정하여 최적화된다.
특히, 상기 방법은 분류 유닛에 의해, 피처 추출 유닛으로부터 수신된 피처 벡터의 모달리티-독립적 피처의 분류를 포함한다. 특히 상기 방법은 측정 데이터가 생성되고 제공되는 모든 센서 모달리티의 센서의 모든 피처들을 분류하기 위해 단일 분류 유닛을 사용한다. 특히 상기 방법은 각 센서 모달리티에 대해 별도의 분류 유닛을 사용하는 것을 포함하지 않는다.
상기 방법은 모니터링된 학습에 의한 분류 유닛의 사전 훈련을 더 포함 할 수 있다. 이를 위해 학습을 위한 적어도 하나의 데이터 세트가 특히 분류 유닛에 제공된다. 분류 유닛은 특히 주석이 달린 영상 데이터를 기반으로 훈련된다. 용어 "사전(previous)"은 더 바람직하게는 분류 목적을 위해 측정 데이터를 생성하기 전에 훈련이 수행됨을 의미한다. 분류 유닛은 모달리티 독립적 피처들을 분류하기 위해 특히 모니터링 학습을 통해 훈련된다.
주석이 달린 영상 데이터 세트에 기초한 분류 유닛의 훈련은 특히 주석이 달린 영상 데이터 세트가 현재 가장 많은 양의 주석이 달린 데이터를 차지하기 때문에 특히 유리하다. 피처 추출 유닛이 센서 모달리티에 독립적인 모달리티 독립적 피처를 추출하도록 구성되어 있기 때문에 단일 센서 모달리티의 데이터 세트를 기반으로 훈련된 단일 분류 유닛을 사용할 수 있다. 분류 유닛은 주석이 달린 영상 데이터 세트를 사용하여 학습하는 것이 바람직했지만, 추출된 피처의 모달리티 독립성을 기반으로 라이더 측정 데이터를 사용하여 학습된 적이 없는 경우에도 마찬가지로 라이더 측정 데이터에서 피처를 분류할 수 있다. 이것은 종래 기술에 비해 본 방법의 중요한 이점을 나타낸다.
상기 방법은 특히 피처 추출 유닛으로부터 분류 유닛으로 적어도 하나의 피처 벡터의 전송을 포함한다. 이 피처 벡터는 모달리티 독립적 피처만 포함하거나 추가적으로 모달리티 종속적 피처를 포함할 수 있다. 분류는 수신된 피처 벡터를 각 클래스에 대한 각각 사전에 지정된 평균 피처 벡터와 비교하는 것을 포함하며, 대응하는 클래스 라벨은 사전에 지정된 편차 한계 아래로 떨어질 때 발행된다.
분류 유닛의 훈련은 특히 클래스 결정을 포함할 수 있다. 특히 분류 유닛은 훈련 목적으로 분류 유닛에 제공된 적어도 하나의 데이터 세트를 기반으로 훈련이 완료된 후 소위 클래스 라벨을 할당하는 클래스를 결정한다. 예를 들어 한 클래스는 자동차와 관련될 수 있고 다른 클래스는 보행자와 관련될 수 있다.
훈련 목적을 위한 적어도 하나의 데이터 세트는 바람직하게는 복수의 피처 벡터를 포함하고, 복수의 피처 벡터는 각 클래스에 할당될 수 있다. 훈련은 각 클래스에 대한 평균 피처 벡터의 결정을 더 포함할 수 있다. 클래스의 평균 피처 벡터는 특히 이 클래스의 피처 벡터를 평균화하여 결정된다. 상기 방법은 평균 피처 벡터들의 저장을 포함한다.
상기 방법은 특히 피처 추출 유닛으로부터 분류 유닛으로의 분류 유닛에 의해 분류될 적어도 하나의 피처 벡터의 전송을 포함할 수 있다. 우선, 피처 벡터의 처리는 특히 분류 유닛에 의해 이루어진다. 결과적으로 처리된 피처 벡터, 특히 병목 벡터(bottle neck vector)가 수신된다. 이 처리는 특히 서로 다른 클래스 간에 더 명확한 구분선을 감지할 수 있도록 하는데 사용된다.
특히 분류 유닛은 뉴럴 네트워크를 포함하고, 후자는 바람직하게는 적어도 3 개, 바람직하게는 적어도 4개, 특히 5개의 레이어를 포함한다. 특히 뉴럴 네트워크는 적어도 하나의 완전히 연결된 레이어를 포함한다. 바람직하게는, 네트워크는 적어도 2개, 바람직하게는 적어도 3개의 완전히 연결된 레이어를 포함한다. 완전히 연결된 레이어는 바람직하게는 각각의 경우 비선형 함수, 특히 소위 ReLU 함수에 의해 활성화된다. 네트워크는 특히 5개의 레이어로로 구성된다. 따라서 마지막 레이어는 활성화되지 않는다. 마지막 레이어는 병목 벡터라고 한다.
분류 유닛의 뉴럴 네트워크는 피처 벡터들을 처리하는 역할을 한다. 그 결과, 병목 벡터가 바람직하게 수신된다.
분류 유닛은 결정 모듈을 더 포함할 수 있으며, 여기서 후자는 수신된 피처 벡터와 평균 피처 벡터 사이의 비교를 수행한다. 평균 피처 벡터는 특히 평균 병목 벡터이다.
수정된 피처 벡터는 특히 평균 피처 벡터와 비교된다. 따라서 평균 피처 벡터는 분류 유닛에 대해 특정한 훈련된 지식을 나타낸다.
비교 목적을 위해, 수신된 피처 벡터, 바람직하게는 처리된 피처 벡터와 평균 피처 벡터 사이의 코사인 유사성은 각 경우에 특히 결정된다. 소위 임계값이라고하는 편차 한계는 특히 미리 지정된다. 이것은 특정 클래스가 감지되거나 이 클래스에 대해 클라스 라벨이 더 이상 할당되지 않는 편차에서 시작하는 유사성을 지정하는 목적을 제공한다. 평균 피처 벡터가 편차 한계 아래로 떨어지면 해당 클래스 라벨이 발행된다. 즉, 클래스의 평균 피처 벡터와 충분히 유사할 경우 분류 모듈은이 클래스의 물체를 감지하여 해당 클래스 라벨을 발행한다.
평균 피처 벡터에서 사전에 지정된 모든 편차 한계를 초과하면 결정 모듈은 결과적으로 클래스들의 물체가 감지되지 않았음을 발행할 수 있다. 특히 클래스 라벨이 발행되지 않는다. 비교 및 발행은 특히 분류 유닛의 결정 모듈을 통해 수행된다. 따라서 결정 모듈은 분류 유닛의 특정 지식으로부터 편차에 대해 클래스 라벨을 발행할지 여부를 결정한다.
본 발명은 전술한 물체 분류 방법을 포함하는 광학 거리 측정 방법을 더 포함한다.
광학 거리 측정은 특히 광학 신호를 사용하여 광학 측정 펄스를 사용하여 거리가 결정되는 것을 특징으로 한다. 용어 "거리(distance)"는 범위(range)로 이해되어야 한다. 측정 펄스에 의해 커버되는 거리는 측정 펄스를 전송하는 상기 방법을 수행하는 디바이스와 그것을 반사한 물체 사이의 경로에 물체와 대응하는 반사된 측정 펄스를 수신한 디바이스 사이의 경로를 더한 것으로 이해되어야 한다. 각 경우에 반사된 측정 펄스는 전송된 측정 펄스의 후방 산란 신호를 나타낸다. 즉, 물체에 반사된 측정 펄스는 전송 유닛을 통해 미리 전송된 측정 펄스들이다. 광학 거리 측정은 바람직하게는 비행 시간 원리(time-of-flight principle)를 기초로 한다.
물체 분류 방법 및/또는 거리 측정 방법은 특히 무인 차량을 네비게이팅(navigating)하는 데 사용된다.
또 다른 측면에서, 본 발명은 물체를 분류하기 위한 전술한 방법을 수행하도록 구성된 물체를 분류하기 위한 디바이스를 포함한다.
상기 디바이스는 특히 전송 유닛과 수신 유닛을 포함한다. 특히, 각각의 경우에 수신 유닛은 각 센서 모달리티에 대해 적어도 하나의 센서를 포함하고, 전송 유닛은 각각의 경우에 각각의 센서 모달리티의 측정 데이터를 생성하기 위한 신호를 전송하기 위한 대응하는 전송 모듈을 가질 수 있다.
특히 상기 디바이스는 제1 센서 모달리티의 센서, 바람직하게는 제2 센서 모달리티의 센서, 및/또는 제3 센서 모달리티의 센서, 및/또는 제4 센서 모달리티의 센서를 포함한다. 따라서, 상기 디바이스는 특히 적어도 2개의 센서 모달리티, 바람직하게는 3개 또는 4개의 센서 모달리티의 측정 데이터를 생성하도록 구성된다.
상기 디바이스는 특히 스캐닝 라이더 센서이고, 후자는 바람직하게는 다른 센서 모달리티의 추가 센서를 포함 할 수 있다. 상기 디바이스는 특히 전술한 거리 측정 방법을 수행하도록 구성될 수 있다.
상기 디바이스는 피처 추출 유닛을 추가로 포함하며, 이는 차례로 사용된 센서의 각 센서 모달리티에 대해 하나의 피처 추출기를 가진다. 피처 추출 유닛은 피처 추출기의 추출된 피처로부터 모달리티-독립적 피처 및 선택적으로 모달리티-종속적 피처를 추출하기 위한 피처 변환 유닛을 더 포함한다. 피처 변환 유닛은 특히 모니터링되지 않는 학습에 의해 훈련되고, 분류 유닛은 특히 모니터링된 학습에 의해 훈련된다.
상기 디바이스는 특히 무인 차량을 네비게이팅하는데 사용된다.
본 발명은 또한 컴퓨터의 메모리에 로드된 후 컴퓨터가 전술한 물체 분류 및/또는 거리 측정 방법을 선택적으로 상기 디바이스와 함께 수행할 수 있도록 하는 프로그램이 저장되는 컴퓨터 판독 가능 저장 매체를 포함하는 컴퓨터 프로그램 제품을 포함한다.
본 발명은 또한 컴퓨터의 메모리에 로드된 후 컴퓨터가 전술한 물체 분류 및/또는 거리 측정 방법을 선택적으로 상기 디바이스와 함께 수행할 수 있도록 하는 프로그램이 저장되는 컴퓨터 판독 가능 저장 매체를 포함한다.
즉 상기 방법은 센서의 센서 모달리티와 독립적인 측정 데이터에서 모달리티 독립적 피처들을 추출할 수 있다. 따라서 피처를 분류하기 위한 분류 유닛이 더 이상 각 센서 모달리티에 대해 별도로 제공되고 훈련될 필요가 없다. 서로 다른 센서 모달리티의 모든 측정 데이터에 대해 단일 분류 유닛을 제공하는 것으로 충분하다.
도 1은 본 발명에 따른 방법의 프로세스 다이어그램이다.
도 2는 본 발명에 따른 디바이스이다.
도 3은 피처 추출 유닛의 개략도이다.
도 4는 피처 추출기를 훈련하기 위한 제 1 및 제 2 센서 모달리티에 대한 피처 추출기 및 디코더이다.
도 5는 피처 추출 유닛, 피처 재변환 유닛, 및 피처 변환 유닛을 트레이닝하기 위한 디코더를 포함하는 피처 변환 유닛을 훈련하기 위한 어셈블리이다.
본 발명에 따른 방법(100)의 프로세스 다이어그램이 도 1에 예시되어 있다.
본 발명에 따른 방법(100)은 바람직하게는 피처 추출기들의 사전 훈련(112) 및 피처 추출 유닛(13)의 피처 변환 유닛(17)의 사전 훈련(101)을 포함할 수 있다. 더욱 바람직하게는, 본 발명에 따른 방법(100)은 분류 유닛(18)의 사전 훈련(102)을 포함할 수 있다.
분류 유닛(18)의 훈련(102)은 특히 훈련 목적을 위해 분류 유닛(18)에 제공된 적어도 하나의 데이터 세트에 기초한 클래스의 결정(102a)을 포함할 수 있다. 훈련이 완료된 후 분류 유닛(18)이 소위 클래스 레이블(class labels)을 할당하기 위한 클래스가 결정된다. 훈련(102)은 식별(102b) 및 각 클래스에 대한 평균 피처 벡터의 저장을 더 포함할 수 있다.
상기 방법은 특히 피처 추출 유닛에 대한 측정 데이터의 제공(106)을 포함한다. 특히, 상기 방법은 미리 제1 센서 모달리티의 센서로부터 측정 데이터 생성(103), 더 바람직하게는 마찬가지로 제2 센서 모달리티의 센서로부터 측정 데이터 생성(104) 및/또는 제3 센서 모달리티의 센서로부터 측정 데이터 생성(105)을 포함 할 수 있다. 단계 103 내지 105는 바람직하게는 동시에 수행 될 수 있다. 특히 상기 방법은 스캔의 수행을 포함하며, 스캔이 완료된 후 모든 센서 모달리티의 측정 데이터를 이용할 수 있으며 피처 추출 유닛(13)에 제공될 수 있다.
상기 방법은 모달리티 독립적 피처의 추출(107)을 추가로 포함한다. 이를 위해, 피처들은 바람직하게는 각각의 피처 추출기에 의해 추출된다(108). 피처 변환 유닛(17)에 의해 적어도 2개의 피처 추출기의 피처들로부터 모달리티 독립적 피처들이 추출된다(109). 상기 방법은 분류 유닛(18)에 의한 모달리티-독립적 피처의 분류(110)를 더 포함할 수 있어서, 물체 분류(111)가 수행될 수 있다.
분류(110)는 적어도 하나의 피처 벡터가 피처 추출 유닛(13)에서 분류 유닛 (18)으로 전송(110a)되는 것을 포함 할 수 있으며, 분류 유닛(18)은 바람직하게는 피처 벡터를 처리한다(110b). 그 결과, 병목 벡터(bottle neck vector)가 바람직하게 수신된다. 수신된 또는 바람직하게는 수정된 피처 벡터는 각각의 경우에 이전에 결정된 평균 피처 벡터들과 비교된다(110c). 비교를 위해 평균 피처 벡터들에 대한 편차 한계(deviation limits)를 추가로 지정할 수 있다(110d). 피처 벡터와 평균 피처 벡터 사이의 각각의 코사인 유사성은 바람직하게 결정된다(110e). 이전에 지정된 편차 한계 중 하나 아래로 떨어지면, 특히 해당 클래스 레이블의 발행(110f)이 발생하는 반면, 이전에 지정된 편차 한계를 모두 초과하면 클래스들의 물체가 감지되지 않은 것의 발행(110g)이 발생한다. 이것은 특히 분류 유닛(18)의 결정 모듈(18a)에 의해 발생한다.
도 2는 본 발명에 따른 디바이스(10)의 개략도이다. 디바이스(10)는 전송 유닛(11) 및 수신 유닛(12)을 포함한다. 특히, 각각의 경우에 수신 유닛(12)은 각 센서 모달리티에 대해 적어도 하나의 센서를 포함하고, 여기서 전송 유닛(11)은 각각의 경우에 측정 데이터 생성에 대응하는 각 센서 모달리티의 측정 데이터를 생성하기 위한 신호를 전송하기 위한 전송 모듈을 가질 수 있다. 예를 들어, 전송 유닛(11)은 각각의 경우에 라이더 및 레이더 측정 데이터를 전송하기 위한 소스를 가질 수 있다.
수신 유닛(12)에서 수신된 측정 데이터는 피처 추출 유닛(13)에 제공된다. 피처 추출 유닛(13)은 제1 센서 모달리티의 센서로부터 측정 데이터를 위한 피처 추출기(14), 제2 센서 모달리티의 센서로부터 측정 데이터를 위한 피처 추출기(15) 및 제3 센서 모달리티의 센서로부터 측정 데이터를 위한 피처 추출기(16)를 포함한다. 각각의 피처 추출기(14, 15, 16)는 피처를 추출하여 피처 변환 유닛(17)에 제공하고, 피처 변환 유닛(17)은 그로부터 모달리티 독립적 피처들을 생성한다. 상기 디바이스는 또한 피처 변환 유닛(17)의 모달리티 독립적 피처들을 분류하는 분류 유닛(18)을 가진다. 분류 유닛(18)은 결정 모듈(18a)을 포함한다.
피처 추출 유닛(13)의 개략적 예시가 도 3에 도시되어 있다. 피처 추출 유닛 (13)은 제1 센서 모달리티의 센서로부터 측정 데이터를 위한 피처 추출기(14) 및 제2 센서 모달리티의 센서로부터 측정 데이터를 위한 피처 추출기(15)를 포함한다.
피처 추출기들은 모달리티 종속적 입력을 수신한다(19). 제1 센서 모달리티의 측정 데이터를 위한 피처 추출기(14)는 제1 센서 모달리티의 측정 데이터로부터, 즉 라이더 포인트 클라우드(21)로부터 포인트 클라우드 코드(23)를 생성하도록 구성된다. 제2 센서 모달리티의 측정 데이터를 위한 피처 추출기(15)는 제2 센서 모달리티의 측정 데이터로부터, 즉 영상 데이터(20)로부터 영상 코드(22)를 생성하도록 구성된다.
피처 추출 유닛(13)은 피처 변환 유닛(17)을 더 포함한다. 피처 변환 유닛 (17)은 제1 센서 모달리티의 측정 데이터를 위한 뉴럴 네트워크(17a)과 제2 센서 모달리티의 측정 데이터를 위한 뉴럴 네트워크(17b)을 포함한다. 그들은 입력으로 피처 추출기들의 각 코드를 수신한다.
피처 변환 유닛(17)은 모달리티 독립적 피처들(24)을 검출하도록 구성된다. 그들은 공통 피처 공간(26)에 존재한다. 피처 변환 유닛(17)은 자신의 피처 공간들, 즉 제1 센서 모달리티의 모달리티 종속적 피처들을 위한 피처 공간(27) 및 제2 센서 모달리티의 모달리티 종속적 피처들을 위한 피처 공간(28)에서 존재하는 모달리티 독립적 피처들(25)을 발행할 수 있다.
도 4에는 제1 센서 모달리티에 대한 피처 추출기(14) 및 디코더(30), 피처 추출기를 훈련하기 위한 제2 센서 모달리티에 대한 피처 추출기(15) 및 디코더 (31)가 도시되어 있다. 제1 센서 모달리티에 대한 디코더(30)는 피처 추출기(14)를 훈련하기 위한 피처 추출기(14)의 모달리티 종속적 입력(19)과 비교되는 출력 (30a), 즉 포인트 클라우드를 발행한다. 제2 센서 모달리티에 대한 디코더(31)는 피처 추출기(15)를 훈련하기 위한 피처 추출기(15)의 모달리티 종속적 입력(19)과 비교되는 출력(31a), 즉 영상 데이터를 발행한다.
도 5는 도 3에 따른 피처 추출 유닛(13), 피처 재변환 유닛(29) 및 디코더, 즉, 제 1 센서 모달리티를 위한 디코더(30) 및 제2 센서 모달리티를 위한 디코더(31)를 포함하는 피처 변환 유닛 (17)을 훈련하기위한 어셈블리를 나타낸다. 피처 재변환 유닛(29)은 제1 센서 모달리티에 대한 뉴럴 네트워크(29a) 및 제2 센서 모달리티에 대한 뉴럴 네트워크(29b)을 포함한다. 입력으로서, 그들은 모달리티 독립접 피처들(24) 및 선택적으로 피처 변환 유닛(17)의 모달리티 종속적 피처들(25)을 수신한다.
특징 재변환 유닛(29)은 입력으로부터 코드, 즉 영상 코드(32) 및 포인트 클라우드 코드(33)를 다시 생성하도록 구성된다. 각각의 디코더는 해당 코드로부터 모달리티 종속적 데이터를 다시 생성할 수 있다. 제2 센서 모달리티에 대한 디코더 (31)는 재생성된 영상 데이터에 대응하는 출력(31a)을 생성한다. 제1 센서 모달리티에 대한 디코더(30)는 재생성된 라이더 포인트 클라우드에 대응하는 출력(30a)을 생성한다.
피처 변환 유닛(17)을 훈련하기 위해, 모달리티 독립적 피처(24)의 유사성뿐만 아니라 재생성된 모달리티 종속적 데이터의 유사성과 재생성된 코드의 유사성을 고려한다.
뉴럴 네트워크의 예
제2 센서 모달리티를 위한 피처 추출기는 다음과 같이 설정할 수 있다.
● 입력 ← 영상 (배치 사이즈(batch size) x 192 x 256 x 3)
● 레이어 1 : 콘볼루션 레이어
o 커널 사이즈 : 3x3
o 스트라이드(stride) : 1x1
o 출력 피처 맵 수 : 16
o 활성화 함수(activation function) : ReLU(rectified linear unit)
o 배치 정규화(batch normalization)
o 패딩(padding) : 제로 패딩
● 레이어 2 : 콘볼루션 레이어
o 커널 사이즈 : 3x3
o 스트라이드 : 1x1
o 출력 피처 맵 수 : 16
o 활성화 함수 : ReLU
o 배치 정규화
o 패딩 : 제로 패딩
● 레이어 3 : 콘볼루션 레이어
o 커널 사이즈 : 3x3
o 스트라이드 : 2x2
o 출력 함수 맵 수 : 32
o 활성화 함수 : ReLU
o 배치 정규화
o 패딩 : 제로 패딩
● 레이어 4 : 콘볼루션 레이어
o 커널 사이즈 : 3x3
o 스트라이드 : 1x1
o 출력 함수 맵 수 : 32
o 활성화 함수 : ReLU
o 배치 정규화
o 패딩 : 제로 패딩
● 레이어 5 : 콘볼루션 레이어
o 커널 사이즈 : 3x3
o 스트라이드 : 1x1
o 출력 함수 맵 수 : 32
o 활성화 함수 : ReLU
o 배치 정규화
o 패딩 : 제로 패딩
● 레이어 6 : 콘볼루션 레이어
o 커널 사이즈 : 3x3
o 스트라이드 : 2x2
o 출력 함수 맵 수 : 64
o 활성화 함수 : ReLU
o 배치 정규화
o 패딩 : 제로 패딩
● 레이어 7 : 콘볼루션 레이어
o 커널 사이즈 : 3x3
o 스트라이드 : 1x1
o 출력 함수 맵 수 : 64
o 활성화 함수 : ReLU
o 배치 정규화
o 패딩 : 제로 패딩
● 레이어 8 : 콘볼루션 레이어
o 커널 사이즈 : 3x3
o 스트라이드 : 1x1
o 출력 함수 맵 수 : 64
o 활성화 함수 : ReLU
o 배치 정규화
o 패딩 : 제로 패딩
● 레이어 9 : 콘볼루션 레이어
o 커널 사이즈 : 3x3
o 스트라이드 : 2x2
o 출력 함수 맵 수 : 128
o 활성화 함수 : ReLU
o 배치 정규화
o 패딩 : 제로 패딩
● 레이어 10 : 콘볼루션 레이어
o 커널 사이즈 : 3x3
o 스트라이드 : 1x1
o 출력 함수 맵 수 : 128
o 활성화 함수 : ReLU
o 배치 정규화
o 패딩 : 제로 패딩
● 레이어 11 : 콘볼루션 레이어
o 커널 사이즈 : 3x3
o 스트라이드 : 1x1
o 출력 함수 맵 수 : 128
o 활성화 함수 : ReLU
o 배치 정규화
o 패딩 : 제로 패딩
● 레이어 12 : 콘볼루션 레이어
o 커널 사이즈 : 5x5
o 스트라이드 : 2x2
o 출력 함수 맵 수 : 256
o 활성화 함수 : ReLU
o 배치 정규화
o 패딩 : 제로 패딩
● 레이어 13 : 콘볼루션 레이어
o 커널 사이즈 : 3x3
o 스트라이드 : 1x1
o 출력 함수 맵 수 : 256
o 활성화 함수 : ReLU
o 배치 정규화
o 패딩 : 제로 패딩
● 레이어 14 : 콘볼루션 레이어
o 커널 사이즈 : 3x3
o 스트라이드 : 1x1
o 출력 함수 맵 수 : 256
o 활성화 함수 : ReLU
o 배치 정규화
o 패딩 : 제로 패딩
● 레이어 15 : 콘볼루션 레이어
o 커널 사이즈 : 5x5
o 스트라이드 : 2x2
o 출력 함수 맵 수 : 512
o 활성화 함수 : ReLU
o 배치 정규화
o 패딩 : 제로 패딩
● 레이어 16 : 콘볼루션 레이어
o 커널 사이즈 : 3x3
o 스트라이드 : 1x1
o 출력 함수 맵 수 : 512
o 활성화 함수 : ReLU
o 배치 정규화
o 패딩 : 제로 패딩
● 레이어 17 : 콘볼루션 레이어
o 커널 사이즈 : 3x3
o 스트라이드 : 1x1
o 출력 함수 맵 수 : 256
o 활성화 함수 : ReLU
o 배치 정규화
o 패딩 : 제로 패딩
● 계층 18 : 회선 계층
o 커널 사이즈 : 3x3
o 스트라이드 : 1x1
o 출력 함수 맵 수 : 256
o 활성화 함수 : ReLU
o 배치 정규화
o 패딩 : 제로 패딩
● 레이어 19 : 콘볼루션 레이어
o 커널 사이즈 : 5x5
o 스트라이드 : 2x2
o 출력 함수 맵 수 : 128
o 활성화 함수 : 없음
o 배치 정규화
o 패딩 : 제로 패딩
● 출력 : 배치 사이즈 x 코드 (= 배치 사이즈 x 1536)
피처 추출기를 훈련하기 위한 대응하는 디코더는 다음과 같이 설정할 수 있다.
● 입력 ← 배치 사이즈 x 코드
● 레이어 1 : 배치 사이즈 x 3 x 4 x 128로 리쉐이프(reshape)
● 레이어 2 : '전치 콘볼루션(transposed convolution)'= 학습된 업샘플링(learned upsampling)
o 커널 사이즈 : 5x5
o 패딩 : 제로 패딩
o 스트라이드 : 2x2
o 피처 맵 : 256
o 활성화 함수 : ReLU
● 레이어 3 : 콘볼루션
o 커널 사이즈 : 3x3
o 패딩 : 제로 패딩
o 스트라이드 : 1x1
o 피처 맵 : 256
o 활성화 함수 : ReLU
● 레이어 4 : 콘볼루션
o 커널 사이즈 : 3x3
o 패딩 : 제로 패딩
o 스트라이드 : 1x1
o 피처 맵 : 512
o 활성화 함수 : ReLU
● 레이어 5 : '전치 콘볼루션'
o 커널 사이즈 : 5x5
o 패딩 : 제로 패딩
o 스트라이드 : 2x2
o 피처 맵 : 512
o 활성화 함수 : ReLU
● 레이어 6 : 콘볼루션
o 커널 사이즈 : 3x3
o 패딩 : 제로 패딩
o 스트라이드 : 1x1
o 피처 맵 : 256
o 활성화 함수 : ReLU
● 레이어 7 : 콘볼루션
o 커널 사이즈 : 3x3
o 패딩 : 제로 패딩
o 스트라이드 : 1x1
o 피처 맵 : 256
o 활성화 함수 : ReLU
● 레이어 8 : '전치 콘볼루션'
o 커널 사이즈 : 5x5
o 패딩 : 제로 패딩
o 스트라이드 : 2x2
o 피처 맵 : 256
o 활성화 함수 : ReLU
● 레이어 9 : 콘볼루션
o 커널 사이즈 : 3x3
o 패딩 : 제로 패딩
o 스트라이드 : 1x1
o 피처 맵 : 128
o 활성화 함수 : ReLU
● 레이어 10 : '전치 콘볼루션'
o 커널 사이즈 : 5x5
o 패딩 : 제로 패딩
o 스트라이드 : 2x2
o 피처 맵 : 128
o 활성화 함수 : ReLU
● 레이어 11 : 콘볼루션
o 커널 사이즈 : 3x3
o 패딩 : 제로 패딩
o 스트라이드 : 1x1
o 피처 맵 : 64
o 활성화 함수 : ReLU
● 계층 12 : '전치 콘볼루션'
o 커널 사이즈 : 5x5
o 패딩 : 제로 패딩
o 스트라이드 : 2x2
o 피처 맵 : 64
o 활성화 함수 : ReLU
● 레이어 13 : 콘볼루션
o 커널 사이즈 : 3x3
o 패딩 : 제로 패딩
o 스트라이드 : 1x1
o 피처 맵 : 32
o 활성화 함수 : ReLU
● 레이어 14 : '전치 콘볼루션'
o 커널 사이즈 : 3x3
o 패딩 : 제로 패딩
o 스트라이드 : 2x2
o 피처 맵 : 32
o 활성화 함수 : ReLU
● 레이어 15 : 콘볼루션
o 커널 사이즈 : 3x3
o 패딩 : 제로 패딩
o 스트라이드 : 1x1
o 피처 맵 : 1
o 활성화 함수 : 없음
● 출력 : 배치 사이즈x192x256x1(=입력 영상의 그레이스케일 값 영상)
"전치 콘볼루션"이라는 용어는 따라서 수학적 의미에서 행렬의 전치로 이해되어서는 안되며, 업샘플링이 훈련된다. 즉, 원래 영상 크기로 '확대(zooming)'가 훈련된다.
피처 추출기와 디코더의 훈련은 다음 파라미터에 의해 결정될 수 있다.
● 옵티마이저(optimizer) : AdamOptimizer
● 학습률(learning rate) : 0.0001
o 지수적 감쇠(exponential decay) : 계단(staircase)
■ 학습률이 계단 함수처럼 감소한다. 200000 단계 후에는 최소 0.00001에 도달 할 때까지 절반으로 감소한 후 일정하게 유지된다.
● 배치 사이즈 : 32
● 모든 변수 초기화 : Xavier 초기화
● 손실 함수(loss function) : 평균 제곱 오차(mean squared error)
● 학습할 총 에포크(epoch) : 550
제1 센서 모달리티에 대한 피처 추출기는 다음과 같이 설정할 수 있다.
● 입력 ← 배치 사이즈 x 2048 x 3
● 레이어 0 :
o 레이어 0.1 : 다층 퍼셉트론(MLP)
■ 함수 수 : 64
■ 커널 1x3
■ 배치 정규화
■ 활성화 함수 : ReLU
o 레이어 0.2 : MLP
■ 함수 수 : 128
■ 커널 1x1
■ 배치 정규화
■ 활성화 함수 : ReLU
o 레이어 0.3 : MLP
■ 함수 수 : 1024
■ 커널 1x1
■ 배치 정규화
■ 활성화 함수 : ReLU
o 레이어 0.4 : 완전히 연결됨
■ 출력 : 512
■ 배치 정규화
■ 활성화 함수 : ReLU
o 레이어 0.5 : 완전히 연결됨
■ 출력 : 256
■ 배치 정규화
■ 활성화 함수 : ReLU
o 레이어 0.5 : 완전히 연결됨
■ 출력 : 9
■ 활성화 함수 없음
■ 0으로 변수 초기화
o 레이어 0.6 : 단위 행렬 추가 [1 0 0 0 1 0 0 0 1]
o 출력 : 배치 사이즈 x 3 x 3
● 레이어 1 : 입력 * 출력 레이어 0
● 레이어 2 : MLPs
o 함수 수 : 64
o 커널 1x3
o 배치 정규화
o 활성화 함수 : ReLU
● 레이어 3 : MLPs
o 함수 수 : 64
o 커널 1x1
o 배치 정규화
o 활성화 함수 : ReLU
● 레이어 4 : 곱셈을 위한 행렬 학습
o 레이어 4.1 : MLP
■ 함수 수 : 64
■ 커널 1x1
■ 배치 정규화
■ 활성화 함수 : ReLU
o 레이어 4.2 : MLPs
■ 함수 수 : 128
■ 커널 1x1
■ 배치 정규화
■ 활성화 함수 : ReLU
o 레이어 4.3 : MLPs
■ 함수 수 : 1024
■ 커널 1x1
■ 배치 정규화
■ 활성화 함수 : ReLU
o 레이어 4.4 : 완전히 연결됨
■ 출력 : 512
■ 배치 정규화
■ 활성화 함수 : ReLU
o 레이어 4.5 : 완전히 연결됨
■ 출력 : 256
■ 배치 정규화
■ 활성화 함수 : ReLU
o 레이어 4.5 : 완전히 연결됨
■ 출력 : 4096
■ 활성화 함수 없음
■ 0으로 변수 초기화
o 레이어 4.6 : 단위 행렬 추가 (크기 64)
o 출력 : 배치 사이즈 x 64 x 64
● 레이어 5 : 레이어 3 * 출력 레이어 4
● 레이어 6 : MLPs
o 함수 수 : 64
o 커널 1x1
o 배치 정규화
o 활성화 함수 : ReLU
● 레이어 7 : MLPs
o 함수 수 : 128
o 커널 1x1
o 배치 정규화
o 활성화 함수 : ReLU
● 레이어 8 : MLPs
o 함수 수 : 1536
o 커널 1x1
o 배치 정규화
o 활성화 함수 : ReLU
● 출력 : 배치 사이즈 x 코드 (= 1536)
제1 센서 모달리티를 위한 디코더는 다음과 같이 설정할 수 있다.
● 입력 ← 배치 사이즈 x 코드
● 레이어 1 : 완전히 연결됨
o 출력 : 2048
o 활성화 함수 : ReLU
● 레이어 2 : 드롭아웃(dropout)
o 드롭아웃 비율 : 0.2
● 레이어 3 : 완전히 연결됨
o 출력 : 2048
o 활성화 함수 : ReLU
● 레이어 4 : 드롭아웃
o 드롭아웃 비율 : 0.2
● 레이어 5 : 완전히 연결됨
o 출력 : 6144 (= 2048 * 3)
o 활성화 함수 : 없음
● 출력 : 배치 사이즈 x 2048 x 3 (= 입력 포인트 클라우드(cloud)와 동일한 사이즈)
첫 번째 센서 모달리티에 대한 특징 추출기 및 디코더의 훈련은 다음 파라미터에 의해 결정될 수 있다.
● 옵티마이저 : AdamOptimizer
● 학습률 : 0.0001
o 지수적 감쇠 : 계단
■ 학습률이 계단 함수처럼 감소한다. 200000 단계 후에는 최소 0.00001에 도달 할 때까지 절반으로 감소한 후 일정하게 유지된다.
● 배치 사이즈 : 32
● 모든 변수 초기화 (0 초기화 제외) : Xavier 초기화
● 손실 함수 : 입력 포인트 클라우드와 디코더의 생성된 출력 포인트 클라우드 사이의 챔퍼 거리(Chamfer distance)
● 학습할 총 에포크 : 550
피처 변환 유닛의 모든 뉴럴 네트워크는 다음과 같이 설정할 수 있다.
● 입력 ← 배치 사이즈 x 코드 (= 영상 코드 또는 포인트 클라우드 코드) = 배치 사이즈 x 1536
● 레이어 1 : 완전히 연결됨
o 출력 : 2048
o 활성화 함수 : ReLU
● 레이어 2 : 드롭아웃
o 드롭아웃 비율 : 0.2
● 레이어 3 : 완전히 연결됨
o 출력 : 1400
o 활성화 함수 : ReLU
● 레이어 4 : 드롭아웃
o 드롭아웃 비율 : 0.2
● 레이어 5 : 완전히 연결됨 :
o 출력 : 1400
o 활성화 함수 : 없음
● 출력 : 코드 배치 사이즈 x 1400
o 모달리티 특정 피처들에 대한 코드 : 배치 사이즈 x [0 : 700]
o 공통 기능에 대한 코드 : 배치 사이즈 x [700 : 1400]
피처 재변환 유닛의 모든 네트워크는 다음과 같이 설정할 수 있다.
● 옵션 : I_spec = 모달리티 특정 피처들에 대한 입력 코드
● I_common = 공통 피처들에 대한 코드
● 옵션 : I_spec :
o layer.1 : 완전히 연결됨 (입력 모달리티 특정)
■ 출력 : 512
■ 활성화 함수 : ReLU
o 레이어 2 : 드롭아웃
■ 드롭아웃 비율 : 0.2
o 레이어 3 : 완전히 연결됨
■ 출력 : 1024
■ 활성화 함수 : ReLU
o 레이어 4 : 드롭아웃
■ 드롭아웃 비율 : 0.2
o 레이어 5 : 완전히 연결됨 :
■ 출력 : 1536
■ 활성화 함수 : 없음
o 출력 모달리티-특정 피처들 : 배치 사이즈 x 1536
● I_common :
o layer.1 : 완전히 연결됨 (입력 공통 피처들)
■ 출력 : 512
■ 활성화 함수 : ReLU
o 레이어 2 : 드롭아웃
■ 드롭아웃 비율 : 0.2
o 레이어 3 : 완전히 연결됨
■ 출력 : 1024
■ 활성화 함수 : ReLU
o 레이어 4 : 드롭아웃
■ 드롭아웃 비율 : 0.2
o 레이어 5 : 완전히 연결됨 :
■ 출력 : 1536
■ 활성화 함수 : 없음
o 출력 공통 피처들 : 배치 사이즈 x 1536
● 출력 = 출력 공통 피처들 + 옵션 출력-특정 피처들
피처 변환 유닛의 훈련은 다음 파라미터들에 의해 결정될 수 있다.
● 옵티마이저 : AdamOptimizer
● 학습률 : 0.001
o 지수적 감쇠 : 계단
■ 학습률이 계단 함수처럼 감소한다. 200000 단계 후에는 최소 0.00001에 도달 할 때까지 계수(factor) 0.3으로 감소한 후 일정하게 유지된다.
● 배치 사이즈 : 32
● 모든 변수 초기화 : Xavier 초기화
● 학습할 총 에포크 : 400
● 손실 함수 :
o 처음 200 에포크에서 손실
■ 1) 두 모달리티의 공통 피처들의 코사인 유사성
■ 2) '실제 영상 코드'와 재변환된 영상 코드 간의 평균 제곱 오차(mean squared error)
■ 3) '실제 포인트 클라우드 코드'와 재 변환된 포인트 클라우드 코드 간의 평균 제곱 오차
■ 손실 = 1) + 2) + 3)
o 마지막 200 에포크에서 손실
■ 1) 두 모달리티의 공통 피처들의 코사인 유사성
■ 2) '실제 영상 데이터'와 생성된 영상 데이터 간의 평균 제곱 오차
■ 3) '실제 포인트 클라우드'와 생성 된 포인트 클라우드 간의 챔퍼 거리
■ 손실 = 1) + 2) + 3)
분류 유닛의 뉴럴 네트워크는 다음과 같이 설정할 수 있다.
● 레이어 1 : 완전히 연결됨
o 출력 : 1024
o 활성화 함수 : ReLU
● 레이어 2 : 완전히 연결됨
o 출력 : 1024
o 활성화 함수 : ReLU
● 레이어 3 : 완전히 연결됨
o 출력 : 2048
o 활성화 함수 : ReLU
● 레이어 3 : 완전히 연결됨 = 병목 벡터(bottle neck vector)
o 출력 : 분류할 클래스 수 #
o 활성화 함수 : 없음
o 개별 클래스의 평균값이 이 벡터에 저장되고 비교에 사용됨
분류 유닛의 훈련은 다음 파라미터에 의해 결정될 수 있다.
● 손실 함수 : Softmax Cross Entropy
● 옵티마이저 : AdamOptimizer
● 학습률 : 0.01
o 지수적 감쇠 : 학습률이 계단 함수처럼 감소한다. 200000 단계 후에는 최소 0.00001에 도달 할 때까지 계수 0.7로 감소한 후 일정하게 유지된다.
● 배치 사이즈 : 32
● 모든 변수 초기화 : Xavier 초기화
● 학습할 총 에포크 : 50
101 피처 변환 유닛 훈련
102 분류 유닛 훈련
102a 클래스 결정
102b 각 클래스에 대한 평균 피처 벡터 식별 및 저장
103 제1 센서 모달리티의 센서에서 측정 데이터 생성
104 제2 센서 모달리티의 센서에서 측정 데이터 생성
105 제3 센서 모달리티의 센서에서 측정 데이터 생성
106 피처 추출 유닛을 위한 측정 데이터 제공
107 모달리티 독립적 피처들 추출
108 각 피처 추출기를 통한 피처들 추출
109 피처 변환 유닛을 통한 모달리티 독립적 피처들 추출
110 분류 유닛을 통한 모달리티 독립적 피처들 분류
110a 피처 추출 유닛에서 분류 유닛으로 적어도 하나의 피처 벡터 전송
110b 분류 유닛을 통한 피처 벡터 처리
110c 각 클래스에 대해 피처 벡터와 사전에 결정된 평균 피처 벡터 간의 각각 비교
110d 편차 한계 지정
110e 피처 벡터와 평균 피처 벡터 사이의 각각의 코사인 유사성 결정
110f 사전에 지정된 편차 한계 이하로 떨어졌을 때 해당 클래스 라벨 발행
110g 사전에 지정된 모든 편차 한계를 초과하는 경우, 클래스의 물체가 감지되지 않음을 발행
111 물체 분류
112 피처 추출기 훈련
10 디바이스
11 전송 유닛
12 수신 유닛
13 피처 추출 유닛
14 제1 센서 모달리티의 센서로부터 측정 데이터를 위한 피처 추출기
15 제2 센서 모달리티의 센서로부터 측정 데이터를 위한 피처 추출기
16 제3 센서 모달리티의 센서로부터 측정 데이터를 위한 피처 추출기
17 피처 변환 유닛
17a 제1 센서 모달리티를 위한 뉴럴 네트워크
17b 제2 센서 모달리티를 위한 뉴럴 네트워크
18 분류 유닛
18a 결정 모듈
19 모달리티 종속적 입력
20 영상
21 라이더 포인트 클라우드
22 피처 추출기의 영상 코드
23 피처 추출기의 포인트 클라우드 코드
24 모드 독립적 피처
25 모드 종속적 피처
26 공통 피처 공간
27 제1 센서 모달리티에 대한 모달리티 종속적 피처를 위한 피처 공간
28 제2 센서 모달리티에 대한 모달리티 종속적 피처를 위한 피처 공간
29 피처 재변환 유닛
29a 제1 센서 모달리티를 위한 뉴럴 네트워크
29b 제2 센서 모달리티를 위한 뉴럴 네트워크
30 제1 센서 모달리티를 위한 디코더
30a 제1 센서 모달리티를 위한 디코더의 출력
31 제2 센서 모달리티를 위한 디코더
31a 제2 센서 모달리티를 위한 디코더의 출력
32 기능 재변환 유닛의 영상 코드
33 피처 재변환 유닛의 포인트 클라우드 코드

Claims (15)

  1. 물체 분류 방법(100)에서,
    상기 방법(100)은 피처(feature) 추출 유닛(13)을 위해 센서로부터 데이터를 측정하여 제공하는 단계(106)를 포함하고,
    상기 방법(100)은 측정 데이터로부터 모달리티(modality)-독립적 피처들(24)을 추출하는 단계(107)를 포함하며,
    상기 모달리티-독립적 피처들(24)은 상기 센서의 센서 모달리티와 독립적이며, 상기 센서의 상기 센서 모달리티에 대한 결론이 모달리티-독립적 피처들로부터 불가능한 것을 특징으로 하는 방법.
  2. 제 1 항에 따른 상기 방법(100)에서,
    적어도 제1 센서 모달리티와 제2 센서 모달리티가 있고,
    상기 방법(100)은 제2 측정 모달리티의 센서로부터 측정된 데이터를 재구성할 수 있는 방식으로 제1 센서 모달리티의 센서로부터 측정된 데이터로부터 모달리티-독립적 피처들(24)을 추출하도록 구성되는 것을 특징으로 하는 방법.
  3. 상기 선행하는 청구항 중 어느 한 항에 따른 상기 방법(100)에서,
    상기 피처 추출 유닛(13)은 각 센서 모달리티에 대해 적어도 하나의 피처 추출기(14, 15, 16)를 포함하고,
    상기 피처 추출기(14, 15, 16)는 상기 측정 데이터로부터 피처들을 추출(108)하는 것을 특징으로 하는 방법.
  4. 제 3 항에 따른 상기 방법(100)에서,
    상기 피처 추출기(14, 15, 16)는 뉴럴 네트워크인 것을 특징으로 하는 방법.
  5. 제 4 항에 따른 상기 방법(100)에서,
    상기 제1 센서 모달리티는 라이더(lidar)이고,
    상기 제1 센서 모달리티의 상기 피처 추출기(14)는 다층 퍼셉트론(multi layer perceptron)(MLP) 뉴럴 네트워크인 것을 특징으로 하는 방법.
  6. 제 3 항 또는 제 4 항에 따른 상기 방법(100)에서,
    상기 제2 센서 모달리티는 영상이고,
    상기 제2 센서 모달리티의 피처 추출기(14)는 콘볼루션(convolution) 뉴럴 네트워크인 것을 특징으로 하는 방법.
  7. 제 3 항 내지 제 6 항 중 어느 한 항에 따른 상기 방법(100)에서,
    상기 피처 추출 유닛(13)은 피처 변환 유닛(17)을 포함하고,
    상기 피처 변환 유닛(17)은 각각의 센서 모달리티에 대한 뉴럴 네트워크를 포함하며,
    상기 피처 변환 유닛(17)은 적어도 2개의 피처 추출기의 피처들로부터 모달리티-독립적 피처들(24)을 추출(109)하는 것을 특징으로 하는 방법.
  8. 상기 선행하는 청구항 중 어느 한 항에 따른 상기 방법(100)에서,
    상기 방법(100)은 모니터링되지 않는 학습에 의한 상기 피처 추출 유닛(13)의 사전 훈련(101)을 포함하는 것을 특징으로 하는 방법.
  9. 상기 선행하는 청구항 중 어느 한 항에 따른 상기 방법(100)에서,
    상기 방법(100)은 분류 유닛(18)에 의한 모달리티-독립적 피처들(24)의 분류 (110)를 포함하는 것을 특징으로 하는 방법.
  10. 제 9 항에 따른 상기 방법(100)에서,
    상기 방법(102)은 모니터링 된 학습에 의한 상기 분류 유닛(18)의 이전 훈련 (102)을 포함하는 것을 특징으로 하는 방법.
  11. 제 9 항 또는 제 10 항 중 어느 한 항에 따른 상기 방법(100)에서,
    상기 방법(100)은 상기 피처 추출 유닛(13)으로부터 상기 분류 유닛(18)으로 적어도 하나의 피처 벡터 전송(110a)을 포함하고,
    상기 분류(110)는 수신된 피처 벡터와 각 클래스에 대해 미리 결정된 각각의 평균 피처 벡터에 대한 비교(110c)를 포함하며,
    대응하는 클래스 라벨은 미리 지정된 편차 한계(deviation limit)(110f) 미만으로 떨어질 때 발행되는 것을 특징으로 하는 방법.
  12. 광학적 거리 측정 방법에서,
    상기 광학적 거리 측정 방법은 물체 분류를 위한 방법(100)을 포함하는 것을 특징으로 하는 방법.
  13. 물체 분류 디바이스(10)에서,
    상기 디바이스(10)는 제 1 항 내지 제 12 항 중 어느 한 항에 따른 방법 (100)을 수행하도록 구성되는 디바이스.
  14. 프로그램이 저장되는 컴퓨터 판독 가능 저장 매체를 포함하고, 컴퓨터의 메모리에 로드된 후 컴퓨터가 제1항 내지 제12항 중 한 항에 따른 방법(100)을 선택적으로 제13항에 따른 디바이스(10)와 함께 수행할 수 있도록 하는 컴퓨터 프로그램 제품.
  15. 컴퓨터의 메모리에 로드된 후 컴퓨터가 제1항 내지 제12항 중 한 항에 따른 방법을 선택적으로 제13항에 따른 디바이스(10)와 함께 수행할 수 있도록 하는 프로그램이 저장되는 컴퓨터 판독 가능 저장 매체.
KR1020217006494A 2018-09-07 2019-09-06 객체 분류 방법 및 디바이스 KR102625493B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP18193125 2018-09-07
EP18193125.4 2018-09-07
EP18194448.9 2018-09-14
EP18194448.9A EP3620978A1 (de) 2018-09-07 2018-09-14 Verfahren und vorrichtung zur klassifizierung von objekten
PCT/EP2019/073828 WO2020049154A1 (de) 2018-09-07 2019-09-06 Verfahren und vorrichtung zur klassifizierung von objekten

Publications (2)

Publication Number Publication Date
KR20210040415A true KR20210040415A (ko) 2021-04-13
KR102625493B1 KR102625493B1 (ko) 2024-01-15

Family

ID=67436794

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217006494A KR102625493B1 (ko) 2018-09-07 2019-09-06 객체 분류 방법 및 디바이스

Country Status (8)

Country Link
US (1) US11645848B2 (ko)
EP (2) EP3620978A1 (ko)
JP (1) JP7164708B2 (ko)
KR (1) KR102625493B1 (ko)
CN (1) CN112655001A (ko)
CA (1) CA3110387A1 (ko)
IL (1) IL281302B1 (ko)
WO (1) WO2020049154A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230076339A (ko) * 2021-11-24 2023-05-31 (주)스마트레이더시스템 4차원 레이더 신호처리 장치

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7130190B2 (ja) * 2018-12-27 2022-09-05 オムロン株式会社 画像判定装置、学習方法及び画像判定プログラム
KR20210061839A (ko) * 2019-11-20 2021-05-28 삼성전자주식회사 전자 장치 및 그 제어 방법
US11501107B2 (en) 2020-05-07 2022-11-15 Adobe Inc. Key-value memory network for predicting time-series metrics of target entities
US11605228B2 (en) * 2020-06-26 2023-03-14 Nxp Usa, Inc. System and method for sensor fusion system having distributed convolutional neural network
US11972348B2 (en) * 2020-10-30 2024-04-30 Apple Inc. Texture unit circuit in neural network processor
CN112418129B (zh) * 2020-11-30 2024-04-12 上海商汤临港智能科技有限公司 一种点云数据处理的方法、装置、电子设备及存储介质
DE102022205674A1 (de) 2022-06-02 2023-12-07 Zf Friedrichshafen Ag Verfahren und Steuereinrichtung zum Steuern eines Flurförderzeugs
DE102022121868A1 (de) 2022-08-30 2024-02-29 Bayerische Motoren Werke Aktiengesellschaft Verfahren und Assistenzeinrichtung zum Klassifizieren von Sensordetektionen basierend auf Punktwolken und entsprechend eingerichtetes Kraftfahrzeug
CN116229097B (zh) * 2023-01-09 2024-06-07 钧捷科技(北京)有限公司 基于图像传感器的图像处理方法
CN115880337B (zh) * 2023-02-16 2023-05-30 南昌工程学院 基于重参数卷积和特征过滤器的目标跟踪方法与系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101907883B1 (ko) * 2017-05-10 2018-10-16 국방과학연구소 객체 검출 및 분류 방법

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08131403A (ja) * 1994-11-09 1996-05-28 Toshiba Medical Eng Co Ltd 医用画像処理装置
JP4874701B2 (ja) * 2006-04-18 2012-02-15 富士フイルム株式会社 類似画像検索装置および方法並びにプログラム
WO2013105108A1 (en) * 2011-11-09 2013-07-18 Tata Consultancy Services Limited A system and method for enhancing human counting by fusing results of human detection modalities
JP5789211B2 (ja) * 2012-03-23 2015-10-07 富士フイルム株式会社 類似画像検索装置、方法及びプログラム
US9405893B2 (en) * 2014-02-05 2016-08-02 International Business Machines Corporation Biometric authentication
JP6365035B2 (ja) * 2014-07-10 2018-08-01 株式会社デンソー 交通オブジェクト検出装置
US9922272B2 (en) * 2014-09-25 2018-03-20 Siemens Healthcare Gmbh Deep similarity learning for multimodal medical images
US9612123B1 (en) * 2015-11-04 2017-04-04 Zoox, Inc. Adaptive mapping to navigate autonomous vehicles responsive to physical environment changes
CN107463952B (zh) * 2017-07-21 2020-04-03 清华大学 一种基于多模态融合深度学习的物体材质分类方法
CN107944490B (zh) * 2017-11-22 2020-11-27 中南大学 一种基于半多模态融合特征约简框架的图像分类方法
US10893228B2 (en) * 2018-08-02 2021-01-12 GM Global Technology Operations LLC System and method for displaying information in a vehicle

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101907883B1 (ko) * 2017-05-10 2018-10-16 국방과학연구소 객체 검출 및 분류 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Alireza Makhzani 외 4명, "Adversarial Autoencoders", arXiv:1511.05644, pp.1-16(2016.05.25.) 1부.* *
Hao Zhang 외 4명, "RGB-D Face Recognition via Deep Complementary and Common Feature Learning",13th IEEE International Conference on Automatic Face & Gesture Recognition, pp.8-15(2018.06.21.) 1부.* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230076339A (ko) * 2021-11-24 2023-05-31 (주)스마트레이더시스템 4차원 레이더 신호처리 장치

Also Published As

Publication number Publication date
KR102625493B1 (ko) 2024-01-15
IL281302A (en) 2021-04-29
IL281302B1 (en) 2024-05-01
JP2021536634A (ja) 2021-12-27
CA3110387A1 (en) 2020-03-12
JP7164708B2 (ja) 2022-11-01
EP3847578A1 (de) 2021-07-14
WO2020049154A1 (de) 2020-03-12
EP3620978A1 (de) 2020-03-11
US20210174133A1 (en) 2021-06-10
CN112655001A (zh) 2021-04-13
US11645848B2 (en) 2023-05-09

Similar Documents

Publication Publication Date Title
KR102625493B1 (ko) 객체 분류 방법 및 디바이스
CN110414432B (zh) 对象识别模型的训练方法、对象识别方法及相应的装置
Michelmore et al. Evaluating uncertainty quantification in end-to-end autonomous driving control
KR102565279B1 (ko) 객체 검출 방법, 객체 검출을 위한 학습 방법 및 그 장치들
Hoang Ngan Le et al. Robust hand detection and classification in vehicles and in the wild
US20190122077A1 (en) Method for classification of unique/rare cases by reinforcement learning in neural networks
KR102108953B1 (ko) 센서 품질 저하에 강인한 딥러닝 기반 카메라, 라이더 센서 융합 인지 방법 및 시스템
WO2019099537A1 (en) Spatio-temporal action and actor localization
US11676005B2 (en) Method and system for deep neural networks using dynamically selected feature-relevant points from a point cloud
EP3719697A1 (en) Method and device for determining whether a hand cooperates with a manual steering element of a vehicle
JP2020119505A (ja) マルチカメラシステム内のダブルエンベディング構成を利用して、道路利用者イベントを検出するために用いられるセグメンテーション性能向上のための学習方法及び学習装置、そしてこれを利用したテスティング方法及びテスティング装置。{learning method and learning device for improving segmentation performance to be used for detecting road user events using double embedding configuration in multi−camera system and testing method and testing device using the same}
CN114494248B (zh) 基于点云和不同视角下的图像的三维目标检测系统及方法
WO2021188843A1 (en) Managing occlusion in siamese tracking using structured dropouts
Aksoy et al. See, attend and brake: An attention-based saliency map prediction model for end-to-end driving
CN115222954A (zh) 弱感知目标检测方法及相关设备
Zhang et al. CE-RetinaNet: A channel enhancement method for infrared wildlife detection in UAV images
US11328170B2 (en) Unknown object identification for robotic device
CN116611500A (zh) 用于训练神经网络的方法及装置
US20240013521A1 (en) Sequence processing for a dataset with frame dropping
CN114627183A (zh) 一种激光点云3d目标检测方法
KR102238271B1 (ko) 저사양 실시간 동작을 위한 경량 다층 랜덤 포레스트 분류기 및 이를 이용한 분류 방법
Nobis Autonomous driving: Radar sensor noise filtering and multimodal sensor fusion for object detection with artificial neural net-works
CN116152770B (zh) 一种3d目标匹配模型建立方法及装置
Qiu et al. Deep Learning-based Visual Risk Warning System for Autonomous Driving
Kadam et al. Convolutional neural network strategies for realtime object detection

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant