KR20240073992A - 인공 신경망의 맥락에서 이미지 데이터를 융합하는 방법 - Google Patents

인공 신경망의 맥락에서 이미지 데이터를 융합하는 방법 Download PDF

Info

Publication number
KR20240073992A
KR20240073992A KR1020247015565A KR20247015565A KR20240073992A KR 20240073992 A KR20240073992 A KR 20240073992A KR 1020247015565 A KR1020247015565 A KR 1020247015565A KR 20247015565 A KR20247015565 A KR 20247015565A KR 20240073992 A KR20240073992 A KR 20240073992A
Authority
KR
South Korea
Prior art keywords
image
feature map
image data
output
resolution
Prior art date
Application number
KR1020247015565A
Other languages
English (en)
Inventor
토비아스 분트
마리오 로메치
로베르트 틸
Original Assignee
콘티넨탈 오토노머스 모빌리티 저머니 게엠베하
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 콘티넨탈 오토노머스 모빌리티 저머니 게엠베하 filed Critical 콘티넨탈 오토노머스 모빌리티 저머니 게엠베하
Publication of KR20240073992A publication Critical patent/KR20240073992A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 적어도 하나의 이미지 감지 센서(1)의 이미지 데이터를 융합하는 방법 및 시스템(10)에 관한 것이다. 상기 방법은 다음 단계들을 포함한다. a) 입력 이미지 데이터를 수신하는 단계 S1으로서, 상기 입력 이미지 데이터는 장면의 제1 영역(101, 601)을 포함하는 제1 이미지(401, 701) 및 상기 장면의 제2 영역(102, 602)을 포함하는 제2 이미지(502, 702)를 포함하고, 상기 제1 및 제2 영역은 서로 중첩되지만 동일하지 않은, 단계; b) 상기 제1 이미지(401, 701)를 기초로 제1 높이 및 너비를 갖는 제1 특징 맵(1301)을 결정하는 단계 S2 및 상기 제2 이미지(502, 702)를 기초로 제2 높이 및 너비를 갖는 제2 특징 맵(1302)을 결정하는 단계 S3; c) 상기 제1 특징 맵(1301)의 제1 합성곱을 이용하여 제1 출력 특징 맵(1321)을 계산하는 단계 S4 및 상기 제2 특징 맵(1302)의 제2 합성곱을 이용하여 제2 출력 특징 맵(1322)을 계산하는 단계 S5; d) 상기 제1 및 제2 영역의 서로에 대한 위치를 고려하여, 중첩 영역에서 요소가 병합되는, 상기 제1 및 제2 출력 특징 맵(1321, 1322)의 요소별 합에 의해 융합 특징 맵(1330)을 계산하는 단계 S7; 및 e) 상기 융합 특징 맵(1330)을 출력하는 단계 S8. 상기 방법은 매우 런타임 효율적이고, 차량의 ADAS/AD 시스템을 위한 하나 이상의 이미지 감지 센서(1)의 이미지 데이터를 융합하는 데 사용될 수 있다.

Description

인공 신경망의 맥락에서 이미지 데이터를 융합하는 방법
본 발명은 인공 신경망의 맥락에서 예를 들어 차량용 환경 센서 기반 ADAS/AD 시스템에서 이미지 데이터를 융합하는 방법 및 시스템에 관한 것이다.
ADAS/AD 시스템용 환경 이미징 센서(특히 카메라 센서)의 해상도는 지속적으로 향상되고 있다. 이로 인해 더 작은 물체를 식별할 수 있고, 하위 개체(sub-object)를 식별할 수 있으며, 예를 들어 먼 거리에 있는 작은 텍스트를 읽을 수 있다. 더 높은 해상도의 단점은 상응하게 높은 이미지 데이터를 처리하기 위해 확실히 더 높은 컴퓨팅 성능이 필요하다는 점에 있다. 따라서 처리를 위해 이미지 데이터의 서로 다른 해상도 단계가 종종 필요하다. 예를 들어 긴 도달 거리 또는 높은 해상도는 종종 이미지 중앙에 필요하고, 그에 비해 가장자리 영역에서는 필요하지 않다(인간의 눈의 경우와 유사함).
독일 특허 DE 102015208889 A1호는, 픽셀 이미지를 기록하는 이미지 센서 장치 및 픽셀 이미지의 이웃 픽셀을 조정된 픽셀 이미지로 병합하도록 설계된 프로세스 장치를 갖는, 환경을 맵핑하는 차량용 카메라 장치를 개시하고 있다. 서로 다른 조정된 픽셀 이미지는, 2-x-2 이미지 피라미드 또는 n-x-n 이미지 피라미드 형태로 이웃 픽셀의 픽셀값이 통합되어 서로 다른 해상도로 생성될 수 있다.
미국 특허출원공개 US 10742907 B2호 및 US 10757330 B2호는 다양한 해상도로 이미지를 기록하는 운전자 지원 시스템을 개시하고 있다.
미국 특허출원공개 US 10798319 B2호는 광각 광학 장치 및 고해상도 이미지 기록 센서로 자차의 주변 영역을 감지하는 카메라 장치를 설명한다. 이미지 시퀀스의 이미지의 경우, 픽셀 비닝(pixel binning)에 의해 전체 감지 영역의 해상도가 감소된 이미지 또는 감지 영역의 부분 영역이 최대 해상도로 감지될 수 있다.
교통 참여자 및 장면을 더 잘 감지, 분류 및 적어도 부분적으로 이해할 수 있기 위해 인공 신경망을 사용하는 기술이 점점 더 환경 센서 기반 ADAS/AD 시스템에 사용된다. 심층 신경망, 예를 들어 CNN(Convolutional neural network, “합성곱 기반 신경망” 또는 “합성곱 신경망”)은 전통적인 방법에 비해 명확한 이점을 갖는다. 전통적인 방법들은 서포트 벡터 머신(support vector machine) 또는 에이다부스트(AdaBoost)와 같은 훈련된 분류기를 사용하여 수제 특징(경사 지향 히스토그램(Histogram of oriented Gradients), 로컬 바이너리 패턴(Local Binary Patterns), 가버 필터(Gabor Filter) 등)을 사용한다. (다중 레벨) CNN의 경우, 특징 추출은 (심층) 기계 학습을 통해 알고리즘 방식으로 달성되어 특징 공간의 차원 및 깊이가 크게 향상되고, 이로 인해 결국 예를 들어 인식률 향상 형태로 성능이 크게 향상된다.
해결해야 할 문제는, 서로 다른, 심지어 중첩된 감지 영역 및 서로 다른 해상도를 갖는 센서 데이터를 병합할 때의 처리이다.
유럽 특허 EP 3686798 A1호는 CNN을 기반으로 객체 감지기(object detector)의 매개변수를 학습시키는 방법을 개시하고 있다. 카메라 이미지에서 객체 영역이 추정되고, 서로 다른 이미지 피라미드 단계에서 이 영역의 섹션이 생성된다. 섹션들은 예를 들어 동일한 높이를 갖고 “제로 패딩(zero padding)”에 의해 측면으로 채워지고 연결된다(영어: concatenated, 서로 연결되다). 이러한 형태의 연결은 일종의 콜라주로 설명할 수 있다. 즉 같은 높이의 섹션들은 “나란히 연결된다.” 이에 따라 생성된 합성 이미지는 동일한 원본 카메라 이미지 영역의 서로 다른 해상도 단계로 구성된다. CNN은 객체 감지기가 합성 이미지를 기초로 객체를 감지하여 원거리의 객체를 감지할 수 있도록 훈련된다.
이러한 방식의 장점은, CNN에 의해 개별 이미지 영역이 차례대로 하나씩 처리되는 것에 비해 합성 이미지에 대한 가중치가 한 번만 로드되면 된다는 것이다.
여기서 단점은, 합성 이미지의 이미지 영역이 나란히, 특히 CNN에 의해 서로 독립적으로 객체 감지기로 관찰된다는 것이다. 이미지 영역에 불완전하게 포함될 수 있는, 중첩 영역에 있는 객체는 비자명하게(nontrivial) 하나의 동일한 객체에 속한 것으로 식별되어야 한다.
본 발명의 목적은 부분적으로 중첩된 서로 다른 감지 영역으로 구성된 입력 이미지 데이터를 효율적으로 융합하고 후속 프로세싱을 위해 제공하는, 인공 신경망 맥락에서 향상된 이미지 데이터 융합법을 제공하는 것이다.
본 발명의 일 양태는 적어도 하나의 이미지 감지 센서의 입력 데이터로 효율적인 객체 감지를 구현하는 것에 관한 것으로, 이미지 감지 센서는
a) 넓은 이미지 영역을 캡처하고
b) 예를 들어 이미지 중앙의 원거리 객체와 같이, 관련 이미지 영역을 고해상도로 감지한다.
해법을 개발할 때 다음이 고려된다.
인공 신경망에서 여러 단계의 이미지 피라미드를 사용하기 위해, 저해상도 개요 이미지와 고해상도 중앙 이미지 섹션은 두 개의 독립적인 인퍼런스(inference)(이에 대해 각각 훈련된 두 개의 CNN)에 의해 별도로 처리될 수 있다는 것이다.
이는 컴퓨팅/런타임에 있어서 많은 노력을 의미한다. 무엇보다 서로 다른 이미지에 대해 훈련된 CNN의 가중치가 새로 로드되어야 한다. 서로 다른 피라미드 단계의 특징은 결합되지 않은 것으로 간주된다.
대안적으로, 프로세싱은 유럽 특허 EP 3686798 A1호의 경우와 같이 서로 다른 해상도 단계로 구성된 하나의 이미지에 대해 이루어질 수 있다.
즉, 서로 다른 부분 이미지/해상도 단계로 구성된 하나의 합성 이미지가 생성되고 이에 대해 인퍼런스 또는 훈련된 CNN이 실행된다. 각 가중치가 모든 이미지에 대해 한 번만 로드되고 각 부분 이미지에 대해 새로 로드되지 않으므로, 이는 더 효율적일 수 있다. 그러나 서로 다른 해상도 단계의 특징이 결합될 수 없다는 것과 같은 단점이 남아 있다.
적어도 하나의 이미지 감지 센서의 이미지 데이터를 융합하는 방법은 다음 단계를 포함한다.
a) 입력 이미지 데이터를 수신하는 단계로서, 입력 데이터는
- 장면의 제1 영역을 포함하거나 포괄하는 제1 이미지(또는 제1 표현), 및
- 장면의 제2 영역을 포함하거나 포괄하는 제2 이미지를 포함하고, 제1 및 제2 영역은 서로 중첩되나 동일하지 않은, 입력 이미지 데이터를 수신하는 단계.
b) 제1 이미지를 기초로 제1 높이 및 너비를 갖는 제1 특징 맵(feature map)을 결정하는 단계 및 제2 이미지를 기초로 제2 높이 및 너비를 갖는 제2 특징 맵을 결정하는 단계.
c) 제1 특징 맵의 제1 합성곱을 이용하여 제1 출력 특징 맵을 계산 및 제2 특징 맵의 제2 합성곱을 이용하여 제2 출력 특징 맵을 계산하는 단계.
d) 제1 및 제2 영역의 서로에 대한 위치를 고려하여, 중첩 영역에서 (제1 및 제2 출력 특징 맵의) 요소가 병합되는, 제1 및 제2 출력 특징 맵의 요소별 합에 의해 융합 특징 맵을 계산하는 단계;
e) 융합 특징 맵을 출력하는 단계.
이미지는 예를 들어 이미지 감지 센서에 의해 감지된 장면의 이차원 표현일 수 있다.
점구름 또는 깊이 지도가 예를 들어 라이다 센서 또는 이미지 감지 센서인 스테레오 카메라로 감지될 수 있는 삼차원 이미지 또는 표현의 예이다. 삼차원 표현은 다양한 목적을 위해 예를 들어 평면 절단 또는 투영을 통해 이차원 이미지로 변환될 수 있다.
특징 맵(feature map)은 합성곱(convolution) 또는 합성곱 계층/convolutional layer/합성곱 코어/합성곱 커널에 의해 이미지 또는 (기존의) 다른 특징 맵으로부터 결정될 수 있다.
특징 맵의 높이 및 너비는 기초가 되는 이미지(또는 상세한 특징 맵)의 높이 및 너비 그리고 연산과 관련이 있다.
서로에 대한 제1 및 제2 영역의 위치는 융합을 위해 제1 및 제2 출력 특징 맵의 적절한 요소를 합하기 위해 고려된다. 중첩 영역의 위치는 예를 들어 융합된 특징 맵 내에서 제2 출력 특징 맵의 위치를 수직 및 수평 방향으로 지정하는 시작값(xs, ys)에 의해 정의될 수 있다. 중첩 영역에 제1 출력 특징 맵과 제2 출력 특징 맵의 요소가 병합된다. 중첩 영역 외부에서 출력 특징 맵의 요소는 이 영역을 커버하는 융합된 특징 맵으로 전환될 수 있다. 두 출력 특징 맵 모두 융합된 특징 맵의 영역을 커버하지 않는 경우, 이는 제로로 채워질 수 있다.
본원의 방법은 예를 들어 인공 신경망, 바람직하게는 합성곱 신경망(CNN)의 맥락에서 수행된다.
ADAS/AD 기능을 위해 종종 (특히 인식 측면에서) 적어도 하나의 인공 신경망 또는 CNN이 사용되고, 이는 ADAS/AD 기능과 관련된 출력 데이터에 이미지 입력 데이터를 할당하도록 기계 학습법에 의해 훈련된다. ADAS는 지원 주행을 위한 첨단 시스템을, AD는 자율 주행(영어: advanced driver assistance systems 또는 automated driving)을 뜻한다.
훈련된 인공 신경망은 차량의 ADAS/AD 제어 장치의 프로세서에서 구현될 수 있다. 프로세서는 훈련된 인공 신경망(인퍼런스)를 통해 이미지 데이터를 평가하도록 구성될 수 있다. 프로세서는 인공 신경망을 위한 하드웨어 가속기를 포함할 수 있다.
프로세서 또는 인퍼런스는 예를 들어 입력 이미지 데이터로부터 하나 이상의 이미지 감지 센서 ADAS/AD 관련 정보들을 감지하거나 더욱 상세하게 결정하도록 구성될 수 있다. 관련 정보는 예를 들어 ADAS/AD 시스템 또는 ADAS/AD 제어 장치에 대한 객체 및/또는 주변 정보이다. ADAS/AD 관련 객체 및/또는 주변 정보는 예를 들어 사물, 표시, 교통 표지판, 도로 사용자 그리고 ADAS/AD 시스템에 중요한 입력 크기인 거리, 객체들의 상대 속도 등이다. 관련 정보를 감지하는 기능의 예는 차선 감지, 객체 감지, 깊이 감지(이미지 구성 요소의 3차원 추정), 시맨틱 인식, 교통 표지판 감지 등이다.
일 실시예에서 제1 및 제2 이미지는 동일한 이미지 감지 센서에 의해 감지된다. 이는 본원의 방법의 선행 단계일 수도 있다. 특히 제1 및 제2 이미지는 동시에 이미지 감지 센서에 의해 감지되거나 직접적으로 순차적으로 감지될 수 있다.
일 실시예에서 (단일) 이미지 감지 센서는 단안 카메라(monocular camera)이다. 제1 표현(또는 제1 이미지)은 광각으로 감지된 저해상도의 개요 이미지이고, 제2 표현(또는 제2 이미지)은 고해상도의 부분 이미지에 해당할 수 있다.
일 실시예에 따르면, 제1 및 제2 이미지는 이미지 감지 센서에 의해 감지된 (원래) 이미지의 서로 다른 이미지 피라미드 단계에 해당할 수 있다.
입력 이미지 데이터는 각 해상도에 따라 다수의 채널로 코딩되었거나 코딩될 수 있다. 예를 들어 각 채널은 동일한 높이 및 너비를 갖는다. 각 채널에 포함된 픽셀의 공간적 관계는 유지될 수 있다. 이에 대한 세부 사항은 독일 특허 DE 102020204840 A1를 참조하고, 이의 내용은 완전히 본 출원에 포함된다.
일 실시예에서, 제1 영역은 장면의 개요 영역이고, 제2 영역은 장면의 개요 영역의 부분 영역이다. 제1 이미지에 포함된 개요 영역은 전체 영역, 즉 이미지 감지 센서의 최대 감지 영역에 해당할 수 있다.
제2 이미지에 포함된 장면의 부분 영역은 제1 이미지에도 포함된 관심 영역(ROI: region-of-interest)에 해당할 수 있다.
일 실시예에 따르면, 제1 이미지는 제1 해상도를, 제2 이미지는 제2 해상도를 갖는다. 제2 해상도는 예를 들어 제1 해상도보다 높다. 제2 이미지의 해상도는 이미지 감지 센서의 최대 해상도에 해당할 수 있다. 예를 들어 더 높은 해상도는 제2 이미지의 콘텐츠인 부분 영역 또는 ROI에 대해 세부 사항을 더 많이 제공할 수 있다.
이미지의 해상도는 정확도 또는 데이터 깊이, 예를 들어 이미지 감지 센서의 인접한 두 화소(픽셀) 간의 최소 거리에 해당할 수 있다.
일 실시예에서, 이미지 감지 센서로 감지 영역이 중첩된 두 개의 단안 카메라가 사용된다. 두 개의 단안 카메라는 스테레오 카메라의 구성 요소일 수 있다. 두 개의 단안 카메라는 서로 다른 개방각 및/또는 해상도를 가질 수 있다(“하이브리드 스테레오 카메라”). 두 개의 단안 카메라는 서로 독립적으로 차량에 고정된 위성 카메라일 수 있다.
일 실시예에 따르면, 이미지 감지 센서로 전방위 카메라 시스템의 다수의 카메라가 사용된다. 예를 들어 어안 렌즈(fisheye lens)를 갖는 단안 카메라 네 개(예를 들어 감지 각도 180° 이상)가 차량 주변을 완전히 감지할 수 있다. 각각 두 개의 인접한 카메라의 중첩 영역이 약 90°이다. 여기서 네 개의 개별 이미지(네 개의 표현)로부터 차량의 360° 환경에 대한 융합된 특징 맵이 생성되는 것이 가능하다.
일 실시예에서, 제1 및 제2 출력 특징 맵은 중첩 영역에서 동일한 높이와 너비를 갖는다. 즉 출력 특징 맵의 중첩 영역에서 인접한 요소는 실제 공간에서 서로 등거리에 있다. 이는 제1 및 제2 특징 맵이 중첩 영역에서 동일한 높이와 너비를 갖기 때문에 가능하다. 예를 들어 제1 및 제2 영역 또는 제1 및 제2 이미지 (또한) 중첩 영역에서 동일한 높이와 너비를 갖는다.
일 실시예에 따르면, 융합된 특징 맵의 높이 및 너비는 제1 및 제2 출력 특징 맵을 둘러싸는(정확하게 포괄하는) 직사각형에 의해 결정된다.
일 실시예에서, 융합된 특징 맵의 높이 및 너비가 제1 및 제2 출력 특징 맵을 둘러싸는(정확하게 포괄하는) 직사각형에 의해 결정된 후, 제1 및/또는 제2 출력 특징 맵은, 이들이 융합된 특징 맵의 너비 및 높이에 도달하고 서로에 대해 제1 및 제2 출력 특징 맵의 위치가 유지되도록 확대 또는 적응된다. 적응된 두 출력 특징 맵에서 중첩 영역은 동일한 위치에 있다. 확대에 의해 새로 추가된 각각의 (적응된) 출력 특징 맵의 영역은 제로로 채워진다(제로 패딩). 적응된 두 출력 특징 맵은 이어서 요소별로 병합될 수 있다.
일 실시예에 따르면, 먼저 출력 특징 맵 템플릿(template)이 생성되고, 이의 너비 및 높이는 제1 및 제2 출력 특징 맵의 높이 및 너비 그리고 중첩 영역의 위치에서 생겨난다(마지막 단락, 둘러싸는 직사각형 참조). 출력 특징 맵 템플릿은 제로로 채워진다.
적응된 제1 출력 특징 맵의 경우, 제1 출력 특징 맵의 요소가 제1 출력 특징 맵이 커버하는 영역에 적용된다. 이를 위해, 제1 출력 특징 맵의 위치를 출력 특징 맵 템플릿에 수직 및 수평 방향으로 지정하는 시작값이 사용될 수 있다. 이에 상응하여 적응된 제2 출력 특징 맵이 형성된다. 적응된 두 출력 특징 맵은 이어서 재차 요소별로 병합될 수 있다.
제2 출력 특징 맵이 전체 중첩 영역(즉 개요 영역을 포함하는 제1 출력 특징 맵의 실제 부분 영역)을 포함하는 특수 사례에 대한 일 실시예에서, 제2 출력 특징 맵의 서로 다른 높이 및 너비의 적응이 생략될 수 있다. 이 경우, 융합된 특징 맵이 제1 출력 특징 맵과 동일한 높이 및 너비를 가질 것이므로 제1 출력 특징 맵도 적응될 필요가 없다. 이 경우 제1 출력 특징 맵으로 제2 출력 특징 맵이 요소별로 병합되는 것은, 적합한 시작값들에 의해 중첩 영역에서만 수행될 수 있다. 시작값은 융합된 특징 맵을 생성하기 위해 (중첩 영역에서) 제1 출력 특징 맵의 요소에 제2 출력 특징 맵의 요소가 병합되기 시작하는 위치를 제1 출력 특징 맵에 지정한다.
일 실시예에서, 특징 맵은 (기본) 이미지의 해상도에 좌우되는 깊이를 갖는다. 더 높은 해상도의 이미지(예, 이미지 섹션)는 깊이가 더 깊은 특징 맵을 생성한다, 예를 들어 특징 맵이 더 많은 채널을 포함한다.
예를 들어, 프로세서는 컴퓨팅 사이클 또는 클록 사이클(clock cycle) 동안 다수의 이미지 채널 데이터 “패킷”의 스택(stack)을 처리할 수 있는 인공 신경망 하드웨어 가속기를 포함할 수 있다. 이미지 데이터 또는 특징 (맵) 계층은 적층된 이미지 채널 데이터 패킷으로서 하드웨어 가속기에 공급될 수 있다.
일 실시예에 따르면, ADAS/AD 관련 특징을 감지하는 것은 융합된 특징 맵을 기초로 이루어진다.
일 실시예에서, 본원의 방법은 인공 신경망 또는 CNN에 대한 하드웨어 가속기에서 구현된다.
일 실시예에서, 융합된 특징 맵은, ADAS/AD 관련 정보를 결정하도록 구성 또는 훈련된 인공 신경망 또는 CNN의 인코더에서 생성된다.
일 실시예에서, ADAS/AD 관련 정보를 결정하도록 구성 또는 훈련된 인공 신경망 또는 CNN은 서로 다른 ADAS/AD 감지 기능에 대해 다수의 디코더를 포함한다.
본 발명의 추가적인 양태는 적어도 하나의 이미지 감지 센서의 이미지 데이터를 융합하는 시스템 또는 장치에 관한 것이다. 본원의 장치는 입력 인터페이스, 데이터 처리 유닛, 및 출력 인터페이스를 포함한다.
입력 인터페이스는 입력 이미지 데이터를 수신하도록 구성된다. 입력 이미지 데이터는 제1 및 제2 이미지를 포함한다. 제1 이미지는 장면의 제1 영역을 포함 또는 포괄한다.
제2 이미지는 장면의 제2 영역을 포함한다. 제1 및 제2 영역은 서로 중첩된다. 제1 및 제2 영역은 동일하지 않다.
데이터 처리 유닛은 이하의 단계 b) 내지 d)를 수행하도록 구성된다.
b) 제1 이미지를 기초로 제1 높이 및 너비를 갖는 제1 특징 맵을 결정 및 제2 이미지를 기초로 제2 높이 및 너비를 갖는 제2 특징 맵을 결정.
c) 제1 특징 맵의 제1 합성곱을 이용하여 제1 출력 특징 맵을 계산 및 제2 특징 맵의 제2 합성곱을 이용하여 제2 출력 특징 맵을 계산.
d) 제1 출력 특징 맵과 제2 출력 특징 맵을 요소별로 합하여 융합된 특징 맵을 계산. 서로에 대한 제1 및 제2 영역의 위치는 요소별로 병합될 때 고려되어, 중첩 영역에서 (제1 및 제2 출력 특징 맵의) 요소가 병합된다.
출력 인터페이스는 융합된 특징 맵을 출력하도록 구성된다.
출력은 하위의 ADAS/AD 시스템에서 이루어질 수 있거나 “대형” ADAS/AD-CNN 또는 추가적인 인공 신경망의 다운스트림 계층에서 이루어질 수 있다.
일 실시예에 따르면, 시스템은 CNN 하드웨어 가속기를 포함한다. 입력 인터페이스, 데이터 처리 유닛 및 출력 인터페이스는 CNN 하드웨어 가속기에서 구현된다.
일 실시예에서, 시스템은 인코더를 갖는 합성곱 신경망을 포함한다. 입력 인터페이스, 데이터 처리 유닛 및 출력 인터페이스는 인코더에서 구현되어, 인코더는 융합된 특징 맵을 생성하도록 구성된다.
일 실시예에 따르면, 합성곱 신경망은 다수의 디코더를 포함한다. 디코더는 서로 다른 ADAS/AD 감지 기능을 적어도 융합된 특징 맵을 기반으로 구현하도록 구성된다. CNN의 다수의 디코더는 공통의 인코더에 의해 코딩된 입력 이미지 데이터를 사용할 수 있다. 서로 다른 ADAS/AD 감지 기능은 예를 들어 이미지 또는 이미지 데이터의 시맨틱 세그멘테이션, 자유 공간 감지, 차선 감지, 물체 감지 또는 물체 분류이다.
일 실시예에서, 시스템은 ADAS/AD 제어 장치를 포함하고, ADAD/AD 제어 장치는 적어도 ADAS/AD 감지 기능의 결과를 기반으로 ADAS/AD 기능을 구현하도록 구성된다.
시스템은 적어도 하나의 이미지 감지 센서를 포함할 수 있다. 이미지 감지 센서(들)로는 예를 들어 특히 광각 감지 범위(예를 들어 적어도 100°) 및 최대 고해상도(예를 들어 적어도 5 메가픽셀)의 단안 카메라, 스테레오 카메라, 위성 카메라, 전방위 시스템의 개별 카메라, 라이더 센서, 레이저 스캐너 또는 기타 3D 카메라가 사용된다.
본 발명의 추가적인 양태는 적어도 하나의 이미지 감지 센서 및 이미지 데이터를 융합하는 상응하는 시스템을 갖는 차량에 관한 것이다.
시스템 또는 데이터 처리 유닛은 특히 마이크로 컨트롤러 또는 마이크로 프로세서, 중앙 처리 유닛(CPU: central processing unit), 그래픽 처리 유닛(GPU: graphics processing unit), 텐서 처리 유닛(TPU: tensor processing unit), 신경/AI 처리 유닛(NPU: neural processing unit), 디지털 신호 프로세서(DSP), 주문형 집적회로(ASIC: application specific integrated circuit), 필드 프로그래머블 게이트 어레이(FPGA: field programmable gate array) 등과 상응하는 프로세스 단계 수행을 위한 소프트웨어를 포함할 수 있다.
일 실시예에 따르면, 시스템 또는 데이터 처리 유닛은 하드웨어 기반 이미지 전처리 스테이지[이미지 신호 프로세서(ISP: image signal processor)]에 구현된다.
또한, 본 발명은 이미지 데이터 융합 시스템의 프로세서가 프로그래밍될 때 입력 이미지 데이터를 융합하는 상응하는 방법을 수행하도록 프로세서에 지시하는 컴퓨터 프로그램 요소 또는 프로그램 제품에 관한 것이다.
또한 본 발명은 이러한 프로그램 요소가 저장된 컴퓨터 판독 가능 저장 매체에 관한 것이다.
따라서 본 발명은 디지털 전자 회로, 컴퓨터 하드웨어, 펌웨어 또는 소프트웨어로 구현될 수 있다.
이하에서 본 발명의 맥락에서 실시예 및 도면이 설명된다.
도 1은 적어도 하나의 이미지 감지 센서의 이미지 데이터를 융합하는 시스템을 도시하는 개략도이다.
도 2는 장면의 제1 및 제2 이미지가 결정될 수 있는, 하나의 이미지 감지 센서 또는 두 개의 서로 다른 이미지 감지 센서의 제1 및 제2 감지 영역의 범위 및 위치를 도시하는 개략도이다.
도 3은 고해상도의 전체 이미지를 도시하는 개략도이다.
도 4는 저해상도의 전체 이미지 또는 개요 이미지를 도시하는 개략도이다.
도 5는 고해상도의 중앙 이미지 섹션을 도시하는 개략도이다.
도 6은 제1 (개요) 감지 영역 및 제2 중앙 감지 영역의 선택적 배치를 도시하는 개략도이다.
도 7은 상응하는 디지털 이미지가 그레이 스케일 이미지로 어떻게 보이는지를 도시하는 예이다.
도 8은 기본적으로 이러한 이미지들이 융합될 수 있는 방법을 도시하는 개략도이다.
도 9는 대안적인 제2 융합 방법을 도시하는 개략도이다.
도 10은 바람직한 제3 융합 방법을 도시하는 개략도이다.
도 11은 두 개의 특징 맵이 연결되고 이어서 합성곱 코어에 의해 처리(및 이로 인해 융합)되는 것을 도시하는 개략도이다.
도 12는 두 개의 특징 맵이 두 개의 별도의 합성곱 커널에 의해 처리되고 이어서 요소별로 병합되는 대안적인 프로세스를 도시하는 개략도이다.
도 13은 서로 다른 너비 및 높이의 두 개의 특징 맵을 융합하는 프로세스를 도시하는 개략도이다.
도 14는 가능한 방법 프로세스를 도시하는 개략도이다.
도 1은 입력 인터페이스(12), 융합 모듈(16)을 갖는 데이터 처리 유닛(14) 및 추가 유닛(20)으로 융합된 데이터를 출력하는 출력 인터페이스(18)를 갖는, 적어도 하나의 센서(1)의 데이터를 융합하는 시스템(10)을 개략적으로 도시한다.
이미지 감지 센서(1)의 예는 광각 광학 장치 및 고해상도 이미지 감지 센서, 예를 들어 CCD 또는 CMOS 센서를 갖는 단안 카메라 센서이다.
이미지 데이터 또는 이미지 감지 센서의 해상도 및/또는 감지 영역은 종종 다르다. 융합을 위해서는 이미지 감지 센서(들)의 이미지 데이터에서 특징을 융합할 수 있는 이미지 데이터 전처리가 유용하다.
이하에서 더욱 상세하게 다루는 실시예는, 카메라 센서의 제1 이미지 및 동일한 카메라 센서의 제2 이미지의 처리이고, 제2 이미지는 제1 이미지의 부분 영역(만)을 가지며 제1 이미지의 해상도에 비해 더 높은 해상도를 갖는다.
카메라 센서의 이미지 데이터를 기반으로 다수의 ADAS 기능 또는 AD 기능이 ADAS/AD 제어 장치에 의해 예시로서 추가 유닛(20), 예를 들어 차선 감지, 차선 유지 지원, 교통 표지판 감지, 속도 감지 지원, 도로 사용자 감지, 충돌 경고, 비상 제동 보조, 차간 거리 제어, 공사장에서의 운전자 지원, 고속도로 파일럿, 크루징 쇼퍼 기능(cruising-chauffeur) 및/또는 오토파일럿에 제공될 수 있다.
전체 시스템(10, 20)은 인공 신경망, 예를 들어 CNN을 포함할 수 있다. 인공 신경망이 이미지 데이터를 예를 들어 차량에서 실시간으로 처리할 수 있도록, 전체 시스템(10, 20)은 인공 신경망을 위한 하드웨어 가속기를 포함할 수 있다. 이러한 하드웨어 모듈은 본질적으로 소프트웨어로 구현된 신경망 전용으로 이를 가속할 수 있어서 신경망의 실시간 작동이 가능하다.
데이터 처리 유닛(14)은 “적층된” 포맷의 이미지 데이터를 처리할 수 있어서, 클록 사이클 내에 다수의 입력 채널로부터 스택을 판독하고 처리할 수 있다. 구체적인 실시예에서 데이터 처리 유닛(14)은 해상도 576 x 320 픽셀의 이미지 채널 네 개를 판독할 수 있다.
적어도 두 개의 이미지 채널이 융합되는 것은 추후의 CNN 감지에 있어서, 채널들이 개별적으로 상응하는 CNN에 의해 처리되지 않아도 되고 이미 융합된 채널 정보 또는 특징 맵이 CNN에 의해 처리될 수 있다는 이점을 제공한다. 이러한 융합은 융합 모듈(16)에 의해 이루어질 수 있다. 융합의 세부 사항은 이하의 도면을 참조하여 이하에 더욱 상세하게 설명된다.
융합은 CNN의 인코더에서 구현될 수 있다. 융합된 데이터는 이어서 하나 이상의 CNN의 디코더에 의해 처리될 수 있고, 이로부터 감지 또는 기타 ADAS/AD 관련 정보들이 얻어진다. 이렇게 분할되는 경우 도 1에서 인코더는 블록 10으로 표시되고, 디코더는 블록 20으로 표시된다. CNN은 블록 10 및 20을 포함하므로 명칭이 “전체 시스템”이다.
도 2는 장면의 제1 및 제2 이미지가 결정될 수 있는, 하나의 이미지 감지 센서 또는 두 개의 서로 다른 이미지 감지 센서의 제1(101) 및 제2 감지 영역(102)의 범위 및 위치를 개략적으로 도시한다. 제1 이미지 감지 영역(101)에서 개요 이미지 또는 전체 이미지가 제1 이미지로서 감지될 수 있고, 제2 이미지 감지 영역(102)에서 예를 들어 중앙 이미지 영역, 즉 제1 이미지 감지 영역(101)의 섹션을 포함하는 제2 이미지가 감지될 수 있다.
도 3 내지 도 5는 이미지 감지(또는 카메라) 센서로 감지될 수 있는 이미지의 예를 도시한다.
도 3은 고해상도의 개요 이미지 또는 전체 이미지(300)를 개략적으로 도시한다. 주택(306)을 지나가는 도로(305) 또는 차도에서 근거리의 도로 사용자 및 원거리의 도로 사용자(304 및 303)가 있는 장면이 감지된다. 카메라 센서는 이러한 전체 이미지를 최대 너비, 높이 및 해상도(또는 픽셀 수)로 감지할 수 있다. 그러나 이러한 높은 데이터량(예, 5 내지 10 메가픽셀 범위)을 AD 시스템 또는 ADAS 시스템에서 실시간으로 처리하는 것은 일반적으로 불가능하여, 감소된 이미지 데이터가 추가로 처리된다.
도 4는 저해상도의 전체 이미지 또는 개요 이미지(401)를 개략적으로 도시한다.. 해상도가 절반이 되면 픽셀 수가 4배 감소한다. 저해상도의 개요 이미지(401)는 이하에서 wfov(광 시야각, wide field of view) 이미지라고 한다. 근거리 도로 사용자(404)(차량)는 해상도가 낮을 경우에도 wfov 이미지에서 감지될 수 있다.
그러나 원거리 도로 사용자(403)(보행자)는 제한된 해상도로 인해 이러한 wfov 이미지에서 감지할 수 없다.
도 5는 높은(또는 최대) 해상도를 갖는 중앙 이미지 섹션(502)을 개략적으로 도시한다. 고해상도의 이미지 섹션(502)은 이하에서 센터 이미지라고 한다.
센터 이미지는 해상도가 높아 원거리 보행자(503)의 감지를 가능하게 한다. 그에 비해 근거리 차량(504)은 센터 이미지(502)의 감지 영역에 포함되지 않거나 거의 포함되지 않는다(즉 매우 근소한 부분만 포함된다).
도 6은 제1 (개요) 감지 영역(601) 및 제2 중앙 감지 영역(602)의 선택적 배치를 도시하는 개략도이다. 이 중앙 감지 영역(602)은 “아래”, 즉 수직 방향으로 전체 감지 영역(601)과 동일한 높이에서 시작하여 아래에 있다. 시작값 x0, y0에 의해, 중앙 감지 영역(602)의 위치는 전체 감지 영역 또는 개요 감지 영역에서 수평 및 수직 방향으로 지정될 수 있다.
도 7은 상응하는 디지털 이미지의 그레이 스케일 이미지의 예를 도시한다. 하단부에 제1 이미지로서 차량의 정면 카메라가 감지한 wfov 이미지(701)가 보인다. 차량은 교차로를 향해 접근하고 있다. 다중 차선일 수 있는 넓은 도로가 주행 방향에 대해 수직으로 확장된다. 넓은 도로와 평행하게 자전거 도로가 연장된다. 신호등이 도로 사용자들의 선행권을 제어한다. 건물 및 나무들이 도로와 인도를 따라 늘어서 있다. 중앙 이미지 섹션(702)은 wfov 이미지(701)에 색이 바랜 방식으로 표시되어, 해상도가 더 높은 제2 이미지(센터 이미지)(7020)로서의 이 이미지 섹션이 정확하게 제1 이미지(701)의 이 이미지 섹션(702)에 대응한다는 것이 명확해진다. 제2 이미지(7020)는 상단에 도시되고 여기서 인간 관찰자는 차량에 대한 신호등이 빨간색이고, 버스가 교차로를 왼쪽에서 오른쪽으로 지금 막 가로질렀다는 것 및 감지된 장면의 기타 세부 사항을 쉽게 알 수 있다. 제2 이미지(7020)의 더 높은 해상도 덕분에, 더 멀리 있는 물체 또는 도로 사용자도 이미지 처리에 의해 강건하게 감지될 수 있다.
이미지 피라미드는 예를 들어 제2 (센터) 이미지에 대해 최고 단계에서 2304 x 1280 픽셀을, 제2 단계에서 1152 x 640 픽셀을, 제3 단계에서 576 x 320 픽셀을, 제4 단계에서 288 x 160 픽셀을, 제5 단계에서 144 x 80 픽셀 등을 가질 수 있다. 제1 (wfov) 이미지의 이미지 피라미드는 동일한 해상도에서 (즉 센터 이미지와 관련하여 동일한 단계에서) 당연히 더 많은 픽셀을 갖는다.
wfov 이미지와 센터 이미지는 일반적으로 서로 다른 피라미드 단계에서 파생되므로, 센터 이미지는 해상도 감소 연산을 통해 wfov 이미지의 해상도로 조정된다. 이때 일반적으로 센터 이미지의 특징 맵에서 채널 수는 증가한다(픽셀 당 정보 콘텐츠가 더 높음). 해상도 감소 연산은 예를 들어 스트라이딩(striding) 또는 풀링(pooling)이다. 스트라이딩의 경우, 매 두 번째(또는 네 번째 또는 n 번째) 픽셀만 판독된다. 풀링의 경우, 다수의 픽셀이 하나의 픽셀로 결합된다, 예를 들어 맥스 풀링(MaxPooling)의 경우 픽셀 풀의 최댓값(예를 들어 두 개 픽셀 또는 2x2 픽셀)이 적용된다.
제5 단계의 개요 이미지는 400 x 150 픽셀을 갖고, 제5 단계의 센터 이미지는 개요 이미지의 왼쪽 가장자리에서 수평 방향으로 x0 = 133 픽셀이고, 개요 이미지의 하단 가장자리에서 수직 방향으로 y0= 80 픽셀이라는 것이 가정된다. 각 픽셀은 출력 특징 맵에서 하나의 요소에 해당한다는 것이 가정된다. 이 경우, 제2 출력 특징 맵의 적응을 위해, 적응된 제2 출력 특징 맵의 채널이 요소별로 제1 출력 특징 맵의 채널과 병합될 수 있도록, 왼쪽에 행 당 133개의 제로(각 픽셀 당 하나), 위쪽에 열 당 70개의 제로, 오른쪽에 행 당 역시 133개의 픽셀이 추가되어야 한다. 시작값 x0, y0은 개요 영역의 (제1) 이미지 내 부분 영역의 (제2) 이미지 위치에서 결정된다. 시작값은 수평 및 수직 방향으로 변위 또는 확장을 지정한다.
도 8은 이러한 이미지들(예를 들어 도 7의 제1 이미지 또는 wfov 이미지(701) 및 제2 또는 센터 이미지(7020))이 기본적으로 융합될 수 있는 방법을 개략적으로 도시한다.
wfov 이미지는 입력 이미지 데이터로서 인공 신경망(예를 들어 CNN)의 제1 합성곱 계층(c1)에 전달된다.
센터 이미지는 입력 이미지 데이터로서 CNN의 제2 합성곱 계층(c2)에 전달된다. 각 합성곱 계층은 활성화 함수 및 선택적 풀링을 갖는다.
센터 이미지는 ‘대형’ 제로 패딩(ZP) 영역을 사용하여 채워져, 높이 및 너비가 wfov 이미지의 높이 및 너비와 일치하고, 공간적 관계가 유지된다. 도 7에 기초하여, 중앙 이미지 섹션(702)이 없는 영역(701)(즉, 도 7에서 wfov 이미지(701) 중 하단부에서 색이 바래지 않게 도시된 - 즉 짙게 도시된 - 영역)이 센터 이미지(7020)에 대해 제로로 채워지는 것을 생각할 수 있다. 센터 이미지(7020)의 해상도가 높을수록 제 2 합성곱 계층(c2)이 생성하는 (제2) 특징 맵의 깊이가 커진다. 제2 특징 맵의 높이 및 너비는 wfov 이미지(701)의 중앙 이미지 섹션(702)의 높이 및 너비와 일치한다. 제1 및 제2 특징 맵의 서로 다른 높이와 너비의 적응은 제2 특징 맵의 제로 패딩(ZP)에 의해 이루어진다.
wfov 이미지와 센터 이미지의 특징은 연결된다(cc).
연결된 특징은 융합된 특징 맵을 생성하는 제3 합성곱 계층(c3)에 전달된다.
(제로 패딩(ZP)에 의해 채워진) 제2 특징 맵을 사용한 합성곱의 범위에서 다수의 제로 곱셈이 필요하다. 합성곱 계층(c3)의 제로 패딩(ZP) 영역에서 이러한 ‘0’ 곱셈 계산은 불필요하므로 이점이 아니다. 그러나 예를 들어 알려진 CNN 가속기는 합성곱 커널의 적용 영역에 대한 공간적 제어를 허용하지 않으므로, 이 영역을 배제하는 것은 불가능하다.
그에 비해 두 특징 맵의 깊이가 서로 다를 수 있다는 것은 이점이다. 연결은 두 특징 맵을 “깊이 면에서 서로” 연결한다. 이는, 센터 이미지가 wfov 이미지보다 해상도가 더 높아 센터 이미지에서 더 많은 정보가 추출될 수 있는 경우에 특히 이점이다. 이런 점에서 이 방법이 비교적 유연하다.
도 9는 대안적인 제2 방법을 개략적으로 도시한다. wfov 특징 및 센터 특징은 (두 특징 맵의 연결(cc) 대신) 적합한 요소별 합(+)에 의해 병합되고, 이때 센터 이미지의 높이 및 너비는 특징 추출 후 제2 합성곱 계층(c2)에 의해 재차 제로 패딩(ZP)을 이용하여 사전에 조정된다. 요소별로 특징이 병합된 특징 맵은 제3 합성곱 계층(c3)에 전달된다.
이 방법에서도, 합에 의해 서로 다른 의미론적 의미의 특징이 병합되므로, 성능 저하가 수반된다. 또한, 텐서가 동일한 차원을 가져야 한다는 것은 이점이 아니다.
이점은 (제로 패딩(ZP) 영역에서) 제로를 합하는 것은 제로를 곱하는 것보다 훨씬 적은 계산 시간을 필요로 한다는 데 있다.
전술한 두 방법은 각각 이점과 단점을 제공한다. 각각의 이점을 활용하는 것이 바람직하며, 이는 깔끔하게 연결된 경우에 가능하다.
도 10는 바람직한 방법을 개략적으로 도시한다.
도 8에 도시된 제1 대안, 즉 연결에 의해 특징이 병합되는 것에서 출발하여, 이하에서 제로 패딩(ZP) 영역의 생략 가능한 제로 곱셈을 필요 없게 만드는 c3의 수학적 분해가 설명된다.
· 합성곱 계층 은 3차원 텐서 을(를) 특징 계층(채널)과 곱하고, n은 자연수이다.
· 종래의 2D 합성곱의 경우 아래가 적용되고:
여기서 i, j는 자연수이다.
· 도 8의 합성곱 계층(c3)에 대해
이 적용되며,
이는 연결된 입력 데이터에 대한 합성곱은 선형이기 때문이다.
이어지는 합성곱 계층과의 연결(도 8 참조)은 요소별 합산(+)이 이어지는 두 개의 감소된 합성곱 으로 변환된다:
.
감소된 두 합성곱 으로 생성된 특징 맵의 서로 다른 높이와 너비의 조정은 요소별 합(+) 이전에 이루어진다.
합성곱 커널 로 분해됨으로써 합성곱 는 런타임 효율적으로 센터 이미지의 축소된 크기에 적용된다. 이러한 요소별 합(+)은 현재 인공 신경망에 사용 가능한 가속기에 대해 런타임 중립적이다.
제로 패딩(ZP) 및 이어지는 합은 조정된 시작 위치에 센터 특징을 합하는 것과 동일하다. 대안적으로 센터 특징 맵은 사전에 제로로 초기화된 더 큰 영역에 작성될 수 있다. 이 경우 제로 패딩(ZP)은 암시적으로 발생한다.
c3에 이어지는 활성화 함수/풀링은 분할이 불가능하며 합산 후에 적용된다.
특히 제로로 구성된 대규모 채우기 영역에 대해서는 합성곱 연산이 계산되지 않는다.
전반적으로 이 실시예는 특별한 이점으로 다음을 제공한다.
a) 고해상도 ROI를 활용하여 예를 들어 원거리 객체에 대해 이미지 감지 센서의 넓은 시야각/감지 영역으로 최적의 전체 성능을 위해 서로 다른 (이미지) 피라미드 단계의 특징이 통합적으로 고려된다는 이점
b) 동시에 런타임 효율적인 방식으로 구현된다는 이점.
도 11 내지 도 13에 절차가 다른 방식으로 재차 도시된다.
도 11은 합성곱 코어(1110)에 의해 처리되는 두 개의 특징 맵(1101, 1102)의 연결을 개략적으로 도시하며, 이로부터 출력될 수 있는 융합된 특징 맵(1130)이 생성된다. 도 8의 유사한 상황과 다르게, 본 도면에서 특징 맵(1101, 1102)은 동일한 너비(w) 및 높이(h)를 갖는다. 두 맵은 두 개의 직사각형 면으로 단순화되어 도시된다. 연결은 깊이 측면에서 연이어 연결되는 것을 의미하며, 제2 특징 맵(1102)이 공간적으로 제1 특징 맵(1101) 뒤에 배치되는 방식으로 개략적으로 도시된다.
본 도면에서 합성곱 코어(1110)는 유사한 방식으로 반대 방향 해칭으로 표시되고, 이를 통해 제1 부분, 즉 가늘게 해칭으로 표시된 “제1 합성곱 2d 커널”은 제1 특징 맵(1101)을, 제2 합성곱 2d 커널(두껍게 해칭으로 표시됨)은 제2 특징 맵(1102)을 샘플링한다는 것이 도시된다.
결과는 융합된 출력 특징 맵(1130)이다. 합성곱의 결과로 융합된 특징 맵(1130)은 더 이상 제1 및 제2 특징 맵(1101, 1102)으로 분리될 수 없다.
도 12는 너비(w), 높이(h) 및 깊이(d)가 동일한 두 특징 맵을 융합하는 대안적인 프로세스를 개략적으로 도시한다. 특징 맵의 깊이(d)는 채널 수에 상응하거나 기본 이미지의 해상도에 좌우될 수 있다.
본 도면에서 제1 특징 맵(1201)은 제1 합성곱 2d 커널(1211)에 의해 샘플링되어 제1 출력 특징 맵(1221)이 생성되고, 제2 특징 맵(1202)은 제2 합성곱 2d 커널(1212)에 의해 샘플링되어 제2 출력 특징 맵(1222)이 생성된다. 합성곱 2d 커널(1211; 1212)은 예를 들어 3 x 3 x “입력 채널 수”의 차원을 가질 수 있고 출력 계층을 생성한다. 출력 특징 맵의 깊이는 합성곱 2d 커널(1211; 1212) 수에 의해 정의될 수 있다.
융합된 특징 맵(1230)은 두 출력 특징 맵(1221, 1222)으로부터 요소별 합(+)에 의해 계산될 수 있다.
본 도면의 프로세스, 즉 두 개의 별도의 합성곱이 각각 하나의 특징 맵에 대해 수행되고 이어서 이들이 간단하게 병합되는 것은 두 개의 특징 맵이 연결되고 이어서 합성곱이 수행되는 도 11에 따른 절차와 동일하다.
도 13은 도 10에 도시된 프로세스에 상응하는, 너비와 높이가 서로 다른 두 개의 특징 맵을 융합하는 프로세스를 개략적으로 도시한다.
(wfov 이미지에서 계산된) 제1 특징 맵(1301)은 너비(w) 및 높이(h)는 더 크고 그에 비해 깊이(d)는 더 작다. 그에 비해 (고해상도 센터 이미지 섹션에서 계산된) 제2 특징 맵(1302)은 너비(w) 및 높이(h)는 더 작고 깊이(d)는 더 크다.
제1 합성곱 2d 커널(1311)은 제1 특징 맵(1301)을 샘플링하고, 이로부터 깊이(d)가 증가된 제1 출력 특징 맵(1321)이 생성된다. 제2 특징 맵은 제2 합성곱 2d 커널(1312)에 의해 샘플링되고, 이로부터 제2 출력 특징 맵(1322)(대각선으로 해칭 표시된 직육면체 영역)이 생성된다. 제2 출력 특징 맵의 깊이(d)는 제1 출력 특징 맵의 깊이와 동일하다.
제1 및 제2 출력 특징 맵(1321, 1322)을 융합하기 위해 개요 영역 내에서 부분 영역의 위치를 고려하는 것이 합리적이다. 이에 따라 제2 출력 특징 맵(1322)의 높이 및 너비가 증가되어 제1 출력 특징 맵(1321)의 높이 및 너비에 상응한다. 조정을 위한 너비 및 높이의 시작값은 예를 들어 도 6 및 도 7에서 전체 개요 영역(601 또는 701)에서 중앙 영역(602 또는 702)의 위치가 예를 들어 시작값 x0, y0 또는 이로부터 파생된 특징 맵의 너비 및 높이 시작값 xs, ys의 형태로 지정됨으로써 결정될 수 있다.
제2 출력 특징 맵(1322)에 없는 영역(왼쪽, 오른쪽 및 상부)은 제로로 채워진다(제로 패딩). 이에 따라 조정된 제2 출력 특징 맵은 이제 요소별 합에 의해 간단하게 제1 출력 특징 맵(1321)과 융합될 수 있다. 이런 방식으로 융합된 특징 맵(1330)은 도 13 하단부에 도시된다.
도 14는 가능한 방법 프로세스를 개략적으로 도시한다.
제1 단계 S1에서 적어도 하나의 이미지 감지 센서의 입력 데이터가 수신된다. 입력 센서 데이터는 예를 들어 주행 방향을 향하는 차량의 두 개의 ADAS 센서, 예를 들어 부분적으로 감지 영역이 중첩되는 협각 카메라(narrow angle camera)와 라이다에 의해 생성될 수 있다. 라이다 센서는 넓은 감지 영역(예를 들어 100° 또는 120° 이상의 개방각)을 가질 수 있고, 이로부터 장면의 제1 이미지 또는 제1 표현이 생성된다. 협각 카메라는 장면의 (중앙의) 부분 영역만 감지하지만(예를 들어 감지 각도 50° 미만), 더 멀리 있는 물체를 감지할 수 있어서, 이로부터 장면의 제2 표현이 생성된다. 라이다 센서 및 협각 카메라 센서의 입력 데이터를 융합할 수 있기 위해, 차량 전방의 도로면에 조감도를 표현하는 이미지에 원시 센서 데이터가 맵핑될 수 있다.
중첩 영역에는 라이다 데이터 및 협각 카메라 데이터가, 측면 가장자리 영역에는 라이다 데이터만, 그리고 전방의 원거리 영역에는 협각 데이터만 존재한다.
제2 단계 S2에서 입력 데이터로부터 제1 특징 맵이 결정된다. 라이다 센서의 (제1) 이미지로부터 제1 높이 및 너비(또는 조감도에서 도로면 깊이 및 너비)를 갖는 제1 특징 맵이 생성될 수 있다.
제3 단계 S3에서 입력 데이터로부터 제2 특징 맵이 결정된다. 협각 카메라의 감지 영역의 (제2) 이미지에서 제2 높이 및 너비를 갖는 제2 특징 맵이 생성될 수 있다. 이때 제2 특징 맵의 너비는 제1 특징 맵의 너비보다 작고, 제2 특징 맵의 높이(주행 방향으로 거리)는 제1 특징 맵의 높이보다 크다.
제4 단계 S4에서 제1 특징 맵을 기초로 제1 출력 특징 맵이 결정된다. 제1 출력 특징 맵의 계산은 제1 특징 맵의 제1 합성곱에 의해 이루어진다.
제5 단계 S5에서 제2 특징 맵을 기초로 제2 출력 특징 맵이 결정된다. 제2 출력 특징 맵의 계산은 제2 특징 맵의 제2 합성곱에 의해 이루어진다. 제2 합성곱은 높이 및 너비 면에서 제2 특징 맵의 높이 및 너비로 제한된다.
제6 단계 S6에서 제1 및 제2 출력 특징 맵의 서로 다른 차원의 적응, 특히 높이 및/또는 너비의 조정이 수행된다.
제1 변형예에 따르면, 이를 위해 제1 출력 특징 맵의 높이는 제2 출력 특징 맵의 높이에 상응하도록 증가될 수 있다. 제2 출력 특징 맵의 너비는 제1 출력 특징 맵의 너비에 상응하도록 증가된다. 확대에 의해 새로 추가된 각각의 (적응된) 출력 특징 맵의 영역은 제로로 채워진다(제로 패딩).
제2 변형예에 따르면, 먼저 출력 특징 맵 템플릿이 생성되고, 이의 너비 및 높이는 제1 및 제2 출력 특징 맵의 높이 및 너비 그리고 중첩 영역의 위치에서 생겨난다. 출력 특징 맵 템플릿은 제로로 채워진다. 이 경우, 출력 특징 맵 템플릿은 제1 출력 특징 맵의 너비와 제2 출력 특징 맵의 높이를 갖는다.
적응된 제1 출력 특징 맵의 경우, 제1 출력 특징 맵의 요소는 제1 출력 특징 맵이 커버하는 영역에 적용된다. 이를 위해 제1 출력 특징 맵의 위치를 출력 특징 맵 템플릿에 수직 및 수평 방향으로 지정하는 시작값이 사용될 수 있다. 라이다 출력 특징 맵은 예를 들어 출력 특징 맵 템플릿의 전체 너비에 걸쳐 확장되지만, 먼 거리 영역은 비어 있다. 따라서 수직 방향으로 출력 특징 맵 템플릿이 “채워지기” 시작하는 시작값 ys이 사전 지정될 수 있다.
동일한 방식으로, 제로로 사전에 채워진 출력 특징 맵 템플릿에서 출발하여, 적합한 시작 위치에서부터 제2 출력 특징 맵의 요소가 추가되어 적응된 제2 출력 특징 맵이 생성된다.
라이다 출력 특징 맵은 예를 들어 수평 방향의 시작 위치 xs부터 적용되어 수직 방향으로 전체 높이에 걸쳐 확장된다.
제7 단계 S7에서 적응된 제1 및 제2 출력 특징 맵은 요소별 합에 의해 융합된다. 높이 및 너비가 적응됨으로써 일반적인 CNN 가속기에 대해 두 출력 특징 맵을 직접 요소별로 합하는 것이 가능하다. 결과는 융합된 특징 맵이다.
제2 출력 특징 맵이 전체 중첩 영역(즉 개요 영역을 포함하는 제1 출력 특징 맵의 진정한 부분 영역, 도 13 참조)을 포함하는 특수한 경우, 오직 중첩 영역에서 적합한 시작값들 xs,ys에 의해 제2 출력 특징 맵의 제1 출력 특징 맵으로의 요소별 합을 수행함으로써 제2 출력 특징 맵의 서로 다른 높이 및 너비의 적응이 생략될 수 있다. 이 경우 융합된 특징 맵의 높이 및 너비는 제1 출력 특징 맵의 높이 및 너비와 동일하다(도 13 참조).
제8 단계 S8에서 융합된 특징 맵이 출력된다.
1 이미지 감지 센서
10 시스템
12 입력 인터페이스
14 데이터 처리 유닛
16 융합 모듈
18 출력 인터페이스
20 제어 유닛
101 개요 영역
102 부분 영역
300 고해상도의 개요 이미지
303 보행자 또는 원거리의 도로 사용자
304 차량 또는 근거리의 도로 사용자
305 도로 또는 차도
306 주택
401 저해상도의 개요 이미지
403 보행자(감지될 수 없음)
404 차량
502 고해상도의 중앙 이미지 섹션
503 보행자
504 차량(감지될 수 없거나 완전하게 감지될 수 없음)
601 개요 영역
602 부분 영역
701 저해상도의 개요 이미지
702 고해상도 이미지 섹션의 감지 영역
7020 고해상도의 (중앙) 이미지 섹션
1101 제1 특징 맵
1102 제2 특징 맵
1110 합성곱 커널
1130 융합된 특징 맵
1201 제1 특징 맵
1202 제2 특징 맵
1211 제1 합성곱 2d 커널
1212 제2 합성곱 2d 커널
1221 제1 출력 특징 맵
1222 제2 출력 특징 맵
1230 융합된 특징 맵
1301 제1 특징 맵
1302 제2 특징 맵
1311 제1 합성곱 2d 커널
1312 제2 합성곱 2d 커널
1321 제1 출력 특징 맵
1322 제2 출력 특징 맵
1330 융합된 특징 맵
x0 수평 방향 시작값
y0 수직 방향 시작값 또는 확장값
wfov 저해상도 개요 이미지
center 고해상도 (중앙) 이미지 섹션
ck 합성곱 계층 k; k ∈ (활성화 함수 및 선택적 풀링 포함)
ZP 제로 패딩
cc 연결
요소별 합
w 너비
h 높이
d 깊이

Claims (15)

  1. 적어도 하나의 이미지 감지 센서(1)의 이미지 데이터를 융합하는 방법으로서,
    a) 입력 이미지 데이터를 수신하는 단계 S1로서, 상기 입력 이미지 데이터는,
    - 장면의 제1 영역(101, 601)을 포함하는 제1 이미지(401, 701) 및
    - 상기 장면의 제2 영역(102, 602)을 포함하는 제2 이미지(502, 702) - 상기 제1 및 제2 영역은 서로 중첩되나 동일하지는 않음- 을 포함하는 단계;
    b) 상기 제1 이미지(401, 701)를 기초로 제1 높이 및 너비를 갖는 제1 특징 맵(1301)을 결정하는 단계 S2 및 상기 제2 이미지(502, 702)를 기초로 제2 높이 및 너비를 갖는 제2 특징 맵(1302)을 결정하는 단계 S3;
    c) 상기 제1 특징 맵(1301)의 제1 합성곱을 이용하여 제1 출력 특징 맵(1321)을 계산하는 단계 S4 및 상기 제2 특징 맵(1302)의 제2 합성곱을 이용하여 제2 출력 특징 맵(1322)을 계산하는 단계 S5;
    d) 상기 제1 및 제2 영역의 서로에 대한 위치를 고려하여, 중첩 영역에서 요소가 병합되는, 상기 제1 및 제2 출력 특징 맵(1321, 1322)의 요소별 합에 의해 융합 특징 맵(1330)을 계산하는 단계 S7, 및
    e) 상기 융합 특징 맵(1330)을 출력하는 단계 S8를 포함하는 이미지 데이터를 융합하는 방법.
  2. 제1항에 있어서, 상기 제1 이미지 및 상기 제2 이미지는 동일한 이미지 감지 센서에 의해 감지되는, 이미지 데이터를 융합하는 방법.
  3. 제1항 또는 제2항에 있어서, 상기 제1 이미지(401; 701) 및 제2 이미지(502; 702)는 이미지 감지 센서의 이미지 피라미드의 서로 다른 단계에 해당하는, 이미지 데이터를 융합하는 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 제1 영역(101, 601)은 상기 장면의 개요 영역이고, 상기 제2 영역(502, 702)는 상기 장면의 개요 영역의 부분 영역인, 이미지 데이터를 융합하는 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 제1 이미지는 제1 해상도를 갖고, 제2 이미지는 제2 해상도를 가지며, 상기 제2 해상도는 상기 제1 해상도보다 높은, 이미지 데이터를 융합하는 방법.
  6. 제1항, 제4항 또는 제5항 중 어느 한 항에 있어서, 이미지 감지 센서로 감지 영역이 중첩되는 두 개의 단안 카메라가 사용되는, 이미지 데이터를 융합하는 방법.
  7. 제1항, 제4항 또는 제5항에 있어서, 전방위 카메라 시스템의 다수의 카메라가 이미지 감지 센서로 사용되는, 이미지 데이터를 융합하는 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 제1 및 제2 출력 특징 맵(1321, 1322)는 중첩 영역에서 동일한 높이 및 너비를 갖는, 이미지 데이터를 융합하는 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 융합된 특징 맵(1330)의 높이 및 너비는 상기 제1 및 제2 출력 특징 맵(1321, 1322)을 둘러싸는 직사각형에 의해 결정되는, 이미지 데이터를 융합하는 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 특징 맵(1301, 1302, 1321, 1322)은 각각 상기 이미지(401; 502; 701; 702)의 상기 해상도에 좌우되는 깊이를 갖는, 이미지 데이터를 융합하는 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서, 상기 융합된 특징 맵은 ADAS/AD 관련 정보를 결정하도록 구성된 인공 신경망의 인코더에서 생성되는, 이미지 데이터를 융합하는 방법.
  12. 제11항에 있어서, ADAS/AD 관련 정보를 결정하도록 구성된 상기 인공 신경망은 서로 다른 ADAS/AD 감지 기능에 대해 다수의 디코더를 포함하는, 이미지 데이터를 융합하는 방법.
  13. 입력 인터페이스(12), 데이터 처리 유닛(14) 및 출력 인터페이스(18)를 포함하는, 적어도 하나의 이미지 감지 센서의 이미지 데이터를 융합하는 시스템(10)으로서,
    a) 상기 입력 인터페이스(12)는 입력 이미지 데이터를 수신하도록 구성되고, 상기 입력 이미지 데이터는
    - 장면의 제1 영역(101, 601)을 포함하는 제1 이미지(401, 701) 및
    - 상기 장면의 제2 영역(102, 602)을 포함하는 제2 이미지(502, 702)로서 상기 제1 및 제2 영역은 서로 중첩되나 동일하지는 않은 제2 이미지를 포함하고;
    상기 데이터 처리 유닛(14)은
    b) 상기 제1 이미지(401, 701)를 기초로 제1 높이 및 너비를 갖는 제1 특징 맵(1301)을 결정 및 상기 제2 이미지(502, 702)를 기초로 제2 높이 및 너비를 갖는 제2 특징 맵(1302)을 결정하고;
    c) 상기 제1 특징 맵(1301)의 제1 합성곱을 이용하여 제1 출력 특징 맵(1321)을 계산, 및 상기 제2 특징 맵(1302)의 제2 합성곱을 이용하여 제2 출력 특징 맵(1322)을 계산하고;
    그리고
    d) 상기 제1 및 제2 영역의 서로에 대한 위치를 고려하여, 중첩 영역에서 상기 요소가 병합되는, 상기 제1 및 제2 출력 특징 맵(1321, 1322)의 요소별 합에 의해 융합 특징 맵을 계산하도록 구성되고; 그리고
    e) 상기 출력 인터페이스(18)는 상기 융합된 특징 맵(1330)을 출력하도록 구성되는, 이미지 데이터를 융합하는 시스템.
  14. 제13항에 있어서, 상기 시스템(10)은 인코더 및 적어도 하나의 디코더를 갖는 합성곱 신경망을 포함하고, 상기 입력 인터페이스(12), 상기 데이터 처리 유닛(14) 및 상기 출력 인터페이스(18)는 인코더에서 구현되어 상기 인코더는 상기 융합된 특징 맵을 생성하도록 구성되고, 상기 적어도 하나의 디코더는 ADAS/AD 감지 기능이 적어도 상기 융합된 특징 맵을 기초로 구현되도록 구성되는, 이미지 데이터를 융합하는 시스템.
  15. 이미지 감지 센서(1) 및 제13항 또는 제14항에 따른 시스템(10)을 갖는 차량.
KR1020247015565A 2021-12-03 2022-11-10 인공 신경망의 맥락에서 이미지 데이터를 융합하는 방법 KR20240073992A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE102021213757.1A DE102021213757B3 (de) 2021-12-03 2021-12-03 Verfahren zum Fusionieren von Bilddaten im Kontext eines künstlichen neuronalen Netzwerks
DE102021213757.1 2021-12-03
PCT/DE2022/200262 WO2023098956A1 (de) 2021-12-03 2022-11-10 Verfahren zum fusionieren von bilddaten im kontext eines künstlichen neuronalen netzwerks

Publications (1)

Publication Number Publication Date
KR20240073992A true KR20240073992A (ko) 2024-05-27

Family

ID=84364287

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020247015565A KR20240073992A (ko) 2021-12-03 2022-11-10 인공 신경망의 맥락에서 이미지 데이터를 융합하는 방법

Country Status (4)

Country Link
KR (1) KR20240073992A (ko)
CN (1) CN118251669A (ko)
DE (1) DE102021213757B3 (ko)
WO (1) WO2023098956A1 (ko)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015208889A1 (de) 2015-05-13 2016-11-17 Conti Temic Microelectronic Gmbh Kameravorrichtung und Verfahren zum Abbilden eines Umfeldes für ein Kraftfahrzeug
EP3229172A1 (en) 2016-04-04 2017-10-11 Conti Temic microelectronic GmbH Driver assistance system with variable image resolution
DE102016213494A1 (de) 2016-07-22 2018-01-25 Conti Temic Microelectronic Gmbh Kameravorrichtung sowie Verfahren zur Erfassung eines Umgebungsbereichs eines eigenen Fahrzeugs
WO2018103795A1 (de) 2016-12-06 2018-06-14 Conti Temic Microelectronic Gmbh Kameravorrichtung sowie verfahren zur situationsangepassten erfassung eines umgebungsbereichs eines fahrzeugs
US10430691B1 (en) 2019-01-22 2019-10-01 StradVision, Inc. Learning method and learning device for object detector based on CNN, adaptable to customers' requirements such as key performance index, using target object merging network and target region estimating network, and testing method and testing device using the same to be used for multi-camera or surround view monitoring
DE102020204840A1 (de) 2020-04-16 2021-10-21 Conti Temic Microelectronic Gmbh Prozessierung von Mehrkanal-Bilddaten einer Bildaufnahmevorrichtung durch einen Bilddatenprozessor
CN111815690B (zh) 2020-09-11 2020-12-08 湖南国科智瞳科技有限公司 一种用于显微图像实时拼接的方法、系统和计算机设备
CN113516155A (zh) * 2021-04-12 2021-10-19 佛山市顺德区美的洗涤电器制造有限公司 用于处理图像的方法、处理器、控制装置及家用电器

Also Published As

Publication number Publication date
DE102021213757B3 (de) 2023-02-02
WO2023098956A1 (de) 2023-06-08
CN118251669A (zh) 2024-06-25

Similar Documents

Publication Publication Date Title
CN111563923B (zh) 获得稠密深度图的方法及相关装置
EP3516624B1 (en) A method and system for creating a virtual 3d model
JP6766844B2 (ja) 物体識別装置、移動体用システム、物体識別方法、物体識別モデルの学習方法及び物体識別モデルの学習装置
US11670087B2 (en) Training data generating method for image processing, image processing method, and devices thereof
CN112889071B (zh) 用于确定二维图像中深度信息的系统和方法
US20210064913A1 (en) Driving assistant system, electronic device, and operation method thereof
CN113159151A (zh) 面向自动驾驶的多传感器深度融合3d目标检测方法
CN113312983B (zh) 基于多模态数据融合的语义分割方法、系统、装置及介质
CN107273788A (zh) 在车辆中执行车道检测的成像系统与车辆成像系统
KR20200071293A (ko) 3차원 컬러 맵 기반의 측위 방법 및 장치
Yeol Baek et al. Scene understanding networks for autonomous driving based on around view monitoring system
CN112257668A (zh) 主辅路判断方法、装置、电子设备及存储介质
Li et al. Automatic parking slot detection based on around view monitor (AVM) systems
CN114119992A (zh) 基于图像与点云融合的多模态三维目标检测方法及装置
CN115147328A (zh) 三维目标检测方法及装置
CN114549542A (zh) 视觉语义分割方法、装置及设备
US20220270327A1 (en) Systems and methods for bounding box proposal generation
CN114118247A (zh) 一种基于多传感器融合的无锚框3d目标检测方法
CN112990049A (zh) 用于车辆自动驾驶的aeb紧急制动方法、装置
KR20240073992A (ko) 인공 신경망의 맥락에서 이미지 데이터를 융합하는 방법
KR20240076833A (ko) 인공 신경망의 맥락에서 센서 데이터를 융합하는 방법
CN114359891B (zh) 一种三维车辆检测方法、系统、装置及介质
Zhang et al. Capitalizing on RGB-FIR hybrid imaging for road detection
US20230386223A1 (en) Electronic device for determining bumps and depressions on ground and operation method thereof
CN115240168A (zh) 感知结果获取方法、装置、计算机设备、存储介质