KR102546206B1 - 멀티 스케일 특징들의 상관관계 및 지역적 연관성을 활용한 시맨틱 세그멘테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 - Google Patents

멀티 스케일 특징들의 상관관계 및 지역적 연관성을 활용한 시맨틱 세그멘테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 Download PDF

Info

Publication number
KR102546206B1
KR102546206B1 KR1020230030962A KR20230030962A KR102546206B1 KR 102546206 B1 KR102546206 B1 KR 102546206B1 KR 1020230030962 A KR1020230030962 A KR 1020230030962A KR 20230030962 A KR20230030962 A KR 20230030962A KR 102546206 B1 KR102546206 B1 KR 102546206B1
Authority
KR
South Korea
Prior art keywords
features
point cloud
image
data
extracting
Prior art date
Application number
KR1020230030962A
Other languages
English (en)
Inventor
윤재근
오승진
송광호
Original Assignee
주식회사 인피닉
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 인피닉 filed Critical 주식회사 인피닉
Priority to KR1020230030962A priority Critical patent/KR102546206B1/ko
Application granted granted Critical
Publication of KR102546206B1 publication Critical patent/KR102546206B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/86Combinations of lidar systems with systems other than lidar, radar or sonar, e.g. with direction finders
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S17/00Systems using the reflection or reradiation of electromagnetic waves other than radio waves, e.g. lidar systems
    • G01S17/88Lidar systems specially adapted for specific applications
    • G01S17/89Lidar systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Remote Sensing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Electromagnetism (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 자율 주행 차량이 주행환경을 3차원으로 인지하기 위하여 카메라 및 라이다의 센서 퓨전을 통해 멀티 모달 기반의 3차원 시맨틱 세그멘테이션을 수행하기 위한, 시맨틱 세그멘테이션 방법을 제안한다. 상기 방법은 학습 데이터 생성 장치가, 라이다(lidar)로부터 획득된 점군 데이터(point cloud) 및 동시에 카메라(camera)를 통해 촬영된 이미지(image)를 수신하는 단계, 상기 학습 데이터 생성 장치가, 상기 점군 데이터 및 상기 이미지로부터 다중 크기의 특징들을 추출하고, 추출한 특징들 사이의 지역적 연관성 및 채널 간 상관관계를 활용하여 심층 특징을 추출하는 단계 및 상기 학습 데이터 생성 장치가, 상기 추출한 심층 특징으로부터 세그멘테이션 추론 벡터를 생성하는 단계를 포함할 수 있다.

Description

멀티 스케일 특징들의 상관관계 및 지역적 연관성을 활용한 시맨틱 세그멘테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램{Method for semantic segmentation using correlations and regional associations of multi-scale features, and computer program recorded on record-medium for executing method thereof}
본 발명은 인공지능(Artificial Intelligence, AI) 학습용 데이터의 가공에 관한 것이다. 보다 상세하게는, 자율 주행 차량이 주행환경을 3차원으로 인지하기 위하여 카메라 및 라이다의 센서 퓨전을 통해 멀티 모달 기반의 3차원 시맨틱 세그멘테이션을 수행하기 위한, 멀티 스케일 특징들의 상관관계 및 지역적 연관성을 활용한 시맨틱 세그멘테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램에 관한 것이다.
인공지능(AI)은 인간의 학습능력, 추론능력 및 지각능력 등의 일부 또는 전부를 컴퓨터 프로그램을 이용하여 인공적으로 구현하는 기술을 의미한다. 인공지능(AI)과 관련하여, 기계 학습(machine learning)은 다수의 파라미터로 구성된 모델을 이용하여 주어진 데이터로 파라미터를 최적화하는 학습을 의미한다. 이와 같은, 기계 학습은 학습용 데이터의 형태에서 따라, 지도 학습(supervised learning), 비지도 학습(unsupervised learning) 및 강화 학습(reinforcement learning)으로 구분된다.
일반적으로, 인공지능(AI) 학습용 데이터의 설계는 데이터 구조의 설계, 데이터의 수집, 데이터의 정제, 데이터의 가공, 데이터의 확장 및 데이터의 검증 단계로 진행된다.
각각의 단계에서 대하여 보다 구체적으로 설명하면, 데이터 구조의 설계는 온톨로지(ontology) 정의, 분류 체계의 정의 등을 통해 이루어진다. 데이터의 수집은 직접 촬영, 웹 크롤링(web crawling) 또는 협회/전문 단체 등을 통해 데이터를 수집하여 이루어진다. 데이터 정제는 수집된 데이터 내에서 중복 데이터를 제거하고, 개인 정보 등을 비식별화하여 이루어진다. 데이터의 가공은 어노테이션(annotation)을 수행하고, 메타데이터(metadata)를 입력하여 이루어진다. 데이터의 확장은 온톨로지 매핑(mapping)을 수행하고, 필요에 따라 온톨로지를 보완하거나 확장하여 이루어진다. 그리고, 데이터의 검증은 다양한 검증 도구를 활용하여 설정된 목표 품질에 따른 유효성을 검증하여 이루어진다.
한편, 차량의 자율주행(automatic driving)은 차량 스스로 판단하여 주행할 수 있는 시스템을 의미한다. 이와 같은, 자율주행은 시스템이 주행에 관여하는 정도와 운전차가 차량을 제어하는 정도에 따라 비자동화부터 완전 자동화까지 점진적인 단계로 구분될 수 있다. 일반적으로, 자율주행의 단계는 국제자동차기술자협회(SAE(Society of Automotive Engineers) International)에서 분류한 6단계의 레벨로 구분된다. 국제자동차기술자협회가 분류한 6단계에 따르면, 레벨 0단계는 비자동화, 레벨 1단계는 운전자 보조, 레벨 2단계는 부분 자동화, 레벨 3단계는 조건부 자동화, 레벨 4단계는 고도 자동화, 그리고 레벨 5단계는 완전 자동화 단계이다.
차량의 자율주행은 인지(perception), 측위(localization), 경로 계획(path planning) 및 제어(control)의 메커니즘을 통해 수행된다. 현재 여러 기업체들은 자율주행 메커니즘 중에서 인지 및 경로 계획을 인공지능(AI)을 이용하여 구현하기 위해 개발 중에 있다.
최근에는 자율 주행 기능의 오인식으로 인한 차량의 사고들로 자율 주행의 안정성 문제가 대두됨에 따라, 자율 주행을 위한 인지 기술에 라이다(lidar) 같은 3차원적 특성을 가진 센서들을 접목하는 센서 퓨전(sensor fusion) 기술과 주행환경을 3차원으로 인식할 수 있는 3차원 시맨틱 세그멘테이션(semantic segmentation) 기술 등이 포함되어야 한다는 필요성이 제기되고 있다.
대한민국 등록특허공보 제10-2073873호, ‘시맨틱 세그멘테이션 방법 및 그 장치’, (2020.01.30. 등록)
본 발명의 일 목적은 자율 주행 차량이 주행환경을 3차원으로 인지하기 위하여 카메라 및 라이다의 센서 퓨전을 통해 멀티 모달 기반의 3차원 시맨틱 세그멘테이션을 수행하기 위한, 멀티 스케일 특징들의 상관관계 및 지역적 연관성을 활용한 시맨틱 세그멘테이션 방법을 제공하는 것이다.
본 발명의 또 다른 목적은 자율 주행 차량이 주행환경을 3차원으로 인지하기 위하여 카메라 및 라이다의 센서 퓨전을 통해 멀티 모달 기반의 3차원 시맨틱 세그멘테이션을 수행하기 위한, 멀티 스케일 특징들의 상관관계 및 지역적 연관성을 활용한 시맨틱 세그멘테이션 방법을 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램을 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상술한 바와 같은 기술적 과제를 달성하기 위하여, 본 발명은 자율 주행 차량이 주행환경을 3차원으로 인지하기 위하여 카메라 및 라이다의 센서 퓨전을 통해 멀티 모달 기반의 3차원 시맨틱 세그멘테이션을 수행하기 위한, 시맨틱 세그멘테이션 방법을 제안한다. 상기 방법은 학습 데이터 생성 장치가, 라이다(lidar)로부터 획득된 점군 데이터(point cloud) 및 동시에 카메라(camera)를 통해 촬영된 이미지(image)를 수신하는 단계, 상기 학습 데이터 생성 장치가, 상기 점군 데이터 및 상기 이미지로부터 다중 크기의 특징들을 추출하고, 추출한 특징들 사이의 지역적 연관성 및 채널 간 상관관계를 활용하여 심층 특징을 추출하는 단계 및 상기 학습 데이터 생성 장치가, 상기 추출한 심층 특징으로부터 세그멘테이션 추론 벡터를 생성하는 단계를 포함할 수 있다.
구체적으로, 상기 심층 특징을 추출하는 단계는 복수의 컨벌루션 블록들을 통해 상기 점군 데이터 및 상기 이미지 각각으로부터 입력 대비 사전 설정된 크기로 축소된 특징맵을 추출하는 것을 특징으로 한다.
상기 심층 특징을 추출하는 단계는 점군 데이터 및 이미지 각각에 대해 1/2, 1/4의 크기로 단계적 축소된 특징맵을 추출하고, 이를 센서 퓨전으로 융합한 심층 특징맵을 1/8, 1/16 크기까지 재차 단계적으로 축소한 특징맵을 추출하는 것을 특징으로 한다.
상기 심층 특징을 추출하는 단계는 상기 점군 데이터 및 상기 이미지 각각으로부터 추출된 특징맵을 정합(concatenate)하여 센서 퓨전을 수행하는 것을 특징으로 한다.
상기 복수의 컨벌루션 블록들은 상기 점군 데이터 및 상기 이미지에 포함된 특징 간 상관관계를 학습하는 분할-어텐션 모듈 및 다중 크기 특징을 추출하는 다중 크기(multi scale) 어텐션 모듈로 구성되어, 상기 점군 데이터 및 상기 이미지에 포함된 요소들을 특징으로 추출함과 동시에, 추출된 특징 사이의 상관관계를 학습하는 것을 특징으로 한다.
상기 트랜스포머 블록은 상기 센서 퓨전 수행된 융합 특징에 컨벌루션 기반 중첩 패치 추출 방법과 자가-어텐션 방법을 적용해 패치간 지역적 연관성을 학습하는 것을 특징으로 한다.
상기 벡터를 생성하는 단계는 상기 심층 특징맵을 컨벌루션, 확장(upsampling) 및 접합 연산의 반복을 통해 (H, W, C)로 표현되는 추론맵으로 복원하는 것을 특징으로 한다.
상기 벡터를 생성하는 단계는 상기 (H, W, C)로 표현되는 추론맵을 (H*W, C)로 재구성하여 함께 출력하는 것을 특징으로 한다.
상기 벡터를 생성하는 단계는 상기 재구성된 추론맵을 손실함수 및 평가함수에 적용하는 것을 특징으로 한다.
상기 손실함수는 하기의 수학식 1과 같과 같이, 정답값 및 추론값 사이의 복수의 손실값을 합산하여 계산하는 것을 특징으로 한다.
[수학식 1]
Figure 112023026928567-pat00001
상기 손실함수는 하기의 수학식 2, 수학식 3 및 수학식 4를 통해 계산된 손실값을 합산하여 계산하는 것을 특징으로 한다.
[수학식 2]
Figure 112023026928567-pat00002
[수학식 3]
Figure 112023026928567-pat00003
[수학식 4]
Figure 112023026928567-pat00004
(여기서, Ypred는 세그멘테이션 추론값, Ytrue는 정답값, ε는 smooth(1e-6)을 의미한다.)
상술한 바와 같은 기술적 과제를 달성하기 위하여, 본 발명은 시맨틱 세그멘테이션 방법을 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램을 제안한다. 상기 컴퓨터 프로그램은 메모리(memory), 송수신기(transceiver) 및 상기 메모리에 상주된 명령어를 처리하는 프로세서(processor)를 포함하여 구성된 컴퓨팅 장치와 결합될 수 있다. 그리고, 상기 컴퓨터 프로그램은 상기 프로세서가, 라이다(lidar)로부터 획득된 점군 데이터(point cloud) 및 동시에 카메라(camera)를 통해 촬영된 이미지(image)를 수신하는 단계, 상기 프로세서가, 상기 점군 데이터 및 상기 이미지로부터 다중 크기의 특징들을 추출하고, 추출한 특징들 사이의 지역적 연관성 및 채널 간 상관관계를 활용하여 심층 특징을 추출하는 단계 및 상기 프로세서가, 상기 추출한 심층 특징으로부터 세그멘테이션 추론 벡터를 생성하는 단계를 실행시키기 위하여, 기록매체에 기록된 컴퓨터 프로그램이 될 수 있다.
기타 실시 예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 실시 예들에 따르면, 자율 주행 차량이 주행환경을 3차원으로 인지하기 위하여 카메라 및 라이다의 센서 퓨전을 통해 멀티 모달 기반의 3차원 시맨틱 세그멘테이션을 수행할 수 있다.
본 발명의 효과들은 이상에서 언급한 효과로 제한되지 아니하며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 본 발명이 속한 기술분야의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 인공지능 학습 시스템을 나타낸 구성도이다.
도 2는 본 발명의 일 실시예에 따른 학습 데이터 수집 장치의 구성을 설명하기 위한 예시도이다.
도 3은 본 발명의 일 실시예에 따른 학습 데이터 생성 장치의 논리적 구성도이다.
도 4는 본 발명의 일 실시예에 따른 학습 데이터 생성 장치의 하드웨어 구성도이다.
도 5는 본 발명의 일 실시예에 따른 시맨틱 세그멘테이션 방법을 나타낸 순서도이다
도 6 내지 도 8은 본 발명의 일 실시예에 따른 시맨틱 세그멘테이션 방법을 설명하기 위한 예시도이다.
본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 명세서에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.
또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "구성된다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
또한, 본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.
어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다. 본 발명의 사상은 첨부된 도면 외에 모든 변경, 균등물 내지 대체물에 까지도 확장되는 것으로 해석되어야 한다.
한편, 최근에는 라이다(lidar)와 같은 3차원 센서 및 카메라와 같은 2차원 센서로부터 취득한 멀티 모달(multi modal) 데이터를 융합하는 센서 퓨전(sensor fusion)과, 객체 인식의 단위를 데이터의 구성 단위까지 확장하는 시맨틱 세그멘테이션(semantic segmentation)이 활발히 연구되고 있다.
센서 퓨전은 이종의 센서로부터 취득한 멀티 모달 데이터를 상호 융합하는 기술이다. 센서 퓨전은 딥러닝 분야에서 다수의 원천(source)으로부터 형성된 데이터 또는 정보들이 융합되는 시점에 따라 세 가지 종류로 구분한다.
데이터 단계 퓨전(data level or early fusion)은 원천으로부터 취득된 데이터 자체를 융합하여 새로운 표현형을 갖는 융합 데이터를 만든다. 이 융합데이터는 신경망에 전달되어 특징맵(feature map)을 추출, 결과 추론 맵(prediction map)을 만드는데 활용된다. 이 방법은 신경망에 입력으로 수용되는 데이터의 종류가 적어 신경망의 전체적인 구조가 비교적 단순하게 구성된다는 장점이 있다.
이와 달리 특징 단계 퓨전(deep feature level or mid-level fusion)은 원천으로부터 취득한 멀티 모달 데이터를 신경망에 입력으로 각각 전달한다. 병렬 구조의 신경망을 통해 각각의 입력으로부터 추출되는 멀티 모달 특징들은 신경망의 내부에서 하나로 융합되어 심층 융합 특징을 구성하며, 이는 결과 추론 맵을 만드는데 활용된다. 이 방법은 신경망이 결과를 추론함에 있어 멀티 모달 데이터로부터 추출한 각각의 특징부터 그들의 융합 특징까지 다양하게 활용 가능한 장점이 있다.
추론 단계 퓨전(score level or late fusion) 또한 멀티 모달 데이터를 신경망의 입력으로 각각 전달하나, 특징 단계 퓨전과 달리 각각의 원천마다 독립된 신경망을 사용한다. 각 신경망이 독립적으로 만들어낸 결과 추론 맵들은 합산, 평균 등의 단순 연산이나 별도로 학습된 분류기를 활용함으로써 최종 추론 맵을 도출하는데 활용된다. 이 방법은 추론 결과가 융합에 사용된 센서들 사이의 특성 차나 상호 간섭에 의한 영향에 강인하다는 장점이 있다.
시맨틱 세그멘테이션은 자율 주행 차량이 주행 환경을 인지하는데 필요한 핵심적인 요소 기술 중의 하나로서 카메라로부터 취득한 2차원 RGB 영상의 객체들을 픽셀 단위로 분류(dense prediction)할 수 있다.
특히, 최근에는 기존의 컨볼루션 계층을 중심으로 구성된 심층 신경망을 사용하는 방식에서 더 나아가 셀프 어텐션을 기반으로 특징들 사이의 상대적 중요도를 알아내 보다 표현력이 높은 심층 특징들을 추출해낼 수 있는 트랜스포머 모듈을 추가하여 2차원 시맨틱 세그멘테이션의 성능을 증진하는 연구들이 늘고 있다.
트랜스포머 모듈을 활용하면 신경망에 컨볼루션 계층을 비교적 적게 사용하더라도 표현력이 좋은 심층 특징들을 추출할 수 있으며, 이 심층 특징들을 바탕으로 기존의 방법들보다 상대적으로 좋은 성능을 보였다.
그러나 앞서 언급한 바와 같이 이들 2차원 시맨틱 세그멘테이션 방법이 만들어내는 평면 형태의 추론 결과만으로는 차량의 실제 주행 환경인 3차원에서의 객체의 구조나 상대적 거리 등을 파악하기 어려우며, 3차원 정보를 추론하기 위해 여러 대의 카메라를 사용할 경우에는 계산량이 과도하게 늘어난다는 문제가 있다.
또한, 카메라와 라이다의 센서 퓨전을 활용하는 기존의 시맨틱 세그멘테이션 연구들은 대부분 3차원의 라이다 점군 데이터와 2차원의 카메라 영상 데이터를 혼합하기 위해 점군 데이터를 2차원의 평면 데이터로 변환한다.
이를 이용해 만들어진 평면 형태의 추론 결과는 라이다의 장점인 3차원의 거리 정보가 손실된 상태이므로 주행 환경에 대한 3차원적 정보들을 제공하기 어렵다.
이러한 한계를 극복하고자, 본 발명은 자율 주행 차량이 주행환경을 3차원으로 인지하기 위하여 카메라 및 라이다의 센서 퓨전을 통해 멀티 모달 기반의 3차원 시맨틱 세그멘테이션을 수행할 수 있는 다양한 수단들을 제안하고자 한다.
도 1은 본 발명의 일 실시예에 따른 인공지능 학습 시스템을 나타낸 구성도이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 인공지능 학습 시스템은 학습 데이터 수집 장치(100), 학습 데이터 생성 장치(200) 및 인공지능 학습 장치(300)를 포함하여 구성될 수 있다.
이와 같은, 일 실시예에 따른 인공지능 학습 시스템의 구성 요소들은 기능적으로 구분되는 요소들을 나타낸 것에 불과하므로, 둘 이상의 구성 요소가 실제 물리적 환경에서는 서로 통합되어 구현되거나, 하나의 구성 요소가 실제 물리적 환경에서는 서로 분리되어 구현될 수 있을 것이다.
각각의 구성 요소에 대하여 설명하면, 학습 데이터 수집 장치(100)는 자율주행에 사용될 수 있는 인공지능(AI)을 기계 학습시키기 위한 데이터를 수집하기 위하여, 차량에 설치된 라이다(lidar) 및 카메라(camera)로부터 실시간으로 데이터를 수집하는 장치이다. 하지만, 이에 한정된 것은 아니고, 학습 데이터 수집 장치(100)는 레이더(radar) 및 초음파 센서(ultrasonic sensor)를 포함할 수도 있다. 또한, 학습 데이터 수집 장치(100)의 제어 대상이자, 차량에 설치되어 기계 학습용 데이터를 획득, 촬영 또는 감지하는 센서는 종류별로 하나씩 구비되는 것으로 한정되지 아니하며, 동일한 종류의 센서라 할지라도 복수 개로 구비될 수 있다.
학습 데이터 수집 장치(100)의 제어 대상이자, 차량에 설치되어 기계 학습용 데이터를 획득, 촬영 또는 감지하는 센서들의 종류에 대해서는 추후 도 2를 참조하여 보다 구체적으로 설명하기로 한다.
다음 구성으로, 학습 데이터 생성 장치(200)는 복수의 학습 데이터 수집 장치(100) 각각으로부터 이동통신(mobile communication)을 이용하여 각각의 학습 데이터 수집 장치(100)에 의해 실시간으로 수집된 데이터를 수신하고, 수신된 데이터에 대하여 어노테이션을 수행할 수 있다.
이러한, 학습 데이터 생성 장치(200)는 학습 데이터 생성 장치(100)는 인공지능 학습 장치(400)로부터 인공지능(AI) 학습용 데이터의 요청이 수신되기 이전에, 선제적으로 인공지능(AI) 학습용 데이터를 생성할 수 있는 빅데이터(big data)를 구축해 놓을 수 있다.
특징적으로, 학습 데이터 생성 장치(200)는 라이다(lidar)로부터 획득된 점군 데이터(point cloud) 및 동시에 카메라(camera)를 통해 촬영된 이미지(image)를 수신하고, 점군 데이터 및 상기 이미지로부터 다중 크기의 특징들을 추출하고, 추출한 특징들 사이의 지역적 연관성 및 채널 간 상관관계를 활용하여 심층 특징을 추출하고, 추출한 심층 특징으로부터 세그멘테이션 추론 벡터를 생성할 수 있다.
이와 같은 특징을 가지는, 학습 데이터 생성 장치(200)는 학습 데이터 수집 장치(100) 및 인공지능 학습 장치(300)와 데이터를 송수신하고, 송수신된 데이터를 기초로 연산을 수행할 수 있는 장치라면 어떠한 장치라도 허용될 수 있다.
예를 들어, 학습 데이터 생성 장치(200)는 데스크탑(desktop), 워크스테이션(workstation) 또는 서버(server)와 같은 고정식 컴퓨팅 장치 중 어느 하나가 될 수 있으나, 이에 한정되는 것은 아니다.
한편, 학습 데이터 생성 장치(200)에 관한 구체적인 설명은 이하, 도 3 및 도 4를 참조하여 후술하도록 한다.
다음 구성으로, 인공지능 학습 장치(300)는 인공지능(AI)을 개발하는데 사용될 수 있는 장치이다.
구체적으로, 인공지능 학습 장치(300)는 인공지능(AI)이 개발 목적을 달성하기 위하여 인공지능(AI) 학습용 데이터가 만족해야 하는 요구 사항을 포함하는 요구 값을 학습 데이터 생성 장치(200)에 전송할 수 있다. 인공지능 학습 장치(300)는 학습 데이터 생성 장치(200)로부터 인공지능(AI) 학습용 데이터를 수신할 수 있다. 그리고, 인공지능 학습 장치(300)는 수신된 인공지능(AI) 학습용 데이터를 이용하여, 개발하고자 하는 인공지능(AI)을 기계 학습할 수 있다.
이와 같은, 인공지능 학습 장치(300)는 학습 데이터 생성 장치(200)와 데이터를 송수신하고, 송수신된 데이터를 이용하여 연산을 수행할 수 있는 장치라면 어떠한 장치라도 허용될 수 있다. 예를 들어, 인공지능 학습 장치(300)는 데스크탑, 워크스테이션 또는 서버와 같은 고정식 컴퓨팅 장치 중 어느 하나가 될 수 있으나, 이에 한정되는 것은 아니다.
상술한 바와 같은, 하나 이상의 학습 데이터 수집 장치(100), 학습 데이터 생성 장치(200) 및 인공지능 학습 장치(300)는 장치들 사이에 직접 연결된 보안회선, 공용 유선 통신망 또는 이동 통신망 중 하나 이상이 조합된 네트워크를 이용하여 데이터를 송수신할 수 있다.
예를 들어, 공용 유선 통신망에는 이더넷(ethernet), 디지털가입자선(x Digital Subscriber Line, xDSL), 광동축 혼합망(Hybrid Fiber Coax, HFC), 광가입자망(Fiber To The Home, FTTH)가 포함될 수 있으나, 이에 한정되는 것도 아니다. 그리고, 이동 통신망에는 코드 분할 다중 접속(Code Division Multiple Access, CDMA), 와이드 밴드 코드 분할 다중 접속(Wideband CDMA, WCDMA), 고속 패킷 접속(High Speed Packet Access, HSPA), 롱텀 에볼루션(Long Term Evolution, LTE), 5세대 이동통신(5th generation mobile telecommunication)가 포함될 수 있으나, 이에 한정되는 것은 아니다.
도 2는 본 발명의 일 실시예에 따른 센서들을 설명하기 위한 예시도이다.
도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 학습 데이터 수집 장치(100)는 차량(10)에 고정 설치된 레이더(20), 라이다(30), 카메라(40) 및 초음파 센서(50) 중 하나 이상을 제어하여, 인공지능(AI)을 기계 학습시키기 위한 기초 데이터를 수집할 수 있다.
여기서, 차량(10)은 인공지능(AI)을 기계 학습시키기 위한 기초 데이터를 수집하기 위한 레이더(20), 라이다(30), 카메라(40) 및 초음파 센서(50)가 설치된 차량으로, 인공지능(AI)에 의해 자율주행을 수행하는 차량과는 서로 구별될 수 있다.
레이더(20)는 차량(10)에 고정 설치되어 차량(10)의 주행 방향을 향하여 전자기파(electromagnetic wave)를 발사하고, 차량(10)의 전방에 위치하는 객체(object)에 의해 반사되어 돌아온 전자기파를 감지하여, 차량(10)이 전방에 대한 영상에 해당하는 감지 데이터를 생성할 수 있다.
다르게 말하면, 감지 데이터는 차량(10)에 고정 설치된 레이더(20)에 의해 차량의 주행 방향을 향하여 발사된 전자기파를 반사시킨 점들(points)에 대한 정보이다. 따라서, 감지 데이터에 포함된 점들의 좌표들은 차량(10)의 전방에 위치하는 객체의 위치 및 형상에 대응하는 값을 가질 수 있다. 이러한, 감지 데이터는 2차원 정보가 될 수 있으나, 이에 한정되지 않고 3차원 정보가 될 수도 있다.
라이다(30)는 차량(10)에 고정 설치되어 차량(10)의 주위로 레이저 펄스(laser pulse)를 방사하고, 차량(10)의 주위에 위치하는 객체에 의해 반사되어 돌아온 빛을 감지하여, 차량(10)의 주위에 대한 3차원 영상에 해당하는 3D 점군 데이터를 생성할 수 있다.
다르게 말하면, 3D 점군 데이터는 차량(10)에 고정 설치된 라이다(30)에 의해 차량의 주위로 방사된 레이저 펄스를 반사시킨 점들에 대한 3차원 정보이다. 따라서, 3D 점군 데이터에 포함된 점들의 좌표들은 차량(10)의 주위에 위치하는 객체의 위치 및 형성에 대응하는 값을 가질 수 있다.
카메라(40)는 차량(10)에 고정 설치되어 차량(10)의 주위에 대한 2차원 이미지를 촬영할 수 있다. 이와 같은, 카메라(40)는 서로 다른 방향을 촬영할 수 있도록 복수 개가 지표면과 수평 또는 수평 방향으로 이격되게 설치될 수 있다. 예를 들어, 도 2는 서로 다른 6개의 방향을 촬영할 수 있는 6개의 카메라(40)가 고정 설치된 차량(10)의 예시를 도시하고 있으나, 차량(10)에 설치될 수 있는 카메라(40)가 다양한 개수로 구성될 수 있음은 본 발명이 속한 기술분야의 통상의 지식을 가진 자에게 자명할 것이다.
다르게 말하면, 2D 이미지는 차량(10)에 고정 설치된 카메라(40)에 의해 촬영된 이미지이다. 따라서, 2D 이미지에는 카메라(40)가 향하는 방향에 위치하는 객체의 색상 정보가 포함될 수 있다.
초음파 센서(50)는 차량(50)에 고정 설치되어 차량(10)의 주위로 초음파(ultrasonic)를 발사하고, 차량(10)과 인접하게 위치하는 객체에 의해 반사되어 돌아온 음파를 감지하여, 차량(10)에 설치된 초음파 센서(50)와 객체 사이의 거리에 해당하는 거리 정보를 생성할 수 있다. 일반적으로, 초음파 센서(50)는 복수 개로 구성되어, 객체와 접촉하기 쉬운 차량(10)의 전방, 후방, 전측방 및 후측방에 고정 설치될 수 있다.
다르게 말하면, 거리 정보는 차량(10)에 고정 설치된 초음파 센서(50)에 의해 감지된 객체로부터의 거리에 관한 정보이다.
이하, 상술한 바와 같은, 학습 데이터 생성 장치(200)의 구성에 대하여 보다 구체적으로 설명하기로 한다.
도 3은 본 발명의 일 실시예에 따른 학습 데이터 생성 장치의 논리적 구성도이다.
도 3을 참조하면, 학습 데이터 생성 장치(200)는 통신부(205), 입출력부(210), 인코딩부(215), 디코딩부(220) 및 저장부(225)를 포함하여 구성될 수 있다.
이와 같은, 학습 데이터 생성 장치(200)의 구성 요소들은 기능적으로 구분되는 요소들을 나타낸 것에 불과하므로, 둘 이상의 구성 요소가 실제 물리적 환경에서는 서로 통합되어 구현되거나, 하나의 구성 요소가 실제 물리적 환경에서는 서로 분리되어 구현될 수 있을 것이다.
구체적으로, 통신부(205)는 인공지능(AI)의 기계 학습을 위한 이미지 및 점군 데이터를 학습 데이터 수집 장치(100)로부터 수신할 수 있다.
또한, 통신부(205)는 학습 데이터 수집 장치(100)로부터 점군 데이터 및 이미지를 동기화 하기 위한 캘리브레이션 행렬을 함께 수신할 수 있다.
또한, 통신부(205)는 시맨틱 세그멘테이션의 3차원 해석 결과를 인공지능 학습 장치(300)에 전송할 수 있다.
다음 구성으로, 입출력부(210)는 사용자 인터페이스(User Interface, UI)를 통해 사용자로부터 신호를 입력 받거나, 연산된 결과를 외부로 출력할 수 있다.
구체적으로, 입출력부(210)는 사용자로부터 시맨틱 세그멘테이션 특징맵을 생성하거나, 생성된 시맨틱 세그멘테이션 특징맵을 3차원 해석하기 위한 다양한 설정 값들을 입력받고, 생성된 결과 값들을 출력할 수 있다.
다음 구성으로, 인코딩부(215)는 점군 데이터 및 이미지로부터 다중 크기의 특징들을 추출하고, 추출한 특징들 사이의 지역적 연관성 및 채널 간 상관관계를 활용하여 심층 특징을 추출할 수 있다.
구체적으로, 인코딩부(215)는 점군 데이터 및 이미지와 함께 수신한 캘리브레이션 행렬을 기초로 점군 데이터를 이미지와 동일한 크기를 갖는 2차원 평면 상의 좌표에 사영할 수 있다.
여기서, 캘리브레이션 행렬은 하기의 수학식 5으로 표현될 수 있다.
[수학식 5]
Figure 112023026928567-pat00005
(여기서, u 및 v는 이미지 내 픽셀들의 2차원 좌표, x, y 및 z는 점군 데이터의 3차원 좌표, fu 및 fv는 픽셀 단위의 초점 거리, u0 및 v0은 이미지 평면에서 점군 데이터가 위치하는 x 및 y 좌표를 의미한다.)
인코딩부(215)는 복수의 컨벌루션 블록들을 통해 사영된 점군 데이터 및 이미지 각각으로부터 입력 대비 사전 설정된 크기로 축소된 특징맵을 추출할 수 있다.
즉, 인코딩부(215)는 사영된 점군 데이터 및 이미지 각각을 1/2, 1/4 및 1/8의 크기로 단계적으로 축소할 수 있다.
여기서, 복수의 컨벌루션 블록들은 사영된 점군 데이터 및 이미지에 포함된 특징 간 상관관계를 학습하는 분할-어텐션 모듈 및 다중 크기 특징을 추출하는 다중 크기(multi-scale) 어텐션 모듈로 구성될 수 있다.
인코딩부(215)는 분할-어텐션 모듈 및 다중 크기 어텐션 모듈을 통해 점군 데이터 및 이미지에 포함된 요소들을 특징으로 추출함과 동시에, 추출된 특징 사이의 상관관계를 학습할 수 있다.
다음으로, 인코딩부(215)는 사영된 점군 데이터 및 이미지 각각으로부터 추출된 특징맵을 접합(concatenate)하여 센서 퓨전을 수행할 수 있다.
인코딩부(215)는 센서 퓨전 수행된 데이터를 사전 기계 학습된 인공 지능을 통해 지역적 연관 정보를 포함하는 1/16 크기의 심층 특징맵을 추출할 수 있다.
여기서, 인공 지능은 컨벌루션 기반 중첩 패치 추출 방법과 패치간 지역적 연관성을 학습할 수 있다.
다음 구성으로, 디코딩부(220)는 추출한 심층 특징으로부터 세그멘테이션 추론 벡터를 생성할 수 있다.
구체적으로, 디코딩부(220)는 심층 특징맵을 컨벌루션, 확장(upsampling) 및 접합 연산의 반복을 통해 (H, W, C)로 표현되는 추론맵으로 복원할 수 있다.
즉, 디코딩부(220)는 심층 특징맵을 복수의 업 샘플링(up sampling) 계층을 통해 면적을 사전 설정된 배수로 확장하되, 접합 계층을 통해 복수의 업 샘플링 계층 각각에서의 특징맵을 인코더의 각 단계에서 대응하는 특징맵과 접합할 수 있다.
여기서, 디코딩부(220)는 복수의 업 샘플링 계층 각각에서 업 샘플링 된 특징맵을 3*3 커널을 사용하는 컨벌루션 계층에 통과시킬 수 있다.
그리고, 디코딩부(220)는 (H, W, C)로 표현되는 추론맵을 (H*W, C)로 재구성하여 함께 출력할 수 있다.
또한, 디코딩부(220)는 재구성된 추론맵을 손실함수 및 평가함수에 적용할 수 있다.
여기서, 손실함수는 하기의 수학식 1과 같이, 정답값 및 추론값 사이의 복수의 손실값을 합산하여 계산할 수 있다.
[수학식 1]
Figure 112023026928567-pat00006
즉, 손실함수는 하기의 수학식 2, 수학식 3 및 수학식 4를 통해 계산된 손실값을 합산하여 계산할 수 있다.
[수학식 2]
Figure 112023026928567-pat00007
[수학식 3]
Figure 112023026928567-pat00008
[수학식 4]
Figure 112023026928567-pat00009
(여기서, Ypred는 세그멘테이션 추론값, Ytrue는 정답값, ε는 smooth(1e-6)을 의미한다.)
다음 구성으로, 저장부(235)는 학습 데이터 생성 장치(200)의 동작에 필요한 데이터를 저장할 수 있다. 저장부(235)는 인공지능(AI) 학습을 위한 데이터를 설계하는데 필요한 데이터를 저장할 수 있다.
이하, 상술한 바와 같은 학습 데이터 생성 장치(200)의 논리적 구성요소를 구현하기 위한 하드웨어에 대하여 보다 구체적으로 설명한다.
도 4는 본 발명의 일 실시예에 따른 학습 데이터 생성 장치의 하드웨어 구성도이다.
도 4를 참조하면, 학습 데이터 생성 장치(200)는 프로세서(Processor, 250), 메모리(Memory, 255), 송수신기(Transceiver, 260), 입출력장치(Input/output device, 265), 데이터 버스(Bus, 270) 및 스토리지(Storage, 275)를 포함하여 구성될 수 있다.
프로세서(250)는 메모리(255)에 상주된 소프트웨어(280a)에 따른 명령어를 기초로, 학습 데이터 생성 장치(200)의 동작 및 기능을 구현할 수 있다. 메모리(255)에는 본 발명에 따른 방법이 구현된 소프트웨어(280a)가 상주(loading)될 수 있다. 송수신기(260)는 학습 데이터 수집 장치(100) 및 인공지능 학습 장치(300)와 데이터를 송수신할 수 있다.
입출력장치(265)는 학습 데이터 설계 장치(200)의 동작에 필요한 데이터를 입력 받고, 생성된 결과 값을 출력할 수 있다. 데이터 버스(270)는 프로세서(250), 메모리(255), 송수신기(260), 입출력장치(265) 및 스토리지(275)와 연결되어, 각각의 구성 요소 사이가 서로 데이터를 전달하기 위한 이동 통로의 역할을 수행할 수 있다.
스토리지(275)는 본 발명에 다른 방법이 구현된 소프트웨어(280a)의 실행을 위해 필요한 애플리케이션 프로그래밍 인터페이스(Application Programming Interface, API), 라이브러리(library) 파일, 리소스(resource) 파일 등을 저장할 수 있다. 스토리지(275)는 본 발명에 따른 방법이 구현된 소프트웨어(280b)를 저장할 수 있다. 또한, 스토리지(275)는 시맨틱 세그멘테이션 방법의 수행에 필요한 정보들을 저장할 수 있다. 특히, 스토리지(275)는 시맨틱 세그멘테이션 방법 및 3차원 해석 방법을 수행하기 위한 프로그램을 저장하는 데이터베이스(285)를 포함할 수 있다.
본 발명의 일 실시예에 따르면, 메모리(255)에 상주되거나 또는 스토리지(275)에 저장된 소프트웨어(280a, 280b)는 프로세서(250)가 라이다(lidar)로부터 획득된 점군 데이터(point cloud) 및 동시에 카메라(camera)를 통해 촬영된 이미지(image)를 수신하고, 프로세서(250)가 점군 데이터 및 이미지로부터 다중 크기의 특징들을 추출하고, 추출한 특징들 사이의 지역적 연관성 및 채널 간 상관관계를 활용하여 심층 특징을 추출하고, 추출한 심층 특징으로부터 세그멘테이션 추론 벡터를 생성할 수 있다.
보다 구체적으로, 프로세서(250)는 ASIC(Application-Specific Integrated Circuit), 다른 칩셋(chipset), 논리 회로 및/또는 데이터 처리 장치를 포함할 수 있다. 메모리(255)는 ROM(Read-Only Memory), RAM(Random Access Memory), 플래쉬 메모리, 메모리 카드, 저장 매체 및/또는 다른 저장 장치를 포함할 수 있다. 송수신기(260)는 유무선 신호를 처리하기 위한 베이스밴드 회로를 포함할 수 있다. 입출력장치(265)는 키보드(keyboard), 마우스(mouse), 및/또는 조이스틱(joystick) 등과 같은 입력 장치 및 액정표시장치(Liquid Crystal Display, LCD), 유기 발광 다이오드(Organic LED, OLED) 및/또는 능동형 유기 발광 다이오드(Active Matrix OLED, AMOLED) 등과 같은 영상 출력 장치 프린터(printer), 플로터(plotter) 등과 같은 인쇄 장치를 포함할 수 있다.
본 명세서에 포함된 실시 예가 소프트웨어로 구현될 경우, 상술한 방법은 상술한 기능을 수행하는 모듈(과정, 기능 등)로 구현될 수 있다. 모듈은 메모리(255)에 상주되고, 프로세서(250)에 의해 실행될 수 있다. 메모리(255)는 프로세서(250)의 내부 또는 외부에 있을 수 있고, 잘 알려진 다양한 수단으로 프로세서(250)와 연결될 수 있다.
도 4에 도시된 각 구성요소는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
또한, 펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현되어, 다양한 컴퓨터 수단을 통하여 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한, 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
도 5는 본 발명의 일 실시예에 따른 시맨틱 세그멘테이션 방법을 설명하기 위한 순서도이다.
도 5를 참조하면, 먼저 S100 단계에서 학습 데이터 생성 장치는 학습 데이터 수집 장치로부터 점군 데이터 및 이미지를 수신할 수 있다. 이때, 학습 데이터 생성 장치는 점군 데이터 및 이미지와 함께 캘리브레이션 형렬을 추가로 수신할 수 있다.
다음으로, S200 단계에서 학습 데이터 생성 장치는 점군 데이터 및 이미지로부터 다중 크기의 특징들을 추출하고, 추출한 특징들 사이의 지역적 연관성 및 채널 간 상관관계를 활용하여 심층 특징을 추출할 수 있다.
구체적으로, 학습 데이터 생성 장치는 점군 데이터 및 이미지와 함께 수신한 캘리브레이션 행렬을 기초로 점군 데이터를 이미지와 동일한 크기를 갖는 2차원 평면 상의 좌표에 사영할 수 있다.
학습 데이터 생성 장치는 복수의 컨벌루션 블록들을 통해 사영된 점군 데이터 및 이미지 각각으로부터 입력 대비 사전 설정된 크기로 축소된 특징맵을 추출할 수 있다.
즉, 학습 데이터 생성 장치는 사영된 점군 데이터 및 이미지 각각을 1/2, 1/4 및 1/8의 크기로 단계적으로 축소할 수 있다.
여기서, 복수의 컨벌루션 블록들은 사영된 점군 데이터 및 이미지에 포함된 특징 간 상관관계를 학습하는 분할-어텐션 모듈 및 다중 크기 특징을 추출하는 다중 크기(multi-scale) 어텐션 모듈로 구성될 수 있다.
학습 데이터 생성 장치는 분할-어텐션 모듈 및 다중 크기 어텐션 모듈을 통해 점군 데이터 및 이미지에 포함된 요소들을 특징으로 추출함과 동시에, 추출된 특징 사이의 상관관계를 학습할 수 있다.
다음으로, 학습 데이터 생성 장치는 사영된 점군 데이터 및 이미지 각각으로부터 추출된 특징맵을 접합(concatenate)하여 센서 퓨전을 수행할 수 있다.
다음으로, 학습 데이터 생성 장치는 센서 퓨전 수행된 데이터를 사전 기계 학습된 인공 지능을 통해 지역적 연관 정보를 포함하는 1/16 크기의 심층 특징맵을 추출할 수 있다.
여기서, 인공 지능은 컨벌루션 기반 중첩 패치 추출 방법과 패치간 지역적 연관성을 학습할 수 있다.
그리고, S300 단계에서 학습 데이터 생성 장치는 추출한 심층 특징으로부터 세그멘테이션 추론 벡터를 생성할 수 있다.
구체적으로, 학습 데이터 생성 장치는 심층 특징맵을 컨벌루션, 확장(upsampling) 및 접합 연산의 반복을 통해 (H, W, C)로 표현되는 추론맵으로 복원할 수 있다.
즉, 학습 데이터 생성 장치는 심층 특징맵을 복수의 업 샘플링(up sampling) 계층을 통해 면적을 사전 설정된 배수로 확장하되, 접합 계층을 통해 복수의 업 샘플링 계층 각각에서의 특징맵을 인코더의 각 단계에서 대응하는 특징맵과 접합할 수 있다.
여기서, 학습 데이터 생성 장치는 복수의 업 샘플링 계층 각각에서 업 샘플링 된 특징맵을 3*3 커널을 사용하는 컨벌루션 계층에 통과시킬 수 있다.
그리고, 학습 데이터 생성 장치는 (H, W, C)로 표현되는 추론맵을 (H*W, C)로 재구성하여 함께 출력할 수 있다.
또한, 학습 데이터 생성 장치는 재구성된 추론맵을 손실함수 및 평가함수에 적용할 수 있다.
도 6 내지 도 8은 본 발명의 일 실시예에 따른 시맨틱 세그멘테이션 방법을 설명하기 위한 예시도이다.
도 6 내지 도 8을 참조하면, 본 발명의 일 실시예에 따른 학습 데이터 생성 장치는 인코더와 디코더로 구성되어 있다.
먼저, 인코더는 카메라로부터 취득한 2차원 RGB 영상과 라이다로부터 취득한 동일 영역의 3차원 포인트 클라우드를 2차원으로 사영한 2차원 사영 영상을 입력 데이터로 수용하는 데서 시작된다. 인코더는 그를 구성하는 컨볼루션 블록들을 이용하여 수용된 데이터로부터 입력 대비 1/2 및 1/4의 크기로 축소된 두 특징 맵 들을 추출하며, 특징 단계의 센서 퓨전을 위해 두 번째 특징 맵을 접합(Concatenate)하여 세번째 컨볼루션 블록으로 전달한다.
각각의 컨볼루션 블록은 도 7에 도시된 상세 구조와 같이 특징 간 상관관계를 학습하는 "ResNeSt"의 분할-어텐션 모듈과 다중-크기 특징을 추출하는 "SegNeXt"의 다중 크기(Multi-scale) 어텐션 모듈로 이루어져 입력에 존재하는 다양한 모양의 요소들을 특징으로 추출함과 동시에 그들 사이의 복잡한 상관관계를 신경망이 학습할 수 있도록 한다.
일련의 과정을 거쳐 추출되는 1/8 크기의 특징 맵은 인코더의 마지막 블록인 도 8의 "SegFormer"의 자가(Self) 어텐션 모듈에 전달된다.
이 모듈은 컨볼루션 기반 중첩 패치 추출 방법과 패치 간 지역적 연관성을 학습하는 Mix-FFN을 사용하므로 신경망은 기존의 트랜스포머와 같이 인위적인 위치 임베딩을 사용하지 않아도 특징들 사이의 지역적 연관 정보를 포함하는 1/16 크기의 심층 특징 맵을 추출할 수 있다.
디코더는 인코더에서 추출된 네 가지 크기의 특징 맵들을 토대로 컨볼루션, 확장(upsampling), 접합 연산의 반복을 통해 2차원의 시맨틱 세그멘테이션 추론 맵을 복원해 낸다.
또한 3차원 공간에 대한 추론결과를 신경망으로부터 직접 만들기 위해 (H, W, C) 모양의 추론 맵을 (H*W, C)모양으로 재구성하여 함께 출력하여 손실함수와 평가함수에서 학습과 평가에 활용하도록 한다.
신경망의 학습을 위한 손실함수는 하기의 수학식 1과 같이 정답값과 추론 값 사이의 3가지 손실 값을 구해 합산하는 방식으로 계산한다.
[수학식 1]
Figure 112023026928567-pat00010
먼저, 첫 번째 손실 값은 2차원 시맨틱 세그멘테이션에 대해 픽셀 단위의 정확한 분류에 초점을 두고 가중치 기반의 크로스 엔트로피를 사용하는 하기의 수학시 2의 "Focal-loss"로 계산한다.
[수학식 2]
Figure 112023026928567-pat00011
두 번째 손실 값은 2차원 시맨틱 세그멘테이션의 정답과 추론 맵 사이의 유사도를 사용하는 하기의 수학식 3의 "Dice-loss"를 사용하되 추론 값에서 정답이 아닌 채널의 값을 0으로 만들어 사용함으로써 신경망이 정답을 맞히는데 더초점을 둘 수 있도록 하는 규제 항의 역할로 사용한다.
[수학식 3]
Figure 112023026928567-pat00012
이들과 달리 세 번째 손실 값은 하기의 수학식 4에서 보이는 바와 같이 크로스 엔트로피를 사용하되 H*W개의 추론 픽셀 중 정답으로 주어진 K개의 3차원 좌표의 사영 지점 (u, v)에 해당하는 픽셀만을 대상으로 함으로써 신경망이 3차원 좌표의 정답을 학습에 직접 반영할 수 있다.
[수학식 4]
Figure 112023026928567-pat00013
(여기서, Ypred는 세그멘테이션 추론값, Ytrue는 정답값, ε는 smooth(1e-6)을 의미한다.)
이하, 본 발명의 일 실시예에 따른 시맨틱 세그멘테이션 방법에 대한 성능에 대하여 설명하도록 한다.
실시예
본 발명의 일 실시예에 시맨틱 세그멘테이션 방법의 학습과 평가에 사용된 데이터 셋은 "semantic KITTI"로 자율 주행 분야의 3차원 객체 인식이나 시맨틱 세그멘테이션 등의 연구에 널리 활용된다.
데이터셋은 총 21개 시퀀스로 구성되어 있으며 RGB 프레임 이미지, 포인트 클라우드, 카메라와 라이다 사이의 캘리브레이션 정보가 포함되어 있다.
그러나, 3차원 포인트 단위의 클래스 라벨은 학습용 시퀀스인 0~10번 시퀀스에만 포함되어 있으므로 본 실험에서는 검증용 시퀀스인 8번 시퀀스(4,071건)를 평가 데이터로 사용하고 나머지 시퀀스(19,130건)를 학습 데이터로 활용한다.
또한, RGB 이미지와 포인트 클라우드의 사영 이미지는 96x320의 크기로 조정하여 사용하며 데이터셋이 2차원 시맨틱 세그멘테이션을 위한 라벨 데이터를 포함하지 않는 바, 이 역시도 3차원 포인트 단위의 라벨을 2차원에 사영시켜 만든 라벨 이미지를 만들어 사용한다.
다만 이를 픽셀 단위로 사영할 경우 대부분의 영역이 0의 값을 갖는 희소 데이터가 되어 학습에 큰 악영향을 미치므로 사영 되는 픽셀 주변의 가로 2, 세로 2의 크기로 동일한 라벨을 채우도록 하여 라벨 이미지의 희소성을 최대한 보완한다.
또한, 3차원 추론 결과에 대한 라벨은 포인트 클라우드의 사영 좌표와 그에 따른 라벨값을 포함한다.
평가 방법으로는 시맨틱 세그멘테이션 분야에서 널리 쓰이는 mIoU(mean Intersection over Union)을 사용하였으며 3차원 결과를 평가할 때 정답이 매겨져 있지 않은 점들은 대상에서 제외하고 평가하였다.
비교예 1
인코더에 사용된 트랜스포머 모듈은 GeLU(Gauusian Error Linear Unit) 활성화 함수를 사용하도록 하였으며, 디코더를 구성하는 모든 컨볼루션 계층은 세그멘테이션 헤드를 제외하고 모두 ReLU 활성화 함수를 사용하도록 하였고 각각의 컨볼루션 계층 이후에는 배치 정규화 계층과 드롭 아웃 계층을 두어 신경망의 과적합을 최소화할 수 있도록 하였다.
신경망의 학습에는 Adam(Adaptive Moment Estimation) 최적화기를 사용하였으며 학습률은 0.001로 시작해 학습이 2에폭(Epoch)이상 진행되지 않을 때마다 0.75배씩 줄어들도록 하였다.
학습은 최대 500에폭 동안 진행하도록 설정하였으며 이때 손실 값이 연속적으로 10에폭 이상 낮아지지 않으면 학습을 조기 종료하도록 설정하였다.
비교예 2
비교예 2는 "Milioto, A., Vizzo, I., Behley, J., & Stachniss, C. “Rangenet++: Fast and accurate lidar semantic segmentation.” In 2019 IEEE/RSJ international conference onintelligent robots and systems (IROS), pp. 4213-4220. IEEE. Nov. 2019"에 개시된 시맨틱 세그멘테이션 방법을 사용하였다.
즉, 비교예 2는 다운 샘플링(down sampling)된 포인트 클라우드를 업 샘플링(up sampling) 하는 과정에서, 부족한 클래스 데이터를 보완하기 위하여 업 샘플링 된 출력에 기존 입력 데이터를 중첩하여 KNN 알고리즘을 적용하였다.
실험
한편, 표 1은 본 발명의 일 실시예에 따른 시맨틱 세그멘테이션 방법의 성능 평가 및 비교예와의 비교 결과를 나타낸 표이다.
[표 1]
Figure 112023026928567-pat00014
표 1에 나타난 바와 같이, 본 발명의 일 실시예에 따른 시맨틱 세그멘테이션 방법은 2차원 시맨틱 세그멘테이션의 mIoU을 기준으로 36.86%, 3차원 시맨틱 세그멘테이션을 기준으로 24.82%를 기록하였다.
이는 비교예 1[1]의 결과보다 2차원 기준 약 5%, 3차원 기준 약 7.7% 향상된 결과이며, 동시에 3차원 시맨틱 세그멘테이션 결과를 얻기 위해 어떠한 별도의 후처리 과정도 사용하지 않은 결과이다.
비교예 1의 신경망에 사용된 ResNet의 컨볼루션 블록과 트랜스포머 블록들이 애초에 이미지 분류를 위해 설계된 바, 컨볼루션 블록은 잔차 블록이 포함된 직렬 구조로 각각의 입력마다 독립적으로 학습되는 특징들의 채널 간 정보를 반영하지 못하고, 트랜스포머는 특징 맵의 패치 분할 시 중첩이 없어 세그먼트 이미지 복원에 필요한 패치 간의 연관 정보가 손실되어 성능이 저하된다는 문제가 있는 것을 확인할 수 있다.
이에 따라, 본 발명의 일 실시예에 따른 시맨틱 세그멘테이션 방법이 학습하는 특징들 사이의 연관 관계 및 다중 크기 특징 등이 시맨틱 세그멘테이션에 효과적인 요소로 작용한 것으로 보인다.
성능이 동일한 방법론을 토대로 3차원 시맨틱 세그멘테이션을 수행하는 SOTA(State-of-the-Art) 연구인 비교예 2에 비해 저조한 수준이나, 비교예 2[7]의 경우에는 3차원 시맨틱 세그멘테이션의 결과를 얻기 위해 K-NN을 사용하는 별도의 후처리 과정이 필요하다.
반면에, 본 발명의 일 실시예에 따른 시맨틱 세그멘테이션 방법은 학습하는 과정에서 3차원 데이터를 직접적으로 함께 사용해 프로세스가 간단하다는 장점이 있다.
정리하면, 본 발명의 일 실시예에 따른 시맨틱 세그멘테이션 방법은 특징 단계의 센서 퓨전과 다중 크기 특징을 이용해 멀티 모달 데이터의 다양한 요소들을 담은 융합 특징들을 추출함과 동시에 그들의 복잡한 상관관계와 지역적 연관성까지 학습하도록 하는 인코더-디코더 구조의 3차원 시맨틱 세그멘테이션 방법이다.
또한, 3차원 공간에 대한 추론 결과를 신경망으로부터 직접 만들도록 하여 손실함수와 평가함수에서 학습과 평가에 활용할 수 있도록 함으로써, 비교예 1 및 2가 요구하던 추가적인 후처리 과정을 제거할 수 있도록 하였다. 이를 통해 비교예 1보다 2차원 mIoU는 약 5%, 3차원 mIoU는 약 8% 향상된 결과를 보였다.
이상과 같이, 본 명세서와 도면에는 본 발명의 바람직한 실시예에 대하여 개시하였으나, 여기에 개시된 실시예 외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다. 또한, 본 명세서와 도면에서 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서, 상술한 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적해석에 의해 선정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.
100 : 학습 데이터 수집 장치 200 : 학습 데이터 생성 장치
300 : 인공지능 학습 장치
205 : 통신부 210 : 입출력부
215 : 인코딩부 220 : 디코딩부
225 : 저장부

Claims (10)

  1. 학습 데이터 생성 장치가, 라이다(lidar)로부터 획득된 점군 데이터(point cloud) 및 동시에 카메라(camera)를 통해 촬영된 이미지(image)를 수신하는 단계;
    상기 학습 데이터 생성 장치가, 상기 점군 데이터 및 상기 이미지로부터 다중 크기의 특징들을 추출하고, 추출한 특징들 사이의 지역적 연관성 및 채널 간 상관관계를 활용하여 심층 특징을 추출하는 단계; 및
    상기 학습 데이터 생성 장치가, 상기 추출한 심층 특징으로부터 세그멘테이션 추론 벡터를 생성하는 단계; 를 포함하는 것을 특징으로 하고,
    상기 심층 특징을 추출하는 단계는
    복수의 컨벌루션 블록들을 통해 상기 점군 데이터 및 상기 이미지 각각으로부터 입력 대비 사전 설정된 크기로 축소된 특징맵을 추출하는 것을 특징으로 하며,
    상기 심층 특징을 추출하는 단계는
    상기 점군 데이터 및 상기 이미지 각각을 1/2, 1/4 및 1/8의 크기로 단계적으로 축소하는 것을 특징으로 하고,
    상기 복수의 컨벌루션 블록들은
    상기 점군 데이터 및 상기 이미지에 포함된 특징 간 상관관계를 학습하는 분할-어텐션 모듈 및 다중 크기 특징을 추출하는 다중 크기(multi-scale) 어텐션 모듈로 구성되어, 상기 점군 데이터 및 상기 이미지에 포함된 요소들을 특징으로 추출함과 동시에, 추출된 특징 사이의 상관관계를 학습하는 것을 특징으로 하는, 시맨틱 세그멘테이션 방법.
  2. 제1 항에 있어서, 상기 심층 특징을 추출하는 단계는
    상기 점군 데이터 및 상기 이미지 각각으로부터 추출된 특징맵을 접합(concatenate)하여 센서 퓨전을 수행하는 것을 특징으로 하는, 시맨틱 세그멘테이션 방법.
  3. 제2 항에 있어서, 상기 심층 특징을 추출하는 단계는
    상기 센서 퓨전 수행된 데이터를 사전 기계 학습된 인공 지능을 통해 지역적 연관 정보를 포함하는 1/16 크기의 심층 특징맵을 추출하는 것을 특징으로 하는, 시맨틱 세그멘테이션 방법.
  4. 제3 항에 있어서, 상기 인공 지능은
    컨벌루션 기반 중첩 패치 추출 방법과 패치간 지역적 연관성을 학습하는 것을 특징으로 하는, 시맨틱 세그멘테이션 방법.
  5. 제4 항에 있어서, 상기 벡터를 생성하는 단계는
    상기 심층 특징맵을 컨벌루션, 확장(upsampling) 및 접합 연산의 반복을 통해 (H, W, C)로 표현되는 추론맵으로 복원하는 것을 특징으로 하는, 시맨틱 세그멘테이션 방법.
  6. 제5 항에 있어서, 상기 벡터를 생성하는 단계는
    상기 (H, W, C)로 표현되는 추론맵을 (H*W, C)로 재구성하여 함께 출력하는 것을 특징으로 하는, 시맨틱 세그멘테이션 방법.
  7. 제6 항에 있어서, 상기 벡터를 생성하는 단계는
    상기 재구성된 추론맵을 손실함수 및 평가함수에 적용하는 것을 특징으로 하는, 시맨틱 세그멘테이션 방법.
  8. 제7 항에 있어서,
    상기 손실함수는
    하기의 수학식 1과 같과 같이, 정답값 및 추론값 사이의 복수의 손실값을 합산하여 계산하는 것을 특징으로 하는, 시맨틱 세그멘테이션 방법.
    [수학식 1]
    Figure 112023047039013-pat00023

  9. 제8 항에 있어서,
    상기 손실함수는
    하기의 수학식 2, 수학식 3 및 수학식 4를 통해 계산된 손실값을 합산하여 계산하는 것을 특징으로 하는, 시맨틱 세그멘테이션 방법.
    [수학식 2]
    Figure 112023047039013-pat00024

    [수학식 3]
    Figure 112023047039013-pat00025

    [수학식 4]
    Figure 112023047039013-pat00026

    (여기서, Ypred는 세그멘테이션 추론값, Ytrue는 정답값, ε는 smooth(1e-6)을 의미한다.)
  10. 메모리(memory);
    송수신기(transceiver); 및
    상기 메모리에 상주된 명령어를 처리하는 프로세서(processor)를 포함하여 구성된 컴퓨팅 장치와 결합되어,
    상기 프로세서가, 라이다(lidar)로부터 획득된 점군 데이터(point cloud) 및 동시에 카메라(camera)를 통해 촬영된 이미지(image)를 수신하는 단계;
    상기 프로세서가, 상기 점군 데이터 및 상기 이미지로부터 다중 크기의 특징들을 추출하고, 추출한 특징들 사이의 지역적 연관성 및 채널 간 상관관계를 활용하여 심층 특징을 추출하는 단계; 및
    상기 프로세서가, 상기 추출한 심층 특징으로부터 세그멘테이션 추론 벡터를 생성하는 단계;를 포함하여 실행시키되,
    상기 심층 특징을 추출하는 단계는
    복수의 컨벌루션 블록들을 통해 상기 점군 데이터 및 상기 이미지 각각으로부터 입력 대비 사전 설정된 크기로 축소된 특징맵을 추출하는 것을 특징으로 하며,
    상기 심층 특징을 추출하는 단계는
    상기 점군 데이터 및 상기 이미지 각각을 1/2, 1/4 및 1/8의 크기로 단계적으로 축소하는 것을 특징으로 하고,
    상기 복수의 컨벌루션 블록들은
    상기 점군 데이터 및 상기 이미지에 포함된 특징 간 상관관계를 학습하는 분할-어텐션 모듈 및 다중 크기 특징을 추출하는 다중 크기(multi-scale) 어텐션 모듈로 구성되어, 상기 점군 데이터 및 상기 이미지에 포함된 요소들을 특징으로 추출함과 동시에, 추출된 특징 사이의 상관관계를 학습하는 것을 특징으로 하는, 기록매체에 기록된 컴퓨터 프로그램.
KR1020230030962A 2023-03-09 2023-03-09 멀티 스케일 특징들의 상관관계 및 지역적 연관성을 활용한 시맨틱 세그멘테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램 KR102546206B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230030962A KR102546206B1 (ko) 2023-03-09 2023-03-09 멀티 스케일 특징들의 상관관계 및 지역적 연관성을 활용한 시맨틱 세그멘테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230030962A KR102546206B1 (ko) 2023-03-09 2023-03-09 멀티 스케일 특징들의 상관관계 및 지역적 연관성을 활용한 시맨틱 세그멘테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Publications (1)

Publication Number Publication Date
KR102546206B1 true KR102546206B1 (ko) 2023-06-22

Family

ID=86988925

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230030962A KR102546206B1 (ko) 2023-03-09 2023-03-09 멀티 스케일 특징들의 상관관계 및 지역적 연관성을 활용한 시맨틱 세그멘테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Country Status (1)

Country Link
KR (1) KR102546206B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036714A (zh) * 2023-10-09 2023-11-10 安徽大学 融合混合注意力机制的肠息肉分割方法、系统及介质
CN117351212A (zh) * 2023-11-30 2024-01-05 湘潭大学 一种基于双向多尺度注意力的水利环境下的点云分割方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102073873B1 (ko) 2019-03-22 2020-02-05 주식회사 루닛 시맨틱 세그먼테이션 방법 및 그 장치
KR20210082691A (ko) * 2019-12-26 2021-07-06 주식회사 픽스트리 시멘틱 이미지 추론 방법 및 장치
KR102343056B1 (ko) * 2021-07-08 2021-12-24 주식회사 인피닉 어노테이션을 위한 이미지의 데이터 로드를 감축시키는 방법
KR20220095169A (ko) * 2020-12-29 2022-07-06 군산대학교산학협력단 3차원 객체 감지를 위한 장치의 동작 방법 및 그 장치
KR102459778B1 (ko) * 2022-05-12 2022-10-31 주식회사 유오케이 라이다 및 카메라를 이용한 변화 탐지 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR20220160990A (ko) * 2021-05-28 2022-12-06 네이버 주식회사 실시간 및 경량의 딥러닝 기반 선분 검출 방법, 컴퓨터 장치, 및 컴퓨터 프로그램

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102073873B1 (ko) 2019-03-22 2020-02-05 주식회사 루닛 시맨틱 세그먼테이션 방법 및 그 장치
KR20210082691A (ko) * 2019-12-26 2021-07-06 주식회사 픽스트리 시멘틱 이미지 추론 방법 및 장치
KR20220095169A (ko) * 2020-12-29 2022-07-06 군산대학교산학협력단 3차원 객체 감지를 위한 장치의 동작 방법 및 그 장치
KR20220160990A (ko) * 2021-05-28 2022-12-06 네이버 주식회사 실시간 및 경량의 딥러닝 기반 선분 검출 방법, 컴퓨터 장치, 및 컴퓨터 프로그램
KR102343056B1 (ko) * 2021-07-08 2021-12-24 주식회사 인피닉 어노테이션을 위한 이미지의 데이터 로드를 감축시키는 방법
KR102459778B1 (ko) * 2022-05-12 2022-10-31 주식회사 유오케이 라이다 및 카메라를 이용한 변화 탐지 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BEHLEY, Jens, et al. "Semantickitti: A dataset for semantic scene understanding of lidar sequences". In: Proceedings of the IEEE/CVF International Conference on Computer Vision(ICCV), 2019, pp. 9297-9 *
L. A. Rosero and F. S. Osório, "Calibration and multi-sensor fusion for on-road obstacle detection," 2017 Latin American Robotics Symposium (LARS) and 2017 Brazilian Symposium on Robotics (SBR), 2017, *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117036714A (zh) * 2023-10-09 2023-11-10 安徽大学 融合混合注意力机制的肠息肉分割方法、系统及介质
CN117036714B (zh) * 2023-10-09 2024-02-09 安徽大学 融合混合注意力机制的肠息肉分割方法、系统及介质
CN117351212A (zh) * 2023-11-30 2024-01-05 湘潭大学 一种基于双向多尺度注意力的水利环境下的点云分割方法
CN117351212B (zh) * 2023-11-30 2024-03-01 湘潭大学 一种基于双向多尺度注意力的水利环境下的点云分割方法

Similar Documents

Publication Publication Date Title
EP3709216B1 (en) Methods and apparatuses for object detection in a scene represented by depth data of a range detection sensor and image data of a camera
US11482014B2 (en) 3D auto-labeling with structural and physical constraints
KR102546206B1 (ko) 멀티 스케일 특징들의 상관관계 및 지역적 연관성을 활용한 시맨틱 세그멘테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
US10817752B2 (en) Virtually boosted training
EP3525000A1 (en) Methods and apparatuses for object detection in a scene based on lidar data and radar data of the scene
US11074438B2 (en) Disentangling human dynamics for pedestrian locomotion forecasting with noisy supervision
KR20210025942A (ko) 종단간 컨볼루셔널 뉴럴 네트워크를 이용한 스테레오 매칭 방법
KR102097869B1 (ko) 자가 지도 학습을 이용한 딥러닝 기반 도로 영역 추정 장치 및 방법
Saleh et al. Kangaroo vehicle collision detection using deep semantic segmentation convolutional neural network
CN116210030A (zh) 基于半监督关键点的模型
Huang et al. Measuring the absolute distance of a front vehicle from an in-car camera based on monocular vision and instance segmentation
Saleem et al. Neural network-based recent research developments in SLAM for autonomous ground vehicles: A review
Rashed et al. Bev-modnet: Monocular camera based bird's eye view moving object detection for autonomous driving
KR102538231B1 (ko) 시맨틱 세그멘테이션의 3차원 해석 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102538225B1 (ko) 센서 퓨전 기반의 시맨틱 세그멘테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
KR102613160B1 (ko) 3차원 시맨틱 세그멘테이션 방법 및 이를 실행하기위하여 기록매체에 기록된 컴퓨터 프로그램
Zhang et al. 3D car-detection based on a Mobile Deep Sensor Fusion Model and real-scene applications
Kollmitz et al. Predicting obstacle footprints from 2D occupancy maps by learning from physical interactions
Liu Scalable Vision-Based 3D Object Detection and Monocular Depth Estimation for Autonomous Driving
Kaskela Temporal Depth Completion for Autonomous Vehicle Lidar Depth Sensing
US20230105331A1 (en) Methods and systems for semantic scene completion for sparse 3d data
Hildebrand Uncertainty measurement as a sensor performance metric in adverse conditions
US20230342944A1 (en) System and Method for Motion Prediction in Autonomous Driving
Miekkala 3D object detection using lidar point clouds and 2D image object detection
Luo Learning to Drive: Exploiting Deep Models for Autonomous Driving

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant