KR102613160B1

KR102613160B1 - 3차원 시맨틱 세그멘테이션 방법 및 이를 실행하기위하여 기록매체에 기록된 컴퓨터 프로그램

Info

Publication number: KR102613160B1
Application number: KR1020230086542A
Authority: KR
Inventors: 윤재근; 오승진; 송광호
Original assignee: 주식회사 인피닉
Priority date: 2023-07-04
Filing date: 2023-07-04
Publication date: 2023-12-14

Abstract

본 발명은 카메라 및 라이다의 센서 퓨전을 통해 얻어낸 융합 데이터를 바탕으로 3차원 시맨틱 세그멘테이션을 수행하기 위한, 3차원 시맨틱 세그멘테이션 방법을 제안한다. 상기 방법은 학습 데이터 생성 장치가, 카메라(camera)에 의해 촬영된 이미지(image) 및 라이다(lidar)로부터 획득된 점군(point cloud) 데이터를 입력받는 단계, 상기 학습 데이터 생성 장치가, 상기 점군 데이터를 상기 이미지와 동일한 크기의 극좌표로 표현한 사영 이미지를 생성하는 단계, 상기 학습 데이터 생성 장치가, 상기 이미지 및 상기 사영 이미지를 사전 기계 학습(machine learning)된 인공지능(AI, Artificial Intelligence)에 각각 입력하여 예측하고자 하는 클래스(class)의 종류만큼의 차원을 갖는 2D 세그멘트 맵 및 3D 세그멘트 맵을 추정하는 단계를 포함할 수 있다.

Description

3차원 시맨틱 세그멘테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램{Method for 3D semantic segmentation, and computer program recorded on record-medium for executing method thereof}

본 발명은 인공지능(Artificial Intelligence, AI) 학습용 데이터의 가공에 관한 것이다. 보다 상세하게는, 카메라 및 라이다의 센서 퓨전을 통해 얻어낸 융합 데이터를 바탕으로 3차원 시맨틱 세그멘테이션을 수행하기 위한, 3차원 시맨틱 세그멘테이션 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램에 관한 것이다.

인공지능(AI)은 인간의 학습능력, 추론능력 및 지각능력 등의 일부 또는 전부를 컴퓨터 프로그램을 이용하여 인공적으로 구현하는 기술을 의미한다. 인공지능(AI)과 관련하여, 기계 학습(machine learning)은 다수의 파라미터로 구성된 모델을 이용하여 주어진 데이터로 파라미터를 최적화하는 학습을 의미한다. 이와 같은, 기계 학습은 학습용 데이터의 형태에서 따라, 지도 학습(supervised learning), 비지도 학습(unsupervised learning) 및 강화 학습(reinforcement learning)으로 구분된다.

일반적으로, 인공지능(AI) 학습용 데이터의 설계는 데이터 구조의 설계, 데이터의 수집, 데이터의 정제, 데이터의 가공, 데이터의 확장 및 데이터의 검증 단계로 진행된다.

각각의 단계에서 대하여 보다 구체적으로 설명하면, 데이터 구조의 설계는 온톨로지(ontology) 정의, 분류 체계의 정의 등을 통해 이루어진다. 데이터의 수집은 직접 촬영, 웹 크롤링(web crawling) 또는 협회/전문 단체 등을 통해 데이터를 수집하여 이루어진다. 데이터 정제는 수집된 데이터 내에서 중복 데이터를 제거하고, 개인 정보 등을 비식별화하여 이루어진다. 데이터의 가공은 어노테이션(annotation)을 수행하고, 메타데이터(metadata)를 입력하여 이루어진다. 데이터의 확장은 온톨로지 매핑(mapping)을 수행하고, 필요에 따라 온톨로지를 보완하거나 확장하여 이루어진다. 그리고, 데이터의 검증은 다양한 검증 도구를 활용하여 설정된 목표 품질에 따른 유효성을 검증하여 이루어진다.

한편, 차량의 자율주행(automatic driving)은 차량 스스로 판단하여 주행할 수 있는 시스템을 의미한다. 이와 같은, 자율주행은 시스템이 주행에 관여하는 정도와 운전차가 차량을 제어하는 정도에 따라 비자동화부터 완전 자동화까지 점진적인 단계로 구분될 수 있다. 일반적으로, 자율주행의 단계는 국제자동차기술자협회(SAE(Society of Automotive Engineers) International)에서 분류한 6단계의 레벨로 구분된다. 국제자동차기술자협회가 분류한 6단계에 따르면, 레벨 0단계는 비자동화, 레벨 1단계는 운전자 보조, 레벨 2단계는 부분 자동화, 레벨 3단계는 조건부 자동화, 레벨 4단계는 고도 자동화, 그리고 레벨 5단계는 완전 자동화 단계이다.

차량의 자율주행은 인지(perception), 측위(localization), 경로 계획(path planning) 및 제어(control)의 메커니즘을 통해 수행된다. 현재 여러 기업체들은 자율주행 메커니즘 중에서 인지 및 경로 계획을 인공지능(AI)을 이용하여 구현하기 위해 개발 중에 있다.

그러나, 최근에는 자율주행 차량의 충돌 사고가 빈번히 발생함에 따라, 자율 주행의 안전성 개선에 대한 요구가 늘어나고 있다.

한편, 시맨틱 세그멘테이션(Semantic Segmentation)은 자율 주행 차량이 넓은 범위의 주변 환경을 객체마다 분할하여 인식하는 중요한 인지 기술이다. 특히, 3차원 시맨틱 세그멘테이션은 주변 환경을 현실과 같이 3차원으로 인지할 수 있도록 한다.

최근에는 컴퓨터 비전 기술과 딥러닝 기술이 비약적 발전을 바탕으로 라이다(lidar)로부터 획득된 점군 데이터에 포함된 객체들을 식별하는 기술을 개발되었다.

그러나, 라이다로부터 획득된 점군 데이터는 점과 점 사이에 데이터가 존재하지 않는 희소(sparsity) 특성 상 거리가 너무 가깝거나, 일정 이상 멀어질 때 객체 사이의 정확한 경계를 구분하기 어려운 문제점이 있었다.

또한, 점군 데이터는 색상 정보가 포함되어 있지 않기 때문에, 주행 시 필수적으로 인지해야 할 신호등의 색깔, 표지판의 표시 등과 같은 요소들을 인지할 수 없다는 문제점이 있었다.

대한민국 등록특허공보 제10-2073873호, ‘시맨틱 세그멘테이션 방법 및 그 장치’, (2020.01.30. 등록)

본 발명의 일 목적은 카메라 및 라이다의 센서 퓨전을 통해 얻어낸 융합 데이터를 바탕으로 3차원 시맨틱 세그멘테이션을 수행하기 위한, 3차원 시맨틱 세그멘테이션 방법을 제공하는 것이다.

본 발명의 다른 목적은 카메라 및 라이다의 센서 퓨전을 통해 얻어낸 융합 데이터를 바탕으로 3차원 시맨틱 세그멘테이션을 수행하기 위한, 3차원 시맨틱 세그멘테이션 방법을 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램을 제공하는 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상술한 바와 같은 기술적 과제를 달성하기 위하여, 본 발명은 카메라 및 라이다의 센서 퓨전을 통해 얻어낸 융합 데이터를 바탕으로 3차원 시맨틱 세그멘테이션을 수행하기 위한, 3차원 시맨틱 세그멘테이션 방법을 제안한다. 상기 방법은 학습 데이터 생성 장치가, 카메라(camera)에 의해 촬영된 이미지(image) 및 라이다(lidar)로부터 획득된 점군(point cloud) 데이터를 입력받는 단계, 상기 학습 데이터 생성 장치가, 상기 점군 데이터를 상기 이미지와 동일한 크기의 극좌표로 표현한 사영 이미지를 생성하는 단계, 상기 학습 데이터 생성 장치가, 상기 이미지 및 상기 사영 이미지를 사전 기계 학습(machine learning)된 인공지능(AI, Artificial Intelligence)에 각각 입력하여 예측하고자 하는 클래스(class)의 종류만큼의 차원을 갖는 2D 세그멘트 맵 및 3D 세그멘트 맵을 추정하는 단계를 포함할 수 있다.

구체적으로, 상기 생성하는 단계는 상기 라이다 및 상기 카메라 사이의 캘리브레이션 행렬 정보 및 상기 점군 데이터 좌표의 곱 연산을 통해 상기 사영 이미지를 생성하되, 상기 생성된 사영 이미지에서 사전 설정된 영역을 절사하고, 상기 절사 된 영역을 상기 이미지에 동일하게 절사하여, 동일한 높이(high) 및 너비(width)를 갖는 이미지 및 사영 이미지를 생성하는 것을 특징으로 한다.

상기 추정하는 단계 이전에 상기 인공지능을 학습하는 단계를 더 포함하고,

상기 학습하는 단계는 상기 2D 세그멘트 맵 및 상기 3D 세그멘트 맵을 추정하기 위한 손실 값을 동시에 계산하여 합산하는 합성 손실함수를 기초로 상기 인공지능을 학습하는 것을 특징으로 한다.

상기 합성 손실함수는 하기의 수학식으로 표현되는 것을 특징으로 한다.

[수학식]

(여기서, L_2D는 상기 2D 세그멘트 맵을 추정하기 위한 제1 손실 값, L_3D는 상기 3D 세그멘트 맵을 추정하기 위한 제2 손실 값을 의미하고, label_2D는 2D 세그멘트 맵을 추정하기 위한 제1 정답 값, label_3D는 3D 세그멘트 맵을 추정하기 위한 제2 정답 값을 의미한다.)

상기 학습하는 단계는 상기 제1 정답 값에 포함된 각 점으로부터 사전 설정된 거리만큼 이웃하는 픽셀을 동일한 라벨(label)로 설정하는 것을 특징으로 한다.

상기 제1 손실 값 및 상기 제2 손실 값은 하기의 수학식을 통해 산출되는 것을 특징으로 한다.

[수학식]

(여기서, label_2D는 제1 정답 값, label_3D는 제2 정답 값을 의미한다.)

상기 Focal Loss(L_Focal)는 하기의 수학식을 통해 산출되고,

[수학식]

상기 Dice Loss(L_Dice)는 하기의 수학식을 통해 산출되고,

[수학식]

상기 Lovasz Loss(L_Lovasz)은 하기의 수학식을 통해 산출되고,

[수학식]

상기Δ_jc는 하기의 수학식을 통해 산출되고,

상기 J_c(P_true,P_pred)는 하기의 수학식을 통해 산출되고,

상기 m_i(c)는 하기의 수학식을 통해 산출되고,

상기 f_i(c)는 하기의 수학식을 통해 산출되는 것을 특징으로 한다.

(여기서 P_pred는 상기 2D 세그멘트 맵 또는 상기 3D 세그멘트 맵을 의미하고, P_true는 상기 제1 정?? 값 또는 상기 제2 정답 값을 의미하고, C는 전 클래스, c는 각 클래스를 의미한다.)

상기 인공지능은 상기 이미지 및 상기 사영 이미지 각각의 구조 및 맥락정보를 학습하기 위한 컨텍스트 블록(contextual block) 및 잔차 블록(res block)을 포함하는 인코더, 상기 인코더로부터 출력된 데이터를 확장하는 확장 블록(up block) 및 상기 2D 세그멘트 맵 및 상기 3D 세그멘트 맵을 출력하기 위한 출력층을 포함하는 디코더 및 상기 컨텍스트 블록, 상기 잔차 블록 및 상기 확장 블록에서 출력되는 특징맵들을 융합하기 위한 어텐션 퓨전 블록을 포함하는 것을 특징으로 한다.

상기 인코더는 상기 이미지 및 상기 사영 이미지의 크기 대비 1/2, 1/4, 1/8 및 1/16 크기의 특징맵을 순차적으로 생성하여 상기 디코더의 확장 블록으로 전달하고, 상기 디코더는 상기 전달받은 특징맵을 1/8, 1/4, 1/2 및 1의 크기로 순차적으로 복원하고, 상기 확장 블록은 상기 전달받은 특징맵을 확대 또는 축소하는 픽셀 셔플(pixel shuffle) 계층, 확대된 특징맵의 특징들을 학습하는 확장 컨벌루션 계층 및 상기 인코더의 잔차 블록으로부터 잔차 연결로 전달된 특징맵과의 접합(concatenate)을 위한 접합 계층을 포함하는 것을 특징으로 한다.

상기 어텐션 퓨전 블록은 복수개의 잔차 블록들 및 복수개의 확장 블록들 사이에 배치되어, 객체의 모양, 구조 및 경계 부분에 대한 정보량이 상대적으로 부족한 사영 이미지의 특징들을 색상 정보를 갖는 이미지의 특징들을 바탕으로 추론하는 것을 특징으로 한다.

상기 세그멘트 맵을 추정하는 단계는 상기 인공지능을 통해 상기 이미지의 특징맵에서 중요 특징들의 위치 및 반영 비율을 추론하고, 상기 추론된 위치 및 반영 비율을 상기 이미지의 특징맵 및 상기 사영 이미지의 특징맵과 각각 곱한 뒤, 상기 이미지 및 상기 사영 이미지와 상기 잔차 블록을 통해 연결하여 상기 중요 특징이 강조된 2D 세그멘트 맵 및 3D 세그멘트 맵을 생성하는 것을 특징으로 한다.

상기 세그멘트 맵을 추정하는 단계는 상기 생성된 3D 세그멘트 맵의 채널 중 중요 특징을 포함하는 채널을 도출하고, 상기 도출된 채널의 중요도를 산출하여 잔차 경로로 연결하는 것을 특징으로 한다.

상술한 바와 같은 기술적 과제를 달성하기 위하여, 본 발명은 3D 시맨틱 세그멘테이션 방법을 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램을 제안한다. 상기 컴퓨터 프로그램은 메모리(memory), 송수신기(transceiver) 및 상기 메모리에 상주된 명령어를 처리하는 프로세서(processor)를 포함하여 구성된 컴퓨팅 장치와 결합될 수 있다. 그리고, 상기 컴퓨터 프로그램은 상기 프로세서가, 카메라(camera)에 의해 촬영된 이미지(image) 및 라이다(lidar)로부터 획득된 점군(point cloud) 데이터를 입력받는 단계, 상기 프로세서가, 상기 점군 데이터를 상기 이미지와 동일한 크기의 극좌표로 표현한 사영 이미지를 생성하는 단계, 상기 프로세서가, 상기 이미지 및 상기 사영 이미지를 사전 기계 학습(machine learning)된 인공지능(AI, Artificial Intelligence)에 각각 입력하여 예측하고자 하는 클래스(class)의 종류만큼의 차원을 갖는 2D 세그멘트 맵 및 3D 세그멘트 맵을 추정하는 단계를 실행시키기 위하여, 기록매체에 기록된 컴퓨터 프로그램이 될 수 있다.

기타 실시 예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

본 발명의 실시 예들에 따르면, 이중 입력 및 이중 출력으로 이루어진 인공지능을 통해 이미지 및 점군 데이터 각각의 장점을 활용할 수 있도록 하고, 이미지에 포함된 객체와 경계에 대한 주요 시각 정보를 점군 데이터에 포함된 객체에 대한 위치 및 거리 정보와 원활히 융합 및 활용될 수 있도록 할 수 있다.

본 발명의 효과들은 이상에서 언급한 효과로 제한되지 아니하며, 언급되지 않은 또 다른 효과들은 청구범위의 기재로부터 본 발명이 속한 기술분야의 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 인공지능 학습 시스템을 나타낸 구성도이다.
도 2는 본 발명의 일 실시예에 따른 학습 데이터 수집 장치의 구성을 설명하기 위한 예시도이다.
도 3은 본 발명의 일 실시예에 따른 학습 데이터 생성 장치의 논리적 구성도이다.
도 4는 본 발명의 일 실시예에 따른 학습 데이터 생성 장치의 하드웨어 구성도이다.
도 5는 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법을 설명하기 위한 순서도이다.
도 6은 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법을 설명하기 위한 흐름도이다.
도 7 내지 9는 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법을 설명하기 위한 예시도이다.

본 명세서에서 사용되는 기술적 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아님을 유의해야 한다. 또한, 본명세서에서 사용되는 기술적 용어는 본 명세서에서 특별히 다른 의미로 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 의미로 해석되어야 하며, 과도하게 포괄적인 의미로 해석되거나, 과도하게 축소된 의미로 해석되지 않아야 한다. 또한, 본 명세서에서 사용되는 기술적인 용어가 본 발명의 사상을 정확하게 표현하지 못하는 잘못된 기술적 용어일 때에는, 당업자가 올바르게 이해할 수 있는 기술적 용어로 대체되어 이해되어야 할 것이다. 또한, 본 발명에서 사용되는 일반적인 용어는 사전에 정의되어 있는 바에 따라, 또는 전후 문맥상에 따라 해석되어야 하며, 과도하게 축소된 의미로 해석되지 않아야 한다.

또한, 본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "구성된다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.

또한, 본 명세서에서 사용되는 제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성 요소는 제2 구성 요소로 명명될 수 있고, 유사하게 제2 구성 요소도 제1 구성 요소로 명명될 수 있다.

어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 유사한 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 또한, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 첨부된 도면은 본 발명의 사상을 쉽게 이해할 수 있도록 하기 위한 것일 뿐, 첨부된 도면에 의해 본 발명의 사상이 제한되는 것으로 해석되어서는 아니 됨을 유의해야 한다. 본 발명의 사상은 첨부된 도면 외에 모든 변경, 균등물 내지 대체물에 까지도 확장되는 것으로 해석되어야 한다.

또한, 점군 데이터는 색상 정보가 포함되어 있지 않기 때문에, 주행 시 필수적으로 인지해야 할 신호등의 색깔, 표지판의 표시 등과 같은 요소들을 인지할 수 없다는 문제가 있다.

이러한 한계를 극복하고자, 본 발명은 카메라 및 라이다의 센서 퓨전을 통해 얻어낸 3차원 정보를 포함하는 융합 데이터를 기초로 한 3차원 시맨틱 세그멘테이션을 수행할 수 있는 다양한 수단들을 제안하고자 한다.

도 1은 본 발명의 일 실시예에 따른 인공지능 학습 시스템을 나타낸 구성도이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 인공지능 학습 시스템은 학습 데이터 수집 장치(100), 학습 데이터 생성 장치(200) 및 인공지능 학습 장치(300)를 포함하여 구성될 수 있다.

이와 같은, 일 실시예에 따른 인공지능 학습 시스템의 구성 요소들은 기능적으로 구분되는 요소들을 나타낸 것에 불과하므로, 둘 이상의 구성 요소가 실제 물리적 환경에서는 서로 통합되어 구현되거나, 하나의 구성 요소가 실제 물리적 환경에서는 서로 분리되어 구현될 수 있을 것이다.

각각의 구성 요소에 대하여 설명하면, 학습 데이터 수집 장치(100)는 자율주행에 사용될 수 있는 인공지능(AI)을 기계 학습시키기 위한 데이터를 수집하기 위하여, 차량에 설치된 라이다(lidar) 및 카메라(camera)로부터 실시간으로 데이터를 수집하는 장치이다. 하지만, 이에 한정된 것은 아니고, 학습 데이터 수집 장치(100)는 레이더(radar) 및 초음파 센서(ultrasonic sensor)를 포함할 수도 있다. 또한, 학습 데이터 수집 장치(100)의 제어 대상이자, 차량에 설치되어 기계 학습용 데이터를 획득, 촬영 또는 감지하는 센서는 종류별로 하나씩 구비되는 것으로 한정되지 아니하며, 동일한 종류의 센서라 할지라도 복수 개로 구비될 수 있다.

학습 데이터 수집 장치(100)의 제어 대상이자, 차량에 설치되어 기계 학습용 데이터를 획득, 촬영 또는 감지하는 센서들의 종류에 대해서는 추후 도 2를 참조하여 보다 구체적으로 설명하기로 한다.

다음 구성으로, 학습 데이터 생성 장치(200)는 복수의 학습 데이터 수집 장치(100) 각각으로부터 이동통신(mobile communication)을 이용하여 각각의 학습 데이터 수집 장치(100)에 의해 실시간으로 수집된 데이터를 수신하고, 수신된 데이터에 대하여 어노테이션을 수행할 수 있다.

이러한, 학습 데이터 생성 장치(200)는 학습 데이터 생성 장치(100)는 인공지능 학습 장치(400)로부터 인공지능(AI) 학습용 데이터의 요청이 수신되기 이전에, 선제적으로 인공지능(AI) 학습용 데이터를 생성할 수 있는 빅데이터(big data)를 구축해 놓을 수 있다.

특징적으로, 학습 데이터 생성 장치(200)는 카메라(camera)에 의해 촬영된 이미지(image) 및 라이다(lidar)로부터 획득된 점군(point cloud) 데이터를 입력받고, 점군 데이터를 이미지와 동일한 크기의 극좌표로 표현한 사영 이미지를 생성할 수 있다. 또한, 학습 데이터 생성 장치(200)는 이미지 및 사영 이미지를 사전 기계 학습(machine learning)된 인공지능(AI, Artificial Intelligence)에 각각 입력하여 예측하고자 하는 클래스(class)의 종류만큼의 차원을 갖는 2D 세그멘트 맵 및 3D 세그멘트 맵을 추정할 수 있다.

이와 같은 특징을 가지는, 학습 데이터 생성 장치(200)는 학습 데이터 수집 장치(100) 및 인공지능 학습 장치(300)와 데이터를 송수신하고, 송수신된 데이터를 기초로 연산을 수행할 수 있는 장치라면 어떠한 장치라도 허용될 수 있다.

예를 들어, 학습 데이터 생성 장치(200)는 데스크탑(desktop), 워크스테이션(workstation) 또는 서버(server)와 같은 고정식 컴퓨팅 장치 중 어느 하나가 될 수 있으나, 이에 한정되는 것은 아니다.

한편, 학습 데이터 생성 장치(200)에 관한 구체적인 설명은 이하, 도 3 및 도 4를 참조하여 후술하도록 한다.

다음 구성으로, 인공지능 학습 장치(300)는 인공지능(AI)을 개발하는데 사용될 수 있는 장치이다.

구체적으로, 인공지능 학습 장치(300)는 인공지능(AI)이 개발 목적을 달성하기 위하여 인공지능(AI) 학습용 데이터가 만족해야 하는 요구 사항을 포함하는 요구 값을 학습 데이터 생성 장치(200)에 전송할 수 있다. 인공지능 학습 장치(300)는 학습 데이터 생성 장치(200)로부터 인공지능(AI) 학습용 데이터를 수신할 수 있다. 그리고, 인공지능 학습 장치(300)는 수신된 인공지능(AI) 학습용 데이터를 이용하여, 개발하고자 하는 인공지능(AI)을 기계 학습할 수 있다.

이와 같은, 인공지능 학습 장치(300)는 학습 데이터 생성 장치(200)와 데이터를 송수신하고, 송수신된 데이터를 이용하여 연산을 수행할 수 있는 장치라면 어떠한 장치라도 허용될 수 있다. 예를 들어, 인공지능 학습 장치(300)는 데스크탑, 워크스테이션 또는 서버와 같은 고정식 컴퓨팅 장치 중 어느 하나가 될 수 있으나, 이에 한정되는 것은 아니다.

상술한 바와 같은, 하나 이상의 학습 데이터 수집 장치(100), 학습 데이터 생성 장치(200) 및 인공지능 학습 장치(300)는 장치들 사이에 직접 연결된 보안회선, 공용 유선 통신망 또는 이동 통신망 중 하나 이상이 조합된 네트워크를 이용하여 데이터를 송수신할 수 있다.

예를 들어, 공용 유선 통신망에는 이더넷(ethernet), 디지털가입자선(x Digital Subscriber Line, xDSL), 광동축 혼합망(Hybrid Fiber Coax, HFC), 광가입자망(Fiber To The Home, FTTH)가 포함될 수 있으나, 이에 한정되는 것도 아니다. 그리고, 이동 통신망에는 코드 분할 다중 접속(Code Division Multiple Access, CDMA), 와이드 밴드 코드 분할 다중 접속(Wideband CDMA, WCDMA), 고속 패킷 접속(High Speed Packet Access, HSPA), 롱텀 에볼루션(Long Term Evolution, LTE), 5세대 이동통신(5th generation mobile telecommunication)가 포함될 수 있으나, 이에 한정되는 것은 아니다.

도 2는 본 발명의 일 실시예에 따른 센서들을 설명하기 위한 예시도이다.

도 2에 도시된 바와 같이, 본 발명의 일 실시예에 따른 학습 데이터 수집 장치(100)는 차량(10)에 고정 설치된 레이더(20), 라이다(30), 카메라(40) 및 초음파 센서(50) 중 하나 이상을 제어하여, 인공지능(AI)을 기계 학습시키기 위한 기초 데이터를 수집할 수 있다.

여기서, 차량(10)은 인공지능(AI)을 기계 학습시키기 위한 기초 데이터를 수집하기 위한 레이더(20), 라이다(30), 카메라(40) 및 초음파 센서(50)가 설치된 차량으로, 인공지능(AI)에 의해 자율주행을 수행하는 차량과는 서로 구별될 수 있다.

레이더(20)는 차량(10)에 고정 설치되어 차량(10)의 주행 방향을 향하여 전자기파(electromagnetic wave)를 발사하고, 차량(10)의 전방에 위치하는 객체(object)에 의해 반사되어 돌아온 전자기파를 감지하여, 차량(10)이 전방에 대한 영상에 해당하는 감지 데이터를 생성할 수 있다.

다르게 말하면, 감지 데이터는 차량(10)에 고정 설치된 레이더(20)에 의해 차량의 주행 방향을 향하여 발사된 전자기파를 반사시킨 점들(points)에 대한 정보이다. 따라서, 감지 데이터에 포함된 점들의 좌표들은 차량(10)의 전방에 위치하는 객체의 위치 및 형상에 대응하는 값을 가질 수 있다. 이러한, 감지 데이터는 2차원 정보가 될 수 있으나, 이에 한정되지 않고 3차원 정보가 될 수도 있다.

라이다(30)는 차량(10)에 고정 설치되어 차량(10)의 주위로 레이저 펄스(laser pulse)를 방사하고, 차량(10)의 주위에 위치하는 객체에 의해 반사되어 돌아온 빛을 감지하여, 차량(10)의 주위에 대한 3차원 영상에 해당하는 3D 점군 데이터를 생성할 수 있다.

다르게 말하면, 3D 점군 데이터는 차량(10)에 고정 설치된 라이다(30)에 의해 차량의 주위로 방사된 레이저 펄스를 반사시킨 점들에 대한 3차원 정보이다. 따라서, 3D 점군 데이터에 포함된 점들의 좌표들은 차량(10)의 주위에 위치하는 객체의 위치 및 형성에 대응하는 값을 가질 수 있다.

카메라(40)는 차량(10)에 고정 설치되어 차량(10)의 주위에 대한 2차원 이미지를 촬영할 수 있다. 이와 같은, 카메라(40)는 서로 다른 방향을 촬영할 수 있도록 복수 개가 지표면과 수평 또는 수평 방향으로 이격되게 설치될 수 있다. 예를 들어, 도 2는 서로 다른 6개의 방향을 촬영할 수 있는 6개의 카메라(40)가 고정 설치된 차량(10)의 예시를 도시하고 있으나, 차량(10)에 설치될 수 있는 카메라(40)가 다양한 개수로 구성될 수 있음은 본 발명이 속한 기술분야의 통상의 지식을 가진 자에게 자명할 것이다.

다르게 말하면, 2D 이미지는 차량(10)에 고정 설치된 카메라(40)에 의해 촬영된 이미지이다. 따라서, 2D 이미지에는 카메라(40)가 향하는 방향에 위치하는 객체의 색상 정보가 포함될 수 있다.

초음파 센서(50)는 차량(50)에 고정 설치되어 차량(10)의 주위로 초음파(ultrasonic)를 발사하고, 차량(10)과 인접하게 위치하는 객체에 의해 반사되어 돌아온 음파를 감지하여, 차량(10)에 설치된 초음파 센서(50)와 객체 사이의 거리에 해당하는 거리 정보를 생성할 수 있다. 일반적으로, 초음파 센서(50)는 복수 개로 구성되어, 객체와 접촉하기 쉬운 차량(10)의 전방, 후방, 전측방 및 후측방에 고정 설치될 수 있다.

다르게 말하면, 거리 정보는 차량(10)에 고정 설치된 초음파 센서(50)에 의해 감지된 객체로부터의 거리에 관한 정보이다.

이하, 상술한 바와 같은, 학습 데이터 생성 장치(200)의 구성에 대하여 보다 구체적으로 설명하기로 한다.

도 3은 본 발명의 일 실시예에 따른 학습 데이터 생성 장치의 논리적 구성도이다.

도 3을 참조하면, 학습 데이터 생성 장치(200)는 통신부(205), 입출력부(210), 사전학습부(215), 데이터전처리부(220), 추론부(225) 및 저장부(230)를 포함하여 구성될 수 있다.

이와 같은, 학습 데이터 생성 장치(200)의 구성 요소들은 기능적으로 구분되는 요소들을 나타낸 것에 불과하므로, 둘 이상의 구성 요소가 실제 물리적 환경에서는 서로 통합되어 구현되거나, 하나의 구성 요소가 실제 물리적 환경에서는 서로 분리되어 구현될 수 있을 것이다.

구체적으로, 통신부(205)는 인공지능(AI)의 기계 학습을 위한 이미지 및 점군 데이터를 학습 데이터 수집 장치(100)로부터 수신할 수 있다.

또한, 통신부(205)는 시맨틱 세그멘테이션의 3차원 해석 결과를 인공지능 학습 장치(300)에 전송할 수 있다.

다음 구성으로, 입출력부(210)는 사용자 인터페이스(User Interface, UI)를 통해 사용자로부터 신호를 입력 받거나, 연산된 결과를 외부로 출력할 수 있다.

구체적으로, 입출력부(210)는 사용자로부터 시맨틱 세그멘테이션 특징맵을 생성하거나, 생성된 시맨틱 세그멘테이션 특징맵을 3차원 해석하기 위한 다양한 설정 값들을 입력받고, 생성된 결과 값들을 출력할 수 있다.

다음 구성으로, 사전 학습부(215)는 사전 저장된 데이터 셋에 포함된 라이다로부터 획득된 점군 데이터, 점군 데이터와 동시에 카메라를 통해 촬영된 이미지, 라이다 및 카메라 사이의 캘리브레이션 정보, 점군 데이터의 3차원 포인트 단위로 클래스 라벨이 명시되어 있는 정답 데이터를 기초로 인공 지능을 사전 학습시킬 수 있다.

구체적으로, 사전 학습부(215)는 2D 세그멘트 맵 및 3D 세그멘트 맵을 추정하기 위한 손실 값을 동시에 계산하여 합산하는 합성 손실함수를 기초로 인공지능을 학습할 수 있다.

여기서, 합성 손실함수는 하기의 수학식으로 표현될 수 있다.

[수학식]

(여기서, L_2D는 2D 세그멘트 맵을 추정하기 위한 제1 손실 값, L_3D는 3D 세그멘트 맵을 추정하기 위한 제2 손실 값을 의미하고, label_2D는 2D 세그멘트 맵을 추정하기 위한 제1 정답 값, label_3D는 3D 세그멘트 맵을 추정하기 위한 제2 정답 값을 의미한다.)

즉, 사전 학습부(215)는 2차원 시맨텍 세그멘테이션을 위한 제1 손실 값과 3차원 시맨틱 세그멘테이션을 위한 제2 손실 값을 동시에 계산하는 합성 손실함수를 사용할 수 있다.

한편, 각각의 손실 값을 계산하기 위해 사용되는 제1 정답 값 및 제2 정답 값은 많은 부분의 데이터가 검게 비워져 있는 희소 데이터이다. 여기서, 제1 정답 값 및 제2 정답 값이 희소 데이터인 이유는 점군 데이터의 3차원 정답 값을 캘리브레이션 행렬과의 곱 연산을 통해 사영한 2차원 사영점에 매기는 방법으로 생성되었기 때문이다.

이에 따라, 사전 학습부(215)는 희소 특성에 의한 영향을 줄이기 위하여 제1 정답 값에 포함된 각 점으로부터 사전 설정된 거리만큼 이웃하는 픽셀을 동일한 라벨(label)로 설정할 수 있다. 이때, 사전 학습부(215)는 근접 보간(nearest neighbor interpolation)을 통해 이웃하는 픽셀을 동일한 라벨(label)로 설정할 수 있다.

한편, 제1 손실 값 및 제2 손실 값은 하기의 수학식을 통해 산출될 수 있다. 즉, 제1 손실 값 및 제2 손실 값은 예측된 2D 세그멘트 맵 및 3D 세그멘트 맵과, 이에 대한 제1 정답 값 및 제2 정답 값 사이의 세그멘트 별 분류 오차를 최소화하는 Focal Loss와, 맵 전체를 대상으로 세그멘트의 IoU(Intersection over Union)를 최적화하여 구조적 오차를 최소화하는 Dice Loss 및 Lovasz Loss의 합으로 산출할 수 있다.

[수학식]

Focal Loss(L_Focal)는 하기의 수학식을 통해 산출될 수 있다. 즉, 사전 학습부(215)는 모델이 정답을 정확히 예측할 때는 그 손실 값을 본래 값보다 축소하여 학습 비중을 줄일 수 있다. 반대로, 모델이 정답을 예측하는데 실패한 경우에는 그 손실 값을 본래 값보다 크게 하여 학습의 비중을 늘림으로써 학습 과정에서 모델이 제대로 학습하지 못하고 있는 내용에 집중하도록 유도할 수 있다.

[수학식]

Dice Loss(L_Dice)는 하기의 수학식을 통해 산출될 수 있다. 즉, 사전 학습부(215)는 정답과 예측 사이의 유사도가 높아지도록 모델을 학습하며, 클래스 간 데이터 불균형에 의한 모델의 편중적 학습을 방지하기 위해 라벨 스무딩(label smoothing)을 적용할 수 있다.

[수학식]

Lovasz Loss(L_Lovasz)은 하기의 수학식을 통해 산출될 수 있다. 즉, 사전 학습부(215)는 세그멘트 맵 전체의 구조적 오차를 정답과 예측 사이의 IoU를 중심으로 측정하며, IoU를 저해하는 예측에 대하여 강한 패널티를 부여함으로써, 맵 전체에서 구조적으로 최적화된 예측이 만들어지도록 모델을 학습할 수 있다. 또한, 사전 학습부(215)는 학습 데이터 셋을 구성하는 전 클래스(C)에 대하여 각 클래스(c)마다 IoU를 계산하고, 예측을 정렬한 뒤 IoU를 가장 많이 감소시킨 예측에 강한 패널티를 부여하는 방식으로 손실 값을 계산함으로써, 모델이 각 클래스 별 세그멘트의 구조들을 정확히 예측하도록 모델을 학습시킬 수 있다.

[수학식]

여기서, Δ_jc는 하기의 수학식을 통해 산출될 수 있다.

또한, J_c(P_true,P_pred)는 하기의 수학식을 통해 산출될 수 있다.

또한, m_i(c)는 하기의 수학식을 통해 산출될 수 있다.

그리고, f_i(c)는 하기의 수학식을 통해 산출될 수 있다.

다음 구성으로, 데이터전처리부(220)는 학습 데이터 수집 장치(100)로부터 수신한 점군 데이터 및 이미지를 전처리할 수 있다.

구체적으로, 데이터전처리부(220)는 카메라에 의해 촬영된 이미지 및 라이다로부터 획득된 점군 데이터를 입력받고, 점군 데이터를 이미지와 동일한 크기의 극좌표로 표현한 사영 이미지를 생성할 수 있다.

이때, 데이터전처리부(220)는 라이다 및 상기 카메라 사이의 캘리브레이션 행렬 정보 및 점군 데이터 좌표의 곱 연산을 통해 사영 이미지를 생성하되, 생성된 사영 이미지에서 사전 설정된 영역을 절사하고, 절사 된 영역을 이미지에 동일하게 절사하여, 동일한 높이(high) 및 너비(width)를 갖는 이미지 및 사영 이미지를 생성할 수 있다.

즉, 데이터전처리부(220)는 라이다로는 측정할 수 없는 하늘 부분을 절사하여 데이터의 불필요한 희소성 증가를 방지할 수 있다.

다음 구성으로, 추론부(225)는 이미지 및 사영 이미지를 사전 기계 학습(machine learning)된 인공지능(AI, Artificial Intelligence)에 각각 입력하여 예측하고자 하는 클래스(class)의 종류만큼의 차원을 갖는 2D 세그멘트 맵 및 3D 세그멘트 맵을 추정할 수 있다.

구체적으로, 추론부(225)는 어텐션 메커니즘을 토대로 설계된 고유한 퓨전 모듈을 바탕으로 인코더 및 디코더의 각 블록이 추출하는 특징들을 융합할 수 있으며, 특징 단계에서의 센서 퓨전을 통해 예측하고자 하는 클래스의 종류만큼의 차원을 갖는 (H, W) 크기의 2D 세그멘트 맵과, (H*W) 길이의 3D 세그멘트 맵을 예측할 수 있다.

이러한, 추론부(225)는 이미지 및 상기 사영 이미지 각각의 구조 및 맥락정보를 학습하기 위한 컨텍스트 블록(contextual block) 및 잔차 블록(res block)을 포함하는 인코더(encoder), 인코더로부터 출력된 데이터를 확장하는 확장 블록(up block) 및 2D 세그멘트 맵 및 3D 세그멘트 맵을 출력하기 위한 출력층을 포함하는 디코더(decoder) 및 컨텍스트 블록, 잔차 블록 및 확장 블록에서 출력되는 특징맵들을 융합하기 위한 어텐션 퓨전 블록을 포함하는 어텐션 퓨전 모듈(attention fusion module)을 포함하여 구성될 수 있다,

여기서, 인코더는 이미지 및 사영 이미지의 크기 대비 1/2, 1/4, 1/8 및 1/16 크기의 특징맵을 순차적으로 생성하여 디코더의 확장 블록으로 전달할 수 있다.

디코더는 전달받은 특징맵을 1/8, 1/4, 1/2 및 1의 크기로 순차적으로 복원할 수 있다. 이때, 확장 블록은 전달받은 특징맵을 확대 또는 축소하는 픽셀 셔플(pixel shuffle) 계층, 확대된 특징맵의 특징들을 학습하는 확장 컨벌루션 계층 및 인코더의 잔차 블록으로부터 잔차 연결로 전달된 특징맵과의 접합(concatenate)을 위한 접합 계층을 포함할 수 있다.

어텐션 퓨전 블록은 컨텍스트 블록을 제외한 복수개의 잔차 블록들 및 복수개의 확장 블록들 사이에 배치되어, 객체의 모양, 구조 및 경계 부분에 대한 정보량이 상대적으로 부족한 사영 이미지의 특징들을 색상 정보를 갖는 이미지의 특징들을 바탕으로 추론할 수 있다.

이를 통해, 추론부(220)는 인공지능을 통해 상기 이미지의 특징맵에서 중요 특징들의 위치 및 반영 비율을 추론하고, 추론된 위치 및 반영 비율을 이미지의 특징맵 및 사영 이미지의 특징맵과 각각 곱한 뒤, 이미지 및 사영 이미지와 잔차 블록을 통해 연결하여 중요 특징이 강조된 2D 세그멘트 맵 및 3D 세그멘트 맵을 생성할 수 있다.

이때, 추론부(225)는 생성된 3D 세그멘트 맵의 채널 중 중요 특징을 포함하는 채널을 도출하고, 도출된 채널의 중요도를 산출하여 잔차 경로로 연결할 수 있다.

한편, 추론부(225)에 대한 더욱 구체적인 설명은 이하 도면을 참조하여 후술하도록 한다.

다음 구성으로, 저장부(230)는 학습 데이터 생성 장치(200)의 동작에 필요한 데이터를 저장할 수 있다. 저장부(235)는 인공지능(AI) 학습을 위한 데이터를 설계하는데 필요한 데이터를 저장할 수 있다.

이하, 상술한 바와 같은 학습 데이터 생성 장치(200)의 논리적 구성요소를 구현하기 위한 하드웨어에 대하여 보다 구체적으로 설명한다.

도 4는 본 발명의 일 실시예에 따른 학습 데이터 생성 장치의 하드웨어 구성도이다.

도 4를 참조하면, 학습 데이터 생성 장치(200)는 프로세서(Processor, 250), 메모리(Memory, 255), 송수신기(Transceiver, 260), 입출력장치(Input/output device, 265), 데이터 버스(Bus, 270) 및 스토리지(Storage, 275)를 포함하여 구성될 수 있다.

프로세서(250)는 메모리(255)에 상주된 소프트웨어(280a)에 따른 명령어를 기초로, 학습 데이터 생성 장치(200)의 동작 및 기능을 구현할 수 있다. 메모리(255)에는 본 발명에 따른 방법이 구현된 소프트웨어(280a)가 상주(loading)될 수 있다. 송수신기(260)는 학습 데이터 수집 장치(100) 및 인공지능 학습 장치(300)와 데이터를 송수신할 수 있다.

입출력장치(265)는 학습 데이터 설계 장치(200)의 동작에 필요한 데이터를 입력 받고, 생성된 결과 값을 출력할 수 있다. 데이터 버스(270)는 프로세서(250), 메모리(255), 송수신기(260), 입출력장치(265) 및 스토리지(275)와 연결되어, 각각의 구성 요소 사이가 서로 데이터를 전달하기 위한 이동 통로의 역할을 수행할 수 있다.

스토리지(275)는 본 발명에 다른 방법이 구현된 소프트웨어(280a)의 실행을 위해 필요한 애플리케이션 프로그래밍 인터페이스(Application Programming Interface, API), 라이브러리(library) 파일, 리소스(resource) 파일 등을 저장할 수 있다. 스토리지(275)는 본 발명에 따른 방법이 구현된 소프트웨어(280b)를 저장할 수 있다. 또한, 스토리지(275)는 3차원 시맨틱 세그멘테이션 방법의 수행에 필요한 정보들을 저장할 수 있다. 특히, 스토리지(275)는 3차원 시맨틱 세그멘테이션 방법을 수행하기 위한 프로그램을 저장하는 데이터베이스(285)를 포함할 수 있다.

본 발명의 일 실시예에 따르면, 메모리(255)에 상주되거나 또는 스토리지(275)에 저장된 소프트웨어(280a, 280b)는 프로세서(250)가 카메라(camera)에 의해 촬영된 이미지(image) 및 라이다(lidar)로부터 획득된 점군(point cloud) 데이터를 입력받는 단계, 프로세서(250)가, 점군 데이터를 이미지와 동일한 크기의 극좌표로 표현한 사영 이미지를 생성하는 단계, 프로세서(250)가, 이미지 및 사영 이미지를 사전 기계 학습(machine learning)된 인공지능(AI, Artificial Intelligence)에 각각 입력하여 예측하고자 하는 클래스(class)의 종류만큼의 차원을 갖는 2D 세그멘트 맵 및 3D 세그멘트 맵을 추정하는 단계를 실행하기 위하여, 기록매체에 기록된 컴퓨터 프로그램이 될 수 있다.

보다 구체적으로, 프로세서(250)는 ASIC(Application-Specific Integrated Circuit), 다른 칩셋(chipset), 논리 회로 및/또는 데이터 처리 장치를 포함할 수 있다. 메모리(255)는 ROM(Read-Only Memory), RAM(Random Access Memory), 플래쉬 메모리, 메모리 카드, 저장 매체 및/또는 다른 저장 장치를 포함할 수 있다. 송수신기(260)는 유무선 신호를 처리하기 위한 베이스밴드 회로를 포함할 수 있다. 입출력장치(265)는 키보드(keyboard), 마우스(mouse), 및/또는 조이스틱(joystick) 등과 같은 입력 장치 및 액정표시장치(Liquid Crystal Display, LCD), 유기 발광 다이오드(Organic LED, OLED) 및/또는 능동형 유기 발광 다이오드(Active Matrix OLED, AMOLED) 등과 같은 영상 출력 장치 프린터(printer), 플로터(plotter) 등과 같은 인쇄 장치를 포함할 수 있다.

본 명세서에 포함된 실시 예가 소프트웨어로 구현될 경우, 상술한 방법은 상술한 기능을 수행하는 모듈(과정, 기능 등)로 구현될 수 있다. 모듈은 메모리(255)에 상주되고, 프로세서(250)에 의해 실행될 수 있다. 메모리(255)는 프로세서(250)의 내부 또는 외부에 있을 수 있고, 잘 알려진 다양한 수단으로 프로세서(250)와 연결될 수 있다.

도 4에 도시된 각 구성요소는 다양한 수단, 예를 들어, 하드웨어, 펌웨어(firmware), 소프트웨어 또는 그것들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 본 발명의 일 실시예는 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 프로세서, 콘트롤러, 마이크로 콘트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.

또한, 펌웨어나 소프트웨어에 의한 구현의 경우, 본 발명의 일 실시예는 이상에서 설명된 기능 또는 동작들을 수행하는 모듈, 절차, 함수 등의 형태로 구현되어, 다양한 컴퓨터 수단을 통하여 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 이러한, 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

도 5는 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법을 설명하기 위한 순서도이고, 도 6은 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법을 설명하기 위한 흐름도이다.

도 5 및 도 6을 참조하면, 먼저 S100 단계에서 학습 데이터 생성 장치는 사전 저장된 데이터 셋에 포함된 라이다로부터 획득된 점군 데이터, 점군 데이터와 동시에 카메라를 통해 촬영된 이미지, 라이다 및 카메라 사이의 캘리브레이션 정보, 점군 데이터의 3차원 포인트 단위로 클래스 라벨이 명시되어 있는 정답 데이터를 기초로 인공 지능을 사전 학습시킬 수 있다.

구체적으로, 학습 데이터 생성 장치는 2D 세그멘트 맵 및 3D 세그멘트 맵을 추정하기 위한 손실 값을 동시에 계산하여 합산하는 합성 손실함수를 기초로 인공지능을 학습할 수 있다.

[수학식]

즉, 학습 데이터 생성 장치는 2차원 시맨텍 세그멘테이션을 위한 제1 손실 값과 3차원 시맨틱 세그멘테이션을 위한 제2 손실 값을 동시에 계산하는 합성 손실함수를 사용할 수 있다.

이에 따라, 학습 데이터 생성 장치는 희소 특성에 의한 영향을 줄이기 위하여 제1 정답 값에 포함된 각 점으로부터 사전 설정된 거리만큼 이웃하는 픽셀을 동일한 라벨(label)로 설정할 수 있다. 이때, 학습 데이터 생성 장치는 근접 보간(nearest neighbor interpolation)을 통해 이웃하는 픽셀을 동일한 라벨(label)로 설정할 수 있다.

[수학식]

Focal Loss(L_Focal)는 하기의 수학식을 통해 산출될 수 있다. 즉, 학습 데이터 생성 장치는 모델이 정답을 정확히 예측할 때는 그 손실 값을 본래 값보다 축소하여 학습 비중을 줄일 수 있다. 반대로, 모델이 정답을 예측하는데 실패한 경우에는 그 손실 값을 본래 값보다 크게 하여 학습의 비중을 늘림으로써 학습 과정에서 모델이 제대로 학습하지 못하고 있는 내용에 집중하도록 유도할 수 있다.

[수학식]

Dice Loss(L_Dice)는 하기의 수학식을 통해 산출될 수 있다. 즉, 학습 데이터 생성 장치는 정답과 예측 사이의 유사도가 높아지도록 모델을 학습하며, 클래스 간 데이터 불균형에 의한 모델의 편중적 학습을 방지하기 위해 라벨 스무딩(label smoothing)을 적용할 수 있다.

[수학식]

Lovasz Loss(L_Lovasz)은 하기의 수학식을 통해 산출될 수 있다. 즉, 학습 데이터 생성 장치는 세그멘트 맵 전체의 구조적 오차를 정답과 예측 사이의 IoU를 중심으로 측정하며, IoU를 저해하는 예측에 대하여 강한 패널티를 부여함으로써, 맵 전체에서 구조적으로 최적화된 예측이 만들어지도록 모델을 학습할 수 있다. 또한, 학습 데이터 생성 장치는 학습 데이터 셋을 구성하는 전 클래스(C)에 대하여 각 클래스(c)마다 IoU를 계산하고, 예측을 정렬한 뒤 IoU를 가장 많이 감소시킨 예측에 강한 패널티를 부여하는 방식으로 손실 값을 계산함으로써, 모델이 각 클래스 별 세그멘트의 구조들을 정확히 예측하도록 모델을 학습시킬 수 있다.

[수학식]

여기서, Δ_jc는 하기의 수학식을 통해 산출될 수 있다.

또한, m_i(c)는 하기의 수학식을 통해 산출될 수 있다.

그리고, f_i(c)는 하기의 수학식을 통해 산출될 수 있다.

다음으로, S200 단계에서 학습 데이터 생성 장치는 점군 데이터 및 이미지를 전처리할 수 있다.

구체적으로, 학습 데이터 생성 장치는 카메라에 의해 촬영된 이미지 및 라이다로부터 획득된 점군 데이터를 입력받고, 점군 데이터를 이미지와 동일한 크기의 극좌표로 표현한 사영 이미지를 생성할 수 있다.

이때, 학습 데이터 생성 장치는 라이다 및 상기 카메라 사이의 캘리브레이션 행렬 정보 및 점군 데이터 좌표의 곱 연산을 통해 사영 이미지를 생성하되, 생성된 사영 이미지에서 사전 설정된 영역을 절사하고, 절사 된 영역을 이미지에 동일하게 절사하여, 동일한 높이(high) 및 너비(width)를 갖는 이미지 및 사영 이미지를 생성할 수 있다.

그리고, S300 단계에서 학습 데이터 생성 장치는 이미지 및 사영 이미지를 사전 기계 학습(machine learning)된 인공지능(AI, Artificial Intelligence)에 각각 입력하여 예측하고자 하는 클래스(class)의 종류만큼의 차원을 갖는 2D 세그멘트 맵 및 3D 세그멘트 맵을 추정할 수 있다.

구체적으로, 학습 데이터 생성 장치는 어텐션 메커니즘을 토대로 설계된 고유한 퓨전 모듈을 바탕으로 인코더 및 디코더의 각 블록이 추출하는 특징들을 융합할 수 있으며, 특징 단계에서의 센서 퓨전을 통해 예측하고자 하는 클래스의 종류만큼의 차원을 갖는 (H, W) 크기의 2D 세그멘트 맵과, (H*W) 길이의 3D 세그멘트 맵을 예측할 수 있다.

구체적으로, 학습 데이터 생성 장치는 인공지능을 통해 상기 이미지의 특징맵에서 중요 특징들의 위치 및 반영 비율을 추론하고, 추론된 위치 및 반영 비율을 이미지의 특징맵 및 사영 이미지의 특징맵과 각각 곱한 뒤, 이미지 및 사영 이미지와 잔차 블록을 통해 연결하여 중요 특징이 강조된 2D 세그멘트 맵 및 3D 세그멘트 맵을 생성할 수 있다.

도 7 내지 9는 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법을 설명하기 위한 예시도이다.

먼저, 도 7에 도시된 바와 같이, 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법에 따른 인공지능 모델은 이미지를 위한 신경망과, 사영 이미지를 위한 신경망이 대칭을 이루고 있다. 각각의 신경망은 입력 데이터의 구조 및 맥락정보를 학습하기 위한 3개의 컨텍스트 블록, 4개의 잔차 블록으로 이루어진 인코더, 4개의 확장 블록, 2D 세그멘트 맵 및 3D 세그멘트 맵을 출력하기 위한 출력층으로 이루어진 디코더를 포함한다. 또한, 각각의 블록들에서 출력되는 특징맵들을 융합하기 위한 8개의 어텐션 퓨전 블록으로 이루어져 있다.

먼저, 인코더의 잔차 블록을 세부적으로 살펴보면, 잔차 블록 내의 컨벌루션 계층에서는 일반적인 컨벌루션과 동일한 수의 파라미터만으로도 더 넓은 범위의 특징들을 수용할 수 있는 확장 컨벌루션(dilated convolution)을 사용한다. 이때, 그 수용영역의 크기를 다양하게 설정해 좁은 영역부터 넓은 영역까지 다중 크기(multi-scale)의 공간 정보들을 특징으로 추출할 수 있도록 한다. 이렇게 추출된 특징들을 담은 특징맵은 잔차 연결(skip connection)이라 불리는 경로를 통해 디코더로 전달되며, 동시에 각 잔차 블록의 마지막에 위치한 풀링 계층(pooling layer)을 통해 가로, 세로 길이가 각각 블록의 입력 대비 1/2 크기로 축소된다.

이렇게 축소된 이미지의 특징맵 및 사영 이미지의 특징맵은 도 8에 도시된 바와 같이, 설계된 어텐션 퓨전 모듈의 입력으로 전달된다.

여기서, 어텐션 퓨전 모듈은 인코더 및 디코더를 구성하는 모든 블록들 사이에 각각 위치하며, 객체의 모양이나 구조, 경계 부분에 대한 표현이 모호하고 정보량이 상대적으로 부족한 사영 이미지의 특징들을 고밀도 색상 정보를 가진 이미지의 특징들을 바탕으로 추론하고, 이들을 상호 융합해 보완하는 과정을 수행할 수 있다.

이에 따라, 인공지능 모델은 먼저 공간 어텐션 모듈을 통해 RGB 이미지의 특징맵에서 중요 특징들의 위치와 반영 비율을 알아내고, 이를 사영 이미지의 특징맵 및 이미지의 특징맵과 각각 곱한 뒤 해당 원본들과 잔차 경로로 연결해 중요 위치의 특징들이 강조된 두 특징맵을 만들어낸다.

이렇게 중요 위치의 특징들이 강조된 특징맵을 그대로 활성화하여 출력하는 이미지 특징맵의 출력 경로와 달리, 데이터의 정보량이 부족한 사영 이미지의 특징맵의 경우에는 출력 전 채널 어텐션 모듈에 의한 주요 특징 추출 과정을 한번 더 거친다. 이에 따라, 중요 위치의 특징들이 강조된 사영 이미지의 특징맵은 앞서 추출한 이미지의 출력 특징맵과 접합된 후 채널 어텐션 모듈에 전달된다.

채널 어텐션 모듈은 입력된 특징맵을 이루는 채널 중 중요한 특징들이 담긴 채널과 그 중요도를 구하며, 이를 다시 채널 어텐션 모듈의 입력과 곱한 후 잔차 경로로 연결하는 과정을 거침으로써, 중요 특징들이 존재하는 위치뿐만 아니라 그들이 담긴 채널들까지 강조된 특징맵을 만들어 낼 수 있게 된다.

마지막으로, 이 특징맵을 1x1 커널을 사용하는 컨볼루션 계층과 배치 정규화 계층을 사용해 압축 및 융합함으로써, 어텐션 퓨전 모듈에 입력된 두 특징맵에 존재하던 중요 특징들을 토대로 만들어진 사영 이미지의 출력 특징맵이 만들어진다.

이렇게 잔차 블록과 퓨전 어텐션 블록의 반복을 통해 인코더는 신경망의 입력 크기 대비 1/2, 1/4 및 1/8 크기의 특징맵을 순차적으로 만들어내며 최종적으로는 입력 대비 1/16의 크기를 가지는 특징맵을 추출하여 디코더를 구성하는 확장 블록의 입력으로 전달한다.

디코더의 확장 블록은 입력으로 제공된 특징맵 내 특징들을 토대로 특징맵의 크기는 4배로 확대하고 채널은 1/4배로 축소하는 픽셀 셔플(pixel shuffle) 계층을 포함할 수 있다. 또한, 확장 블록은 확대된 특징맵의 특징들을 다시 한번 학습하기 위한 확장 컨볼루션 계층과, 인코더의 잔차 블록으로부터 잔차 연결로 전달된 특징맵과의 접합(concatenate)을 위한 접합 계층으로 이루어져 있다.

이를 통해, 디코더는 입력으로 들어온 특징맵을 다시 입력 대비 1/8, 1/4, 1/2 및 1의 크기로 순차적으로 복원해 나가는 과정을 수행한다

최종적으로 원본 크기로 복원된 이미지의 특징맵과 사영 이미지의 특징맵은 각각 2차원 및 3차원 공간에 대한 추론 결과를 만들기 위한 출력층으로 전달된다.

먼저, 이미지의 출력층은 1x1 커널을 사용하고 Softmax 활성화 함수를 사용하는 컨볼루션 계층을 이용하여 (H, W, C) 모양의 추론 맵을 형성하게 된다.

한편 사영 이미지의 출력층은 특징맵을 HxW 길이의 2차원으로 재구성한다. 이후, 점군의 데이터 희소 특성을 고려하여 하나의 점을 예측할 때 주변 영역에서 산출되는 특징들까지 함께 고려하여 예측할 수 있도록 5x1 크기의 커널을 사용하고 Softmax 활성화 함수를 사용하는 컨볼루션 계층을 이용하여 (HxW, C)의 추론 맵을 형성한다.

이렇게 만들어지는 각각의 추론 결과들은 상술한 합성 손실함수가 손실 값을 계산할 때, 평가 단계에서 평가함수가 평가치를 계산할 때 및 활용 단계에서 어플리케이션이 점군 데이터가 3차원으로 시맨틱 세그멘테이션 된 결과를 필요로 할 때 사용된다.

이하, 본 발명의 일 실시예에 따른 시맨틱 세그멘테이션 방법의 실험 및 평가에 사용된 "semanticKITTI"데이터 셋과 이를 적용하기 위한 전처리 과정들의 상세 구현에 관하여 설명하고, 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법의 설계 과정에서 수행한 절제 실험 및 성능 비교 결과에 관하여 설명하도록 한다.

"SemanticKITTI"는 자율주행을 위한 3차원 시맨틱 세그멘테이션 연구 분야에서 널리 사용되는 공개 데이터 셋으로서 차량의 전방 영역을 촬영한 RGB 이미지와 360° 영역 전체에 대한 점군 데이터를 모두 포함하는 것을 특징으로 한다. 따라서, 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법의 학습(train) 및 검증(validation)에는 "SemanticKITTI"에서 학습용으로 제공하는 0~10번 시퀀스(19,130 건, 8번 시퀀스 제외)를 8:2의 비율로 무작위 분할하여 사용하였으며 평가(test)에는 "SemanticKITTI"에서 검증용으로 제공하는 8번 시퀀스(4,071 건)를 사용하였다.

다만, 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법이 360°의 점군 데이터 중 RGB 이미지와 동일한 전방 영역의 데이터를 골라내어 RGB 이미지와 동일한 좌표계로 사영시킨 사영 이미지를 필요로 하므로, 하기의 수학식의 RGB 카메라와 라이다 사이의 캘리브레이션 행렬을 이용해 3차원 점군의 (x, y, z) 좌표를 2차원 카메라의 (u, v) 좌표로 변환하는 사영 변환을 수행하였다.

[수학식]

(여기서, f_u,f_v는 카메라의 초점 거리를, u₀,v₀는 광 학 중심의 카메라 내부 파라미터를 나타내고, R,t는 카메라-라이다의 상대적 회전 및 평행 이동을 의미하는 외부 파라미터를 의미한다.)

또한, "SemanticKITTI"에서 제공하는 RGB 이미지는 시퀀스마다 크기가 다르므로 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법에서는 이를 (H, W):(256, 1280) 크기로 고정하였다. 또한, 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법의 성능 평가 도구로는 추론 결과와 정답이 일치하는 비율을 클래스 별로 구해 그 평균을 산출하는 mIoU(mean Intersection over Union)를 사용하였다. 단, 점군 데이터의 희소 특성이 모델 학습과 평가에 악영향을 미치는 것을 방지하기 위해 2차원 및 3차원의 추론 결과 중 정답 데이터와 쌍을 이루지 않는, 다시 말해 정답에 포함된 점을 제외한 다른 점에 대한 추론 결과는 손실 값과 평가 값 산출에서 모두 제외하였다.

모든 실험은 8개의 "A100 GPU" 환경에서 진행되었으며, 실험 과정에서 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법의 모델은 "PyTorch 라이브러리 도구"를 통해 구현되었다. 신경망의 최적화 함수는 모두 "Leaky ReLU"를 사용하였으며, Dropout 계층을 위한 Dropout 비율은 0.2를 주어 학습 과정에서 발생 가능한 신경망의 과적합을 최소화할 수 있도록 하였다.

신경망의 학습은 Adam 옵티마이저를 통하여 진행하며, 학습률은 0.0001로 시작하여 지수적 감소(Exponential LR) 스케줄러를 이용하여 0.99의 감소율(Gamma)로 지수적으로 감소하였고, 검증 손실 값이 학습 중 기록한 최저 손실 값보다 연속 15에폭에 걸쳐 높게 기록되는 경우 500에폭 동안 진행하도록 설정된 최대 학습 에폭 수치를 무시하고 학습을 조기 종료할 수 있도록 하였다

하기의 설명에서는 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법에 따른 신경망의 상세 사항들을 결정하기 위해 수행한 절제 실험과 결과들을 기술한다.

한편, 하기의 표 1은 단일/이중 출력과 퓨전 방법에 대한 절제 실험 결과를 나타낸 표이다.

[표 1]

표 1을 참조하면, 첫번째 실험에서는 이미지를 입력으로 하는 인코더와 사영 이미지를 입력으로 하는 인코더를 특징 단계에서 하나로 융합하여 하나의 디코더를 사용해 출력을 만드는 단일 출력 구조와 각각의 인코더마다 서로 다른 디코더를 사용하는 이중 출력 구조의 신경망을 비교함으로써 출력 구조의 차이에 따른 성능의 변화를 관찰하고자 하였다.

이때의 특징 융합 방식은 두 경우 모두 [7]와 같이 블록의 출력으로 나오는 특징맵을 단순 접합하는 방식으로 하였으며, [7]에서는 인코더 내 두번째 블록의 출력에 대하여, 이중 출력 구조에서는 인코더 및 디코더의 모든 블록의 출력에 대하여 수행하였다.

실험 결과, 표 1에서 보이는 바와 같이 인코더마다 디코더를 별도로 사용하는 이중 출력 구조의 신경망이 그렇지 않은 [7]보다 mIoU를 기준으로 2차원의 경우 약 13%, 3차원에서는 약 24% 높은 성능을 보였다. 이는 결과에서 보 여지듯이 센서 퓨전을 사용해 융합 특징을 구성한다고 하더라도 각각의 데이터가 서로 다른 고유 특성을 가지므로 이를 상대적으로 특화하여 학습할 수 있는 분리된 디코더를 사용하는 것이 하나의 단일 디코더를 사용하는 것보다 좋은 효과를 낼 수 있다는 것을 의미한다.

한편, 하기의 표 2는 어텐션 블록의 효과에 대한 절제 실험 결과를 나타낸 표이다.

[표 2]

표 2를 참조하면, 두번째 절제 실험으로는 이전 실험의 이중 입력 및 출력 구조의 신경망의 특징 융합 방법을 단순 접합에서 채널 및 공간 어텐션 기반의 어텐션 퓨전 모듈로 바꾸어 퓨전시 시각 정보 중심의 중요 위치로부터 중요한 종류의 특징들을 선별하여 그 특징들을 위주로 융합 특징을 구성하는 것이 어떠한 효과를 나타내는지 알아보기 위한 실험을 진행하였다.

실험 결과 상기 표 2에서 보여 지듯이 두 경우 모두 전 블록에서 특징 단계 퓨전을 수행하였음에도 불구하고 어텐션 퓨전 모듈을 적용해 특징 단계 퓨전을 수행한 결과가 단순 접합을 통해 특징 단계 퓨전을 수행한 결과에 비해 mIoU를 기준으로 2차원의 경우 0.4%, 3차원의 경우는 3% 더 나은 성능을 보였다. 이는 신경망이 추출하는 특징 중에서 중요 위치의 주요 특징 들을 선별하여 융합 특징을 구성하는 것이 점군 사영 이미지 특징의 3차원 시맨틱 세그멘테이션에 대한 표현력을 강화해 수 있다는 것을 의미한다.

한편, 하기의 표 3은 MSM을 포함한 "ResNeSt"와 "SalsaNext"에 대한 절제 실험 결과를 나타낸 표이다.

[표 3]

표 3을 참조하면, 마지막 세번째 절제 실험으로는 전통적인 2차원 시맨틱 세그멘테이션 기법의 이식이 자유롭다는 사영 기반 3차원 시맨틱 세그멘테이션의 장점을 이용해 신경망을 구성하는 인코더 및 디코더 내 블록들을 [7]의 블록들로부 터 2차원 시맨틱 세그멘테이션에서 좋은 결과를 보인 "SalsaNext"의 블록들로 변경하여 비교하는 실험을 진행하였다.

두 신경망의 블록들은 "SalsaNext"의 컨텍스트 블록을 제외하면 다중 크기 특징을 추출하기 위해 설계된 컨볼루션 모듈 또는 계층을 중심으로 구성되어 있다는 공통점이 있으며, 인코더 및 디코더를 구성하는 블록 단위로 해상도가 서로 다른 특징맵을 만들어내는 구조로서 본 발명에 따른 어텐션 퓨전 모듈을 손쉽게 적용할 수 있다는 이점이 있다.

실험 결과 표 3에서 보이는 바와 같이 "SalsaNext"의 블록들을 신경망에 적용한 경우가 기존의 블록들을 사용한 경우보다 mIoU를 기준으로 2차원의 경우는 약 10%, 3차원의 경우는 약 17% 높은 성능을 보였다. 이는 "SalsaNext"의 블록들과 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법의 어텐션 퓨전 모듈의 조합이 3차원 시맨틱 세그멘테이션에 효과적인 특징들을 추출하는 것에 대하여 더 좋은 효과를 보일 수 있다는 것을 의미한다.

이하, 3차원 시맨틱 세그멘테이션을 위해 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법에 따른 신경망과 기존 연구들의 정량적 비교를 위해 mIoU를 기준으로 한 성능 평가 및 비교를 수행함과 동시에 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법의 정성적 성능을 평가하기 위한 시각적 고찰에 관해 설명하도록 한다.

한편, 하기의 표 4는 "SemanticKITTI" 검증 데이터 셋에서의 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법의 성능평가 및 기존 연구와의 비교결과를 나타낸 표이다.

[표 4]

표 4를 참조하면, 본 발명의 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법인 "TwinAMFNet"은 mIoU를 기준으로 2차원의 경우 60.9%, 그리고 3차원의 경우 68.4%의 성능을 기록하였다. 이는 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법과 동일한 이중 입·출력 구조를 가진 "PMF"보다 3차원 mIoU를 기준으로 약 4.5% 개선된 수치이며, 인코더-디코더 구조의 신경망에서 특징맵의 스케일이 디코더에 의해 원본 스케일로 복원될 때 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법의 디코더는 "PMF"와 달리 센서 퓨전 모듈들을 통해 각 센서로부터 추출된 유용한 정보들을 활용할 수 있기 때문에 더욱 정확 한 추론이 가능한 것으로 보인다.

또한, 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법은 다른 입출력 구조를 가진 방법들에 비해서 확연히 우수한 성능을 보이며, 이중 입력-단일 출력 구조를 가진 [7]보다는 약 43.6%, 동일 입출력 구조를 가진 "RGBAL"보다는 약 12.2%, 그리고 단일 입·출력 구조를 가진 "PointPainting"보다 약 13.9% 높은 성능을 기록하고 있음을 볼 수 있다.

이는 센서 퓨전의 위치에 따라 추출되는 특징들의 양적, 질적 차이("PointPainting"의 Early fusion을 통한 단일 입출력 및 출력의 수에 따라 산출되는 손실 값의 절대적인 정보량 차이([7] 및 "RGBAL"의 단일 출력 구조) 등으로 인해 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법이 다른 방법들보다 정확하게 세그먼트를 추론할 수 있는 모델을 학습할 수 있음을 의미한다.

또한, 이전 연구들과의 정량적 수치 비교를 통한 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법의 성능 평가에 더해 그 성능을 정성적으로 평가하기 위해 "SemanticKITTI"의 검증 데이터를 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법으로 추론한 결과를 도 9와 같이 시각화해 정답 데이터 및 이미지와 비교해 보았다. 여기서 (a)는 "SemanticKITTI" 검증 데이터 셋으로부터 가져온 하나의 샘플 이미지이며, (b)는 해당 샘플의 사영 이미지에 대한 정답 데이터, (c)는 해당 샘플에 대한 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법에 따른 3차원 시맨틱 세그멘테이션 결과를 2차원 이미지로 재구성해 시각화한 이미지이다.

도 9에 도시된 바와 같이, 본 발명의 실시예에 따른 3차원 시맨틱 세그멘테이션 방법은 사영 이미지의 정답에도 존재하지 않는 원거리의 식물, 기둥, 나무줄기, 탈 것 등을 찾아낼 수 있으며, 이는 RGB 이미지와 비교했을 때 정확한 결과라는 것을 알 수 있다.

더욱 상세하게 살펴보면, 파란 점선의 원형으로 표시된 영역의 경우 RGB 이미지에서 볼 때 숲이라는 것을 알 수 있지만, 사영 이미지에 대한 정답에서는 데이터가 존재하지 않는다. 이처럼 주변 근거리 객체에 대한 미세한 객체 검출에 대한 정확도 향상은 자율주행에서 갑작스러운 객체 출현에 대하여 위험 여부를 판단하는 데 중요한 요소가 될 수 있다. 예를 들어, 작은 공과 같이 움직임을 예측할 수 없는 객체가 출현할 경우 주행 중인 차량과의 접촉을 통해 치명적인 사고로 이어질 수 있어 근거리의 정확한 객체 검출은 이를 방지하는 데 명확한 이점을 가진다. 한편 원거리의 객체를 잘 검출하는 것도 자율주행에서 사고 위험을 줄이는데 중요한 요소가 된다.

도 9에 도시된 바와 같이, 원거리에서의 예시인 점선의 붉은 사각형으로 표시된 영역의 경우 RGB 이미지에서는 나무 기둥들과 자전거 등이 있음을 알 수 있지만, 이 역시 사영 이미지에 대한 정답에서는 이 역시 데이터가 존재하지 않는다.

이는 해당 데이터를 바탕으로 학습된 3차원 시맨틱 세그멘테이션 모델 역시 그 부분의 객체들을 인지하지 못하게 된다는 것을 의미한다. 예를 들어, 영상의 촬영 속도를 30FPS라 가정할 때 해당 영상에서 붉은 점선 상자 속 자전거 탄 사람의 위치에 차량이 도달하는 데에는 약 50프레임 다시 말해 약 1.5초가 소요된다. 이는 자율주행 차량과 객체 사이의 거리가 멀어 인식이 채 되지 않았던 객체와 발생 가능한 돌발 상황을 1.5초 이내에 탐지, 대응할 수 있어야 한다는 의미이며, 만일 자율주행 차량이 고속주행 중일 경우에는 그 시간은 더욱 짧아져 위험도는 자연스레 증가한 다는 것을 의미한다.

따라서, 만일의 상황에 대비할 수 있도록 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법의 결과 (c)와 같이 충분한 안전 정지거리 밖에서부터 원거리의 객체를 인식할 수 있는 능력을 확 보하는 것은 자율주행 차량의 차량 및 인명 사고를 방지하는 데 중요하다.

따라서 카메라 및 라이다의 센서 퓨전을 통해 더 확장된 객체 검출이 가능한 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법의 결과는 자율주행 차량의 주행 안전성 증진에 충분히 기여할 수 있다.

정리하면, 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법은 어텐션 퓨전 모듈을 이용해 2차원 이미지가 가진 객체의 색상, 모양 및 객체 사이의 경계 정보 그리고 3차원 점군 데이터가 가진 거리 및 공간 정보를 융합시킴 으로써 3차원 시맨틱 세그멘테이션의 성능을 개선시킬 수 있다.

그리고, 상술한 비교 실험을 통해 그 성능 개선의 결과를 확인하였다. 또한, 결과 이미지에 대한 정성적 분석을 통해 본 발명의 일 실시예에 따른 3차원 시맨틱 세그멘테이션 방법의 추론 결과가 원거리에 위치한 영역 및 근거리의 소규모 객체에 대한 표현력이 높으며, RGB 이미지와 대조해 보았을 때 데이터 셋이 제공하는 3차원 점군의 정답 데이터보다 실제적으로 정확한 추론을 하고 있음을 확인할 수 있다.

이상과 같이, 본 명세서와 도면에는 본 발명의 바람직한 실시예에 대하여 개시하였으나, 여기에 개시된 실시예 외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다. 또한, 본 명세서와 도면에서 특정 용어들이 사용되었으나, 이는 단지 본 발명의 기술 내용을 쉽게 설명하고 발명의 이해를 돕기 위한 일반적인 의미에서 사용된 것이지, 본 발명의 범위를 한정하고자 하는 것은 아니다. 따라서, 상술한 상세한 설명은 모든 면에서 제한적으로 해석되어서는 아니되고 예시적인 것으로 고려되어야 한다. 본 발명의 범위는 첨부된 청구항의 합리적해석에 의해 선정되어야 하고, 본 발명의 등가적 범위 내에서의 모든 변경은 본 발명의 범위에 포함된다.

100 : 학습 데이터 수집 장치 200 : 학습 데이터 생성 장치
300 : 인공지능 학습 장치
205 : 통신부 210 : 입출력부
215 : 사전 학습부 220 : 데이터 전처리부
225 : 추론부 230 : 저장부

Claims

학습 데이터 생성 장치가, 카메라(camera)에 의해 촬영된 이미지(image) 및 라이다(lidar)로부터 획득된 점군(point cloud) 데이터를 입력받는 단계;
상기 학습 데이터 생성 장치가, 상기 점군 데이터를 상기 이미지와 동일한 크기의 극좌표로 표현한 사영 이미지를 생성하는 단계;
상기 학습 데이터 생성 장치가, 상기 이미지 및 상기 사영 이미지를 사전 기계 학습(machine learning)된 인공지능(AI, Artificial Intelligence)에 각각 입력하여 예측하고자 하는 클래스(class)의 종류만큼의 차원을 갖는 2D 세그멘트 맵 및 3D 세그멘트 맵을 추정하는 단계; 를 포함하는 것을 특징으로 하는, 3차원 시맨틱 세그멘테이션 방법.
제1 항에 있어서, 상기 생성하는 단계는
상기 라이다 및 상기 카메라 사이의 캘리브레이션 행렬 정보 및 상기 점군 데이터 좌표의 곱 연산을 통해 상기 사영 이미지를 생성하되, 상기 생성된 사영 이미지에서 사전 설정된 영역을 절사하고, 상기 절사 된 영역을 상기 이미지에 동일하게 절사하여, 동일한 높이(high) 및 너비(width)를 갖는 이미지 및 사영 이미지를 생성하는 것을 특징으로 하는, 3차원 시맨틱 세그멘테이션 방법.
제1 항에 있어서, 상기 추정하는 단계 이전에
상기 인공지능을 학습하는 단계; 를 더 포함하고,
상기 학습하는 단계는
상기 2D 세그멘트 맵 및 상기 3D 세그멘트 맵을 추정하기 위한 손실 값을 동시에 계산하여 합산하는 합성 손실함수를 기초로 상기 인공지능을 학습하는 것을 특징으로 하는, 3차원 시맨틱 세그멘테이션 방법.
제3 항에 있어서, 상기 합성 손실함수는
하기의 수학식으로 표현되는 것을 특징으로 하는, 3차원 시맨틱 세그멘테이션 방법.
[수학식]

(여기서, L_2D는 상기 2D 세그멘트 맵을 추정하기 위한 제1 손실 값, L_3D는 상기 3D 세그멘트 맵을 추정하기 위한 제2 손실 값을 의미하고, label_2D는 2D 세그멘트 맵을 추정하기 위한 제1 정답 값, label_3D는 3D 세그멘트 맵을 추정하기 위한 제2 정답 값을 의미한다.)
제4 항에 있어서, 상기 학습하는 단계는
상기 제1 정답 값에 포함된 각 점으로부터 사전 설정된 거리만큼 이웃하는 픽셀을 동일한 라벨(label)로 설정하는 것을 특징으로 하는, 3차원 시맨틱 세그멘테이션 방법.
제5 항에 있어서, 상기 제1 손실 값 및 상기 제2 손실 값은
하기의 수학식을 통해 산출되는 것을 특징으로 하는, 3차원 시맨틱 세그멘테이션 방법.
[수학식]

(여기서, label_2D는 제1 정답 값, label_3D는 제2 정답 값을 의미한다.)
제1 항에 있어서, 상기 인공지능은
상기 이미지 및 상기 사영 이미지 각각의 구조 및 맥락정보를 학습하기 위한 컨텍스트 블록(contextual block) 및 잔차 블록(res block)을 포함하는 인코더;
상기 인코더로부터 출력된 데이터를 확장하는 확장 블록(up block) 및 상기 2D 세그멘트 맵 및 상기 3D 세그멘트 맵을 출력하기 위한 출력층을 포함하는 디코더; 및
상기 컨텍스트 블록, 상기 잔차 블록 및 상기 확장 블록에서 출력되는 특징맵들을 융합하기 위한 어텐션 퓨전 블록; 을 포함하는 것을 특징으로 하는, 3차원 시맨틱 세그멘테이션 방법.
제7 항에 있어서, 상기 인코더는
상기 이미지 및 상기 사영 이미지의 크기 대비 1/2, 1/4, 1/8 및 1/16 크기의 특징맵을 순차적으로 생성하여 상기 디코더의 확장 블록으로 전달하고,
상기 디코더는
상기 인코더로부터 전달받은 특징맵을 1/8, 1/4, 1/2 및 1의 크기로 순차적으로 복원하고,
상기 확장 블록은
상기 인코더로부터 전달받은 특징맵을 확대 또는 축소하는 픽셀 셔플(pixel shuffle) 계층, 확대된 특징맵의 특징들을 학습하는 확장 컨벌루션 계층 및 상기 인코더의 잔차 블록으로부터 잔차 연결로 전달된 특징맵과의 접합(concatenate)을 위한 접합 계층을 포함하는 것을 특징으로 하는, 3차원 시맨틱 세그멘테이션 방법.
제8 항에 있어서, 상기 어텐션 퓨전 블록은
복수개의 잔차 블록들 및 복수개의 확장 블록들 사이에 배치되어, 객체의 모양, 구조 및 경계 부분에 대한 정보량이 상대적으로 부족한 사영 이미지의 특징들을 색상 정보를 갖는 이미지의 특징들을 바탕으로 추론하는 것을 특징으로 하는, 3차원 시맨틱 세그멘테이션.
메모리(memory);
송수신기(transceiver); 및
상기 메모리에 상주된 명령어를 처리하는 프로세서(processor)를 포함하여 구성된 컴퓨팅 장치와 결합되어,
상기 프로세서가, 카메라(camera)에 의해 촬영된 이미지(image) 및 라이다(lidar)로부터 획득된 점군(point cloud) 데이터를 입력받는 단계;
상기 프로세서가, 상기 점군 데이터를 상기 이미지와 동일한 크기의 극좌표로 표현한 사영 이미지를 생성하는 단계;
상기 프로세서가, 상기 이미지 및 상기 사영 이미지를 사전 기계 학습(machine learning)된 인공지능(AI, Artificial Intelligence)에 각각 입력하여 예측하고자 하는 클래스(class)의 종류만큼의 차원을 갖는 2D 세그멘트 맵 및 3D 세그멘트 맵을 추정하는 단계; 를 실행시키기 위하여, 기록매체에 기록된 컴퓨터 프로그램.