KR20230070253A

KR20230070253A - 포인트 클라우드들로부터의 효율적인 3차원 객체 검출

Info

Publication number: KR20230070253A
Application number: KR1020237012853A
Authority: KR
Inventors: 페이 쑨; 웨이웨 왕; 위닝 차이; 샤오 장; 드라고미르 앙겔로프
Original assignee: 웨이모 엘엘씨
Priority date: 2020-11-16
Filing date: 2021-11-16
Publication date: 2023-05-22
Also published as: WO2022104254A1; US20220156483A1; EP4211651A1; JP2023549036A; CN116783620A

Abstract

객체 검출을 수행하기 위한, 컴퓨터 저장 매체들 상에 인코딩된 컴퓨터 프로그램들을 포함하는, 방법들, 컴퓨터 시스템들 및 장치들. 본 시스템은 하나 이상의 센서에 의해 캡처되는 포인트 클라우드 세트 내의 각각의 포인트 클라우드에 대응하는 각자의 레인지 이미지를 획득한다. 본 시스템은 레인지 이미지 특징들 및 분할 출력을 생성하기 위해 분할 신경 네트워크를 사용하여 각각의 레인지 이미지를 프로세싱한다. 본 시스템은 전경 포인트들의 특징 표현들로부터만 포인트 클라우드 세트의 특징 표현을 생성한다. 본 시스템은 포인트 클라우드 세트를 특징짓는 예측을 생성하기 위해 예측 신경 네트워크를 사용하여 포인트 클라우드 세트의 특징 표현을 프로세싱한다.

Description

포인트 클라우드들로부터의 효율적인 3차원 객체 검출

관련 출원에 대한 상호 참조

본 출원은 2020년 11월 16일자로 출원된 미국 가특허 출원 제63/114,506호에 대한 우선권을 주장하며, 이 미국 가특허 출원의 개시내용은 이로써 참조에 의해 그 전체가 포함된다.

본 명세서는 환경에서 객체들을 검출하기 위해 신경 네트워크들을 사용하여 포인트 클라우드(point cloud)들을 프로세싱하는 것에 관한 것이다.

환경에서 객체들을 검출하는 것은, 예를 들면, 자율 주행 차량(autonomous vehicle)에 의한 모션 계획(motion planning)에 필요한 작업이다.

자율 주행 차량들은 자가 운전 자동차들, 보트들, 항공기들을 포함한다. 자율 주행 차량들은 다양한 온보드 센서들 및 컴퓨터 시스템들을 사용하여 인근 객체들을 검출하고, 그러한 검출들을 사용하여 제어 및 운행(navigation) 결정들을 내린다.

일부 자율 주행 차량들은 이미지들 내에서의 다양한 예측 작업들, 예를 들면, 객체 분류를 위해 신경 네트워크들, 다른 유형들의 머신 러닝 모델들, 또는 둘 모두를 구현하는 온보드 컴퓨터 시스템들을 갖는다. 예를 들어, 신경 네트워크는 온보드 카메라에 의해 캡처되는 이미지가 인근 자동차의 이미지일 가능성이 있다고 결정하는 데 사용될 수 있다. 신경 네트워크들 또는, 줄여서, 네트워크들은 하나 이상의 입력으로부터 하나 이상의 출력을 예측하기 위해 다수의 연산 계층들을 이용하는 머신 러닝 모델들이다. 신경 네트워크들은 전형적으로 입력 계층과 출력 계층 사이에 위치하는 하나 이상의 은닉 계층(hidden layer)을 포함한다. 각각의 계층의 출력은 네트워크에서의 다른 계층, 예를 들면, 다음 은닉 계층 또는 출력 계층에 대한 입력으로서 사용된다.

신경 네트워크의 각각의 계층은 계층에 대한 입력에 대해 수행될 하나 이상의 변환 연산을 지정한다. 일부 신경 네트워크 계층들은 뉴런(neuron)들이라고 지칭되는 연산들을 갖는다. 각각의 뉴런은 하나 이상의 입력을 수신하고, 다른 신경 네트워크 계층에 의해 수신되는 출력을 생성한다. 종종, 각각의 뉴런은 다른 뉴런들로부터 입력들을 수신하고, 각각의 뉴런은 하나 이상의 다른 뉴런에게 출력을 제공한다.

신경 네트워크의 아키텍처는 어떤 계층들이 네트워크에 포함되는지와 그들의 속성들은 물론, 네트워크의 각각의 계층의 뉴런들이 어떻게 연결되는지를 지정한다. 환언하면, 아키텍처는 어떤 계층들이 자신의 출력을 어느 다른 계층들에 대한 입력으로서 제공하는지와 출력이 어떻게 제공되는지를 지정한다.

각각의 계층의 변환 연산들은 변환 연산들을 구현하는 소프트웨어 모듈들이 설치된 컴퓨터들에 의해 수행된다. 따라서, 계층이 연산들을 수행하는 것으로 설명되는 것은 계층의 변환 연산들을 구현하는 컴퓨터들이 연산들을 수행한다는 것을 의미한다.

각각의 계층은 계층에 대한 파라미터 세트의 현재 값들을 사용하여 하나 이상의 출력을 생성한다. 신경 네트워크를 트레이닝시키는 것은 따라서 입력에 대해 순방향 패스(forward pass)를 수행하는 것, 경사 값(gradient value)들을 계산하는 것, 및 계산된 경사 값들을 사용하여, 예를 들면, 경사 하강법(gradient descent)을 사용하여 각각의 계층에 대한 파라미터 세트의 현재 값들을 업데이트하는 것을 수반한다. 일단 신경 네트워크가 트레이닝되면, 최종 파라미터 값 세트가 생성 시스템(production system)에서 예측들을 행하는 데 사용될 수 있다.

본 명세서는 하나 이상의 포인트 클라우드의 세트로부터 3차원(3D) 객체 검출을 수행하기 위한, 컴퓨터 저장 매체에 인코딩된 컴퓨터 프로그램들을 포함한, 방법들, 컴퓨터 시스템들, 및 장치들을 설명한다.

하나의 혁신적인 양상에서, 본 명세서는 객체 검출을 수행하기 위한 방법을 설명한다. 방법은 하나 이상의 컴퓨터를 포함하는 시스템에 의해 구현된다. 시스템은 하나 이상의 센서에 의해 캡처되는 포인트 클라우드 세트 내의 각각의 포인트 클라우드에 대응하는 각자의 레인지 이미지(range image)를 획득한다. 각각의 포인트 클라우드는 각자의 복수의 3차원 포인트들을 포함한다. 각각의 레인지 이미지는 복수의 픽셀들을 포함하며, 여기서 레인지 이미지 내의 각각의 픽셀은 (i) 대응하는 포인트 클라우드 내의 하나 이상의 포인트에 대응하고 (ii) 대응하는 포인트 클라우드 내의 픽셀에 대한 대응하는 하나 이상의 포인트와 하나 이상의 센서 사이의 거리를 나타내는 레인지 값(range value)을 적어도 갖는다. 시스템은, 각각의 레인지 이미지에 대해, (i) 레인지 이미지 내의 픽셀들에 대한 레인지 이미지 특징들 및 (ii), 레인지 이미지 내의 픽셀들 각각에 대해, 픽셀이 전경 픽셀인지 배경 픽셀인지를 나타내는 분할 출력(segmentation output)을 생성하도록 구성된 분할 신경 네트워크(segmentation neural network)를 사용하여 각각의 레인지 이미지를 프로세싱한다. 시스템은, 포인트 클라우드 세트에서의 각각의 전경 포인트에 대해, 적어도 전경 포인트에 대응하는 픽셀에 대한 레인지 이미지 특징들로부터 전경 포인트의 특징 표현을 생성한다. 전경 포인트는 대응하는 분할 출력이 전경 픽셀이라고 나타내는 픽셀에 대응하는 포인트이다. 시스템은 전경 포인트들의 특징 표현들로부터만 포인트 클라우드 세트의 특징 표현을 생성한다. 시스템은 포인트 클라우드 세트를 특징짓는 예측을 생성하기 위해 예측 신경 네트워크를 사용하여 포인트 클라우드 세트의 특징 표현을 프로세싱한다.

방법의 일부 구현들에서, 예측은 객체들의 측정치들일 가능성이 있는 포인트 클라우드 세트의 영역들을 식별해 주는 객체 검출 예측이다. 객체 검출 예측은 (i) 포인트 클라우드들에서의 위치들에 걸친 히트맵(heatmap) 및 (ii) 복수의 경계 박스들의 파라미터들을 포함할 수 있다.

방법의 일부 구현들에서, 분할 신경 네트워크는 높은 재현율(recall)과 용인 가능한 정밀도(precision)를 갖는 분할 출력들을 생성하도록 트레이닝되었다.

방법의 일부 구현들에서, 분할 신경 네트워크는 분할 출력을 생성하기 위해 레인지 이미지 특징들에 1 x 1 콘볼루션을 적용하도록 구성된다.

방법의 일부 구현들에서, 분할 출력은 픽셀들 각각에 대한 각자의 전경 점수(foreground score)를 포함하고, 여기서 전경 픽셀들로서 나타내어지는 픽셀들은 임계 값을 초과하는 전경 점수들을 갖는 해당 픽셀들이다.

방법의 일부 구현들에서, 포인트 클라우드 세트의 특징 표현들을 생성하기 위해, 시스템은 전경 포인트들을 복수의 복셀들로 복셀화하기 위해 복셀화(voxelization)를 수행하고, 복셀에 할당되는 포인트들의 특징 표현들로부터 복셀들 각각의 각자의 표현을 생성하며, 포인트 클라우드 세트의 특징 표현을 생성하기 위해 희소 콘볼루션 신경 네트워크(sparse convolutional neural network)를 사용하여 복셀들의 표현들을 프로세싱한다. 복셀화는 필라 스타일 복셀화(pillar-style voxelization)일 수 있으며, 희소 콘볼루션 신경 네트워크는 2D 희소 콘볼루션 신경 네트워크이다. 대안적으로, 복셀화는 3D 복셀화일 수 있으며, 희소 콘볼루션 신경 네트워크는 3D 희소 콘볼루션 신경 네트워크이다.

방법의 일부 구현들에서, 포인트 클라우드 세트는 상이한 시점들에서 캡처되는 복수의 포인트 클라우드들을 포함하고, 복셀화를 수행하기 전에, 시스템은, 가장 최근의 시점에서의 포인트 클라우드 이외의 각각의 포인트 클라우드에 대해, 포인트 클라우드에서의 각각의 전경 포인트를 가장 최근의 시점에서의 포인트 클라우드로 변환하는 것에 의해 변환된 포인트 클라우드를 생성하고, 변환된 포인트 클라우드에 대해 복셀화를 수행한다. 각각의 포인트 클라우드에 대해, 시스템은 포인트 클라우드가 캡처된 시점의 식별자를 포인트 클라우드에서의 전경 포인트들의 특징 표현들에 어펜딩(append)할 수 있다.

본 명세서는 또한 하나 이상의 컴퓨터 및, 하나 이상의 컴퓨터에 의해 실행될 때, 하나 이상의 컴퓨터로 하여금 위에서 설명된 방법을 수행하게 하는 명령어들을 저장한 하나 이상의 저장 디바이스를 포함하는 시스템을 제공한다.

본 명세서는 또한, 하나 이상의 컴퓨터에 의해 실행될 때, 하나 이상의 컴퓨터로 하여금 위에서 설명된 방법을 수행하게 하는 명령어들을 저장한 하나 이상의 컴퓨터 저장 매체를 제공한다.

본 명세서에서 설명되는 주제는 이하의 장점들 중 하나 이상을 실현하기 위해 특정의 실시예들에서 구현될 수 있다.

환경에서 객체들을 검출하는 것은, 예를 들면, 자율 주행 차량에 의한 모션 계획에 필요한 작업이다. 센서 측정 데이터로부터, 예를 들면, LiDAR 데이터로부터, 다른 차량들, 보행자들, 자전거 타는 사람들 등과 같은, 객체들을 검출하기 위한 수많은 기술들이 개발되었다.

일반적으로, 그리드 기반 방법들은 3D 공간을 복셀들 또는 필라들로 나눈다. 특징들을 추출하기 위해 그리드에 밀집 콘볼루션(dense convolution)들이 적용될 수 있다. 그렇지만, 이 접근 방식이 장거리 감지(long-range sensing) 또는 작은 객체 검출에 필요한 대형 그리드(large grid)들에는 비효율적이다. 희소 콘볼루션들은 큰 검출 레인지(detection range)들로 보다 잘 스케일링되지만 통상적으로 모든 포인트들에 콘볼루션들을 적용하는 비효율성들로 인해 속도가 느리다. 레인지 이미지 기반 방법들은 포인트 클라우드 특징들을 추출하기 위해 레인지 이미지에 대해 직접 콘볼루션들을 수행한다. 그러한 모델들은 거리에 따라 잘 스케일링되지만, 폐색 처리(occlusion handling), 정확한 객체 위치 파악(object localization)에서 및 크기 추정에는 성능이 떨어지는 경향이 있다.

기존의 접근 방식들의 단점들을 해결하기 위해, 본 명세서는 객체 예측의 효율성과 정확도를 개선시키는 기술을 설명한다.

예를 들어, 초기의 프로세싱 스테이지는 전경 포인트들과 배경 포인트들을 빠르게 구별하도록 최적화되어, 경량 2D 이미지 백본(image backbone)이 최대 해상도(full resolution)의 레인지 이미지에 적용될 수 있게 한다. 다른 예로서, 다운스트림 희소 콘볼루션 프로세싱이 전경 객체에 속할 가능성이 있는 포인트들에 대해서만 적용되며, 이는 추가적인 상당한 컴퓨트 절감(savings in compute)에 이르게 한다. 게다가, 시스템은, 객체 검출의 효율성과 정확도를 더욱 향상시키기 위해, 스트리밍 방식으로 레인지 이미지들의 시간 시퀀스의 각각의 프레임을 독립적으로 프로세싱하기 위해 전경 분할 네트워크를 사용할 수 있고, 시간 윈도 내의 프레임들로부터의 분할된 전경 포인트들을 융합할 수 있다.

본 명세서의 주제의 하나 이상의 구현에 대한 세부 사항들은 첨부 도면들과 아래의 설명에 기재되어 있다. 주제의 다른 특징들, 양상들, 및 장점들은 설명, 도면들, 및 청구범위로부터 명백해질 것이다.

도 1a는 예시적인 객체 검출 시스템을 도시한다.
도 1b는 전경 분할 신경 네트워크의 예를 예시한다.
도 1c는 희소 콘볼루션 신경 네트워크의 예들을 도시한다.
도 2a는 포인트 클라우드 데이터로부터 객체 검출을 수행하기 위한 예시적인 프로세스를 예시하는 흐름 다이어그램이다.
도 2b는 포인트 클라우드들에 대한 특징 표현들을 생성하기 위한 예시적인 프로세스를 예시하는 흐름 다이어그램이다.
다양한 도면들에서 유사한 참조 번호들 및 명칭들은 유사한 요소들을 나타낸다.

도 1a는 객체 검출 시스템(100)의 예를 도시한다. 시스템(100)은, 아래에서 설명되는 시스템들, 컴포넌트들, 및 기술들이 구현될 수 있는, 하나 이상의 위치에 있는 하나 이상의 컴퓨터 상의 컴퓨터 프로그램들로서 구현되는 시스템의 예이다.

일반적으로, 시스템(100)은 하나 이상의 포인트 클라우드의 세트에 대해 3차원(3D) 객체 검출을 수행한다. 예를 들어, 객체 검출은 환경을 통해 운행하는 자율 주행 차량의 온보드 컴퓨터 시스템에 의해 수행될 수 있고, 포인트 클라우드들은 자율 주행 차량의 하나 이상의 센서, 예를 들면, Lidar 센서에 의해 생성될 수 있다. 차량의 계획 시스템은, 예를 들면, 검출된 객체들 중 임의의 것과의 충돌들을 피하기 위해 차량의 미래 궤적을 생성 또는 수정하는 것에 의해, 미래 궤적을 계획하기 위한 계획 결정들을 내리기 위해 객체 검출들을 사용할 수 있다.

입력으로서, 시스템(100)은 포인트 클라우드 세트에 대한 레인지 이미지 데이터(110)를 획득한다. 레인지 이미지 데이터는 포인트 클라우드 세트 내의 각각의 포인트 클라우드에 대응하는 각자의 레인지 이미지를 포함한다.

세트 내의 각각의 포인트 클라우드는 하나 이상의 센서에 의해 캡처되는 환경에서의 장면의 센서 측정치를 나타내는 다수의 포인트들을 포함한다. 예를 들어, 하나 이상의 센서는 로봇 에이전트 또는 자율 주행 차량, 예를 들면, 육상 차량(land vehicle), 항공 차량(air vehicle) 또는 해상 차량(sea vehicle)의 센서들, 예를 들면, 레이저 광의 반사들을 검출하기 위해 고려되는 LiDAR 센서들 또는 다른 센서들일 수 있으며, 장면은 자율 주행 차량 부근에 있는 장면일 수 있다.

세트 내에 다수의 포인트 클라우드들이 있을 때, 포인트 클라우드들은 시간 시퀀스(temporal sequence)로 배열될 수 있다. 포인트 클라우드들이 대응하는 센서 측정치들이 생성된 순서에 따라 배열되기 때문에 이 시퀀스는 시간 시퀀스라고 지칭된다.

레인지 이미지들은 3D 포인트 클라우드들의 밀집 표현(dense representation)들이다. 각각의 레인지 이미지는 복수의 픽셀들을 포함한다. 레인지 이미지 내의 각각의 픽셀은 대응하는 포인트 클라우드 내의 하나 이상의 포인트에 대응한다. 각각의 레인지 이미지 픽셀은 대응하는 포인트 클라우드 내의 픽셀에 대한 대응하는 하나 이상의 포인트와 하나 이상의 센서 사이의 거리를 나타내는 레인지 값을 적어도 갖는다.

각각의 레인지 이미지 내의 픽셀들은 2차원(2D) 그리드로 배열될 수 있다. 하나의 특정 예에서, 2D 그리드의 하나의 차원은 포인트 클라우드 내의 대응하는 포인트들의 방위각(azimuth angle)들(φ들)에 대응하고, 2D 그리드의 다른 차원은 대응하는 포인트들의 기울기(inclination)들(θ들)에 대응한다. 각각의 레인지 이미지 픽셀은 대응하는 포인트의 거리(r)를 나타내는 레인지 값을 적어도 갖는다. 레인지 이미지 내의 픽셀들은 대응하는 포인트에 대해 센서에 의해 캡처되는 다른 속성들을 나타내는 픽셀들 각각에 대한 다른 값들, 예를 들면, 강도(intensity) 또는 신장도(elongation) 또는 둘 모두를 또한 포함할 수 있다.

시스템(100)에 의해 수행되는 객체 검출의 목표는 측정 데이터로부터, 예를 들면, LiDAR 데이터로부터 검출된 객체들을 나타내는 데이터를 포함하는 예측 출력(170)을 생성하는 것이다.

시스템(100)은, 먼저, 레인지 이미지들로부터 특징들을 효율적으로 추출하기 위해 그리고 예비 객체 분할을 수행하기 위해 분할 신경 네트워크(120)(예를 들어, 경량 2D 콘볼루션 네트워크)를 적용한다. 후속 스테이지에서, 본 시스템은, 3D 객체 레이블들을 정확하게 예측하기 위해, (분할 신경 네트워크(120)에 의해 예측되는 바와 같은) 전경 복셀들만의 이미지 특징들에 대해 희소 콘볼루션을 적용하기 위해 희소 콘볼루션 신경 네트워크(150)를 사용한다.

분할 신경 네트워크(120)는, 각각의 레인지 이미지에 대해, 레인지 이미지 내의 픽셀들에 대한 레인지 이미지 특징들(132) 및, 레인지 이미지 내의 픽셀들 각각에 대해, 그 픽셀이 전경 픽셀인지 배경 픽셀인지를 나타내는 분할 출력(134)을 생성하도록 구성된다. 예를 들어, 일부 구현들에서, 분할 신경 네트워크(120)는 분할 출력(134)을 생성하기 위해 레인지 이미지 특징들(132)에 콘볼루션 계층, 예를 들면, 1x1 콘볼루션을 적용하는 것에 의해 레인지 이미지 특징들(132)로부터 분할 출력(134)을 생성하도록 구성된다.

일부 구현들에서, 분할 출력(134)은 레인지 이미지 내의 픽셀들 각각에 대한 각자의 전경 점수를 포함한다. 임계 값을 초과하는 전경 점수들을 갖는 해당 픽셀들은 레인지 이미지들에서 전경 픽셀들로서 나타내어질 수 있다. 각자의 레인지 이미지 내의 전경 픽셀들은 각자의 레인지 이미지에 대응하는 포인트 클라우드에서의 전경 포인트들, 즉 검출된 객체들에 대응하는 포인트들에 대응한다.

위에서 설명된 바와 같이, 시스템(100)은 특징들을 추출하기 위해 그리고 전경 픽셀들을 식별하기 위해 분할 신경 네트워크(120)를 레인지 이미지들에 적용한다. 본 시스템은 이어서, 포인트 클라우드들을 특징짓는 예측 출력을 생성하기 위해, 예를 들면, 포인트 클라우드들에 기초하여 검출되는 객체에 대한 객체 레이블들을 생성하기 위해, 학습된 특징들 및 식별된 전경 픽셀들을 후속 단계들에서 프로세싱한다.

본 명세서에 의해 제공되는 기술들의 일부 구현들에서는, 종래의 시맨틱 분할(semantic segmentation) 방법들과 달리, 분할 신경 네트워크(120)을 트레이닝시키는 데 있어서 높은 정밀도보다 재현율이 강조되는데, 그 이유는 후속 프로세싱에서 거짓 양성(false positive)들은 제거될 수 있지만, 거짓 음성(false negative)들은 쉽게 복구될 수 없기 때문이다. 즉, 분할 신경 네트워크(120)는, 정답(ground-truth) 객체 위치들이 분할 출력들(134)에 의해 예측될 더 높은 가능성을 보장하기 위해, 높은 재현율 및 용인 가능한 정밀도들을 갖는 분할 출력들(134)을 생성하도록 트레이닝된다.

분할 신경 네트워크는, 2D 콘볼루션 신경 네트워크와 같은, 임의의 적절한 아키텍처를 취할 수 있다. 분할 신경 네트워크(120)의 예시적인 네트워크 아키텍처는 도 1b를 참조하여 상세히 논의된다.

레인지 이미지 특징들(132) 및 분할 출력(134)에 기초하여, 시스템(100)은 전경 특징들(140), 즉 포인트 클라우드들에서의 전경 포인트들에 대한 특징 표현들을 생성할 수 있다. 즉, 시스템(100)은, 포인트 클라우드 세트에서의 각각의 전경 포인트에 대해, 적어도 전경 포인트에 대응하는 픽셀에 대한 레인지 이미지 특징들로부터 전경 포인트의 특징 표현을 생성한다.

각각의 레인지 이미지에 대해, 시스템(100)은 분할 출력(134)에 기초하여, 예를 들면, 레인지 이미지의 픽셀들에 대한 전경 점수들에 기초하여 레인지 이미지에서의 전경 포인트들을 식별할 수 있다. 시스템(100)은 임계 값을 초과하는 전경 점수들을 갖는 픽셀들을 전경 픽셀들로서 식별할 수 있다. 전경 포인트들은 센서 데이터에 따른 장면에서의, 차량들, 보행자들, 자전거 타는 사람들 등과 같은, 검출된 객체들에 대응하는 포인트 클라우드 내의 포인트들이다.

대응하는 전경 포인트의 각각의 특징 표현은 분할 신경 네트워크(120)에 의해 생성되는 레인지 이미지 특징을 포함한다. 일부 구현들에서, 포인트 클라우드들의 시간 시퀀스가 있을 때, 특징 표현은 프레임에 대한 시점 정보(time point information)를 또한 포함할 수 있다. 일부 구현들에서, 특징 표현은 포인트 클라우드의 통계를 또한 포함할 수 있다.

일부 구현들에서, 포인트 클라우드 세트는 상이한 시점들에서 캡처되는 복수의 포인트 클라우드들을 포함하고, 포인트 클라우드들은 움직이는 센서(예를 들면, 움직이는 차량 상에 구성된 LiDAR)에 의해 수행되는 측정들에 의해 캡처된다. 시스템(100)은 다운스트림 프로세싱 이전에 전경 포인트들에 대한 특징 표현들로부터 센서 에고 모션(sensor ego-motion)의 효과를 제거할 수 있다. 일반적으로, 레인지 이미지들로부터 직접적으로 에고 모션을 제거하는 것은 상이한 프레임에서의 레인지 재구성(range reconstruction)들이 사소하지 않은 양자화 오류들을 결과하기 때문에 최적이 아니다. 그 대신에, 본 명세서의 시스템(100)은 포인트 클라우드들에서의 전경 포인트들로부터 에고 모션의 효과를 제거한다. 구체적으로, 시스템(100)은, 가장 최근의 시점에서의 포인트 클라우드 이외의 각각의 포인트 클라우드에 대해, 포인트 클라우드에서의 각각의 전경 포인트를 가장 최근의 시점에서의 포인트 클라우드로 변환하는 것에 의해 변환된 포인트 클라우드들을 생성할 수 있다.

일부 구현들에서, 객체 검출 시스템(100)은 시간 윈도 내의 다수의 시점들에서 수집되는 다수의 각자의 레인지 이미지 프레임들의 세트를 프로세싱하기 위한 다수의 병렬 분기들로서 다중 분할 신경 네트워크(120)를 포함한다. 다중 분할 신경 네트워크(120)는 동일한 네트워크 파라미터 세트를 공유하고, 신경 네트워크들의 트레이닝 동안 공동으로 트레이닝된다. 추론 동안, 다수의 레인지 이미지 프레임들의 세트의 마지막 프레임만이 분할 신경 네트워크(120)의 단일 분기에 의해 프로세싱되고, 본 시스템은 세트 내의 다른 프레임들에 대해 이전의 결과들을 재사용한다. 분할 분기들 후에, 시스템(100)은 분할된 전경 포인트들의 상이한 프레임들로부터 센서 에고 모션을 제거하기 위한 변환을 수행하고, 상이한 프레임들로부터의 변환된 전경 포인트들을 다수의 포인트 세트들로 모은다. 스트리밍 방식으로 레인지 이미지들의 시간 시퀀스의 각각의 프레임을 독립적으로 프로세싱하기 위해 분할 네트워크를 사용하는 것, 및 시간 윈도 내의 프레임들로부터의 분할된 전경 포인트들을 융합하는 것에 의해, 본 시스템은 객체 검출의 효율성과 정확도를 더욱 향상시킬 수 있다.

하나의 특정 구현에서, 분할 신경 네트워크(120)에 의해 생성되는 추출된 특징들(132) 및 분할 출력(134)에 기초하여, 본 시스템은 포인트들을 다수의 포인트 세트들

로 모을 수 있으며, 여기서

는 프레임 0(가장 늦은(latest), 즉 가장 최근에 캡처된 포인트 클라우드)과 프레임 i 사이의 프레임 시간 차이이다.

내의 각각의 포인트

에 대한 특징 표현은 분할 신경 네트워크(120)에 의해 추출되는 특징들을 포함하고,

및

로 보강되며, 여기서

는 포인트의 위치 벡터이고,

및

은, 제각기, 포인트 클라우드 내의 모든 포인트들의 위치 벡터들의 산술 평균 및 공분산이며,

는 포인트 클라우드에서의 중심 포인트(center point)의 위치 벡터이다.

분할 신경 네트워크에 의해 예측되는 전경 포인트들에 대해서만 특징 표현들을 생성하는 것에 의해, 시스템(100)은 후속 프로세싱을 위해 객체에 속할 가능성이 가장 높은 포인트들만으로 포인트 클라우드 데이터를 감소시킨다.

희소 콘볼루션을 준비하기 위해, 본 시스템은 전경 포인트들을 복수의 복셀들로 복셀화하기 위해 복셀화를 수행하고, 복셀에 할당되는 포인트들의 특징 표현들로부터 각각의 복셀의 각자의 표현을 생성할 수 있다.

일반적으로, 복셀화는 포인트 클라우드를 복셀 그리드에 매핑한다. 일부 구현들에서, 복셀화는 포인트 클라우드를 3D 복셀 그리드에 매핑하는 3D 복셀화이다. 예를 들어, 본 시스템은 포인트 클라우드를 복셀 크기

를 갖는 균등하게 이격된 복셀 그리드에 매핑할 수 있다.

일부 구현들에서, 복셀화는 포인트 클라우드를 2D 복셀 그리드에 매핑하는 필라 스타일 복셀화이다. 필라 스타일 복셀화는 “PointPillars: Fast Encoders for Object Detection from Point Clouds,” arXiv:1812.05784 [cs.LG], 2018에 설명되어 있다. 필라 스타일 복셀화의 경우, z 차원에서의 복셀 크기

는

로 설정된다.

시스템(100)은 이어서 포인트 클라우드 세트의 특징 표현을 생성하기 위해 희소 콘볼루션 신경 네트워크(150)를 사용하여 복셀들의 표현들을 프로세싱한다.

희소 콘볼루션 신경 네트워크(150)는 복셀화가 필라 스타일 복셀화일 때에는 2D 희소 콘볼루션 신경 네트워크일 수 있거나, 복셀화가 3D 복셀화일 때는 3D 희소 콘볼루션 신경 네트워크일 수 있다.

희소 콘볼루션 신경 네트워크(150)는 특정 응용 분야에 대해 임의의 적절한 네트워크 아키텍처들을 취할 수 있다. 희소 콘볼루션 신경 네트워크의 예들은 도 1c를 참조하여 상세히 설명된다.

시스템(100)은 이어서 3D 객체 레이블들을 정확하게 생성하기 위해 희소 콘볼루션 신경 네트워크(150)로부터의 출력 특징들을 사용한다. 상세하게는, 본 시스템은 포인트 클라우드 세트를 특징짓는 예측 출력(170)을 생성하기 위해 예측 신경 네트워크(160)를 사용하여 포인트 클라우드 세트의 특징 표현을 프로세싱한다.

일부 구현들에서, 예측 출력(170)은 객체들의 측정치들일 가능성이 있는 포인트 클라우드 세트의 영역들을 식별해 주는 객체 검출 예측이다. 하나의 특정 예에서, 객체 검출 예측은 검출된 객체들의 위치들 및 지오메트리들에 대응하는 복수의 경계 박스들의 파라미터들 및 포인트 클라우드들에서의 위치들에 걸친 히트맵을 포함한다.

하나의 특정 예에서, 포인트 클라우드들에 대해 생성되는 특징 표현들에 기초하여, 본 시스템은 복셀화된 좌표들

에 특징 맵을 형성할 수 있으며, 여기서

은 2D 또는 3D 특징 추출이 수행되었는지에 의존한다. 본 시스템은 포인트 클라우드들의 히트맵을 생성하기 위해 예측 신경 네트워크(150)로, 입력으로서, 특징 맵을 프로세싱할 수 있다. 히트맵은, 차량들, 보행자들 및 자전거 타는 사람들과 같은, 객체들이 그 위치들에서 검출될 가능성의 공간 분포에 대응한다. 예측 신경 네트워크(150)는 또한, 예를 들면, 중심 위치

, 치수

및 헤딩 방향 θ를 포함한, 각각의 예측된 경계 박스에 대한 파라미터들을 생성하도록 구성될 수 있다.

예측 신경 네트워크는 임의의 적절한 네트워크 아키텍처들을 채택할 수 있다. 하나의 특정 예에서, "Objects as points," arXiv: 1904.07850, 2019에서 설명되는 것과 유사한 수정된 CenterNet가 예측 신경 네트워크로서 사용될 수 있다.

시스템(100) 또는 다른 시스템은 트레이닝 예들에 기초하여 분할 신경 네트워크(120), 희소 콘볼루션 신경 네트워크(150) 및 예측 신경 네트워크(160)의 트레이닝을 수행할 수 있다. 일 예에서, 본 시스템은 총손실

에 기초하여 엔드-투-엔드 트레이닝(end-to-end training)을 수행할 수 있으며, 여기서 L_seg는 분할 신경 네트워크(120)의 출력에서 계산되는 분할 손실(segmentation loss )이고, L_hm과 L_box는, 제각기, 예측 신경 네트워크(160)의 출력에서 계산되는 히트맵 손실과 경계 박스 손실이다.

분할 손실은 대응하는 픽셀 포인트가

을 갖는 임의의 박스에 있는지 여부를 검사하는 것에 의해 3D 경계 박스들로부터 도출되는 정답 레이블들을 사용하여 초점 손실(focal loss)로서 계산될 수 있다. P는 유효한 레인지 이미지 픽셀들의 총수이다. L_i는 포인트 i에 대한 초점 손실이다. 임계값

초과의 전경 점수 s_i를 갖는 포인트들이 선택된다. 전경 임계값

는 높은 재현율과 용인 가능한 정밀도를 달성하도록 선택된다.

일부 구현들에서, 트레이닝 예제들에서 정답 경계 박스들만이 이용 가능할 때, 정답 히트맵은

에 대해, 예를 들어,

을 사용하여 계산될 수 있고,

여기서

는

를 포함하는 박스들의 중심들의 세트이다.

인 경우 h = 0이다. 포인트

에 대한 히트맵 값 h는, 포인트

와 박스 중심

에 배치되는 원 - 이 원의 반경은 박스 중심

으로부터의

내의 가장 가까운 포인트까지의 거리임 - 사이의 거리인,

에 기초하여 계산된다.

히트맵 손실 L_hm은 초점 손실일 수 있으며:

여기서

및

는, 제각기, 예측된 히트맵 값 및 정답 히트맵 값이다.

는 수치 안정성을 위해 추가되며, 작은 값, 예를 들면, 1e-3으로 설정될 수 있다.

3D 경계 박스들은

로서 파라미터화할 수 있으며, 여기서

는 복셀 중심들에 상대적인 박스 중심 오프셋들이다. 2D 희소 콘볼루션 신경 네트워크가 사용되는 경우, d_z는 절대 박스(absolute box) z 중심으로서 설정될 수 있다.

는 박스 길이, 폭, 높이 및 박스 헤딩(box heading)이다. 헤딩 θ를 회귀시키기 위해 빈 손실(bin loss)이 적용될 수 있다. 다른 박스 파라미터들은 smooth L1 손실들에 따라 직접 회귀될 수 있다. 박스 회귀 정확도를 더욱 높이기 위해 IoU 손실이 추가될 수 있다. 박스 회귀 손실들은 임계값

초과의 정답 히트맵 값들을 갖는 특징 맵 픽셀들에 대해서만 활성이며:

여기서

는, 제각기, 예측된 박스 파라미터 및 정답 박스 파라미터이며,

는, 제각기, 예측된 박스 헤딩 및 정답 박스 헤딩이다.

는 특징 맵 픽셀 i에서 계산되는 정답 히트맵 값이다. 본 시스템은 임계값

초과의 히트맵 예측을 갖는 희소 특징 맵 복셀(sparse feature map voxel)들에 대해 희소 부분다양체 최대 풀링(sparse submanifold max-pooling) 연산을 수행하고, 로컬 최대(local maximum) 히트맵 예측들에 대응하는 박스들을 선택할 수 있다.

도 1b는 분할 신경 네트워크(120)의 예시적인 아키텍처를 도시한다. 이 예에서, 본 시스템은 “U-Net: Convolutional Networks for Biomedical Image Segmentation,” arXiv: 1505.04597 [cs.CV], 2015에서 설명되는 것과 유사한 일반 형상을 갖는 U자 형상의 아키텍처를 채용한다.

도 1b에 도시된 바와 같이, U자 형상의 분할 신경 네트워크(120)는 수축 경로(contracting path)(왼쪽) 및 확장 경로(expansive path)(오른쪽)를 포함한다. 수축 경로는 다운샘플링 블록들(120a)을 포함한다. 각각의 다운샘플링 블록(120a: D(L, C)로 표현됨)은 C 개의 출력 채널을 각각 갖는 L 개의 ResNet 블록을 포함한다.

확장 경로는 업샘플링 블록들(120b)을 포함한다. 각각의 업샘플링 블록(120b)((L, C)로 표현됨)은 업샘플링 계층 및 L 개의 ResNet 블록을 포함한다. 하나의 특정 구현에서, 업샘플링 계층은 1x1 콘볼루션에 뒤이어서 이중선형 보간(bilinear interpolation)을 포함한다.

도 1c는 희소 콘볼루션 신경 네트워크(150)의 네트워크 아키텍처들의 예들을 도시한다. 상세하게는, 150a는 전경 특징들로부터 보행자들을 검출하기 위한 특징 표현들을 생성하기 위한 예시적인 네트워크 아키텍처를 도시하고, 150b는 전경 특징들로부터 차량들을 검출하기 위한 특징 표현들을 생성하기 위한 예시적인 네트워크 아키텍처를 도시한다.

네트워크들(150a 및 150b) 둘 모두는 블록들(B0 및 B1)로 구성된다. B0 및 B1 각각은 여러 SC 및 SSC 계층들을 포함한다. SC 계층은 스트라이드 1 또는 2를 갖는 3x3 또는 3x3x3 희소 콘볼루션을 수행한다. SSC 계층은 3x3 또는 3x3x3 부분다양체 희소 콘볼루션(submanifold sparse convolution)을 수행한다. "/2"는 스트라이드 2를 나타낸다.

도 2a는 포인트 클라우드 데이터로부터 객체 검출을 수행하기 위한 예시적인 프로세스(200)를 예시하는 흐름 다이어그램이다. 편의상, 프로세스(200)는 하나 이상의 위치에 위치하는 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 본 명세서에 따라 적절하게 프로그래밍되는 객체 검출 시스템, 예를 들면, 도 1a의 객체 검출 시스템(100)은 프로세스(200)를 수행할 수 있다.

단계(210)에서, 본 시스템은 포인트 클라우드 세트에 대한 레인지 이미지 데이터를 획득한다. 레인지 이미지 데이터는 포인트 클라우드 세트 내의 각각의 포인트 클라우드에 대응하는 각자의 레인지 이미지를 포함한다.

세트 내의 각각의 포인트 클라우드는 하나 이상의 센서에 의해 캡처되는 환경에서의 장면의 센서 측정치를 나타내는 다수의 포인트들을 포함한다. 예를 들어, 하나 이상의 센서는 자율 주행 차량, 예를 들면, 육상 차량, 항공 차량 또는 해상 차량의 센서들, 예를 들면, 레이저 광의 반사들을 검출하기 위해 고려되는 LiDAR 센서들 또는 다른 센서들일 수 있으며, 장면은 자율 주행 차량 부근에 있는 장면일 수 있다.

각각의 레인지 이미지는 복수의 픽셀들을 포함한다. 레인지 이미지 내의 각각의 픽셀은 대응하는 포인트 클라우드 내의 하나 이상의 포인트에 대응한다. 각각의 레인지 이미지 픽셀은 대응하는 포인트 클라우드 내의 픽셀에 대한 대응하는 하나 이상의 포인트와 하나 이상의 센서 사이의 거리를 나타내는 레인지 값을 적어도 갖는다.

세트 내에 다수의 포인트 클라우드들이 있을 때, 포인트 클라우드들은 시간 시퀀스로 배열될 수 있다. 포인트 클라우드들이 대응하는 센서 측정치들이 생성된 순서에 따라 배열되기 때문에 이 시퀀스는 시간 시퀀스라고 지칭된다.

레인지 이미지 내의 픽셀들은 대응하는 포인트에 대해 센서에 의해 캡처되는 다른 속성들을 나타내는 픽셀들 각각에 대한 다른 값들, 예를 들면, 강도 또는 신장도 또는 둘 모두를 또한 포함할 수 있다.

단계(220)에서, 본 시스템은 레인지 이미지 데이터로부터 이미지 특징들 및 분할 출력을 생성한다. 구체적으로, 본 시스템은, 각각의 레인지 이미지에 대해, 레인지 이미지 내의 픽셀들에 대한 레인지 이미지 특징들 및, 레인지 이미지 내의 픽셀들 각각에 대해, 그 픽셀이 전경 픽셀인지 배경 픽셀인지를 나타내는 분할 출력을 생성하도록 구성된 분할 신경 네트워크를 사용하여 각각의 레인지 이미지를 프로세싱한다.

일부 구현들에서, 분할 신경 네트워크는 분할 출력을 생성하기 위해, 예를 들면, 레인지 이미지 특징들에 1 x 1 콘볼루션을 적용하는 것에 의해 레인지 이미지 특징들로부터 분할 출력을 생성하도록 구성된다.

일부 구현들에서, 분할 출력은 레인지 이미지 내의 픽셀들 각각에 대한 각자의 전경 점수를 포함한다. 임계 값을 초과하는 전경 점수들을 갖는 해당 픽셀들은 레인지 이미지들에서 전경 픽셀들로서 나타내어질 수 있다. 각자의 레인지 이미지 내의 전경 픽셀들은 각자의 레인지 이미지에 대응하는 포인트 클라우드에서의 전경 포인트들, 즉 검출된 객체들에 대응하는 포인트들에 대응한다.

단계(230)에서, 본 시스템은 포인트 클라우드들에서의 전경 포인트들에 대한 특징 표현들을 생성한다. 즉, 본 시스템은, 포인트 클라우드 세트에서의 각각의 전경 포인트에 대해, 적어도 전경 포인트에 대응하는 픽셀에 대한 레인지 이미지 특징들로부터 전경 포인트의 특징 표현을 생성한다.

대응하는 전경 포인트의 각각의 특징 표현은 분할 신경 네트워크에 의해 생성되는 레인지 이미지 특징을 포함한다. 일부 구현들에서, 포인트 클라우드들의 시간 시퀀스가 있을 때, 특징 표현은 프레임에 대한 시점 정보를 또한 포함할 수 있다. 일부 구현들에서, 특징 표현은 포인트 클라우드의 복셀 통계를 또한 포함할 수 있다.

단계(240)에서, 본 시스템은 포인트 클라우드 세트에 대한 특징 표현들을 생성한다. 구체적으로, 본 시스템은 전경 포인트들의 특징 표현들로부터만 포인트 클라우드 세트의 특징 표현을 생성한다.

포인트 클라우드 특징들을 생성하기 위한 예시적인 프로세스는 도 2b를 참조하여 상세히 설명된다. 일반적으로, 본 시스템은 예측된 전경 복셀들 및 그들의 학습된 레인지 이미지 특징들에 기초하여 입력을 프로세싱하기 위해 신경 네트워크, 예를 들면, 희소 콘볼루션 신경 네트워크를 사용할 수 있다. 신경 네트워크로부터의 출력 특징들은 다운스트림 프로세싱에서 3D 객체 레이블들을 정확하게 생성하는 데 사용될 수 있다.

단계(250)에서, 본 시스템은 포인트 클라우드 세트를 특징짓는 예측을 생성하기 위해 예측 신경 네트워크를 사용하여 포인트 클라우드 세트의 특징 표현을 프로세싱한다.

일부 구현들에서, 예측은 객체들의 측정치들일 가능성이 있는 포인트 클라우드 세트의 영역들을 식별해 주는 객체 검출 예측이다. 하나의 특정 예에서, 객체 검출 예측은 검출된 객체들의 위치들 및 지오메트리들에 대응하는 복수의 경계 박스들의 파라미터들 및 포인트 클라우드들에서의 위치들에 걸친 히트맵을 포함한다.

도 2b는 포인트 클라우드들에 대한 특징 표현들을 생성하기 위한 예시적인 프로세스(240)를 예시하는 흐름 다이어그램이다. 편의상, 프로세스(240)는 하나 이상의 위치에 위치하는 하나 이상의 컴퓨터의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, 본 명세서에 따라 적절하게 프로그래밍되는 객체 검출 시스템, 예를 들면, 도 1a의 객체 검출 시스템(100)은 프로세스(240)를 수행할 수 있다.

레인지 이미지들은 움직이는 센서, 예를 들면, 움직이는 차량 상에 구성된 LiDAR에 의해 수행되는 측정들에 기초하여 생성될 수 있다. 이러한 시나리오들에서, 에고 모션을 고려하지 않고 다수의 레인지 이미지들을 쌓는 것은 예측 모델의 성능에 부정적인 영향을 미칠 수 있다. 따라서, 본 시스템은 포인트 클라우드들에서의 전경 포인트들로부터 센서의 에고 모션 효과를 제거하기 위해 단계(242)를 선택적으로 수행할 수 있다.

구체적으로, 단계(242)에서, 포인트 클라우드 세트가 상이한 시점들에서 캡처되는 복수의 포인트 클라우드들을 포함할 때, 본 시스템은, 가장 최근의 시점에서의 포인트 클라우드 이외의 각각의 포인트 클라우드에 대해, 포인트 클라우드에서의 각각의 전경 포인트를 가장 최근의 시점에서의 포인트 클라우드로 변환하는 것에 의해 변환된 포인트 클라우드를 생성한다.

단계(244)에서, 본 시스템은 전경 포인트들을 복수의 복셀들로 복셀화하기 위해 복셀화를 수행한다. 일부 구현들에서, 복셀화는 포인트 클라우드를 3D 복셀 그리드에 매핑하는 3D 복셀화이다. 일부 구현들에서, 복셀화는 포인트 클라우드를 2D 복셀 그리드에 매핑하는 필라 스타일 복셀화이다.

단계(246)에서, 본 시스템은 복셀에 할당되는 포인트들의 특징 표현들로부터 복셀들 각각의 각자의 표현을 생성한다.

단계(248)에서, 본 시스템은 포인트 클라우드 세트의 특징 표현을 생성하기 위해 희소 콘볼루션 신경 네트워크를 사용하여 복셀들의 표현들을 프로세싱한다.

복셀화가 필라 스타일 복셀화일 때 희소 콘볼루션 신경 네트워크는 2D 희소 콘볼루션 신경 네트워크일 수 있다. 복셀화가 3D 복셀화일 때 이는 3D 희소 콘볼루션 신경 네트워크이다.

희소 콘볼루션 신경 네트워크는 특정 응용 분야에 대해 임의의 적절한 네트워크 아키텍처들을 취할 수 있다. 희소 콘볼루션 신경 네트워크의 예들은 도 1c를 참조하여 상세히 설명되어 있다.

본 명세서는 시스템들 및 컴퓨터 프로그램 컴포넌트들과 관련하여 "구성된"이라는 용어를 사용한다. 하나 이상의 컴퓨터의 시스템이 특정 동작들 또는 액션들을 수행하도록 구성된다는 것은 시스템이 동작 중에 시스템으로 하여금 동작들 또는 액션들을 수행하게 하는 소프트웨어, 펌웨어, 하드웨어, 또는 이들의 조합을 시스템 상에 설치하였음을 의미한다. 하나 이상의 컴퓨터 프로그램이 특정 동작들 또는 액션들을 수행하도록 구성된다는 것은 하나 이상의 프로그램이, 데이터 프로세싱 장치에 의해 실행될 때, 장치로 하여금 동작들 또는 액션들을 수행하게 하는 명령어들을 포함한다는 것을 의미한다. 본 명세서에 설명된 주제 및 기능적 동작들의 실시예들은 디지털 전자 회로로, 유형적으로 구체화된 컴퓨터 소프트웨어 또는 펌웨어로, 본 명세서에 개시된 구조들 및 이들의 구조적 등가물들을 포함한, 컴퓨터 하드웨어로, 또는 이들 중 하나 이상의 조합들로 구현될 수 있다. 본 명세서에 설명된 주제의 실시예들은 하나 이상의 컴퓨터 프로그램, 즉, 데이터 프로세싱 장치에 의해 실행하기 위한 또는 데이터 프로세싱 장치의 동작을 제어하기 위한, 유형적(tangible) 비일시적 저장 매체 상에 인코딩된, 컴퓨터 프로그램 명령어들의 하나 이상의 모듈로서 구현될 수 있다. 컴퓨터 저장 매체는 머신 판독 가능 저장 디바이스, 머신 판독 가능 저장 기판, 랜덤 또는 직렬 액세스 메모리 디바이스, 또는 이들 중 하나 이상의 조합일 수 있다. 대안적으로 또는 추가적으로, 프로그램 명령어들은 데이터 프로세싱 장치에 의해 실행하기 위해 적합한 수신기 장치로의 전송을 위한 정보를 인코딩하기 위해 생성되는 인위적으로 생성된 전파 신호(propagated signal), 예를 들면, 머신 생성(machine-generated) 전기, 광학, 또는 전자기 신호 상에 인코딩될 수 있다.

“데이터 프로세싱 장치"라는 용어는 데이터 프로세싱 하드웨어를 지칭하고, 예로서, 프로그래밍 가능한 프로세서, 컴퓨터, 또는 다수의 프로세서들 또는 컴퓨터들을 포함한, 데이터를 프로세싱하기 위한 모든 종류의 장치들, 디바이스들, 및 머신들을 포괄한다. 장치는 또한 특수 목적 논리 회로, 예를 들면, FPGA(field programmable gate array) 또는 ASIC(application specific integrated circuit)일 수 있거나 이들을 더 포함할 수 있다. 장치는, 하드웨어 외에도, 컴퓨터 프로그램들에 대한 실행 환경을 생성하는 코드, 예를 들면, 프로세서 펌웨어, 프로토콜 스택, 데이터베이스 관리 시스템, 운영 체제, 또는 이들 중 하나 이상의 조합을 구성하는 코드를 선택적으로 포함할 수 있다.

프로그램, 소프트웨어, 소프트웨어 애플리케이션, 앱, 모듈, 소프트웨어 모듈, 스크립트, 또는 코드라고도 지칭될 수 있거나 설명될 수 있는, 컴퓨터 프로그램은, 컴파일되는(compiled) 또는 인터프리트되는(interpreted) 언어들, 또는 선언적(declarative) 또는 절차적(procedural) 언어들을 포함한, 임의의 형태의 프로그래밍 언어로 작성될 수 있고; 컴퓨터 프로그램은, 독립형 프로그램(stand-alone program)으로서 또는 모듈, 컴포넌트, 서브루틴, 또는 컴퓨팅 환경에서 사용하기에 적합한 다른 유닛(unit)으로서를 포함하여, 임의의 형태로 배포될 수 있다. 프로그램이 파일 시스템에서의 파일에 대응할 수 있지만 그럴 필요는 없다. 프로그램은 다른 프로그램들 또는 데이터, 예를 들면, 마크업 언어 문서에 저장된 하나 이상의 스크립트를 보유하는 파일의 일 부분에, 문제의 프로그램에 전용된 단일 파일에, 또는 다수의 통합 파일(coordinated file)들에, 예를 들면, 하나 이상의 모듈, 서브 프로그램(sub program), 또는 코드 부분(portion of code)을 저장한 파일들에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 상에서 또는 하나의 사이트에 위치되거나 다수의 사이트들에 걸쳐 분산되고 데이터 통신 네트워크에 의해 상호연결되는 다수의 컴퓨터들 상에서 실행되도록 배포될 수 있다.

본 명세서에서, "데이터베이스"라는 용어는 임의의 데이터 컬렉션을 지칭하기 위해 광의적으로 사용된다: 데이터는 임의의 특정 방식으로 구조화될 필요가 없거나 전혀 구조화될 필요가 없으며, 데이터는 하나 이상의 위치에 있는 저장 디바이스들 상에 저장될 수 있다. 따라서, 예를 들어, 인덱스 데이터베이스는, 각각이 상이하게 조직화되고 액세스될 수 있는, 다수의 데이터 컬렉션들을 포함할 수 있다.

마찬가지로, 본 명세서에서, "엔진"이라는 용어는 하나 이상의 특정 기능을 수행하도록 프로그래밍된 소프트웨어 기반 시스템, 서브시스템 또는 프로세스를 지칭하기 위해 광의적으로 사용된다. 일반적으로, 엔진은, 하나 이상의 위치에 있는 하나 이상의 컴퓨터 상에 설치된, 하나 이상의 소프트웨어 모듈 또는 컴포넌트로서 구현될 것이다. 일부 경우에, 하나 이상의 컴퓨터가 특정 엔진에 전용될 것이고; 다른 경우에, 다수의 엔진들이 동일한 컴퓨터 또는 컴퓨터들 상에 설치되어 실행될 수 있다.

본 명세서에서 설명된 프로세스들 및 논리 흐름들은 입력 데이터를 조작하여 출력을 생성하는 것에 의해 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램을 실행하는 하나 이상의 프로그래밍 가능한 컴퓨터에 의해 수행될 수 있다. 프로세스들 및 논리 흐름들은 특수 목적 논리 회로, 예를 들면, FPGA 또는 ASIC에 의해, 또는 특수 목적 논리 회로와 하나 이상의 프로그래밍된 컴퓨터의 조합에 의해 또한 수행될 수 있다.

컴퓨터 프로그램의 실행에 적합한 컴퓨터들은 범용 또는 특수 목적 마이크로프로세서들 또는 둘 모두, 또는 임의의 다른 종류의 중앙 프로세싱 유닛에 기초할 수 있다. 일반적으로, 중앙 프로세싱 유닛은 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 요소들은 명령어들을 수행 또는 실행하기 위한 중앙 프로세싱 유닛 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스이다. 중앙 프로세싱 유닛 및 메모리는 특수 목적 논리 회로에 의해 보완되거나 그에 통합될 수 있다. 일반적으로, 컴퓨터는 또한 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스, 예를 들면, 자기, 자기 광학 디스크들, 또는 광학 디스크들을 포함할 것이거나, 이들로부터 데이터를 수신하거나 이들로 데이터를 전송하도록 작동 가능하게 결합될 것이거나, 둘 모두일 것이다. 그렇지만, 컴퓨터가 그러한 디바이스들을 가질 필요는 없다. 더욱이, 컴퓨터는, 몇 가지 예를 들면, 다른 디바이스, 예를 들면, 모바일 전화, PDA(personal digital assistant), 모바일 오디오 또는 비디오 플레이어, 게임 콘솔, GPS(Global Positioning System) 수신기, 또는 휴대용 저장 디바이스, 예를 들면, USB(universal serial bus) 플래시 드라이브에 내장될 수 있다.

컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독 가능 매체들은, 예로서, 반도체 메모리 디바이스들, 예를 들면, EPROM, EEPROM, 및 플래시 메모리 디바이스들; 자기 디스크들, 예를 들면, 내부 하드 디스크들 또는 이동식 디스크들; 자기 광학 디스크들; 및 CD ROM과 DVD-ROM 디스크들을 포함한, 모든 형태들의 비휘발성 메모리, 매체 및 메모리 디바이스들을 포함한다.

사용자와의 상호작용을 제공하기 위해, 본 명세서에서 설명된 주제의 실시예들은 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스, 예를 들면, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터 및 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스, 예를 들면, 마우스 또는 트랙볼을 갖는 컴퓨터 상에서 구현될 수 있다. 사용자와의 상호작용을 제공하기 위해 다른 종류들의 디바이스들도 사용될 수 있고; 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감각적 피드백, 예를 들면, 시각적 피드백, 청각적 피드백, 또는 촉각적 피드백일 수 있으며; 사용자로부터의 입력은, 음향, 음성, 또는 촉각적 입력을 포함한, 임의의 형태로 수신될 수 있다. 추가적으로, 컴퓨터는 사용자에 의해 사용되는 디바이스에게 문서들을 송신하고 그로부터 문서들을 수신하는 것에 의해; 예를 들어, 웹 브라우저로부터 수신되는 요청들에 응답하여 웹 페이지들을 사용자의 디바이스 상의 웹 브라우저에게 송신하는 것에 의해 사용자와 상호작용할 수 있다. 또한, 컴퓨터는 텍스트 메시지들 또는 다른 형태들의 메시지를 개인 디바이스, 예를 들면, 메시징 애플리케이션을 실행하고 있는 스마트폰에게 송신하고 그에 응답하여 사용자로부터 응답 메시지들을 수신하는 것에 의해 사용자와 상호작용할 수 있다.

머신 러닝 모델들을 구현하기 위한 데이터 프로세싱 장치는, 예를 들어, 머신 러닝 트레이닝 또는 생성, 즉 추론, 워크로드들의 흔하고 계산 집약적인 부분들을 프로세싱하기 위한 특수 목적 하드웨어 가속기 유닛들을 또한 포함할 수 있다.

머신 러닝 모델들은 머신 러닝 프레임워크, 예를 들면, TensorFlow 프레임워크, Microsoft Cognitive Toolkit 프레임워크, Apache Singa 프레임워크 또는 Apache MXNet 프레임워크를 사용하여 구현 및 배포될 수 있다.

본 명세서에 설명된 주제의 실시예들은, 예를 들면, 데이터 서버인, 백 엔드 컴포넌트를 포함하거나, 또는 미들웨어 컴포넌트, 예를 들면, 애플리케이션 서버를 포함하거나, 또는 프런트 엔드 컴포넌트, 예를 들면, 사용자가 본 명세서에서 설명된 주제의 구현과 상호작용할 수 있는 그래픽 사용자 인터페이스, 웹 브라우저, 또는 앱을 갖는 클라이언트 컴퓨터, 또는 하나 이상의 그러한 백 엔드, 미들웨어, 또는 프런트 엔드 컴포넌트의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 임의의 디지털 데이터 통신 형태 또는 매체, 예를 들면, 통신 네트워크에 의해 상호연결될 수 있다. 통신 네트워크들의 예들은 LAN(local area network) 및 WAN(wide area network), 예를 들면, 인터넷을 포함한다.

컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있고 전형적으로 통신 네트워크를 통해 상호작용한다. 클라이언트와 서버의 관계는 각자의 컴퓨터들 상에서 실행되고 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들에 의해 생긴다. 일부 실시예들에서, 서버는, 예를 들면, 클라이언트로서 기능하는, 디바이스와 상호작용하는 사용자에게 데이터를 디스플레이하고 그 사용자로부터 사용자 입력을 수신하는 목적들을 위해, 데이터, 예를 들면, HTML 페이지를 사용자 디바이스에게 전송한다. 사용자 디바이스에서 생성되는 데이터, 예를 들면, 사용자 상호작용의 결과는 디바이스로부터 서버에 수신될 수 있다.

본 명세서가 많은 특정 구현 세부 사항들을 포함하지만, 이들은 임의의 발명의 범위 또는 청구될 수 있는 것의 범위에 대한 제한들로서 해석되어서는 안 되며, 오히려 특정 발명들의 특정 실시예들에 특정적일 수 있는 특징들에 대한 설명들로서 해석되어야 한다. 별개의 실시예들과 관련하여 본 명세서에서 설명되는 특정 특징들이 또한 단일 실시예에서 조합하여 구현될 수 있다. 이와 달리, 단일 실시예와 관련하여 설명되는 다양한 특징들이 또한 다수의 실시예들에서 개별적으로 또는 임의의 적합한 서브콤비네이션(subcombination)으로 구현될 수 있다. 더욱이, 특징들이 특정한 조합들로 기능하는 것으로 위에서 설명되고 심지어 처음에 그 자체로서 청구될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징이 일부 경우에 그 조합으로부터 제거될 수 있고, 청구된 조합은 서브콤비네이션 또는 서브콤비네이션의 변형에 관한 것일 수 있다.

유사하게, 동작들이 특정 순서로 도면들에 묘사되고 청구항들에 열거되어 있지만, 이것은, 바람직한 결과들을 달성하기 위해, 그러한 동작들이 도시된 특정 순서로 또는 순차적 순서로 수행되어야 한다는 것, 또는 모든 예시된 동작들이 수행되어야 한다는 것을 요구하는 것으로 이해되어서는 안 된다. 특정 상황들에서, 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다. 더욱이, 위에서 설명된 실시예들에서의 다양한 시스템 모듈들 및 컴포넌트들의 분리는 모든 실시예들에서 그러한 분리를 요구하는 것으로 이해되어서는 안 되며, 설명된 프로그램 컴포넌트들 및 시스템들이 일반적으로 단일 소프트웨어 제품에 함께 통합되거나 다수의 소프트웨어 제품들로 패키징될 수 있다는 것이 이해되어야 한다.

주제의 특정의 실시예들이 설명되었다. 다른 실시예들이 이하의 청구항들의 범위 내에 있다. 예를 들어, 청구항들에서 열거된 액션들은 상이한 순서로 수행될 수 있고 바람직한 결과들을 여전히 달성할 수 있다. 일 예로서, 첨부 도면들에 묘사된 프로세스들은, 바람직한 결과들을 달성하기 위해, 도시된 특정의 순서 또는 순차적 순서를 반드시 요구하지는 않는다. 일부 경우에, 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다.

Claims

하나 이상의 컴퓨터에 의해 수행되는 방법으로서,
하나 이상의 센서에 의해 캡처되는 포인트 클라우드 세트 내의 각각의 포인트 클라우드에 대응하는 각자의 레인지 이미지를 획득하는 단계 -
각각의 포인트 클라우드는 각자의 복수의 3차원 포인트들을 포함하고,
각각의 레인지 이미지는 복수의 픽셀들을 포함하며, 상기 레인지 이미지 내의 각각의 픽셀은 (i) 대응하는 포인트 클라우드 내의 하나 이상의 포인트에 대응하고 (ii) 상기 대응하는 포인트 클라우드 내의 상기 픽셀에 대한 상기 대응하는 하나 이상의 포인트와 상기 하나 이상의 센서 사이의 거리를 나타내는 레인지 값을 적어도 가짐 -;
각각의 레인지 이미지에 대해, (i) 상기 레인지 이미지 내의 상기 픽셀들에 대한 레인지 이미지 특징들 및 (ii), 상기 레인지 이미지 내의 상기 픽셀들 각각에 대해, 상기 픽셀이 전경 픽셀인지 배경 픽셀인지를 나타내는 분할 출력을 생성하도록 구성된 분할 신경 네트워크를 사용하여 각각의 레인지 이미지를 프로세싱하는 단계;
상기 포인트 클라우드 세트에서의 각각의 전경 포인트에 대해, 적어도 상기 전경 포인트에 대응하는 상기 픽셀에 대한 상기 레인지 이미지 특징들로부터 상기 전경 포인트의 특징 표현을 생성하는 단계 - 전경 포인트는 대응하는 분할 출력이 전경 픽셀이라고 나타내는 픽셀에 대응하는 포인트임 -;
상기 전경 포인트들의 상기 특징 표현들로부터만 상기 포인트 클라우드 세트의 특징 표현을 생성하는 단계; 및
상기 포인트 클라우드 세트를 특징짓는 예측을 생성하기 위해 예측 신경 네트워크를 사용하여 상기 포인트 클라우드 세트의 상기 특징 표현을 프로세싱하는 단계
를 포함하는, 방법.
제1항에 있어서, 상기 예측은 객체들의 측정치들일 가능성이 있는 상기 포인트 클라우드 세트의 영역들을 식별해 주는 객체 검출 예측인, 방법.
제2항에 있어서, 상기 객체 검출 예측은 (i) 상기 포인트 클라우드들에서의 위치들에 걸친 히트맵 및 (ii) 복수의 경계 박스들의 파라미터들을 포함하는, 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 분할 신경 네트워크는 높은 재현율과 용인 가능한 정밀도를 갖는 분할 출력들을 생성하도록 트레이닝된, 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 분할 신경 네트워크는 상기 분할 출력을 생성하기 위해 상기 레인지 이미지 특징들에 1 x 1 콘볼루션을 적용하도록 구성되는, 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 분할 출력은 상기 픽셀들 각각에 대한 각자의 전경 점수를 포함하고, 전경 픽셀들로서 나타내어지는 픽셀들은 임계 값을 초과하는 전경 점수들을 갖는 해당 픽셀들인, 방법.
제1항 내지 제6항 중 어느 한 항에 있어서, 상기 전경 포인트들의 상기 특징 표현들로부터만 상기 포인트 클라우드 세트의 특징 표현을 생성하는 단계는:
상기 전경 포인트들을 복수의 복셀들로 복셀화하기 위해 복셀화를 수행하는 단계;
상기 복셀에 할당되는 상기 포인트들의 상기 특징 표현들로부터 상기 복셀들 각각의 각자의 표현을 생성하는 단계; 및
상기 포인트 클라우드 세트의 상기 특징 표현을 생성하기 위해 희소 콘볼루션 신경 네트워크를 사용하여 상기 복셀들의 상기 표현들을 프로세싱하는 단계를 포함하는, 방법.
제7항에 있어서, 상기 복셀화는 필라 스타일 복셀화이고, 상기 희소 콘볼루션 신경 네트워크는 2D 희소 콘볼루션 신경 네트워크인, 방법.
제7항에 있어서, 상기 복셀화는 3D 복셀화이고, 상기 희소 콘볼루션 신경 네트워크는 3D 희소 콘볼루션 신경 네트워크인, 방법.
제7항 내지 제9항 중 어느 한 항에 있어서, 상기 포인트 클라우드 세트는 상이한 시점들에서 캡처되는 복수의 포인트 클라우드들을 포함하고, 상기 전경 포인트들의 상기 특징 표현들로부터만 상기 포인트 클라우드 세트의 특징 표현을 생성하는 단계는:
복셀화를 수행하기 전에, 가장 최근의 시점에서의 상기 포인트 클라우드 이외의 각각의 포인트 클라우드에 대해, 상기 포인트 클라우드에서의 각각의 전경 포인트를 가장 최근의 시점에서의 상기 포인트 클라우드로 변환하는 것에 의해 변환된 포인트 클라우드를 생성하는 단계; 및
상기 변환된 포인트 클라우드에 대해 복셀화를 수행하는 단계를 포함하는, 방법.
제10항에 있어서,
각각의 포인트 클라우드에 대해, 상기 포인트 클라우드가 캡처된 시점의 식별자를 상기 포인트 클라우드에서의 상기 전경 포인트들의 상기 특징 표현들에 어펜딩하는 단계
를 더 포함하는, 방법.
시스템으로서,
하나 이상의 컴퓨터; 및
상기 하나 이상의 컴퓨터에 의해 실행될 때, 상기 하나 이상의 컴퓨터로 하여금 제1항 내지 제11항 중 어느 한 항의 각자의 동작들을 수행하게 하는 명령어들을 저장한 하나 이상의 저장 디바이스
를 포함하는, 시스템.
하나 이상의 컴퓨터 판독 가능 저장 매체로서,
하나 이상의 컴퓨터에 의해 실행될 때, 상기 하나 이상의 컴퓨터로 하여금 제1항 내지 제11항 중 어느 한 항의 방법의 각자의 동작들을 수행하게 하는 명령어들을 저장한, 하나 이상의 컴퓨터 판독 가능 저장 매체.