KR20210107119A - 물체 검출 방법 및 장치, 전자 디바이스, 및 저장 매체 - Google Patents

물체 검출 방법 및 장치, 전자 디바이스, 및 저장 매체 Download PDF

Info

Publication number
KR20210107119A
KR20210107119A KR1020217024536A KR20217024536A KR20210107119A KR 20210107119 A KR20210107119 A KR 20210107119A KR 1020217024536 A KR1020217024536 A KR 1020217024536A KR 20217024536 A KR20217024536 A KR 20217024536A KR 20210107119 A KR20210107119 A KR 20210107119A
Authority
KR
South Korea
Prior art keywords
convolutional
information
feature
voxel
target
Prior art date
Application number
KR1020217024536A
Other languages
English (en)
Other versions
KR102629928B1 (ko
Inventor
이룬 천
수 류
샤오융 선
위윙 타이
자야 자
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20210107119A publication Critical patent/KR20210107119A/ko
Application granted granted Critical
Publication of KR102629928B1 publication Critical patent/KR102629928B1/ko

Links

Images

Classifications

    • G06K9/00201
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/77Determining position or orientation of objects or cameras using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • G06V20/647Three-dimensional objects by matching two-dimensional images to three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10028Range image; Depth image; 3D point clouds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30248Vehicle exterior or interior
    • G06T2207/30252Vehicle exterior; Vicinity of vehicle

Abstract

물체 검출 방법 및 장치, 전자 디바이스 및 저장 매체. 상기 방법은 다음의 단계들을 포함한다: 장면의 포인트 클라우드를 취득하는 단계 - 포인트 클라우드는 포인트들의 위치 정보를 포함함 -(101); 3차원 복셀에 관한 특징 정보를 획득하기 위해, 3차원 복셀 표현에 포인트 클라우드를 맵핑하는 단계(102); 콘볼루션 특징 세트를 획득하기 위해, 3차원 복셀에 관한 특징 정보에 대해 콘볼루션 연산을 수행하는 단계(103); 콘볼루션 특징 세트에 기초하여, 후보 물체 영역에 관한 초기 포지셔닝 정보를 결정하는 단계(104); 포인트 클라우드로부터, 후보 물체 영역 내에 위치한 타깃 포인트를 선택하는 단계(105); 및 타깃 포인트에 관한 위치 정보 및 타깃 콘볼루션 특징 정보에 기초하여, 타깃 물체 영역에 관한 포지셔닝 정보를 획득하기 위해, 후보 물체 영역에 관한 초기 포지셔닝 정보를 조정하는 단계(106) - 타깃 콘볼루션 특징 정보는 타깃 포인트의 위치에 대응하는 콘볼루션 특징 세트 내의 콘볼루션 특징임 - . 상기 방법은 물체 검출의 정확도를 개선시킨다.

Description

물체 검출 방법 및 장치, 전자 디바이스, 및 저장 매체
본원은 그 전체가 본원에 참조로 포함된, 2019년 4월 11일자 중국 특허청에 출원되고 "OBJECT DETECTION METHOD AND APPARATUS, ELECTRONIC DEVICE, AND STORAGE MEDIUM"이라고 하는 중국 특허 출원 번호 2019102901880호를 우선권 주장한다.
본원은 인공 지능(AI)의 분야에 관한 것으로, 특히, 물체 검출 기술에 관한 것이다.
물체 검출은 장면 내의 물체의 위치, 카테고리 등을 결정하는 것이다. 현재, 물체 검출 기술은 자율 주행 및 무인 항공기와 같은 다양한 시나리오들에 폭넓게 적용되고 있다.
현재의 물체 검출 해결책들은 주로 장면 영상을 취득하고, 장면 영상으로부터 특징들을 추출하고, 다음에 추출된 특징들에 기초하여 장면 영상 내의 물체의 위치 및 카테고리를 결정하는 것이다. 그러나, 현재의 타깃 물체 검출 해결책들은 실시를 통해, 특히 3차원(3D) 물체 검출 시나리오에서, 비교적 낮은 물체 검출 정확도와 같은 문제들을 갖는다는 것이 발견되었다.
본원의 실시예들은 물체 검출 정확도를 개선시키기 위해, 물체 검출 방법 및 장치, 전자 디바이스, 및 저장 매체를 제공한다.
본원의 실시예는
장면의 포인트 클라우드를 획득하는 단계 - 포인트 클라우드는 포인트들의 위치 정보를 포함함 -;
3D 복셀의 특징 정보를 획득하기 위해, 3차원(3D) 복셀 표현에 포인트 클라우드를 맵핑하는 단계;
콘볼루션 특징 세트를 획득하기 위해 3D 복셀의 특징 정보에 대해 콘볼루션 연산을 수행하는 단계;
콘볼루션 특징 세트에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 결정하는 단계;
포인트 클라우드에서 후보 물체 영역 내에 위치한 타깃 포인트를 결정하는 단계; 및
타깃 물체 영역의 포지셔닝 정보를 획득하기 위해, 타깃 포인트의 위치 정보 및 타깃 콘볼루션 특징 정보에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 조정하는 단계 - 타깃 콘볼루션 특징 정보는 콘볼루션 특징 세트 내의 타깃 포인트의 위치에 대응하는 콘볼루션 특징 정보임 - 를 포함하는 물체 검출 방법을 제공한다.
대응하여, 본원의 실시예는
장면의 포인트 클라우드를 획득하도록 구성된 포인트 클라우드 획득 유닛 - 포인트 클라우드는 포인트들의 위치 정보를 포함함 -;
3D 복셀의 특징 정보를 획득하기 위해, 3D 복셀 표현에 포인트 클라우드를 맵핑하도록 구성된 복셀 맵핑 유닛;
콘볼루션 특징 세트를 획득하기 위해 3D 복셀의 특징 정보에 대해 콘볼루션 연산을 수행하도록 구성된 콘볼루션 유닛;
콘볼루션 특징 세트에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 결정하도록 구성된 후보 영역 획득 유닛;
포인트 클라우드에서 후보 물체 영역 내에 위치한 타깃 포인트를 결정하도록 구성된 선택 유닛; 및
타깃 물체 영역의 포지셔닝 정보를 획득하기 위해, 타깃 포인트의 위치 정보 및 타깃 콘볼루션 특징 정보에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 조정하도록 구성된 조정 유닛 - 타깃 콘볼루션 특징 정보는 콘볼루션 특징 세트 내의 타깃 포인트의 위치에 대응하는 콘볼루션 특징 정보임 - 을 포함하는 물체 검출 장치를 추가로 제공한다.
또한, 본원의 실시예는 복수의 명령어를 저장하는 저장 매체를 추가로 제공하는데, 명령어들은 본원의 실시예들에 따른 임의의 물체 검출 방법의 단계들을 수행하기 위해, 프로세서에 의해 로딩되기에 적합하다.
또한, 본원의 실시예는 메모리 및 프로세서를 포함하는 전자 디바이스를 추가로 제공하는데, 메모리는 복수의 명령어를 저장하고, 프로세서는 본원의 실시예들에 따른 임의의 물체 검출 방법의 단계들을 수행하기 위해 메모리에 명령어들을 로딩한다.
또한, 본원의 실시예는 명령어들을 포함하는 컴퓨터 프로그램 제품을 추가로 제공하는데, 명령어들은 컴퓨터 상에서 런(run)할 때, 컴퓨터로 하여금 본원의 실시예들에 따른 임의의 물체 검출 방법의 단계들을 수행하게 한다.
본원의 실시예들에 따르면, 장면의 포인트 클라우드가 획득될 수 있고 - 포인트 클라우드는 포인트들의 위치 정보를 포함함 -; 포인트 클라우드는 3D 복셀의 특징 정보를 획득하기 위해, 3D 복셀 표현에 맵핑되고; 콘볼루션 연산이 콘볼루션 특징 세트를 획득하기 위해 3D 복셀의 특징 정보에 대해 수행되고; 후보 물체 영역의 초기 포지셔닝 정보가 콘볼루션 특징 세트에 기초하여 결정되고; 포인트 클라우드에서 후보 물체 영역 내에 위치한 타깃 포인트가 결정되고; 후보 물체 영역의 초기 포지셔닝 정보는 타깃 물체 영역의 포지셔닝 정보를 획득하기 위해, 타깃 포인트의 위치 정보 및 타깃 콘볼루션 특징 정보에 기초하여 조정되고, 타깃 콘볼루션 특징 정보는 콘볼루션 특징 세트 내의 타깃 포인트의 위치에 대응하는 콘볼루션 특징 정보이다. 이 해결책은 물체 검출을 수행하기 위해 장면의 포인트 클라우드 데이터를 사용할 수 있고, 포지셔닝 정보의 손실을 최소화하기 위해, 포인트 클라우드의 위치 정보와 콘볼루션 특징들이 융합되고, 그럼으로써 물체 검출 정확도를 효과적으로 개선시킨다. 이 해결책은 특히 3D 물체 검출에 특히 적합하다.
본원의 실시예들에서의 기술적 해결책들을 보다 분명히 설명하기 위해, 다음에 실시예들을 설명하기 위해 요구되는 첨부 도면들에 대해 간단히 설명한다. 분명히, 다음 설명들에서의 첨부 도면들은 본원의 일부 실시예들을 단지 도시하고, 본 기술 분야의 통상의 기술자는 창의적 노력들 없이 이들 첨부 도면으로부터 다른 첨부 도면들을 여전히 도출해 낼 수 있다.
도 1a는 본원의 실시예에 따른 물체 검출 방법의 시나리오의 개략도이다.
도 1b는 본원의 실시예에 따른 물체 검출 방법의 플로우차트이다.
도 1c는 본원의 실시예에 따른 VoxelRPN의 개략 구조도이다.
도 1d는 본원의 실시예에 따른 RefinerNet의 개략 구조도이다.
도 2a는 본원의 실시예에 따른 물체 검출의 또 하나의 개략 플로우차트이다.
도 2b는 본원의 실시예에 따른 물체 검출의 구조적 도면이다.
도 2c는 본원의 실시예에 따른 자율 주행 시나리오에서의 물체 검출의 개략도이다.
도 3a는 본원의 실시예에 따른 물체 검출 장치의 개략 구조도이다.
도 3b는 본원의 실시예에 따른 물체 검출 장치의 또 하나의 개략 구조도이다.
도 3c는 본원의 실시예에 따른 물체 검출 장치의 또 하나의 개략 구조도이다.
도 3d는 본원의 실시예에 따른 물체 검출 장치의 또 하나의 개략 구조도이다.
도 3e는 본원의 실시예에 따른 물체 검출 장치의 또 하나의 개략 구조도이다.
도 4는 본원의 실시예에 따른 전자 디바이스의 개략 구조도이다.
본원의 실시예들에서의 기술적 해결책들이 본원의 실시예들에서의 첨부 도면들을 참조하여 다음에 분명하고 완전히 설명된다. 분명히, 설명된 실시예들은 본원의 실시예들의 모두보다는 단지 일부이다. 창의적 노력들 없이 본원의 실시예들에 기초하여 본 기술 분야의 통상의 기술자에 의해 획득된 모든 다른 실시예들은 본원의 보호 범위 내에 들 것이다.
본원의 실시예들은 물체 검출 방법 및 장치, 전자 디바이스, 및 저장 매체를 제공한다. 물체 검출 장치는 네트워크 디바이스와 같은 전자 디바이스 내에 통합될 수 있다. 전자 디바이스는 서버, 단말기, 또는 차량 내 디바이스 또는 마이크로 처리 박스와 같은 또 하나의 디바이스일 수 있다.
물체 검출은 장면 내의 물체의 위치, 카테고리 등을 결정 또는 인식하는 것이고, 예를 들어, 도로 장면 내의 물체의 카테고리 및 위치, 예를 들어, 가로등 또는 차량 및 그것의 위치를 인식하는 것이다.
도 1a를 참조하면, 본원의 실시예는 전자 디바이스 및 취득 디바이스를 포함하는 물체 검출 시스템을 제공한다. 전자 디바이스는, 예를 들어, 유선 또는 무선 네트워크를 사용하여, 취득 디바이스와 통신한다. 실시예에서, 전자 디바이스와 취득 디바이스는 하나의 디바이스 내에 통합될 수 있다.
취득 디바이스는 장면의 포인트 클라우드 데이터 또는 영상 데이터를 취득하도록 구성된다. 실시예에서, 취득 디바이스는 취득된 포인트 클라우드 데이터를 처리하기 위해 전자 디바이스에 업로딩할 수 있다. 포인트 클라우드 데이터는 포인트들의 위치 정보를 포함할 수 있다.
전자 디바이스는 물체 검출을 수행하도록 구성된다. 구체적으로, 취득 디바이스에 의해 업로딩된 장면의 클라우드 포인트를 획득한 후에, 전자 디바이스는 3D 복셀의 특징 정보를 획득하기 위해, 3D 복셀 표현에 포인트 클라우드를 맵핑하고; 콘볼루션 특징 세트를 획득하기 위해 3D 복셀의 특징 정보에 대해 콘볼루션 연산을 수행하고; 콘볼루션 특징 세트에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 결정하고; 포인트 클라우드에서 후보 물체 영역 내에 위치한 타깃 포인트를 결정하고; 타깃 물체 영역의 포지셔닝 정보를 획득하기 위해, 타깃 포인트의 위치 정보 및 타깃 콘볼루션 특징 정보에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 조정할 수 있고, 타깃 콘볼루션 특징 정보는 콘볼루션 특징 세트 내의 타깃 포인트의 위치에 대응하는 콘볼루션 특징 정보이다.
실제 적용 동안, 타깃 물체 검출 영역의 포지셔닝 정보를 획득한 후에, 검출된 물체가 포지셔닝 정보에 따라 장면 영상 내에 표시될 수 있다. 예를 들어, 검출된 물체는 검출 박스 방식으로 영상 내에 박스-선택된다. 실시예에서, 검출된 물체의 카테고리가 장면 영상 내에 표시될 수 있다.
상세한 설명들이 아래에 별개로 제공된다. 다음의 실시예들의 설명 순서는 실시예들의 선호 순서를 제한하려는 것은 아니다.
이 실시예는 물체 검출 장치의 관점으로부터 설명된다. 물체 검출 장치는 네트워크 디바이스와 같은 전자 디바이스 내에 통합될 수 있고, 네트워크 디바이스는 서버, 단말기, 또는 또 하나의 디바이스일 수 있다. 단말기는 이동 전화, 태블릿 컴퓨터, 노트북 컴퓨터, 퍼스널 컴퓨터(PC), 차량 내 디바이스, 마이크로 처리 단말기 등을 포함할 수 있다.
본원의 실시예는 물체 검출 방법을 제공한다. 방법은 전자 디바이스의 프로세서에 의해 수행될 수 있다. 도 1b에 도시한 것과 같이, 물체 검출 방법의 특정한 절차는 다음과 같을 수 있다:
101. 장면의 포인트 클라우드를 획득한다 - 포인트 클라우드는 포인트들의 위치 정보를 포함함 -.
포인트 클라우드는 장면 또는 타깃 표면 특성들을 나타내는 포인트들의 세트이다. 포인트 클라우드 내의 포인트들은 포인트들의 3D 좌표들과 같은 위치 정보를 포함할 수 있다. 또한, 색 정보(RGB) 또는 반사 세기 정보가 추가로 포함될 수 있다.
예를 들어, 실시예에서, 포인트 클라우드는 포인트의 위치 정보 및 포인트의 반사 세기 정보를 포함할 수 있다. 위치 정보는 3D 공간 좌표계 내의 포인트의 3D 좌표들(x, y, z)을 포함할 수 있다. 예를 들어, 실제 적용 동안, 포인트 클라우드는 포인트들의 3D 좌표들 및 반사 세기들을 포함할 수 있다. 포인트 클라우드는 n×4 벡터를 사용하여 표현될 수 있다. n은 포인트 클라우드 내의 포인트들의 수이다. 각각의 포인트는 1*4 4차원(4D) 벡터에 대응하고, 벡터의 4개의 차원은 각각 3D 좌표들 및 반사 세기에 대응한다.
포인트 클라우드는 레이저 측정 원리 또는 사진 측량 원리를 사용하여 검출을 통해 획득될 수 있다. 예를 들어, 물체의 포인트 클라우드는 레이저 스캐너 또는 사진 스캐너를 사용하여 스캐닝을 통해 획득될 수 있다. 포인트 클라우드가 레이저를 사용하여 검출되는 원리는: 레이저 빔이 물체의 표면 상에 조사될 때, 반사된 레이저가 배향 또는 거리와 같은 정보를 전달하는 것이다. 레이저 빔이 트랙을 따라 스캐닝될 때, 반사된 레이저 포인트 정보가 스캐닝 동안 기록된다. 스캐닝은 매우 미세하기 때문에 많은 수의 레이저 포인트가 획득될 수 있고, 그럼으로써 레이저 포인트 클라우드를 형성한다. 포인트 클라우드의 포맷은 *.las, *.pcd, *.txt 등일 수 있다.
예를 들어, 장면의 포인트 클라우드 데이터는 LiDAR(light detection and ranging)을 통해 취득될 수 있다. LiDAR은 GPS(Global Positioning System) 및 IMU(inertial measurement unit)를 사용하여 비행 레이저 스캐닝을 수행하는 것이다. 측정된 데이터는 디지털 표면 모델(DSM)의 이산 포인트들을 사용함으로써 표현되고, 데이터는 공간적 3D 정보 및 레이저 세기 정보를 포함한다. 적용 분류 기술은 디지털 표고 모델(DEM)을 획득하고 지면 피복들의 높이들을 획득하기 위해, 이들 원시(raw) DSM에서 빌딩들, 인공물들 및 피복 식물과 같은 측정 포인트들을 제거한다.
본원의 실시예들에서, 장면의 포인트 클라우드 데이터가 전자 디바이스에 의해 취득될 수 있다. 예를 들어, 전자 디바이스는 포인트 클라우드 데이터를 취득하기 위해 레이저를 사용하여 검출 및 측정할 수 있다. 장면의 포인트 클라우드 데이터는 대안적으로 또 하나의 디바이스에 의해 취득될 수 있고, 전자 디바이스는 다음에 또 하나의 디바이스로부터의 또는 온라인 데이터베이스로부터 발견된 포인트 클라우드 데이터를 획득한다. 예를 들어, LiDAR 센서는 포인트 클라우드 데이터를 취득하고, 전자 디바이스는 센서로부터 포인트 클라우드 데이터를 획득한다.
복수의 적용 시나리오가 있을 수 있다. 예를 들어, 이 해결책은 자율 주행에서의 도로 시나리오, 무인 항공기 비행에서의 항공 시나리오 등에 적용될 수 있다.
102. 3D 복셀의 특징 정보를 획득하기 위해, 3D 복셀 표현에 포인트 클라우드를 맵핑한다.
장면의 포인트 클라우드를 획득한 후에, 전체 장면의 포인트 클라우드(예를 들어, n×4 벡터)가 3D 복셀 표현에 맵핑될 수 있다. 즉, 장면의 포인트 클라우드가 복셀화된다.
3D 복셀 표현에 포인트 클라우드를 맵핑하는 과정은 장면의 포인트 클라우드의 범위에 기초하여 대응하는 크기의 복셀 블록(예를 들어, 큐빅 복셀 블록)을 구성하는 것; 복수의 3D 복셀을 획득하기 위해 복셀 블록을 분할하는 것; 3D 복셀들에 장면의 포인트 클라우드를 맵핑하는 것; 및 3D 복셀들 내의 맵핑 포인트들의 위치 정보에 기초하여 3D 복셀들의 특징 정보를 구성하는 것을 포함할 수 있다.
장면의 포인트 클라우드의 범위는 포인트 클라우드의 범위 또는 포인트 클라우드의 취득 범위(예를 들어, 센서가 장면의 포인트 클라우드를 취득하는 범위)를 포함할 수 있고, 포인트 클라우드의 범위 또는 취득 범위는 크기, 예를 들어, 세로 방향으로 5미터, 가로 방향으로 4미터, 및 수직 방향으로 3미터를 사용함으로써 표시될 수 있다. 예를 들어, 동일한 크기를 갖는 복셀 블록은 장면의 포인트 클라우드의 크기에 기초하여 구성될 수 있다. 장면의 포인트 클라우드의 크기는 포인트 클라우드의 길이, 폭, 및 높이를 포함할 수 있다.
복셀 블록은 복수의 방식으로 분할될 수 있다. 예를 들어, 복셀 블록은 미리 결정된 크기에 따라 분할될 수 있다. 미리 결정된 크기는 분할을 통해 획득될 필요가 있는 3D 복셀의 크기이고, 크기는 실제 요건에 따라 설정될 수 있다. 3D 복셀의 크기는 L(길이)×W(폭)×H(높이)를 포함할 수 있다. 예를 들어, 3D 복셀의 미리 결정된 크기는 0.2밀리미터*0.2밀리미터*0.1밀리미터일 수 있다.
분할을 통해 3D 복셀들을 획득한 후에, 포인트들은 포인트 클라우드 내의 포인트들의 위치 정보에 따라 대응하는 3D 복셀에 맵핑될 수 있다.
포인트 클라우드의 맵핑이 완료된 후에, 3D 복셀의 특징 정보가 3D 복셀 내로 맵핑된 포인트들의 위치 정보에 기초하여 획득될 수 있는데, 즉, 3D 복셀 내의 포인트들의 위치 정보에 기초하여 획득될 수 있다. 예를 들어, "3D 복셀들 내의 맵핑 포인트들의 위치 정보에 기초하여 3D 복셀들의 특징 정보를 구성하는" 단계는
3D 복셀들 내에 맵핑 포인트들이 있을 때, 3D 복셀들의 특징 정보로서 맵핑 포인트들로부터 타깃 맵핑 포인트의 위치 정보를 선택하는 것; 또는
3D 복셀들 내에 맵핑 포인트가 없을 때, 3D 복셀의 특징 정보를 제로로 설정하는 것을 포함할 수 있다.
포인트 클라우드가 n×4(n개의 포인트의 3D 좌표들 및 반사 세기들) 벡터인 예가 사용된다. 포인트 클라우드가 맵핑된 후에, 맵핑 포인트의 4D 벡터가 복셀의 특징 정보로서 맵핑 포인트들을 포함하는 복셀로부터 직접 선택되고, 맵핑 포인트를 포함하지 않는 복셀의 특징 정보는 0이다.
전술한 단계들에 따라, 포인트 클라우드는 3D 복셀 표현에 맵핑될 수 있고, 3D 복셀의 특징 정보가 구성될 수 있다. 3D 복셀의 특징 정보는 복셀 내에 맵핑 포인트의 위치 정보와 같은 정보를 포함할 수 있거나 제로일 수 있다.
103. 콘볼루션 특징 세트를 획득하기 위해 3D 복셀의 특징 정보에 대해 콘볼루션 연산을 수행한다.
콘볼루션 특징 세트는 모든 3D 복셀들의 추출된 특징들을 포함한다. 실제 적용 동안, 콘볼루션 특징 세트는 모든 3D 복셀들의 특징 맵일 수 있다.
예를 들어, 3D 복셀의 특징 추출 정확도를 개선시키기 위해, 3D 콘볼루션 연산 및 2차원(2D) 콘볼루션 연산이 특징을 추출하기 위해 3D 복셀의 특징에 대해 수행될 수 있다.
예를 들어, "콘볼루션 특징 세트를 획득하기 위해 3D 복셀의 특징 정보에 대해 콘볼루션 연산을 수행하는" 단계는
3D 복셀의 3D 콘볼루션 특징 정보를 획득하기 위해 3D 복셀의 특징 정보에 대해 3D 콘볼루션 연산을 수행하는 것; 및
콘볼루션 특징 세트를 획득하기 위해 3D 콘볼루션 특징 정보에 대해 2D 콘볼루션 연산을 수행하는 것을 포함할 수 있다.
실시예에서, 콘볼루션 특징 세트가 신경 네트워크-기반 영역 제안 네트워크(RPN)과 같은 신경 네트워크를 사용하여 3D 복셀의 특징으로부터 추출될 수 있다. 도 1c를 참조하면, RPN은 3D 콘볼루셔널 네트워크, 2D 콘볼루셔널 네트워크, 융합 모듈, 리그레션 네트워크, 및 분류 네트워크를 포함할 수 있다.
3D 콘볼루셔널 네트워크는 2D 콘볼루셔널 네트워크에 접속되고, 융합 모듈은 2D 콘볼루셔널 네트워크에 접속되고, 리그레션 네트워크 및 분류 네트워크는 융합 모듈에 접속된다.
3D 복셀의 특징 정보가 획득된 후에, 본원의 실시예들에서, 3D 콘볼루션 연산이 RPN 내의 3D 콘볼루셔널 네트워크를 사용하여 3D 복셀의 특징 정보에 대해 수행될 수 있다. 도 1c를 참조하면, 3D 콘볼루셔널 네트워크는 하나 이상의 3D 콘볼루션 층을 포함할 수 있고, 각각의 3D 콘볼루션 층(Conv3D)은 3×3×2(채널량) 또는 3×3×3(채널량)과 같은 하나의 3D 콘볼루션 커널에 대응한다. 구체적으로, 3D 콘볼루션 연산은 3D 콘볼루셔널 네트워크 내의 Conv3D들을 사용하여 순차적으로 3D 복셀의 특징 정보에 대해 수행될 수 있다.
예를 들어, 도 1c를 참조하면, 3D 복셀의 특징 정보는 네트워크의 입력(복셀 입력)으로서 사용되고 네트워크 내로 입력될 수 있다. 제1 3D 콘볼루션 층은 3×3×2(8) 3D 콘볼루션 커널을 사용하여 3D 복셀의 특징 정보에 대해 3D 콘볼루션 연산을 수행하고, 3D 콘볼루션 커널이 3×3×2(16)인 3D 콘볼루션 연산을 수행하기 위해 제2 3D 콘볼루션 층 내로 콘볼루션 연산 결과를 입력한다. 나머지는 3D 콘볼루셔널 네트워크 내의 마지막 3D 콘볼루션 층이 3×3×2(128) 콘볼루션 커널을 사용하여 입력된 특징들에 대해 3D 콘볼루션 연산을 수행할 때까지 유추에 의해 연역될 수 있다.
3D 콘볼루션 특징 정보가 3D 콘볼루셔널 네트워크를 사용하여 3D 복셀의 특징 정보에 대해 3D 특징 추출을 수행함으로써 획득된 후에, 2D 콘볼루션 연산이 콘볼루션 특징 세트를 획득하도록, 2D 콘볼루션 특징들을 추출하기 위해, RPN 내의 2D 콘볼루셔널 네트워크를 사용하여 3D 콘볼루션 특징 정보에 대해 수행될 수 있다.
예를 들어, 도 1c를 참조하면, 2D 콘볼루셔널 네트워크는 순차적으로 접속된 복수의 콘볼루셔널 블록을 포함할 수 있고, 각각의 콘볼루셔널 블록은 하나 이상의 2D 콘볼루션 층(Conv2D)을 포함한다. 3D 콘볼루셔널 네트워크가 3D 콘볼루션 연산을 완료한 후에, 2D 콘볼루션 연산이 2D 콘볼루셔널 네트워크 내의 복수의 콘볼루셔널 블록을 사용하여 순차적으로 3D 콘볼루션 특징 정보에 대해 수행될 수 있고; 콘볼루셔널 블록들 각각에 의해 출력된 콘볼루션 특징들은 콘볼루션 특징 세트를 획득하기 위해, 융합 모듈을 사용하여 융합된다.
도 1c를 참조하면, 2D 콘볼루셔널 네트워크가 3개의 콘볼루셔널 블록을 포함하는 예가 사용된다. 각각의 2D 콘볼루셔널 블록, 예를 들어, BLOCK2, BLOCK3, 또는 BLOCK4는 하나 이상의 2D 콘볼루션 층을 포함할 수 있다. 예를 들어, BLOCK2는 콘볼루션 커널이 3×3(256)인 3개의 2D 콘볼루션 층을 포함한다. 구체적으로, 3D 콘볼루셔널 네트워크가 3D 콘볼루션 특징 정보의 추출을 완료한 후에, 추출된 3D 콘볼루션 특징 정보는 2D 콘볼루셔널 네트워크 내의 BLOCK2에 입력될 수 있고, BLOCK2는 BLOCK2 내의 복수의 2D 콘볼루션 층(콘볼루션 커널은 3×3)을 사용하여 입력된 3D 콘볼루션 특징 정보에 대해 2D 콘볼루션 연산을 수행하고 다음 BLOCK3 내로 출력된 콘볼루션 특징을 입력할 수 있다. 유사하게, BLOCK3은 BLOCK3 내의 복수의 2D 콘볼루션 층(콘볼루션 커널은 3×3)을 사용하여 입력된 특징 정보에 대해 2D 콘볼루션 연산을 수행하고 다음 BLOCK4 내로 출력된 콘볼루션 특징을 입력할 수 있다. BLOCK4는 BLOCK4 내의 복수의 2D 콘볼루션 층(콘볼루션 커널은 3×3)을 사용하여 입력된 특징 정보에 대해 2D 콘볼루션 연산을 수행하고 콘볼루션 특징을 출력할 수 있다.
본원의 실시예들에서, 2D 콘볼루션 연산이 2D 콘볼루셔널 네트워크 내의 콘볼루셔널 블록들을 사용하여 순차적으로 3D 콘볼루션 특징 정보에 대해 수행된 후에, 콘볼루셔널 블록들 각각에 의해 출력된 콘볼루션 특징들은 모든 3D 복셀들에 대응하는 콘볼루션 특징 세트를 획득하기 위해 융합될 수 있다.
실시예에서, 특징 융합의 효율 및 정확도를 개선시키기 위해, 디콘볼루션 처리가 2D 콘볼루셔널 네트워크 내의 제1 콘볼루셔널 블록 이외의 다른 콘볼루셔널 블록들에 의해 출력된 콘볼루션 특징들에 대해 추가로 수행될 수 있으므로, 다른 콘볼루셔널 블록들의 디콘볼루션 특징들과 제1 콘볼루셔널 블록에 의해 출력된 콘볼루션 특징은 동일한 크기라서, 특징들을 융합하고 융합된 특징들의 정확도를 개선시키는 데 도움을 준다.
예를 들어, "콘볼루션 특징 세트를 획득하기 위해 콘볼루셔널 블록들 각각에 의해 출력된 콘볼루션 특징들을 융합하는" 단계는
다른 콘볼루셔널 블록들의 디콘볼루션 특징들을 획득하기 위해 2D 콘볼루셔널 네트워크 내의 제1 콘볼루셔널 블록 이외의 다른 콘볼루셔널 블록들에 의해 출력된 콘볼루션 특징들에 대해 디콘볼루션 처리를 수행하는 것 - 디콘볼루션 특징들과 제1 콘볼루셔널 블록에 의해 출력된 콘볼루션 특징은 동일한 크기임 - ; 및
콘볼루션 특징 세트를 획득하기 위해 제1 콘볼루셔널 블록에 의해 출력된 콘볼루션 특징과 다른 콘볼루셔널 블록들의 디콘볼루션 특징들을 융합하는 것을 포함할 수 있다.
예를 들어, 도 1c를 참조하면, 디콘볼루션 연산(Deconv)이 BLOCK4 및 BLOCK3에 의해 출력된 디콘볼루션 특징들과 BLOCK2에 의해 출력된 콘볼루션 특징이 동일한 크기로 되게 하기 위해, BLOCK4 및 BLOCK3에 의해 출력된 콘볼루션 특징들에 대해 수행될 수 있고, BLOCK2에 의해 출력된 콘볼루션 특징, BLOCK3에 의해 출력된 디콘볼루션 특징, 및 BLOCK4에 의해 출력된 디콘볼루션 특징이 융합 모듈을 사용하여 추가로 융합된다.
콘볼루션 특징들은 복수의 방식으로 융합될 수 있다. 예를 들어, 콘볼루션 특징들은 특징 연쇄 방식으로 융합될 수 있다. 도 1c를 참조하면, BLOCK2에 의해 출력된 콘볼루션 특징, BLOCK3에 의해 출력된 디콘볼루션 특징, 및 BLOCK4에 의해 출력된 디콘볼루션 특징은 콘볼루션 특징 세트(예를 들어, 특징 맵)를 획득하기 위해, 연쇄될 수 있다.
전술한 단계들에 따라, 3D 복셀의 특징 정보가 획득된 후에, 3D 콘볼루션 연산 및 2D 콘볼루션 연산이 모든 3D 복셀들에 대응하는 콘볼루션 특징 세트를 추출하기 위해, 3D 복셀의 특징 정보에 대해 수행될 수 있다.
104. 콘볼루션 특징 세트에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 결정한다.
후보 물체 영역은 2D 영역일 수 있거나 3D 영역일 수 있고, 실제 요건에 따라 구체적으로 설정될 수 있다. 실제 적용 동안, 후보 물체 영역이 박스의 형태로 표시될 때, 박스는 물체 박스, 박스, 또는 검출 박스라고 할 수 있다.
후보 물체 영역의 초기 포지셔닝 정보는 후보 물체 영역의 위치 정보 및 크기 정보를 포함할 수 있다. 위치 정보는 후보 물체 영역 내의 기준 포인트의 위치 정보를 사용하여 표현될 수 있고, 기준 포인트는 실제 요건에 따라 설정될 수 있다. 예를 들어, 후보 물체 영역의 중심 포인트가 기준 포인트로서 설정될 수 있다. 3D 후보 물체 영역이 예로서 사용된다. 후보 물체 영역의 위치 정보는 후보 물체 영역의 중심 포인트의 (x, y, z)와 같은 3D 좌표들을 포함할 수 있다.
후보 물체 영역의 크기 정보는 후보 물체 영역의 크기 파라미터를 포함할 수 있다. 예를 들어, 후보 물체 영역이 2D 영역일 때, 후보 물체 영역의 크기 파라미터는 길이 l*폭 w를 포함할 수 있고, 후보 물체 영역이 3D 영역일 때, 후보 물체 영역의 크기 파라미터는 길이 l*폭 w*높이 h를 포함할 수 있다.
또한, 일부 장면들에서, 물체의 배향은 또한 의미있는 기준 정보이다. 그러므로, 일부 실시예들에서, 후보 물체 영역의 초기 포지셔닝 정보는 후보 물체 영역의 배향을 추가로 포함할 수 있다. 예를 들어, 후보 물체 영역은 전방, 후방, 하방, 또는 상방으로 향한다. 후보 물체 영역의 배향은 장면 내의 물체의 배향을 표시할 수 있다. 실제 적용 동안, 후보 물체 영역의 배향은 각도들에 기초하여 표현될 수 있다. 예를 들어, 2개의 배향이 정해질 수 있고 각각 0° 및 90°이다.
실시예에서, 물체의 배향은 회전 각도를 사용하여 표현될 수 있고, 회전 각도는 z 축 주위의(수직 방향에서의) 회전 각도이다.
3D 후보 물체 영역이 예로서 사용된다. 후보 물체 영역의 초기 포지셔닝 정보는 7차원(7D) 파라미터들을 포함할 수 있고(또는 리그레션 파라미터들이라고 할 수 있고) 영역의 중심 포인트의 좌표들(x, y, z), 영역의 크기(길이 l, 폭 w, 및 높이 h), 및 z 축 주위의(수직 방향에서의) 회전 각도(세타)를 구체적으로 포함한다.
본원의 실시예들에서, 후보 물체 영역의 초기 포지셔닝 정보가 복수의 방식으로 콘볼루션 특징 세트에 기초하여 결정된다. 예를 들어, 후보 물체 영역의 초기 포지셔닝 정보는 3D 복셀의 콘볼루션 특징 세트에 기초하여 예측될 수 있고, 또는 후보 물체 영역의 초기 포지셔닝 정보는 RPN에 기초하여 예측될 수 있다.
실시예에서, 물체 검출의 정확도를 추가로 개선시키도록 후보 박스와 같은 후보 물체 영역의 발생의 정확도를 개선시키기 위해, 기준 물체 영역이 각각의 3D 복셀 또는 포인트 클라우드 내의 포인트에 대해 미리 설정될 수 있고, 기준 물체 영역은 또한 앵커 물체 영역이라고 할 수 있다. 실제 적용 동안, 영역이 박스를 사용하여 표현될 수 있는 경우에, 박스는 앵커 박스 또는 기준 박스라고 할 수 있다. 실제 물체 영역에 대한 기준 물체 영역의 포지셔닝 오프셋 정보 및 3D 복셀에 대응하는 물체 카테고리는 다음에 콘볼루션 특징 세트에 기초하여 예측되고, 최적화와 같은 조정이 다음에 후보 물체 영역의 초기 포지셔닝 정보를 획득하기 위해, 실제 물체 영역에 대한 기준 물체 영역의 포지셔닝 오프셋 정보 및 3D 복셀에 대응하는 물체 카테고리에 기초하여 기준 박스와 같은 기준 물체 영역에 대해 수행된다.
구체적으로, "콘볼루션 특징 세트에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 결정하는" 단계는
콘볼루션 특징 세트에 기초하여 3D 복셀에 대응하는 포지셔닝 오프셋 정보 및 물체 카테고리를 예측하는 것 - 포지셔닝 오프셋 정보는 실제 물체 영역에 대한 3D 복셀에 대응하는 기준 물체 영역의 초기 포지셔닝 오프셋 정보임 - ; 및
후보 물체 영역의 초기 포지셔닝 정보를 획득하기 위해 포지셔닝 오프셋 정보 및 물체 카테고리에 기초하여 3D 복셀에 대응하는 기준 물체 영역을 조정하는 것을 포함할 수 있다.
포지셔닝 오프셋 정보는 실제 물체 영역에 대한 3D 복셀에 대응하는 기준 물체 영역의 초기 포지셔닝 오프셋 정보, 예를 들어, 실측 자료에 대한 기준 박스의 포지셔닝 오프셋 정보이다. 포지셔닝 오프셋 정보는 위치 오프셋 정보(3D 좌표들 x, y, 및 z의 좌표 오프셋들), 크기 오프셋 정보(길이, 폭, 및 높이의 크기 오프셋들), 및 각도 오프셋 정보(예를 들어, 회전 각도의 각도 오프셋), 및 7D 파라미터들(x, y, z, h, w, l, 세타)의 오프셋들과 같은 것 등을 포함할 수 있다.
예를 들어, 포지셔닝 오프셋 정보는 7D 파라미터들을 포함할 수 있고(또는 리그레션 파라미터들이라고 할 수 있고) 기준 물체 영역의 중심 포인트와 실제 물체 영역의 중심 포인트 간의 좌표들(x, y, z)의 오프셋들, 기준 물체 영역과 실제 물체 영역 간의 크기들(l, w, h)의 오프셋들, 및 기준 물체 영역의 회전 각도와 z 축 주위의(수직 방향에서의) 실제 물체 영역의 회전 각도 간의 각도 오프셋을 구체적으로 포함한다.
3D 복셀에 대응하는 기준 물체 영역은 미리 설정된 물체 영역일 수 있다. 예를 들어, 물체 영역이 3D 복셀에 대해 미리 확립된다. 또 하나의 예에서, 기준 물체 영역은 포인트 클라우드 내의 각각의 포인트에 대해 미리 확립될 수 있다. 포인트 클라우드 내의 포인트들이 3D 복셀에 맵핑된 후에, 3D 복셀에 대응하는 기준 물체 영역이 복셀 내의 맵핑 포인트들의 기준 물체 영역일 수 있고, 예를 들어, 3D 복셀 내의 특징 포인트들의 기준 물체 영역일 수 있다.
기준 물체 영역의 크기와 같은 정보가 기준 물체 영역이 미리 설정될 때 실제 요건에 따라 설정될 수 있다.
본원의 실시예들에서, 후보 물체 영역의 발생의 정확도를 개선시키기 위해, 포지셔닝 오프셋 정보 및 물체 카테고리가 딥 러닝 네트워크를 사용하여 추가로 예측될 수 있다. 예를 들어, 물체 카테고리 및 포지셔닝 오프셋 정보가 각각 딥 러닝에 기초한 분류 네트워크 및 리그레션 네트워크를 사용하여 예측될 수 있다.
실시예에서, 효율을 개선시키기 위해, 분류 네트워크 및 리그레션 네트워크는 대안적으로 RPN 내에 통합될 수 있다. 즉, RPN은 분류 네트워크 및 리그레션 네트워크를 포함할 수 있다. 예를 들어, 융합 모듈이 RPN에서 콘볼루션 특징 세트를 획득하기 위해 콘볼루셔널 블록들 각각에 의해 출력된 콘볼루션 특징들을 융합한 후에, 물체 분류가 3D 복셀에 대응하는 물체 카테고리를 획득하기 위해 분류 네트워크 및 콘볼루션 특징 세트에 기초하여 3D 복셀에 대해 수행될 수 있고; 3D 복셀에 대응하는 포지셔닝 오프셋 정보가 리그레션 네트워크 및 콘볼루션 특징 세트에 기초하여 예측될 수 있다.
예를 들어, 도 1c를 참조하면, 융합 모듈은 콘볼루션 특징 세트를 획득하기 위해 2D 콘볼루셔널 네트워크 내의 콘볼루셔널 블록들 각각에 의해 출력된 콘볼루션 특징들을 융합한다. 콘볼루션 특징 세트는 다음에 리그레션 네트워크(reg) 및 분류 네트워크(cls) 내로 입력된다. 리그레션 네트워크는 콘볼루션 특징 세트에 기초하여 실제 물체 영역에 대한 3D 복셀에 대응하는 기준 물체 영역의 포지셔닝 오프셋 정보를 예측할 수 있다. 분류 네트워크는 콘볼루션 특징 세트에 기초하여 3D 복셀에 대응하는 물체 카테고리를 예측할 수 있다.
리그레션 네트워크(reg) 및 분류 네트워크(cls)는 하나 이상의 완전 접속된(FC) 층에 의해 형성될 수 있다.
본원의 실시예들에서, 포지셔닝 오프셋 정보 및 물체 카테고리가 예측된 후에, 최적화 조정이 예측된 포지셔닝 오프셋 정보 및 물체 카테고리에 기초하여 3D 복셀에 대응하는 기준 물체 영역에 대해 수행될 수 있다. 예를 들어, 3D 복셀에 대응하는 기준 물체 영역이 물체 카테고리에 기초하여 스크린될 수 있고, 스크리닝 후의 나머지 물체 영역은 포지셔닝 오프셋 정보에 기초하여 정정될 수 있다.
예를 들어, "후보 물체 영역의 초기 포지셔닝 정보를 획득하기 위해 포지셔닝 오프셋 정보 및 물체 카테고리에 기초하여 3D 복셀에 대응하는 기준 물체 영역을 조정하는" 단계는
스크린된 물체 영역을 획득하기 위해 물체 카테고리에 따라 기준 물체 영역을 스크린하는 것; 및
후보 물체 영역의 초기 포지셔닝 정보를 획득하기 위해 스크린된 물체 영역의 포지셔닝 오프셋 정보에 기초하여 스크린된 물체 영역의 포지셔닝 정보를 정정하는 것을 포함할 수 있다.
예를 들어, 물체 카테고리가 미리 설정된 카테고리인 영역이 기준 물체 영역들로부터 선택될 수 있고, 또는 미리 설정된 카테고리의 영역이 스크린 아웃될 수 있다.
포지셔닝 정보는 복수의 방식으로 정정될 수 있다. 예를 들어, 스크린된 물체 영역의 포지셔닝 정보가 (x, y, z, h, w, l, 세타)와 같은 7D 리그레션 파라미터들을 포함할 때, 기준 물체 영역의 원래의 7D 리그레션 파라미터들 및 파라미터들의 오프셋들이 추가될 수 있고, 추가 후에 획득된 7D 리그레션 파라미터들이 후보 물체 영역의 초기 7D 리그레션 파라미터들, 즉, 후보 물체 영역의 초기 포지셔닝 정보로서 사용된다.
본원의 실시예들에서, 초기 포지셔닝 정보, 예를 들어, 후보 물체 영역의 7D 리그레션 파라미터들(x, y, z, h, w, l, 및 세타)이 전술한 방식들에 따라 획득되거나 예측될 수 있다.
105. 포인트 클라우드에서 후보 물체 영역 내에 위치한 타깃 포인트를 결정한다.
후보 물체 영역이 결정된 후에, 후보 물체 영역 내에 위치한 타깃 포인트가 포인트 클라우드로부터 선택될 수 있다. 구체적으로, 후보 물체 영역 내에 위치한 타깃 포인트가 포인트 클라우드 내의 포인트들의 위치 정보(예를 들어, 3D 좌표들) 및 후보 물체 영역의 초기 포지셔닝 정보(예를 들어, 3D 좌표들 및 크기)에 따라 결정될 수 있다.
실제 적용 동안, 후보 박스와 같은 후보 물체 영역 내에 위치한 포인트가 포인트 클라우드로부터 크롭핑을 통해 획득될 수 있다.
106. 타깃 물체 영역의 포지셔닝 정보를 획득하기 위해, 타깃 포인트의 위치 정보 및 타깃 콘볼루션 특징 정보에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 조정하고, 타깃 콘볼루션 특징 정보는 콘볼루션 특징 세트 내의 타깃 포인트의 위치에 대응하는 타깃 콘볼루션 특징이다.
후보 물체 영역 내에 위치한 타깃 포인트를 선택한 후에, 타깃 포인트의 위치 정보가 획득될 수 있고 타깃 포인트의 위치에 대응하는 콘볼루션 특징 정보가 콘볼루션 특징 세트로부터 획득될 수 있다. 예를 들어, 포인트 클라우드 내의 포인트들이 3D 복셀에 맵핑되므로, 타깃 포인트가 맵핑될 수 있는 3D 복셀이 콘볼루션 특징 세트로부터 3D 복셀에 대응하는 콘볼루션 특징 정보를 추출하기 위해, 타깃 포인트의 위치 정보에 따라 결정될 수 있다. 본원의 실시예들에서, 정보의 2개의 부분이 후보 물체 영역의 초기 포지셔닝 정보를 정정하기 위해 특징 정보로서 사용될 수 있다.
타깃 포인트의 위치 정보 및 타깃 콘볼루션 특징 정보에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 조정하는 복수의 방식이 있을 수 있다. 예를 들어, 후보 물체 영역의 포지셔닝 오프셋이 2가지 유형의 정보에 기초하여 예측될 수 있고, 후보 물체 영역의 초기 포지셔닝 정보는 다음에 포지셔닝 오프셋에 기초하여 정정될 수 있다. 대안적으로, 후보 물체 영역의 포지셔닝 정보는 2가지 유형의 정보에 기초하여 직접 예측될 수 있다.
타깃 물체 영역은 초기 포지셔닝 정보가 정정될 수 있는 후보 물체 영역일 수 있는, 궁극적으로 출력되는 물체 영역이다.
실시예에서, "타깃 물체 영역의 포지셔닝 정보를 획득하기 위해, 타깃 포인트의 위치 정보 및 타깃 콘볼루션 특징 정보에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 조정하는" 단계는 다음을 포함한다:
(1) 후보 물체 영역의 영역 특징 정보를 획득하기 위해 타깃 포인트의 위치 정보와 타깃 콘볼루션 특징 정보를 융합하는 것.
위치 정보와 콘볼루션 특징 정보가 복수의 방식으로 융합될 수 있다. 예를 들어, 실시예에서, 특징 손실을 피하기 위해, 타깃 포인트의 특징 가중이 타깃 콘볼루션 특징 정보에 기초하여 계산될 수 있고, 타깃 포인트의 위치 특징이 다음에 후보 영역의 영역 특징 정보를 획득하기 위해 가중에 기초하여 조정될 수 있다.
구체적으로, "후보 물체 영역의 영역 특징 정보를 획득하기 위해 타깃 포인트의 위치 정보와 타깃 콘볼루션 특징 정보를 융합하는" 단계는
융합된 특징 정보를 획득하기 위해 타깃 포인트의 위치 정보와 타깃 콘볼루션 특징 정보를 융합하는 것 - 여기서, 예를 들어, 연쇄가 융합된 특징 정보를 획득하기 위해 타깃 포인트의 위치 정보 및 타깃 콘볼루션 특징 정보에 대해 수행될 수 있음 - ;
타깃 포인트의 특징 가중을 획득하기 위해 타깃 포인트의 타깃 콘볼루션 특징 정보에 대해 차원 감소를 수행하는 것;
가중된 특징 정보를 획득하기 위해 특징 가중에 기초하여 융합된 특징 정보에 대해 특징 가중을 수행하는 것 - 여기서, 예를 들어, 특징 가중이 n×1 특징 가중 벡터이고, n은 타깃 포인트들의 수이고, 융합된 특징 정보가 n×256 융합된 특징 벡터를 포함할 때, n×1 특징 가중 벡터와 n×256 융합된 특징 벡터가 곱해질 수 있고, 즉, 특징 가중이 엘리먼트-단위 곱셈을 통해 수행됨 - ; 및
후보 물체 영역의 영역 특징 정보를 획득하기 위해 가중된 특징 정보에 대해 다운샘플링 연산을 수행하는 것 - 여기서, 예를 들어, 맥스풀링 연산이 수행됨 - 을 포함할 수 있다.
실시예에서, 융합을 용이하게 하고 특징들의 정확도를 개선시키기 위해, 융합된 특징 정보의 특징 차원들이 상승되고 다음에 특징 가중에 기초하여 처리될 수 있다. 예를 들어, "가중된 특징 정보를 획득하기 위해 특징 가중에 기초하여 융합된 특징 정보에 대해 특징 가중을 수행하는" 단계는
처리된 특징 정보를 획득하기 위해 융합된 특징 정보의 특징 차원들에 대해 차원 상승을 수행하는 것; 및
가중된 특징 정보를 획득하기 위해 특징 가중에 기초하여 처리된 특징 정보에 대해 특징 가중을 수행하는 것을 포함할 수 있다.
실시예에서, 특징들의 비선형성을 증가시키기 위해, 활성화 함수가 특징 가중을 결정하는 과정에서 더 추가될 수 있다. 예를 들어, "타깃 포인트의 특징 가중을 획득하기 위해 타깃 콘볼루션 특징 정보에 대해 차원 감소를 수행하는" 단계는
초기 특징 가중을 획득하기 위해 타깃 콘볼루션 특징 정보에 대해 차원 감소를 수행하는 것; 및
타깃 포인트의 특징 가중을 획득하기 위해 활성화 함수에 기초하여 초기 특징 가중을 처리하는 것을 포함할 수 있다.
활성화 함수는 시그모이드 함수와 같은 함수일 수 있다.
물체 검출 효율 및 정확도를 개선시키기 위해, 타깃 포인트의 위치 정보와 타깃 콘볼루션 특징 정보의 융합이 대안적으로 후보 물체 영역의 영역 특징 정보를 구성하기 위해, 딥 러닝 네트워크를 사용하여 구현될 수 있다. 특징 차원들의 상승 및 감소는 둘 다 FC 층을 사용하여 구현될 수 있는데, 예를 들어, 완전 콘볼루셔널 네트워크(FCN)를 사용하여 구현될 수 있다.
예를 들어, 도 1d를 참조하면, 복수의 FC 층, 융합 모듈, 및 다운샘플링 모듈을 포함하는, 영역 리파이너 네트워크(RefinerNet)가 제공된다. 융합 모듈은 특징 연쇄 모듈, 즉, 도면 내의 "C" 모듈, 병렬로 접속된 FC 층들의 그룹, 활성화 모듈, 엘리먼트-단위 곱셈 모듈, 즉, "M" 모듈을 포함한다.
후보 물체 영역의 초기 포지셔닝 정보가 획득된 후에, 후보 물체 영역 내에 위치한 타깃 포인트가 포인트 클라우드로부터 크롭핑을 통해 획득될 수 있고, 타깃 포인트의 위치 정보, 예를 들어 좌표들이 n×4 위치 특징(n은 타깃 포인트들의 수)으로서 사용된다. 또한, 콘볼루션 특징 정보, 예를 들어 타깃 포인트의 위치에 대응하는, n×C 특징 벡터가 특징 맵과 같은 콘볼루션 특징 세트로부터 추출되고, 위치 특징 및 콘볼루션 특징 정보가 다음에 영역 RefinerNet 내로 별개로 입력된다.
영역 RefinerNet 내의 FC 층들은 n×128 위치 특징 벡터 내로 n×4 위치 특징 벡터를 맵핑하고 다음에 융합 모듈 내로 n×128 위치 특징 벡터를 입력한다. 특징 연쇄 모듈, 즉, 융합 모듈 내의 "C" 모듈은 n×C 콘볼루션 특징 벡터와 맵핑된 n×128 위치 특징 벡터를 융합하고, 2개의 FC 층을 사용하여 n×256 융합된 특징 벡터 내로 융합된 특징 벡터를 맵핑할 수 있다. 또한, 융합 모듈은 n×128 FC 층 및 n×1 FC 층을 사용하여 n×1 콘볼루션 특징 벡터(즉, 타깃 포인트의 특징 가중 벡터) 내로 n×C 콘볼루션 특징 벡터를 맵핑한다. 또한, 활성화 모듈은 시그모이드 함수와 같은 활성화 함수를 사용하여 n×1 콘볼루션 특징 벡터에 대해 활성화를 수행하고, 엘리먼트-단위 곱셈 모듈, 즉, "M" 모듈은 곱해진 특징 벡터를 출력하기 위해, 활성화가 수행된 n×1 콘볼루션 특징 벡터 및 n×256 융합된 특징 벡터에 대해 엘리먼트-단위 곱셈을 수행한다.
곱해진 특징 벡터는 다음에 2개의 FC 층을 사용하여 n×256 특징 벡터 및 n×512 특징 벡터 내로 순차적으로 맵핑된다. 다운샘플링 모듈은 다음에 512개의 특징을 획득하기 위해 n×512 특징 벡터에 대해 다운샘플링 연산을 수행하고, 512개의 특징은 후보 물체 영역의 영역 특징들이다.
(2) 예측된 포지셔닝 오프셋 정보를 획득하기 위해, 영역 특징 정보에 기초하여 실제 물체 영역에 대한 후보 물체 영역의 포지셔닝 오프셋 정보를 예측하는 것.
예를 들어, 리그레션 네트워크는 영역 특징 정보에 기초하여 포지셔닝 오프셋 정보를 예측할 수 있다. 실시예에서, 효율을 개선시키기 위해, 리그레션 네트워크는 영역 RefinerNet 내에 통합될 수 있다. 예를 들어, 도 1d를 참조하면, 영역 RefinerNet은 리그레션 네트워크(reg)를 추가로 포함할 수 있다. 512개의 영역 특징이 다운샘플링 연산을 통해 획득된 후에, 포지셔닝 오프셋 예측이 예측된 포지셔닝 오프셋 정보를 획득하기 위해 리그레션 네트워크에 기초하여 수행될 수 있다. 예를 들어, 예측된 포지셔닝 오프셋 정보는 위치 오프셋 정보(3D 좌표들 x, y, 및 z의 좌표 오프셋들), 크기 오프셋 정보(길이, 폭, 및 높이의 크기 오프셋들), 및 각도 오프셋 정보(회전 각도의 각도 오프셋), 및 예를 들어, 7D 파라미터들(x, y, z, h, w, l, 세타)의 오프셋들과 같은 것 등을 포함할 수 있다.
(3) 타깃 물체 영역의 포지셔닝 정보를 획득하기 위해, 예측된 포지셔닝 오프셋 정보에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 정정하는 것.
후보 물체 영역의 예측된 포지셔닝 오프셋 정보가 획득된 후에, 후보 물체 영역의 초기 포지셔닝 정보가 타깃 물체 영역의 포지셔닝 정보를 획득하기 위해, 예측된 포지셔닝 오프셋 정보에 기초하여 정정될 수 있다.
포지셔닝 정보는 복수의 방식으로 정정될 수 있다. 예를 들어, 후보 물체 영역의 초기 포지셔닝 정보가 7D 파라미터들(x, y, z, h, w, l, 세타)을 포함할 때, 후보 물체 영역의 원래의 7D 파라미터들 및 파라미터들의 오프셋들이 추가될 수 있고, 추가된 7D 파라미터들은 타깃 물체 영역의 7D 리그레션 파라미터들을 획득하기 위해, 후보 물체 영역의 최적화된 7D 리그레션 파라미터들로서 사용된다.
다음에 RPN 및 영역 RefinerNet의 트레이닝에 대해 설명한다:
RPN은 본원의 실시예들에서 유형 손실 및 포지셔닝 오프셋 손실을 사용하여 트레인될 수 있고, 상세들은 다음과 같다:
(1) 샘플 장면의 샘플 포인트 클라우드를 포함하는 트레이닝 샘플 세트를 획득한다.
트레이닝 샘플 세트는 복수의 샘플 장면의 샘플 포인트 클라우드들을 포함할 수 있다. 샘플 포인트 클라우드는 포인트들의 위치 정보를 포함하고 포인트들의 반사 세기 정보를 추가로 포함할 수 있다.
실제 트레이닝 동안, 실제 물체 영역의 샘플 물체 카테고리 및 포지셔닝 정보가 샘플 장면 내에 추가로 표시될 수 있다. 대안적으로, 실시예에서, 실제 물체 영역에 대한 샘플 기준 물체 영역의 샘플 오프셋 정보가 추가로 표시될 수 있다. 샘플 기준 물체 영역은 포인트 클라우드 내의 포인트에 대응하는 미리 결정된 물체 영역, 예를 들어, 샘플 장면의 공간 좌표계 내의 각각의 샘플 포인트에 대해 확립된 기준 박스(앵커)와 같은 기준 영역일 수 있다.
(2) 샘플 3D 복셀의 샘플 특징 정보를 획득하기 위해, 3D 복셀 표현에 샘플 포인트 클라우드 내의 포인트들의 위치 정보를 맵핑한다.
구체적으로, 3D 복셀의 표현 방식들에 대해서는, 전술한 실시예들에서의 설명들이 참조될 수 있다.
(3) 예측된 포지셔닝 오프셋 정보 및 예측된 카테고리를 획득하기 위해, 미리 구성된 RPN 및 샘플 특징 정보에 기초하여 샘플 3D 복셀에 대응하는 오프셋 정보 및 물체 카테고리를 예측한다.
구체적으로, RPN의 예측 과정에 대해서는, 전술한 실시예의 설명들 및 도 1c가 참조될 수 있다.
(4) 실제 오프셋 정보에 대한 예측된 포지셔닝 오프셋 정보의 포지셔닝 오프셋 손실 및 실제 물체 카테고리에 대한 예측된 물체 카테고리의 카테고리 손실을 계산한다.
실제 오프셋 정보가 실제 물체 영역의 포지셔닝 정보 및 기준 물체 영역의 포지셔닝 정보에 따라 계산을 통해 획득될 수 있다. 예를 들어, 실제 물체 영역과 기준 물체 영역의 7D 리그레션 파라미터들(x, y, z, h, w, l, 세타) 간의 오프셋 값들(Δx, Δy, Δz, Δh, Δw, Δl, Δ세타)이 계산된다.
포지셔닝 오프셋 손실은 오프셋 손실, 즉, 실제 오프셋 정보에 대한 예측된 포지셔닝 오프셋 정보의 에러이다. 실시예에서, 포지셔닝 정보가 영역의 리그레션 파라미터들을 포함할 때, 포지셔닝 오프셋 손실을 리그레션 파라미터 손실 Lreg라고 할 수 있다.
예를 들어, RPN의 트레이닝의 손실은 다음과 같을 수 있다:
손실 = Lcls + αLreg이고, 여기서 Lcls는 카테고리 손실이고, Lreg는 리그레션 파라미터 손실이다.
Figure pct00001
, 및
Figure pct00002
.
예를 들어, 영역이 박스를 사용하여 표현되는 경우에, 리그레션 손실에 대해, 예측될 필요가 있는 오프셋들은 좌표 오프셋들(x, y, 및 z의 오프셋들, 즉, Δ1x, Δ1y, Δ1z); 길이, 폭, 및 높이의 오프셋들(l, w, 및 h의 오프셋들, 즉, Δ1h, Δ1w, Δ1l); 및 각도 오프셋(θ의 오프셋, 즉, Δ1θ)을 포함하는 실측 자료에 대한 기준 박스의 오프셋들이고, 계산 방식은 다음과 같다:
Figure pct00003
아래 첨자가 g인 값은 실측 자료의 값을 나타내고, 아래 첨자가 a인 값은 앵커 박스의 값을 나타낸다.
(5) 트레인된 RPN을 획득하기 위해 포지셔닝 오프셋 손실 및 카테고리 손실에 기초하여 미리 설정된 RPN을 트레인한다.
구체적으로, RPN 내의 네트워크 파라미터들은 포지셔닝 오프셋 손실 및 카테고리 손실에 따라 조정될 수 있다. 예를 들어, 파라미터들의 가중들이 조정될 수 있다.
전술한 과정에 따라, RPN이 샘플 장면들의 많은 양의 포인트 클라우드 데이터를 사용하여 트레인되고, 더 높은 정확도를 갖는 RPN이 네트워크 파라미터들을 연속적으로 조정함으로써 획득될 수 있다.
영역 RefinerNet의 트레이닝을 위해:
영역 RefinerNet은 제1 스테이지에서 RPN을 사용하여 예측된 후보 물체 영역에 대해 추가의 정밀한 예측을 수행하도록 구성되므로, RPN의 트레이닝에서 사용된 포지셔닝 오프셋 손실은 트레이닝 동안 리그레션 파라미터 손실로서 사용될 수 있다.
본원의 실시예들에서, 영역 RefinerNet은 영역 RefinerNet과 RPN을 공동으로 트레인하는 방식으로 트레인될 수 있다. 예를 들어, 샘플 장면의 포인트 클라우드 데이터가 획득된 후에, 포인트 클라우드 데이터가 위에 설명된 RPN의 트레이닝 방식에 따라 기준 영역(앵커 영역)에 대한 후보 영역의 포지셔닝 오프셋들을 예측하기 위해, 3D 복셀 표현에 맵핑되고 RPN 내로 입력될 수 있고, 기준 영역(앵커 영역)의 포지셔닝 정보는 후보 영역의 포지셔닝 정보를 획득하기 위해, 포지셔닝 오프셋에 기초하여 정정된다. 후보 영역의 영역 특징 정보가 다음에 영역 RefinerNet에 의해 예측된 후보 영역의 오프셋 정보에 기초하여 후보 영역의 예측된 오프셋 정보를 획득하고, 실제 오프셋 정보에 대한 예측된 오프셋 정보의 오프셋 손실을 계산하고, 오프셋 손실에 기초하여 영역 RefinerNet을 트레인하기 위해, 위에 설명된 영역 특징 형성 방식에 따라 추출되고 영역 RefinerNet 내로 입력된다.
포지셔닝 오프셋 손실은 오프셋 손실, 즉, 실제 오프셋 정보에 대한 예측된 포지셔닝 오프셋 정보의 에러이다. 실시예에서, 포지셔닝 정보가 영역의 리그레션 파라미터들을 포함할 때, 포지셔닝 오프셋 손실을 (리그레션 손실과 같은) 리그레션 파라미터 손실이라고 할 수 있다.
영역 RefinerNet에 의해 예측된 오프셋 정보는 실제 영역에 대한 후보 영역의 오프셋이다. 예를 들어, 박스-표시된 영역이 예로서 사용된다. 영역 RefinerNet에 의해 예측된 오프셋들은 좌표 오프셋들(x, y, 및 z의 오프셋들, 즉, Δ2x, Δ2y, Δ2z); 길이, 폭, 및 높이의 오프셋들(l, w, 및 h의 오프셋들, 즉, Δ2h, Δ2w, Δ2l); 및 각도 오프셋(θ의 오프셋, 즉, Δ2θ)을 포함할 수 있고, 계산 방식은 다음과 같다:
Figure pct00004
Figure pct00005
Figure pct00006
.
아래 첨자가 g인 값은 실측 자료의 값을 나타내고, 아래 첨자가 a인 값은 앵커 박스의 값을 나타내고, 아래 첨자가 p인 값은 RPN에 의해 예측된 후보 박스의 값을 나타낸다.
상기로부터 알 수 있는 것과 같이, 장면의 포인트 클라우드가 획득되고 - 포인트 클라우드는 포인트들의 위치 정보를 포함함 -; 포인트 클라우드는 3D 복셀의 특징 정보를 획득하기 위해, 3D 복셀 표현에 맵핑되고; 콘볼루션 연산이 콘볼루션 특징 세트를 획득하기 위해 3D 복셀의 특징 정보에 대해 수행되고; 후보 물체 영역의 초기 포지셔닝 정보가 콘볼루션 특징 세트에 기초하여 결정되고; 포인트 클라우드에서 후보 물체 영역 내에 위치한 타깃 포인트가 결정되고; 후보 물체 영역의 초기 포지셔닝 정보는 타깃 물체 영역의 포지셔닝 정보를 획득하기 위해, 타깃 포인트의 위치 정보 및 타깃 콘볼루션 특징 정보에 기초하여 조정되고, 타깃 콘볼루션 특징 정보는 콘볼루션 특징 세트 내의 타깃 포인트의 위치에 대응하는 콘볼루션 특징 정보이다. 이 해결책은 물체 검출을 수행하기 위해 장면의 포인트 클라우드 데이터를 사용할 수 있고, 포지셔닝 정보의 손실을 최소화하기 위해, 포인트 클라우드의 위치 정보와 콘볼루션 특징들이 융합되고, 그럼으로써 물체 검출 정확도 및 효율을 효과적으로 개선시킨다. 이 해결책은 특히 3D 물체 검출에 적합하다.
또한, 이 해결책에서 제공된 RPN 및 영역 RefinerNet은 실용성을 크게 확장시킬 수 있는, 극히 효율적인 런 속도를 추가로 갖는다.
전술한 실시예들에서 설명된 방법에 따라, 다음에 예들을 사용하여 상세한 설명들을 추가로 제공한다.
이 실시예에서, 물체 검출 장치가 전자 디바이스 내에 구체적으로 통합되는 예를 사용하여 설명이 이루어진다.
도 2a에 도시한 것과 같이, 물체 검출 방법의 특정한 절차는 다음과 같을 수 있다:
201. 전자 디바이스는 장면의 포인트 클라우드를 획득한다 - 포인트 클라우드는 포인트들의 위치 정보를 포함함 -.
예를 들어, 전자 디바이스는 포인트 클라우드 취득 디바이스를 사용하여 장면의 포인트 클라우드를 획득할 수 있다. 포인트 클라우드는 포인트들의 위치 정보를 포함하고, 포인트들의 위치 정보는 3D 좌표들 x, y, 및 z 및 회전 각도를 포함할 수 있다.
예를 들어, 도 2b를 참조하면, n×4 벡터에 의해 표현된 포인트 클라우드가 획득될 수 있다. n은 포인트 클라우드 내의 포인트들의 수이다. 각각의 포인트는 하나의 1×4 4D 벡터에 대응한다. 벡터의 차원들은 3D 좌표들 및 반사 세기에 대응한다.
202. 전자 디바이스는 3D 복셀의 특징 정보를 획득하기 위해, 3D 복셀 표현에 포인트 클라우드를 맵핑한다.
예를 들어, 전자 디바이스는 장면의 포인트 클라우드의 범위에 기초하여 대응하는 크기의 복셀 블록(예를 들어, 큐빅 복셀 블록)을 구성하고; 복수의 3D 복셀을 획득하기 위해 복셀 블록을 분할하고; 3D 복셀들에 장면의 포인트 클라우드를 맵핑하고; 3D 복셀들 내의 맵핑 포인트들의 위치 정보에 기초하여 3D 복셀들의 특징 정보를 구성한다.
예를 들어, 도 2b를 참조하면, 포인트 클라우드는 3D 복셀(L×W×H×4) 표현 내로 n×4 벡터를 맵핑하기 위해, 복셀화될 수 있다. 구체적으로, 3D 장면의 범위가 결정되고, 복셀 블록이 구성되고, 복셀 블록은 복수의 복셀 표현으로 분할된다. 포인트들은 다음에 다른 복잡한 연산들 없이 복셀들 내로 맵핑되고, 멥핑 포인트의 4D 벡터가 복셀의 특징으로서 맵핑 포인트들을 포함하는 복셀로부터 직접 선택되고, 맵핑 포인트를 포함하지 않는 복셀의 특징은 0이다.
203. 전자 디바이스는 콘볼루션 특징 세트를 획득하기 위해 순차적으로 3D 복셀의 특징 정보에 대해 3D 콘볼루션 연산 및 2D 콘볼루션 연산을 수행한다.
예를 들어, 도 2b를 참조하면, 3D 복셀의 특징 정보가 획득된 후에, 특징 정보는 복셀 입력으로서 VoxelRPN 내로 입력될 수 있다. 예를 들어, 도 1c에 도시한 RPN을 참조하면, 800×704×20×4(즉, L×W×H×4) 3D 특징 정보가 VoxelRPN 내로 입력될 수 있다.
VoxelRPN은 복수의 BLOCK들(콘볼루션 연산을 수행하는 콘볼루션 유닛들 또는 콘볼루셔널 블록들)을 포함한다. 도 1c를 참조하면, VoxelRPN은 BLOCK1, BLOCK2, BLOCK3, 및 BLOCK4를 포함하고; 3D 콘볼루션 연산이 BLOCK1 내의 3D 콘볼루션 층(Conv3D)을 사용하여 3D 복셀의 특징 정보에 대해 수행되고, 가중된 3D 콘볼루션 특징 정보가 BLOCK2, BLOCK3, 및 BLOCK4 내의 2D 콘볼루션 층들(Conv2D들)을 사용하여 가중된 3D 콘볼루션 특징 정보에 대해 2D 콘볼루션 연산을 수행하기 위해, BLOCK2 내로 입력된다. 디콘볼루션 연산(Deconv)이 다음에 BLOCK4 및 BLOCK3에 의해 출력된 디콘볼루션 특징들과 BLOCK2에 의해 출력된 콘볼루션 특징이 동일한 크기로 되게 하기 위해, BLOCK4 및 BLOCK3에 의해 출력된 콘볼루션 특징들에 대해 수행되고, BLOCK2, BLOCK3, 및 BLOCK4에 의해 출력된 특징들은 특징 맵과 같은 콘볼루션 특징 세트를 획득하기 위해 융합 모듈을 사용하여 융합된다.
구체적으로, 콘볼루션 특징 세트의 동작들에 대해서는, 전술한 실시예들의 설명들이 참조될 수 있다.
204. 전자 디바이스는 콘볼루션 특징 세트에 기초하여 3D 복셀에 대응하는 포지셔닝 오프셋 정보 및 물체 카테고리를 예측하고, 포지셔닝 오프셋 정보는 실제 물체 영역에 대한 3D 복셀에 대응하는 기준 물체 영역의 초기 포지셔닝 오프셋 정보이다.
예를 들어, 도 2b 및 도 1c를 참조하면, 콘볼루션 특징 세트를 획득한 후에, 리그레션 및 분류가 VoxelRPN 내의 리그레션 네트워크(reg) 및 분류 네트워크(cls)를 사용하여 각각 수행될 수 있다.
분류 네트워크(cls)는 콘볼루션 특징 세트에 기초하여 물체 카테고리를 예측하도록 구성되고; 리그레션 네트워크(reg)는 콘볼루션 특징 세트, 예를 들어, 7D 리그레션 파라미터들(x, y, z, h, w, l, 세타)의 오프셋들에 기초하여 실제 물체 영역에 대한 기준 물체 영역(앵커)의 포지셔닝 오프셋 정보를 예측하도록 구성된다.
예를 들어, 실측 자료에 대한 앵커 박스(즉, 기준 박스)의 파라미터 오프셋들이 7D 리그레션 파라미터들(x, y, z, h, w, l, 세타)의 오프셋들과 같은, 리그레션 네트워크를 사용하여 예측될 수 있다.
205. 전자 디바이스는 후보 물체 영역 및 후보 물체 영역의 초기 포지셔닝 정보를 획득하기 위해 초기 포지셔닝 오프셋 정보 및 물체 카테고리에 기초하여 기준 물체 영역을 조정한다.
예를 들어, 전자 디바이스는 스크린된 물체 영역을 획득하기 위해 물체 카테고리에 따라 기준 물체 영역을 스크린하고; 후보 물체 영역 및 후보 물체 영역의 초기 포지셔닝 정보를 획득하기 위해 스크린된 물체 영역의 초기 포지셔닝 오프셋 정보에 기초하여 스크린된 물체 영역의 포지셔닝 정보를 정정한다.
예를 들어, 도 2b를 참조하면, 앵커 박스의 포지셔닝 파라미터 오프셋들 및 카테고리가 VoxelRPN을 사용하여 예측된 후에, 앵커 박스는 카테고리에 기초하여 스크린될 수 있고, 스크린된 앵커 박스는 초기 예측의 후보 박스를 획득하기 위해, 포지셔닝 파라미터 오프셋들에 기초하여 정정될 수 있다.
206. 전자 디바이스는 포인트 클라우드로부터 후보 물체 영역 내에 위치한 타깃 포인트를 선택하고, 콘볼루션 특징 세트로부터 타깃 포인트의 위치에 대응하는 타깃 콘볼루션 특징 정보를 선택한다.
예를 들어, 도 2b 및 도 1d를 참조하면, 후보 3D 박스가 예측된 후에, 박스 내의 포인트 클라우드(n×4)가 3D 박스의 좌표 특징으로서 사용하기 위해, 3D 박스를 사용하여 포인트 클라우드로부터 크롭핑을 통해 획득될 수 있다.
또한, 각각의 박스 내의 포인트들에 대응하는 위치들의 콘볼루션 특징들이 3D 박스의 콘볼루션 특징들로서 사용하기 위해, VoxelRPN에 의해 출력된 특징 맵으로부터 발견된다. 이들 2개의 부분의 특징들은 입력들로서 RefinerNet 구조 내로 입력된다.
207. 전자 디바이스는 후보 물체 영역의 영역 특징 정보를 획득하기 위해 타깃 포인트의 위치 정보와 타깃 콘볼루션 특징 정보를 융합한다.
예를 들어, 도 2b 및 도 1d를 참조하면, 위치 특징들 및 콘볼루션 특징들이 RefinerNet 내로 입력된 후에, RefinerNet은 3D 박스의 특징들을 획득하기 위해 이들 2개의 부분의 특징들을 융합할 수 있다. 특정한 방식에 대해서는, 전술한 실시예들의 설명들이 참조될 수 있다.
208. 전자 디바이스는 예측된 포지셔닝 오프셋 정보를 획득하기 위해, 영역 특징 정보에 기초하여 실제 물체 영역에 대한 후보 물체 영역의 포지셔닝 오프셋 정보를 예측한다.
예를 들어, 도 2b 및 도 1d를 참조하면, 포지셔닝 오프셋 예측이 실측 자료와 같은 실제 물체 영역에 대한 후보 박스와 같은 후보 물체 영역의 포지셔닝 오프셋 정보를 획득하기 위해, RefinerNet 내의 리그레션 네트워크(reg)를 사용하여 수행될 수 있다.
예를 들어, 포지셔닝 오프셋 정보는 위치 오프셋 정보(3D 좌표들 x, y, 및 z의 좌표 오프셋들), 크기 오프셋 정보(길이, 폭, 및 높이의 크기 오프셋들), 및 각도 오프셋 정보(예를 들어, 회전 각도의 각도 오프셋), 및 7D 파라미터들(x, y, z, h, w, l, 세타)의 오프셋들과 같은 것 등을 포함할 수 있다.
209. 전자 디바이스는 타깃 물체 영역의 포지셔닝 정보를 획득하기 위해, 예측된 포지셔닝 오프셋 정보에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 정정한다.
후보 물체 영역의 예측된 포지셔닝 오프셋 정보가 획득된 후에, 후보 물체 영역의 초기 포지셔닝 정보는 예측된 포지셔닝 오프셋 정보에 기초하여 정정될 수 있고, 포지셔닝 정보가 정정된 후보 물체 영역은 타깃 물체 영역으로서 사용되고, 정정된 포지셔닝 정보는 타깃 영역의 포지셔닝 정보로서 사용된다. 즉, 타깃 물체 영역 및 포지셔닝 정보는 각각 본원의 이 실시예에서 궁극적으로 획득될 필요가 있는 타깃 물체 영역 및 그것의 포지셔닝 정보이다.
도 2b를 참조하면, RefinerNet이 오프셋들을 예측한 후에, 3D 박스는 궁극적인 정밀한 3D 박스를 획득하고 물체 검출을 구현하기 위해, 예측된 오프셋들에 기초하여 정정될 수 있다.
본원의 실시예들에서의 해결책은 자율 주행의 분야에 적용될 수 있고, 물체 검출은 자율 주행 과정에서 본원의 실시예들에서의 방법을 사용하여 구현된다. 예를 들어, 도 2c를 참조하면, 자율 주행 시나리오에서의 차량들 및 보행자들과 같은 물체들이 본원의 실시예들에서 제공된 물체 검출을 사용하여 검출될 수 있다.
본원의 실시예들은 물체 검출을 수행하기 위해 장면의 포인트 클라우드 데이터를 사용할 수 있고, 포인트 클라우드의 위치 정보와 콘볼루션 특징들이 포지셔닝 정보의 손실을 최소화하기 위해, 융합되고, 그럼으로써 물체 검출 정확도 및 효율을 효과적으로 개선시킨다. 해결책은 3D 물체 검출에 특히 적합하다. 또한, 이 해결책은 물체 검출을 수행하기 위해 RPN 및 영역 RefinerNet을 추가로 사용하므로, 물체 검출 효율이 크게 개선될 수 있다.
전술한 방법을 더 잘 구현하기 위해, 대응하여, 본원의 실시예는 물체 검출 장치를 추가로 제공한다. 물체 검출 장치는 전자 디바이스 내에 구체적으로 통합될 수 있고, 전자 디바이스는 네트워크 디바이스일 수 있다. 네트워크 디바이스는 서버일 수 있거나, 단말기, 차량 내 디바이스, 또는 무인 항공기와 같은 디바이스일 수 있거나, 마이크로 처리 박스 등일 수 있다.
예를 들어, 도 3a에 도시한 것과 같이, 물체 검출 장치는 포인트 클라우드 획득 유닛(301), 복셀 맵핑 유닛(302), 콘볼루션 유닛(303), 후보 영역 획득 유닛(304), 선택 유닛(305), 및 조정 유닛(306)을 포함할 수 있다.
포인트 클라우드 획득 유닛(301)은 장면의 포인트 클라우드를 획득하도록 구성된다 - 포인트 클라우드는 포인트들의 위치 정보를 포함함 -.
복셀 맵핑 유닛(302)은 3D 복셀의 특징 정보를 획득하기 위해, 3D 복셀 표현에 포인트 클라우드를 맵핑하도록 구성된다.
콘볼루션 유닛(303)은 콘볼루션 특징 세트를 획득하기 위해 3D 복셀의 특징 정보에 대해 콘볼루션 연산을 수행하도록 구성된다.
후보 영역 획득 유닛(304)은 콘볼루션 특징 세트에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 결정하도록 구성된다.
선택 유닛(305)은 포인트 클라우드에서 후보 물체 영역 내에 위치한 타깃 포인트를 결정하도록 구성된다.
조정 유닛(306)은 타깃 물체 영역의 포지셔닝 정보를 획득하기 위해, 타깃 포인트의 위치 정보 및 타깃 콘볼루션 특징 정보에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 조정하도록 구성되고, 타깃 콘볼루션 특징 정보는 콘볼루션 특징 세트 내의 타깃 포인트의 위치에 대응하는 콘볼루션 특징 정보이다.
실시예에서, 도 3b를 참조하면, 조정 유닛(306)은
후보 물체 영역의 영역 특징 정보를 획득하기 위해 타깃 포인트의 위치 정보 및 타깃 콘볼루션 특징 정보를 융합하도록 구성된 융합 서브유닛(3061);
예측된 포지셔닝 오프셋 정보를 획득하기 위해, 영역 특징 정보에 기초하여 실제 물체 영역에 대한 후보 물체 영역의 포지셔닝 오프셋 정보를 예측하도록 구성된 제1 예측 서브유닛(3062); 및
타깃 물체 영역의 포지셔닝 정보를 획득하기 위해, 예측된 포지셔닝 오프셋 정보에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 정정하도록 구성된 정정 서브유닛(3063)을 포함할 수 있다.
실시예에서, 융합 서브유닛(3061)은
융합된 특징 정보를 획득하기 위해 타깃 포인트의 위치 정보와 타깃 콘볼루션 특징 정보를 융합하고;
타깃 포인트의 특징 가중을 획득하기 위해 타깃 포인트의 타깃 콘볼루션 특징 정보에 대해 차원 감소를 수행하고;
가중된 특징 정보를 획득하기 위해 특징 가중에 기초하여 융합된 특징 정보에 대해 특징 가중을 수행하고;
후보 물체 영역의 영역 특징 정보를 획득하기 위해 가중된 특징 정보에 대해 다운샘플링 연산을 수행하도록 구체적으로 구성될 수 있다.
실시예에서, 융합 서브유닛(3061)은 처리된 특징 정보를 획득하기 위해 융합된 특징 정보의 특징 차원들에 대해 차원 상승을 수행하고; 가중된 특징 정보를 획득하기 위해 특징 가중에 기초하여 처리된 특징 정보에 대해 특징 가중을 수행하도록 구체적으로 구성될 수 있다.
실시예에서, 융합 서브유닛(3061)은 타깃 포인트의 초기 특징 가중을 획득하기 위해 타깃 포인트의 타깃 콘볼루션 특징 정보에 대해 차원 감소를 수행하고; 타깃 포인트의 특징 가중을 획득하기 위해 활성화 함수에 기초하여 초기 특징 가중을 처리하도록 구체적으로 구성될 수 있다.
실시예에서, 도 3c를 참조하면, 콘볼루션 유닛(303)은
3D 복셀의 3D 콘볼루션 특징 정보를 획득하기 위해 3D 복셀의 특징 정보에 대해 3D 콘볼루션 연산을 수행하도록 구성된 3D 콘볼루션 서브유닛(3031); 및
콘볼루션 특징 세트를 획득하기 위해 3D 복셀의 3D 콘볼루션 특징 정보에 대해 2D 콘볼루션 연산을 수행하도록 구성된 2D 콘볼루션 서브유닛(3032)을 포함할 수 있다.
실시예에서, 3D 콘볼루션 서브유닛(3031)은 RPN 내의 3D 콘볼루셔널 네트워크를 사용하여 3D 복셀의 특징 정보에 대해 3D 콘볼루션 연산을 수행하도록 구성될 수 있고, RPN은 3D 콘볼루셔널 네트워크에 접속된 2D 콘볼루셔널 네트워크를 추가로 포함하고, 2D 콘볼루셔널 네트워크는 순차적으로 접속된 복수의 콘볼루셔널 블록을 포함하고;
2D 콘볼루션 서브유닛(3032)은 2D 콘볼루셔널 네트워크 내의 복수의 콘볼루셔널 블록을 사용하여 순차적으로 3D 콘볼루션 특징 정보에 대해 2D 콘볼루션 연산을 수행하고; 콘볼루션 특징 세트를 획득하기 위해 콘볼루셔널 블록들 각각에 의해 출력된 콘볼루션 특징들을 융합하도록 구성될 수 있다.
실시예에서, 2D 콘볼루션 서브유닛(3032)은 콘볼루셔널 블록들을 사용하여 순차적으로 3D 콘볼루션 특징 정보에 대해 2D 콘볼루션 연산을 수행하고; 다른 콘볼루셔널 블록들의 디콘볼루션 특징들을 획득하기 위해 2D 콘볼루셔널 네트워크 내의 제1 콘볼루셔널 블록 이외의 다른 콘볼루셔널 블록들에 의해 출력된 콘볼루션 특징들에 대해 디콘볼루션 처리를 수행하고 - 디콘볼루션 특징들과 제1 콘볼루셔널 블록에 의해 출력된 콘볼루션 특징은 동일한 크기임 - ; 콘볼루션 특징 세트를 획득하기 위해 제1 콘볼루셔널 블록에 의해 출력된 콘볼루션 특징과 다른 콘볼루셔널 블록들의 디콘볼루션 특징들을 융합하도록 구성된다.
실시예에서, 도 3d를 참조하면, 후보 영역 획득 유닛(304)은
콘볼루션 특징 세트에 기초하여 3D 복셀에 대응하는 포지셔닝 오프셋 정보 및 물체 카테고리를 예측하도록 구성된 제2 예측 서브유닛(3041) - 포지셔닝 오프셋 정보는 실제 물체 영역에 대한 3D 복셀에 대응하는 기준 물체 영역의 초기 포지셔닝 오프셋 정보임 - ; 및
후보 물체 영역의 초기 포지셔닝 정보를 획득하기 위해 포지셔닝 오프셋 정보 및 물체 카테고리에 기초하여 3D 복셀에 대응하는 기준 물체 영역을 조정하도록 구성된 조정 서브유닛(3042)을 포함할 수 있다.
실시예에서, 조정 서브유닛(3042)은
스크린된 물체 영역을 획득하기 위해 물체 카테고리에 따라 기준 물체 영역을 스크린하고;
후보 물체 영역의 초기 포지셔닝 정보를 획득하기 위해 스크린된 물체 영역의 포지셔닝 오프셋 정보에 기초하여 스크린된 물체 영역의 포지셔닝 정보를 정정하도록 구체적으로 구성될 수 있다.
실시예에서, 콘볼루션 유닛(303)은
RPN 내의 3D 콘볼루셔널 네트워크를 사용하여 3D 복셀의 특징 정보에 대해 3D 콘볼루션 연산을 수행하고 - RPN은 3D 콘볼루셔널 네트워크에 접속된 2D 콘볼루셔널 네트워크, 융합 모듈, 및 융합 모듈에 접속된 분류 네트워크 및 리그레션 네트워크를 추가로 포함하고, 2D 콘볼루셔널 네트워크는 순차적으로 접속된 복수의 콘볼루셔널 블록을 포함함 - ;
2D 콘볼루셔널 네트워크 내의 복수의 콘볼루셔널 블록을 사용하여 순차적으로 3D 콘볼루션 특징 정보에 대해 2D 콘볼루션 연산을 수행하고;
콘볼루션 특징 세트를 획득하기 위해 융합 모듈을 사용하여 2D 콘볼루셔널 네트워크 내의 콘볼루셔널 블록들 각각에 의해 출력된 콘볼루션 특징들을 융합하도록 구체적으로 구성되고;
제2 예측 서브유닛(3041)은 3D 복셀에 대응하는 물체 카테고리를 획득하기 위해 분류 네트워크 및 콘볼루션 특징 세트에 기초하여 3D 복셀에 대해 물체 분류를 수행하고; 리그레션 네트워크 및 콘볼루션 특징 세트에 기초하여 3D 복셀에 대응하는 포지셔닝 오프셋 정보를 예측하도록 구성된다.
실시예에서, 도 3e를 참조하면, 물체 검출 장치는 트레이닝 유닛(307)을 추가로 포함할 수 있고, 트레이닝 유닛(307)은
샘플 장면의 샘플 포인트 클라우드를 포함하는 트레이닝 샘플 세트를 획득하고;
샘플 3D 복셀의 샘플 특징 정보를 획득하기 위해, 3D 복셀 표현에 샘플 포인트 클라우드 내의 포인트들의 위치 정보를 맵핑하고;
예측된 포지셔닝 오프셋 정보 및 예측된 카테고리를 획득하기 위해, 미리 구성된 RPN 및 샘플 특징 정보에 기초하여 샘플 3D 복셀에 대응하는 포지셔닝 오프셋 정보 및 물체 카테고리를 예측하고;
실제 오프셋 정보에 대한 예측된 포지셔닝 오프셋 정보의 포지셔닝 오프셋 손실을 계산하고;
실제 물체 카테고리에 대한 예측된 물체 카테고리의 카테고리 손실을 계산하고;
트레인된 RPN을 획득하기 위해, 포지셔닝 오프셋 손실 및 카테고리 손실에 기초하여 RPN을 트레인하도록 구체적으로 구성될 수 있다.
특정한 구현들 동안, 전술한 유닛들은 독립 엔티티들로서 구현될 수 있거나, 무작위로 조합될 수 있거나, 동일한 엔티티 또는 여러 개의 엔티티들로서 구현될 수 있다. 전술한 유닛들의 특정한 구현들에 대해서는, 전술한 방법 실시예들을 참조할 수 있다. 상세들은 여기서 다시 설명되지 않는다.
상기로부터 알 수 있는 것과 같이, 이 실시예에서의 물체 검출 장치는 포인트 클라우드 획득 유닛(301)을 사용하여 장면의 포인트 클라우드를 획득할 수 있고 - 포인트 클라우드는 포인트들의 위치 정보를 포함함 -; 복셀 맵핑 유닛(302)은 3D 복셀의 특징 정보를 획득하기 위해, 3D 복셀 표현에 포인트 클라우드를 맵핑하고; 콘볼루션 유닛(303)은 콘볼루션 특징 세트를 획득하기 위해 3D 복셀의 특징 정보에 대해 콘볼루션 연산을 수행하고; 후보 영역 획득 유닛(304)은 콘볼루션 특징 세트에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 결정하고; 선택 유닛(305)은 포인트 클라우드로부터 후보 물체 영역 내에 위치한 타깃 포인트를 선택하도록 구성되고; 조정 유닛(306)은 타깃 물체 영역의 포지셔닝 정보를 획득하기 위해, 타깃 포인트의 위치 정보 및 타깃 콘볼루션 특징 정보에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 조정하고, 타깃 콘볼루션 특징 정보는 콘볼루션 특징 세트 내의 타깃 포인트의 위치에 대응하는 콘볼루션 특징 정보이다. 이 해결책은 물체 검출을 수행하기 위해 장면의 포인트 클라우드 데이터를 사용할 수 있고, 포인트 클라우드의 위치 정보와 콘볼루션 특징들이 포지셔닝 정보의 손실을 최소화하기 위해 융합되고, 그럼으로써 물체 검출 정확도를 효과적으로 개선시킨다. 이 해결책은 3D 물체 검출에 특히 적합하다.
또한, 본원의 실시예는 전자 디바이스를 추가로 제공한다. 도 4는 본원의 실시예에 따른 전자 디바이스의 개략 구조도이다.
구체적으로, 전자 디바이스는 하나 이상의 프로세싱 코어를 갖는 프로세서(401), 하나 이상의 컴퓨터 판독가능 저장 매체를 갖는 메모리(402), 전원(403), 및 입력 유닛(404)과 같은 소자들을 포함할 수 있다. 본 기술 분야의 통상의 기술자는 도 4에 도시한 전자 디바이스 구조는 전자 디바이스에 제한을 두지 않는다는 것을 이해할 수 있다. 전자 디바이스는 도면에 도시한 것들보다 많거나 적은 수의 소자들을 포함할 수 있고, 또는 일부 소자들이 조합될 수 있고, 또는 상이한 소자 배치가 사용될 수 있다.
프로세서(401)는 전자 디바이스의 제어 센터이고, 다양한 인터페이스들 및 라인들을 사용하여 전체 전자 디바이스의 다양한 부분들을 접속한다. 메모리(402) 내에 저장된 소프트웨어 프로그램 및/또는 모듈을 런 또는 실행하고, 메모리(402) 내에 저장된 데이터를 불러냄으로써, 프로세서는 전자 디바이스의 다양한 기능들을 수행하고 데이터를 처리하고, 그럼으로써 전자 디바이스 상에서 전체적인 모니터링을 수행한다. 선택적으로, 프로세서(401)는 하나 이상의 프로세싱 코어를 포함할 수 있다. 선택적으로, 프로세서(401)는 애플리케이션 프로세서과 모뎀을 통합할 수 있다. 애플리케이션 프로세서는 주로 운영 체제, 사용자 인터페이스, 애플리케이션 프로그램 등을 처리한다. 모뎀은 주로 무선 통신들을 처리한다. 전술한 모뎀은 프로세서(401) 내로 통합되거가 되지 않을 수 있다는 것을 이해할 것이다.
메모리(402)는 소프트웨어 프로그램 및 모듈을 저장하도록 구성될 수 있고, 프로세서(401)는 다양한 기능 애플리케이션들 및 데이터 처리를 구현하기 위해, 메모리(402) 내에 저장된 소프트웨어 프로그램 및 모듈을 런한다. 메모리(402)는 주로 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있다. 프로그램 저장 영역은 운영 체제, (사운드 재생 기능 및 영상 디스플레이 기능과 같은) 적어도 하나의 기능에 의해 요구되는 애플리케이션 프로그램 등을 저장할 수 있다. 데이터 저장 영역은 전자 디바이스의 사용에 따라 생성된 데이터 등을 저장할 수 있다. 또한, 메모리(402)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 저장 디바이스, 플래시 메모리와 같은 비휘발성 메모리, 또는 또 하나의 휘발성 고상 저장 디바이스를 추가로 포함할 수 있다. 대응하여, 메모리(402)는 메모리(402)에의 프로세서(401)의 액세스를 제공하기 위해, 메모리 제어기를 추가로 포함할 수 있다.
전자 디바이스는 소자들에 전력을 공급하기 위한 전원(403)을 추가로 포함한다. 예시적으로, 전원(403)은 전력 관리 시스템을 사용하여 프로세서(401)에 논리적으로 접속될 수 있고, 그럼으로써 전력 관리 시스템을 사용하여 충전, 방전, 및 전력 소비 관리와 같은 기능들을 구현한다. 전원(403)은 직류 또는 교류 전원, 재충전 시스템, 전력 장애 검출 회로, 전원 변환기 또는 인버터, 전원 상태 표시기, 및 기타 소자 중 하나 이상을 추가로 포함할 수 있다.
전자 디바이스는 입력 유닛(404)을 추가로 포함할 수 있다. 입력 유닛(404)은 입력된 숫자 또는 문자 정보를 수신하고 사용자 설정들 및 기능 제어와 관련된 키보드, 마우스, 조이스틱, 광학, 또는 트랙볼 신호 입력을 발생하도록 구성될 수 있다.
도면에 도시하지 않았지만, 전자 디바이스는 디스플레이 유닛 등을 추가로 포함할 수 있다. 상세들은 여기서 다시 설명되지 않는다. 구체적으로, 이 실시예에서, 전자 디바이스 내의 프로세서(401)는 다음의 명령어들에 따라 메모리(402)에 하나 이상의 애플리케이션 프로그램의 과정들에 대응하는 실행가능한 파일들을 로딩할 수 있고, 프로세서(401)는 다음과 같은 다양한 기능들을 구현하기 위해, 메모리(402) 내에 저장된 애플리케이션 프로그램을 런한다:
장면의 포인트 클라우드를 획득하는 것 - 포인트 클라우드는 포인트들의 위치 정보를 포함함 -; 3D 복셀의 특징 정보를 획득하기 위해, 3D 복셀 표현에 포인트 클라우드를 맵핑하는 것; 콘볼루션 특징 세트를 획득하기 위해 3D 복셀의 특징 정보에 대해 콘볼루션 연산을 수행하는 것; 콘볼루션 특징 세트에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 결정하는 것; 포인트 클라우드에서 후보 물체 영역 내에 위치한 타깃 포인트를 결정하는 것; 및 타깃 물체 영역의 포지셔닝 정보를 획득하기 위해, 타깃 포인트의 위치 정보 및 타깃 콘볼루션 특징 정보에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 조정하는 것 - 타깃 콘볼루션 특징 정보는 콘볼루션 특징 세트 내의 타깃 포인트의 위치에 대응하는 콘볼루션 특징 정보임 - .
상기 동작들의 특정한 구현들에 대해서는, 전술한 실시예들을 참조할 수 있다. 상세들은 여기서 다시 설명되지 않는다.
상기로부터 알 수 있는 것과 같이, 본 실시예에서의 전자 디바이스는 장면의 포인트 클라우드를 획득하고 - 포인트 클라우드는 포인트들의 위치 정보를 포함함 -; 3D 복셀의 특징 정보를 획득하기 위해, 3D 복셀 표현에 포인트 클라우드를 맵핑하고; 콘볼루션 특징 세트를 획득하기 위해 3D 복셀의 특징 정보에 대해 콘볼루션 연산을 수행하고; 콘볼루션 특징 세트에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 결정하고; 포인트 클라우드에서 후보 물체 영역 내에 위치한 타깃 포인트를 결정하고; 타깃 물체 영역의 포지셔닝 정보를 획득하기 위해, 타깃 포인트의 위치 정보 및 타깃 콘볼루션 특징 정보에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 조정하고, 타깃 콘볼루션 특징 정보는 콘볼루션 특징 세트 내의 타깃 포인트의 위치에 대응하는 콘볼루션 특징 정보이다. 이 해결책은 물체 검출을 수행하기 위해 장면의 포인트 클라우드 데이터를 사용할 수 있고, 포지셔닝 정보의 손실을 최소화하기 위해, 포인트 클라우드의 위치 정보와 콘볼루션 특징들이 융합되고, 그럼으로써 물체 검출 정확도를 효과적으로 개선시킨다. 이 해결책은 특히 3D 물체 검출에 적합하다.
본 기술 분야의 통상의 기술자는 전술한 실시예들에서의 방법들의 모든 또는 일부 단계들이 명령어들을 사용하여 구현될 수 있고, 또는 관련 하드웨어를 제어하는 명령어들을 통해 구현될 수 있고, 명령어들은 컴퓨터 판독가능 저장 매체 내에 저장되고 프로세서에 의해 로딩되고 실행될 수 있다는 것을 이해할 수 있다.
따라서, 본원의 실시예는 복수의 명령어를 저장하는 저장 매체를 추가로 제공하는데, 명령어들은 본원의 실시예들에 따른 임의의 물체 검출 방법의 단계들을 수행하기 위해, 프로세서에 의해 로딩될 수 있다. 예를 들어, 명령어들은 다음의 단계들을 수행할 수 있다:
장면의 포인트 클라우드를 획득하는 단계 - 포인트 클라우드는 포인트들의 위치 정보를 포함함 -; 3D 복셀의 특징 정보를 획득하기 위해, 3D 복셀 표현에 포인트 클라우드를 맵핑하는 단계; 콘볼루션 특징 세트를 획득하기 위해 3D 복셀의 특징 정보에 대해 콘볼루션 연산을 수행하는 단계; 콘볼루션 특징 세트에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 결정하는 단계; 포인트 클라우드에서 후보 물체 영역 내에 위치한 타깃 포인트를 결정하는 단계; 및 타깃 물체 영역의 포지셔닝 정보를 획득하기 위해, 타깃 포인트의 위치 정보 및 타깃 콘볼루션 특징 정보에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 조정하는 단계 - 타깃 콘볼루션 특징 정보는 콘볼루션 특징 세트 내의 타깃 포인트의 위치에 대응하는 콘볼루션 특징 정보임 -.
상기 동작들의 특정한 구현들에 대해서는, 전술한 실시예들을 참조할 수 있다. 상세들은 여기서 다시 설명되지 않는다.
저장 매체는 리드 온리 메모리(ROM), 랜덤 액세스 메모리(RAM), 자기 디스크, 광학 디스크 등을 포함할 수 있다.
저장 매체 내에 저장된 명령어들은 본원의 실시예들에서 제공된 임의의 물체 검출 방법의 단계들을 수행할 수 있기 때문에, 명령어들은 본원의 실시예들에서 제공된 임의의 물체 검출 방법에 의해 구현될 수 있는 유리한 효과들을 구현할 수 있다. 상세들에 대해서는, 전술한 실시예들이 참조될 수 있다. 상세들은 여기서 다시 설명되지 않는다.
본원의 실시예에서 제공된 물체 검출 방법 및 장치, 전자 디바이스, 및 저장 매체가 위에 상세히 설명되었다. 본원의 원리 및 구현들이 특정한 예들을 사용하여 본원에 설명되었다. 전술한 실시예들의 설명들은 단지 본원의 방법 및 핵심 아이디어들을 이해하는 데 도움을 주기 위해 사용된다. 또한, 본 기술 분야의 통상의 기술자는 본원의 아이디어들에 따라 특정한 구현들 및 적용 범위들에 있어서 본원에 대해 변화들을 실시할 수 있다. 그러므로, 본 명세서의 내용은 본원을 제한하는 것으로 해석되지 않을 것이다.

Claims (27)

  1. 전자 디바이스에 의해 수행되는 물체 검출 방법으로서, 상기 방법은
    장면의 포인트 클라우드를 획득하는 단계 - 포인트 클라우드는 포인트들의 위치 정보를 포함함 -;
    3D 복셀의 특징 정보를 획득하기 위해, 3차원(3D) 복셀 표현에 상기 포인트 클라우드를 맵핑하는 단계;
    콘볼루션 특징 세트를 획득하기 위해 상기 3D 복셀의 상기 특징 정보에 대해 콘볼루션 연산을 수행하는 단계;
    상기 콘볼루션 특징 세트에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 결정하는 단계;
    상기 포인트 클라우드에서 상기 후보 물체 영역 내에 위치한 타깃 포인트를 결정하는 단계; 및
    타깃 물체 영역의 포지셔닝 정보를 획득하기 위해, 상기 타깃 포인트의 위치 정보 및 타깃 콘볼루션 특징 정보에 기초하여 상기 후보 물체 영역의 상기 초기 포지셔닝 정보를 조정하는 단계 - 상기 타깃 콘볼루션 특징 정보는 상기 콘볼루션 특징 세트 내의 상기 타깃 포인트의 위치에 대응하는 콘볼루션 특징 정보임 -
    를 포함하는, 물체 검출 방법.
  2. 제1항에 있어서, 타깃 물체 영역의 포지셔닝 정보를 획득하기 위해, 상기 타깃 포인트의 위치 정보 및 타깃 콘볼루션 특징 정보에 기초하여 상기 후보 물체 영역의 상기 초기 포지셔닝 정보를 조정하는 상기 단계는
    상기 후보 물체 영역의 영역 특징 정보를 획득하기 위해 상기 타깃 포인트의 상기 위치 정보와 상기 타깃 콘볼루션 특징 정보를 융합하는 단계;
    예측된 포지셔닝 오프셋 정보로서, 상기 영역 특징 정보에 기초하여 실제 물체 영역에 대한 상기 후보 물체 영역의 포지셔닝 오프셋 정보를 예측하는 단계; 및
    상기 타깃 물체 영역의 상기 포지셔닝 정보를 획득하기 위해, 상기 예측된 포지셔닝 오프셋 정보에 기초하여 상기 후보 물체 영역의 상기 초기 포지셔닝 정보를 정정하는 단계를 포함하는, 물체 검출 방법.
  3. 제2항에 있어서, 상기 후보 물체 영역의 영역 특징 정보를 획득하기 위해 상기 타깃 포인트의 상기 위치 정보와 상기 타깃 콘볼루션 특징 정보를 융합하는 상기 단계는
    융합된 특징 정보를 획득하기 위해 상기 타깃 포인트의 상기 위치 정보와 상기 타깃 콘볼루션 특징 정보를 융합하는 단계;
    상기 타깃 포인트의 특징 가중을 획득하기 위해 상기 타깃 콘볼루션 특징 정보에 대해 차원 감소를 수행하는 단계;
    가중된 특징 정보를 획득하기 위해 상기 특징 가중에 기초하여 상기 융합된 특징 정보에 대해 특징 가중을 수행하는 단계; 및
    상기 후보 물체 영역의 상기 영역 특징 정보를 획득하기 위해 상기 가중된 특징 정보에 대해 다운샘플링 연산을 수행하는 단계를 포함하는, 물체 검출 방법.
  4. 제3항에 있어서, 가중된 특징 정보를 획득하기 위해 상기 특징 가중에 기초하여 상기 융합된 특징 정보에 대해 특징 가중을 수행하는 상기 단계는
    처리된 특징 정보를 획득하기 위해 상기 융합된 특징 정보의 특징 차원들에 대해 차원 상승을 수행하는 단계; 및
    상기 가중된 특징 정보를 획득하기 위해 상기 특징 가중에 기초하여 상기 처리된 특징 정보에 대해 특징 가중을 수행하는 단계를 포함하는, 물체 검출 방법.
  5. 제3항에 있어서, 상기 타깃 포인트의 특징 가중을 획득하기 위해 상기 타깃 콘볼루션 특징 정보에 대해 차원 감소를 수행하는 상기 단계는
    초기 특징 가중을 획득하기 위해 상기 타깃 콘볼루션 특징 정보에 대해 차원 감소를 수행하는 단계; 및
    상기 타깃 포인트의 상기 특징 가중을 획득하기 위해 활성화 함수에 기초하여 상기 초기 특징 가중을 처리하는 단계를 포함하는, 물체 검출 방법.
  6. 제1항에 있어서, 콘볼루션 특징 세트를 획득하기 위해 상기 3D 복셀의 상기 특징 정보에 대해 콘볼루션 연산을 수행하는 상기 단계는
    상기 3D 복셀의 3D 콘볼루션 특징 정보를 획득하기 위해 상기 3D 복셀의 상기 특징 정보에 대해 3D 콘볼루션 연산을 수행하는 단계; 및
    상기 콘볼루션 특징 세트를 획득하기 위해 상기 3D 콘볼루션 특징 정보에 대해 2차원(2D) 콘볼루션 연산을 수행하는 단계를 포함하는, 물체 검출 방법.
  7. 제6항에 있어서, 상기 3D 복셀의 상기 특징 정보에 대해 3D 콘볼루션 연산을 수행하는 상기 단계는
    영역 제안 네트워크(RPN) 내의 3D 콘볼루셔널 네트워크를 사용하여 상기 3D 복셀의 상기 특징 정보에 대해 상기 3D 콘볼루션 연산을 수행하는 단계 - 상기 RPN은 상기 3D 콘볼루셔널 네트워크에 접속된 2D 콘볼루셔널 네트워크를 추가로 포함하고, 상기 2D 콘볼루셔널 네트워크는 순차적으로 접속된 복수의 콘볼루셔널 블록을 포함함 - 를 포함하고;
    상기 콘볼루션 특징 세트를 획득하기 위해 상기 3D 콘볼루션 특징 정보에 대해 2D 콘볼루션 연산을 수행하는 상기 단계는
    상기 2D 콘볼루셔널 네트워크 내의 상기 복수의 콘볼루셔널 블록을 사용하여 순차적으로 상기 3D 콘볼루션 특징 정보에 대해 2D 콘볼루션 연산을 수행하는 단계; 및
    상기 콘볼루션 특징 세트를 획득하기 위해 상기 콘볼루셔널 블록들 각각에 의해 출력된 콘볼루션 특징들을 융합하는 단계를 포함하는, 물체 검출 방법.
  8. 제7항에 있어서, 상기 콘볼루션 특징 세트를 획득하기 위해 상기 콘볼루셔널 블록들 각각에 의해 출력된 콘볼루션 특징들을 융합하는 상기 단계는
    다른 콘볼루셔널 블록들의 디콘볼루션 특징들을 획득하기 위해 상기 2D 콘볼루셔널 네트워크 내의 제1 콘볼루셔널 블록 이외의 상기 다른 콘볼루셔널 블록들에 의해 출력된 상기 콘볼루션 특징들에 대해 디콘볼루션 처리를 수행하는 단계 - 상기 디콘볼루션 특징들과 상기 제1 콘볼루셔널 블록에 의해 출력된 상기 콘볼루션 특징은 동일한 크기임 - ; 및
    상기 콘볼루션 특징 세트를 획득하기 위해 상기 제1 콘볼루셔널 블록에 의해 출력된 상기 콘볼루션 특징과 상기 다른 콘볼루셔널 블록들의 상기 디콘볼루션 특징들을 융합하는 단계를 포함하는, 물체 검출 방법.
  9. 제1항에 있어서, 상기 콘볼루션 특징 세트에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 결정하는 상기 단계는
    상기 콘볼루션 특징 세트에 기초하여 상기 3D 복셀에 대응하는 포지셔닝 오프셋 정보 및 물체 카테고리를 예측하는 단계 - 상기 포지셔닝 오프셋 정보는 실제 물체 영역에 대한 상기 3D 복셀에 대응하는 기준 물체 영역의 초기 포지셔닝 오프셋 정보임 - ; 및
    상기 후보 물체 영역의 상기 초기 포지셔닝 정보를 획득하기 위해 상기 포지셔닝 오프셋 정보 및 상기 물체 카테고리에 기초하여 상기 3D 복셀에 대응하는 상기 기준 물체 영역을 조정하는 단계를 포함하는, 물체 검출 방법.
  10. 제9항에 있어서, 상기 후보 물체 영역의 상기 초기 포지셔닝 정보를 획득하기 위해 상기 포지셔닝 오프셋 정보 및 상기 물체 카테고리에 기초하여 상기 3D 복셀에 대응하는 상기 기준 물체 영역을 조정하는 상기 단계는
    스크린된 물체 영역을 획득하기 위해 상기 물체 카테고리에 따라 상기 기준 물체 영역을 스크린하는 단계; 및
    상기 후보 물체 영역의 상기 초기 포지셔닝 정보를 획득하기 위해 상기 스크린된 물체 영역의 포지셔닝 오프셋 정보에 기초하여 상기 스크린된 물체 영역의 포지셔닝 정보를 정정하는 단계를 포함하는, 물체 검출 방법.
  11. 제10항에 있어서, 콘볼루션 특징 세트를 획득하기 위해 상기 3D 복셀의 상기 특징 정보에 대해 콘볼루션 연산을 수행하는 상기 단계는
    RPN 내의 3D 콘볼루셔널 네트워크를 사용하여 상기 3D 복셀의 상기 특징 정보에 대해 상기 3D 콘볼루션 연산을 수행하는 단계 - 상기 RPN은 상기 3D 콘볼루셔널 네트워크에 접속된 2차원(2D) 콘볼루셔널 네트워크, 융합 모듈, 및 상기 융합 모듈에 접속된 분류 네트워크 및 리그레션 네트워크를 추가로 포함하고, 상기 2D 콘볼루셔널 네트워크는 순차적으로 접속된 복수의 콘볼루셔널 블록을 포함함 - ;
    상기 2D 콘볼루셔널 네트워크 내의 상기 복수의 콘볼루셔널 블록을 사용하여 순차적으로 상기 3D 콘볼루션 특징에 대해 2D 콘볼루션 연산을 수행하는 단계; 및
    상기 콘볼루션 특징 세트를 획득하기 위해 상기 융합 모듈을 사용하여 상기 2D 콘볼루셔널 네트워크 내의 상기 콘볼루셔널 블록들 각각에 의해 출력된 콘볼루션 특징들을 융합하는 단계를 포함하고;
    상기 콘볼루션 특징 세트에 기초하여 상기 3D 복셀에 대응하는 포지셔닝 오프셋 정보 및 물체 카테고리를 예측하는 상기 단계는
    상기 3D 복셀에 대응하는 상기 물체 카테고리를 획득하기 위해 상기 분류 네트워크 및 상기 콘볼루션 특징 세트에 기초하여 상기 3D 복셀에 대해 물체 분류를 수행하는 단계; 및
    상기 리그레션 네트워크 및 상기 콘볼루션 특징 세트에 기초하여 상기 3D 복셀에 대응하는 상기 포지셔닝 오프셋 정보를 예측하는 단계를 포함하는, 물체 검출 방법.
  12. 제11항에 있어서,
    샘플 장면의 샘플 포인트 클라우드를 포함하는 트레이닝 샘플 세트를 획득하는 단계;
    샘플 3D 복셀의 샘플 특징 정보를 획득하기 위해, 3D 복셀 표현에 상기 샘플 포인트 클라우드 내의 포인트들의 위치 정보를 맵핑하는 단계;
    예측된 포지셔닝 오프셋 정보 및 예측된 카테고리를 획득하기 위해, 미리 구성된 RPN 및 상기 샘플 특징 정보에 기초하여 상기 샘플 3D 복셀에 대응하는 오프셋 정보 및 물체 카테고리를 예측하는 단계;
    실제 오프셋 정보에 대한 상기 예측된 포지셔닝 오프셋 정보의 포지셔닝 오프셋 손실을 계산하는 단계;
    실제 물체 카테고리에 대한 상기 예측된 물체 카테고리의 카테고리 손실을 계산하는 단계; 및
    트레인된 RPN을 획득하기 위해, 상기 포지셔닝 오프셋 손실 및 상기 카테고리 손실에 기초하여 상기 RPN을 트레인하는 단계를 추가로 포함하는, 물체 검출 방법.
  13. 물체 검출 장치로서,
    장면의 포인트 클라우드를 획득하도록 구성된 포인트 클라우드 획득 유닛 - 포인트 클라우드는 포인트들의 위치 정보를 포함함 -;
    3D 복셀의 특징 정보를 획득하기 위해, 3차원(3D) 복셀 표현에 상기 포인트 클라우드를 맵핑하도록 구성된 복셀 맵핑 유닛;
    콘볼루션 특징 세트를 획득하기 위해 상기 3D 복셀의 상기 특징 정보에 대해 콘볼루션 연산을 수행하도록 구성된 콘볼루션 유닛;
    상기 콘볼루션 특징에 기초하여 후보 물체 영역의 초기 포지셔닝 정보를 결정하도록 구성된 후보 영역 획득 유닛;
    상기 포인트 클라우드에서 상기 후보 물체 영역 내에 위치한 타깃 포인트를 결정하도록 구성된 선택 유닛; 및
    타깃 물체 영역의 포지셔닝 정보를 획득하기 위해, 상기 타깃 포인트의 위치 정보 및 타깃 콘볼루션 특징 정보에 기초하여 상기 후보 물체 영역의 상기 초기 포지셔닝 정보를 조정하도록 구성된 조정 유닛 - 상기 타깃 콘볼루션 특징 정보는 상기 콘볼루션 특징 세트 내의 상기 타깃 포인트의 위치에 대응하는 콘볼루션 특징 정보임 -
    을 포함하는, 물체 검출 장치.
  14. 제13항에 있어서, 상기 조정 유닛은
    상기 후보 물체 영역의 영역 특징 정보를 획득하기 위해 상기 타깃 포인트의 상기 위치 정보와 상기 타깃 콘볼루션 특징 정보를 융합하도록 구성된 융합 서브유닛;
    예측된 포지셔닝 오프셋 정보로서, 상기 영역 특징 정보에 기초하여 실제 물체 영역에 대한 상기 후보 물체 영역의 포지셔닝 오프셋 정보를 예측하도록 구성된 제1 예측 서브유닛; 및
    상기 타깃 물체 영역의 상기 포지셔닝 정보를 획득하기 위해, 상기 예측된 포지셔닝 오프셋 정보에 기초하여 상기 후보 물체 영역의 상기 초기 포지셔닝 정보를 정정하도록 구성된 정정 서브유닛을 포함하는, 물체 검출 장치.
  15. 제14항에 있어서, 상기 융합 서브유닛은
    융합된 특징 정보를 획득하기 위해 상기 타깃 포인트의 상기 위치 정보와 상기 타깃 콘볼루션 특징 정보를 융합하고;
    상기 타깃 포인트의 특징 가중을 획득하기 위해 상기 타깃 콘볼루션 특징 정보에 대해 차원 감소를 수행하고;
    가중된 특징 정보를 획득하기 위해 상기 특징 가중에 기초하여 상기 융합된 특징 정보에 대해 특징 가중을 수행하고;
    상기 후보 물체 영역의 상기 영역 특징 정보를 획득하기 위해 상기 가중된 특징 정보에 대해 다운샘플링 연산을 수행하도록 구성되는, 물체 검출 장치.
  16. 제15항에 있어서, 상기 융합 서브유닛은
    처리된 특징 정보를 획득하기 위해 상기 융합된 특징 정보의 특징 차원들에 대해 차원 상승을 수행하고;
    상기 가중된 특징 정보를 획득하기 위해 상기 특징 가중에 기초하여 상기 처리된 특징 정보에 대해 특징 가중을 수행하도록 구성되는, 물체 검출 장치.
  17. 제15항에 있어서, 상기 융합 서브유닛은
    초기 특징 가중을 획득하기 위해 상기 타깃 콘볼루션 특징 정보에 대해 차원 감소를 수행하고;
    상기 타깃 포인트의 상기 특징 가중을 획득하기 위해 활성화 함수에 기초하여 상기 초기 특징 가중을 처리하도록 구성되는, 물체 검출 장치.
  18. 제13항에 있어서, 상기 콘볼루션 유닛은
    상기 3D 복셀의 3D 콘볼루션 특징 정보를 획득하기 위해 상기 3D 복셀의 상기 특징 정보에 대해 3D 콘볼루션 연산을 수행하도록 구성된 3D 콘볼루션 서브유닛; 및
    상기 콘볼루션 특징 세트를 획득하기 위해 상기 3D 콘볼루션 특징 정보에 대해 2D 콘볼루션 연산을 수행하도록 구성된 2차원(2D) 콘볼루션 서브유닛을 포함하는, 물체 검출 장치.
  19. 제18항에 있어서, 상기 3D 콘볼루션 서브유닛은
    영역 제안 네트워크(RPN) 내의 3D 콘볼루셔널 네트워크를 사용하여 상기 3D 복셀의 상기 특징 정보에 대해 상기 3D 콘볼루션 연산을 수행하도록 - 상기 RPN은 상기 3D 콘볼루셔널 네트워크에 접속된 2D 콘볼루셔널 네트워크를 추가로 포함하고, 상기 2D 콘볼루셔널 네트워크는 순차적으로 접속된 복수의 콘볼루셔널 블록을 포함함 - 구성되고;
    상기 2D 콘볼루션 서브유닛은
    상기 2D 콘볼루셔널 네트워크 내의 상기 복수의 콘볼루셔널 블록을 사용하여 순차적으로 상기 3D 콘볼루션 특징 정보에 대해 2D 콘볼루션 연산을 수행하고;
    상기 콘볼루션 특징 세트를 획득하기 위해 상기 콘볼루셔널 블록들 각각에 의해 출력된 콘볼루션 특징들을 융합하도록 구성되는, 물체 검출 장치.
  20. 제19항에 있어서, 상기 2D 콘볼루션 서브유닛은
    다른 콘볼루셔널 블록들의 디콘볼루션 특징들을 획득하기 위해 상기 2D 콘볼루셔널 네트워크 내의 제1 콘볼루셔널 블록 이외의 상기 다른 콘볼루셔널 블록들에 의해 출력된 상기 콘볼루션 특징들에 대해 디콘볼루션 처리를 수행하고 - 상기 디콘볼루션 특징들과 상기 제1 콘볼루셔널 블록에 의해 출력된 상기 콘볼루션 특징은 동일한 크기임 - ; 및
    상기 콘볼루션 특징 세트를 획득하기 위해 상기 제1 콘볼루셔널 블록에 의해 출력된 상기 콘볼루션 특징과 상기 다른 콘볼루셔널 블록들의 상기 디콘볼루션 특징들을 융합하도록 구성되는, 물체 검출 장치.
  21. 제13항에 있어서, 상기 후보 영역 획득 유닛은
    상기 콘볼루션 특징 세트에 기초하여 상기 3D 복셀에 대응하는 포지셔닝 오프셋 정보 및 물체 카테고리를 예측하도록 구성된 제2 예측 서브유닛 - 상기 포지셔닝 오프셋 정보는 실제 물체 영역에 대한 상기 3D 복셀에 대응하는 기준 물체 영역의 초기 포지셔닝 오프셋 정보임 - ; 및
    상기 후보 물체 영역의 상기 초기 포지셔닝 정보를 획득하기 위해 상기 포지셔닝 오프셋 정보 및 상기 물체 카테고리에 기초하여 상기 3D 복셀에 대응하는 상기 기준 물체 영역을 조정하도록 구성된 조정 서브유닛을 포함하는, 물체 검출 장치.
  22. 제21항에 있어서, 상기 조정 서브유닛은
    스크린된 물체 영역을 획득하기 위해 상기 물체 카테고리에 따라 상기 기준 물체 영역을 스크린하고;
    상기 후보 물체 영역의 상기 초기 포지셔닝 정보를 획득하기 위해 상기 스크린된 물체 영역의 포지셔닝 오프셋 정보에 기초하여 상기 스크린된 물체 영역의 포지셔닝 정보를 정정하도록 구성되는, 물체 검출 장치.
  23. 제22항에 있어서, 상기 콘볼루션 유닛은
    RPN 내의 3D 콘볼루셔널 네트워크를 사용하여 상기 3D 복셀의 상기 특징 정보에 대해 상기 3D 콘볼루션 연산을 수행하고 - 상기 RPN은 상기 3D 콘볼루셔널 네트워크에 접속된 2차원(2D) 콘볼루셔널 네트워크, 융합 모듈, 및 상기 융합 모듈에 접속된 분류 네트워크 및 리그레션 네트워크를 추가로 포함하고, 상기 2D 콘볼루셔널 네트워크는 순차적으로 접속된 복수의 콘볼루셔널 블록을 포함함 - ;
    상기 2D 콘볼루셔널 네트워크 내의 상기 복수의 콘볼루셔널 블록을 사용하여 순차적으로 상기 3D 콘볼루션 특징에 대해 2D 콘볼루션 연산을 수행하고;
    상기 콘볼루션 특징 세트를 획득하기 위해 상기 융합 모듈을 사용하여 상기 2D 콘볼루셔널 네트워크 내의 상기 콘볼루셔널 블록들 각각에 의해 출력된 콘볼루션 특징들을 융합하도록 구성되고;
    제2 예측 서브유닛은
    상기 3D 복셀에 대응하는 상기 물체 카테고리를 획득하기 위해 상기 분류 네트워크 및 상기 콘볼루션 특징 세트에 기초하여 상기 3D 복셀에 대해 물체 분류를 수행하고;
    상기 리그레션 네트워크 및 상기 콘볼루션 특징 세트에 기초하여 상기 3D 복셀에 대응하는 상기 포지셔닝 오프셋 정보를 예측하도록 구성되는, 물체 검출 장치.
  24. 제23항에 있어서, 상기 장치는 트레이닝 유닛을 추가로 포함하고, 상기 트레이닝 유닛은
    샘플 장면의 샘플 포인트 클라우드를 포함하는 트레이닝 샘플 세트를 획득하고;
    샘플 3D 복셀의 샘플 특징 정보를 획득하기 위해, 3D 복셀 표현에 상기 샘플 포인트 클라우드 내의 포인트들의 위치 정보를 맵핑하고;
    예측된 포지셔닝 오프셋 정보 및 예측된 카테고리를 획득하기 위해, 미리 구성된 RPN 및 상기 샘플 특징 정보에 기초하여 상기 샘플 3D 복셀에 대응하는 오프셋 정보 및 물체 카테고리를 예측하고;
    실제 오프셋 정보에 대한 상기 예측된 포지셔닝 오프셋 정보의 포지셔닝 오프셋 손실을 계산하고;
    실제 물체 카테고리에 대한 상기 예측된 물체 카테고리의 카테고리 손실을 계산하고;
    트레인된 RPN을 획득하기 위해, 상기 포지셔닝 오프셋 손실 및 상기 카테고리 손실에 기초하여 상기 RPN을 트레인하도록 구성되는, 물체 검출 장치.
  25. 복수의 명령어를 저장하는 저장 매체로서, 상기 명령어들은 제1항 내지 제12항 중 어느 한 항에 따른 물체 검출 방법의 단계들을 수행하기 위해, 프로세서에 의해 로딩되기에 적합한, 저장 매체.
  26. 메모리 및 프로세서를 포함하는 전자 디바이스로서, 상기 메모리는 복수의 명령어를 저장하고, 상기 프로세서는 제1항 내지 제12항 중 어느 한 항에 따른 물체 검출 방법의 단계들을 수행하기 위해 상기 메모리에 상기 명령어들을 로딩하는, 전자 디바이스.
  27. 명령어들을 포함하는 컴퓨터 프로그램 제품으로서, 상기 명령어들은 상기 컴퓨터 상에서 런(run)할 때, 상기 컴퓨터로 하여금 제1항 내지 제12항 중 어느 한 항에 따른 물체 검출 방법의 단계들을 수행하게 하는, 컴퓨터 프로그램 제품.
KR1020217024536A 2019-04-11 2020-03-09 물체 검출 방법 및 장치, 전자 디바이스, 및 저장 매체 KR102629928B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910290188.0 2019-04-11
CN201910290188.0A CN110059608B (zh) 2019-04-11 2019-04-11 一种物体检测方法、装置、电子设备和存储介质
PCT/CN2020/078372 WO2020207166A1 (zh) 2019-04-11 2020-03-09 一种物体检测方法、装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
KR20210107119A true KR20210107119A (ko) 2021-08-31
KR102629928B1 KR102629928B1 (ko) 2024-01-30

Family

ID=67318785

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217024536A KR102629928B1 (ko) 2019-04-11 2020-03-09 물체 검출 방법 및 장치, 전자 디바이스, 및 저장 매체

Country Status (6)

Country Link
US (1) US11915501B2 (ko)
EP (1) EP3955158B1 (ko)
JP (1) JP7179186B2 (ko)
KR (1) KR102629928B1 (ko)
CN (1) CN110059608B (ko)
WO (1) WO2020207166A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230076059A (ko) 2021-11-23 2023-05-31 국민대학교산학협력단 객체 추적을 위한 방법 및 장치
KR20240007459A (ko) 2022-07-08 2024-01-16 국민대학교산학협력단 객체 인식 방법 및 장치

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11094114B2 (en) * 2019-02-08 2021-08-17 Ursa Space Systems Inc. Satellite SAR artifact suppression for enhanced three-dimensional feature extraction, change detection, and visualizations
CN110059608B (zh) 2019-04-11 2021-07-06 腾讯科技(深圳)有限公司 一种物体检测方法、装置、电子设备和存储介质
CN112446227A (zh) * 2019-08-12 2021-03-05 阿里巴巴集团控股有限公司 物体检测方法、装置及设备
WO2021061795A1 (en) 2019-09-23 2021-04-01 Canoo Inc. Fractional slot electric motors with coil elements having rectangular cross-sections
WO2021114031A1 (zh) * 2019-12-09 2021-06-17 深圳市大疆创新科技有限公司 一种目标检测方法和装置
CN111144242B (zh) * 2019-12-13 2023-09-29 中国科学院深圳先进技术研究院 一种三维目标检测方法、装置及终端
CN110991468B (zh) * 2019-12-13 2023-12-19 深圳市商汤科技有限公司 三维目标检测和智能行驶方法、装置、设备
CN111199206A (zh) * 2019-12-30 2020-05-26 上海眼控科技股份有限公司 三维目标检测方法、装置、计算机设备及存储介质
CN111340766A (zh) * 2020-02-21 2020-06-26 北京市商汤科技开发有限公司 目标对象的检测方法、装置、设备和存储介质
CN113496160B (zh) * 2020-03-20 2023-07-11 百度在线网络技术(北京)有限公司 三维物体检测方法、装置、电子设备和存储介质
CN111444839B (zh) * 2020-03-26 2023-09-08 北京经纬恒润科技股份有限公司 一种基于激光雷达的目标检测方法及系统
CN112270289A (zh) * 2020-07-31 2021-01-26 广西科学院 一种基于图卷积注意力网络的智能监测方法
CN111862222B (zh) * 2020-08-03 2021-08-13 湖北亿咖通科技有限公司 一种目标检测方法及电子设备
CN111950467B (zh) * 2020-08-14 2021-06-25 清华大学 基于注意力机制的融合网络车道线检测方法及终端设备
CN112150501A (zh) * 2020-09-18 2020-12-29 浙江吉利控股集团有限公司 基于激光雷达的目标检测方法、装置、设备及存储介质
CN112651405B (zh) * 2020-12-10 2024-04-26 深兰人工智能(深圳)有限公司 目标检测方法及装置
CN112651986A (zh) * 2020-12-25 2021-04-13 北方工业大学 环境识别方法、识别装置、识别系统、电子设备及介质
CN112613450B (zh) * 2020-12-29 2023-08-04 清华大学 一种增强在困难样本上表现的3d目标检测方法
CN112731339A (zh) * 2021-01-04 2021-04-30 东风汽车股份有限公司 一种基于激光点云的三维目标检测系统及其检测方法
WO2022196016A1 (ja) * 2021-03-17 2022-09-22 ソニーセミコンダクタソリューションズ株式会社 情報処理装置および情報処理方法、ならびに、センシングシステム
CN113569877B (zh) * 2021-09-26 2022-02-25 苏州挚途科技有限公司 点云数据处理方法、装置及电子设备
CN114228411B (zh) * 2021-12-28 2023-09-15 驭势科技(北京)有限公司 连接控制方法、装置、设备及存储介质
CN114611164B (zh) * 2022-03-18 2022-10-11 昆山华东信息科技有限公司 一种基于大数据的信息安全管理系统
WO2023222062A1 (zh) * 2022-05-19 2023-11-23 安徽蔚来智驾科技有限公司 自动驾驶的目标检测方法、装置、介质及车辆
CN116229040A (zh) * 2022-07-15 2023-06-06 深圳市速腾聚创科技有限公司 目标区域的定位方法和目标区域的定位装置
CN115457540B (zh) * 2022-11-11 2023-03-24 整数智能信息技术(杭州)有限责任公司 点云目标检测模型的构建方法、目标检测标注方法及装置
CN115641567B (zh) * 2022-12-23 2023-04-11 小米汽车科技有限公司 用于车辆的目标对象检测方法、装置、车辆及介质
CN116071773B (zh) * 2023-03-15 2023-06-27 广东电网有限责任公司东莞供电局 检测电网建设类档案中表格的方法、装置、介质和设备
CN116385528B (zh) * 2023-03-28 2024-04-30 小米汽车科技有限公司 标注信息的生成方法、装置、电子设备、车辆及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239827A (zh) * 2017-06-18 2017-10-10 北京理工大学 一种基于人工神经网络的空间信息学习方法
CN108491773A (zh) * 2018-03-12 2018-09-04 中国工商银行股份有限公司 一种识别方法及系统

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9129211B2 (en) * 2012-03-15 2015-09-08 GM Global Technology Operations LLC Bayesian network to track objects using scan points using multiple LiDAR sensors
CN106022381B (zh) * 2016-05-25 2020-05-22 厦门大学 基于车载激光扫描点云的路灯杆自动提取方法
US9965863B2 (en) * 2016-08-26 2018-05-08 Elekta, Inc. System and methods for image segmentation using convolutional neural network
KR101854461B1 (ko) * 2016-10-12 2018-05-03 전자부품연구원 카메라 시스템 및 이의 객체 인식 방법
CN108268878A (zh) * 2016-12-30 2018-07-10 乐视汽车(北京)有限公司 三维全卷积网络实现设备
CN107092859A (zh) * 2017-03-14 2017-08-25 佛山科学技术学院 一种三维模型的深度特征提取方法
CN107767456A (zh) * 2017-09-22 2018-03-06 福州大学 一种基于rgb‑d相机的物体三维重建方法
EP3462373A1 (en) * 2017-10-02 2019-04-03 Promaton Holding B.V. Automated classification and taxonomy of 3d teeth data using deep learning methods
US11004202B2 (en) * 2017-10-09 2021-05-11 The Board Of Trustees Of The Leland Stanford Junior University Systems and methods for semantic segmentation of 3D point clouds
US10970518B1 (en) * 2017-11-14 2021-04-06 Apple Inc. Voxel-based feature learning network
CN108171217A (zh) * 2018-01-29 2018-06-15 深圳市唯特视科技有限公司 一种基于点融合网络的三维物体检测方法
CN108319957A (zh) * 2018-02-09 2018-07-24 深圳市唯特视科技有限公司 一种基于超点图的大规模点云语义分割方法
CN108363995B (zh) * 2018-03-19 2021-09-17 百度在线网络技术(北京)有限公司 用于生成数据的方法和装置
CN108709513A (zh) * 2018-04-10 2018-10-26 深圳市唯特视科技有限公司 一种基于模型拟合算法的车辆三维检测方法
CN109086683B (zh) * 2018-07-11 2020-09-15 清华大学 一种基于点云语义增强的人手姿态回归方法和系统
CN109118564B (zh) * 2018-08-01 2023-09-19 山东佳音信息科技有限公司 一种基于融合体素的三维点云标记方法和装置
CN109345510A (zh) * 2018-09-07 2019-02-15 百度在线网络技术(北京)有限公司 物体检测方法、装置、设备、存储介质及车辆
CN109523552B (zh) * 2018-10-24 2021-11-02 青岛智能产业技术研究院 基于视锥点云的三维物体检测方法
CN110059608B (zh) * 2019-04-11 2021-07-06 腾讯科技(深圳)有限公司 一种物体检测方法、装置、电子设备和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239827A (zh) * 2017-06-18 2017-10-10 北京理工大学 一种基于人工神经网络的空间信息学习方法
CN108491773A (zh) * 2018-03-12 2018-09-04 中国工商银行股份有限公司 一种识别方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
비특허(IPOD: INTENSIVE POINT-BASED OBJECT DETECTOR FOR POINT CLOUD) *
비특허(SEGCLOUD: SEMANTIC SEGMENTATION OF 3D POINT CLOUDS) *
비특허(VOXELNET: END-TO-END LEARNING FOR POINT CLOUD BASED 3D OBJECT DETECTION) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230076059A (ko) 2021-11-23 2023-05-31 국민대학교산학협력단 객체 추적을 위한 방법 및 장치
KR20240007459A (ko) 2022-07-08 2024-01-16 국민대학교산학협력단 객체 인식 방법 및 장치

Also Published As

Publication number Publication date
WO2020207166A1 (zh) 2020-10-15
KR102629928B1 (ko) 2024-01-30
JP2022514974A (ja) 2022-02-16
CN110059608A (zh) 2019-07-26
US20210287037A1 (en) 2021-09-16
JP7179186B2 (ja) 2022-11-28
EP3955158B1 (en) 2024-05-01
CN110059608B (zh) 2021-07-06
US11915501B2 (en) 2024-02-27
EP3955158A1 (en) 2022-02-16
EP3955158A4 (en) 2022-06-01

Similar Documents

Publication Publication Date Title
KR102629928B1 (ko) 물체 검출 방법 및 장치, 전자 디바이스, 및 저장 매체
EP3920095A1 (en) Image processing method and apparatus, moveable platform, unmanned aerial vehicle and storage medium
US11877716B2 (en) Determining region attribute
US20190163958A1 (en) Methods and associated systems for grid analysis
Kang et al. Automatic targetless camera–lidar calibration by aligning edge with gaussian mixture model
JP2021534481A (ja) 障害物又は地面の認識及び飛行制御方法、装置、機器及び記憶媒体
CN106033621B (zh) 一种三维建模的方法及装置
JP7009652B2 (ja) オブジェクション検出のためのaiシステムおよび方法
CN113359782B (zh) 一种融合lidar点云与图像数据的无人机自主选址降落方法
CN108367436B (zh) 针对三维空间中的对象位置和范围的主动相机移动确定
CN112631266A (zh) 一种移动机器人感知障碍信息的方法、装置
CN112749594A (zh) 信息补全方法、车道线识别方法、智能行驶方法及相关产品
US11460855B1 (en) Systems and methods for sensor calibration
US11373411B1 (en) Three-dimensional object estimation using two-dimensional annotations
Liu et al. Comparison of 2D image models in segmentation performance for 3D laser point clouds
CN112750155A (zh) 基于卷积神经网络的全景深度估计方法
CN114943941A (zh) 一种目标检测方法及装置
CN113405557B (zh) 路径规划方法及相关装置、电子设备、存储介质
CN115222815A (zh) 障碍物距离检测方法、装置、计算机设备和存储介质
CN113065521B (zh) 物体识别方法、装置、设备及介质
CN117359608A (zh) 机器人运动控制法以及装置
Sun Robot Obstacle Recognition and Target Tracking Based on Binocular Vision
WO2022205210A1 (zh) 拍摄方法、装置及计算机可读存储介质,终端设备
Zhang et al. Model Self-Adaptive Display for 2D–3D Registration
CN117830562A (zh) 三维重建方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant