KR20210008083A - 목표 검출 방법 및 장치 및 지능형 주행 방법, 기기 및 저장 매체 - Google Patents
목표 검출 방법 및 장치 및 지능형 주행 방법, 기기 및 저장 매체 Download PDFInfo
- Publication number
- KR20210008083A KR20210008083A KR1020207035715A KR20207035715A KR20210008083A KR 20210008083 A KR20210008083 A KR 20210008083A KR 1020207035715 A KR1020207035715 A KR 1020207035715A KR 20207035715 A KR20207035715 A KR 20207035715A KR 20210008083 A KR20210008083 A KR 20210008083A
- Authority
- KR
- South Korea
- Prior art keywords
- point cloud
- frame
- initial
- point
- location information
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 169
- 238000000034 method Methods 0.000 title claims abstract description 112
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 230000008569 process Effects 0.000 claims abstract description 28
- 238000011176 pooling Methods 0.000 claims description 76
- 238000012937 correction Methods 0.000 claims description 59
- 238000012545 processing Methods 0.000 claims description 42
- 238000004590 computer program Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 21
- 238000013528 artificial neural network Methods 0.000 claims description 19
- 239000013598 vector Substances 0.000 claims description 19
- 238000005070 sampling Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 6
- 238000013139 quantization Methods 0.000 abstract description 6
- 238000004220 aggregation Methods 0.000 description 24
- 230000002776 aggregation Effects 0.000 description 23
- 230000011218 segmentation Effects 0.000 description 19
- 238000005516 engineering process Methods 0.000 description 18
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 7
- 230000004931 aggregating effect Effects 0.000 description 4
- 230000010354 integration Effects 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000009467 reduction Effects 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000000712 assembly Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012067 mathematical method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
- G06T17/20—Finite element generation, e.g. wire-frame surface description, tesselation
-
- G06K9/00791—
-
- G06K9/00201—
-
- G06K9/481—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T17/00—Three dimensional [3D] modelling, e.g. data description of 3D objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10028—Range image; Depth image; 3D point clouds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/56—Particle system, point based geometry or rendering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
본 실시예는 목표 검출 방법, 장치, 전자 기기 및 컴퓨터 저장 매체를 개시하였고, 상기 목표 검출 방법은, 3D 포인트 클라우드 데이터를 획득하는 단계; 3D 포인트 클라우드 데이터에 따라, 3D 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징을 결정하는 단계; 포인트 클라우드 시맨틱 특징에 기반하여, 전경 포인트의 부위 위치 정보를 결정하는 단계; 포인트 클라우드 데이터에 기반하여 적어도 하나의 초기 3D 프레임을 추출하는 단계; 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징, 전경 포인트의 부위 위치 정보 및 적어도 하나의 초기 3D 프레임에 따라, 목표의 3D 검출 프레임을 결정하는 단계를 포함한다. 이러한 방법으로, 3D 포인트 클라우드 데이터로부터 포인트 클라우드 시맨틱 특징을 직접 획득하여, 전경 포인트의 부위 위치 정보를 결정한 다음, 포인트 클라우드 시맨틱 특징, 전경 포인트의 부위 위치 정보 및 적어도 하나의 3D 프레임에 따라 목표의 3D 검출 프레임을 결정하여, 3D 포인트 클라우드 데이터를 평면도로 투영할 필요 없이, 2D 검출 기술을 사용하여 평면도의 프레임을 얻음으로써, 양자화 과정에서 포인트 클라우드의 원시 정보가 손실되는 것을 방지한다.
Description
관련 출원의 상호 참조
본 출원은 2019년 6월 18일에 중국 특허청에 제출한, 출원 번호가 201910523342.4이고, 발명의 명칭이 “목표 검출 방법 및 장치 및 지능형 주행 방법, 기기 및 저장 매체”인 중국 특허 출원의 우선권을 주장하며, 그 전부 내용은 인용을 통해 본 출원에 결합된다.
본 발명은 목표 검출 기술에 관한 것으로, 특히 목표 검출 방법, 지능형 주행 방법, 목표 검출 장치, 전자 기기 및 컴퓨터 저장 매체에 관한 것이다.
자율 주행 또는 로봇 등 분야에서, 하나의 핵심 문제는 주변 물체를 어떻게 인식하는가 하는 것이며; 관련 기술에서, 수집된 포인트 클라우드 데이터를 평면도로 투영하여, 2 차원(2D) 검출 기술을 사용하여 평면도의 프레임을 얻으며; 이러한 방식은, 양자화 과정에서 포인트 클라우드의 원시 정보를 손실하하며, 2D 이미지에서 검출하는 과정에서 가려진 물체를 검출하기가 매우 어렵다.
본 발명의 실시예는 목표 검출을 위한 기술 방안을 제공할 것으로 예상한다.
본 발명의 실시예는 목표 검출 방법을 제공하며, 상기 목표 검출 방법은,
3 차원(3D) 포인트 클라우드 데이터를 획득하는 단계;
상기 3D 포인트 클라우드 데이터에 따라, 상기 3D 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징을 결정하는 단계;
상기 포인트 클라우드 시맨틱 특징에 기반하여, 전경 포인트의 부위 위치 정보를 결정하는 단계 - 상기 전경 포인트는 상기 포인트 클라우드 데이터에서 목표에 속하는 포인트 클라우드 데이터를 나타내고, 상기 전경 포인트의 부위 위치 정보는 상기 전경 포인트의 목표 내에서의 상대적인 위치를 나타냄 - ;
상기 포인트 클라우드 데이터에 기반하여 적어도 하나의 초기 3D 프레임을 추출하는 단계; 및
상기 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징, 상기 전경 포인트의 부위 위치 정보 및 상기 적어도 하나의 초기 3D 프레임에 기반하여, 목표의 3D 검출 프레임을 결정하는 단계 - 상기 검출 프레임 내의 영역에는 목표가 존재함 - 를 포함한다.
본 발명의 실시예는 또한 지능형 주행 기기에 적용되는 지능형 주행 방법을 제공하며, 상기 지능형 주행 방법은,
상기 임의의 하나의 목표 검출 방법에 따라 상기 지능형 주행 기기 주변의 상기 목표의 3D 검출 프레임을 얻는 단계; 및
상기 목표의 3D 검출 프레임에 따라, 주행 전략을 생성하는 단계를 포함한다.
본 발명의 실시예는 또한 목표 검출 장치를 제공하며, 상기 목표 검출 장치는 획득 모듈, 제1 처리 모듈 및 제2 처리 모듈을 포함하고, 여기서,
획득 모듈은, 3D 포인트 클라우드 데이터를 획득하고; 상기 3D 포인트 클라우드 데이터에 따라, 상기 3D 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징을 결정하도록 구성되고;
제1 처리 모듈은, 상기 포인트 클라우드 시맨틱 특징에 기반하여, 전경 포인트의 부위 위치 정보를 결정하고 - 상기 전경 포인트는 상기 포인트 클라우드 데이터에서 목표에 속하는 포인트 클라우드 데이터를 나타내고, 상기 전경 포인트의 부위 위치 정보는 상기 전경 포인트의 목표 내에서의 상대적인 위치를 나타냄 - ; 상기 포인트 클라우드 데이터에 기반하여 적어도 하나의 초기 3D 프레임을 추출하도록 구성되며;
제2 처리 모듈은, 상기 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징, 상기 전경 포인트의 부위 위치 정보 및 상기 적어도 하나의 초기 3D 프레임에 기반하여, 목표의 3D 검출 프레임을 결정하도록 구성 - 상기 검출 프레임 내의 영역에는 목표가 존재함 - 된다.
본 발명의 실시예는 또한 전자 기기를 제공하며, 프로세서 및 프로세서에서 작동 가능한 컴퓨터 프로그램을 저장하도록 구성된 메모리를 포함하고; 여기서,
상기 프로세서는 상기 컴퓨터 프로그램이 작동될 때, 상기 임의의 하나의 목표 검출 방법을 실행하도록 구성된다.
본 발명의 실시예는 컴퓨터 프로그램이 저장된 컴퓨터 저장 매체를 제공하며, 상기 컴퓨터 프로그램은 프로세서에 의해 실행될 때 상기 임의의 하나의 목표 검출 방법을 구현한다.
본 발명의 실시예는 또한 컴퓨터 프로그램 제품을 제공하며, 상기 컴퓨터 프로그램 제품은 컴퓨터 실행 가능 명령어를 포함하며, 상기 컴퓨터 실행 가능 명령어는 실행된 후, 본 발명의 실시예에서 제공된 임의의 목표 검출 방법을 구현할 수 있다.
본 발명의 실시예에서 제공되는 목표 검출 방법, 지능형 주행 방법, 목표 검출 장치, 전자 기기 및 컴퓨터 저장 매체에서, 3D 포인트 클라우드 데이터를 획득하고; 상기 3D 포인트 클라우드 데이터에 따라, 상기 3D 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징을 결정하며; 상기 포인트 클라우드 시맨틱 특징에 기반하여, 전경 포인트의 부위 위치 정보를 결정하며 - 상기 전경 포인트는 상기 포인트 클라우드 데이터에서 목표에 속하는 포인트 클라우드 데이터를 나타내고, 상기 전경 포인트의 부위 위치 정보는 상기 전경 포인트의 목표 내에서의 상대적인 위치를 나타냄 - ; 상기 포인트 클라우드 데이터에 기반하여 적어도 하나의 초기 3D 프레임을 추출하며; 상기 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징, 상기 전경 포인트의 부위 위치 정보 및 상기 적어도 하나의 초기 3D 프레임에 기반하여, 목표의 3D 검출 프레임을 결정 - 상기 검출 프레임 내의 영역에는 목표가 존재함 - 한다. 따라서, 본 발명의 실시예에서 제공한 목표 검출 방법은, 3D 포인트 클라우드 데이터로부터 포인트 클라우드 시맨틱 특징을 직접 획득하여, 전경 포인트의 부위 위치 정보를 결정한 다음, 포인트 클라우드 시맨틱 특징, 전경 포인트의 부위 위치 정보 및 적어도 하나의 3D 프레임에 따라 목표의 3D 검출 프레임을 결정하고, 3D 포인트 클라우드 데이터를 평면도로 투영할 필요 없이, 2D 검출 기술을 사용하여 평면도의 프레임을 얻음으로써, 양자화 과정에서 포인트 클라우드의 원시 정보가 손실되는 것을 방지하며, 평면도에 투영할 때 차단된 물체를 검출하기 어려운 결함을 방지할 수 있다.
이해해야 할 것은, 이상의 일반적인 설명 및 하기의 상세한 설명은 다만 예시적이고 해석적인 것이며, 본 발명을 한정하려는 것은 아니다.
아래의 도면은 본 명세서의 일부분으로서 명세서 전체를 구성하며, 이러한 도면은 본 발명에 맞는 실시예를 예시하여, 명세서와 함께 본 발명의 기술방안을 설명하는데 사용된다.
도 1은 본 발명의 실시예의 목표 검출 방법의 흐름도이다.
도 2는 본 발명의 적용 실시예에서 3D 부위 감지 및 집계 신경망의 종합 프레임워크 모식도이다.
도 3은 본 발명의 적용 실시예에서의 희소 업샘플링 및 특징 보정의 모듈 블럭도이다.
도 4는 본 발명의 적용 실시예에서 상이한 난이도 레벨의 KITTI 데이터 세트의 VAL 분할 세트에 의해 얻어진 목표 부위 위치에 대한 상세 오류 통계도이다.
도 5는 본 발명의 실시예의 목표 검출 장치의 구성 구조 모식도이다.
도 6은 본 발명의 실시예의 전자 기기의 하드웨어 구조 모식도이다.
도 1은 본 발명의 실시예의 목표 검출 방법의 흐름도이다.
도 2는 본 발명의 적용 실시예에서 3D 부위 감지 및 집계 신경망의 종합 프레임워크 모식도이다.
도 3은 본 발명의 적용 실시예에서의 희소 업샘플링 및 특징 보정의 모듈 블럭도이다.
도 4는 본 발명의 적용 실시예에서 상이한 난이도 레벨의 KITTI 데이터 세트의 VAL 분할 세트에 의해 얻어진 목표 부위 위치에 대한 상세 오류 통계도이다.
도 5는 본 발명의 실시예의 목표 검출 장치의 구성 구조 모식도이다.
도 6은 본 발명의 실시예의 전자 기기의 하드웨어 구조 모식도이다.
이하 도면 및 실시예를 결합하여, 본 발명을 더 상세하게 설명하고자 한다. 이해해야 할 것은, 여기서 제공한 실시예는 본 발명을 해석하기 위한 것일뿐, 본 발명을 한정하지 않는다. 또한, 하기에서 제공된 실시예는 본 발명의 부분 실시예를 실시하기 위한 것이지, 본 발명의 전부 실시예를 제공하지는 않으며, 충돌이 없는 조건 하에서, 본 발명의 실시예에 언급된 기술방안은 임의로 조합되는 방식으로 실시될 수 있다.
설명해야 할 것은, 본 발명의 실시예에서, 용어 “포함” 또는 이의 임의의 다른 변형은 비배타적인 포함을 포함하도록 의도됨으로써, 일련의 요소를 포함하는 방법 또는 장치로 하여금 명시적으로 열거된 요소를 포함하도록 할 뿐만 아니라, 명시적으로 열거되지 않은 다른 요소를 포함하도록 할 수도 있으며, 또는 방법, 또는 장치에 고유한 요소를 포함하도록 한다. 더 많은 제한이 없는 경우, 어구 "하나의 ...을 포함"에 의해 정의된 요소는, 상기 요소를 포함하는 방법 또는 장치에 다른 관련 요소(예를 들어, 방법의 단계 또는 장치의 유닛, 예를 들어, 유닛은 부분 회로, 부분 프로세서, 부분 프로그램 또는 소프트웨어 등일 수 있음)가 있음을 배제하지 않는다.
예를 들어, 본 발명의 실시예에서 제공한 목표 검출 방법 또는 지능형 주행 방법은 일련의 단계를 포함하지만, 본 발명의 실시예에서 제공한 목표 검출 방법 또는 지능형 주행 방법은 열거된 단계에 한정되지 않으며, 마찬가지로, 본 발명의 실시예에서 제공한 목표 검출 장치는 일련의 모듈을 포함하지만, 본 발명의 실시예에서 제공하는 장치는 명시적으로 열거된 모듈을 포함하는 것으로 한정되지 않고, 관련 정보를 획득하거나 정보를 기반으로 처리하기 위해 설정해야 하는 모듈을 포함 할 수도 있다.
본 명세서에서 용어 “ 및/또는”은 다만 관련 대상의 상관 관계를 설명하기 위한 것일 뿐, 세 가지의 관계가 존재함을 나타내며, 예를 들어, A 및/또는 B는, A가 단독적으로 존재, A 및 B가 동시에 존재, B가 단독적으로 존재하는 세 가지 상황을 나타낸다. 또한, 본 문에서 용어 "적어도 하나"는 복수의 어느 하나 또는 복수의 둘 중 어느 하나의 조합을 의미하고, 예를 들어, A, B, C 중 적어도 하나를 포함하여, A, B 및 C로 구성된 조합에서 선택된 어느 하나 또는 복수 개의 요소를 나타낼 수 있다.
본 발명의 실시예는 단말 및 서버로 구성된 컴퓨터 시스템에 적용될 수 있고, 많은 다른 범용 또는 특수 목적 컴퓨팅 시스템 환경 또는 구성과 함께 작동될 수 있다. 여기서, 단말은 씬 클라이언트, 씩 클라이언트, 핸드헬드 또는 랩톱 기기, 마이크로 프로세서 기반 시스템, 셋톱 프레임, 프로그래머블 가전 제품, 네트워크 개인용 컴퓨터, 소형 컴퓨터 시스템 등일 수 있고, 서버는 서버 컴퓨터 시스템, 소형 컴퓨터 시스템, 대형 컴퓨터 시스템 및 상기 임의의 시스템을 포함하는 분산식 클라우드 컴퓨팅 기술 환경 등일 수 있다.
단말, 서버 등 전자 기기는 컴퓨터 시스템에 의해 실행되는 컴퓨터 시스템의 실행 가능한 명령어(예를 들어, 프로그램 모듈)의 일반적인 맥락에서 설명될 수 있다. 일반적으로, 프로그램 모듈은 특정 작업을 실행하거나 특정 추상 데이터 타입을 구현하기 위한 루틴, 프로그램, 타겟 프로그램, 어셈블리, 논리, 데이터 구조 등을 포함할 수 있다. 컴퓨터 시스템/서버는 작업이 통신 네트워크를 통해 연결된 원격 처리 장치에 의해 실행되는 분산 클라우드 컴퓨팅 환경에서 구현될 수 있다. 분산 클라우드 컴퓨팅 환경에서, 프로그램 모듈은 저장 기기를 포함하는 로컬 또는 원격 컴퓨팅 시스템 저장 매체에 위치할 수 있다.
관련 기술에서, 자율 주행 및 로봇 기술의 급속한 발전으로, 포인트 클라우드 데이터에 기반으로 한 3D 목표 검출 기술은, 점점 더 주목을 받고 있으며, 여기서, 포인트 클라우드 데이터는 레이더 센서에 기반하여 획득되고; 이미지로부터 2D 목표 검출을 수행하는데 있어서 큰 성과가 있었지만, 상기 2D목표 검출 방법을 포인트 클라우드에 기반한 3 차원(3D) 목표 검출에 직접 적용하는데는, 여전히 약간의 어려움이 있으며, 이는 주로 레이저 레이더(LiDAR) 센서에서 생성된 포인트 클라우드 데이터가 희소하고 불규칙하기 때문이며, 어떻게 불규칙한 포인트로부터 포인트 클라우드 시맨틱 특징을 추출하여 인식하고, 추출된 특징에 따라 전경과 배경의 분할을 수행하여, 3D 검출 프레임을 결정하는가 하는 것은, 여전히 도전적인 문제이다.
자율 주행 및 로봇 등 분야에서, 3D 목표 검출은 매우 중요한 연구 방향이며; 예를 들어, 3D 목표 검출을 통해, 주변 차량 및 보행자가 3D 공간에서의 구체적인 위치, 형태의 크기, 이동 방향 등 중요한 정보를 결정할 수 있으므로, 자율 주행 차량 또는 로봇이 행동을 결정하는데 도움이 된다.
현재 관련된 3D 목표 검출 방안에서, 포인트 클라우드를 평면도에 투영하여, 2D 검출 기술을 이용하여 평면도의 프레임을 얻거나, 또는 2D 이미지를 이용하여 후보 프레임을 직접 선택한 다음, 특정 영역의 포인트 클라우드에 대응하는 3D 프레임을 회귀한다. 여기서, 2D 검출 기술을 이용하여 얻어진 평면도의 프레임은 2D 프레임이고, 2D프레임은 목표를 식별하기 위한 포인트 클라우드 데이터의 2 차원 평면 프레임이며, 2D 프레임은 장방형 또는 다른 2 차원 평면 모양의 프레임일 수 있다.
알 수 있다시피, 평면도에 투영하면 양자화 과정에서 포인트 클라우드의 원시 정보가 손실되며, 2D 이미지에서 검출할 때 가려진 목표를 검출하기가 어렵다. 또한, 상기 방안을 사용하여 3D 프레임을 검출하는 경우, 목표의 부위 정보를 별도로 고려하지 않았으며, 예를 들어, 자동차의 경우, 자동차의 앞부분, 자동차의 뒷부분, 자동차 바퀴 등 부위의 위치 정보는 목표의 3D 검출에 도움이 된다.
상기 기술적 과제에 대해, 본 발명의 일부 실시예에서, 목표 검출 방법을 제안하였고, 본 발명의 실시예는 자율 주행, 로봇 내비게이션 등 시나리오에서 실시될 수 있다.
도 1은 본 발명의 실시예의 목표 검출 방법의 흐름도이며, 도 1에 도시된 바와 같이, 상기 흐름은 다음의 단계들을 포함할 수 있다.
단계 101에 있어서, 3D 포인트 클라우드 데이터를 획득한다.
실제 적용에서, 레이더 센서 등에 기반하여 포인트 클라우드 데이터를 수집할 수 있다.
단계 102에 있어서, 3D 포인트 클라우드 데이터에 따라, 3D 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징을 결정한다.
포인트 클라우드 데이터에 대해, 전경과 배경을 분할하고 전경 포인트의 3D 목표 부위 위치 정보를 예측하기 위해, 포인트 클라우드 데이터로부터 구별적인 포인트 투 포인트 특징을 학습해야 하며; 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징을 얻는 구현 방식에 대해, 예시적으로, 전체 포인트 클라우드에 대해 3D 메쉬 처리를 수행하여, 3D 메쉬를 얻고; 3D 메쉬의 비공백 메쉬에서 상기 3D 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징을 추출하며; 3D 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징은 3D 포인트 클라우드 데이터의 좌표 정보 등을 나타낼 수 있다.
실제 실시할 경우, 각 메쉬의 중심을 하나의 새로운 포인트로 취하면, 하나의 비슷한 초기 포인트 클라우드와 거의 동일한 메시 포인트 클라우드를 얻을 수 있고; 상기 메쉬 포인트 클라우드는 일반적으로 희소하고, 상기 메쉬 포인트 클라우드를 얻은 후, 희소 컨볼루션 연산에 기반하여 상기 메쉬 포인트 클라우드의 포인트 투 포인트 특징을 추출할 수 있으며, 여기서 메쉬 포인트 클라우드의 포인트 투 포인트 특징은 메쉬된 포인트 클라우드의 각 포인트의 시맨틱 특징이며, 상기 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징으로 취할 수 있으며; 다시 말해서, 전체 3D 공간을 표준화 메쉬로 취하여 메쉬 처리를 수행한 다음, 희소 컨볼루션에 기반하여 비공백 메쉬로부터 포인트 클라우드 시맨틱 특징을 추출할 수 있다.
3D목표 검출에서, 포인트 클라우드 데이터에 대해, 전경과 배경의 분할을 통해, 전경 포인트 및 배경 포인트를 얻으며; 전경 포인트는 목표에 속하는 포인트 클라우드 데이터를 나타내고, 배경 포인트는 목표에 속하지 않는 포인트 클라우드 데이터를 나타내며; 목표는 차량, 인체 등 인식해야 할 물체이며; 예를 들어, 전경과 배경의 분할 방법은 임계값에 기반한 분할 방법, 영역에 기반한 분할 방법, 가장자리에 기반한 분할 방법 및 특정 이론에 기반한 분할 방법 등을 포함하지만 이에 한정되지 않는다.
상기 3D 메쉬에서의 비공백 메쉬는 포인트 클라우드 데이터를 포함하는 메쉬를 나타내고, 상기 3D 메쉬에서의 공백 메쉬는 포인트 클라우드 데이터를 포함하지 않은 메쉬를 나타낸다.
전체 포인트 클라우드 데이터에 대해 3D 희소 메쉬를 수행하는 구현 방식에 있어서, 하나의 구체적인 예에서, 전체 3D 공간의 사이즈는 70m*80m*4m이고, 각 메쉬의 사이즈는 5cm*5cm*10cm이며; KITTI 데이터 세트에서의 각 3D 시나리오의 경우, 일반적으로 16000 개의 비공백 메쉬가 존재한다.
단계 103에 있어서, 상기 포인트 클라우드 시맨틱 특징에 기반하여, 전경 포인트의 부위 위치 정보를 결정하며, 상기 전경 포인트는 상기 포인트 클라우드 데이터에서 목표에 속하는 포인트 클라우드 데이터를 나타내고, 상기 전경 포인트의 부위 위치 정보는 상기 전경 포인트의 목표 내에서의 상대적인 위치를 나타내기 위한 것이다.
전경 포인트의 부위 위치 정보를 예측하는 구현 방식에 있어서, 예시적으로, 상기 포인트 클라우드 시맨틱 특징에 따라 상기 포인트 클라우드 데이터에 대해 전경과 배경의 분할을 수행하여, 전경 포인트를 결정할 수 있으며; 전경 포인트는 상기 포인트 클라우드 데이터에서 목표에 속하는 포인트 클라우드 데이터이며;
전경 포인트의 부위 위치 정보를 예측하기 위한 신경망을 사용하여 결정된 전경 포인트에 대해 처리를 수행하여, 전경 포인트의 부위 위치 정보를 얻으며;
여기서, 상기 신경망은 3D 프레임의 주석 정보를 포함하는 훈련 데이터 세트를 사용하여 훈련하여 얻어지며, 3D 프레임의 주석 정보는 적어도 상기 훈련 데이터 세트의 포인트 클라우드 데이터의 전경 포인트의 부위 위치 정보를 포함한다.
본 발명의 실시예에서, 전경과 배경의 분할 방법에 대해 한정하지 않으며, 예를 들어, 초점 손실(focal loss) 방법 등을 사용하여 전경과 배경을 분할할 수 있다.
실제 적용에서, 훈련 데이터 세트는 미리 획득된 데이터 세트일 수 있고, 예를 들어, 목표 검출을 수행해야 하는 시나리에 대해, 레이더 센서 등을 사용하여 포인트 클라우드 데이터를 미리 획득한 다음, 포인트 클라우드 데이터에 대해 전경 포인트 분할을 수행하고 3D 프레임을 구분하고, 3D 프레임에 주석 정보를 추가하여, 훈련 데이터 세트를 얻으며, 상기 주석 정보는 전경 포인트의 3D 프레임 내에서의 부위 위치 정보를 나타낼 수 있다. 여기서, 훈련 데이터 세트에서 3D 프레임을 실측 자료(ground-truth) 프레임으로 표기한다.
여기서, 3D 프레임은 목표를 식별하기 위한 하나의 포인트 클라우드 데이터의 입체 프레임이며, 3D 프레임은 장방형 또는 다른 모양의 입체 프레임일 수 있다.
예시적으로, 훈련 데이터 세트를 얻은 후, 훈련 데이터 세트의 3D 프레임의 주석 정보에 기반하고, 이진 교차 엔트로피 손실을 부위 회귀 손실로 사용하여, 전경 포인트의 부위 위치 정보를 예측할 수 있다. 선택적으로, ground-truth 프레임 내외의 모든 포인트를 양성 및 음성 샘플로 취하여 훈련을 수행한다.
실제 적용에서, 상기 3D 프레임의 주석 정보는 정확한 부위 위치 정보를 포함하고, 정보가 풍부한 특성을 가지며, 무료로 획득하며; 다시 말해서, 본 발명의 실시예의 기술 방안에서, 상기 3D 후보 프레임의 주석 정보에서 추론된 무료 감독 정보를 기반으로, 전경 포인트의 목표 내의 부위 위치 정보를 예측할 수 있다.
알 수 있다시피, 본 발명의 실시예에서, 희소 컨볼루션 연산에 기반하여 원시 포인트 클라우드 데이터의 정보를 직접 추출할 수 있고, 이를 전경과 배경의 분할, 및 각 전경 포인트의 부위 위치 정보(즉 목표 3D 프레임에서의 위치 정보)를 예측하는데 사용하여, 각 포인트가 목표의 어느 부위에 속하는지를 나타내는 정보를 양자화할 수 있다. 이는 관련 기술에서 포인트 클라우드를 평면도에 투영할 때 발생하는 양자화 손실 및 2D 이미지 검출의 차단 문제를 방지함으로써, 포인트 클라우드 시맨틱 특징 추출 과정이 더욱 자연스럽고 효율적이 되게 한다.
단계 104에 있어서, 포인트 클라우드 데이터에 기반하여 적어도 하나의 초기 3D 프레임을 추출한다.
포인트 클라우드 데이터에 기반하여 적어도 하나의 초기 3D 프레임을 추출하는 구현 방식에 있어서, 예시적으로, 영역 후보 네트워크(RegionProposal Network, RPN)를 사용하여 적어도 하나의 3D 부호 프레임을 추출할 수 있으며, 각 3D 후보 프레임은 하나의 초기 3D 프레임이다. 설명해야 할 것은, 상기는 다만 초기 3D 프레임을 추출하는 방식에 대해 예를 들어 설명하였을 뿐, 본 발명의 실시예는 이에 한정되지 않는다.
본 발명의 실시예에서, 초기 3D 프레임의 각 포인트의 부위 위치 정보를 집계하는 것을 통해, 최종 3D 프레임의 생성을 지원할 수 있고; 다시 말해서, 예측된 각 전경 포인트의 부위 위치 정보는 최종 3D 프레임의 생성을 지원할 수 있다.
단계 105에 있어서, 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징, 전경 포인트의 부위 위치 정보 및 상기 적어도 하나의 초기 3D 프레임에 따라, 목표의 3D 검출 프레임을 결정하며, 상기 검출 프레임 내의 영역에는 목표가 존재한다.
상기 단계의 구현 방식에 있어서, 예시적으로, 각 초기 3D 프레임에 대해, 전경 포인트의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징의 풀링 동작을 수행하여, 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징을 얻고; 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하여, 상기 목표의 3D 검출 프레임을 결정할 수 있다.
여기서, 각 초기 3D 프레임에 대해 보정을 수행한 다음, 목표에 대한 검출을 구현하기 위한 최종 3D 프레임을 얻을 수 있고; 초기 3D 프레임의 신뢰도는 초기 3D 프레임 내의 전경 포인트의 부위 위치 정보의 신뢰도를 나타내기 위한 것이며, 나아가, 초기 3D 프레임의 신뢰도는 초기 3D 프레임에 대해 보정을 수행하여, 최종 3D 검출 프레임을 얻는데 도움이 된다.
여기서, 목표의 3D 검출 프레임은 목표 검출을 위한 3D 프레임을 나타낼 수 있고, 예시적으로, 목표의 3D 검출 프레임을 결정한 다음, 목표의 3D 검출 프레임에 따라 이미지에서의 목표의 정보를 결정할 수 있으며, 예를 들어, 목표의 3D 검출 프레임에 따라 이미지에서의 목표의 위치, 사이즈 등 정보를 결정할 수 있다.
본 발명의 실시예에서, 각 초기 3D 프레임에서 전경 포인트의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징에 대해, 동일한 초기 3D 프레임에서의 모든 포인트의 부위 위치 정보를 집계함으로써 3D 프레임의 신뢰도에 대해 채점 및/또는 보정을 수행해야 한다.
첫 번째 예에서, 3D 프레임의 신뢰도 채점 및 보정을 위한 초기 3D 프레임 내의 모든 포인트의 특징을 직접 획득하고 집계할 수 있으며; 다시 말해서, 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징에 대해 풀링 처리를 직접 수행하여, 초기 3D 프레임의 신뢰도 채점 및/또는 보정을 구현하며; 포인트 클라우드의 희소성으로 인해, 상기 첫 번째 예의 방법은, 풀링된 특징으로부터 초기 3D 프레임의 모양을 복구할 수 없으므로, 초기 3D 프레임의 정보가 손실된다.
두 번째 예에서, 상기 각 초기 3D 프레임을 복수 개의 메쉬로 균일하게 분할하여, 각 메쉬에 대해 전경 포인트의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징의 풀링 동작을 수행하여, 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징을 얻을 수 있다.
알 수 있다시피, 상이한 크기의 초기 3D 프레임에 대해, 고정된 해상도의 3D 메쉬 특징을 생성한다. 선택적으로, 3D 공간에서 설정된 해상도에 따라 각 초기 3D 프레임에 대해 균일한 메쉬 처리를 수행하여, 설정된 해상도를 풀링 해상도로 기록할 수 있다.
선택적으로, 상기 복수 개의 메쉬에서 그 어떤 메쉬도 전경 포인트를 포함하지 않으면, 임의의 메쉬는 공백 메쉬이고, 이 경우, 상기 임의의 메쉬의 부위 위치 정보를 공백으로 표기하고, 상기 메쉬의 풀링된 전경 포인트의 부위 위치 정보를 얻고, 상기 메쉬의 포인트 클라우드 시맨틱 특징을 0으로 설정하여, 상기 메쉬의 풀링된 포인트 클라우드 시맨틱 특징을 얻을 수 있다.
상기 복수 개의 메쉬에서 메쉬 중 어느 하나가 전경 포인트를 포함하면, 상기 메쉬의 전경 포인트의 부위 위치 정보에 대해 균일한 풀링 처리를 수행하여, 상기 메쉬의 풀링된 전경 포인트의 부위 위치 정보를 얻고, 상기 메쉬의 전경 포인트의 포인트 클라우드 시맨틱 특징에 대해 풀링 처리를 최대화하여, 상기 메쉬의 풀링된 포인트 클라우드 시맨틱 특징을 얻을 수 있다. 여기서, 균일화 풀링은, 인근 영역 내의 전경 포인트의 부위 위치 정보의 평균값을 상기 메쉬의 풀링된 전경 포인트의 부위 위치 정보로 취하고; 풀링을 최대화하는 것은, 인근 영역 내의 전경 포인트의 부위 위치 정보의 최대값을 상기 메쉬의 풀링된 전경 포인트의 부위 위치 정보로 취하는 것을 의미할 수 있다.
알 수 있다시피, 전경 포인트의 부위 위치 정보에 대해 균일화 풀링 처리를 수행한 후, 풀링된 부위 위치 정보는 각 메쉬의 중심 위치 정보를 나타내는 것과 비슷하다.
본 발명의 실시예에서, 상기 메쉬의 풀링된 전경 포인트의 부위 위치 정보 및 상기 메쉬의 풀링된 포인트 클라우드 시맨틱 특징을 얻은 후, 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징을 얻을 수 있으며; 여기서, 풀링된 각 초기 3D 프레임의 부위 위치 정보는 초기 3D 프레임에 대응하는 각 메쉬의 풀링된 전경 포인트의 부위 위치 정보를 포함하고, 풀링된 각 초기 3D 프레임의 포인트 클라우드 시맨틱 특징은 초기 3D 프레임에 대응하는 각 메쉬의 풀링된 포인트 클라우드 시맨틱 특징을 포함한다.
각 메쉬에 대해 전경 포인트의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징의 풀링 동작을 수행할 때, 또한 공백 메쉬에 대해 상응한 처리를 수행함으로써, 이러한 방식으로 얻어진 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징은 3D 초기 프레임의 기하학적 정보를 인코딩할 수 있으며, 나아가, 본 발명의 실시예에서 초기 3D 프레임에 대해 민감한 풀링 동작을 제안한 것으로 간주될 수 있다.
본 발명의 실시예에서 제안된 초기 3D 프레임에 대해 민감한 풀링 동작은, 상이한 크기의 초기 3D 프레임로부터 동일한 해상도의 풀링된 특징을 얻을 수 있고, 풀링된 특징으로부터 3D 초기 프레임의 모양을 복원할 수 있으며; 또한, 풀링된 특징은 초기 3D 프레임 내의 부위 위치 정보의 통합을 용이하게 할 수 있으며, 나아가, 초기 3D 프레임의 신뢰도 채점 및 초기 3D 프레임의 보정에 유리하다.
풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하는 구현 방식에 있어서, 예시적으로, 상기 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징을 합병하여, 합병된 특징에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행할 수 있다.
본 발명의 실시예에서, 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징을 동일한 특징 차원으로 변환한 다음, 동일한 특징 차원의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징을 연결하여, 동일한 특징 차원의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징의 합병을 구현한다.
실제 적용에서, 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징은 모두 특징맵(feature map)을 통해 표현되고, 이러한 방식으로, 풀링 후 얻은 특징맵을 동일한 특징 차원으로 변환한 다음, 이 두 특징맵을 합병할 수 있다.
본 발명의 실시예에서, 합병된 특징은 m*n*k의 행렬일 수 있고, m, n 및 k는 모두 양의 정수이고; 합병된 특징은 후속적인 3D 프레임 내의 부위 위치 정보의 통합에 사용될 수 있으며, 나아가, 초기 3D 프레임 내의 부위 위치 정보에 기반하여 통합되어, 3D 프레임 내의 부위 위치 정보의 신뢰도 예측과 3D 프레임의 보정을 수행할 수 있다.
관련 기술에서, 일반적으로 초기 3D 프레임의 포인트 클라우드 데이터를 얻은 후, PointNet을 사용하여 포인트 클라우드의 정보 통합을 직접 수행하며, 포인트 클라우드의 희소성으로 인해, 상기 동작은 초기 3D 프레임의 정보를 손실하여, 3D 부위 위치 정보의 통합에 불리하다.
본 발명의 실시예에서, 합병된 특징에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하는 과정에 있어서, 예시적으로, 아래의 몇 가지 방식을 채택할 수 있다.
첫 번째 방식에 있어서,
상기 합병된 특징을 특징 벡터로 벡터화하여, 상기 특징 벡터에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행할 수 있다. 구체적인 구현 시, 합병된 특징을 특징 벡터로 벡터화한 후, 몇 개의 완전 연결 계층(Fully-Connected layers, FC layers)을 추가하여, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하며; 여기서, 완전 연결 계층은 신경망에서의 기초 유닛에 속하며, 컨볼루션 계층 또는 풀링 계층에서 카테고리 구분성을 구비한 부분 정보를 통합할 수 있다.
두 번째 방식에 있어서,
합병된 특징에 대해, 희소 컨볼루션 연산을 수행함으로써, 희소 컨볼루션 연산 후의 특징맵을 얻고; 상기 희소 컨볼루션 연산 후의 특징맵에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행한다. 선택적으로, 희소 컨볼루션 연산 후의 특징맵을 얻고, 컨볼루션 연산을 통해, 일부분 스케일에서 전체 스케일까지의 특징을 집계하여, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행한다. 하나의 구체적인 예에서, 풀링 해상도가 낮으면, 두 번째 방식으로 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행할 수 있다.
세 번째 방식에 있어서,
합병된 특징에 대해, 희소 컨볼루션 연산을 수행함으로써, 희소 컨볼루션 연산 후의 특징맵을 얻고; 상기 희소 컨볼루션 연산 후의 특징맵에 대해 다운 샘플링을 수행하여, 다운 샘플링된 특징맵에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행한다. 여기서, 희소 컨볼루션 연산 후의 특징맵에 대해 다운 샘플링 처리를 수행함으로써, 더욱 효과적으로 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행할 수 있으며, 컴퓨팅 자원을 절약할 수 있다.
선택적으로, 희소 컨볼루션 연산 후의 특징맵을 얻은 후, 풀링 동작을 통해, 희소 컨볼루션 연산 후의 특징맵에 대해 다운 샘플링을 수행할 수 있으며; 예를 들어, 여기서 희소 컨볼루션 연산 후의 특징맵에 대한 풀링 동작은 희소 최대화 풀링(sparse max-pooling) 동작이다.
선택적으로, 희소 컨볼루션 연산 후의 특징맵 다운 샘플링을 수행함으로써, 하나의 특징 벡터를 얻어, 부위 위치 정보의 통합에 사용한다.
다시 말해서, 본 발명의 실시예에서, 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징의 기초 위에서, 메쉬된 특징을 3D 부위 위치 정보의 통합을 위한 하나의 인코딩된 특징 벡터로 점진적으로 다운샘플링한 다음; 상기 인코딩된 특징 벡터를 이용하여, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행할 수 있다.
종합하면, 본 발명의 실시예는 희소 컨볼루션 연산에 기반한 3D 부위 위치 정보의 통합 동작을 제안하였고, 각 초기 3D 프레임 내의 풀링된 특징의 3D 부위 위치 정보를 점진적으로 인코딩할 수 있으며; 상기 동작을 초기 3D 프레임의 민감한 풀링 동작과 결합하여, 최종 초기 3D 프레임의 신뢰도 예측 및/또는 초기 3D 프레임의 보정을 위한 3D 부위 위치 정보를 더 잘 집계하여, 목표의 3D 검출 프레임을 얻는다.
실제 적용에서, 단계 101 내지 단계 103은 전자 기기에 기반한 프로세서에 의해 구현되며, 상기 프로세서는 특정 용도의 주문형 반도체(Application Specific Integrated Circuit, ASIC), 디지털 신호 프로세서(Digital Signal Processor, DSP), 디지털 신호 처리 장치(Digital Signal Processing Device, DSPD), 프로그램 가능 논리 소자(Programmable Logic Device, PLD), 필드 프로그램 가능 게이트 어레이(Field Programmable Gate Array, FPGA), 중앙처리장치(Central Processing Unit, CPU), 컨트롤러,마이크로 컨트롤러, 마이크로 프로세서 중의 적어도 하나일 수 있다. 이해할 수 있는 것은, 상이한 전자 기기에 대해, 상기 프로세서 기능을 구현하기 위한 전자 소자는 다른 기기일 수 있으며, 본 발명의 실시예에서 특별히 한정하지 않는다.
알 수 있다시피, 본 발명의 실시예에서 제공한 목표 검출 방법은, 3D 포인트 클라우드 데이터로부터 포인트 클라우드 시맨틱 특징을 직접 획득하여, 전경 포인트의 부위 위치 정보를 결정한 다음, 포인트 클라우드 시맨틱 특징, 전경 포인트의 부위 위치 정보 및 적어도 하나의 3D 프레임에 따라 목표의 3D 검출 프레임을 결정하고, 3D 포인트 클라우드 데이터를 평면도로 투영할 필요 없이, 2D 검출 기술을 사용하여 평면도의 프레임을 얻음으로써, 양자화 과정에서 포인트 클라우드의 원시 정보가 손실되는 것을 방지하며, 평면도에 투영할 때 차단된 물체를 검출하기 어려운 결함을 방지할 수 있다.
앞서 언급된 목표 검출 방법을 기반으로, 본 발명의 실시예는 또한 지능형 주행 기기에 적용되는 지능형 주행 방법을 제안하였고, 상기 지능형 주행 방법은, 상기 임의의 하나의 목표 검출 방법에 따라 상기 지능형 주행 기기 주변의 상기 목표의 3D 검출 프레임을 얻는 단계; 및 상기 목표의 3D 검출 프레임에 따라, 주행 전략을 생성하는 단계를 포함한다.
하나의 예에서, 지능형 주행 기기는 자율 주행 차량, 로봇, 블라인드 가이드 기기 등을 포함하며, 이 경우, 지능형 주행 기기는 생성된 주행 전략에 따라 주행을 제어할 수 있으며; 다른 예에서, 지능형 주행 기기는 보조 주행 시스템이 설치된 차량을 포함하며, 이 경우, 생성된 주행 전략은 운전자가 차량을 제어하도록 안내하는데 사용될 수 있다.
아래에 하나의 구체적인 적용 실시예를 통해 본 발명을 추가로 설명한다.
상기 적용 실시예의 방안에서, 원시 포인트 클라우드로부터 목표 검출의 3D 부위 감지 및 집계 신경망(Part-A2 네트워크로 지칭됨)을 수행하는 것을 제안하였고, 상기 네트워크의 프레임 워크는 포인트 클라우드에 기반한 3 차원 목표 검출의 두 단계의 프레임 워크이며, 아래의 두 단계로 구성되고, 여기서, 첫 번째 단계는 부위 감지 단계이고, 두 번째 단계는 부위 집계 단계이다.
우선, 부위 감지 단계에서, 3D 프레임의 주석 정보에 따라 무료 감독 정보를 추론하는 동시에, 초기 3D 프레임 및 정확한 부위 위치(intra-object part locations) 정보를 예측할 수 있으며; 다음, 동일한 프레임 내의 전경 포인트의 부위 위치 정보를 집계함으로써, 3D 프레임에 대한 특징의 인코딩 유효 표현을 구현할 수 있다. 부위 집계 단계에서, 3D 프레임에 대해 재채점(신뢰도 채점) 및 위치 보정을 수행하기 위한 풀링된 부위 위치 정보의 공간 관계를 통합하며; KITTI 데이터 세트에서 많은 실험을 수행하여, 예측된 전경 포인트의 부위 위치 정보를 증명함으로써, 3D 목표 검출에 유리하고, 또한, 상기 3D 부위 감지 및 집계 신경망에 기반한 목표 검출 방법은, 관련 기술에서 포인트 클라우드를 입력으로 공급하는 목표 검출 방법보다 우수하다.
본 발명의 일부 실시예에서, 조감도 또는 2D 이미지에서 목표 검출을 수행하는 방안과 달리, 전경 포인트를 분할하여, 원시 포인트 클라우드로부터 초기 3D 프레임(즉 3D 후보 프레임)를 직접 생성하는 방안을 제안하며, 여기서, 분할 레이블은 훈련 데이터 세트에서 3D 프레임의 주석 정보로부터 직접 얻으며; 3D 프레임의 주석 정보는 분할 마스크를 제공할 뿐만 아니라, 3D 프레임 내의 모든 포인트의 정확한 프레임 내의 부위 위치를 제공한다. 이는 2D 이미지에서의 프레임 주석 정보와 완전히 상이하며, 2D 이미지에서의 부분 대상은 가려질 수 있기 때문이며; 2 차원 ground-truth 프레임을 사용하여 목표 검출을 수행할 경우, 목표 내의 각각의 픽셀을 위해 부정확하고 잡음이 있는 프레임 내의 부위 위치가 생성될 수 있으며; 반대로, 상기 3D 프레임 내의 부위 위치는 정확하고 정보가 풍부하며, 무료로 획득할 수 있으나, 3D 목표 검출에서 사용된 적이 없다.
이 중요한 발견을 바탕으로, 일부 실시예에서 상기 Part-A2 네트워크를 제안하였고; 구체적으로, 먼저 수행된 부위 감지 단계에서, 상기 네트워크는 학습을 통해, 모든 전경 포인트의 목표 부위 위치 정보를 추정하고, 여기서, 부위 위치의 주석 정보 및 분할 마스크는 수동으로 라벨링된 실제 정보로부터 직접 생성되며, 여기서, 수동으로 라벨링된 실제 정보는 Ground-truth로 기록되며, 예를 들어, 수동으로 라벨링된 실제 정보는 수동으로 라벨링된 3 차원 프레임일 수 있고, 실제 실시할 경우, 전체 3 차원 공간을 작은 메쉬로 분할하고, 희소 컨볼루션에 기반한 3 차원 UNET-like 신경망(U형 네트워크 구조)을 사용하여 포인트 특징을 학습하며; U 형 네트워크 구조에 대해 하나의 RPN 헤드 부분을 추가하여, 초기 3D 후보 프레임을 생성하며, 나아가, 부위 집계 단계에 진입하도록, 이러한 부위에 대해 집계를 수행할 수 있다.
부위 집계 단계의 동기는, 한 그룹의 3D 후보 프레임에서의 포인트가 주어지면, 상기 Part-A2 네트워크는 상기 후보 프레임의 품질을 평가할 수 있고, 모든 이러한 포인트의 예측된 목표 부위 위치의 공간 관계를 학습함으로써 상기 후보 프레임을 최적화할 수 있어야 한다. 따라서, 동일한 3D 프레임 내의 포인트에 대해 그룹 분할을 수행하기 위해, 새로운 감지 포인트 클라우드 풀링 모듈을 제안할 수 있고, RoI 감지 포인트 클라우드 풀링 모듈로 기록하며; RoI 감지 포인트 클라우드 풀링 모듈은 새로운 풀링 동작을 통해, 포인트 클라우드에서 영역 풀링을 수행할 때의 모호함을 제거할 수 있고; 관련 기술에서 풀링 동작 방안에서 모든 포인트 클라우드 또는 비공백 복셀에서 수행되는 풀링 동작과 상이하며, RoI 감지 포인트 클라우드 풀링 모듈은 3D 프레임에서의 모든 메쉬(비공백 메쉬 및 공백 메쉬)에서 풀링 동작을 수행하며, 공백 메쉬도 3D 프레임 정보에 대해 인코딩을 수행하므로, 이는 3D 프레임 평점 및 위치 보정의 효과적인 표현을 생성하는 핵심이다. 풀링 동작 후에, 상기 네트워크는 희소 컨볼루션 및 풀링 동작을 사용하여 부위 위치 정보를 집계할 수 있으며; 실험 결과는, 부위 특징에 대한 집계는 후보 프레임의 품질을 현저하게 향상시킬 수 있고, 3 차원 검출 기준에서 가장 진보적인 성능을 달성하였음을 보여준다.
상기 복수 개의 센서로부터 획득된 데이터에 기반하여 3D 목표 검출을 수행하는 것과 달리, 본 발명의 적용 실시예에서, 3D 부위 감지 및 집계 신경망은 다만 포인트 클라우드 데이터를 입력으로 사용하여, 관련 기술과 유사하거나 더 좋은 3D 검출 결과를 획득할 수 있으며; 나아가, 상기 3D 부위 감지 및 집계 신경망의 프레임워크에서, 3D 프레임의 주석 정보가 제공하는 풍부한 정보를 추가로 탐색하고, 정확한 목표 부위 위치 정보 예측을 학습하여, 3D 목표 검출의 성능을 향상시키며; 나아가, 본 발명의 적용 실시예는 하나의 U형 네트워크 구조의 백본 네트워크를 제안하며, 희소 컨볼루션 및 디컨볼루션을 사용하여 목표 부위 위치 정보 및 3 차원목표 검출을 예측하기 위한 포인트 클라우드 특징을 추출하여 인식할 수 있다.
도 2는 본 발명의 적용 실시예에서 3D 부위 감지 및 집계 신경망의 종합 프레임워크 모식도이며, 도 2에 도시된 바와 같이, 상기 3D 부위 감지 및 집계 신경망의 프레임워크는 부위 감지 단계 및 부위 집계 단계를 포함하며, 여기서, 부위 감지 단계에서, 원시 포인트 클라우드 데이터를 새로 설계된 U형 네트워크 구조의 백본 네트워크에 입력함으로써, 목표 부위 위치를 정확하게 추정하고 3D 후보 프레임을 생성할 수 있으며; 부위 집계 단계에서, RoI 감지 포인트 클라우드 풀링 모듈에 기반한 제안된 풀링 동작을 수행하였으며, 구체적으로, 3D 프레임에 대해 평점 및 위치 보정을 수행하도록, 각 3D 후보 프레임 내의 부위 정보를 그룹 분할한 다음, 부위 집계 네트워크를 사용하여 각 부위 사이의 공간 관계를 고려한다.
이해할 수 있는 것은, 3 차원 공간에서의 대상은 자연적으로 분리된 것이므로, 3D 목표 검출의 ground-truth 프레임은 각 3D 포인트에 대한 정확한 목표 부위 위치 및 분할 마스크를 제공하며; 이는 2D 목표 검출과 매우 상이하고, 2D 목표 프레임은 목표의 일부만 포함할 수 있으므로, 각 2D 픽셀에 대해 정확한 목표 부위 위치를 제공할 수 없다.
본 발명의 실시예의 목표 모니터링 방법은 다양한 적용 시나리오에 적용될 수 있으며, 첫 번째 예에서, 상기 목표 검출 방법을 사용하여 자율 주행을 수행하는 시나리오의 3D 목표 모니터링은, 주변 목표의 위치, 크기, 이동 방향 등 정보를 검출함으로써 자율 주행 결정을 지원하며; 두 번째 예에서, 상기 목표 검출 방법을 이용하여 3D 목표의 추적을 구현할 수 있으며, 구체적으로, 각 시점에 상기 목표 검출 방법을 사용하여 3D 목표 검출을 구현하고, 검출 결과는 3D 목표 추적의 근거로 사용될 수 있으며; 세 번째 예에서, 상기 목표 검출 방법을 사용하여 3D 프레임 내의 포인트 클라우드의 풀링 동작을 수행할 수 있으며, 구체적으로, 상이한 3D 프레임의 내의 희소 포인트 클라우드를 고정된 해상도를 갖는 하나의 3D 프레임의 특징으로 풀링할 수 있다.
이러한 중요한 발견을 바탕으로, 본 발명의 적용 실시예에서는 포인트 클라우드로부터 3D 목표 검출을 수행하기 위한 상기 Part-A2 네트워크를 제안한다. 구체적으로, 3D 부위 위치 레이블 및 분할 레이블을 도입하여 추가 감독 정보로 취하여, 3D 후보 프레임의 생성을 용이하게 하며; 부위 집계 단계에서, 각 3D 후보 프레임 내의 예측된 3D 목표 부위 위치 정보를 집계하여, 상기 후보 프레임에 대해 평점 및 위치 보정을 수행한다.
다음은 본 발명의 적용 실시 예의 흐름을 구체적으로 설명한다.
먼저 3D 포인트의 목표 부위 위치 정보를 추정하는 방법을 학습할 수 있다. 구체적으로, 도 2에 도시된 바와 같이, 본 발명의 적용 실시예는 하나의 U형 네트워크 구조를 설계하였고, 획득된 희소 메쉬에서 희소 컨볼루션 및 희소 디컨볼루션을 수행하여, 전경 포인트의 포인트 투 포인트 특징 표현을 학습하며; 도 2에서, 포인트 클라우드 데이터에 대해 스텝 길이가 2인 컨볼루션 연산을 세번 수행할 수 있고, 이러한 방법으로 포인트 클라우드 데이터의 공간 해상도를 다운 샘플링을 통해 초기 공간 해상도의 1/8까지 낮출 수 있으며, 희소 컨볼루션 연산마다 모두 몇 개의 서브매니폴드(submanifold) 희소 컨볼루션이 있으며; 여기서, 희소 컨볼루션 연산의 스텝 길이는 포인트 클라우드 데이터의 도달해야 하는 공간 해상도에 따라 결정될 수 있고, 예를 들어, 포인트 클라우드 데이터의 도달해야 하는 공간 해상도가 낮을수록, 희소 컨볼루션 연산의 스텝 길이는 더욱 길게 설정되어야 하며; 포인트 클라우드 데이터에 대해 3 번의 희소 컨볼루션 연산을 수행한 후, 3 번의 희소 컨볼루션 연산 후 얻은 특징에 대해 희소 업샘플링 및 특징 보정을 실행하며; 본 발명의 실시예에서, 희소 동작에 기반한 업샘플링 블럭(희소 업샘플링 동작에 사용됨)은, 융합 특징에 사용되고 컴퓨팅 자원을 절약할 수 있다.
희소 업샘플링 및 특징 보정은 희소 업샘플링 및 특징 보정 모듈에 기반하여 구현될 수 있고, 도 3은 본 발명의 적용 실시예에서의 희소 업샘플링 및 특징 보정의 모듈 블럭도이며, 상기 모듈은 희소 컨볼루션의 U형 네트워크 구조에 기반한 백본 네트워크의 인코더에 사용되며; 도 3을 참조하면, 희소 컨볼루션을 통해 횡방향 특징 및 베이스부 특징에 대해 먼저 융합을 수행한 다음, 희소 디컨볼루션을 통해 융합된 특징에 대해 특징 업샘플링을 수행하며, 도 3에서, 희소 컨볼루션 3×3×3은 컨볼루션 커널의 크기가 3×3×3인 희소 컨볼루션을 나타내고, 채널 연결(contcat)은 특징 벡터의 채널 방향에서의 연결을 나타내고, 채널 축소(channel reduction)는 특징 벡터의 채널 방향에서의 축소를 의미하고, 는 특징 벡터의 채널 방향에서의 추가를 나타내며; 알 수 있다시피, 도 3을 참조하면, 횡방향 특징 및 베이스부 특징에 대해, 희소 컨볼루션을 수행하여, 채널 연결, 채널 축소, 희소 디컨볼루션 등 동작을 수행함으로써, 횡방향 특징 및 베이스부 특징에 대한 특징 보정을 구현한다.
도 2를 참조하면, 3 번의 희소 컨볼루션 연산 후 얻은 특징에 대해 희소 업샘플링 및 특징 보정을 실행한 후, 또한 희소 업샘플링 및 특징 보정된 특징에 대해, 시맨틱 분할 및 목표 부위 위치 예측을 수행한다.
신경망을 사용하여 목표를 인식 및 검출할 경우, 목표 내의 부위 위치 정보는 필수이며; 예를 들어, 차량의 측면도 지면에 수직되는 하나의 평면이며, 두 바퀴는 항상 지면에 가깝다. 각 포인트의 전경 분할 마스크 및 목표 부위 위치를 추정하는 방법을 학습함으로써, 신경망은 물체의 모양과 자세를 추론하는 기능을 개발하였으며, 이는 3D 목표 검출에 유리하다.
구체적인 실시 과정에서, 상기 희소 컨볼루션의 U형 네트워크 구조 백본 네트워크의 기초 위에, 두 개의 분기를 추가할 수 있으며, 전경 포인트의 분할 및 이들의 물체 부위 위치를 예측하는데 각각 사용되며; 전경 포인트의 물체 부위 위치를 예측할 때, 훈련 데이터 세트의 3D 프레임의 주석 정보에 기반하여 예측을 수행하며, 훈련 데이터 세트에서, ground-truth 프레임 내외의 모든 포인트는 모두 양성 및 음성 샘플로서 훈련을 수행한다.
3D ground-truth 프레임은 자동으로 3D 부위 위치 레이블을 제공하며; 전경 포인트의 부위 레이블(px, py, pz)은 알려진 파라미터이며, 여기서, (px, py, pz)을 부위 위치 레이블(Ox, Oy, Oz)로 변환하여, 이가 상응한 목표에서의 상대 위치를 나타낼 수 있으며; 3D 프레임은 (Cx, Cy, Cz, h, w, l, )로 나타내고, 여기서, (Cx, Cy, Cz)는 3D 프레임의 중심 위치를 나타내고, (h, w, l)은 3D 프레임에 대응하는 조감도의 사이즈를 나타내며, 은 3D 프레임의 대응하는 조감도에서의 방향을 나타내며, 즉 3D 프레임의 대응하는 조감도에서의 조감도 의 X 축 방향을 향하는 협각이다. 부위 위치 레이블(Ox, Oy, Oz)은 공식 (1)을 통해 계산하여 얻을 수 있다.
여기서, , 목표 중심의 부위 위치는 (0.5, 0.5, 0.5)이며; 여기서, 공식 (1)과 관련된 좌표는 모두 KITTI의 레이저 레이더 좌표계로 표현되며, 여기서, z 방향은 지면에 수직되며, x 및 y 방향은 수평면에 있다.
여기서, 이진 교차 엔트로피 손실을 부위 회귀 손실로 사용하여 3 차원을 따른 전경 포인트 부위의 위치를 학습할 수 있으며, 그 표현식은 하기와 같다.
여기서, Pu는 시그모이드 계층(Sigmoid Layer) 이후의 예측된 목표 내 부위 위치를 나타내며, 은 예측된 3D 포인트의 부위 위치 정보를 나타내며, 여기서, 전경 포인트에 대해서만 부위 위치 예측을 수행할 수 있다.
본 발명의 적용 실시예에서, 또한 3D 후보 프레임을 생성할 수 있다. 구체적으로, 3D 목표 검출의 예측된 목표 내 부위 위치를 집계하기 위해, 3D 후보 프레임을 생성해야 하며, 동일한 목표로부터의 추정 전경 포인트의 목표 부위 정보를 집계하며; 실제 실시할 경우, 도 2에 도시된 바와 같이, 희소 컨볼루션 인코더에서 생성된 특징맵(즉 포인트 클라우드 데이터에 대해 3 번의 희소 컨볼루션 연산을 수행한 후 얻은 특징맵)에 동일한 RPN 헤드를 추가하며; 3D 후보 프레임을 생성하기 위해, 특징맵을 8 배로 샘플링하고, 동일한 조감도 위치의 상이한 높이에 있는 특징을 집계하여, 3D 후보 프레임 생성을 위한 2D 조감도 특징맵을 생성한다.
도 2를 참조하면, 추출된 3D 후보 프레임에 대해, 부위 집계 단계에서 풀링 동작을 실행할 수 있으며, 풀링 동작에 대한 구현 방식에 대해, 일부 실시예에서, 포인트 클라우드 영역 풀링 동작을 제안하였고, 3D 후보 프레임에서의 포인트 투 포인트 특징에 대해 풀링 동작을 수행한 다음, 풀링 동작 후의 특징맵에 기반하여, 3D 후보 프레임에 대해 보정을 수행하고; 그러나, 3D 후보 프레임에서의 포인트가 불규칙하게 분포되고, 풀링된 포인트에서 3D 프레임을 복원하는 모호성이 있기 때문에, 이러한 풀링 동작은 3D 후보 프레임 정보를 손실할 수 있다.
도 4는 본 발명의 적용 실시예에서 포인트 클라우드 풀링 동작의 모식도이며, 도 4에 도시된 바와 같이, 이전의 포인트 클라우드 풀링 동작은 상기 언급된 포인트 클라우드 영역 풀링 동작을 나타내며, 원은 풀링된 포인트를 나타내며, 알 수 있다시피, 상기 언급된 포인트 클라우드 영역 풀링 동작을 사용하면, 상이한 3D 후보 프레임은 동일한 풀링된 포인트를 초래하며, 다시 말해서, 상기 언급된 포인트 클라우드 영역 풀링 동작은 모호성이 존재하므로, 이전의 포인트 클라우드 풀링 방법을 사용하여 초기 3D 후보 프레임 모양을 복원할 없어, 후속 후보 프레임 보정에 부정적인 영향을 미친다.
풀링 동작의 구현 방식에 대해, 다른 실시예에서, ROI 감지 포인트 클라우드 풀링 동작을 제안하였고, ROI 감지 포인트 클라우드 풀링 동작의 구체적인 과정은, 상기 각 3D 후보 프레임을 복수 개의 메쉬로 균일하게 분할하고, 상기 복수 개의 메쉬 중 임의의 하나의 메쉬가 전경 포인트를 포함하지 않을 경우, 상기 임의의 하나의 메쉬는 공백 메쉬이며, 이 경우, 상기 임의의 하나의 메쉬의 부위 위치 정보를 공백으로 표기할 수 있고, 상기 임의의 하나의 메쉬의 포인트 클라우드 시맨틱 특징을 0으로 설정하며; 상기 각 메쉬의 전경 포인트의 부위 위치 정보에 대해 균일화 풀링 처리를 수행하고, 상기 각 메쉬의 전경 포인트의 포인트 클라우드 시맨틱 특징에 대해 풀링 처리를 수행하여, 풀링된 각 3D 후보 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징을 얻는다.
이해할 수 있는 것은, 도 4를 결합하면, ROI 감지 포인트 클라우드 풀링 동작은 공백 메쉬를 유지하여 3D 후보 프레임의 모양에 대해 인코딩을 수행하며, 희소 컨볼루션은 후보 프레임의 모양(공백 메쉬)을 효과적으로 처리할 수 있다.
다시 말해서, RoI 감지 포인트 클라우드 풀링 동작의 구체적인 구현 방식에 있어서, 3D 후보 프레임을 고정된 공간 형상 (H*W*L)을 구비한 규칙적인 메쉬로 균일하게 구분할 수 있으며, 여기서, H, W 및 L은 각 차원에서의 풀링 해상도의 높이, 너비 및 길이의 하이퍼 파라미터를 나타내며, 3D 후보 프레임의 크기와 무관하다. 각 메쉬 내의 포인트 특징을 집계(예를 들어, 최대화 풀링 또는 균일 풀링)하여 각 메쉬의 특징을 계산하며; 알 수 있다시피, ROI 감지 포인트 클라우드 풀링 동작에 기반하여, 상이한 3D 후보 프레임을 동일한 로컬 공간 좌표로 규범화할 수 있으며, 여기서, 각 메쉬는 3D 후보 프레임에서의 상응 고정 위치의 특징에 대해 인코딩을 수행하고, 이는 3D 후보 프레임의 인코딩에 대해 더욱 의미가 있으며, 후속 3D 후보 프레임 평점 및 위치 보정에 도움이 된다.
풀링된 3D 후보 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징을 얻은 후, 또한 3D 후보 프레임 보정을 위한 부위 위치 집계를 실행할 수 있다.
구체적으로, 하나의 3D 후보 프레임에서 모든 3D 포인트의 예측된 목표 부위 위치의 공간 분포를 고려하면, 집계 부위 위치를 통해 상기 3D 후보 프레임의 품질이 합리적인지를 평가한다고 간주할 수 있으며; 부위 위치의 집계 문제를 최적화 문제로 표현할 수 있으며, 상응한 3D 후보 프레임에서의 모든 포인트의 예측 부위 위치를 피팅하여 3D 경계 프레임의 파라미터를 직접 해결할 수 있다. 그러나, 이러한 수학적 방법은 특이치 및 예측된 부위의 오프셋의 품질에 대해 매우 민감하다.
이 문제를 해결하기 위해, 본 발명의 적용 실시예에서, 학습에 기반한 방법을 제안하였고, 부위 위치 정보를 안정적으로 집계하여, 3D 후보 프레임 평점(즉 신뢰도) 및 위치 보정을 수행하는데 사용될 수 있다. 각 3D 후보 프레임에 대해, 3D 후보 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징에서 제안된 ROI 감지 포인트 클라우드 풀링 동작을 각각 적용함으로써, 두 개의 사이즈가 (14*14*14*4) 및 (14*14*14*C)인 특징맵을 생성하며, 여기서, 예측된 부위 위치 정보는 4 차원 매핑에 대응하며, 여기서, 3 개의 차원은 부위 위치를 나타내기 위한 XYZ 차원을 나타내고, 하나의 차원은 전경 분할 점수를 나타내며, C는 부위 감지 단계에서 얻은 포인트 투 포인트 특징의 특징 사이즈를 나타낸다.
풀링 동작 이후, 도 2에 도시된 바와 같이, 부위 집계 단계에서, 계층 분할 방식으로 예측된 목표 부위 위치의 공간적 분포로부터 학습할 수 있다. 구체적으로, 커널 크기가 3*3*3인 희소 컨볼루션 계층을 사용하여 두 개의 풀링된 특징맵(풀링된 3D 후보 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징을 포함함)을 동일한 특징 차원으로 변환한 다음; 이 두 개의 동일한 특징 차원의 특징맵을 연결하며; 연결된 특징맵에 대해, 커널 크기가 3*3*3인 4 개의 희소 컨볼루션 계층을 적층하여 희소 컨볼루션 연산을 수행할 수 있으며, 수용 필드가 증가함에 따라, 부위 정보를 점진적으로 집계할 수 있다. 실제 실시할 경우, 풀링된 특징맵을 동일한 특징 차원의 특징맵으로 변환한 후, 커널 크기가 2*2*2이고 스텝 길이가 2*2*2인 희소 최대화 풀링 동작을 적용하여, 특징맵의 해상도를 7*7*7으로 다운 샘플링하여, 컴퓨팅 자원 및 파라미터를 절약한다. 커널의 크기가 3*3*3인 4 개의 희소 컨볼루션 계층을 적층하여 희소 컨볼루션 연산을 수행한 후, 또한 희소 컨볼루션 연산 후에 얻은 특징맵을 벡터화(도 2의 FC에 대응함)하여, 하나의 특징 벡터를 얻고; 특징 벡터를 얻은 후, 2 개의 분기를 추가하여 최종 3D 후보 프레임 평점 및 3D 후보 프레임 위치 보정을 수행하며; 예시적으로, 3D 후보 프레임 평점은 3D 후보 프레임의 신뢰도평점을 나타내고, 3D 후보 프레임의 신뢰도 평점은 적어도 3D 후보 프레임 내의 전경 포인트의 부위 위치 정보의 평점을 나타낸다.
풀링된 3 차원 특징도를 특징 벡터로 벡터화하는 방법과 비교할 경우, 본 발명의 적용 실시예에서 제안된 부위집계 단계의 실행 과정은, 부분에서 전체 스케일로 효과적으로 집계될 수 있으므로, 예측 부위 위치의 공간 분포를 학습할 수 있다. 풀링된 메쉬는 매우 희소하므로, 희소 컨볼루션을 사용하여, 많은 컴퓨팅 자원 및 파라미터를 절약하며; 관련 기술에서, 각 메쉬를 3D 후보 프레임 중 하나의 특정 위치의 특징으로 인코딩해야 하므로, 관련 기술은 이를 무시(희소 컨볼루션을 사용하여 부위 위치 집계를 수행할 수 없음)할 수 없다.
이해할 수 있는 것은, 도 2를 참조하면, 3D 후보 프레임에 대해 위치 보정을 수행한 후, 위치 보정된 3D 프레임, 즉, 최종 3D 프레임을 얻을 수 있으며, 3D 목표 검출에 사용될 수 있다.
본 발명의 적용 실시예에서, 2 개의 분기를 예측된 부위 정보로부터 집계된 벡터화 특징 벡터에 추가할 수 있다. 3D 후보 프레임 평점(즉 신뢰도) 분기에 있어서, 3D 후보 프레임과 이에 대응하는 ground-truth 프레임 사이의 3D 교집합 대 합집합(Intersection Over Union, IOU)을 3D 후보 프레임 품질 평가의 소프트 레이블로 취할 수 있으며, 공식 (2)에 따라 이진 교차 엔트로피 손실을 사용하여, 3D 후보 프레임 평점을 학습할 수 있다.
3D 후보 프레임의 생성 및 위치 보정에 대해, 회귀 목표 방안을 사용하고, 평활화-L1(smooth-L1) 손실을 사용하여 정규화 프레임 파라미터에 대해 회귀를 수행할 수 있으며, 구체적인 구현 과정은 공식 (3)에 표시된 바와 같다.
여기서, 은 3D 프레임 중심 위치의 오프셋을 나타내고, 은 3D 프레임에 대응하는 조감도의 사이즈 오프셋을 나타내며, 은 3D 프레임에 대응하는 조감도의 방향 오프셋을 나타내며, da 는 표준화 조감도에서의 중심 오프셋을 나타내고, xa, ya 및 za는 3D 앵커 포인트/후보 프레임의 중심 위치를 나타내며, ha, wa 및 la는 3D 앵커 포인트/후보 프레임에 대응하는 조감도의 사이즈를 나타내며, 은 3D 앵커 포인트/후보 프레임에 대응하는 조감도의 방향을 나타내며; xg, yg 및 zg는 대응하는 ground-truth 프레임의 중심 위치를 나타내며, hg, wg 및 lg는 상기 ground-truth 프레임에 대응하는 조감도의 사이즈를 나타내며, 은 ground-truth 프레임에 대응하는 조감도의 방향을 나타낸다.
관련 기술에서 후보 프레임의 보정 방법의 차이점은, 본 발명의 적용 실시예에서 3D 후보 프레임의 위치 보정에 대해, 3D 후보 프레임의 파라미터에 따라 파라미터 상대적인 오프셋 또는 크기 비율을 직접 회귀할 수 있으며, 이는 상기 ROI 감지 포인트 클라우드 풀링 모듈은 3D 후보 프레임의 모든 공유 정보에 대해 인코딩을 수행하였고, 상이한 3D 후보 프레임을 동일한 표준화 공간 좌표계로 전달하였기 때문이다.
알 수 있다시피, 동일한 손실 가중치 1을 가지고 있는 부위 감지 단계에는, 3 개의 손실, 즉 전경 포인트 분할의 초점 손실, 목표 내 부위 위치의 회귀의 이진 교차 엔트로피 손실 및 3D 후보 프레임에 의해 생성된 평활화-L1 손실이 존재하고; 부위 집계 단계에도, 2 개의 손실이 있으며, 손실 가중치가 동일하며, IOU 회귀의 이진 교차 엔트로피 손실 및 위치 보정의 평활화 L1 손실을 포함한다.
종합하면, 본 발명의 적용 실시예는 새로운 3D 목표 검출 방법을 제안하였고, 즉 상기 Part-A2 네트워크를 사용하여, 포인트 클라우드로부터 3 차원 목표를 검출하며; 부위 감지 단계에서, 3D 프레임로부터의 위치 레이블을 통해 정확한 목표 부위 위치를 추정하고; 새로운 ROI 감지 포인트 클라우드 풀링 모듈을 통해 각 목표의 예측된 부위 위치에 대해 그룹 분할을 수행한다. 따라서, 부위 집계 단계에서는 목표 내 부위 위치의 공간 관계를 고려하여, 3D 후보 프레임에 대해 채점을 수행하고 그것의 위치를 보정할 수 있다. 실험 결과, 상기 발명의 적용 실시예의 목표 검출 방법은 도전성이 있는 KITTI 3 차원 검출 기준에서 가장 진보적인 성능을 달성하는 것으로 나타났으며, 이는 상기 방법의 유효성을 입증한다.
본 분야의 기술자는 구체적인 실시형태의 상기 이미지 재구성 방법에서, 각 단계의 기록 순서는 엄격한 실행 순서를 의미하지 않고 실시 과정에 대한 임의의 제한을 구성하며, 각 단계의 구체적인 실행 순서는 그 기능 및 가능한 내부 논리에 의해 결정된다.
전술한 실시예에서 제안된 목표 검출 방법을 기반으로, 본 발명의 실시예는 목표 검출 장치를 제안하였다.
도 5는 본 발명의 실시예의 목표 검출 장치의 구성 구조 모식도이며, 도 5에 도시된 바와 같이, 상기 목표 검출 장치는 전자 기기에 위치하고, 상기 목표 검출 장치는, 획득 모듈(601), 제1 처리 모듈(602) 및 제2 처리 모듈(603)을 포함하며, 여기서,
획득 모듈(601)은, 3D 포인트 클라우드 데이터를 획득하고; 상기 3D 포인트 클라우드 데이터에 따라, 상기 3D 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징을 결정하도록 구성되며;
제1 처리 모듈(602)은, 상기 포인트 클라우드 시맨틱 특징에 기반하여, 전경 포인트의 부위 위치 정보를 결정하고 - 상기 전경 포인트는 상기 포인트 클라우드 데이터에서 목표에 속하는 포인트 클라우드 데이터를 나타내고, 상기 전경 포인트의 부위 위치 정보는 상기 전경 포인트의 목표 내에서의 상대적인 위치를 나타냄 - ; 상기 포인트 클라우드 데이터에 기반하여 적어도 하나의 초기 3D 프레임을 추출하도록 구성되고;
제2 처리 모듈(603)은, 상기 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징, 상기 전경 포인트의 부위 위치 정보 및 상기 적어도 하나의 초기 3D 프레임에 기반하여, 목표의 3D 검출 프레임을 결정하도록 구성되며, 상기 검출 프레임 내의 영역에는 목표가 존재한다.
하나의 실시형태에서, 상기 제2 처리 모듈(603)은, 각 초기 3D 프레임에 대해, 전경 포인트의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징의 풀링 동작을 수행하여, 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징을 얻고; 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하여, 상기 목표의 3D 검출 프레임을 결정하도록 구성된다.
하나의 실시형태에서, 상기 제2 처리 모듈(603)은, 상기 각 초기 3D 프레임을 복수 개의 메쉬로 균일하게 분할하여, 각 메쉬에 대해 전경 포인트의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징의 풀링 동작을 수행하여, 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징을 얻고; 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하여, 상기 목표의 3D 검출 프레임을 결정하도록 구성된다.
하나의 실시형태에서, 상기 제2 처리 모듈(603)은 각 메쉬에 대해 전경 포인트의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징의 풀링 동작을 수행할 경우, 하나의 메쉬에 전경 포인트가 포함되지 않은 상황에 응답하여, 상기 메쉬의 부위 위치 정보를 공백으로 마킹하여, 상기 메쉬의 풀링된 전경 포인트의 부위 위치 정보를 얻고, 상기 메쉬의 포인트 클라우드 시맨틱 특징을 0으로 설정하여, 상기 메쉬의 풀링된 포인트 클라우드 시맨틱 특징을 얻고; 하나의 메쉬에 전경 포인트가 포함된 상황에 응답하여, 상기 메쉬의 전경 포인트의 부위 위치 정보에 대해 균일한 풀링 처리를 수행하여, 상기 메쉬의 풀링된 전경 포인트의 부위 위치 정보를 얻고, 상기 메쉬의 전경 포인트의 포인트 클라우드 시맨틱 특징에 대해 풀링 처리를 최대화하여, 상기 메쉬의 풀링된 포인트 클라우드 시맨틱 특징을 얻도록 구성된다.
하나의 실시형태에서, 상기 제2 처리 모듈(603)은, 각 초기 3D 프레임에 대해, 전경 포인트의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징의 풀링 동작을 수행하여, 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징을 얻고; 상기 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징을 합병하여, 합병된 특징에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하도록 구성된다.
하나의 실시형태에서, 상기 제2 처리 모듈(603)은 합병된 특징에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행할 경우,
상기 합병된 특징을 특징 벡터로 벡터화하여, 상기 특징 벡터에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하고; 또는,
상기 합병된 특징에 대해, 희소 컨볼루션 연산을 수행함으로써, 희소 컨볼루션 연산 후의 특징맵을 얻고; 상기 희소 컨볼루션 연산 후의 특징맵에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하며; 또는,
상기 합병된 특징에 대해, 희소 컨볼루션 연산을 수행함으로써, 희소 컨볼루션 연산 후의 특징맵을 얻고; 상기 희소 컨볼루션 연산 후의 특징맵에 대해 다운 샘플링을 수행하여, 다운 샘플링된 특징맵에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하도록 구성된다.
하나의 실시형태에서, 상기 제2 처리 모듈(603)은 상기 희소 컨볼루션 연산 후의 특징맵에 대해 다운 샘플링을 수행할 경우, 상기 희소 컨볼루션 연산 후의 특징맵에 대해 풀링 동작을 수행함으로써, 상기 희소 컨볼루션 연산 후의 특징맵에 대한 다운 샘플링 처리를 구현하도록 구성된다 .
하나의 실시형태에서, 상기 획득 모듈(601)은, 3D 포인트 클라우드 데이터를 획득하여, 상기 3D 포인트 클라우드 데이터에 대해 3D 메쉬 처리를 수행하여, 3D 메쉬를 얻고; 상기 3D 메쉬의 비공백 메쉬에서 상기 3D 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징을 추출하도록 구성된다.
하나의 실시형태에서, 상기 제1 처리 모듈(602)은 상기 포인트 클라우드 시맨틱 특징에 기반하여, 전경 포인트의 부위 위치 정보를 결정할 경우, 상기 포인트 클라우드 시맨틱 특징에 따라 상기 포인트 클라우드 데이터에 대해 전경과 배경의 분할을 수행하여, 전경 포인트를 결정하고 - 상기 전경 포인트는 상기 포인트 클라우드 데이터에서 전경에 속하는 포인트 클라우드 데이터임 - ; 전경 포인트의 부위 위치 정보를 예측하기 위한 신경망을 사용하여 결정된 전경 포인트에 대해 처리를 수행하여, 전경 포인트의 부위 위치 정보를 얻도록 구성되며; 여기서, 상기 신경망은 3D 프레임의 주석 정보를 포함하는 훈련 데이터 세트를 사용하여 훈련하여 얻어지며, 상기 3D 프레임의 주석 정보는 적어도 상기 훈련 데이터 세트의 포인트 클라우드 데이터의 전경 포인트의 부위 위치 정보를 포함한다.
또한, 본 실시예에서의 각 기능 모듈은 하나의 프로세스 유닛에 통합될 수 있거나, 각 유닛이 독립적인 물리적 존재일 수 있으며, 두 개 또는 두 개 이상의 유닛이 하나의 유닛에 통합될 수도 있다. 상기 통합된 유닛은 하드웨어 또는 소프트웨어 기능 모듈의 형태로 구현될 수 있다.
상기 통합된 유닛은 독립된 제품으로서 판매되거나 사용되는 것이 아닌 소프트웨어 기능 모듈의 형태로 구현될 경우, 하나의 컴퓨터 판독 가능 저장 매체에 저장될 수 있으며, 이러한 이해에 기반하여, 본 실시예의 기술방안은 본질적으로 또는 기존 기술에 기여하는 부분이나 상기 기술방안의 전부 또는 일부는 소프트웨어 제품의 형태로 구현될 수 있으며, 상기 컴퓨터 소프트웨어 제품은 하나의 저장 매체에 저장되며, 하나의 컴퓨터 기기(개인용 컴퓨터, 서버, 또는 네트워크 기기 등) 또는 프로세서(processor)로 하여금 본 실시예에서 설명한 방법의 전부 또는 일부 단계를 실행하도록 하는 몇 개의 명령어를 포함한다. 전술한 저장 매체는, U 디스크, 모바일 하드 디스크, 롬(Read-Only Memory, ROM), 랜덤 액세스 메모리(Random Access Memory, RAM), 자기 디스크 또는 광 디스크 등 프로그램 코드를 저장할 수 있는 여러가지 매체를 포함한다.
구체적으로, 본 실시예에서의 임의의 하나의 목표 검출 방법 또는 지능형 주행 방법에 대응하는 컴퓨터 프로그램 명령어는 광 디스크, 하드 드라이브, U 디스크 등과 같은 저장 저장 매체에 저장될 수 있으며, 저장 매체 중의 임의의 하나의 목표 검출 방법 또는 지능형 주행 방법에 대응하는 컴퓨터 프로그램 명령어는 하나의 전자 기기에 의해 판독 또는 실행될 때, 전술한 실시예의 임의의 하나의 목표 검출 방법 또는 지능형 주행 방법을 구현한다.
전술한 실시예와 동일한 기술적 개념에 기반하여, 도 6을 참조하면, 본 발명의 실시예에서 제공한 전자 기기(70)를 제공하며, 메모리(71) 및 프로세서(72)를 포함할 수 있으며; 여기서,
상기 메모리(71)는, 컴퓨터 프로그램 및 데이터를 저장하도록 구성되고;
상기 프로세서(72)는, 상기 메모리에 저장된 컴퓨터 프로그램을 실행하여, 전술한 실시예의 임의의 하나의 목표 검출 방법 또는 지능형 주행 방법을 구현하도록 구성된다.
실제 적용에서, 상기 메모리(71)는 RAM과 같은 휘발성 메모리(volatile memory), 또는 ROM, 플래시 메모리(flash memory), 하드 디스크(Hard Disk Drive, HDD) 또는 솔리드 스테이트 드라이브(Solid-State Drive, SSD)와 같은 비휘발성 메모리(non-volatile memory), 또는 상기 타입의 메모리의 조합일 수 있으며, 프로세서(72)에 명령어 및 데이터를 제공한다.
상기 프로세서(72)는 ASIC, DSP, DSPD, PLD, FPGA, CPU, 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 중 적어도 하나일 수 있다. 이해할 수 있는 것은, 상이한 기기에 대해, 상기 프로세서 기능을 구현하기 위한 전자 소자는 다른 기기일 수 있으며, 본 발명의 실시예에서 특별히 한정하지 않는다.
본 발명의 실시예는 컴퓨터 프로그램이 저장된 컴퓨터 저장 매체를 제공하며, 상기 컴퓨터 프로그램은 프로세서에 의해 실행될 때 상기 임의의 하나의 목표 검출 방법을 구현한다.
본 발명의 실시예는 또한 컴퓨터 프로그램 제품을 제공하며, 상기 컴퓨터 프로그램 제품은 컴퓨터 실행 가능 명령어를 포함하며, 상기 컴퓨터 실행 가능 명령어는 실행된 후, 본 발명의 실시예에서 제공된 임의의 목표 검출 방법을 구현할 수 있다.
일부 실시예에 있어서, 본 발명의 실시예에서 제공한 장치가 갖고 있는 기능 또는 포함하는 모듈은 전술한 방법 실시예에서 설명한 방법을 실행하는데 사용될 수 있고, 그 구체적인 구현은 전술한 방법 실시예의 설명을 참조할 수 있으며, 간결함을 위해, 여기서 더이상 반복하여 설명하지 않는다.
위의 다양한 실시예의 설명은 다양한 실시 예 간의 차이점을 강조하는 경향이 있으며, 그것의 동일하거나 유사점을 서로 참조할 수 있으며, 간결함을 위해, 더이상 반복하지 않는다.
본 출원에서 제공되는 방법 실시예에 개시된 방법은 새로운 방법 실시 예를 얻기 위해 충돌없이 임의로 조합 될 수있다.
본 출원에서 제공되는 제품 실시예에 개시된 특징은 새로운 제품 실시 예를 얻기 위해 충돌없이 임의로 조합 될 수있다.
본 출원에서 제공되는 방법 또는 기기 실시예에 개시된 특징은 새로운 방법 실시예 또는 기기 실시 예를 얻기 위해 충돌없이 임의로 조합 될 수있다.
상기 실시형태의 설명을 통해, 당업자는 상기 실시예의 방법이 소프트웨어에 필요한 범용 하드웨어 플랫폼을 추가하는 방식으로 구현될 수 있으며, 물론 하드웨어를 통해서도 구현될 수 있으나, 많은 경우 전자는 더 바람직한 구현 방식이다. 이러한 이해에 기반하여, 본 발명의 기술방안은 본질적으로 또는 종래의 기술에 기여하는 부분은 소프트웨어 제품의 형태로 구현될 수 있고, 상기 컴퓨터 소프트웨어 제품은 하나의 저장 매체(예컨대 ROM/RAM, 자기 디스크, 광 디스크)에 저장되고, 하나의 단말(휴대폰, 컴퓨터, 서버, 에어컨, 또는 네트워크 기기 등)이 본 발명의 각 실시예에 따른 방법을 실행하도록 하는 여러 명령어를 포함한다.
본 발명의 실시예는 도면을 참조하여 위에서 설명되었으나, 본 발명은 전술한 특정 실시예에 한정되지 않으며, 전술한 특정 실시예는 예시일뿐 한정적이지 않으며, 본 발명의 계몽하에, 당업자는 본 개시의 목적 및 청구 범위의 보호 범위를 벗어나지 않고 많은 형태를 만들 수 있으며, 이들은 모두 본 개시의 보호 내에있다.
Claims (22)
- 목표 검출 방법으로서,
3 차원(3D) 포인트 클라우드 데이터를 획득하는 단계;
상기 3D 포인트 클라우드 데이터에 따라, 상기 3D 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징을 결정하는 단계;
상기 포인트 클라우드 시맨틱 특징에 기반하여, 전경 포인트의 부위 위치 정보를 결정하는 단계 - 상기 전경 포인트는 상기 포인트 클라우드 데이터에서 목표에 속하는 포인트 클라우드 데이터를 나타내고, 상기 전경 포인트의 부위 위치 정보는 상기 전경 포인트의 목표 내에서의 상대적인 위치를 나타냄 - ;
상기 포인트 클라우드 데이터에 기반하여 적어도 하나의 초기 3D 프레임을 추출하는 단계; 및
상기 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징, 상기 전경 포인트의 부위 위치 정보 및 상기 적어도 하나의 초기 3D 프레임에 기반하여, 목표의 3D 검출 프레임을 결정하는 단계 - 상기 검출 프레임 내의 영역에는 목표가 존재함 - 를 포함하는 것을 특징으로 하는 목표 검출 방법. - 제1항에 있어서,
상기 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징, 상기 전경 포인트의 부위 위치 정보 및 상기 적어도 하나의 초기 3D 프레임에 따라, 목표의 3D 검출 프레임을 결정하는 단계는,
각 초기 3D 프레임에 대해, 전경 포인트의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징의 풀링 동작을 수행하여, 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징을 얻는 단계; 및
풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하여, 상기 목표의 3D 검출 프레임을 결정하는 단계를 포함하는 것을 특징으로 하는 목표 검출 방법. - 제2항에 있어서,
상기 각 초기 3D 프레임에 대해, 전경 포인트의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징의 풀링 동작을 수행하여, 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징을 얻는 단계는,
상기 각 초기 3D 프레임을 복수 개의 메쉬로 균일하게 분할하여, 각 메쉬에 대해 전경 포인트의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징의 풀링 동작을 수행하여, 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징을 얻는 단계를 포함하는 것을 특징으로 하는 목표 검출 방법. - 제3항에 있어서,
상기 각 메쉬에 대해 전경 포인트의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징의 풀링 동작을 수행하는 단계는,
하나의 메쉬에 전경 포인트가 포함되지 않은 상황에 응답하여, 상기 메쉬의 부위 위치 정보를 공백으로 마킹하여, 상기 메쉬의 풀링된 전경 포인트의 부위 위치 정보를 얻고, 상기 메쉬의 포인트 클라우드 시맨틱 특징을 0으로 설정하여, 상기 메쉬의 풀링된 포인트 클라우드 시맨틱 특징을 얻는 단계; 및
하나의 메쉬에 전경 포인트가 포함된 상황에 응답하여, 상기 메쉬의 전경 포인트의 부위 위치 정보에 대해 균일한 풀링 처리를 수행하여, 상기 메쉬의 풀링된 전경 포인트의 부위 위치 정보를 얻고, 상기 메쉬의 전경 포인트의 포인트 클라우드 시맨틱 특징에 대해 풀링 처리를 최대화하여, 상기 메쉬의 풀링된 포인트 클라우드 시맨틱 특징을 얻는 단계를 포함하는 것을 특징으로 하는 목표 검출 방법. - 제2항에 있어서,
상기 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하는 단계는,
상기 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징을 합병하여, 합병된 특징에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하는 단계를 포함하는 것을 특징으로 하는 목표 검출 방법. - 제5항에 있어서,
상기 합병된 특징에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하는 단계는,
상기 합병된 특징을 특징 벡터로 벡터화하여, 상기 특징 벡터에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하는 단계; 또는,
상기 합병된 특징에 대해, 희소 컨볼루션 연산을 수행함으로써, 희소 컨볼루션 연산 후의 특징맵을 얻고; 상기 희소 컨볼루션 연산 후의 특징맵에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하는 단계; 또는,
상기 합병된 특징에 대해, 희소 컨볼루션 연산을 수행함으로써, 희소 컨볼루션 연산 후의 특징맵을 얻고; 상기 희소 컨볼루션 연산 후의 특징맵에 대해 다운 샘플링을 수행하여, 다운 샘플링된 특징맵에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하는 단계를 포함하는 것을 특징으로 하는 목표 검출 방법. - 제6항에 있어서,
상기 희소 컨볼루션 연산 후의 특징맵에 대해 다운 샘플링을 수행하는 단계는,
상기 희소 컨볼루션 연산 후의 특징맵에 대해 풀링 동작을 수행함으로써, 상기 희소 컨볼루션 연산 후의 특징맵에 대한 다운 샘플링 처리를 구현하는 단계를 포함하는 것을 특징으로 하는 목표 검출 방법. - 제1항 내지 제7항 중 어느 한 항에 있어서,
상기 3D 포인트 클라우드 데이터에 따라, 상기 3D 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징을 결정하는 단계는,
상기 3D 포인트 클라우드 데이터에 대해 3D 메쉬 처리를 수행하여, 3D 메쉬를 얻고; 상기 3D 메쉬의 비공백 메쉬에서 상기 3D 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징을 추출하는 단계를 포함하는 것을 특징으로 하는 목표 검출 방법. - 제1항 내지 제7항 중 어느 한 항에 있어서,
상기 포인트 클라우드 시맨틱 특징에 기반하여, 전경 포인트의 부위 위치 정보를 결정하는 단계는,
상기 포인트 클라우드 시맨틱 특징에 따라 상기 포인트 클라우드 데이터에 대해 전경과 배경의 분할을 수행하여, 전경 포인트를 결정하는 단계 - 상기 전경 포인트는 상기 포인트 클라우드 데이터에서 전경에 속하는 포인트 클라우드 데이터임 - ; 및
전경 포인트의 부위 위치 정보를 예측하기 위한 신경망을 사용하여 결정된 전경 포인트에 대해 처리를 수행하여, 전경 포인트의 부위 위치 정보를 얻는 단계를 포함하며;
상기 신경망은 3D 프레임의 주석 정보를 포함하는 훈련 데이터 세트를 사용하여 훈련하여 얻어지며, 상기 3D 프레임의 주석 정보는 적어도 상기 훈련 데이터 세트의 포인트 클라우드 데이터의 전경 포인트의 부위 위치 정보를 포함하는 것을 특징으로 하는 목표 검출 방법. - 지능형 주행 방법으로서,
지능형 주행 기기에 적용되며, 상기 지능형 주행 방법은,
제1항 내지 제9항 중 어느 한 항에 따른 목표 검출 방법에 따라 상기 지능형 주행 기기 주변의 상기 목표의 3D 검출 프레임을 얻는 단계; 및
상기 목표의 3D 검출 프레임에 따라, 주행 전략을 생성하는 단계를 포함하는 것을 특징으로 하는 지능형 주행 방법. - 목표 검출 장치로서,
상기 목표 검출 장치는 획득 모듈, 제1 처리 모듈 및 제2 처리 모듈을 포함하고,
3 차원(3D) 포인트 클라우드 데이터를 획득하고; 상기 3D 포인트 클라우드 데이터에 따라, 상기 3D 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징을 결정하도록 구성된 획득 모듈;
상기 포인트 클라우드 시맨틱 특징에 기반하여, 전경 포인트의 부위 위치 정보를 결정하고 - 상기 전경 포인트는 상기 포인트 클라우드 데이터에서 목표에 속하는 포인트 클라우드 데이터를 나타내고, 상기 전경 포인트의 부위 위치 정보는 상기 전경 포인트의 목표 내에서의 상대적인 위치를 나타냄 - ; 상기 포인트 클라우드 데이터에 기반하여 적어도 하나의 초기 3D 프레임을 추출하도록 구성된 제1 처리 모듈; 및
상기 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징, 상기 전경 포인트의 부위 위치 정보 및 상기 적어도 하나의 초기 3D 프레임에 기반하여, 목표의 3D 검출 프레임을 결정하도록 구성된 제2 처리 모듈 - 상기 검출 프레임 내의 영역에는 목표가 존재함 - 을 포함하는 것을 특징으로 하는 목표 검출 장치. - 제11항에 있어서,
상기 제2 처리 모듈은, 각 초기 3D 프레임에 대해, 전경 포인트의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징의 풀링 동작을 수행하여, 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징을 얻고; 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하여, 상기 목표의 3D 검출 프레임을 결정하도록 구성된 것을 특징으로 하는 목표 검출 장치. - 제12항에 있어서,
상기 제2 처리 모듈은, 상기 각 초기 3D 프레임을 복수 개의 메쉬로 균일하게 분할하여, 각 메쉬에 대해 전경 포인트의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징의 풀링 동작을 수행하여, 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징을 얻고; 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하여, 상기 목표의 3D 검출 프레임을 결정하도록 구성된 것을 특징으로 하는 목표 검출 장치. - 제13항에 있어서,
상기 제2 처리 모듈은 각 메쉬에 대해 전경 포인트의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징의 풀링 동작을 수행하는 경우,
하나의 메쉬에 전경 포인트가 포함되지 않은 상황에 응답하여, 상기 메쉬의 부위 위치 정보를 공백으로 마킹하여, 상기 메쉬의 풀링된 전경 포인트의 부위 위치 정보를 얻고, 상기 메쉬의 포인트 클라우드 시맨틱 특징을 0으로 설정하여, 상기 메쉬의 풀링된 포인트 클라우드 시맨틱 특징을 얻으며; 하나의 메쉬에 전경 포인트가 포함된 상황에 응답하여, 상기 메쉬의 전경 포인트의 부위 위치 정보에 대해 균일한 풀링 처리를 수행하여, 상기 메쉬의 풀링된 전경 포인트의 부위 위치 정보를 얻고, 상기 메쉬의 전경 포인트의 포인트 클라우드 시맨틱 특징에 대해 풀링 처리를 최대화하여, 상기 메쉬의 풀링된 포인트 클라우드 시맨틱 특징을 얻도록 구성된 것을 특징으로 하는 목표 검출 장치. - 제12항에 있어서,
상기 제2 처리 모듈은, 각 초기 3D 프레임에 대해, 전경 포인트의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징의 풀링 동작을 수행하여, 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징을 얻고; 상기 풀링된 각 초기 3D 프레임의 부위 위치 정보 및 포인트 클라우드 시맨틱 특징을 합병하여, 합병된 특징에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하도록 구성된 것을 특징으로 하는 목표 검출 장치. - 제15항에 있어서,
상기 제2 처리 모듈은, 합병된 특징에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하는 경우,
상기 합병된 특징을 특징 벡터로 벡터화하여, 상기 특징 벡터에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하거나; 또는,
상기 합병된 특징에 대해, 희소 컨볼루션 연산을 수행함으로써, 희소 컨볼루션 연산 후의 특징맵을 얻고; 상기 희소 컨볼루션 연산 후의 특징맵에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하거나; 또는,
상기 합병된 특징에 대해, 희소 컨볼루션 연산을 수행함으로써, 희소 컨볼루션 연산 후의 특징맵을 얻고; 상기 희소 컨볼루션 연산 후의 특징맵에 대해 다운 샘플링을 수행하여, 다운 샘플링된 특징맵에 따라, 각 초기 3D 프레임에 대해 보정을 수행하는 것 및 각 초기 3D 프레임의 신뢰도를 결정하는 것 중 적어도 하나를 수행하도록 구성된 것을 특징으로 하는 목표 검출 장치. - 제16항에 있어서,
상기 제2 처리 모듈은 상기 희소 컨볼루션 연산 후의 특징맵에 대해 다운 샘플링을 수행하는 경우,
상기 희소 컨볼루션 연산 후의 특징맵에 대해 풀링 동작을 수행함으로써, 상기 희소 컨볼루션 연산 후의 특징맵에 대한 다운 샘플링 처리를 구현하도록 구성된 것을 특징으로 하는 목표 검출 장치. - 제11항 내지 제17항 중 어느 한 항에 있어서,
상기 획득 모듈은, 3D 포인트 클라우드 데이터를 획득하여, 상기 3D 포인트 클라우드 데이터에 대해 3D 메쉬 처리를 수행하여, 3D 메쉬를 얻고; 상기 3D 메쉬의 비공백 메쉬에서 상기 3D 포인트 클라우드 데이터에 대응하는 포인트 클라우드 시맨틱 특징을 추출하도록 구성된 것을 특징으로 하는 목표 검출 장치. - 제11항 내지 제17항 중 어느 한 항에 있어서,
상기 제1 처리 모듈이 상기 포인트 클라우드 시맨틱 특징에 기반하여, 전경 포인트의 부위 위치 정보를 결정하는 경우,
상기 포인트 클라우드 시맨틱 특징에 따라 상기 포인트 클라우드 데이터에 대해 전경과 배경의 분할을 수행하여, 전경 포인트를 결정하고 - 상기 전경 포인트는 상기 포인트 클라우드 데이터에서 전경에 속하는 포인트 클라우드 데이터임 - ; 전경 포인트의 부위 위치 정보를 예측하기 위한 신경망을 사용하여 결정된 전경 포인트에 대해 처리를 수행하여, 전경 포인트의 부위 위치 정보를 얻도록 구성되며; 상기 신경망은 3D 프레임의 주석 정보를 포함하는 훈련 데이터 세트를 사용하여 훈련하여 얻어지며, 상기 3D 프레임의 주석 정보는 적어도 상기 훈련 데이터 세트의 포인트 클라우드 데이터의 전경 포인트의 부위 위치 정보를 포함하는 것을 특징으로 하는 목표 검출 장치. - 전자 기기로서,
프로세서 및 프로세서에서 작동 가능한 컴퓨터 프로그램을 저장하도록 구성된 메모리를 포함하고;
상기 프로세서는 상기 컴퓨터 프로그램이 작동될 때, 제1항 내지 제10항 중 어느 한 항에 따른 목표 검출 방법을 실행하도록 구성된 것을 특징으로 하는 전자 기기. - 컴퓨터 프로그램이 저장된 컴퓨터 저장 매체로서,
상기 컴퓨터 프로그램은 프로세서에 의해 실행될 때 제1항 내지 제10항 중 어느 한 항에 따른 목표 검출 방법을 구현하는 것을 특징으로 하는 컴퓨터 저장 매체. - 컴퓨터 프로그램 제품으로서,
상기 컴퓨터 프로그램 제품은 컴퓨터 실행 가능 명령어를 포함하고, 상기 컴퓨터 실행 가능 명령어는 실행된 후, 제1항 내지 제10항 중 어느 한 항에 따른 목표 검출 방법의 단계를 구현 가능한 것을 특징으로 하는 컴퓨터 프로그램 제품.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910523342.4A CN112101066B (zh) | 2019-06-17 | 2019-06-17 | 目标检测方法和装置及智能驾驶方法、设备和存储介质 |
CN201910523342.4 | 2019-06-17 | ||
PCT/CN2019/121774 WO2020253121A1 (zh) | 2019-06-17 | 2019-11-28 | 目标检测方法和装置及智能驾驶方法、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20210008083A true KR20210008083A (ko) | 2021-01-20 |
Family
ID=73748556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020207035715A KR20210008083A (ko) | 2019-06-17 | 2019-11-28 | 목표 검출 방법 및 장치 및 지능형 주행 방법, 기기 및 저장 매체 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20210082181A1 (ko) |
JP (1) | JP7033373B2 (ko) |
KR (1) | KR20210008083A (ko) |
CN (1) | CN112101066B (ko) |
SG (1) | SG11202011959SA (ko) |
WO (1) | WO2020253121A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240084860A (ko) * | 2022-12-07 | 2024-06-14 | 주식회사 에스더블유엠 | 딥러닝을 위한 폴리곤 매시 기반 3차원 객체 모델 및 주석데이터 생성장치 및 그 방법 |
Families Citing this family (36)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018033137A1 (zh) * | 2016-08-19 | 2018-02-22 | 北京市商汤科技开发有限公司 | 在视频图像中展示业务对象的方法、装置和电子设备 |
US12051206B2 (en) * | 2019-07-25 | 2024-07-30 | Nvidia Corporation | Deep neural network for segmentation of road scenes and animate object instances for autonomous driving applications |
US11885907B2 (en) | 2019-11-21 | 2024-01-30 | Nvidia Corporation | Deep neural network for detecting obstacle instances using radar sensors in autonomous machine applications |
US11531088B2 (en) | 2019-11-21 | 2022-12-20 | Nvidia Corporation | Deep neural network for detecting obstacle instances using radar sensors in autonomous machine applications |
US11532168B2 (en) | 2019-11-15 | 2022-12-20 | Nvidia Corporation | Multi-view deep neural network for LiDAR perception |
US12080078B2 (en) | 2019-11-15 | 2024-09-03 | Nvidia Corporation | Multi-view deep neural network for LiDAR perception |
US12050285B2 (en) | 2019-11-21 | 2024-07-30 | Nvidia Corporation | Deep neural network for detecting obstacle instances using radar sensors in autonomous machine applications |
US11277626B2 (en) | 2020-02-21 | 2022-03-15 | Alibaba Group Holding Limited | Region of interest quality controllable video coding techniques |
US11388423B2 (en) | 2020-03-23 | 2022-07-12 | Alibaba Group Holding Limited | Region-of-interest based video encoding |
TWI738367B (zh) * | 2020-06-01 | 2021-09-01 | 國立中正大學 | 以卷積神經網路檢測物件影像之方法 |
US11443147B2 (en) * | 2020-12-11 | 2022-09-13 | Argo AI, LLC | Systems and methods for object detection using stereovision information |
CN112784691B (zh) * | 2020-12-31 | 2023-06-02 | 杭州海康威视数字技术股份有限公司 | 一种目标检测模型训练方法、目标检测方法和装置 |
CN115035359A (zh) * | 2021-02-24 | 2022-09-09 | 华为技术有限公司 | 一种点云数据处理方法、训练数据处理方法及装置 |
CN112801059B (zh) * | 2021-04-07 | 2021-07-20 | 广东众聚人工智能科技有限公司 | 图卷积网络系统和基于图卷积网络系统的3d物体检测方法 |
CN113298840B (zh) * | 2021-05-26 | 2022-09-16 | 南京邮电大学 | 基于带电作业场景下的多模态物体检测方法、系统、装置及存储介质 |
CN113283349A (zh) * | 2021-05-28 | 2021-08-20 | 中国公路工程咨询集团有限公司 | 基于目标锚框优选策略的交通基建施工目标监测系统与方法 |
CN113469025B (zh) * | 2021-06-29 | 2024-05-31 | 阿波罗智联(北京)科技有限公司 | 应用于车路协同的目标检测方法、装置、路侧设备和车辆 |
US20230035475A1 (en) * | 2021-07-16 | 2023-02-02 | Huawei Technologies Co., Ltd. | Methods and systems for semantic segmentation of a point cloud |
KR102681992B1 (ko) * | 2021-08-17 | 2024-07-04 | 충북대학교 산학협력단 | 자율 주행을 위한 단일 계층 3차원 다중 객체 검출 장치 및 방법 |
CN113688738B (zh) * | 2021-08-25 | 2024-04-09 | 北京交通大学 | 一种基于激光雷达点云数据的目标识别系统及方法 |
CN113658199B (zh) * | 2021-09-02 | 2023-11-03 | 中国矿业大学 | 基于回归修正的染色体实例分割网络 |
WO2023036228A1 (en) * | 2021-09-08 | 2023-03-16 | Huawei Technologies Co., Ltd. | System and method for proposal-free and cluster-free panoptic segmentation system of point clouds |
US12008788B1 (en) * | 2021-10-14 | 2024-06-11 | Amazon Technologies, Inc. | Evaluating spatial relationships using vision transformers |
CN113642585B (zh) * | 2021-10-14 | 2022-02-11 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备、存储介质及计算机程序产品 |
US12100230B2 (en) * | 2021-10-28 | 2024-09-24 | Nvidia Corporation | Using neural networks for 3D surface structure estimation based on real-world data for autonomous systems and applications |
US12039663B2 (en) | 2021-10-28 | 2024-07-16 | Nvidia Corporation | 3D surface structure estimation using neural networks for autonomous systems and applications |
CN113780257B (zh) * | 2021-11-12 | 2022-02-22 | 紫东信息科技(苏州)有限公司 | 多模态融合弱监督车辆目标检测方法及系统 |
CN115249349B (zh) * | 2021-11-18 | 2023-06-27 | 上海仙途智能科技有限公司 | 一种点云去噪方法、电子设备及存储介质 |
CN114298581A (zh) * | 2021-12-30 | 2022-04-08 | 广州极飞科技股份有限公司 | 质量评估模型生成方法、质量评估方法、装置、电子设备和可读存储介质 |
CN114445593B (zh) * | 2022-01-30 | 2024-05-10 | 重庆长安汽车股份有限公司 | 基于多帧语义点云拼接的鸟瞰图语义分割标签生成方法 |
CN114509785A (zh) * | 2022-02-16 | 2022-05-17 | 中国第一汽车股份有限公司 | 三维物体检测方法、装置、存储介质、处理器及系统 |
CN114882046B (zh) * | 2022-03-29 | 2024-08-02 | 驭势科技(北京)有限公司 | 三维点云数据的全景分割方法、装置、设备及介质 |
CN115588187B (zh) * | 2022-12-13 | 2023-04-11 | 华南师范大学 | 基于三维点云的行人检测方法、装置、设备以及存储介质 |
CN115937644B (zh) * | 2022-12-15 | 2024-01-02 | 清华大学 | 一种基于全局及局部融合的点云特征提取方法及装置 |
CN115861561B (zh) * | 2023-02-24 | 2023-05-30 | 航天宏图信息技术股份有限公司 | 一种基于语义约束的等高线生成方法和装置 |
CN117475410B (zh) * | 2023-12-27 | 2024-03-15 | 山东海润数聚科技有限公司 | 基于前景点筛选的三维目标检测方法、系统、设备、介质 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9183459B1 (en) * | 2014-05-06 | 2015-11-10 | The Boeing Company | Sensor fusion using detector confidence boosting |
JP7160257B2 (ja) * | 2017-10-19 | 2022-10-25 | 日本コントロールシステム株式会社 | 情報処理装置、情報処理方法、およびプログラム |
TWI651686B (zh) * | 2017-11-30 | 2019-02-21 | 國家中山科學研究院 | 一種光學雷達行人偵測方法 |
CN108171217A (zh) * | 2018-01-29 | 2018-06-15 | 深圳市唯特视科技有限公司 | 一种基于点融合网络的三维物体检测方法 |
JP7290240B2 (ja) | 2018-04-27 | 2023-06-13 | 成典 田中 | 対象物認識装置 |
CN109188457B (zh) * | 2018-09-07 | 2021-06-11 | 百度在线网络技术(北京)有限公司 | 物体检测框的生成方法、装置、设备、存储介质及车辆 |
CN109410307B (zh) * | 2018-10-16 | 2022-09-20 | 大连理工大学 | 一种场景点云语义分割方法 |
CN109655019B (zh) * | 2018-10-29 | 2021-02-02 | 北方工业大学 | 一种基于深度学习和三维重建的货物体积测量方法 |
CN109597087B (zh) * | 2018-11-15 | 2022-07-01 | 天津大学 | 一种基于点云数据的3d目标检测方法 |
CN109635685B (zh) * | 2018-11-29 | 2021-02-12 | 北京市商汤科技开发有限公司 | 目标对象3d检测方法、装置、介质及设备 |
-
2019
- 2019-06-17 CN CN201910523342.4A patent/CN112101066B/zh active Active
- 2019-11-28 SG SG11202011959SA patent/SG11202011959SA/en unknown
- 2019-11-28 JP JP2020567923A patent/JP7033373B2/ja active Active
- 2019-11-28 KR KR1020207035715A patent/KR20210008083A/ko not_active Application Discontinuation
- 2019-11-28 WO PCT/CN2019/121774 patent/WO2020253121A1/zh active Application Filing
-
2020
- 2020-11-30 US US17/106,826 patent/US20210082181A1/en not_active Abandoned
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20240084860A (ko) * | 2022-12-07 | 2024-06-14 | 주식회사 에스더블유엠 | 딥러닝을 위한 폴리곤 매시 기반 3차원 객체 모델 및 주석데이터 생성장치 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
JP7033373B2 (ja) | 2022-03-10 |
JP2021532442A (ja) | 2021-11-25 |
SG11202011959SA (en) | 2021-01-28 |
CN112101066B (zh) | 2024-03-08 |
WO2020253121A1 (zh) | 2020-12-24 |
CN112101066A (zh) | 2020-12-18 |
US20210082181A1 (en) | 2021-03-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20210008083A (ko) | 목표 검출 방법 및 장치 및 지능형 주행 방법, 기기 및 저장 매체 | |
JP7430277B2 (ja) | 障害物検出方法及び装置、コンピュータデバイス、並びにコンピュータプログラム | |
US10540572B1 (en) | Method for auto-labeling training images for use in deep learning network to analyze images with high precision, and auto-labeling device using the same | |
CN111666921B (zh) | 车辆控制方法、装置、计算机设备和计算机可读存储介质 | |
WO2020108311A1 (zh) | 目标对象3d检测方法、装置、介质及设备 | |
US20210216077A1 (en) | Method, apparatus and computer storage medium for training trajectory planning model | |
EP3875905B1 (en) | Method, device and medium for detecting environmental change | |
Sun et al. | PointMoSeg: Sparse tensor-based end-to-end moving-obstacle segmentation in 3-D lidar point clouds for autonomous driving | |
US20210224646A1 (en) | Method for generating labeled data, in particular for training a neural network, by improving initial labels | |
CN114998595B (zh) | 弱监督语义分割方法、语义分割方法及可读存储介质 | |
CN111738040A (zh) | 一种减速带识别方法及系统 | |
CN113269147A (zh) | 基于空间和形状的三维检测方法、系统、存储及处理装置 | |
CN116129234A (zh) | 一种基于注意力的4d毫米波雷达与视觉的融合方法 | |
Dimitrievski et al. | Semantically aware multilateral filter for depth upsampling in automotive lidar point clouds | |
CN113763412B (zh) | 图像处理方法、装置及电子设备、计算机可读存储介质 | |
US20230105331A1 (en) | Methods and systems for semantic scene completion for sparse 3d data | |
CN113420648B (zh) | 一种具有旋转适应性的目标检测方法及系统 | |
Al Mamun et al. | An efficient encode-decode deep learning network for lane markings instant segmentation | |
Hamandi et al. | Ground segmentation and free space estimation in off-road terrain | |
JP7321983B2 (ja) | 情報処理システム、情報処理方法、プログラムおよび車両制御システム | |
CN116664851A (zh) | 一种基于人工智能的自动驾驶数据提取方法 | |
CN114821651B (zh) | 一种行人重识别方法、系统、设备及计算机可读存储介质 | |
CN116783620A (zh) | 根据点云的高效三维对象检测 | |
CN113408429A (zh) | 一种具有旋转适应性的目标检测方法及系统 | |
Haltakov et al. | Geodesic pixel neighborhoods for 2D and 3D scene understanding |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |