KR102309712B1 - 객체의 조건에 따라 모드를 전환할 수 있는 CNN 기반으로 군사 목적, 스마트폰 또는 가상 주행에 사용되는 수도(Pseudo)-3D 바운딩 박스를 검출하는 방법 및 이를 이용한 장치 - Google Patents
객체의 조건에 따라 모드를 전환할 수 있는 CNN 기반으로 군사 목적, 스마트폰 또는 가상 주행에 사용되는 수도(Pseudo)-3D 바운딩 박스를 검출하는 방법 및 이를 이용한 장치 Download PDFInfo
- Publication number
- KR102309712B1 KR102309712B1 KR1020190119511A KR20190119511A KR102309712B1 KR 102309712 B1 KR102309712 B1 KR 102309712B1 KR 1020190119511 A KR1020190119511 A KR 1020190119511A KR 20190119511 A KR20190119511 A KR 20190119511A KR 102309712 B1 KR102309712 B1 KR 102309712B1
- Authority
- KR
- South Korea
- Prior art keywords
- layer
- test
- learning
- bounding box
- type
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 111
- 238000012360 testing method Methods 0.000 claims description 479
- 238000011176 pooling Methods 0.000 claims description 61
- 238000013527 convolutional neural network Methods 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 43
- 238000013528 artificial neural network Methods 0.000 claims description 41
- 238000006073 displacement reaction Methods 0.000 claims description 29
- 238000010998 test method Methods 0.000 claims description 7
- 238000004891 communication Methods 0.000 description 7
- 238000007796 conventional method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 101100410043 Caenorhabditis elegans rpn-12 gene Proteins 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011888 foil Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G06K9/00791—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/046—Forward inferencing; Production systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/64—Three-dimensional objects
-
- G06K2209/23—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/08—Detecting or categorising vehicles
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
Description
도 1은 본 발명의 일 실시예에 따른 CNN 기반의 수도-3D 바운딩 박스를 검출하는 학습 장치를 개략적으로 도시한 것이고,
도 2는 본 발명의 일 실시예에 CNN 기반의 수도-3D 바운딩 박스를 검출하는 학습 방법을 개략적으로 도시한 것이고,
도 3은 본 발명의 일 실시예에 따른 CNN 기반의 수도-3D 바운딩 박스를 검출하는 학습 방법에서 고려해야 하는 객체의 트렁케이트(Truncate) 된 이미지와 트렁케이트 되지 않은 이미지의 예시를 개략적으로 도시한 것이고,
도 4는 본 발명의 일 실시예에 따른 CNN 기반의 수도-3D 바운딩 박스를 검출하는 학습 방법에서 고려해야 하는 객체 방향의 클래스를 개략적으로 도시한 것이고,
도 5는 본 발명의 일 실시예에 따른 CNN 기반의 수도-3D 바운딩 박스를 검출하는 학습 방법에서 수도-3D 바운딩 박스 상의 위치 정보를 생성하는 프로세스를 개략적으로 도시한 것이고,
도 6은 본 발명의 일 실시예에 따른 CNN 기반의 수도-3D 바운딩 박스를 검출하는 학습 방법에서 수도-3D 바운딩 박스 상의 위치 정보를 생성하는 다른 프로세스를 개략적으로 도시한 것이고,
도 7은 본 발명의 일 실시예에 따른 CNN 기반의 수도-3D 바운딩 박스를 검출하는 테스트 장치를 개략적으로 도시한 것이고,
도 8은 본 발명의 일 실시예에 따른 CNN 기반의 수도-3D 바운딩 박스를 검출하는 테스트 방법을 개략적으로 도시한 것이다.
110: 통신부,
120: 프로세서,
130: 데이터베이스,
200: 테스트 장치,
210: 통신부,
220: 프로세서
Claims (30)
- CNN 기반의 수도(Pseudo)-3D 바운딩 박스를 적어도 하나 검출하는 학습 방법에 있어서,
(a) 적어도 하나의 트레이닝 이미지에 대하여 컨벌루션 연산을 적어도 한 번 적용해 생성되는 적어도 하나의 특징 맵과 상기 트레이닝 이미지에서 적어도 하나의 객체를 포함하는 적어도 하나의 2D 바운딩 박스가 획득되면, 학습 장치가, 풀링 레이어(Pooling Layer)로 하여금 상기 특징 맵 상에서 상기 2D 바운딩 박스에 대응되는 적어도 하나의 영역에 대하여 풀링 연산을 적어도 한 번 적용하도록 하여 적어도 하나의 풀링된 특징 맵을 생성하도록 하고, 타입-분류 레이어(Type-Classifying Layer)로 하여금 상기 풀링된 특징 맵을 참조하여 상기 풀링된 특징 맵 내의 상기 객체의 이미지가 트렁케이트(Truncate) 되었는지 트렁케이트 되지 않았는지를 판별하도록 하는 단계;
(b) 상기 객체의 이미지가 트렁케이트 된 상태이면 상기 객체를 제1 타입(First Type)이라고 하고 상기 객체의 이미지가 트렁케이트 되지 않은 상태이면 상기 객체를 제2 타입(Second Type)이라고 하면, 상기 학습 장치가, 상기 풀링된 특징 맵 내의 상기 객체의 이미지가 트렁케이트 되었는지 트렁케이트 되지 않았는지에 대한 정보를 참조하여 상기 제1 타입과 상기 제2 타입 각각에 대응되는 각각의 FC 레이어 중 하나로 하여금 상기 풀링된 특징 맵에 대하여 신경망 연산을 적어도 한 번 적용하도록 하여 상기 수도-3D 바운딩 박스에 대응되는 박스 패턴(Box Pattern) 정보를 생성하도록 하는 단계;
(c) 상기 학습 장치가, (i) 상기 FC 레이어 각각에 대응하는 분류 레이어 각각으로 하여금 상기 박스 패턴 정보를 참조하여 상기 객체의 방향에 대한 방향 클래스 정보를 출력하도록 하며, (ii) 상기 FC 레이어 각각에 대응하는 리그레션 레이어 각각으로 하여금 상기 박스 패턴 정보를 참조하여 상기 2D 바운딩 박스의 좌표에 대응하는 상기 수도-3D 바운딩 박스의 좌표에 대한 리그레션 정보를 생성하도록 하는 단계; 및
(d) 상기 학습 장치가, 적어도 하나의 FC 로스 레이어로 하여금 상기 방향 클래스 정보 및 상기 리그레션 정보와 이에 대응되는 적어도 하나의 GT를 참조하여 적어도 하나의 클래스 로스 및 적어도 하나의 리그레션 로스를 생성함으로써, 상기 클래스 로스 및 상기 리그레션 로스를 백프로파게이션하여 상기 FC 레이어의 파라미터를 학습하는 단계;
를 포함하는 것을 특징으로 하는 학습 방법. - 제 1 항에 있어서,
상기 (a) 단계 이후에,
상기 학습 장치는, 타입 로스 레이어(Type Loss Layer)로 하여금 상기 객체의 이미지가 트렁케이트 되었는지 트렁케이트 되지 않았는지에 대한 정보와 상기 객체의 이미지에 대응되는 객체-타입(Object-Type) GT를 참조하여 적어도 하나의 타입 로스를 생성하도록 함으로써,
상기 타입 로스를 백프로파게이션하여 상기 타입-분류 레이어의 파라미터의 적어도 일부를 조정하는 것을 특징으로 하는 학습 방법. - 제 1 항에 있어서,
상기 (a) 단계에서,
상기 학습 장치는, 상기 타입-분류 레이어로 하여금 상기 객체의 전체를 포함하는 영역 대비 상기 풀링된 특징 맵 상에 나타난 상기 객체의 일부만 포함하는 영역의 비율이 소정의 임계치 이하일 경우에는 상기 객체의 이미지가 트렁케이트 된 것으로 판단하며, 상기 비율이 상기 소정의 임계치를 초과할 경우에는 상기 객체의 이미지가 트렁케이트 되지 않은 것으로 판단하도록 하는 것을 특징으로 하는 학습 방법. - 제 1 항에 있어서,
상기 (c) 단계에서,
상기 학습 장치는, 상기 리그레션 레이어 각각으로 하여금 (i) 상기 2D 바운딩 박스의 꼭지점으로부터 상기 객체의 앞면과 뒷면 각각에 대응되는 각각의 인스턴스 바운딩 박스의 꼭지점까지의 각각의 변위(Displacement) 및 (ii) 상기 2D 바운딩 박스의 중심으로부터 상기 각각의 인스턴스 바운딩 박스의 각각의 중심까지의 각각의 변위 및 상기 2D 바운딩 박스의 너비/높이 비율과 상기 인스턴스 바운딩 박스의 각각의 너비/높이 비율 사이의 각각의 차이 중 적어도 하나를 이용해, 상기 리그레션 정보를 생성하도록 하는 것을 특징으로 하는 학습 방법. - 제 1 항에 있어서,
상기 (b) 단계에서,
상기 학습 장치는, 상기 객체가 상기 제1 타입인 경우, 상기 제1 타입에 대응되는 제1 FC 레이어로 하여금 상기 풀링된 특징 맵에 대하여 신경망 연산을 적용하도록 하여 상기 수도-3D 바운딩 박스에 대응하는 제1 박스 패턴 정보를 생성하며, 상기 객체가 상기 제2 타입인 경우, 상기 제2 타입에 대응하는 제2 FC 레이어로 하여금 상기 풀링된 특징 맵에 대하여 신경망 연산을 적용하도록 하여 상기 수도-3D 바운딩 박스에 대응하는 제2 박스 패턴 정보를 생성하고,
상기 (c) 단계에서,
상기 학습 장치는, (i) 상기 제1 FC 레이어에 대응되는 제1 분류 레이어로 하여금 상기 제1 박스 패턴 정보를 참조하여 상기 제1 타입을 갖는 상기 객체의 방향에 대응되는 제1 방향 클래스 정보를 생성하도록 하며, 상기 제1 FC 레이어에 대응되는 제1 리그레션 레이어로 하여금 상기 제1 박스 패턴 정보를 참조하여 상기 2D 바운딩 박스의 상기 좌표에 대응하는 상기 수도-3D 바운딩 박스의 상기 좌표에 대한 제1 리그레션 정보를 생성하도록 하고, (ii) 상기 제2 FC 레이어에 대응되는 제2 분류 레이어로 하여금 상기 제2 박스 패턴 정보를 참조하여 상기 제2 타입을 갖는 상기 객체의 방향에 대응되는 제2 방향 클래스 정보를 생성하도록 하며, 상기 제2 FC 레이어에 대응되는 제2 리그레션 레이어로 하여금 상기 제2 박스 패턴 정보를 참조하여 상기 2D 바운딩 박스의 상기 좌표에 대응하는 상기 수도-3D 바운딩 박스의 상기 좌표에 대한 제2 리그레션 정보를 생성하도록 하는 것을 특징으로 하는 학습 방법. - 제 5 항에 있어서,
상기 (d) 단계에서,
상기 학습 장치는, (i) 상기 제1 FC 레이어에 대응되는 제1 FC 로스 레이어로 하여금 상기 제1 방향 클래스 정보, 상기 제1 리그레션 정보 및 이에 대응하는 적어도 하나의 제1 GT를 참조하여 적어도 하나의 제1 방향 클래스 로스 및 적어도 하나의 제1 박스 리그레션 로스를 생성하도록 함으로써, 상기 제1 방향 클래스 로스 및 상기 제1 박스 리그레션 로스를 백프로파게이션하여 상기 제1 FC 레이어의 파라미터를 학습하며, (ii) 상기 제2 FC 레이어에 대응되는 제2 FC 로스 레이어로 하여금 상기 제2 방향 클래스 정보, 상기 제2 리그레션 정보 및 이에 대응하는 적어도 하나의 제2 GT를 참조하여 적어도 하나의 제2 방향 클래스 로스 및 적어도 하나의 제2 박스 리그레션 로스를 생성하도록 함으로써, 상기 제2 방향 클래스 로스 및 상기 제2 박스 리그레션 로스를 백프로파게이션하여 상기 제2 FC 레이어의 파라미터를 학습하는 것을 특징으로 하는 학습 방법. - 제 1 항에 있어서,
상기 학습 장치는, 선행 CNN(Preceding CNN) 기반의 객체 검출기로부터 상기 특징 맵과 상기 2D 바운딩 박스를 획득하는 것을 특징으로 하는 학습 방법. - 제 7 항에 있어서,
상기 학습 장치는, 상기 트레이닝 이미지를 상기 객체 검출기로 입력하여, 상기 객체 검출기가 (i) 선행 컨볼루션 레이어(Preceding Convolutional Layer)로 하여금 상기 트레이닝 이미지에 대하여 컨볼루션 연산을 수행하여 상기 특징 맵을 생성하도록 하며, (ii) RPN으로 하여금 상기 특징 맵으로부터 상기 트레이닝 이미지 내의 상기 객체에 대응하는 적어도 하나의 프로포잘 박스를 생성하도록 하고, (iii) 선행 풀링 레이어(Preceding Pooling Layer)로 하여금 상기 특징 맵 상에서 상기 프로포잘 박스에 대응하는 적어도 하나의 영역에 대하여 풀링 연산을 적용하도록 하여 선행 풀링된 특징 맵을 생성하도록 하며, (iv) 선행 FC 레이어(Preceding FC Layer)로 하여금 상기 객체에 대응되는 객체 패턴 정보를 생성하도록 하고, (v) 선행 분류 레이어(Preceding Classification Layer)로 하여금 상기 객체 패턴 정보를 참조하여 상기 객체의 클래스에 대응하는 객체 클래스 정보를 생성하도록 하며, (vi) 선행 리그레션 레이어(Preceding Regression Layer)로 하여금 상기 객체 패턴 정보를 참조하여 상기 객체에 대응하는 상기 2D 바운딩 박스에 대한 선행 리그레션 정보를 생성하도록 함으로써, 상기 특징 맵과 상기 2D 바운딩 박스를 생성하는 것을 특징으로 하는 학습 방법. - 제 7 항에 있어서,
검출기 학습 장치에 의해 상기 객체 검출기를 학습하는 상태에서, 상기 검출기 학습 장치가, 상기 객체 검출기 내의 타입 로스 레이어로 하여금 상기 객체의 이미지가 트렁케이트 되었는지 트렁케이트 되지 않았는지에 대한 정보와 상기 이미지에 대응되는 객체-타입 GT를 참조하여 적어도 하나의 타입 로스를 생성함으로써, 상기 타입 로스를 백프로파게이션하여 상기 객체 검출기 내의 타입-분류 레이어의 파라미터의 적어도 일부를 조정하는 것을 특징으로 하는 학습 방법. - CNN 기반의 수도(Pseudo)-3D 바운딩 박스를 적어도 하나 검출하는 테스트 방법에 있어서,
(a) 학습 장치가, 적어도 하나의 트레이닝 이미지에 대하여 컨벌루션 연산을 적어도 한 번 적용해 생성되는 적어도 하나의 학습용 특징 맵과 상기 트레이닝 이미지에서 적어도 하나의 학습용 객체를 포함하는 적어도 하나의 학습용 2D 바운딩 박스가 획득되면, (i) 풀링 레이어(Pooling Layer)로 하여금 상기 학습용 특징 맵 상에서 상기 학습용 2D 바운딩 박스에 대응되는 적어도 하나의 영역에 대하여 풀링 연산을 적어도 한 번 적용하도록 하여 적어도 하나의 학습용 풀링된 특징 맵을 생성하도록 하고, 타입-분류 레이어(Type-Classifying Layer)로 하여금 상기 학습용 풀링된 특징 맵을 참조하여 상기 학습용 풀링된 특징 맵 내의 상기 학습용 객체의 이미지가 트렁케이트(Truncate) 되었는지 트렁케이트 되지 않았는지를 판별하도록 하는 프로세스, (ii) 상기 학습용 객체의 이미지가 트렁케이트 된 상태이면 상기 학습용 객체를 제1 타입(First Type)이라고 하고 상기 학습용 객체의 이미지가 트렁케이트 되지 않은 상태이면 상기 학습용 객체를 제2 타입(Second Type)이라고 하면, 상기 학습용 풀링된 특징 맵 내의 상기 학습용 객체의 이미지가 트렁케이트 되었는지 트렁케이트 되지 않았는지에 대한 정보를 참조하여 상기 제1 타입과 상기 제2 타입 각각에 대응되는 각각의 FC 레이어 중 하나로 하여금 상기 학습용 풀링된 특징 맵에 대하여 신경망 연산을 적어도 한 번 적용하도록 하여 학습용 수도-3D 바운딩 박스에 대응되는 학습용 박스 패턴(Box Pattern) 정보를 생성하도록 하는 프로세스, (iii) 상기 FC 레이어 각각에 대응하는 적어도 하나의 분류 레이어 각각으로 하여금 상기 학습용 박스 패턴 정보를 참조하여 상기 학습용 객체의 방향에 대한 학습용 방향 클래스 정보를 출력하도록 하며, 상기 FC 레이어 각각에 대응하는 적어도 하나의 리그레션 레이어 각각으로 하여금 상기 학습용 박스 패턴 정보를 참조하여 상기 학습용 2D 바운딩 박스의 좌표에 대응하는 상기 학습용 수도-3D 바운딩 박스의 좌표에 대한 학습용 리그레션 정보를 생성하도록 하는 프로세스 및 (iv) 적어도 하나의 FC 로스 레이어로 하여금 상기 학습용 방향 클래스 정보, 상기 학습용 리그레션 정보 및 이에 대응되는 적어도 하나의 GT를 참조하여 적어도 하나의 클래스 로스 및 적어도 하나의 리그레션 로스를 생성함으로써, 상기 클래스 로스 및 상기 리그레션 로스를 백프로파게이션하여 상기 FC 레이어의 파라미터를 학습하는 프로세스를 수행한 상태에서, 적어도 하나의 테스트 이미지에 대하여 컨벌루션 연산을 적어도 한 번 적용해 생성되는 적어도 하나의 테스트용 특징 맵과 상기 테스트 이미지에서 적어도 하나의 테스트용 객체를 포함하는 적어도 하나의 테스트용 2D 바운딩 박스가 획득되면, 테스트 장치가, 상기 풀링 레이어(Pooling Layer)로 하여금 상기 테스트용 특징 맵 상에서 상기 테스트용 2D 바운딩 박스에 대응되는 적어도 하나의 영역에 대하여 풀링 연산을 적어도 한 번 적용하도록 하여 적어도 하나의 테스트용 풀링된 특징 맵을 생성하도록 하고, 상기 타입-분류 레이어(Type-Classifying Layer)로 하여금 상기 테스트용 풀링된 특징 맵을 참조하여 상기 테스트용 풀링된 특징 맵 내의 상기 테스트용 객체의 이미지가 트렁케이트(Truncate) 되었는지 트렁케이트 되지 않았는지를 판별하도록 하는 단계;
(b) 상기 테스트용 객체의 이미지가 트렁케이트 된 상태이면 상기 테스트용 객체를 제1 타입(First Type)이라고 하고 상기 테스트용 객체의 이미지가 트렁케이트 되지 않은 상태이면 상기 테스트용 객체를 제2 타입(Second Type)이라고 하면, 상기 테스트 장치가, 상기 테스트용 풀링된 특징 맵 내의 상기 테스트용 객체의 이미지가 트렁케이트 되었는지 트렁케이트 되지 않았는지에 대한 정보를 참조하여 상기 제1 타입과 상기 제2 타입 각각에 대응되는 각각의 상기 FC 레이어 중 하나로 하여금 상기 테스트용 풀링된 특징 맵에 대하여 신경망 연산을 적어도 한 번 적용하도록 하여 테스트용 수도-3D 바운딩 박스에 대응되는 테스트용 박스 패턴(Box Pattern) 정보를 생성하도록 하는 단계; 및
(c) 상기 테스트 장치가, (i) 상기 FC 레이어 각각에 대응하는 분류 레이어 각각으로 하여금 상기 테스트용 박스 패턴 정보를 참조하여 상기 테스트용 객체의 방향에 대한 테스트용 방향 클래스 정보를 출력하도록 하며, (ii) 상기 FC 레이어 각각에 대응하는 리그레션 레이어 각각으로 하여금 상기 테스트용 박스 패턴 정보를 참조하여 상기 테스트용 2D 바운딩 박스의 상기 좌표에 대응하는 상기 테스트용 수도-3D 바운딩 박스의 상기 좌표에 대한 테스트용 리그레션 정보를 생성하도록 하는 단계;
를 포함하는 것을 특징으로 하는 테스트 방법. - 제 10 항에 있어서,
상기 학습 장치는, 타입 로스 레이어(Type Loss Layer)로 하여금 상기 학습용 객체의 이미지가 트렁케이트 되었는지 트렁케이트 되지 않았는지에 대한 정보와 상기 학습용 객체의 이미지에 대응되는 객체-타입(Object-Type) GT를 참조하여 적어도 하나의 타입 로스를 생성하도록 함으로써, 상기 타입 로스를 이용한 백프로파게이션을 통해 상기 타입-분류 레이어의 파라미터의 적어도 일부를 조정하는 것을 특징으로 하는 테스트 방법. - 제 10 항에 있어서,
상기 (a) 단계는,
상기 테스트 장치는, 상기 타입-분류 레이어로 하여금 상기 테스트용 객체의 전체를 포함하는 영역 대비 상기 테스트용 풀링된 특징 맵 상에 나타난 상기 테스트용 객체의 일부만 포함하는 영역의 비율이 소정의 임계치 이하일 경우에는 상기 테스트용 객체의 이미지가 트렁케이트 된 것으로 판단하며, 상기 비율이 상기 소정의 임계치를 초과할 경우에는 상기 테스트용 객체의 이미지가 트렁케이트 되지 않은 것으로 판단하도록 하는 것을 특징으로 하는 테스트 방법. - 제 10 항에 있어서,
상기 (c) 단계에서,
상기 테스트 장치는, 상기 리그레션 레이어 각각으로 하여금 (i) 상기 테스트용 2D 바운딩 박스의 꼭지점으로부터 상기 테스트용 객체의 앞면과 뒷면 각각에 대응되는 각각의 테스트용 인스턴스 바운딩 박스의 꼭지점까지의 각각의 변위(Displacement) 및 (ii) 상기 테스트용 2D 바운딩 박스의 중심으로부터 상기 각각의 테스트용 인스턴스 바운딩 박스의 각각의 중심까지의 각각의 변위 및 상기 테스트용 2D 바운딩 박스의 너비/높이 비율과 상기 테스트용 인스턴스 바운딩 박스의 각각의 너비/높이 비율 사이의 각각의 차이 중 적어도 하나를 이용해, 상기 테스트용 리그레션 정보를 생성하도록 하는 것을 특징으로 하는 테스트 방법. - 제 10 항에 있어서,
상기 (b) 단계에서,
상기 테스트 장치는, 상기 테스트용 객체가 상기 제1 타입인 경우, 상기 제1 타입에 대응되는 제1 FC 레이어로 하여금 상기 테스트용 풀링된 특징 맵에 대하여 신경망 연산을 적용하도록 하여 상기 테스트용 수도-3D 바운딩 박스에 대응하는 테스트용 제1 박스 패턴 정보를 생성하며, 상기 테스트용 객체가 상기 제2 타입인 경우, 상기 제2 타입에 대응하는 제2 FC 레이어로 하여금 상기 테스트용 풀링된 특징 맵에 대하여 신경망 연산을 적용하도록 하여 상기 테스트용 수도-3D 바운딩 박스에 대응하는 테스트용 제2 박스 패턴 정보를 생성하고,
상기 (c) 단계에서,
상기 테스트 장치는, (i) 상기 제1 FC 레이어에 대응되는 제1 분류 레이어로 하여금 상기 테스트용 제1 박스 패턴 정보를 참조하여 상기 제1 타입을 갖는 상기 테스트용 객체의 방향에 대응되는 테스트용 제1 방향 클래스 정보를 생성하도록 하며, 상기 제1 FC 레이어에 대응되는 제1 리그레션 레이어로 하여금 상기 테스트용 제1 박스 패턴 정보를 참조하여 상기 테스트용 2D 바운딩 박스의 상기 좌표에 대응하는 상기 테스트용 수도-3D 바운딩 박스의 상기 좌표에 대한 테스트용 제1 리그레션 정보를 생성하도록 하고, (ii) 상기 제2 FC 레이어에 대응되는 제2 분류 레이어로 하여금 상기 테스트용 제2 박스 패턴 정보를 참조하여 상기 제2 타입을 갖는 상기 테스트용 객체의 방향에 대응되는 테스트용 제2 방향 클래스 정보를 생성하도록 하며, 상기 제2 FC 레이어에 대응되는 제2 리그레션 레이어로 하여금 상기 테스트용 제2 박스 패턴 정보를 참조하여 상기 테스트용 2D 바운딩 박스의 상기 좌표에 대응하는 상기 테스트용 수도-3D 바운딩 박스의 상기 좌표에 대한 테스트용 제2 리그레션 정보를 생성하도록 하는 것을 특징으로 하는 테스트 방법. - 제 10 항에 있어서,
상기 테스트 장치는, 상기 테스트 이미지를 선행 CNN 기반의 객체 검출기로 입력하여, 상기 객체 검출기가 (i) 선행 컨볼루션 레이어(Preceding Convolutional Layer)로 하여금 상기 테스트 이미지에 대하여 컨볼루션 연산을 수행하여 상기 테스트용 특징 맵을 생성하도록 하며, (ii) RPN으로 하여금 상기 테스트용 특징 맵으로부터 상기 테스트 이미지 내의 상기 테스트용 객체에 대응하는 적어도 하나의 테스트용 프로포잘 박스를 생성하도록 하고, (iii) 선행 풀링 레이어(Preceding Pooling Layer)로 하여금 상기 테스트용 특징 맵 상에서 상기 테스트용 프로포잘 박스에 대응하는 적어도 하나의 영역에 대하여 풀링 연산을 적용하도록 하여 테스트용 선행 풀링된 특징 맵을 생성하도록 하며, (iv) 선행 FC 레이어(Preceding FC Layer)로 하여금 상기 테스트용 객체에 대응되는 테스트용 객체 패턴 정보를 생성하도록 하고, (v) 선행 분류 레이어(Preceding Classification Layer)로 하여금 상기 테스트용 객체 패턴 정보를 참조하여 상기 테스트용 객체의 클래스에 대응하는 테스트용 객체 클래스 정보를 생성하도록 하며, (vi) 선행 리그레션 레이어(Preceding Regression Layer)로 하여금 상기 테스트용 객체 패턴 정보를 참조하여 상기 테스트용 객체에 대응하는 상기 테스트용 2D 바운딩 박스에 대한 테스트용 선행 리그레션 정보를 생성하도록 함으로써, 상기 테스트용 특징 맵과 상기 테스트용 2D 바운딩 박스를 생성하는 것을 특징으로 하는 테스트 방법. - CNN 기반의 수도(Pseudo)-3D 바운딩 박스를 적어도 하나 검출하는 학습 장치에 있어서,
인스트럭션을 저장하는 적어도 하나의 메모리; 및
(I) 적어도 하나의 트레이닝 이미지에 대하여 컨벌루션 연산을 적어도 한 번 적용해 특징 맵이 생성되고 2D 바운딩 박스가 상기 트레이닝 이미지에서 적어도 하나의 객체를 포함하면, 풀링 레이어(Pooling Layer)로 하여금 상기 특징 맵 상에서 상기 2D 바운딩 박스에 대응되는 적어도 하나의 영역에 대하여 풀링 연산을 적어도 한 번 적용하도록 하여 적어도 하나의 풀링된 특징 맵을 생성하도록 하고, 타입-분류 레이어(Type-Classifying Layer)로 하여금 상기 풀링된 특징 맵을 참조하여 상기 풀링된 특징 맵 내의 상기 객체의 이미지가 트렁케이트(Truncate) 되었는지 트렁케이트 되지 않았는지를 판별하도록 하는 프로세스와, (II) 상기 객체의 이미지가 트렁케이트 된 상태이면 상기 객체를 제1 타입(First Type)이라고 하고 상기 객체의 이미지가 트렁케이트 되지 않은 상태이면 상기 객체를 제2 타입(Second Type)이라고 하면, 상기 풀링된 특징 맵 내의 상기 객체의 이미지가 트렁케이트 되었는지 트렁케이트 되지 않았는지에 대한 정보를 참조하여 상기 제1 타입과 상기 제2 타입 각각에 대응되는 각각의 FC 레이어 중 하나로 하여금 상기 풀링된 특징 맵에 대하여 신경망 연산을 적어도 한 번 적용하도록 하여 상기 수도-3D 바운딩 박스에 대응되는 박스 패턴(Box Pattern) 정보를 생성하도록 하는 프로세스와, (III) (i) 상기 FC 레이어 각각에 대응하는 분류 레이어 각각으로 하여금 상기 박스 패턴 정보를 참조하여 상기 객체의 방향에 대한 방향 클래스 정보를 출력하도록 하며, (ii) 상기 FC 레이어 각각에 대응하는 리그레션 레이어 각각으로 하여금 상기 박스 패턴 정보를 참조하여 상기 2D 바운딩 박스의 좌표에 대응하는 상기 수도-3D 바운딩 박스의 좌표에 대한 리그레션 정보를 생성하도록 하는 프로세스 및 (IV) 적어도 하나의 FC 로스 레이어로 하여금 상기 방향 클래스 정보, 상기 리그레션 정보 및 이에 대응되는 적어도 하나의 GT를 참조하여 적어도 하나의 클래스 로스 및 적어도 하나의 리그레션 로스를 생성함으로써, 상기 클래스 로스 및 상기 리그레션 로스를 백프로파게이션하여 상기 FC 레이어의 파라미터를 학습하는 프로세스를 수행하기 위한 상기 인스트럭션을 실행하도록 구성된 적어도 하나의 프로세서;
를 포함하는 것을 특징으로 하는 학습 장치. - 제 16 항에 있어서,
상기 (I) 프로세스 이후에,
상기 프로세서는, 타입 로스 레이어로 하여금 상기 객체의 이미지가 트렁케이트 되었는지 트렁케이트 되지 않았는지에 대한 정보와 상기 객체의 이미지에 대응되는 객체-타입 GT를 참조하여 적어도 하나의 타입 로스를 생성함으로써, 상기 타입 로스를 백프로파게이션하여 상기 타입-분류 레이어의 파라미터의 적어도 일부를 조정하는 것을 특징으로 하는 학습 장치. - 제 16 항에 있어서,
상기 (I) 프로세스에서,
상기 프로세서는, 상기 타입-분류 레이어로 하여금 상기 객체의 전체를 포함하는 영역 대비 상기 풀링된 특징 맵 상에 나타난 상기 객체의 일부만 포함하는 영역의 비율이 소정의 임계치 이하일 경우에는 상기 객체의 이미지가 트렁케이트 된 것으로 판단하며, 상기 비율이 상기 소정의 임계치를 초과할 경우에는 상기 객체의 이미지가 트렁케이트 되지 않은 것으로 판단하도록 하는 것을 특징으로 하는 학습 장치. - 제 16 항에 있어서,
상기 (III) 프로세스에서,
상기 프로세서는, 상기 리그레션 레이어 각각으로 하여금 (i) 상기 2D 바운딩 박스의 꼭지점으로부터 상기 객체의 앞면과 뒷면 각각에 대응되는 각각의 인스턴스 바운딩 박스의 꼭지점까지의 각각의 변위(Displacement) 및 (ii) 상기 2D 바운딩 박스의 중심으로부터 상기 각각의 인스턴스 바운딩 박스의 각각의 중심까지의 각각의 변위 및 상기 2D 바운딩 박스의 너비/높이 비율과 상기 인스턴스 바운딩 박스의 각각의 너비/높이 비율 사이의 각각의 차이 중 적어도 하나를 이용해, 상기 리그레션 정보를 생성하도록 하는 것을 특징으로 하는 학습 장치. - 제 16 항에 있어서,
상기 (II) 프로세스에서,
상기 프로세서는, 상기 객체가 상기 제1 타입인 경우, 상기 제1 타입에 대응되는 제1 FC 레이어로 하여금 상기 풀링된 특징 맵에 대하여 신경망 연산을 적용하도록 하여 상기 수도-3D 바운딩 박스에 대응하는 제1 박스 패턴 정보를 생성하며, 상기 객체가 상기 제2 타입인 경우, 상기 제2 타입에 대응하는 제2 FC 레이어로 하여금 상기 풀링된 특징 맵에 대하여 신경망 연산을 적용하도록 하여 상기 수도-3D 바운딩 박스에 대응하는 제2 박스 패턴 정보를 생성하고,
상기 (III) 프로세스에서,
상기 프로세서는 (i) 상기 제1 FC 레이어에 대응되는 제1 분류 레이어로 하여금 상기 제1 박스 패턴 정보를 참조하여 상기 제1 타입을 갖는 상기 객체의 방향에 대응되는 제1 방향 클래스 정보를 생성하도록 하며, 상기 제1 FC 레이어에 대응되는 제1 리그레션 레이어로 하여금 상기 제1 박스 패턴 정보를 참조하여 상기 2D 바운딩 박스의 상기 좌표에 대응하는 상기 수도-3D 바운딩 박스의 상기 좌표에 대한 제1 리그레션 정보를 생성하도록 하고, (ii) 상기 제2 FC 레이어에 대응되는 제2 분류 레이어로 하여금 상기 제2 박스 패턴 정보를 참조하여 상기 제2 타입을 갖는 상기 객체의 방향에 대응되는 제2 방향 클래스 정보를 생성하도록 하며, 상기 제2 FC 레이어에 대응되는 제2 리그레션 레이어로 하여금 상기 제2 박스 패턴 정보를 참조하여 상기 2D 바운딩 박스의 상기 좌표에 대응하는 상기 수도-3D 바운딩 박스의 상기 좌표에 대한 제2 리그레션 정보를 생성하도록 하는 것을 특징으로 하는 학습 장치. - 제 20 항에 있어서,
상기 (IV) 프로세스에서,
상기 프로세서는, (i) 상기 제1 FC 레이어에 대응되는 제1 FC 로스 레이어로 하여금 상기 제1 방향 클래스 정보, 상기 제1 리그레션 정보 및 이에 대응하는 적어도 하나의 제1 GT를 참조하여 적어도 하나의 제1 방향 클래스 로스 및 적어도 하나의 제1 박스 리그레션 로스를 생성하도록 함으로써, 상기 제1 방향 클래스 로스 및 상기 제1 박스 리그레션 로스를 백프로파게이션하여 상기 제1 FC 레이어의 파라미터를 학습하며, (ii) 상기 제2 FC 레이어에 대응되는 제2 FC 로스 레이어로 하여금 상기 제2 방향 클래스 정보, 상기 제2 리그레션 정보 및 이에 대응하는 적어도 하나의 제2 GT를 참조하여 적어도 하나의 제2 방향 클래스 로스 및 적어도 하나의 제2 박스 리그레션 로스를 생성하도록 함으로써, 상기 제2 방향 클래스 로스 및 상기 제2 박스 리그레션 로스를 백프로파게이션하여 상기 제2 FC 레이어의 파라미터를 학습하는 것을 특징으로 하는 학습 장치. - 제 16 항에 있어서,
선행 CNN(Preceding CNN) 기반의 객체 검출기로부터 상기 특징 맵과 상기 2D 바운딩 박스를 획득하는 것을 특징으로 하는 학습 장치. - 제 22 항에 있어서,
상기 트레이닝 이미지를 상기 객체 검출기로 입력하여, 상기 객체 검출기가 (i) 선행 컨볼루션 레이어(Preceding Convolutional Layer)로 하여금 상기 트레이닝 이미지에 대하여 컨볼루션 연산을 수행하여 상기 특징 맵을 생성하도록 하며, (ii) RPN으로 하여금 상기 특징 맵으로부터 상기 트레이닝 이미지 내의 상기 객체에 대응하는 적어도 하나의 프로포잘 박스를 생성하도록 하고, (iii) 선행 풀링 레이어(Preceding Pooling Layer)로 하여금 상기 특징 맵 상에서 상기 프로포잘 박스에 대응하는 적어도 하나의 영역에 대하여 풀링 연산을 적용하도록 하여 선행 풀링된 특징 맵을 생성하도록 하며, (iv) 선행 FC 레이어(Preceding FC Layer)로 하여금 상기 객체에 대응되는 객체 패턴 정보를 생성하도록 하고, (v) 선행 분류 레이어(Preceding Classification Layer)로 하여금 상기 객체 패턴 정보를 참조하여 상기 객체의 클래스에 대응하는 객체 클래스 정보를 생성하도록 하며, (vi) 선행 리그레션 레이어(Preceding Regression Layer)로 하여금 상기 객체 패턴 정보를 참조하여 상기 객체에 대응하는 상기 2D 바운딩 박스에 대한 선행 리그레션 정보를 생성하도록 함으로써, 상기 특징 맵과 상기 2D 바운딩 박스를 생성하는 것을 특징으로 하는 학습 장치. - 제 22 항에 있어서,
검출기 학습 장치에 의해 상기 객체 검출기를 학습하는 상태에서, 상기 검출기 학습 장치가, 상기 객체 검출기 내의 타입 로스 레이어로 하여금 상기 객체의 이미지가 트렁케이트 되었는지 트렁케이트 되지 않았는지에 대한 정보와 상기 이미지에 대응되는 객체-타입 GT를 참조하여 적어도 하나의 타입 로스를 생성함으로써, 상기 타입 로스를 백프로파게이션하여 상기 객체 검출기 내의 타입-분류 레이어의 파라미터의 적어도 일부를 조정하는 것을 특징으로 하는 학습 장치. - CNN 기반의 수도(Pseudo)-3D 바운딩 박스를 적어도 하나 검출하는 테스트 장치에 있어서,
인스트럭션을 저장하는 적어도 하나의 메모리; 및
학습 장치가, 적어도 하나의 트레이닝 이미지에 대하여 컨벌루션 연산을 적어도 한 번 적용해 생성되는 적어도 하나의 학습용 특징 맵과 상기 트레이닝 이미지에서 적어도 하나의 학습용 객체를 포함하는 적어도 하나의 학습용 2D 바운딩 박스가 획득하면, (i) 풀링 레이어(Pooling Layer)로 하여금 상기 학습용 특징 맵 상에서 상기 학습용 2D 바운딩 박스에 대응되는 적어도 하나의 영역에 대하여 풀링 연산을 적어도 한 번 적용하도록 하여 적어도 하나의 학습용 풀링된 특징 맵을 생성하도록 하고, 타입-분류 레이어(Type-Classifying Layer)로 하여금 상기 학습용 풀링된 특징 맵을 참조하여 상기 학습용 풀링된 특징 맵 내의 상기 학습용 객체의 이미지가 트렁케이트(Truncate) 되었는지 트렁케이트 되지 않았는지를 판별하도록 하는 프로세스, (ii) 상기 학습용 객체의 이미지가 트렁케이트 된 상태이면 상기 학습용 객체를 제1 타입(First Type)이라고 하고 상기 학습용 객체의 이미지가 트렁케이트 되지 않은 상태이면 상기 학습용 객체를 제2 타입(Second Type)이라고 하면, 상기 학습용 풀링된 특징 맵 내의 상기 학습용 객체의 이미지가 트렁케이트 되었는지 트렁케이트 되지 않았는지에 대한 정보를 참조하여 상기 제1 타입과 상기 제2 타입 각각에 대응되는 각각의 FC 레이어 중 하나로 하여금 상기 학습용 풀링된 특징 맵에 대하여 신경망 연산을 적어도 한 번 적용하도록 하여 학습용 수도-3D 바운딩 박스에 대응되는 학습용 박스 패턴(Box Pattern) 정보를 생성하도록 하는 프로세스, (iii) 상기 FC 레이어 각각에 대응하는 적어도 하나의 분류 레이어 각각으로 하여금 상기 학습용 박스 패턴 정보를 참조하여 상기 학습용 객체의 방향에 대한 학습용 방향 클래스 정보를 출력하도록 하며, 상기 FC 레이어 각각에 대응하는 적어도 하나의 리그레션 레이어 각각으로 하여금 상기 학습용 박스 패턴 정보를 참조하여 상기 학습용 2D 바운딩 박스의 좌표 정보에 대응하는 상기 학습용 수도-3D 바운딩 박스의 좌표에 대한 학습용 리그레션 정보를 생성하도록 하는 프로세스, (iv) 적어도 하나의 FC 로스 레이어로 하여금 상기 학습용 방향 클래스 정보, 상기 학습용 리그레션 정보 및 이에 대응되는 적어도 하나의 GT를 참조하여 적어도 하나의 클래스 로스 및 적어도 하나의 리그레션 로스를 생성함으로써, 상기 클래스 로스 및 상기 리그레션 로스를 백프로파게이션하여 상기 FC 레이어의 파라미터를 학습하는 프로세스를 수행한 상태에서, (I) 적어도 하나의 테스트 이미지에 대하여 컨벌루션 연산을 적어도 한 번 적용해 테스트용 특징 맵이 생성되고 테스트용 2D 바운딩 박스가 상기 테스트 이미지에서 적어도 하나의 테스트용 객체를 포함하면, 상기 풀링 레이어(Pooling Layer)로 하여금 적어도 하나의 상기 테스트용 특징 맵 상에서 적어도 하나의 상기 테스트용 2D 바운딩 박스에 대응되는 적어도 하나의 영역에 대하여 풀링 연산을 적어도 한 번 적용하도록 하여 적어도 하나의 테스트용 풀링된 특징 맵을 생성하도록 하고, 상기 타입-분류 레이어(Type-Classifying Layer)로 하여금 상기 테스트용 풀링된 특징 맵을 참조하여 상기 테스트용 풀링된 특징 맵 내의 상기 테스트용 객체의 이미지가 트렁케이트(Truncate) 되었는지 트렁케이트 되지 않았는지를 판별하도록 하는 프로세스, (II) 상기 테스트용 객체의 이미지가 트렁케이트 된 상태이면 상기 테스트용 객체를 상기 제1 타입(First Type)이라고 하고 상기 테스트용 객체의 이미지가 트렁케이트 되지 않은 상태이면 상기 테스트용 객체를 상기 제2 타입(Second Type)이라고 하면, 상기 테스트용 풀링된 특징 맵 내의 상기 테스트용 객체의 이미지가 트렁케이트 되었는지 트렁케이트 되지 않았는지에 대한 정보를 참조하여 상기 제1 타입과 상기 제2 타입 각각에 대응되는 각각의 상기 FC 레이어 중 하나로 하여금 상기 테스트용 풀링된 특징 맵에 대하여 신경망 연산을 적용하도록 하여 테스트용 수도-3D 바운딩 박스에 대응되는 테스트용 박스 패턴(Box Pattern) 정보를 생성하도록 하는 프로세스, (III) (i) 상기 FC 레이어 각각에 대응하는 상기 분류 레이어 각각으로 하여금 상기 테스트용 박스 패턴 정보를 참조하여 상기 테스트용 객체의 방향에 대한 테스트용 방향 클래스 정보를 생성하도록 하며, (ii) 상기 FC 레이어 각각에 대응하는 상기 리그레션 레이어 각각으로 하여금 상기 테스트용 박스 패턴 정보를 참조하여 상기 테스트용 2D 바운딩 박스의 상기 좌표에 대응하는 상기 테스트용 수도-3D 바운딩 박스의 상기 좌표에 대한 테스트용 리그레션 정보를 생성하도록 하는 프로세스를 수행하기 위한 상기 인스트럭션들을 실행하도록 구성된 적어도 하나의 프로세서;
를 포함하는 것을 특징으로 하는 테스트 장치. - 제 25 항에 있어서,
상기 학습 장치는, 타입 로스 레이어(Type Loss Layer)로 하여금 상기 학습용 객체의 이미지가 트렁케이트 되었는지 트렁케이트 되지 않았는지에 대한 정보와 상기 학습용 객체의 이미지에 대응되는 객체-타입(Object-Type) GT를 참조하여 적어도 하나의 타입 로스를 생성하도록 함으로써, 상기 타입 로스를 이용한 백프로파게이션을 통해 상기 타입-분류 레이어의 파라미터의 적어도 일부를 조정하는 것을 특징으로 하는 테스트 장치. - 제 25 항에 있어서,
상기 (I) 프로세스에서,
상기 프로세서는, 상기 타입-분류 레이어로 하여금 상기 테스트용 객체의 전체를 포함하는 영역 대비 상기 테스트용 풀링된 특징 맵 상에 나타난 상기 테스트용 객체의 일부만 포함하는 영역의 비율이 소정의 임계치 이하일 경우에는 상기 테스트용 객체의 이미지가 트렁케이트 된 것으로 판단하며, 상기 비율이 상기 소정의 임계치를 초과할 경우에는 상기 테스트용 객체의 이미지가 트렁케이트 되지 않은 것으로 판단하도록 하는 것을 특징으로 하는 테스트 장치. - 제 27 항에 있어서,
상기 (III) 프로세스에서,
상기 프로세서는, 상기 리그레션 레이어 각각으로 하여금 (i) 상기 테스트용 2D 바운딩 박스의 꼭지점으로부터 상기 테스트용 객체의 앞면과 뒷면 각각에 대응되는 각각의 테스트용 인스턴스 바운딩 박스의 꼭지점까지의 각각의 변위(Displacement) 및 (ii) 상기 테스트용 2D 바운딩 박스의 중심으로부터 상기 각각의 테스트용 인스턴스 바운딩 박스의 각각의 중심까지의 각각의 변위 및 상기 테스트용 2D 바운딩 박스의 너비/높이 비율과 상기 테스트용 인스턴스 바운딩 박스의 각각의 너비/높이 비율 사이의 각각의 차이 중 적어도 하나를 이용해, 상기 테스트용 리그레션 정보를 생성하도록 하는 것을 특징으로 하는 테스트 장치. - 제 25 항에 있어서,
상기 (II) 프로세스에서,
상기 프로세서는, 상기 테스트용 객체가 상기 제1 타입인 경우, 상기 제1 타입에 대응되는 제1 FC 레이어로 하여금 상기 테스트용 풀링된 특징 맵에 대하여 신경망 연산을 적용하도록 하여 상기 테스트용 수도-3D 바운딩 박스에 대응하는 테스트용 제1 박스 패턴 정보를 생성하며, 상기 테스트용 객체가 상기 제2 타입인 경우, 상기 제2 타입에 대응하는 제2 FC 레이어로 하여금 상기 테스트용 풀링된 특징 맵에 대하여 신경망 연산을 적용하도록 하여 상기 테스트용 수도-3D 바운딩 박스에 대응하는 테스트용 제2 박스 패턴 정보를 생성하고,
상기 (III) 프로세스에서,
상기 프로세서는 (i) 상기 제1 FC 레이어에 대응되는 제1 분류 레이어로 하여금 상기 테스트용 제1 박스 패턴 정보를 참조하여 상기 제1 타입을 갖는 상기 테스트용 객체의 방향에 대응되는 테스트용 제1 방향 클래스 정보를 생성하도록 하며, 상기 제1 FC 레이어에 대응되는 제1 리그레션 레이어로 하여금 상기 테스트용 제1 박스 패턴 정보를 참조하여 상기 테스트용 2D 바운딩 박스의 상기 좌표에 대응하는 상기 테스트용 수도-3D 바운딩 박스의 상기 좌표에 대한 테스트용 제1 리그레션 정보를 생성하도록 하고, (ii) 상기 제2 FC 레이어에 대응되는 제2 분류 레이어로 하여금 상기 테스트용 제2 박스 패턴 정보를 참조하여 상기 제2 타입을 갖는 상기 테스트용 객체의 방향에 대응되는 테스트용 제2 방향 클래스 정보를 생성하도록 하며, 상기 제2 FC 레이어에 대응되는 제2 리그레션 레이어로 하여금 상기 테스트용 제2 박스 패턴 정보를 참조하여 상기 테스트용 2D 바운딩 박스의 상기 좌표에 대응하는 상기 테스트용 수도-3D 바운딩 박스의 상기 좌표에 대한 테스트용 제2 리그레션 정보를 생성하도록 하는 것을 특징으로 하는 테스트 장치. - 제 25 항에 있어서,
상기 테스트 이미지를 선행 CNN 기반의 객체 검출기로 입력하여, 상기 객체 검출기가 (i) 선행 컨볼루션 레이어(Preceding Convolutional Layer)로 하여금 상기 테스트 이미지에 대하여 컨볼루션 연산을 수행하여 상기 테스트용 특징 맵을 생성하도록 하며, (ii) RPN으로 하여금 상기 테스트용 특징 맵으로부터 상기 테스트 이미지 내의 상기 테스트용 객체에 대응하는 적어도 하나의 테스트용 프로포잘 박스를 생성하도록 하고, (iii) 선행 풀링 레이어(Preceding Pooling Layer)로 하여금 상기 테스트용 특징 맵 상에서 상기 테스트용 프로포잘 박스에 대응하는 적어도 하나의 영역에 대하여 풀링 연산을 적용하도록 하여 테스트용 선행 풀링된 특징 맵을 생성하도록 하며, (iv) 선행 FC 레이어(Preceding FC Layer)로 하여금 상기 테스트용 객체에 대응되는 테스트용 객체 패턴 정보를 생성하도록 하고, (v) 선행 분류 레이어(Preceding Classification Layer)로 하여금 상기 테스트용 객체 패턴 정보를 참조하여 상기 테스트용 객체의 클래스에 대응하는 테스트용 객체 클래스 정보를 생성하도록 하며, (vi) 선행 리그레션 레이어(Preceding Regression Layer)로 하여금 상기 테스트용 객체 패턴 정보를 참조하여 상기 테스트용 객체에 대응하는 상기 테스트용 2D 바운딩 박스에 대한 테스트용 선행 리그레션 정보를 생성하도록 함으로써, 상기 테스트용 특징 맵과 상기 테스트용 2D 바운딩 박스를 생성하는 것을 특징으로 하는 테스트 장치.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/258,186 US10445611B1 (en) | 2019-01-25 | 2019-01-25 | Method for detecting pseudo-3D bounding box to be used for military purpose, smart phone or virtual driving based-on CNN capable of converting modes according to conditions of objects and device using the same |
US16/258,186 | 2019-01-25 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20200092846A KR20200092846A (ko) | 2020-08-04 |
KR102309712B1 true KR102309712B1 (ko) | 2021-10-08 |
Family
ID=68165046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190119511A KR102309712B1 (ko) | 2019-01-25 | 2019-09-27 | 객체의 조건에 따라 모드를 전환할 수 있는 CNN 기반으로 군사 목적, 스마트폰 또는 가상 주행에 사용되는 수도(Pseudo)-3D 바운딩 박스를 검출하는 방법 및 이를 이용한 장치 |
Country Status (5)
Country | Link |
---|---|
US (1) | US10445611B1 (ko) |
EP (1) | EP3686776B1 (ko) |
JP (1) | JP6810432B2 (ko) |
KR (1) | KR102309712B1 (ko) |
CN (1) | CN111488783B (ko) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10671878B1 (en) | 2019-01-11 | 2020-06-02 | Capital One Services, Llc | Systems and methods for text localization and recognition in an image of a document |
US20220261593A1 (en) * | 2021-02-16 | 2022-08-18 | Nvidia Corporation | Using neural networks to perform object detection, instance segmentation, and semantic correspondence from bounding box supervision |
DE102021118065A1 (de) | 2021-07-13 | 2023-01-19 | Connaught Electronics Ltd. | Verfahren zum Erzeugen einer dreidimensionalen Information einer dreidimensionalen Umgebung, Computerprogrammprodukt, computerlesbares Speichermedium sowie Assistenzsystem |
CN118397298B (zh) * | 2024-06-28 | 2024-09-06 | 杭州安脉盛智能技术有限公司 | 基于混合池化的自注意力空间金字塔池化方法及相关组件 |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106462940A (zh) * | 2014-10-09 | 2017-02-22 | 微软技术许可有限责任公司 | 图像中通用对象检测 |
US10410096B2 (en) * | 2015-07-09 | 2019-09-10 | Qualcomm Incorporated | Context-based priors for object detection in images |
JP6771018B2 (ja) * | 2015-07-23 | 2020-10-21 | マイヤプリカ テクノロジー エルエルシー | 二次元配列プロセッサの性能向上 |
US9965719B2 (en) * | 2015-11-04 | 2018-05-08 | Nec Corporation | Subcategory-aware convolutional neural networks for object detection |
US9881234B2 (en) * | 2015-11-25 | 2018-01-30 | Baidu Usa Llc. | Systems and methods for end-to-end object detection |
US9858496B2 (en) * | 2016-01-20 | 2018-01-02 | Microsoft Technology Licensing, Llc | Object detection and classification in images |
US10289936B2 (en) * | 2016-11-08 | 2019-05-14 | Nec Corporation | Surveillance system with landmark localization on objects in images using convolutional neural networks |
US10235771B2 (en) * | 2016-11-11 | 2019-03-19 | Qualcomm Incorporated | Methods and systems of performing object pose estimation |
JP6854344B2 (ja) * | 2016-11-15 | 2021-04-07 | マジック リープ, インコーポレイテッドMagic Leap,Inc. | 直方体検出のための深層機械学習システム |
US10373369B2 (en) * | 2017-03-16 | 2019-08-06 | Qualcomm Technologies, Inc. | Three-dimensional pose estimation of symmetrical objects |
US10546237B2 (en) * | 2017-03-30 | 2020-01-28 | Atomwise Inc. | Systems and methods for correcting error in a first classifier by evaluating classifier output in parallel |
CN110651310B (zh) * | 2017-04-05 | 2023-09-08 | 卡内基梅隆大学 | 估计对象密度和/或流量的深度学习方法及相关方法和软件 |
KR102475826B1 (ko) * | 2017-04-21 | 2022-12-09 | 삼성메디슨 주식회사 | 영상 분할 방법 및 그 전자 장치 |
US10572963B1 (en) * | 2017-07-14 | 2020-02-25 | Synapse Technology Corporation | Detection of items |
US9946960B1 (en) * | 2017-10-13 | 2018-04-17 | StradVision, Inc. | Method for acquiring bounding box corresponding to an object in an image by using convolutional neural network including tracking network and computing device using the same |
US10169679B1 (en) * | 2017-10-13 | 2019-01-01 | StradVision, Inc. | Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same |
US10007865B1 (en) * | 2017-10-16 | 2018-06-26 | StradVision, Inc. | Learning method and learning device for adjusting parameters of CNN by using multi-scale feature maps and testing method and testing device using the same |
US9953437B1 (en) * | 2017-10-18 | 2018-04-24 | StradVision, Inc. | Method and device for constructing a table including information on a pooling type and testing method and testing device using the same |
-
2019
- 2019-01-25 US US16/258,186 patent/US10445611B1/en active Active
- 2019-09-27 KR KR1020190119511A patent/KR102309712B1/ko active IP Right Grant
- 2019-10-24 CN CN201911016989.4A patent/CN111488783B/zh active Active
- 2019-11-07 EP EP19207615.6A patent/EP3686776B1/en active Active
- 2019-12-27 JP JP2019239147A patent/JP6810432B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2020119519A (ja) | 2020-08-06 |
EP3686776C0 (en) | 2024-03-27 |
CN111488783A (zh) | 2020-08-04 |
KR20200092846A (ko) | 2020-08-04 |
EP3686776A1 (en) | 2020-07-29 |
EP3686776B1 (en) | 2024-03-27 |
CN111488783B (zh) | 2023-09-12 |
US10445611B1 (en) | 2019-10-15 |
JP6810432B2 (ja) | 2021-01-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102309708B1 (ko) | 인스턴스 세그멘테이션을 이용한 객체의 자세에 따라 모드를 전환할 수 있는 cnn 기반의 수도-3d 바운딩 박스를 검출하는 방법 및 이를 이용한 장치 | |
KR102264394B1 (ko) | 카메라로부터 획득된 이미지와, 이에 대응하는, 레이더 또는 라이더를 통해 획득된 포인트 클라우드 맵을 뉴럴 네트워크의 각각의 컨벌루션 스테이지 별로 통합하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
KR102309712B1 (ko) | 객체의 조건에 따라 모드를 전환할 수 있는 CNN 기반으로 군사 목적, 스마트폰 또는 가상 주행에 사용되는 수도(Pseudo)-3D 바운딩 박스를 검출하는 방법 및 이를 이용한 장치 | |
US10410120B1 (en) | Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same | |
CN111507460B (zh) | 为了提供自动停车系统检测停车空间的方法和装置 | |
KR102296507B1 (ko) | 트래킹 네트워크를 포함한 cnn을 사용하여 객체를 트래킹하는 방법 및 이를 이용한 장치 | |
EP3686779B1 (en) | Method and device for attention-based lane detection without post-processing by using lane mask and testing method and testing device using the same | |
US10919543B2 (en) | Learning method and learning device for determining whether to switch mode of vehicle from manual driving mode to autonomous driving mode by performing trajectory-based behavior analysis on recent driving route | |
KR102296509B1 (ko) | 자율 주행 자동차의 레벨 4를 충족시키기 위해 영역의 클래스에 따라 모드를 전환하여 그리드 셀 별로 가중 컨벌루션 필터를 이용한 감시용 이미지 세그멘테이션 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
KR102372703B1 (ko) | V2v 통신을 통해 획득된 타 자율 주행 차량의 공간 탐지 결과를 자신의 자율 주행 차량의 공간 탐지 결과와 통합하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치 | |
CN111507373B (zh) | 执行无缝参数变更的方法及装置 | |
US10311336B1 (en) | Method and device of neural network operations using a grid generator for converting modes according to classes of areas to satisfy level 4 of autonomous vehicles | |
KR102372687B1 (ko) | 비최대값 억제를 학습하는 병합 네트워크를 이용한 이종 센서 융합을 위한 학습 방법 및 학습 장치 | |
US20230121534A1 (en) | Method and electronic device for 3d object detection using neural networks | |
CN111488786B (zh) | 基于cnn的监视用客体检测器的方法及装置 | |
US10373004B1 (en) | Method and device for detecting lane elements to plan the drive path of autonomous vehicle by using a horizontal filter mask, wherein the lane elements are unit regions including pixels of lanes in an input image | |
US10339424B1 (en) | Method and device of neural network operations using a grid generator for converting modes according to classes of areas to satisfy level 4 of autonomous vehicles |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20190927 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20210225 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20210722 |
|
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20210930 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20211001 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration | ||
PR1001 | Payment of annual fee |
Payment date: 20240827 Start annual number: 4 End annual number: 4 |