KR20200094645A - 온 디바이스 독립형 예측에 기반하여 자율 주행 차량의 모드를 전환함으로써 자율 주행의 안전성을 도모하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치 - Google Patents

온 디바이스 독립형 예측에 기반하여 자율 주행 차량의 모드를 전환함으로써 자율 주행의 안전성을 도모하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치 Download PDF

Info

Publication number
KR20200094645A
KR20200094645A KR1020200001731A KR20200001731A KR20200094645A KR 20200094645 A KR20200094645 A KR 20200094645A KR 1020200001731 A KR1020200001731 A KR 1020200001731A KR 20200001731 A KR20200001731 A KR 20200001731A KR 20200094645 A KR20200094645 A KR 20200094645A
Authority
KR
South Korea
Prior art keywords
cnn
rpn
test
confidence
prediction
Prior art date
Application number
KR1020200001731A
Other languages
English (en)
Other versions
KR102321004B1 (ko
Inventor
김계현
김용중
김학경
남운현
부석훈
성명철
신동수
여동훈
유우주
이명춘
이형수
장태웅
정경중
제홍모
조호진
Original Assignee
주식회사 스트라드비젼
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 스트라드비젼 filed Critical 주식회사 스트라드비젼
Publication of KR20200094645A publication Critical patent/KR20200094645A/ko
Application granted granted Critical
Publication of KR102321004B1 publication Critical patent/KR102321004B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0055Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots with safety arrangements
    • G05D1/0061Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots with safety arrangements for transition from automatic pilot to manual pilot and vice versa
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05DSYSTEMS FOR CONTROLLING OR REGULATING NON-ELECTRIC VARIABLES
    • G05D1/00Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots
    • G05D1/0088Control of position, course, altitude or attitude of land, water, air or space vehicles, e.g. using automatic pilots characterized by the autonomous decision making process, e.g. artificial intelligence, predefined behaviours
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06K9/3233
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Remote Sensing (AREA)
  • Automation & Control Theory (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)
  • Control Of Driving Devices And Active Controlling Of Vehicle (AREA)

Abstract

객체 검출의 프로세스 동안 상기 객체 검출의 신뢰도를 나타낼 수 있는 파라미터를 생성하는 학습 방법에 있어서, (a) 학습 장치가 컨벌루션 레이어로 하여금, 트레이닝 이미지에 컨벌루션 연산을 가하여 컨벌루션 특징 맵을 생성하도록 하는 단계; (b) 상기 학습 장치가 앵커 레이어로 하여금, RPN 컨피던스(confidence) 스코어를 포함하는 RPN 컨피던스 맵을 생성하도록 하는 단계; (c) 상기 학습 장치가 FC 레이어로 하여금, CNN 컨피던스 스코어를 생성함으로써 CNN 컨피던스 맵을 생성하도록 하는 단계; 및 (d) 상기 학습 장치가 로스 레이어로 하여금, 상기 RPN 컨피던스 맵, 상기 CNN 컨피던스 맵, 예측 객체 검출 결과 및 GT 객체 검출 결과를 참조하여 생성된 RPN 로스 및 CNN 로스를 이용해 백프로퍼게이션(backpropagation)을 수행함으로써 상기 CNN 및 상기 RPN의 파라미터 중 적어도 일부를 학습하는 단계;를 포함한다.

Description

온 디바이스 독립형 예측에 기반하여 자율 주행 차량의 모드를 전환함으로써 자율 주행의 안전성을 도모하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치{LEARNING METHOD AND LEARNING DEVICE FOR SWITCHING MODES OF AUTONOMOUS VEHICLE BASED ON ON-DEVICE STANDALONE PREDICTION TO THEREBY ACHIEVE SAFETY OF AUTONOMOUS DRIVING, AND TESTING METHOD AND TESTING DEVICE USING THE SAME}
본 발명은 자율 주행 차량에 이용하기 위한 학습 방법 및 학습 장치에 관한 것으로; 보다 상세하게는, 온 디바이스(On-device) 독립형 예측에 기반하여 자율 주행 차량의 모드를 전환함으로써 자율 주행의 안전성을 도모하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치에 관한 것이다.
자율 주행 기술은 최근 많이 연구되어, 운전자의 개입 없이 자율 주행 차량이 꽤 높은 정확도로 주행될 수 있게 되었다. 하지만, 이와 같은 자율 주행 기술도 특정 상황에는 잘 동작하지 못하는 경우가 있다. 예를 들어, 카메라 기반의 자율 주행 차량의 경우에, 자율 주행 차량에 탑재된 카메라의 시야가 갑자기 어두워진다면 카메라에 의해 획득된 이미지가 자율 주행에 적절하지 않을 수 있고, 따라서 카메라 기반의 자율 주행 차량이 제대로 작동하기 어려울 수 있다.
이와 같은 경우, 안전을 위하여 자율 주행이 더 이루어져서는 안되고, 차량이 수동 주행 모드로 전환되어 운전자가 차량을 운전하도록 해야 한다. 이를 위한 종래 기술은, 지리적 구역 데이터베이스, 즉 각각의 구간이 차량의 자율 주행에 안전한지 여부에 대한 정보를 포함하는 데이터베이스를 참조로 하여 사용자에게 알림을 주는 것이 있다.
이러한 종래 기술의 한계는, 지리적 구역 데이터베이스에서 자율 주행에 안전하다고 라벨링된 구간도 경우에 따라서 수동 주행이 필요할 수 있다는 것이다. 예를 들어, 악천후 상황이라거나, 야간에 가로등이 고장나서 깜깜한 경우 등에는, 수동 업데이트되는 DB 기반으로는 자율 주행 여부를 적절히 예측할 수 없을 것이다. 즉, 종래 기술은, 이와 같은 경우에 대하여는 미리 알림을 주기 어려운 문제가 있다.
본 발명은 상술한 문제점을 해결하는 것을 목적으로 한다.
본 발명은 온 디바이스(On-device) 독립형 예측에 기반하여 자율 주행 차량의 모드를 전환함으로써 자율 주행의 안전성을 도모하는 학습 방법을 제공하는 것을 목적으로 한다.
본 발명은 객체 검출의 프로세스 동안 상기 객체 검출의 신뢰도를 나타낼 수 있는 파라미터를 생성하는 방법을 제공하는 것을 다른 목적으로 한다.
본 발명은 상기 객체 검출을 적절하게 수행하는 동안 상기 파라미터를 생성하기 위해 객체 검출에 사용되는 네트워크를 학습시키는데 이용될 로스를 제공하는 것을 또 다른 목적으로 한다.
상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 효과를 실현하기 위한 본 발명의 특징적인 구성은 하기와 같다.
본 발명의 일 태양에 따르면, 객체 검출의 프로세스 동안 상기 객체 검출의 신뢰도를 나타낼 수 있는 파라미터를 생성하는 학습 방법에 있어서, (a) 학습 장치가, 트레이닝 이미지가 획득되면, CNN(Convolutional Neural Network)에 포함된 적어도 하나의 컨벌루션 레이어로 하여금, 상기 트레이닝 이미지에 적어도 하나의 컨벌루션 연산을 가하여 적어도 하나의 컨벌루션 특징 맵을 생성하도록 하는 단계; (b) 상기 학습 장치가, RPN(Region Proposal Network)에 포함된 적어도 하나의 앵커 레이어로 하여금, 상기 컨벌루션 특징 맵에 적어도 하나의 앵커(anchor) 연산을 가함으로써 상기 트레이닝 이미지 상의 예측 ROI(Region Of Interest)를 생성하는 프로세스 동안, 상기 컨벌루션 특징 맵 내 각 픽셀 별 하나 이상의 RPN 컨피던스(confidence) 스코어 각각 - 상기 RPN 컨피던스 스코어 각각은, 상기 예측 ROI가 GT(ground-truth) ROI와 동일할 확률 각각을 나타냄 - 을 생성함으로써, 상기 RPN 컨피던스 스코어를 포함하는 RPN 컨피던스 맵을 생성하도록 하는 단계; (c) 상기 학습 장치가, 상기 CNN에 포함된 ROI 풀링 레이어를 통해 상기 컨벌루션 특징 맵 및 상기 예측 ROI를 이용하여 생성된 적어도 하나의 ROI 풀링된(ROI-Pooled) 특징 맵이 획득되면, 상기 CNN에 포함된 FC 레이어로 하여금, 상기 ROI 풀링된 특징 맵을 사용하여 예측 객체 검출 결과를 생성하는 프로세스 동안, 각 상기 예측 ROI 별 CNN 컨피던스 스코어 각각 - 상기 CNN 컨피던스 스코어 각각은, 상기 예측 객체 검출 결과에 포함된 하나 이상의 예측 CNN 리그레션 결과 각각 및 하나 이상의 예측 CNN 분류 결과 각각이, GT 객체 검출 결과에 포함된 하나 이상의 GT CNN 리그레션 결과 각각 및 하나 이상의 GT CNN 분류 결과 각각과 동일할 확률 각각을 나타냄 - 을 생성함으로써, 상기 CNN 컨피던스 스코어를 포함하는 CNN 컨피던스 맵을 생성하도록 하는 단계; 및 (d) 상기 학습 장치가, 로스 레이어로 하여금, 상기 RPN 컨피던스 맵, 상기 CNN 컨피던스 맵, 상기 예측 객체 검출 결과 및 상기 GT 객체 검출 결과를 참조하여 적어도 하나의 RPN 로스 및 적어도 하나의 CNN 로스를 생성하도록 하고, 상기 RPN 로스 및 상기 CNN 로스를 이용해 백프로퍼게이션(backpropagation)을 수행함으로써 상기 CNN 및 상기 RPN의 파라미터 중 적어도 일부를 학습하는 단계;를 포함하는 것을 특징으로 하는 학습 방법이 제공된다.
일 실시예에서, 상기 (d) 단계에서, 상기 학습 장치가, 상기 로스 레이어로 하여금, 하기 수식에 따라 상기 RPN 로스를 생성하도록 하되,
Figure pat00001
Figure pat00002
는 상기 앵커 연산을 수행하여 생성된 상기 컨벌루션 특징 맵의 크기에 대응하는 상수이고,
Figure pat00003
는 상기 트레이닝 이미지에 대응하는 상수이며,
Figure pat00004
는 상기 RPN 컨피던스 스코어 중, 상기 컨벌루션 특징 맵의 제i 픽셀에 대응하는 제i RPN 컨피던스 스코어를 의미하고,
Figure pat00005
는 상기 제i 픽셀에 대응하는 제i 예측 RPN 분류 결과를 의미하며,
Figure pat00006
는 상기 제i 예측 RPN 분류 결과에 대응하는 제i GT RPN 분류 결과를 의미하고,
Figure pat00007
는 상기 제i 픽셀에 대응하는 제i 예측 RPN 리그레션 결과를 의미하며,
Figure pat00008
는 상기 제i 예측 RPN 리그레션 결과에 대응하는 제i GT RPN 리그레션 결과를 의미하고, 상기 제i GT RPN 분류 결과 및 상기 제i GT RPN 리그레션 결과는 상기 GT 객체 검출 결과에 대응한다.
일 실시예에서, 상기 (d) 단계에서, 상기 학습 장치가, 상기 로스 레이어로 하여금, 하기 수식에 따라 상기 CNN 로스를 생성하도록 하되,
Figure pat00009
Figure pat00010
Figure pat00011
는 상기 예측 ROI의 개수이고,
Figure pat00012
는 상기 CNN 컨피던스 스코어 중, 상기 예측 ROI에서 선택된 제i 예측 ROI에 대응하는 제i CNN 컨피던스 스코어를 의미하고,
Figure pat00013
는 상기 제i 예측 ROI에 대응하는 제i 예측 CNN 분류 결과를 의미하며,
Figure pat00014
는 상기 제i 예측 CNN 분류 결과에 대응하는 제i GT CNN 분류 결과를 의미하고,
Figure pat00015
는 상기 제i 예측 ROI에 대응하는 제i 예측 CNN 리그레션 결과를 의미하며,
Figure pat00016
는 상기 제i 예측 CNN 리그레션 결과에 대응하는 제i GT CNN 리그레션 결과를 의미하고, 상기 제i 예측 CNN 분류 결과 및 상기 제i 예측 CNN 리그레션 결과는 상기 예측 객체 검출 결과에 대응한다.
일 실시예에서, 상기 (c) 단계 이후에, 상기 학습 장치가, 컨피던스 레이어로 하여금, 상기 RPN 컨피던스 맵 및 상기 CNN 컨피던스 맵을 참조하여, 상기 트레이닝 이미지 내 각 픽셀 별 각각의 통합 컨피던스 스코어에 대한 정보를 포함하는 통합 컨피던스 맵을 생성하도록 한다.
일 실시예에서, 상기 학습 장치가, 상기 컨피던스 레이어로 하여금, (i-1) 상기 예측 객체 검출 결과가 생성되는 프로세스 동안 생성되는, 상기 예측 ROI에 대한 NMS(Non-Maximum Suppression) 결과를 상기 CNN으로부터 획득하는 프로세스, (i-2) 상기 RPN 컨피던스 맵에 적어도 하나의 리사이징(resizing) 연산을 가하여 리사이징된 RPN 컨피던스 맵을 생성하는 프로세스, 및 (ii) 상기 NMS 결과 및 상기 리사이징된 RPN 컨피던스 맵을 참조하여 상기 통합 컨피던스 맵을 생성하는 프로세스를 수행하도록 한다.
일 실시예에서, 상기 학습 장치가, 상기 컨피던스 레이어로 하여금, 상기 통합 컨피던스 스코어 중, 상기 트레이닝 이미지 상의 좌표
Figure pat00017
에 대응하는 제(X_Y) 통합 컨피던스 스코어를 하기 수식에 따라 생성하도록 하되,
Figure pat00018
Figure pat00019
는 상기 제(X_Y) 통합 컨피던스 스코어를 의미하고,
Figure pat00020
는 상기 리사이징된 RPN 컨피던스 맵 상의 좌표
Figure pat00021
에 대응하는 제(X_Y) 리사이징된 RPN 컨피던스 스코어를 의미하며,
Figure pat00022
는 상기 NMS(Non-Maximum Suppression) 결과에서 결정된, 상기 좌표
Figure pat00023
를 포함하는 제i 예측 ROI - 상기 제i 예측 ROI는
Figure pat00024
로 나타냄 - 에 대한 제i CNN 컨피던스 스코어를 의미한다.
본 발명의 다른 태양에 따르면, 객체 검출의 프로세스 동안 상기 객체 검출의 신뢰도를 나타낼 수 있는 파라미터를 생성하는 테스팅 방법에 있어서, (a) (1) 학습 장치가, CNN에 포함된 적어도 하나의 컨벌루션 레이어로 하여금, 트레이닝 이미지에 적어도 하나의 컨벌루션 연산을 가하여 적어도 하나의 학습용 컨벌루션 특징 맵을 생성하도록 하고, (2) 상기 학습 장치가, RPN에 포함된 적어도 하나의 앵커 레이어로 하여금, 상기 학습용 컨벌루션 특징 맵에 적어도 하나의 앵커 연산을 가함으로써 상기 트레이닝 이미지 상의 학습용 예측 ROI를 생성하는 프로세스 동안, 상기 학습용 컨벌루션 특징 맵 내 각 픽셀 별 하나 이상의 학습용 RPN 컨피던스 스코어 각각 - 상기 학습용 RPN 컨피던스 스코어 각각은, 상기 학습용 예측 ROI가 GT ROI와 동일할 학습용 확률 각각을 나타냄 - 을 생성함으로써, 상기 학습용 RPN 컨피던스 스코어를 포함하는 학습용 RPN 컨피던스 맵을 생성하도록 하며, (3) 상기 학습 장치가, 상기 CNN에 포함된 ROI 풀링 레이어를 통해 상기 학습용 컨벌루션 특징 맵 및 상기 학습용 예측 ROI를 이용하여 생성된 적어도 하나의 학습용 ROI 풀링된 특징 맵이 획득되면, 상기 CNN에 포함된 FC 레이어로 하여금, 상기 학습용 ROI 풀링된 특징 맵을 사용하여 학습용 예측 객체 검출 결과를 생성하는 프로세스 동안, 각 상기 학습용 예측 ROI 별 학습용 CNN 컨피던스 스코어 각각 - 상기 학습용 CNN 컨피던스 스코어 각각은, 상기 학습용 예측 객체 검출 결과에 포함된 하나 이상의 학습용 예측 CNN 리그레션 결과 각각 및 하나 이상의 학습용 예측 CNN 분류 결과 각각이, GT 객체 검출 결과에 포함된 하나 이상의 GT CNN 리그레션 결과 각각 및 하나 이상의 GT CNN 분류 결과 각각과 동일할 학습용 확률 각각을 나타냄 - 을 생성함으로써, 상기 학습용 CNN 컨피던스 스코어를 포함하는 학습용 CNN 컨피던스 맵을 생성하도록 하고, (4) 상기 학습 장치가, 로스 레이어로 하여금, 상기 학습용 RPN 컨피던스 맵, 상기 학습용 CNN 컨피던스 맵, 상기 학습용 예측 객체 검출 결과 및 상기 GT 객체 검출 결과를 참조하여 적어도 하나의 RPN 로스 및 적어도 하나의 CNN 로스를 생성하도록 하고, 상기 RPN 로스 및 상기 CNN 로스를 이용해 백프로퍼게이션을 수행함으로써 상기 CNN 및 상기 RPN의 파라미터 중 적어도 일부를 학습한 상태에서, 테스팅 장치가, 테스트용 주행 비디오의 제N 프레임에 대응하는 테스트 이미지가 획득되면, 상기 CNN에 포함된 상기 컨벌루션 레이어로 하여금, 상기 테스트 이미지에 상기 컨벌루션 연산을 가하여 적어도 하나의 테스트용 컨벌루션 특징 맵을 생성하도록 하는 단계; (b) 상기 테스팅 장치가, 상기 RPN에 포함된 상기 앵커 레이어로 하여금, 상기 테스트용 컨벌루션 특징 맵에 상기 앵커 연산을 가함으로써 상기 테스트 이미지 상의 테스트용 예측 ROI를 생성하는 프로세스 동안, 상기 테스트용 컨벌루션 특징 맵 내 각 픽셀 별 하나 이상의 테스트용 RPN 컨피던스 스코어 각각 - 상기 테스트용 RPN 컨피던스 스코어 각각은, 상기 테스트용 예측 ROI가 GT ROI와 동일할 테스트용 확률 각각을 나타냄 - 을 생성함으로써, 상기 테스트용 RPN 컨피던스 스코어를 포함하는 테스트용 RPN 컨피던스 맵을 생성하도록 하는 단계; (c) 상기 테스팅 장치가, 상기 CNN에 포함된 상기 ROI 풀링 레이어를 통해 상기 테스트용 컨벌루션 특징 맵 및 상기 테스트용 예측 ROI를 이용하여 생성된 적어도 하나의 테스트용 ROI 풀링된 특징 맵이 획득되면, 상기 CNN에 포함된 상기 FC 레이어로 하여금, 상기 테스트용 ROI 풀링된 특징 맵을 사용하여 테스트용 예측 객체 검출 결과를 생성하는 프로세스 동안, 각 상기 테스트용 예측 ROI 별 테스트용 CNN 컨피던스 스코어 각각 - 상기 테스트용 CNN 컨피던스 스코어 각각은, 상기 테스트용 예측 객체 검출 결과에 포함된 하나 이상의 테스트용 예측 CNN 리그레션 결과 각각 및 하나 이상의 테스트용 예측 CNN 분류 결과 각각이, GT 객체 검출 결과에 포함된 하나 이상의 GT CNN 리그레션 결과 각각 및 하나 이상의 GT CNN 분류 결과 각각과 동일할 테스트용 확률 각각을 나타냄 - 을 생성함으로써, 상기 테스트용 CNN 컨피던스 스코어를 포함하는 테스트용 CNN 컨피던스 맵을 생성하도록 하는 단계; 및 (d) 상기 테스팅 장치가, 컨피던스 레이어로 하여금, 상기 테스트용 RPN 컨피던스 맵 및 상기 테스트용 CNN 컨피던스 맵을 참조하여, 테스트용 통합 컨피던스 스코어를 포함하는 테스트용 통합 컨피던스 맵을 생성하도록 하는 단계;를 포함하는 것을 특징으로 하는 테스팅 방법이 제공된다.
일 실시예에서, 상기 테스팅 장치가, 상기 컨피던스 레이어로 하여금, (i-1) 상기 테스트용 예측 객체 검출 결과가 생성되는 프로세스 동안 생성되는, 상기 테스트용 예측 ROI에 대한 테스트용 NMS 결과를 상기 CNN으로부터 획득하는 프로세스, (i-2) 상기 테스트용 RPN 컨피던스 맵에 적어도 하나의 리사이징 연산을 가하여 리사이징된 테스트용 RPN 컨피던스 맵을 생성하는 프로세스, 및 (ii) 상기 테스트용 NMS 결과 및 상기 리사이징된 테스트용 RPN 컨피던스 맵을 참조하여 상기 테스트용 통합 컨피던스 맵을 생성하는 프로세스를 수행하도록 한다.
일 실시예에서, 상기 테스팅 장치가, 상기 컨피던스 레이어로 하여금, 상기 테스트용 통합 컨피던스 스코어 중, 상기 테스트 이미지 상의 좌표
Figure pat00025
에 대응하는 제(X_Y) 테스트용 통합 컨피던스 스코어를 하기 수식에 따라 생성하도록 하되,
Figure pat00026
Figure pat00027
는 상기 제(X_Y) 테스트용 통합 컨피던스 스코어를 의미하고,
Figure pat00028
는 상기 리사이징된 테스트용 RPN 컨피던스 맵 상의 좌표
Figure pat00029
에 대응하는 제(X_Y) 리사이징된 테스트용 RPN 컨피던스 스코어를 의미하며,
Figure pat00030
는 상기 테스트용 NMS 결과에서 결정된, 상기 좌표
Figure pat00031
를 포함하는 제i 테스트용 예측 ROI - 상기 제i 테스트용 예측 ROI는
Figure pat00032
로 나타냄 - 에 대한 제i 테스트용 CNN 컨피던스 스코어를 의미한다.
일 실시예에서, (e) 상기 테스팅 장치가, 상기 제 N프레임에 대응하는 시점으로부터 기설정된 시간 범위 동안 테스트용 차량이 주행할 예정 경로를 나타내는 경로 정보가 - 상기 경로 정보는, 상기 테스트용 차량과 연동하는 경로 플래닝 모듈에 의해 생성된 상태임 - 획득되면, 모드 전환 모듈로 하여금, (i) 상기 테스트용 통합 컨피던스 맵 및 상기 경로 정보를 참조로 하여, 상기 테스트용 통합 컨피던스 스코어 중에서, 상기 예정 경로에 대응하는 상기 제N 프레임에 대한 적어도 하나의 제N 타겟 컨피던스 스코어를 선택하고, (ii) 상기 제N 타겟 컨피던스 스코어가 임계치 초과인지 여부를 판단하도록 하는 단계;를 더 포함한다.
일 실시예에서, 상기 테스팅 장치가, 상기 모드 전환 모듈로 하여금, (i) 상기 제N 타겟 컨피던스 스코어가 상기 임계치 이하이고, (ii) 제(N-K) 프레임 - K는 N미만의 정수임 - 내지 제(N-1) 프레임 각각에 대응하는 제(N-K) 타겟 컨피던스 스코어 내지 제(N-1) 타겟 컨피던스 스코어 중 적어도 일부가 상기 임계치 이하인 경우, 상기 테스트용 차량의 주행 모드를 자율 주행 모드에서 수동 주행 모드로 변경하도록 한다.
일 실시예에서, 상기 테스팅 장치가, 상기 모드 전환 모듈로 하여금, (i) 상기 제N 타겟 컨피던스 스코어가 상기 임계치 이하이고, (ii) 제(N-K) 프레임 - K는 N미만의 정수임 - 내지 제(N-1) 프레임 각각에 대응하는 제(N-K) 타겟 컨피던스 스코어 내지 제(N-1) 타겟 컨피던스 스코어가 순차적으로 감소하는 경우, 상기 테스트용 차량의 주행 모드를 자율 주행 모드에서 수동 주행 모드로 변경하도록 한다.
본 발명의 또 다른 태양에 따르면, 객체 검출의 프로세스 동안 상기 객체 검출의 신뢰도를 나타낼 수 있는 파라미터를 생성하는 학습 장치에 있어서, 인스트럭션을 저장하는 적어도 하나의 메모리; 및 (I) 트레이닝 이미지가 획득되면, CNN(Convolutional Neural Network)에 포함된 적어도 하나의 컨벌루션 레이어로 하여금, 상기 트레이닝 이미지에 적어도 하나의 컨벌루션 연산을 가하여 적어도 하나의 컨벌루션 특징 맵을 생성하도록 하는 프로세스, (II) RPN(Region Proposal Network)에 포함된 적어도 하나의 앵커 레이어로 하여금, 상기 컨벌루션 특징 맵에 적어도 하나의 앵커(anchor) 연산을 가함으로써 상기 트레이닝 이미지 상의 예측 ROI(Region Of Interest)를 생성하는 프로세스 동안, 상기 컨벌루션 특징 맵 내 각 픽셀 별 하나 이상의 RPN 컨피던스(confidence) 스코어 각각 - 상기 RPN 컨피던스 스코어 각각은, 상기 예측 ROI가 GT(ground-truth) ROI와 동일할 확률 각각을 나타냄 - 을 생성함으로써, 상기 RPN 컨피던스 스코어를 포함하는 RPN 컨피던스 맵을 생성하도록 하는 프로세스, (III) 상기 CNN에 포함된 ROI 풀링 레이어를 통해 상기 컨벌루션 특징 맵 및 상기 예측 ROI를 이용하여 생성된 적어도 하나의 ROI 풀링된(ROI-Pooled) 특징 맵이 획득되면, 상기 CNN에 포함된 FC 레이어로 하여금, 상기 ROI 풀링된 특징 맵을 사용하여 예측 객체 검출 결과를 생성하는 프로세스 동안, 각 상기 예측 ROI 별 CNN 컨피던스 스코어 각각 - 상기 CNN 컨피던스 스코어 각각은, 상기 예측 객체 검출 결과에 포함된 하나 이상의 예측 CNN 리그레션 결과 각각 및 하나 이상의 예측 CNN 분류 결과 각각이, GT 객체 검출 결과에 포함된 하나 이상의 GT CNN 리그레션 결과 각각 및 하나 이상의 GT CNN 분류 결과 각각과 동일할 확률 각각을 나타냄 - 을 생성함으로써, 상기 CNN 컨피던스 스코어를 포함하는 CNN 컨피던스 맵을 생성하도록 하는 프로세스, 및 (IV) 로스 레이어로 하여금, 상기 RPN 컨피던스 맵, 상기 CNN 컨피던스 맵, 상기 예측 객체 검출 결과 및 상기 GT 객체 검출 결과를 참조하여 적어도 하나의 RPN 로스 및 적어도 하나의 CNN 로스를 생성하도록 하고, 상기 RPN 로스 및 상기 CNN 로스를 이용해 백프로퍼게이션(backpropagation)을 수행함으로써 상기 CNN 및 상기 RPN의 파라미터 중 적어도 일부를 학습하는 프로세스를 수행하기 위한 상기 인스트럭션을 실행하도록 구성된 적어도 하나의 프로세서;를 포함하는 것을 특징으로 하는 학습 장치가 제공된다.
일 실시예에서, 상기 (IV) 프로세스에서, 상기 프로세서가, 상기 로스 레이어로 하여금, 하기 수식에 따라 상기 RPN 로스를 생성하도록 하되,
Figure pat00033
Figure pat00034
는 상기 앵커 연산을 수행하여 생성된 상기 컨벌루션 특징 맵의 크기에 대응하는 상수이고,
Figure pat00035
는 상기 트레이닝 이미지에 대응하는 상수이며,
Figure pat00036
는 상기 RPN 컨피던스 스코어 중, 상기 컨벌루션 특징 맵의 제i 픽셀에 대응하는 제i RPN 컨피던스 스코어를 의미하고,
Figure pat00037
는 상기 제i 픽셀에 대응하는 제i 예측 RPN 분류 결과를 의미하며,
Figure pat00038
는 상기 제i 예측 RPN 분류 결과에 대응하는 제i GT RPN 분류 결과를 의미하고,
Figure pat00039
는 상기 제i 픽셀에 대응하는 제i 예측 RPN 리그레션 결과를 의미하며,
Figure pat00040
는 상기 제i 예측 RPN 리그레션 결과에 대응하는 제i GT RPN 리그레션 결과를 의미하고, 상기 제i GT RPN 분류 결과 및 상기 제i GT RPN 리그레션 결과는 상기 GT 객체 검출 결과에 대응한다.
일 실시예에서, 상기 (IV) 프로세스에서, 상기 프로세서가, 상기 로스 레이어로 하여금, 하기 수식에 따라 상기 CNN 로스를 생성하도록 하되,
Figure pat00041
Figure pat00042
Figure pat00043
는 상기 예측 ROI의 개수이고,
Figure pat00044
는 상기 CNN 컨피던스 스코어 중, 상기 예측 ROI에서 선택된 제i 예측 ROI에 대응하는 제i CNN 컨피던스 스코어를 의미하고,
Figure pat00045
는 상기 제i 예측 ROI에 대응하는 제i 예측 CNN 분류 결과를 의미하며,
Figure pat00046
는 상기 제i 예측 CNN 분류 결과에 대응하는 제i GT CNN 분류 결과를 의미하고,
Figure pat00047
는 상기 제i 예측 ROI에 대응하는 제i 예측 CNN 리그레션 결과를 의미하며,
Figure pat00048
는 상기 제i 예측 CNN 리그레션 결과에 대응하는 제i GT CNN 리그레션 결과를 의미하고, 상기 제i 예측 CNN 분류 결과 및 상기 제i 예측 CNN 리그레션 결과는 상기 예측 객체 검출 결과에 대응한다.
일 실시예에서, 상기 (III) 프로세스 이후에, 상기 프로세서가, 컨피던스 레이어로 하여금, 상기 RPN 컨피던스 맵 및 상기 CNN 컨피던스 맵을 참조하여, 상기 트레이닝 이미지 내 각 픽셀 별 각각의 통합 컨피던스 스코어에 대한 정보를 포함하는 통합 컨피던스 맵을 생성하도록 한다.
일 실시예에서, 상기 프로세서가, 상기 컨피던스 레이어로 하여금, (i-1) 상기 예측 객체 검출 결과가 생성되는 프로세스 동안 생성되는, 상기 예측 ROI에 대한 NMS(Non-Maximum Suppression) 결과를 상기 CNN으로부터 획득하는 프로세스, (i-2) 상기 RPN 컨피던스 맵에 적어도 하나의 리사이징(resizing) 연산을 가하여 리사이징된 RPN 컨피던스 맵을 생성하는 프로세스, 및 (ii) 상기 NMS 결과 및 상기 리사이징된 RPN 컨피던스 맵을 참조하여 상기 통합 컨피던스 맵을 생성하는 프로세스를 수행하도록 한다.
일 실시예에서, 상기 프로세서가, 상기 컨피던스 레이어로 하여금, 상기 통합 컨피던스 스코어 중, 상기 트레이닝 이미지 상의 좌표
Figure pat00049
에 대응하는 제(X_Y) 통합 컨피던스 스코어를 하기 수식에 따라 생성하도록 하되,
Figure pat00050
Figure pat00051
는 상기 제(X_Y) 통합 컨피던스 스코어를 의미하고,
Figure pat00052
는 상기 리사이징된 RPN 컨피던스 맵 상의 좌표
Figure pat00053
에 대응하는 제(X_Y) 리사이징된 RPN 컨피던스 스코어를 의미하며,
Figure pat00054
는 상기 NMS(Non-Maximum Suppression) 결과에서 결정된, 상기 좌표
Figure pat00055
를 포함하는 제i 예측 ROI - 상기 제i 예측 ROI는
Figure pat00056
로 나타냄 - 에 대한 제i CNN 컨피던스 스코어를 의미한다.
본 발명의 또 다른 태양에 따르면, 객체 검출의 프로세스 동안 상기 객체 검출의 신뢰도를 나타낼 수 있는 파라미터를 생성하는 테스팅 장치에 있어서, 인스트럭션을 저장하는 적어도 하나의 메모리; 및 (I) (1) 학습 장치가, CNN에 포함된 적어도 하나의 컨벌루션 레이어로 하여금, 트레이닝 이미지에 적어도 하나의 컨벌루션 연산을 가하여 적어도 하나의 학습용 컨벌루션 특징 맵을 생성하도록 하고, (2) 상기 학습 장치가, RPN에 포함된 적어도 하나의 앵커 레이어로 하여금, 상기 학습용 컨벌루션 특징 맵에 적어도 하나의 앵커 연산을 가함으로써 상기 트레이닝 이미지 상의 학습용 예측 ROI를 생성하는 프로세스 동안, 상기 학습용 컨벌루션 특징 맵 내 각 픽셀 별 하나 이상의 학습용 RPN 컨피던스 스코어 각각 - 상기 학습용 RPN 컨피던스 스코어 각각은, 상기 학습용 예측 ROI가 GT ROI와 동일할 학습용 확률 각각을 나타냄 - 을 생성함으로써, 상기 학습용 RPN 컨피던스 스코어를 포함하는 학습용 RPN 컨피던스 맵을 생성하도록 하며, (3) 상기 학습 장치가, 상기 CNN에 포함된 ROI 풀링 레이어를 통해 상기 학습용 컨벌루션 특징 맵 및 상기 학습용 예측 ROI를 이용하여 생성된 적어도 하나의 학습용 ROI 풀링된 특징 맵이 획득되면, 상기 CNN에 포함된 FC 레이어로 하여금, 상기 학습용 ROI 풀링된 특징 맵을 사용하여 학습용 예측 객체 검출 결과를 생성하는 프로세스 동안, 각 상기 학습용 예측 ROI 별 학습용 CNN 컨피던스 스코어 각각 - 상기 학습용 CNN 컨피던스 스코어 각각은, 상기 학습용 예측 객체 검출 결과에 포함된 하나 이상의 학습용 예측 CNN 리그레션 결과 각각 및 하나 이상의 학습용 예측 CNN 분류 결과 각각이, GT 객체 검출 결과에 포함된 하나 이상의 GT CNN 리그레션 결과 각각 및 하나 이상의 GT CNN 분류 결과 각각과 동일할 학습용 확률 각각을 나타냄 - 을 생성함으로써, 상기 학습용 CNN 컨피던스 스코어를 포함하는 학습용 CNN 컨피던스 맵을 생성하도록 하고, (4) 상기 학습 장치가, 로스 레이어로 하여금, 상기 학습용 RPN 컨피던스 맵, 상기 학습용 CNN 컨피던스 맵, 상기 학습용 예측 객체 검출 결과 및 상기 GT 객체 검출 결과를 참조하여 적어도 하나의 RPN 로스 및 적어도 하나의 CNN 로스를 생성하도록 하고, 상기 RPN 로스 및 상기 CNN 로스를 이용해 백프로퍼게이션을 수행함으로써 상기 CNN 및 상기 RPN의 파라미터 중 적어도 일부를 학습한 상태에서, 테스트용 주행 비디오의 제N 프레임에 대응하는 테스트 이미지가 획득되면, 상기 CNN에 포함된 상기 컨벌루션 레이어로 하여금, 상기 테스트 이미지에 상기 컨벌루션 연산을 가하여 적어도 하나의 테스트용 컨벌루션 특징 맵을 생성하도록 하는 프로세스, (II) 상기 RPN에 포함된 상기 앵커 레이어로 하여금, 상기 테스트용 컨벌루션 특징 맵에 상기 앵커 연산을 가함으로써 상기 테스트 이미지 상의 테스트용 예측 ROI를 생성하는 프로세스 동안, 상기 테스트용 컨벌루션 특징 맵 내 각 픽셀 별 하나 이상의 테스트용 RPN 컨피던스 스코어 각각 - 상기 테스트용 RPN 컨피던스 스코어 각각은, 상기 테스트용 예측 ROI가 GT ROI와 동일할 테스트용 확률 각각을 나타냄 - 을 생성함으로써, 상기 테스트용 RPN 컨피던스 스코어를 포함하는 테스트용 RPN 컨피던스 맵을 생성하도록 하는 프로세스, (III) 상기 CNN에 포함된 상기 ROI 풀링 레이어를 통해 상기 테스트용 컨벌루션 특징 맵 및 상기 테스트용 예측 ROI를 이용하여 생성된 적어도 하나의 테스트용 ROI 풀링된 특징 맵이 획득되면, 상기 CNN에 포함된 상기 FC 레이어로 하여금, 상기 테스트용 ROI 풀링된 특징 맵을 사용하여 테스트용 예측 객체 검출 결과를 생성하는 프로세스 동안, 각 상기 테스트용 예측 ROI 별 테스트용 CNN 컨피던스 스코어 각각 - 상기 테스트용 CNN 컨피던스 스코어 각각은, 상기 테스트용 예측 객체 검출 결과에 포함된 하나 이상의 테스트용 예측 CNN 리그레션 결과 각각 및 하나 이상의 테스트용 예측 CNN 분류 결과 각각이, GT 객체 검출 결과에 포함된 하나 이상의 GT CNN 리그레션 결과 각각 및 하나 이상의 GT CNN 분류 결과 각각과 동일할 테스트용 확률 각각을 나타냄 - 을 생성함으로써, 상기 테스트용 CNN 컨피던스 스코어를 포함하는 테스트용 CNN 컨피던스 맵을 생성하도록 하는 프로세스, 및 (IV) 컨피던스 레이어로 하여금, 상기 테스트용 RPN 컨피던스 맵 및 상기 테스트용 CNN 컨피던스 맵을 참조하여, 테스트용 통합 컨피던스 스코어를 포함하는 테스트용 통합 컨피던스 맵을 생성하도록 하는 프로세스를 수행하기 위한 상기 인스트럭션을 실행하도록 구성된 적어도 하나의 프로세서;를 포함하는 것을 특징으로 하는 테스팅 장치가 제공된다.
일 실시예에서, 상기 프로세서가, 상기 컨피던스 레이어로 하여금, (i-1) 상기 테스트용 예측 객체 검출 결과가 생성되는 프로세스 동안 생성되는, 상기 테스트용 예측 ROI에 대한 테스트용 NMS 결과를 상기 CNN으로부터 획득하는 프로세스, (i-2) 상기 테스트용 RPN 컨피던스 맵에 적어도 하나의 리사이징 연산을 가하여 리사이징된 테스트용 RPN 컨피던스 맵을 생성하는 프로세스, 및 (ii) 상기 테스트용 NMS 결과 및 상기 리사이징된 테스트용 RPN 컨피던스 맵을 참조하여 상기 테스트용 통합 컨피던스 맵을 생성하는 프로세스를 수행하도록 한다.
일 실시예에서, 상기 프로세서가, 상기 컨피던스 레이어로 하여금, 상기 테스트용 통합 컨피던스 스코어 중, 상기 테스트 이미지 상의 좌표
Figure pat00057
에 대응하는 제(X_Y) 테스트용 통합 컨피던스 스코어를 하기 수식에 따라 생성하도록 하되,
Figure pat00058
Figure pat00059
는 상기 제(X_Y) 테스트용 통합 컨피던스 스코어를 의미하고,
Figure pat00060
는 상기 리사이징된 테스트용 RPN 컨피던스 맵 상의 좌표
Figure pat00061
에 대응하는 제(X_Y) 리사이징된 테스트용 RPN 컨피던스 스코어를 의미하며,
Figure pat00062
는 상기 테스트용 NMS 결과에서 결정된, 상기 좌표
Figure pat00063
를 포함하는 제i 테스트용 예측 ROI - 상기 제i 테스트용 예측 ROI는
Figure pat00064
로 나타냄 - 에 대한 제i 테스트용 CNN 컨피던스 스코어를 의미한다.
일 실시예에서, 상기 프로세서가, (V) 상기 제 N프레임에 대응하는 시점으로부터 기설정된 시간 범위 동안 테스트용 차량이 주행할 예정 경로를 나타내는 경로 정보가 - 상기 경로 정보는, 상기 테스트용 차량과 연동하는 경로 플래닝 모듈에 의해 생성된 상태임 - 모드 전환 모듈로 하여금, (i) 상기 테스트용 통합 컨피던스 맵 및 상기 경로 정보를 참조로 하여, 상기 테스트용 통합 컨피던스 스코어 중에서, 상기 예정 경로에 대응하는 상기 제N 프레임에 대한 적어도 하나의 제N 타겟 컨피던스 스코어를 선택하고, (ii) 상기 제N 타겟 컨피던스 스코어가 임계치 초과인지 여부를 판단하도록 하는 프로세스를 더 수행한다.
일 실시예에서, 상기 프로세서가, 상기 모드 전환 모듈로 하여금, (i) 상기 제N 타겟 컨피던스 스코어가 상기 임계치 이하이고, (ii) 제(N-K) 프레임 - K는 N미만의 정수임 - 내지 제(N-1) 프레임 각각에 대응하는 제(N-K) 타겟 컨피던스 스코어 내지 제(N-1) 타겟 컨피던스 스코어 중 적어도 일부가 상기 임계치 이하인 경우, 상기 테스트용 차량의 주행 모드를 자율 주행 모드에서 수동 주행 모드로 변경하도록 한다.
일 실시예에서, 상기 프로세서가, 상기 모드 전환 모듈로 하여금, (i) 상기 제N 타겟 컨피던스 스코어가 상기 임계치 이하이고, (ii) 제(N-K) 프레임 - K는 N미만의 정수임 - 내지 제(N-1) 프레임 각각에 대응하는 제(N-K) 타겟 컨피던스 스코어 내지 제(N-1) 타겟 컨피던스 스코어가 순차적으로 감소하는 경우, 상기 테스트용 차량의 주행 모드를 자율 주행 모드에서 수동 주행 모드로 변경하도록 한다.
이 외에도, 본 발명의 방법을 실행하기 위한 컴퓨터 프로그램을 기록하기 위한 컴퓨터 판독 가능한 기록 매체가 더 제공된다.
본 발명은 온 디바이스(On-device) 독립형 예측에 기반하여 자율 주행 차량의 모드를 전환함으로써 자율 주행의 안전성을 도모하는 학습 방법을 제공할 수 있는 효과가 있다.
또한, 본 발명은 객체 검출의 프로세스 동안 상기 객체 검출의 신뢰도를 나타낼 수 있는 파라미터를 생성하는 방법을 제공할 수 있는 효과가 있다.
또한, 본 발명은 상기 객체 검출을 적절하게 수행하는 동안 상기 파라미터를 생성하기 위해 객체 검출에 사용되는 네트워크를 학습시키는데 이용될 로스를 제공할 수 있는 효과가 있다.
본 발명의 상기 및 다른 목적 및 특징은 다음의 첨부 도면과 함께 주어진 바람직한 실시예들의 설명에서 명백해질 것이다.
본 발명의 실시예의 설명에 이용되기 위하여 첨부된 아래 도면들은 본 발명의 실시예들 중 단지 일부일 뿐이며, 본 발명이 속한 기술분야에서 통상의 지식을 가진 자(이하 "통상의 기술자")에게 있어서는 발명적 작업이 이루어짐 없이 이 도면들에 기초하여 다른 도면들이 얻어질 수 있다.
도 1은 본 발명의 일 실시예에 따른 온 디바이스(On-device) 독립형 예측에 기반하여 자율 주행 차량의 모드를 전환함으로써 자율 주행의 안전성을 도모하는 학습 방법을 수행하는 학습 장치의 구성을 개략적으로 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 상기 온 디바이스 독립형 예측에 기반하여 상기 자율 주행 차량의 상기 모드를 전환함으로써 상기 자율 주행의 상기 안전성을 도모하는 학습 방법을 개략적으로 나타낸 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 상기 온 디바이스 독립형 예측에 기반하여 상기 자율 주행 차량의 상기 모드를 전환함으로써 상기 자율 주행의 상기 안전성을 도모하는 테스팅 방법의 흐름을 개략적으로 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 상기 온 디바이스 독립형 예측에 기반하여 상기 자율 주행 차량의 상기 모드를 전환함으로써 상기 자율 주행의 상기 안전성을 도모하는 상기 테스팅 방법을 수행하기 위해 사용되는 모드 전환 모듈의 동작 방식을 개략적으로 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 강화 학습 및 V2X 통신을 사용하는 어텐션-드리븐 리소스 할당 알고리즘을 이용해 안전한 자율 주행을 제공하는 방법을 수행하는 데에 사용되는, CNN, RPN, 로스 레이어 및 컨피던스 레이어를 포함하는 학습 장치의 구성을 나타낸 흐름도이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명의 목적들, 기술적 해법들 및 장점들을 분명하게 하기 위하여 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 통상의 기술자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다.
또한, 본 발명의 상세한 설명 및 청구항들에 걸쳐, "포함하다"라는 단어 및 그것의 변형은 다른 기술적 특징들, 부가물들, 구성요소들 또는 단계들을 제외하는 것으로 의도된 것이 아니다. 통상의 기술자에게 본 발명의 다른 목적들, 장점들 및 특성들이 일부는 본 설명서로부터, 그리고 일부는 본 발명의 실시로부터 드러날 것이다. 아래의 예시 및 도면은 실례로서 제공되며, 본 발명을 한정하는 것으로 의도된 것이 아니다.
더욱이 본 발명은 본 명세서에 표시된 실시예들의 모든 가능한 조합들을 망라한다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
본 발명에서 언급하는 각종 이미지는 포장 또는 비포장 도로 관련 이미지를 포함할 수 있으며, 이 경우 도로 환경에서 등장할 수 있는 물체(가령, 자동차, 사람, 동물, 식물, 물건, 건물, 비행기나 드론과 같은 비행체, 기타 장애물)를 상정할 수 있을 것이나, 반드시 이에 한정되는 것은 아니며, 본 발명에서 언급하는 각종 이미지는 도로와 상관 없는 이미지(가령, 비포장도로, 골목길, 공터, 바다, 호수, 강, 산, 숲, 사막, 하늘, 실내와 관련된 이미지)일 수도 있으며, 이 경우, 비포장도로, 골목길, 공터, 바다, 호수, 강, 산, 숲, 사막, 하늘, 실내 환경에서 등장할 수 있는 물체(가령, 자동차, 사람, 동물, 식물, 물건, 건물, 비행기나 드론과 같은 비행체, 기타 장애물)를 상정할 수 있을 것이나, 반드시 이에 한정되는 것은 아니다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 온 디바이스(On-device) 독립형 예측에 기반하여 자율 주행 차량의 모드를 전환함으로써 자율 주행의 안전성을 도모하는 학습 방법을 수행하는 학습 장치(100)의 구성을 나타낸 도면이다.
도 1을 참조하면, 상기 학습 장치(100)는, 추후 자세히 설명할 구성요소들인 CNN(Convolutional Neural Network)(130), RPN(Region Proposal Network)(140), 로스 레이어(150) 및 컨피던스(confidence) 레이어(160)를 포함할 수 있다. 상기 CNN(130), 상기 RPN(140), 상기 로스 레이어(150) 및 상기 컨피던스 레이어(160)의 입출력 및 연산 프로세스는 적어도 하나의 통신부(110) 및 적어도 하나의 프로세서(120)에 의해 이루어질 수 있다. 다만 도 1에서는 상기 통신부(110) 및 상기 프로세서(120)의 구체적인 연결 관계를 생략하였다. 이 때, 메모리(115)는 후술할 여러 가지 인스트럭션들을 저장한 상태일 수 있고, 상기 프로세서(120)는 상기 메모리(115)에 저장된 상기 인스트럭션들을 수행하도록 설정되되, 상기 프로세서(120)는 추후 설명할 인스트럭션들을 수행하여 본 발명의 프로세스들을 수행할 수 있다. 이와 같이 상기 학습 장치(100)가 묘사되었다고 하여, 상기 학습 장치(100)가 본 발명을 실시하기 위한 미디엄, 프로세서, 메모리 또는 기타 컴퓨팅 구성요소가 통합된 형태인 통합 프로세서를 포함하는 경우를 배제하는 것은 아니다.
이상 본 발명의 일 실시예에 따라 상기 온 디바이스 독립형 예측에 기반하여 상기 자율 주행 차량의 상기 모드를 전환함으로써 상기 자율 주행의 상기 안전성을 도모하는 상기 학습 방법을 수행하는 상기 학습 장치(100)의 구성에 대해 설명한 바, 이하 이와 같은 학습 방법에 대해 도 2를 참조로 하여 설명하도록 한다.
도 2는 본 발명의 일 실시예에 따라 상기 온 디바이스 독립형 예측에 기반하여 상기 자율 주행 차량의 상기 모드를 전환함으로써 상기 자율 주행의 상기 안전성을 도모하는 상기 학습 방법의 흐름을 개략적으로 나타낸 도면이다.
도 2를 참조하면, 객체 검출의 프로세스 동안 상기 객체 검출의 신뢰도를 나타내는 파라미터인 컨피던스 스코어 각각을 생성하는 학습 방법을 개괄적으로 확인할 수 있다.
참고로 아래의 설명에서, 혼란을 피하기 위해, 상기 학습 프로세스와 관련된 용어에 "학습용" 또는 "트레이닝" 이라는 단어가 추가되었고, 테스팅 프로세스와 관련된 용어에 "테스트용" 또는 "테스팅" 이라는 단어가 추가되었다.
먼저, 트레이닝 이미지가 획득되면, 상기 학습 장치(100)는, 상기 CNN(130)에 포함된 적어도 하나의 컨벌루션 레이어로 하여금, 상기 트레이닝 이미지에 적어도 하나의 컨벌루션 연산을 가하여 적어도 하나의 컨벌루션 특징 맵을 생성하도록 할 수 있다(S01). 이 때, 상기 학습용 이미지의 기하학적 사이즈가 HХW 이고, 상기 트레이닝 이미지의 포맷이 RGB이므로 채널 사이즈가 3이 되는 경우, 상기 트레이닝 이미지의 데이터 사이즈는 HХWХ3 일 것이다. 상기 컨벌루션 연산은, 출력된 특징 맵의 기하학적 사이즈를 입력된 이미지의 기하학적 사이즈보다 더 작도록 하고, 출력된 특징 맵의 채널 사이즈를 입력된 이미지의 채널 사이즈보다 더 크도록 하기 때문에, 상기 컨벌루션 특징 맵의 사이즈가 hХwХc 인 경우, 상기 컨벌루션 특징 맵의 기하학적 사이즈를 나타내는 h 와 w는 각각 H 와 W 보다 더 작을 수 있고, 상기 컨벌루션 특징 맵의 채널 사이즈를 나타내는 c 는 3 보다 더 클 수 있다.
이후, 상기 학습 장치(100)는, 상기 RPN(140)에 포함된 앵커(anchor) 레이어로 하여금, 상기 컨벌루션 특징 맵에 포함된 값에 앵커 연산을 가함으로써, 상기 트레이닝 이미지 내 객체를 포함하는 것으로 예측되는 영역인 예측 ROI(Region Of Interest)를 생성하도록 할 수 있다(S02). 구체적으로, 상기 RPN(140)은 데이터 사이즈가 hХwХc인 상기 컨벌루션 특징 맵에 상기 앵커 연산을 가함으로써, 상기 트레이닝 이미지 상의 상기 예측 ROI를 생성하기 위해 이용될, 데이터 사이즈가 hХwХ(5A+1)인 앵커 특징 맵을 생성할 수 있다. 종래 기술에 따르면, 상기 앵커 특징 맵의 데이터 사이즈는 hХwХ5A 이어야 하지만, 본 발명에 따른 상기 앵커 특징 맵은, 추후 설명할 RPN 컨피던스 스코어를 포함하기 위한 채널을 하나 더 포함할 수 있다. 이에 대한 더 구체적인 설명은 이하 설명될 것이다.
상기 학습 장치(100)는, 상기 RPN(140)의 상기 앵커 레이어로 하여금, 앵커의 각 세트에 각각 대응하는 슬라이딩 윈도우(sliding-window)를 이용하는 상기 앵커 연산을 상기 컨벌루션 특징 맵에 가함으로써 데이터 사이즈가 hХwХ5A 인 상기 앵커 특징 맵을 생성하도록 할 수 있다. 이때, 상기 앵커는 상기 객체에 대응하는 상기 컨벌루션 특징 맵의 값을 선택하기 위한 그리드(grid)의 한 종류일 수 있으며, 상기 앵커 특징 맵의 데이터 사이즈를 나타내기 위해 이용되는 상기 언급된 A는, 상기 RPN(140)에 의해 이용되는 상기 앵커의 개수를 나타낸다. 이러한 프로세스를 수행하여, 상기 컨벌루션 특징 맵에 포함된 각각의 값이 상기 객체에 대응하는지에 대한 여부가 결정되며, 이러한 프로세스의 결과, 예를 들어 상기 예측 ROI에 대한 정보는 상기 앵커 특징 맵에 저장될 수 있다. 상기 앵커 연산은 널리 알려진 종래 기술이므로, 더 구체적인 설명은 생략하도록 한다.
상기 앵커 특징 맵을 생성하는 프로세스 동안, 상기 학습 장치(100)가 상기 RPN(140)으로 하여금, 상기 컨벌루션 특징 맵 내 각 픽셀 별 상기 RPN 컨피던스 스코어 각각을 생성하도록 할 수 있고, 여기서 상기 RPN 컨피던스 스코어 각각은, 상기 예측 ROI가 GT(ground-truth) ROI와 동일할 하나 이상의 확률 각각을 나타낸다. 간단히 말하면, 상기 RPN 컨피던스 스코어는, 상기 RPN(140)에 의해 수행되는 상기 프로세스의 결과, 예를 들어 상기 예측 ROI에 대한 정보의 신뢰도를 나타내는 파라미터이다.
이상에서 설명의 편의 상, 상기 예측 ROI를 결정하는 프로세스와 상기 RPN 컨피던스 스코어를 생성하는 프로세스를 분리하여 서술하였으나, 상기 두 프로세스는 동시에 수행될 수 있다. 즉, 상기 컨벌루션 특징 맵이 상기 RPN(140)에 입력되면, 상기 RPN(140) 내의 각 RPN 뉴런은 각각 연산을 수행하고 연산된 값을 각각의 다음 RPN 뉴런으로 전달함으로써, 상기 RPN(140)의 마지막 레이어로부터 상기 앵커 특징 맵이 출력될 수 있다. 그러므로, 상기 두 프로세스는 종속적으로 서로에게 영향을 주면서 수행될 수 있다. 하지만, 이러한 두 프로세스는 동시에 수행되지 않을 수도 있다. 예를 들어, 상기 예측 ROI를 결정하는 프로세스가 먼저 수행될 수 있다.
상기 앵커 특징 맵이 생성된 후, 상기 학습 장치(100)는 상기 앵커 특징 맵의 5A개 채널의 값을 상기 CNN(130)에 전달할 수 있고, 남은 1개 채널의 값을 추후 설명할 상기 컨피던스 레이어(160)에 전달할 수 있다. 먼저, 상기 CNN(130)으로 전달된 상기 5A개 채널의 값에 대해 이하 설명하도록 한다.
상기 5A개 채널의 값이 전달된 후, 상기 학습 장치(100)가, 상기 CNN(130)에 포함된 ROI 풀링 레이어로 하여금, 상기 예측 ROI에 대한 정보를 참조하여, 상기 컨벌루션 특징 맵에 적어도 하나의 ROI 풀링된 연산을 가하여 ROI 풀링된(ROI-Pooled) 특징 맵을 생성하도록 하고, 상기 CNN(130)에 포함된 FC 레이어로 하여금, 상기 ROI 풀링된 특징 맵에 적어도 하나의 FC 연산을 가하여 초기 객체 검출 결과 및 CNN 컨피던스 스코어를 생성하도록 할 수 있다(S03).
이때, 상기 초기 객체 검출 결과는, 각각의 상기 객체를 포함하는 각각의 바운딩 박스의 각각의 예측 좌표에 대한 하나 이상의 예측 CNN 리그레션(regression) 결과 각각, 및 각각의 상기 객체가 각 클래스에 포함될 확률 각각을 나타내는, 각각의 상기 객체의 각각의 클래스 스코어에 대한 하나 이상의 예측 CNN 분류 결과 각각을 포함할 수 있다. 상기 초기 객체 검출 결과를 생성하는 이러한 프로세스는 널리 알려진 종래 기술이다.
그리고, 상기 CNN 컨피던스 스코어는, 추후 설명할, GT 객체 검출 결과와 예측 객체 검출 결과가 동일한 정도에 대한 정보를 포함할 수 있다. 이때, 상기 예측 객체 검출 결과는, 상기 초기 객체 검출 결과에 NMS(Non-Maximum Suppression) 연산을 가하여 생성된 것일 수 있다. 구체적으로, 상기 CNN 컨피던스 스코어 각각은, 상기 예측 객체 검출 결과에 포함된 상기 예측 CNN 분류 결과 각각 및 상기 예측 CNN 리그레션 결과 각각이, 상기 GT 객체 검출 결과에 포함된 하나 이상의 GT CNN 분류 결과 각각 및 하나 이상의 GT CNN 리그레션 결과 각각과 동일할 확률 각각을 나타낼 수 있다. 간단히 말하면, 상기 CNN 컨피던스 스코어는 상기 CNN(130)의 상기 FC 레이어에 의해 생성된 결과에 대한 신뢰도를 나타낼 수 있다.
상기 CNN 컨피던스 스코어와 상기 RPN 컨피던스 스코어를 둘다 사용하는 이유는, 상기 예측 객체 검출 결과를 생성하기 위해, 상기 RPN(140)에 의해 초기 결정된 예측 ROI가 상기 CNN(130)에 의해 추후 처리되기 때문이다. 상기 두 네트워크는 상기 예측 객체 검출 결과를 생성하는 프로세스에 관여할 수 있으므로, 다르게 평가되어야 한다.
예를 들어, 특정 예측 ROI가 상기 RPN(140)에 의해 적절하지 않게 결정된 경우에도, 상기 CNN(130)의 상기 FC 레이어가 상기 적절하지 않게 결정된 특정 예측 ROI를 거를 수 있다. 혹은, 상기 특정 예측 ROI가 상기 RPN(140)에 의해 적절하게 결정된 경우에도, 상기 CNN(130)의 상기 FC 레이어는 상기 특정 예측 ROI가 어떠한 객체를 포함하지 않는 것으로 적절하지 않게 결정할 수 있다. 이러한 경우에서 볼 수 있듯이, 상기 RPN(140) 및 상기 CNN(130)가 적절하지 않게 혹은 적절하게 수행할 수 있으므로, 상기 객체 검출 프로세스를 평가하는 동안 위와 같은 경우가 고려되어야 한다.
상기 RPN(140)과 유사하게 설명의 편의 상, (i) 상기 초기 객체 검출 결과 및 이에 대응하는 예측 객체 검출 결과를 생성하는 프로세스 및 (ii) 상기 CNN 컨피던스 맵을 생성하는 프로세스가 분리되어 설명되었지만, 이러한 두 프로세스는 서로 독립적이지 않으며, 상기 FC 레이어에 의해 동시에 수행될 수 있다. 하지만, 이러한 두 프로세스는 독립적으로도 수행될 수 있다.
이러한 CNN 컨피던스 스코어가 상기 예측 ROI에 대해 생성된 후, 상기 CNN 컨피던스 스코어를 포함하는 CNN 컨피던스 맵이 생성될 수 있다.
이후, 상기 학습 장치(100)는 상기 CNN(130)으로 하여금, 상기 초기 객체 검출 결과에 상기 NMS 연산을 가함으로써, 중첩된 예측 ROI에 대응하는 바운딩 박스를 통합하도록 하여 상기 예측 객체 검출 결과를 생성할 수 있다. 상기 중첩된 예측 ROI가 통합될 때, 다른 예측 ROI에 중첩되지 않는 특정 예측 ROI에 대응하는 특정 CNN 컨피던스 스코어가 선택될 수 있다. 이때, 상기 NMS의 이러한 사용은 널리 알려진 종래 기술이므로, 더 이상의 설명은 생략하도록 한다.
한편, 상기 학습 장치(100)는, 상기 컨피던스 레이어(160)로 하여금, 상기 RPN 컨피던스 맵을 이용하여, 상기 RPN 컨피던스 맵에 대응하는 상기 앵커 특징 맵의 상기 1개 채널의 값을 획득하도록 하며, 상기 트레이닝 이미지와 동일하게 기하학적 사이즈가 HХW인 리사이징(resizing)된 RPN 컨피던스 맵을 생성하도록 할 수 있다. 상기 리사이징된 RPN 컨피던스 맵을 생성하기 위해, 최근접 이웃 사이즈(Nearest Neighbor Size), 이중선형 리사이즈(Bilinear Resize), 바이큐빅 리사이즈(Bicubic Resize) 혹은 란초스 리사이즈(Lanczos Resize) 등의 리사이징 연산을 상기 RPN 컨피던스 맵에 적용하여, 각각의 상기 RPN 컨피던스 스코어가 상기 트레이닝 이미지 내 각 픽셀에 대응되도록 할 수 있다.
상기 예측 객체 검출 결과 및 상기 리사이징된 RPN 컨피던스 맵이 획득되면, 상기 학습 장치(100)은 상기 컨피던스 레이어(160)로 하여금, 이들을 참조로 하여 통합 컨피던스 맵을 생성하도록 할 수 있다. 이때, 상기 통합 컨피던스 맵에 포함된 통합 컨피던스 스코어는 하기 수식을 이용하여 산출될 수 있다.
Figure pat00065
여기서,
Figure pat00066
는 상기 제(X_Y) 통합 컨피던스 스코어를 의미하고,
Figure pat00067
는 상기 리사이징된 RPN 컨피던스 맵 상의 좌표
Figure pat00068
에 대응하는 제(X_Y) 리사이징된 RPN 컨피던스 스코어를 의미한다. 또한,
Figure pat00069
는 상기 NMS 결과 내에서 결정된, 상기 좌표
Figure pat00070
를 포함하는 제i 예측 ROI(상기 제i 예측 ROI는
Figure pat00071
로 나타냄)에 대한 제i CNN 컨피던스 스코어를 의미한다. 상기 학습 장치(100)는 상기 컨피던스 레이어(160)로 하여금, 상술한 것처럼 생성된 상기 통합 컨피던스 스코어를 이용하여 상기 통합 컨피던스 맵을 생성하도록 할 수 있다.
적절하게 상기 통합 컨피던스 맵을 생성하기 위해서는, 상기 CNN(130) 및 상기 RPN(140)이 학습될 필요가 있다. 구체적인 학습 과정에 대해 이하 설명할 것이다.
즉, 상기 학습 장치(100)가, 상기 로스 레이어(150)로 하여금, 상기 RPN 컨피던스 맵, 상기 CNN 컨피던스 맵, 상기 예측 객체 검출 결과 및 상기 GT 객체 검출 결과를 참조하여 적어도 하나의 RPN 로스 및 적어도 하나의 CNN 로스를 생성하도록 하고, 상기 RPN 로스 및 상기 CNN 로스를 이용해 백프로퍼게이션(backpropagation)을 수행함으로써 상기 CNN(130) 및 상기 RPN(140)의 파라미터 중 적어도 일부를 학습할 수 있다(S04). 상기 RPN 로스 및 상기 CNN 로스를 생성하는 방법에 대해 이하 자세히 설명하도록 한다.
먼저, 상기 RPN 로스는 하기 수식에 의해 생성될 수 있다.
Figure pat00072
여기서,
Figure pat00073
는 상기 앵커 연산을 수행하여 생성된 상기 컨벌루션 특징 맵의 크기에 대응하는 상수이고,
Figure pat00074
는 상기 트레이닝 이미지에 대응하는 상수이다. 또한,
Figure pat00075
는 상기 RPN 컨피던스 스코어 중, 상기 컨벌루션 특징 맵의 제i 픽셀에 대응하는 제i RPN 컨피던스 스코어를 의미하고,
Figure pat00076
는 상기 제i 픽셀에 대응하는 제i 예측 RPN 분류 결과를 의미하며,
Figure pat00077
는 상기 제i 예측 RPN 분류 결과에 대응하는 제i GT RPN 분류 결과를 의미한다. 그리고,
Figure pat00078
는 상기 제i 픽셀에 대응하는 제i 예측 RPN 리그레션 결과를 의미하며,
Figure pat00079
는 상기 제i 예측 RPN 리그레션 결과에 대응하는 제i GT RPN 리그레션 결과를 의미한다. 상기 제i GT RPN 분류 결과 및 상기 제i GT RPN 리그레션 결과는, 상기 GT 객체 검출 결과에 대응한다. 또한,
Figure pat00080
Figure pat00081
는, smooth-L1 로스와 같은 로스를 생성하기 위한 어떠한 종래 기술을 이용하여 수행될 수 있다.
상기 수식에서, 상기 수식의 첫번째 항은 분류 로스를 의미하고, 두번째 항은 리그레션 로스를 의미한다. 상기 리그레션 로스 항, 즉 상기 두번째 항은, 널리 알려진 종래 기술이므로, 더 구체적인 설명은 생략하도록 한다. 이하, 상기 분류 로스 항, 즉 상기 첫번째 항에 대해 설명하도록 한다.
상기 분류 로스 항은 위에서 보여진 것처럼, 괄호 내에 3개의 서브항을 포함한다. 첫번째 서브항에서, 조건
Figure pat00082
는, 상기 앵커 특징 맵의 상기 제i 픽셀에 대응하는, 상기 RPN(140)에 의해 결정된 상기 제i 예측 RPN 분류 결과가 상기 제i GT RPN 분류 결과와 동일한 경우를 나타낸다. 간단히 말하면, 상기 RPN(140)이 상기 컨벌루션 특징 맵의 상기 제i 픽셀에 대해 정확하게 분석한 경우를 나타낸다. 이때, 상기 RPN(140)이 임계치 확률(여기서는 편의상 0.5)이상의 확률로 상기 제i 예측 RPN 분류 결과가 상기 제i GT RPN 분류 결과와 동일한 것으로 판단하는 경우, 상기 RPN(140)이 상기 제i 픽셀을 정확하게 분석한 경우로 상정하였다. 상기 첫번째 서브항에서
Figure pat00083
는, 상기 RPN(140)의 파라미터는 상기 RPN 로스가 더 작아지도록 조정되기 때문에, 상기 RPN(140)이 상기 제i 픽셀을 정확하게 분석했을 때 상기 제i RPN 컨피던스 스코어가 더 커지도록 한다. 구체적으로, 이와 같이 생성된 상기 첫번째 서브항을 포함하는 상기 분류 로스 항이, 상기 RPN(140)의 상기 파라미터가 조정되도록 하는 그래디언트(gradient)를 생성하기 위해 참조되어, 퓨처(future) RPN 로스가 더 작아지도록 할 수 있다. 그러므로, 상기 첫번째 서브항을 포함하는 상기 분류 로스 항을 이용함으로써, 상기 RPN(140)이 상기 컨벌루션 특징 맵의 값을 정확하게 분석하는 경우에 상기 RPN(140)이 RPN 컨피던스 스코어를 더 크게 생성할 수 있다.
상기 분류 로스 항의 두번째 서브항에서, 조건
Figure pat00084
는 상기 RPN(140)이 상기 제i 픽셀을 부정확하게 분석한 경우를 나타낸다. 상기 두번째 서브항에서
Figure pat00085
는, 상기 RPN(140)이 상기 제i 픽셀을 부정확하게 분석했을 때 상기 제i RPN 컨피던스 스코어가 더 작아지도록 한다. 이러한 학습 프로세스의 메커니즘은 상기 첫번째 서브항의 메커니즘과 동일하다.
세번째 서브항에서
Figure pat00086
는, 상기 RPN 컨피던스 스코어의 분포가 계단 함수(step function)의 분포에 가까워지지 않도록 한다. 상기 분류 로스 항이 상기 첫번째 서브항 및 상기 두번째 서브항만을 포함한다면, 상기 RPN 컨피던스 스코어는 오버피팅(overfitting)되어 0 또는 1에 가까운 극단적인 값만을 포함할 것이다. 여기서,
Figure pat00087
가 0.5 일때,
Figure pat00088
가 가장 작다. 그러므로, 본 발명에 따른 상기 RPN 컨피던스 스코어의 분포는, 0과 1사이의 여러 값을 포함하여 더욱 다양할 것이다. 이와 같이 다양한 값을 포함하는 RPN 컨피던스 스코어를 사용함으로써 여러 상황에 대응할 수 있기 때문에, 이와 같은 항이 필요한 것이다.
이상 본 발명에 따른 상기 RPN 로스에 대해 알아본 바, 이하 상기 CNN 로스에 대해 알아보도록 한다.
Figure pat00089
여기서,
Figure pat00090
Figure pat00091
는 상기 예측 ROI의 개수이고,
Figure pat00092
는 상기 CNN 컨피던스 스코어 중, 상기 예측 ROI에서 선택된 제i 예측 ROI에 대응하는 제i CNN 컨피던스 스코어를 의미한다. 또한,
Figure pat00093
는 상기 제i 예측 ROI에 대응하는 제i 예측 CNN 분류 결과를 의미하며,
Figure pat00094
는 상기 제i 예측 CNN 분류 결과에 대응하는 제i GT CNN 분류 결과를 의미한다. 그리고,
Figure pat00095
는 상기 제i 예측 ROI에 대응하는 제i 예측 CNN 리그레션 결과를 의미하며,
Figure pat00096
는 상기 제i 예측 CNN 리그레션 결과에 대응하는 제i GT CNN 리그레션 결과를 의미한다. 상기 제i 예측 CNN 분류 결과 및 상기 제i 예측 CNN 리그레션 결과는 상기 예측 객체 검출 결과에 대응한다. 본 수식의 표기는 상기 RPN 로스를 나타낸 것와 동일하지만, 위와 같이 그 의미는 상이할 수 있다.
상기 수식에서 보여진 것처럼, 상기 CNN 로스는, 시그마 함수의 조건을 제외하고 상기 RPN 로스와 유사하다. 이때,
Figure pat00097
에 대한 상기 조건은, 상기 RPN 로스처럼
Figure pat00098
가 아니라
Figure pat00099
=
Figure pat00100
(클래스 스코어 중 가장 큰 스코어)이다. 이러한 조건은
Figure pat00101
가, 상기 제i 예측 ROI 내 특정 객체를 포함할 것으로 예측되는 확률이 가장 큰 특정 클래스에 대한 상기 제i 예측 CNN 분류 결과에 관한 것임을 나타낸다. 상기 RPN 로스와 유사하게, 상기 CNN 로스의 분류 로스 항의 첫번째 서브항은, 상기 CNN(130)이 상기 제i 예측 ROI를 정확하게 분석한 경우를 의미하고, 두번째 서브항은, 상기 CNN(130)이 상기 제i 예측 ROI를 부정확하게 분석한 다른 경우를 나타낸다. 상기 CNN 로스와 상기 RPN 로스는 서로 유사하므로, 이후의 설명은 생략하도록 한다.
이와 같이 상기 CNN 로스 및 상기 RPN 로스가 생성된 후, 상기 학습 장치(100)가 상기 로스 레이어(150)으로 하여금, 상기 CNN 로스 및 상기 RPN 로스를 이용해 백프로퍼게이션을 수행함으로써 각각 상기 CNN 및 상기 RPN의 파라미터 중 적어도 일부를 학습할 수 있다. 그 후, 상기 CNN(130) 및 상기 RPN(140)이, 입력되는 이미지 내에 포함된 객체를 검출하는 프로세스를 수행하는 동안, 상기 CNN(130) 및 상기 RPN(140)은 상기 입력되는 이미지에 대응하는, CNN 컨피던스 스코어 및 RPN 컨피던스 스코어를 더 정확하게 생성할 수 있다.
이상 본 발명의 상기 학습 프로세스는 설명한 바, 이하 본 발명의 테스팅 프로세스에 대해 설명할 것이다. 일 예로서, 상기 테스팅 프로세스를 수행하는 테스팅 장치는 자율 주행 차량에 탑재될 수 있다.
도 3은, 본 발명의 일 실시예에 따른 상기 온 디바이스 독립형 예측에 기반하여 상기 자율 주행 차량의 상기 모드를 전환함으로써 상기 자율 주행의 상기 안전성을 도모하는 테스팅 방법의 흐름을 개략적으로 나타낸 도면이다.
도 3을 참조하면, 본 발명의 테스팅 방법에 대해 개괄적으로 살필 수 있다. 구체적으로, 테스트용 차량의 외부 센서 혹은 외부 카메라로부터 획득된 테스트용 주행 영상의 제N 프레임에 대응하는 테스트 이미지가 획득되면, 테스팅 장치가, 학습이 완료된 상기 CNN(130) 및 상기 RPN(140)로 하여금, 테스트용 예측 객체 검출 결과 및 테스트용 통합 컨피던스 맵을 생성하도록 할 수 있다(S11). 그리고, 모드 전환 모듈(180)에 의한 프로세스가 수행된다(S12, S13). 이에 대해 이하 자세히 설명하도록 한다.
구체적으로는, (1) 상기 학습 장치(100)가, 트레이닝 이미지가 획득되면, 상기 CNN(130)에 포함된 상기 컨벌루션 레이어로 하여금, 상기 트레이닝 이미지에 상기 컨벌루션 연산을 가하여 적어도 하나의 학습용 컨벌루션 특징 맵을 생성하도록 하고, (2) 상기 학습 장치(100)가, 상기 RPN(140)에 포함된 상기 앵커 레이어로 하여금, 상기 학습용 컨벌루션 특징 맵에 상기 앵커 연산을 가함으로써 상기 트레이닝 이미지 상의 학습용 예측 ROI를 생성하는 프로세스 동안, 상기 학습용 컨벌루션 특징 맵 내 각 픽셀 별 학습용 RPN 컨피던스 스코어 각각(상기 학습용 RPN 컨피던스 스코어 각각은, 상기 학습용 예측 ROI가 GT ROI와 동일할 학습용 확률 각각을 나타냄)을 생성함으로써, 상기 학습용 RPN 컨피던스 스코어를 포함하는 학습용 RPN 컨피던스 맵을 생성하도록 하며, (3) 상기 학습 장치(100)가, 상기 CNN(130)에 포함된 상기 ROI 풀링 레이어를 통해 상기 학습용 컨벌루션 특징 맵 및 상기 학습용 예측 ROI를 이용하여 생성된 적어도 하나의 학습용 ROI 풀링된 특징 맵이 획득되면, 상기 CNN(130)에 포함된 상기 FC 레이어로 하여금, 상기 학습용 ROI 풀링된 특징 맵을 사용하여 학습용 예측 객체 검출 결과를 생성하는 프로세스 동안, 각 상기 학습용 예측 ROI 별 학습용 CNN 컨피던스 스코어 각각(상기 학습용 CNN 컨피던스 스코어 각각은, 상기 학습용 예측 객체 검출 결과에 포함된 하나 이상의 학습용 예측 CNN 리그레션 결과 각각 및 하나 이상의 학습용 예측 CNN 분류 결과 각각이, GT 객체 검출 결과에 포함된 하나 이상의 각 GT CNN 리그레션 결과 각각 및 하나 이상의 각 GT CNN 분류 결과 각각과 동일할 하나 이상의 학습용 확률 각각을 나타냄)을 생성함으로써, 상기 학습용 CNN 컨피던스 스코어를 포함하는 학습용 CNN 컨피던스 맵을 생성하도록 하고, (4) 상기 학습 장치(100)가, 상기 로스 레이어(150)로 하여금, 상기 학습용 RPN 컨피던스 맵, 상기 학습용 CNN 컨피던스 맵, 상기 학습용 예측 객체 검출 결과 및 상기 GT 객체 검출 결과를 참조하여 적어도 하나의 RPN 로스 및 적어도 하나의 CNN 로스를 생성하도록 하고, 상기 RPN 로스 및 상기 CNN 로스를 이용해 백프로퍼게이션을 수행함으로써 상기 CNN(130) 및 상기 RPN(140)의 파라미터 중 적어도 일부를 학습한 상태에서, 상기 테스팅 장치가, 상기 테스트용 주행 영상의 상기 제N 프레임에 대응하는 상기 테스트 이미지가 획득되면, 상기 CNN(130)에 포함된 상기 컨벌루션 레이어로 하여금, 상기 테스트 이미지에 상기 컨벌루션 연산을 가하여 적어도 하나의 테스트용 컨벌루션 특징 맵을 생성하도록 할 수 있다.
이후, 상기 테스팅 장치가, 상기 RPN(140)에 포함된 상기 앵커 레이어로 하여금, 상기 테스트용 컨벌루션 특징 맵에 상기 앵커 연산을 가함으로써 상기 테스트 이미지 상의 테스트용 예측 ROI를 생성하는 프로세스 동안, 상기 테스트용 컨벌루션 특징 맵 내 각 픽셀 별 하나 이상의 테스트용 RPN 컨피던스 스코어 각각(상기 테스트용 RPN 컨피던스 스코어 각각은, 상기 테스트용 예측 ROI가 GT ROI와 동일할 하나 이상의 테스트용 확률 각각을 나타냄)을 생성함으로써, 상기 테스트용 RPN 컨피던스 스코어를 포함하는 테스트용 RPN 컨피던스 맵을 생성하도록 할 수 있다. 간단히 말하면, 상기 학습 방법과 유사하게, 상기 테스트용 RPN 컨피던스 스코어는, 상기 RPN(140)에 의해 생성된 각 픽셀 별 판단 결과의 정확도를 나타낼 수 있다.
그 후, 상기 테스팅 장치가, 상기 CNN(130)에 포함된 상기 ROI 풀링 레이어를 통해 상기 테스트용 컨벌루션 특징 맵 및 상기 테스트용 예측 ROI를 이용하여 생성된 적어도 하나의 테스트용 ROI 풀링된 특징 맵이 획득되면, 상기 CNN(130)에 포함된 상기 FC 레이어로 하여금, 상기 테스트용 ROI 풀링된 특징 맵을 사용하여 테스트용 예측 객체 검출 결과를 생성하는 프로세스 동안, 각 상기 테스트용 예측 ROI 별 테스트용 CNN 컨피던스 스코어 각각(상기 테스트용 CNN 컨피던스 스코어 각각은, 상기 테스트용 예측 객체 검출 결과에 포함된 하나 이상의 테스트용 예측 CNN 리그레션 결과 각각 및 하나 이상의 테스트용 예측 CNN 분류 결과 각각이, GT 객체 검출 결과에 포함된 하나 이상의 GT CNN 리그레션 결과 각각 및 하나 이상의 각 GT CNN 분류 결과 각각과 동일할 하나 이상의 테스트용 확률 각각을 나타냄)을 생성함으로써, 상기 테스트용 CNN 컨피던스 스코어를 포함하는 테스트용 CNN 컨피던스 맵을 생성하도록 할 수 있다.
마지막으로, 상기 테스팅 장치가, 상기 컨피던스 레이어(160)로 하여금, 상기 테스트용 RPN 컨피던스 맵 및 상기 테스트용 CNN 컨피던스 맵을 참조하여, 테스트용 통합 컨피던스 스코어를 포함하는 테스트용 통합 컨피던스 맵을 생성하도록 할 수 있다.
상기 테스트용 통합 컨피던스 맵이 생성된 후, 상기 테스팅 장치가, 도 4를 참조하여 설명될 경로 플래닝 모듈(170)로 하여금, 상기 테스트 이미지를 참조하여, 테스팅 공간에 대응하는 공간 내에서, 상기 제N 프레임에 대응하는 시점으로부터 기설정된 시간 범위 동안 상기 테스트용 차량이 주행할 예정 경로에 대한 경로 정보를 생성하도록 할 수 있다. 일 예로, 상기 경로 플래닝 모듈(170)은 상기 예측 객체 검출 결과를 더 참조하여 상기 경로 정보를 생성할 수 있다. 그 후, 상기 테스팅 장치가, 도 4를 참조하여 설명될 상기 모드 전환 모듈(180)로 하여금, 상기 테스트용 통합 컨피던스 맵 및 상기 경로 정보를 참조하여, 상기 테스트용 통합 컨피던스 스코어 중, 상기 예정 경로에 대응하는 상기 제N 프레임에 대한 적어도 하나의 제N 타겟 컨피던스 스코어를 선택하도록 할 수 있다. 도 4를 참조하여, 상기 제N 타겟 컨피던스 스코어가 어떻게 선택될 수 있는지 이하 설명할 것이다.
도 4는 본 발명의 일 실시예에 따른 상기 온 디바이스 독립형 예측에 기반하여 상기 자율 주행 차량의 상기 모드를 전환함으로써 상기 자율 주행의 상기 안전성을 도모하는 상기 테스팅 방법을 수행하기 위해 사용되는 모드 전환 모듈의 동작 방식을 개략적으로 나타낸 도면이다.
도 4를 참조하면, 상기 경로 정보는 상기 예정 경로가 우측으로의 이동에 대응함을 나타내는 것을 확인할 수 있다. 그러므로, 상기 제N 타겟 컨피던스 스코어는, 상기 테스트용 차량의 우측에 위치한 차로에 대응하는 0.45임을 확인할 수 있을 것이다. 이와 같이 상기 경로 정보와 상기 테스트용 통합 컨피던스 맵을 참조로 하여 상기 제N 타겟 컨피던스 스코어가 선택될 수 있다.
이러한 타겟 컨피던스 스코어가 각 프레임 별로 선택될 수 있다. 이와 같은 상황에서, 상기 테스팅 장치는, 상기 모드 전환 모듈(180)로 하여금, (i) 상기 제N 타겟 컨피던스 스코어가 임계치 이하이고, (ii) 제(N-K) 프레임 내지 제(N-1) 프레임 각각에 대응하는 제(N-K) 타겟 컨피던스 스코어 내지 제(N-1) 타겟 컨피던스 스코어 중 적어도 일부가 상기 임계치 이하인 경우, 상기 테스트용 차량의 주행 모드를 자율 주행 모드에서 수동 주행 모드로 변경하도록 할 수 있다. 즉, 타겟 컨피던스 스코어가 지속적으로 작은 경우, 자율 주행이 위험하게 되므로 이를 수동 주행 모드로 변경하는 것이다.
혹은, 상기 제N 타겟 컨피던스 스코어가 상기 임계치 이하이고, 상기 제(N-K) 타겟 컨피던스 스코어 내지 상기 제(N-1) 타겟 컨피던스 스코어가 순차적으로 감소하는 경우, 이 역시 자율 주행이 위험할 수 있으므로 테스트용 차량의 주행 모드가 수동 주행 모드로 변경될 수 있을 것이다.
여기서, 참고 설명으로서, CNN(130), RPN(140), 로스 레이어(150) 및 컨피던스 레이어(160)이 어떻게 서로 연동하여 동작함으로써 객체 검출을 하는 도중 컨피던스 스코어를 생성할 수 있는지에 대하여 도 5를 참조로 하여 설명한다.
도 5는 본 발명의 일 실시예에 따라 강화 학습 및 V2X 통신을 사용하는 어텐션-드리븐 리소스 할당 알고리즘을 이용해 안전한 자율 주행을 제공하는 방법을 수행하는 데에 사용되는, CNN, RPN, 로스 레이어 및 컨피던스 레이어를 포함하는 학습 장치의 구성을 나타낸 도면이다.
도 5를 참조로 하면, 학습 이미지가 CNN(130)에 포함된 컨벌루션 레이어(131)에 입력되고, 컨벌루션 레이어(131)로부터
Figure pat00102
 크기의 컨벌루션 특징 맵이 생성되는 구성을 확인할 수 있다. 이후, 컨벌루션 특징 맵은 RPN(140)에 의해 연산되고, 이에 따라 RPN(140)은 ROI의 위치인
Figure pat00103
및 그의 RPN 컨피던스 스코어가 포함된,
Figure pat00104
크기의 특징 맵을 출력할 수 있다. 이와 같은 ROI는 CNN(130)에 포함된 ROI 풀링 레이어(미도시)에 전달되고, 따라서 컨벌루션 특징 맵은 전달된 ROI에 따라 풀링될 수 있다. 이후, CNN(130)에 포함된 FC 레이어(132)는
Figure pat00105
크기의 ROI 풀링된 특징 맵을 연산하여, 객체의 추정된 위치
Figure pat00106
, 객체가 각 클래스에 포함될 확률 및 각 객체에 대응되는 픽셀의 CNN 컨피던스 스코어가 포함된,
Figure pat00107
크기의 초기 객체 검출 결과를 생성할 수 있다. 마지막으로, CNN(130)은 NMS 연산을 초기 객체 검출 결과에 가함으로써, 객체의 추정된 위치
Figure pat00108
, 객체들에 대한 추정된 클래스 및 객체가 각 클래스에 포함될 확률에 대한 정보를 포함하는,
Figure pat00109
크기의 예측 객체 검출 결과를 생성할 수 있다. 여기서
Figure pat00110
은 NMS 연산에 따라 합쳐진 ROI들, 즉 객체의 위치를 나타낼 수 있다. 그리고, 예측 객체 검출 결과와 함께 출력된 CNN 컨피던스 맵은
Figure pat00111
크기의 RPN 컨피던스 맵으로부터 생성된 리사이즈된 RPN 컨피던스 맵과 통합됨으로써
Figure pat00112
크기의 통합 컨피던스 맵을 생성하게 된다. 상기의 과정은 전술한 학습 방법과 합치하는 것이다.
이상 설명된 본 발명에 따른 실시예들은 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다.
따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다.

Claims (24)

  1. 객체 검출의 프로세스 동안 상기 객체 검출의 신뢰도를 나타낼 수 있는 파라미터를 생성하는 학습 방법에 있어서,
    (a) 학습 장치가, 트레이닝 이미지가 획득되면, CNN(Convolutional Neural Network)에 포함된 적어도 하나의 컨벌루션 레이어로 하여금, 상기 트레이닝 이미지에 적어도 하나의 컨벌루션 연산을 가하여 적어도 하나의 컨벌루션 특징 맵을 생성하도록 하는 단계;
    (b) 상기 학습 장치가, RPN(Region Proposal Network)에 포함된 적어도 하나의 앵커 레이어로 하여금, 상기 컨벌루션 특징 맵에 적어도 하나의 앵커(anchor) 연산을 가함으로써 상기 트레이닝 이미지 상의 예측 ROI(Region Of Interest)를 생성하는 프로세스 동안, 상기 컨벌루션 특징 맵 내 각 픽셀 별 하나 이상의 RPN 컨피던스(confidence) 스코어 각각 - 상기 RPN 컨피던스 스코어 각각은, 상기 예측 ROI가 GT(ground-truth) ROI와 동일할 확률 각각을 나타냄 - 을 생성함으로써, 상기 RPN 컨피던스 스코어를 포함하는 RPN 컨피던스 맵을 생성하도록 하는 단계;
    (c) 상기 학습 장치가, 상기 CNN에 포함된 ROI 풀링 레이어를 통해 상기 컨벌루션 특징 맵 및 상기 예측 ROI를 이용하여 생성된 적어도 하나의 ROI 풀링된(ROI-Pooled) 특징 맵이 획득되면, 상기 CNN에 포함된 FC 레이어로 하여금, 상기 ROI 풀링된 특징 맵을 사용하여 예측 객체 검출 결과를 생성하는 프로세스 동안, 각 상기 예측 ROI 별 CNN 컨피던스 스코어 각각 - 상기 CNN 컨피던스 스코어 각각은, 상기 예측 객체 검출 결과에 포함된 하나 이상의 예측 CNN 리그레션 결과 각각 및 하나 이상의 예측 CNN 분류 결과 각각이, GT 객체 검출 결과에 포함된 하나 이상의 GT CNN 리그레션 결과 각각 및 하나 이상의 GT CNN 분류 결과 각각과 동일할 확률 각각을 나타냄 - 을 생성함으로써, 상기 CNN 컨피던스 스코어를 포함하는 CNN 컨피던스 맵을 생성하도록 하는 단계; 및
    (d) 상기 학습 장치가, 로스 레이어로 하여금, 상기 RPN 컨피던스 맵, 상기 CNN 컨피던스 맵, 상기 예측 객체 검출 결과 및 상기 GT 객체 검출 결과를 참조하여 적어도 하나의 RPN 로스 및 적어도 하나의 CNN 로스를 생성하도록 하고, 상기 RPN 로스 및 상기 CNN 로스를 이용해 백프로퍼게이션(backpropagation)을 수행함으로써 상기 CNN 및 상기 RPN의 파라미터 중 적어도 일부를 학습하는 단계;
    를 포함하는 것을 특징으로 하는 학습 방법.
  2. 제 1항에 있어서,
    상기 (d) 단계에서,
    상기 학습 장치가, 상기 로스 레이어로 하여금, 하기 수식에 따라 상기 RPN 로스를 생성하도록 하되,
    Figure pat00113

    Figure pat00114
    는 상기 앵커 연산을 수행하여 생성된 상기 컨벌루션 특징 맵의 크기에 대응하는 상수이고,
    Figure pat00115
    는 상기 트레이닝 이미지에 대응하는 상수이며,
    Figure pat00116
    는 상기 RPN 컨피던스 스코어 중, 상기 컨벌루션 특징 맵의 제i 픽셀에 대응하는 제i RPN 컨피던스 스코어를 의미하고,
    Figure pat00117
    는 상기 제i 픽셀에 대응하는 제i 예측 RPN 분류 결과를 의미하며,
    Figure pat00118
    는 상기 제i 예측 RPN 분류 결과에 대응하는 제i GT RPN 분류 결과를 의미하고,
    Figure pat00119
    는 상기 제i 픽셀에 대응하는 제i 예측 RPN 리그레션 결과를 의미하며,
    Figure pat00120
    는 상기 제i 예측 RPN 리그레션 결과에 대응하는 제i GT RPN 리그레션 결과를 의미하고,
    상기 제i GT RPN 분류 결과 및 상기 제i GT RPN 리그레션 결과는 상기 GT 객체 검출 결과에 대응하는 것을 특징으로 하는 학습 방법.
  3. 제 1항에 있어서,
    상기 (d) 단계에서,
    상기 학습 장치가, 상기 로스 레이어로 하여금, 하기 수식에 따라 상기 CNN 로스를 생성하도록 하되,
    Figure pat00121

    Figure pat00122
    Figure pat00123
    는 상기 예측 ROI의 개수이고,
    Figure pat00124
    는 상기 CNN 컨피던스 스코어 중, 상기 예측 ROI에서 선택된 제i 예측 ROI에 대응하는 제i CNN 컨피던스 스코어를 의미하고,
    Figure pat00125
    는 상기 제i 예측 ROI에 대응하는 제i 예측 CNN 분류 결과를 의미하며,
    Figure pat00126
    는 상기 제i 예측 CNN 분류 결과에 대응하는 제i GT CNN 분류 결과를 의미하고,
    Figure pat00127
    는 상기 제i 예측 ROI에 대응하는 제i 예측 CNN 리그레션 결과를 의미하며,
    Figure pat00128
    는 상기 제i 예측 CNN 리그레션 결과에 대응하는 제i GT CNN 리그레션 결과를 의미하고,
    상기 제i 예측 CNN 분류 결과 및 상기 제i 예측 CNN 리그레션 결과는 상기 예측 객체 검출 결과에 대응하는 것을 특징으로 하는 학습 방법.
  4. 제 1항에 있어서,
    상기 (c) 단계 이후에,
    상기 학습 장치가, 컨피던스 레이어로 하여금, 상기 RPN 컨피던스 맵 및 상기 CNN 컨피던스 맵을 참조하여, 상기 트레이닝 이미지 내 각 픽셀 별 각각의 통합 컨피던스 스코어에 대한 정보를 포함하는 통합 컨피던스 맵을 생성하도록 하는 것을 특징으로 하는 학습 방법.
  5. 제 4항에 있어서,
    상기 학습 장치가, 상기 컨피던스 레이어로 하여금, (i-1) 상기 예측 객체 검출 결과가 생성되는 프로세스 동안 생성되는, 상기 예측 ROI에 대한 NMS(Non-Maximum Suppression) 결과를 상기 CNN으로부터 획득하는 프로세스, (i-2) 상기 RPN 컨피던스 맵에 적어도 하나의 리사이징(resizing) 연산을 가하여 리사이징된 RPN 컨피던스 맵을 생성하는 프로세스, 및 (ii) 상기 NMS 결과 및 상기 리사이징된 RPN 컨피던스 맵을 참조하여 상기 통합 컨피던스 맵을 생성하는 프로세스를 수행하도록 하는 것을 특징으로 하는 학습 방법.
  6. 제 5항에 있어서,
    상기 학습 장치가, 상기 컨피던스 레이어로 하여금, 상기 통합 컨피던스 스코어 중, 상기 트레이닝 이미지 상의 좌표
    Figure pat00129
    에 대응하는 제(X_Y) 통합 컨피던스 스코어를 하기 수식에 따라 생성하도록 하되,
    Figure pat00130

    Figure pat00131
    는 상기 제(X_Y) 통합 컨피던스 스코어를 의미하고,
    Figure pat00132
    는 상기 리사이징된 RPN 컨피던스 맵 상의 좌표
    Figure pat00133
    에 대응하는 제(X_Y) 리사이징된 RPN 컨피던스 스코어를 의미하며,
    Figure pat00134
    는 상기 NMS(Non-Maximum Suppression) 결과에서 결정된, 상기 좌표
    Figure pat00135
    를 포함하는 제i 예측 ROI - 상기 제i 예측 ROI는
    Figure pat00136
    로 나타냄 - 에 대한 제i CNN 컨피던스 스코어를 의미하는 것을 특징으로 하는 학습 방법.
  7. 객체 검출의 프로세스 동안 상기 객체 검출의 신뢰도를 나타낼 수 있는 파라미터를 생성하는 테스팅 방법에 있어서,
    (a) (1) 학습 장치가, CNN에 포함된 적어도 하나의 컨벌루션 레이어로 하여금, 트레이닝 이미지에 적어도 하나의 컨벌루션 연산을 가하여 적어도 하나의 학습용 컨벌루션 특징 맵을 생성하도록 하고, (2) 상기 학습 장치가, RPN에 포함된 적어도 하나의 앵커 레이어로 하여금, 상기 학습용 컨벌루션 특징 맵에 적어도 하나의 앵커 연산을 가함으로써 상기 트레이닝 이미지 상의 학습용 예측 ROI를 생성하는 프로세스 동안, 상기 학습용 컨벌루션 특징 맵 내 각 픽셀 별 하나 이상의 학습용 RPN 컨피던스 스코어 각각 - 상기 학습용 RPN 컨피던스 스코어 각각은, 상기 학습용 예측 ROI가 GT ROI와 동일할 학습용 확률 각각을 나타냄 - 을 생성함으로써, 상기 학습용 RPN 컨피던스 스코어를 포함하는 학습용 RPN 컨피던스 맵을 생성하도록 하며, (3) 상기 학습 장치가, 상기 CNN에 포함된 ROI 풀링 레이어를 통해 상기 학습용 컨벌루션 특징 맵 및 상기 학습용 예측 ROI를 이용하여 생성된 적어도 하나의 학습용 ROI 풀링된 특징 맵이 획득되면, 상기 CNN에 포함된 FC 레이어로 하여금, 상기 학습용 ROI 풀링된 특징 맵을 사용하여 학습용 예측 객체 검출 결과를 생성하는 프로세스 동안, 각 상기 학습용 예측 ROI 별 학습용 CNN 컨피던스 스코어 각각 - 상기 학습용 CNN 컨피던스 스코어 각각은, 상기 학습용 예측 객체 검출 결과에 포함된 하나 이상의 학습용 예측 CNN 리그레션 결과 각각 및 하나 이상의 학습용 예측 CNN 분류 결과 각각이, GT 객체 검출 결과에 포함된 하나 이상의 GT CNN 리그레션 결과 각각 및 하나 이상의 GT CNN 분류 결과 각각과 동일할 학습용 확률 각각을 나타냄 - 을 생성함으로써, 상기 학습용 CNN 컨피던스 스코어를 포함하는 학습용 CNN 컨피던스 맵을 생성하도록 하고, (4) 상기 학습 장치가, 로스 레이어로 하여금, 상기 학습용 RPN 컨피던스 맵, 상기 학습용 CNN 컨피던스 맵, 상기 학습용 예측 객체 검출 결과 및 상기 GT 객체 검출 결과를 참조하여 적어도 하나의 RPN 로스 및 적어도 하나의 CNN 로스를 생성하도록 하고, 상기 RPN 로스 및 상기 CNN 로스를 이용해 백프로퍼게이션을 수행함으로써 상기 CNN 및 상기 RPN의 파라미터 중 적어도 일부를 학습한 상태에서, 테스팅 장치가, 테스트용 주행 비디오의 제N 프레임에 대응하는 테스트 이미지가 획득되면, 상기 CNN에 포함된 상기 컨벌루션 레이어로 하여금, 상기 테스트 이미지에 상기 컨벌루션 연산을 가하여 적어도 하나의 테스트용 컨벌루션 특징 맵을 생성하도록 하는 단계;
    (b) 상기 테스팅 장치가, 상기 RPN에 포함된 상기 앵커 레이어로 하여금, 상기 테스트용 컨벌루션 특징 맵에 상기 앵커 연산을 가함으로써 상기 테스트 이미지 상의 테스트용 예측 ROI를 생성하는 프로세스 동안, 상기 테스트용 컨벌루션 특징 맵 내 각 픽셀 별 하나 이상의 테스트용 RPN 컨피던스 스코어 각각 - 상기 테스트용 RPN 컨피던스 스코어 각각은, 상기 테스트용 예측 ROI가 GT ROI와 동일할 테스트용 확률 각각을 나타냄 - 을 생성함으로써, 상기 테스트용 RPN 컨피던스 스코어를 포함하는 테스트용 RPN 컨피던스 맵을 생성하도록 하는 단계;
    (c) 상기 테스팅 장치가, 상기 CNN에 포함된 상기 ROI 풀링 레이어를 통해 상기 테스트용 컨벌루션 특징 맵 및 상기 테스트용 예측 ROI를 이용하여 생성된 적어도 하나의 테스트용 ROI 풀링된 특징 맵이 획득되면, 상기 CNN에 포함된 상기 FC 레이어로 하여금, 상기 테스트용 ROI 풀링된 특징 맵을 사용하여 테스트용 예측 객체 검출 결과를 생성하는 프로세스 동안, 각 상기 테스트용 예측 ROI 별 테스트용 CNN 컨피던스 스코어 각각 - 상기 테스트용 CNN 컨피던스 스코어 각각은, 상기 테스트용 예측 객체 검출 결과에 포함된 하나 이상의 테스트용 예측 CNN 리그레션 결과 각각 및 하나 이상의 테스트용 예측 CNN 분류 결과 각각이, GT 객체 검출 결과에 포함된 하나 이상의 GT CNN 리그레션 결과 각각 및 하나 이상의 GT CNN 분류 결과 각각과 동일할 테스트용 확률 각각을 나타냄 - 을 생성함으로써, 상기 테스트용 CNN 컨피던스 스코어를 포함하는 테스트용 CNN 컨피던스 맵을 생성하도록 하는 단계; 및
    (d) 상기 테스팅 장치가, 컨피던스 레이어로 하여금, 상기 테스트용 RPN 컨피던스 맵 및 상기 테스트용 CNN 컨피던스 맵을 참조하여, 테스트용 통합 컨피던스 스코어를 포함하는 테스트용 통합 컨피던스 맵을 생성하도록 하는 단계;
    를 포함하는 것을 특징으로 하는 테스팅 방법.
  8. 제 7항에 있어서,
    상기 테스팅 장치가, 상기 컨피던스 레이어로 하여금, (i-1) 상기 테스트용 예측 객체 검출 결과가 생성되는 프로세스 동안 생성되는, 상기 테스트용 예측 ROI에 대한 테스트용 NMS 결과를 상기 CNN으로부터 획득하는 프로세스, (i-2) 상기 테스트용 RPN 컨피던스 맵에 적어도 하나의 리사이징 연산을 가하여 리사이징된 테스트용 RPN 컨피던스 맵을 생성하는 프로세스, 및 (ii) 상기 테스트용 NMS 결과 및 상기 리사이징된 테스트용 RPN 컨피던스 맵을 참조하여 상기 테스트용 통합 컨피던스 맵을 생성하는 프로세스를 수행하도록 하는 것을 특징으로 하는 테스팅 방법.
  9. 제 8항에 있어서,
    상기 테스팅 장치가, 상기 컨피던스 레이어로 하여금, 상기 테스트용 통합 컨피던스 스코어 중, 상기 테스트 이미지 상의 좌표
    Figure pat00137
    에 대응하는 제(X_Y) 테스트용 통합 컨피던스 스코어를 하기 수식에 따라 생성하도록 하되,
    Figure pat00138

    Figure pat00139
    는 상기 제(X_Y) 테스트용 통합 컨피던스 스코어를 의미하고,
    Figure pat00140
    는 상기 리사이징된 테스트용 RPN 컨피던스 맵 상의 좌표
    Figure pat00141
    에 대응하는 제(X_Y) 리사이징된 테스트용 RPN 컨피던스 스코어를 의미하며,
    Figure pat00142
    는 상기 테스트용 NMS 결과에서 결정된, 상기 좌표
    Figure pat00143
    를 포함하는 제i 테스트용 예측 ROI - 상기 제i 테스트용 예측 ROI는
    Figure pat00144
    로 나타냄 - 에 대한 제i 테스트용 CNN 컨피던스 스코어를 의미하는 것을 특징으로 하는 테스팅 방법.
  10. 제 7항에 있어서,
    (e) 상기 테스팅 장치가, 상기 제 N프레임에 대응하는 시점으로부터 기설정된 시간 범위 동안 테스트용 차량이 주행할 예정 경로를 나타내는 경로 정보가 - 상기 경로 정보는, 상기 테스트용 차량과 연동하는 경로 플래닝 모듈에 의해 생성된 상태임 - 획득되면, 모드 전환 모듈로 하여금, (i) 상기 테스트용 통합 컨피던스 맵 및 상기 경로 정보를 참조로 하여, 상기 테스트용 통합 컨피던스 스코어 중에서, 상기 예정 경로에 대응하는 상기 제N 프레임에 대한 적어도 하나의 제N 타겟 컨피던스 스코어를 선택하고, (ii) 상기 제N 타겟 컨피던스 스코어가 임계치 초과인지 여부를 판단하도록 하는 단계;
    를 더 포함하는 것을 특징으로 하는 테스팅 방법.
  11. 제 10항에 있어서,
    상기 테스팅 장치가, 상기 모드 전환 모듈로 하여금, (i) 상기 제N 타겟 컨피던스 스코어가 상기 임계치 이하이고, (ii) 제(N-K) 프레임 - K는 N미만의 정수임 - 내지 제(N-1) 프레임 각각에 대응하는 제(N-K) 타겟 컨피던스 스코어 내지 제(N-1) 타겟 컨피던스 스코어 중 적어도 일부가 상기 임계치 이하인 경우, 상기 테스트용 차량의 주행 모드를 자율 주행 모드에서 수동 주행 모드로 변경하도록 하는 것을 특징으로 하는 테스팅 방법.
  12. 제 10항에 있어서,
    상기 테스팅 장치가, 상기 모드 전환 모듈로 하여금, (i) 상기 제N 타겟 컨피던스 스코어가 상기 임계치 이하이고, (ii) 제(N-K) 프레임 - K는 N미만의 정수임 - 내지 제(N-1) 프레임 각각에 대응하는 제(N-K) 타겟 컨피던스 스코어 내지 제(N-1) 타겟 컨피던스 스코어가 순차적으로 감소하는 경우, 상기 테스트용 차량의 주행 모드를 자율 주행 모드에서 수동 주행 모드로 변경하도록 하는 것을 특징으로 하는 테스팅 방법.
  13. 객체 검출의 프로세스 동안 상기 객체 검출의 신뢰도를 나타낼 수 있는 파라미터를 생성하는 학습 장치에 있어서,
    인스트럭션을 저장하는 적어도 하나의 메모리; 및
    (I) 트레이닝 이미지가 획득되면, CNN(Convolutional Neural Network)에 포함된 적어도 하나의 컨벌루션 레이어로 하여금, 상기 트레이닝 이미지에 적어도 하나의 컨벌루션 연산을 가하여 적어도 하나의 컨벌루션 특징 맵을 생성하도록 하는 프로세스, (II) RPN(Region Proposal Network)에 포함된 적어도 하나의 앵커 레이어로 하여금, 상기 컨벌루션 특징 맵에 적어도 하나의 앵커(anchor) 연산을 가함으로써 상기 트레이닝 이미지 상의 예측 ROI(Region Of Interest)를 생성하는 프로세스 동안, 상기 컨벌루션 특징 맵 내 각 픽셀 별 하나 이상의 RPN 컨피던스(confidence) 스코어 각각 - 상기 RPN 컨피던스 스코어 각각은, 상기 예측 ROI가 GT(ground-truth) ROI와 동일할 확률 각각을 나타냄 - 을 생성함으로써, 상기 RPN 컨피던스 스코어를 포함하는 RPN 컨피던스 맵을 생성하도록 하는 프로세스, (III) 상기 CNN에 포함된 ROI 풀링 레이어를 통해 상기 컨벌루션 특징 맵 및 상기 예측 ROI를 이용하여 생성된 적어도 하나의 ROI 풀링된(ROI-Pooled) 특징 맵이 획득되면, 상기 CNN에 포함된 FC 레이어로 하여금, 상기 ROI 풀링된 특징 맵을 사용하여 예측 객체 검출 결과를 생성하는 프로세스 동안, 각 상기 예측 ROI 별 CNN 컨피던스 스코어 각각 - 상기 CNN 컨피던스 스코어 각각은, 상기 예측 객체 검출 결과에 포함된 하나 이상의 예측 CNN 리그레션 결과 각각 및 하나 이상의 예측 CNN 분류 결과 각각이, GT 객체 검출 결과에 포함된 하나 이상의 GT CNN 리그레션 결과 각각 및 하나 이상의 GT CNN 분류 결과 각각과 동일할 확률 각각을 나타냄 - 을 생성함으로써, 상기 CNN 컨피던스 스코어를 포함하는 CNN 컨피던스 맵을 생성하도록 하는 프로세스, 및 (IV) 로스 레이어로 하여금, 상기 RPN 컨피던스 맵, 상기 CNN 컨피던스 맵, 상기 예측 객체 검출 결과 및 상기 GT 객체 검출 결과를 참조하여 적어도 하나의 RPN 로스 및 적어도 하나의 CNN 로스를 생성하도록 하고, 상기 RPN 로스 및 상기 CNN 로스를 이용해 백프로퍼게이션(backpropagation)을 수행함으로써 상기 CNN 및 상기 RPN의 파라미터 중 적어도 일부를 학습하는 프로세스를 수행하기 위한 상기 인스트럭션을 실행하도록 구성된 적어도 하나의 프로세서;
    를 포함하는 것을 특징으로 하는 학습 장치.
  14. 제 13항에 있어서,
    상기 (IV) 프로세스에서,
    상기 프로세서가, 상기 로스 레이어로 하여금, 하기 수식에 따라 상기 RPN 로스를 생성하도록 하되,
    Figure pat00145

    Figure pat00146
    는 상기 앵커 연산을 수행하여 생성된 상기 컨벌루션 특징 맵의 크기에 대응하는 상수이고,
    Figure pat00147
    는 상기 트레이닝 이미지에 대응하는 상수이며,
    Figure pat00148
    는 상기 RPN 컨피던스 스코어 중, 상기 컨벌루션 특징 맵의 제i 픽셀에 대응하는 제i RPN 컨피던스 스코어를 의미하고,
    Figure pat00149
    는 상기 제i 픽셀에 대응하는 제i 예측 RPN 분류 결과를 의미하며,
    Figure pat00150
    는 상기 제i 예측 RPN 분류 결과에 대응하는 제i GT RPN 분류 결과를 의미하고,
    Figure pat00151
    는 상기 제i 픽셀에 대응하는 제i 예측 RPN 리그레션 결과를 의미하며,
    Figure pat00152
    는 상기 제i 예측 RPN 리그레션 결과에 대응하는 제i GT RPN 리그레션 결과를 의미하고,
    상기 제i GT RPN 분류 결과 및 상기 제i GT RPN 리그레션 결과는 상기 GT 객체 검출 결과에 대응하는 것을 특징으로 하는 학습 장치.
  15. 제 13항에 있어서,
    상기 (IV) 프로세스에서,
    상기 프로세서가, 상기 로스 레이어로 하여금, 하기 수식에 따라 상기 CNN 로스를 생성하도록 하되,
    Figure pat00153

    Figure pat00154
    Figure pat00155
    는 상기 예측 ROI의 개수이고,
    Figure pat00156
    는 상기 CNN 컨피던스 스코어 중, 상기 예측 ROI에서 선택된 제i 예측 ROI에 대응하는 제i CNN 컨피던스 스코어를 의미하고,
    Figure pat00157
    는 상기 제i 예측 ROI에 대응하는 제i 예측 CNN 분류 결과를 의미하며,
    Figure pat00158
    는 상기 제i 예측 CNN 분류 결과에 대응하는 제i GT CNN 분류 결과를 의미하고,
    Figure pat00159
    는 상기 제i 예측 ROI에 대응하는 제i 예측 CNN 리그레션 결과를 의미하며,
    Figure pat00160
    는 상기 제i 예측 CNN 리그레션 결과에 대응하는 제i GT CNN 리그레션 결과를 의미하고,
    상기 제i 예측 CNN 분류 결과 및 상기 제i 예측 CNN 리그레션 결과는 상기 예측 객체 검출 결과에 대응하는 것을 특징으로 하는 학습 장치.
  16. 제 13항에 있어서,
    상기 (III) 프로세스 이후에,
    상기 프로세서가, 컨피던스 레이어로 하여금, 상기 RPN 컨피던스 맵 및 상기 CNN 컨피던스 맵을 참조하여, 상기 트레이닝 이미지 내 각 픽셀 별 각각의 통합 컨피던스 스코어에 대한 정보를 포함하는 통합 컨피던스 맵을 생성하도록 하는 것을 특징으로 하는 학습 장치.
  17. 제 16항에 있어서,
    상기 프로세서가, 상기 컨피던스 레이어로 하여금, (i-1) 상기 예측 객체 검출 결과가 생성되는 프로세스 동안 생성되는, 상기 예측 ROI에 대한 NMS(Non-Maximum Suppression) 결과를 상기 CNN으로부터 획득하는 프로세스, (i-2) 상기 RPN 컨피던스 맵에 적어도 하나의 리사이징(resizing) 연산을 가하여 리사이징된 RPN 컨피던스 맵을 생성하는 프로세스, 및 (ii) 상기 NMS 결과 및 상기 리사이징된 RPN 컨피던스 맵을 참조하여 상기 통합 컨피던스 맵을 생성하는 프로세스를 수행하도록 하는 것을 특징으로 하는 학습 장치.
  18. 제 17항에 있어서,
    상기 프로세서가, 상기 컨피던스 레이어로 하여금, 상기 통합 컨피던스 스코어 중, 상기 트레이닝 이미지 상의 좌표
    Figure pat00161
    에 대응하는 제(X_Y) 통합 컨피던스 스코어를 하기 수식에 따라 생성하도록 하되,
    Figure pat00162

    Figure pat00163
    는 상기 제(X_Y) 통합 컨피던스 스코어를 의미하고,
    Figure pat00164
    는 상기 리사이징된 RPN 컨피던스 맵 상의 좌표
    Figure pat00165
    에 대응하는 제(X_Y) 리사이징된 RPN 컨피던스 스코어를 의미하며,
    Figure pat00166
    는 상기 NMS(Non-Maximum Suppression) 결과에서 결정된, 상기 좌표
    Figure pat00167
    를 포함하는 제i 예측 ROI - 상기 제i 예측 ROI는
    Figure pat00168
    로 나타냄 - 에 대한 제i CNN 컨피던스 스코어를 의미하는 것을 특징으로 하는 학습 장치.
  19. 객체 검출의 프로세스 동안 상기 객체 검출의 신뢰도를 나타낼 수 있는 파라미터를 생성하는 테스팅 장치에 있어서,
    인스트럭션을 저장하는 적어도 하나의 메모리; 및
    (I) (1) 학습 장치가, CNN에 포함된 적어도 하나의 컨벌루션 레이어로 하여금, 트레이닝 이미지에 적어도 하나의 컨벌루션 연산을 가하여 적어도 하나의 학습용 컨벌루션 특징 맵을 생성하도록 하고, (2) 상기 학습 장치가, RPN에 포함된 적어도 하나의 앵커 레이어로 하여금, 상기 학습용 컨벌루션 특징 맵에 적어도 하나의 앵커 연산을 가함으로써 상기 트레이닝 이미지 상의 학습용 예측 ROI를 생성하는 프로세스 동안, 상기 학습용 컨벌루션 특징 맵 내 각 픽셀 별 하나 이상의 학습용 RPN 컨피던스 스코어 각각 - 상기 학습용 RPN 컨피던스 스코어 각각은, 상기 학습용 예측 ROI가 GT ROI와 동일할 학습용 확률 각각을 나타냄 - 을 생성함으로써, 상기 학습용 RPN 컨피던스 스코어를 포함하는 학습용 RPN 컨피던스 맵을 생성하도록 하며, (3) 상기 학습 장치가, 상기 CNN에 포함된 ROI 풀링 레이어를 통해 상기 학습용 컨벌루션 특징 맵 및 상기 학습용 예측 ROI를 이용하여 생성된 적어도 하나의 학습용 ROI 풀링된 특징 맵이 획득되면, 상기 CNN에 포함된 FC 레이어로 하여금, 상기 학습용 ROI 풀링된 특징 맵을 사용하여 학습용 예측 객체 검출 결과를 생성하는 프로세스 동안, 각 상기 학습용 예측 ROI 별 학습용 CNN 컨피던스 스코어 각각 - 상기 학습용 CNN 컨피던스 스코어 각각은, 상기 학습용 예측 객체 검출 결과에 포함된 하나 이상의 학습용 예측 CNN 리그레션 결과 각각 및 하나 이상의 학습용 예측 CNN 분류 결과 각각이, GT 객체 검출 결과에 포함된 하나 이상의 GT CNN 리그레션 결과 각각 및 하나 이상의 GT CNN 분류 결과 각각과 동일할 학습용 확률 각각을 나타냄 - 을 생성함으로써, 상기 학습용 CNN 컨피던스 스코어를 포함하는 학습용 CNN 컨피던스 맵을 생성하도록 하고, (4) 상기 학습 장치가, 로스 레이어로 하여금, 상기 학습용 RPN 컨피던스 맵, 상기 학습용 CNN 컨피던스 맵, 상기 학습용 예측 객체 검출 결과 및 상기 GT 객체 검출 결과를 참조하여 적어도 하나의 RPN 로스 및 적어도 하나의 CNN 로스를 생성하도록 하고, 상기 RPN 로스 및 상기 CNN 로스를 이용해 백프로퍼게이션을 수행함으로써 상기 CNN 및 상기 RPN의 파라미터 중 적어도 일부를 학습한 상태에서, 테스트용 주행 비디오의 제N 프레임에 대응하는 테스트 이미지가 획득되면, 상기 CNN에 포함된 상기 컨벌루션 레이어로 하여금, 상기 테스트 이미지에 상기 컨벌루션 연산을 가하여 적어도 하나의 테스트용 컨벌루션 특징 맵을 생성하도록 하는 프로세스, (II) 상기 RPN에 포함된 상기 앵커 레이어로 하여금, 상기 테스트용 컨벌루션 특징 맵에 상기 앵커 연산을 가함으로써 상기 테스트 이미지 상의 테스트용 예측 ROI를 생성하는 프로세스 동안, 상기 테스트용 컨벌루션 특징 맵 내 각 픽셀 별 하나 이상의 테스트용 RPN 컨피던스 스코어 각각 - 상기 테스트용 RPN 컨피던스 스코어 각각은, 상기 테스트용 예측 ROI가 GT ROI와 동일할 테스트용 확률 각각을 나타냄 - 을 생성함으로써, 상기 테스트용 RPN 컨피던스 스코어를 포함하는 테스트용 RPN 컨피던스 맵을 생성하도록 하는 프로세스, (III) 상기 CNN에 포함된 상기 ROI 풀링 레이어를 통해 상기 테스트용 컨벌루션 특징 맵 및 상기 테스트용 예측 ROI를 이용하여 생성된 적어도 하나의 테스트용 ROI 풀링된 특징 맵이 획득되면, 상기 CNN에 포함된 상기 FC 레이어로 하여금, 상기 테스트용 ROI 풀링된 특징 맵을 사용하여 테스트용 예측 객체 검출 결과를 생성하는 프로세스 동안, 각 상기 테스트용 예측 ROI 별 테스트용 CNN 컨피던스 스코어 각각 - 상기 테스트용 CNN 컨피던스 스코어 각각은, 상기 테스트용 예측 객체 검출 결과에 포함된 하나 이상의 테스트용 예측 CNN 리그레션 결과 각각 및 하나 이상의 테스트용 예측 CNN 분류 결과 각각이, GT 객체 검출 결과에 포함된 하나 이상의 GT CNN 리그레션 결과 각각 및 하나 이상의 GT CNN 분류 결과 각각과 동일할 테스트용 확률 각각을 나타냄 - 을 생성함으로써, 상기 테스트용 CNN 컨피던스 스코어를 포함하는 테스트용 CNN 컨피던스 맵을 생성하도록 하는 프로세스, 및 (IV) 컨피던스 레이어로 하여금, 상기 테스트용 RPN 컨피던스 맵 및 상기 테스트용 CNN 컨피던스 맵을 참조하여, 테스트용 통합 컨피던스 스코어를 포함하는 테스트용 통합 컨피던스 맵을 생성하도록 하는 프로세스를 수행하기 위한 상기 인스트럭션을 실행하도록 구성된 적어도 하나의 프로세서;
    를 포함하는 것을 특징으로 하는 테스팅 장치.
  20. 제 19항에 있어서,
    상기 프로세서가, 상기 컨피던스 레이어로 하여금, (i-1) 상기 테스트용 예측 객체 검출 결과가 생성되는 프로세스 동안 생성되는, 상기 테스트용 예측 ROI에 대한 테스트용 NMS 결과를 상기 CNN으로부터 획득하는 프로세스, (i-2) 상기 테스트용 RPN 컨피던스 맵에 적어도 하나의 리사이징 연산을 가하여 리사이징된 테스트용 RPN 컨피던스 맵을 생성하는 프로세스, 및 (ii) 상기 테스트용 NMS 결과 및 상기 리사이징된 테스트용 RPN 컨피던스 맵을 참조하여 상기 테스트용 통합 컨피던스 맵을 생성하는 프로세스를 수행하도록 하는 것을 특징으로 하는 테스팅 장치.
  21. 제 20항에 있어서,
    상기 프로세서가, 상기 컨피던스 레이어로 하여금, 상기 테스트용 통합 컨피던스 스코어 중, 상기 테스트 이미지 상의 좌표
    Figure pat00169
    에 대응하는 제(X_Y) 테스트용 통합 컨피던스 스코어를 하기 수식에 따라 생성하도록 하되,
    Figure pat00170

    Figure pat00171
    는 상기 제(X_Y) 테스트용 통합 컨피던스 스코어를 의미하고,
    Figure pat00172
    는 상기 리사이징된 테스트용 RPN 컨피던스 맵 상의 좌표
    Figure pat00173
    에 대응하는 제(X_Y) 리사이징된 테스트용 RPN 컨피던스 스코어를 의미하며,
    Figure pat00174
    는 상기 테스트용 NMS 결과에서 결정된, 상기 좌표
    Figure pat00175
    를 포함하는 제i 테스트용 예측 ROI - 상기 제i 테스트용 예측 ROI는
    Figure pat00176
    로 나타냄 - 에 대한 제i 테스트용 CNN 컨피던스 스코어를 의미하는 것을 특징으로 하는 테스팅 장치.
  22. 제 19항에 있어서,
    상기 프로세서가, (V) 상기 제 N프레임에 대응하는 시점으로부터 기설정된 시간 범위 동안 테스트용 차량이 주행할 예정 경로를 나타내는 경로 정보가 - 상기 경로 정보는, 상기 테스트용 차량과 연동하는 경로 플래닝 모듈에 의해 생성된 상태임 - 획득되면, 모드 전환 모듈로 하여금, (i) 상기 테스트용 통합 컨피던스 맵 및 상기 경로 정보를 참조로 하여, 상기 테스트용 통합 컨피던스 스코어 중에서, 상기 예정 경로에 대응하는 상기 제N 프레임에 대한 적어도 하나의 제N 타겟 컨피던스 스코어를 선택하고, (ii) 상기 제N 타겟 컨피던스 스코어가 임계치 초과인지 여부를 판단하도록 하는 프로세스를 더 수행하는 것을 특징으로 하는 테스팅 장치.
  23. 제 22항에 있어서,
    상기 프로세서가, 상기 모드 전환 모듈로 하여금, (i) 상기 제N 타겟 컨피던스 스코어가 상기 임계치 이하이고, (ii) 제(N-K) 프레임 - K는 N미만의 정수임 - 내지 제(N-1) 프레임 각각에 대응하는 제(N-K) 타겟 컨피던스 스코어 내지 제(N-1) 타겟 컨피던스 스코어 중 적어도 일부가 상기 임계치 이하인 경우, 상기 테스트용 차량의 주행 모드를 자율 주행 모드에서 수동 주행 모드로 변경하도록 하는 것을 특징으로 하는 테스팅 장치.
  24. 제 22항에 있어서,
    상기 프로세서가, 상기 모드 전환 모듈로 하여금, (i) 상기 제N 타겟 컨피던스 스코어가 상기 임계치 이하이고, (ii) 제(N-K) 프레임 - K는 N미만의 정수임 - 내지 제(N-1) 프레임 각각에 대응하는 제(N-K) 타겟 컨피던스 스코어 내지 제(N-1) 타겟 컨피던스 스코어가 순차적으로 감소하는 경우, 상기 테스트용 차량의 주행 모드를 자율 주행 모드에서 수동 주행 모드로 변경하도록 하는 것을 특징으로 하는 테스팅 장치.
KR1020200001731A 2019-01-30 2020-01-06 온 디바이스 독립형 예측에 기반하여 자율 주행 차량의 모드를 전환함으로써 자율 주행의 안전성을 도모하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치 KR102321004B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201962798676P 2019-01-30 2019-01-30
US62/798,676 2019-01-30
US16/725,064 2019-12-23
US16/725,064 US10726303B1 (en) 2019-01-30 2019-12-23 Learning method and learning device for switching modes of autonomous vehicle based on on-device standalone prediction to thereby achieve safety of autonomous driving, and testing method and testing device using the same

Publications (2)

Publication Number Publication Date
KR20200094645A true KR20200094645A (ko) 2020-08-07
KR102321004B1 KR102321004B1 (ko) 2021-11-03

Family

ID=69174375

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200001731A KR102321004B1 (ko) 2019-01-30 2020-01-06 온 디바이스 독립형 예측에 기반하여 자율 주행 차량의 모드를 전환함으로써 자율 주행의 안전성을 도모하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치

Country Status (5)

Country Link
US (1) US10726303B1 (ko)
EP (1) EP3690715B1 (ko)
JP (1) JP6892158B2 (ko)
KR (1) KR102321004B1 (ko)
CN (1) CN111507152B (ko)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110096933B (zh) * 2018-01-30 2023-07-18 华为技术有限公司 目标检测的方法、装置及系统
US20200209857A1 (en) * 2018-12-31 2020-07-02 Uber Technologies, Inc. Multimodal control system for self driving vehicle
US10963752B2 (en) * 2019-04-30 2021-03-30 Cylance Inc. Machine learning model score obfuscation using step function, position-dependent noise
US20220237414A1 (en) * 2021-01-26 2022-07-28 Nvidia Corporation Confidence generation using a neural network

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170206431A1 (en) * 2016-01-20 2017-07-20 Microsoft Technology Licensing, Llc Object detection and classification in images

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6413949B1 (en) * 1995-06-07 2002-07-02 D-Pharm, Ltd. Prodrugs with enhanced penetration into cells
US9965719B2 (en) * 2015-11-04 2018-05-08 Nec Corporation Subcategory-aware convolutional neural networks for object detection
US10002313B2 (en) * 2015-12-15 2018-06-19 Sighthound, Inc. Deeply learned convolutional neural networks (CNNS) for object localization and classification
WO2017139927A1 (en) * 2016-02-17 2017-08-24 Intel Corporation Region proposal for image regions that include objects of interest using feature maps from multiple layers of a convolutional neural network model
US10354362B2 (en) * 2016-09-08 2019-07-16 Carnegie Mellon University Methods and software for detecting objects in images using a multiscale fast region-based convolutional neural network
JP6964234B2 (ja) * 2016-11-09 2021-11-10 パナソニックIpマネジメント株式会社 情報処理方法、情報処理装置およびプログラム
CA3043352A1 (en) * 2016-11-15 2018-05-24 Magic Leap, Inc. Deep learning system for cuboid detection
CN106599939A (zh) * 2016-12-30 2017-04-26 深圳市唯特视科技有限公司 一种基于区域卷积神经网络的实时目标检测方法
US10169679B1 (en) * 2017-10-13 2019-01-01 StradVision, Inc. Learning method and learning device for adjusting parameters of CNN by using loss augmentation and testing method and testing device using the same
US10678253B2 (en) * 2018-05-24 2020-06-09 GM Global Technology Operations LLC Control systems, control methods and controllers for an autonomous vehicle
US20190361454A1 (en) * 2018-05-24 2019-11-28 GM Global Technology Operations LLC Control systems, control methods and controllers for an autonomous vehicle
US10452959B1 (en) * 2018-07-20 2019-10-22 Synapse Tehnology Corporation Multi-perspective detection of objects
US11080542B2 (en) * 2018-07-27 2021-08-03 International Business Machines Corporation Sparse region-of-interest pooling for object detection
US10474930B1 (en) * 2018-10-05 2019-11-12 StradVision, Inc. Learning method and testing method for monitoring blind spot of vehicle, and learning device and testing device using the same
US10304009B1 (en) * 2018-10-08 2019-05-28 StradVision, Inc. Learning method and testing method for object detector based on R-CNN, and learning device and testing device using the same
US10402686B1 (en) * 2019-01-25 2019-09-03 StradVision, Inc. Learning method and learning device for object detector to be used for surveillance based on convolutional neural network capable of converting modes according to scales of objects, and testing method and testing device using the same
US10402978B1 (en) * 2019-01-25 2019-09-03 StradVision, Inc. Method for detecting pseudo-3D bounding box based on CNN capable of converting modes according to poses of objects using instance segmentation and device using the same

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170206431A1 (en) * 2016-01-20 2017-07-20 Microsoft Technology Licensing, Llc Object detection and classification in images

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Shaoqing Ren et al., Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks, arXiv:1506.01497v3, 1-14pages (2016. 1. 6.) *

Also Published As

Publication number Publication date
CN111507152B (zh) 2023-09-15
EP3690715A1 (en) 2020-08-05
CN111507152A (zh) 2020-08-07
JP2020123349A (ja) 2020-08-13
US10726303B1 (en) 2020-07-28
JP6892158B2 (ja) 2021-06-23
KR102321004B1 (ko) 2021-11-03
EP3690715B1 (en) 2024-01-24
EP3690715C0 (en) 2024-01-24
US20200242411A1 (en) 2020-07-30

Similar Documents

Publication Publication Date Title
JP6895694B2 (ja) Avm及び強化学習を利用して自律走行の安全性を達成するためのアテンション−ドリブンアルゴリズムを利用したリソース割り当てのための方法及び装置{method and device for attention−driven resource allocation by using avmand reinforcement learning to thereby achieve safety of autonomous driving}
US11087175B2 (en) Learning method and learning device of recurrent neural network for autonomous driving safety check for changing driving mode between autonomous driving mode and manual driving mode, and testing method and testing device using them
KR20200094645A (ko) 온 디바이스 독립형 예측에 기반하여 자율 주행 차량의 모드를 전환함으로써 자율 주행의 안전성을 도모하는 학습 방법 및 학습 장치, 그리고 이를 이용한 테스팅 방법 및 테스팅 장치
US20200250526A1 (en) Method and device for attention-driven resource allocation by using reinforcement learning and v2x communication to thereby achieve safety of autonomous driving
US10410120B1 (en) Learning method and testing method of object detector to be used for surveillance based on R-CNN capable of converting modes according to aspect ratios or scales of objects, and learning device and testing device using the same
CN111461106B (zh) 基于可重配置网络的对象检测方法及装置
US11783596B2 (en) Detecting traffic signaling states with neural networks
KR20200091317A (ko) 자율 주행 자동차의 레벨 4를 충족시키기 위해 영역의 클래스에 따라 모드를 전환하여 그리드 셀 별로 가중 컨벌루션 필터를 이용한 감시용 이미지 세그멘테이션 방법 및 장치, 그리고 이를 이용한 테스트 방법 및 테스트 장치
JP6856904B2 (ja) 物体のスケールに応じてモード転換が可能なcnn基盤の監視用物体検出器の学習方法及び学習装置、そしてこれを利用したテスト方法及びテスト装置
CN111507169B (zh) 以avm实现注意力驱动资源分配的方法及装置

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant