KR102279291B1 - 사물 감지 장치 및 방법 - Google Patents
사물 감지 장치 및 방법 Download PDFInfo
- Publication number
- KR102279291B1 KR102279291B1 KR1020170039783A KR20170039783A KR102279291B1 KR 102279291 B1 KR102279291 B1 KR 102279291B1 KR 1020170039783 A KR1020170039783 A KR 1020170039783A KR 20170039783 A KR20170039783 A KR 20170039783A KR 102279291 B1 KR102279291 B1 KR 102279291B1
- Authority
- KR
- South Korea
- Prior art keywords
- confidence
- primary
- reliability
- score
- detection score
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 238000001514 detection method Methods 0.000 claims abstract description 125
- 230000011218 segmentation Effects 0.000 claims description 55
- 230000004927 fusion Effects 0.000 description 39
- 238000004891 communication Methods 0.000 description 15
- 238000013528 artificial neural network Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000002372 labelling Methods 0.000 description 8
- 238000013461 design Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000003247 decreasing effect Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000010267 cellular communication Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007500 overflow downdraw method Methods 0.000 description 3
- 229920001621 AMOLED Polymers 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000010998 test method Methods 0.000 description 2
- 238000001429 visible spectrum Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G06K9/34—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G06K9/624—
-
- G06K9/628—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01L—SEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
- H01L27/00—Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate
- H01L27/14—Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate including semiconductor components sensitive to infrared radiation, light, electromagnetic radiation of shorter wavelength or corpuscular radiation and specially adapted either for the conversion of the energy of such radiation into electrical energy or for the control of electrical energy by such radiation
- H01L27/144—Devices controlled by radiation
- H01L27/146—Imager structures
-
- H—ELECTRICITY
- H01—ELECTRIC ELEMENTS
- H01L—SEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
- H01L27/00—Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate
- H01L27/14—Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate including semiconductor components sensitive to infrared radiation, light, electromagnetic radiation of shorter wavelength or corpuscular radiation and specially adapted either for the conversion of the energy of such radiation into electrical energy or for the control of electrical energy by such radiation
- H01L27/144—Devices controlled by radiation
- H01L27/146—Imager structures
- H01L27/14683—Processes or apparatus peculiar to the manufacture or treatment of these devices or parts thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/30—Circuit design
- G06F30/39—Circuit design at the physical level
- G06F30/392—Floor-planning or layout, e.g. partitioning or placement
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/30—Circuit design
- G06F30/39—Circuit design at the physical level
- G06F30/398—Design verification or optimisation, e.g. using design rule check [DRC], layout versus schematics [LVS] or finite element methods [FEM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10004—Still image; Photographic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Power Engineering (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Electromagnetism (AREA)
- Microelectronics & Electronic Packaging (AREA)
- Computer Hardware Design (AREA)
- Condensed Matter Physics & Semiconductors (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Image Analysis (AREA)
Abstract
사물 감지 장치 및 방법이 제공된다. 사물 감지 방법은, 이미지를 수신하고, 이미지에서 사물을 감지하고, 1차 사물 감지기가 사물의 1차 신뢰도 감지 스코어를 결정하고, 분류 네트워크가 사물의 신뢰도 스케일링 인자를 결정하고, 1차 신뢰도 감지 스코어에 신뢰도 스케일링 인자를 곱한 것에 기초하여, 1차 신뢰도 감지 스코어를 조정하는 것을 포함한다.
Description
본 발명은 사물 감지 장치 및 방법에 관한 것으로, 심층 신경망(deep neural network)과 관련되어 있다. 좀 더 구체적으로 본 발명은 빠르고 강력한 사물 감지를 위한 심층 신경망 융합(deep network fusion)을 위한 장치 및 방법에 관한 것이다.
얼굴 인식과 같은 사물 인식은, 카메라와 같은 이미지 센서에 의해 캡쳐된 이미지의 데이터 베이스로부터 사람을 식별하는 것을 포함할 수 있고, 또한, 얼굴 이미지를 학습하는 것을 포함할 수 있다. 캡쳐된 이미지의 표현은, 메트릭(metric)을 이용하여 가장 가까운 매치를 반환하기 위해, 데이터 베이스에서의 얼굴 이미지의 표현과 비교될 수 있다. 얼굴 인식은, 얼굴 인식(detection)과 얼굴 정렬(alignment)와 같은, 전 처리 단계가 포함될 수 있다.
카메라에 의해 캡쳐된 시각적 이미지 내에서의 사물 인식은, 방위, 운송 또는 법 집행을 포함하는 다양한 산업 또는 응용 분야에서 이용될 수 있다. 예를 들어, 이미지 내에서 자동차, 보행자 및 건물과 같은, 하나 이상의 물체들을 식별하는 것이 바람직할 수 있다. 사물 인식 접근법은, 목표 물체를 정확하게 식별하는데에 요구되는 신뢰도를 제공하지 못할 수 있고, 이상적인 수 이상의 오 탐지(예를 들어, 목표 물체가 아닌 것을 목표 물체로 검출하는 것)를 제공할 수도 있다.
이미지에서 보행자를 감지하는 것은, 현재 영상 감시, 사람 식별 및 고급 운전자 보조 시스템(advanced driver assistance systems (ADAS))의 다양한 측면에서 필수적인 역할을 하고 있다. 실시간으로 정확하게 보행자를 감지하는 것은, 이러한 시스템에서 실제로 채택하는데에 중요하다. 보행자 감지 방법은, 이미지의 모든 보행자들의 위치를 실시간 처리 속도로 정확하게 표시하는 경계 박스(bounding box)를 그릴 수 있다.
본 발명이 해결하고자 하는 기술적 과제는 이미지에서 캡쳐된 보행자의 빠르고 강력한 감지를 위한 심층 신경망 융합 아키텍처(deep neural network fusion architecture)를 포함하는 시스템 및 방법을 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 달성하기 위한 본 발명의 몇몇 실시예들에 따른 사물 감지 방법은, 이미지를 수신하고, 이미지에서 사물을 감지하고, 1차 사물 감지기가 사물의 1차 신뢰도 감지 스코어를 결정하고, 분류 네트워크가 사물의 신뢰도 스케일링 인자를 결정하고, 1차 신뢰도 감지 스코어에 신뢰도 스케일링 인자를 곱한 것에 기초하여, 1차 신뢰도 감지 스코어를 조정하는 것을 포함한다.
상기 기술적 과제를 달성하기 위한 본 발명의 몇몇 실시예들에 따른 사물 감지 장치는, 이미지 센서, 1차 사물 감지기, 분류 네트워크 및 프로세서를 포함하고, 상기 프로세서는, 상기 이미지 센서로부터 이미지를 캡처하고, 상기 이미지에서 사물을 감지하고, 상기 1차 사물 감지기를 이용하여, 상기 사물의 1차 신뢰도 감지 스코어를 결정하고, 상기 분류 네트워크를 이용하여 상기 사물의 신뢰도 스케일링 인자를 결정하고, 상기 1차 신뢰도 감지 스코어에 상기 신뢰도 스케일링 인자를 곱한 것에 기초하여, 상기 1차 신뢰도 감지 스코어를 조정할 수 있다.
상기 기술적 과제를 달성하기 위한 본 발명의 몇몇 실시예들에 따른 프로세서의 제조 방법은, 적어도 하나의 다른 프로세서를 포함하는 패키지 또는 웨이퍼의 일부로써 프로세서를 형성하는 것을 포함하고, 상기 프로세서는, 이미지 센서로부터 이미지를 캡처하고, 상기 이미지에서 사물을 감지하고, 1차 사물 감지기를 이용하여, 상기 사물의 1차 신뢰도 감지 스코어를 결정하고, 분류 네트워크를 이용하여 상기 사물의 신뢰도 스케일링 인자를 결정하고, 상기 1차 신뢰도 감지 스코어에 상기 신뢰도 스케일링 인자를 곱한 것에 기초하여 상기 1차 신뢰도 감지 스코어를 조정할 수 있다.
상기 기술적 과제를 달성하기 위한 본 발명의 몇몇 실시예들에 따른 집적 회로의 제조 방법은, 집적 회로의 레이어에 대한 피처(feature) 세트를 위한 마스크 레이아웃을 생성하는 것을 포함하고, 상기 마스크 레이아웃은 하나 이상의 회로 피처에 대한 표준 셀 라이브러리 매크로를 포함하고, 상기 하나 이상의 회로 피처는 프로세서를 포함하고, 상기 프로세서는, 이미지 센서로부터 이미지를 캡처하고, 상기 이미지에서 사물을 감지하고, 1차 사물 감지기를 이용하여, 상기 사물의 1차 신뢰도 감지 스코어를 결정하고, 분류 네트워크를 이용하여 상기 사물의 신뢰도 스케일링 인자를 결정하고, 상기 1차 신뢰도 감지 스코어에 상기 신뢰도 스케일링 인자를 곱한 것에 기초하여 상기 1차 신뢰도 감지 스코어를 조정할 수 있다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
도 1은 본 발명의 몇몇 실시예들에 따른 네트워크 환경에서 전자 장치의 블록도이다.
도 2는 본 발명의 몇몇 실시예들에 따른 네트워크 융합 아키텍처의 블록도이다.
도 3은 본 발명의 몇몇 실시예들에 따른 싱글숏 다중 박스 감지기를 이용하는 1차 사물 감지기의 블록도이다.
도 4는 본 발명의 몇몇 실시예들에 따른 하나의 분류 네트워크를 갖는 1차 사물 감지 네트워크의 소프트 리젝션 융합 방법을 설명하기 위한 순서도이다.
도 5는 본 발명의 몇몇 실시예들에 따른 1차 사물 감지기를 갖는 시멘틱 세그멘테이션 레이블러(labeler)의 소프트 리젝션 방법을 설명하기 위한 순서도이다.
도 6a는 본 발명의 몇몇 실시예들에 따른 후보 사물을 갖는 캡처된 이미지를 도시한 도면이다. 도 6b는 본 발명의 몇몇 실시예들에 따른 도 6a의 캡처된 이미지의 시멘틱 세그멘테이션 마스크를 도시한 도면이다.
도 7은 본 발명의 몇몇 실시예들에 따른 이미지에서 사물을 감지하는 방법을 설명하기 위한 순서도이다.
도 8은 본 발명의 몇몇 실시예들에 따른 이미지에서 사물을 감지하는 프로세서를 테스트하는 방법을 설명하기 위한 순서도이다.
도 9는 본 발명의 몇몇 실시예들에 따른, 이미지의 사물을 감지하는 프로세서를 제조하는 방법을 설명하기 위한 순서도이다.
도 2는 본 발명의 몇몇 실시예들에 따른 네트워크 융합 아키텍처의 블록도이다.
도 3은 본 발명의 몇몇 실시예들에 따른 싱글숏 다중 박스 감지기를 이용하는 1차 사물 감지기의 블록도이다.
도 4는 본 발명의 몇몇 실시예들에 따른 하나의 분류 네트워크를 갖는 1차 사물 감지 네트워크의 소프트 리젝션 융합 방법을 설명하기 위한 순서도이다.
도 5는 본 발명의 몇몇 실시예들에 따른 1차 사물 감지기를 갖는 시멘틱 세그멘테이션 레이블러(labeler)의 소프트 리젝션 방법을 설명하기 위한 순서도이다.
도 6a는 본 발명의 몇몇 실시예들에 따른 후보 사물을 갖는 캡처된 이미지를 도시한 도면이다. 도 6b는 본 발명의 몇몇 실시예들에 따른 도 6a의 캡처된 이미지의 시멘틱 세그멘테이션 마스크를 도시한 도면이다.
도 7은 본 발명의 몇몇 실시예들에 따른 이미지에서 사물을 감지하는 방법을 설명하기 위한 순서도이다.
도 8은 본 발명의 몇몇 실시예들에 따른 이미지에서 사물을 감지하는 프로세서를 테스트하는 방법을 설명하기 위한 순서도이다.
도 9는 본 발명의 몇몇 실시예들에 따른, 이미지의 사물을 감지하는 프로세서를 제조하는 방법을 설명하기 위한 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 도면에서 층 및 영역들의 상대적인 크기는 설명의 명료성을 위해 과장된 것일 수 있다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
하나의 소자(elements)가 다른 소자와 "접속된(connected to)" 또는 "커플링된(coupled to)" 이라고 지칭되는 것은, 다른 소자와 직접 연결 또는 커플링된 경우 또는 중간에 다른 소자를 개재한 경우를 모두 포함한다. 반면, 하나의 소자가 다른 소자와 "직접 접속된(directly connected to)" 또는 "직접 커플링된(directly coupled to)"으로 지칭되는 것은 중간에 다른 소자를 개재하지 않은 것을 나타낸다. 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다. "및/또는"은 언급된 아이템들의 각각 및 하나 이상의 모든 조합을 포함한다.
비록 제1, 제2 등이 다양한 소자, 구성요소 및/또는 섹션들을 서술하기 위해서 사용되나, 이들 소자, 구성요소 및/또는 섹션들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 소자, 구성요소 또는 섹션들을 다른 소자, 구성요소 또는 섹션들과 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 소자, 제1 구성요소 또는 제1 섹션은 본 발명의 기술적 사상 내에서 제2 소자, 제2 구성요소 또는 제2 섹션일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
도 1은 본 발명의 몇몇 실시예들에 따른 네트워크 환경에서 전자 장치의 블록도이다.
도 1을 참조하면, 전자 장치(100)는, 본 발명이 이에 제한되는 것은 아니나, 예를 들어, 통신 블록(110), 프로세서(120), 메모리(130), 디스플레이(150), 입/출력 블록(160), 오디오 블록(170), 및 이미지 센서(180)를 포함할 수 있다. 전자 장치(100)는, 본 발명이 이에 제한되는 것은 아니나. 예를 들어, 스마트 폰, 태블릿 또는 개인용 컴퓨터를 포함하는 포터블 전자 장치에 포함될 수 있다. 전자 장치(100)는 또한, 본 발명이 이에 제한되는 것은 아니나, 예를 들어, 자동차, 기차, 비행기, 자율 주행 차량, 무인 항공기, 자전거 및 오토바이를 포함하는 차량에 포함될 수도 있다.
전자 장치(100)는, 전자 장치(100)를 데이터 및 음성 통신을 위한 네트워크 또는 다른 전자 장치에 연결하기 위한, 통신 블록(110)을 포함할 수 있다. 통신 블록(110)은, GPRS(general packet radio service), EDGE(enhanced data rates for GSM evolution), 셀룰러, 광역, 로컬 영역, 개인 영역, 근거리 필드, D2D(device to device), M2M(machine to machine), 위성, eMBB(enhanced mobile broad band), mMTC(massive machine type communication), URLLC(ultra-reliable low latency communication), NB-IoT(narrowband Internet of things), 및 단거리 통신을 지원할 수 있다. 통신 블록(110) 또는 송수신기(113)를 포함하는 통신 블록(110) 일부의 기능은, 칩셋(chipset)에 의해 구현될 수 있다.
구체적으로, 셀룰러 통신 블록(112)은, 2G(second generation), GPRS, EDGE, D2D, M2M, LTE(long term evolution), 5G(fifth generation), LTE-A(long term evolution advanced), CDMA(code division multiple access), WCDMA(wideband code division multiple access), UMTS(universal mobile telecommunications system), WiBro(wireless broadband), 및 GSM(global system for mobile communication)과 같은 기술을 이용하여, 지상 기지국 송수신기를 통해 또는 다른 전자 장치에 직접, 광역 네트워크 접속을 제공할 수 있다. 셀룰러 통신 블록(112)은, 칩셋 및 송수신기(113)를 포함할 수 있으나, 본 발명이 이에 제한되는 것은 아니다.
송수신기(113)는 송신기 및 수신기를 포함할 수 있으나, 본 발명이 이에 제한되는 것은 아니다.
Wi-Fi(wireless fidelity) 통신 블록(114)은, IEEE 802.11와 같은 기술을 이용하여, 네트워크 액세스 포인트를 통한 근거리 네트워크 접속을 제공할 수 있다.
블루투스 통신 블록(116)은, IEEE 802.15와 같은 기술을 이용하여, 개인 영역 다이렉트 및 네트워크 통신을 제공할 수 있다.
NFC(near field communications) 블록(118)은, ISO/IEC 14443과 같은 표준을 이용하여, 점대점 단거리 통신(point to point short range communication)을 제공할 수 있다.
통신 블록(110)은 또한, GNSS 수신기(119)를 포함할 수 있다. GNSS 수신기(119)는, 위성 송신기로부터 신호를 수신받는 것을 지원할 수 있다.
전자 장치(100)는, 기능 블록을 동작시키기 위한 전력을, 예를 들어, 배터리를 포함하는 전원으로부터 수신받을 수 있다.
프로세서(120)는 전자 장치(100)의 애플리케이션 계층 처리 기능을 제공할 수 있다. 프로세서(120)는 또한, 전자 장치(100)의 다양한 블록들에 대한 명렬 및 제어 기능을 제공할 수 있다. 프로세서(120)는 기능 블록에 의해 요구되는 제어 기능을 업데이트하는 것을 제공할 수 있다. 프로세서(120)는, 이미지 센서(180), 1차 사물 감지기, 2차 사물 감지기, 시멘틱 세그멘테이션 유닛(semantic segmentation unit), 융합 센터(fusion center), 및 분류 네트워크에 의해 요구되는 자원들을 제공할 수 있다. 분류 네트워크는 분류 및 지역화 모두를 제공할 수 있다.
메모리(130)는 장치 제어 프로그램 코드, 사용자 데이터 스토리지, 애플리케이션 코드 및 데이터 스토리지를 위한, 저장 공간(스토리지)을 제공할 수 있다. 메모리(130)는 셀룰러 통신 블록(112)에 의해 요구되는 캘리브레이션 데이터, 방법, 알고리즘, 룩업 테이블, 데이터 베이스, 라이브러리, 및 펌 웨어를 위한 데이터 저장 공간을 제공할 수 있다. 메모리(130)는 이미지 센서(180)에 의해 캡쳐된 이미지를 위한 저장 공간을 제공할 수 있다. 이미지 센서(180)에 의해 요구되는 데이터 베이스 및 프로그램 코드는, 장치가 부팅될 때, 메모리(130)로부터 이미지 센서(180) 내의 로컬 스토리지에 로딩될 수 있다.
디스플레이(150)는 터치 패널일 수 있으며, 이는 LCD(liquid crystal display), OLED(organic light emitting diode) 디스플레이, AMOLED(active matrix OLED) 디스플레이 등과 같이 구현될 수 있다.
입/출력 블록(160)은, 전자 장치(100)의 사용자에 의한 인터페이스를 제어할 수 있다.
오디오 블록(170)은, 전자 장치(100)로의 입력 및 전자 장치(100)로부터의 출력을 제공할 수 있다.
이미지 센서(180)는 정지 이미지 및 움직이는 이미지 모두를 캡쳐할 수 있다. 이미지 센서(180)는 인간의 눈에 보이는 전자기 스펙트럼의 가시 스펙트럼 부분 내의 이미지를 캡쳐할 수 있다. 이미지 센서(180)는 또한, 적외선과 자외선을 포함하는 전자기 스펙트럼의 가시 스펙트럼 부분 외부의 이미지도 캡쳐할 수 있다. 이미지 센서(180)는 CMOS 유형 또는 CCD 유형일 수 있고, 이미지 포커싱 렌즈와 이미지 줌 기능을 포함할 수 있다. 이미지 센서(180)는 또한, 프로세서(120)에 대한 인터페이스, 로컬 프로세서 및 메모리를 포함할 수 있다.
본 발명의 몇몇 실시예들에 따르면, 본 발명의 기술적 사상에 따른 시스템 및 방법은, 이미지 센서(180)에 의해 캡처된 이미지 내의 보행자를 빠르고 강력하게 감지하기 위한, 심층 신경망 융합 아키텍처를 포함할 수 있다. 본 발명의 기술적 사상에 따른 심층 신경망 융합 아키텍처는, 캡쳐된 이미지에서 보행자의 존재를 판단할 때 지연 시간을 감소시키기 위해, 다수 네트워크의 병렬 처리를 포함할 수 있다. 심층 신경망 외에, 본 발명은 합성곱 심층 신경망(deep convolutional network)을 포함할 수 있다.
싱글 숏(single shot)(캡처된 단일 이미지의 단일 스케일 상의 1 단계 네트워크(one step network)) 합성곱 심층 신경망은, 캡처된 이미지 내에서 다양한 크기 및 오클루전(occlusion)의 모든 가능한 보행자 후보를 생성하기 위해, 사물 감지기로써 트레이닝될 수 있다. 심층 신경망은, 가긍정적 판단(false positive)을 잠재적으로 도입하는 반면, 지상 검증자료(ground-truth) 보행자들의 대다수를 커버하기 위해 캡처된 이미지 내의 다수의 다양한 보행자 후보들을 출력할 수 있다. 2차 네트워크로 간주될 수 있는 다중 신경망 네트워크(Multiple deep neural networks (DNN))는, 합성곱 심층 신경망 네트워크에 의해 생성된 모든 보행자 후보의 분류를 위해 병렬로 처리될 수 있다. 2차 네트워크는 1차 경계 박스 후보의 경계 박스(bounding box) 위치를 더욱더 세분화할 수 있다. 경계 박스는, 특정 크기 및 종횡비(폭 대 높이의 비율)를 갖는 평행 사변형에 의해 정의되는, 캡처된 이미지의 영역 내의 픽셀의 그룹이라 할 수 있다. 그러나, 경계 박스는, 평행 사변형 이외의 다른 형상을 가질 수 있음은 물론이다.
본 발명의 몇몇 실시예들에 따르면, 본 발명의 기술적 사상에 따른 시스템 및 방법은, 합성곱과 신경망 모두에 의해 생성되는 소프트 메트릭스를 융합(결합)하여 최종 신뢰 스코어를 생성하는 소프트 리젝션 융합(soft rejection fusion)을 제공할 수 있다. 최종 신뢰 스코어는, 이미지 내에서 감지된 보행자 후보가 실제 보행자일 확률의 척도일 수 있다.
본 발명의 기술적 사상에 따른 소프트 리젝션 융합 시스템 및 방법은, 2차 감지기의 결과를 (선택적으로) 1차 사물 감지기의 결과 및 분류 네트워크의 결과와 융합시킬 수 있다. 본 발명의 기술적 사상에 따른 시스템 및 방법은, 캡처된 이미지 내의 소형 보행자 및 가려진 보행자를 감지하는데에 유용할 수 있다. 융합 센터는 경계 박스 위치의 정확성을 향상시키기 위해, 1차 사물 감지기로부터의 경계 박스 위치를 이용하여, 모든 분류 네트워크로부터의 경계 박스의 위치 조정을 더욱더 융합시킬 수 있다.
본 발명의 몇몇 실시예들에 따르면, 본 발명의 기술적 사상에 따른 시스템 및 방법은, 보행자 감지기에 대한 보강으로써, 융합 네트워크 아키텍처에서의 단위 픽셀 시멘틱 세그멘테이션을 통합할 수 있다. 시멘틱 세그멘테이션은, 이미지를 의미있는 부분으로 분할하고, 각 부분을 미리 결정된 분류 중 어느 하나로 분류할 수 있다. 단위 픽셀 시멘틱 세그멘테이션은, (전체 이미지/세그먼트 대신) 각 픽셀을 분류함으로써, 동일한 목표를 달성할 수 있다.
본 발명의 기술적 사상에 따른 시스템 및 방법은, 임의의 평가 프로토콜에 적용 가능하고, 훨씬 더 빠른 속도, 정확성 및 효율성을 포함하는 여러 평가 프로토콜에 대한 성능 향상을 제공할 수 있다. 평가 프로토콜은, 보행자와 같은 단일 사물의 사물 감지, 또는 보행자들, 자동차 및 자전거 타는 사람과 같은 다중 사물의 감지를 포함할 수 있다. 평가 프로토콜은, 누락된 실제 감지를 피하고, 잘못된 감지를 제거하면서도 감지 출력의 정확성을 최대화하는데 초점을 둔다.
본 발명의 몇몇 실시예들에 따르면, 본 발명의 기술적 사상에 따른 시스템 및 방법은, 네트워크 융합에 기초한 소프트 리젝션으로 지칭될 수 있는 네트워크 융합을 제공할 수 있다. 네트워크 융합에 기초한 소프트 리젝션은, 1차 사물 감지기에 의해 제공되는 후보 사물들을 정제할 수 있다. 후보 사물을 수용하거나 거부하는 이진 분류 판정을 수행하는 대신, 1차 사물 감지기 후보에 의해 제공되는 분류 스코어는, 분류 네트워크에 의해 제공되는 사물 감지기의 총 신뢰도에 기초하여 증가되거나 감소될 수 있다.
1차 사물 감지기 후보의 신뢰도 스코어는, 각 분류 네트워크에 의해 제공되는 분류 확률에 기초한 신뢰도 스케일링 인자에 의해 스케일 업(증가) 또는 다운(감소)될 수 있다. 임의의 분류 네트워크가 스케일링 프로세스를 지배하지 못하게 하고, 단일 분류 네트워크로부터의 신뢰도 스코어에 기초하여 1차 사물 감지 후보자의 제거를 방지하기 위해, 신뢰도 스케일링 인자로 하한이 설정될 수 있다. 하위 경계 프로세스는, 분류 네트워크의 총 신뢰도에 기초하는 진정한 사물 감지 비율을 증가시키면서 가긍정적 판단의 비율을 감소시키는 효과가 있을 수 있다. 신뢰도 스케일링 인자는, 각 후보자 사물에 대해 최종 신뢰도 스코어를 생성하기 위해 서로 융합될 수 있다.
본 발명의 몇몇 실시예들에 따르면, 본 발명의 기술적 사상에 따른 시스템 및 방법은, 단위 픽셀 시멘틱 세그멘테이션 레이블링(labeling)을 2차 병렬 감지기로 이용할 수 있고, 2차 병렬 감지기를 본 발명의 네트워크 융합 아키텍처에 통합시킬 수 있다. 단위 픽셀 시멘틱 세그멘테이션 레이블링에 기초한 2차 병렬 감지기는, 보행자 감지기(또는 일반적인 사물 감지기)에 대한 보강 역할을 할 수 있다. 세그멘테이션 레이블링은, 캡처된 이미지의 각 사물들을 사물의 카테고리(예를 들어, 보행자, 자동차, 또는 건물)로 레이블링 레이블링하는 것을 포함할 수 있다.
소프트 신뢰도 스코어는, 단위 픽셀 시멘틱 세그멘테이션 레이블링과 1차 사물 감지기에 의해 제공되는 경계 박스 감지 간의 중첩 비율을 결정함으로써 결정될 수 있다.
도 2는 본 발명의 몇몇 실시예들에 따른 네트워크 융합 아키텍처의 블록도이다.
도 2를 참조하면, 네트워크 융합 아키텍처(222)는, 이미지(208)를 포함할 수 있다. 이미지(208)는 1차 사물 감지기(210)에 제공되고, 선택적으로 2차 사물 감지기(212)와 시멘틱 세그멘테이션 유닛(220)에 제공될 수 있고, 이미지 센서로부터의 선택적 스케일링이 수행된 것일 수 있다.
1차 사물 감지기(210)는 이미지(208) 내에서 감지되는 사물을 결정할 수 있고, 감지된 사물 각각에 대해 경계 박스를 생성할 수 있다. 감지된 사물 및 감지된 사물 각각에 대한 신뢰도 스코어에 대한 경계 박스 리스트는, 경계 박스 및 신뢰도 스코어의 리스트 유닛(214)에 생성될 수 있다.
분류 네트워크(200)는 하나 이상의 DNN 검출 분류기 및 필터(202)를 포함할 수 있다. 비록 도 2에서는 두 개의 DNN 검출 분류기 및 필터(202)를 도시하였으나, 본 발명이 이에 제한되는 것은 아니다. 예를 들어, 본 발명의 기술적 사상의 범위 내에서, 임의의 수의 DNN 검출 분류기 및 필터를 포함할 수 있음은 물론이다.
분류 네트워크(200)는, 선택적인 2차 병렬 감지 네트워크(204)를 포함할 수 있다. 선택적인 2차 병렬 감지 네트워크(204)는, 1차 사물 감지에 대한 소프트 신뢰도 스코어를 더 결정하기 위해, 시멘틱 세그멘테이션 레이블링을 위한 컨텍스 집합 및 심층 확장된 합성곱(deep dilated convolution)을 이용할 수 있다. 심층 확장된 합성곱은, 0이 아닌 필터 계수들 사이에 0을 삽입하여 필터의 수용가능한 필드를 효율적으로 증가시킴으로써, 서로 다른 확장(업 샘플링(upsampling)) 인자를 갖는 합성곱 커널을 이용할 수 있다.
융합 센터(216)는 하나 이상의 DNN 검출 분류기 및 필터(202), 선택적인 2차 병렬 감지 네트워크(204), 및 경계 박스 및 신뢰도 스코어의 리스트 유닛(214) 중 어느 하나로부터의 결과들을 융합할 수 있다. 융합 센터(216)가 융합하는 결과에는, 하나 이상의 DNN 검출 분류기 및 필터(202), 선택적인 2차 병렬 감지 네트워크(204), 및 경계 박스 및 신뢰도 스코어의 리스트 유닛(214) 중 어느 하나로부터의 결과뿐만 아니라, 선택적으로 2차 사물 감지기(212)와 시멘틱 세그멘테이션 유닛(220) 중 어느 하나의 결과도 포함될 수 있다. 융합 센터(216)는 감지된 사물과 관련된 경계 박스의 최종 결정을 위해, 최종 감지 유닛(218)에 융합 프로세스의 결과를 제공할 수 있다.
도 3은 본 발명의 몇몇 실시예들에 따른 싱글숏 다중 박스 감지기를 이용하는 1차 사물 감지기의 블록도이다.
도 3을 참조하면, 캡처된 단일 이미지 내의 보행자 후보들을 생성하기 위해, 7개의 출력 계층이 이용될 수 있다. 비록 도 3에서는 7개의 계층만을 도시하였으나, 본 발명이 이에 제한되는 것은 아니다. 예를 들어, 본 발명의 기술적 사상의 범위 내에서, 임의의 수의 계층을 포함할 수 있음은 물론이다.
본 발명의 몇몇 실시예들에 따르면, 도 3의 1차 사물 감지기(322)는 피드-포워드 합성곱 네트워크(feed forward convolutional network)를 포함할 수 있다.
이미지 센서에 의해 캡처된 입력 이미지(302)는, 기본 네트워크로서 절단된 비주얼 기하학적 그룹(truncated visual geometry group)(VGG 16)(304)에 제공될 수 있다. VGG는 3 X 3 크기의 필터 크기를 갖고 세 개의 완전히 연결된 계층을 갖는, 13개의 합성곱 층을 갖는 16 웨이트 계층을 포함하는, 합성곱 신경망 모델이다. VGG 16(302) 기본 네트워크 계층에서, 마지막 풀 계층은 스트라이드(stride)의 폭이 1인 3 X 3 크기의 수용가능한 필드 크기로 변환될 수 있고, 완전히 연결된 fc7은 고정 웨이블릿 변환 알고리즘을 이용하여 합성곱 계층으로 변환될 수 있다. 풀 레이어들은 이전 계층의 피처(feature) 맵에서 학습되고 표현된 피처를 통합하고, 피처 표현을 압축 또는 일반화할 수 있으며, 일반적으로 트레이닝 데이터의 초과 작업을 감소시킬 수 있다.
기본 네트워크 다음에, 8개의 추가 합성곱 계층과 글로벌 평균 풀링 계층이 추가될 수 있고, 각 계층의 크기는 점차 감소될 수 있다. conv4_3 (306), fc7 (308), conv6_2 (310), conv7_2 (312), conv8_2 (314), conv9_2 (316) 및 pool6 (318)은, 출력 계층으로 이용될 수 있다.
경계 상자 회귀 및 분류는, 각 출력 계층 후에 수행될 수 있다. 캡처된 이미지로부터의 보행자 후보들은, 계층(320)에서 결정될 수 있다.
본 발명의 몇몇 실시예들에 따르면, 1차 사물 감지기는, 다중 합성곱 스케일 및 해상도에서 추출된 피처들을 갖는 피드-포워드 합성곱 네트워크를 포함할 수 있다. 추출된 피처들의 각 위치에서의 서로 다른 크기와 종횡비의 경계 박스 후보는, 캡처된 이미지의 사물 또는 배경으로 더 분류될 수 있고, 후보 경계 박스의 위치 오프셋은 경계 박스 회귀에 의해 계산될 수 있다.
m x n x p의 크기를 갖는 각 출력 레이어에 있어서, 서로 다른 스케일과 종횡비의 디폴트 경계 박스 세트가 각 위치에 배치될 수 있다. 디폴트 경계 박스의 종횡비는, 감지될 사물과 일치되도록 조정될 수 있다. 예를 들어, 보행자를 감지하는 것이 목표인 경우, 종횡비는 0.41로 설정될 수 있다.
3 x 3 x p 합성곱 커널은 각 위치에 적용되어, 디폴트 경계 박스 위치와 관련하여 분류 스코어와 경계 박스 위치 오프셋을 생성할 수 있다. 디폴트 경계 박스는, 임의의 지상 검증자료 박스가 있는 자카드 중첩 인덱스(Jaccard overlap index)가 0.5 이상인 경우 양수로 레이블되고, 그렇지 않으면 디폴트 경계 박스는 음수로 레이블될 수 있다. 자카드 중첩 인덱스는 디폴트 경계 박스와 지상 검증자료 박스와의 유사성을 비교하는데에 이용될 수 있고, 이는 교차점의 크기를 데이터 세트의 합집합 크기로 나눈 값일 수 있다.
분류 네트워크(200)의 트레이닝 목적은, 식 1과 같이 주어질 수 있다.
여기서 은 소프트맥스(softmax) 분류 손실이고, 는 거리 메트릭을 이용하는 스무스 위치 손실(smooth localization loss)이고, N은 양수로 레이블된 디폴트 박스의 개수일 수 있다. 또한, 는 두 개의 손실들간의 균형을 유지하는 일정한 가중항일 수 있다.
스무스 위치 손실은 L1=Sum |y_i - y'_i| + Sum |x_i - x'_i|로서 좌표간의 차이의 평균인 L1으로 표시될 수 있다. 여기서 (x, y)는 박스의 좌표를 나타내고, (x', y')는 지상 검증자료 박스의 좌표를 나타내며, 합은 모든 좌표에 적용될 수 있다.
분류 네트워크(200)의 트레이닝 목적은, 소프트맥스 분류 손실과 스무스 위치 손실 L1의 가중 합으로 주어질 수 있다. 1차 사물 감지기(210)는 많은 수의 거짓 사물 감지가 도입된다 하더라도, 캡처된 이미지에서 관심있는 모든 사물들(예를 들어, 보행자)을 감지한다는 목표로, 후보 사물의 큰 풀(pool)을 생성하도록 훈련될 수 있다. 각 사물 감지는, 신뢰도 스코어 및 해당 위치 경계 박스 좌표와 연관이 있을 수 있다. 후보 사물이 수용되는 신뢰도 스코어 임계치를 하향함으로써, 다양한 크기 및 오클루전의 후보 사물들은 1차 사물 감지기(210)로부터 생성될 수 있다.
본 발명의 몇몇 실시예들에 따르면, 분류 네트워크(200)는 병렬로 동작하는 다수의 DNN 검출 분류기 및 필터(202)를 포함할 수 있다. 분류 네트워크(200) 내의 각 DNN 검출 분류기 및 필터(202)는, 단일 분류기 또는 분류기의 캐스케이드일 수 있다. 또한, 각 DNN 검출 분류기 및 필터(202)는, 감지된 사물의 경계 박스의 박스 좌표를 더 정제할 수 있다.
모든 DNN 검출 분류기 및 필터(202)로부터의 신뢰도 스코어는, 융합 센터(216)에서 융합될 수 있다. 서로 다른 DNN 검출 분류기 및 필터(202)로부터의 수정된 경계 박스는 또한, 융합 센터(216)에서 단일 경계 박스로 융합될 수 있다.
분류 네트워크(200) 내의 각 네트워크는 독립적으로 트레이닝될 수 있다. 2차 분류 네트워크를 트레이닝하기 위해, 1차 사물 감지기(210)는 사물 감지의 세트를 생성하기 위해 트레이닝 세트 상에서 실행될 수 있고, 최솟값보다 큰 신뢰도 스코어 또는 최소 높이보다 큰 경계 박스 높이를 갖는 모든 사물 감지들이 받아들여졌다. 1차 감지기는, 디폴트 경계 박스의 종횡비에 따라 감지 항복을 출력하지만, 최종 종횡비는 박스 회귀를 이용하여 감지된 박스 좌표의 조정으로 인해 약간 상이할 수 있다.
사물 감지는, 자카드 중첩 인덱스에 의해 측정된 지상 검증자료와 중첩되는 정도에 따라, 양 또는 음으로 레이블링될 수 있다. 사물 감지는 고정된 크기로 왜곡되고 리스케일링(rescaled)될 수 있다. 고정된 크기의 랜덤 크롭(random crop)은, 리스케일링된 사물 감지 박스로부터 얻어질 수 있고, 분류 네트워크(200)에 입력 트레이닝 샘플로 그들의 레이블(label)이 제공될 수 있다. 여기서 레이블은, 크롭된 박스와 지상 검증자료와의 결합(union) 비율의 교차가 50%보다 큰 중첩 영역을 갖고 있다면, 양의 값으로 결정될 수 있다.
분류 네트워크(200)를 더 트레이닝하기 위해, 원본 이미지 도메인으로 적절한 변환 후에 지상 검증자료 레이블 주의의 크롭 또는 양의 사물 감지는 일정 비율만큼 확장될 수 있고, 분류 네트워크(200)는 경계 박스 회귀를 통해 지항 검증자료 좌표를 출력하도록 트레이닝될 수 있다. 여기서 지상 검증자료 박스 좌표는 원본 이미지 도메인으로 변환될 수 있다.
본 발명의 몇몇 실시예들에 따르면, 본 발명의 기술적 사상에 따른 시스템 및 방법은, 소프트 리젝션을 통해 융합을 수행하는 융합 센터(216)를 제공할 수 있다.
소프트 리젝션은, 분류 네트워크(200)에서 서로 다른 네트워크의 소프트 신뢰도 결과와 융합함으로써, 1차 사물 감지를 더 정제할 수 있다. 본 발명의 기술적 사상에 따른 시스템 및 방법은, 융합 센터(216)에서의 위치 경계 박스 조정의 융합을 포함할 수 있다. 예시로써, 하나의 1차 후보 및 하나의 분류 네트워크(200)를 고려한다.
만약 분류 네트워크(200)가 후보 사물에 대해 높은 신뢰도 스코어(예를 들어, 주어진 임계 스코어를 초과하는 신뢰도 스코어)를 결정하면, 본 발명의 기술적 사상에 따른 시스템은 신뢰도 스코어에 1보다 큰 신뢰도 스케일링 인자를 곱함으로써, 1차 사물 감지기(210)로부터의 후보 사물의 최초 신뢰도 스코어를 증가시킬 수 있다. 그렇지 않으면, 본 발명의 기술적 사상에 따른 시스템은, 1보다 작은 신뢰도 스케일링 인자에 의해 후보 사물의 신뢰도 스코어를 감소시킬 수 있다.
시스템을 테스트할 때, 분류 네트워크(200) 내의 모든 2차 네트워크로 후보 사물을 처리함으로써, 각 후보 사물에 대한 분류 확률 세트가 생성될 수 있다. 확률 임계값을 갖는 이진 분류를 이용하는 대신, 본 발명의 기술적 사상에 따른 시스템 및 방법은 융합 센터(216)에서 결정된 스코어에 기초한 소프트 리젝션을 포함할 수 있다.
소프트 리젝션 방법의 하나의 이점은, 본 발명의 기술적 사상에 따른 시스템이 임의의 후보 사물을 직접 수용하거나 거부하지 않는다는 것이다. 대신, 사물 감지 신뢰도 스코어는, 분류 네트워크(200)로부터의 분류 확률에 기초한 인자로 신뢰도 스코어를 스케일링함으로써, 증가되거나 감소될 수 있다.
만약 하나의 2차 분류 네트워크가 후보 사물에 대해 높은 신뢰도 스코어를 결정하면, 융합 센터(216)에서의 각각의 점수는, 1보다 큰 신뢰도 스케일링 인자에 의해 증가될 수 있다. 그렇지 않으면 신뢰도 스코어는 융합 센터(216)에서 1보다 작은 신뢰도 스케일링에 의해 감소될 수 있다.
그러나, (이진 분류에서 발생될 수 있는 것과 같은) 양의 사물 감지의 부정확한 제거가 정정될 수 없기 때문에, 신뢰도 스케일링 인자는 적어도 p_min으로 설정되어, 임의의 2차 네트워크가 결정 프로세스를 지배하는 것을 방지할 수 있다. 여기서 낮은 분류 신뢰도 스코어는, 다른 2차 네트워크로부터의 더 큰 분류 신뢰도 스코어에 의해 보상될 수 있다. 최종 스코어는 모든 2차 네트워크의 신뢰도 스코어에 의존되기 때문에, 하나의 2차 네트워크가 하나의 카테고리(예를 들어, 부분적으로 가려진 보행자)에서 낮은 분류 성능을 갖더라도, 다른 2차 네트워크는 결함을 보완하여 시스템의 신뢰성을 상승시킬 수 있다.
본 발명의 몇몇 실시예들에 따르면, 2차 분류 네트워크는, 1차 사물 감지에 대한 소프트맥스 분류 확률이 (예를 들어, 0.7의 확률)를 초과하는지 확신할 수 있다. pm을 후보 사물에 대한 m 번째 2차 네트워크에 의해 생성된 확률이라고 하면, 신뢰도 스케일링 인자는 식 2와 같이 결정될 수 있다.
모든 m개의 분류 네트워크(200)를 융합하기 위해, 1차 사물 감지기(210)로부터의 1차 사물 감지 신뢰도 스코어 P-primary는 모든 분류 네트워크(200)로부터의 m개의 신뢰도 스케일링 인자 의 곱으로 곱해질 수 있다.
임의의 2차 네트워크가 신뢰도 스코어의 결정을 지배하거나 1차 사물 감지기(210)에 의해 제공된 임의의 사물 감지를 제거하는 것을 방지하기 위해, 최종 신뢰도 스케일링 인자의 하한값은 p_min이 되도록 설정될 수 있다. p_min은 예를 들어, 0.1일 수 있다. 최종 융합된 신뢰도 스케일링 인자(P_fusedclassified)의 하한은, 식 3과 같이 표현될 수 있다.
식 3에 표현된 최종 융합된 신뢰도 스케일링 인자(P_fusedclassified)는, 분류 네크워크에 의해 생성된 모든 m개의 신뢰도 스케일링 인자 의 곱일 수 있다. 그러나, 임의의 신뢰도 스케일링 인자가 p_min보다 작다면, 특정 신뢰도 스케일링 인자는 p_min으로 설정될 수 있다.
도 4는 본 발명의 몇몇 실시예들에 따른 하나의 분류 네트워크를 갖는 1차 사물 감지 네트워크의 소프트 리젝션 융합 방법을 설명하기 위한 순서도이다.
도 4를 참조하면, 단계(402)에서, 분류 네트워크(200)는 분류 네트워크(200)로부터의 신뢰도 스케일링 인자가 p_min보다 작은지 결정할 수 있다. 만약 신뢰도 스케일링 인자가 p_min보다 작은 경우, 단계(408)에서, 융합 센터(216)는 일정한 인자에 의해, 1차 사물 감지기(210)로부터의 신뢰도 스코어를 감소시킬 수 있다. 만약 신뢰도 스케일링 인자가 p_min보다 작지 않은 경우, 단계(404)에서 분류 네트워크는 분류 네트워크(200)로부터의 신뢰도 스케일링 인자가 p_max보다 작은지, 또는 p_min과 같거나 큰지 결정할 수 있다.
만약 분류 네트워크(200)로부터의 신뢰도 스케일링 인자가 p_max보다 작고, p_min과 같거나 크다면, 융합 센터(216)는 단계(410)에서, 분류 네트워크(200)로부터의 신뢰도 스케일링 인자에 비례하여, 1차 사물 감지기(210)로부터의 신뢰도 스코어를 감소시킬 수 있다.
만약 신뢰도 스코어가 p_max 이상이고, p_min과 같거나 크지 않다면, 분류 네트워크(200)는 분류 네트워크(200)로부터의 신뢰도 스케일링 인자가 p_max와 동일하거나 p_max보다 큰지 결정할 수 있다. 만약 신뢰도 스케일링 인자가 p_max보다 크거나 같지 않으면, 프로세스는 종료될 수 있다.
만약 분류 네트워크(200)로부터의 신뢰도 스케일링 인자가 p_max보다 크거나 같으면, 융합 센터(216)는 단계(412)에서 분류 네트워크(200)로부터의 신뢰도 스케일링 인자에 비례하여, 1차 사물 감지기(210)로부터의 신뢰도 스코어를 증가시킬 수 있다.
분류 네트워크(200)로부터의 신뢰도 스케일링 인자는, 분류 네트워크(200)의 각 DNN 신경망 검출 분류기 및 필터(202)의 신뢰도 레벨에 따라 추가적으로 수정될 수 있다. 분류 네트워크(200)와 연관된 신뢰도 레벨을 나타내는 신뢰 메트릭(t_m)이 결정될 수 있다.
t_m의 값이 커질수록, 신뢰도 수준도 커질 수 있다. 신뢰 메트릭 또는 스케일된 신뢰 메트릭 값은, 융합 센터(216)에서 통합되어, 더 큰 신뢰 메트릭 (t_m)을 갖는 분류 네트워크(200)에 의해 제공되는 분류가 아래의 식 4와 같이 더 중요하게 주어질 수 있다.
P_fusedclassified = P_primary x PRODUCT_m(max(a_m^t_m, p_min)) (식 4)
분류 네트워크(200)로부터의 위치 경계 박스는 또한, 융합 센터에서 융합될 수 있다. 여기서 분류 네트워크(200)는 1차 사물 감지기(210)로부터 출력된 경계 박스 후보에 대한 진정한 박스 위치에 대해, 서로 다른 값들을 제공할 수 있다. 분류 네트워크(200)로부터의 위치 자표에 대한 오프셋은 평균화된 후, 1차 사물 감지기(210)로부터의 경계 박스의 위치 좌표에 적용될 수 있다.
본 발명의 몇몇 실시예들에 따르면, 도 2의 2차 사물 감지기(212)는 선택적일 수 있고, 분류 네트워크(200)의 결과와 1차 사물 감지기(210)로부터의 결과를 어떻게 융합시킬지 결정할 수 있다. 2차 사물 감지기(212)는 1차 사물 감지기(210)에 의해 제공되지 않는 새로운 사물 감지를 생성할 수 있으므로, 분류 네트워크(200)의 출력이 1차 사물 감지기(210)의 출력과 융합되는 경우가 아닌, 2차 사물 감지기(212)를 갖는 소프트 리젝션 융합은, 분류 네트워크(200)를 갖는 소프트 리젝션 융합과 약간 상이할 수 있다.
2차 사물 감지기(212)에서 새로운 사물의 생성을 처리하기 위해, 본 발명의 기술적 사상에 따른 소프트 융합 방법은 2차 사물 감지기(212)에 의한 새로운 사물 감지를 제거할 수 있다. 새로운 사물 감지는 거짓 사물 감지 비율을 증가시키는데 기여할 수 있기 때문이다.
2차 사물 감지기(212)는 1차 사물 감지기(210)의 1차 신뢰도 감지 스코어를 더욱 미세하게 조정하는데에만 이용될 수 있다. 만약 1차 사물 감지기(210)에 의해 감지된 사물에 대한 2차 사물 감지기(212)로부터의 2차 신뢰도 감지 스코어가 최소 임계치를 초과하면, 사물 감지는 수용될 수 있고, 1차 신뢰도 감지 스코어는 변경되지 않고 유지될 수 있다. 그렇지 않으면, 소프트 리젝션 융합은 아래의 식 5와 같이 1차 신뢰도 감지 스코어를 스케일링하기 위해 적용될 수 있다.
즉, 만약 P_secondary > threshold이면 P_fuseddetect = P_primary일 수 있다. 그렇지 않으면, 아래의 식 5와 같을 수 있다.
P_fuseddetect = P_primary x max(P_secondary x(1/p_max), p_min)) (식 5)
상기 식 5는 또한, 분류 네트워크(200)와 융합에 의해 얻어지는 최종 P_fused에 적용될 수 있다. 여기서, P_primary는, 아래 식 6과 같이 P_fused로 대체될 수 있다.
P_fuseddetect = P_fusedclassified x max(P_secondary x(1/p_max), p_min)) (식 6)
도 2의 시멘틱 세그멘테이션 유닛(220)은 또한 선택적일 수 있고, 1차 사물 감지기(210)의 감지에서 신뢰도 스코어를 생성하기 위해 단위 픽셀 시멘틱 레이블링을 이용하는 방법을 결정할 수 있다. 시멘틱 세그멘테이션 유닛(220)은, 심층 확장된 합성곱 및 컨텍스 집합에 기초할 수 있고, 병렬 2차 사물 감지기로 이용될 수 있다. 캡처된 이미지 내의 각 픽셀에 대한 레이블을 예측하는 작업인 고밀도 예측을 수행하기 위해, 시멘틱 세그멘테이션 유닛(220)은 프론트 엔드 예측 모듈(front end prediction module)로서 확장된 합성곱으로 적응된 완전 합성곱 VGG 16 네트워크를 포함할 수 있고, 그 출력은 합성곱 계층이 확장 인자를 증가시키는 완전 합성곱(convolutional) 네트워크를 포함하는 멀티 스케일 컨텍스 집계 모듈로 입력될 수 있다.
시멘틱 세그멘테이션 레이블러는, 1차 사물 검출기 결과에서 신뢰도 스코어에 대한 소프트 메트릭을 추출할 수 있다. 시멘틱 세그멘테이션 유닛(212)에 입력된 캡처된 이미지는, 시멘틱 세그멘테이션 네트워크에 의해 직접적으로 처리되고, 업 스케일링될 수 있다.
이진 마스크는, 보행자 분류에 대해 활성화된 픽셀을 표시하는 하나의 색과, 배경을 나타내는 다른 색으로 생성될 수 있다. "사람"과 "라이더(rider)" 분류 카테고리는, 보행자로 간주될 수 있고, 나머지 분류들은 배경으로 간주될 수 있다. 시멘틱 세그멘테이션 마스크는 1차 사물 감지기(210)로부터 감지된 모든 경계 박스와 중첩될 수 있다.
본 발명의 몇몇 실시예들에 따르면, 본 발명의 기술적 사상에 따른 시스템 및 방법은, 융합 센터(216)에서 시멘틱 세그멘테이션 레이블링과 사물 감지 결과를 융합시킬 수 있다. 각각의 1차 사물 감지 경계 박스가 시멘틱 세그멘테이션 활성화 마스크에 의해 채색되는 정도는, 1차 사물 감지기의 결과에서의 2차 시멘틱 세그멘테이션 분류의 신뢰도에 대한 척도를 제공할 수 있다. 상기 식 5의 임계값은, 각 경계 상자 내에서, 시멘틱 세그멘테이션 네트워크에 의해 감지된 분류로부터의 픽셀로서 식별된 활성화된 픽셀에 의해 중첩된 영역과, 중첩된 1차 경계 박스 영역과의 최소 비율일 수 있다.
예를 들어, 활성화된 픽셀이 1차 경계 박스 영역의 적어도 20%를 차지하면, 사물 감지는 수용될 수 있고, 1차 신뢰도 감지 스코어는 변경되지 않을 수 있다. 그렇지 않으면 소프트 리젝션 융합은, 식 7에서와 같이 1차 사물 감지기(210)로부터의 1차 신뢰도 감지 스코어를 스케일링하기 위해 적용될 수 있다.
여기서 는 경계 박스의 영역을 나타내고, 는 감지된 경계 박스() 내에서 시멘틱 세그멘테이션 마스크에 의해 커버된 영역을 나타낼 수 있다. 와 는, 교차 검증(cross validation)에 의해 각각 4와 0.35로 선택될 수 있다.
도 5는 본 발명의 몇몇 실시예들에 따른 1차 사물 감지기를 갖는 시멘틱 세그멘테이션 레이블러(labeler)의 소프트 리젝션 방법을 설명하기 위한 순서도이다.
도 5를 참조하면, 본 발명의 기술적 사상에 따른 시스템은, 단계(502)에서, 1차 사물 감지기의 경계 박스와 시멘틱 세그멘테이션 마스크 간의 중첩이 있는지 여부를 결정할 수 있다.
만약 1차 사물 감지기의 경계 박스와 시멘틱 세그멘테이션 마스크간의 중첩이 없다면, 본 발명의 기술적 사상에 따른 시스템은, 단계(508)에서 일정 인자에 의해 1차 사물 감지기로부터의 1차 신뢰도 감지 스코어를 감소시키고, 시멘틱 세그멘테이션 유닛(220)으로부터의 임의의 2차 사물 감지를 제거할 수 있다. 비록 2차 사물 감지가 비중첩으로 인해 제거된다고 하더라도, 본 발명의 기술적 사상에 따른 시스템은 1차 신뢰도 감지 스코어를 0으로 설정하는 대신, 1차 신뢰도 감지 스코어만을 조정하므로, 1차 신뢰도 감지 스코어는 절대 제거되지 않을 수 있다.
만약 1차 사물 감지기의 경계 박스와 시멘틱 세그멘테이션 마스크 간의 중첩이 존재하는 경우, 본 발명의 기술적 사상에 따른 시스템은, 단계(504)에서, 1차 사물 감지기의 경계 박스와 시멘틱 세그멘테이션 마스크간의 중첩이 임계값보다 작은지 여부를 결정할 수 있다.
1차 사물 감지기의 경계 박스와 시멘틱 세그멘테이션 마스크간의 중첩이 임계값보다 작은 경우, 본 발명의 기술적 사상에 따른 시스템은 단계(510)에서, 중첩 양에 비례하여 1차 사물 감지기로부터의 1차 신뢰도 감지 스코어를 감소시킬 수 있다. 그렇지 않으면, 단계(512)에서, 임의의 2차 신뢰도 감지 스코어가 0이 될 수 있다 하더라도, 1차 사물 감지기로부터의 1차 신뢰도 감지 스코어는, 0으로 설정되지 않도록 보장되면서 변화하지 않고 그대로 유지될 수 있다.
본 발명의 기술적 사상에 따른 시스템은, 중첩 양에 기초하여 1차 신뢰도 감지 스코어를 조정할 수 있고, 중첩 양이 임계값보다 크면 1차 신뢰도 감지 스코어를 증가시킬 수 있고, 중첩 양이 임계값보다 작으면 1차 신뢰도 감지 스코어를 감소시킬 수 있으며, 중첩이 없다면 1차 신뢰도 감지 스코어를 감소시킬 수 있다. 그러나, 본 발명이 이에 제한되는 것은 아니고, 본 발명의 기술적 사상의 범위 내에서 다른 변형이 가능할 수 있다.
도 6a는 본 발명의 몇몇 실시예들에 따른 후보 사물을 갖는 캡처된 이미지를 도시한 도면이다. 도 6b는 본 발명의 몇몇 실시예들에 따른 도 6a의 캡처된 이미지의 시멘틱 세그멘테이션 마스크를 도시한 도면이다.
도 6a 및 도 6b를 참조하면, 도 6b의 시멘틱 세그멘테이션 마스크는, 1차 사물 감지기(210)로부터의 거짓 경계 박스가 시멘틱 세그멘테이션 마스크와 중첩되지 않기 때문에, 1차 사물 감지기(210)로부터 가긍정적 판단 사물 감지가 제거될 수 있음을 나타내고 있다. 시멘틱 세그멘테이션 마스크는 또한, 추가적인 가긍정적 사물 판단이 도입되지 않도록 하기 위해, 비중첩 2차 사물 감지를 제거하는 소프트 융합을 나타낼 수 있다. 도 6a에 도시된 바와 같이, 고려 대상인 후보 사물은 보행자일 수 있다.
본 발명의 몇몇 실시예들에 따르면, 분류 네트워크(200)는 2차 분류 네트워크일 뿐, 지역화(localization)는 수행하지 않을 수 있다.
2차 사물 감지기(212)에 의해 결정된 소프트 융합 메트릭은, 새로운 사물 감지를 제거하거나, 신뢰도 스케일링 인자가 임계값을 초과하는 경우 일정한 인자에 의해 1차 사물 감지기(210)로부터의 1차 신뢰도 감지 스코어를 증가시키거나, 신뢰도 스케일링 인자가 임계값보다 작거나 같으면 1차 신뢰도 감지 스코어를 변경하지 않을 수 있다.
본 발명? 몇몇 실시예들에 따르면, 분류 네트워크(200)로부터의 단수의 위치 메트릭은, 2차 좌표 오프셋의 평균화 대신, NMS(non-maximum suppression)에 의해 1차 경계 박스 후보와 융합될 수 있고, 또는 평균화와 NMS 방법이 모두 이용될 수도 있다.
본 발명의 몇몇 실시예들에 따르면, 1차 사물 감지기(210)는 시멘틱 세그멘테이션 레이블러를 포함할 수 있고, 2차 사물 감지기(212)는 동일 분류의 다수의 인스턴스(instance)를 식별하기 위해, 1차 사물 감지기(210) 내의 시멘틱 세그멘테이션 레이블러를 개선하는 것을 도울 수 있다.
본 발명의 기술적 사상에 따른 시스템 및 방법은, 분류 네트워크로부터 신뢰도 스코어로써 측정된 분류 확률에 기초한 인자에 의해, 1차 사물 감지기로부터의 1차 신뢰도 감지 스코어를 스케일링함으로써, 캡처된 이미지에서 검출된 사물들의 신뢰도 스코어를 증가시키거나 감소시키는 소프트 리젝션 융합을 제공할 수 있다. 소프트 리젝션 융합은, 임의의 분류 네트워크가 의사 결정을 지배하는 것을 방지할 수 있고, 임의의 분류 네트워크로부터의 단일 메트릭에 기초하여, 1차 후보 사물 감지를 제거하는 것을 방지할 수 있다. 소프트 리젝션 융합은, 다른 DNN 검출 분류기 및 필터의 오류 정정에 의한 하나의 DNN 검출 분류기 및 필터의 오류 정정을 지원할 수 있고, 다수의 분류 네트워크로부터 지능을 축적할 수 있다. 소프트 리젝션 융합은, 1차 사물 감지기의 결과와 분류 네트워크 결과와의 융합 순서에 민감하지 않다.
본 발명의 기술적 사상에 따른 네트워크 융합 아키텍처는, 지연 시간을 감소시키기 위해, 1차 사물 감지기와 2차 사물 감지기의 병렬 동작을 지원할 수 있다. 본 발명의 기술적 사상에 따른 네트워크 융합 아키텍처는, 지연 시간을 감소시키기 위해, 분류 네트워크에서 다수의 심층 신경망 분류기 및 필터의 병렬 동작을 지원할 수 있다. 본 발명의 기술적 사상에 따른 시스템 및 방법은, 분류 네트워크의 트레이닝을 제공할 수 있다.
도 7은 본 발명의 몇몇 실시예들에 따른 이미지에서 사물을 감지하는 방법을 설명하기 위한 순서도이다.
도 7을 참조하면, 본 발명의 기술적 사상에 따른 시스템은, 단계(701)에서, 이미지 센서를 이용해 이미지를 캡처할 수 있다. 단계(702)에서, 1차 사물 감지기는 이미지 내에서 사물을 감지하고, 감지된 사물의 경계 박스를 결정할 수 있다. 단계(703)에서, 1차 사물 감지기는 사물의 1차 신뢰도 감지 스코어를 결정할 수 있다. 단계(704)에서, 사물의 신뢰도 스케일링 인자는, 분류 네트워크를 이용하여 결정될 수 있다. 단계(705)에서, 1차 신뢰도 감지 스코어는, 1차 신뢰도 감지 스코어에 신뢰도 스케일링 인자를 곱하는 것에 기초하여 조정될 수 있다.
도 8은 본 발명의 몇몇 실시예들에 따른 이미지에서 사물을 감지하는 프로세서를 테스트하는 방법을 설명하기 위한 순서도이다. 프로세서는 소프트웨어로 프로그래밍된 하드웨어 내에 구현되거나, 하드웨어 내에 구현될 수 있다.
도 8을 참조하면, 단계(801)에서, 본 발명의 기술적 사상에 따른 방법은, 적어도 하나의 다른 프로세서를 포함하는 패키지 또는 웨이퍼의 일부로써 프로세서를 형성할 수 있다. 프로세서는 이미지 센서로부터 이미지를 캡처하고, 이미지 내의 사물을 감지하며, 1차 사물 감지기를 이용하여 사물의 1차 신뢰도 감지 스코어를 결정하고, 분류 네트워크를 이용하여 사물의 신뢰도 스케일링 인자를 결정하고, 신뢰도 스케일링 인자와 복수의 1차 신뢰도 감지 스코어를 곱한것에 기초하여 1차 신뢰도 감지 스코어를 조정할 수 있다.
단계(803)에서, 본 발명의 기술적 사상에 따른 방법은, 프로세서를 테스트할 수 있다. 프로세서를 테스트하는 것은, 하나 이상의 전기-광학 컨버터, 광학 신호를 두개 이상의 광학 신호로 분리하는 하나 이상의 광학 스플리터, 및 하나 이상의 광학-전기 컨버터를 이용하여, 적어도 하나의 다른 프로세서 및 프로세서를 테스트하는 것을 포함할 수 있다.
도 9는 본 발명의 몇몇 실시예들에 따른, 이미지의 사물을 감지하는 프로세서를 제조하는 방법을 설명하기 위한 순서도이다.
도 9를 참조하면, 단계(901)에서, 본 발명의 기술적 사상에 따른 방법은 집적 회로의 레이어들에 대한 피처(feature) 세트를 위한 마스크 레이아웃을 생성하는 데이터의 초기 레이아웃을 포함할 수 있다. 마스크 레이아웃은, 프로세서를 포함하는 하나 이상의 회로 피처에 대한 표준 셀 라이브러리 매크로를 포함할 수 있다. 프로세서는, 이미지 센서로부터 이미지를 캡처하고, 이미지의 사물을 감지하고, 1차 사물 감지기를 이용하여 사물의 1차 신뢰도 감지 스코어를 결정하고, 분류 네트워크를 이용하여 사물의 신뢰도 스케일링 인자를 결정하고, 신뢰도 스케일링 인자에 1차 신뢰도 감지 스코어를 곱한것에 기초하여 1차 신뢰도 감지 스코어를 조정할 수 있다.
단계(903)에서, 디자인 룰 확인이 수행될 수 있다. 본 발명의 기술적 사상에 따른 방법은, 단계(903)에서, 마스크 레이아웃의 생성 중, 레이아웃 디자인 룰에 부합하도록 하기 위해, 매크로의 상대적인 위치를 무시할 수 있다.
단계(905)에서, 레이아웃의 조정이 수행될 수 있다. 본 발명의 기술적 사상에 따른 방법은, 단계(905)에서, 마스크 레이아웃 생성 후에, 레이아웃 디자인 룰에 부합하도록 하기 위해, 매크로의 상대적인 위치를 확인할 수 있다.
단계(907)에서, 새로운 레이아웃 디자인이 생성될 수 있다. 본 발명의 기술적 사상에 따른 방법은, 단계(907)에서, 임의의 매크로가 레이아웃 디자인 룰에 부합되지 않는 것이 발견되면, 레이아웃 디자인 룰에 부합되지 않는 임의의 매크로가 레이아웃 디자인 룰에 부합되도록 수정함으로써 마스크 레이아웃을 수정하고, 집적 회로의 레이어들에 대한 피처 세트를 갖는 수정된 마스크 레이아웃에 따라 마스크를 생성하고, 마스크에 따라 집적 회로를 제조할 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였으나, 본 발명은 상기 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 제조될 수 있으며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
222: 네트워크 융합 아키텍처 208: 이미지
210: 1차 사물 감지기 212: 2차 사물 감지기
220: 시멘틱 세그멘테이션 유닛
210: 1차 사물 감지기 212: 2차 사물 감지기
220: 시멘틱 세그멘테이션 유닛
Claims (26)
- 이미지를 수신하고,
상기 이미지에서 사물을 감지하고,
1차 사물 감지기가 상기 사물의 1차 신뢰도 감지 스코어를 결정하고,
분류 네트워크가 상기 사물의 신뢰도 스케일링 인자를 결정하고,
상기 1차 신뢰도 감지 스코어에 상기 신뢰도 스케일링 인자를 곱한 것에 기초하여, 상기 1차 신뢰도 감지 스코어를 조정하고,
각 픽셀을 미리 결정된 분류 중 어느 하나로 분류하여 시멘틱 세그멘테이션 마스크를 생성하고,
상기 사물의 경계 박스(bounding box)와 상기 시멘틱 세그멘테이션 마스크(semantic segmentation mask) 간의 중첩이 있는 경우, 상기 사물의 경계 박스와 시멘틱 세그멘테이션 마스크 간의 중첩되는 양(amount)을 결정하고,
상기 사물의 경계 박스와 상기 시멘틱 세그멘테이션 마스크 간의 중첩이 없는 경우, 상기 시멘틱 세그멘테이션 마스크로부터의 2차 사물 감지를 제거하고, 상기 1차 신뢰도 감지 스코어를 조정하는 것을 포함하고,
상기 시멘틱 세그멘테이션 마스크는, 상기 이미지의 활성화된 픽셀을 표시하는 하나의 색과 상기 이미지의 배경을 나타내는 다른 색으로 생성되는 이진 마스크(binary mask)인 사물 감지 방법. - 제 1항에 있어서,
상기 1차 신뢰도 감지 스코어에 복수의 분류 네트워크로부터의 상기 사물의 복수의 신뢰도 스케일링 인자들의 곱을 곱한 것에 기초하여, 상기 1차 신뢰도 감지 스코어를 스케일링하는 것을 더 포함하는 사물 감지 방법. - 제 1항에 있어서,
상기 신뢰도 스케일링 인자는, 상기 사물의 분류 확률과 최대 분류 확률의 비율에 기초하는 것인 사물 감지 방법. - 제 1항에 있어서,
상기 신뢰도 스케일링 인자는, 최솟값으로 설정되는 사물 감지 방법. - 제 1항에 있어서,
상기 사물의 2차 신뢰도 감지 스코어를 결정하고,
상기 2차 신뢰도 감지 스코어가 임계값과 같거나 상기 임계값보다 크면, 상기 1차 신뢰도 감지 스코어를 유지하고,
상기 2차 신뢰도 감지 스코어가 상기 임계값보다 작으면, 상기 1차 신뢰도 감지 스코어를 조정하는 것을 더 포함하는 사물 감지 방법. - 제 5항에 있어서,
상기 2차 신뢰도 감지 스코어가 상기 임계값보다 작으면 상기 1차 신뢰도 감지 스코어를 조정하는 것은,
상기 1차 신뢰도 감지 스코어에, 상기 2차 신뢰도 감지 스코어와 복수의 신뢰도 스케일링 인자의 곱을 곱하는 것을 포함하는 사물 감지 방법. - 제 5항에 있어서,
상기 2차 신뢰도 감지 스코어가 상기 임계값보다 작으면 상기 1차 신뢰도 감지 스코어를 조정하는 것은,
상기 조정된 1차 신뢰도 감지 스코어에, 상기 2차 신뢰도 감지 스코어와 복수의 신뢰도 스케일링 인자의 곱을 곱하는 것을 포함하는 사물 감지 방법. - 삭제
- 제 1항에 있어서,
상기 사물의 경계 박스(bounding box)와 시멘틱 세그멘테이션 마스크(semantic segmentation mask)간의 중첩의 양이 임계값보다 작으면, 상기 중첩의 양에 비례하여, 상기 1차 신뢰도 감지 스코어를 조정하는 것을 더 포함하는 사물 감지 방법. - 제 1항에 있어서,
상기 사물의 경계 박스(bounding box)와 시멘틱 세그멘테이션 마스크(semantic segmentation mask)간의 중첩의 양이 임계값과 같거나 상기 임계값보다 크면, 상기 1차 신뢰도 감지 스코어를 유지시키는 것을 더 포함하는 사물 감지 방법. - 제 1항에 있어서,
상기 1차 사물 감지기와 상기 분류 네트워크는 병렬로 동작되는 것을 더 포함하는 사물 감지 방법. - 삭제
- 이미지 센서;
1차 사물 감지기;
분류 네트워크; 및
프로세서를 포함하고,
상기 프로세서는,
상기 이미지 센서로부터 이미지를 캡처하고,
상기 이미지에서 사물을 감지하고,
상기 1차 사물 감지기를 이용하여, 상기 사물의 1차 신뢰도 감지 스코어를 결정하고,
상기 분류 네트워크를 이용하여 상기 사물의 신뢰도 스케일링 인자를 결정하고,
상기 1차 신뢰도 감지 스코어에 상기 신뢰도 스케일링 인자를 곱한 것에 기초하여, 상기 1차 신뢰도 감지 스코어를 조정하고,
각 픽셀을 미리 결정된 분류 중 어느 하나로 분류하여 시멘틱 세그멘테이션 마스크를 생성하고,
상기 사물의 경계 박스와 상기 시멘틱 세그멘테이션 마스크 간의 중첩이 있는 경우, 상기 사물의 경계 박스와 시멘틱 세그멘테이션 마스크 간의 중첩되는 양을 결정하고,
상기 사물의 경계 박스와 상기 시멘틱 세그멘테이션 마스크 간의 중첩이 없는 경우, 상기 시멘틱 세그멘테이션 마스크로부터의 2차 사물 감지를 제거하고, 상기 1차 신뢰도 감지 스코어를 조정하고,
상기 시멘틱 세그멘테이션 마스크는, 상기 이미지의 활성화된 픽셀을 표시하는 하나의 색과 상기 이미지의 배경을 나타내는 다른 색으로 생성되는 이진 마스크(binary mask)인, 사물 감지 장치. - 제 13항에 있어서,
상기 프로세서는,
상기 1차 신뢰도 감지 스코어에, 복수의 분류 네트워크로부터의 상기 사물의 복수의 신뢰도 스케일링 인자들의 곱을 곱한 것에 기초하여, 상기 1차 신뢰도 감지 스코어를 스케일링하는 것을 더 수행하는 사물 감지 장치. - 제 13항에 있어서,
상기 신뢰도 스케일링 인자는, 상기 사물의 분류 확률과 최대 분류 확률의 비율에 기초하는 것인 사물 감지 장치. - 제 13항에 있어서,
상기 신뢰도 스케일링 인자는, 최솟값으로 설정되는 사물 감지 장치. - 제 13항에 있어서,
상기 프로세서는,
상기 사물의 2차 신뢰도 감지 스코어를 결정하고,
상기 2차 신뢰도 감지 스코어가 임계값과 같거나, 상기 임계값보다 크면, 상기 1차 신뢰도 감지 스코어를 유지하고,
상기 2차 신뢰도 감지 스코어가 상기 임계값보다 작으면, 상기 1차 신뢰도 감지 스코어를 조정하는 것을 더 수행하는 사물 감지 장치. - 제 17항에 있어서,
상기 2차 신뢰도 감지 스코어가 상기 임계값보다 작으면 상기 1차 신뢰도 감지 스코어를 조정하는 것은,
상기 1차 신뢰도 감지 스코어에, 상기 2차 신뢰도 감지 스코어와 복수의 신뢰도 스케일링 인자의 곱을 곱한 것을 포함하는 사물 감지 장치. - 제 17항에 있어서,
상기 2차 신뢰도 감지 스코어가 상기 임계값보다 작으면 상기 1차 신뢰도 감지 스코어를 조정하는 것은,
상기 조정된 1차 신뢰도 감지 스코어에, 상기 2차 신뢰도 감지 스코어와 복수의 신뢰도 스케일링 인자의 곱을 곱한 것을 포함하는 사물 감지 장치. - 삭제
- 제 13항에 있어서,
상기 프로세서는,
상기 사물의 경계 박스(bounding box)와 시멘틱 세그멘테이션 마스크(semantic segmentation mask)간의 중첩의 양이 임계값보다 작으면, 상기 중첩의 양에 비례하여, 상기 1차 신뢰도 감지 스코어를 조정하는 것을 더 수행하는 사물 감지 장치. - 제 13항에 있어서,
상기 프로세서는,
상기 사물의 경계 박스(bounding box)와 시멘틱 세그멘테이션 마스크(semantic segmentation mask)간의 중첩의 양이 임계값과 같거나 상기 임계값보다 크면, 상기 1차 신뢰도 감지 스코어를 유지시키는 것을 더 수행하는 사물 감지 장치. - 제 13항에 있어서,
상기 프로세서는,
상기 1차 사물 감지기와 상기 분류 네트워크를 병렬로 작동시키는 사물 감지 장치. - 삭제
- 삭제
- 삭제
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201662399046P | 2016-09-23 | 2016-09-23 | |
US62/399,046 | 2016-09-23 | ||
US15/434,880 US10657364B2 (en) | 2016-09-23 | 2017-02-16 | System and method for deep network fusion for fast and robust object detection |
US15/434,880 | 2017-02-16 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180033037A KR20180033037A (ko) | 2018-04-02 |
KR102279291B1 true KR102279291B1 (ko) | 2021-07-20 |
Family
ID=61685530
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170039783A KR102279291B1 (ko) | 2016-09-23 | 2017-03-29 | 사물 감지 장치 및 방법 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10657364B2 (ko) |
KR (1) | KR102279291B1 (ko) |
CN (1) | CN107871117B (ko) |
TW (1) | TWI764905B (ko) |
Families Citing this family (115)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10366302B2 (en) * | 2016-10-10 | 2019-07-30 | Gyrfalcon Technology Inc. | Hierarchical category classification scheme using multiple sets of fully-connected networks with a CNN based integrated circuit as feature extractor |
JP6525934B2 (ja) * | 2016-10-14 | 2019-06-05 | キヤノン株式会社 | 画像処理装置および制御方法 |
US11080534B2 (en) * | 2016-11-14 | 2021-08-03 | Lyft, Inc. | Identifying objects for display in a situational-awareness view of an autonomous-vehicle environment |
AU2016277697A1 (en) * | 2016-12-22 | 2018-07-12 | Canon Kabushiki Kaisha | Method, system and apparatus for providing access to videos |
US10147193B2 (en) * | 2017-03-10 | 2018-12-04 | TuSimple | System and method for semantic segmentation using hybrid dilated convolution (HDC) |
CN108664844A (zh) * | 2017-03-28 | 2018-10-16 | 爱唯秀股份有限公司 | 卷积深度神经网络的图像目标语义识别及追踪 |
US10210403B2 (en) * | 2017-04-24 | 2019-02-19 | Here Global B.V. | Method and apparatus for pixel based lane prediction |
US10210411B2 (en) * | 2017-04-24 | 2019-02-19 | Here Global B.V. | Method and apparatus for establishing feature prediction accuracy |
CN110582803B (zh) * | 2017-04-26 | 2022-02-08 | 三菱电机株式会社 | 处理装置 |
JP6833620B2 (ja) * | 2017-05-30 | 2021-02-24 | 株式会社東芝 | 画像解析装置、ニューラルネットワーク装置、学習装置、画像解析方法およびプログラム |
CN107679531A (zh) * | 2017-06-23 | 2018-02-09 | 平安科技(深圳)有限公司 | 基于深度学习的车牌识别方法、装置、设备及存储介质 |
US10592786B2 (en) * | 2017-08-14 | 2020-03-17 | Huawei Technologies Co., Ltd. | Generating labeled data for deep object tracking |
US11093793B2 (en) * | 2017-08-29 | 2021-08-17 | Vintra, Inc. | Systems and methods for a tailored neural network detector |
US10621416B2 (en) * | 2017-10-02 | 2020-04-14 | Microsoft Technology Licensing, Llc | Image processing for person recognition |
US11004209B2 (en) * | 2017-10-26 | 2021-05-11 | Qualcomm Incorporated | Methods and systems for applying complex object detection in a video analytics system |
US11282389B2 (en) | 2018-02-20 | 2022-03-22 | Nortek Security & Control Llc | Pedestrian detection for vehicle driving assistance |
CN108846826B (zh) * | 2018-04-24 | 2021-06-22 | 深圳大学 | 物体检测方法、装置、图像处理设备及存储介质 |
US10559088B2 (en) * | 2018-05-01 | 2020-02-11 | Microsoft Technology Licensing, Llc | Extending previously trained deep neural networks |
EP4071497A1 (en) * | 2018-05-18 | 2022-10-12 | Aptiv Technologies Limited | Radar system and method for receiving and analyzing radar signals |
CN112272832A (zh) * | 2018-05-28 | 2021-01-26 | 三星电子株式会社 | 用于基于dnn的成像的方法和系统 |
EP3732631A1 (en) * | 2018-05-29 | 2020-11-04 | Google LLC | Neural architecture search for dense image prediction tasks |
US20190367019A1 (en) * | 2018-05-31 | 2019-12-05 | TuSimple | System and method for proximate vehicle intention prediction for autonomous vehicles |
US11104334B2 (en) | 2018-05-31 | 2021-08-31 | Tusimple, Inc. | System and method for proximate vehicle intention prediction for autonomous vehicles |
CN110580487A (zh) | 2018-06-08 | 2019-12-17 | Oppo广东移动通信有限公司 | 神经网络的训练方法、构建方法、图像处理方法和装置 |
US11030495B2 (en) * | 2018-06-13 | 2021-06-08 | Octi | Systems and methods for instance segmentation |
JP2019215728A (ja) * | 2018-06-13 | 2019-12-19 | キヤノン株式会社 | 情報処理装置、情報処理方法及びプログラム |
US11048958B1 (en) * | 2018-06-15 | 2021-06-29 | Objectvideo Labs, Llc | Object detection improvement using a foreground occupancy map |
CN110619255B (zh) * | 2018-06-19 | 2022-08-26 | 杭州海康威视数字技术股份有限公司 | 一种目标检测方法及其装置 |
US10921817B1 (en) | 2018-06-29 | 2021-02-16 | Zoox, Inc. | Point cloud filtering with semantic segmentation |
US10810445B1 (en) * | 2018-06-29 | 2020-10-20 | Zoox, Inc. | Pipeline with point cloud filtering |
CN110659658B (zh) * | 2018-06-29 | 2022-07-29 | 杭州海康威视数字技术股份有限公司 | 一种目标检测方法及其装置 |
US10884131B1 (en) * | 2018-08-03 | 2021-01-05 | GM Global Technology Operations LLC | Conflict resolver for a lidar data segmentation system of an autonomous vehicle |
US10922589B2 (en) * | 2018-10-10 | 2021-02-16 | Ordnance Survey Limited | Object-based convolutional neural network for land use classification |
US20200065706A1 (en) * | 2018-08-24 | 2020-02-27 | Htc Corporation | Method for verifying training data, training system, and computer program product |
US10984532B2 (en) | 2018-08-24 | 2021-04-20 | Ordnance Survey Limited | Joint deep learning for land cover and land use classification |
WO2020048359A1 (en) * | 2018-09-06 | 2020-03-12 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method, system, and computer-readable medium for improving quality of low-light images |
WO2020061236A1 (en) * | 2018-09-18 | 2020-03-26 | Focal Systems, Inc. | Product onboarding machine |
CN109389078B (zh) * | 2018-09-30 | 2022-06-21 | 京东方科技集团股份有限公司 | 图像分割方法、相应的装置及电子设备 |
CN111008544B (zh) * | 2018-10-08 | 2023-05-09 | 阿里巴巴集团控股有限公司 | 交通监控和无人驾驶辅助系统以及目标检测方法及设备 |
JP7311310B2 (ja) * | 2018-10-18 | 2023-07-19 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 情報処理装置、情報処理方法及びプログラム |
CN109101036A (zh) * | 2018-10-30 | 2018-12-28 | 佛山市神风航空科技有限公司 | 一种多旋翼载人飞行器飞行控制系统 |
US11164329B2 (en) * | 2018-11-01 | 2021-11-02 | Inpixon | Multi-channel spatial positioning system |
WO2020093782A1 (en) | 2018-11-08 | 2020-05-14 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method, system, and computer-readable medium for improving quality of low-light images |
CN109685762A (zh) * | 2018-11-09 | 2019-04-26 | 五邑大学 | 一种基于多尺度深度语义分割网络的天线下倾角测量方法 |
CN111178495B (zh) * | 2018-11-10 | 2023-06-30 | 杭州凝眸智能科技有限公司 | 用于检测图像中极小物体的轻量卷积神经网络 |
DE112019005671T5 (de) | 2018-11-13 | 2021-08-05 | Nvidia Corporation | Bestimmen von assoziationen zwischen objekten und personen unter verwendung von maschinenlernmodellen |
CN113168684B (zh) * | 2018-11-26 | 2024-04-05 | Oppo广东移动通信有限公司 | 提升低亮度图像的质量的方法、系统和计算机可读介质 |
CN109859158A (zh) * | 2018-11-27 | 2019-06-07 | 邦鼓思电子科技(上海)有限公司 | 一种基于视觉的工作区域边界的检测系统、方法及机器设备 |
CN111242117A (zh) * | 2018-11-28 | 2020-06-05 | 佳能株式会社 | 检测装置和方法及图像处理装置和系统 |
EP3660741B1 (en) * | 2018-11-29 | 2022-05-04 | Koninklijke Philips N.V. | Feature identification in medical imaging |
KR102181144B1 (ko) * | 2018-12-04 | 2020-11-20 | 엔에이치엔 주식회사 | 이미지 딥러닝 기반 성별 인식 방법 |
US10922574B1 (en) * | 2018-12-10 | 2021-02-16 | Zoox, Inc. | Bounding box embedding for object identifying |
JP7092016B2 (ja) * | 2018-12-13 | 2022-06-28 | 日本電信電話株式会社 | 画像処理装置、方法、及びプログラム |
US10963757B2 (en) * | 2018-12-14 | 2021-03-30 | Industrial Technology Research Institute | Neural network model fusion method and electronic device using the same |
DE102018133441A1 (de) | 2018-12-21 | 2020-06-25 | Volkswagen Aktiengesellschaft | Verfahren und System zum Bestimmen von Landmarken in einer Umgebung eines Fahrzeugs |
US10726279B1 (en) * | 2019-01-31 | 2020-07-28 | StradVision, Inc. | Method and device for attention-driven resource allocation by using AVM and reinforcement learning to thereby achieve safety of autonomous driving |
US10776647B2 (en) * | 2019-01-31 | 2020-09-15 | StradVision, Inc. | Method and device for attention-driven resource allocation by using AVM to thereby achieve safety of autonomous driving |
EP3920095A4 (en) * | 2019-02-15 | 2022-03-02 | SZ DJI Technology Co., Ltd. | IMAGE PROCESSING METHOD AND APPARATUS, MOVABLE PLATFORM, UNMANNED AIR VEHICLE AND STORAGE MEDIA |
US10915786B2 (en) * | 2019-02-28 | 2021-02-09 | Sap Se | Object detection and candidate filtering system |
CN109948497B (zh) * | 2019-03-12 | 2022-01-28 | 北京旷视科技有限公司 | 一种物体检测方法、装置及电子设备 |
CN109784424B (zh) * | 2019-03-26 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 一种图像分类模型训练的方法、图像处理的方法及装置 |
KR102211481B1 (ko) | 2019-03-27 | 2021-02-02 | 연세대학교 산학협력단 | 객체 랜드마크 검출 장치 및 시멘틱 정합 장치의 공동 학습 장치 및 방법 |
JP7418966B2 (ja) * | 2019-04-02 | 2024-01-22 | キヤノン株式会社 | 画像処理装置、画像処理方法及びプログラム |
CN110163249B (zh) * | 2019-04-09 | 2021-11-23 | 中国科学院计算技术研究所 | 基于用户参数特征的基站分类识别方法及系统 |
CN109993757B (zh) * | 2019-04-17 | 2021-01-08 | 山东师范大学 | 一种视网膜图像病变区域自动分割方法及系统 |
KR20220020804A (ko) * | 2019-06-14 | 2022-02-21 | 소니그룹주식회사 | 정보 처리 장치 및 정보 처리 방법, 그리고 프로그램 |
US11263497B2 (en) | 2019-06-21 | 2022-03-01 | StraxCorp Pty. Ltd. | Method and system for machine learning classification based on structure or material segmentation in an image |
AU2019204380C1 (en) * | 2019-06-21 | 2020-11-12 | Curvebeam Ai Limited | A Method and System for Machine Learning Classification Based on Structure or Material Segmentation in an Image |
CN110298298B (zh) * | 2019-06-26 | 2022-03-08 | 北京市商汤科技开发有限公司 | 目标检测及目标检测网络的训练方法、装置及设备 |
DE102019209463A1 (de) * | 2019-06-27 | 2020-12-31 | Robert Bosch Gmbh | Verfahren zur Bestimmung eines Vertrauenswertes eines Objektes einer Klasse |
TWI773907B (zh) * | 2019-07-11 | 2022-08-11 | 緯創資通股份有限公司 | 資料擷取裝置與資料運算系統及方法 |
US11150605B1 (en) * | 2019-07-22 | 2021-10-19 | Facebook Technologies, Llc | Systems and methods for generating holograms using deep learning |
US11216705B2 (en) * | 2019-08-21 | 2022-01-04 | Anyvision Interactive Technologies Ltd. | Object detection based on machine learning combined with physical attributes and movement patterns detection |
CN110728200B (zh) * | 2019-09-23 | 2023-06-06 | 武汉大学 | 一种基于深度学习的实时行人检测方法及系统 |
US11494935B2 (en) | 2019-10-17 | 2022-11-08 | Objectvideo Labs, Llc | Scaled human video tracking |
RU2745804C1 (ru) | 2019-11-06 | 2021-04-01 | Общество с ограниченной ответственностью "Яндекс Беспилотные Технологии" | Способ и процессор для управления перемещением в полосе движения автономного транспортного средства |
TWI731466B (zh) | 2019-11-07 | 2021-06-21 | 財團法人資訊工業策進會 | 產生一物件偵測模型的計算裝置及方法及物件偵測裝置 |
CN111368625B (zh) * | 2019-11-08 | 2024-02-27 | 深圳北航新兴产业技术研究院 | 一种基于级联优化的行人目标检测方法 |
US11302025B2 (en) * | 2019-11-26 | 2022-04-12 | Zebra Technologies Corporation | Error mitigation for mobile dimensioning in stereo vision |
KR102306658B1 (ko) * | 2019-12-24 | 2021-09-30 | 아주대학교산학협력단 | 이종 도메인 데이터 간의 변환을 수행하는 gan의 학습 방법 및 장치 |
RU2744012C1 (ru) | 2019-12-24 | 2021-03-02 | Общество с ограниченной ответственностью "Яндекс Беспилотные Технологии" | Способы и системы для автоматизированного определения присутствия объектов |
US11687778B2 (en) | 2020-01-06 | 2023-06-27 | The Research Foundation For The State University Of New York | Fakecatcher: detection of synthetic portrait videos using biological signals |
KR102583960B1 (ko) | 2020-01-06 | 2023-09-27 | 한국전자통신연구원 | 무인 비행체의 데이터 세트 생성 방법 및 장치 |
US11948276B2 (en) | 2020-01-16 | 2024-04-02 | Samsung Electronics Co., Ltd. | Apparatus and method for enhancing videos |
CN111274974B (zh) * | 2020-01-21 | 2023-09-01 | 阿波罗智能技术(北京)有限公司 | 定位元素检测方法、装置、设备和介质 |
KR102289668B1 (ko) | 2020-02-21 | 2021-08-12 | 연세대학교 산학협력단 | 매칭 신뢰도 기반 시멘틱 매칭 장치 및 방법 |
KR20210111557A (ko) * | 2020-03-03 | 2021-09-13 | 현대자동차주식회사 | 심층 학습 기반의 객체 분류 장치 및 그 방법 |
CN113468914B (zh) * | 2020-03-30 | 2023-08-29 | 杭州海康威视数字技术股份有限公司 | 一种商品纯净度的确定方法、装置及设备 |
CN111489332B (zh) * | 2020-03-31 | 2023-03-17 | 成都数之联科技股份有限公司 | 一种用于目标检测的多尺度iof随机裁剪的数据增强方法 |
CN111723852B (zh) * | 2020-05-30 | 2022-07-22 | 杭州迪英加科技有限公司 | 针对目标检测网络的鲁棒训练方法 |
CN111768392B (zh) * | 2020-06-30 | 2022-10-14 | 创新奇智(广州)科技有限公司 | 目标检测方法及装置、电子设备、存储介质 |
EP4181013A4 (en) * | 2020-07-21 | 2023-08-16 | Huawei Technologies Co., Ltd. | METHOD AND APPARATUS FOR DETERMINING LABELING INFORMATION |
KR20220013231A (ko) | 2020-07-24 | 2022-02-04 | 삼성전자주식회사 | 영상 내에서 객체를 추론하는 전자 장치 및 추론 방법 |
CN112307889B (zh) * | 2020-09-22 | 2022-07-26 | 北京航空航天大学 | 一种基于小型辅助网络的人脸检测算法 |
CN112053439B (zh) * | 2020-09-28 | 2022-11-25 | 腾讯科技(深圳)有限公司 | 图像中实例属性信息确定方法、装置、设备及存储介质 |
TWI812888B (zh) | 2020-10-14 | 2023-08-21 | 財團法人工業技術研究院 | 影像辨識方法及影像辨識系統 |
US20220147748A1 (en) * | 2020-11-12 | 2022-05-12 | Texas Instruments Incorporated | Efficient object detection using deep learning techniques |
WO2022115802A1 (en) * | 2020-11-30 | 2022-06-02 | Vaital | An automated examination proctor |
US11798210B2 (en) | 2020-12-09 | 2023-10-24 | Salesforce, Inc. | Neural network based detection of image space suitable for overlaying media content |
CN112766046B (zh) * | 2020-12-28 | 2024-05-10 | 深圳市捷顺科技实业股份有限公司 | 一种目标检测方法及相关装置 |
US11657511B2 (en) * | 2021-01-29 | 2023-05-23 | Salesforce, Inc. | Heuristics-based detection of image space suitable for overlaying media content |
CN113344857B (zh) * | 2021-05-13 | 2022-05-03 | 深圳市华汉伟业科技有限公司 | 缺陷检测网络的训练方法、缺陷检测方法和存储介质 |
WO2022263908A1 (en) * | 2021-06-14 | 2022-12-22 | Sensetime International Pte. Ltd. | Methods and apparatuses for determining object classification |
KR20220168950A (ko) * | 2021-06-14 | 2022-12-26 | 센스타임 인터내셔널 피티이. 리미티드. | 객체 분류를 결정하기 위한 방법들 및 장치들 |
US20230034782A1 (en) * | 2021-07-29 | 2023-02-02 | GE Precision Healthcare LLC | Learning-based clean data selection |
KR20230020708A (ko) * | 2021-08-04 | 2023-02-13 | 삼성전자주식회사 | 객체 검출 장치 및 객체 검출 방법 |
US11589006B1 (en) * | 2021-10-19 | 2023-02-21 | Plantronics, Inc. | Dynamic camera presets |
US20230118072A1 (en) * | 2021-10-19 | 2023-04-20 | International Business Machines Corporation | Content based on-device image adjustment |
KR102437962B1 (ko) * | 2022-03-22 | 2022-08-30 | 주식회사 스누아이랩 | 회귀 스케일 인식 교차 도메인 객체 탐지 장치 및 그 장치의 구동방법 |
WO2023178542A1 (en) * | 2022-03-23 | 2023-09-28 | Robert Bosch Gmbh | Image processing apparatus and method |
CN114936634A (zh) * | 2022-04-12 | 2022-08-23 | 瑞泰生医科技(香港)有限公司 | 神经网络模型训练方法与系统 |
US11915467B1 (en) | 2022-08-11 | 2024-02-27 | Microsoft Technology Licensing, Llc. | Saliency for anchor-based object detection |
KR20240060163A (ko) * | 2022-10-28 | 2024-05-08 | 오지큐 주식회사 | 학습된 신경망을 통한 객체 세그멘테이션 정보의 획득 방법 및 이를 수행하는 서버 시스템 |
CN115830637B (zh) * | 2022-12-13 | 2023-06-23 | 杭州电子科技大学 | 一种基于姿态估计和背景抑制的遮挡行人重识别方法 |
EP4455907A1 (en) * | 2023-04-24 | 2024-10-30 | Axis AB | Method and device for determining that a detected object belongs to a specific class |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150324658A1 (en) * | 2014-05-06 | 2015-11-12 | The Boeing Company | Sensor fusion using detector confidence boosting |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3803950B2 (ja) * | 1999-03-04 | 2006-08-02 | 株式会社リコー | 画像合成処理方法、画像合成処理装置及び記録媒体 |
US6754390B2 (en) | 2000-12-01 | 2004-06-22 | The United States Of America As Represented By The Secretary Of The Navy | Fusing outputs from multiple detection/classification schemes |
US7133083B2 (en) * | 2001-12-07 | 2006-11-07 | University Of Kentucky Research Foundation | Dynamic shadow removal from front projection displays |
US7274830B2 (en) * | 2002-06-12 | 2007-09-25 | Litton Systems, Inc. | System for multi-sensor image fusion |
US7308139B2 (en) * | 2002-07-12 | 2007-12-11 | Chroma Energy, Inc. | Method, system, and apparatus for color representation of seismic data and associated measurements |
US6919892B1 (en) * | 2002-08-14 | 2005-07-19 | Avaworks, Incorporated | Photo realistic talking head creation system and method |
US20050209983A1 (en) * | 2004-03-18 | 2005-09-22 | Macpherson Deborah L | Context driven topologies |
US7634142B1 (en) | 2005-01-24 | 2009-12-15 | Adobe Systems Incorporated | Detecting objects in images using a soft cascade |
CA2617119A1 (en) * | 2008-01-08 | 2009-07-08 | Pci Geomatics Enterprises Inc. | Service oriented architecture for earth observation image processing |
JP4513898B2 (ja) | 2008-06-09 | 2010-07-28 | 株式会社デンソー | 画像識別装置 |
US8345921B1 (en) | 2009-03-10 | 2013-01-01 | Google Inc. | Object detection with false positive filtering |
TW201033908A (en) * | 2009-03-12 | 2010-09-16 | Micro Star Int Co Ltd | System and method for counting people flow |
US9260122B2 (en) | 2012-06-06 | 2016-02-16 | International Business Machines Corporation | Multisensor evidence integration and optimization in object inspection |
US9355312B2 (en) * | 2013-03-13 | 2016-05-31 | Kofax, Inc. | Systems and methods for classifying objects in digital images captured using mobile devices |
US8965115B1 (en) | 2013-03-14 | 2015-02-24 | Hrl Laboratories, Llc | Adaptive multi-modal detection and fusion in videos via classification-based-learning |
US9100572B2 (en) | 2013-05-24 | 2015-08-04 | Xerox Corporation | Methods and systems for confidence-based image processing |
US9275308B2 (en) * | 2013-05-31 | 2016-03-01 | Google Inc. | Object detection using deep neural networks |
WO2014210050A1 (en) * | 2013-06-24 | 2014-12-31 | Cylance Inc. | Automated system for generative multimodel multiclass classification and similarity analysis using machine learning |
CN103886013A (zh) * | 2014-01-16 | 2014-06-25 | 陈守辉 | 一种基于网络视频监控中的智能图像检索系统 |
SG10201403293TA (en) | 2014-06-16 | 2016-01-28 | Ats Group Ip Holdings Ltd | Fusion-based object-recognition |
CN104573715B (zh) * | 2014-12-30 | 2017-07-25 | 百度在线网络技术(北京)有限公司 | 图像主体区域的识别方法及装置 |
US9594984B2 (en) * | 2015-08-07 | 2017-03-14 | Google Inc. | Business discovery from imagery |
-
2017
- 2017-02-16 US US15/434,880 patent/US10657364B2/en active Active
- 2017-03-29 KR KR1020170039783A patent/KR102279291B1/ko active IP Right Grant
- 2017-06-13 TW TW106119649A patent/TWI764905B/zh active
- 2017-07-26 CN CN201710618367.3A patent/CN107871117B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150324658A1 (en) * | 2014-05-06 | 2015-11-12 | The Boeing Company | Sensor fusion using detector confidence boosting |
Non-Patent Citations (1)
Title |
---|
S. McCloske, Metadata-Weighted Score Fusion for Multimedia Event Detection, 2014 Canadian Conference on Computer and Robot Vision 1부.* |
Also Published As
Publication number | Publication date |
---|---|
US20180089505A1 (en) | 2018-03-29 |
CN107871117A (zh) | 2018-04-03 |
TW201814591A (zh) | 2018-04-16 |
TWI764905B (zh) | 2022-05-21 |
US10657364B2 (en) | 2020-05-19 |
CN107871117B (zh) | 2023-01-10 |
KR20180033037A (ko) | 2018-04-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102279291B1 (ko) | 사물 감지 장치 및 방법 | |
US10691952B2 (en) | Adapting to appearance variations when tracking a target object in video sequence | |
EP3295424B1 (en) | Systems and methods for reducing a plurality of bounding regions | |
Vennelakanti et al. | Traffic sign detection and recognition using a CNN ensemble | |
EP3338248B1 (en) | Systems and methods for object tracking | |
US20230014874A1 (en) | Obstacle detection method and apparatus, computer device, and storage medium | |
US10699170B2 (en) | Apparatuses and methods for semantic image labeling | |
US20230260321A1 (en) | System And Method For Scalable Cloud-Robotics Based Face Recognition And Face Analysis | |
US9811732B2 (en) | Systems and methods for object tracking | |
US20210064871A1 (en) | Apparatus and method for recognition of text information | |
US9721173B2 (en) | Machine learning approach for detecting mobile phone usage by a driver | |
CN110781836A (zh) | 人体识别方法、装置、计算机设备及存储介质 | |
Farag | A lightweight vehicle detection and tracking technique for advanced driving assistance systems | |
CN111709377B (zh) | 特征提取方法、目标重识别方法、装置及电子设备 | |
CN115700808A (zh) | 自适应融合可见光和红外图像的双模态无人机识别方法 | |
CN111428567B (zh) | 一种基于仿射多任务回归的行人跟踪系统及方法 | |
WO2021214540A1 (en) | Robust camera localization based on a single color component image and multi-modal learning | |
CN117037001A (zh) | 改进YOLOv7的无人机航拍小目标检测方法 | |
Huang et al. | Nighttime vehicle detection based on direction attention network and bayes corner localization | |
CN111723614A (zh) | 交通信号灯识别方法及装置 | |
Singh et al. | Smart traffic monitoring through real-time moving vehicle detection using deep learning via aerial images for consumer application | |
Kavitha et al. | Traffic Sign Recognition and Voice-Activated Driving Assistance Using Raspberry Pi | |
CN114092818A (zh) | 语义分割方法、装置、电子设备及存储介质 | |
US12008816B2 (en) | Method and system for real time object detection | |
CN118212598A (zh) | 一种针对车辆的车型识别结果生成方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |