KR102590622B1 - 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법 및 장치 - Google Patents
멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법 및 장치 Download PDFInfo
- Publication number
- KR102590622B1 KR102590622B1 KR1020210043351A KR20210043351A KR102590622B1 KR 102590622 B1 KR102590622 B1 KR 102590622B1 KR 1020210043351 A KR1020210043351 A KR 1020210043351A KR 20210043351 A KR20210043351 A KR 20210043351A KR 102590622 B1 KR102590622 B1 KR 102590622B1
- Authority
- KR
- South Korea
- Prior art keywords
- image
- feature map
- rgb
- thermal image
- object recognition
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title description 3
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 18
- 239000000284 extract Substances 0.000 claims abstract description 12
- 230000001360 synchronised effect Effects 0.000 claims description 9
- 230000003416 augmentation Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 5
- 238000001931 thermography Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000208199 Buxus sempervirens Species 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/56—Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
- G06V20/58—Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10048—Infrared image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Human Computer Interaction (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
본 발명은 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법 및 장치를 개시한다. 본 발명에 따르면, 프로세서 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 미리 학습된 객체 인식 네트워크에 RGB 이미지 및 열화상 이미지를 입력하여 상기 RGB 이미지 및 열화상 이미지 중 적어도 하나에 존재하는 객체를 인식하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하되, 상기 객체 인식 네트워크는, 상기 RGB 이미지를 입력으로 하여 상기 RGB 이미지에 상응하는 모달리티의 제1 특징맵을 추출하는 복수의 제1 컨볼루션 레이어; 상기 열화상 이미지를 입력으로 하여 상기 열화상 이미지에 상응하는 모달리티의 제2 특징맵을 추출하는 복수의 제2 컨볼루션 레이어; 각 모달리티가 공유하며, 상기 제1 특징맵 및 상기 제2 특징맵 각각을 입력으로 하여 상기 RGB 이미지의 제3 특징맵 및 상기 열화상 이미지의 제4 특징맵을 각각 추출하는 복수의 공유 컨볼루션 레이어; 상기 복수의 공유 컨볼루션 레이어에 입력되거나 상기 복수의 공유 컨볼루션 레이어 중 적어도 일부의 공유 컨볼루션 레이어를 통과한 각 모달리티의 특징맵을 융합하는 복수의 융합 모듈; 및 상기 융합된 특징맵을 이용하여 상기 RGB 이미지 및 상기 열화상 이미지 내에서의 객체를 인식하는 인식부를 포함하는 객체 인식 장치가 제공된다.
Description
본 발명은 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법 및 장치에 관한 것이다.
객체 인식, 특히 보행자 인식는 로봇 공학과 컴퓨터 비전에서 활발하게 논의되는 중요한 주제 중 하나이다.
조명 및 날씨 변화로 인해 기존의 RGB 기반 보행자 인식은 정확도가 낮은 문제점이 있다.
이러한 조건에서 인식 정확도를 향상시키기 위해 다양한 융합 기법이 제안되었으며, 그 중에서 열화상을 포함한 멀티스펙트럴 기법은 조명 등의 영향을 크게 받지 않기 때문에 큰 관심을 받고 있다.
종래의 데이터셋은 열화상과 완전히 정렬되고 동기화된 RGB 이미지 페어(pair)를 이용해야 하나, 실제 응용에서 완벽하게 정렬된 이미지 페어를 만들려면 빔 스플리터와 같이 특별히 설계된 하드웨어 장치가 필요하다.
멀티스펙트럴 이미지를 수집하는 실용적인 방법은 RGB 및 열화상 스테레오 비전 시스템과 Electro-Optical/Infra-Red을 사용하는 것이다. 그러나 편의성에도 불구하고 두 카메라의 화각의 차이로 부분적으로 겹쳐진 이미지 페어만 얻을 수 있다. 또는 열화상 센서와 RGB 센서의 광축이 일치된 Electro-Optical/Infra-Red을 이용할 경우 광축을 토대로 중첩된 영상을 얻을 수 있지만, 대부분의 열화상 센서와 RGB 센서의 해상도 차이로 완전히 중첩된 멀티스펙트럴 이미지를 생성하기가 어렵다.
상기한 종래기술의 문제점을 해결하기 위해, 본 발명은 멀티스펙트럴 이미지가 언페어한 상황에도 강인하게 객체를 인식할 수 있는 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법 및 장치를 제안하고자 한다.
상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따르면, 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 장치로서, 프로세서; 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 미리 학습된 객체 인식 네트워크에 RGB 이미지 및 열화상 이미지를 입력하여 상기 RGB 이미지 및 열화상 이미지 중 적어도 하나에 존재하는 객체를 인식하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하되, 상기 객체 인식 네트워크는, 상기 RGB 이미지를 입력으로 하여 상기 RGB 이미지에 상응하는 모달리티의 제1 특징맵을 추출하는 복수의 제1 컨볼루션 레이어; 상기 열화상 이미지를 입력으로 하여 상기 열화상 이미지에 상응하는 모달리티의 제2 특징맵을 추출하는 복수의 제2 컨볼루션 레이어; 각 모달리티가 공유하며, 상기 제1 특징맵 및 상기 제2 특징맵 각각을 입력으로 하여 상기 RGB 이미지의 제3 특징맵 및 상기 열화상 이미지의 제4 특징맵을 각각 추출하는 복수의 공유 컨볼루션 레이어; 상기 복수의 공유 컨볼루션 레이어에 입력되거나 상기 복수의 공유 컨볼루션 레이어 중 적어도 일부의 공유 컨볼루션 레이어를 통과한 각 모달리티의 특징맵을 융합하는 복수의 융합 모듈; 및 상기 융합된 특징맵을 이용하여 상기 RGB 이미지 및 상기 열화상 이미지 내에서의 객체를 인식하는 인식부를 포함하는 객체 인식 장치가 제공된다.
상기 복수의 제1 컨볼루션 레이어 및 상기 복수의 제2 컨볼루션 레이어는 객체 인식 네트워크에서 모달리티-특정 부분으로 정의될 수 있다.
상기 객체 인식 네트워크는 각 모달리티에 대해 독립적으로 수평 플립(horizontal flip) 및 랜덤 리사이즈 크랍(random resize crop)을 수행하는 세미-언페어 증강 기법(Semi-unpaired Augmentation)을 이용하여 전처리된 데이터를 이용하여 학습될 수 있다.
상기 RGB 이미지 및 상기 열화상 이미지는 서로 완전히 정렬되고 동기화된 이미지 페어와 완전히 정렬되거나 동기화되지 않은 언페어한 경우를 모두 포함할 수 있다.
상기 객체 인식 네트워크는, 상기 RGB 이미지 및 상기 열화상 이미지가 언페어한 상황인 경우를 고려하여 멀티레이블에 기반하여 학습될 수 있다.
상기 멀티레이블의 레이블 할당하는 기준은, 객체가 RGB 도메인에만 발견되는 경우, 열화상 도메인에만 발견되는 경우 및 상기 RGB 도메인과 상기 열화상 도메인에 공존하는 경우에 따라 정의될 수 있다.
상기 RGB 이미지 및 상기 열화상 이미지는 자율주행차에 적용된 센서를 통해 얻어지며, 상기 객체는 보행자일 수 있다.
본 발명의 다른 측면에 따르면, 프로세서 및 메모리를 포함하는 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법으로서, 복수의 제1 컨볼루션 레이어에 RGB 이미지를 입력하여 상기 RGB 이미지에 상응하는 모달리티의 제1 특징맵을 추출하는 단계; 복수의 제2 컨볼루션 레이어에 열화상 이미지를 입력하여 상기 열화상 이미지에 상응하는 모달리티의 제2 특징맵을 추출하는 단계; 각 모달리티가 공유하는 복수의 공유 컨볼루션 레이어에 상기 제1 특징맵 및 상기 제2 특징맵 각각을 입력하여 상기 RGB 이미지의 제3 특징맵 및 상기 열화상 이미지의 제4 특징맵을 각각 추출하는 단계; 복수의 융합 모듈을 통해 상기 복수의 공유 컨볼루션 레이어에 입력되거나 상기 복수의 공유 컨볼루션 레이어 중 적어도 일부의 공유 컨볼루션 레이어를 통과한 각 모달리티의 특징맵을 융합하는 단계; 및 상기 융합된 특징맵을 이용하여 상기 RGB 이미지 및 상기 열화상 이미지 내에서의 객체를 인식하는 단계를 포함하는 객체 인식 방법이 제공된다.
본 발명의 다른 측면에 따르면, 상기한 방법을 수행하는 컴퓨터 판독 가능한 프로그램이 제공된다.
본 발명에 따르면, RGB 이미지 및 열화상 이미지의 특징맵을 추출함에 있어 공유 컨볼루션 레이어를 이용함으로써 객체 인식 속도를 향상시킬 수 있는 장점이 있다.
또한, 본 발명에 따르면, 멀티레이블 학습을 통해 멀티스펙트럴 이미지가 언페어한 상황에도 강인하게 객체를 인식할 수 있는 장점이 있다.
도 1은 본 발명의 바람직한 일 실시예에 따른 객체 인식 네트워크를 도시한 도면이다.
도 2는 본 발명의 바람직한 일 실시예에 따른 객체 인식 장치를 도시한 도면이다.
도 3은 본 실시예에 따른 보행자 인식이 기존 연구들보다 Miss rate에서 높은 성능을 보이는 것을 나타낸 도면이다.
도 4는 본 실시예에 따른 객체 인식 네트워크가 공유 컨볼루션 레이어를 통해 빠르 속도로 추론이 가능한 것을 나타낸 것이다.
도 5는 RGB 및 열화상 블랙 아웃과 같은 센서 고장 관련 데이터셋 실험 결과를 나타낸 것이다.
도 6은 두 대의 카메라가 페어링되지 않은 경우 데이터셋에 대한 실험 결과를 나타낸 것이다.
도 7은 본 발명의 일 실시예에 따른 객체 인식 장치의 성능을 나타낸 것이다.
도 2는 본 발명의 바람직한 일 실시예에 따른 객체 인식 장치를 도시한 도면이다.
도 3은 본 실시예에 따른 보행자 인식이 기존 연구들보다 Miss rate에서 높은 성능을 보이는 것을 나타낸 도면이다.
도 4는 본 실시예에 따른 객체 인식 네트워크가 공유 컨볼루션 레이어를 통해 빠르 속도로 추론이 가능한 것을 나타낸 것이다.
도 5는 RGB 및 열화상 블랙 아웃과 같은 센서 고장 관련 데이터셋 실험 결과를 나타낸 것이다.
도 6은 두 대의 카메라가 페어링되지 않은 경우 데이터셋에 대한 실험 결과를 나타낸 것이다.
도 7은 본 발명의 일 실시예에 따른 객체 인식 장치의 성능을 나타낸 것이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
본 발명은 RGB 이미지 및 열화상 이미지를 포함하는 멀티스펙트럴 이미지가 완전히 정렬되고 동기화된 페어 상황뿐만 아니라, 그렇지 않은 언페어(Unpair)한 상황에서도 강인하게 객체 인식이 가능하도록 하는 멀티레이블을 적용한 멀티스펙트럴 객체 인식 아키텍쳐를 제안한다.
본 명세서에서 객체는 다양하게 정의될 수 있으나, 이하에서는 객체가 보행자인 경우를 중심으로 설명한다.
도 1은 본 발명의 바람직한 일 실시예에 따른 객체 인식 네트워크를 도시한 도면이다.
도 1을 참조하면, 본 실시예에 따른 객체 인식 네트워크는 객체 인식에서 많이 사용되는 SSD(Single Shot multibox Detector)에 멀티스펙트럴 보행자 인식에서 많이 사용되는 Halfway Fusion을 적용한다.
본 실시예에 따른 객체 인식 네트워크는 두 개의 독립적인 브랜치(즉, RGB 및 열화상)로 구성된 SSD와 유사한 네트워크로 정의될 수 있다.
도 1에 도시된 바와 같이, 본 실시예에 따른 객체 인식 네트워크는 RGB 이미지를 입력으로 하여 제1 특징맵을 추출하는 복수의 제1 컨볼루션 레이어(Conv1 내지 Conv4, 100-n)와 열화상 이미지를 입력으로 하여 제2 특징맵을 추출하는 복수의 제2 컨볼루션 레이어(Conv1 내지 Conv4, 102-n)를 포함한다.
여기서, 복수의 제1 및 제2 컨볼루션 레이어는 모달리티-특정 부분(modality-specific part)으로 정의된다.
또한, 본 실시예에 따른 객체 인식 네트워크는 각 모달리티가 공유하는 복수의 공유 컨볼루션 레이어(Conv5 내지 Conv10, 104-n)를 포함한다.
본 실시예에 따른 복수의 공유 컨볼루션 레이어(104)는 RGB 이미지 및 열화상 이미지에 상응하는 각 모달리티가 공유하는 레이어이며, 복수의 제1 컨볼루션 레이어(100) 및 제2 컨볼루션 레이어를 통해 추출된 제1 특징맵과 제2 특징맵을 각각 입력으로 하여 RGB 이미지의 제3 특징맵과 열화상 이미지의 제4 특징맵을 추출한다.
그리고, 본 실시예에 따른 객체 인식 네트워크는 RGB 및 열화상 이미지의 특징맵을 융합하는 복수의 융합 모듈(fusion module, 106-n)을 포함할 수 있다.
도 1에 도시된 바와 같이, 복수의 융합 모듈(106)은 복수의 공유 컨볼루션 레이어에 입력되는 제1 특징맵과 제2 특징맵을 융합하고, 또한, 복수의 공유 컨볼루션 레이어(106) 중 적어도 일부의 공유 컨볼루션 레이어를 통과한 각 모달리티의 특징맵을 융합한다.
도 1에서는 복수의 공유 컨볼루션 레이어 중 Conv5를 제외한 Conv6 내지 Conv10을 통과한 각 모달리티의 특징맵이 복수의 융합 모듈(106) 각각에 입력되어 융합된다.
복수의 융합 모듈에서의 출력이 인식부(Detection, 108)로 입력되고, 인식부(108)에서 보행자를 인식한다.
여기서, 복수의 공유 컨볼루션 레이어(104) 및 복수의 융합 모듈(106)은 모달리티-공유 부분으로 정의된다.
모달리티-특정 부분으로부터 추출된 RGB 이미지와 열화상 이미지의 특징맵이 모달리티-공유 부분에 입력되고, 모달리티-공유 부분이 다음과 같이 인식부(108)의 입력을 생성한다.
여기서, 는 융합된 특징맵이고, 와 는 복수의 공유 컨볼루션 레이어에서 추출된 RGB 이미지의 특징맵, 열화상 이미지의 특징맵이다.
그러나, 인식부(108)의 입력에서 일반적으로 모달리티-특정 정보가 손실되고 융합된 특징이 입력되면 모달리티-공유 부분이 각 모달리티의 정보를 보존하지 않는다.
이에 본 실시예에 따르면, 복수의 융합 모듈과 함께 재-파라미터화 기법(re-parameterization technique)을 제안된다.
본 실시예에 따르면, 모달리티-공유 부분에 각 모달리티의 융합된 특징맵(concatenated feature)을 입력으로 하는 대신, 각 모달리티의 특징맵을 독립적으로 입력하고 인식부(108)에 공급하기 전에 각 모달리티의 특징맵을 융합한다.
본 실시예에 따른 재-파라미터화는 다음의 수학식으로 표현된다.
여기서, 와 는 모달리티-특정 부분에서 추출된 RGB 및 열화상 이미지의 특징맵을 나타내고, 와 는 각각 모달리티-공유 부분에서 추출된 특징맵과 본 실시예에 따른 융합 모듈을 나타낸다.
도 1에 도시된 바와 같이, 실시간 적용을 위해 복수의 융합 모듈(106) 각각은 활성화 함수를 갖는 단일 컨볼루션 레이어를 기반으로 할 수 있다.
본 실시예에서는 RGB 및 열화상 이미지가 언페어한 상황을 고려하여 멀티스펙트럴 보행자 인식 프레임워크에서 멀티레이블 학습 기법을 도입한다.
여기서 기본 규칙은 보행자가 RGB 이미지와 열화상 이미지 중 적어도 하나에서 보여질 수 있다는 것이다.
예를 들어, 멀티스펙트럴 이미지들이 와이드베이스라인(wide-baseline) 스테레오 설정에 의해 얻어지면, 각 이미지에 겹치지 않는 영역이 존재한다.
이때, 본 실시예에 따른 객체 인식 네트워크는 RGB 전용 영역, 열화상 전용 영역 및 중첩 영역 등 보행자가 속한 영역을 인식할 수 있다. 이러한 관점에서 레이블을 할당하는 기준을 다음과 같이 정의한다.
여기서, [1, 0]은 보행자 한 명이 RGB 도메인에서만 발견되는 경우; [0, 1]은 그 반대; [1, 1] 보행자가 두 영역에 공존하는 경우이다.
본 실시예에 따른 멀티레이블 기법을 통해 객체 인식 네트워크는 입력된 멀티스펙트럴 이미지의 상태에 따라 특징맵을 적응적으로 생성할 수 있으므로 페어를 이루는 경우와 언페어한 경우 모두에서 보행자를 강력하게 인식할 수 있다.
언페어 상황은 보행자 인식에서 처리되어야 함에도 불구하고, 문제는 실질적으로 언페어 상황을 어떻게 얻는가이다.
멀티스펙트럴 데이터셋을 수집하고 모든 장면의 모든 개체에 주석을 추가하는 것이 가능하나, 모든 종류의 센서 구성에서 이러한 방식으로 이미지를 수집하는 것은 쉽지 않다. 이에, 본 실시예에서는 세미-언페어 증강 기법(Semi-unpaired Augmentation)을 이용한다.
본 실시예에 따른 주요 목표는 페어 및 언페어 경우 모두에서 보행자 인식 프레임워크의 일반성을 가지는 것이다.
즉, 객체 인식 네트워크는 보행자가 영향을 받는 양식을 구별할 수 있다.
이를 위해 완전히 정렬된 이미지 쌍에서 페어링되지 않은 이미지 쌍을 생성한다.
확대된 이미지의 왜곡을 방지하기 위해 수평 플립(horizontal flip) 및 랜덤 리사이즈 크랍(random resized crop)와 같은 기하학적인 변형만을 사용한다.
보다 구체적으로 수평 플립은 [RGB[X],T[X]], [RGB[O],T[X]], [RGB[X],T[O]] 및 [RGB[O],T[O]]와 같이 0.5의 확률로 각 모달리티에 독립적으로 적용된다. 이와 유사하게 랜덤 리사이즈 크랍도 이후에 0.5의 확률로 적용된다.
즉, 증강 기법은 0.75 확률로 페어를 끊고, 이를 이미지와 경계 상자 모두에 적용하여 증강된 모든 박스가 ground truth로 사용된다.
전술한 바와 같이, 는 인식부(108)에 입력되는 융합된 특징맵을 의미하며, 인식부(108)는 다양한 크기의 보행자를 인식하기 위해 서로 다른 해상도 맵을 가진 여러 융합된 특징맵을 입력으로 한다.
연결된 특징맵 은 다음과 같이 정의된다.
그리고 분류 함수()는 다음과 같이 정의된다.
여기서, 는 예측된 경계 상자의 신뢰도 점수를 나타내며, BG, R 및 T는 각각 배경, RGB 및 열화상을 나타낸다.
RGB 및 열화상 신뢰도 점수의 평균을 취하여 예측 점수를 계산한다.
멀티레이블 분류의 경우 네트워크는 종단간 방식으로 BCE (Binary Cross Entropy) 손실 함수를 최소화하여 최적화되며, 다음의 수학식과 같다.
지역화(즉, 박스 회귀)에 대한 손실 항은 SSD와 동일하며, 마지막으로 최종 손실 항은 다음과 같이 정의된다.
본 실시예에 따른 보행자 인식은 도 2에 도시된 바와 같이, 프로세서 및 메모리를 포함하는 장치에서 수행될 수 있다.
프로세서(200)는 컴퓨터 프로그램을 실행할 수 있는 CPU(central processing unit)나 그밖에 가상 머신 등을 포함할 수 있다.
메모리(202)는 고정식 하드 드라이브나 착탈식 저장 장치와 같은 불휘발성 저장 장치를 포함할 수 있다. 착탈식 저장 장치는 컴팩트 플래시 유닛, USB 메모리 스틱 등을 포함할 수 있다. 메모리는 각종 랜덤 액세스 메모리와 같은 휘발성 메모리도 포함할 수 있다.
본 발명의 일 실시예에 따르면, 메모리(202)에는 미리 학습된 객체 인식 네트워크에 RGB 이미지 및 열화상 이미지를 입력하여 상기 RGB 이미지 및 열화상 이미지 중 적어도 하나에 존재하는 객체를 인식하도록, 프로세서(200)에 의해 실행 가능한 프로그램 명령어가 저장된다.
여기서, 객체 인식 네트워크는, 전술한 바와 같이, RGB 이미지를 입력으로 하여 상기 RGB 이미지에 상응하는 모달리티의 제1 특징맵을 추출하는 복수의 제1 컨볼루션 레이어(100), 열화상 이미지를 입력으로 하여 상기 열화상 이미지에 상응하는 모달리티의 제2 특징맵을 추출하는 복수의 제2 컨볼루션 레이어(102), 각 모달리티가 공유하며, 상기 제1 특징맵 및 상기 제2 특징맵 각각을 입력으로 하여 상기 RGB 이미지의 제3 특징맵 및 상기 열화상 이미지의 제4 특징맵을 각각 추출하는 복수의 공유 컨볼루션 레이어(104), 상기 복수의 공유 컨볼루션 레이어(104)에 입력되거나 상기 복수의 공유 컨볼루션 레이어 중 적어도 일부의 공유 컨볼루션 레이어를 통과한 각 모달리티의 특징맵을 융합하는 복수의 융합 모듈(106) 및 상기 융합된 특징맵을 이용하여 상기 RGB 이미지 및 상기 열화상 이미지 내에서의 객체를 인식하는 인식부(108)를 포함할 수 있다.
이하에서는 본 실시예에 따른 객체 인식 기법(Multi label Pedestrian Detector, MLPD)이 기존 기법에 비해 높은 성능을 보이는 점을 살펴본다.
도 3은 본 실시예에 따른 보행자 인식이 기존 연구들보다 Miss rate에서 높은 성능을 보이는 것을 나타낸 도면이고, 도 4는 본 실시예에 따른 객체 인식 네트워크가 공유 컨볼루션 레이어를 통해 빠르 속도로 추론이 가능한 것을 나타낸 것이다.
또한, 본 실시예에 따르면, 실제 자율주행차에 적용하는 센서 세팅에서 발생할 수 있는 언페어 상황을 기존 데이터셋을 이용해 가상으로 구성하고, 해당 데이터셋에 대해서 평가를 진행한 결과 기존에 진행된 연구들보다 적은 성능 드랍을 보이는 동시에 단일 모달리티를 학습한 모델보다 높은 성능이 나타내는 것을 도 5 내지 6을 통해 확인할 수 있다.
여기서, 도 5는 RGB 및 열화상 블랙 아웃과 같은 센서 고장 관련 데이터셋 실험 결과를 나타낸 것이고, 도 6은 두 대의 카메라가 페어링되지 않은 경우 데이터셋에 대한 실험 결과를 나타낸 것이다.
도 6에서, (T-R) RGB : 왼쪽 컷오프 30 %, 열화상 : 오른쪽 컷오프 30 %, (R-T) RGB : 오른쪽 컷오프 30% 열화상 왼쪽 컷오프 30%이다.
나아가, 본 실시예에 따른 객체 인식 네트워크는 각 모달리티의 정보를 마지막 레이어까지 전달하기 위해 각각의 모달리티를 공유 컨볼루션 레이어(104)에 태우는 Shared Multi Fusion을 수행하기 때문에 도 7에 도시된 바와 같이 낮뿐만 아니라 밤에도 향상된 성능을 나타낸다.
상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.
Claims (10)
- 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 장치로서,
프로세서; 및
상기 프로세서에 연결되는 메모리를 포함하되,
상기 메모리는,
미리 학습된 객체 인식 네트워크에 RGB 이미지 및 열화상 이미지를 입력하여 상기 RGB 이미지 및 열화상 이미지 중 적어도 하나에 존재하는 객체를 인식하도록,
상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하되,
상기 객체 인식 네트워크는,
상기 RGB 이미지를 입력으로 하여 상기 RGB 이미지에 상응하는 모달리티의 제1 특징맵을 추출하는 복수의 제1 컨볼루션 레이어;
상기 열화상 이미지를 입력으로 하여 상기 열화상 이미지에 상응하는 모달리티의 제2 특징맵을 추출하는 복수의 제2 컨볼루션 레이어;
각 모달리티가 공유하며, 상기 제1 특징맵 및 상기 제2 특징맵 각각을 입력으로 하여 상기 RGB 이미지의 제3 특징맵 및 상기 열화상 이미지의 제4 특징맵을 각각 추출하는 복수의 공유 컨볼루션 레이어;
상기 복수의 공유 컨볼루션 레이어에 입력되거나 상기 복수의 공유 컨볼루션 레이어 중 적어도 일부의 공유 컨볼루션 레이어를 통과한 각 모달리티의 특징맵을 융합하는 복수의 융합 모듈; 및
상기 융합된 특징맵을 이용하여 상기 RGB 이미지 및 상기 열화상 이미지 내에서의 객체를 인식하는 인식부를 포함하되,
상기 객체 인식 네트워크는,
상기 RGB 이미지 및 상기 열화상 이미지가 언페어한 상황인 경우를 고려하여 멀티레이블에 기반하여 학습되며,
상기 멀티레이블의 레이블 할당하는 기준은, 객체가 RGB 도메인에만 발견되는 경우, 열화상 도메인에만 발견되는 경우 및 상기 RGB 도메인과 상기 열화상 도메인에 공존하는 경우에 따라 정의되는 객체 인식 장치. - 제1항에 있어서,
상기 복수의 제1 컨볼루션 레이어 및 상기 복수의 제2 컨볼루션 레이어는 객체 인식 네트워크에서 모달리티-특정 부분으로 정의되는 객체 인식 장치. - 제1항에 있어서,
상기 객체 인식 네트워크는 각 모달리티에 대해 독립적으로 수평 플립(horizontal flip) 및 랜덤 리사이즈 크랍(random resize crop)을 수행하는 세미-언페어 증강 기법(Semi-unpaired Augmentation)을 이용하여 전처리된 데이터를 이용하여 학습되는 객체 인식 장치. - 제1항에 있어서,
상기 RGB 이미지 및 상기 열화상 이미지는 서로 완전히 정렬되고 동기화된 이미지 페어와 완전히 정렬되거나 동기화되지 않은 언페어한 경우를 모두 포함하는 객체 인식 장치. - 삭제
- 삭제
- 제1항에 있어서,
상기 RGB 이미지 및 상기 열화상 이미지는 자율주행차에 적용된 센서를 통해 얻어지며, 상기 객체는 보행자인 객체 인식 장치. - 프로세서 및 메모리를 포함하는 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법으로서,
복수의 제1 컨볼루션 레이어에 RGB 이미지를 입력하여 상기 RGB 이미지에 상응하는 모달리티의 제1 특징맵을 추출하는 단계;
복수의 제2 컨볼루션 레이어에 열화상 이미지를 입력하여 상기 열화상 이미지에 상응하는 모달리티의 제2 특징맵을 추출하는 단계;
각 모달리티가 공유하는 복수의 공유 컨볼루션 레이어에 상기 제1 특징맵 및 상기 제2 특징맵 각각을 입력하여 상기 RGB 이미지의 제3 특징맵 및 상기 열화상 이미지의 제4 특징맵을 각각 추출하는 단계;
복수의 융합 모듈을 통해 상기 복수의 공유 컨볼루션 레이어에 입력되거나 상기 복수의 공유 컨볼루션 레이어 중 적어도 일부의 공유 컨볼루션 레이어를 통과한 각 모달리티의 특징맵을 융합하는 단계; 및
상기 융합된 특징맵을 이용하여 상기 RGB 이미지 및 상기 열화상 이미지 내에서의 객체를 인식하는 단계를 포함하되,
상기 단계들은, 상기 객체 인식 네트워크에서 수행되고,
상기 객체 인식 네트워크는 상기 RGB 이미지 및 상기 열화상 이미지가 언페어한 상황인 경우를 고려하여 멀티레이블에 기반하여 학습되며,
상기 멀티레이블의 레이블 할당하는 기준은, 객체가 RGB 도메인에만 발견되는 경우, 열화상 도메인에만 발견되는 경우 및 상기 RGB 도메인과 상기 열화상 도메인에 공존하는 경우에 따라 정의되는 객체 인식 방법. - 제8항에 있어서,
상기 RGB 이미지 및 상기 열화상 이미지는 서로 완전히 정렬되고 동기화된 이미지 페어와 완전히 정렬되거나 동기화되지 않은 언페어한 경우를 모두 포함하는 객체 인식 방법. - 제8항에 따른 방법을 수행하는 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210043351A KR102590622B1 (ko) | 2021-04-02 | 2021-04-02 | 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210043351A KR102590622B1 (ko) | 2021-04-02 | 2021-04-02 | 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220137368A KR20220137368A (ko) | 2022-10-12 |
KR102590622B1 true KR102590622B1 (ko) | 2023-10-17 |
Family
ID=83597881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210043351A KR102590622B1 (ko) | 2021-04-02 | 2021-04-02 | 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102590622B1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116883825B (zh) * | 2023-07-26 | 2024-08-02 | 南京信息工程大学 | 结合多模态数据融合和Multiplemix的水下目标检测方法 |
CN117992765B (zh) * | 2024-04-03 | 2024-06-28 | 华侨大学 | 基于动态新兴标记的偏标签学习方法、装置、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200104584A1 (en) * | 2018-09-28 | 2020-04-02 | Aptiv Technologies Limited | Object detection system of a vehicle |
WO2021000664A1 (zh) * | 2019-07-03 | 2021-01-07 | 中国科学院自动化研究所 | 跨模态目标检测中的差异自动校准方法、系统、装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102133876B1 (ko) | 2018-07-30 | 2020-07-14 | 주식회사 휴인스 | 객체 검출 장치 및 방법 |
KR102641116B1 (ko) * | 2018-08-23 | 2024-02-27 | 삼성전자주식회사 | 데이터 증강에 기초한 인식 모델 트레이닝 방법 및 장치, 이미지 인식 방법 및 장치 |
US10824947B2 (en) * | 2019-01-31 | 2020-11-03 | StradVision, Inc. | Learning method for supporting safer autonomous driving without danger of accident by estimating motions of surrounding objects through fusion of information from multiple sources, learning device, testing method and testing device using the same |
-
2021
- 2021-04-02 KR KR1020210043351A patent/KR102590622B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200104584A1 (en) * | 2018-09-28 | 2020-04-02 | Aptiv Technologies Limited | Object detection system of a vehicle |
WO2021000664A1 (zh) * | 2019-07-03 | 2021-01-07 | 中国科学院自动化研究所 | 跨模态目标检测中的差异自动校准方法、系统、装置 |
Non-Patent Citations (2)
Title |
---|
한국 공개특허공보 제10-2020-0022739호(2020.03.04.) 1부.* |
한국 공개특허공보 제10-2020-0096131호(2020.08.11.) 1부.* |
Also Published As
Publication number | Publication date |
---|---|
KR20220137368A (ko) | 2022-10-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | Progressive lidar adaptation for road detection | |
Rateke et al. | Road surface detection and differentiation considering surface damages | |
Kieu et al. | Task-conditioned domain adaptation for pedestrian detection in thermal imagery | |
US20210133518A1 (en) | Joint training of neural networks using multi-scale hard example mining | |
KR102590622B1 (ko) | 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법 및 장치 | |
CN107909026B (zh) | 基于小规模卷积神经网络年龄和/或性别评估方法及系统 | |
TWI666595B (zh) | 物件標示系統及方法 | |
US20160360186A1 (en) | Methods and systems for human action recognition using 3d integral imaging | |
WO2015192263A1 (en) | A method and a system for face verification | |
KR20210040415A (ko) | 물체 분류 방법 및 디바이스 | |
US20220058818A1 (en) | Object-centric three-dimensional auto labeling of point cloud data | |
WO2022104254A1 (en) | Efficient three-dimensional object detection from point clouds | |
Kaur et al. | A systematic review of object detection from images using deep learning | |
Kera et al. | A paced multi-stage block-wise approach for object detection in thermal images | |
US20230401826A1 (en) | Perception network and data processing method | |
Martinel et al. | Lord of the rings: Hanoi pooling and self-knowledge distillation for fast and accurate vehicle reidentification | |
Huang et al. | Measuring the absolute distance of a front vehicle from an in-car camera based on monocular vision and instance segmentation | |
KR102427884B1 (ko) | 객체 검출 모델 학습 장치 및 방법 | |
Li et al. | MODE: Multi-view omnidirectional depth estimation with 360∘ cameras | |
Zhang et al. | Capitalizing on RGB-FIR hybrid imaging for road detection | |
CN112668596B (zh) | 三维物体识别方法及装置、识别模型训练方法及装置 | |
Wu et al. | Calibrank: Effective LiDAR-camera extrinsic calibration by multi-modal learning to rank | |
Hausler et al. | Displacing objects: Improving dynamic vehicle detection via visual place recognition under adverse conditions | |
Yin et al. | Multi-Object Tracking with Object Candidate Fusion for Camera and LiDAR Data | |
Zhao et al. | Distance transform pooling neural network for lidar depth completion |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |