KR20220137368A - 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법 및 장치 - Google Patents

멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법 및 장치 Download PDF

Info

Publication number
KR20220137368A
KR20220137368A KR1020210043351A KR20210043351A KR20220137368A KR 20220137368 A KR20220137368 A KR 20220137368A KR 1020210043351 A KR1020210043351 A KR 1020210043351A KR 20210043351 A KR20210043351 A KR 20210043351A KR 20220137368 A KR20220137368 A KR 20220137368A
Authority
KR
South Korea
Prior art keywords
feature map
image
thermal image
rgb
modality
Prior art date
Application number
KR1020210043351A
Other languages
English (en)
Other versions
KR102590622B1 (ko
Inventor
최유경
김지원
김형준
김태주
김남일
황순민
Original Assignee
세종대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 세종대학교산학협력단 filed Critical 세종대학교산학협력단
Priority to KR1020210043351A priority Critical patent/KR102590622B1/ko
Publication of KR20220137368A publication Critical patent/KR20220137368A/ko
Application granted granted Critical
Publication of KR102590622B1 publication Critical patent/KR102590622B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법 및 장치를 개시한다. 본 발명에 따르면, 프로세서 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 미리 학습된 객체 인식 네트워크에 RGB 이미지 및 열화상 이미지를 입력하여 상기 RGB 이미지 및 열화상 이미지 중 적어도 하나에 존재하는 객체를 인식하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하되, 상기 객체 인식 네트워크는, 상기 RGB 이미지를 입력으로 하여 상기 RGB 이미지에 상응하는 모달리티의 제1 특징맵을 추출하는 복수의 제1 컨볼루션 레이어; 상기 열화상 이미지를 입력으로 하여 상기 열화상 이미지에 상응하는 모달리티의 제2 특징맵을 추출하는 복수의 제2 컨볼루션 레이어; 각 모달리티가 공유하며, 상기 제1 특징맵 및 상기 제2 특징맵 각각을 입력으로 하여 상기 RGB 이미지의 제3 특징맵 및 상기 열화상 이미지의 제4 특징맵을 각각 추출하는 복수의 공유 컨볼루션 레이어; 상기 복수의 공유 컨볼루션 레이어에 입력되거나 상기 복수의 공유 컨볼루션 레이어 중 적어도 일부의 공유 컨볼루션 레이어를 통과한 각 모달리티의 특징맵을 융합하는 복수의 융합 모듈; 및 상기 융합된 특징맵을 이용하여 상기 RGB 이미지 및 상기 열화상 이미지 내에서의 객체를 인식하는 인식부를 포함하는 객체 인식 장치가 제공된다.

Description

멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법 및 장치{Object detection method and apparatus in multispectral domain using multi-label learning}
본 발명은 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법 및 장치에 관한 것이다.
객체 인식, 특히 보행자 인식는 로봇 공학과 컴퓨터 비전에서 활발하게 논의되는 중요한 주제 중 하나이다.
조명 및 날씨 변화로 인해 기존의 RGB 기반 보행자 인식은 정확도가 낮은 문제점이 있다.
이러한 조건에서 인식 정확도를 향상시키기 위해 다양한 융합 기법이 제안되었으며, 그 중에서 열화상을 포함한 멀티스펙트럴 기법은 조명 등의 영향을 크게 받지 않기 때문에 큰 관심을 받고 있다.
종래의 데이터셋은 열화상과 완전히 정렬되고 동기화된 RGB 이미지 페어(pair)를 이용해야 하나, 실제 응용에서 완벽하게 정렬된 이미지 페어를 만들려면 빔 스플리터와 같이 특별히 설계된 하드웨어 장치가 필요하다.
멀티스펙트럴 이미지를 수집하는 실용적인 방법은 RGB 및 열화상 스테레오 비전 시스템과 Electro-Optical/Infra-Red을 사용하는 것이다. 그러나 편의성에도 불구하고 두 카메라의 화각의 차이로 부분적으로 겹쳐진 이미지 페어만 얻을 수 있다. 또는 열화상 센서와 RGB 센서의 광축이 일치된 Electro-Optical/Infra-Red을 이용할 경우 광축을 토대로 중첩된 영상을 얻을 수 있지만, 대부분의 열화상 센서와 RGB 센서의 해상도 차이로 완전히 중첩된 멀티스펙트럴 이미지를 생성하기가 어렵다.
KR 등록특허 10-2133876
상기한 종래기술의 문제점을 해결하기 위해, 본 발명은 멀티스펙트럴 이미지가 언페어한 상황에도 강인하게 객체를 인식할 수 있는 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법 및 장치를 제안하고자 한다.
상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따르면, 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 장치로서, 프로세서; 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 미리 학습된 객체 인식 네트워크에 RGB 이미지 및 열화상 이미지를 입력하여 상기 RGB 이미지 및 열화상 이미지 중 적어도 하나에 존재하는 객체를 인식하도록, 상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하되, 상기 객체 인식 네트워크는, 상기 RGB 이미지를 입력으로 하여 상기 RGB 이미지에 상응하는 모달리티의 제1 특징맵을 추출하는 복수의 제1 컨볼루션 레이어; 상기 열화상 이미지를 입력으로 하여 상기 열화상 이미지에 상응하는 모달리티의 제2 특징맵을 추출하는 복수의 제2 컨볼루션 레이어; 각 모달리티가 공유하며, 상기 제1 특징맵 및 상기 제2 특징맵 각각을 입력으로 하여 상기 RGB 이미지의 제3 특징맵 및 상기 열화상 이미지의 제4 특징맵을 각각 추출하는 복수의 공유 컨볼루션 레이어; 상기 복수의 공유 컨볼루션 레이어에 입력되거나 상기 복수의 공유 컨볼루션 레이어 중 적어도 일부의 공유 컨볼루션 레이어를 통과한 각 모달리티의 특징맵을 융합하는 복수의 융합 모듈; 및 상기 융합된 특징맵을 이용하여 상기 RGB 이미지 및 상기 열화상 이미지 내에서의 객체를 인식하는 인식부를 포함하는 객체 인식 장치가 제공된다.
상기 복수의 제1 컨볼루션 레이어 및 상기 복수의 제2 컨볼루션 레이어는 객체 인식 네트워크에서 모달리티-특정 부분으로 정의될 수 있다.
상기 객체 인식 네트워크는 각 모달리티에 대해 독립적으로 수평 플립(horizontal flip) 및 랜덤 리사이즈 크랍(random resize crop)을 수행하는 세미-언페어 증강 기법(Semi-unpaired Augmentation)을 이용하여 전처리된 데이터를 이용하여 학습될 수 있다.
상기 RGB 이미지 및 상기 열화상 이미지는 서로 완전히 정렬되고 동기화된 이미지 페어와 완전히 정렬되거나 동기화되지 않은 언페어한 경우를 모두 포함할 수 있다.
상기 객체 인식 네트워크는, 상기 RGB 이미지 및 상기 열화상 이미지가 언페어한 상황인 경우를 고려하여 멀티레이블에 기반하여 학습될 수 있다.
상기 멀티레이블의 레이블 할당하는 기준은, 객체가 RGB 도메인에만 발견되는 경우, 열화상 도메인에만 발견되는 경우 및 상기 RGB 도메인과 상기 열화상 도메인에 공존하는 경우에 따라 정의될 수 있다.
상기 RGB 이미지 및 상기 열화상 이미지는 자율주행차에 적용된 센서를 통해 얻어지며, 상기 객체는 보행자일 수 있다.
본 발명의 다른 측면에 따르면, 프로세서 및 메모리를 포함하는 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법으로서, 복수의 제1 컨볼루션 레이어에 RGB 이미지를 입력하여 상기 RGB 이미지에 상응하는 모달리티의 제1 특징맵을 추출하는 단계; 복수의 제2 컨볼루션 레이어에 열화상 이미지를 입력하여 상기 열화상 이미지에 상응하는 모달리티의 제2 특징맵을 추출하는 단계; 각 모달리티가 공유하는 복수의 공유 컨볼루션 레이어에 상기 제1 특징맵 및 상기 제2 특징맵 각각을 입력하여 상기 RGB 이미지의 제3 특징맵 및 상기 열화상 이미지의 제4 특징맵을 각각 추출하는 단계; 복수의 융합 모듈을 통해 상기 복수의 공유 컨볼루션 레이어에 입력되거나 상기 복수의 공유 컨볼루션 레이어 중 적어도 일부의 공유 컨볼루션 레이어를 통과한 각 모달리티의 특징맵을 융합하는 단계; 및 상기 융합된 특징맵을 이용하여 상기 RGB 이미지 및 상기 열화상 이미지 내에서의 객체를 인식하는 단계를 포함하는 객체 인식 방법이 제공된다.
본 발명의 다른 측면에 따르면, 상기한 방법을 수행하는 컴퓨터 판독 가능한 프로그램이 제공된다.
본 발명에 따르면, RGB 이미지 및 열화상 이미지의 특징맵을 추출함에 있어 공유 컨볼루션 레이어를 이용함으로써 객체 인식 속도를 향상시킬 수 있는 장점이 있다.
또한, 본 발명에 따르면, 멀티레이블 학습을 통해 멀티스펙트럴 이미지가 언페어한 상황에도 강인하게 객체를 인식할 수 있는 장점이 있다.
도 1은 본 발명의 바람직한 일 실시예에 따른 객체 인식 네트워크를 도시한 도면이다.
도 2는 본 발명의 바람직한 일 실시예에 따른 객체 인식 장치를 도시한 도면이다.
도 3은 본 실시예에 따른 보행자 인식이 기존 연구들보다 Miss rate에서 높은 성능을 보이는 것을 나타낸 도면이다.
도 4는 본 실시예에 따른 객체 인식 네트워크가 공유 컨볼루션 레이어를 통해 빠르 속도로 추론이 가능한 것을 나타낸 것이다.
도 5는 RGB 및 열화상 블랙 아웃과 같은 센서 고장 관련 데이터셋 실험 결과를 나타낸 것이다.
도 6은 두 대의 카메라가 페어링되지 않은 경우 데이터셋에 대한 실험 결과를 나타낸 것이다.
도 7은 본 발명의 일 실시예에 따른 객체 인식 장치의 성능을 나타낸 것이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.
그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
본 발명은 RGB 이미지 및 열화상 이미지를 포함하는 멀티스펙트럴 이미지가 완전히 정렬되고 동기화된 페어 상황뿐만 아니라, 그렇지 않은 언페어(Unpair)한 상황에서도 강인하게 객체 인식이 가능하도록 하는 멀티레이블을 적용한 멀티스펙트럴 객체 인식 아키텍쳐를 제안한다.
본 명세서에서 객체는 다양하게 정의될 수 있으나, 이하에서는 객체가 보행자인 경우를 중심으로 설명한다.
도 1은 본 발명의 바람직한 일 실시예에 따른 객체 인식 네트워크를 도시한 도면이다.
도 1을 참조하면, 본 실시예에 따른 객체 인식 네트워크는 객체 인식에서 많이 사용되는 SSD(Single Shot multibox Detector)에 멀티스펙트럴 보행자 인식에서 많이 사용되는 Halfway Fusion을 적용한다.
본 실시예에 따른 객체 인식 네트워크는 두 개의 독립적인 브랜치(즉, RGB 및 열화상)로 구성된 SSD와 유사한 네트워크로 정의될 수 있다.
도 1에 도시된 바와 같이, 본 실시예에 따른 객체 인식 네트워크는 RGB 이미지를 입력으로 하여 제1 특징맵을 추출하는 복수의 제1 컨볼루션 레이어(Conv1 내지 Conv4, 100-n)와 열화상 이미지를 입력으로 하여 제2 특징맵을 추출하는 복수의 제2 컨볼루션 레이어(Conv1 내지 Conv4, 102-n)를 포함한다.
여기서, 복수의 제1 및 제2 컨볼루션 레이어는 모달리티-특정 부분(modality-specific part)으로 정의된다.
또한, 본 실시예에 따른 객체 인식 네트워크는 각 모달리티가 공유하는 복수의 공유 컨볼루션 레이어(Conv5 내지 Conv10, 104-n)를 포함한다.
본 실시예에 따른 복수의 공유 컨볼루션 레이어(104)는 RGB 이미지 및 열화상 이미지에 상응하는 각 모달리티가 공유하는 레이어이며, 복수의 제1 컨볼루션 레이어(100) 및 제2 컨볼루션 레이어를 통해 추출된 제1 특징맵과 제2 특징맵을 각각 입력으로 하여 RGB 이미지의 제3 특징맵과 열화상 이미지의 제4 특징맵을 추출한다.
그리고, 본 실시예에 따른 객체 인식 네트워크는 RGB 및 열화상 이미지의 특징맵을 융합하는 복수의 융합 모듈(fusion module, 106-n)을 포함할 수 있다.
도 1에 도시된 바와 같이, 복수의 융합 모듈(106)은 복수의 공유 컨볼루션 레이어에 입력되는 제1 특징맵과 제2 특징맵을 융합하고, 또한, 복수의 공유 컨볼루션 레이어(106) 중 적어도 일부의 공유 컨볼루션 레이어를 통과한 각 모달리티의 특징맵을 융합한다.
도 1에서는 복수의 공유 컨볼루션 레이어 중 Conv5를 제외한 Conv6 내지 Conv10을 통과한 각 모달리티의 특징맵이 복수의 융합 모듈(106) 각각에 입력되어 융합된다.
복수의 융합 모듈에서의 출력이 인식부(Detection, 108)로 입력되고, 인식부(108)에서 보행자를 인식한다.
여기서, 복수의 공유 컨볼루션 레이어(104) 및 복수의 융합 모듈(106)은 모달리티-공유 부분으로 정의된다.
모달리티-특정 부분으로부터 추출된 RGB 이미지와 열화상 이미지의 특징맵이 모달리티-공유 부분에 입력되고, 모달리티-공유 부분이 다음과 같이 인식부(108)의 입력을 생성한다.
Figure pat00001
여기서,
Figure pat00002
는 융합된 특징맵이고,
Figure pat00003
Figure pat00004
는 복수의 공유 컨볼루션 레이어에서 추출된 RGB 이미지의 특징맵, 열화상 이미지의 특징맵이다.
그러나, 인식부(108)의 입력에서 일반적으로 모달리티-특정 정보가 손실되고 융합된 특징이 입력되면 모달리티-공유 부분이 각 모달리티의 정보를 보존하지 않는다.
이에 본 실시예에 따르면, 복수의 융합 모듈과 함께 재-파라미터화 기법(re-parameterization technique)을 제안된다.
본 실시예에 따르면, 모달리티-공유 부분에 각 모달리티의 융합된 특징맵(concatenated feature)을 입력으로 하는 대신, 각 모달리티의 특징맵을 독립적으로 입력하고 인식부(108)에 공급하기 전에 각 모달리티의 특징맵을 융합한다.
본 실시예에 따른 재-파라미터화는 다음의 수학식으로 표현된다.
Figure pat00005
여기서,
Figure pat00006
Figure pat00007
는 모달리티-특정 부분에서 추출된 RGB 및 열화상 이미지의 특징맵을 나타내고,
Figure pat00008
Figure pat00009
는 각각 모달리티-공유 부분에서 추출된 특징맵과 본 실시예에 따른 융합 모듈을 나타낸다.
도 1에 도시된 바와 같이, 실시간 적용을 위해 복수의 융합 모듈(106) 각각은 활성화 함수를 갖는 단일 컨볼루션 레이어를 기반으로 할 수 있다.
본 실시예에서는 RGB 및 열화상 이미지가 언페어한 상황을 고려하여 멀티스펙트럴 보행자 인식 프레임워크에서 멀티레이블 학습 기법을 도입한다.
여기서 기본 규칙은 보행자가 RGB 이미지와 열화상 이미지 중 적어도 하나에서 보여질 수 있다는 것이다.
예를 들어, 멀티스펙트럴 이미지들이 와이드베이스라인(wide-baseline) 스테레오 설정에 의해 얻어지면, 각 이미지에 겹치지 않는 영역이 존재한다.
이때, 본 실시예에 따른 객체 인식 네트워크는 RGB 전용 영역, 열화상 전용 영역 및 중첩 영역 등 보행자가 속한 영역을 인식할 수 있다. 이러한 관점에서 레이블을 할당하는 기준을 다음과 같이 정의한다.
Figure pat00010
여기서, [1, 0]은 보행자 한 명이 RGB 도메인에서만 발견되는 경우; [0, 1]은 그 반대; [1, 1] 보행자가 두 영역에 공존하는 경우이다.
본 실시예에 따른 멀티레이블 기법을 통해 객체 인식 네트워크는 입력된 멀티스펙트럴 이미지의 상태에 따라 특징맵을 적응적으로 생성할 수 있으므로 페어를 이루는 경우와 언페어한 경우 모두에서 보행자를 강력하게 인식할 수 있다.
언페어 상황은 보행자 인식에서 처리되어야 함에도 불구하고, 문제는 실질적으로 언페어 상황을 어떻게 얻는가이다.
멀티스펙트럴 데이터셋을 수집하고 모든 장면의 모든 개체에 주석을 추가하는 것이 가능하나, 모든 종류의 센서 구성에서 이러한 방식으로 이미지를 수집하는 것은 쉽지 않다. 이에, 본 실시예에서는 세미-언페어 증강 기법(Semi-unpaired Augmentation)을 이용한다.
본 실시예에 따른 주요 목표는 페어 및 언페어 경우 모두에서 보행자 인식 프레임워크의 일반성을 가지는 것이다.
즉, 객체 인식 네트워크는 보행자가 영향을 받는 양식을 구별할 수 있다.
이를 위해 완전히 정렬된 이미지 쌍에서 페어링되지 않은 이미지 쌍을 생성한다.
확대된 이미지의 왜곡을 방지하기 위해 수평 플립(horizontal flip) 및 랜덤 리사이즈 크랍(random resized crop)와 같은 기하학적인 변형만을 사용한다.
보다 구체적으로 수평 플립은 [RGB[X],T[X]], [RGB[O],T[X]], [RGB[X],T[O]] 및 [RGB[O],T[O]]와 같이 0.5의 확률로 각 모달리티에 독립적으로 적용된다. 이와 유사하게 랜덤 리사이즈 크랍도 이후에 0.5의 확률로 적용된다.
즉, 증강 기법은 0.75 확률로 페어를 끊고, 이를 이미지와 경계 상자 모두에 적용하여 증강된 모든 박스가 ground truth로 사용된다.
전술한 바와 같이,
Figure pat00011
는 인식부(108)에 입력되는 융합된 특징맵을 의미하며, 인식부(108)는 다양한 크기의 보행자를 인식하기 위해 서로 다른 해상도 맵을 가진 여러 융합된 특징맵을 입력으로 한다.
연결된 특징맵
Figure pat00012
은 다음과 같이 정의된다.
Figure pat00013
그리고 분류 함수(
Figure pat00014
)는 다음과 같이 정의된다.
Figure pat00015
여기서,
Figure pat00016
는 예측된 경계 상자의 신뢰도 점수를 나타내며, BG, R 및 T는 각각 배경, RGB 및 열화상을 나타낸다.
RGB 및 열화상 신뢰도 점수의 평균을 취하여 예측 점수를 계산한다.
멀티레이블 분류의 경우 네트워크는 종단간 방식으로 BCE (Binary Cross Entropy) 손실 함수를 최소화하여 최적화되며, 다음의 수학식과 같다.
Figure pat00017
지역화(즉, 박스 회귀)에 대한 손실 항은 SSD와 동일하며, 마지막으로 최종 손실 항은 다음과 같이 정의된다.
Figure pat00018
여기서,
Figure pat00019
는 두 손실 항의 균형을 맞추기 위한 가중치 팩터이다.
본 실시예에 따른 보행자 인식은 도 2에 도시된 바와 같이, 프로세서 및 메모리를 포함하는 장치에서 수행될 수 있다.
프로세서(200)는 컴퓨터 프로그램을 실행할 수 있는 CPU(central processing unit)나 그밖에 가상 머신 등을 포함할 수 있다.
메모리(202)는 고정식 하드 드라이브나 착탈식 저장 장치와 같은 불휘발성 저장 장치를 포함할 수 있다. 착탈식 저장 장치는 컴팩트 플래시 유닛, USB 메모리 스틱 등을 포함할 수 있다. 메모리는 각종 랜덤 액세스 메모리와 같은 휘발성 메모리도 포함할 수 있다.
본 발명의 일 실시예에 따르면, 메모리(202)에는 미리 학습된 객체 인식 네트워크에 RGB 이미지 및 열화상 이미지를 입력하여 상기 RGB 이미지 및 열화상 이미지 중 적어도 하나에 존재하는 객체를 인식하도록, 프로세서(200)에 의해 실행 가능한 프로그램 명령어가 저장된다.
여기서, 객체 인식 네트워크는, 전술한 바와 같이, RGB 이미지를 입력으로 하여 상기 RGB 이미지에 상응하는 모달리티의 제1 특징맵을 추출하는 복수의 제1 컨볼루션 레이어(100), 열화상 이미지를 입력으로 하여 상기 열화상 이미지에 상응하는 모달리티의 제2 특징맵을 추출하는 복수의 제2 컨볼루션 레이어(102), 각 모달리티가 공유하며, 상기 제1 특징맵 및 상기 제2 특징맵 각각을 입력으로 하여 상기 RGB 이미지의 제3 특징맵 및 상기 열화상 이미지의 제4 특징맵을 각각 추출하는 복수의 공유 컨볼루션 레이어(104), 상기 복수의 공유 컨볼루션 레이어(104)에 입력되거나 상기 복수의 공유 컨볼루션 레이어 중 적어도 일부의 공유 컨볼루션 레이어를 통과한 각 모달리티의 특징맵을 융합하는 복수의 융합 모듈(106) 및 상기 융합된 특징맵을 이용하여 상기 RGB 이미지 및 상기 열화상 이미지 내에서의 객체를 인식하는 인식부(108)를 포함할 수 있다.
이하에서는 본 실시예에 따른 객체 인식 기법(Multi label Pedestrian Detector, MLPD)이 기존 기법에 비해 높은 성능을 보이는 점을 살펴본다.
도 3은 본 실시예에 따른 보행자 인식이 기존 연구들보다 Miss rate에서 높은 성능을 보이는 것을 나타낸 도면이고, 도 4는 본 실시예에 따른 객체 인식 네트워크가 공유 컨볼루션 레이어를 통해 빠르 속도로 추론이 가능한 것을 나타낸 것이다.
또한, 본 실시예에 따르면, 실제 자율주행차에 적용하는 센서 세팅에서 발생할 수 있는 언페어 상황을 기존 데이터셋을 이용해 가상으로 구성하고, 해당 데이터셋에 대해서 평가를 진행한 결과 기존에 진행된 연구들보다 적은 성능 드랍을 보이는 동시에 단일 모달리티를 학습한 모델보다 높은 성능이 나타내는 것을 도 5 내지 6을 통해 확인할 수 있다.
여기서, 도 5는 RGB 및 열화상 블랙 아웃과 같은 센서 고장 관련 데이터셋 실험 결과를 나타낸 것이고, 도 6은 두 대의 카메라가 페어링되지 않은 경우 데이터셋에 대한 실험 결과를 나타낸 것이다.
도 6에서, (T-R) RGB : 왼쪽 컷오프 30 %, 열화상 : 오른쪽 컷오프 30 %, (R-T) RGB : 오른쪽 컷오프 30% 열화상 왼쪽 컷오프 30%이다.
나아가, 본 실시예에 따른 객체 인식 네트워크는 각 모달리티의 정보를 마지막 레이어까지 전달하기 위해 각각의 모달리티를 공유 컨볼루션 레이어(104)에 태우는 Shared Multi Fusion을 수행하기 때문에 도 7에 도시된 바와 같이 낮뿐만 아니라 밤에도 향상된 성능을 나타낸다.
상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

Claims (10)

  1. 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 장치로서,
    프로세서; 및
    상기 프로세서에 연결되는 메모리를 포함하되,
    상기 메모리는,
    미리 학습된 객체 인식 네트워크에 RGB 이미지 및 열화상 이미지를 입력하여 상기 RGB 이미지 및 열화상 이미지 중 적어도 하나에 존재하는 객체를 인식하도록,
    상기 프로세서에 의해 실행 가능한 프로그램 명령어들을 저장하되,
    상기 객체 인식 네트워크는,
    상기 RGB 이미지를 입력으로 하여 상기 RGB 이미지에 상응하는 모달리티의 제1 특징맵을 추출하는 복수의 제1 컨볼루션 레이어;
    상기 열화상 이미지를 입력으로 하여 상기 열화상 이미지에 상응하는 모달리티의 제2 특징맵을 추출하는 복수의 제2 컨볼루션 레이어;
    각 모달리티가 공유하며, 상기 제1 특징맵 및 상기 제2 특징맵 각각을 입력으로 하여 상기 RGB 이미지의 제3 특징맵 및 상기 열화상 이미지의 제4 특징맵을 각각 추출하는 복수의 공유 컨볼루션 레이어;
    상기 복수의 공유 컨볼루션 레이어에 입력되거나 상기 복수의 공유 컨볼루션 레이어 중 적어도 일부의 공유 컨볼루션 레이어를 통과한 각 모달리티의 특징맵을 융합하는 복수의 융합 모듈; 및
    상기 융합된 특징맵을 이용하여 상기 RGB 이미지 및 상기 열화상 이미지 내에서의 객체를 인식하는 인식부를 포함하는 객체 인식 장치.
  2. 제1항에 있어서,
    상기 복수의 제1 컨볼루션 레이어 및 상기 복수의 제2 컨볼루션 레이어는 객체 인식 네트워크에서 모달리티-특정 부분으로 정의되는 객체 인식 장치.
  3. 제1항에 있어서,
    상기 객체 인식 네트워크는 각 모달리티에 대해 독립적으로 수평 플립(horizontal flip) 및 랜덤 리사이즈 크랍(random resize crop)을 수행하는 세미-언페어 증강 기법(Semi-unpaired Augmentation)을 이용하여 전처리된 데이터를 이용하여 학습되는 객체 인식 장치.
  4. 제1항에 있어서,
    상기 RGB 이미지 및 상기 열화상 이미지는 서로 완전히 정렬되고 동기화된 이미지 페어와 완전히 정렬되거나 동기화되지 않은 언페어한 경우를 모두 포함하는 객체 인식 장치.
  5. 제1항에 있어서,
    상기 객체 인식 네트워크는,
    상기 RGB 이미지 및 상기 열화상 이미지가 언페어한 상황인 경우를 고려하여 멀티레이블에 기반하여 학습되는 객체 인식 장치.
  6. 제5항에 있어서,
    상기 멀티레이블의 레이블 할당하는 기준은, 객체가 RGB 도메인에만 발견되는 경우, 열화상 도메인에만 발견되는 경우 및 상기 RGB 도메인과 상기 열화상 도메인에 공존하는 경우에 따라 정의되는 객체 인식 장치.
  7. 제1항에 있어서,
    상기 RGB 이미지 및 상기 열화상 이미지는 자율주행차에 적용된 센서를 통해 얻어지며, 상기 객체는 보행자인 객체 인식 장치.
  8. 프로세서 및 메모리를 포함하는 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법으로서,
    복수의 제1 컨볼루션 레이어에 RGB 이미지를 입력하여 상기 RGB 이미지에 상응하는 모달리티의 제1 특징맵을 추출하는 단계;
    복수의 제2 컨볼루션 레이어에 열화상 이미지를 입력하여 상기 열화상 이미지에 상응하는 모달리티의 제2 특징맵을 추출하는 단계;
    각 모달리티가 공유하는 복수의 공유 컨볼루션 레이어에 상기 제1 특징맵 및 상기 제2 특징맵 각각을 입력하여 상기 RGB 이미지의 제3 특징맵 및 상기 열화상 이미지의 제4 특징맵을 각각 추출하는 단계;
    복수의 융합 모듈을 통해 상기 복수의 공유 컨볼루션 레이어에 입력되거나 상기 복수의 공유 컨볼루션 레이어 중 적어도 일부의 공유 컨볼루션 레이어를 통과한 각 모달리티의 특징맵을 융합하는 단계; 및
    상기 융합된 특징맵을 이용하여 상기 RGB 이미지 및 상기 열화상 이미지 내에서의 객체를 인식하는 단계를 포함하는 객체 인식 방법.
  9. 제8항에 있어서,
    상기 RGB 이미지 및 상기 열화상 이미지는 서로 완전히 정렬되고 동기화된 이미지 페어와 완전히 정렬되거나 동기화되지 않은 언페어한 경우를 모두 포함하는 객체 인식 방법.
  10. 제8항에 따른 방법을 수행하는 컴퓨터 판독 가능한 프로그램.




KR1020210043351A 2021-04-02 2021-04-02 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법 및 장치 KR102590622B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210043351A KR102590622B1 (ko) 2021-04-02 2021-04-02 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210043351A KR102590622B1 (ko) 2021-04-02 2021-04-02 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20220137368A true KR20220137368A (ko) 2022-10-12
KR102590622B1 KR102590622B1 (ko) 2023-10-17

Family

ID=83597881

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210043351A KR102590622B1 (ko) 2021-04-02 2021-04-02 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102590622B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116883825A (zh) * 2023-07-26 2023-10-13 南京信息工程大学 结合多模态数据融合和Multiplemix的水下目标检测方法
CN117992765A (zh) * 2024-04-03 2024-05-07 华侨大学 基于动态新兴标记的偏标签学习方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200022739A (ko) * 2018-08-23 2020-03-04 삼성전자주식회사 데이터 증강에 기초한 인식 모델 트레이닝 방법 및 장치, 이미지 인식 방법 및 장치
US20200104584A1 (en) * 2018-09-28 2020-04-02 Aptiv Technologies Limited Object detection system of a vehicle
KR102133876B1 (ko) 2018-07-30 2020-07-14 주식회사 휴인스 객체 검출 장치 및 방법
KR20200096131A (ko) * 2019-01-31 2020-08-11 주식회사 스트라드비젼 다양한 소스로부터 획득되는 정보의 퓨전을 통해 주변 객체의 모션을 예측함으로써, 사고 위험을 회피하여 안전한 자율 주행을 지원하는 학습 방법, 그리고 이를 이용한 학습 장치, 테스트 방법, 및 테스트 장치
WO2021000664A1 (zh) * 2019-07-03 2021-01-07 中国科学院自动化研究所 跨模态目标检测中的差异自动校准方法、系统、装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102133876B1 (ko) 2018-07-30 2020-07-14 주식회사 휴인스 객체 검출 장치 및 방법
KR20200022739A (ko) * 2018-08-23 2020-03-04 삼성전자주식회사 데이터 증강에 기초한 인식 모델 트레이닝 방법 및 장치, 이미지 인식 방법 및 장치
US20200104584A1 (en) * 2018-09-28 2020-04-02 Aptiv Technologies Limited Object detection system of a vehicle
KR20200096131A (ko) * 2019-01-31 2020-08-11 주식회사 스트라드비젼 다양한 소스로부터 획득되는 정보의 퓨전을 통해 주변 객체의 모션을 예측함으로써, 사고 위험을 회피하여 안전한 자율 주행을 지원하는 학습 방법, 그리고 이를 이용한 학습 장치, 테스트 방법, 및 테스트 장치
WO2021000664A1 (zh) * 2019-07-03 2021-01-07 中国科学院自动化研究所 跨模态目标检测中的差异自动校准方法、系统、装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116883825A (zh) * 2023-07-26 2023-10-13 南京信息工程大学 结合多模态数据融合和Multiplemix的水下目标检测方法
CN117992765A (zh) * 2024-04-03 2024-05-07 华侨大学 基于动态新兴标记的偏标签学习方法、装置、设备及介质

Also Published As

Publication number Publication date
KR102590622B1 (ko) 2023-10-17

Similar Documents

Publication Publication Date Title
Jaritz et al. xmuda: Cross-modal unsupervised domain adaptation for 3d semantic segmentation
US20240013506A1 (en) Joint training of neural networks using multi-scale hard example mining
Kieu et al. Task-conditioned domain adaptation for pedestrian detection in thermal imagery
Rateke et al. Road surface detection and differentiation considering surface damages
Saleh et al. Domain adaptation for vehicle detection from bird's eye view lidar point cloud data
CN107909026B (zh) 基于小规模卷积神经网络年龄和/或性别评估方法及系统
WO2021137946A1 (en) Forgery detection of face image
Zhang et al. Exploring event-driven dynamic context for accident scene segmentation
Farag A lightweight vehicle detection and tracking technique for advanced driving assistance systems
Lu et al. Superthermal: Matching thermal as visible through thermal feature exploration
KR20200143960A (ko) 영상을 이용한 객체 인식 장치 및 그 방법
Martinel et al. Lord of the rings: Hanoi pooling and self-knowledge distillation for fast and accurate vehicle reidentification
Kera et al. A paced multi-stage block-wise approach for object detection in thermal images
Kim et al. Unpaired cross-spectral pedestrian detection via adversarial feature learning
Berral-Soler et al. RealHePoNet: a robust single-stage ConvNet for head pose estimation in the wild
Alkhorshid et al. Road detection through supervised classification
KR102590622B1 (ko) 멀티레이블 학습을 이용한 멀티스펙트럴 도메인에서의 객체 인식 방법 및 장치
Ragusa et al. Egocentric Point of Interest Recognition in Cultural Sites.
Ji et al. Stereo 3D object detection via instance depth prior guidance and adaptive spatial feature aggregation
KR102427884B1 (ko) 객체 검출 모델 학습 장치 및 방법
Li et al. MODE: Multi-view omnidirectional depth estimation with 360∘ cameras
Li et al. Scene change detection: semantic and depth information
Zhang et al. Capitalizing on RGB-FIR hybrid imaging for road detection
Zhao et al. Distance transform pooling neural network for lidar depth completion
Ghali et al. CT-Fire: a CNN-Transformer for wildfire classification on ground and aerial images

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant