KR102259877B1

KR102259877B1 - 심층신경망을 기초로 다중 방향 영상에서 객체를 검출하기 위한 장치 및 이를 위한 방법

Info

Publication number: KR102259877B1
Application number: KR1020200181298A
Authority: KR
Inventors: 현지훈; 최우식; 김태규; 김재호; 강태학; 이대경; 강지석
Original assignee: 주식회사 딥노이드; 한국공항공사
Priority date: 2020-12-22
Filing date: 2020-12-22
Publication date: 2021-06-07

Abstract

다중 방향 영상에서 객체를 검출하기 위한 방법은 특징추출모듈이 동일한 객체에 대해 어느 하나의 축을 공유하면서 서로 다른 방향에서 촬영된 메인 영상 및 서브 영상이 입력되면, 입력된 메인 영상 및 서브 영상 각각에 대한 특징을 추출하여 적어도 하나의 메인 영상 특징맵 및 적어도 하나의 서브 영상 특징맵을 생성하는 단계와, 어텐션모듈이 상기 메인 영상 특징맵 및 상기 서브 영상 특징맵을 이용하여 어텐션맵을 생성하는 단계와, 결합모듈이 상기 메인 영상 특징맵 및 상기 어텐션맵을 결합하여 특징맵을 생성하는 단계와, 객체검출모듈이 상기 특징맵으로부터 상기 메인 영상 내의 객체를 검출하는 단계를 포함한다.

Description

심층신경망을 기초로 다중 방향 영상에서 객체를 검출하기 위한 장치 및 이를 위한 방법{Apparatus for detecting objects in multi-directional images based on deep neural network and method therefor}

본 발명은 영상에서 객체를 검출하는 기술에 관한 것으로, 보다 상세하게는, 심층신경망을 기초로 다중 방향 영상에서 객체를 검출하기 위한 장치 및 이를 위한 방법에 관한 것이다.

일반적으로, 영상에서 사용되는 일반적인 객체 검출(Object Detection) 알고리즘은 단방향의 입력만을 사용하여 학습 및 추론이 진행되었다.

한국공개특허 제2020-0010655호 2020년 01월 31일 공개 (명칭: 영상에서 객체를 인식하는 방법 및 장치)

본 발명의 목적은 심층신경망을 기반으로 다중 방향 영상에서 객체를 검출하기 위한 장치 및 이를 위한 방법을 제공함에 있다.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 다중 방향 영상에서 객체를 검출하기 위한 방법은 특징추출모듈이 동일한 객체에 대해 어느 하나의 축을 공유하면서 서로 다른 방향에서 촬영된 메인 영상 및 서브 영상이 입력되면, 입력된 메인 영상 및 서브 영상 각각에 대한 특징을 추출하여 적어도 하나의 메인 영상 특징맵 및 적어도 하나의 서브 영상 특징맵을 생성하는 단계와, 어텐션모듈이 상기 메인 영상 특징맵 및 상기 서브 영상 특징맵을 이용하여 어텐션맵을 생성하는 단계와, 결합모듈이 상기 메인 영상 특징맵 및 상기 어텐션맵을 결합하여 특징맵을 생성하는 단계와, 객체검출모듈이 상기 특징맵으로부터 상기 메인 영상 내의 객체를 검출하는 단계를 포함한다.

상기 어텐션맵을 생성하는 단계는 상기 어텐션모듈이 상기 메인 영상 특징맵 및 서브 영상 특징맵 각각을 압축하여 메인 압축 특징맵 및 서브 압축 특징맵을 생성하는 단계와, 상기 어텐션모듈이 상기 메인 압축 특징맵 및 상기 서브 압축 특징맵을 외적하여 상기 메인 영상 특징맵과 동일한 크기의 텐서를 생성하는 단계와, 상기 텐서에 대해 활성화 함수에 의한 연산을 수행함으로써 상기 메인 영상 특징맵으로부터 상기 메인 영상 및 상기 서브 영상의 비공유 축의 어텐션 가중치와 상기 서브 영상 특징맵으로부터 상기 메인 영상 및 상기 서브 영상의 공유 축의 어텐션 가중치를 결합한 어텐션맵을 생성하는 단계를 포함한다.

상기 메인 압축 특징맵 및 서브 압축 특징맵을 생성하는 단계는 상기 어텐션모듈이 상기 메인 영상 특징맵에 대해 상기 메인 영상 및 상기 서브 영상의 비공유 축 방향으로 풀링 연산을 수행하여 메인 압축 특징맵을 생성하는 단계와, 상기 어텐션모듈이 상기 서브 영상 특징맵에 대해 상기 메인 영상 및 상기 서브 영상의 공유 축 방향으로 풀링 연산을 수행하여 서브 압축 특징맵을 생성하는 단계를 포함한다.

상기 적어도 하나의 메인 영상 특징맵 및 적어도 하나의 서브 영상 특징맵을 생성하는 단계는 복수의 컨볼루션계층을 포함하는 백본네트워크가 상기 메인 영상 및 상기 서브 영상 각각에 대해 복수의 컨볼루션계층의 컨볼루션 연산을 통해 복수의 초기 메인특징맵 및 복수의 초기 서브특징맵을 생성하는 단계와, 특징피라미드네트워크가 상기 복수의 초기 메인특징맵 및 상기 복수의 초기 서브특징맵 각각의 적어도 일부를 기초로 상향(Bottom-up) 프로세스와, 하향(Top-down) 프로세스 및 측면연결(lateral connection)을 통해 상기 메인 영상 특징맵 및 상기 서브 영상 특징맵을 생성하는 단계를 포함한다.

상기 메인 영상 내의 객체를 검출하는 단계는 영역제안네트워크가 상기 특징맵에서 객체가 존재할 확률이 소정 수치 이상인 영역을 나타내는 적어도 하나의 관심 영역(ROI)을 도출하는 단계와, 검출네트워크가 상기 특징맵의 상기 관심 영역(ROI) 내의 객체가 복수의 클래스 각각에 속할 확률을 산출하는 단계를 포함한다.

상술한 바와 같은 목적을 달성하기 위한 본 발명의 바람직한 실시예에 따른 다중 방향 영상에서 객체를 검출하기 위한 장치는 동일한 객체에 대해 어느 하나의 축을 공유하면서 서로 다른 방향에서 촬영된 메인 영상 및 서브 영상이 입력되면, 입력된 메인 영상 및 서브 영상 각각에 대한 특징을 추출하여 적어도 하나의 메인 영상 특징맵 및 적어도 하나의 서브 영상 특징맵을 생성하는 특징추출모듈과, 상기 메인 영상 특징맵 및 상기 서브 영상 특징맵을 이용하여 어텐션맵을 생성하는 어텐션모듈과, 상기 메인 영상 특징맵 및 상기 어텐션맵을 결합하여 특징맵을 생성하는 결합모듈과, 상기 특징맵으로부터 상기 메인 영상 내의 객체를 검출하는 객체검출모듈을 포함한다.

상기 어텐션모듈은 상기 메인 영상 특징맵 및 서브 영상 특징맵 각각을 압축하여 메인 압축 특징맵 및 서브 압축 특징맵을 생성하고, 상기 메인 압축 특징맵 및 상기 서브 압축 특징맵을 외적하여 상기 메인 영상 특징맵과 동일한 크기의 텐서를 생성하고, 상기 텐서에 대해 활성화 함수에 의한 연산을 수행함으로써 상기 메인 영상 특징맵으로부터 상기 메인 영상 및 상기 서브 영상의 비공유 축의 어텐션 가중치와 상기 서브 영상 특징맵으로부터 상기 메인 영상 및 상기 서브 영상의 공유 축의 어텐션 가중치를 검출하여 결합한 어텐션맵을 생성하는 것을 특징으로 한다.

상기 어텐션모듈은 상기 메인 영상 특징맵에 대해 상기 메인 영상 및 상기 서브 영상의 비공유 축 방향으로 풀링 연산을 수행하여 메인 압축 특징맵을 생성하고, 상기 서브 영상 특징맵에 대해 상기 메인 영상 및 상기 서브 영상의 공유 축 방향으로 풀링 연산을 수행하여 서브 압축 특징맵을 생성하는 것을 특징으로 한다.

상기 특징추출모듈은 복수의 컨볼루션계층을 포함하며, 상기 메인 영상 및 상기 서브 영상 각각에 대해 복수의 컨볼루션계층의 컨볼루션 연산을 통해 복수의 초기 메인특징맵 및 복수의 초기 서브특징맵을 생성하는 백본네트워크와, 상기 복수의 초기 메인특징맵 및 상기 복수의 초기 서브특징맵 각각의 적어도 일부를 기초로 상향(Bottom-up) 프로세스와, 하향(Top-down) 프로세스 및 컨벌루션 연산을 통해 상기 메인 영상 특징맵 및 상기 서브 영상 특징맵을 생성하는 특징피라미드네트워크를 포함한다.

상기 객체검출모듈은 상기 특징맵에서 객체가 존재할 확률이 소정 수치 이상인 영역을 나타내는 적어도 하나의 관심 영역(ROI)을 도출하는 영역제안네트워크와, 상기 특징맵의 상기 관심 영역(ROI) 내의 객체가 복수의 클래스 각각에 속할 확률을 산출하는 검출네트워크를 포함한다.

본 발명에 따르면, 복수의 방향에서의 어텐션을 검출하고, 이를 상호 보완적으로 사용하여 객체를 검출함으로써 인공 지능 추론의 정확도를 획기적으로 향상시킬 수 있다.

도 1은 본 발명의 실시예에 따른 심층신경망을 기초로 다중 방향 영상에서 객체를 검출하기 위한 장치의 구성을 설명하기 위한 블록도이다.
도 2는 본 발명의 실시예에 따른 메인 영상과 서브 영상을 포함하는 다중 방향 영상을 설명하기 위한 도면이다.
도 3은 본 발명의 실시예에 따른 심층신경망을 기초로 다중 방향 영상에서 객체를 검출하기 위한 장치의 세부 구성을 설명하기 위한 블록도이다.
도 4는 본 발명의 실시예에 따른 심층신경망을 기초로 다중 방향 영상에서 객체를 검출하기 위한 장치 중 특징추출모듈의 세부 구성을 설명하기 위한 블록도이다.
도 5는 본 발명의 실시예에 따른 심층신경망을 기초로 다중 방향 영상에서 객체를 검출하기 위한 장치 중 어텐션모듈의 연산을 설명하기 위한 도면이다.
도 6은 본 발명의 실시예에 따른 심층신경망을 기초로 다중 방향 영상에서 객체를 검출하기 위한 장치 중 객체검출모듈의 세부 구성을 설명하기 위한 도면이다.
도 7은 본 발명의 실시예에 따른 심층신경망을 기초로 다중 방향 영상에서 객체를 검출하기 위한 방법을 설명하기 위한 흐름도이다.
도 8은 본 발명의 실시예에 따른 컴퓨팅 장치를 나타내는 도면이다.

본 발명의 상세한 설명에 앞서, 이하에서 설명되는 본 명세서 및 청구범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 아니 되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위해 용어의 개념으로 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서 본 명세서에 기재된 실시예와 도면에 도시된 구성은 본 발명의 가장 바람직한 실시예에 불과할 뿐, 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형 예들이 있을 수 있음을 이해하여야 한다.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이때, 첨부된 도면에서 동일한 구성 요소는 가능한 동일한 부호로 나타내고 있음을 유의해야 한다. 또한, 본 발명의 요지를 흐리게 할 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략할 것이다. 마찬가지의 이유로 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 또는 개략적으로 도시되었으며, 각 구성요소의 크기는 실제 크기를 전적으로 반영하는 것이 아니다.

먼저, 본 발명의 실시예에 따른 심층신경망을 기초로 다중 방향 영상에서 객체를 검출하기 위한 장치에 대해서 설명하기로 한다. 도 1은 본 발명의 실시예에 따른 심층신경망을 기초로 다중 방향 영상에서 객체를 검출하기 위한 장치의 구성을 설명하기 위한 블록도이다. 도 2는 본 발명의 실시예에 따른 메인 영상과 서브 영상을 포함하는 다중 방향 영상을 설명하기 위한 도면이다. 도 3은 본 발명의 실시예에 따른 심층신경망을 기초로 다중 방향 영상에서 객체를 검출하기 위한 장치의 세부 구성을 설명하기 위한 블록도이다. 도 4는 본 발명의 실시예에 따른 심층신경망을 기초로 다중 방향 영상에서 객체를 검출하기 위한 장치 중 특징추출모듈의 세부 구성을 설명하기 위한 블록도이다. 도 5는 본 발명의 실시예에 따른 심층신경망을 기초로 다중 방향 영상에서 객체를 검출하기 위한 장치 중 어텐션모듈의 연산을 설명하기 위한 도면이다. 도 6은 본 발명의 실시예에 따른 심층신경망을 기초로 다중 방향 영상에서 객체를 검출하기 위한 장치 중 객체검출모듈의 세부 구성을 설명하기 위한 도면이다. 먼저, 도 1을 참조하면, 본 발명의 실시예에 따른 심층신경망을 기초로 다중 방향 영상에서 객체를 검출하기 위한 장치는 촬영장치(10) 및 객체검출장치(20)를 포함한다.

촬영장치(10)는 객체를 촬영하기 위한 장치이다. 촬영장치(10)는 어느 하나의 객체를 촬영하여 메인 영상과 적어도 하나의 서브 영상을 생성한다. 도 2를 참조하면, 메인 영상 및 서브 영상은 3차원 좌표계에서 어느 하나의 축을 공유하며, 다른 2개의 축은 직교(orthogonal)한다. 서브 영상은 메인 영상과 어느 하나의 축을 공유하면서 다른 방향에서 촬영된 영상이다. 예컨대, 도 2의 객체(obj)를 촬영했을 때, 평면도(Top View: TOPV)가 메인 영상이라고 가정하면, 측면도(Side View: SIDV) 및 정면도(Front View: FRTV)가 서브 영상이 될 수 있다. 평면도(TOPV)와 측면도(SIDV)는 X축을 공유하지만, Y축 및 Z축은 공유하지 않는다. 또한, 평면도(TOPV)와 정면도(FRTV)는 Z축을 공유하지만, X축과 Y축은 공유하지 않는다. 촬영장치(10)가 촬영한 메인 영상 및 적어도 하나의 서브 영상은 객체검출장치(20)에 입력된다. 촬영장치(10)는 공항, 항만 등에서 세관 물품 검사를 위해 활용되는 X-ray 영상을 이용한 X-ray 검색기를 대표적으로 예시할 수 있다. 하지만, 본 발명을 이에 한정하는 것은 아니며, 일반적인 컬러 영상 카메라, 열화상 카메라를 이용하여 본 발명의 실시예에 따른 메인 영상 및 메인 영상과 어느 하나의 축을 공유하면서 다른 방향에서 촬영되는 서브 영상을 생성할 수 있는 장치에도 적용될 수 있다.

도 3을 참조하면, 객체검출장치(20)는 특징추출모듈(100), 어텐션모듈(200), 결합모듈(300) 및 객체검출모듈(400)을 포함한다.

특징추출모듈(100)은 촬영장치(10)로부터 메인 영상 및 서브 영상이 입력되면, 입력된 메인 영상 및 서브 영상 각각에 대한 특징을 추출하여 적어도 하나의 메인 영상 특징맵(MFM) 및 적어도 하나의 서브 영상 특징맵(SFM)을 생성한다.

도 4를 참조하면, 특징추출모듈(100)은 백본네트워크(Backbone Network: BN) 및 특징피라미드네트워크(Feature Pyramid Netwo가: FPN)를 포함한다.

백본네트워크(BN)는 복수의 컨볼루션계층(Convolution Layer: CL)을 포함한다. 백본네트워크(BN)는 예컨대, VGG-16, Resnet-50 또는 Resnet-101 등을 예시할 수 있다.

백본네트워크(BN)는 메인 영상 및 서브 영상이 입력되면, 메인 영상 및 서브 영상 각각에 대해 복수의 컨볼루션계층(CL)의 컨볼루션 연산을 통해 복수의 초기 메인특징맵(raw main feature map: rMF) 및 복수의 초기 서브특징맵(raw sub feature map: rSF)을 생성한다.

특징피라미드네트워크(FPN)는 복수의 초기 메인특징맵(rMF) 및 복수의 초기 서브특징맵(rSF) 각각의 적어도 일부를 기초로 상향(Bottom-up) 프로세스를 통해 추가로 복수의 초기 메인특징맵(rMF) 및 복수의 초기 서브특징맵(rSF)을 생성한 후, 복수의 초기 메인특징맵(rMF) 및 복수의 초기 서브특징맵(rSF)을 상향으로 순차로 나열한다. 또한, 특징피라미드네트워크(FPN)는 하향(Top-down) 프로세스를 통해 복수의 초기 메인특징맵(rMF) 및 복수의 초기 서브특징맵(rSF)으로부터 특징을 추출하여 복수의 초기 메인특징맵(rMF) 및 복수의 초기 서브특징맵(rSF) 각각에 대응하는 복수의 피라미드 메인특징맵(pMF) 및 복수의 피라미드 서브특징맵(pSF)을 생성한다. 이어서, 특징피라미드네트워크(FPN)는 복수의 피라미드 메인특징맵(pMF) 및 복수의 피라미드 서브특징맵(pSF)복수의 피라미드 메인특징맵(pMF) 및 복수의 피라미드 서브특징맵(pSF) 각각에 대해 컨볼루션 연산을 수행하여 복수의 메인 영상 특징맵(MFM) 및 복수의 서브 영상 특징맵(SFM)을 생성한다.

예를 들면, 백본네트워크(BN)는 5개의 컨볼루션계층(CL)을 포함한다고 가정한다. 그러면, 백본네트워크(BN)의 5개의 컨볼루션계층(CL) 각각은 5개의 초기 메인특징맵(rMF1, rMF2, rMF3, rMF4, rMF5) 및 5개의 초기 서브특징맵(rSF1, rSF2, rSF3, rSF4, rSF5)을 생성할 수 있다. 그러면, 특징피라미드네트워크(FPN)는 상향(Bottom-up) 프로세스에서 3개의 초기 메인특징맵(rMF3, rMF4, rMF5) 및 3개의 초기 서브특징맵(rSF3, rSF4, rSF5)을 이용할 수 있다. 상향(Bottom-up) 프로세스에서 백본네트워크(BN)는 3개의 초기 메인특징맵(rMF3, rMF4, rMF5) 및 3개의 초기 서브특징맵(rSF3, rSF4, rSF5) 중 마지막 초기 메인특징맵(rMF5) 및 마지막 초기 서브특징맵(rSF5) 각각으로부터 컨벌루션 연산을 통해 2개의 초기 특징맵을 추가하여 5개의 초기 메인특징맵(rMF3, rMF4, rMF5, rMF6, rMF7) 및 5개의 초기 서브특징맵(rSF3, rSF4, rSF5, rSF6, rSF7)을 생성한 후, 상향으로 순차로 나열한다. 그런 다음, 하향(Top-down) 프로세스에서 특징피라미드네트워크(FPN)는 상향으로 순차로 나열된 5개의 초기 메인특징맵(rMF3, rMF4, rMF5, rMF6, rMF7) 및 5개의 초기 서브특징맵(rSF3, rSF4, rSF5, rSF6, rSF7)으로부터 특징을 추출하여 대응하는 5개의 피라미드 메인특징맵(pMF3, pMF4, pMF5, pMF6, pMF7) 및 5개의 피라미드 서브특징맵(pSF3, pSF4, pSF5, pSF6, pSF7)을 생성한다. 이어서, 특징피라미드네트워크(FPN)는 5개의 피라미드 메인특징맵(pMF3, pMF4, pMF5, pMF6, pMF7) 및 5개의 피라미드 서브특징맵(pSF3, pSF4, pSF5, pSF6, pSF7) 각각에 대해 컨볼루션 연산을 수행하여 메인 영상 특징맵(MFM) 및 서브 영상 특징맵(SFM)을 생성한다.

도 5를 참조하면, 어텐션모듈(200)은 메인 영상 특징맵(MFM) 및 서브 영상 특징맵(SFM)을 이용하여 메인 영상 및 서브 영상의 비공유 축의 어텐션 가중치와 메인 영상 및 서브 영상의 공유 축의 어텐션 가중치를 검출하여 결합한 어텐션맵(Attention Map: ATM)을 생성한다. 이에 대해 보다 상세히 설명하면 다음과 같다.

어텐션모듈(200)은 메인 영상 특징맵(MFM) 및 서브 영상 특징맵(SFM) 각각을 압축하여 메인 압축 특징맵(cMFM) 및 서브 압축 특징맵(cSFM)을 생성한다. 이때, 어텐션모듈(200)은 메인 영상 특징맵(MFM)에 대해 메인 영상 및 서브 영상의 비공유 축 방향으로 풀링 연산을 수행하여 메인 압축 특징맵(cMFM)을 생성한다. 또한, 어텐션모듈(200)은 서브 영상 특징맵(SFM)에 대해 메인 영상 및 상기 서브 영상의 공유 축 방향으로 풀링 연산을 수행하여 서브 압축 특징맵(cSFM)을 생성한다. 예컨대, 도 2를 참조하면, 메인 영상이 평면도(TOPV)이고, 서브 영상이 측면도(SIDV)라고 가정한다. 그러면, 공유 축은 X축이고, 비공유 축은 Y축이 될 수 있다. 이러한 경우, 도 5에 도시된 바와 같이, 어텐션모듈(200)은 메인 영상 특징맵(MFM)에 대해 메인 영상 및 서브 영상의 비공유 축 방향인 Y축 방향으로 풀링 연산을 수행하여 메인 압축 특징맵(cMFM)을 생성한다(Y aix compression). 또한, 어텐션모듈(200)은 서브 영상 특징맵(SFM)에 대해 메인 영상 및 상기 서브 영상의 공유 축 방향으로 풀링 연산을 수행하여 서브 압축 특징맵(cSFM)을 생성한다(X aix compression). 다음으로, 어텐션모듈(200)은 메인 압축 특징맵(cMFM) 및 서브 압축 특징맵(cSFM)을 외적하여 메인 영상 특징맵(MFM)과 동일한 크기의 텐서(Tensor)를 생성한다. 이어서, 어텐션모듈(200)은 텐서(Tensor)에 대해 활성화 함수(activation function)에 의한 연산을 수행하여 어텐션맵(ATM)을 생성한다. 이로써, 메인 영상 및 서브 영상의 비공유 축의 어텐션 가중치와 메인 영상 및 서브 영상의 공유 축의 어텐션 가중치를 검출하여 결합한 어텐션맵(ATM)이 생성된다. 여기서, 활성화 함수는 시그모이드(Sigmoid)인 것이 바람직하다. 하지만, 활성화함수를 시그모이드에 한정하는 것은 아니다. 활성화함수로, 하이퍼볼릭탄젠트(tanh: Hyperbolic tangent), ELU(Exponential Linear Unit), ReLU(Rectified Linear Unit), Leakly ReLU, Maxout, Minout, Softmax 등을 사용할 수도 있다.

다시 도 3을 참조하면, 결합모듈(300)은 특징추출모듈(100)로부터 메인 영상 특징맵(MFM)을 입력받고, 어텐션모듈(200)로부터 어텐션맵(ATM)을 수신하여, 메인 영상 특징맵(MFM) 및 어텐션맵(ATM)을 원소곱(Element-wise Product)을 통해 결합하여 특징맵(FM)을 생성한다. 이러한 특징맵(FM)은 객체검출모듈(400)에 입력된다.

도 6을 참조하면, 객체검출모듈(400)은 특징맵(FM)으로부터 메인 영상 내의 적어도 하나의 객체를 검출하기 위한 것이다. 이러한 객체검출모듈(400)은 영역제안네트워크(region proposal network: RPN) 및 검출네트워크(Detection Network: DN)을 포함한다. 검출네트워크(Detection Network: DN)의 종류에 따라 영역제안네트워크(region proposal network: RPN)는 생략될 수 있다.

영역제안네트워크(RPN)는 특징맵(FM)에서 객체가 존재할 확률이 소정 수치 이상인 영역을 나타내는 적어도 하나의 관심 영역(region of interest: ROI)을 도출한다.

검출네트워크(Detection Network: DN)는 특징맵(FM)의 관심 영역(ROI) 내의 객체가 복수의 클래스 각각에 속할 확률을 산출한다. 만약, 검출네트워크(DN)가 3개의 클래스가 학습된 경우, 관심 영역(ROI) 내의 객체가 3개의 클래스 각각에 속할 확률을 산출한다. 이에 따라, 객체검출모듈(400)은 검출네트워크(DN)가 산출한 확률에 따라 객체를 검출할 수 있다. 즉, 객체검출모듈(400)은 관심 영역(ROI) 내에 산출된 확률이 소정 수치 이상이면서 가장 높은 클래스의 객체가 있는 것으로 판단하여, 이를 검출한다.

다음으로, 본 발명의 실시예에 따른 심층신경망을 기초로 다중 방향 영상에서 객체를 검출하기 위한 방법에 대해서 설명하기로 한다. 도 7은 본 발명의 실시예에 따른 심층신경망을 기초로 다중 방향 영상에서 객체를 검출하기 위한 방법을 설명하기 위한 흐름도이다.

도 7을 참조하면, 촬영장치(10)는 S110 단계에서 어느 하나의 객체를 촬영하여 메인 영상과 적어도 하나의 서브 영상을 생성한다. 서브 영상은 메인 영상과 어느 하나의 축을 공유하면서 다른 방향에서 촬영된 영상이다. 예컨대, 도 2의 객체(obj)를 촬영했을 때, 평면도(Top View: TOPV)가 메인 영상이라고 가정하면, 측면도(Side View: SIDV) 및 정면도(Front View: FRTV)가 서브 영상이 될 수 있다. 평면도(TOPV)와 측면도(SIDV)는 X축을 공유하지만, Y축 및 Z축은 공유하지 않는다. 또한, 평면도(TOPV)와 정면도(FRTV)는 Z축을 공유하지만, X축과 Y축은 공유하지 않는다. 촬영장치(10)가 촬영한 메인 영상 및 적어도 하나의 서브 영상은 객체검출장치(20)에 입력된다.

백본네트워크(BN)는 S120 단계에서 메인 영상 및 서브 영상이 입력되면, 메인 영상 및 서브 영상 각각에 대해 복수의 컨볼루션계층(CL)의 컨볼루션 연산을 통해 복수의 초기 메인특징맵(raw main feature map: rMF) 및 복수의 초기 서브특징맵(raw sub feature map: rSF) 을 생성한다.

이어서, 특징피라미드네트워크(FPN)는 S130 단계에서 복수의 초기 메인특징맵(rMF) 및 복수의 초기 서브특징맵(rSF) 각각의 적어도 일부를 기초로 상향(Bottom-up) 프로세스와, 하향(Top-down) 프로세스 및 컨벌루션 연산을 통해 메인 영상 특징맵(MFM) 및 서브 영상 특징맵(SFM)을 생성한다. 예컨대, 백본네트워크(BN)는 5개의 컨볼루션계층(CL)을 포함한다고 가정한다. 그러면, 백본네트워크(BN)의 5개의 컨볼루션계층(CL) 각각은 5개의 초기 메인특징맵(rMF1, rMF2, rMF3, rMF4, rMF5) 및 5개의 초기 서브특징맵(rSF1, rSF2, rSF3, rSF4, rSF5)을 생성할 수 있다. 그러면, 특징피라미드네트워크(FPN)는 상향(Bottom-up) 프로세스에서 3개의 초기 메인특징맵(rMF3, rMF4, rMF5) 및 3개의 초기 서브특징맵(rSF3, rSF4, rSF5)을 이용할 수 있다. 상향(Bottom-up) 프로세스에서 백본네트워크(BN)는 3개의 초기 메인특징맵(rMF3, rMF4, rMF5) 및 3개의 초기 서브특징맵(rSF3, rSF4, rSF5) 중 마지막 초기 메인특징맵(rMF5) 및 마지막 초기 서브특징맵(rSF5) 각각으로부터 컨벌루션 연산을 통해 2개의 초기 특징맵을 추가하여 5개의 초기 메인특징맵(rMF3, rMF4, rMF5, rMF6, rMF7) 및 5개의 초기 서브특징맵(rSF3, rSF4, rSF5, rSF6, rSF7)을 생성한 후, 상향으로 순차로 나열한다. 그런 다음, 하향(Top-down) 프로세스에서 특징피라미드네트워크(FPN)는 상향으로 순차로 나열된 5개의 초기 메인특징맵(rMF3, rMF4, rMF5, rMF6, rMF7) 및 5개의 초기 서브특징맵(rSF3, rSF4, rSF5, rSF6, rSF7)으로부터 특징을 추출하여 대응하는 5개의 피라미드 메인특징맵(pMF3, pMF4, pMF5, pMF6, pMF7) 및 5개의 피라미드 서브특징맵(pSF3, pSF4, pSF5, pSF6, pSF7)을 생성한다. 이어서, 특징피라미드네트워크(FPN)는 5개의 피라미드 메인특징맵(pMF3, pMF4, pMF5, pMF6, pMF7) 및 5개의 피라미드 서브특징맵(pSF3, pSF4, pSF5, pSF6, pSF7) 각각에 대해 컨볼루션 연산을 수행하여 메인 영상 특징맵(MFM) 및 서브 영상 특징맵(SFM)을 생성한다.

어텐션모듈(200)은 S140 단계에서 메인 영상 특징맵(MFM) 및 서브 영상 특징맵(SFM) 각각을 압축하여 메인 압축 특징맵(cMFM) 및 서브 압축 특징맵(cSFM)을 생성한다. 이때, 어텐션모듈(200)은 메인 영상 특징맵(MFM)에 대해 메인 영상 및 서브 영상의 비공유 축 방향으로 풀링 연산을 수행하여 메인 압축 특징맵(cMFM)을 생성한다. 또한, 어텐션모듈(200)은 서브 영상 특징맵(SFM)에 대해 메인 영상 및 상기 서브 영상의 공유 축 방향으로 풀링 연산을 수행하여 서브 압축 특징맵(cSFM)을 생성한다. 예컨대, 도 2를 참조하면, 메인 영상이 평면도(TOPV)이고, 서브 영상이 측면도(SIDV)라고 가정한다. 그러면, 공유 축은 X축이고, 비공유 축은 Y축이 될 수 있다. 이러한 경우, 도 5에 도시된 바와 같이, 어텐션모듈(200)은 메인 영상 특징맵(MFM)에 대해 메인 영상 및 서브 영상의 비공유 축 방향인 Y축 방향으로 풀링 연산을 수행하여 메인 압축 특징맵(cMFM)을 생성한다(Y aix compression). 또한, 어텐션모듈(200)은 서브 영상 특징맵(SFM)에 대해 메인 영상 및 상기 서브 영상의 공유 축 방향으로 풀링 연산을 수행하여 서브 압축 특징맵(cSFM)을 생성한다(X aix compression).

다음으로, 어텐션모듈(200)은 S150 단계에서 메인 압축 특징맵(cMFM) 및 서브 압축 특징맵(cSFM)을 외적하여 메인 영상 특징맵(MFM)과 동일한 크기의 텐서(Tensor)를 생성한다.

이어서, 어텐션모듈(200)은 S160 단계에서 텐서(Tensor)에 대해 활성화 함수(activation function)에 의한 연산을 수행함으로써, 메인 영상 특징맵(MFM)으로부터 추출된 메인 영상 및 서브 영상의 비공유 축의 어텐션 가중치와 서브 영상 특징맵(SFM)으로부터 추출된 메인 영상 및 서브 영상의 공유 축의 어텐션 가중치를 결합한 어텐션맵(Attention Map: ATM)을 생성한다.

다음으로, 결합모듈(300)은 S160 단계에서 메인 영상 특징맵(MFM) 및 어텐션맵(ATM)을 결합하여 최종적으로 특징맵(FM)을 생성한다. 이때, 결합모듈(300)은 메인 영상 특징맵(MFM) 및 어텐션맵(ATM)을 원소곱(Element-wise Product)을 통해 결합하여 특징맵(FM)을 생성한다. 이러한 특징맵(FM)은 객체검출모듈(400)에 입력된다.

객체검출모듈(400)의 영역제안네트워크(region proposal network: RPN)는 S170 단계에서 특징맵(FM)에서 객체가 존재할 확률이 소정 수치 이상인 영역을 나타내는 적어도 하나의 관심 영역(region of interest: ROI)을 도출한다.

이어서, 객체검출모듈(400)의 검출네트워크(Detection Network: DN)는 S180 단계에서 특징맵(FM)의 관심 영역(ROI) 내의 객체가 복수의 클래스 각각에 속할 확률을 산출한다. 만약, 검출네트워크(DN)가 3개의 클래스가 학습된 경우, 관심 영역(ROI) 내의 객체가 3개의 클래스 각각에 속할 확률을 산출한다.

그러면, 객체검출모듈(400)은 S190 단계에서 산출된 확률에 따라 객체를 검출한다. 즉, 객체검출모듈(400)은 관심 영역(ROI) 내에 산출된 확률이 소정 수치 이상이면서 가장 높은 클래스의 객체가 있는 것으로 판단하여, 이를 검출한다.

도 8은 본 발명의 실시예에 따른 컴퓨팅 장치를 나타내는 도면이다. 도 8의 컴퓨팅 장치(TN100)는 본 명세서에서 기술된 장치, 예컨대, 촬영장치(10) 혹은 객체검출장치(20)가 될 수 있다.

도 8의 실시예에서, 컴퓨팅 장치(TN100)는 적어도 하나의 프로세서(TN110), 송수신 장치(TN120), 및 메모리(TN130)를 포함할 수 있다. 또한, 컴퓨팅 장치(TN100)는 저장 장치(TN140), 입력 인터페이스 장치(TN150), 출력 인터페이스 장치(TN160) 등을 더 포함할 수 있다. 컴퓨팅 장치(TN100)에 포함된 구성 요소들은 버스(bus)(TN170)에 의해 연결되어 서로 통신을 수행할 수 있다.

프로세서(TN110)는 메모리(TN130) 및 저장 장치(TN140) 중에서 적어도 하나에 저장된 프로그램 명령(program command)을 실행할 수 있다. 프로세서(TN110)는 중앙 처리 장치(CPU: central processing unit), 그래픽 처리 장치(GPU: graphics processing unit), 또는 본 발명의 실시예에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다. 프로세서(TN110)는 본 발명의 실시예와 관련하여 기술된 절차, 기능, 및 방법 등을 구현하도록 구성될 수 있다. 프로세서(TN110)는 컴퓨팅 장치(TN100)의 각 구성 요소를 제어할 수 있다.

메모리(TN130) 및 저장 장치(TN140) 각각은 프로세서(TN110)의 동작과 관련된 다양한 정보를 저장할 수 있다. 메모리(TN130) 및 저장 장치(TN140) 각각은 휘발성 저장 매체 및 비휘발성 저장 매체 중에서 적어도 하나로 구성될 수 있다. 예를 들어, 메모리(TN130)는 읽기 전용 메모리(ROM: read only memory) 및 랜덤 액세스 메모리(RAM: random access memory) 중에서 적어도 하나로 구성될 수 있다.

송수신 장치(TN120)는 유선 신호 또는 무선 신호를 송신 또는 수신할 수 있다. 송수신 장치(TN120)는 네트워크에 연결되어 통신을 수행할 수 있다.

한편, 전술한 본 발명의 실시예에 따른 방법은 다양한 컴퓨터수단을 통하여 판독 가능한 프로그램 형태로 구현되어 컴퓨터로 판독 가능한 기록매체에 기록될 수 있다. 여기서, 기록매체는 프로그램 명령, 데이터 파일, 데이터구조 등을 단독으로 또는 조합하여 포함할 수 있다. 기록매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 예컨대 기록매체는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광 기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치를 포함한다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어를 포함할 수 있다. 이러한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 이와 같이, 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 균등론에 따라 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.

100: 특징추출모듈
200: 어텐션모듈
300: 결합모듈
400: 객체검출모듈

Claims

다중 방향 영상에서 객체를 검출하기 위한 방법에 있어서,
특징추출모듈이 동일한 객체에 대해 어느 하나의 축을 공유하면서 서로 다른 방향에서 촬영된 메인 영상 및 서브 영상이 입력되면, 입력된 메인 영상 및 서브 영상 각각에 대한 특징을 추출하여 적어도 하나의 메인 영상 특징맵 및 적어도 하나의 서브 영상 특징맵을 생성하는 단계;
어텐션모듈이 상기 메인 영상 특징맵 및 상기 서브 영상 특징맵을 이용하여 어텐션맵을 생성하는 단계;
결합모듈이 상기 메인 영상 특징맵 및 상기 어텐션맵을 결합하여 특징맵을 생성하는 단계; 및
객체검출모듈이 상기 특징맵으로부터 상기 메인 영상 내의 객체를 검출하는 단계;
를 포함하며,
상기 어텐션맵을 생성하는 단계는
상기 어텐션모듈이 상기 메인 영상 특징맵 및 서브 영상 특징맵 각각을 압축하여 메인 압축 특징맵 및 서브 압축 특징맵을 생성하는 단계;
상기 어텐션모듈이 상기 메인 압축 특징맵 및 상기 서브 압축 특징맵을 외적하여 상기 메인 영상 특징맵과 동일한 크기의 텐서를 생성하는 단계;
상기 텐서에 대해 활성화 함수에 의한 연산을 수행함으로써 상기 메인 영상 특징맵으로부터 상기 메인 영상 및 상기 서브 영상의 비공유 축의 어텐션 가중치와 상기 서브 영상 특징맵으로부터 상기 메인 영상 및 상기 서브 영상의 공유 축의 어텐션 가중치를 결합한 어텐션맵을 생성하는 단계;
를 포함하는 것을 특징으로 하는
객체를 검출하기 위한 방법.
삭제
제1항에 있어서,
상기 메인 압축 특징맵 및 서브 압축 특징맵을 생성하는 단계는
상기 어텐션모듈이 상기 메인 영상 특징맵에 대해 상기 메인 영상 및 상기 서브 영상의 비공유 축 방향으로 풀링 연산을 수행하여 메인 압축 특징맵을 생성하는 단계; 및
상기 어텐션모듈이 상기 서브 영상 특징맵에 대해 상기 메인 영상 및 상기 서브 영상의 공유 축 방향으로 풀링 연산을 수행하여 서브 압축 특징맵을 생성하는 단계;
를 포함하는 것을 특징으로 하는
객체를 검출하기 위한 방법.
제1항에 있어서,
상기 적어도 하나의 메인 영상 특징맵 및 적어도 하나의 서브 영상 특징맵을 생성하는 단계는
복수의 컨볼루션계층을 포함하는 백본네트워크가 상기 메인 영상 및 상기 서브 영상 각각에 대해 복수의 컨볼루션계층의 컨볼루션 연산을 통해 복수의 초기 메인특징맵 및 복수의 초기 서브특징맵을 생성하는 단계; 및
특징피라미드네트워크가 상기 복수의 초기 메인특징맵 및 상기 복수의 초기 서브특징맵 각각의 적어도 일부를 기초로 상향(Bottom-up) 프로세스와, 하향(Top-down) 프로세스 및 측면연결(lateral connection)을 통해 상기 메인 영상 특징맵 및 상기 서브 영상 특징맵을 생성하는 단계;
를 포함하는 것을 특징으로 하는
객체를 검출하기 위한 방법.
제1항에 있어서,
상기 메인 영상 내의 객체를 검출하는 단계는
영역제안네트워크가 상기 특징맵에서 객체가 존재할 확률이 소정 수치 이상인 영역을 나타내는 적어도 하나의 관심 영역(ROI)을 도출하는 단계; 및
검출네트워크가 상기 특징맵의 상기 관심 영역(ROI) 내의 객체가 복수의 클래스 각각에 속할 확률을 산출하는 단계;
를 포함하는 것을 특징으로 하는
객체를 검출하기 위한 방법.
다중 방향 영상에서 객체를 검출하기 위한 장치에 있어서,
동일한 객체에 대해 어느 하나의 축을 공유하면서 서로 다른 방향에서 촬영된 메인 영상 및 서브 영상이 입력되면, 입력된 메인 영상 및 서브 영상 각각에 대한 특징을 추출하여 적어도 하나의 메인 영상 특징맵 및 적어도 하나의 서브 영상 특징맵을 생성하는 특징추출모듈;
상기 메인 영상 특징맵 및 상기 서브 영상 특징맵을 이용하여 어텐션맵을 생성하는 어텐션모듈;
상기 메인 영상 특징맵 및 상기 어텐션맵을 결합하여 특징맵을 생성하는 결합모듈; 및
상기 특징맵으로부터 상기 메인 영상 내의 객체를 검출하는 객체검출모듈;
을 포함하며,
상기 어텐션모듈은
상기 메인 영상 특징맵 및 서브 영상 특징맵 각각을 압축하여 메인 압축 특징맵 및 서브 압축 특징맵을 생성하고,
상기 메인 압축 특징맵 및 상기 서브 압축 특징맵을 외적하여 상기 메인 영상 특징맵과 동일한 크기의 텐서를 생성하고,
상기 텐서에 대해 활성화 함수에 의한 연산을 수행함으로써 상기 메인 영상 특징맵으로부터 상기 메인 영상 및 상기 서브 영상의 비공유 축의 어텐션 가중치와 상기 서브 영상 특징맵으로부터 상기 메인 영상 및 상기 서브 영상의 공유 축의 어텐션 가중치를 검출하여 결합한 어텐션맵을 생성하는 것을 특징으로 하는
객체를 검출하기 위한 장치.
삭제
제6항에 있어서,
상기 어텐션모듈은
상기 메인 영상 특징맵에 대해 상기 메인 영상 및 상기 서브 영상의 비공유 축 방향으로 풀링 연산을 수행하여 메인 압축 특징맵을 생성하고,
상기 서브 영상 특징맵에 대해 상기 메인 영상 및 상기 서브 영상의 공유 축 방향으로 풀링 연산을 수행하여 서브 압축 특징맵을 생성하는 것을 특징으로 하는
객체를 검출하기 위한 장치.
제6항에 있어서,
상기 특징추출모듈은
복수의 컨볼루션계층을 포함하며, 상기 메인 영상 및 상기 서브 영상 각각에 대해 복수의 컨볼루션계층의 컨볼루션 연산을 통해 복수의 초기 메인특징맵 및 복수의 초기 서브특징맵을 생성하는 백본네트워크; 및
상기 복수의 초기 메인특징맵 및 상기 복수의 초기 서브특징맵 각각의 적어도 일부를 기초로 상향(Bottom-up) 프로세스와, 하향(Top-down) 프로세스 및 컨벌루션 연산을 통해 상기 메인 영상 특징맵 및 상기 서브 영상 특징맵을 생성하는 특징피라미드네트워크;
를 포함하는 것을 특징으로 하는
객체를 검출하기 위한 장치.
제6항에 있어서,
상기 객체검출모듈은
상기 특징맵에서 객체가 존재할 확률이 소정 수치 이상인 영역을 나타내는 적어도 하나의 관심 영역(ROI)을 도출하는 영역제안네트워크; 및
상기 특징맵의 상기 관심 영역(ROI) 내의 객체가 복수의 클래스 각각에 속할 확률을 산출하는 검출네트워크;
를 포함하는 것을 특징으로 하는
객체를 검출하기 위한 장치.