KR102051032B1 - 객체 탐지 장치 및 제어 방법 - Google Patents

객체 탐지 장치 및 제어 방법 Download PDF

Info

Publication number
KR102051032B1
KR102051032B1 KR1020180089778A KR20180089778A KR102051032B1 KR 102051032 B1 KR102051032 B1 KR 102051032B1 KR 1020180089778 A KR1020180089778 A KR 1020180089778A KR 20180089778 A KR20180089778 A KR 20180089778A KR 102051032 B1 KR102051032 B1 KR 102051032B1
Authority
KR
South Korea
Prior art keywords
region
image
cnn
detecting apparatus
area
Prior art date
Application number
KR1020180089778A
Other languages
English (en)
Inventor
김민영
김병학
이종혁
Original Assignee
경북대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 경북대학교 산학협력단 filed Critical 경북대학교 산학협력단
Priority to KR1020180089778A priority Critical patent/KR102051032B1/ko
Application granted granted Critical
Publication of KR102051032B1 publication Critical patent/KR102051032B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Computing arrangements based on biological models using neural network models
    • G06N3/04Architectures, e.g. interconnection topology
    • G06N3/0454Architectures, e.g. interconnection topology using a combination of multiple neural nets
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Computing arrangements based on biological models using neural network models
    • G06N3/04Architectures, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Computing arrangements based on biological models using neural network models
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/50Image enhancement or restoration by the use of more than one image, e.g. averaging, subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20224Image subtraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Abstract

객체 탐지 장치 및 제어 방법이 개시된다. 객체 탐지 장치의 제어 방법은 하나의 영상을 입력받는 단계, 입력받은 영상을 CNN(Convolution Neural Network)의 컨벌루션층의 사이즈에 기초하여 기 설정된 개수의 지역영역(local area)으로 분할하는 단계, CNN의 채널 개수에 대응하는 개수의 분할된 지역영역을 복수의 CNN 채널 각각에 입력하여 동시에 소형 객체를 식별하는 단계, 나머지 분할된 지역영역 각각에 대해서 소형 객체를 식별하는 단계를 순차적으로 반복하는 단계, MM 모드 또는 MB 모드를 선택받는 단계, 선택된 모드에 기초하여 CNN의 채널 개수에 대응하는 객체 탐지 대상 지역영역을 설정하는 단계 및 설정된 객체 탐지 대상 지역영역 각각을 복수의 CNN 채널 각각에 입력하여 동시에 소형 객체를 탐지하는 단계를 포함한다.

Description

객체 탐지 장치 및 제어 방법{OBJECT DETECTION APPARATUS AND CONTROLLING METHOD THEREOF}
본 개시는 객체 탐지 장치 및 제어 방법에 관한 것으로, 더욱 상세하게는 초소형의 물체를 실시간으로 자동 탐지하는 객체 탐지 장치 및 제어 방법에 관한 것이다.
전자광학추적시스템에서는 물체 탐지 및 인지 성능이 매우 중요하다. 최근 무인화 및 자동화 추세에 따라 전자광학추적시스템의 물체 탐지 및 인지 기능은 딥러닝 기반으로 구현되고 있다. 그러나, 전자광학추적시스템의 영상 해상도는 SXGA(1280×1024)급 이상으로 발전함에도 불구하고, 딥러닝 모델의 컨벌루션 신경망(Convolution Neural Network, CNN)의 내부 레이어 배열 확장의 제한으로 인해 딥러닝 기반의 전자광학추적시스템은 일정 크기 이하의 소형 물체는 탐지할 수 없는 제한이 따른다. 만일 일정 크기 이하의 소형 물체를 탐지할 수 있도록 CNN의 내부 레이어 배열이 확장되는 경우, 전자광학추적시스템이 처리해야 할 데이터의 양이 방대해지기 때문에 실시간으로 물체를 탐지할 수 없는 문제가 발생한다.
따라서, 실시간으로 물체를 탐지할 수 있도록 기존의 CNN 알고리즘을 사용하면서 소형 물체를 탐지할 수 있는 객체 탐지 기술에 대한 필요성이 존재한다.
본 개시는 상술한 문제점을 해결하기 위한 것으로, 본 개시의 목적은 소형 물체를 실시간으로 탐지할 수 있는 객체 탐지 장치 및 제어 방법을 제공하는 것이다.
이상과 같은 목적을 달성하기 위한 본 개시의 일 실시 예에 따르면, 객체 탐지 장치의 제어 방법은 하나의 영상을 입력받는 단계, 상기 입력받은 영상을 CNN(Convolution Neural Network)의 컨벌루션층의 사이즈에 기초하여 기 설정된 개수의 지역영역(local area)으로 분할하는 단계, 상기 CNN의 채널 개수에 대응하는 개수의 상기 분할된 지역영역을 복수의 CNN 채널 각각에 입력하여 동시에 소형 객체를 식별하는 단계, 나머지 분할된 지역영역 각각에 대해서 상기 소형 객체를 식별하는 단계를 순차적으로 반복하는 단계, MM 모드 또는 MB 모드를 선택받는 단계, 선택된 모드에 기초하여 상기 CNN의 채널 개수에 대응하는 객체 탐지 대상 지역영역을 설정하는 단계 및 상기 설정된 객체 탐지 대상 지역영역 각각을 상기 복수의 CNN 채널 각각에 입력하여 동시에 소형 객체를 탐지하는 단계를 포함한다.
그리고, 상기 객체 탐지 대상 지역영역을 설정하는 단계는 MB 모드가 선택된 경우, 식별된 소형 객체에 영역 상자(bounding box)를 설정하고, 상기 영역 상자의 개수에 기초하여 영역 상자 맵을 생성하며, 상기 생성된 영역 상자 맵에 기초하여 영역 상자를 많이 포함하는 지역영역 순서로 객체 탐지 대상 지역영역을 설정할 수 있다.
또한, 상기 객체 탐지 대상 지역영역을 설정하는 단계는 MM 모드가 선택된 경우, 다음 영상을 입력받아 소형 객체를 식별하고, 상기 입력된 다음 영상 및 상기 입력된 하나의 영상 간의 차영상(difference image)에 기초하여 돌출 맵(saliency map)을 생성하며, 상기 생성된 돌출 맵에 기초하여 넓은 면적의 돌출 영역을 포함하는 지역영역 순서로 객체 탐지 대상 지역영역을 설정할 수 있다.
또한, 상기 객체 탐지 대상 지역영역을 설정하는 단계는 상기 차영상이 안정화(stabilization)되도록 상기 입력된 하나의 영상을 기초로 상기 입력된 다음 영상의 카메라 움직임 성분을 보정한 후 상기 차영상(difference image)을 획득할 수 있다.
또한, 상기 분할하는 단계는 각각의 지역영역의 경계 부분에 위치한 상기 소형 객체의 탐지 오류를 방지하기 위해 상기 각각의 지역영역의 경계 부분이 인접한 지역영역의 경계 부분과 중복되도록 분할할 수 있다.
한편, 객체 탐지 장치의 제어 방법은 탐지된 소형 객체를 표시하는 단계를 더 포함할 수 있다.
이상과 같은 목적을 달성하기 위한 본 개시의 일 실시 예에 따르면, 객체 탐지 장치는 하나의 영상을 촬영하여 입력받는 카메라 및 상기 입력된 영상을 CNN(Convolution Neural Network)의 컨벌루션층의 사이즈에 기초하여 기 설정된 개수의 지역영역(local area)으로 분할하는 프로세서를 포함하고, 상기 프로세서는 상기 CNN의 채널 개수에 대응하는 개수의 상기 분할된 지역영역을 복수의 CNN 채널 각각에 입력하여 동시에 소형 객체를 식별하고, 나머지 분할된 지역영역 각각에 대해서 상기 소형 객체를 식별하는 단계를 순차적으로 반복하며, 선택된 MM 모드 또는 MB 모드에 기초하여 상기 CNN의 채널 개수에 대응하는 객체 탐지 대상 지역영역을 설정하고, 상기 설정된 객체 탐지 대상 지역영역 각각을 상기 복수의 CNN 채널 각각에 입력하여 동시에 소형 객체를 탐지한다.
그리고, 상기 프로세서는 MB 모드가 선택된 경우, 식별된 소형 객체에 영역 상자(bounding box)를 설정하고, 상기 영역 상자의 개수에 기초하여 영역 상자 맵을 생성하며, 상기 생성된 영역 상자 맵에 기초하여 영역 상자를 많이 포함하는 지역영역 순서로 객체 탐지 대상 지역영역을 설정할 수 있다.
또한, 상기 프로세서는 MM 모드가 선택된 경우, 다음 영상을 입력받아 소형 객체를 식별하고, 상기 입력된 다음 영상 및 상기 입력된 하나의 영상 간의 차영상(difference image)에 기초하여 돌출 맵(saliency map)을 생성하며, 상기 생성된 돌출 맵에 기초하여 넓은 면적의 돌출 영역을 포함하는 지역영역 순서로 객체 탐지 대상 지역영역을 설정할 수 있다.
또한, 상기 프로세서는 상기 차영상이 안정화(stabilization)되도록 상기 입력된 하나의 영상을 기초로 상기 입력된 다음 영상의 카메라 움직임 성분을 보정한 후 상기 차영상(difference image)을 획득할 수 있다.
또한, 상기 프로세서는 각각의 지역영역의 경계 부분에 위치한 상기 소형 객체의 탐지 오류를 방지하기 위해 상기 각각의 지역영역의 경계 부분이 인접한 지역영역의 경계 부분과 중복되도록 분할할 수 있다.
한편, 객체 탐지 장치는 탐지된 소형 객체를 표시하는 디스플레이를 더 포함할 수 있다.
이상 설명한 바와 같이, 본 개시의 다양한 실시 예에 따르면, 객체 탐지 장치 및 제어 방법은 소형 물체를 실시간으로 탐지할 수 있다.
그리고, 객체 탐지 장치 및 제어 방법은 두 개의 모드에 따라 화면의 주요 관심 영역을 기반으로 탐색함으로써 초당 프레임 수(Frames Per Second, FPS)를 증가시킬 수 있다.
또한, 객체 탐지 장치 및 제어 방법은 움직이는 물체에 대한 오탐률을 줄일 수 있다.
도 1은 본 개시의 일 실시 예에 따른 객체 탐지 장치의 블록도이다.
도 2는 본 개시의 일 실시 예에 따른 영상 분할 방법을 설명하는 도면이다.
도 3은 기존의 객체 탐지 장치에 적용되는 CNN을 도시한 도면이다.
도 4는 본 개시의 일 실시 예에 따른 CNN을 도시한 도면이다.
도 5는 본 개시의 일 실시 예에 따른 영역 상자 맵을 나타내는 도면이다.
도 6은 본 개시의 일 실시 예에 따른 카메라 움직임 성분을 보정하는 방법을 설명하는 도면이다.
도 7은 본 개시의 일 실시 예에 따른 돌출 영역을 설명하는 도면이다.
도 8은 본 개시의 일 실시 예에 따른 돌출 맵을 나타내는 도면이다.
도 9는 본 개시의 일 실시 예에 따른 객체 탐지 장치 제어 방법의 흐름도이다.
도 10은 본 개시의 일 실시 예에 따른 MM 모드 및 MB 모드에 따른 객체 탐지 장치 제어 과정을 나타내는 도면이다.
도 11은 기존 방식에 따른 객체 탐지 영상과 본 개시에 따른 객체 탐지 영상을 나타내는 도면이다.
이하에서는 첨부된 도면을 참조하여 다양한 실시 예를 보다 상세하게 설명한다. 본 명세서에 기재된 실시 예는 다양하게 변형될 수 있다. 특정한 실시 예가 도면에서 묘사되고 상세한 설명에서 자세하게 설명될 수 있다. 그러나, 첨부된 도면에 개시된 특정한 실시 예는 다양한 실시 예를 쉽게 이해하도록 하기 위한 것일 뿐이다. 따라서, 첨부된 도면에 개시된 특정 실시 예에 의해 기술적 사상이 제한되는 것은 아니며, 발명의 사상 및 기술 범위에 포함되는 모든 균등물 또는 대체물을 포함하는 것으로 이해되어야 한다.
제1, 제2 등과 같이 서수를 포함하는 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이러한 구성요소들은 상술한 용어에 의해 한정되지는 않는다. 상술한 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 명세서에서, "포함한다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
한편, 본 명세서에서 사용되는 구성요소에 대한 "모듈" 또는 "부"는 적어도 하나의 기능 또는 동작을 수행한다. 그리고, "모듈" 또는 "부"는 하드웨어, 소프트웨어 또는 하드웨어와 소프트웨어의 조합에 의해 기능 또는 동작을 수행할 수 있다. 또한, 특정 하드웨어에서 수행되어야 하거나 적어도 하나의 프로세서에서 수행되는 "모듈" 또는 "부"를 제외한 복수의 "모듈들" 또는 복수의 "부들"은 적어도 하나의 모듈로 통합될 수도 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
그 밖에도, 본 발명을 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그에 대한 상세한 설명은 축약하거나 생략한다. 한편, 각 실시 예는 독립적으로 구현되거나 동작될 수도 있지만, 각 실시 예는 조합되어 구현되거나 동작될 수도 있다.
도 1은 본 개시의 일 실시 예에 따른 객체 탐지 장치의 블록도이다.
도 1을 참조하면, 객체 탐지 장치(100)는 카메라(110) 및 프로세서(120)를 포함할 수 있다. 카메라(110)는 영상을 촬영하여 객체 탐지 장치(100)로 입력받는다. 예를 들어, 카메라(110)는 군사용/함정 장착용 전방 감시 열 영상 카메라(Forward Looking Infra Red, FLIR), 전자광학 열상 카메라(Electro Optic Infra Red, EO/IR), 열 영상 탐지추적 장치(Infra Red Search and Tracking system, IRST) 또는 보안용 감시용 영상 카메라(예, CCTV, TOD 등) 등을 포함할 수 있다. 그리고, 카메라(110)의 해상도는 SXGA(1280×1024) 이상일 수 있다. 카메라(110)에서 촬영된 영상은 프로세서(120)로 전달된다.
프로세서(120)는 카메라(110)로부터 전달된 영상을 CNN(Convolution Neural Network)의 컨벌루션층(convolution layer)의 사이즈에 기초하여 기 설정된 개수의 지역영역(local area)으로 분할한다. 그리고, 프로세서(120)는 분할된 지역영역을 CNN에 입력하여 객체를 식별한다.
예를 들어, 입력되는 영상의 해상도는 1280×1024일 수 있고, CNN의 컨벌루션층의 최초 사이즈는 448×448일 수 있다. 기존의 객체 탐지 장치는 전체 영상을 CNN에 입력하기 때문에 영상 데이터의 손실이 불가피하다. 따라서, 기존의 객체 탐지 장치는 일정 크기 이하의 소형 객체를 식별하지 못하는 문제점이 있다. 그러나, 본 개시의 객체 탐지 장치(100)는 컨벌루션층의 사이즈에 기초하여 입력된 영상을 지역영역으로 분할하고, 분할된 지역영역을 CNN에 입력한다. 예를 들어, 입력되는 영상의 해상도가 1280×1024인 경우, 본 개시의 객체 탐지 장치(100)는 9개의 지역영역으로 분할할 수 있다. 각각의 지역영역의 사이즈는 대략적으로 427×342일 수 있다. 본 개시의 객체 탐지 장치(100)는 427×342의 사이즈의 지역영역 영상을 CNN에 입력하여 처리하기 때문에 영상 데이터의 손실이 거의 없고, 기존의 객체 탐지 장치에서 식별할 수 없는 소형 객체도 식별할 수 있다. 일 실시 예로서, 소형 객체는 SXGA 해상도에서 약 36픽셀(6×6) 정도의 크기의 객체일 수 있다.
그리고, 객체는 사람, 자동차, 동물 또는 이동 수단 등을 포함할 수 있고, 칼을 든 사람, 총을 든 사람, 탱크, 사슴 등과 같이 구체적으로 설정될 수 있다. 객체 탐지 장치(100)는 특정 위치에서 특정 객체를 식별해야 하는 경우가 많다. 따라서, 객체 탐지 장치(100)에는 한두개의 특정 객체가 설정될 수도 있다. 객체 탐지 장치(100)가 특정 객체를 식별하기 위해 미리 대상 객체에 대한 학습 과정을 수행할 수 있다.
한편, 기존의 CNN은 RGB 성분을 포함하는 영상을 처리하기 위해 3개의 채널을 포함한다. 그러나, 감시용 영상 카메라 또는 열 영상 카메라는 대체로 흑백 영상을 입력받는다. 따라서, 본 개시의 객체 탐지 장치(100)는 3개의 지역영역을 각각 CNN의 3개의 채널에 동시에 입력하여 객체를 식별할 수 있다. 그리고, 객체 탐지 장치(100)는 나머지 분할된 지역영역 각각에 대해서 상술한 과정을 반복하여 전체 지역영역에 포함된 객체를 식별할 수 있다.
예를 들어, 상술한 바와 같이, 객체 탐지 장치(100)는 입력된 영상을 9개의 지역영역으로 분할할 수 있다. 객체 탐지 장치(100)는 1번 내지 3번 지역영역을 CNN의 3개의 채널에 각각 입력하여 1번 내지 3번 지역영역에 포함된 객체를 식별할 수 있다. 객체 탐지 장치(100)는 1번 내지 3번 지역영역에 대한 데이터 처리가 종료되면, 동일한 방식으로 4번 내지 6번 지역영역에 포함된 객체를 식별할 수 있다. 객체 탐지 장치(100)는 4번 내지 6번 지역영역에 대한 데이터 처리가 종료되면, 동일한 방식으로 7번 내지 9번 지역영역에 포함된 객체를 식별할 수 있다.
객체 탐지 장치(100)는 전체 지역영역에 대한 데이터 처리가 종료되면, 선택된 MM(Moving saliency Map) 모드 또는 MB(Maximum Bounding box) 모드에 기초하여 객체 탐지 대상 지역영역을 설정한다. MM 모드는 하나의 영상과 다음 영상 간의 차영상(difference image)에 기초하여 객체의 돌출 영역(saliency area)를 추출하고, 추출된 돌출 영역에 기초하여 돌출 맵(saliency map)을 생성한 후 생성된 돌출 맵에 기초하여 객체 탐지 대상 지역영역을 설정하는 모드를 의미한다. 그리고, MB 모드는 식별된 객체에 영역 상자(bounding box)를 설정하고, 설정된 영역 상자에 기초하여 영역 상자 맵(bounding box map)을 생성한 후 생성된 영역 상자 맵에 기초하여 객체 탐지 대상 지역영역을 설정하는 모드를 의미한다. 구체적인 MM 모드 및 MB 모드의 동작은 후술한다.
객체 탐지 장치(100)는 설정된 객체 탐지 대상 지역영역 각각을 CNN 채널에 입력하여 동시에 객체를 탐지한다. 그리고, 객체 탐지 장치(100)는 설정된 객체 탐지 대상 지역영역에 포함된 객체를 탐지하다가 기 설정된 시간이 초과되면 다시 전체 지역영역에 대한 객체 식별 과정을 반복할 수 있다.
한편, 도 1에는 도시되지 않았으나, 객체 탐지 장치(100)는 디스플레이, 통신 인터페이스 또는 메모리를 더 포함할 수도 있다. 디스플레이는 전체 영상에서 식별된 객체를 표시하거나 설정된 객체 탐지 대상 지역영역에 포함되어 탐지된 객체를 표시할 수 있다. 통신 인터페이스는 카메라(110)에서 촬영된 영상, 전체 영상에서 식별된 객체 정보 또는 설정된 객체 탐지 대상 지역영역에 포함되어 탐지된 객체 정보를 외부 장치로 전송할 수 있다. 그리고, 메모리는 카메라(110)에서 촬영된 영상, 전체 영상에서 식별된 객체 정보 또는 설정된 객체 탐지 대상 지역영역에 포함되어 탐지된 객체 정보를 저장할 수 있고, 지역영역 분할 정보, 전체 지역영역에 대해 객체를 식별하기 위한 설정 시간 등의 데이터 및 객체 탐지 과정을 수행하는 소프트웨어를 저장할 수 있다.
아래에서는 구체적인 객체 탐지 과정을 설명한다.
도 2는 본 개시의 일 실시 예에 따른 영상 분할 방법을 설명하는 도면이다.
도 2를 참조하면, 지역영역으로 분할된 영상(10)이 도시되어 있다. 객체 탐지 장치는 입력된 영상(10)을 CNN의 컨벌루션층의 사이즈에 기초하여 지역영역으로 분할한다. 예를 들어, 컨벌루션층의 최초 사이즈는 448×448이고, 입력된 영상(10)의 사이즈는 1280×1024일 수 있다. 객체 탐지 장치는 컨벌루션층의 사이즈에 기초하여 입력된 영상(10)을 9개의 지역영역으로 분할할 수 있다. 분할된 지역영역의 사이즈는 대략적으로 427×342일 수 있다. 객체 탐지 장치는 적용되는 CNN의 컨벌루션층의 사이즈에 따라 분할되는 지역영역의 개수를 설정할 수 있다. 예를 들어, CNN의 컨벌루션층의 사이즈가 640×512라면, SVGA의 해상도를 가지는 객체 탐지 장치는 입력된 영상을 4개의 지역영역으로 분할할 수 있다. 분할된 지역영역의 사이즈는 대략적으로 640×512일 수 있다. 또한, CNN의 컨벌루션층의 사이즈가 224×224라면, SVGA의 해상도를 가지는 객체 탐지 장치는 입력된 영상을 25개의 지역영역으로 분할할 수도 있다. 분할된 지역영역의 사이즈는 대략적으로 256×205일 수 있다.
한편, 객체 탐지 장치는 각각의 지역영역의 경계 부분이 인접한 지역영역의 경계 부분과 중복되도록 입력된 영상(10)을 분할할 수 있다. 도 2에 도시된 바와 같이, 1번 지역영역(11)은 a×b의 사이즈로 분할될 수 있다. 그리고, 1번 지역영역의 c 영역은 2번 지역영역(12)과 중복되고, d 영역은 4번 지역영역(14)와 중복될 수 있다. 만일, 지역영역이 중복되는 영역 없이 분할되는 경우, 객체 탐지 장치는 지역영역의 경계 부분에 위치하는 객체를 식별하지 못할 수 있다. 따라서, 객체 탐지 장치는 경계 부분이 중복되도록 입력된 영상(10)을 지역영역으로 분할함으로써 지역영역의 경계 부분에 위치하는 객체도 문제없이 식별할 수 있다. 즉, 객체 탐지 장치는 각각의 지역영역의 경계 부분에 위치한 객체의 탐지 오류를 방지하기 위해 각각의 지역영역의 경계 부분이 인접한 지역영역의 경계 부분과 중복되도록 분할할 수 있다.
도 3은 기존의 객체 탐지 장치에 적용되는 CNN을 도시한 도면이다.
기존의 객체 탐지 장치에 적용되는 CNN은 복수의 컨벌루션층(convolution layer), 커넥션층(connection layer), 임베딩층(embedding layer), 합성표현층(composite representation layer) 및 감지층(detection layer) 등을 포함할 수 있다. 도 3에 도시된 CNN은 기존의 객체 탐지 장치에 적용되어 공지된 기술이므로 구체적인 설명은 생략한다. 기존의 객체 탐지 장치에 적용되는 일반적인 CNN은 RGB 데이터를 처리하기 위해 3개의 채널을 포함할 수 있다. 3개의 채널은 각각 R, G, B 데이터를 처리할 수 있다. 본 개시의 객체 탐지 장치는 기존의 객체 탐지 장치에 적용되는 CNN을 이용하면서 빠르게 영상을 처리할 수 있다. 아래에서는 본 개시의 객체 탐지 장치에 적용되는 CNN 구조를 설명한다.
도 4는 본 개시의 일 실시 예에 따른 CNN을 도시한 도면이다.
본 개시의 객체 탐지 장치에 적용되는 CNN의 구조도 기존의 객체 탐지 장치에 적용되는 CNN 구조와 유사하다. 다만, 감시용 영상 카메라 또는 열 영상 카메라는 대체로 흑백 영상을 입력받기 때문에 RGB 데이터를 각각 처리하는 CNN의 복수의 채널은 하나의 지역영역 데이터를 처리할 수 있다. 즉, 객체 탐지 장치가 하나의 영상을 9개의 지역영역으로 분할하는 경우, CNN의 각각의 채널은 1번 내지 3번의 지역영역 데이터를 처리하여 객체를 식별할 수 있다. 1번 내지 3번의 지역영역 데이터 처리가 종료되면, CNN의 각각의 채널은 4번 내지 6번의 지역영역 데이터를 처리하여 객체를 식별할 수 있다. 4번 내지 6번의 지역영역 데이터 처리가 종료되면, CNN의 각각의 채널은 7번 내지 9번의 지역영역 데이터를 처리하여 객체를 식별할 수 있다. 즉, 객체 탐지 장치는 분할된 지역영역을 복수의 CNN 채널 각각에 입력하여 동시에 객체를 식별할 수 있다. 그리고, 객체 탐지 장치는 나머지 지역영역 각각에 대해 상술한 과정을 순차적으로 반복할 수 있다.
객체 탐지 장치는 MM 모드 또는 MB 모드에 따라 객체 탐지 대상 지역영역을 설정할 수 있다. 상술한 예에서, 객체 탐지 장치는 3개의 지역영역을 객체 탐지 대상 지역영역으로 설정할 수 있다. 객체 탐지 장치는 객체 탐지 대상 지역영역으로 설정된 3개의 지역영역 각각을 CNN 채널 각각에 입력하여 동시에 객체를 탐지할 수 있다.
따라서, 본 개시의 객체 탐지 장치는 기존 객체 탐지 장치의 처리 과정을 약간 수정하여 객체 탐지를 수행할 수 있으므로 호환성 면에서 유리하고, CNN 컨벌루션층의 사이즈에 기초하여 지역영역을 분할하여 데이터를 처리하므로 소형 객체를 식별할 수 있으며, 객체 탐지 대상 지역영역을 대상으로 객체를 탐지하므로 실시간으로 빠르게 객체를 탐지할 수 있는 효과가 있다.
만일, 카메라에서 입력되는 영상이 RGB 성분을 가지는 경우, 도 3에서 설명한 3개의 일반적인 CNN을 적용하여 동일한 과정을 수행할 수 있다. 입력 영상이 RGB 성분을 가지는 경우, 입력 영상의 모든 지역영역에 포함된 객체를 식별하는 과정은 흑백 영상에 포함된 객체를 식별하는 과정보다 많은 시간이 소요될 수 있다. 그러나, 본 개시의 객체 탐지 장치는 객체 탐지 대상 지역영역을 설정하여 객체를 탐지하기 때문에 기존의 방식보다는 빠르게 객체를 탐지할 수 있다.
아래에서는 MM 모드 및 MB 모드의 동작에 대해 설명한다.
도 5는 본 개시의 일 실시 예에 따른 영역 상자 맵을 나타내는 도면이다.
도 5를 참조하면, 지역영역으로 분할된 입력 영상(10)이 도시되어 있다. 상술한 바와 같이, 객체 탐지 장치는 입력된 영상(10)을 기 설정된 개수의 지역영역으로 분할한다. 객체 탐지 장치는 CNN을 통해 각각의 지역영역에 포함된 객체(1)를 식별한다. MB 모드가 선택된 경우, 객체 탐지 장치는 식별된 객체(1) 각각에 영역 상자(3)를 설정할 수 있다. MB 모드는 식별된 객체에 영역 상자(bounding box)를 설정하여 영역 상자의 개수에 기초하여 객체 탐지 대상 지역영역을 설정하는 모드를 의미한다. 객체 탐지 장치는 지역영역으로 분할된 입력 영상에 대해 영역 상자(3)가 설정된 영역 상자 맵을 생성할 수 있다. 객체 탐지 장치는 각 지역영역에 설정된 영역 상자의 개수를 식별할 수 있다. 그리고, 객체 탐지 장치는 영역 상자 맵에 포함된 각 지역영역의 영역 상자 개수에 기초하여 영역 상자를 많이 포함하는 지역영역 순서로 객체 탐지 대상 지역영역을 설정할 수 있다.
도 5에 도시된 예와 같이, 객체 탐지 장치는 입력 영상(10)을 9개의 지역영역으로 분할할 수 있고, 각 지역영역 내에서 식별된 객체(1) 각각에 영역 상자(3)가 설정된 영역 상자 맵을 생성할 수 있다. 객체 탐지 장치는 1번 지역영역(11)에 1개, 2번 지역영역(12)에 2개, 3번 지역영역(13)에 3개, 5번 지역영역(15)에 5개, 6번 지역영역(16)에 4개, 9번 지역영역(19)에 1개의 영역 상자 개수를 식별할 수 있다. 객체 탐지 장치에는 객체 탐지 대상 지역영역의 개수가 3개로 설정될 수 있다. 따라서, 객체 탐지 장치는 영역 상자의 개수가 많은 순서대로 5번 지역영역(15), 6번 지역영역(16) 및 3번 지역영역(13)을 객체 탐지 대상 지역영역으로 설정할 수 있다. 그리고, 객체 탐지 장치는 CNN의 각 채널에 5번 지역영역(15), 6번 지역영역(16) 및 3번 지역영역(13)의 데이터를 입력하여 객체를 탐지할 수 있다.
객체 탐지 장치는 MB 모드에서 상술한 과정을 통해 객체를 탐지할 수 있다. 아래에서는 MM 모드 동작 과정을 설명한다.
도 6은 본 개시의 일 실시 예에 따른 카메라 움직임 성분을 보정하는 방법을 설명하는 도면이다.
MM 모드는 하나의 영상과 다음 영상 간의 차영상(difference image)에 기초하여 객체의 돌출 영역(saliency area)를 추출하여 돌출 영역의 면적에 기초하여 객체 탐지 대상 지역영역을 설정하는 모드를 의미한다. 객체 탐지 장치는 차영상을 통해 돌출 영역을 추출할 때 카메라의 움직임 성분을 보정하는 과정을 수행할 수 있다.
도 6을 참조하면, 입력 영상에 포함된 객체(나무, 자동차)가 도시되어 있다. 이전 영상의 객체는 점선으로 표시된 나무와 자동차이고, 다음 영상의 객체는 실선으로 표시된 나무와 자동차이다. 객체 탐지 장치는 이전 영상의 객체에서 특징점(5a, 7a)을 추출하고, 다음 영상의 객체에서 특정점(5b, 7b)을 추출할 수 있다. 객체 탐지 장치는 이전 영상과 다음 영상 각각에서 추출된 특징점의 대응 관계를 산출할 수 있다. 객체 탐지 장치는 추출된 특징점의 대응 관계가 일정한 방향과 거리를 나타내는 경우, 카메라가 움직인 것으로 판단할 수 있다. 그리고, 객체 탐지 장치는 다음 영상의 객체의 위치를 대응 관계에 기초하여 이동시킬 수 있다.
도 6에 도시된 바와 같이, 두 개의 영상에 포함된 나무의 특징점(5a, 5b)의 관계와 두 개의 영상에 포함된 자동차의 특징점(7a, 7b)의 관계가 유사한 특징을 나타내는 경우, 객체 탐지 장치는 카메라가 움직인 것으로 판단하여 이전 영상의 객체의 위치를 보정하거나 다음 영상의 객체의 위치를 보정할 수 있다. 그리고, 객체 탐지 장치는 입력된 이전 영상과 다음 영상 간의 차영상(difference image)를 획득할 수 있는데, 카메라의 움직임을 보정하면 안정화(stabilization)된 차영상을 획득할 수 있다. 즉, 객체 탐지 장치는 차영상이 안정화(stabilization)되도록 입력된 하나의 영상을 기초로 입력된 다음 영상의 카메라 움직임 성분을 보정한 후 차영상(difference image)을 획득할 수 있다.
도 7은 본 개시의 일 실시 예에 따른 돌출 영역을 설명하는 도면이다.
도 7(a)에는 이전 영상에 포함된 자동차와 다음 영상에 포함된 자동차가 도시되어 있다. 카메라의 움직임 성분이 보정된 상태에서, 자동차는 일정 거리 이동할 수 있다. 객체 탐지 장치는 다음 영상과 이전 영상의 차영상을 생성할 수 있다. 즉, 다음 영상에 포함된 자동차의 영역 중 제2 영역(22)은 다음 영상에만 포함된 영역이고, 이전 영상에 포함된 자동차의 영역 중 제1 영역(21)은 이전 영상에만 포함된 영역이다. 그리고, 제3 영역(23)은 이전 영상 및 다음 영상에 모두 포함된 영역이다. 다음 영상과 이전 영상의 차영상을 생성하면 중복된 제3 영역(23)은 제거될 수 있다.
도 7(b)에는 차영상으로 생성된 돌출 영역이 도시되어 있다. 즉, 차영상에 의해 이전 영상과 다음 영상에만 포함된 제1 영역(25a) 및 제2 영역(25b)은 남고, 중복된 제3 영역(26)은 제거된 돌출 영역이 생성될 수 있다. 객체 탐지 장치는 각 지역영역에 포함된 대상 객체의 돌출 영역의 면적에 기초하여 객체 탐지 대상 지역영역을 설정할 수 있다.
도 8은 본 개시의 일 실시 예에 따른 돌출 맵을 나타내는 도면이다.
도 8을 참조하면, 지역영역으로 분할된 입력영상(10)에 돌출 영역이 표시된 돌출 맵(saliency map)이 도시되어 있다.
도 8에 도시된 예와 같이, 객체 탐지 장치는 입력 영상(10)을 9개의 지역영역으로 분할할 수 있고, 각 지역영역 내에서 돌출 영역(9)이 표시된 돌출 맵을 생성할 수 있다. 도 8의 예에서, 이전 영상과 다음 영상 간의 차영상에 의해 돌출 맵은 1번 지역영역(11), 2번 지역영역(12), 3번 지역영역(13), 4번 지역영역(14), 5번 지역영역(15), 6번 지역영역(16), 7번 지역영역(17)에 돌출 영역을 표시할 수 있다. 객체 탐지 장치에는 객체 탐지 대상 지역영역의 개수가 3개로 설정될 수 있다. 따라서, 객체 탐지 장치는 돌출 영역의 면적이 넓은 순서대로 4번 지역영역(14), 6번 지역영역(16) 및 2번 지역영역(12)을 객체 탐지 대상 지역영역으로 설정할 수 있다. 그리고, 객체 탐지 장치는 CNN의 각 채널에 4번 지역영역(14), 6번 지역영역(16) 및 2번 지역영역(12)의 데이터를 입력하여 객체를 탐지할 수 있다.
지금까지 객체 탐지 장치가 객체를 탐지하는 다양한 실시 예를 설명하였다. 아래에서는 객체 탐지 장치의 제어 방법을 설명한다.
도 9는 본 개시의 일 실시 예에 따른 객체 탐지 장치 제어 방법의 흐름도이다.
객체 탐지 장치는 하나의 영상을 입력받는다(S910). 객체 탐지 장치는 카메라를 통해 영상을 입력받을 수 있다. 예를 들어, 카메라(110)는 군사용/함정 장착용 전방 감시 열 영상 카메라(Forward Looking Infra Red, FLIR), 전자광학 열상 카메라(Electro Optic Infra Red, EO/IR), 열 영상 탐지추적 장치(Infra Red Search and Tracking system, IRST) 또는 보안용 감시용 영상 카메라(예, CCTV, TOD 등) 등을 포함할 수 있다. 그리고, 카메라(110)의 해상도는 SXGA(1280×1024) 이상일 수 있다.
객체 탐지 장치는 입력받은 영상을 CNN의 컨벌루션층의 사이즈에 기초하여 기 설정된 개수의 지역영역으로 분할한다(S920). 예를 들어, 컨벌루션층의 최초 사이즈는 448×448, 입력된 영상(10)의 사이즈는 1280×1024인 경우, 객체 탐지 장치는 입력된 영상을 9개의 지역영역으로 분할할 수 있다. 분할된 지역영역의 사이즈는 대략적으로 427×342일 수 있다. 그리고, 객체 탐지 장치는 각각의 지역영역의 경계 부분이 인접한 지역영역의 경계 부분과 중복되도록 분할할 수 있다.
객체 탐지 장치는 CNN의 채널 개수에 대응하는 개수의 분할된 지역 영역을 복수의 CNN 채널 각각에 입력하여 동시에 객체를 식별하고(S930), 나머지 분할된 지역 영역 각각에 대해서 객체를 식별하는 과정을 순차적으로 반복한다(S940). 예를 들어, CNN의 채널이 3개이고 객체 탐지 장치가 입력 영상을 9개의 지역영역으로 분할한 경우, 객체 탐지 장치는 1번 내지 3번 지역영역의 데이터를 각각 CNN 채널에 입력하여 동시에 객체를 식별할 수 있다. 그리고, 객체 탐지 장치는 상술한 과정을 반복하여 4번 내지 6번 지역영역의 데이터 및 7번 내지 9번 지역영역의 데이터를 순차적으로 CNN 채널에 입력하여 순차적으로 객체를 식별할 수 있다.
객체 탐지 장치는 MM 모드 또는 MB 모드를 선택받는다(S950). MM 모드는 이전 영상과 다음 영상 간의 차영상에 기초하여 돌출 맵을 생성하고, 돌출 맵에 기초하여 객체 탐지 대상 지역영역을 설정하는 모드이다. MB 모드는 식별된 객체에 영역 상자가 설정된 영역 상자 맵을 생성하고, 영역 상자 맵에 기초하여 객체 탐지 대상 지역영역을 설정하는 모드이다.
객체 탐지 장치는 선택된 모드에 기초하여 CNN의 채널 개수에 대응하는 객체 탐지 대상 지역영역을 설정한다(S960). 예를 들어, CNN의 채널 개수는 3개일 수 있고, 객체 탐지 장치는 각 모드별 기준에 따라 3개의 객체 탐지 대상 지역영역을 설정할 수 있다. 객체 탐지 장치는 설정된 객체 탐지 대상 지역영역 각각을 복수의 CNN 채널 각각에 입력하여 동시에 객체를 탐지한다(S970).
도 10은 본 개시의 일 실시 예에 따른 MM 모드 및 MB 모드에 따른 객체 탐지 장치 제어 과정을 나타내는 도면이다.
객체 탐지 장치는 카메라를 통해 영상을 입력받는다(S1010). 객체 탐지 장치는 입력된 영상을 기 설정된 지역영역으로 분할한다(S1020). 객체 탐지 장치는 CNN의 컨벌루션층의 사이즈에 기초하여 입력된 영상을 지역영역으로 분할할 수 있다. 예를 들어, 입력된 영상의 해상도가 1280×1024이고, CNN의 컨벌루션층의 사이즈가 448×448인 경우, 객체 탐지 장치는 입력된 영상을 9개의 지역영역으로 분할할 수 있다.
객체 탐지 장치는 CNN의 각 채널로 하나의 지역영역 데이터를 입력하여 객체를 탐지한다(S1030). CNN의 채널은 3개일 수 있고, 객체 탐지 장치는 3개의 지역영역 데이터를 동시에 처리할 수 있다. 객체 탐지 장치는 나머지 6개의 지역영역 데이터도 동일한 방법으로 순차적으로 처리할 수 있다.
MB 모드인 경우, 객체 탐지 장치는 각각의 지역영역에 포함된 객체에 영역 상자를 설정한다(S1040). 객체 탐지 장치는 기 설정된 시간마다 영역 상자를 새로 설정할 수 있다. 예를 들어, 객체 탐지 장치는 10프레임마다 영상에 포함된 객체에 새롭게 영역 상자를 설정할 수 있다. 즉, 객체 탐지 장치는 10프레임마다 입력 영상 전체를 다시 9개의 지역영역으로 분할하고, 모든 지역영역 데이터를 동시에 그리고 순차적으로 CNN에 입력하여 객체를 식별할 수 있다. 그리고, 객체 탐지 장치는 MB 모드인 경우 객체에 영역 상자를 설정할 수 있다.
객체 탐지 장치는 영역 상자가 포함된 영역 상자 맵을 생성한다(S1050). 객체 탐지 장치는 기 설정된 시간마다 영역 상자 맵을 새로 생성할 수 있다. 예를 들어, 객체 탐지 장치는 3초마다 영역 상자 맵을 새로 생성할 수 있다.
객체 탐지 장치는 MB 모드에서 영역 상자 맵 및 우선순위에 기초하여 객체 탐지 대상 지역영역을 설정한다(S1060, S1070). 객체 탐지 장치는 각 지역영역에 포함된 영역 상자의 개수가 많은 순서대로 객체 탐지 대상 지역영역을 설정할 수 있다. 예를 들어, 객체 탐지 장치에는 객체 탐지 대상 지역영역의 개수가 3개로 설정될 수 있고, 객체 탐지 대상 지역영역은 각 지역영역에 포함된 영역 상자가 많은 순서대로 3개의 지역영역을 객체 탐지 대상 지역영역으로 설정할 수 있다.
객체 탐지 장치는 설정된 객체 탐지 대상 지역영역을 CNN의 각 채널로 입력하여 객체를 탐지할 수 있다.
MM 모드인 경우, 객체 탐지 장치는 다음 영상을 입력받는다(S1080). 객체 탐지 장치는 돌출 맵을 생성한다(S1090). 객체 탐지 장치는 이전 영상과 다음 영상의 차영상을 통해 객체의 돌출 영역을 추출할 수 있다. 그리고, 객체 탐지 장치는 각 지역영역에 돌출 영역이 포함된 돌출 맵을 생성할 수 있다. 객체 탐지 장치는 기 설정된 시간마다 돌출 맵을 새로 생성할 수 있다. 예를 들어, 객체 탐지 장치는 3초마다 돌출 맵을 새로 생성할 수 있다. 한편, 객체 탐지 장치는 돌출 맵을 생성하기 전에 카메라 보정 과정을 수행할 수 있다.
객체 탐지 장치는 MM 모드에서 돌출 맵 및 우선순위에 기초하여 객체 탐지 대상 지역영역을 설정한다(S1060, S1070). 객체 탐지 장치는 각 지역영역에 포함된 돌출 영역의 면적이 넓은 순서대로 객체 탐지 대상 지역영역을 설정할 수 있다. 예를 들어, 객체 탐지 장치에는 객체 탐지 대상 지역영역의 개수가 3개로 설정될 수 있고, 객체 탐지 대상 지역영역은 각 지역영역에 포함된 돌출 영역의 면적이 넓은 순서대로 3개의 지역영역을 객체 탐지 대상 지역영역으로 설정할 수 있다.
객체 탐지 장치는 설정된 객체 탐지 대상 지역영역을 CNN의 각 채널로 입력하여 객체를 탐지할 수 있다.
도 11은 기존 방식에 따른 객체 탐지 영상과 본 개시에 따른 객체 탐지 영상을 나타내는 도면이다.
도 11(a)에는 기존 방식에 따른 객체 탐지 영상이고, 도 11(b)에는 본 개시에 따른 객체 탐지 영상이 도시되어 있다. 본 개시에 따른 객체 탐지 영상에는 기존 방식으로 탐지되지 않은 객체(31, 32, 33, 34)가 포함되어 있다.
기존의 객체 탐지 방식은 SXGA 해상도에서 최소 약 256픽셀(16×16) 크기 이상의 객체를 탐지할 수 있다. 그러나, 본 개시의 객체 탐지 방식은 SXGA 해상도에서 약 36픽셀(6×6) 정도의 소형 객체도 탐지를 할 수 있다. 그리고, 기존 방식은 영상 전체 데이터를 처리하여 객체를 탐지하므로 초당프레임수(FPS)가 작고 움직이는 물체를 탐지할 때 오탐률(false alarm)이 크다는 단점이 있다. 반면에, 본 개시의 객체 탐지 방식은 상황이나 객체에 따라 두 개의 모드를 선택적으로 적용하고 관심영역 기반으로 객체를 탐지하므로 FPS가 증가하고 움직이는 물체에 대한 오탐률이 작다.
본 개시의 객체 탐지 장치는 군사무기체계(항공기용 및 드론용 카메라), 보안(CCTV, 설치용 군사용 관측장비), 의료분야 또는 비전검사장비 등에 적용될 수 있다.
상술한 다양한 실시 예에 따른 객체 탐지 장치의 제어 방법은 컴퓨터 프로그램 제품으로 제공될 수도 있다. 컴퓨터 프로그램 제품은 S/W 프로그램 자체 또는 S/W 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)를 포함할 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
또한, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100: 객체 탐지 장치
110: 카메라 120: 프로세서

Claims (12)

  1. 하나의 영상을 입력받는 단계;
    상기 입력받은 영상을 CNN(Convolution Neural Network)의 컨벌루션층의 사이즈에 기초하여 기 설정된 개수의 지역영역(local area)으로 분할하는 단계;
    상기 CNN의 채널 개수에 대응하는 개수의 상기 분할된 지역영역을 복수의 CNN 채널 각각에 입력하여 동시에 소형 객체를 식별하는 단계;
    나머지 분할된 지역영역 각각에 대해서 상기 소형 객체를 식별하는 단계를 순차적으로 반복하는 단계;
    MM 모드(Moving saliency Map) 또는 MB 모드(Maximum Bounding box)에 기초하여 상기 CNN의 채널 개수에 대응하는 객체 탐지 대상 지역영역을 설정하는 단계; 및
    상기 설정된 객체 탐지 대상 지역영역 각각을 상기 복수의 CNN 채널 각각에 입력하여 동시에 소형 객체를 탐지하는 단계;를 포함하는 객체 탐지 장치의 제어 방법.
  2. 제1항에 있어서,
    상기 객체 탐지 대상 지역영역을 설정하는 단계는,
    상기 MB 모드에 기초하여, 식별된 소형 객체에 영역 상자(bounding box)를 설정하고, 상기 영역 상자의 개수에 기초하여 영역 상자 맵을 생성하며, 상기 생성된 영역 상자 맵에 기초하여 영역 상자를 많이 포함하는 지역영역 순서로 객체 탐지 대상 지역영역을 설정하는 객체 탐지 장치의 제어 방법.
  3. 제1항에 있어서,
    상기 객체 탐지 대상 지역영역을 설정하는 단계는,
    상기 MM 모드에 기초하여, 다음 영상을 입력받아 소형 객체를 식별하고, 상기 입력된 다음 영상 및 상기 입력된 하나의 영상 간의 차영상(difference image)에 기초하여 돌출 맵(saliency map)을 생성하며, 상기 생성된 돌출 맵에 기초하여 넓은 면적의 돌출 영역을 포함하는 지역영역 순서로 객체 탐지 대상 지역영역을 설정하는 객체 탐지 장치의 제어 방법.
  4. 제3항에 있어서,
    상기 객체 탐지 대상 지역영역을 설정하는 단계는,
    상기 차영상이 안정화(stabilization)되도록 상기 입력된 하나의 영상을 기초로 상기 입력된 다음 영상의 카메라 움직임 성분을 보정한 후 상기 차영상(difference image)을 획득하는 객체 탐지 장치의 제어 방법.
  5. 제1항에 있어서,
    상기 분할하는 단계는,
    각각의 지역영역의 경계 부분에 위치한 상기 소형 객체의 탐지 오류를 방지하기 위해 상기 각각의 지역영역의 경계 부분이 인접한 지역영역의 경계 부분과 중복되도록 분할하는 객체 탐지 장치의 제어 방법.
  6. 제1항에 있어서,
    탐지된 소형 객체를 표시하는 단계;를 더 포함하는 객체 탐지 장치의 제어 방법.
  7. 하나의 영상을 촬영하여 입력받는 카메라; 및
    상기 입력된 영상을 CNN(Convolution Neural Network)의 컨벌루션층의 사이즈에 기초하여 기 설정된 개수의 지역영역(local area)으로 분할하는 프로세서;를 포함하고,
    상기 프로세서는,
    상기 CNN의 채널 개수에 대응하는 개수의 상기 분할된 지역영역을 복수의 CNN 채널 각각에 입력하여 동시에 소형 객체를 식별하고, 나머지 분할된 지역영역 각각에 대해서 상기 소형 객체를 식별하는 단계를 순차적으로 반복하며, MM 모드(Moving saliency Map) 또는 MB 모드(Maximum Bounding box)에 기초하여 상기 CNN의 채널 개수에 대응하는 객체 탐지 대상 지역영역을 설정하고, 상기 설정된 객체 탐지 대상 지역영역 각각을 상기 복수의 CNN 채널 각각에 입력하여 동시에 소형 객체를 탐지하는 객체 탐지 장치.
  8. 제7항에 있어서,
    상기 프로세서는,
    상기 MB 모드에 기초하여, 식별된 소형 객체에 영역 상자(bounding box)를 설정하고, 상기 영역 상자의 개수에 기초하여 영역 상자 맵을 생성하며, 상기 생성된 영역 상자 맵에 기초하여 영역 상자를 많이 포함하는 지역영역 순서로 객체 탐지 대상 지역영역을 설정하는 객체 탐지 장치.
  9. 제7항에 있어서,
    상기 프로세서는,
    상기 MM 모드에 기초하여, 다음 영상을 입력받아 소형 객체를 식별하고, 상기 입력된 다음 영상 및 상기 입력된 하나의 영상 간의 차영상(difference image)에 기초하여 돌출 맵(saliency map)을 생성하며, 상기 생성된 돌출 맵에 기초하여 넓은 면적의 돌출 영역을 포함하는 지역영역 순서로 객체 탐지 대상 지역영역을 설정하는 객체 탐지 장치.
  10. 제9항에 있어서,
    상기 프로세서는,
    상기 차영상이 안정화(stabilization)되도록 상기 입력된 하나의 영상을 기초로 상기 입력된 다음 영상의 카메라 움직임 성분을 보정한 후 상기 차영상(difference image)을 획득하는 객체 탐지 장치.
  11. 제7항에 있어서,
    상기 프로세서는,
    각각의 지역영역의 경계 부분에 위치한 상기 소형 객체의 탐지 오류를 방지하기 위해 상기 각각의 지역영역의 경계 부분이 인접한 지역영역의 경계 부분과 중복되도록 분할하는 객체 탐지 장치.
  12. 제7항에 있어서,
    탐지된 소형 객체를 표시하는 디스플레이;를 더 포함하는 객체 탐지 장치.
KR1020180089778A 2018-08-01 2018-08-01 객체 탐지 장치 및 제어 방법 KR102051032B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180089778A KR102051032B1 (ko) 2018-08-01 2018-08-01 객체 탐지 장치 및 제어 방법

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020180089778A KR102051032B1 (ko) 2018-08-01 2018-08-01 객체 탐지 장치 및 제어 방법
PCT/KR2019/009625 WO2020027607A1 (ko) 2018-08-01 2019-08-01 객체 탐지 장치 및 제어 방법
US17/263,535 US20210182589A1 (en) 2018-08-01 2019-08-01 Object detection device and control method

Publications (1)

Publication Number Publication Date
KR102051032B1 true KR102051032B1 (ko) 2019-12-02

Family

ID=68847654

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180089778A KR102051032B1 (ko) 2018-08-01 2018-08-01 객체 탐지 장치 및 제어 방법

Country Status (3)

Country Link
US (1) US20210182589A1 (ko)
KR (1) KR102051032B1 (ko)
WO (1) WO2020027607A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102274913B1 (ko) * 2021-03-30 2021-07-08 서울대학교 산학협력단 경계박스 중복제거장치 및 그 장치의 구동방법
KR102344004B1 (ko) * 2020-07-09 2021-12-27 정영규 CPU only 임베디드보드 탑재용 딥러닝 기반 실시간 소형표적 탐지 장치

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020062557A (ko) * 2001-01-20 2002-07-26 삼성전자 주식회사 영역 분할된 영상의 영역 특징치 정합에 기초한객체추출장치 및 그 방법
KR20130032856A (ko) * 2011-09-23 2013-04-02 광주과학기술원 영상 감시 장치 및 영상 감시 방법
KR20160037643A (ko) * 2014-09-29 2016-04-06 에스케이텔레콤 주식회사 객체 인식을 위한 객체 후보영역 설정방법 및 장치
KR20160064831A (ko) * 2014-11-28 2016-06-08 한국전자통신연구원 관심 객체 기반 병렬 영상 분석 장치 및 그 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020062557A (ko) * 2001-01-20 2002-07-26 삼성전자 주식회사 영역 분할된 영상의 영역 특징치 정합에 기초한객체추출장치 및 그 방법
KR20130032856A (ko) * 2011-09-23 2013-04-02 광주과학기술원 영상 감시 장치 및 영상 감시 방법
KR20160037643A (ko) * 2014-09-29 2016-04-06 에스케이텔레콤 주식회사 객체 인식을 위한 객체 후보영역 설정방법 및 장치
KR20160064831A (ko) * 2014-11-28 2016-06-08 한국전자통신연구원 관심 객체 기반 병렬 영상 분석 장치 및 그 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102344004B1 (ko) * 2020-07-09 2021-12-27 정영규 CPU only 임베디드보드 탑재용 딥러닝 기반 실시간 소형표적 탐지 장치
KR102274913B1 (ko) * 2021-03-30 2021-07-08 서울대학교 산학협력단 경계박스 중복제거장치 및 그 장치의 구동방법

Also Published As

Publication number Publication date
US20210182589A1 (en) 2021-06-17
WO2020027607A1 (ko) 2020-02-06

Similar Documents

Publication Publication Date Title
US10462362B2 (en) Feature based high resolution motion estimation from low resolution images captured using an array source
CN106791710B (zh) 目标检测方法、装置和电子设备
US20160180169A1 (en) Iris recognition device, iris recognition system including the same and method of operating the iris recognition system
CN108521808B (zh) 一种障碍信息显示方法、显示装置、无人机及系统
US10003740B2 (en) Increasing spatial resolution of panoramic video captured by a camera array
US10373360B2 (en) Systems and methods for content-adaptive image stitching
US20180040133A1 (en) Systems and methods for determining feature point motion
KR102051032B1 (ko) 객체 탐지 장치 및 제어 방법
KR100879623B1 (ko) Ptz 카메라를 이용한 자동화된 광역 감시 시스템 및 그방법
US9418299B2 (en) Surveillance process and apparatus
KR101530255B1 (ko) 객체 자동 추적 장치가 구비된 cctv 시스템
US20160379079A1 (en) System, apparatus, method, and computer readable storage medium for extracting information
US20140198229A1 (en) Image pickup apparatus, remote control apparatus, and methods of controlling image pickup apparatus and remote control apparatus
CN109005334B (zh) 一种成像方法、装置、终端和存储介质
JP2016134803A (ja) 画像処理装置及び画像処理方法
US11044452B2 (en) Imaging system and method
JP2016163328A (ja) 情報処理装置、情報処理方法、およびプログラム
CN110278366B (zh) 一种全景图像虚化方法、终端及计算机可读存储介质
JP2014222825A (ja) 映像処理装置および映像処理方法
US11044399B2 (en) Video surveillance system
CN108734655B (zh) 空中多节点实时侦查的方法及系统
US9489727B2 (en) Method for generating a preferred image by replacing a region of a base image
CN110930437A (zh) 目标跟踪方法和装置
CN106713726A (zh) 一种识别拍摄方式的方法和装置
KR102285078B1 (ko) 물체의 원격 탐지 및 추적

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant