KR102497361B1 - 객체 검출 시스템 및 방법 - Google Patents
객체 검출 시스템 및 방법 Download PDFInfo
- Publication number
- KR102497361B1 KR102497361B1 KR1020200060095A KR20200060095A KR102497361B1 KR 102497361 B1 KR102497361 B1 KR 102497361B1 KR 1020200060095 A KR1020200060095 A KR 1020200060095A KR 20200060095 A KR20200060095 A KR 20200060095A KR 102497361 B1 KR102497361 B1 KR 102497361B1
- Authority
- KR
- South Korea
- Prior art keywords
- feature map
- bounding box
- feature
- map
- object detection
- Prior art date
Links
- 238000000034 method Methods 0.000 title abstract description 25
- 238000001514 detection method Methods 0.000 claims abstract description 99
- 238000000605 extraction Methods 0.000 claims abstract description 23
- 239000000284 extract Substances 0.000 claims abstract description 9
- 238000011176 pooling Methods 0.000 claims description 43
- 230000006870 function Effects 0.000 description 13
- 230000011218 segmentation Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 101150013335 img1 gene Proteins 0.000 description 6
- 241000283086 Equidae Species 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 4
- 101150071665 img2 gene Proteins 0.000 description 4
- 241000283070 Equus zebra Species 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/2163—Partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/18—Image warping, e.g. rearranging pixels individually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/194—Segmentation; Edge detection involving foreground-background segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/223—Analysis of motion using block-matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/60—Analysis of geometric attributes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20016—Hierarchical, coarse-to-fine, multiscale or multiresolution image processing; Pyramid transform
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30221—Sports video; Sports image
- G06T2207/30224—Ball; Puck
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Geometry (AREA)
- Image Analysis (AREA)
Abstract
객체 검출 시스템 및 방법이 제공된다. 객체 검출 시스템은, 객체 검출을 위한 영상을 입력 받고, 영상에 대해 다중 해상도를 갖는 특징 맵을 추출하는 특징 맵 추출 모듈; 특징 맵에 대해 제1 그룹의 컨볼루션 레이어를 적용하여 경계 박스의 분류를 수행하고, 특징 맵에 대해 제2 그룹의 컨볼루션 레이어를 적용하여 경계 박스를 예측하는 경계 박스 검출 모듈; 및 특징 맵을 이용하여 경계 박스 내의 객체의 형태에 대한 마스크를 생성하는 마스크 생성 모듈을 포함할 수 있다.
Description
본 발명은 객체 검출 시스템 및 방법에 관한 것이다.
영상 내에서 객체를 검출하는 영상 인식 또는 객체 검출 시스템은, 디지털 영상 또는 비디오 프레임으로부터 단일 객체 또는 복수의 객체들을 검출하고, 의미적 분할(semantic segmentation)을 수행할 수 있다. 여기서 객체 검출은, 주어진 영상 내에서 특정 객체를 분류(classification)하고, 영상 내에서의 위치 및 크기를 경계 박스(bounding box)의 형태로 추정하는 것을 의미할 수 있다. 또한, 의미적 분할은, 이와 같이 검출된 객체 박스 내에서, 객체의 정확한 형태를 픽셀 단위로 세분화하는 것을 의미할 수 있다.
객체 검출을 위한 기술로, 사전 정의된 앵커 박스(pre-defined anchor-box) 기반 객체 검출 기술이 있다. 이 방식은, 고정된 위치 및 다양한 크기/비율로 정의되는 앵커 박스와 GT(ground truth) 박스와의 차이를 손실 함수로 정의하여 학습 및 검출을 수행한다. 하지만, 이 방법은 학습 데이터마다 매번 서로 다른 앵커 박스에 관련된 하이퍼 파라미터(hyper-parameter) 튜닝을 수행할 필요가 있으며, GT 박스 대비 무수히 많은 앵커 박스 후보로 인해 포지티브/네거티브 샘플(positive/negative sample)의 불균형이 발생할 수 있다.
본 발명이 해결하고자 하는 과제는, 사전 정의된 앵커 박스 기반의 객체 검출 기술의 한계를 극복할 수 있는 포인트 기반의 객체 검출 및 분할을 수행하는 객체 검출 시스템 및 방법을 제공하는 것이다.
본 발명의 일 실시 예에 따른 객체 검출 시스템은, 객체 검출을 위한 영상을 입력 받고, 영상에 대해 다중 해상도를 갖는 특징 맵을 추출하는 특징 맵 추출 모듈; 특징 맵에 대해 제1 그룹의 컨볼루션 레이어를 적용하여 경계 박스의 분류를 수행하고, 특징 맵에 대해 제2 그룹의 컨볼루션 레이어를 적용하여 경계 박스를 예측하는 경계 박스 검출 모듈; 및 특징 맵을 이용하여 경계 박스 내의 객체의 형태에 대한 마스크를 생성하는 마스크 생성 모듈을 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 특징 맵 추출 모듈은, 영상으로부터 복수의 레이어 별 특징 맵의 정보를 융합하는 특징 피라미드를 구성하고, 특징 피라미드를 이용하여 다중 해상도를 갖는 특징 맵을 추출할 수 있다.
본 발명의 몇몇의 실시 예에서, 특징 맵 추출 모듈은, 백본 네트워크에서 복수의 레이어 별 특징 맵을 추출하고, 추출한 복수의 레이어 별 특징 맵을 역순으로 더하여 특징 피라미드를 구성할 수 있다.
본 발명의 몇몇의 실시 예에서, 경계 박스 검출 모듈은, 이진 분류기를 이용하여 경계 박스의 분류를 수행할 수 있다.
본 발명의 몇몇의 실시 예에서, 경계 박스 검출 모듈은, 객체의 중심점을 기준으로 복수의 방향의 오프셋을 설정한 후 경계 박스의 위치 및 크기를 추정할 수 있다.
본 발명의 몇몇의 실시 예에서, 경계 박스 검출 모듈은, 경계 박스의 분류에 대한 신뢰 스코어 및 예측한 경계 박스가 GT(ground truth)와 중심이 일치하는 정도를 나타내는 중심성에 기초하여, 예측된 경계 박스의 신뢰도를 조정할 수 있다.
본 발명의 몇몇의 실시 예에서, 마스크 생성 모듈은, 특징 맵에서 경계 박스에 해당되는 영역을 추출한 후, 미리 설정된 해상도의 특징 맵으로 와핑을 수행할 수 있다.
본 발명의 몇몇의 실시 예에서, 마스크 생성 모듈은, 와핑된 특징 맵에 대해 컨볼루션 레이어를 적용하여 컨볼루션 특징 맵을 획득하고, 컨볼루션 특징 맵에 대해 최대 풀링 및 평균 풀링을 수행하여 최대 풀링 특징 맵 및 평균 풀링 특징 맵을 결합할 수 있다.
본 발명의 몇몇의 실시 예에서, 마스크 생성 모듈은, 결합된 최대 풀링 특징 맵 및 평균 풀링 특징 맵에 대해 비선형 함수를 적용하여 어텐션 맵을 획득할 수 있다.
본 발명의 몇몇의 실시 예에서, 마스크 생성 모듈은, 어텐션 맵과 컨볼루션 특징 맵을 곱한 후, 곱한 결과에 대해 이진 분류를 수행하여 마스크를 생성할 수 있다.
본 발명의 일 실시 예에 따른 객체 검출 방법은, 객체 검출을 위한 영상을 입력 받는 단계; 백본 네트워크에서 복수의 레이어 별 특징 맵을 추출하는 단계; 추출한 복수의 레이어 별 특징 맵을 역순으로 더하여, 복수의 레이어 별 특징 맵의 정보를 융합하는 특징 피라미드를 구성하는 단계; 특징 피라미드를 이용하여, 영상에 대해 다중 해상도를 갖는 특징 맵을 추출하는 단계; 및 다중 해상도를 갖는 특징 맵을 이용하여 객체의 형태에 대한 마스크를 생성하는 단계를 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 마스크를 생성하는 단계는, 특징 맵에서 경계 박스에 해당되는 영역을 추출한 후, 미리 설정된 해상도의 특징 맵으로 와핑을 수행하는 단계를 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 마스크를 생성하는 단계는, 와핑된 특징 맵에 대해 컨볼루션 레이어를 적용하여 컨볼루션 특징 맵을 획득하는 단계; 및 컨볼루션 특징 맵에 대해 최대 풀링 및 평균 풀링을 수행하여 최대 풀링 특징 맵 및 평균 풀링 특징 맵을 결합하는 단계를 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 마스크 생성하는 단계는, 결합된 최대 풀링 특징 맵 및 평균 풀링 특징 맵에 대해 비선형 함수를 적용하여 어텐션 맵을 획득하는 단계를 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 마스크 생성하는 단계는, 어텐션 맵과 컨볼루션 특징 맵을 곱한 후, 곱한 결과에 대해 이진 분류를 수행하여 마스크를 생성하는 단계를 포함할 수 있다.
본 발명의 일 실시 예에 따른 객체 검출 방법은, 객체 검출을 위한 영상에 대한 특징 맵에 대해 제1 그룹의 컨볼루션 레이어를 적용하는 단계; 이진 분류기를 이용하여 경계 박스의 분류를 수행하는 단계; 특징 맵에 대해 제2 그룹의 컨볼루션 레이어를 적용하는 단계; 객체의 중심점을 기준으로 복수의 방향의 오프셋을 설정한 후 경계 박스의 위치 및 크기를 추정하는 단계; 경계 박스의 분류에 대한 신뢰 스코어 및 예측한 경계 박스가 GT와 중심이 일치하는 정도를 나타내는 중심성에 기초하여, 추정된 경계 박스의 신뢰도를 조정하는 단계; 및 특징 맵을 이용하여 경계 박스 내의 객체의 형태에 대한 마스크를 생성하는 단계를 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 마스크를 생성하는 단계는, 특징 맵에서 경계 박스에 해당되는 영역을 추출한 후, 미리 설정된 해상도의 특징 맵으로 와핑을 수행하는 단계를 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 마스크를 생성하는 단계는, 와핑된 특징 맵에 대해 컨볼루션 레이어를 적용하여 컨볼루션 특징 맵을 획득하는 단계; 및 컨볼루션 특징 맵에 대해 최대 풀링 및 평균 풀링을 수행하여 최대 풀링 특징 맵 및 평균 풀링 특징 맵을 결합하는 단계를 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 마스크 생성하는 단계는, 결합된 최대 풀링 특징 맵 및 평균 풀링 특징 맵에 대해 비선형 함수를 적용하여 어텐션 맵을 획득하는 단계를 포함할 수 있다.
본 발명의 몇몇의 실시 예에서, 마스크 생성하는 단계는, 어텐션 맵과 컨볼루션 특징 맵을 곱한 후, 곱한 결과에 대해 이진 분류를 수행하여 마스크를 생성하는 단계를 포함할 수 있다.
본 발명의 실시 예들에 따르면, 높은 연산량 및 메모리 사용량을 요구하는 사전 정의된 앵커 박스를 사용하지 않고, 포인트 기반의 객체 검출 및 분할을 수행함에 따라, 연산량 및 메모리 점유율 면에서 효율화를 꾀할 수 있다. 나아가, 적은 컴퓨팅 파워를 갖는 플랫폼(예를 들어 임베디드 플랫폼) 기반의 로봇, 드론, 자율 주행 자동차 등 여러 분야에서 실시간 객체 검출 및 분할을 실현할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 객체 검출 시스템을 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 객체 검출 시스템의 특징 맵 추출 모듈을 설명하기 위한 도면이다.
도 3 내지 도 4는 본 발명의 일 실시 예에 따른 객체 검출 시스템의 경계 박스 검출 모듈을 설명하기 위한 도면들이다.
도 5는 본 발명의 일 실시 예에 따른 객체 검출 시스템의 마스크 생성 모듈을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시 예에 따른 객체 검출 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명의 일 실시 예에 따른 객체 검출 방법을 설명하기 위한 흐름도이다.
도 8은 본 발명의 일 실시 예에 따른 객체 검출 방법을 설명하기 위한 흐름도이다.
도 9는 본 발명의 일 실시 예에 따른 객체 검출 시스템 및 방법을 구현하기 위한 컴퓨팅 장치를 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 객체 검출 시스템의 특징 맵 추출 모듈을 설명하기 위한 도면이다.
도 3 내지 도 4는 본 발명의 일 실시 예에 따른 객체 검출 시스템의 경계 박스 검출 모듈을 설명하기 위한 도면들이다.
도 5는 본 발명의 일 실시 예에 따른 객체 검출 시스템의 마스크 생성 모듈을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시 예에 따른 객체 검출 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명의 일 실시 예에 따른 객체 검출 방법을 설명하기 위한 흐름도이다.
도 8은 본 발명의 일 실시 예에 따른 객체 검출 방법을 설명하기 위한 흐름도이다.
도 9는 본 발명의 일 실시 예에 따른 객체 검출 시스템 및 방법을 구현하기 위한 컴퓨팅 장치를 설명하기 위한 블록도이다.
아래에서는 첨부한 도면을 참조하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
본 명세서에서 설명되는 객체 검출 시스템은 하나 이상의 컴퓨팅 장치로 구현될 수 있다. 컴퓨팅 장치는, 예를 들어, 스마트 폰, 스마트 워치, 스마트 밴드, 태블릿 컴퓨터, 노트북 컴퓨터, 데스크톱 컴퓨터, 서버 등을 들 수 있으나, 본 발명의 범위가 이에 제한되는 것은 아니고, 컴퓨터 명령을 저장 및 실행할 수 있는 메모리 및 프로세서를 구비한 임의의 형태의 컴퓨터 장치를 포함할 수 있다.
객체 검출 시스템의 기능들은 단일 컴퓨팅 장치 상에서 모두 구현될 수도 있고, 복수의 컴퓨팅 장치 상에서 나누어 구현될 수도 있다. 예를 들어, 복수의 컴퓨팅 장치는 제1 컴퓨팅 장치 및 제2 컴퓨팅 장치를 포함할 수 있고, 객체 검출 시스템의 일부 기능은 제1 컴퓨팅 장치 상에 구현되고, 객체 검출 시스템의 다른 일부 기능은 제2 컴퓨팅 장치 상에 구현될 수 있다. 그리고 제1 컴퓨팅 장치와 제2 컴퓨팅 장치는 네트워크를 통해 서로 통신할 수 있다.
여기서, 네트워크는 셀룰러 네트워크, Wi-Fi 네트워크, 블루투스 네트워크 등을 비롯한 무선 네트워크, LAN(Local Area Network), WLAN(Wide Local Area Network) 등을 비롯한 유선 네트워크, 또는 무선 네트워크와 유선 네트워크의 조합을 포함할 수 있으나, 본 발명의 범위가 이에 제한되는 것은 아니다.
도 1은 본 발명의 일 실시 예에 따른 객체 검출 시스템을 설명하기 위한 블록도이다.
도 1을 참조하면, 본 발명의 일 실시 예에 따른 객체 검출 시스템(1)은 포인트 기반의 객체 검출 및 분할을 수행할 수 있다. 여기서 분할은 의미적 분할(semantic segmentation)을 의미할 수 있으며, 구체적으로 객체 검출 시스템(1)은 입력 영상 내의 객체에 대한 픽셀 단위(pixel-wise)의 객체 분리를 수행할 수 있고, 객체의 분류 및 검출 신뢰도 점수에 속하는 입력 영상 내의 특정 픽셀들을 마스크의 형태로 하여 객체 검출 결과를 생성할 수 있다.
본 실시 예에서, 객체 검출 시스템(1)은 특징 맵 추출 모듈(10), 경계 박스 검출 모듈(20) 및 마스크 생성 모듈(30)을 포함할 수 있다.
입력 영상(IMG1)은, 예를 들어, 초원 풍경 영상일 수 있고, 이 때 초원 풍경 영상에는 얼룩말을 비롯한 동물들과 초목 등이 표현되어 있을 수 있다. 객체 검출 시스템(1)은 입력 영상(IMG1)에서 얼룩말을 비롯한 동물들 또는 초목을 검출할 수 있다.
특징 맵 추출 모듈(10)은, 객체 검출을 위한 영상, 즉, 입력 영상(IMG1)을 입력 받고, 입력 영상(IMG1)에 대해 다중 해상도를 갖는 특징 맵을 추출할 수 있다.
여기서 다중 해상도를 갖는 특징 맵은, 컨볼루션 레이어로 구성되는 백본 네트워크에서 생성되며, 예를 들어 업샘플링(upsampling) 또는 다운샘플링(downsampling) 등의 연산을 통해 다수의 해상도 또는 스케일을 갖는 특징 맵을 추출할 수 있다.
백본 네트워크에서 생성되는 다수의 해상도 또는 스케일을 갖는 레이어 별 특징 맵 각각은, 레이어 별로 보유하는 특징 정보가 다를 수 있으며, 이들 서로 다른 특징 정보를 융합하는 특징 피라미드를 구성한 후, 특징 피라미드에 기초하여 다중 해상도를 갖는 특징 맵이 추출될 수 있다.
즉, 본 발명의 몇몇의 실시 예에서, 특징 맵 추출 모듈(10)은, 입력 영상(IMG1)으로부터 복수의 레이어 별 특징 맵의 정보를 융합하는 특징 피라미드를 구성하고, 특징 피라미드를 이용하여 다중 해상도를 갖는 특징 맵을 추출할 수 있다.
특히, 특징 피라미드는, 백본 네트워크에서 복수의 레이어 별 특징 맵을 추출하고, 추출한 복수의 레이어 별 특징 맵을 역순으로 더하여 구성될 수 있으나, 본 발명의 범위가 이에 제한되는 것은 아니다.
경계 박스 검출 모듈(20)은, 특징 맵 추출 모듈(10)에 의해 추출된 특징 맵에 대해 제1 그룹의 컨볼루션 레이어를 적용하여 경계 박스의 분류(또는 식별)를 수행할 수 있다.
여기서, 제1 그룹의 컨볼루션 레이어는 복수의 컨볼루션 레이어를 포함하고, 입력으로 특징 맵 추출 모듈(10)에 의해 추출된 특징 맵을 수신하고, 그 출력은 경계 박스의 분류를 수행하는 태스크에 대한 입력에 제공될 수 있다.
본 발명의 몇몇의 실시 예에서, 경계 박스 검출 모듈(20)은, 이진 분류기를 이용하여 경계 박스의 분류를 수행할 수 있다.
또한, 경계 박스 검출 모듈(20)은, 특징 맵 추출 모듈(10)에 의해 추출된 특징 맵에 대해 제2 그룹의 컨볼루션 레이어를 적용하여 경계 박스를 예측할 수 있다.
여기서, 제2 그룹의 컨볼루션 레이어는 복수의 컨볼루션 레이어를 포함하고, 입력으로 특징 맵 추출 모듈(10)에 의해 추출된 특징 맵을 수신하고, 그 출력은 경계 박스의 예측을 수행하는 태스크에 대한 입력에 제공될 수 있다.
본 발명의 몇몇의 실시 예에서, 경계 박스 검출 모듈(20)은, 객체의 중심점을 기준으로 복수의 방향의 오프셋을 설정한 후 경계 박스의 위치 및 크기를 추정할 수 있다.
또한, 본 발명의 몇몇의 실시 예에서, 경계 박스 검출 모듈(20)은, 경계 박스의 분류에 대한 신뢰 스코어 및 예측한 경계 박스가 GT와 중심이 일치하는 정도를 나타내는 중심성에 기초하여, 예측된 경계 박스의 신뢰도를 조정할 수 있다.
이와 같은 방식으로, 경계 박스 검출 모듈(20)은, 사전 정의된 앵커 박스를 사용하지 않고, 포인트 기반(즉, 중심점 기반)으로 객체 검출을 수행하기 위한 경계 박스를 예측 또는 결정할 수 있다.
마스크 생성 모듈(30)은, 특징 맵 추출 모듈(10)에 의해 추출된 특징 맵을 이용하여, 경계 박스 검출 모듈(20)에 의해 예측된 경계 박스 내의 객체의 형태에 대한 마스크를 생성하여 출력 영상(IMG2)을 출력할 수 있다.
본 발명의 몇몇의 실시 예에서, 마스크 생성 모듈(30)은, 특징 맵에서 경계 박스에 해당되는 영역을 추출한 후, 미리 설정된 해상도의 특징 맵으로 와핑을 수행할 수 있고, 와핑된 특징 맵에 대해 컨볼루션 레이어를 적용하여 컨볼루션 특징 맵을 획득하고, 컨볼루션 특징 맵에 대해 최대 풀링 및 평균 풀링을 수행하여 최대 풀링 특징 맵 및 평균 풀링 특징 맵을 결합할 수 있다.
또한, 마스크 생성 모듈(30)은, 결합된 최대 풀링 특징 맵 및 평균 풀링 특징 맵에 대해 비선형 함수를 적용하여 어텐션 맵을 획득한 후, 어텐션 맵과 컨볼루션 특징 맵을 곱한 후, 그 곱한 결과에 대해 이진 분류를 수행하여 마스크를 생성할 수 있다.
이에 따라 마스크 생성 모듈(30)에서 출력되는 출력 영상(IMG2)은, 예를 들어, 초원 풍경 영상에서 얼룩말과 관련된 모든 픽셀들을 "얼룩말"로 표지할 수 있고, 다른 동물과 관련된 모든 픽셀들을 해당 동물의 명칭으로 표지할 수 있다. 또한, 출력 영상(IMG2)에서, 객체에 대응하는 픽셀들을 식별하는 마스크가 생성될 수 있으며, 예를 들어, "얼룩말"이 4 마리 검출된 경우, 출력 영상(IMG2)은 4 개의 마스크를 포함할 수 있다.
본 실시 예에 따르면, 높은 연산량 및 메모리 사용량을 요구하는 사전 정의된 앵커 박스를 사용하지 않고, 포인트 기반의 객체 검출 및 분할을 수행함에 따라, 연산량 및 메모리 점유율 면에서 효율화를 꾀할 수 있다. 나아가, 적은 컴퓨팅 파워를 갖는 플랫폼(예를 들어 임베디드 플랫폼) 기반의 로봇, 드론, 자율 주행 자동차 등 여러 분야에서 실시간 객체 검출 및 분할을 실현할 수 있다.
도 2는 본 발명의 일 실시 예에 따른 객체 검출 시스템의 특징 맵 추출 모듈을 설명하기 위한 도면이다.
도 2를 참조하면, 본 발명의 일 실시 예에 따른 객체 검출 시스템의 특징 맵 추출 모듈(20)은 백본 네트워크(11)로부터 특징 피라미드(13)를 생성할 수 있다.
백본 네트워크(11)는 복수의 컨볼루션 레이어(C3 내지 C7)을 포함할 수 있다. 그리고 특징 피라미드(13)는 복수의 컨볼루션 레이어(C3 내지 C7) 각각에 대응하는 특징 맵(P3 내지 P7)을 더하여 구성될 수 있다. 특히, 특징 맵(P3 내지 P7)은 복수의 컨볼루션 레이어(C3 내지 C7)의 역순으로 더해져서, 특징 맵(P3 내지 P7) 각각의 정보를 융합하는 특징 피라미드(13)를 구성할 수 있다.
이에 따라, 특징 맵 추출 모듈(10)은 특징 피라미드(13)를 이용하여 다중 해상도를 갖는 특징 맵을 추출한 후, 이를 경계 박스 검출 모듈(20) 및 마스크 생성 모듈(30)에 제공할 수 있다.
물론, 도 2와 관련하여 설명한 방식에 본 발명이 제한되는 것은 아니며, 특징 맵 추출 모듈(10)은 이와 다른 임의의 방식으로, 경계 박스 검출 모듈(20) 및 마스크 생성 모듈(30)에 제공하는 특징 맵을 입력 영상(IMG1)으로부터 추출할 수 있다.
도 3 내지 도 4는 본 발명의 일 실시 예에 따른 객체 검출 시스템의 경계 박스 검출 모듈을 설명하기 위한 도면들이다.
도 3을 참조하면, 본 발명의 일 실시 예에 따른 객체 검출 시스템의 경계 박스 검출 모듈(20)은, 특징 맵 추출 모듈(10)에 의해 추출된 특징 맵에 해당하는 입력 특징(21)에 대해 복수의 그룹의 컨볼루션 레이어(CG1, CG2)를 적용하여 경계 박스의 분류(23)를 수행하거나, 중심성(27)에 기초하여 경계 박스의 예측(박스 회귀)(25)를 수행할 수 있다. 여기서, 복수의 그룹의 컨볼루션 레이어(CG1, CG2) 각각은 복수의 컨볼루션 레이어를 포함할 수 있다.
입력 특징(21)에 대해 복수의 그룹의 컨볼루션 레이어(CG1, CG2) 중 제1 그룹의 컨볼루션 레이어(CG1)가 적용되는 경우, 그 결과는 경계 박스의 분류(23)를 수행하는 태스크에 입력으로 제공될 수 있다. 그러면, 경계 박스의 분류(23)를 수행하는 태스크는, 예를 들어, 이진 분류기를 이용하여, 입력 특징(21)으로부터 경계 박스를 분류할 수 있다.
한편, 입력 특징(21)에 대해 복수의 그룹의 컨볼루션 레이어(CG1, CG2) 중 제2 그룹의 컨볼루션 레이어(CG2)가 적용되는 경우, 그 결과는 경계 박스의 예측(25)을 수행하는 태스크에 입력으로 제공될 수 있다. 그러면, 경계 박스의 예측(25)를 수행하는 태스크는, 객체의 중심점을 기준으로 복수의 방향의 오프셋을 설정한 후 경계 박스의 위치 및 크기를 추정할 수 있다.
도 4를 함께 참조하면, 경계 박스의 예측(25)를 수행하는 태스크는, 객체 "사람"의 중심점(CP1)을 기준으로, 상(T), 하(B), 좌(L), 우(R)의 4 개 방향으로 오프셋을 설정한 후, 객체 "사람"을 둘러싸도록 분류되는 경계 박스(B1)의 위치 및 크기를 추정할 수 있다.
마찬가지로, 경계 박스의 예측(25)를 수행하는 태스크는, 객체 "축구공"의 중심점(CP2)을 기준으로, 상(T), 하(B), 좌(L), 우(R)의 4 개 방향으로 오프셋을 설정한 후, 객체 "축구공"을 둘러싸도록 분류되는 경계 박스(B2)의 위치 및 크기를 추정할 수 있다.
또한, 경계 박스의 예측(25)를 수행하는 태스크는, 중심성(27)에 기초하여 예측된 경계 박스의 신뢰도를 조정할 수 있으며, 중심성(27)은 경계 박스의 분류에 대한 신뢰 스코어 및 예측한 경계 박스가 GT와 중심이 일치하는 정도를 나타낼 수 있다.
이와 같은 방식으로, 경계 박스 검출 모듈(20)은, 사전 정의된 앵커 박스를 사용하지 않고, 포인트 기반(즉, 중심점 기반)으로 객체 검출을 수행하기 위한 경계 박스를 예측 또는 결정할 수 있다.
물론, 도 3 및 도 4와 관련하여 설명한 방식에 본 발명이 제한되는 것은 아니며, 경계 박스 검출 모듈(20)은 이와 다른 임의의 방식으로, 포인트 기반으로 객체 검출을 수행하기 위한 경계 박스를 예측 또는 결정할 수 있다.
도 5는 본 발명의 일 실시 예에 따른 객체 검출 시스템의 마스크 생성 모듈을 설명하기 위한 도면이다.
도 5를 참조하면, 본 발명의 일 실시 예에 따른 객체 검출 시스템의 마스크 생성 모듈(30)은, 특징 맵 추출 모듈(10)에 의해 추출된 특징 맵을 이용하여, 경계 박스 검출 모듈(20)에 의해 예측된 경계 박스 내의 객체의 형태에 대한 마스크(38)를 생성할 수 있다.
이를 위해, 마스크 생성 모듈(30)은, 특징 맵에서 경계 박스에 해당되는 영역을 추출한 후, 미리 설정된 해상도, 예컨대 14x14 해상도의 특징 맵으로 와핑을 수행할 수 있다. 그리고 마스크 생성 모듈(30)은, 와핑된 특징 맵(31)에 대해 컨볼루션 레이어를 적용하여 컨볼루션 특징 맵(32)을 획득하고, 컨볼루션 특징 맵(32)에 대해 최대 풀링 및 평균 풀링을 수행하여 최대 풀링 특징 맵(33a) 및 평균 풀링 특징 맵(33b)를 생성할 수 있다.
다음으로, 마스크 생성 모듈(30)은, 최대 풀링 특징 맵(33a) 및 평균 풀링 특징 맵(33b)을 결합하여, 결합된 최대 풀링 특징 맵 및 평균 풀링 특징 맵(34)을 생성하고, 결합된 최대 풀링 특징 맵 및 평균 풀링 특징 맵(34)에 대해 비선형 함수, 예컨대 sigmoid 함수를 적용하여 어텐션 맵(35)을 획득할 수 있다.
다음으로, 마스크 생성 모듈(30)은, 어텐션 맵(35)과 컨볼루션 특징 맵(32)을 곱한 후, 그 곱한 결과(16)에 대해 업샘플링을 수행하여 예컨대 28x28 해상도의 업샘플링 결과(37)를 획득하고, 이에 대해 이진 분류를 수행하여 마스크(38)를 생성할 수 있다.
물론, 도 5와 관련하여 설명한 방식에 본 발명이 제한되는 것은 아니며, 마스크 생성 모듈(30)은 은 이와 다른 임의의 방식으로, 특징 맵 추출 모듈(10)에 의해 추출된 특징 맵을 이용하여, 경계 박스 검출 모듈(20)에 의해 예측된 경계 박스 내의 객체의 형태에 대한 마스크를 생성할 수 있다.
도 6은 본 발명의 일 실시 예에 따른 객체 검출 방법을 설명하기 위한 흐름도이다.
도 6을 참조하면, 본 발명의 일 실시 예에 따른 객체 검출 방법은, 객체 검출을 위한 영상을 입력 받는 단계(S601), 백본 네트워크를 이용하여 레이어 별 특징 맵을 추출하는 단계(S603), 레이어 별 특징 맵을 역순으로 더하는 단계(S605), 특징 피라미드를 구성하는 단계(S607) 및 입력 영상에 대한 다중 해상도의 특징 맵을 생성하는 단계(S609)를 포함할 수 있다.
본 실시 예에 따른 객체 검출 방법에 대한 더욱 상세한 내용에 대해서는 도 1 내지 도 5와 관련하여 설명한 내용을 참조할 수 있으므로, 여기서는 중복되는 내용에 대한 설명을 생략하도록 한다.
도 7은 본 발명의 일 실시 예에 따른 객체 검출 방법을 설명하기 위한 흐름도이다.
도 7을 참조하면, 본 발명의 일 실시 예에 따른 객체 검출 방법은, 다중 해상도의 특징 맵을 입력 받는 단계(S701), 제1 그룹 및 제2 그룹의 컨볼루션 레이어를 통과시키는 단계(S703), 제1 그룹 컨볼루션 레이어를 통과한 특징 맵에 대해 객체 경계 박스를 분류를 수행하는 단계(S705), 제2 그룹 컨볼루션 레이어를 통과한 특징 맵에 대해 객체 경계 박스를 예측하는 단계(S707) 및 중심성을 이용하여 예측한 경계 박스의 신뢰도를 조정하는 단계(S709)를 포함할 수 있다.
본 실시 예에 따른 객체 검출 방법에 대한 더욱 상세한 내용에 대해서는 도 1 내지 도 5와 관련하여 설명한 내용을 참조할 수 있으므로, 여기서는 중복되는 내용에 대한 설명을 생략하도록 한다.
도 8은 본 발명의 일 실시 예에 따른 객체 검출 방법을 설명하기 위한 흐름도이다.
도 8을 참조하면, 본 발명의 일 실시 예에 따른 객체 검출 방법은, 컨볼루션 특징 맵에 대해 최대 풀링 및 평균 풀링을 수행하는 단계(S801), 최대 풀링 특징 맵과 평균 풀링 특징 맵을 결합하는 단계(S803), 비선형 함수를 통과시켜 어텐션 맵을 획득하는 단계(S805), 어텐션 맵과 컨볼루션 특징 맵을 곱하는 단계(S807) 및 이진 분류를 수행하여 마스크를 획득하는 단계(S809)를 포함할 수 있다.
본 실시 예에 따른 객체 검출 방법에 대한 더욱 상세한 내용에 대해서는 도 1 내지 도 5와 관련하여 설명한 내용을 참조할 수 있으므로, 여기서는 중복되는 내용에 대한 설명을 생략하도록 한다.
도 9는 본 발명의 일 실시 예에 따른 객체 검출 시스템 및 방법을 구현하기 위한 컴퓨팅 장치를 설명하기 위한 블록도이다.
도 9를 참조하면, 본 발명의 일 실시 예에 따른 객체 검출 시스템 및 방법은 컴퓨팅 장치(50)를 이용하여 구현될 수 있다.
컴퓨팅 장치(50)는 버스(520)를 통해 통신하는 프로세서(510), 메모리(530), 사용자 인터페이스 입력 장치(540), 사용자 인터페이스 출력 장치(550) 및 저장 장치(560) 중 적어도 하나를 포함할 수 있다. 컴퓨팅 장치(50)는 또한 네트워크(40), 예컨대 무선 네트워크에 전기적으로 접속되는 네트워크 인터페이스(570)를 포함할 수 있다. 네트워크 인터페이스(570)는 네트워크(40)를 통해 다른 개체와 신호를 송신 또는 수신할 수 있다.
프로세서(510)는 AP(Application Processor), CPU(Central Processing Unit), GPU(Graphic Processing Unit) 등과 같은 다양한 종류들로 구현될 수 있으며, 메모리(530) 또는 저장 장치(560)에 저장된 명령을 실행하는 임의의 반도체 장치일 수 있다. 프로세서(510)는 도 1 내지 도 8에서 설명한 기능 및 방법들을 구현하도록 구성될 수 있다.
메모리(530) 및 저장 장치(560)는 다양한 형태의 휘발성 또는 비 휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리는 ROM(read-only memory)(531) 및 RAM(random access memory)(532)를 포함할 수 있다. 본 발명의 실시 예에서 메모리(530)는 프로세서(510)의 내부 또는 외부에 위치할 수 있고, 메모리(530)는 이미 알려진 다양한 수단을 통해 프로세서(510)와 연결될 수 있다.
또한, 본 발명의 일 실시 예에 따른 객체 검출 시스템 및 방법 중 적어도 일부는 컴퓨팅 장치(50)에서 실행되는 프로그램 또는 소프트웨어로 구현될 수 있고, 프로그램 또는 소프트웨어는 컴퓨터로 판독 가능한 매체에 저장될 수 있다.
또한, 본 발명의 일 실시 예에 따른 객체 검출 시스템 및 방법 중 적어도 일부는 컴퓨팅 장치(50)과 전기적으로 접속될 수 있는 하드웨어로 구현될 수도 있다.
이제까지 설명한 본 발명의 실시 예들에 따르면, 높은 연산량 및 메모리 사용량을 요구하는 사전 정의된 앵커 박스를 사용하지 않고, 포인트 기반의 객체 검출 및 분할을 수행함에 따라, 연산량 및 메모리 점유율 면에서 효율화를 꾀할 수 있다. 나아가, 적은 컴퓨팅 파워를 갖는 플랫폼(예를 들어 임베디드 플랫폼) 기반의 로봇, 드론, 자율 주행 자동차 등 여러 분야에서 실시간 객체 검출 및 분할을 실현할 수 있다.
이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리 범위는 이에 한정되는 것은 아니고, 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자의 여러 변형 및 개량 형태 또한 본 발명의 권리 범위에 속한다.
Claims (20)
- 객체 검출을 위한 영상을 입력 받고, 상기 영상에 대해 다중 해상도를 갖는 특징 맵을 추출하는 특징 맵 추출 모듈;
상기 특징 맵에 대해 제1 그룹의 컨볼루션 레이어를 적용하여 경계 박스의 분류를 수행하고, 상기 특징 맵에 대해 제2 그룹의 컨볼루션 레이어를 적용하여 상기 경계 박스를 예측하는 경계 박스 검출 모듈; 및
상기 특징 맵을 이용하여 상기 경계 박스 내의 상기 객체의 형태에 대한 마스크를 생성하는 마스크 생성 모듈을 포함하고,
상기 마스크 생성 모듈은,
상기 특징 맵에서 상기 경계 박스에 해당되는 영역을 추출한 후, 미리 설정된 제1 해상도의 특징 맵으로 와핑을 수행하고,
상기 와핑된 특징 맵에 대해 컨볼루션 레이어를 적용하여 컨볼루션 특징 맵을 획득하고,
상기 컨볼루션 특징 맵에 대해 최대 풀링 및 평균 풀링을 수행하여 최대 풀링 특징 맵 및 평균 풀링 특징 맵을 생성하고,
상기 최대 풀링 특징 맵 및 상기 평균 풀링 특징 맵을 결합하고,
상기 결합된 최대 풀링 특징 맵 및 평균 풀링 특징 맵에 대해 비선형 함수를 적용하여 어텐션 맵을 획득하고,
상기 어텐션 맵과 상기 컨볼루션 특징 맵을 곱하고,
상기 곱한 결과에 대해 업샘플링을 수행하여 상기 제1 해상도보다 높은 제2 해상도의 업샘플링 결과를 획득하고,
상기 업샘플링 결과에 대해 이진분류를 수행하여 상기 마스크를 생성하는,
객체 검출 시스템. - 제1항에 있어서,
상기 특징 맵 추출 모듈은,
상기 영상으로부터 복수의 레이어 별 특징 맵의 정보를 융합하는 특징 피라미드를 구성하고,
상기 특징 피라미드를 이용하여 상기 다중 해상도를 갖는 상기 특징 맵을 추출하는, 객체 검출 시스템. - 제2항에 있어서,
상기 특징 맵 추출 모듈은,
백본 네트워크에서 상기 복수의 레이어 별 특징 맵을 추출하고, 상기 추출한 복수의 레이어 별 특징 맵을 역순으로 더하여 상기 특징 피라미드를 구성하는, 객체 검출 시스템. - 제1항에 있어서,
상기 경계 박스 검출 모듈은,
이진 분류기를 이용하여 상기 경계 박스의 분류를 수행하는, 객체 검출 시스템. - 제1항에 있어서,
상기 경계 박스 검출 모듈은,
상기 객체의 중심점을 기준으로 복수의 방향의 오프셋을 설정한 후 상기 경계 박스의 위치 및 크기를 추정하는, 객체 검출 시스템. - 제5항에 있어서,
상기 경계 박스 검출 모듈은,
상기 경계 박스의 분류에 대한 신뢰 스코어 및 상기 예측한 경계 박스가 GT(ground truth)와 중심이 일치하는 정도를 나타내는 중심성에 기초하여, 상기 예측된 경계 박스의 신뢰도를 조정하는, 객체 검출 시스템. - 삭제
- 삭제
- 삭제
- 삭제
- 객체 검출을 위한 영상을 입력 받는 단계;
백본 네트워크에서 복수의 레이어 별 특징 맵을 추출하는 단계;
상기 추출한 복수의 레이어 별 특징 맵을 역순으로 더하여, 상기 복수의 레이어 별 특징 맵의 정보를 융합하는 특징 피라미드를 구성하는 단계;
상기 특징 피라미드를 이용하여, 상기 영상에 대해 다중 해상도를 갖는 특징 맵을 추출하는 단계; 및
상기 다중 해상도를 갖는 상기 특징 맵을 이용하여 상기 객체의 형태에 대한 마스크를 생성하는 단계를 포함하고,
상기 마스크를 생성하는 단계는,
상기 특징 맵에서 경계 박스에 해당되는 영역을 추출한 후, 미리 설정된 제1 해상도의 특징 맵으로 와핑을 수행하는 단계;
상기 와핑된 특징 맵에 대해 컨볼루션 레이어를 적용하여 컨볼루션 특징 맵을 획득하는 단계;
상기 컨볼루션 특징 맵에 대해 최대 풀링 및 평균 풀링을 수행하여 최대 풀링 특징 맵 및 평균 풀링 특징 맵을 결합하는 단계;
상기 결합된 최대 풀링 특징 맵 및 평균 풀링 특징 맵에 대해 비선형 함수를 적용하여 어텐션 맵을 획득하는 단계;
상기 어텐션 맵과 상기 컨볼루션 특징 맵을 곱하는 단계;
상기 곱한 결과에 대해 업샘플링을 수행하여 상기 제1 해상도보다 높은 제2 해상도의 업샘플링 결과를 획득하는 단계; 및
상기 업샘플링 결과에 대해 이진분류를 수행하여 상기 마스크를 생성하는 단계를 포함하는,
객체 검출 방법. - 삭제
- 삭제
- 삭제
- 삭제
- 객체 검출을 위한 영상에 대한 특징 맵에 대해 제1 그룹의 컨볼루션 레이어를 적용하는 단계;
이진 분류기를 이용하여 경계 박스의 분류를 수행하는 단계;
상기 특징 맵에 대해 제2 그룹의 컨볼루션 레이어를 적용하는 단계;
상기 객체의 중심점을 기준으로 복수의 방향의 오프셋을 설정한 후 상기 경계 박스의 위치 및 크기를 추정하는 단계;
상기 경계 박스의 분류에 대한 신뢰 스코어 및 예측한 경계 박스가 GT와 중심이 일치하는 정도를 나타내는 중심성에 기초하여, 상기 추정된 경계 박스의 신뢰도를 조정하는 단계; 및
상기 특징 맵을 이용하여 상기 경계 박스 내의 상기 객체의 형태에 대한 마스크를 생성하는 단계를 포함하고,
상기 마스크를 생성하는 단계는,
상기 특징 맵에서 상기 경계 박스에 해당되는 영역을 추출한 후, 미리 설정된 제1 해상도의 특징 맵으로 와핑을 수행하는 단계;
상기 와핑된 특징 맵에 대해 컨볼루션 레이어를 적용하여 컨볼루션 특징 맵을 획득하는 단계;
상기 컨볼루션 특징 맵에 대해 최대 풀링 및 평균 풀링을 수행하여 최대 풀링 특징 맵 및 평균 풀링 특징 맵을 결합하는 단계;
상기 결합된 최대 풀링 특징 맵 및 평균 풀링 특징 맵에 대해 비선형 함수를 적용하여 어텐션 맵을 획득하는 단계;
상기 어텐션 맵과 상기 컨볼루션 특징 맵을 곱하는 단계;
상기 곱한 결과에 대해 업샘플링을 수행하여 상기 제1 해상도보다 높은 제2 해상도의 업샘플링 결과를 획득하는 단계; 및
상기 업샘플링 결과에 대해 이진분류를 수행하여 상기 마스크를 생성하는 단계를 포함하는
객체 검출 방법. - 삭제
- 삭제
- 삭제
- 삭제
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200060095A KR102497361B1 (ko) | 2020-05-20 | 2020-05-20 | 객체 검출 시스템 및 방법 |
US17/325,701 US11593587B2 (en) | 2020-05-20 | 2021-05-20 | Object detection system and an object detection method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200060095A KR102497361B1 (ko) | 2020-05-20 | 2020-05-20 | 객체 검출 시스템 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210143401A KR20210143401A (ko) | 2021-11-29 |
KR102497361B1 true KR102497361B1 (ko) | 2023-02-10 |
Family
ID=78608140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200060095A KR102497361B1 (ko) | 2020-05-20 | 2020-05-20 | 객체 검출 시스템 및 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11593587B2 (ko) |
KR (1) | KR102497361B1 (ko) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230025770A1 (en) * | 2021-07-19 | 2023-01-26 | Kookmin University Industry Academy Cooperation Foundation | Method and apparatus for detecting an object based on identification information of the object in continuous images |
US11983920B2 (en) * | 2021-12-20 | 2024-05-14 | International Business Machines Corporation | Unified framework for multigrid neural network architecture |
TWI819438B (zh) * | 2021-12-21 | 2023-10-21 | 緯創資通股份有限公司 | 影像辨識裝置及影像辨識方法 |
KR102567671B1 (ko) * | 2021-12-30 | 2023-08-17 | 가천대학교 산학협력단 | 콘볼루션 신경망 기반의 주사 전자 현미경 이미지를 이용한 효율적인 모발 손상 감지 방법 및 시스템 |
CN115272856B (zh) * | 2022-07-28 | 2023-04-04 | 北京卫星信息工程研究所 | 舰船目标细粒度识别方法及设备 |
CN117152422B (zh) * | 2023-10-31 | 2024-02-13 | 国网湖北省电力有限公司超高压公司 | 一种紫外图像无锚框目标检测方法及存储介质、电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180253622A1 (en) | 2017-03-06 | 2018-09-06 | Honda Motor Co., Ltd. | Systems for performing semantic segmentation and methods thereof |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017095948A1 (en) | 2015-11-30 | 2017-06-08 | Pilot Ai Labs, Inc. | Improved general object detection using neural networks |
KR102587254B1 (ko) | 2016-10-31 | 2023-10-13 | 한국전자통신연구원 | Cnn과 rnn을 이용한 얼굴인식 기반 키 생성 방법 및 장치 |
KR20180105294A (ko) | 2017-03-14 | 2018-09-28 | 한국전자통신연구원 | 이미지 압축 장치 |
US10679351B2 (en) * | 2017-08-18 | 2020-06-09 | Samsung Electronics Co., Ltd. | System and method for semantic segmentation of images |
US11030495B2 (en) | 2018-06-13 | 2021-06-08 | Octi | Systems and methods for instance segmentation |
US11030750B2 (en) * | 2018-10-03 | 2021-06-08 | Merck Sharp & Dohme Corp. | Multi-level convolutional LSTM model for the segmentation of MR images |
US11100352B2 (en) | 2018-10-16 | 2021-08-24 | Samsung Electronics Co., Ltd. | Convolutional neural network for object detection |
KR20200049451A (ko) * | 2018-10-16 | 2020-05-08 | 삼성전자주식회사 | 콘볼루션 신경망 시스템 및 그것의 동작 방법 |
US10818386B2 (en) * | 2018-11-21 | 2020-10-27 | Enlitic, Inc. | Multi-label heat map generating system |
US10846870B2 (en) * | 2018-11-29 | 2020-11-24 | Adobe Inc. | Joint training technique for depth map generation |
US11989637B2 (en) * | 2019-04-30 | 2024-05-21 | Samsung Electronics Co., Ltd. | System and method for invertible wavelet layer for neural networks |
CN110287849B (zh) * | 2019-06-20 | 2022-01-07 | 北京工业大学 | 一种适用于树莓派的轻量化深度网络图像目标检测方法 |
CN111666822A (zh) * | 2020-05-13 | 2020-09-15 | 飒铂智能科技有限责任公司 | 一种基于深度学习的低空无人机目标检测方法及系统 |
-
2020
- 2020-05-20 KR KR1020200060095A patent/KR102497361B1/ko active IP Right Grant
-
2021
- 2021-05-20 US US17/325,701 patent/US11593587B2/en active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180253622A1 (en) | 2017-03-06 | 2018-09-06 | Honda Motor Co., Ltd. | Systems for performing semantic segmentation and methods thereof |
Non-Patent Citations (2)
Title |
---|
Haifeng Li 등, SCAttNet: Semantic Segmentation Network with Spatial and Channel Attention Mechanism for High-Resolution Remote Sensing Images, arXiv:1912.09121v2(2020.05.07.)* |
Zhi Tian 등, FCOS: Fully Convolutional One-Stage Object Detection, arxiv:1904.01355v5(2019.08.20.)* |
Also Published As
Publication number | Publication date |
---|---|
US20210365724A1 (en) | 2021-11-25 |
US11593587B2 (en) | 2023-02-28 |
KR20210143401A (ko) | 2021-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102497361B1 (ko) | 객체 검출 시스템 및 방법 | |
US11188794B2 (en) | Convolutional neural network framework using reverse connections and objectness priors for object detection | |
US10672131B2 (en) | Control method, non-transitory computer-readable storage medium, and control apparatus | |
JP6309663B2 (ja) | 道路シーンのセマンティックセグメンテーションのための制約付きデコンボリューションネットワークのトレーニング | |
US10019657B2 (en) | Joint depth estimation and semantic segmentation from a single image | |
US10860837B2 (en) | Deep multi-task learning framework for face detection, landmark localization, pose estimation, and gender recognition | |
US9786036B2 (en) | Reducing image resolution in deep convolutional networks | |
US20240104382A1 (en) | System and method for instance-level lane detection for autonomous vehicle control | |
JP2022518322A (ja) | ソフトクロスエントロピー損失を用いたセマンティックセグメンテーション | |
CN109886330B (zh) | 文本检测方法、装置、计算机可读存储介质和计算机设备 | |
US11475572B2 (en) | Systems and methods for object detection and recognition | |
KR102143034B1 (ko) | 객체의 미래 움직임 예측을 통한 동영상에서의 객체 추적을 위한 방법 및 시스템 | |
KR102340988B1 (ko) | 고해상도 객체 검출장치 및 방법 | |
CN113112518A (zh) | 基于拼接图像的特征提取器生成方法、装置和计算机设备 | |
CN115018039A (zh) | 一种神经网络蒸馏方法、目标检测方法以及装置 | |
KR20200017612A (ko) | 딥러닝을 이용한 위치 측위 학습 방법 | |
KR101906663B1 (ko) | 다양한 컬러 공간에서 협동 얼굴 컬러 특징 학습 방법 및 장치 | |
CN111476226B (zh) | 一种文本定位方法、装置及模型训练方法 | |
CN111914809B (zh) | 目标对象定位方法、图像处理方法、装置和计算机设备 | |
US20150356741A1 (en) | Image transmission system, image processing apparatus, image storage apparatus, and control methods thereof | |
KR102507906B1 (ko) | 저용량 ndt 지도를 이용한 자율주행 차량의 측위 방법, 장치 및 컴퓨터프로그램 | |
Wang et al. | An optimal coverage model for the deployment of iot devices in feature-based video transmission systems | |
Almeida et al. | Dealing with Heterogeneous Google Earth Images on Building Area Detection Task | |
US20230196752A1 (en) | Information processing apparatus, information processing method, and non-transitory computer-readable storage medium | |
Kumar et al. | A Novel Real-Time 3D Object Detection Network in Autonomous Driving Using Reformed RS-ResNet network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |