KR102497361B1

KR102497361B1 - 객체 검출 시스템 및 방법

Info

Publication number: KR102497361B1
Application number: KR1020200060095A
Authority: KR
Inventors: 이영완; 김형일; 박종열; 배유석
Original assignee: 한국전자통신연구원
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2023-02-10
Also published as: US20210365724A1; KR20210143401A; US11593587B2

Abstract

객체 검출 시스템 및 방법이 제공된다. 객체 검출 시스템은, 객체 검출을 위한 영상을 입력 받고, 영상에 대해 다중 해상도를 갖는 특징 맵을 추출하는 특징 맵 추출 모듈; 특징 맵에 대해 제1 그룹의 컨볼루션 레이어를 적용하여 경계 박스의 분류를 수행하고, 특징 맵에 대해 제2 그룹의 컨볼루션 레이어를 적용하여 경계 박스를 예측하는 경계 박스 검출 모듈; 및 특징 맵을 이용하여 경계 박스 내의 객체의 형태에 대한 마스크를 생성하는 마스크 생성 모듈을 포함할 수 있다.

Description

객체 검출 시스템 및 방법{OBJECT DETECTING SYSTEM AND METHOD}

본 발명은 객체 검출 시스템 및 방법에 관한 것이다.

영상 내에서 객체를 검출하는 영상 인식 또는 객체 검출 시스템은, 디지털 영상 또는 비디오 프레임으로부터 단일 객체 또는 복수의 객체들을 검출하고, 의미적 분할(semantic segmentation)을 수행할 수 있다. 여기서 객체 검출은, 주어진 영상 내에서 특정 객체를 분류(classification)하고, 영상 내에서의 위치 및 크기를 경계 박스(bounding box)의 형태로 추정하는 것을 의미할 수 있다. 또한, 의미적 분할은, 이와 같이 검출된 객체 박스 내에서, 객체의 정확한 형태를 픽셀 단위로 세분화하는 것을 의미할 수 있다.

객체 검출을 위한 기술로, 사전 정의된 앵커 박스(pre-defined anchor-box) 기반 객체 검출 기술이 있다. 이 방식은, 고정된 위치 및 다양한 크기/비율로 정의되는 앵커 박스와 GT(ground truth) 박스와의 차이를 손실 함수로 정의하여 학습 및 검출을 수행한다. 하지만, 이 방법은 학습 데이터마다 매번 서로 다른 앵커 박스에 관련된 하이퍼 파라미터(hyper-parameter) 튜닝을 수행할 필요가 있으며, GT 박스 대비 무수히 많은 앵커 박스 후보로 인해 포지티브/네거티브 샘플(positive/negative sample)의 불균형이 발생할 수 있다.

본 발명이 해결하고자 하는 과제는, 사전 정의된 앵커 박스 기반의 객체 검출 기술의 한계를 극복할 수 있는 포인트 기반의 객체 검출 및 분할을 수행하는 객체 검출 시스템 및 방법을 제공하는 것이다.

본 발명의 일 실시 예에 따른 객체 검출 시스템은, 객체 검출을 위한 영상을 입력 받고, 영상에 대해 다중 해상도를 갖는 특징 맵을 추출하는 특징 맵 추출 모듈; 특징 맵에 대해 제1 그룹의 컨볼루션 레이어를 적용하여 경계 박스의 분류를 수행하고, 특징 맵에 대해 제2 그룹의 컨볼루션 레이어를 적용하여 경계 박스를 예측하는 경계 박스 검출 모듈; 및 특징 맵을 이용하여 경계 박스 내의 객체의 형태에 대한 마스크를 생성하는 마스크 생성 모듈을 포함할 수 있다.

본 발명의 몇몇의 실시 예에서, 특징 맵 추출 모듈은, 영상으로부터 복수의 레이어 별 특징 맵의 정보를 융합하는 특징 피라미드를 구성하고, 특징 피라미드를 이용하여 다중 해상도를 갖는 특징 맵을 추출할 수 있다.

본 발명의 몇몇의 실시 예에서, 특징 맵 추출 모듈은, 백본 네트워크에서 복수의 레이어 별 특징 맵을 추출하고, 추출한 복수의 레이어 별 특징 맵을 역순으로 더하여 특징 피라미드를 구성할 수 있다.

본 발명의 몇몇의 실시 예에서, 경계 박스 검출 모듈은, 이진 분류기를 이용하여 경계 박스의 분류를 수행할 수 있다.

본 발명의 몇몇의 실시 예에서, 경계 박스 검출 모듈은, 객체의 중심점을 기준으로 복수의 방향의 오프셋을 설정한 후 경계 박스의 위치 및 크기를 추정할 수 있다.

본 발명의 몇몇의 실시 예에서, 경계 박스 검출 모듈은, 경계 박스의 분류에 대한 신뢰 스코어 및 예측한 경계 박스가 GT(ground truth)와 중심이 일치하는 정도를 나타내는 중심성에 기초하여, 예측된 경계 박스의 신뢰도를 조정할 수 있다.

본 발명의 몇몇의 실시 예에서, 마스크 생성 모듈은, 특징 맵에서 경계 박스에 해당되는 영역을 추출한 후, 미리 설정된 해상도의 특징 맵으로 와핑을 수행할 수 있다.

본 발명의 몇몇의 실시 예에서, 마스크 생성 모듈은, 와핑된 특징 맵에 대해 컨볼루션 레이어를 적용하여 컨볼루션 특징 맵을 획득하고, 컨볼루션 특징 맵에 대해 최대 풀링 및 평균 풀링을 수행하여 최대 풀링 특징 맵 및 평균 풀링 특징 맵을 결합할 수 있다.

본 발명의 몇몇의 실시 예에서, 마스크 생성 모듈은, 결합된 최대 풀링 특징 맵 및 평균 풀링 특징 맵에 대해 비선형 함수를 적용하여 어텐션 맵을 획득할 수 있다.

본 발명의 몇몇의 실시 예에서, 마스크 생성 모듈은, 어텐션 맵과 컨볼루션 특징 맵을 곱한 후, 곱한 결과에 대해 이진 분류를 수행하여 마스크를 생성할 수 있다.

본 발명의 일 실시 예에 따른 객체 검출 방법은, 객체 검출을 위한 영상을 입력 받는 단계; 백본 네트워크에서 복수의 레이어 별 특징 맵을 추출하는 단계; 추출한 복수의 레이어 별 특징 맵을 역순으로 더하여, 복수의 레이어 별 특징 맵의 정보를 융합하는 특징 피라미드를 구성하는 단계; 특징 피라미드를 이용하여, 영상에 대해 다중 해상도를 갖는 특징 맵을 추출하는 단계; 및 다중 해상도를 갖는 특징 맵을 이용하여 객체의 형태에 대한 마스크를 생성하는 단계를 포함할 수 있다.

본 발명의 몇몇의 실시 예에서, 마스크를 생성하는 단계는, 특징 맵에서 경계 박스에 해당되는 영역을 추출한 후, 미리 설정된 해상도의 특징 맵으로 와핑을 수행하는 단계를 포함할 수 있다.

본 발명의 몇몇의 실시 예에서, 마스크를 생성하는 단계는, 와핑된 특징 맵에 대해 컨볼루션 레이어를 적용하여 컨볼루션 특징 맵을 획득하는 단계; 및 컨볼루션 특징 맵에 대해 최대 풀링 및 평균 풀링을 수행하여 최대 풀링 특징 맵 및 평균 풀링 특징 맵을 결합하는 단계를 포함할 수 있다.

본 발명의 몇몇의 실시 예에서, 마스크 생성하는 단계는, 결합된 최대 풀링 특징 맵 및 평균 풀링 특징 맵에 대해 비선형 함수를 적용하여 어텐션 맵을 획득하는 단계를 포함할 수 있다.

본 발명의 몇몇의 실시 예에서, 마스크 생성하는 단계는, 어텐션 맵과 컨볼루션 특징 맵을 곱한 후, 곱한 결과에 대해 이진 분류를 수행하여 마스크를 생성하는 단계를 포함할 수 있다.

본 발명의 일 실시 예에 따른 객체 검출 방법은, 객체 검출을 위한 영상에 대한 특징 맵에 대해 제1 그룹의 컨볼루션 레이어를 적용하는 단계; 이진 분류기를 이용하여 경계 박스의 분류를 수행하는 단계; 특징 맵에 대해 제2 그룹의 컨볼루션 레이어를 적용하는 단계; 객체의 중심점을 기준으로 복수의 방향의 오프셋을 설정한 후 경계 박스의 위치 및 크기를 추정하는 단계; 경계 박스의 분류에 대한 신뢰 스코어 및 예측한 경계 박스가 GT와 중심이 일치하는 정도를 나타내는 중심성에 기초하여, 추정된 경계 박스의 신뢰도를 조정하는 단계; 및 특징 맵을 이용하여 경계 박스 내의 객체의 형태에 대한 마스크를 생성하는 단계를 포함할 수 있다.

본 발명의 실시 예들에 따르면, 높은 연산량 및 메모리 사용량을 요구하는 사전 정의된 앵커 박스를 사용하지 않고, 포인트 기반의 객체 검출 및 분할을 수행함에 따라, 연산량 및 메모리 점유율 면에서 효율화를 꾀할 수 있다. 나아가, 적은 컴퓨팅 파워를 갖는 플랫폼(예를 들어 임베디드 플랫폼) 기반의 로봇, 드론, 자율 주행 자동차 등 여러 분야에서 실시간 객체 검출 및 분할을 실현할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 객체 검출 시스템을 설명하기 위한 블록도이다.
도 2는 본 발명의 일 실시 예에 따른 객체 검출 시스템의 특징 맵 추출 모듈을 설명하기 위한 도면이다.
도 3 내지 도 4는 본 발명의 일 실시 예에 따른 객체 검출 시스템의 경계 박스 검출 모듈을 설명하기 위한 도면들이다.
도 5는 본 발명의 일 실시 예에 따른 객체 검출 시스템의 마스크 생성 모듈을 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시 예에 따른 객체 검출 방법을 설명하기 위한 흐름도이다.
도 7은 본 발명의 일 실시 예에 따른 객체 검출 방법을 설명하기 위한 흐름도이다.
도 8은 본 발명의 일 실시 예에 따른 객체 검출 방법을 설명하기 위한 흐름도이다.
도 9는 본 발명의 일 실시 예에 따른 객체 검출 시스템 및 방법을 구현하기 위한 컴퓨팅 장치를 설명하기 위한 블록도이다.

아래에서는 첨부한 도면을 참조하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 및 청구범위 전체에서, 어떤 부분이 어떤 구성 요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

본 명세서에서 설명되는 객체 검출 시스템은 하나 이상의 컴퓨팅 장치로 구현될 수 있다. 컴퓨팅 장치는, 예를 들어, 스마트 폰, 스마트 워치, 스마트 밴드, 태블릿 컴퓨터, 노트북 컴퓨터, 데스크톱 컴퓨터, 서버 등을 들 수 있으나, 본 발명의 범위가 이에 제한되는 것은 아니고, 컴퓨터 명령을 저장 및 실행할 수 있는 메모리 및 프로세서를 구비한 임의의 형태의 컴퓨터 장치를 포함할 수 있다.

객체 검출 시스템의 기능들은 단일 컴퓨팅 장치 상에서 모두 구현될 수도 있고, 복수의 컴퓨팅 장치 상에서 나누어 구현될 수도 있다. 예를 들어, 복수의 컴퓨팅 장치는 제1 컴퓨팅 장치 및 제2 컴퓨팅 장치를 포함할 수 있고, 객체 검출 시스템의 일부 기능은 제1 컴퓨팅 장치 상에 구현되고, 객체 검출 시스템의 다른 일부 기능은 제2 컴퓨팅 장치 상에 구현될 수 있다. 그리고 제1 컴퓨팅 장치와 제2 컴퓨팅 장치는 네트워크를 통해 서로 통신할 수 있다.

여기서, 네트워크는 셀룰러 네트워크, Wi-Fi 네트워크, 블루투스 네트워크 등을 비롯한 무선 네트워크, LAN(Local Area Network), WLAN(Wide Local Area Network) 등을 비롯한 유선 네트워크, 또는 무선 네트워크와 유선 네트워크의 조합을 포함할 수 있으나, 본 발명의 범위가 이에 제한되는 것은 아니다.

도 1은 본 발명의 일 실시 예에 따른 객체 검출 시스템을 설명하기 위한 블록도이다.

도 1을 참조하면, 본 발명의 일 실시 예에 따른 객체 검출 시스템(1)은 포인트 기반의 객체 검출 및 분할을 수행할 수 있다. 여기서 분할은 의미적 분할(semantic segmentation)을 의미할 수 있으며, 구체적으로 객체 검출 시스템(1)은 입력 영상 내의 객체에 대한 픽셀 단위(pixel-wise)의 객체 분리를 수행할 수 있고, 객체의 분류 및 검출 신뢰도 점수에 속하는 입력 영상 내의 특정 픽셀들을 마스크의 형태로 하여 객체 검출 결과를 생성할 수 있다.

본 실시 예에서, 객체 검출 시스템(1)은 특징 맵 추출 모듈(10), 경계 박스 검출 모듈(20) 및 마스크 생성 모듈(30)을 포함할 수 있다.

입력 영상(IMG1)은, 예를 들어, 초원 풍경 영상일 수 있고, 이 때 초원 풍경 영상에는 얼룩말을 비롯한 동물들과 초목 등이 표현되어 있을 수 있다. 객체 검출 시스템(1)은 입력 영상(IMG1)에서 얼룩말을 비롯한 동물들 또는 초목을 검출할 수 있다.

특징 맵 추출 모듈(10)은, 객체 검출을 위한 영상, 즉, 입력 영상(IMG1)을 입력 받고, 입력 영상(IMG1)에 대해 다중 해상도를 갖는 특징 맵을 추출할 수 있다.

여기서 다중 해상도를 갖는 특징 맵은, 컨볼루션 레이어로 구성되는 백본 네트워크에서 생성되며, 예를 들어 업샘플링(upsampling) 또는 다운샘플링(downsampling) 등의 연산을 통해 다수의 해상도 또는 스케일을 갖는 특징 맵을 추출할 수 있다.

백본 네트워크에서 생성되는 다수의 해상도 또는 스케일을 갖는 레이어 별 특징 맵 각각은, 레이어 별로 보유하는 특징 정보가 다를 수 있으며, 이들 서로 다른 특징 정보를 융합하는 특징 피라미드를 구성한 후, 특징 피라미드에 기초하여 다중 해상도를 갖는 특징 맵이 추출될 수 있다.

즉, 본 발명의 몇몇의 실시 예에서, 특징 맵 추출 모듈(10)은, 입력 영상(IMG1)으로부터 복수의 레이어 별 특징 맵의 정보를 융합하는 특징 피라미드를 구성하고, 특징 피라미드를 이용하여 다중 해상도를 갖는 특징 맵을 추출할 수 있다.

특히, 특징 피라미드는, 백본 네트워크에서 복수의 레이어 별 특징 맵을 추출하고, 추출한 복수의 레이어 별 특징 맵을 역순으로 더하여 구성될 수 있으나, 본 발명의 범위가 이에 제한되는 것은 아니다.

경계 박스 검출 모듈(20)은, 특징 맵 추출 모듈(10)에 의해 추출된 특징 맵에 대해 제1 그룹의 컨볼루션 레이어를 적용하여 경계 박스의 분류(또는 식별)를 수행할 수 있다.

여기서, 제1 그룹의 컨볼루션 레이어는 복수의 컨볼루션 레이어를 포함하고, 입력으로 특징 맵 추출 모듈(10)에 의해 추출된 특징 맵을 수신하고, 그 출력은 경계 박스의 분류를 수행하는 태스크에 대한 입력에 제공될 수 있다.

본 발명의 몇몇의 실시 예에서, 경계 박스 검출 모듈(20)은, 이진 분류기를 이용하여 경계 박스의 분류를 수행할 수 있다.

또한, 경계 박스 검출 모듈(20)은, 특징 맵 추출 모듈(10)에 의해 추출된 특징 맵에 대해 제2 그룹의 컨볼루션 레이어를 적용하여 경계 박스를 예측할 수 있다.

여기서, 제2 그룹의 컨볼루션 레이어는 복수의 컨볼루션 레이어를 포함하고, 입력으로 특징 맵 추출 모듈(10)에 의해 추출된 특징 맵을 수신하고, 그 출력은 경계 박스의 예측을 수행하는 태스크에 대한 입력에 제공될 수 있다.

본 발명의 몇몇의 실시 예에서, 경계 박스 검출 모듈(20)은, 객체의 중심점을 기준으로 복수의 방향의 오프셋을 설정한 후 경계 박스의 위치 및 크기를 추정할 수 있다.

또한, 본 발명의 몇몇의 실시 예에서, 경계 박스 검출 모듈(20)은, 경계 박스의 분류에 대한 신뢰 스코어 및 예측한 경계 박스가 GT와 중심이 일치하는 정도를 나타내는 중심성에 기초하여, 예측된 경계 박스의 신뢰도를 조정할 수 있다.

이와 같은 방식으로, 경계 박스 검출 모듈(20)은, 사전 정의된 앵커 박스를 사용하지 않고, 포인트 기반(즉, 중심점 기반)으로 객체 검출을 수행하기 위한 경계 박스를 예측 또는 결정할 수 있다.

마스크 생성 모듈(30)은, 특징 맵 추출 모듈(10)에 의해 추출된 특징 맵을 이용하여, 경계 박스 검출 모듈(20)에 의해 예측된 경계 박스 내의 객체의 형태에 대한 마스크를 생성하여 출력 영상(IMG2)을 출력할 수 있다.

본 발명의 몇몇의 실시 예에서, 마스크 생성 모듈(30)은, 특징 맵에서 경계 박스에 해당되는 영역을 추출한 후, 미리 설정된 해상도의 특징 맵으로 와핑을 수행할 수 있고, 와핑된 특징 맵에 대해 컨볼루션 레이어를 적용하여 컨볼루션 특징 맵을 획득하고, 컨볼루션 특징 맵에 대해 최대 풀링 및 평균 풀링을 수행하여 최대 풀링 특징 맵 및 평균 풀링 특징 맵을 결합할 수 있다.

또한, 마스크 생성 모듈(30)은, 결합된 최대 풀링 특징 맵 및 평균 풀링 특징 맵에 대해 비선형 함수를 적용하여 어텐션 맵을 획득한 후, 어텐션 맵과 컨볼루션 특징 맵을 곱한 후, 그 곱한 결과에 대해 이진 분류를 수행하여 마스크를 생성할 수 있다.

이에 따라 마스크 생성 모듈(30)에서 출력되는 출력 영상(IMG2)은, 예를 들어, 초원 풍경 영상에서 얼룩말과 관련된 모든 픽셀들을 "얼룩말"로 표지할 수 있고, 다른 동물과 관련된 모든 픽셀들을 해당 동물의 명칭으로 표지할 수 있다. 또한, 출력 영상(IMG2)에서, 객체에 대응하는 픽셀들을 식별하는 마스크가 생성될 수 있으며, 예를 들어, "얼룩말"이 4 마리 검출된 경우, 출력 영상(IMG2)은 4 개의 마스크를 포함할 수 있다.

본 실시 예에 따르면, 높은 연산량 및 메모리 사용량을 요구하는 사전 정의된 앵커 박스를 사용하지 않고, 포인트 기반의 객체 검출 및 분할을 수행함에 따라, 연산량 및 메모리 점유율 면에서 효율화를 꾀할 수 있다. 나아가, 적은 컴퓨팅 파워를 갖는 플랫폼(예를 들어 임베디드 플랫폼) 기반의 로봇, 드론, 자율 주행 자동차 등 여러 분야에서 실시간 객체 검출 및 분할을 실현할 수 있다.

도 2는 본 발명의 일 실시 예에 따른 객체 검출 시스템의 특징 맵 추출 모듈을 설명하기 위한 도면이다.

도 2를 참조하면, 본 발명의 일 실시 예에 따른 객체 검출 시스템의 특징 맵 추출 모듈(20)은 백본 네트워크(11)로부터 특징 피라미드(13)를 생성할 수 있다.

백본 네트워크(11)는 복수의 컨볼루션 레이어(C3 내지 C7)을 포함할 수 있다. 그리고 특징 피라미드(13)는 복수의 컨볼루션 레이어(C3 내지 C7) 각각에 대응하는 특징 맵(P3 내지 P7)을 더하여 구성될 수 있다. 특히, 특징 맵(P3 내지 P7)은 복수의 컨볼루션 레이어(C3 내지 C7)의 역순으로 더해져서, 특징 맵(P3 내지 P7) 각각의 정보를 융합하는 특징 피라미드(13)를 구성할 수 있다.

이에 따라, 특징 맵 추출 모듈(10)은 특징 피라미드(13)를 이용하여 다중 해상도를 갖는 특징 맵을 추출한 후, 이를 경계 박스 검출 모듈(20) 및 마스크 생성 모듈(30)에 제공할 수 있다.

물론, 도 2와 관련하여 설명한 방식에 본 발명이 제한되는 것은 아니며, 특징 맵 추출 모듈(10)은 이와 다른 임의의 방식으로, 경계 박스 검출 모듈(20) 및 마스크 생성 모듈(30)에 제공하는 특징 맵을 입력 영상(IMG1)으로부터 추출할 수 있다.

도 3 내지 도 4는 본 발명의 일 실시 예에 따른 객체 검출 시스템의 경계 박스 검출 모듈을 설명하기 위한 도면들이다.

도 3을 참조하면, 본 발명의 일 실시 예에 따른 객체 검출 시스템의 경계 박스 검출 모듈(20)은, 특징 맵 추출 모듈(10)에 의해 추출된 특징 맵에 해당하는 입력 특징(21)에 대해 복수의 그룹의 컨볼루션 레이어(CG1, CG2)를 적용하여 경계 박스의 분류(23)를 수행하거나, 중심성(27)에 기초하여 경계 박스의 예측(박스 회귀)(25)를 수행할 수 있다. 여기서, 복수의 그룹의 컨볼루션 레이어(CG1, CG2) 각각은 복수의 컨볼루션 레이어를 포함할 수 있다.

입력 특징(21)에 대해 복수의 그룹의 컨볼루션 레이어(CG1, CG2) 중 제1 그룹의 컨볼루션 레이어(CG1)가 적용되는 경우, 그 결과는 경계 박스의 분류(23)를 수행하는 태스크에 입력으로 제공될 수 있다. 그러면, 경계 박스의 분류(23)를 수행하는 태스크는, 예를 들어, 이진 분류기를 이용하여, 입력 특징(21)으로부터 경계 박스를 분류할 수 있다.

한편, 입력 특징(21)에 대해 복수의 그룹의 컨볼루션 레이어(CG1, CG2) 중 제2 그룹의 컨볼루션 레이어(CG2)가 적용되는 경우, 그 결과는 경계 박스의 예측(25)을 수행하는 태스크에 입력으로 제공될 수 있다. 그러면, 경계 박스의 예측(25)를 수행하는 태스크는, 객체의 중심점을 기준으로 복수의 방향의 오프셋을 설정한 후 경계 박스의 위치 및 크기를 추정할 수 있다.

도 4를 함께 참조하면, 경계 박스의 예측(25)를 수행하는 태스크는, 객체 "사람"의 중심점(CP1)을 기준으로, 상(T), 하(B), 좌(L), 우(R)의 4 개 방향으로 오프셋을 설정한 후, 객체 "사람"을 둘러싸도록 분류되는 경계 박스(B1)의 위치 및 크기를 추정할 수 있다.

마찬가지로, 경계 박스의 예측(25)를 수행하는 태스크는, 객체 "축구공"의 중심점(CP2)을 기준으로, 상(T), 하(B), 좌(L), 우(R)의 4 개 방향으로 오프셋을 설정한 후, 객체 "축구공"을 둘러싸도록 분류되는 경계 박스(B2)의 위치 및 크기를 추정할 수 있다.

또한, 경계 박스의 예측(25)를 수행하는 태스크는, 중심성(27)에 기초하여 예측된 경계 박스의 신뢰도를 조정할 수 있으며, 중심성(27)은 경계 박스의 분류에 대한 신뢰 스코어 및 예측한 경계 박스가 GT와 중심이 일치하는 정도를 나타낼 수 있다.

물론, 도 3 및 도 4와 관련하여 설명한 방식에 본 발명이 제한되는 것은 아니며, 경계 박스 검출 모듈(20)은 이와 다른 임의의 방식으로, 포인트 기반으로 객체 검출을 수행하기 위한 경계 박스를 예측 또는 결정할 수 있다.

도 5는 본 발명의 일 실시 예에 따른 객체 검출 시스템의 마스크 생성 모듈을 설명하기 위한 도면이다.

도 5를 참조하면, 본 발명의 일 실시 예에 따른 객체 검출 시스템의 마스크 생성 모듈(30)은, 특징 맵 추출 모듈(10)에 의해 추출된 특징 맵을 이용하여, 경계 박스 검출 모듈(20)에 의해 예측된 경계 박스 내의 객체의 형태에 대한 마스크(38)를 생성할 수 있다.

이를 위해, 마스크 생성 모듈(30)은, 특징 맵에서 경계 박스에 해당되는 영역을 추출한 후, 미리 설정된 해상도, 예컨대 14x14 해상도의 특징 맵으로 와핑을 수행할 수 있다. 그리고 마스크 생성 모듈(30)은, 와핑된 특징 맵(31)에 대해 컨볼루션 레이어를 적용하여 컨볼루션 특징 맵(32)을 획득하고, 컨볼루션 특징 맵(32)에 대해 최대 풀링 및 평균 풀링을 수행하여 최대 풀링 특징 맵(33a) 및 평균 풀링 특징 맵(33b)를 생성할 수 있다.

다음으로, 마스크 생성 모듈(30)은, 최대 풀링 특징 맵(33a) 및 평균 풀링 특징 맵(33b)을 결합하여, 결합된 최대 풀링 특징 맵 및 평균 풀링 특징 맵(34)을 생성하고, 결합된 최대 풀링 특징 맵 및 평균 풀링 특징 맵(34)에 대해 비선형 함수, 예컨대 sigmoid 함수를 적용하여 어텐션 맵(35)을 획득할 수 있다.

다음으로, 마스크 생성 모듈(30)은, 어텐션 맵(35)과 컨볼루션 특징 맵(32)을 곱한 후, 그 곱한 결과(16)에 대해 업샘플링을 수행하여 예컨대 28x28 해상도의 업샘플링 결과(37)를 획득하고, 이에 대해 이진 분류를 수행하여 마스크(38)를 생성할 수 있다.

물론, 도 5와 관련하여 설명한 방식에 본 발명이 제한되는 것은 아니며, 마스크 생성 모듈(30)은 은 이와 다른 임의의 방식으로, 특징 맵 추출 모듈(10)에 의해 추출된 특징 맵을 이용하여, 경계 박스 검출 모듈(20)에 의해 예측된 경계 박스 내의 객체의 형태에 대한 마스크를 생성할 수 있다.

도 6은 본 발명의 일 실시 예에 따른 객체 검출 방법을 설명하기 위한 흐름도이다.

도 6을 참조하면, 본 발명의 일 실시 예에 따른 객체 검출 방법은, 객체 검출을 위한 영상을 입력 받는 단계(S601), 백본 네트워크를 이용하여 레이어 별 특징 맵을 추출하는 단계(S603), 레이어 별 특징 맵을 역순으로 더하는 단계(S605), 특징 피라미드를 구성하는 단계(S607) 및 입력 영상에 대한 다중 해상도의 특징 맵을 생성하는 단계(S609)를 포함할 수 있다.

본 실시 예에 따른 객체 검출 방법에 대한 더욱 상세한 내용에 대해서는 도 1 내지 도 5와 관련하여 설명한 내용을 참조할 수 있으므로, 여기서는 중복되는 내용에 대한 설명을 생략하도록 한다.

도 7은 본 발명의 일 실시 예에 따른 객체 검출 방법을 설명하기 위한 흐름도이다.

도 7을 참조하면, 본 발명의 일 실시 예에 따른 객체 검출 방법은, 다중 해상도의 특징 맵을 입력 받는 단계(S701), 제1 그룹 및 제2 그룹의 컨볼루션 레이어를 통과시키는 단계(S703), 제1 그룹 컨볼루션 레이어를 통과한 특징 맵에 대해 객체 경계 박스를 분류를 수행하는 단계(S705), 제2 그룹 컨볼루션 레이어를 통과한 특징 맵에 대해 객체 경계 박스를 예측하는 단계(S707) 및 중심성을 이용하여 예측한 경계 박스의 신뢰도를 조정하는 단계(S709)를 포함할 수 있다.

도 8은 본 발명의 일 실시 예에 따른 객체 검출 방법을 설명하기 위한 흐름도이다.

도 8을 참조하면, 본 발명의 일 실시 예에 따른 객체 검출 방법은, 컨볼루션 특징 맵에 대해 최대 풀링 및 평균 풀링을 수행하는 단계(S801), 최대 풀링 특징 맵과 평균 풀링 특징 맵을 결합하는 단계(S803), 비선형 함수를 통과시켜 어텐션 맵을 획득하는 단계(S805), 어텐션 맵과 컨볼루션 특징 맵을 곱하는 단계(S807) 및 이진 분류를 수행하여 마스크를 획득하는 단계(S809)를 포함할 수 있다.

도 9는 본 발명의 일 실시 예에 따른 객체 검출 시스템 및 방법을 구현하기 위한 컴퓨팅 장치를 설명하기 위한 블록도이다.

도 9를 참조하면, 본 발명의 일 실시 예에 따른 객체 검출 시스템 및 방법은 컴퓨팅 장치(50)를 이용하여 구현될 수 있다.

컴퓨팅 장치(50)는 버스(520)를 통해 통신하는 프로세서(510), 메모리(530), 사용자 인터페이스 입력 장치(540), 사용자 인터페이스 출력 장치(550) 및 저장 장치(560) 중 적어도 하나를 포함할 수 있다. 컴퓨팅 장치(50)는 또한 네트워크(40), 예컨대 무선 네트워크에 전기적으로 접속되는 네트워크 인터페이스(570)를 포함할 수 있다. 네트워크 인터페이스(570)는 네트워크(40)를 통해 다른 개체와 신호를 송신 또는 수신할 수 있다.

프로세서(510)는 AP(Application Processor), CPU(Central Processing Unit), GPU(Graphic　Processing　Unit) 등과 같은 다양한 종류들로 구현될 수 있으며, 메모리(530) 또는 저장 장치(560)에 저장된 명령을 실행하는 임의의 반도체 장치일 수 있다. 프로세서(510)는 도 1 내지 도 8에서 설명한 기능 및 방법들을 구현하도록 구성될 수 있다.

메모리(530) 및 저장 장치(560)는 다양한 형태의 휘발성 또는 비 휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리는 ROM(read-only memory)(531) 및 RAM(random access memory)(532)를 포함할 수 있다. 본 발명의 실시 예에서 메모리(530)는 프로세서(510)의 내부 또는 외부에 위치할 수 있고, 메모리(530)는 이미 알려진 다양한 수단을 통해 프로세서(510)와 연결될 수 있다.

또한, 본 발명의 일 실시 예에 따른 객체 검출 시스템 및 방법 중 적어도 일부는 컴퓨팅 장치(50)에서 실행되는 프로그램 또는 소프트웨어로 구현될 수 있고, 프로그램 또는 소프트웨어는 컴퓨터로 판독 가능한 매체에 저장될 수 있다.

또한, 본 발명의 일 실시 예에 따른 객체 검출 시스템 및 방법 중 적어도 일부는 컴퓨팅 장치(50)과 전기적으로 접속될 수 있는 하드웨어로 구현될 수도 있다.

이제까지 설명한 본 발명의 실시 예들에 따르면, 높은 연산량 및 메모리 사용량을 요구하는 사전 정의된 앵커 박스를 사용하지 않고, 포인트 기반의 객체 검출 및 분할을 수행함에 따라, 연산량 및 메모리 점유율 면에서 효율화를 꾀할 수 있다. 나아가, 적은 컴퓨팅 파워를 갖는 플랫폼(예를 들어 임베디드 플랫폼) 기반의 로봇, 드론, 자율 주행 자동차 등 여러 분야에서 실시간 객체 검출 및 분할을 실현할 수 있다.

이상에서 본 발명의 실시 예에 대하여 상세하게 설명하였지만 본 발명의 권리 범위는 이에 한정되는 것은 아니고, 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자의 여러 변형 및 개량 형태 또한 본 발명의 권리 범위에 속한다.

Claims

객체 검출을 위한 영상을 입력 받고, 상기 영상에 대해 다중 해상도를 갖는 특징 맵을 추출하는 특징 맵 추출 모듈;
상기 특징 맵에 대해 제1 그룹의 컨볼루션 레이어를 적용하여 경계 박스의 분류를 수행하고, 상기 특징 맵에 대해 제2 그룹의 컨볼루션 레이어를 적용하여 상기 경계 박스를 예측하는 경계 박스 검출 모듈; 및
상기 특징 맵을 이용하여 상기 경계 박스 내의 상기 객체의 형태에 대한 마스크를 생성하는 마스크 생성 모듈을 포함하고,
상기 마스크 생성 모듈은,
상기 특징 맵에서 상기 경계 박스에 해당되는 영역을 추출한 후, 미리 설정된 제1 해상도의 특징 맵으로 와핑을 수행하고,
상기 와핑된 특징 맵에 대해 컨볼루션 레이어를 적용하여 컨볼루션 특징 맵을 획득하고,
상기 컨볼루션 특징 맵에 대해 최대 풀링 및 평균 풀링을 수행하여 최대 풀링 특징 맵 및 평균 풀링 특징 맵을 생성하고,
상기 최대 풀링 특징 맵 및 상기 평균 풀링 특징 맵을 결합하고,
상기 결합된 최대 풀링 특징 맵 및 평균 풀링 특징 맵에 대해 비선형 함수를 적용하여 어텐션 맵을 획득하고,
상기 어텐션 맵과 상기 컨볼루션 특징 맵을 곱하고,
상기 곱한 결과에 대해 업샘플링을 수행하여 상기 제1 해상도보다 높은 제2 해상도의 업샘플링 결과를 획득하고,
상기 업샘플링 결과에 대해 이진분류를 수행하여 상기 마스크를 생성하는,
객체 검출 시스템.
제1항에 있어서,
상기 특징 맵 추출 모듈은,
상기 영상으로부터 복수의 레이어 별 특징 맵의 정보를 융합하는 특징 피라미드를 구성하고,
상기 특징 피라미드를 이용하여 상기 다중 해상도를 갖는 상기 특징 맵을 추출하는, 객체 검출 시스템.
제2항에 있어서,
상기 특징 맵 추출 모듈은,
백본 네트워크에서 상기 복수의 레이어 별 특징 맵을 추출하고, 상기 추출한 복수의 레이어 별 특징 맵을 역순으로 더하여 상기 특징 피라미드를 구성하는, 객체 검출 시스템.
제1항에 있어서,
상기 경계 박스 검출 모듈은,
이진 분류기를 이용하여 상기 경계 박스의 분류를 수행하는, 객체 검출 시스템.
제1항에 있어서,
상기 경계 박스 검출 모듈은,
상기 객체의 중심점을 기준으로 복수의 방향의 오프셋을 설정한 후 상기 경계 박스의 위치 및 크기를 추정하는, 객체 검출 시스템.
제5항에 있어서,
상기 경계 박스 검출 모듈은,
상기 경계 박스의 분류에 대한 신뢰 스코어 및 상기 예측한 경계 박스가 GT(ground truth)와 중심이 일치하는 정도를 나타내는 중심성에 기초하여, 상기 예측된 경계 박스의 신뢰도를 조정하는, 객체 검출 시스템.
삭제
삭제
삭제
삭제
객체 검출을 위한 영상을 입력 받는 단계;
백본 네트워크에서 복수의 레이어 별 특징 맵을 추출하는 단계;
상기 추출한 복수의 레이어 별 특징 맵을 역순으로 더하여, 상기 복수의 레이어 별 특징 맵의 정보를 융합하는 특징 피라미드를 구성하는 단계;
상기 특징 피라미드를 이용하여, 상기 영상에 대해 다중 해상도를 갖는 특징 맵을 추출하는 단계; 및
상기 다중 해상도를 갖는 상기 특징 맵을 이용하여 상기 객체의 형태에 대한 마스크를 생성하는 단계를 포함하고,
상기 마스크를 생성하는 단계는,
상기 특징 맵에서 경계 박스에 해당되는 영역을 추출한 후, 미리 설정된 제1 해상도의 특징 맵으로 와핑을 수행하는 단계;
상기 와핑된 특징 맵에 대해 컨볼루션 레이어를 적용하여 컨볼루션 특징 맵을 획득하는 단계;
상기 컨볼루션 특징 맵에 대해 최대 풀링 및 평균 풀링을 수행하여 최대 풀링 특징 맵 및 평균 풀링 특징 맵을 결합하는 단계;
상기 결합된 최대 풀링 특징 맵 및 평균 풀링 특징 맵에 대해 비선형 함수를 적용하여 어텐션 맵을 획득하는 단계;
상기 어텐션 맵과 상기 컨볼루션 특징 맵을 곱하는 단계;
상기 곱한 결과에 대해 업샘플링을 수행하여 상기 제1 해상도보다 높은 제2 해상도의 업샘플링 결과를 획득하는 단계; 및
상기 업샘플링 결과에 대해 이진분류를 수행하여 상기 마스크를 생성하는 단계를 포함하는,
객체 검출 방법.
삭제
삭제
삭제
삭제
객체 검출을 위한 영상에 대한 특징 맵에 대해 제1 그룹의 컨볼루션 레이어를 적용하는 단계;
이진 분류기를 이용하여 경계 박스의 분류를 수행하는 단계;
상기 특징 맵에 대해 제2 그룹의 컨볼루션 레이어를 적용하는 단계;
상기 객체의 중심점을 기준으로 복수의 방향의 오프셋을 설정한 후 상기 경계 박스의 위치 및 크기를 추정하는 단계;
상기 경계 박스의 분류에 대한 신뢰 스코어 및 예측한 경계 박스가 GT와 중심이 일치하는 정도를 나타내는 중심성에 기초하여, 상기 추정된 경계 박스의 신뢰도를 조정하는 단계; 및
상기 특징 맵을 이용하여 상기 경계 박스 내의 상기 객체의 형태에 대한 마스크를 생성하는 단계를 포함하고,
상기 마스크를 생성하는 단계는,
상기 특징 맵에서 상기 경계 박스에 해당되는 영역을 추출한 후, 미리 설정된 제1 해상도의 특징 맵으로 와핑을 수행하는 단계;
상기 와핑된 특징 맵에 대해 컨볼루션 레이어를 적용하여 컨볼루션 특징 맵을 획득하는 단계;
상기 컨볼루션 특징 맵에 대해 최대 풀링 및 평균 풀링을 수행하여 최대 풀링 특징 맵 및 평균 풀링 특징 맵을 결합하는 단계;
상기 결합된 최대 풀링 특징 맵 및 평균 풀링 특징 맵에 대해 비선형 함수를 적용하여 어텐션 맵을 획득하는 단계;
상기 어텐션 맵과 상기 컨볼루션 특징 맵을 곱하는 단계;
상기 곱한 결과에 대해 업샘플링을 수행하여 상기 제1 해상도보다 높은 제2 해상도의 업샘플링 결과를 획득하는 단계; 및
상기 업샘플링 결과에 대해 이진분류를 수행하여 상기 마스크를 생성하는 단계를 포함하는
객체 검출 방법.
삭제
삭제
삭제
삭제