KR20190019822A

KR20190019822A - 이미지의 시맨틱 분리를 위한 시스템 및 방법

Info

Publication number: KR20190019822A
Application number: KR1020180057659A
Authority: KR
Inventors: 엘-카미 모스타파; 지종 리; 정원 이
Original assignee: 삼성전자주식회사
Priority date: 2017-08-18
Filing date: 2018-05-21
Publication date: 2019-02-27
Also published as: CN109409371A; US20190057507A1; US10679351B2; CN109409371B; KR102613517B1

Abstract

이미지에서 객체를 검출하는 방법은, 이미지로부터 복수의 코어 인스턴스 특징들을 추출하는 과정, 코어 인스턴스 특징들로부터 다중스케일 해상도로 복수의 특징 맵들을 계산하는 과정, 코어 인스턴스 특징들로부터 검출박스를 계산하는 과정, 특징 맵들의 다중스케일 해상도로 검출박스들 각각에 대한 분리 마스크를 계산하는 과정, 다중스케일 해상도의 분리 마스크들을 병합하여 입력 이미지에서 검출된 각각의 객체에 대해 인스턴스 마스크를 생성하는 과정, 보조 망들이 픽셀레벨 메트릭들을 계산함으로써 병합된 분리 마스크들의 신뢰도 점수를 조정하는 과정, 및 인스턴스 마스크들을 검출된 객체로 출력하는 과정을 포함한다.

Description

이미지의 시맨틱 분리를 위한 시스템 및 방법{SYSTEM AND METHOD FOR SEMANTIC SEGMENTATION OF IMAGES}

본 발명은 컴퓨터 비전(vision)에 관한 것이다. 구체적으로, 본 발명은 이미지의 시맨틱 분리(Semantic Segmentation)을 위한 시스템 및 방법에 관한 것이다.

이미지 인식 시스템은 단일 객체 또는 복수의 객체들을 디지털 이미지 또는 비디오 프레임으로부터 검출 및 식별하는 컴퓨터 애플리케이션을 제공한다. 딥러닝(Deep Learning) 기반 시스템 및 방법들은 시각적 이해능력의 정확성에 있어 점점 더 좋은 성능을 달성하고 있다. 그러나 상대적으로 작거나, 클러터(clutter)가 있거나, 또는 다른 객체들에 의한 가림(occlusion)이 있는 이미지에서 객체를 검출하는 것은 어려울 수 있다. 다른 일반적인 시스템들 역시 이러한 인스턴스들을 검출하지 못하거나, 객체의 일부를 전체로서 검출하지 못하거나, 또는 객체의 다른 부분들을 전체 객체로 결합하지 못할 수 있다. 예를 들어, 시스템은 동일한 사용자에 의해 가려진(occluded) 제1 사용자의 얼굴과 제2 사용자의 어깨를 잘못 감지할 수 있다.

본 발명의 실시예들에 따른 과제는 전술한 문제점을 해결하기 위한 시스템 및 방법을 제공하는데 있다.

본 개시의 실시예들의 양상들은 입력 이미지의 시맨틱 분리 방법 및 시스템에 관한 것이다.

본 개시의 일 실시예에 따르면, 입력 이미지에서 객체들의 인스턴스(instance)들을 검출하는 방법은, 입력 이미지로부터 복수의 코어 인스턴스 특징들을 추출하는 과정; 코어 인스턴스 특징들로부터 다중스케일 해상도로 복수의 특징 맵(feature map)들을 계산하는 과정; 입력 이미지에서 검출된 객체에 대응하는 복수의 검출박스들을 코어 인스턴스 특징들로부터 계산하는 과정; 특징 맵들의 다중스케일 해상도로 검출박스들 각각에 대한 복수의 분리 마스크(segmentation mask)들을 계산하는 과정; 다중스케일 해상도의 복수의 분리 마스크들을 병합하여 입력 이미지에서 검출된 각각의 객체에 대해, 신뢰도 점수와 관련된 인스턴스 마스크를 생성하는 과정; 보조 망들이 픽셀레벨 메트릭(metric)들을 계산함으로써, 병합된 분리 마스크들의 신뢰도 점수를 조정(refine)하는 과정; 및 인스턴스 마스크들을 입력 이미지에서 검출된 객체들의 인스턴스들로 출력하는 과정을 포함한다.

복수의 코어 인스턴스 특징들은 입력 이미지를 풀리 컨볼루션 인스턴스 시맨틱 분리망(Fully Convolutional Instance Semantic Segmentation Network)에 제공함으로써 추출될 수 있다.

다중스케일 해상도의 특징 맵들은 코어 인스턴스 특징들을 특징 피라미드망(Feature Pyramid Network)에 제공함으로써 계산될 수 있다.

특징 피라미드망은 풀리 컨볼루션 인스턴스 시맨틱 분리망으로부터 코어 인스턴스 특징들을 업샘플링(upsampling)하고; 컨볼루션 커널(kernel)을 이전의 특징 맵에 적용하여 컨볼루션된 이전의 특징 맵을 생성하며; 업샘플링된 코어 인스턴스 특징들 및 컨볼루션된 이전의 특징 맵을 결합하여 특징 맵을 생성함으로써 복수의 특징 맵들의 특징 맵을 생성할 수 있다.

특징 피라미드망은 최근접(nearest neighbor) 기법을 이용하여 코어 인스턴스 특징들을 업샘플링할 수 있다.

특징 피라미드망은 디컨볼루션층(deconvolutional layer) 및 보간 컨볼루션 커널(interpolation convolutional kernel)을 이용하여 코어 인스턴스 특징들을 업샘플링할 수 있다.

다중스케일 해상도의 복수의 분리 마스크들을 병합하여 인스턴스 마스크를 생성하는 과정은 IoS(Intersection over Self) 메트릭을 계산하는 과정 및 IoS 메트릭이 임계값을 초과하는 인스턴스들을 제거하는 과정을 포함할 수 있다.

검출박스들은 코어 인스턴스 특징들을 영역 제안망(Region Proposal Network)에 제공함으로써 계산될 수 있다.

본 방법은 입력 이미지의 각 픽셀에 대해 픽셀이 속하는 인스턴스의 경계박스 위치를 지정하는 소속 경계박스를 계산하는 과정, 입력 이미지의 각 픽셀에 대해 복수의 밀도 메트릭들을 계산하는 과정, 및 밀도 메트릭들에 따라 인스턴스 마스크들을 필터링하여 인스턴스 마스크들 및 밀도 메트릭들로부터 계산된 차분 마스크 불일치도를 최소화하는 과정을 더 포함할 수 있다.

입력 이미지의 각 픽셀에 대해 소속 경계박스를 계산하는 과정은 픽셀의 소속 경계박스를 나타내는 벡터로서 최상단 픽셀, 최하단 픽셀, 최좌측 픽셀 및 최우측 픽셀을 포함하는 4-특징 벡터를 계산하는 과정을 포함할 수 있다.

인스턴스 마스크들의 신뢰도 점수를 조정하는 과정은 이미지에서 검출된 객체에 대한 소속 경계박스들로부터 평균 경계박스를 계산하는 과정, 인스턴스 마스크 및 평균 경계박스 간의 IoU(Intersection over Union) 메트릭을 계산하는 과정, 및 IoU 메트릭에 기반하여 인스턴스 마스크의 신뢰도 점수를 스케일링하는 과정을 포함할 수 있다.

밀도 메트릭들에 따라 인스턴스 마스크들을 필터링하여 상기 차분 마스크 불일치도를 최소화하는 과정은 이미지의 각 픽셀에 대해 픽셀 밀도 불일치도를 계산하는 과정, 인스턴스 마스크 각각에 대해 차분 마스크 불일치도를 계산하는 과정, 및 잔존하는 마스크들의 집합에 대한 차분 마스크 불일치도를 최소화하는 과정을 포함할 수 있다.

잔존하는 마스크들의 집합에 대한 차분 마스크 불일치도는, 그리디 검색법(greedy search)을 이용하여 차분 마스크 불일치도가 최소화될 때까지 더 큰 차분 마스크 불일치도를 갖는 인스턴스 마스크의 잔존 상태를 반복적으로 토글링하여, 잔존하는 마스크들의 집합을 갱신함으로써 최소화될 수 있다.

본 개시의 일 실시예에 따르면, 입력 이미지에서 객체들의 인스턴스들을 검출하는 시스템은 입력 이미지로부터 복수의 코어 인스턴스 특징들을 생성하는 코어 인스턴스 특징 추출망; 코어 인스턴스 특징들로부터 다중스케일 해상도로 복수의 특징 맵들을 계산하는 다중스케일 해상도 특징 맵 계산부; 코어 인스턴스 특징들로부터 이미지에서 검출된 객체에 대응하는 복수의 검출박스들을 계산하는 검출박스 계산부; 특징 맵들의 다중스케일 해상도로 검출박스들 각각에 대한 복수의 분리 마스크들을 계산하는 분리 마스크 예측망; 다중스케일 해상도의 복수의 분리 마스크들을 병합하여 입력 이미지에서 검출된 각각의 객체에 대해, 신뢰도 점수와 관련된 인스턴스 마스크를 생성하는 피라미드 분리망; 픽셀레벨 메트릭들을 계산함으로써 인스턴스 마스크들의 신뢰도 점수를 조정하는 영역 제안망(RPN) 기반 점수 조정 모듈; 및 인스턴스 마스크들을 입력 이미지에서 검출된 객체들의 인스턴스들로 출력하는 출력 모듈을 포함한다.

코어 인스턴스 특징 추출망은 풀리 컨볼루션 인스턴스 시맨틱 분리망을 포함할 수 있다.

다중스케일 해상도 특징 맵 계산부는 특징 피라미드망을 포함할 수 있다.

특징 피라미드망은 풀리 컨볼루션 인스턴스 시맨틱 분리망으로부터 코어 인스턴스 특징들을 업샘플링하고; 컨볼루션 커널을 이전의 특징 맵에 적용하여, 컨볼루션된 이전의 특징 맵을 생성하며; 업샘플링된 코어 인스턴스 특징들 및 컨볼루션된 이전의 특징 맵을 결합하여 특징 맵을 생성함으로써, 복수의 특징 맵들의 특징 맵을 생성할 수 있다.

특징 피라미드망은 최근접 기법을 이용하여 코어 인스턴스 특징들을 업샘플링할 수 있다.

특징 피라미드망은 디컨볼루션층 및 보간 컨볼루션 커널을 이용하여 코어 인스턴스 특징들을 업샘플링할 수 있다.

피라미드 분리망은 IoS 메트릭을 계산하고 IoS 메트릭이 임계값을 초과하는 인스턴스들을 제거함으로써, 다중스케일 해상도의 복수의 분리 마스크들을 병합하여 인스턴스 마스크를 생성할 수 있다.

검출박스 계산부는 영역 제안망을 포함할 수 있다.

본 시스템은 입력 이미지의 각 픽셀에 대해, 픽셀이 속하는 인스턴스의 경계박스 위치를 지정하는 소속 경계박스를 계산하는 소속 경계박스 예측망; 입력 이미지의 각 픽셀에 대해 복수의 밀도 메트릭들을 계산하는 밀도 예측망; 및 밀도 메트릭들에 따라 인스턴스 마스크들을 필터링하여 인스턴스 마스크들 및 밀도 메트릭들로부터 계산된 차분 마스크 불일치도를 최소화하는 밀도 기반 필터링 모듈을 더 포함할 수 있다.

소속 경계박스 예측망은 픽셀의 소속 경계박스를 나타내는 벡터로서 최상단 픽셀, 최하단 픽셀, 최좌측 픽셀, 최우측 픽셀을 포함하는 4-특징 벡터를 계산함으로써, 입력 이미지의 각 픽셀에 대해 소속 경계박스를 계산할 수 있다.

영역 제안망 기반 점수 조정 모듈은 이미지에서 검출된 객체에 대한 소속 경계박스들로부터 평균 경계박스를 계산하고; 인스턴스 마스크 및 평균 경계박스 간의 IoU 메트릭을 계산하며; IoU 메트릭에 기반하여 인스턴스 마스크의 신뢰도 점수를 스케일링함으로써, 인스턴스 마스크들의 신뢰도 점수를 조정할 수 있다.

밀도 기반 필터링 모듈은 이미지의 각 픽셀에 대해 픽셀 밀도 불일치도를 계산하고; 인스턴스 마스크 각각에 대해 차분 마스크 불일치도를 계산하며; 잔존하는 마스크들의 집합에 대한 차분 마스크 불일치도를 최소화함으로써, 밀도 메트릭들에 따라 인스턴스 마스크들을 필터링할 수 있다.

잔존하는 마스크들의 집합에 대한 차분 마스크 불일치도는, 그리디 검색법을 이용하여 차분 마스크 불일치도가 최소화될 때까지 더 큰 차분 마스크 불일치도를 갖는 인스턴스 마스크의 잔존 상태를 반복적으로 토글링하여 잔존하는 마스크들의 집합을 갱신함으로써 최소화될 수 있다.

도 1a는 본 발명의 실시예에 따른 다수의 신경망들을 이용한 인스턴스 시맨틱 분리 시스템의 예시적인 블록도이다.
도 1b는 본 발명의 실시예에 따른 시맨틱 분리방법의 흐름도이다.
도 2a는 본 발명의 실시예에 따른 이미지들의 위치 회귀 목표 맵들에 대한 예시도이다.
도 2b는 본 발명의 실시예에 따른 2개의 입력 이미지들로부터 계산된 4개의 특징들의 두 가지 예를 나타내는 예시도이다.
도 3은 본 발명의 실시예에 따른 객체 분리 마스크 점수들을 조정(refine)하는 방법의 흐름도이다.
도 4는 본 발명의 실시예에 따른 밀도 예측에 대한 예시도이다.
도 5는 본 발명의 실시예에 따른 밀도 기반 필터링 방법의 흐름도이다.
도 6(a)는 특징 피라미드망(FPN) 계층들이 없는 비교 풀리 컨볼루션 인스턴스 시맨틱 분리(FCIS) 아키텍처의 예시도이다.
도 6(b)는 본 발명의 실시예에 따른 풀리 컨볼루션 인스턴스 시맨틱 분리(FCIS)에 특징 피라미드망(FPN)을 결합한 아키텍처의 예시도이다.
도 6(c)는 본 발명의 실시예에 따른 특징 피라미드망 다중-스케일 결합(multi-scale aggregation)을 이용하는 예시도이다.
도 7은 본 발명의 다양한 실시예들에 따른 서로 다른 레벨의 특징 피라미드망 특징들을 이용한 결과들의 예시도이다.

이하, 본 발명의 실시예에 따른 신속하고 정확한 인스턴스 시맨틱 분리(Instance Semantic Segmentation) 시스템 및 방법에 대하여 설명한다. 본 시스템 및 방법은 이미지 내의 객체 클래스의 각 인스턴스에 대한 클래스들의 픽셀단위 표지(pixel-wise labeling)에 기반하는 인스턴스 분리를 제공하며, 객체의 각 인스턴스, 객체 카테고리의 분류 및 검출 신뢰도 점수에 속하는 이미지 내 특정 픽셀들의 마스크(mask) 형태로 각각의 객체 검출 결과를 생산한다.

예를 들어, 거리 풍경 이미지의 시맨틱 분리는 풍경 내 각 자동차와 연관된 모든 픽셀들을 "자동차"로 표지할 수 있고, 자전거에 탄 사람과 관련된 모든 픽셀들을 "자전거"로 표지할 수 있으며, 풍경 내 걸어가는 사람들과 관련된 모든 픽셀들을 "보행자"로 표지할 수 있다. 또한, 시맨틱 분리 시스템은 객체의 개별 인스턴스에 대응하는 이미지의 픽셀들을 식별하는 개별 인스턴스 마스크를 이미지 내 객체의 개별 인스턴스 각각(예: 풍경 내 자동차 인스턴스 각각)에 대하여 생성할 수 있다. 예를 들어, 시맨틱 분리 시스템이 이미지에서 3대의 자동차와 2명의 보행자를 검출하는 경우, 5개의 개별 인스턴스 마스크들이 출력된다. 각 자동차 별로 하나의 개별 인스턴스 마스크를 출력하고 각 보행자 별로 하나의 개별 인스턴스 마스크들 출력하는 것이다.

본 개시는 객체의 완전성으로 추론하는 각 픽셀 위치에 대한 추가 "완전성" 정보를 추론함으로써, 그리고 객체들의 검출을 유도하는 이러한 정보를 이용함으로써, 비교기술보다 더 높은 정확도로 인스턴스 분리를 수행하는 시스템 및 방법에 대하여 설명한다. 본 발명의 실시예들은 이미지의 계층적 특징들을 서로 다른 스케일들로 효율적으로 추출할 수 있고, 이러한 계층적 특징들을 통합하는 방식으로 결합할 수 있는 구조 또는 아키텍처를 활용한다. 본 발명의 실시예들은 서로 다른 스케일들로 정보를 활용 및 결합하여, 보다 작은 객체들 및 혼잡한 장면들에 대한 성능을 향상시킨다. 본 발명의 실시예들은 표지된 훈련데이터를 이용하여 훈련될 수 있다(예: 지도학습(Supervised Learning) 프로세스를 이용). 훈련 프로세스는 멀티태스킹 학습에 의한 종단 간(End-to-End) 프로세스일 수 있으며, 추가적인 심층 신경망(Deep Neural Network)들에 의해 제공되는 추가 정보는 인스턴스 마스크들을 완전한 독립형(stand-alone) 객체들로 지시하여 클러터 및 가림이 있는 경우에 성능을 향상시킨다.

본 발명의 실시예들에 따르면, 객체들의 "완전성"에 대한 정보를 이용한다. 예를 들어, 단일 객체나 복수의 객체들의 일부, 또는 서로 다른 객체들에 속하는 부분들의 결합체가 하나의 개체로 간주되지 않도록 하는 반면(예: 객체들의 일부분 검출에 대한 신뢰도 점수를 감소시킴으로써), 객체 전체를 검출하는 것을 선호함으로써(예: 온전한 객체들의 검출에 대한 신뢰도 점수를 증가시킴으로써), 객체들의 "완전성"에 대한 정보를 이용할 수 있다. 또한 본 발명의 실시예들에 따르면, 서로 다른 스케일들로 정보를 효율적으로 추출하고 이러한 정보를 결합함으로써, 크기가 작은 객체들(예: 전체 입력 이미지의 작은 부분을 구성하는 객체들)에 대한 성능을 향상시킬 수 있다. 본 발명의 일부 실시예들은 이미지에서 객체들을 검출하며, 대응하는 카테고리, 소속 픽셀들 및 신뢰도 점수를 생성하는 인스턴스 분리모듈을 포함한다. 본 발명의 실시예들은 객체 완전성에 관한 정보를 예측하는 신경망 계층들, 및 인스턴스 분리 성능을 향상시키기 위해 신경망 계층들을 활용하는 기술들을 더 포함한다. 또한, 본 발명의 실시예들은 스퓨리어스(spurious) 검출이 발생할 가능성을 줄일 수 있다.

본 발명의 실시예에 따른 인스턴스 분리 시스템은 오검출을 필터링하기 위해, 픽셀단위의 소속 경계박스(belonging bounding box) 위치정보를 이용하여 각각의 인스턴스 분리와 이와 연관된 픽셀들의 일치 여부를 측정할 수 있다. 본 발명의 실시예들은 또한, 인스턴스 밀도 예측을 이용하여 검출의 완전성을 측정하고, 크기가 작은 객체들의 검출 및 혼잡한 장면에서의 검출을 개선하기 위한 조정을 수행한다. 본 발명의 실시예들은 또한, 서로 다른 스케일의 특징들로부터 인스턴스 시맨틱 분리 마스크들의 효율적인 결합을 제공한다.

이하, 첨부된 도면들을 참조하여 본 발명의 예시적인 실시예들에 대하여 설명한다. 첨부 도면들의 동일한 참조번호는 동일한 구성요소를 지칭한다. 본 발명은 서로 다른 다양한 형태들로 구현될 수 있으며, 본 명세서에 설명된 실시예들로 한정되는 것으로 해석되어서는 안 된다. 오히려, 본 명세서에 설명된 실시예들은 본 발명이 면밀하고 완전해지도록, 그리고 본 발명의 기술분야에 속한 통상의 기술자들에게 본 발명의 양상 및 특징들이 충분히 전달되도록 예시로서 제공되는 것이다. 따라서, 본 발명의 양상 및 특징들을 완전히 이해함에 있어 본 발명의 기술분야에 속한 통상의 기술자들에게 불필요하다고 여겨지는 프로세스들, 구성요소들 및 기술들에 대한 설명을 생략한다. 특별히 언급하지 않는 한, 첨부된 도면 및 상세한 설명 전반에 걸쳐 동일한 참조부호는 동일한 구성요소를 나타내며, 그에 대한 설명은 반복하지 않는다. 도면에서 구성요소들, 계층들 및 영역들의 상대적인 크기는 설명의 명확성을 위해 과장될 수 있다.

도 1a는 본 발명의 실시예에 따른 다수의 신경망들을 이용한 인스턴스 시맨틱 분리 시스템의 예시적인 블록도를 도시한다. 도 1b는 본 발명의 실시예에 따른 시맨틱 분리방법의 흐름도이다.

도 1a 및 도 1b에 도시된 바와 같이, 본 발명의 실시예에 따른 인스턴스 시맨틱 분리 시스템(10)은 풀리 컨볼루션 인스턴스 시맨틱 분리(FCIS: Fully Convolutional Instance Semantic Segmentation) 코어망(Core Network, 100)을 포함한다. 코어망(100)은 단계 2100에서 초기 이미지를 처리하여 입력 이미지(20) (예: 거리 사진과 같이 하나 이상의 객체들을 포함하는 장면의 비트맵 이미지)로부터 코어 신경망 특징들(102)을 추출한다. 본 발명의 실시예에 따르면, 코어 신경망은 입력 이미지의 서로 다른 레벨의 표현(representation)들을 추출하는 풀리 컨볼루션 신경망(Fully Convolutional Neural Network)이다. 풀리 컨볼루션 신경망들은 빠른 속도가 특징이며, 어떤 입력 이미지에도 적용될 수 있다. 이것은 예컨대 마스크 순환 컨볼루션 신경망(Mask-RCNN: Mask Recurrent Convolutional Neural Network)과 같은 완전 연결층(Fully Connected Layer)들을 갖는 신경망들과는 대조적이다. 완전 연결층을 갖는 신경망들은 보다 느린 경향이 있고, 더 많은 매개변수들을 가지며, 입력 이미지의 크기에 맞게 조정되어야 할 필요가 있다.

코어 신경망 특징들(102)은 특징 피라미드망(FPN: Feature Pyramid Network, 200)과 영역 제안망(RPN: Region Proposal Network, 300) 모두에 공급된다.

특징 피라미드망(200)은 단계 2200에서 입력 이미지의 고해상도 특징 맵들(feature maps, 210, 230, 250)을 생성하고, 업샘플링(upsampling)을 적용하여 다수의 해상도들 또는 스케일들로 특징 맵들을 생성한다. 훈련된 표현(representation)들의 품질을 향상시키고 심층 신경망들(예: 은닉층들을 많이 포함하는 신경망들)의 연산 복잡성이 증가하는 것을 관리하거나 제한하기 위하여, 특징 맵들은 최대 또는 평균 풀링(pooling)에 의해 코어 풀리 컨볼루션 커널(kernel)들(예: FCIS(100))에서 다운샘플링(downsampling)된다. 본 발명의 실시예들의 일부 양상들에 따르면, 특징 피라미드망(200)은 최종 표현을 포함하는데, 최종 표현은 FCIS(100)의 출력보다 더 높은 해상도를 가지며 고레벨 표현들로부터의 정보를 포함한다. 따라서, 본 발명의 실시예에 따르면, 특징 피라미드망(200)은 최근접 방식(nearest neighbor approach)을 이용해 제1 특징 맵(210)을 업샘플링하여 고해상도의 제2 특징 맵(220)을 생성하고, 동일한 업샘플링 해상도들의 제1 특징 맵(210)에 컨볼루션 커널 변환을 적용한 뒤, 업샘플링된 특징 맵의 해상도로 두 표현들을 제3 특징 맵(230)으로 결합한다. 제3 특징 맵(230)은 더 업샘플링되어 제4 특징 맵(240)을 생성할 수 있고, 컨볼루션 표현 이후 비슷한 해상도의 다른 커널과 결합되어 제5 특징 맵(250)을 생성할 수 있다. 이러한 과정은 최종 특징 맵의 목표 해상도가 얻어질 때까지 반복될 수 있다. 다만, 입력 이미지의 해상도가 한도이다. 이러한 망은 특징 "피라미드"로 지칭되는데, 특징 맵의 크기가 각 레벨(예: 특징 맵들(210, 230, 250)의 레벨들)에서 증가하기 때문이다. 본 발명의 범위를 벗어나지 않는 한 임의의 개수 또는 레벨의 특징 맵들이 존재할 수 있음은 당연하다.

일부 실시예들에 따르면, 특징 피라미드망은 최근접(nearest neighbor) 업샘플링 대신 디컨볼루션층(deconvolution layer)에 의한 업샘플링을 수행한다. 일 실시예에 있어서, 디컨볼루션층은 훈련 프로세스를 통해, 단순히 0을 삽입함으로써 업샘플링한 이후 특징 맵과 컨볼루션되도록 보간(interpolation) 컨볼루션 커널을 학습한다.

본 발명의 실시예들은 각각의 표현들이 현재 스케일과 더 작은 스케일의 표현들의 조합인 경우, 특징 피라미드망의 출력으로서 최고 해상도를 갖는 최종 표현뿐만 아니라, 서로 다른 다중 스케일 표현들의 제공자들로서 모든 레벨의 피라미드(예: 특징 맵들(210, 230, 250)) 또한 고려한다. 개개의 화살표들(201, 203, 205)에 의해 도시되는 바와 같이, 다중-해상도 특징 맵들(210, 230, 250) 즉, 다중 스케일 해상도의 특징 맵들은 분리 마스크 예측망(Segmentation Mask Prediction Network, 400)에 공급되며, 이에 대한 상세한 설명은 후술한다.

단계 2300에서, 영역 제안망(300)은 개개의 특징들의 위치에 대응하는 복수의 검출박스들/경계박스들(RPN BBoxes)을 생성한다. 각각의 검출박스들은 복수의 박스좌표들에 의해 정의되며, 박스좌표들은 이미지 내 객체들 중 어느 하나와 대응하는 관심영역을 식별한다(예: 영역 제안망은 이미지 내에서 검출한 각각의 객체에 대해 검출박스를 생성함). 인스턴스 시맨틱 분리의 품질은 어떤 검출도 놓치지 않는 상당히 정확한 영역 제안망을 가짐으로써 관리된다. 그러나 높은 회수율을 갖는 것(검출 실패가 없는)은 일반적으로 잘못된 검출 또한 여러 번 발생시키게 된다.

다중-해상도 특징 맵들(210, 230, 250) 및 경계박스들(302)은 분리 마스크 예측망(400) 또는 분리 마스크 헤드(head)에 공급되며, 단계 2400에서 분리 마스크 헤드 또는 분리 마스크 예측망(400)은 특징 피라미드망(200)으로부터 특징 맵들(210, 230, 250)의 각 해상도로 각각의 객체 클래스에 대해 분리 마스크를 생성/예측한다. 분리 마스크 헤드는 영역 제안망(300)으로부터의 각각의 제안박스(302)에 대하여 그리고 각각의 객체 클래스에 대하여 분리 마스크를 예측하도록 훈련된 풀리 컨볼루션 심층 신경망(Fully Convolution Deep Neural Network)이다. 분리 마스크 예측망(또는 분리 마스크 헤드, 400)은 영역 제안망의 경계박스(예: 영역 제안망의 경계박스에 의해 절취된(cropped) 특징 맵의 일부)에 대응하는 절취된(cropped) 특징 맵으로부터 분리 마스크를 예측하도록 구성된다. 이 때, 분리 마스크 예측망(400)은 원샷(one shot) 예측에 의해 예측하거나, 특징 피라미드망에 대응하는 절취된 특징 맵을 고정된 크기의 그리드 셀(grid cell)들로 풀링(pooling)한 후에 각각의 그리드 셀에 대하여 예측한다. 또한, 분리 마스크 헤드(400)는 각각의 클래스(예: 인스턴스 시맨틱 분리 시스템(10)에 의해 검출되는 객체의 각 클래스, 예컨대, 클래스들은 사람, 개, 고양이, 자동차, 파편, 가구 등을 포함할 수 있음)에 대한 픽셀레벨 분류(classification) 점수를 제공하도록 구성되며, 마스크의 내부 또는 외부로 떨어지는 픽셀레벨 점수를 제공할 수 있다. 각 마스크에 대하여 픽셀레벨 점수들이 합산되어 마스크에 대한 신뢰도 점수를 생성한다. 본 발명의 실시예에 따르면, 인스턴스 시맨틱 분리 시스템(10)은 서로 다른 스케일들의 모든 중간 특징 맵들을 결합함으로써 분리 마스크 예측을 제공한다(분리 마스크 예측기에 제공하기 위해 단일 특징을 이용하거나, 각각의 관심영역에 대해 단일 피라미드 스케일만을 선택하는 것 대신에). 도 1a에 도시된 본 발명의 실시예에 따르면, 3가지 스케일의 특징들이 도면부호 410, 430 및 450에 도시되며, 각 도면부호는 특징 피라미드망(200)에 의해 계산된 서로 다른 특징 맵들(210, 230, 250)에서의 상이한 특징 스케일의 특징 맵들을 나타낸다.

후단의 특징 맵들(예: 제3 특징 맵(230) 및 제5 특징 맵(250))은 더 큰 수용필드(receptive field)를 가지며, 전단의 특징 맵들(예: 제1 특징 맵(210))보다 더 높은 해상도들을 갖는다. 이러한 후단의 특징 맵들은, 매우 작은 객체들 또는 해당 의미를 이해하기 위해 보다 넓은 전역시점(global view)이 필요한 객체들 등과 같은 특정 유형의 객체들을 검출하는데 보다 적합할 수 있다. 그러나 전단의 특징 맵들(예컨대, 레벨 210에서의)은 고레벨의 특징 맵들에 비하여 저해상도이기 때문에 노이즈에 더 강할(robust) 수 있고, 큰 객체들을 인식하는데 보다 적합할 수 있다. 본 발명에 따른 일부 실시예들은 특징 피라미드망 상에 마스크 예측 헤드(mask prediction head, 470)를 포함하며, 마스크 예측 헤드(470)는 각 계층들로부터 다중스케일의 특징 맵들 및 영역 제안망의 경계박스들을 취하여, 각각의 특징 피라미드망 스케일로부터(예: 해상도 스케일들/특징 피라미드망의 레벨들(210, 230, 250)로부터) 그리고 영역 제안망의 각각의 경계박스들(302) 내에서, 각 클래스에 대한 분리 마스크를 예측한다.

분리 마스크들(402)은 피라미드 분리망(500)에 제공되어, 단계 2500에서, 분리 마스크 예측망(400)에 의해 서로 다른 해상도(예: 다중-해상도 특징 맵들(410, 430, 450)의 상이한 해상도)로 생성된 개별 마스크들로부터 생성되는 바와 같은, 특정 객체에 대한 분리 마스크(502)를 생성한다. 일 실시예에 따르면, 본 시스템은 특징 피라미드망의 다중 스케일로 예측된 분리 마스크들의 결합을 학습한다. 각 클래스에 대해 각각의 마스크 및 영역 제안망 박스가 픽셀 단위 점수로 정의된다.

본 발명의 다양한 실시예들은 상이한 방법들을 사용하여 서로 다른 스케일들로 추정된 특징 피라미드망 분리 마스크들을 결합한다. 한가지 방법은 다중 스케일의 분리 마스크들의 결합을 학습하는 것이고, 다른 방법은 결합층으로 구성된 결합헤드를 이용하여 분리 마스크들의 가중된 결합을 학습하는 것이다. 평균 결합은 각각의 경계박스 내 특정 클래스에 대한 모든 특징 피라미드망 분리 마스크들을 취하여, 결합되었던 개별 특징 피라미드망 마스크들에 대한 평균 점수로 각 픽셀에 대해 점수를 할당한다. 최대 결합은 마스크의 각 픽셀에 대해 최대 점수를 할당한다. 비-최대 억제 결합(non-max suppression combining)은 픽셀들에 대한 총 점수가 가장 큰 특징 피라미드망 분리 마스크를 잔존 마스크로 선택하고, 모든 다른 마스크들을 제거한다. 모든 경우에 있어서, 피라미드 분리망에서의 출력 마스크는 대체로 코어 풀리 컨볼루션망의 단일 출력으로부터 직접 예측된 마스크보다 더 정확할 것이다. 또한, 입력 이미지의 서로 다른 스케일들로 인스턴스 시맨틱 분리망을 여러 번 실행하는 것보다 훨씬 빠르다.

일 실시예에 따르면, 본 시스템은 동일 클래스의 다른 검출들과 완전히 중첩되는 검출들에 기초한 오판을 방지하기 위해 피라미드 분리망을 제공한다. 본 시스템은 다른 검출들에 거의 완전히 포함되는 검출들을 제거하는 IoS(Intersection over Self)로 지칭되는 메트릭을 포함하며, IoS는 다음과 같이 정의된다. IoS = (다른 검출과의 교차 영역) / 자기 영역. IoS = 1인 경우는 해당 검출이 다른 검출에 완전히 포함되어 안전하게 폐기될 수 있는 것을 의미한다. 따라서, 본 시스템은 IoS가 소정의 임계값을 초과하는 검출들을 폐기할 수 있으며, 여기서 임계값은 1보다 작지만 1에 가까운 값(즉, 다른 영역에 포함된 정도가 크다는 것을 나타냄)이다.

특징 피라미드망(200)에 의해 생성된 제3 특징 맵(250)과 같은 고해상도 특징 맵들은 또한, 소속 경계박스(BBBox: Belonging-Bounding Box) 예측망(600) 및 밀도 예측망(800)에 제공된다. 소속 경계박스 예측망(600) 및 밀도 예측망(800)은 본 명세서에서 "보조 망"으로 지칭될 수 있다.

단계 2600에서, 소속 경계박스 예측망(600)은 입력 이미지(20)의 각 픽셀에 대해, 해당 픽셀을 일부로 하는 객체를 포함하는 소속 경계박스(예: 픽셀 좌표)를 계산한다. 보다 구체적으로, 일 실시예에 따른 소속 경계박스 예측망은 각 픽셀에 대해 그것이 속하는 (가장 우세한) 인스턴스 마스크의 경계박스의 좌표를 생성하도록 훈련된다. 훈련을 단순화하기 위해, 소속 경계박스 예측망(600)은 직접 경계박스의 좌표들로 회귀하기 보다는 실측(ground truth) 맵들에 회귀함으로써 각각 입력 이미지(20)와 동일한 크기를 갖는 4개의 특징 맵들을 출력하도록 훈련되며, 여기서 특징 맵들의 각 픽셀은 각자 그것이 속하는 경계박스들의 상하좌우 경계로부터의 거리를 나타낸다. 이로써, 경계박스들을 예측하는 대신, 본 발명의 실시예에 따른 소속 경계박스 예측망(600)은 4개의 모서리 즉, 인스턴스의 최상단 픽셀, 최하단 픽셀, 최좌측 및 최우측 픽셀에 의해 정의되는 다각형을 예측한다. 다각형은 반드시 직사각형이라고 할 수 없는 객체 인스턴스의 보다 정확한 표현을 제공할 수 있다. 소속 경계박스는 본 명세서에서 직사각형 또는 다각형 예측으로 지칭될 수 있다.

일 실시예에 따른 소속 경계박스 예측망(600)은 각 픽셀이 직접 속하는 인스턴스 위치들을 예측한다. 이미지 내 각 픽셀에서, 그것이 속하는 인스턴스의 경계박스 위치를 정의하는 벡터가 예측된다. 일부 실시예들에 있어서, 벡터는 좌상단 및 우하단 모서리들의 좌표를 포함하며, 이러한 실시예들의 경계박스들에 직사각형 형태를 부여한다. 이로써, 소속 경계박스 예측망(600)은 각 픽셀에 대해 원본 이미지의 해상도를 갖는 4-채널 맵으로 표현되는 경계박스(602)를 계산한다.

일 실시예에 있어서, 소속 경계박스 예측망(600)은 본래의 신경망 내 베이스층의 상부, 또는 최종 컨볼루션층이나 특징 피라미드층(200)에 연산 헤드층을 추가함으로써 구현된다. 새로운 풀리 컨볼루션층이 헤드로 구성될 수 있다. 최종 출력은 이미지의 해상도로 다시 업샘플링된 베이스층의 해상도가 동일한 4-채널 맵이다.

소속 경계박스 예측망(600)을 훈련시키는 학습과정 동안, 실측(ground truth) 위치는 아래와 같이 계산된다.

는

번째 실측 객체를 나타내고,

는

의 경계박스 좌표들을 나타내며,

는 픽셀

, 채널

의 목표 절대 위치를 나타낸다. 설명을 위하여, 인스턴스

의 경계박스 좌표들을 정의하는 4개의 채널들(상하좌우 좌표들)이 존재하고,

임을 가정한다.

배경 픽셀들(예: 자동차 또는 사람과 같이 객체에 대응하지 않는 픽셀들)에 있어서, 예측에 손실을 적용하지 않는 대신, 소속 경계박스 예측모듈(600)은 배경 픽셀들을 0으로 채운다.

하지만, 컨볼루션 신경망(CNN)은 변환 불변성(translation invariant)을 가지므로, 뉴런은 보고 있는 수용 필드의 오프셋을 알지 못하지만, 그 정보는 절대좌표를 예측하는데 필요하다. 이는 특징들의 일부로서 xy-좌표 맵을 추가함으로써 해결된다. 일 실시예에 있어서, 학습 진행은 스케일링된 목표 상대 위치

로 회귀한다.

이는 각 픽셀의 소속 경계박스의 상하좌우 경계까지의 거리이다. 여기서, 스케일링 인자

는

로 설정될 수 있으며,

는 망이 회귀할 수 있을 만큼 목표를 작게 만드는 이미지의 폭이다. 경험적으로, 망은 가중치 초기화 스케일로 인해 작은 값들을 생성하는 경향이 있어, 800과 같은 값들로 회귀하기 어려워진다. 픽셀 좌표

,

및

가 모든

에 대하여 알려진 값이기 때문에,

는

로부터 복구될 수 있다. 도 2a는 본 발명의 일 실시예에 따른 이미지들의 위치 회귀 목표 맵들의 예시도를 도시한다. 특히, 도 2a는 4가지 세트의 이미지들(1010, 1020, 1030, 1040)을 도시한다. 4가지 세트(1010, 1020, 1030, 1040) 각각은 각자 입력 이미지(1012, 1022, 1032, 1042)를 포함한다. 또한, 4가지 세트(1010, 1020, 1030, 1040) 각각은 경계박스의 하부까지의 거리를 나타내는 이미지(1014, 1024, 1034, 1044)를 포함한다(여기서, 노란색은 먼 거리를 나타내며 파란색은 짧은 거리를 나타낸다). 또한, 4가지 세트들 각각은 경계박스의 좌측부까지의 거리를 나타내는 이미지(1016, 1026, 1036, 1046)를 포함한다(여기서, 노란색은 짧은 거리를 나타내며 파란색은 먼 거리를 나타낸다). 도 2b는 본 발명의 일 실시예에 따른 2개의 입력 이미지(1052, 1062) 각각으로부터 계산된 4개의 특징들의 2가지 예시(1050, 1060)을 도시한다. 각 행의 처음 4개의 이미지는 입력 이미지(맨 오른쪽에 도시된 이미지)에 대해 계산된 4개의 특징들(경계박스의 최상단, 최좌측, 최하단 및 최우측 경계까지의 거리)을 나타낸다. 첫 번째 행(1050)에 있어서, 각각의 이미지들(1059, 1058, 1056, 1054)은 경계박스의 최상단, 최좌측, 최하단 및 최우측 경계까지의 거리를 나타낸다. 좌측의 두 이미지들(1059, 1058)에 있어서 노란색은 짧은 거리를 나타내고 파란색은 먼 거리를 나타내며, 우측의 두 이미지들(1056, 1054)에 있어서 노란색은 먼 거리를 나타내고 파란색은 짧은 거리를 나타낸다. 이와 유사하게, 두 번째 행(1060)에 있어서, 각각의 이미지들(1069, 1068, 1066, 1064)은 최상단, 최좌측, 최하단 및 최우측 경계까지의 거리를 나타낸다.

일 실시예에 따르면, 본 시스템은 맵에 L₂ 회귀를 사용하여 망을 훈련시키는데, 이는 메트릭 및 결과의 품질에 있어 모든 픽셀들이 동일하게 중요한 것은 아니고, 모든 픽셀에 대해 동일한 가중치를 사용하면 클러터가 있는 작은 객체들보다 큰 객체들에 훨씬 더 중점을 둘 것이기 때문이다. 일부 실시예들에 있어서, 빈도가 낮은 클래스들에 대한 가중치가 더 높다(각 클래스의 인스턴스 수와 반비례함). 일부 실시예들에 있어서, 작은 객체들의 픽셀들에 대한 가중치가 더 높다(객체의 픽셀 수와 반비례함). 일부 실시예들에 있어서, 더 큰 위치 값들을 갖는 회귀는 더 적은 가중치를 가지므로, 100-픽셀 객체에서 20 픽셀만큼 벗어난 위치는 1000-픽셀 객체에서 200 픽셀만큼 벗어난 위치와 동일한 양의 불이익을 받는다(객체 길이 또는 높이와 반비례함).

성능을 시험하는 경우, 예측이 결정되고 다시

로 변환된다. 이후, 이전 동작에 따른 각각의 검출

에 대해서, 소속 경계박스 예측망(600)에 의해 계산된 마스크는 그 픽셀들

에 대해 반복되어 영역 제안망

및

사이의 일치 레벨을 계산한다. 다양한 실시예들에 있어서, 이는 예컨대 모든 경계박스들의 평균 IoU(Intersection over the Union)를 아래 식(여기서,

은 검출 인스턴스

의 픽셀 수를 나타냄)과 같이 계산함으로써,

또는, 평균 경계박스의 IoU를 아래 식과 같이 계산함으로써 이루어질 수 있다.

일 실시예에 있어서, 이러한 일치 점수는 임계값과 비교되고, 일치 점수가 임계값보다 낮으면

의 검출 신뢰도가 감소된다.

소속 경계박스 예측망(600)에 의해 계산된 경계박스들(602, BBBoxes)은 영역 제안망(RPN) 기반 점수 조정 모듈(700)에 제공되며, 영역 제안망 기반 점수 조정 모듈(700)은 도 1b의 단계 2700에서, 분리 마스크(502) 및 경계박스들(602) 간의 일치 레벨에 기반하여 피라미드 분리망(500)에 의해 생성된 분리 마스크(502)의 신뢰도를 조정하여, 조정된 분리 마스크(702)를 생성한다.

도 3은 본 발명의 실시예에 따른 객체 분리 마스크 점수들을 조정(refine)하는 방법의 흐름도이다. 보다 구체적으로, 피라미드 분리망(500)에 의해 생성된 각 인스턴스 분리 마스크(502)의 점수는 해당 인스턴스 분리 마스크와 관련된 영역 제안망 경계박스(302)와 소속 경계박스 예측망(600)으로부터 예측된 소속 경계박스(602, 이하 '예측 소속 경계박스'라 칭함) 간의 일치 정도에 기반하여 조정된다. 전술한 바와 같이, 입력 이미지(20)의 각 픽셀은 소속 경계박스 예측망(600)에 의해 계산된 바와 같이 그와 관련된 예측 소속 경계박스를 갖는다. 도 3의 단계 2710에서, 영역 제안망 기반 점수 조정 모듈(700)은 분리 마스크(502) 내로 분류된 모든 픽셀들의 예측 소속 경계박스들을 평균하여, 평균 예측 소속 경계박스를 생성한다. 단계 2730에서, 영역 제안망 기반 점수 조정 모듈(700)은 평균 예측 소속 경계박스 및 해당 마스크와 연관된 영역 제안망 소속 경계박스 간의 IoU 메트릭(복수의 예측 소속 경계박스들 간의 교차 영역을 그들의 합집합 영역으로 나눔)을 계산한다. 단계 2750에서, 영역 제안망 기반 점수 조정 모듈(700)은 마스크들의 점수를 이들과 대응하는 IoU 메트릭에 비례하게 조정하여 인스턴스 마스크에 대한 조정된 점수를 생성한다. 큰 IoU 메트릭은 해당 마스크와 연관된 영역 제안망과 소속 경계박스망의 결과간의 일치를 지시하며, 해당 마스크의 신뢰도는 증가한다.

도 1b의 단계 2800에서, 밀도 예측망(800)은 고해상도 특징 맵들(204) (예: 제3 특징 맵(250)) 로부터 밀도 메트릭(802)을 계산하며, 밀도 메트릭(802)은 인접한 중첩 인스턴스들의 개수 관점에서(예: 해당 픽셀에서 보이지 않거나 가려진(occluded) 객체들의 개수), 각 픽셀에 대해, 해당 픽셀을 일부로서 포함하는 인스턴스의 크기 측정치 및 인접 픽셀들의 혼잡도 측정치를 지시한다. 보다 구체적으로, 밀도 예측망(800)의 계층적 밀도 예측망(810)은 계층적 특징들(812)을 이용하여 각 픽셀에 대해 메트릭을 계산하도록 훈련되고, 메트릭은 중첩되는 인스턴스 개수의 관점에서 해당 픽셀이 속하는 인스턴스의 크기 측정치 및 인접 혼잡도 측정치를 지시한다. 더 작은 객체 인스턴스들에 속하는 픽셀들 및/또는 혼잡한 영역에 속한 픽셀들은 더 큰 밀도를 갖게 될 것인데, 이는 계층적 특징들(812)에 기반하여 밀도 예측 모듈(830, 이는 계층적 밀도 예측망(810)의 마지막 계층으로 간주될 수도 있음)에 의해 계산된 것으로서 소정의 픽셀을 포함하는 중첩 경계박스들이 많이 존재하기 때문이다. 밀도 예측망(800)은 각 픽셀

에 대해, 그것이 속하는 인스턴스들

의 크기의 역수의 총합(아래 식 참고)을 예측하도록 훈련된다.

여기서,

는 입력 이미지(20)에서 검출된 객체 인스턴스의 크기 추정치를 나타낸다(예: 픽셀 개수 관점에서). 마찬가지로, 픽셀

에 대한 픽셀 단위 밀도지도(density map)

는 아래와 같이 나타낼 수 있다.

여기서,

는 객체

의 픽셀 개수이다. 일반적으로, 밀도 예측망(800)은 실측(ground truth) 밀도지도들로의 회귀에 의해 훈련될 수 있다. 또한, 픽셀

당 예측 소속 경계박스 영역은

의 추정치를 조정하는데 사용될 수 있다.

일 실시예에 따르면, 본 시스템은 검출된 객체 마스크들의 신뢰도 점수를 변경하여 얼마나 많은 객체들이 소정의 영역에 존재하는지에 대한 추정치를 보다 잘 정합시킨다. 일반적인 FCIS(예: FCIS(100))는 클러터가 있는 객체들로 인해 성능이 저하된다. 그러나, FCIS는 가림 패턴 및 작은 스케일의 패턴을 검출한다. 어느 객체가 가림을 유발하는 객체(occluder)이고 어느 객체가 가려지는 객체(occlude)인지를 망이 결정하기 어렵더라도, 망은 임의의 특정 영역에 얼마나 많은 객체들이 존재하는지를 대략적으로 추정할 수 있다. 이로써, 일부 실시예들에 있어서, 본 시스템은 추정 이후에 검출들의 신뢰도 점수를 변경함으로써, 검출로부터 계산된 밀도와 예측된 밀도지도 간의 임의의 불일치를 줄이거나 제거할 수 있다.

일반적으로, 신뢰도 점수는 각 인스턴스 객체에 크기(mass) 1을 부여함으로써 조정될 수 있으며, 이는 해당 픽셀들에 걸쳐 균일하게 분포된다. 객체들이 중첩되는 경우, 중첩 영역의 픽셀 밀도는 해당 픽셀들의 밀도를 모두 더한 값이다. 이러한 방식으로, 더 높은 밀도가 존재하는 경우에는 더 작은 스케일의 객체들에 의한 것이든, 가림에 의한 것이든, 또는 서로 중첩되는 객체들에 의한 것이든 해당 영역에는 더 많은 인스턴스들이 존재하는 것으로 추정될 수 있다. 또한, 이미지에 대한 밀도지도의 합은 내부 객체들의 총 수이다.

도 4는 본 발명의 실시예에 따른 밀도 예측에 대한 예시도이다. 도 4(a)는 실측 인스턴스들(ground truth instances) 및 이들의 대응하는 경계박스들을 도시한다. 본 시스템은 이미지의 픽셀 단위 밀도를 결정 및 예측하고, 각 인스턴스는 크기 1을 획득한다. 이는 검출 신뢰도가 객체 완전성에 부합하도록 유도하는데 사용될 수 있다.

밀도는 전체 이미지에 대해 계산될 수 있거나, 또는 어느 한 카테고리에 속하는 객체들만을 합산함으로써 각 카테고리에 대해 개별적으로 계산될 수 있다. 클래스 별로 밀도를 예측하는 것은 더 많은 연산능력을 필요로 하지만, 한번에 모든 클래스에 대해 밀도를 계산하는 것보다는 보다 정확한 결과를 제공한다. 밀도는 실측 밀도에 이르도록 실측값으로부터 계산될 수 있거나(도 4(b) 참조), 예컨대 소정의 임계값을 초과하는 신뢰도를 갖는 검출들의 마스크를 렌더링 함으로써, 선택된 검출들로부터 계산될 수 있다(도 4(c) 및 4(d) 참조).

일 실시예에 따르면, 본 시스템은 FCIS 점수 맵(score map)들과 유사한 다른 헤드를 추가함으로써 망으로부터 픽셀 단위 밀도를 직접 예측한다. 일부 실시예들에 있어서, 예측방식은 회귀방식이 될 수 있거나, 또는 다른 실시예들에 있어서, 양자값 분류(quantized values classification) 방식이 될 수 있다. 회귀방식의 경우, 밀도가 크게 변하기 때문에 밀도는 밀도의 로그값

으로 회귀될 수 있다. 객체가 존재하지 않는 경우, 밀도는 0이 될 것이고

으로 회귀될 수는 없다. 본 시스템은 이미지 당 1 객체보다 작은 밀도값을 이 픽셀들에 대한 목표 프록시 회귀(proxy regression target)로 사용한다(예:

가 사용될 수 있음).

도 1b의 단계 2900에서, FICS 검출결과들(702) 및 밀도 예측결과들(802)이 모두 획득된 이후, 일 실시예에 따른 밀도 기반 필터링 모듈(900)이 검출 신뢰도를 검출 신뢰도 임계값으로 임계화(thresholding)하여 최종 분리 맵을 생성하고 그 결과물을 시각화한다. 보다 구체적으로, 밀도 기반 필터링 모듈(900)은 연산 결과들 간의 불일치를 줄이거나 최소화하기 위하여, 계산된 밀도 메트릭(802)에 기반하여 조정된 마스크 인스턴스들(702)을 필터링할 수 있다.

일반적으로, 이미지에서 객체 인스턴스들을 검출하는 방법들은 검출을 과도하게 하므로(over-detect), 본 발명의 일부 실시예들에 따르면, 임계값

(예: 신뢰도 점수에 있어서 0.7의 임계값)를 만족하는(예: 초과하는) 검출 인스턴스들만이 최종 출력 인스턴스 마스크들 및 그들 각각의 신뢰도 점수(902)로 회수될 것이고(예: 사용자가 검토할 수 있도록 검출된 클래스들을 디스플레이 장치에 표시함으로써 시각화하거나, 예컨대 자율주행차 제어와 같은 제어알고리즘에 제공되기 위해), 성능을 평가하는 메트릭은 고신뢰 검출들에 중점을 더 둘 것이다.

본 발명의 일 실시예에 따르면, 조정된 마스크 인스턴스들(702)의 과도 검출(over-detection)을 없애기 위해, 조정된 마스크 인스턴스들(702)의 일부가 밀도 메트릭(802)에 따라 제거(또는 "오프로 토글링(toggled off)")될 수 있다. 이를 위해, 일부 실시예들에 있어서, 밀도 기반 필터링 모듈(900)은 나머지 검출들의 픽셀 단위 밀도를 계산하고, 예측된 밀도에서 픽셀 단위 밀도를 감산하여 각 픽셀에 대한 "불일치도"를 획득한다. 불일치도 맵은 임계값

를 만족하는 신뢰도 점수를 갖는 것에 기반하여 필터링된 출력 검출들의 밀도 맵과 각 픽셀에서의 밀도 예측 간의 부정합도이다. 불일치도 맵의 절대값의 합은 필터링된 출력 검출들의 신뢰도 점수를 0.7의 임계값을 초과하는 값(ON)에서 0.7 미만의 값(OFF)으로 토글링 또는 변경함으로써 최소화될 수 있고, 그 반대의 경우도 가능하다.

단계 2900에서 임계값을 적용하는 경우, 전체적으로 모든 클래스에서 잔존하는 마스크(이하, '잔존 마스크'라 칭함)들은 앞서 정의한 바와 같은 픽셀 밀도가 계산되는 전체 이미지에 대해(예: 입력 이미지(20)의 모든 픽셀들에 대해) 잔존 분리 맵(surviving segmentation map)을 정의한다. 도 5는 본 발명의 실시예에 따른 밀도 기반 필터링 방법의 흐름도이다.

단계 2910에서, 밀도 기반 필터링 모듈(900)은 이미지의 각 픽셀에 대한 픽셀 밀도 불일치도를 계산한다. 여기서, 단일 픽셀의 밀도 불일치도는 계산된 픽셀 밀도와 밀도 예측망(800)으로부터 예측된 픽셀 밀도 간의 차이로 정의된다. 마스크 밀도 불일치도(MDD: Mask Density Discrepancy)는 해당 마스크에 대응하는 이미지 영역 내에 포함된 모든 픽셀에 대한 픽셀 밀도 불일치도들의 합으로 정의된다. 토글링된 마스크 밀도 불일치도(TMDD: Toggled Mask Density Discrepancy)는 잔존 상태가 토글링된 이후(비-잔존 상태였던 경우, 잔존상태로. 반대의 경우도 마찬가지임)의 마스크 밀도 불일치도(MDD)이다. 차분 마스크 불일치도(DMD: Differential Mask Discrepancy)는 마스크 밀도 불일치도와 토글링된 마스크 밀도 불일치도 간의 차이(DMD = MDD - TMDD)로 정의된다. 밀도 기반 필터링은 예측된 인스턴스 분리 마스크들의 점수를 조정하여, 밀도 예측망(800)으로부터 예측된 마스크 밀도와 잔존 분리 맵으로부터 실제 계산된 마스크 밀도 간의 불일치도를 최소화한다.

그러므로, 단계 2930에서, 밀도 기반 필터링 모듈(900)은 각 인스턴스 마스크(702)의 차분 마스크 불일치도를 계산한다. 단계 2950에서, 밀도 기반 필터링 모듈(900)은 최대 차분 마스크 불일치도를 갖는 마스크의 잔존 상태를 토글링한다. 이후, 차분 마스크 불일치도들은 토글링된 마스크와 중첩되는 모든 인스턴스 마스크들에 대해 다시 계산되고, 최대 차분 마스크 불일치도를 갖는 마스크가 발견되면 그의 잔존 상태가 토글링되는 등 차분 마스크 불일치도가 최소화될 때까지 이와 같은 최소화 과정이 계속된다.

일 실시예에 있어서, 이러한 최소화 과정은 그리디 검색법(greedy search) 즉, 최적화된 함수에서 최대 감소에 이르게 하는 검출을 온 또는 오프로 토글링하는 방식에 의해 수행된다. 이로써, 단계 2970에서, 밀도 기반 필터링 모듈(900)은 차분 마스크 불일치도가 최소화되었는지(예: 더 이상 토글링을 통해 마스크 밀도 불일치도를 감소시킬 수 없는 경우) 여부를 판단한다. 차분 마스크 불일치도가 최소화되지 않은 경우, 단계 2930으로 돌아가 차분 마스크 불일치도를 다시 계산하고, 단계 2950에서 다른 마스크를 토크링한다. 이와 반대로, 차분 마스크 불일치도가 최소화된 경우에는, 단계 2990에서, 밀도 기반 필터링 모듈(900)이 신뢰도 점수를 다시 부여하여 토글링된 잔존 상태를 정합시킨다. 그리디 검색 결과가 수렴한 이후에, 토글링과 부합하지 않는 신뢰도 점수의 신뢰도는 단순 전단사 선형 맵핑(Simple Bijective Linear Mapping)을 이용하여 [0, 0.7] (오프로 토글링되어야 할 인스턴스 마스크의 경우)과 [0.7, 1] (온으로 토글링되어야 할 인스턴스 마스크의 경우) 사이에서 변경될 수 있다.

이후, 임계 신뢰도 점수를 만족하는 결과적인 잔존 마스크 인스턴스 집합이 각 마스크에 대한 신뢰도 점수에 따라 각 클래스에 대한 최종 마스크로서 출력된다.

전술한 바와 같이, 본 발명의 일부 실시예들은 FCIS를 갖는 특징 피라미드 아키텍처를 포함한다. 특징-피라미드-유사 구조들은 다른 분야에서 사용되어왔다. 하나의 특정 아키텍처인 특징 피라미드망(FPN)은 최종적인 최대 스케일만을 이용함으로써 객체 검출에 있어 경쟁력 있는 결과를 이끌어 냈으며, 마스크 순환 컨볼루션 신경망(Mask-RCNN: Mask Recurrent Convolutional Neural Network)에도 사용된다.

본 발명의 여러 양상의 실시예들은 특징 피라미드를 한번의 순방향(forward pass) 프로세스에서 효율적으로 특징 피라미드를 생성 또는 훈련하는 것에 관한 것으로, 여기서 다중 스케일의 특징들은 모든 피라미드 계층에서 유사하게 작용하며 모두 인식망(Recognition Network)의 상위 계층과 같은 상위-레벨 정보를 가지며, 한편으로는 FCIS로 서로 다른 다양한 크기의 입력 이미지들에 대한 연산을 수행하는데 사용된다(예: 실질적으로 입력 이미지의 크기와 무관하게 연산을 수행함).

도 6(a)는 비교를 위한 특징 피라미드망(FPN) 계층들이 없는 FCIS 아키텍처의 예시도이다. 도 6(b)는 본 발명의 실시예에 따른 FCIS에 특징 피라미드망(6200, FPN)을 결합한 아키텍처의 예시도이다. 도 6(c)는 본 발명의 실시예에 따른 특징 피라미드망 다중-스케일 결합(multi-scale aggregation)을 이용하는 예시도이다.

본 발명의 일 실시예에 따른 특징 피라미드망(6200)을 갖는 FCIS의 구성방법은 기 훈련된 일반적인 신경망(예: ResNet-101)으로 시작하여, 기 훈련된 신경망의 컨볼루션층들을 그들의 공간 해상도(spatial resolution)에 의해 여러 그룹으로 나눠지거나, 또는 이와 등가적으로, 다시 이미지 스케일로 돌아가 인접하는 특징 맵 픽셀들 사이의 스트라이드(stride)에 의해 여러 그룹으로 나눠진다. 예를 들어, 컨볼루션 1 그룹은 스트라이드가 2이고, 컨볼루션 5 그룹은 스트라이드가 32이다. 각 그룹의 상위 계층은 각각 {C₁, ..., C₅}로 지칭된다. 상위 컨볼루션 출력은 피라미드 출력 {P₅, ..., P₁}을 각각 생성하기 위해 반복적으로 업샘플링 및 측면 연결(lateral connection)을 거친다. 보다 성긴(coarse) 각 피라미드층 P_n+1은 우선 2배로 업샘플링(예: 최근접 이웃을 이용함)되고, 이어서, 대응하는 컨볼루션층 출력 C_n이 하나의 1×1 컨볼루션을 거치며, 그 결과값은 P_n 출력을 제공하는 업샘플링된 P_n+1에 가산된다. 마지막으로, 각 피라미드 출력 {P₅, ..., P₁}에 대한 예측(예: 영역제안, 관심영역(ROI: Region Of Interest) 풀링)이 수행된다.

일 실시예에 따르면, 본 시스템은 특징 피라미드망(6200)을 본 프레임워크로 적응시킨다(도 6(b) 참조). 영역 제안망(6300)에 따른 각각의 영역 제안 박스는 k×k 셀 그리드로 풀링된다. k²개의 셀 각각에 대해 그리고, 클래스 각각에 대해 2개의 마스크가 예측된다. 제1 마스크는 배경을 나타내는 픽셀들을 예측한다. 제2 마스크는 전경을 나타내는 픽셀들을 예측한다. 이에 따라, 총 2k²개의 위치 감지 점수 맵이 도출되는데, 이는 각각의 점수 맵이 k×k 그리드의 셀 위치에 따라 달라지기 때문이다. 이로써, FCIS 방식의 프레임워크를 이용하는 경우에, 각 카테고리에 대한 최종 출력은 내부와 외부의 각 그리드 위치 전용 채널을 2k²개 갖는다. 이러한 점수 맵들은 1×1 컨볼루션층들을 C₅층의 상단에 추가함으로써 예측되며, 확장된 컨볼루션으로 인해 32 대신 16의 스트라이드를 갖게 된다. 본 발명의 일부 실시예들에 있어서, P₃피라미드층, 또는 {P₃, P₂}의 두 피라미드층(도 6b에 도시), 또는 {P₃, P₂, P₁}의 모든 피라미드층을 구성하는데 특징 피라미드망 기술이 더 적용된다. 이 계층들은 FCIS의 특징 맵보다 더욱 작은 스트라이드(예: 8, 4 및 2)를 갖는다. 일부 실시예들에 있어서, 컨볼루션층들은 고해상도 점수 맵을 획득하기 위해, 대신 가장 세밀한(finest) 피라미드층에 배치될 수도 있다. 모든 하이퍼파라미터(hyperparameter)들(예: 가중치 초기화, 특징 맵의 채널 수 등)은 FCIS와 동일하게 유지된다.

[0002] 또한, 영역 제안망은 서로 다른 스케일로 특징 피라미드망 특징들을 이용할 수 있지만, 일부 실시예들에서는, 연산을 단순화하기 위해 가장 세밀한 피라미드층에 대해서만 오직 점수 맵 연산(ROI 풀링과 유사함)만이 수행되며, 영역 제안망의 입력은 변경되지 않는다.

다양한 실시예들에 있어서, 특징 피라미드층들은 상이한 방식으로 사용될 수 있다. 한가지 방식은 도 4(b)에 도시된 바와 같이 가장 세밀한 계층만을 사용하는 것이고, 이 방식에서는 P₂만이 사용된다. 다른 방식은 객체 크기 또는 검출 크기를 기반으로 특정 계층을 선택적으로 사용하는 것이다. 다른 실시예에 있어서, 모든 피라미드층들의 헤드가 적용된다(예를 들어, P₂ 및 P₃가 모두 사용된 도 4(c) 참조). 헤드들은 동일한 가중치를 공유하고, 각 특징 피라미드층을 입력으로 하여 상이한 크기의 점수 맵들을 출력으로 생성한다. 마스크 순환 컨볼루션 신경망(Mask-RCNN) 또는 FCIS의 풀링층들은 고정된 크기의 점수 맵 또는 특징 맵(예: 21x21)들을 생성하고, 상이한 크기의 모든 출력 맵에 적용되어 각각의 관심영역 및 각각의 스케일에 대해 하나의 고정된 크기의 맵을 획득할 수 있다. 본 시스템은 평균 감축방식 또는 최대 감축방식을 적용하여 각각의 관심영역에 대한 한 세트의 맵을 획득함으로써 상이한 스케일들을 결합하며, 이는 마치 단일 피라미드 스케일에서 획득된 것과 같은 동일한 차원을 가질 것이다. 이어서, 나머지 파이프라인, 예컨대, 소프트맥스(softmax) 및 손실층이나 후속 컨볼루션층이 적용된다.

도 7은 본 발명의 다양한 실시예들에 따른 서로 다른 레벨의 특징 피라미드망 특징들을 이용한 결과들의 예시도이다. 보다 구체적으로, 각 행은 4개의 상이한 시맨틱 분리 시스템에서 검출된 경계박스들의 출력을 나타낸다. 즉, 기준 시스템("원본 특징 맵"으로 표시) 및 다른 피라미드층을 이용하는 시스템들("FPN P₁", "FPN P₂" 및 "FPN P₃"로 표시)이 사용된다. 도 7을 참조하면, FPN P₂는 FCIS만을 포함하는 기준 시스템(예: "원본 특징 맵"에 도시된 것)보다 더 정확한 결과를 제공할 뿐만 아니라, FPN P₃ 및 FPN P₁에 의해 생성된 것보다 더 정확한 결과를 제공한다. 예를 들어, 원본 특징 맵, FPN P₃, 및 FPN P₁의 각각의 출력(7000, 7003, 7001)에서, 전경의 의자를 포함하는 윤곽이 뒤쪽 배경에 있는 의자를 포함하여 전경의 의자 좌측부까지 확장된다. 반면, FPN P₂의 출력(7002)은 전경 의자 및 배경 의자를 각각의 검출한 결과를 나타낸다(각각 갈색과 청록색으로 표시). 이미지들(7100, 7103, 7102, 7101)은 다른 입력 이미지에 대한 기준 시스템, FPN P₃, FPN P₂, FPN P₁ 각각의 출력을 도시한다. 7100에 도시된 바와 같이, 기준 시스템은 이미지에서 하나의 의자만을 검출하는 반면, FPN P₃, FPN P₂, FPN P₁은 7103, 7102 및 7101에 도시된 바와 같이 모두 2개의 의자를 개별적으로 검출한다.

다양한 요소들, 구성들, 영역들, 계층들 및/또는 섹션들을 설명하기 위해 "제1", "제2" "제3" 등의 용어가 본 명세서에서 사용될 수 있으나, 이러한 요소들, 구성들, 영역들, 계층들 및/또는 섹션들이 이러한 용어에 의해 제한되어서는 안 된다. 이러한 용어는 하나의 요소, 구성, 영역, 계층 또는 섹션을 다른 요소, 구성, 영역, 계층 또는 섹션과 구분하기 위해 사용된다. 그러므로, 본 명세서에 설명된 제1 요소, 구성, 영역, 계층 또는 섹션은 본 발명의 범위를 벗어나지 않고 제2 요소, 구성, 영역, 계층 또는 섹션으로 지칭될 수 있다.

본 명세서에서 사용된 전문용어는 특정 실시예들을 설명하기 위한 것이며, 본 발명을 제한하고자 하는 것이 아니다. 본 명세서에 사용된 바와 같이 단수 형태 용어는 문맥상 명백히 다르게 지시하지 않는 한 복수 형태 용어 또한 포함한다. 본 명세서에서 사용된 "포함한다" 및 "포함하는"과 같은 용어들은 언급된 특징들, 숫자들, 단계들, 동작들, 요소들 및/또는 구성들의 존재를 명시하지만, 하나 이상의 다른 특징들, 숫자들, 단계들, 동작들, 요소들 및/또는 이들의 조합의 존재 또는 부가를 배제하는 것이 아니다. 본 명세서에 사용된 바와 같이 "및/또는"이라는 용어는 관련된 하나 이상의 나열항목의 임의의 조합 및 모든 조합을 포함한다. 구성요소들의 나열에 선행하는 "적어도 하나"와 같은 표현들은 구성요소들의 목록 전체를 수식하는 것이고 목록의 개별 구성요소들을 수식하는 것이 아니다.

본 명세서에서 사용된 바와 같이 "실질적으로", "약" 및 이와 유사한 용어들은 근사를 나타내는 용어로 사용되는 것이고, 정도를 나타내는 용어로 사용되는 것이 아니며, 본 발명이 속한 기술분야의 통상의 기술자들에 의해 인식될 측정값 또는 계산값에 내재된 편차를 설명하기 위한 것이다. 또한, 본 발명의 실시예들을 설명할 때 사용된 "할 수 있다"라는 표현은 "본 발명의 하나 이상의 실시예들"을 지칭한다. 본 명세서에서 사용된 바와 같이 "사용한다", "사용하는" 및 "사용되는"이라는 표현들은 "활용한다", "활용하는" 및 "활용되는"이라는 용어들과 같은 의미로 간주될 수 있다. 또한, "예시적인"이라는 용어는 예시 또는 일례를 지칭한다.

본 명세서에서 설명되는 본 발명의 실시예들에 따르면, 전자/전기 장치들 및/또는 임의의 다른 관련 장치들이나 구성들은 임의의 적절한 하드웨어(예: 범용 중앙처리장치 및/또는 주문형 집적회로), 펌웨어(예: 필드 프로그램가능 게이트 어레이), 소프트웨어(예: 범용 중앙처리장치 및/또는 그래픽 처리 장치나 벡터 프로세서와 같은 보다 특수화된 처리장치에 의해 실행되는 기계 판독가능 명령어들), 또는 소프트웨어, 펌웨어 및 하드웨어의 조합을 이용하여 구현될 수 있다. 예를 들어, 이러한 장치들의 다양한 구성요소들은 하나의 집적회로 칩 또는 개별 집적회로 칩들 상에 형성될 수 있다. 또한, 이러한 장치들의 다양한 구성요소들은 연성 인쇄회로 필름(Flexible Printed Circuit Film), 테이프 캐리어 패키지(TCP: Tape Carrier Package), 인쇄회로기판(PCB: Printed Circuit Board) 상에 구현되거나, 하나의 기판(substrate) 상에 형성될 수 있다. 또한, 이러한 장치들의 다양한 구성요소들은 하나 이상의 컴퓨팅 장치들의 하나 이상의 프로세서에서 실행되고, 컴퓨터 프로그램 명령(어)들을 실행하며, 본 명세서에 기재된 다양한 기능들을 수행하기 위한 다른 시스템 구성요소들과 상호작용하는, 프로세스 또는 스레드(thread)일 수 있다. 컴퓨터 프로그램 명령(어)들은 메모리에 저장되며, 메모리는 예컨대, 랜덤 액세스 메모리(RAM: Random Access Memory)와 같은 표준 메모리 장치를 사용하는 컴퓨팅 장치에 구현될 수 있다. 컴퓨터 프로그램 명령(어)들은 예컨대, CD-ROM, 플래시 드라이브 등과 같은 비-일시적인 컴퓨터 판독매체에 저장될 수도 있다. 또한, 본 발명이 속한 기술분야의 통상의 기술자는 본 발명의 예시적인 실시예들의 범위에서 벗어나지 않고, 다양한 컴퓨팅 장치들의 기능이 단일 컴퓨팅 장치로 결합 또는 통합될 수 있거나, 또는 특정 컴퓨팅 장치의 기능이 하나 이상의 다른 컴퓨팅 장치에 분산될 수 있다는 것을 인식할 것이다.

일반적으로, 심층 신경망은 여러 계층들에 배치된 복수의 뉴런들을 포함한다. 입력 데이터(예: 본 실시예의 경우, 입력 이미지)는 뉴런들의 입력층에 제공되고, 출력층은 출력 뉴런들의 계층에 생성된다. 심층 신경망의 경우, 뉴런들의 2 이상의 "은닉층"은 입력층과 출력층 사이에 존재하며, 일반적으로 어느 한 계층의 뉴런들은 이전 계층으로부터 입력을 수신하고, 다음 계층에 그들의 출력을 제공하며, 각 뉴런은 수신한 입력들의 합의 수학 함수(예: 로지스틱 함수)인 출력을 생성한다.

계층의 뉴런들 사이의 연결은 가중치와 연관되어 있으며, 각 연결은 송신 뉴런과 수신 뉴런 사이에서 이루어진다. 연결을 따라 전송된 값들은 수신 뉴런에 공급되기 전에 해당 연결의 가중치에 의해 조정(scaled)된다.

일반적으로, 신경망을 학습시키는 프로세스는 신경망에 훈련 데이터를 제공하는 과정과, 신경망이 입력 이미지의 예시들로부터 목표 출력과 정합하거나 근사한 출력을 생성할 때까지 신경망의 가중치들을 업데이트하는 과정을 수반한다. 신경망 학습 방법들에는 예컨대, 역전파(backpropagation) 알고리즘이 포함된다.

신경망의 학습은 전술한 바와 같이 범용 컴퓨터 시스템 상에서 수행될 수 있다. 또한, 학습 프로세스가 빈번하게 병렬화될 수 있기 때문에, 그래픽 처리장치와 같은 벡터 프로세서 및/또는 범용 컴퓨터 시스템의 벡터 연산(예: 단일 명령 다중 데이터(SIMD: Single Instruction Multiple Data) 처리 명령)도 신경망 학습에 이용될 수 있다. 경우에 따라서는, FPGAs(Field Programmable Gate Arrays)와 같은 프로그램가능 하드웨어 또는 ASICs와 같은 전용 하드웨어가 신경망 학습에 이용될 수 있다. 학습 프로세스 결과에는 신경망의 여러 계층들 간의 연결들에 대한 일련의 가중치들이 포함된다.

학습된 신경망을 작동시킬 때, 일반적으로 연결들의 가중치들은 학습 프로세스 동안 계산된 값으로 고정된다. 입력 데이터(예: 입력 이미지)가 뉴런들의 입력층에 제공되면, 연산을 수행하여 학습된 가중치들을 출력들에 곱하고, 최종 출력들을 뉴런들의 다음 계층들로 전달한다(이러한 프로세스는 순전파(forward propagation)로 지칭될 수 있음).

일반적으로 연결들의 가중치들은 고정되어 있으므로, 생성 시스템(production system)에 배치된 신경망은 대체로 학습된 값들로 미리 설정된 가중치들을 가질 것이다. 이로써, 임베디드 시스템에 배치된 학습된 신경망은 일반적으로 신경망의 가중치들을 고정시킬 수 있고(예: 메모리에 저장됨), FGGA에 배치된 학습된 신경망은 가중치들을 설정할 수 있다(예: 뉴런들을 나타내는 구성요소들 간의 연결들에 프로그래밍됨). 이와 유사하게, ASIC는 예컨대, 회로소자들(예: 가중치에 따른 저항값을 갖는 저항기)을 이용하여 가중치들을 설정하는 뉴로모픽(neuromorphic) 하드웨어를 이용하여 신경망을 구현할 수 있다.

달리 정의하지 않는 한, 본 명세서에서 사용되는 모든 용어들(기술용어 및 과학용어 포함)은 본 발명이 속하는 기술분야의 통상의 기술자에 의해 일반적으로 이해되는 바와 동일한 의미를 갖는다. 또한, 일반적으로 사용되는 사전들에 정의된 것과 같은 용어들은 관련기술 및/또는 본 명세서의 문맥상의 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백히 정의하지 않는 한 이상적이거나 지나치게 형식적인 의미로 해석되어서는 안 된다.

본 발명의 특정 실시예들이 도시되고 설명되었지만, 첨부된 청구범위에 의해 정의된 본 발명의 범위 및 그 균등범위에서 벗어나지 않고, 설명된 실시예들에 대해 소정의 변형 및 변경이 이루어질 수 있음은 통상의 기술자들에게 당연하다.

Claims

입력 이미지에서 객체들의 인스턴스(instance)들을 검출하는 방법에 있어서,
상기 입력 이미지로부터 복수의 코어 인스턴스 특징들을 추출하는 과정;
상기 코어 인스턴스 특징들로부터 다중스케일 해상도로 복수의 특징 맵(feature map)들을 계산하는 과정;
상기 입력 이미지에서 검출된 객체에 대응하는 복수의 검출박스들을 상기 코어 인스턴스 특징들로부터 계산하는 과정;
상기 특징 맵들의 상기 다중스케일 해상도로 상기 검출박스들 각각에 대한 복수의 분리 마스크(segmentation mask)들을 계산하는 과정;
상기 다중스케일 해상도의 상기 복수의 분리 마스크들을 병합하여 상기 입력 이미지에서 검출된 각각의 객체에 대해, 신뢰도 점수와 관련된 인스턴스 마스크를 생성하는 과정;
보조 망(network)들이 픽셀레벨 메트릭(metric)들을 계산함으로써 상기 인스턴스 마스크들의 상기 신뢰도 점수를 조정(refine)하는 과정; 및
상기 인스턴스 마스크들을 상기 입력 이미지에서 검출된 상기 객체들의 인스턴스들로 출력하는 과정을 포함하는 방법.
제1항에 있어서,
상기 복수의 코어 인스턴스 특징들은,
상기 입력 이미지를 풀리 컨볼루션 인스턴스 시맨틱 분리망(Fully Convolutional Instance Semantic Segmentation Network)에 제공함으로써 추출되는 방법.
제2항에 있어서,
상기 다중스케일 해상도의 상기 특징 맵들은,
상기 코어 인스턴스 특징들을 특징 피라미드망(Feature Pyramid Network)에 제공함으로써 계산되는 방법.
제3항에 있어서,
상기 특징 피라미드망은,
상기 풀리 컨볼루션 인스턴스 시맨틱 분리망으로부터 상기 코어 인스턴스 특징들을 업샘플링(upsampling)하고;
컨볼루션 커널(kernel)을 이전의 특징 맵에 적용하여 컨볼루션된 이전의 특징 맵을 생성하며; 그리고
상기 업샘플링된 코어 인스턴스 특징들 및 상기 컨볼루션된 이전의 특징 맵을 결합하여 특징 맵을 생성함으로써,
상기 복수의 특징 맵들의 특징 맵을 생성하는 방법.
제4항에 있어서,
상기 특징 피라미드망은,
최근접(nearest neighbor) 기법을 이용하여 상기 코어 인스턴스 특징들을 업샘플링하는 방법.
제4항에 있어서,
상기 특징 피라미드망은,
디컨볼루션층(deconvolutional layer) 및 보간 컨볼루션 커널(interpolation convolutional kernel)을 이용하여 상기 코어 인스턴스 특징들을 업샘플링하는 방법.
제1항에 있어서,
상기 다중스케일 해상도의 상기 복수의 분리 마스크들을 병합하여 상기 인스턴스 마스크를 생성하는 과정은,
IoS(Intersection over Self) 메트릭을 계산하는 과정; 및
상기 IoS 메트릭이 임계값을 초과하는 인스턴스들을 제거하는 과정을 포함하는 방법.
제1항에 있어서,
상기 검출박스들은,
상기 코어 인스턴스 특징들을 영역 제안망(Region Proposal Network)에 제공함으로써 계산되는 방법.
제1항에 있어서,
상기 입력 이미지의 각 픽셀에 대해, 상기 픽셀이 속하는 상기 인스턴스의 경계박스 위치를 지정하는 소속 경계박스를 계산하는 과정;
상기 입력 이미지의 각 픽셀에 대해 복수의 밀도 메트릭들을 계산하는 과정; 및
상기 밀도 메트릭들에 따라 상기 인스턴스 마스크들을 필터링하여 상기 인스턴스 마스크들 및 상기 밀도 메트릭들로부터 계산된 차분 마스크 불일치도를 최소화하는 과정을 더 포함하는 방법.
제9항에 있어서,
상기 입력 이미지의 각 픽셀에 대해 상기 소속 경계박스를 계산하는 과정은,
상기 픽셀의 상기 소속 경계박스를 나타내는 벡터로서 최상단 픽셀, 최하단 픽셀, 최좌측 픽셀 및 최우측 픽셀을 포함하는 4-특징 벡터를 계산하는 과정을 포함하는 방법.
제9항에 있어서,
상기 인스턴스 마스크들의 상기 신뢰도 점수를 조정하는 과정은,
상기 이미지에서 검출된 상기 객체에 대한 소속 경계박스들로부터 평균 경계박스를 계산하는 과정;
상기 인스턴스 마스크 및 상기 평균 경계박스 간의 IoU(Intersection over Union) 메트릭을 계산하는 과정; 및
상기 IoU 메트릭에 기반하여 상기 인스턴스 마스크의 상기 신뢰도 점수를 스케일링하는 과정을 포함하는 방법.
제9항에 있어서,
상기 밀도 메트릭들에 따라 상기 인스턴스 마스크들을 필터링하여 상기 차분 마스크 불일치도를 최소화하는 과정은,
상기 이미지의 각 픽셀에 대해 픽셀 밀도 불일치도를 계산하는 과정;
상기 인스턴스 마스크 각각에 대해 차분 마스크 불일치도를 계산하는 과정; 및
잔존하는 마스크들의 집합에 대한 상기 차분 마스크 불일치도를 최소화하는 과정을 포함하는 방법.
제12항에 어서,
상기 잔존하는 마스크들의 집합에 대한 상기 차분 마스크 불일치도는,
그리디 검색법(greedy search)을 이용하여 상기 차분 마스크 불일치도가 최소화될 때까지 더 큰 차분 마스크 불일치도를 갖는 상기 인스턴스 마스크의 잔존 상태를 반복적으로 토글링하여 상기 잔존하는 마스크들의 집합을 갱신함으로써 최소화되는 방법.
입력 이미지에서 객체들의 인스턴스(instance)들을 검출하는 시스템에 있어서,
상기 입력 이미지로부터 복수의 코어 인스턴스 특징들을 생성하는 코어 인스턴스 특징 추출망;
상기 코어 인스턴스 특징들로부터 다중스케일 해상도로 복수의 특징 맵(feature map)들을 계산하는 다중스케일 해상도 특징 맵 계산부;
상기 코어 인스턴스 특징들로부터 상기 이미지에서 검출된 객체에 대응하는 복수의 검출박스들을 계산하는 검출박스 계산부;
상기 특징 맵들의 상기 다중스케일 해상도로 상기 검출박스들 각각에 대한 복수의 분리 마스크(segmentation mask)들을 계산하는 분리 마스크 예측망;
상기 다중스케일 해상도의 상기 복수의 분리 마스크들을 병합하여 상기 입력 이미지에서 검출된 각각의 객체에 대해, 신뢰도 점수와 관련된 인스턴스 마스크를 생성하는 피라미드 분리망;
픽셀레벨 메트릭(metric)들을 계산함으로써 상기 인스턴스 마스크들의 상기 신뢰도 점수를 조정(refine)하는 영역 제안망(Region Proposal Network) 기반 점수 조정 모듈; 및
상기 인스턴스 마스크들을 상기 입력 이미지에서 검출된 상기 객체들의 인스턴스들로 출력하는 출력 모듈을 포함하는 시스템.
제14항에 있어서,
상기 코어 인스턴스 특징 추출망은,
풀리 컨볼루션 인스턴스 시맨틱 분리망(Fully Convolutional Instance Semantic Segmentation Network)을 포함하는 시스템.
제15항에 있어서,
상기 다중스케일 해상도 특징 맵 계산부는,
특징 피라미드망(Feature Pyramid Network)을 포함하는 시스템.
제16항에 있어서,
상기 특징 피라미드망은,
상기 풀리 컨볼루션 인스턴스 시맨틱 분리망으로부터 상기 코어 인스턴스 특징들을 업샘플링(upsampling)하고;
컨볼루션 커널(kernel)을 이전의 특징 맵에 적용하여 컨볼루션된 이전의 특징 맵을 생성하며; 그리고
상기 업샘플링된 코어 인스턴스 특징들 및 상기 컨볼루션된 이전의 특징 맵을 결합하여 특징 맵을 생성함으로써,
상기 복수의 특징 맵들의 특징 맵을 생성하는 시스템.
제17항에 있어서,
상기 특징 피라미드망은,
최근접(nearest neighbor) 기법을 이용하여 상기 코어 인스턴스 특징들을 업샘플링하는 시스템.
제17항에 있어서,
상기 특징 피라미드망은,
디컨볼루션층(deconvolutional layer) 및 보간 컨볼루션 커널(interpolation convolutional kernel)을 이용하여 상기 코어 인스턴스 특징들을 업샘플링하는 시스템.
제14항에 있어서,
상기 피라미드 분리망은,
IoS(Intersection over Self) 메트릭을 계산하고 상기 IoS 메트릭이 임계값을 초과하는 인스턴스들을 제거함으로써, 상기 다중스케일 해상도의 상기 복수의 분리 마스크들을 병합하여 상기 인스턴스 마스크를 생성하는 시스템
제14항에 있어서,
상기 검출박스 계산부는,
영역 제안망(Region Proposal Network: RPN)을 포함하는 시스템.
제14항에 있어서,
상기 입력 이미지의 각 픽셀에 대해, 상기 픽셀이 속하는 상기 인스턴스의 경계박스 위치를 지정하는 소속 경계박스를 계산하는 소속 경계박스 예측망;
상기 입력 이미지의 각 픽셀에 대해 복수의 밀도 메트릭들을 계산하는 밀도 예측망; 및
상기 밀도 메트릭들에 따라 상기 인스턴스 마스크들을 필터링하여 상기 인스턴스 마스크들 및 상기 밀도 메트릭들로부터 계산된 차분 마스크 불일치도를 최소화하는 밀도 기반 필터링 모듈을 더 포함하는 시스템.
제22항에 있어서,
상기 소속 경계박스 예측망은,
상기 픽셀의 상기 소속 경계박스를 나타내는 벡터로서 최상단 픽셀, 최하단 픽셀, 최좌측 픽셀, 최우측 픽셀을 포함하는 4-특징 벡터를 계산함으로써 상기 입력 이미지의 각 픽셀에 대해 상기 소속 경계박스를 계산하는 시스템.
제22항에 있어서,
상기 영역 제안망 기반 점수 조정 모듈은,
상기 이미지에서 검출된 상기 객체에 대한 소속 경계박스들로부터 평균 경계박스를 계산하고;
상기 인스턴스 마스크 및 상기 평균 경계박스 간의 IoU(Intersection over Union) 메트릭을 계산하며; 그리고
상기 IoU 메트릭에 기반하여 상기 인스턴스 마스크의 상기 신뢰도 점수를 스케일링함으로써, 상기 인스턴스 마스크들의 상기 신뢰도 점수를 조정하는 시스템.
제22항에 있어서,
상기 밀도 기반 필터링 모듈은,
상기 이미지의 각 픽셀에 대해 픽셀 밀도 불일치도를 계산하고;
상기 인스턴스 마스크 각각에 대해 차분 마스크 불일치도를 계산하며; 그리고
잔존하는 마스크들의 집합에 대한 상기 차분 마스크 불일치도를 최소화함으로써, 상기 밀도 메트릭들에 따라 상기 인스턴스 마스크들을 필터링하는 시스템.
제25항에 있어서,
상기 잔존하는 마스크들의 집합에 대한 상기 차분 마스크 불일치도는,
그리디 검색법(greedy search)을 이용하여 상기 차분 마스크 불일치도가 최소화될 때까지 더 큰 차분 마스크 불일치도를 갖는 상기 인스턴스 마스크의 잔존 상태를 반복적으로 토글링하여 상기 잔존하는 마스크들의 집합을 갱신함으로써 최소화되는 시스템.