KR102639179B1

KR102639179B1 - 딥러닝 네트워크의 불확실도 판단방법

Info

Publication number: KR102639179B1
Application number: KR1020200189754A
Authority: KR
Inventors: 김현; 이승일
Original assignee: 서울과학기술대학교 산학협력단
Priority date: 2020-12-31
Filing date: 2020-12-31
Publication date: 2024-02-20
Also published as: KR20220096905A

Abstract

본 발명은 딥러닝 네트워크의 불확실도 판단방법에 관한 것으로, 실시간 처리를 수행하는 객체 분할 모델의 예측 헤드(Prediction Head)에 포함된 바운더리 박스(Bbox) 영역과, 마스크(Mask) 영역에 각각 가우시안 모델링을 수행하는 단계, 상기 가우시안 모델링 결과에 근거하여, 상기 예측 헤드와 관련된 손실 함수를 설계하는 단계 및 설계된 손실 함수를 이용하여 상기 바운더리 박스(Bbox) 영역과, 상기 마스크(Mask) 영역과 관련된 불확실도를 추출하는 단계를 포함하는 것을 특징으로 한다. 본 발명에서 제안하는 불확실성 예측 방법에 따르면, 기존에 객체 경계 영역에만 적용하던 가우시안 모델링을 마스크 영역까지 확장함으로써, 적은 속도 페널티와 우수한 마스크 정확도를 획득할 수 있는 장점이 있다. 또한, 가우시안 마스크는 마스크와 검출 물체의 신뢰도 점수 간의 균형을 맞춤으로써 잘못 분할된 물체(False Positive)를 크게 줄여 실제 어플리케이션에서의 사고를 방지할 수 있는 효과가 도출된다.

Description

딥러닝 네트워크의 불확실도 판단방법 {HOW TO DETERMINE THE UNCERTAINTY OF A DEEP LEARNING NETWROK}

본 발명은 딥러닝 네트워크의 불확실도 판단방법에 관한 것이다.

딥 러닝은 인공 지능(artificial intelligence, AI) 및 컴퓨터 비전(computer vision) 분야에서 널리 사용되는 기술이다. 컨볼루션 뉴럴 네트워크들(convolution neural networks, CNNs), 심층-신뢰 네트워크들(deep-belief networks, DBNs), 및 오토인코더들(autoencoders)과 같은 다양한 딥-러닝 아키텍쳐들은 시각적인 객체 인식, 자동 대화 인식, 자연 언어 처리, 및 음악/음향 신호 처리와 같은 작업들에 대한 최신의 결과들을 생성하는 것으로 보여왔다. 딥 러닝의 주된 노력은 다양한 네트워크 아키텍쳐들, 러닝 알고리즘들, 및 어플리케이션들에 대한 소프트웨어 구현에 포커싱 되어왔다.

딥러닝 기반의 객체 검출 및 객체 분할 알고리즘들은 검출 대상의 결과가 얼마나 불확실한지 알지 못한다는 문제점이 있다 이러한 불확실성 문제(uncertainty)를 풀기 위하여 여러 연구들이 진행되었다 몇몇 연구들은 베이지안 네트워크나 Monte Carlo Dropout을 사용하여 의미론적 분할 모델의 불확실성을 예측하였다.

하지만 이러한 연구들은 불확실성을 예측만 할 뿐 실제 어플리케이션에 적용하여 성능을 향상시키지는 못하였다 또한 이 접근 방식들은 추론을 여러 번 수행 해야하므로, 연산량 측면에서 문제점이 있을 뿐만 아니라, 실시간 처리를 요구하는 어플리케이션에 적용하기 어려웠다.

이런 문제를 보완하기 위해 후속 연구들은 객체 탐지 모델에서 불확실성 예측을 위한 가우시안 모델링을 제안하였으며 기존 결정론적 결과만 출력하던 경계 박스 좌표 정보들을 평균과 분산의 가우시안 파라미터로 모델링하였다 그뒤 딥러닝 모델의 손실 함수를 재설계하거나 예측한 불확실성을 후처리에 활용하여 실제 모델의 성능 향상을 이끌어냈다 하지만 이러한 연구들은 객체 검출에 한정되어 있어 경계 박스의 좌표에만 적용이 가능할 뿐 마스크에는 확장이 불가능하여 객체 분할에서 마스크의 정확도를 높이기에는 무리가 있다.

본 발명의 기술적 과제는 상술한 문제점을 해결하기 위해, 실시간 어플리케이션에 사용될 수 있도록 객체 분할 모델의 불확실성을 예측하는 방법을 제공하는 것이다.

본 발명의 기술적 과제는 객체 분할 모델의 성능을 향상시키기 위해, 기존 객체 검출에서 이용되던 가우시안 모델링 방법을 객체 분할의 영역까지 확장하는 것이다.

본 발명의 기술적 과제는 객체 검출의 경계 박스와 더불어, 마스크에까지 가우시안 모델링르 적용하여, 기존 베이지안 네트워크나 Monte Carlo Dropout 과는 다르게 단일 고정 값을 갖는 모델 가중치를 결정하는 것이다.

상기 과제를 해결하기 위해 본 발명은 실시간 처리를 수행하는 객체 분할 모델의 예측 헤드(Prediction Head)에 포함된 바운더리 박스(Bbox) 영역과, 마스크(Mask) 영역에 각각 가우시안 모델링을 수행하는 단계, 상기 가우시안 모델링 결과에 근거하여, 상기 예측 헤드와 관련된 손실 함수를 설계하는 단계 및 설계된 손실 함수를 이용하여 상기 바운더리 박스(Bbox) 영역과, 상기 마스크(Mask) 영역과 관련된 불확실도를 추출하는 단계를 포함하는 것을 특징으로 한다.

본 발명에서 제안하는 불확실성 예측 방법에 따르면, 기존에 객체 경계 영역에만 적용하던 가우시안 모델링을 마스크 영역까지 확장함으로써, 적은 속도 페널티와 우수한 마스크 정확도를 획득할 수 있는 장점이 있다.

또한, 본 발명에 따르면, 가우시안 마스크는 마스크와 검출 물체의 신뢰도 점수 간의 균형을 맞춤으로써 잘못 분할된 물체(False Positive)를 크게 줄여 실제 어플리케이션에서의 사고를 방지할 수 있는 효과가 도출된다.

도 1은 가우스 모델링 된 YOLACT 아키텍처를 나타낸 것이다.
도 2는 본 발명의 일 실시예에 따른 YOLACT의 예측 헤드를 나타낸 것이다.
도 3은 마스크 불확실성과 기타 지표 간의 관계를 나타낸 것이다.
도 4는 본 발명의 일 실시예에 따른 모델과 기존 yolact의 차이를 나타낸 것이다.

본 발명의 목적 및 효과는 다음의 상세한 설명을 통하여 보다 분명해질 것이나 하기의 기재만으로 본 발명의 목적 및 효과가 제한되는 것은 아니다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 이하에서 개시되는 실시 예에 한정되지 않는다. 또한 도면에서 본 발명을 명확하게 개시하기 위해서 본 발명과 관계없는 부분은 생략하였으며, 도면에서 동일하거나 유사한 부호들은 동일하거나 유사한 구성요소들을 나타낸다.

딥러닝은 주목할만한 성과를 보여주며 자율주행 자동차와 로보틱스 등 다양한 어플리케이션에 활발히 적용되고 있다. GPU의 발전과 함께 딥러닝에 기반한 객체 검출과 세그멘테이션 알고리즘이 빠르게 발전되었으며 특히 최근에는 많은 어플리케이션에서 로컬라이제이션과 세그멘테이션을 동시에 수행하는 인스턴트 세그멘테이션의 수요가 증가하고 있다. 하지만 인스턴트 세그멘테이션은 모든 물체에 대한 정확한 예측과 각 객체에 대한 픽셀 단위의 분할을 요구하기 때문에 다른 과제에 비해 어렵다.

정확한 인스턴트 세그멘테이션을 수행하기 위해, 다음 두 가지 기준이 반드시 만족되어아한다. 첫째, 로컬라이제이션 결과가 높은 신뢰도를 가져야만 한다. 둘째, 검출 결과에 대한 픽셀단위 세그멘테이션 맵이 명확해야한다. 이 두 요구사항을 충족시키기 위해, 2단계 스테이지 기반의 많은 인스턴트 세그멘테이션 연구들이 수행되었다. 그러나 이런 실시간 처리에 제한을 가지는 2단계 스테이지 접근방식들은 제한적인 하드웨어 리소스를 가지는 임베디드 플랫폼에서 지원이 불가능하다. 그래서 최근에는 속도와 정확도간의 트레이드 오프 가 뛰어난 1단계 스테이지 인스턴트 세그멘테이션이 활발히 연구되었다.

하지만 이런 기존 딥러닝 알고리즘들은 문제점 검출 대상의 결과가 얼마나 불확실한지는 알지 못한다는 문제점이 있다. 이러한 불확실도 문제를 풀기 위하여 몇몇 연구들은 객체 검출과 세그멘테이션을 포함하는 다양한 어플리케이션에서 모델 불확실도를 예측하였으나 실제 어플리케이션에 적용하여 성능을 향상시키지는 못하였다. 이런 문제를 보완하기 위하여 몇몇 연구들은 불확실도를 예측하고 이를 손실 함수 재설계나 전/후 처리에 활용하여 실제 성능 향상을 이끌어 내었다. 하지만 이러한 연구들은 객체 검출에 한정되어 있어 박스 좌표에만 적용이 가능할 뿐 mask로 확장이 불가능하여 인스턴트 세그멘테이션에서 마스크 정확도를 높이기에는 무리가 있다.

이 문제를 해결하기 위해, 우리는 가우시안 모델링 기반의 불확실도-인식 인스턴트 세그멘테이션 기법인 가우시안마스크를 제안한다. 가우시안마스크에서, 박스 좌표의 평균과 분산은 가우시안 모델링을 통해 출력되고 출력 불확실성은 컨피던스(confidence) 계산 단계에 적응적으로 적용되어 탐지 결과의 신뢰도를 높이고 예측 후보를 필터링한다. 더 나아가 이 방법을 기반으로 본 발명에서는 가우시안 모델링을 세그멘테이션의 영역까지 확장시킨다. 다시 말해서 마스크에 대해서도 가우시안 모델링을 수행하여 세그멘테이션 맵과 동일한 resolution을 가지는 불확실도 맵을 생성한다. 불확실성 맵은 마스크와 신뢰도 점수 사이의 불균형을 완화하기 위해 후처리 마지막 단계에서 마스크 점수를 계산하는 데 사용된다. 세그멘테이션 맵과 불확실도 맵의 관계를 사용하여 잘못 예측된 false positive(FP), false negative(FN) 픽셀들을 크게 줄인다. 또한 세그멘테이션 맵과 불확실도 맵의 관계를 이용해 잘못 예측된 False Positive(FP) 픽셀들과 False Negative 픽셀들을 모두 줄인다. 즉, 보다 robust한 마스크를 생성할 수 있다. 따라서 제안된 가우시안마스크는 처리 속도에서 무시할 수 있는 페널티로 박스와 마스크 모두에서 눈에 띄는 정확도 향상을 달성한다.

또한 본 발명의 접근 방식은 YOLACT와 같은 1단계 스테이지 인스턴트 세그멘테이션 뿐만 아니라 마스크 R-CNN과 같은 2단계 스테이지 인스턴트 세그멘테이션 모델에도 쉽게 적용할 수 있는 높은 호환성을 갖는다. 본 발명의 접근방식의 일반성을 증명하기 위해, 본 발명에서는 PASCAL VOC 2007 and MS-COCO dataset에서 ResNet-101-FPN, Darknet-53 backbone을 사용하여 YOLACT, 마스크 R-CNN을 평가하였다. MS-COCO에서 ResNet-101 YOLACT을 사용하여, 본 발명에서는 GPU 한 대에서 단지 3.0%의 처리속도 증가만을 가지고 마스크 AP를 29.7% 에서 31.8%로, box AP를 32.0% 에서 33.9% 로 증가시켰다. 또한 본 발명에서는 state-of-the-art 모델 마스크 R-CNN에 본 발명의 접근방식을 적용함으로써 기존보다 1.5%높아진 37.1%의 마스크 AP를 달성했다.

인스턴트 세그멘테이션에는 두 가지 주요 방법으로서, 2단계 스테이지 인스턴트 세그멘테이션 모델과 1단계 스테이지 인스턴트 세그멘테이션 모델이 있다.

일반적으로 2단계 스테이지 인스턴트 세그멘테이션은 기존 2단계 스테이지 객체 검출에 세그멘테이션 수행을 더한다. 가장 대표적 2단계 스테이지 인스턴트 세그멘테이션 모델 마스크-RCNN은 첫번째 스테이지에 candidate region-of-interests (RoIs)를 생성하며 두번째 스테이지에 객체 분류와 박스 레그레션, 세그멘트를 수행한다.

이후 인스턴트 세그멘테이션의 성능을 높이기 위해 백본(backbone), FPN[24] 등의 네트워크 구조를 강화하거나 attention gate를 추가하여 의미있는 피쳐(feature)를 집중해 학습하는 등의 연구가 진행되었다. 마스크-RCNN을 기반으로 PANet은 멀티-레이어 피쳐(multi-layer features)에서 더 유용한 정보를 얻기 위해 탑-다운 경로(top-down path)를 추가하는 경로 경작(path aggregation)을 제안하였으며 MS R-CNN은 마스크 컨피던스 점수(confidence score)와 로컬라이제이션 점수 사이의 불균형을 해결함으로써 정확도를 향상시켰다.

반면에 최근 몇몇 연구들은 이러한 방법들과는 다르게 시멘틱 세그멘테이션(semantic segmentation)을 먼저 수행하고 객체 분할을 추후에 수행하는 방법을 채택한다. 특히, 인스턴트 경계를 먼저 학습한다. 그런 다음, 예측된 인스턴트 경계로 각 객체에 대한 인스턴트 마스크를 구한다. 마지막으로 Tensor마스크는 새로운 윈도우 패러다임을 제안하며 윈도우와 스케일로 각 픽셀에 대한 인스턴스를 분할하였다.

이 방식들은 일반적으로 높은 성능을 보이지만 처리속도가 느리다는 단점이 있다. 이를 보완하기 위해 YOLO[31], SSD[32]등의 1단계 스테이지 객체 검출기에 세그멘테이션을 수행하는 1단계 스테이지 인스턴트 세그멘테이션 모델들이 연구되었다.

이들은 위치 민감도 맵(Position Sensitive Map)을 사용하여 최종 마스크로 조립하거나 시맨틱 세그멘테이션 로짓(logit)과 경로 예측 로짓을 결합하여 인스턴트 세그멘테이션을 수행하였다.

일 연구에서는 학습된 형태 인코딩(encodings of shapes)으로 인스턴트 세그멘테이션을 수행하며, 다른 연구에서는 박스를 사용하지 않고 인스턴트 카테고리들을 사용하여 인스턴트 세그멘테이션을 객체 분류 방법으로 처리하였다. 이러한 1단계 스테이지 인스턴트 세그멘테이션 모델들은 2단계 스테이지 대비 정확도를 약간 희생시켜 처리 속도를 대폭 증가시키는 것에 초점이 맞춰져 있다.

한편, 다양한 1단계 스테이지 인스턴트 세그멘테이션 중 SOTA 연구인 YOLACT는 기존 실시간 인스턴트 세그멘테이션을 위한 연구들의 처리 속도가 여전히 실시간에 미치지 못한다는 문제점을 해결하기 위한 방법을 제안하였다.

도 1에 도시된 것과 같이, YOLACT는 고성능 멀티 스케일 예측을 수행하기 위하여 백본에 탑-다운 경로를 추가하는 FPN을 더해 사용하며 인스턴트 세그멘테이션을 두개의 과제로 분할하였다.

제1 과제는 서브 네트워크인 프로토넷(protonet)에서 프로토타입 마스크를 생성하는 것이며, 제2 과제는 인스턴트 마스크 계수를 예측하는 것이다.

먼저, 상기 프로토넷은 은 마지막 레이어가 k 채널들을 가지는 FCN으로 이루어지며 전체 이미지에 대한 k개의 프로토타입 마스크들을 예측한다.

다음으로, YOLACT는 전형적인 박스 기반 객체 검출기들에 마스크 계수 브랜치(coefficient branch)를 세번째 브랜치로 추가한다.

마스크 계수 브랜치는 다른 브랜치와 동일하게 백본과 FPN의 출력 피쳐를 입력으로 받으며 하나의 박스(bounding box)당 k개의 마스크 계수를 생산한다.

따라서 도 2(a)에서 볼 수 있듯, YOLACT는 하나의 박스당 4개의 좌표들, c개의 클래스들, k개의 마스크 계수로 이루어진 4+c+k개의 계수를 만든다. 그런 다음 각 박스에 대한 최종적 마스크들을 얻기 위해 두 구성 요소에 대해 선형적으로 합성한다. 최종 마스크는 학습 시에 원활한 손실 계산을 위해 그라운드 트루스(ground truth) 박스로 크롭(crop)되며 박스 영역 외부의 픽셀들에 0을 할당한다.

추론 시에는 대신에 NMS에서 선별된 예측된 박스를 사용하며 도 1의 NMS 박스는 학습에는 사용되지 않는다. 이 작업은 YOLACT가 1단계 스테이지 인스턴트 세그멘테이션임에도 불구하고 2단계 스테이지 인스턴트 세그멘테이션 모델과 유사하게 고품질의 마스크를 생성할 수 있게 한다.

반면에 이와 같은 프로세스는 기존 2단계 스테이지와는 다르게 리-풀링(re-pooling)을 요구하지 않기 때문에 시간적 안정성을 가져 실시간 인스턴트 세그멘테이션을 달성한다.

최근 딥러닝에서 불확실도에 대한 관심이 굉장히 높아지고 있으며 이에 따라 기존 연구들에도 불확실도를 예측하고 해결하기 위한 여러 연구가 있어왔다.

하지만 기존 연구들은 불확실도를 예측만 할 뿐 이를 실제 애플리케이션에서 활용하지 못했다. 이러한 문제를 보완하기 위하여 가우시안 YOLOv3은 객체 검출 모델에서 불확실도 예측을 위한 가우시안 모델링을 제안하였으며 기존에 결정론적인 결과만을 출력하던 박스 좌표 정보를 평균과 분산의 가우시안 파라미터로 모델링하고 이를 고려해 손실 함수를을 재설계함으로써 검출 정확도를 향상시키는 방법을 제안하였다.

또한 출력한 박스 불확실도를 컨피던스 계산에 사용하여 검출 결과의신뢰도를 증가시키는 방법도 제안된 바 있으나, 이 방법은 세그멘테이션 모델에 대한 고려는 제외되었기 때문에 최근 활용도가 높은 인스턴트 세그멘테이션에서 마스크의 정확도를 높이기에는 무리가 있다.

따라서 본 발명에서는 가우시안 YOLOv3의 방식을 기준으로 삼아 박스에서 불확실도를 적응적으로 적용시켜 박스 정확도를 향상시키고 더 나아가 불확실도의 예측 및 적용을 세그멘테이션의 영역까지 확장시킬 것이다.

인스턴트 세그멘테이션의 마스크 정확도를 정하는 가장 큰 요소는 먼저 이미지 내에서 높은 신뢰도를 가지는 예측 후보를 선정하는 것이고, 이후 선택된 예측 후보의 세그멘테이션 맵 정확도를 확보하는 것이다.

따라서 본 발명의 목표는 인스턴트 세그멘테이션의 불확실성을 예측하고 그것들을 후처리에 사용해 좋은 결과를 보이는 것이다.

도 1에 도시된 것처럼 대표적인 1단계 스테이지 인스턴트 세그멘테이션 모델인 YOLACT를 베이스라인으로 설정한다.

또한, 후처리에 사용할 불확실도를 추출하기 위해 YOLACT의 예측 헤드(prediction head)를 가우시안 모델링 하며, 추출한 파라미터들로 손실 함수를 재설계한다. 그 후, 가우시안 모델링을 통해 얻은 불확실도로 각 브랜치 (예를 들어, 마스크 및 박스)에 대한 후처리 방법을 제안한다.

아울러, 마스크 불확실도로 선택된 물체에 대해 보다 안정적인 마스크를 생성하는 과정을 보이며, 컨피던스 점수 계산 과정에 박스 불확실도를 적응적으로 사용해 신뢰도 높은 예측 후보를 선정한다.

특히, 본 발명에서 제안하는 방법은 어느 인스턴트 세그멘테이션 모델에나 쉽게 적용할 수 있다는 장점을 가진다. 따라서, 본 발명에서는 2단계 스테이지 인스턴트 세그멘테이션 모델인 마스크-RCNN에 제안하는 방법을 확장하여 적용할 것이다.

도 2(a)에 제시된 YOLACT의 예측 헤드는 박스와 마스크 브랜치들로 나뉜다. 불확실도를 추출하기 위해, 본 발명에서는 예측 헤드를 싱글 가우시안 모델링 하는 방법을 제안한다. 가우스 모델링 방법에서 모델 가중치는 분포가 아닌 단일 고정 값을 가지며 출력의 가우스 분포는 다중 추론없이 얻을 수 있다. 따라서 예측 헤드의 마스크, 박스 브랜치를 도 2(b)와 같이 싱글 가우시안 모델링한다면 알고리즘 전체의 적은 연산량 증가만으로도 쉽게 출력의 분포를 얻을 수 있다.

마스크 모델링 YOLACT는 이미지 전체에서 공유되는 것이 아닌 각 이미지에 특정한 프로토타입을 생성한다. 그런 다음 마스크 브랜치를 통해 각 프로토타입에 대응하는 마스크 계수를 추출하고 두 요소를 결합하여 세그멘테이션 맵을 만든다. 본 발명에서는 마스크 불확실도 예측을 위해 기존 YOLACT의 마스크 계수를 가우시안 파라미터로 모델링한다. 출력이 가우시안 파라미터로 구성된 주어진 테스트 입력 x에 대한 출력 y의 가우시안 모델은 아래의 수학식 1과 같이 정의된다.

μ(x)와 Σ(x)는 각각 평균 함수와 분산 함수이다. 본 발명에서는 세그멘테이션 맵과 불확실도 맵을 만들기 위해 가우시안 모델링 한 마스크 계수의 평균, 분산 각각을 선형 합성을 사용하여 프로토타입 마스크와 결합한다. 합성식은 아래의 수학식 2와 같다.

P는 프로토타입 마스크s이며 C(μ), C(Σ) 는 각각 μ(x)와 Σ(x)를 가우시안 모델링 한 마스크 계수이다. ·은 스칼라곱을 의미하고 T는 행렬 곱을 위한 전치 행렬이다. 마스크와 불확실도 모두 0과 1사이의 값을 가지기 때문에 최종 마스크들에 시그모이드(sigmoid)를 붙인다.

박스 예측 피쳐 맵은 그리드 당 3개의 박스를 가지며 박스 좌표들인 x, y, w, h로 구성되어 있다. 이 좌표들 들은 마스크 점수와는 달리 결정적인 1개의 좌표 값으로 출력되기 때문에 검출된 결과의 불확실성에 대해 알 수 없다. 이를 해결하기 위해 박스도 마찬가지로 평균(μ)과 분산(Σ)을 이용한 가우시안 분포를 이용하여 모델링 했으며 박스 출력은 x, y, w, h의 평균과 분산이 (i.e., μx, Σx, μy, Σy, μw, Σw, μh, Σh ) 된다. 이렇게 모델링된 출력은 로컬라이제이션 불확실도가 되고 박스에 대한 불확실도 점수 역할을 수행할 수 있다.

기존 YOLACT는 박스 좌표에 대해서는 Smooth L1 loss를 사용하며, 마스크에 대해서는 바이너리 크로스-엔트로피 손실(binary cross- entropy loss)를 사용한다. 제안하는 방법에서는 가우시안 모델링으로 박스 좌표와 마스크 픽셀들이 가우시안 파라미터로 출력 되기 때문에 이를 고려하여 박스와 마스크 손실 모두 Negative Log Likelihood(NLL) 손실로 재설계한다. 재설계한 마스크 손실 함수는 이하의 수학식 5 및 6과 같이 나타난다.

여기서 은 tm pixel의 nLL Loss이다. 는 그라운드 트루스 픽셀이며, 는 학습을 위한 파라미터이다. 는 가우시안 마스크의 검출 레이어의 출력 픽셀이다. 또한, 역시 출력이며, 픽셀의 불확실성을 나타낸다.

수학식 6은 사전에 정의된 정보들을 이용하여 계산되는 값으로 학습 시 박스 크기에 따라 가중치를 다르게 주는 역할을 한다. W, H는 이미지의 너비와 높이를 의미하며 wb, hb 는 crop되는 그라운드 트루스 박스의 너비와 높이를 나타낸다. YOLACT에서, 마스크는 손실 함수 계산 전에 그라운드 트루스 박스로 크롭 된다. 이 특징으로부터 본 발명에서는 그라운드 트루스 박스 밖의 pixels는 모두 0 값을 갖는다는 사실을 알 수 있다. 따라서, 본 발명에서는 그라운드 트루스 박스 외부의 픽셀에 대해 손실을 계산하기 위해 이하의 수학식 7을 설계한다.

가우시안 모델은 학습시 분산 값이 조금만 움직여도 손실 값이 크게 변한다. 때문에 본 발명에서 수학식 5는 제안 알고리즘의 손실이가 가장 안정적으로 수렴할 수 있도록 실험적으로 결정되었다. Σ가 손실 함수 분모에 있기 때문에 때때로 훈련 시작 시 문제가 생길 수 있다. 이것을 방지하기 위해 본 발명에서는 분산에 안정성을 위해 식에 10-7의 값을 가지는 ε를 추가해준다. 세그멘테이션 마스크의 경우 기존에도 픽셀들이 stochastic한 값을 가지고 있기 때문에 손실 함수를을 설계하는 것 만으로는 정확도가 오르지 않는다. 하지만 제안하는 방법은 Monte Carlo Dropout 등 기존 마스크 불확실도를 얻는 방법에 비해 월등히 쉽게 불확실도 맵을 추출할 수 있다.

본 발명에서 박스 손실은 가우시안 YOLOv3의 접근법과 유사한 방식으로 NLL 손실 함수로 재설계 되었으며 이하의 수학식 8 및 9와 같이 나타난다.

여기서 L, W and H 는 예측 레이어들의 num, width and height 이며, K 는 박스의 수이다. 가우시안 YOLOv3는 학습을 돕기 위해 YOLO의 특성에 맞추어 손실 함수에 scale을 추가하였는데 본 발명에서는 scale을 추가하는 대신 smooth L1 손실처럼 수학식 8 및 9로 나누어 손실 함수를 재설계하여, 수렴을 더 빨리 할 수 있게 해준다. 결과적으로 본 발명에서는 박스에 대한 불확실성을 출력하고 훈련 데이터 간의 일관된 데이터에 집중할 수 있다.

본 발명에서 제안하는 가우시안 모델을 사용하면 검출 대상의 박스, 마스크 불확실도를 모두 구할 수 있다. 본 발명에서는 후 처리 중에 추출된 불확실성을 사용하고 이를 신뢰도 계산에 적용하여 이미지 내에서보다 신뢰할 수있는 탐지 결과를 얻는다 (섹션 3.4에서 자세히 설명). 때때로 기존 YOLACT는 검출된 결과의 신뢰도가 높더라도 세그멘테이션 맵이 불안정함을 보이는 경우가 있으며 모호한 마스킹 결과는 세그멘테이션에 치명적이다. 이를 해결하기 위하여 가우시안마스크에서는 이미지 전체에 대한 불확실도 맵이 아닌 이미지 내 검출 대상마다 마스크 불확실도 맵을 모두 구하고 이를 활용하여 각각의 검출 결과에 불확실도로 후처리 하도록 한다. 마스크 불확실도를 고려하여 제안된 수학식 10은 다음과 같다.

수학식 10의 는 각각 검출된 물체의 마스크 맵과 불확실도 맵이며 (i,j)는 박스내의 각 픽셀을 의미한다. 불확실도는 가우시안 모델링에서 얻은 분산값이며 모든 픽셀들이 0과 1사이의 값을 가진다. 값이 높을수록 해당 픽셀의 신뢰도가 낮다는 것을 의미하며 본 발명에서는 불확실한 픽셀들에 대해 페널티를 주기 위해 각 픽셀에 (1-불확실도)를 곱해준다.

본 발명에서 최종 마스크는 0.5의 임계치를 가지며 기준을 넘기는 픽셀에 대해서만 마스킹을 한다. 따라서 불확실도가 높은 픽셀들은 임계치를 넘기지 못해 세그멘테이션 맵에서 불확실한 픽셀들이 사라진다. 하지만 이럴 경우 0.5 근처의 값을 가지던 픽셀들은 불확실도값이 낮음에도 임계치보다 낮은 값을 가지는 경우가 생긴다. 따라서 본 발명에서는 세그멘테이션 맵 모든 픽셀에 하이퍼 파라미터(hyperparameter

)를 더해줘 불확실도가 낮음에도 0.5 아래로 값이 내려가게 되는 픽셀들에 대해 보정을 해준다. 실험을 통하여

는 값을 가질 때 가장 높은 성능을 구현함을 확인하였다.

또한 제안하는 모델은 신뢰도 점수와 마스크 퀄리티 간의 불균형을 해결할 수 있다. 기존 인스턴트 세그멘테이션 에서는 예측된 마스크가 정확하지 않더라도 컨피던스 점수가 높은 경우가 있다. 이 문제를 완화하기 위해 MS R-CNN이 전체 객체의 마스크IoU를 사용하여 신뢰도 점수에 페널티를 준 것처럼 본 발명에서는 마스크 불확실도를 사용하여 신뢰도 점수에 페널티를 준다. 그림 3에서 보는 바와 같이 불확실성 지표는 마스크IoU 및 점수와 명확한 역관계를 가지기 때문에 제안하는 방법은 예측 마스크의 불확실성을 추출하여 신뢰도 점수와 마스크 퀄리티의 불일치를 줄인다. 이 완화 체계는 다음과 같이 수학식 11 및 12로 표현할 수 있다:

여기서 Sconf 는 컨피던스 점수s이며 는 마스크 불확실도다이다. wb, hb 는 예측 box의 width, height 이며 는 non-zero 픽셀s의 수이다. 본 발명에서는 작은 물체에서 박스 불확실도가 상대적으로 높다는 점에서 착안하여 예측 물체의 크기에 따라 마스크 불확실도를 가변적으로 적용한다. 마스크 외의 픽셀은 0값을 갖는다는 사실을 이용하여 예측된 박스 내부 마스크 불확실도의 합을 0이 아닌 값을 가지는 픽셀의 개수로 나눠주었다. 결론적으로 제안하는 방법은 예측된 마스크가 얼마나 불확실한 지를 측정하고 컨피던스 점수와 마스크 퀄리티 간의 불일치를 줄여준다. 특히, 마스크 점수와는 다르게 어떠한 추가적인 fc 레이어나 컨볼루션 레이어가 필요 없기 때문에 매우 효율적이다.

YOLACT는 후처리 과정에서 컨피던스 계산을 하여 물체가 박스에 존재하는지 여부를 결정하는 점수를 기반으로 예측 후보를 필터링한다. 하지만 컨피던스 점수만으로는 박스의 미스로컬라이제이션(mislocalization)에 대처하기 어렵다. 추출한 박스 불확실도가 로컬라이제이션 점수로써 필터링 동안에 반영된다면 박스의 신뢰도를 확실히 판단할 수 있으며 미스로컬라이제이션 문제를 효과적으로 해결할 수 있다. 또한 인스턴트 세그멘테이션 모델은 박스와 마스크 사이에 컨피던스 점수 종속성이 존재한다는 특징이 있어 신뢰도를 기반으로 예측 후보가 필터링 된다면 마스크 정확도도 함께 증가하는 효과를 얻을 수 있다. 박스 불확실도를 고려하여 제안된 수학식 13 및 14는 다음과 같다.

여기서 w, h는 박스의 너비와 높이이고 수학식 13에서 avg는 각 상자 좌표 불확도의 평균 인 로컬라이제이션 불확실도이다. 이 식을 통해 신뢰도가 낮은 박스는 예측 후보에서 제외된다. 이 방법은 기존 가우시안 YOLOv3에서 수행한 것과 비슷하다. 하지만 그들은 후처리 과정에서 물체의 크기에 따라 불확실성을 적응적으로 적용하지 않는다. 작은 물체는 일반적으로 큰 물체에 비해 불확실성이 높은 경향이 있으므로 본 발명에서는 새로운 파라미터 r을 추가하여 작은 물체에 더 많은 가중치를 부여합니다. 수학식 14에서 볼 수 있듯, 이 파라미터는 작은 물체에 대해 더 큰 값을 갖는다. 따라서 이 파라미터에 수학식 13의 불확실성을 곱하면 작은 물체의 불확실성에 가중치를 부여하는 효과가 있다. 상수 3과 2.5는 실험을 통해 경험적으로 얻은 하이퍼 파라미터이다.

본 발명에서 제안하는 알고리즘은 모든 인스턴트 세그멘테이션 모델에 쉽게 적용 가능하다. 이를 입증하기 위하여 2단계 스테이지 인스턴트 세그멘테이션 방법 중 마스크 R-CNN에 제안하는 방법을 적용하였다.

마스크 R-CNN은 2단계 스테이지로 이루어진 모델로서 예측 헤드 이전에 관심영역(Region of Interest, RoI)을 구하는 영역 제안 네트워크(region proposal network)가 있다는 점이 다르다. 하지만 본 발명의 방법은 모델의 예측 헤드를 가우시안 모델링 하는 것이기 때문에 YOLACT와 적용함에 큰 차이는 없다.

박스의 경우 상술한 수학식 8 및 9와 동일한 식을 통해 손실 함수를 재설계할 수 있다. 반면에 마스크는 YOLACT와 다르게 예측 박스로 크롭하는 부분이 없기 때문에 수학식 5만 사용하여 간단하게 손실 함수를 재설계 할 수 있다. 그런 다음 영역 제안 네트워크를 거치고 나온 RoI에 대해 후처리를 한다. 박스 불확실도로 예측 후보를 필터링하고 수학식 10처럼 마스크 불확실도 측면에서 우수한 세그멘테이션 맵을 생성한다. 결과적으로 본 발명에서는 마스크 R-CNN에서도 주목할만한 성능을 얻는다. 이러한 방식으로 가우시안마스크는 SOTA 모델과 결합하여 더 나은 인스턴트 세그멘테이션 모델을 쉽게 만들 수 있다.

표 1에서는 제안된 각 방법에 따라 가우시안마스크의 정확도를 평가하였다.

nLL 손실: 간단하게 nLL 손실로 모델을 학습시키는 것 만으로도 box AP가 0.5% 오른다. 이는 가우시안 모델이 training 단계에서 샘플의 불확실성의 분산을 예측하는 방법을 학습함으로써 매우 신뢰할 수 있는 샘플에서 더 많은 것을 학습하기 때문이다. 기존 인스턴트 세그멘테이션 모델은 deterministic한 box 정보를 가지지만 nLL 손실은는 네트워크가 로컬라이제이션 confidence를 학습하게끔 도와준다. 마스크 AP는 baseline과 차이가 없다.

Post Processing: 박스 불확실도를 이용한 후처리는은 마스크 AP와 box AP를 각각 1.2%, 1.4% 향상시킨다. 본 발명에서는 박스 불확실도를 nms단계의 컨피던스 계산에 크기와 점수에 따라 적응적으로 사용했으며 이것은 로컬라이제이션 confidence를 class confidence와 함께 이용하는 것이 정확한 물체의 로컬라이제이션에 중요하다는 것을 보여준다. 또한 불확실도를 사용해 높은 신뢰도로 예측 후보를 필터링하는 것은 세그멘테이션 모델에서 정확한 예측 후보를 선정하는 것이 마스크의 정확도에도 큰 영향을 미친다는 점을 보여준다. Second, 마스크 불확실도 를 사용해 높은 신뢰도를 가지는 샘플들에 한번 더 후처리를 진행하면 box AP에는 변화가 없으나 0.9%의 마스크 AP 향상 효과를 얻을 수 있다. 본 발명에서는 생성한 세그멘테이션 맵과 불확실도 맵을 결합하였으며 불확실도가 마스크 scoring의 역할을 수행하기 때문에 기존 모델보다 더 안정적인 마스크를 생성하고 마스크 quality와 신뢰도 점수간의 불균형을 해소할 수 있다.

표 2, 3을 통해 본 발명에서는 MS COCO에서 가우시안마스크를 다른 SOTA 방법들과 비교한다.

마스크 AP Results: 표2에서 보이듯, ResNet-101을 사용한 가우시안마스크 with YOLACT는 baseline보다 2.1맵 높은 31.8%의 마스크 맵을 보인다. 이는 같은 network에 path aggregation을 적용한 모델과 attention을 추가한 모델 보다도 1.3 맵, 1.7맵 높은 결과이다 (i.e. PA-YOLACT, attention-YOLACT). PA-YOLACT, attention-YOLACT는 처리속도를 각각 32.1 및 31.9FPS로 감소시키는 반면, 가우시안마스크 YOLACT의 처리속도는 32.5FPS로 기존 YOLACT와 거의 차이가 없음을 명심해달라. 가우시안마스크 with 마스크 R-CNN은 37.2맵을를 달성했으며 이는 각각 36.6맵, 37.1맵을를 얻은 PANet과 Tensor마스크 (i.e. existing SOTA 모델s) 보다 높은 결과이다. It is notable that, 탑-다운 경로 aggregation을 추가하는 PANet과 백본 feature 맵에 새로운 그리드 셀을 생성하는 Tensor마스크는 성능을 올리기 위해 처리속도에서 상당한 불이익을 동반한다(i.e., 4.7 and 2.6 FPS, repectively). 반면에 제안하는 가우시안마스크는 처리속도(i.e., 7.3 FPS)에서 무시할 수 있는 페널티로 기존 연구에 비해 정확도가 향상되었다.

Box AP Results: 인스턴트 세그멘테이션에서는 마스크 외에 box도 생산하기 때문에 우리 모델의 객체 검출 성능은 표3의 다른 객체 검출 방법과 비교된다. YOLACT baseline 보다 1.9 맵 높은 33.9 box 맵을 얻으며 이는 대표적인 객체 검출기인 YOLOv3나 SSD보다도 높은 성능이다. 가우시안 마스크 with YOLACT는 세그멘테이션 process와 이를 이용한 post processing까지 실행하지만 YOLOv3보다 FPS가 33으로 높음을 알아달라. ResNet-50 YOLACT++에 proposed method을 적용했을 때는 37.0 box AP로 이는 2단계 스테이지인 Faster R-CNN보다도 높은 성능이다. 또한 마스크 R-CNN에 본 발명의 approach를 붙였을 때 box AP가 40.3%로 올랐으며 이는 기존 마스크 R-CNN과 Faster R-CNN에 비해 각각 2.1%, 4.1%만큼이나 높은 수치이다.

본 발명에서는 제안하는 방법의 확장성과 호환성을 추가적으로 보이기 위해 표 4를 통해 백본 network와 dataset을 바꿔서 실험한 결과를 제시한다. our improved YOLACT 모델에서 darknet-53 백본을 사용할 때 baseline대비 30.7맵으로로 2.0%만큼의 정확도 향상이 있으며 ResNet-101 백본 에서 Pascal VOC dataset으로 inference하여 3.2% 향상된 마스크 맵을 얻었다.

마스크 Quality: 제안하는 방법은 불확실도 정보를 사용해 세그멘테이션 맵 의 안정성을 얻는다. 95% IoU 임계치에서 our improved 모델은 2.4 AP를 달성하였으며 baseline YOLACT와 마스크-RCNN이 각각 1.6, 1.3 AP이다.

도 4를 참조하면, 본 발명에서는 기존 yolact와 제안 모델의 차이를 visualize하여 보인다. 도 4(a)의 의자 가장자리는 박스 가우시안 모델링을 통한 정확한 예측을 나타낸다. 또한 도 4(b)와 4(c)의 확대 된 부분에서 볼 수 있듯이 세그멘테이션 맵의 모호한 부분은 마스크 후처리를 수행하여 robust 해진다. 도 4(d)는 box의 가장자리에 있는 잘못 예측된 (i.e., FP) 픽셀이 마스크 불확실도를 활용하여 보다 정확하게 마스킹 되었음을 보인다. 또한 도(d)와 (e)에서 우리가 제안하는 방법이 마스크와 신뢰도 점수의 불균형을 효율적으로 해결함을 알 수 있다. 결론적으로 가우시안마스크는 기존 모델에 비해 훨씬 정확한 마스크를 생성한다.

최근 컴퓨터 비젼 커뮤니티에서 가장 활발하게 연구되고 있는 인스턴트 세그멘테이션 모델의 경우 신뢰할 수 있는 현지화 예측과 정확한 로컬라이제이션 결과 마스킹이 필수적이다. 본 발명에서는 박스와 마스크를 가우시안 모델링하고 예측 후보의 신뢰도 높은 선택과 선택된 물체의 더욱 정확한 마스킹을 위해 각각의 예측된 불확실도를 후처리 과정에 활용한다. 본 발명의 novel contribution은 불확실성의 적용을 세그멘테이션 영역으로 확장하여 박스 및 마스크 정확도를 모두 향상시키는 것이다. 여러 benchmark datasets (MS-COCO와 PASCAL VOC)과 networks (ResNet-101 FPN, Darknet-53 YOLACT and 마스크-RCNN) 에서의 실험은 제안된 방법이 실험결과를 통해 처리 속도 페널티 없이 state-of-the-art 방법들보다 더 높은 box/마스크 성능을 성취함을 입증했다. 또한 본 발명의 접근 방식은 호환성이 높으며 모든 인스턴트 세그멘테이션 모델에 쉽게 적용할 수 있다. 결론적으로, 본 발명에 제시된 기법을 통해 인스턴트 세그멘테이션을 기반으로 하는 다양한 어플리케이션의 발전에 큰 기여를 하여, 딥러닝 알고리즘의 상용화를 앞당길 수 있을 것이다.

Claims

딥러닝 네트워크의 불확실도 판단방법에 있어서,
실시간 처리를 수행하는 객체 분할 모델의 예측 헤드(Prediction Head)에 포함된 바운더리 박스(Bbox) 영역과, 마스크(Mask) 영역에 각각 가우시안 모델링을 수행하여 상기 바운더리 박스 영역에 대한 제1 평균 및 제1 분산을 획득하고, 상기 마스크 영역에 대한 제2 평균 및 제2 분산을 획득하는 단계;
상기 가우시안 모델링 결과로서, 상기 제1 평균 및 상기 제1 분산에 근거하여, 상기 예측 헤드의 상기 바운더리 박스와 관련된 제1 손실 함수를 설계하고, 상기 제2 평균 및 상기 제2 분산에 근거하여 상기 예측 헤드의 상기 마스크 영역과 관련된 제2 손실 함수를 설계하는 단계; 및
상기 제1 손실 함수 및 상기 제2 손실 함수를 이용하여 상기 바운더리 박스(Bbox) 영역과, 상기 마스크(Mask) 영역과 관련된 불확실도를 추출하는 단계를 포함하는 딥러닝 네트워크의 불확실도 판단방법.
제1항에 있어서,
상기 객체 분할 모델은,
1단계 스테이지 인스터스 세그멘테이션 모델인 YOLACT인 것을 특징으로 하는 딥러닝 네트워크의 불확실도 판단방법.
삭제
제1항에 있어서,
상기 마스크 영역과 관련된 불확실도를, 상기 마스크 영역에 대한 객체 검출 결과에 적용하여, 상기 검출 결과의 신뢰도 점수를 계산하는 단계를 더 포함하는 것을 특징으로 하는 딥러닝 네트워크의 불확실도 판단방법.
제1항에 있어서,
상기 박스 영역과 관련된 불확실도에 근거하여, 상기 예측 헤드에 대한 후처리 프로세스를 수행하는 단계를 더 포함하는 것을 특징으로 하는 딥러닝 네트워크의 불확실도 판단방법.