KR102424326B1

KR102424326B1 - 주목도 기반 객체 분할을 이용한 비지도 비디오 객체 분할장치 및 방법

Info

Publication number: KR102424326B1
Application number: KR1020190138321A
Authority: KR
Inventors: 강성일; 조동현; 홍성은; 김지원
Original assignee: 에스케이텔레콤 주식회사
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2022-07-21
Also published as: KR20210052844A

Abstract

주목도 기반 객체 분할을 이용한 비지도 비디오 객체 분할장치 및 방법을 개시한다.
본 실시예는, 비디오 프레임으로부터 마스크 후보(mask candidates) 및 주목도(saliency)를 생성하고, 마스크 후보로부터 추론한 Re-ID(Re-Identification) 특징을 기반으로 마스크 후보와 등록 객체의 유사도를 판별하여 객체 분할을 수행한다. 또한 등록 객체가 아닌 마스크 후보를 주목도에 근거하여 신규 등록 객체로 판별하되, 등록 객체를 일정한 개수 이내로 유지하는 것이 가능한 비지도 비디오 객체 분할(UVOS: Unsupervised Video Object Segmentation)장치 및 방법을 제공한다.

Description

주목도 기반 객체 분할을 이용한 비지도 비디오 객체 분할장치 및 방법{Method and Apparatus for Unsupervised Video Object Segmentation Using Object Segmentation Based on Saliency}

본 발명은 주목도 기반 객체 분할을 이용한 비지도 비디오 객체 분할장치 및 방법에 관한 것이다.

이하에 기술되는 내용은 단순히 본 발명과 관련되는 배경 정보만을 제공할 뿐 종래기술을 구성하는 것이 아니다.

비디오 객체 분할(VOS: Video Object Segmentation)은 비디오의 배경(background)로부터 전면(foreground)의 객체를 분리하기 위한 이진 라벨링(binary labeling) 문제이다. 비디오에 대한 픽셀 정확도의(pixel-accurate) 시공간적(spatiotemporal) 이진구분(bipartition)은 다양한 응용 분야에서 중요하게 이용된다. 응용 분야의 예로는 행동 인식(action recognition), 객체 추적(object tracking), 비디오 요약(video summarization), 비디오 편집(video editing)을 위한 로토스코핑(rotoscoping) 등을 들 수 있다.

최근의 주목할 만한 성과에도 불구하고, VOS는 여전히 도전적인 문제이다. 기존의 방법들은, 방대한 데이터세트(dataset)의 취급, 비디오 후생산(post-production), 시각 효과 산업(visual effects industry)에서의 비디오 편집 등에 적용되기에는, 성능 및 효율성 측면에서 여전히 한계를 보인다.

VOS에 대한 종래의 기술로, 주석이 부착된(annotated) 초기 프레임을 기반으로, 초기 프레임에서 주어진 라벨(label)이 부착된 객체 분할을 이후의 비디오 프레임에 전파(propagation)시키는 SVOS(Semi-supervised VOS) 기술이 존재한다. 처음 제안된 후로 SVOS는 많은 주목을 받고 있으나, 주석이 부착된 초기 프레임을 필요로 한다는 특징이 있다.

다른 종래의 기술로, 첫 비디오 프레임에서 객체 분할을 추정하고, 이후에는 SVOS 방식을 이용하는 UVOS(Unsupervised VOS) 기술이 존재한다. 주석이 부착된 초기 프레임을 필요로 하지 않는다는 장점이 존재하나, UVOS는 첫 프레임에서의 추정 결과에 의존하여 성능 열화가 발생할 수 있다. 또한, 첫 프레임에 모든 목표 객체가 존재한다는 것을 보장하기도 어렵다.

첫 프레임의 추정 결과에 의존하는 문제를 해결하기 위하여, UVOS에서는 특정한 기준을 만족하는 객체 분할에 대하여 지속적으로 새로운 ID(Identification)을 부여할 수 있다. 그러나, ID의 지속적인 부여는 객체의 개수 증가뿐만 아니라 연산 시간 및 메모리 복잡도(time and memory complexity)를 유발할 수 있다.

따라서, 첫 프레임의 추정 결과에 의존하는 한계를 완화하고, 효과적으로 객체를 선택하고 유지함으로써, 시간 및 메모리 복잡도를 감소시키는 것이 가능한 비지도 비디오 객체 분할방법이 요구된다.

비특허문헌 1: Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networks for object detection. In Proc. of Computer Vision and Pattern Recognition (CVPR), pages 2117-2125, 2017. 비특허문헌 2: Seoung Wug Oh, Joon-Young Lee, Kalyan Sunkavalli, and Seon Joo Kim. Fast video object segmentation by referenceguided mask propagation. In Proc. of Computer Vision and Pattern Recognition (CVPR), 2018. 비특허문헌 3: X. Li and C. C. Loy, "Video object segmentation with joint reidentification and attention-aware mask propagation,"arXiv preprint arXiv:1803.04242, 2018. 비특허문헌 4: Sergi Caelles, Jordi Pont-Tuset, Federico Perazzi, Alberto Montes, Kevis-Kokitsi Maninis, and Luc Van Gool. The 2019 davis challenge on vos: Unsupervised multi-object segmentation. arXiv:1905.00737, 2019.

본 개시는, 비디오 프레임으로부터 마스크 후보(mask candidates) 및 주목도(saliency)를 생성하고, 마스크 후보로부터 추론한 Re-ID(Re-Identification) 특징을 기반으로 마스크 후보와 등록 객체의 유사도를 판별하여 객체 분할을 수행한다. 또한 등록 객체가 아닌 마스크 후보를 주목도에 근거하여 신규 등록 객체로 판별하되, 등록 객체를 일정한 개수 이내로 유지하는 것이 가능한 비지도 비디오 객체 분할(UVOS: Unsupervised Video Object Segmentation) 장치 및 방법을 제공하는 데 주된 목적이 있다.

본 발명의 실시예에 따르면, 현재 프레임을 기반으로 적어도 하나의 실체(instances) 분할(segmentation) 및 주목도(saliency)를 추론하는 실체분할부; 상기 실체에 대한 마스크(masks)를 기반으로 직전 프레임으로부터 획득된 마스크를 상기 프레임에 전파(propagation)하여 마스크 후보(mask candidates)를 생성하는 마스크전파부; 상기 마스크 후보를 기반으로 Re-ID(Re-Identification) 특징을 추론하는 특징추출부; 및 상기 마스크 후보가 등록 객체(registered objects)인지를 판별함으로써 객체 분할을 수행하는 온라인추적기를 포함하는 것을 특징으로 하는 비지도 비디오 객체 분할(UVOS: Unsupervised Video Object Segmentation)장치를 제공한다.

본 발명의 다른 실시예에 따르면, 비지도 비디오 객체 분할장치의 객체 분할방법에 있어서, 사전에 트레이닝된 딥러닝 기반 분할 모델(segmentation model)에 현재 프레임을 입력하여 적어도 하나의 실체(instances) 분할(segmentation) 및 주목도(saliency)를 추론하는 과정; 상기 실체에 대한 마스크(masks)를 기반으로 직전 프레임으로부터 획득된 마스크를 상기 프레임에 전파(propagation)하여 마스크 후보(mask candidates)를 생성하는 과정; 상기 마스크 후보를 기반으로 Re-ID(Re-Identification) 특징을 추론하는 과정; 및 상기 마스크 후보가 등록 객체(registered objects)인지를 판별함으로써 객체 분할을 수행하는 과정을 포함하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 비지도 비디오 객체 분할방법을 제공한다.

본 발명의 다른 실시예에 따르면, 비지도 비디오 객체 분할방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는, 기록매체에 저장된 컴퓨터프로그램을 제공한다.

이상에서 설명한 바와 같이 본 실시예에 따르면, 주목도(saliency)를 기반으로 등록 객체(registered objects)를 일정한 개수 이내로 유지하는 것이 가능한 비지도 비디오 객체 분할(UVOS: Unsupervised Video Object Segmentation) 장치 및 방법을 제공함으로써 시간 및 메모리 복잡도(time and memory complexity)를 줄이는 것이 가능해지는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 비지도 비디오 객체 분할 장치에 대한 구성도이다.
도 2는 본 발명의 일 실시예에 따른 비지도 비디오 객체 분할 장치의 분할 모델에 대한 예시도이다.
도 3은 본 발명의 일 실시예에 따른 객체에 대한 주목도를 보여주는 예시도이다.
도 4는 본 발명의 일 실시예에 따른 비지도 비디오 객체 분할 장치의 마스크전파 모델에 대한 예시도이다.
도 5는 본 발명의 일 실시예에 따른 비지도 비디오 객체 분할 방법에 대한 순서도이다.

이하, 본 발명의 실시예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 실시예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 실시예들의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

또한, 본 실시예들의 구성요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 발명의 예시적인 실시형태를 설명하고자 하는 것이며, 본 발명이 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다.

본 실시예는 주목도 기반 객체 분할을 이용한 비지도 비디오 객체 분할장치 및 방법에 대한 내용을 개시한다. 보다 자세하게는, 비디오 프레임 별로 획득한 후보(candidate) 객체 분할(object segmentation)을 이용하여 주목도(saliency) 및 Re-ID(Re-Identification) 특징을 기반으로 일정한 개수 이내로 객체를 선택 및 유지하는 것이 가능한 비지도 비디오 객체 분할(UVOS: Unsupervised Video Object Segmentation) 장치 및 방법을 제공한다.

비디오는 프레임(frame)이 시간적으로 연속된 형태인 것으로 가정한다.

비디오 객체 분할(VOS: Video Object Segmentation)은 비디오의 배경로부터 전면의 객체를 분리하여 픽셀 정확도의(pixel-accurate) 시공간적(spatiotemporal) 이진구분(bipartition)을 실행한다. 프레임 내의 특정 객체에 대한 분할 결과는 특정 객체에 대한 마스크 및 ID(identification)를 포함할 수 있다.

프레임(frame) 전체 영역에 대하여 마스크(mask)는 객체의 경계를 기준으로 내부와 외부를 픽셀 단위로 이진 구분한다. 한 프레임 내에 복수의 객체가 존재하는 경우, 객체 분할에 의하여 객체와 동일한 개수의 마스크가 생성될 수 있다.

객체의 분할은 객체의 검출을 포함한다. 따라서, 객체 분할의 결과는 객체의 위치를 표시하는 바운딩 박스(bounding box)를 포함할 수 있다. 또한 바운딩 박스의 영역은 마스크의 영역을 포함한다.

도 1은 본 발명의 일 실시예에 따른 비지도 비디오 객체 분할 장치에 대한 구성도이다.

본 발명에 따른 실시예에 있어서, 비지도 비디오 객체 분할(이하 UVOS) 장치(100)는 비디오 프레임 별로 획득한 후보 객체 분할을 이용하여 주목도(saliency) 및 Re-ID(Re-Identification) 특징을 기반으로 객체 분할을 수행하되, 기 설정된 범위 내로 등록 객체(registered objects)의 개수를 유지한다.

UVOS 장치(100)는 실체분할부(101), 마스크전파부(102), 특징추출부(103), 온라인추적기(104) 및 등록 객체풀(105)의 전부 또는 일부를 포함한다. 본 실시예에 따른 UVOS 장치(100)에 포함되는 구성요소가 반드시 이에 한정되는 것은 아니며, 비디오 프레임을 획득하는 입력부(미도시) 및 최종적인 객체 분할 결과를 출력하는 출력부(미도시)를 추가로 구비할 수 있다. 또한, UVOS 장치(100) 상에 추론 모델의 트레이닝을 위한 트레이닝부(미도시)를 추가로 구비하거나, 외부의 트레이닝부와 연동되는 형태로 구현될 수 있다.

본 실시예에 따른 실체분할부(101)는 현재 비디오 프레임을 기반으로 적어도 하나의 실체(instances) 분할 및 주목도를 추론(inference)한다. 실체분할부(101)는 입력된 현재 비디오 프레임을 딥러닝(deep learning) 기반의 분할 모델에 적용하여 각 실체에 대한 분할 및 주목도를 추론한다. 여기서, 실체라는 표현이 사용되는 이유는, 분할된 대상이 아직 객체로 확정되지 않았다는 의미이다.

분할 모델(segmentation model)은, 도 2에 도시된 바와 같은, 딥러닝 기반의 2단 검출(two-stage detection) 방식에 기반하는 신경회로망인 FPN(Feature Pyramidal Network, 비특허문헌 1 참조)을 이용한다. 여기서, 2단 검출 방식은 RPN(Regional Proposal Network)을 이용하여 객체의 존재, 존재 영역, 주목도 영역 등을 포함하는 객체 프로포절 풀(object proposal pool)을 생성하고, 검출기를 이용하여 정확한 객체의 위치, ID(identification) 및 주목도를 추론하는 방식이다.

본 실시예에 따른 분할 모델은 복수의 실체 각각에 대한 바운딩 박스, 마스크, ID 및 주목도를 추론하는 것이 가능하도록 학습용 비디오 프레임과 GT(Ground Truth)를 이용하여 사전에 트레이닝될 수 있다.

주목도는 특정 객체가 프레임 내에서 차지하는 중요도를 표시할 수 있다. 도 3에 예시된 바와 같이, 자전거의 움직임에 따라, 자전거의 위치를 중심으로 분할 모델은 비정형의 주목도를 추론할 수 있다. 프레임 내의 중요 객체(예컨대, 경기 중인 선수)에만 주목도가 부여될 수 있도록 분할 모델이 사전 학습됨으로써, 상대적으로 중요하지 않은 객체(예컨대, 경기를 관람하는 관중)를 배경의 일부로 처리하는 것이 가능해진다.

본 실시예에 따른 마스크전파부(102)는 직전 프레임으로부터 획득된 마스크(mask)를 현재 비디오 프레임에 전파하여 마스크 후보(mask candidates, 이하 후보도 동일한 의미로 사용함)를 생성한다.

프레임 내의 동작 블러(motion blur) 또는 다른 실체에 의한 가려짐(occlusion) 등 때문에, 현재 비디오 프레임에서의 실체 분할 결과가 열악할 수 있다. 이러한 상황에 대처하기 위하여 마스크전파부(102)는 직전 프레임으로부터 획득된 마스크(mask)를 딥러닝 기반의 전파 모델(propagation model)에 적용하여 후보 및 후보가 포함된 프레임을 생성할 수 있다. 여기서, 직전 프레임으로부터 획득된 마스크는, 등록 객체풀(105)에 저장된 마스크로서, UVOS 장치(100)가 직전 프레임까지 보관했던 등록 객체(registered objects)에 대한 마스크를 의미한다.

후보는 실체분할부(101)에서 추론된 실체가 전파된 마스크 및 직전 프레임으로부터 전파된 마스크를 포함할 수 있다.

첫째 비디오 프레임인 경우, 직전 프레임이 존재하지 않으므로, 마스크 전파 과정이 생략될 수 있다.

전파 모델은 딥러닝 기반의 신경회로망으로서, 도 4에 도시된 바와 같은, 2 개의 인코더를 이용하는 RGMP(Reference-Guided Mask Propagation) 모델을 이용한다(비특허문헌 2 참조). RGMP 모델은 두 개의 인코더를 포함하는 객체 분할 모델이다. RGMP 모델은 현재 프레임을 하나의 인코더에 입력하고, 레퍼런스 프레임(reference frame) 및 마스크를 다른 인코더에 입력한 후, 두 인코더의 출력을 결합(concatenation)시킨다. 결합된 결과가 최종적으로 디코더에 적용됨으로써 마스크 전파가 실행된다.

본 실시예에 따른 전파 모델은 현재 프레임 및 실체 분할 결과를 하나의 인코더에 입력하고, 직전 프레임 및 마스크를 다른 인코더에 입력함으로써 마스크 전파를 실행한다. 전파 모델은 학습용 비디오 프레임 및 GT를 기반으로 사전에 트레이닝될 수 있다.

본 실시예에 따른 특징추출부(103)는 후보를 기반으로 Re-ID 특징을 추론한다. 특징추출부(103)는 후보 및 후보를 포함하는 프레임을 딥러닝 기반의 Re-ID 추론 모델에 입력하여 후보에 대한 Re-ID 특징을 추론한다.

Re-ID(Re-Identification)는 서로 분리된 비디오 프레임 각각에 존재하는 동일한 객체를 인식하는 기술로서, 객체 분할에서는 움직이는 객체 간의 가려짐을 해결하기 위해 이용될 수 있다.

Re-ID 추론 모델은 딥러닝 기반의 신경회로망으로서, 도 5에 도시된 바와 같은 Re-ID 모델을 이용한다(비특허문헌 3 참조). Re-ID 모델은 입력된 비디오 프레임에 포함된 각 후보에 대한 1 차원 특징을 추출한다. RPN이 생성한 RoI(Region of Interest) 풀(pool)이 제공하는, 후보에 대한 바운딩 박스를 기반으로 Re-ID 모델은 인식망(identification network)을 이용하여 1차원 ID 특징을 추론할 수 있다. 추론된 1 차원 ID 특징이 본 실시예에서 이용하는 Re-ID 특징이다.

따라서, Re-ID 추론 모델에 의하여 추론되는 Re-ID 특징은, 후보 인식을 위한 특징이 임베딩 벡터(embedding vector)로 표현된 것일 수 있다. Re-ID 추론 모델은 학습용 비디오 프레임 및 GT를 기반으로 사전에 트레이닝될 수 있다.

본 실시예에 따른 온라인추적기(104)는 Re-ID 특징을 이용하여 후보가 등록 객체인지를 판별하고, 등록 객체가 아닌 것을 판별된 후보에 대하여 주목도를 이용하여 신규 객체인지를 판별한다. 먼저 등록 객체인지를 판별하기 위해, 온라인추적기(104)는 후보가 기 설정된 유사도 기준(similarity criterion)을 만족하는지를 확인한다.

후보가 기 설정된 유사도 기준을 만족하면, 해당되는 등록 객체의 ID를 후보에게 할당하고, 후보의 특징을 이용하여 등록된 ID를 보유한 객체의 파라미터를 업데이트한다. 등록된 ID가 할당된 후보가 실체분할부(101)에서 추론된 실체 분할에 대한 최종적인 객체 분할 결과이므로, 온라인추적기(104)는 객체 분할 결과를 출력부로 전달한다.

첫째 비디오 프레임인 경우, 등록된 ID를 보유한 객체가 존재하지 않으므로, ID 할당 과정이 생략되고, 신규 ID 부여 과정이 진행될 수 있다.

후보 각각에 대한 ID 할당 과정은 다음과 같다. 후보의 개수는 N이고, 주목 객체풀(105)에 저장된, 등록된 ID를 보유한 객체(이하 등록 ID 또는 등록 객체)의 개수는 L로 가정한다.

온라인추적기(104)는 먼저 공간적 특징, 시간적 특징 및 Re-ID 특징을 기반으로 유사도 기준과 비교되기 위한 스코어(score), 즉 후보와 등록 ID 간의 유사도(similarity)를 산정한다. 첫번 째 스코어는 공간적 특징에 기반하는

로서, 등록 ID의 마스크(

)와 후보의 마스크(

) 간의 IoU(Intersection over Union)를 의미한다. 여기서 IoU는 두 마스크의 교집합을 합집합으로 나눈 값이다.

두번 째 스코어는 시간적 특징에 기반하는

로서, 후보의 바운딩 박스와 등록 ID의 예측된 바운딩 박스 간의 근접도를 의미하며 수학식 1로 표현될 수 있다.

여기서,

는 정규화 인자(normalization factor)이다. 후보의 움직임을 나타내는 벡터

은, 이전 프레임과 현재 프레임에 존재하는 후보의 바운딩 박스 간의 궤적(trajectory)을 의미한다. 벡터

은 등록 ID의 바운딩 박스에 대한 동작 예측 벡터(motion prediction vector)로서, 등록 객체풀(105)에 저장되는 등록 객체에 대한 정보의 하나이다. 수학식 1에 따르면, 후보와 등록 ID 각각의 바운딩 박스의 움직임이 서로 근접할수록

는 1에 가까운 값이 된다.

세번 째 스코어는 Re-ID 특징에 기반하는

로서, 후보와 등록 ID 간의 Re-ID 특징 차이를 의미하며, 수학식 2로 표현될 수 있다.

여기서

는 정규화 인자이다.

는 등록 ID l의 Re-ID 풀(Re-ID pool)에 포함된 전체 Re-ID 특징이고,

은 후보 n의 Re-ID 특징이다. 여기서, Re-ID 풀은 등록 객체풀(105)에 저장되는 등록 객체에 대한 정보의 하나이다. 수학식 2에 따르면, 등록 ID l의 모든 Re-ID 특징 중 후보 n의 Re-ID 특징과의 차이가 가장 작은 값에 기반하여

가 산정된다.

마지막 스코어는

로서,

의 상대성을 산정하며, 수학식 3으로 표현될 수 있다.

이상에서 설명한 네 개의 스코어 각각은 0과 1 사이의 값으로 정규화되어 산정될 수 있으며, 값이 클수록 후보 n과 등록 ID l이 서로 유사하다는 것을 의미한다. 따라서, 네 개의 스코어는 수학식 4에 표현된 것처럼 가중합된다.

여기서

,

및

는 각 스코어에 대한 가중치이다. 수학식 4에 나타낸

을 이용하여, 수학식 5에 따라 최종적으로 선택된 후보

에게 온라인추적기(104)는 등록 ID l을 할당할 수 있다.

여기서

는 기 설정된 기준이다. 등록된 ID가 할당된 후보가 실체분할부(101)에서 추론된 실체 분할에 대한 최종적인 객체 분할 결과에 해당하므로, 온라인추적기(104)는 객체 분할 결과를 출력부로 전달한다.

온라인추적기(104)는 선택된 후보의 특징을 이용하여 등록 ID l의 파라미터를 업데이트할 수 있다. 즉, 후보의 마스크를 등록 ID l에 부착하여 저장함으로써 다음 프레임에 마스크를 전파할 때 이용할 수 있다. 또한

을 등록 ID l의 Re-ID 풀에 추가한다. 온라인추적기(104)는

을 이용하여

을 업데이트, 즉 예측함으로써 다음 프레임 처리 과정에서 사용할 수 있다.

복수의 후보에 대한 ID를 할당하는 경우, 온라인추적기(104)는 ID가 할당된 후보 및 해당되는 등록 ID 객체를 제외한 후, 다음 후보에 대한 ID 할당 과정을 진행할 수 있다.

한편, 후보가 기 설정된 유사도 기준을 만족하지 못하는 경우, 온라인추적기(104)는 후보의 주목도가 기 설정된 임계치(threshold)를 만족하는지 여부를 판단한다.

후보의 주목도로는, 추론된 실체가 전파된 후보인 경우, 실체분할부(101)에서 추론된 주목도가 이용되고, 직전 프레임으로부터 전파된 후보인 경우, 등록 객체풀(105)에 저장된 주목도가 이용될 수 있다.

후보의 주목도가 기 설정된 임계치보다 작은 경우, 해당 후보는 무시된다. 반면, 후보의 주목도가 기 설정된 임계치 이상인 경우, 온라인추적기(104)는 주목도에 기반하여 등록 객체풀(105)에 저장되는 등록 객체의 개수가 K(K는 자연수) 개를 넘지 않도록 유지한다. 즉, 등록 객체의 개수가 K 개보다 작은 경우, 후보에게 신규 ID가 부여된다. 등록 객체의 개수가 이미 K 개인 경우, 후보의 주목도가 등록 객체가 보유한 주목도 중 가장 작은 주목도와 비교된다. 후보의 주목도가 가장 작은 주목도 이하이면 후보는 무시된다. 반면 후보의 주목도가 가장 작은 주목도보다 크면, 후보에게 신규 ID가 부여된다. 또한 가장 작은 주목도를 가진 등록 객체는 등록이 취소되고, 등록 객체풀(105) 내에서 삭제된다.

첫째 비디오 프레임인 경우, 주목도가 기 설정된 임계치 이상인 후보에 대하여, 주목도가 큰 순서대로 최대 K 개까지 신규 ID가 부여될 수 있다.

온라인추적기(104)는 신규 ID가 부여된 후보를 등록 객체로 등록하고 등록 객체풀(105)에 저장한다. 신규 ID가 부여된 후보 또한 실체분할부(101)에서 추론된 실체 분할에 대한 최종적인 객체 분할 결과이므로, 온라인추적기(104)는 객체 분할 결과를 출력부로 전달한다.

본 실시예에 따른 등록 객체풀(105)은 주목도 기준을 만족하는 객체를 최대 K 개까지 저장한다. 등록 객체풀(105)에는 각 등록 객체에 대한 마스크, 바운딩 박스, Re-ID 풀, 동작 예측 벡터 및 주목도 등의 정보가 저장되나, 반드시 이에 한정되는 것은 아니며, 객체 분할에 이용 가능한 어느 정보든 추가로 저장될 수 있다.

도 1의 도시는 본 실시예에 따른 예시적인 구성이며, 분할 모델, 마스크전파 모델, Re-ID 추론 모델의 구조 및 온라인추적기(104)가 수행하는 결정 방법의 구현 등에 따라 다른 구성요소 또는 구성요소 간의 다른 연결을 포함하는 구현이 가능하다.

본 실시예에 따른 UVOS 장치(100)가 탑재되는 디바이스(미도시)는 프로그램 가능 컴퓨터일 수 있으며, 서버(미도시)와 연결이 가능한 적어도 한 개의 통신 인터페이스를 포함한다.

본 실시예에 따른 UVOS 장치(100) 내에 포함되는 딥러닝 기반 신경회로망에 대한 트레이닝은 서버에서 진행될 수 있다. 디바이스 상에 탑재된 UVOS 장치(100) 의 분할 모델, 마스크전파 모델 및 Re-ID 추론 모델과 동일한 구조의 딥러닝 모델에 대하여 서버의 트레이닝부(미도시)는 트레이닝을 수행할 수 있다. 디바이스와 연결되는 통신 인터페이스를 이용하여 서버는 트레이닝된 파라미터를 디바이스로 전달하고, 전달받은 파라미터를 이용하여 UVOS 장치(100)는 분할 모델, 마스크전파 모델 및 Re-ID 추론 모델의 파라미터를 업데이트할 수 있다. 또한 디바이스 출하 시점 또는 UVOS 장치(100)가 디바이스에 탑재되는 시점에, 분할 모델, 마스크전파 모델 및 Re-ID 추론 모델의 파라미터가 설정될 수 있다.

본 발명의 다른 실시예에 있어서, UVOS 장치(100)는 서버 또는 서버에 준하는 연산 능력을 보유하는 프로그램 가능 시스템에 탑재될 수 있다. 서버는 비디오 프레임을 제공할 수 있는 복수의 디바이스(예컨대 비디오를 제공할 수 있는 각종 촬영 디바이스, 저장 디바이스 등)로부터 유선 또는 무선 전송방식을 이용하여 비디오 프레임을 획득하는 것으로 가정한다.

도 5는 본 발명의 일 실시예에 따른 비지도 비디오 객체 분할 방법에 대한 순서도이다.

본 실시예에 따른 UVOS 장치(100)는 현재 비디오 프레임을 기반으로 적어도 하나의 실체 분할 및 해당되는 주목도를 추론한다(S601). UVOS 장치(100)는 입력된 현재 비디오 프레임을 딥러닝(deep learning) 기반의 분할 모델(segmentation model)에 적용하여 각 실체에 대한 분할 및 주목도를 추론한다. 여기서, 실체라는 표현이 사용되는 이유는, 분할된 대상이 아직 객체로 확정되지 않았다는 의미이다.

본 실시예에 따른 분할 모델은 딥러닝 기반의 2단 검출 방식에 기반하는 신경회로망으로 구현되며, 복수의 실체 각각에 대한 바운딩 박스, 마스크, ID 및 주목도를 추론하는 것이 가능하도록 사전에 트레이닝된 것이다.

주목도는 특정 실체가 프레임 내에서 차지하는 중요도를 표시하며, 분할 모델은 각 실체에 대하여 비정형의 주목도를 추론할 수 있다.

UVOS 장치(100)는 직전 프레임으로부터 획득된 마스크를 현재 비디오 프레임에 전파하여 마스크 후보를 생성한다(S602). 프레임 내의 동작 블러(motion blur) 및 다른 실체에 의한 가려짐(occlusion) 등에 대처하기 위하여, UVOS 장치(100)는 직전 프레임으로부터 획득된 마스크를 딥러닝 기반의 전파 모델(propagation model)에 적용하여 마스크 후보 및 마스크 후보가 포함된 프레임을 생성할 수 있다. 여기서, 직전 프레임으로부터 획득된 마스크는, 등록 객체풀(105)에 저장된 마스크로서, UVOS 장치(100)가 직전 프레임까지 보관했던 등록 객체(registered objects)에 대한 마스크를 의미한다.

마스크 후보는 이전에 추론된(S601 단계) 실체가 전파된 마스크 및 직전 프레임으로부터 전파된 마스크를 포함할 수 있다.

전파 모델은, 2 개의 인코더를 이용하는 딥러닝 기반의 신경회로망으로서 사전에 트레이닝된 것이다.

UVOS 장치(100)는 마스크 후보를 기반으로 Re-ID 특징을 추론한다(S603). UVOS 장치(100)는 마스크 후보 및 마스크 후보가 포함된 프레임을 딥러닝 기반의 Re-ID 추론 모델(inference model)에 입력하여 후보에 대한 Re-ID 특징을 추론한다.

Re-ID 추론 모델은 RPN 및 인식망(identification network)을 이용하는 딥러닝 기반의 신경회로망으로서 사전에 트레이닝된 것이다. Re-ID 추론 모델에 의하여 추론되는 Re-ID 특징은, 마스크 후보 인식을 위한 특징이 임베딩 벡터(embedding vector)로 표현된 것이다.

UVOS 장치(100)는 마스크 후보 및 등록 객체 간의 유사도에 대한 스코어를 산정하고(S604), 스코어가 기 설정된 유사도 기준을 만족하는지를 확인한다(S605).

UVOS 장치(100)는 마스크 후보와 등록 객체의 공간적 특징, 시간적 특징 및 Re-ID 특징을 기반으로 유사도(similarity)에 대한 스코어를 산정한다.

스코어가 기 설정된 유사도 기준을 만족하는 경우, UVOS 장치(100)는 해당되는 등록 객체의 ID를 마스크 후보에게 할당하고, 해당되는 등록 객체에 대한 파라미터를 업데이트한다(S606). 등록된 ID가 할당된 후보는 이전에 추론된(S501 단계) 실체 분할에 대한 최종적인 객체 분할 결과에 해당한다.

등록 객체에 대한 파라미터는 등록 객체풀(105)에 저장되며, 등록 객체에 대한 공간적 특징, 시간적 특징, Re-ID 풀(pool) 및 주목도의 전부 또는 일부를 포함할 수 있다.

첫째 비디오 프레임인 경우, 등록된 ID를 보유한 객체가 존재하지 않으므로, ID 할당 과정은 생략되고, 신규 객체 판별 과정이 진행될 수 있다.

스코어가 기 설정된 유사도 기준을 만족하지 않는 경우, UVOS 장치(100)는 마스크 후보의 주목도를 기 설정된 임계치과 비교한다(S607).

후보의 주목도로는, 추론된 실체가 전파된 후보인 경우, 분할 모델이 추론한 주목도(S601 단계)가 이용되고, 직전 프레임으로부터 전파된 후보인 경우, 등록 객체풀(105)에 저장된 주목도가 이용될 수 있다.

마스크 후보의 주목도가 기 설정된 임계치(threshold) 이상이면, UVOS 장치(100)는 마스크 후보를 신규 객체로 등록하고(S608), 마스크 후보의 주목도가 기 설정된 임계치보다 작으면, 해당 마스크 후보는 무시된다.

UVOS 장치(100)는 주목도에 기반하여 등록 객체풀(105)에 저장되는 등록 객체의 개수가 K(K는 자연수) 개를 넘지 않도록 유지한다. 즉, 등록 객체의 개수가 K 개보다 작은 경우, 마스크 후보는 신규 객체로 판별된다. 등록 객체의 개수가 이미 K 개인 경우, 마스크 후보의 주목도는 등록 객체가 보유한 주목도 중 가장 작은 주목도와 비교된다. 마스크 후보의 주목도가 가장 작은 주목도 이하이면 마스크 후보는 무시된다. 반면 마스크 후보의 주목도가 가장 작은 주목도보다 크면, 마스크 후보는 신규 객체로 판별된다. 또한 가장 작은 주목도를 가진 등록 객체는 등록이 취소되고, 등록 객체풀(105) 내에서 삭제된다.

첫째 비디오 프레임인 경우, 주목도가 기 설정된 임계치 이상인 마스크 후보에 대하여, 주목도가 큰 순서대로 최대 K 개까지 신규 ID가 부여될 수 있다.

신규 객체로 판별된 마스크 후보는 등록 객체풀(105)에 저장된다. 신규 객체로 판별된 마스크 후보 또한 이전에 추론된(S601 단계) 실체 분할에 대한 최종적인 객체 분할 결과이다.

이상에서 설명한 바와 같이 본 실시예에 따르면, 주목도를 기반으로 등록 객체(registered objects)를 일정한 개수 이내로 유지하는 것이 가능한 UVOS 장치를 제공함으로써 시간 및 메모리 복잡도(time and memory complexity)를 줄이는 것이 가능해지는 효과가 있다.

본 실시예에 따른 각 순서도에서는 각각의 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 반드시 이에 한정되는 것은 아니다. 다시 말해, 순서도에 기재된 과정을 변경하여 실행하거나 하나 이상의 과정을 병렬적으로 실행하는 것이 적용 가능할 것이므로, 순서도는 시계열적인 순서로 한정되는 것은 아니다.

본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍가능 시스템 상에서 실행가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령들을 수신하고 이들에게 데이터 및 명령들을 전송하도록 결합되는 적어도 하나의 프로그래밍가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터가 읽을 수 있는　기록매체"에 저장된다.

컴퓨터가 읽을 수 있는　기록매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는　기록매체는 ROM, CD-ROM, 자기 테이프, 플로피디스크, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성(non-volatile) 또는 비일시적인(non-transitory) 매체일 수 있으며, 또한 캐리어 웨이브(예를 들어, 인터넷을 통한 전송) 및 데이터 전송 매체(data transmission medium)와 같은 일시적인(transitory) 매체를 더 포함할 수도 있다. 또한 컴퓨터가 읽을 수 있는　기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.

본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 프로그램가능 컴퓨터에 의하여 구현될 수 있다. 여기서, 컴퓨터는 프로그램가능 프로세서, 데이터 저장 시스템(휘발성 메모리, 비휘발성 메모리, 또는 다른 종류의 저장 시스템이거나 이들의 조합을 포함함) 및 적어도 한 개의 커뮤니케이션 인터페이스를 포함한다. 예컨대, 프로그램가능 컴퓨터는 서버, 네트워크 기기, 셋탑 박스, 내장형 장치, 컴퓨터 확장 모듈, 개인용 컴퓨터, 랩탑, PDA(Personal Data Assistant), 클라우드 컴퓨팅 시스템 또는 모바일 장치 중 하나일 수 있다.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

100: 비지도 비디오 객체 분할 장치
101: 실체분할부 102: 마스크전파부
103: 특징추출부 104: 온라인추적기
105: 등록 객체풀

Claims

현재 프레임을 기반으로 적어도 하나의 실체(instances) 분할(segmentation) 및 주목도(saliency)를 추론하는 실체분할부;
상기 실체에 대한 마스크(masks)를 기반으로 직전 프레임으로부터 획득된 마스크를 상기 프레임에 전파(propagation)하여 마스크 후보(mask candidates)를 생성하는 마스크전파부;
상기 마스크 후보를 기반으로 Re-ID(Re-Identification) 특징을 추론하는 특징추출부;
상기 Re-ID 특징을 기반으로 상기 마스크 후보가 등록 객체(registered objects)인지를 판별함으로써 객체 분할을 수행하는 온라인추적기; 및
상기 등록 객체를 저장하는 등록 객체풀
을 포함하되,
상기 온라인추적기는,
상기 주목도에 기반하여 상기 등록 객체풀에 저장되는 등록 객체를 기 설정된 개수 이내로 유지하는 것을 특징으로 하는 비지도 비디오 객체 분할(UVOS: Unsupervised Video Object Segmentation)장치.
삭제
제1항에 있어서,
상기 등록 객체풀은,
상기 등록 객체에 대한 파라미터로서 상기 등록 객체에 대한 공간적 특징, 시간적 특징, Re-ID 풀(pool) 및 상기 주목도를 저장하는 것을 특징으로 하는 비지도 비디오 객체 분할장치.
제1항에 있어서,
상기 실체분할부는,
상기 현재 프레임을 분할 모델(segmentation model)에 입력하여 실체 분할 및 주목도를 추론하되, 상기 분할 모델은 2단 검출(two-stage detection) 방식을 이용하는 딥러닝(deep-learning) 기반의 모델로 구현되고, 사전에 트레이닝되는 것을 특징으로 하는 비지도 비디오 객체 분할장치.
제1항에 있어서,
상기 마스크 후보는,
상기 마스크전파부에 의하여 상기 실체로부터 전파된 마스크 및 상기 직전 프레임으로부터 전파된 마스크를 포함하는 것을 특징으로 하는 비지도 비디오 객체 분할장치.
제3항에 있어서,
상기 온라인추적기는,
상기 공간적 특징, 상기 시간적 특징 및/또는 상기 Re-ID 특징을 기반으로 상기 마스크 후보 및 상기 등록 객체 간의 유사도(similarity)에 대한 스코어(scores)를 산정하고, 상기 스코어를 이용하여 상기 마스크 후보가 기 설정된 기준(criterion)을 만족하는지를 판단하는 것을 특징으로 하는 비지도 비디오 객체 분할장치.
제6항에 있어서,
상기 온라인추적기는,
상기 마스크 후보가 상기 기준을 만족하는 경우, 해당되는 등록 객체의 ID(Identification)를 상기 마스크 후보에게 할당하고, 상기 마스크 후보를 기반으로 상기 등록 객체풀에 저장된, 상기 해당되는 등록 객체에 대한 파라미터를 업데이트하는 것을 특징으로 하는 비지도 비디오 객체 분할장치.
제1항에 있어서,
상기 온라인추적기는,
상기 프레임이 첫째 프레임인 경우 또는 상기 마스크 후보가 상기 등록 객체에 해당되지 않는 경우, 상기 주목도에 기반하여 상기 마스크 후보를 신규 객체(new objects)로 판별하고, 상기 신규 객체를 상기 등록 객체풀에 상기 등록 객체로서 추가하여 저장하되, 상기 주목도의 크기가 큰 순서대로 상기 신규 객체 및 상기 등록 객체를 나열한 후, 상기 기 설정된 개수 이내에서 상기 순서가 앞서는 신규 객체 및 등록 객체를 상기 등록 객체풀에 저장하는 것을 특징으로 하는 비지도 비디오 객체 분할장치.
비지도 비디오 객체 분할장치의 객체 분할방법에 있어서,
사전에 트레이닝된 딥러닝 기반 분할 모델(segmentation model)에 현재 프레임을 입력하여 적어도 하나의 실체(instances) 분할(segmentation) 및 주목도(saliency)를 추론하는 과정;
상기 실체에 대한 마스크(masks)를 기반으로 직전 프레임으로부터 획득된 마스크를 상기 프레임에 전파(propagation)하여 마스크 후보(mask candidates)를 생성하는 과정;
상기 마스크 후보를 기반으로 Re-ID(Re-Identification) 특징을 추론하는 과정;
상기 Re-ID 특징을 기반으로 상기 마스크 후보가 등록 객체(registered objects)인지를 판별함으로써 객체 분할을 수행하는 과정
상기 주목도에 기반하여 상기 마스크 후보를 신규 객체로 판별하는 과정; 및
상기 신규 객체를 상기 등록 객체로서 추가하여 등록 객체풀에 저장하는 과정
을 포함하되,
상기 등록 객체풀에 저장하는 과정은,
상기 등록 객체풀에 저장되는 등록 객체를 기 설정된 개수 이내로 유지하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 비지도 비디오 객체 분할방법.
삭제
제9항에 있어서,
상기 판별하는 과정은,
상기 프레임이 첫째 프레임인 경우 또는 상기 마스크 후보가 상기 등록 객체에 해당되지 않는 경우에, 수행되는 것을 특징으로 하는, 컴퓨터 상에 구현되는 비지도 비디오 객체 분할방법.
제9항에 있어서,
상기 객체 분할을 수행하는 과정은,
시간적 특징, 공간적 특징 및 상기 Re-ID 특징을 기반으로 상기 마스크 후보가 기 설정된 기준(criterion)을 만족하는지를 판단하여, 상기 마스크 후보가 기 설정된 기준을 만족하는 경우, 해당되는 등록 객체의 ID(Identification)를 상기 마스크 후보에게 할당하고, 상기 마스크 후보를 기반으로 상기 등록 객체풀에 저장된, 상기 해당되는 등록 객체에 대한 파라미터를 업데이트하는 것을 특징으로 하는, 컴퓨터 상에 구현되는 비지도 비디오 객체 분할방법.
제9항, 제11항 또는 제12항 중 어느 한 항에 따른 비지도 비디오 객체 분할방법이 포함하는 각 단계를 실행시키기 위하여 컴퓨터로 읽을 수 있는, 기록매체에 저장된 컴퓨터프로그램.