KR20190130423A

KR20190130423A - 동영상 내 작은 물체를 실시간으로 세분화하는 방법 및 장치

Info

Publication number: KR20190130423A
Application number: KR1020180055117A
Authority: KR
Inventors: 김광용; 박상준; 엄기문; 이창은
Original assignee: 한국전자통신연구원
Priority date: 2018-05-14
Filing date: 2018-05-14
Publication date: 2019-11-22
Also published as: US10825185B2; KR102565849B1; US20190347804A1

Abstract

본 발명은 영상에서 물체를 세분화(object segmentation)하는 방법 및 장치에 대한 것으로 보다 상세하게는 입력 받은 영상의 화면이 두 개 이상으로 분할되고, 이를 결합하여 하나의 영상을 생성하되 분할된 영상 각각에 영상 세분화(Segmentation) 알고리즘을 적용하는 것을 포함한다.

Description

동영상 내 작은 물체를 실시간으로 세분화하는 방법 및 장치{A method and Apparatus for segmentation small objects of moving pictures in real-time}

본 발명은 동영상 내 물체 세분화(object segmentation)에 관한 기술 분야로서, 동영상 내 작은 물체들을 실시간으로 세분화하는 방법에 관한 것이다.

정지 영상 또는 동영상에서 전경 내 존재하는 물체(예: 인물, 자동차, 동물 등)의 경계선(boundary) 내부를 세분화하는 기술로서 물체 세분화(object segmentation) 또는 시멘틱 세분화(Segmentation) 기술에 해당한다.

Convolutional Neural Network (CNN)에 기반한 이미지 세분화 알고리즘은 의미 영역을 세분화 할 때 큰 성공을 보여 주며, 특히, 완전 컨볼루션 네트워크 (FCN:Fully Convolutional Network)는 기존의 CNN 기반 분류 아키텍처를 세분화 아키텍처로 수정하여 시멘틱 세분화 문제에 우수한 세분화 능력을 보인다.

그러나 FCN은 기본적으로 선형 보간 방법을 통해 픽셀 단위의 레이블 맵을 만들기 때문에 거친 세분화화 결과를 생성하므로 작은 물체를 세분화하기가 어렵다.

그래서 물체 경계에 대해 국부적인 세부 사항을 보존하는 세밀한 세분화 결과를 얻어내려면 CRF(Conditional Random Field) 알고리즘을 사후 보정을 위해 추가 사용해야 한다. 이때 사용되는 많은 하이퍼 매개 변수를 사용해야 하는데 세밀한 세분화화 결과를 얻으려면 이러한 매개 변수를 신중하게 수작업으로 수행해야 하는 단점이 있다.

또한 사후 처리는 높은 계산 비용을 필요로 하며 예로 해상도 500 Х 500 이미지 내의 물체를 세분화하는 데 0.5초 정도가 걸릴 정도로 세분화 처리 속도가 느리다.

거친 세분화화 문제를 해결하고자 디컨벌루션(Deconvolution) 네트워크를 사용하는 방법이 제안되었으나 네트워크 구조가 여러 개의 레이어와 매개 변수로 구성되어 학습 속도가 너무 느리다는 단점이 있다.

이와 같이 종래의 물체 세분화 및 시멘틱 세분화 기술은 작은 물체에 대해서 세밀히 세분화하기가 어렵고 네트워크 레이어가 너무 깊고 많아서 학습 속도가 너무 느리며 동영상 내 전경 속의 물체를 세밀하게 세분화하면서 실시간으로 처리하기가 어렵다.

이와 같은 문제를 해결하기 위해 동영상 내 전경 속의 작은 물체를 세분화하면서 연속으로 재생되는 동영상 프레임들에서 물체들을 실시간으로 세분화하기 위한 방법을 제안한다.

본 발명은 물체를 세밀하게 세분화 처리하는 방법 및 장치를 제공하는데 목적이 있다.

본 발명은 동영상 내 전경 속의 물체를 실시간으로 영상 세분화 처리하는 방법 및 장치를 제공하는데 목적이 있다.

본 발명은 작은 물체에 대해 영상 세분화 처리하는 방법 및 장치를 제공하는데 목적이 있다.

본 발명은 빠른 속도로 영상 세분화를 처리하는 방법 및 장치를 제공하는데 목적이 있다.

본 발명은 효율적으로 영상 세분화를 처리하는 방법 및 장치를 제공하는데 목적이 있다.

본 발명은 효율적으로 객체를 검출하는 방법 및 장치를 제공하는데 목적이 있다.

본 발명은 효율적으로 객체를 인식하는 방법 및 장치를 제공하는데 목적이 있다.

본 발명은 효율적으로 객체를 추적하는 방법 및 장치를 제공하는데 목적이 있다.

본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일 실시예에 따라, 영상에서 물체를 세분화(object segmentation)하는 방법을 제공할 수 있다. 이 때 영상에서 물체를 세분화하는 방법은 영상을 입력 받는 단계, 입력 받은 영상의 화면이 두 개 이상으로 분할되는 단계, 두 개 이상으로 분할된 영상 각각을 결합하여 다시 하나의 영상으로 생성하는 단계를 포함한다.

이 때 화면이 분할된 영상들은 화면 간 일부 중첩된 부분이 있도록 분할되며, 분할된 영상 각각에 영상 세분화(Segmentation) 알고리즘을 적용하고, 세분화 알고리즘이 적용된 분할 영상들을 결합하여 입력 받은 영상과 동일한 크기의 영상을 생성할 수 있다.

또한, 다음의 실시예들은 영상에서 물체를 세분화(object segmentation)하는 방법 및 장치에서 공통으로 적용될 수 있다.

본 발명의 일 실시예에 따라, 입력 받은 영상의 제 1 프레임 및 제 2 프레임에서 제 1 프레임은 제 2 프레임보다 시간상으로 우선하는 프레임이 될 수 있다. 이 때 제 1 프레임 및 제 2 프레임 각각에 포함된 제 1 오브젝트를 파악하고, 제 1 프레임 및 제 2 프레임 각각에 포함된 제 1 오브젝트 간의 교차범위가 계산될 수 있다.

본 발명의 일 실시예에 따라, 제 1 프레임은 세분화 알고리즘이 적용된 분할 영상들을 결합하여 생성된 영상이고, 제 2 프레임은 입력 받은 영상이 될 수 있다.

본 발명의 일 실시예에 따라, 입력 받은 영상의 제 1 프레임 및 제 2 프레임은 시간상 입력 받은 영상의 연속되는 두 프레임이 될 수 있다.

본 발명의 일 실시예에 따라, 픽셀 단위의 데이터 연관 (Data association) 매칭으로 제 1 프레임 및 제 2 프레임 각각에 포함된 제 1 오브젝트 간의 교차범위를 판단할 수 있다.

본 발명의 일 실시예에 따라, 계산된 제 1 오브젝트 간의 교차 범위가 제 1 임계치 이상인 경우 제 2 프레임의 제 1 오브젝트를 전경 영역으로 판단할 수 있다. 또한 계산된 제 1 오브젝트 간의 교차 범위가 제 1 임계치 보다 작은 경우, 제 2 프레임의 제 1 오브젝트를 전경 영역에서 삭제할 수 있다.

본 발명의 일 실시예에 따라, 영상 세분화 알고리즘은 완전 컨볼루션 네트워크(Fully Convolutional Network)가 될 수 있다

본 발명의 일 실시예에 따라, 분할된 영상 각각에 영상 세분화(Segmentation) 알고리즘을 적용하는 경우, 데이터 셋(Data Set)으로 미세조정(Fine-tuning)을 학습할 수 있다.

본 발명의 일 실시예에 따라, 데이터 셋은 학습용 영상과 기준 목표 영상(Ground Truth)으로 구성되어 있으며, 기준 목표 영상은 학습용 영상의 전경 영역과 배경 영역이 흑백으로 분리되어 표현된 영상이 될 수 있다.

본 발명의 일 실시예에 따라, 데이터 셋을 이용한 선행학습(Pre-training)을 통해 완전 컨볼루션 네트워크(Fully Convolutional Network)를 학습할 수 있다.

본 발명의 일 실시예에 따라, 영상에서 물체를 세분화(object segmentation)하는 장치를 제공할 수 있다. 영상에서 물체를 세분화하는 장치는 영상 입력부 및 영상 입력부를 제어하는 제어부를 포함할 수 있다.

이 때 제어부는 영상을 입력 받고, 입력 받은 영상의 화면을 두 개 이상으로 분할하고, 두 개 이상으로 분할된 영상 각각을 결합하여 다시 하나의 영상으로 생성할 수 있다.

본 발명의 일 실시예에 따라, 화면이 분할된 영상들은 화면 간 일부 중첩된 부분이 있도록 분할되며, 분할된 영상 각각에 영상 세분화(Segmentation) 알고리즘을 적용하고, 세분화 알고리즘이 적용된 분할 영상들을 결합하여 입력 받은 영상과 동일한 크기의 영상을 생성할 수 있다.

본 발명에 의하면 물체를 세밀하게 세분화 처리하는 방법 및 장치를 제공할 수 있다.

본 발명에 의하면 동영상 내 전경 속의 물체를 실시간으로 영상 세분화 처리하는 방법 및 장치를 제공할 수 있다.

본 발명에 의하면 작은 물체에 대해 영상 세분화 처리하는 방법 및 장치를 제공할 수 있다.

본 발명에 의하면 빠른 속도로 영상 세분화를 처리하는 방법 및 장치를 제공할 수 있다.

본 발명에 의하면 효율적으로 영상 세분화를 처리하는 방법 및 장치를 제공할 수 있다.

본 발명에 의하면 효율적으로 객체를 검출하는 방법 및 장치를 제공할 수 있다.

본 발명에 의하면 효율적으로 객체를 인식하는 방법 및 장치를 제공할 수 있다.

본 발명에 의하면 효율적으로 객체를 추적하는 방법 및 장치를 제공할 수 있다.

본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

도 1은 영상에서 물체를 세분화(object segmentation)하는 방법에 대한 흐름도이다.
도 2는 입력 받은 영상의 화면이 분할된 영상을 나타낸 도면이다.
도 3은 분할된 화면에 세분화 알고리즘을 적용한 결과를 나타내는 도면이다.
도 4는 분할된 영상이 하나로 결합된 결과를 나타내는 도면이다.
도 5는 학습용 데이터 셋(Set)의 구성을 나타낸 도면이다.
도 6은 영상 세분화를 적용하여 전경 영역과 배경 영역으로 분리하는 과정을 나타낸 흐름도이다.
도 7은 ILSVRC 학습 데이터 셋을 이용한 FCN 학습에 대한 도면이다.
도 8은 Pre-training을 통한 파라미터 초기화에 대한 도면이다.
도 9는 학습용 데이터 셋을 이용한 Fine-tuning을 나타내는 도면이다.
도 10은 전경 영역의 검출 및 오류 보정에 관한 흐름도이다.
도 11은 전경 영역 검출 및 오류 보정에 대한 도면이다.
도 12는 전경 영역 추적 방법에 대한 도면이다.
도 13은 영상에서 물체를 세분화(object segmentation)하는 장치에 대한 도면이다.

이하에서는 첨부한 도면을 참고로 하여 본 발명의 실시 예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.

본 발명의 실시 예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 발명에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

본 발명에 있어서, 어떤 구성요소가 다른 구성요소와 "연결", "결합" 또는 "접속"되어 있다고 할 때, 이는 직접적인 연결관계뿐만 아니라, 그 중간에 또 다른 구성요소가 존재하는 간접적인 연결관계도 포함할 수 있다. 또한 어떤 구성요소가 다른 구성요소를 "포함한다" 또는 "가진다"고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 배제하는 것이 아니라 또 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

본 발명에 있어서, 제1, 제2 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용되며, 특별히 언급되지 않는 한 구성요소들간의 순서 또는 중요도 등을 한정하지 않는다. 따라서, 본 발명의 범위 내에서 일 실시 예에서의 제1 구성요소는 다른 실시 예에서 제2 구성요소라고 칭할 수도 있고, 마찬가지로 일 실시 예에서의 제2 구성요소를 다른 실시 예에서 제1 구성요소라고 칭할 수도 있다.

본 발명에 있어서, 다양한 실시 예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들은 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시 예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시예도 본 발명의 범위에 포함된다. 또한, 다양한 실시 예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시 예도 본 발명의 범위에 포함된다.

본 발명은 동영상 내 물체 세분화(object segmentation)에 관한 기술 분야로서, 동영상 내 작은 물체들을 실시간으로 세분화하는 방법에 관한 것이다. 보다 상세하게는 종래의 물체 세분화(Segmentation) 및 시멘틱 세분화 기술은 다수의 작은 물체에 대해서 세밀히 세분화하기가 어렵고 네트워크 레이어가 너무 깊고 많아서 학습 속도가 너무 느리며 동영상 내 전경 속의 물체를 세밀하게 세분화하면서 실시간으로 처리하기가 어렵기 때문에 이와 같은 문제를 해결하기 위해 전경 내 다수의 작은 물체를 세밀히 세분화하고 연속 재생되는 동영상 프레임 내의 작은 물체들을 실시간으로 세분화하기 위한 방법을 제안하고자 함이다.

이하, 첨부한 도면을 참조하여 본 발명의 실시 예들에 대해서 설명한다.

도 1은 영상에서 물체를 세분화(object segmentation)하는 방법에 대한 흐름도이다.

도 1을 참고하면, 물체를 세분화하는 장치는 영상을 입력 받고(S110), 입력 받은 영상의 화면을 분할(S120) 한다. 분할된 영상 각각에 세분화 알고리즘을 적용(S130)하고, 분할된 영상은 하나의 영상으로 결합(S140)된다. 결합된 영상에서 전경 영역은 검출 및 추적(S150)된다. 결합된 영상에서 전경 영역에 대한 오류 판정 및 보정(S160)이 수행된다. 영상이 종료되면 절차를 종료하나, 영상이 진행되는 경우 영상을 결합하는 단계(S140)로 돌아가 물체를 세분화하는 과정을 반복(S170)한다.

도 2는 입력 받은 영상의 화면이 분할된 영상을 나타낸 도면이다. 분할된 영상에 세분화 알고리즘을 적용하기 위해, 입력 영상(210)을 분할한다.

이 때, 입력 이미지(210)의 해상도 및 입력 이미지내의 전경 영역은 일정 크기에 해당되어야 한다. 보다 상세하게는, 입력 영상(210)의 해상도가 큰 경우, 예를 들어 1920 X 1080 이미지인 경우는 세분화 결과가 불량으로 도출될 수 있다. 또한 입력 이미지(210) 내 물체의 크기가 작은 경우에도 세분화하고자 하는 물체의 크기가 작아져서 물체 영역 세분화 결과가 불량이 될 수 있다.

입력 받은 영상이 분할(220)될 때, 영상은 일부 영역이 중첩되도록 분할될 수 있다. 분할된 화면의 개수는 사용자가 지정할 수 있으며, 2보다 같거나 큰 값이 될 수 있다.

도 2를 참고할 때, 입력 받은 아이스 하키 경기영상(210)은 4개의 작은 영상(220)으로 분리되었다.

도 3은 분할된 화면에 세분화 알고리즘을 적용한 결과를 나타내는 도면이다.

세분화하고자 하는 입력 영상(310)은 다수 개의 작은 크기 영상(320)으로 분할된다. 그 후 작은 크기의 영상들을 일부 중첩한 후 중첩된 작은 영상들 단위 각각에 영상 세분화(Segmentation) 알고리즘을 적용한다. 일 실시예에 따른 영상 세분화 알고리즘은 완전 컨볼루션 네트워크(FCN, Fully Convolutional Network)가 될 수 있고, Convolutional Neural network도 될 수 있다. 이 때, FCN 기반 세분화(Segmentation) 알고리즘은 정확성과 빠른 수행 속도를 가진바 본 발명에서 영상 세분화(Segmentation) 알고리즘으로 사용될 수 있다. 영상 세분화 알고리즘, 특히 FCN을 적용하여 전경 물체 영역을 세분화한 영상(330)을 생성할 수 있다.

이 때, 입력 영상이 여러 개의 사이즈가 작은 영상으로 분할되고, 이때 분할된 영상들 간 중첩(overlap)이 발생하도록 하였으므로, 전경 물체 영역은 세밀하게 세분화가 가능하다.

도 4는 분할된 영상이 하나로 결합된 결과를 나타내는 도면이다.

분할된 영상(410)이 하나의 결합된 영상으로 통합(420)된다. 이때, 분할된 영상(410)은 도 2 및 3의 과정을 통해 FCN이 적용되어 물체가 세분화된 영상에 해당된다.

이 때 하나의 결합된 영상으로 통합(420)된 영상은 입력 받은 영상, 즉 원본 영상과 동일한 크기의 영상일 수 있다.

이 때, 원본 영상을 사용하는 대신 작은 영상의 크기를 조정하기 때문에 크기가 조정된 작은 영상 내의 물체 영역의 크기가 원본 영상 내의 물체 영역 크기보다 크다. 보다 상세하게는, 분할된 작은 영상 내에서 전경 물체가 차지하고 있는 비율이 원본 영상 내 에서 전경 물체가 차지하고 있는 비율보다 크다. 따라서, 입력 받은 영상(원본)에 바로 FCN을 적용하여 전경 물체를 세분화하는 것이 아닌바, 세밀한 전경 물체 세분화가 가능하다.

도 5는 학습용 데이터 셋(Set)의 구성을 나타낸 도면이다.

학습용 데이터 셋(Set)(510)은 학습용 영상(520)과 기준 목표 영상(Ground Truth)(530)의 데이터가 쌍으로 구성되어 있다. 학습용 데이터 셋(Set)(510)을 이용하여 FCN 미세 조정(Fine- tuning)을 학습할 수 있다.

학습용 영상(520)은 정지 영상일 수도 있으나, 연속적인 이미지 프레임일 수도 있다.

기준 목표 영상(530)은 학습용 영상(520)이 배경 영역(532)과 전경 영역(534)으로 구분된 영상일 수 있다. 이 때, 기준 목표 영상(530)은 전경 영역(534)과 배경 영역(532)이 구분되어 흑백으로 처리된 영상에 해당될 수 있다.

학습용 데이터 셋(510)은 FCN을 학습하기 위해서 수만 개의 셋(Set)이 필요하다. 다만, 학습용 데이터 셋(510)이 수만 개의 셋으로 구비되는 것은 현실적으로 불가능하므로 Pre-training(선행 학습)을 통해 FCN을 학습할 수 있다. 이 때, 일 실시 예에 따라 학습 데이터 셋(510)은 총 6천장이 될 수 있고, 학습 데이터 셋(510)을 사용하여 FCN을 미세 조정(Fine- tuning) 학습할 수 있다.

본 발명의 일 실시예에 따라, 학습용 데이터 셋(510)은 ILSVRC 등을 이용하여 사용될 수 있다.

도 5를 참고하면, 학습용 영상(510)은 아이스 하키 경기 영상이고, 기준 목표 영상(Ground Truth)은 학습용 아이스 하키 경기 영상을 배경과 전경 영역(아이스하키 선수 영역)으로 분리하여 흑백으로 처리한 영상에 해당된다.

도 6는 영상 세분화를 적용하여 전경 영역과 배경 영역으로 분리하는 과정을 나타낸 흐름도이다.

도 7은 ILSVRC 학습 데이터 셋을 이용한 FCN 학습에 대한 도면이고, 도 8는 Pre-training을 통한 파라미터 초기화에 대한 도면이고, 도 9은 학습용 데이터 셋을 이용한 Fine-tuning을 나타내는 도면이다.

도 6는 도 1의 '분할된 영상 각각에 세분화 알고리즘 적용'(S130) 및 도 3의 분할된 영상(320)을 FCN이 적용된 영상(330)으로 변환하는 과정에 대한 구체적인 설명에 해당한다.

학습용 데이터 셋이 생성(S610)되고, 입력 받은 영상이 분할(S620, S630)된다. 도 7은 해당 과정과 관련된 결과 화면을 나타내며, 구체적으로는 ILSVRC 학습 데이터 셋을 이용한 FCN 학습에 대한 도면에 해당된다.

학습용 데이터 셋을 이용하여 입력 받은 영상에 대해 선행학습(Pre-training)(S640)을 하고, Pre-training을 통해 파라미터가 초기화 (S650)된다. 도 8은 해당 과정과 관련된 결과 화면을 나타내며, 구체적으로는 Pre-training을 통한 파라미터 초기화를 나타낸 도면에 해당된다.

그 후 입력 받은 영상은 미세 조정(Fine- tuning)(S660)된다. 도 9는 해당 과정과 관련된 결과 화면을 나타내며, 학습용 데이터 셋을 이용하여 Fine-tuning된 결과물을 나타낸 도면에 해당된다.

그 후 입력 받은 영상의 전경 물체 영역 및 배경 영역이 분리된 영상을 생성(S670)한다.

도 10은 전경 영역의 검출 및 오류 보정에 관한 흐름도이다.

도 10의 과정은 도 1의 '전경 영역 검출 및 추적'(S150) 및 '전경 영역 오류 판정 및 보정'(S160)하는 단계에 대한 상세한 설명이다.

현재 프레임(이하 제 2 프레임으로 명한다.) 영상이 입력(S1010) 되고, 과거 프레임(이하 제 1 프레임으로 명한다.) 영상이 입력 된 후(S1020), 전경 물체 영역 및 배경 영역 분리(물체 세분화)(S1030)가 수행된다.

제 1 프레임 및 제 2 프레임은 입력 받은 영상의 프레임을 지칭할 수 있다. 이 때 제 1 프레임은 상기 제 2 프레임보다 시간상으로 우선하는 프레임을 의미한다. 제 1 프레임과 제 2 프레임은 시간상으로 연속하는 프레임일 수 있으나, 일정 시간의 차이가 존재하는 프레임일 수 있다.

제 1 오브젝트는 프레임상에서 추적되는 특정한 물체가 될 수 있다. 이는 전경 물체가 될 수 있다. 다만, 오류 판정 및 보정에 의해 전경 물체 또는 배경 물체로 분류될 수 있다.

제 1 임계치는 제 1 프레임과 제 2 프레임간 비교된 전경영역 교차범위에 해당되는 값으로서 사용자가 정한 임의의 수이다. 보다 상세하게는, 제 1 임계치는 사용자가 제 2 프레임에서도 해당 영역을 전경 영역으로 인정할 수 있을 정도로 제 1 프레임 및 제 2 프레임 간 전경영역이 교차되는 범위에 해당하는 값에 해당될 수 있다.

제 1 프레임 및 제 2 프레임 각각에 포함된 제 1 오브젝트를 파악(S1040)한다. 그 후 제 1 프레임 및 제 2 프레임 각각에 포함된 제 1 오브젝트 간의 교차범위를 계산(S1050)한다. 계산된 교차 범위가 제 1 임계치 이상인지 판단(S1060)한다.

도 11은 전경 영역 검출 및 오류 보정에 대한 도면이다.

전경 영역 오류를 수정하기 위해 영상 프레임간 추적 후 거짓 긍정(False positive) 기반 전경 영역 오류 판정 및 보정을 수행한다.

제 1 프레임에서 전경 물체 영역 검출결과(1110) 및 제 2 프레임에서 전경 물체 영역 검출 결과(1120)간의 비교를 통해 전경 영역 추적을 수행한다. 보다 상세하게는 매 프레임마다 전경 물체 영역이 세분화 되면 픽셀 단위의 데이터 연관(data association) 방법의 관점에서 전경 물체 영역 추적을 할 수 있다.

도 12는 전경 영역 추적 방법에 대한 도면이다.

전경 물체를 판단하기 위해 두 인접 프레임간의 전경 물체의 교차 범위를 비교한다. 즉 제 1 프레임 영상에 존재하는 전경 물체 영역(1210)과 제 2 프레임 영상에 존재하는 전경 물체 영역(1220)을 판단한다. 그리고 전경 물체의 영역 중 특정 IoU (Intersection of Union)영역(1230)을 확인한다.

이 때, IoU (Intersection of Union)영역(1230)은 제 1 프레임과 제 2 프레임간 전경영역의 교차범위에 해당될 수 있다. 보다 상세하게는, 제 1 프레임과 제 2 프레임간 전경영역 중 교차범위가 전체 전경영역 중 차지하고 있는 비율로 표현될 수 있다. 이하 청구범위에서는 제 1 프레임 및 제 2 프레임 각각에 포함된 상기 제 1 오브젝트 간의 교차범위라고 명한다.

해당 IoU(1230)와 제 1 임계치의 크기를 비교한다. IoU와 제 1 임계치의 크기를 비교하여, IoU의 크기가 제 1 임계치보다 크거나 같은 영역에 대해서만 전경 물체 영역으로 판정한다. 그렇지 않으면 False positive(거짓 긍정)으로 간주되어 최종 물체 세분화 영역 결과에서 제거하고 다음 프레임으로 추적하면서 판정 및 보정 반복 수행하게 된다.

예를 들어, 현재 프레임인 268번째 프레임(제 2 프레임)에서 아이스 하키 선수 영역으로서 잘못 세분화 된 영역을 포함하고 있는 경우, 전경 영역 추적 및 보정이 수행된다. 이전 프레임인 267번째 프레임(제 1 프레임)의 선수 영역이 배경으로 세분화 되었기 때문에 현재 프레임 268번째 영역(제 2 프레임)을 거짓 긍정으로 간주하고 이 부분을 전경 물체 영역에서 제거하게 된다.

이 때 일 실시예로, 인접한 두 프레임이 아닌 연속된 일정 프레임 시간 간격 존재하는 경우에도 적용할 수 있다. 보다 상세하게는 t 시간 프레임과 t+a 시간 프레임간의 비교를 수행할 수 있다. 이 때 a 는 일정 프레임 길이 시간이 경과한 것을 의미한다.

양 프레임의 비교를 통해 IoU(Intersection of Union) 값이 임계치보다 큰 영역으로 판정되면 전경 물체 영역으로 판단하도록 확장할 수 있다. 즉, 연속적으로 전경 물체 영역인지를 비교하여 전경 물체 영역 여부 판정 확장 가능하다.

도 13은 영상에서 물체를 세분화(object segmentation)하는 장치에 대한 도면이다.

영상에서 물체를 세분화하는 장치에는 입력부(1310)와 영상 입력부를 제어하는 제어부(1320)이 포함된다.

제어부(1320)는 영상을 입력 받고, 입력 받은 영상의 화면을 두 개 이상으로 분할하고, 두 개 이상으로 분할된 영상 각각을 결합하여 다시 하나의 영상으로 생성한다. 화면이 분할된 영상들은 화면 간 일부 중첩된 부분이 있도록 분할되며, 제어부(1320)는 분할된 영상 각각에 영상 세분화(Segmentation) 알고리즘을 적용하고, 세분화 알고리즘이 적용된 분할 영상들을 결합하여 입력 받은 영상과 동일한 크기의 영상을 생성한다.

입력 받은 영상의 제 1 프레임 및 제 2 프레임에서 제 1 프레임은 제 2 프레임보다 시간상으로 우선하는 프레임이 될 수 있다.

제어부(1320)는 제 1 프레임 및 제 2 프레임 각각에 포함된 제 1 오브젝트를 파악하고, 제 1 프레임 및 제 2 프레임 각각에 포함된 제 1 오브젝트 간의 교차범위를 계산할 수 있다.

보다 상세하게는 제어부(1320)는 픽셀 단위의 데이터 연관 (Data association) 매칭으로 제 1 프레임 및 제 2 프레임 각각에 포함된 상기 제 1 오브젝트 간의 교차범위를 판단할 수 있다.

이 때, 계산된 제 1 오브젝트 간의 교차 범위가 제 1 임계치 이상인 경우 제 2 프레임의 제 1 오브젝트를 전경 영역으로 판단할 수 있다. 또한 계산된 제 1 오브젝트 간의 교차 범위가 제 1 임계치 보다 작은 경우 제 2 프레임의 제 1 오브젝트를 전경 영역에서 삭제할 수 있다.

일 실시예로, 영상 세분화 알고리즘은 완전 컨볼루션 네트워크(Fully Convolutional Network)가 될 수 있다.

제어부(1320)는 분할된 영상 각각에 영상 세분화(Segmentation) 알고리즘을 적용하는 경우, 데이터 셋(Data Set)으로 미세조정(Fine-tuning)을 학습할 수 있다.

이 때 데이터 셋은 학습용 영상과 기준 목표 영상(Ground Truth)으로 구성되어 있으며, 기준 목표 영상은 학습용 영상의 전경 영역과 배경 영역이 흑백으로 분리되어 표현된 영상이 될 수 있다. 일 실시예로, 데이터 셋을 이용한 선행학습(Pre-training)을 통해 완전 컨볼루션 네트워크(Fully Convolutional Network)를 학습할 수 있다.

본 발명은 픽셀 단위의 data association(데이터 연관) 방법을 사용하므로 세분화 속도 측면에서 가장 효율적인 발명이 될 수 있다. 또한 시간에 따른 전경 물체 영역 추적을 통해 잘못된 전경 물체 영역을 False positive(거짓 긍정) 판정에 따라 제거하는 간단한 계산 알고리즘을 사용하기 때문에 영상 프레임내 작은 물체 영역을 실시간으로 세분화 할 수 있다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위 뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

1310: 입력부
1320: 제어부

Claims

영상에서 물체를 세분화(object segmentation)하는 방법에 있어서,
영상을 입력 받는 단계;
상기 입력 받은 영상의 화면이 두 개 이상으로 분할되는 단계; 및
상기 두 개 이상으로 분할된 영상 각각을 결합하여 다시 하나의 영상으로 생성하는 단계;
를 포함하되,
상기 화면이 분할된 영상들은 화면 간 일부 중첩된 부분이 있도록 분할되며,
상기 분할된 영상 각각에 영상 세분화(Segmentation) 알고리즘을 적용하고,
상기 세분화 알고리즘이 적용된 분할 영상들을 결합하여 상기 입력 받은 영상과 동일한 크기의 영상을 생성하는 것
을 특징으로 하는 물체를 세분화하는 방법.
제 1항에 있어서
상기 입력 받은 영상의 제 1 프레임 및 제 2 프레임에서
상기 제 1 프레임은 상기 제 2 프레임보다 시간상으로 우선하는 프레임이고,
상기 제 1 프레임 및 제 2 프레임 각각에 포함된 제 1 오브젝트를 파악하고,
상기 제 1 프레임 및 제 2 프레임 각각에 포함된 제 1 오브젝트 간의 교차범위를 계산하는 것을 특징으로 하는 물체를 세분화하는 방법.
제 2항에 있어서
상기 제 1 프레임은 상기 세분화 알고리즘이 적용된 분할 영상들을 결합하여 생성된 영상이고,
상기 제 2 프레임은 상기 입력 받은 영상인 것을 특징으로 하는 물체를 세분화하는 방법.
제 2항에 있어서
상기 입력 받은 영상의 제 1 프레임 및 제 2 프레임은 시간상 상기 입력 받은 영상의 연속되는 두 프레임인 것을 특징으로 하는 물체를 세분화하는 방법.
제 2 항에 있어서
픽셀 단위의 데이터 연관 (Data association) 매칭으로
상기 제 1 프레임 및 제 2 프레임 각각에 포함된 상기 제 1 오브젝트 간의 교차범위를 판단하는 것을 특징으로 하는 물체를 세분화하는 방법.
제 2 항에 있어서
상기 계산된 제 1 오브젝트 간의 교차 범위가 제 1 임계치 이상인 경우
상기 제 2 프레임의 상기 제 1 오브젝트를 전경 영역으로 판단하는 것을 특징으로 하는 물체를 세분화하는 방법.
제 2 항에 있어서
상기 계산된 제 1 오브젝트 간의 교차 범위가 제 1 임계치 보다 작은 경우
상기 제 2 프레임의 상기 제 1 오브젝트를 전경 영역에서 삭제하는 것을 특징으로 하는 물체를 세분화하는 방법.
제 1항에 있어서
상기 영상 세분화 알고리즘은 완전 컨볼루션 네트워크(Fully Convolutional Network)인 것을 특징으로 하는 물체를 세분화하는 방법.
제 1항에 있어서
상기 분할된 영상 각각에 영상 세분화(Segmentation) 알고리즘을 적용하는 경우,
데이터 셋(Data Set)으로 미세조정(Fine-tuning)을 학습하는 것을 특징으로 하는 물체를 세분화하는 방법.
제 9항에 있어서
상기 데이터 셋은 학습용 영상과 기준 목표 영상(Ground Truth)으로 구성되어 있으며,
상기 기준 목표 영상은 상기 학습용 영상의 전경 영역과 배경 영역이 흑백으로 분리되어 표현된 영상인 것을 특징으로 하는 물체를 세분화하는 방법.
제 9항에 있어서
상기 데이터 셋을 이용한 선행학습(Pre-training)을 통해
완전 컨볼루션 네트워크(Fully Convolutional Network)를 학습하는 것을 특징으로 하는 물체를 세분화하는 방법.
영상에서 물체를 세분화(object segmentation)하는 장치에 있어서,
영상 입력부; 및
상기 영상 입력부를 제어하는 제어부;를 포함하되,
상기 제어부는
영상을 입력 받고,
상기 입력 받은 영상의 화면이 두 개 이상으로 분할되고,
상기 두 개 이상으로 분할된 영상 각각을 결합하여 다시 하나의 영상으로 생성하되,
상기 화면이 분할된 영상들은 화면 간 일부 중첩된 부분이 있도록 분할되며,
상기 분할된 영상 각각에 영상 세분화(Segmentation) 알고리즘을 적용하고,
상기 세분화 알고리즘이 적용된 분할 영상들을 결합하여 상기 입력 받은 영상과 동일한 크기의 영상을 생성하는 것
을 특징으로 하는 물체를 세분화하는 장치.
제 12항에 있어서
상기 입력 받은 영상의 제 1 프레임 및 제 2 프레임에서
상기 제 1 프레임은 상기 제 2 프레임보다 시간상으로 우선하는 프레임이고,
상기 제 1 프레임 및 제 2 프레임 각각에 포함된 제 1 오브젝트를 파악하고,
상기 제 1 프레임 및 제 2 프레임 각각에 포함된 제 1 오브젝트 간의 교차범위를 계산하는 것을 특징으로 하는 물체를 세분화하는 장치.
제 13항에 있어서
픽셀 단위의 데이터 연관 (Data association) 매칭으로
상기 제 1 프레임 및 제 2 프레임 각각에 포함된 상기 제 1 오브젝트 간의 교차범위를 판단하는 것을 특징으로 하는 물체를 세분화하는 장치.
제 13 항에 있어서
상기 계산된 제 1 오브젝트 간의 교차 범위가 제 1 임계치 이상인 경우
상기 제 2 프레임의 상기 제 1 오브젝트를 전경 영역으로 판단하는 것을 특징으로 하는 물체를 세분화하는 장치.
제 13 항에 있어서
상기 계산된 제 1 오브젝트 간의 교차 범위가 제 1 임계치 보다 작은 경우
상기 제 2 프레임의 상기 제 1 오브젝트를 전경 영역에서 삭제하는 것을 특징으로 하는 물체를 세분화하는 장치.
제 12항에 있어서
상기 영상 세분화 알고리즘은 완전 컨볼루션 네트워크(Fully Convolutional Network)인 것을 특징으로 하는 물체를 세분화하는 장치.
제 12항에 있어서
상기 분할된 영상 각각에 영상 세분화(Segmentation) 알고리즘을 적용하는 경우,
데이터 셋(Data Set)으로 미세조정(Fine-tuning)을 학습하는 것을 특징으로 하는 물체를 세분화하는 장치.
제 18항에 있어서
상기 데이터 셋은 학습용 영상과 기준 목표 영상(Ground Truth)으로 구성되어 있으며,
상기 기준 목표 영상은 상기 학습용 영상의 전경 영역과 배경 영역이 흑백으로 분리되어 표현된 영상인 것을 특징으로 하는 물체를 세분화하는 장치.
제 19항에 있어서
상기 데이터 셋을 이용한 선행학습(Pre-training)을 통해
완전 컨볼루션 네트워크(Fully Convolutional Network)를 학습하는 것을 특징으로 하는 물체를 세분화하는 장치.