KR101173559B1

KR101173559B1 - 비디오 동영상의 움직이는 다중 객체 자동 분할 장치 및 방법

Info

Publication number: KR101173559B1
Application number: KR1020090032223A
Authority: KR
Inventors: 김종성; 정일권
Original assignee: 한국전자통신연구원
Priority date: 2009-02-10
Filing date: 2009-04-14
Publication date: 2012-08-13
Also published as: KR20100091864A

Abstract

본 발명은 동영상 합성 시스템에서 단안 비디오 촬영 카메라로부터 입력된 동영상의 움직이는 다중 객체의 자동 분할 방법에 관한 것으로, 객체 영역 분할을 위한 어떠한 사용자 간섭 장치의 사용 또는 학습 데이터를 이용한 사전 학습 과정 없이도 자동으로 입력된 동영상으로부터 직접 움직이는 객체 영역을 자동으로 분할하고, 움직이는 다중 객체의 영역과 윤곽을 추출하기 위하여 인접 프레임 영상 사이에서 픽셀 단위로 추정된 모션 벡터 필드 정보를 사용하고, 객체의 움직임으로 인한 가려짐 현상에 의해 모션 벡터가 추출되지 않는 제약으로 인하여 분할된 객체의 영역과 윤곽의 왜곡을 해결하기 위해 선택적으로 모션 필드 정보와 RGB 컬러 정보를 이용하고, 객체에 관한 사전 정보 없이 동영상에서 분할될 객체의 수를 자동으로 결정하며, 그래프 컷(Graph Cut)과 같은 최적화 알고리즘을 이용하여 자동 객체 분할의 최적 해를 찾는 것을 특징으로 한다. 본 발명에 의하면, 영화 및 방송 콘텐츠 제작을 위한 새로운 배경 동영상과 분할된 객체 동영상과의 합성 시에 정확성과 안전성을 확보할 수 있는 이점이 있다.

자동 분할, 다중 객체, 합성, 카메라, 동영상, 모션, 컬러

Description

비디오 동영상의 움직이는 다중 객체 자동 분할 장치 및 방법{Apparatus and method for the automatic segmentation of multiple moving objects from a monocular video sequence}

본 발명은 단안 비디오 촬영 카메라를 사용하여 녹화된 움직이는 객체의 동영상과 사용자가 임의로 선택한 새로운 배경의 동영상을 합성 해주는 영화 및 방송용 콘텐츠 제작에 널리 사용되고 있는 동영상 합성 시스템에 관한 것으로서, 특히 복잡한 사용자 간섭 장치 혹은 학습 데이터를 이용한 객체 모델의 사전 학습 과정을 수행하지 않고, 자동으로 동영상의 인접 프레임 영상 간에 추출된 픽셀 단위의 모션 필드 정보와 해당 프레임 영상의 RGB 컬러 정보만을 이용하여 단일 또는 다중 객체의 영상 내의 영역과 윤곽, 객체의 움직임으로 발생되는 가려짐(Occlusion) 현상에 의한 왜곡 없이 정확하고 안정적인 분할을 수행하는데 적합한 비디오 동영상의 움직이는 다중 객체 자동 분할 장치 및 방법에 관한 것이다.

본 발명은 지식경제부 및 정보통신연구진흥원의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2007-S-051-02, 과제명: 디지털 크리쳐 제작 S/W 개발].

공지된 바와 같이, 단안 비디오 촬영 카메라로 촬영된 동영상으로부터 움직이는 다중 객체의 자동 분할을 수행하는 기술은, 영화 및 방송 콘텐츠 제작 분야에서 현장을 통해 촬영된 배우 또는 자동차, 소품 등의 대상 객체를 배경으로부터 분할을 가능하게 함으로써 분할된 객체의 동영상을 제작자가 선택한 임의의 새로운 배경 동영상과 합성하여 고부가가치의 영화 및 방송용 콘텐츠 제작을 가능하게 하는 동영상 합성 시스템에 반드시 필요한 기술이다.

종래의 동영상 합성 시스템을 통해 움직이는 객체를 분할하기 위한 기술은 대화식 사용자 간섭 장치를 이용하여 대상 객체의 대략적인 영역과 윤곽을 지정한 후 수학적인 최적화 알고리즘을 이용하여 최종 영역과 윤곽을 계산하는 사용자 간섭 방식과, 단안 혹은 스테레오 비디오 촬영 카메라로 촬영된 대상 객체의 움직임과 컬러, 깊이 정보 등의 학습 데이터와 사전에 설정된 기계적 학습 알고리즘을 이용하여 통계적 객체 모델을 학습하는 사전 학습 방식으로 구분된다.

그러나 이러한 종래의 사용자 간섭 방식이나 사전 학습 방식은 움직이는 객체 분할을 위하여 별도의 복잡한 대화식 사용자 간섭 장치나 대상 객체 모델의 사전 통계적 학습을 위한 대용량의 학습 데이터를 필요로 한다는 제약이 따르며, 복잡한 영역과 윤곽을 가지는 객체나 단일이 아닌 다중 객체, 사전에 학습되지 않은 객체 등을 처리하는데 많은 어려운 점이 있다.

예를 들면, 사용자 간섭 방식의 경우, 영역과 윤곽이 복잡한 객체를 분할해야 할 경우나 다중의 객체를 분할해야 할 경우에 많은 시간과 노력을 요구하는 복잡한 사용자 간섭 장치의 사용을 필요로 하며, 사전 학습 방식의 경우는, 사전 학 습이 이루어지지 않은 객체를 분할해야 할 경우에 해당 객체의 학습 데이터를 재 수집하고, 이를 이용하여 객체 모델을 재 학습해야 한다.

상기한 바와 같이 동작하는 종래 기술에 의한 동영상 합성 시스템을 통해 움직이는 객체를 분할하기 위한 기술에 있어서는, 동영상에서 움직이는 객체의 분할을 위해 복잡한 사용자 간섭 장치 혹은 학습 데이터를 이용한 객체 모델의 사전 학습을 필요로 한다는 문제점이 있었다.

이에 본 발명은, 복잡한 사용자 간섭 장치 혹은 학습 데이터를 이용한 객체 모델의 사전 학습 과정이 없이 자동으로 동영상의 인접 프레임 영상 간에 추출된 픽셀 단위의 모션 필드 정보와 해당 프레임 영상의 RGB 컬러 정보만을 이용하여, 단일 또는 다중 객체의 영상 내의 영역과 윤곽, 객체의 움직임으로 발생되는 가려짐 현상에 의한 왜곡 없이 정확하고 안정적인 분할을 수행할 수 있는 비디오 동영상의 움직이는 다중 객체 자동 분할 장치 및 방법을 제공한다.

또한 본 발명은, 복잡한 대화식 사용자 간섭 장치를 사용하거나 학습 데이터로부터 사전에 분할 대상 객체의 모델을 학습하지 않고, 단안 비디오 촬영 카메라로부터 입력되는 동영상에서 추출되는 인접 프레임 영상 간에 추출된 모션 필드 정보와 해당 프레임 영상의 RGB 컬러 정보를 직접 이용하여 자동으로 다중 객체의 영역과 윤곽을 픽셀 단위로 정확하고 안정적인 분할을 수행하고, 동시에 객체의 움직 임으로 인하여 발생하는 가려짐 현상에 의한 객체 영역과 윤곽의 왜곡 없이 분할을 수행하며, 움직이는 객체 수에 대한 사전 정보 없이 분할될 객체의 수를 결정할 수 있는 비디오 동영상의 움직이는 다중 객체 자동 분할 장치 및 방법을 제공하는데 있다.

본 발명의 일 실시예에 따른 비디오 동영상의 움직이는 다중 객체 자동 분할 장치는, 단안 비디오 촬영 카메라로부터 입력된 동영상의 각 프레임 별로 RGB 컬러 정보를 추출하는 RGB 컬러 추출부와, 상기 입력된 동영상의 인접 프레임 영상 간에 픽셀 단위의 모션 필드를 추출하는 모션 필드 추출부와, 상기 추출된 모션 필드의 분포를 가우시안 혼합 모델(GMM)로 계산하여 상기 동영상 내의 움직이는 객체의 모션 모델 분포를 나타내도록 상기 객체 모델에 해당하는 상기 GMM의 모든 인자를 자동으로 추정하여 움직이는 객체에 해당하는 모델을 자동으로 생성하는 객체 모델 자동 생성부와, 상기 추출된 객체 영역의 모션 필드 정보와, 상기 RGB 컬러 정보를 이용하여 자동 생성된 객체 모델의 영역과 윤곽을 픽셀 단위로 분할하는 객체 영역 자동 분할부와, 상기 분할된 객체의 유효성과 추가 분할 여부를 판단하여 분할된 객체 동영상을 출력하는 객체 유효성/분할 종료 검사부를 포함할 수 있다.

본 발명의 일 실시예에 따른 비디오 동영상의 움직이는 다중 객체 자동 분할 방법은, 단안 비디오 촬영 카메라로부터 입력된 동영상의 각 프레임 별로 RGB 컬러 정보를 추출하는 과정과, 상기 입력된 동영상의 인접 프레임 영상 간에 픽셀 단위의 모션 필드를 추출하는 과정과, 상기 추출된 모션 필드의 분포를 가우시안 혼합 모델(GMM)로 계산하여 상기 동영상 내의 움직이는 객체의 모션 모델 분포를 나타내도록 상기 객체 모델에 해당하는 상기 GMM의 모든 인자를 자동으로 추정하여 움직이는 객체 모델을 자동으로 생성하는 과정과, 상기 추출된 객체 영역의 모션 필드 정보와, 상기 RGB 컬러 정보를 이용하여 자동 생성된 객체 모델의 영역과 윤곽을 픽셀 단위로 분할하는 과정과, 상기 분할된 객체의 유효성과 추가 분할 여부를 판단하여 분할된 객체 동영상을 출력하는 과정을 포함할 수 있다.

상기와 같은 본 발명의 실시예에 따른 비디오 동영상의 움직이는 다중 객체 자동 분할 장치 및 방법에 따르면 다음과 같은 효과가 하나 혹은 그 이상이 있다.

본 발명의 실시예에 따른 비디오 동영상의 움직이는 다중 객체 자동 분할 장치 및 방법에 의하면, 동영상 합성 시스템에서 복잡한 사용자 간섭 장치나 학습 데이터를 이용한 객체 모델의 사전 학습 과정을 수행할 필요 없이, 단안 비디오 카메라로부터 촬영된 입력 동영상의 인접 프레임 영상 간의 모션 정보와 RGB컬러 정보를 직접 이용하여 움직이는 다중 객체를 자동으로 분할해 줌으로써, 고부가가치의 영화 및 방송 콘텐츠 제작을 가능하게 할 수 있다.

또한, 움직이는 다중 객체의 자동 분할을 위해서 동영상 인접 프레임 영상 간의 모션 필드 정보와, RGB 컬러 정보를 직접 이용하기 때문에 기존 방법에서 문제가 되던 복잡한 영역과 윤곽을 가진 객체 분할, 다중 객체의 분할, 사전에 학습되지 않은 객체 등의 분할 대상 객체에 대한 제약을 해결할 수 있다.

그리고 입력 동영상의 인접 프레임 영상 간 모션 필드 정보와 해당 프레임 영상의 RGB 컬러 정보를 선택적으로 사용함으로써, 객체의 움직임으로 인한 가려짐 현상으로 인해 분할된 객체의 영역과 윤곽의 왜곡 문제를 해결할 수 있기 때문에 객체 분할의 정확성과 안정성을 보다 향상 시킬 수 있는 효과가 있다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범 용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.

또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행 되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 실시예에 따른 움직이는 다중 객체의 자동 분할 및 합성을 수행하는 자동 분할 장치 및 객체/배경 동영상 합성 장치의 구조를 도시한 도면이다.

도 1을 참조하면, 자동 분할 장치(100)는 단안 비디오 카메라(10)로부터 입력되는 동영상의 인접 프레임 영상 간의 모션 필드 정보와 RGB 컬러 정보를 이용하여 움직이는 다중 객체를 자동으로 분할하는 것으로서, RGB 컬러 추출부(110), 모션 필드 추출부(120), 객체 모델 자동 생성부(130), 객체 영역 자동 분할부(140), 객체 유효성/분할 종료 검사부(150), 분할 영역 선택부(160) 등을 포함한다.

RGB 컬러 추출부(110)는 단안 비디오 카메라(10)로부터 입력되는 촬영 동영상에서 매 프레임 영상의 모든 픽셀에 대한 RGB 컬러 정보를 추출하여 객체 영역 자동 분할부(140)로 전달한다.

한편, 자동 분할 장치(100)는 단안 비디오 카메라(10)로부터 입력되는 동영상의 매 프레임 영상에서 해당 프레임 영상의 모든 픽셀에 해당 객체의 픽셀임을 나타내는 레이블(Label)을 자동으로 할당해 줌으로써 움직이는 다중 객체의 자동 분할을 가능하도록 한다.

이에 본 발명의 실시예에서는 픽셀 단위로 할당된 전체 레이블을

로 나타 내며, 이를

로 정의한다. 여기서, 기호

는 해당 프레임 영상의 임의의 픽셀을 나타내며, 기호

는 해당 프레임 영상에 있는 모든 픽셀의 집합, 기호

는 픽셀 집합

의 크기, 즉 총 픽셀 수, 기호

는 픽셀

에 할당된 레이블을 나타낸다. 이와 같은 표현법에 따라서,

번째 움직이는 객체에 해당하는 모든 픽셀의 집합, 즉 그 객체의 영상 영역은

로 나타낼 수 있으며, 이는

와 같이 정의됨을 알 수 있다. 여기서, 만약 입력된 동영상의 현재 프레임 영상

가 총

개의 움직이는 객체가 있고, 이에 따라서

개의 객체 영역으로 분할된다면, 분할되는 영역들

은

과

을 만족함을 알 수 있다.

모션 필드 추출부(120)에서는 입력된 동영상의 두 인접 프레임 영상

와

간의 모션 필드

를 추출한다. 여기서,

는 현재 프레임 영상

상의 임의의 픽셀

에 해당하는 모션 벡터로서

와 같이 정의된다. 여기서, 위첨자 기호

은 모션(Motion)을 나타내며, 아래첨자 기호

는 수평(Horizontality), 아래첨자 기호

는 수직(Verticality)을 나타낸다. 또한,

와

는 각각 픽셀 p의 수평과 수직 모션 값으로서

와

같이 한정된 범위를 가지는 것으로 가정한다. 여기서 기호

와

는 각각 수평과 수직 모션 값

와

의 상위 경계값이다.

그러므로, 인접 프레임 영상

와

사이에 가능한 모든 대응 픽셀 쌍(Pair)의 집합을

라고 하면, 실제

는 픽셀 단위의 수평과 수직 모션 값의 범위가 상기와 같이 한정되어 있기 때문에

와 같이 정의됨을 알 수 있다. 여기서,

는 절대값(Absolute Value)을 의미한다.

이에 모션 필드 추출부(120)에서는 모션 필드를 정확하게 추출하기 위해서 다음과 같은 두 조건을 만족하도록 한다. 첫째, 현재 프레임 영상

내의 각 픽셀은 인접 프레임 영상

상의 하나의 픽셀에만 대응되어야 한다. 둘째, 인접 프레임 영상

에 대응되는 픽셀을 가지지 않는 현재 프레임 영상

의 모든 픽셀은 가려진 픽셀로서 별도 저장한다. 이러한 두 조건을 만족하도록 모션 필드 추출부(120)에서의 모션 필드 추출 과정은 그래프 컷과 같은 최적화 기법에 기반한 최적 모션 추출 방법을 이용한다.

이와 같이 상기의 두 가지 조건을 만족하도록 모션 필드 추출부(120)에서는 모든 대응 가능 픽셀 쌍 집합

로부터 두 가지 조건을 모두 만족하는

의 부분집합(Subset)을 계산하며, 이를 그래프 컷과 같은 최적화 기법을 이용하여 계산한다. 이를 위해 집합

내에 있는 모든 픽셀 쌍에 대해서 활성(Active), 즉 유효한 대응 픽셀 쌍임과 비활성(Inactive), 즉 유효하지 않은 대응 픽셀 쌍임을 나타낼 수 있도록 하는 표시자

가 할당 되며,

값이 1이면 활성,

값이 0이면 비 활성을 나타내도록 한다. 이후, 집합

내에 있는 픽셀 쌍 중에서 활성 픽셀 쌍만의 집합 계산하여

로 저장하고, 저장된

로부터 현재 프레임 영상의 임의의 픽셀

에 해당하는 모든 활성 픽셀 쌍의 집합

를 계산하도록 한다.

이때, 상기 두 가지 조건으로 인하여 활성 픽셀 쌍 집합은

을 만족해야 함을 알 수 있다. 또한, 여기서

이라면 해당 픽셀

는 가려진 픽셀로 판별되어짐을 알 수 있다.

객체 모델 자동 생성부(130)는 모션 필드 추출부(120)에서 추출된 모션 필드 값의 분포를 하기 <수학식 1>과 같은

개의 모드(Mode)로 구성되는 가우시안 혼합 모델(GMM : Gaussian Mixture Model)로 가정하여 계산을 수행한다.

여기서, 모드 개수

은 미지수(The unknown)이며, 기호

는 GMM의 모든 인자의 집합으로서 과 같이 정의된다. 각각의 모드는 다시 가우시안 모델

로 계산되며, 이는 다시 해당 가우시안 모델의 평균 벡터(Mean Vector)

과 분산 행렬(Covariance Matrix)

을 계산함으로써 얻을 수 있다. 이때, 모션 필드의 모션 벡터 값의 분포를 나타내는 GMM의 각 모드는 촬영 동영상 내의 한 움직이는 객체의 모션 모델 분포를 나타내고, 미지수인 모드 개수

은 총 객체 수를 나타낸다.

이에 본 발명의 실시예에서는 모드 개수

을 포함한 GMM 모델의 모든 인자에 대한 자동 추정(Estimation) 및 분할 과정을 반복하면서 점진적으로 계산해 나감으로써, 사용자 간섭 또는 사전 학습에 의한 객체 모델과 객체 수에 대한 사전 정보 없이도 다중 객체의 자동 분할을 가능하게 한다.

이를 위해 객체 모델 자동 생성부(130)에서는 다음과 같은 방법으로 객체 모델에 해당하는 GMM의 모든 인자를 자동으로 추정한다.

먼저, 현재 선택된 분할 영역

상에 있는 모든 픽셀

의 모션 벡터 값의 1차, 2차 모멘트(Moment)에 해당하는 평균벡터

과 분산행렬

을 계산한다. 실제, 객체 분할 초기 단계에서는

는

와 동일하며, 객체 분할이 진행된 다음에

는 분할된 객체 영역 중 임의로 선택된 영역이다. 다음으로 상기와 같이 계산된 모션 벡터 값의 분산행렬

로부터 고유분해(Eigen-decomposition)를 이용하여 최대 고유값(Eigen-value)에 해당하는 고유 벡터(Eigen-vector)를

계산한다. 이어서, 하기의 <수학식 2>에 기반한 도 2의 판별기(Discriminator)(210)에서 평균 벡터 분산행렬에 대한 계산을 수행하는 모멘트 계산(212) 과정 및 고유 벡터를 계산하는 고유 분해(214) 과정을 사용하여 현재 영역

에 있는 모든 픽셀

를

(영역0, 200)의 부분영역(Sub-region)

(영역1, 215)과

(영역2, 220)로 양분함으로써 객체 모델의 자동 생성을 가능하게 한다.

여기서, 평균벡터

와 고유 벡터

는 2차원 모션벡터 공간에서 초평면(Hyperplane)을 형성하고, 이를 판별기(210)의 판별 기준으로 사용함으로써 모션 벡터 데이터의 양분을 가능하게 한다. 이어서, 자동 분할된 초기 영역

과

로부터 각각의 평균벡터

,

와 분산행렬

,

을 계산함으로써 각각의 가우시안 모델을 자동으로 생성하고, 이를 해당 객체의 모델로 이용함으로써 객체 모델의 자동 생성을 동시에 가능하게 한다.

객체 영역 자동 분할부(140)에서는 다음 <수학식 3>과 같은 분할 에너지 함수를 최소화 하는 레이블 할당

를 그래프 컷과 같은 최적화 기법을 이용하여 계산함으로써 객체의 영역과 윤곽의 분할을 픽셀 단위로 가능하게 한다.

여기서,

는 데이터 에너지로서 추출된 모션 필드 정보와 객체의 가우시안 모델 사이의 적합도가 높을수록 해당 에너지가 감소되며,

는 영상 내에서 임의의 픽셀과 그 픽셀과 이웃한 픽셀들의 레이블이 동일하게 할당되도록 만드는 제약 에너지로서, 비슷한 RGB 컬러를 가지는 이웃한 픽셀들 간의 레이블이 동일할수록 에너지가 감소된다. 기호

는 0보다 큰 상수로서, 분할 에너지에서 데이터 에너지와 제약 에너지가 균형을 이루도록 조절하는 역할을 수행하게 된다.

상기 분할 에너지 함수

에서 객체의 움직임으로 인한 가려짐 현상에 의해서 모션 벡터 값이 추출되지 않는 가려진 픽셀에서는 모션 필드 정보와 RGB 컬러 정보가 선택적으로 사용되도록 하기 위하여 다음 <수학식 4>와 같은 픽셀 가려짐을 나타내는 표시자가 사용된다.

여기서, 기호

는 모든 가려진 픽셀의 집합을 나타내며, 모션 필드 추출부(120)에서 계산된다. 이를 이용하여, 분할 에너지에서 데이터 에너지

는 상기 가려짐 표시자와 객체 모델을 함께 고려하여 다음 <수학식 5>와 같이 정의된다.

여기서,

값이 0인 경우, 즉 픽셀

가 가려진 픽셀의 경우에는 해당 데이터 에너지 항

는 전체 데이터 에너지 합에서 제외되게 됨을 알 수 있다. 이러한 원리에 의하여 모션 벡터 값이 추출되지 않는 가려진 픽셀에서는 레이블 할당을 위한 에너지를 계산할 시에 모션 필드 정보에 기반한 데이터 에너지의 영향이 없고, 대신 RGB 컬러에 의한 제약 에너지의 영향만이 있게 함으로써, 레이블이 잘못 할당됨을 방지하여 가려짐 현상으로 인한 분할된 객체의 영역과 윤곽의 왜곡 문제를 해결한다.

데이터 항

는 모션 필드 추출부(120)에서의 모션 필드 추출 과정에서 발생할 수 있는 에러에 영향을 적게 받을 수 있도록 강인통계(Robust Statistics)에서 사용되는 후버 함수(Huber Function)를 이용하여 다음 <수학식 6>과 같이 정의되어 사용된다.

여기서,

은 잉여(residual) 값으로서 가우스 모델로부터 다음 <수학식 7>과 같이 정의되어 계산된다.

기호

은 잉여값의 경계치(Threshold)로서, 강인통계 분야에서는 이를

와 같이 계산한다. 여기서, τ의 값은 1.4826이 될 수 있으며, 이는 강인하게 계산된 경계치가 가우시안 함수의 표준편차가 되도록 보정해주는 역할을 한다.

분할 에너지 함수의 제약 에너지

는 다음 <수학식 8>과 같이 정의된다.

여기서, 기호

은 현재 프레임 영상에서 이웃한 모든 픽셀 쌍의 집합을 나타내며, 함수

는 폿츠 간섭 모델(Potts Interaction Model)로서 다음 <수학식 9>와 같이 정의된다.

실제, 폿츠 간섭 모델에 기반한 상기 제약 모델은 에너지 최소화 기법을 통하여 계산된 레이블 할당 결과가 계단 상수(Piecewise Constant) 형태를 가지도록 유도하는 특징을 가지며, 이는 픽셀 단위로 객체의 영역과 윤곽 분할 시에 픽셀 단위의 홀(Hall)이 생기는 것을 방지해 준다. 이에 본 발명의 실시예에서는 모션 벡터 값이 추출되지 않는 가려진 픽셀의 레이블을 처리하기 위해서 유사한 RGB 컬러를 가진 이웃 픽셀 간에 동일한 레이블이 할당되도록 제약하기 위하여 제약 항

를 다음 <수학식 10>과 같이 정의한다.

여기서,

는 0과 1 사이의 값으로서,

에서 지수함수

의 실제 영향을 결정한다. 예를 들면,

값이 0으로 설정되면 지수함수의 영향이 없으며, 반대로

값이 1로 설정되면 지수함수의 영향이 최대가 된다. 지수함수

내의 함수

는 현재 프레임 영상에서 이웃한 픽셀

와

의 RGB 컬러값 사이의 거리(Distance)를 행렬

로 표준화(Normalization)한 값의 제 곱값이다. 행렬

는

로서, 여기서

는 기대값(Expectation Value)이다. 함수

는 픽셀

와

의 거리이며, 상수

는

와 같이 계산되며, 여기서

는 이웃한 픽셀의 개수이다.

이와 같이 객체 영역 자동 분할부(140)에서는 분할 에너지

를 최소화하는 레이블 할당

의 계산을 그래프 컷과 같은 최적화 기법을 통하여 계산한다. 여기서, 계산된 레이블 할당

로부터 동일한 레이블이 할당된 픽셀 집합이 해당 객체 영역으로 정의되며, 레이블의 변화가 발생하는 영역 간의 경계를 객체의 윤곽으로 정의한다.

객체 유효성/분할 종료 검사부(150)에서는 분할된 객체의 유효성 여부와 분할 종료 여부를 검사한다. 먼저, 다음의 <수학식 11>을 사용하여 분할된 객체의 유효성을 검사한다.

여기서, 함수

는 현재 단계에서 분할된 두 객체 모션의 평균벡터

과

사이의 거리이며, 기호

는 평균벡터 사이의 거리의 경계값이다. 즉, <수학식 11>은 분할된 두 객체의 평균벡터 사이의 거리가 일정값 이상이 되면, 그 분할 객체들을 유효한 것으로 판정하는 것을 가능하게 한다. 분할이 유효 한 것으로 판정되면, 현재 분할된 영역

과

를 유효한 영역으로 저장하며, 그렇지 않으면

과

를 저장하지 않고,

을 더 이상 분할되지 않는 영역으로 저장한다. 다음, 아래의 <수학식 12>를 이용하여 분할 종료 여부를 검사한다.

여기서,

은 현재까지 분할된 객체의 총 개수이며,

는 분할 가능한 객체의 최대 개수로서 2이상의 값으로 설정하는 것이 가능하다. 즉, <수학식 12>는 현재까지 분할된 객체의 개수가 최대값과 동일하거나 그 이상이 되면 분할을 종료하는 것을 가능하게 한다. 마지막으로, 모든 분할 영역이 더 이상 분할되지 않는 영역으로 저장되어 있는 상태라면 객체 분할을 종료하게 된다.

다만, 객체 분할이 종료되지 않은 것으로 판단되면, 새로운 분할 영역을 선택하기 위한 분할 영역 선택부(160)로 넘어가게 된다. 분할 영역 선택부(160) 에서는 더 이상 분할되지 않는 영역을 제외한 대상 분할 영역 중에서 분할 에너지 값이 가장 큰 영역을 선택하여, 선택된 영역에서 상기한 객체 모델 자동 생성, 객체 영역 자동 분할, 분할 종료 검사를 반복하게 된다.

이에 객체 유효성/분할 종료 검사부(150)를 통해 객체 분할이 종료된 경우, 최종적으로 분할된 객체 동영상은 객체/배경 동영상 합성 장치(20)로 전달된다.

이에 객체/배경 동영상 합성 장치(20)에서는 영화 및 방송 콘텐츠 제작을 위한 새로운 배경 동영상이 입력되면, 입력된 새로운 배경 동영상에 객체 유효성/분할 종료 검사부(150)를 통해 전달된 객체 동영상과의 합성을 수행하게 된다. 이를 통해 배경 동영상과 분할된 객체 동영상과의 정확한 합성을 가능하게 한다.

도 3은 본 발명의 실시예에 따른 자동 분할 및 합성 장치의 동작 절차를 도시한 흐름도이다.

도 3을 참조하면, RGB 추출부(100)는 300단계에서 단안 비디오 카메라로부터 촬영된 동영상을 입력 받게 되면, 302단계에서 입력된 동영상의 각 프레임 별 RGB 컬러를 추출하고, 추출된 RGB 컬러 정보는 객체 영역 자동 분할부(140)로 전달한다. 모션 필드 추출부(120)는 304단계에서 동영상의 인접 프레임들 간의 모션 필드를 추출한다. 이에 추출된 모션 필드 정보는 객체 모델 자동 생성부(130) 및 객체 영역 자동 분할부(140)로 전달된다.

객체 모델 자동 생성부(130)에서는 306단계에서 모션 필드 추출부(120)를 통해 추출된 모션 필드의 모멘트 정보와 고유 분해를 통하여 움직이는 객체 모델을 자동으로 생성한 후, 생성된 객체 모델 정보를 객체 영역 자동 분할부(140)로 전달한다.

308단계에서 객체 영역 자동 분할부(140)는 자동 생성된 객체 모델에 대해 모션 필드 정보와 RGB 컬러 정보를 선택적으로 이용하여 가려짐 현상에 의한 왜곡 없이 정확하고 안정적인 객체 분할을 수행하게 된다. 이에 310단계에서 객체 유효성/분할 종료 검사부(150)에서는 분할된 객체의 유효성 여부를 판단하여 분할이 유효한 것으로 판단되면, 이를 저장한 후, 분할 종료 여부를 검사한다. 그러나 분할된 객체의 수가 기 설정된 분할 가능한 객체의 수 보다 적은 경우, 객체 분할이 종료되지 않은 것으로 판단하여 314단계로 진행하며, 314단계에서는 분할 영역 선택부(160)를 통해 더 이상 분할되지 않는 영역을 제외한 대상 분할 영역을 새로운 분할 대상 영역으로 선택한 후, 306단계로 복귀하여 객체 모델 자동 생성과, 308단계의 객체 영역과 윤곽 분할 및 310단계의 분할 종료 검사를 반복하게 된다.

이후, 312단계에서 분할된 객체의 수가 최대값과 동일하거나 그 이상이라면 객체 분할을 종료한 후, 분할된 객체 동영상을 객체/배경 동영상 합성 장치(20)로 전달하게 된다.

이에 객체/배경 동영상 합성 장치(20)에서는 분할된 객체 동영상을 기 입력된 배경 동영상에 합성을 수행하게 된다. 이때, 분할된 객체 동영상은 가려짐 현상에 대한 왜곡 없이 객체 영상 내의 영역과 윤곽이 픽셀 단위로 정확하게 안정적으로 분할된 상태이므로, 입력된 임의의 배경 이미지 또는 동영상과의 자연스러운 합성을 가능하게 할 수 있다.

도 4는 본 발명의 실시예에 따른 움직이는 다중 객체의 자동 분할 방식을 도시한 도면이다.

도 4를 참조하면, 인접한 프레임 영상(400, 402)이 존재하는 경우, 모션 필드 추출부(120)를 통해 참조번호 404, 406과 같은 모션필드가 추출되며, 객체 모델 자동 생성부(130) 및 객체 영역 자동 분할부(140)를 통해 객체 영역(408)과, 객체 윤곽(410)을 분할 시키게 된다. 이후 객체 유효성/분할 종료 검사부(150)를 통해 최종적으로 분할된 객체 1(412), 객체 2(414) 동영상을 출력하게 된다.

도 5 본 발명의 실시예에 따른 움직이는 다중 객체의 자동 분할 방식을 도시한 도면이다.

도 5를 참조하면, 촬영된 동영상을 세개의 분할된 객체로 분할시키는 것으로서, 인접한 프레임 영상(500, 502)이 존재하는 경우, 모션 필드 추출부(120)를 통해 참조번호 504, 506과 같은 모션필드가 추출되며, 객체 모델 자동 생성부(130) 및 객체 영역 자동 분할부(140)를 통해 각 영역에 대한 객체 판단 및 윤곽 분할을 수행하여 객체 영역(508)과, 객체 윤곽(510) 영역으로 분할 시키게 된다. 이후 객체 유효성/분할 종료 검사부(150)를 통해 최종적으로 분할된 자동차 1에 대한 객체 1(512), 자동차2에 대한 객체 2(514), 배경에 대한 객체 3(516) 동영상을 출력하게 된다.

이상 설명한 바와 같이, 본 발명의 실시예에 따른 비디오 동영상의 움직이는 다중 객체 자동 분할 장치 및 방법은 방송 및 영화 콘텐츠 제작 분야에서 배우 또는 자동차, 소품 등의 움직이는 객체 동영상과 제작자가 선택한 임의의 배경 동영상의 합성을 위해 폭 넓게 사용되고 있는 동영상 합성 시스템에서, 복잡한 사용자 간섭 장치 또는 학습 데이터를 이용한 객체 모델의 사전 학습 과정 없이 움직이는 객체의 영상 내 영역과 윤곽을 픽셀 단위로 자동 분할해주는 것으로서, 스테레오 혹은 멀티 비디오 카메라 촬영 시스템이 아닌 일반적으로 사용되는 단안 비디오 촬영 카메라로 현장에서 촬영된 동영상을 사용하고, 인접 프레임 영상 간의 모션 필 드 정보와 해당 프레임 영상의 RGB 컬러 정보만을 이용하면서, 객체의 움직임으로 발생되는 가려짐 현상에 의한 왜곡 없이 단안 혹은 다중의 객체의 영상 내의 영역과 윤곽을 픽셀 단위로 정확하고 안정적으로 분할하여, 제작자가 선택한 임의의 배경 동영상과의 합성을 가능하게 함으로써 고부가가치의 방송 및 영화용 콘텐츠의 제작을 가능하게 한다.

한편 본 발명의 상세한 설명에서는 구체적인 실시예에 관해 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 물론이다. 그러므로 본 발명의 범위는 설명된 실시예에 국한되지 않으며, 후술되는 특허청구의 범위뿐만 아니라 이 특허청구의 범위와 균등한 것들에 의해 정해져야 한다.

도 1은 본 발명의 실시예에 따른 움직이는 다중 객체의 자동 분할 및 합성을 수행하는 자동 분할 장치의 구조를 도시한 도면,

도 2는 본 발명의 실시예에 따라 입력 동영상의 인접 프레임 영상 간에 추출된 모션 필드 정보의 모멘트 계산과 고유분해를 통하여 객체 모델을 자동 생성하는 방식을 도시한 흐름도,

도 3은 본 발명의 실시예에 따른 자동 분할 및 합성 장치의 동작 절차를 도시한 흐름도,

도 4는 본 발명의 실시예에 따른 움직이는 다중 객체의 자동 분할 방식을 도시한 도면,

도 5는 본 발명의 실시예에 따른 움직이는 다중 객체의 자동 분할 방식을 도시한 도면.

<　도면의 주요 부분에 대한 부호 설명 >

110 : RGB 추출부

120 : 모션 필드 추출부

130 : 객체 모델 자동 생성부

140 : 객체 영역 자동 분할부

150 : 객체 유효성/ 분할 종료 검사부

160 : 분할 영역 선택부

Claims

단안 비디오 촬영 카메라로부터 입력된 동영상의 각 프레임 별로 RGB 컬러 정보를 추출하는 RGB 컬러 추출부와,

상기 입력된 동영상의 인접 프레임 영상 간에 픽셀 단위의 모션 필드를 추출하는 모션 필드 추출부와,

상기 추출된 모션 필드의 분포를 가우시안 혼합 모델(GMM)로 계산하여 상기 동영상 내의 움직이는 객체의 모션 모델 분포를 나타내도록 객체 모델에 해당하는 상기 GMM의 모든 인자를 자동으로 추정하여 움직이는 객체에 해당하는 모델을 자동으로 생성하는 객체 모델 자동 생성부와,

상기 추출된 객체 영역의 모션 필드 정보와, 상기 RGB 컬러 정보를 이용하여 자동 생성된 객체 모델의 영역과 윤곽을 픽셀 단위로 분할하는 객체 영역 자동 분할부와,

상기 분할된 객체의 유효성과 추가 분할 여부를 판단하여 분할된 객체 동영상을 출력하는 객체 유효성/분할 종료 검사부

를 포함하는 비디오 동영상의 움직이는 다중 객체 자동 분할 장치.
제 1항에 있어서,

상기 모션 필드 추출부는,

픽셀 별로 할당된 레이블을 통해 인접한 픽셀 중 제1프레임 내의 각 픽셀은 제2프레임 상의 하나의 픽셀에 대응하고, 상기 제2프레임에 대응되는 픽셀을 가지지 않는 상기 제1프레임의 픽셀은 모션 벡터 값이 추출되지 않는 가려진 픽셀로 설정하여 상기 모션 필드를 추출하는

비디오 동영상의 움직이는 다중 객체 자동 분할 장치.
삭제
제 1항에 있어서,

상기 객체 모델 자동 생성부는,

상기 프레임에서 선택된 분할 영역 상에 있는 모션 벡터 값의 1차, 2차 모멘트에 해당하는 평균벡터와 분산 행렬을 계산하고, 상기 분산 행렬로부터 고유 값에 해당하는 상기 고유 벡터를 계산하여, 적어도 두 개의 부분영역으로 양분하여 객체 모델을 자동 생성하는

비디오 동영상의 움직이는 다중 객체 자동 분할 장치.
제 1항에 있어서,

상기 객체 영역 자동 분할부는,

상기 추출된 모션 필드와 객체의 가우시안 모델 사이의 적합도를 나타내는 데이터 에너지와, 상기 동영상에서 임의의 픽셀과 이웃한 픽셀들의 레이블이 동일하게 할당되도록 하는 제약 에너지의 합으로 특정 레이블 할당 영역을 계산하여 객체의 영역과 윤곽의 분할을 수행하는

비디오 동영상의 움직이는 다중 객체 자동 분할 장치.
제 1항에 있어서,

상기 다중 객체 자동 분할 장치는,

상기 분할된 객체의 수가 기 설정된 분할 가능한 객체의 수 보다 적은 경우, 더 이상 분할되지 않는 영역을 제외한 대상 분할 영역을 새로운 분할 대상 영역으로 선택하여 객체 분할을 수행하는 분할 영역 선택부를 포함하는

비디오 동영상의 움직이는 다중 객체 자동 분할 장치.
단안 비디오 촬영 카메라로부터 입력된 동영상의 각 프레임 별로 RGB 컬러 정보를 추출하는 과정과,

상기 입력된 동영상의 인접 프레임 영상 간에 픽셀 단위의 모션 필드를 추출하는 과정과,

상기 추출된 모션 필드의 분포를 가우시안 혼합 모델(GMM)로 계산하여 상기 동영상 내의 움직이는 객체의 모션 모델 분포를 나타내도록 객체 모델에 해당하는 상기 GMM의 모든 인자를 자동으로 추정하여 움직이는 객체 모델을 자동으로 생성하는 과정과,

상기 추출된 객체 영역의 모션 필드 정보와, 상기 RGB 컬러 정보를 이용하여 자동 생성된 객체 모델의 영역과 윤곽을 픽셀 단위로 분할하는 과정과,

상기 분할된 객체의 유효성과 추가 분할 여부를 판단하여 분할된 객체 동영상을 출력하는 과정

을 포함하는 비디오 동영상의 움직이는 다중 객체 자동 분할 방법.
제 7항에 있어서,

상기 모션 필드 정보를 추출하는 과정은,

픽셀 별로 할당된 레이블을 통해 인접한 픽셀 중 제1프레임 내의 각 픽셀은 제2프레임 상의 하나의 픽셀에 대응하고, 상기 제2프레임에 대응되는 픽셀을 가지지 않는 상기 제1프레임의 픽셀은 모션 벡터 값이 추출되지 않는 가려진 픽셀로 설정하여 모션 필드를 추출하는

비디오 동영상의 움직이는 다중 객체 자동 분할 방법.
제 7항에 있어서,

상기 객체 모델을 자동으로 생성하는 과정은,

상기 추출된 모션 필드의 분포를 가우시안 혼합 모델(GMM)로 계산하여 상기 동영상 내의 움직이는 객체의 모션 모델 분포를 나타내도록 상기 객체 모델에 해당하는 상기 GMM의 모든 인자를 자동으로 추정하는

비디오 동영상의 움직이는 다중 객체 자동 분할 방법.
제 7항에 있어서,

상기 객체 모델을 자동으로 생성하는 과정은,

상기 프레임에서 선택된 분할 영역 상에 있는 모션 벡터 값의 1차, 2차 모멘트에 해당하는 평균벡터와 분산 행렬을 계산하고, 상기 분산 행렬로부터 고유 값에 해당하는 상기 고유 벡터를 계산하여, 적어도 두 개의 부분영역으로 양분하여 객체 모델을 자동으로 생성하는

비디오 동영상의 움직이는 다중 객체 자동 분할 방법.
제 7항에 있어서,

상기 객체 모델의 영역과 윤곽을 픽셀 단위로 분할하는 과정은,

상기 추출된 모션 필드 정보와 객체의 가우시안 모델 사이의 적합도를 나타내는 데이터 에너지와, 상기 동영상에서 임의의 픽셀과 이웃한 픽셀들의 레이블이 동일하게 할당되도록 하는 제약 에너지의 합으로 특정 레이블 할당 영역을 계산하여 객체의 영역과 윤곽의 분할을 수행하는

비디오 동영상의 움직이는 다중 객체 자동 분할 방법.
제 7항에 있어서,

상기 추가 분할 여부의 판단을 수행하여, 상기 분할된 객체의 수가 기 설정된 분할 가능한 객체의 수 보다 적은 경우, 더 이상 분할되지 않는 영역을 제외한 대상 분할 영역을 새로운 분할 대상 영역으로 선택하여 객체 분할을 수행하는

비디오 동영상의 움직이는 다중 객체 자동 분할 방법.