KR101195978B1

KR101195978B1 - 동영상에 포함된 오브젝트를 처리하는 방법 및 장치

Info

Publication number: KR101195978B1
Application number: KR1020100124931A
Authority: KR
Inventors: 박래홍; 이지원; 이동규; 이진오; 김재윤
Original assignee: 서강대학교산학협력단
Priority date: 2010-12-08
Filing date: 2010-12-08
Publication date: 2012-10-30
Also published as: KR20120063795A

Abstract

본 발명은 동영상에 포함된 오브젝트를 처리하는 방법에 관한 것으로서, 동영상의 일정한 프레임 간격마다 오브젝트가 포함된 것으로 판단되는 후보 영역을 검출하고, 검출된 후보 영역과 SIFT(Scale Invariant Feature Transform) 데이터베이스에 저장되어 있는 템플릿을 비교하여, 후보 영역과 템플릿의 특징점을 매칭하고, 매칭된 특징점이 템플릿의 특징점의 일정 비율 이상이면, 오브젝트로 인식하는 검출과정과, 매칭된 특징점들의 중심값을 계산하고, 오브젝트 영역을 결정하고, 오브젝트 영역에 속하는 픽셀별로 우도를 판단하여 오브젝트와 배경을 분리하는 추출과정과, 분리된 오브젝트에 해당하는 영역을 제거하거나, 분리된 오브젝트에 해당하는 영역을 다른 오브젝트로 대체하는 과정을 포함하는 것을 특징으로 하며, 동영상 내에서 움직이는 오브젝트 또는 복수의 오브젝트들을 제거할 수 있다.

Description

동영상에 포함된 오브젝트를 처리하는 방법 및 장치{Method and apparatus of processing object included in video}

본 발명은 동영상에 포함된 오브젝트를 처리하는 방법에 관한 것으로서, 더욱 상세하게는 움직이는 오브젝트 또는 복수의 오브젝트들을 제거할 수 있는 동영상에 포함된 오브젝트를 처리하는 방법에 관한 것이다.

최근, 시각 미디어 시장이 발전함에 따라 시각 미디어를 통한 광고는 시청자들에게 강력한 영향을 미치고 있다. 매우 짧은 시간에 시청자들에게 많은 정보를 전달할 수 있는 비디오 컨텐츠의 성질 때문에 회사들은 시각 미디어를 통해 제품과 회사를 홍보하고 있다. 다양한 형태의 광고들 중에서 인기있는 영화나 TV 프로그램에서 나타나는 제품의 외관은 일반적인 것이다.

이런 경우에 시청자 대다수들은 영화, 드라마, 또는 스포츠에 나타나는 로고 외관을 상업적 목적을 갖는 광고로 인식할 수 없지만, 다음과 같은 경우에 로고를 제거할 필요가 있을 것이다.

첫째, 로고가 과도하게 나타나는 경우이다. 로고가 너무 자주 나타나면, 시청자가 비디오 컨텐츠에 집중하는 것을 방해한다.

둘째, 비디오 프로듀서의 의도와는 무관하게 로고가 나타나는 경우이다. 예를 들어, 다큐멘터리나 뉴스는 공익을 위해 제작된다. 이 경우, 로고는 제거되어야 한다.

셋째, 텔레비젼 방송국이 방송국 로고를 프로그램의 배경에 집어넣어, 방송국이 프로그램에 대한 저작권을 갖고 있음을 공표하는 경우이다. 만일 원프로그램이 다른 방송국에 의해 다시 방송되는 경우에는 원 방송국의 로고가 제거될 필요가 있다.

단순하게 수작업으로 로고를 지우는 방법은 로고 영역을 흐릿하게 하는 것이나, 시간과 노력이 많이 소요된다. 또한, 모자이크 영역으로부터 생성된 부자연스러운 영상은 시청자가 불편하다고 느끼도록 한다. 최근 이러한 문제를 해결하기 위해 컴퓨터 영상 기술을 이용하여 더 쉽고, 믿을 만하게 로고를 제거하는 방법들이 개발되고 있다.

따라서, 본 발명이 해결하고자 하는 첫 번째 과제는 움직이는 오브젝트 또는 복수의 오브젝트들을 제거할 수 있는 동영상에 포함된 오브젝트를 처리하는 방법을 제공하는 것이다.

본 발명이 해결하고자 하는 두 번째 과제는 움직이는 오브젝트 또는 복수의 오브젝트들을 제거할 수 있는 동영상에 포함된 오브젝트를 처리하는 장치를 제공하는 것이다.

또한, 상기된 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는데 있다.

본 발명은 상기 첫 번째 과제를 달성하기 위하여, 동영상의 일정한 프레임 간격마다 오브젝트가 포함된 것으로 판단되는 후보 영역을 검출하는 단계; 상기 검출된 후보 영역과 SIFT(Scale Invariant Feature Transform) 데이터베이스에 저장되어 있는 템플릿을 비교하여, 상기 후보 영역과 상기 템플릿의 특징점을 매칭하는 단계; 상기 매칭된 특징점이 상기 템플릿의 특징점의 일정 비율 이상이면, 상기 오브젝트로 인식하는 단계; 상기 매칭된 특징점들의 중심값을 계산하고, 오브젝트 영역을 결정하는 단계; 상기 오브젝트 영역에 속하는 픽셀별로 우도를 판단하여 상기 동영상에서 상기 오브젝트를 추적하고, 상기 오브젝트와 배경을 분리하는 단계; 및 상기 분리된 오브젝트에 해당하는 영역을 제거하거나, 상기 분리된 오브젝트에 해당하는 영역을 다른 오브젝트로 대체하는 단계를 포함하는 것을 특징으로 하는 동영상에 포함된 오브젝트를 처리하는 방법을 제공한다.

본 발명의 일 실시예에 의하면, 상기 결정된 오브젝트 영역으로부터 생성되는 히스토그램으로 정의되는 오브젝트 모델과 현재 프레임에서 검출된 새로운 후보 모델 간의 유사도를 최대화하는 후보 모델의 위치를 반복하여 계산한다. 이때 상기 오브젝트 모델과 상기 새로운 후보 모델에서 배경을 배제하여 계산하는 것이 바람직하다. 그리고, 유사도가 최대인 후보 모델로 오브젝트 모델을 업데이트하는 단계를 더 포함하고, 상기 업데이트된 오브젝트 모델에 대응하는 오브젝트 영역에 속하는 픽셀별로 우도를 판단하여 상기 오브젝트와 배경을 분리할 수 있다.

본 발명의 다른 실시예에 의하면, 상기 오브젝트 영역이 결정되면, 직전에 검출한 프레임까지 백워드 트랙킹을 수행하는 것이 바람직하다.

또한, 상기 오브젝트 영역에 속하는 픽셀별 우도는 로그우도일 수 있다.

또한, 상기 동영상의 일정한 프레임 간격마다 입력되는 프레임의 고주파수 영역을 상기 후보 영역으로 검출할 수 있다.

또한, 상기 동영상의 일정한 프레임 간격마다 입력되는 프레임을 다운샘플링하여 처리하는 것이 바람직하다.

본 발명의 또 다른 실시예에 의하면, 상기 동영상의 일정한 프레임 간격마다 입력되는 프레임으로부터 샘플링된 픽셀로부터 돌출(saliency) 값을 계산하고, 상기 계산된 돌출 값이 소정의 임계값보다 큰 경우의 픽셀들을 상기 후보 영역으로 검출할 수 있다.

또한, 상기 분리된 오브젝트에 해당하는 영역을 제거할 때, 제거 대상이 되는 타겟 영역을 소스 영역에 있는 텍스쳐 패치들로부터 재구성하는 예제 기반 인페인팅 방법을 이용하되, 상기 타겟 영역을 채우는 순서는 상기 오브젝트 영역에 있는 픽셀의 우선순위에 의해 결정되는 것이 바람직하다.

본 발명은 상기 두 번째 과제를 달성하기 위하여, 동영상의 일정한 프레임 간격마다 오브젝트가 포함된 것으로 판단되는 후보 영역을 검출하고, 상기 검출된 후보 영역과 SIFT(Scale Invariant Feature Transform) 데이터베이스에 저장되어 있는 템플릿을 비교하여, 상기 후보 영역과 상기 템플릿의 특징점을 매칭하고, 상기 매칭된 특징점이 상기 템플릿의 특징점의 일정 비율 이상이면, 상기 오브젝트로 인식하는 오브젝트 검출부; 상기 매칭된 특징점들의 중심값을 계산하고, 오브젝트 영역을 결정하고, 상기 오브젝트 영역에 속하는 픽셀별로 우도를 판단하여 상기 오브젝트와 배경을 분리하는 로고 추출부; 및 상기 분리된 오브젝트에 해당하는 영역을 제거하거나, 다른 오브젝트로 대체하는 로고 제거부를 포함하는 동영상에 포함된 오브젝트를 처리하는 장치를 제공한다.

상기 다른 기술적 과제를 해결하기 위하여, 본 발명은 상기된 동영상에 포함된 오브젝트를 처리하는 방법을 컴퓨터에서 실행시키기 위한 프로그램으로 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.

본 발명에 따르면, 동영상 내에서 움직이는 로고 또는 복수의 로고들을 제거할 수 있다. 또한, 하나의 템플릿을 다른 템플릿으로 대체하기 위한 전처리과정으로 사용될 수도 있다.

도 1은 본 발명의 일 실시예에 따른 동영상에 포함된 로고를 처리하는 장치의 블록도이다.
도 2는 컨트롤 플래그에 따른 타이밍도의 예를 도시한 것이다.
도 3은 입력 프레임 F_n과 로고 템플릿을 SIFT 매칭한 결과를 도시한 것이다.
도 4는 로고 추출의 예를 도시한 것이다.
도 5는 로고 트랙킹시의 타이밍도를 도시한 것이다.
도 6은 로고 추출과정을 거친 경우와 그렇지 않은 경우의 로고 제거 결과를 비교한 도면이다.
도 7은 로고 제거를 위한 이미지 인페인팅 알고리즘에 사용되는 표기 방식을 나타낸 것이다.
도 8은 본 발명의 일 실시예에 따른 동영상에 포함된 로고를 처리하는 방법의 흐름도이다.

본 발명에 관한 구체적인 내용의 설명에 앞서 이해의 편의를 위해 본 발명이 해결하고자 하는 과제의 해결 방안의 개요 혹은 기술적 사상의 핵심을 우선 제시한다.

본 발명의 일 실시예에 따른 동영상에 포함된 오브젝트를 처리하는 방법은 동영상의 일정한 프레임 간격마다 오브젝트가 포함된 것으로 판단되는 후보 영역을 검출하는 단계; 상기 검출된 후보 영역과 SIFT(Scale Invariant Feature Transform) 데이터베이스에 저장되어 있는 템플릿을 비교하여, 상기 후보 영역과 상기 템플릿의 특징점을 매칭하는 단계; 상기 매칭된 특징점이 상기 템플릿의 특징점의 일정 비율 이상이면, 상기 오브젝트로 인식하는 단계; 상기 매칭된 특징점들의 중심값을 계산하고, 오브젝트 영역을 결정하는 단계; 상기 오브젝트 영역에 속하는 픽셀별로 우도를 판단하여 상기 오브젝트를 추적하고, 상기 오브젝트와 배경을 분리하는 단계; 및 상기 분리된 오브젝트에 해당하는 영역을 제거하거나, 상기 분리된 오브젝트에 해당하는 영역을 다른 오브젝트로 대체하는 단계를 포함한다.

이하, 바람직한 실시예를 들어 본 발명을 더욱 상세하게 설명한다. 그러나 이들 실시예는 본 발명을 보다 구체적으로 설명하기 위한 것으로, 본 발명의 범위가 이에 의하여 제한되지 않는다는 것은 당업계의 통상의 지식을 가진 자에게 자명할 것이다. 본 발명이 해결하고자 하는 과제의 해결 방안을 명확하게 하기 위한 발명의 구성을 본 발명의 바람직한 실시예에 근거하여 첨부 도면을 참조하여 상세히 설명하되, 도면의 구성요소들에 참조번호를 부여함에 있어서 동일 구성요소에 대해서는 비록 다른 도면상에 있더라도 동일 참조번호를 부여하였으며 당해 도면에 대한 설명시 필요한 경우 다른 도면의 구성요소를 인용할 수 있음을 미리 밝혀둔다. 아울러 본 발명과 관련된 공지 기능 혹은 구성에 대한 구체적인 설명 그리고 그 이외의 제반 사항이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우, 그 상세한 설명을 생략한다.

본 발명은 동영상에서 움직이는 오브젝트를 자동으로 검출하고 오브젝트를 제거하거나 다른 오브젝트로 대체하는 방법에 관한 것이다. 오브젝트란 동영상에 포함된 로고, 상표, 제품, 얼굴, 워터마크, 또는 특정 물체 등 검출하고자 하는 다양한 형상이 될 수 있다.

이하에서는 로고를 예로 들어 설명하나, 본 발명의 범위는 로고에 한정되지 않는다.

본 발명의 일 실시예에 따른 동영상에 포함된 로고를 처리하는 방법은 로고 검출, 로고 트랙킹, 로고 추출, 및 로고 제거 단계로 이루어진다.

로고 검출 단계에서 로고 처리 장치는 돌출 맵(saliency map)과 SIFT(Scale Invariant Feature Transform)을 이용하여 움직이는 로고를 자동적으로 검출한다. SIFT란, 크기와 회전에 불변하는 특징을 추출하여 대상을 검출하는 방법이다.

로고 트랙킹 단계와 로고 추출 단계에서 로고 처리 장치는 향상된 mean shift tracking 방법과 백워드 트랙킹 기술을 사용하여 로고 영역만을 컬러 정보를 이용하여 추출한다.

로고 제거 단계에서 로고 처리 장치는 검출된 로고 영역을 예제 기반 인페인팅(exemplar-based inpainting)을 이용하여 주변 영역으로 채운다. 예제 기반 인페인팅은 넓은 검출 영역을 아티팩트없이 채울 수 있다. 인페인팅은 영상으로부터 원하지 않는 물체를 삭제 후 영상을 복원하는 것을 의미한다. 상기 단계들은 컨트롤 플래그를 이용하여 상호 연결할 수 있다.

도 1은 본 발명의 일 실시예에 따른 동영상에 포함된 로고를 처리하는 장치의 블록도이다.

도 1을 참조하면, 본 실시예에 따른 로고를 처리하는 장치는 로고 검출부(100), 로고 트랙킹/추출부(110), 및 로고 제거부(120)로 구성된다.

로고 검출부(100)는 돌출 맵(saliency map)과 SIFT(Scale Invariant Feature Transform)을 이용하여 움직이는 로고를 자동적으로 검출한다. SIFT란, 크기와 회전에 불변하는 특징을 추출하여 대상을 검출하는 방법이다.

로고 트랙킹/추출부(110)는 향상된 mean shift tracking 방법과 백워드 트랙킹 기술을 사용하여 로고 영역만을 컬러 정보를 이용하여 추출한다.

로고 제거부(120)는 추출된 로고 영역을 예제 기반 인페인팅(exemplar-based inpainting)을 이용하여 주변 영역으로 채운다.

본 실시예에 따른 로고를 처리하는 장치를 이하에서 보다 상세하게 살펴보기로 한다.

도 1을 참조하면, F_n은 입력된 비디오의 n번째 프레임을 나타내고, 로고는 n_△프레임마다 한 번씩 검출된다. 즉, 로고 검출은 n_△프레임 간격으로 이루어진다. 또한, F_n'은 로고 검출이 수행된 프레임을 나타낸다.

따라서, n'은 다음의 수학식 1과 같이 표현될 수 있다.

로고 검출부(100)가 돌출 맵(saliency map)과 SIFT(Scale Invariant Feature Transform)을 이용하여 움직이는 로고를 자동적으로 검출한다. 로고가 F_n' 프레임에 존재한다면, 로고가 검출되고, 커널 영역 KR_n'이 초기화된다. 이후 컨트롤 플래그 CF_n' 이 1로 세트되고, 다음 단계가 수행된다.

로고 트랙킹/추출부(110)는 커널 영역 KR_n'을 이용하여 포워드/백워드 로고 트랙킹이 로고가 검출된 프레임부터 수행된다. 백워드 로고 트랙킹은 두 개의 로고 검출 시간 사이, 즉 (n'-n_△)^th과 n'^th 프레임 사이에 발생하는 로고를 트랙킹할 수 있도록 한다. 로고 트랙킹을 위해 사용되는 mean shift 방법에서 로고 영역 LR_n만이 KR_n으로부터 추출된다. 만일 트랙킹 중에 로고가 사라지거나 프레임에서 제거되면, 상태 플래그 SF_n이 1로 세팅되고, 로고 제거는 수행되지 않는다.

로고가 F_n' 과 F_n' _-1에 존재한다고 하여도 로고가 검출되지 않는 경우에는 KR_n'은 초기화되지 않는다. 그러나 SF_n' _-1 과 SF_n' 이 0인 경우(예를 들면, F_n' _-1과 F_n' 에 로고가 존재하는 경우), 로고 트랙킹은 이전 트랙킹 결과 KR_n' _- ₁ 를 가지고 계속 수행한다.

로고 제거부(120)는 검출된 로고 영역을 예제 기반 인페인팅 방법을 이용하여 제거한다.

은 로고가 제거된 최종 결과를 나타낸다.

표 1은 컨트롤 플래그들의 상태에 따른 의미를 나타내고, 표 2는 컨트롤 플래그의 값들에 따라 각 단계에서의 기능을 나타낸 것이다.

도 2는 컨트롤 플래그에 따른 타이밍도의 예를 도시한 것이다.

도 2를 참조하면, 로고가 존재하는 시간에는 SF_n이 0으로 세팅되고, (n'-n_△)번째 프레임에서 로고가 검출되면, CF_n이 1로 초기화된다. 이후, n'번째 프레임에서 로고가 검출되지 않으면, CF_n이 0으로 세트된다. 그러나 n'번째 프레임과 (n'+n_△)번째 프레임 사이에 SF_n이 0으로 세트되어 있으므로, 여전히 로고는 존재한다고 판단한다. 반면, CF_n이 1이고, SF_n인 경우에는 존재하지 않는다고 판단한다.

이하에서는 로고 검출부(100)를 보다 상세하게 살펴보기로 한다.

검출하고자 하는 로고가 입력 프레임 F_n에서 발견될 수 있으며, 자동적으로 로고를 검출하는 방법은 각 입력 프레임에 대하여 적용된다. 로고 검출의 많은 계산 복잡도는 전체 시스템의 많은 계산 시간으로 이어진다.

본 발명에서의 로고 검출은 돌출 맵과 SIFT를 이용하여 수행된다. 로고가 F_n 에서 검출되면, CF_n' 은 1로 세팅된다. 처음에 F_n에서 로고가 검출되면, 커널이 자동적으로 초기화된다.

로고들은 몇 가지 공통적인 특징들을 갖고 있다. 로고들은 보통 컬러와 같은 하이 콘트라스트 시각 특성을 갖고 있다. 로고의 크기는 전체 이미지 크기와 대비하여 작기 마련이다. 이러한 공통적인 특징들은 로고 검출에 사용된다.

로고 검출의 첫번째 단계는 로컬리제이션(localization) 단계이다. 이 단계에서는 후보로 선정된 로고 영역들이 전체 이미지로부터 추출된다.

로고들은 시각적 특성으로서, 하이 콘트라스트 영역을 갖고 있다. F_n의 고주파수 성분은 하이패스 필터를 이용하여 얻을 수 있다. 그런 다음, 고주파수 영역이 후보 로고 영역이 된다. 먼저 계산의 복잡성을 줄이기 위해 F_n이 다운샘플된다.

다음으로, 돌출(saliency) 값이 F_n의 다운샘플링된 픽셀에서 계산된다.

그리고, 임계값보다 큰 돌출 값을 갖는 픽셀이 후보 로고 영역이 된다.

한편, 템플릿 매칭 알고리즘은 후보 로고 영역들 중에서 하나의 로고 영역을 포함하는 사각형 커널을 발견하기 위해 필요하다.

로고 검출시에 커널을 초기화하기 위해서 SIFT를 이용한다. SIFT는 비디오 처리와 인식에서 사용된다. SIFT는 스케일 변경, 회전, 삼차원 시점 변경과 같은 비디오 시퀀스에서 로고들의 특성을 효율적으로 고려하기 때문이다.

SIFT는 4 단계로 이루어져 있다. 첫번째 단계는 스케일 공간(Scale-space)에서 극값(extrema)을 찾는 것이다. 이때, DoG(difference of Gaussians)이 사용된다.

두번째 단계는 키포인트 로컬리제이션이다. 여기서 낮은 콘트라스트를 갖는 불안정한 극값이 제거된다. 이때, 임계값보다 작은 DoG 값을 갖는 픽셀들은 제거된다. 또한 그래디언트(gradient) 크기값을 이용해 에지에 있는 픽셀들도 제거된다.

세번째 단계에서 키포인트들 주변에 인접하는 16×16 픽셀들의 방향 히스토그램을 생성한다. 방향 히스토그램은 (x,y)에서 그래디언트 크기 m_n(x,y)와 그래디언트 방향 θ_n(x,y)으로부터 생성된다.

그래디언트 크기 m_n(x,y)와 그래디언트 방향 θ_n(x,y)는 다음의 수학식 2와 수학식 3과 같이 연산될 수 있다.

여기서, G_n은 F_n의 가우시안 스무드 영상(Gaussian smoothed image)을 나타낸다. 방향 히스토그램은 36개의 방향 공간(bin)을 갖는다.

네번째 단계에서 방향 히스토그램을 샘플링함으로써, 얻어지는 지시자(descriptor)를 생성한다.

세번째 단계에서 키포인트 주변에 인접하는 16×16 픽셀들의 방향 히스토그램이 생성되는데, 네번째 단계에서는 16×16 영역을 4×4 서브 영역으로 나눈다. 각 지시자는 인접하는 4×4 픽셀들의 8개의 방향 공간을 가진 방향 히스토그램에 의해 생성된다. 지시자는 각 키포인트에 대하여 4×4×8=128 개의 엘리먼트 특성 벡터를 갖는다. 가장 잘 매칭된 점이 주어진 템플릿에 유사한 로고를 매칭하기 위해 발견되어야 한다.

SIFT에서 부정확하게 매칭되는 점들을 제거하기 위해, 가장 가까운 이웃의 거리와 두번째로 가까운 이웃을 비교한다. 만일 두 이웃 간의 거리비가 0.8보다 크면, 매칭된 점은 제거된다.

일반적으로, k-d 트리 서치 알고리즘은 좋은 성능을 갖지만, k-d 트리 서치 알고리즘의 성능은 고차원 데이터에 대해서는 좋은 성능을 갖지 못한다.

SIFT 지시자는 128 디멘션을 갖고 있어서, k-d 트리 알고리즘을 이용할 경우 많은 연산 시간이 소요되어 사용할 수 없다. Best Bin First라는 서치 알고리즘이 k-d tree 알고리즘에서 가장 가까운 거리를 수정한 search ordering을 사용한다. 이러한 힙 기반(heap-base) 우선순위 큐는 효과적으로 점을 결정하기 위해 사용된다. SIFT 매칭의 결과가 도 3에 도시되어 있다.

도 3은 입력 프레임 F_n과 로고 템플릿을 SIFT 매칭한 결과를 도시한 것이다.

도 3을 참조하면, SIFT 데이터베이스에 저장되어 있는 로고 템플릿과 입력 프레임 F_n 사이에서 각각 매칭된 점 페어가 연결되어 있다. SIFT 데이터베이스에는 검출 또는 제거하고자 하는 로고, 상표 등의 오브젝트들이 저장되어 있다.

도 3의 템플릿 로고는 48개의 특성점들을 갖고 있다. 이 정도의 특성점의 갯수는 로고를 검출하는데 충분하다. 다만, 로고 영역이 낮은 콘트라스트나 큰 모션 블러를 갖고 있는 경우라면, 충분한 특징점들을 갖지 못할 수 있다. n번째 프레임에서 컨트롤 플래그 CF_n은 다음의 수학식과 같은 조건에 따라 결정된다.

N_m는 매칭된 점들의 총 갯수를 나타내고, N_t는 템플릿의 특징점들을 나타낸다. 실험적으로는 th_o이 0.15로 세팅된다. 만일 CF_n이 1이면, 로고를 포함하는 커널의 크기가 계산되어야 한다.

만일 CF_n이 1이면, 커널의 크기와 중심점은 매칭된 특징점들에 의해 결정된다. 로고 템플릿과 입력 프레임 F_n사이에 매칭된 점들이 있다. 매칭된 점들의 가운데에 있는 점(x_c,y_c)은 다음과 같이 계산된다.

여기서, (x_i,y_i)는 i번째 매칭점의 좌표를 나타낸다.

이후, 커널의 크기를 측정하기 위해 매칭점들의 각각의 페어 사이의 유클리드 거리가 로고 템플릿과 입력 프레임 F_n에서 계산된다.

유클리드 거리비(Euclidian distance ratio) 집합은 다음과 같이 정의된다.

은 입력 프레임 F_n에서 i번째 매칭점과 j번째 매칭점 사이의 유클리드 거리를 나타낸다.

는 템플릿에서 i번째 매칭점과 j번째 매칭점 사이의 유클리드 거리를 나타낸다.

과

의 비는 템플릿과 입력 프레임 F_n에서 매칭된 오브젝트의 크기비와 대략적으로 유사하다.

또한, 입력 프레임에서 매칭된 로고의 회전각의 측정은 로고 템플릿과 입력 프레임 F_n 양쪽에서 두 개의 매칭된 점들 사이의 기울기의 차를 계산함으로써, 수행된다. 기울기 차의 집합 A는 다음의 수학식 8과 같다.

여기서,

는 입력 프레임 F_n에서 i번째 매칭점과 j번째 매칭점 사이의 기울기이다. 반면에

는 템플릿에서 i번째 매칭점과 j번째 매칭점 사이의 기울기이다.

기울기간의 차이는 회전각을 측정하는데 사용된다. E_n과 A_n의 메디안 값은 신뢰할 만한 커널 KR_n을 결정하기 위해 사용된다. 커널은 사각형 형태의 커널이다.

커널 KR_n의 높이, 폭, 중간 픽셀이 계산된다. (x_c,y_c)로부터 템플릿에 있는 네 개의 정점까지의 유클리드 거리가 계산된다. 이후, 커널의 중앙 픽셀 (x_c,y_c), 입력 프레임 F_n 과 템플릿에서 매칭된 로고의 크기비, 및 입력 프레임 F_n 과 템플릿 사이의 기울기 차를 이용하여 입력 프레임 F_n에서 커널 KR_n의 네 개의 정점이 계산된다. 커널 KR_n의 높이, 폭, 중간 픽셀은 네 개의 정점으로부터 계산된다.

로고 검출부(100)는 커널 KR_n의 영역을 결정하고, 로고 트랙킹/추출부(110)가 결정된 커널 KR_n의 영역을 로고 트랙킹시에 사용한다.

이하에서는 로고 트랙킹/추출부(110)를 보다 상세하게 살펴보기로 한다.

본 발명의 실시예에 따른 로고 트랙킹/추출부(110)는 두 가지 특정 조건을 만족시키는 것이 바람직하다.

조건 중 하나는 물체의 크기(예를 들면, 로고)가 쉽게 프레임마다 변화한다는 것을 가정하는 것이고, 또 다른 조건 하나는 트랙킹 결과가 로고 외에 어떠한 다른 영역도 포함하지 않는다는 점이다. 제거되는 영역을 로고 영역만으로 제한함으로써, 연산 시간이 감소되고, 인페인팅에 의한 불필요한 아티팩트들이 최소화될 수 있다.

종래의 동영상에서의 로고 제거 알고리즘은 트랙킹 단계를 포함하지 않았다. 왜냐하면, 종래에는 비디오 내의 고정된 로고에 초점을 맞추었기 때문이다.

그러나 본 발명에서는 로고 트랙킹을 위해 mean shift tracking 방법을 사용하여 상기 두 가지 조건을 만족시킨다.

mean shift tracking 방법은 컬러 정보를 사용하기 때문에 형태와 스케일 변화가 존재하는 환경하에서 다른 방법보다 더 나은 결과를 보여준다.

mean shift tracking 방법의 장점에도 불구하고, 몇가지 단점이 있다.

첫번째는 단지 컬러 정보만을 사용하기 때문에 밝기 변화의 경우에는 성능이 저하된다는 것이고, 두번째는 커널 기반 방법에서와 같이 고정된 커널 형태를 갖는다는 점이다.

본 발명에서는 모델 업데이트와 로고 추출을 통해 이러한 mean shift tracking 방법의 문제점을 해결하기로 한다.

이하에서는 배경을 배제하고, 모델을 업데이트하는 기술을 이용하여 개선된 mean shift tracking 방법을 설명하기로 한다.

본 발명의 실시예에 따른 개선된 mean shift tracking 방법은 다음과 같다.

mean shift tracking 방법의 절차는 주어진 오브젝트 모델과 현재 프레임에서 검출된 새로운 후보 모델 간의 유사도를 최대화하는 모델의 위치를 반복적으로 계산하는 것이다.

오브젝트 모델 s는 KR_n으로 주어지는 오브젝트 영역으로부터 생성되는 히스토그램으로서 정의된다. 유사하게 후보 모델 r은 후보 영역으로부터 생성되는 히스토그램으로 정의된다.

낮은 연산 비용을 위해 N_h-bin 히스토그램이 사용된다. 로고 트랙킹을 할 때, (x,y)의 위치를 나타내기 위해 굵은 글씨를 사용한다.

바타챠랴(Bhattacharyya) 계수를 테일러 전개하고, 근사화함으로써, 현재 중앙 위치의 수정된 파라미터인 위치

에서, 대역폭 h를 갖는 커널의 새로운 위치

은 반복적으로 다음의 수학식 10과 같이 연산된다.

여기서, x _i는 총 픽셀 개수가 N_k인 후보 모델 영역에서 정규화된 픽셀 위치이고, g(x)는 커널 프로파일의 도함수이다. 본 발명에서는 Epanechnikov 커널을 사용한다.

각각의 픽셀 x _i에서 웨이트는 바타챠랴(Bhattacharyya) 거리로부터 다음의 수학식 11과 같이 유도된다.

여기서,

,

, δ는 Kronecker delta 함수이다. b(x _i)는 위치 x _i에서의 픽셀값에 대응하는 히스토그램 빈(bin)이다.

본 발명에서는 배경을 배제하고, 모델을 업데이트하여 이러한 mean shift tracking 방법을 개선하기로 한다.

특히, 배경을 배제하는 방법은 커널로부터 로고를 추출하는데 사용된다.

첫번째로, 로고와 배경을 분리하여 배경을 제외시킨다. 오브젝트 윈도우라고 하는 커널 영역(foreground)의 히스토그램 h^f와 오브젝트 윈도우 주변 영역(background)에서 백그라운드 윈도우라고 하는 히스토그램 h^b가 각각 연산된다.

본 발명에서 백그라운드 윈도우는 오브젝트 윈도우보다 1.2배 더 큰 확장 영역으로부터 오브젝트 윈도우를 뺌으로써, 얻게 되는 영역으로 정의된다.

픽셀 x _i가 로고에 속하게 되는 로그 우도(log-likelihood)는 다음의 수학식12와 같이 계산된다.

여기서, ε은 수치적 불안전성을 피하기 위한 작은 상수이다.

만일 L(x _i)가 양수이면, x _i는 로고에 속한다고 판단되고, 그렇지 않은 경우에는 배경에 속한다고 판단될 수 있다.

로고를 포함하는 픽셀들은 로그우도의 신뢰성을 향상시키기 위해 하나의 픽셀만큼 확대된다.

도 4는 로고 추출의 예를 도시한 것이다.

도 4(a)는 녹색 박스로 오브젝트 윈도우를 도시한 것이고, 붉은 박스로 백그라운드 윈도우를 도시한 것이다. 도 4(b)는 추출된 로고를 도시한 것이며, 파란색 픽셀들로 표시되어 있다. 로고 제거부(120)는 인페인팅 알고리즘을 이용하여 추출된 로고를 제거한다.

두번째로, 포어그라운드 웨이트에서 백그라운드 웨이트를 뺀다.

수학식 11에서의 w_i를 다음의 수학식 13에 있는 식으로 대체할 수 있다.

여기서, 포어그라운드 웨이트 w_i ^f가 수학식 11과 유사하게 계산된다. 반면, 백그라운드 웨이트 w_i ^b는 (T. Zhao and R. Nevatia, “Tracking multiple humans in crowded environment,” in Proc. IEEE Int. Conf. Computer Vision and Pattern Recognition, vol. 2, pp. 406-413, Washington, DC, June 2004.)에서와 같은 형태로 생성할 수 있다.

λ^f와 λ^b는 각각 w_i ^f와 w_i ^b의 반영 비율을 결정한다. mean shift tracking 방법을 반복하여 수렴하면, 로고 영역 LR_n은 다음과 같이 추출된다.

여기서, L_n(x)는 n번째 프레임에서 mean shift tracking 방법을 반복하여 수렴하게 한 후의 로그 우도 L(x)를 나타낸다.

세번째로, mean shift tracking 방법을 반복하여 수렴하게 한 후 타겟 모델은 두 가지 조건 하에서 업데이트된다.

업데이트 첫번째 조건은 LR_n에서 로고의 픽셀 수는 임계값 th₁보다 크다는 것이다.

두번째 조건은 타겟 모델과 후보 모델 사이의 바타챠랴(Bhattacharyya) 계수 ρ는 임계값 th₂보다 크다는 것이다.

이러한 두 가지 조건이 만족되면, 타겟 모델은 현재의 후보 모델로 다음의 수학식과 같이 업데이트된다.

여기서, 만일 L(x _i)가 th₃보다 크면, T(x _i)는 1로 세트되고, 그렇지 않은 경우에는 0으로 세트된다.

본 발명에서 임계값 th₁는 실험적으로 오브젝트 윈도우에 전체 픽셀 수의 80%로 세트되고, th₂는 0.8로 세트된다. 임계값 th₃은 실험적으로 비디오 시퀀스의 각각의 로고에 대하여 최적화된다.

로고가 존재하는지 여부를 체크하기 위해 바타챠랴(Bhattacharyya) 계수 ρ와 LR_n에 존재하는 로고의 픽셀들의 수가 모델 업데이트의 경우와 유사하게 사용된다.

만일 바타챠랴(Bhattacharyya) 계수 ρ와 LR_n에 존재하는 로고의 픽셀들의 수가 각각 th₄와 th₅보다 작다면, 로고가 사라지거나 현재의 프레임에서 사라진 것으로 판단할 수 있다. 따라서, 상태 플래그 SF_n은 다음과 같이 결정될 수 있다.

여기서, 실험적으로 th₄는 오브젝트 윈도우의 전체 픽셀 수의 40%로 세트되고, th₅는 0.7로 세트된다.

이상에서는 개선된 mean shift tracking 방법을 살펴보았다. 이하에서는 로고 트랙킹/추출부(110)에서의 백워드 트랙킹과 로고 추출방법에 대하여 상세히 살펴보기로 한다.

오브젝트 트랙킹은 일시적으로 포워드 방향으로 수행된다.

그러나 본 발명에서는 검출된 로고를 갖는 프레임으로부터 로고 트랙킹이 포워드 방향과 백워드 방향 양쪽으로 수행된다. 이는 로고 검출이 n_△프레임마다 주기적으로 수행되기 때문이다. 본 발명에서 로고 검출은 n_△프레임마다 한 번씩 수행된다. 따라서, 로고 검출 시간 사이 즉, (n'-n_△)^th과 n'^th 프레임 사이에 발생하는 새로운 로고들을 검출하여야 한다. 그렇지 않으면, 로고 검출 시간 사이에 나타나는 로고들은 제거되지 않은 상태로 남아있게 된다.

이러한 문제를 해결하기 위해 현재의 로고 검출 프레임(n'번째프레임)으로부터 백워드 방향으로 이전 로고 검출 프레임((n'-n_△)번째프레임)까지 로고 트랙킹이 수행된다. 도 5를 참조하여 포워드 트랙킹과 백워드 트랙킹에 대하여 보다 상세하게 살펴보기로 한다.

도 5는 로고 트랙킹시의 타이밍도를 도시한 것이다.

도 5(a)를 참조하면, 로고 검출이 수행될 때, 새로운 로고가 n'번째프레임에서 나타난다. 이 경우, 백워드 트랙킹은 필요하지 않다. 반면에 도 5(b)에 도시된 바와 같이 만일 새로운 로고가 (n'-n_△)번째와 n'번째프레임 사이에 나타나는 경우에는 움직이는 로고가 백워드 트랙킹에 의해 검출된다.

실험에서, n_△은 5로 세팅된다. 로고 검출이 로고 트랙킹보다 시간이 오래 걸리기 때문에 작은 n_△은 연산시간을 과도하게 증가시킨다. 반면에 큰 n_△은 로고 검출의 정확도를 감소시킨다.

현재 프레임이 로고가 있는지 여부의 결정은 수학식 16과 같이 결정될 수 있다. 수학식 16의 SF_n은 포워드 트랙킹을 초기화한다. 이러한 SF_n의 이용은 로고가 존재하지 않는 프레임에서의 불필요한 로고 트랙킹과 로고 제거를 감소시킬 수 있다.

로고 트랙킹/추출부(110)가 로고를 추출하는 방법에 대하여 상세하게 살펴보기로 한다.

로고 트랙킹 결과는 오브젝트를 포함하는 사각형으로 나타난다. 그러나, 본 발명에서는 로고 트랙킹 과정에서 얻은 것으로서, 배경을 제거한 결과를 사용한다. 이것은 제거될 영역에 있는 픽셀들의 수를 최소화할 수 있으며, 인페인팅에 의한 계산시간을 줄일 수 있다.

도 6은 로고 추출과정을 거친 경우와 그렇지 않은 경우의 로고 제거 결과를 비교한 도면이다.

신뢰할 만한 로고 추출로 인해 도 6에 도시된 바와 같이 인페인팅에 의한 불필요한 아티팩트들을 방지할 수 있다.

도 6(a)에 도시된 바와 같이 로고 추출과정을 거치지 않은 경우에는 불필요한 아티팩트가 엄지 손가락 주변에 발생한다. 그러나 도 6(b)에 도시된 바와 같이 로고 추출 과정을 거치면 로고가 에러없이 제거되어 아티팩트는 발생하지 않게 된다.

이하에서는 로고 제거부(120)에 대하여 상세하게 살펴보기로 한다.

로고 제거부(120)는 로고를 제거하기 위하여 이미지 인페인팅 알고리즘으로 로고 영역을 채운다.

이미지 인페인팅에는 두 가지 접근 방법으로 PDE 기반 방법과 예제 기반 방법이 있다. PDE 기반 방법은 Diffusion 방정식을 갖는 인접 픽셀값들을 이용하여 제거되어야 하는 로고 영역을 나타내는 타겟 영역을 채운다. 이 방법의 단점은 눈에 띄는 블러 효과를 넓은 영역에 생성하는 것이다.

본 발명에서는 눈에 띄는 아티팩트 없이 타겟 영역을 채우는 것이 목적이다. 그러므로 로고 제거를 위해 PDE 기반 인페인팅 방법을 사용하는 것은 부적절하다.

스케일에 따라 달라지지 않으면서 블록 기반 텍스쳐 합성을 사용하는 예제 기반 인페인팅 방법을 사용한다. 블러링과 같은 눈에 띄는 아티팩트들 없이 넓은 로고 영역을 채우는 것이 적절할 것이다.

예제 기반 인페인팅에서 타겟 영역은 소스 영역에 있는 텍스쳐 패치들로부터 재구성된다. 채우는 순서는 예제 기반 인페인팅의 성능에 영향을 미친다. 채우는 순서는 로고 영역 LR_n에 있는 픽셀의 우선순위에 의해 결정된다.

예제 기반 인페인팅에서는 두 가지 성분, 픽셀 p에서 우선순위 P(p)를 평가하기 위해 컨피던스 성분 C(p)과 데이터 성분 D(p)을 사용한다.

컨피던스 성분 P(p)는 다음과 같이 연산된다.

컨피던스 성분 C(p)는 다음의 수학식 18과 같이 표현된다. 컨피던스 성분 C(p)는 타겟 패치

에서 소스 영역 SR_n의 비율을 표시한다.

타겟 패치

는 경계 ∂LR_n을 따라 위치하고 있는 픽셀 p에서 중심을 갖는 고정된 크기를 갖는 윈도우이고,

는

의 영역, 즉, 픽셀들의 수이다.

C(p)의 초기값은 C(p)=0, ∀p ∈ LR_n 또는 C(p)=1, ∀p ∈ SR_n이다. 그러므로, 높은 비율을 갖는 패치가 먼저 채워진다.

데이터 성분 D(p)는 선형 구조를 유지하기 위해 경계 ∂LR_n의 에지 강도를 측정한다. 여기서는 total variation diffusion을 이용하는 cross-isophote 모델을 사용하며, 인텐서티(intensity)의 굴곡이 데이터 성분 D(p)으로 정의된다.

인텐서티 성분은 I_n으로 표시되며, n번째 프레임의 그레이 스케일 값이다.

우선순위는 양의 값을 가져야 하므로, 데이터 성분 D(p)는 디퓨전 성분의 절대값으로 표시된다.

데이터 성분 D(p)은 소스 영역에 있는 선형 구조를 타겟 영역으로 전달한다.

메워지는 구조들은 소스 영역에 있는 선형 구조를 전달함으로써, 복원된다. 등광도선 방향에 있는 큰 │▽I_n│을 갖는 패치가 먼저 합성된다.

최대 우선순위를 갖는 픽셀

와 가장 유사한 소스 패치

를 선택한다. 여기서,

는 소스 패치의 중심 값이다. 패치

로부터 최소 거리를 갖는 패치를 발견하기 위해 전체 소스 영역 SR_n을 검색한다.

는 다음과 같이 표현될 수 있다.

거리

는 다음과 같이 차이를 제곱한 결과를 합함으로써, 계산된다.

타겟 패치

는 선택된 소스 패치

에 의해 복제된다.

따라서, 컨피던스 성분 C(p)은 다음과 같이 업데이트된다.

따라서, 로고 영역 LR_n과 경계∂LR_n이 업데이트된다.

도 7은 로고 제거를 위한 이미지 인페인팅 알고리즘에 사용되는 표기 방식을 나타낸 것이다.

타겟 영역 LR_n(노란 픽셀들)에 인접한 영역은 혼합 구조나 복합 구조가 아닌 반복되는 패턴을 가진다. 따라서, 경계 ∂LR_n(빨간 픽셀) 주변영역을 소스 영역 SR_n(파란 픽셀)으로 제한하여 연산 시간을 감소시킨다. 실험에서는 소스 영역을 각 경계 픽셀에서 20×20 윈도우로 세팅하고, 패치 사이즈는 7×7로 세팅하였다.

도 8은 본 발명의 일 실시예에 따른 동영상에 포함된 로고를 처리하는 방법의 흐름도이다.

도 8을 참조하면, 본 실시예에 따른 로고를 처리하는 방법은 도 1에 도시된 로고를 처리하는 장치에서 시계열적으로 처리되는 단계들로 구성된다. 따라서, 이하 생략된 내용이라 하더라도 도 1에 도시된 로고를 처리하는 장치에 관하여 이상에서 기술된 내용은 본 실시예에 따른 로고를 처리하는 방법에도 적용된다.

800 단계에서 로고를 처리하는 장치는 동영상의 일정한 프레임 간격마다 로고가 포함된 것으로 판단되는 후보 영역을 검출한다.

상기 동영상의 일정한 프레임 간격마다 입력되는 프레임의 고주파수 영역이 상기 후보 영역으로 검출될 수 있다.

또한, 상기 동영상의 일정한 프레임 간격마다 입력되는 프레임을 다운샘플링한후 고주파 영역을 상기 후보 영역으로 검출할 수 있다.

또한, 상기 동영상의 일정한 프레임 간격마다 입력되는 프레임으로부터 샘플링된 픽셀로부터 돌출(saliency) 값을 계산하고, 상기 계산된 돌출 값이 소정의 임계값보다 큰 경우의 픽셀들을 상기 후보 영역으로 검출할 수 있다.

810 단계에서 로고를 처리하는 장치는 상기 검출된 후보 영역과 SIFT(Scale Invariant Feature Transform) 데이터베이스에 저장되어 있는 템플릿을 비교하여, 상기 후보 영역과 상기 템플릿의 특징점을 매칭한다.

820 단계에서 로고를 처리하는 장치는 상기 매칭된 특징점이 상기 템플릿의 특징점의 일정 비율 이상이면, 상기 로고로 인식한다.

830 단계에서 로고를 처리하는 장치는 상기 매칭된 특징점들의 중심값을 계산하고, 오브젝트 영역을 결정한다. 로고 트랙킹을 위해 상기 결정된 오브젝트 영역으로부터 생성되는 히스토그램으로 정의되는 오브젝트 모델과 현재 프레임에서 검출된 새로운 후보 모델 간의 유사도를 최대화하는 후보 모델의 위치를 반복하여 계산하고, 유사도가 최대인 후보 모델로 오브젝트 모델을 업데이트하는 과정을 더 포함하는 것이 바람직하다. 또한, 상기 오브젝트 영역이 결정되면, 직전에 검출한 프레임까지 백워드 트랙킹을 수행하는 것이 바람직하다.

840 단계에서 로고를 처리하는 장치는 상기 오브젝트 영역에 속하는 픽셀별로 우도를 판단하여 상기 로고와 배경을 분리한다. 이때, 상기 오브젝트 영역에 속하는 픽셀별 우도는 로그우도일 수 있다.

유사도가 최대인 후보 모델로 오브젝트 모델을 업데이트하는 과정을 더 포함하는 경우, 상기 업데이트된 오브젝트 모델에 대응하는 오브젝트 영역에 속하는 픽셀별로 우도를 판단하여 상기 로고와 배경을 분리한다.

850 단계에서 로고를 처리하는 장치는 상기 분리된 로고에 해당하는 영역을 제거하거나, 다른 로고로 대체한다.

상기 분리된 로고에 해당하는 영역을 제거할 때, 제거 대상이 되는 타겟 영역을 소스 영역에 있는 텍스쳐 패치들로부터 재구성하는 예제 기반 인페인팅 방법을 이용하되, 상기 타겟 영역을 채우는 순서는 상기 오브젝트 영역에 있는 픽셀의 우선순위에 의해 결정될 수 있다.

본 발명의 실시예들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims

동영상의 일정한 프레임 간격마다 오브젝트가 포함된 것으로 판단되는 후보 영역을 검출하는 단계;
상기 검출된 후보 영역과 SIFT(Scale Invariant Feature Transform) 데이터베이스에 저장되어 있는 템플릿을 비교하여, 상기 후보 영역과 상기 템플릿의 특징점을 매칭하는 단계;
상기 매칭된 특징점이 상기 템플릿의 특징점의 일정 비율 이상이면, 상기 오브젝트로 인식하는 단계;
상기 매칭된 특징점들의 중심값을 계산하고, 오브젝트 영역을 결정하는 단계;
상기 오브젝트 영역에 속하는 픽셀별로 우도를 판단하여 상기 오브젝트와 배경을 분리하는 단계; 및
상기 분리된 오브젝트에 해당하는 영역을 제거하거나, 상기 분리된 오브젝트에 해당하는 영역을 다른 오브젝트로 대체하는 단계를 포함하는 것을 특징으로 하는 동영상에 포함된 오브젝트를 처리하는 방법.
제 1 항에 있어서,
상기 결정된 오브젝트 영역으로부터 생성되는 히스토그램으로 정의되는 오브젝트 모델과 현재 프레임에서 검출된 새로운 후보 모델 간의 유사도를 최대화하는 후보 모델의 위치를 반복하여 계산하되, 배경이 배제된 오브젝트 모델과 배경이 배제된 후보 모델을 사용하고, 유사도가 최대인 후보 모델로 상기 오브젝트 모델을 업데이트하는 단계를 더 포함하고,
상기 오브젝트와 배경을 분리하는 단계는,
상기 업데이트된 오브젝트 모델에 대응하는 오브젝트 영역에 속하는 픽셀별로 우도를 판단하여 상기 오브젝트와 배경을 분리하는 것을 특징으로 하는 동영상에 포함된 오브젝트를 처리하는 방법.
제 1 항에 있어서,
상기 오브젝트 영역이 결정되면, 직전에 검출한 프레임까지 백워드 트랙킹을 수행하는 단계를 더 포함하는 것을 특징으로 하는 동영상에 포함된 오브젝트를 처리하는 방법.
제 1 항에 있어서,
상기 오브젝트 영역에 속하는 픽셀별 우도는 로그우도인 것을 특징으로 하는 동영상에 포함된 오브젝트를 처리하는 방법.
제 1 항에 있어서,
상기 후보 영역을 검출하는 단계는,
상기 동영상의 일정한 프레임 간격마다 입력되는 프레임의 고주파수 영역을 상기 후보 영역으로 검출하는 것을 특징으로 하는 동영상에 포함된 오브젝트를 처리하는 방법.
제 1 항에 있어서,
상기 후보 영역을 검출하는 단계는,
상기 동영상의 일정한 프레임 간격마다 입력되는 프레임을 다운샘플링하는 것을 특징으로 하는 동영상에 포함된 오브젝트를 처리하는 방법.
제 1 항에 있어서,
상기 후보 영역을 검출하는 단계는,
상기 동영상의 일정한 프레임 간격마다 입력되는 프레임으로부터 샘플링된 픽셀로부터 돌출(saliency) 값을 계산하는 단계; 및
상기 계산된 돌출 값이 소정의 임계값보다 큰 경우의 픽셀들을 상기 후보 영역으로 검출하는 단계를 포함하는 것을 특징으로 하는 동영상에 포함된 오브젝트를 처리하는 방법.
제 1 항에 있어서,
상기 분리된 오브젝트에 해당하는 영역을 제거할 때, 제거 대상이 되는 타겟 영역을 소스 영역에 있는 텍스쳐 패치들로부터 재구성하는 예제 기반 인페인팅 방법을 이용하되, 상기 타겟 영역을 채우는 순서는 상기 오브젝트 영역에 있는 픽셀의 우선순위에 의해 결정되는 것을 특징으로 하는 동영상에 포함된 오브젝트를 처리하는 방법.
동영상의 일정한 프레임 간격마다 오브젝트가 포함된 것으로 판단되는 후보 영역을 검출하고, 상기 검출된 후보 영역과 SIFT(Scale Invariant Feature Transform) 데이터베이스에 저장되어 있는 템플릿을 비교하여, 상기 후보 영역과 상기 템플릿의 특징점을 매칭하고, 상기 매칭된 특징점이 상기 템플릿의 특징점의 일정 비율 이상이면, 상기 오브젝트로 인식하는 오브젝트 검출부;
상기 매칭된 특징점들의 중심값을 계산하고, 오브젝트 영역을 결정하고, 상기 오브젝트 영역에 속하는 픽셀별로 우도를 판단하여 상기 오브젝트와 배경을 분리하는 오브젝트 추출부; 및
상기 분리된 오브젝트에 해당하는 영역을 제거하거나, 다른 오브젝트로 대체하는 오브젝트 제거부를 포함하는 것을 특징으로 하는 동영상에 포함된 오브젝트를 처리하는 장치.
제 9 항에 있어서,
상기 결정된 오브젝트 영역으로부터 생성되는 히스토그램으로 정의되는 오브젝트 모델과 현재 프레임에서 검출된 새로운 후보 모델 간의 유사도를 최대화하는 후보 모델의 위치를 반복하여 계산하되, 배경이 배제된 오브젝트 모델과 배경이 배제된 후보 모델을 사용하고, 유사도가 최대인 후보 모델로 오브젝트 모델을 업데이트하는 오브젝트 트랙킹부를 더 포함하고,
상기 오브젝트 추출부는 상기 업데이트된 오브젝트 모델에 대응하는 오브젝트 영역에 속하는 픽셀별로 우도를 판단하여 상기 오브젝트와 배경을 분리하는 것을 특징으로 하는 동영상에 포함된 오브젝트를 처리하는 장치.
제 10 항에 있어서,
상기 오브젝트 트랙킹부는 상기 오브젝트 검출부에서 상기 오브젝트 영역이 결정되면, 직전에 검출한 프레임까지 백워드 트랙킹을 수행하는 것을 특징으로 하는 동영상에 포함된 오브젝트를 처리하는 장치.
제 9 항에 있어서,
상기 오브젝트 영역에 속하는 픽셀별 우도는 로그우도인 것을 특징으로 하는 동영상에 포함된 오브젝트를 처리하는 장치.
제 9 항에 있어서,
상기 오브젝트 검출부는 상기 동영상의 일정한 프레임 간격마다 입력되는 프레임의 고주파수 영역을 상기 후보 영역으로 검출하는 것을 특징으로 하는 동영상에 포함된 오브젝트를 처리하는 장치.
제 9 항에 있어서,
상기 오브젝트 검출부는 상기 동영상의 일정한 프레임 간격마다 입력되는 프레임을 다운샘플링하는 것을 특징으로 하는 동영상에 포함된 오브젝트를 처리하는 장치.
제 9 항에 있어서,
상기 오브젝트 검출부는 상기 동영상의 일정한 프레임 간격마다 입력되는 프레임으로부터 샘플링된 픽셀로부터 돌출(saliency) 값을 계산하고, 상기 계산된 돌출 값이 소정의 임계값보다 큰 경우의 픽셀들을 상기 후보 영역으로 검출하는 것을 특징으로 하는 동영상에 포함된 오브젝트를 처리하는 장치.
제 9 항에 있어서,
상기 오브젝트 제거부는 상기 분리된 오브젝트에 해당하는 영역을 제거할 때, 제거 대상이 되는 타겟 영역을 소스 영역에 있는 텍스쳐 패치들로부터 재구성하는 예제 기반 인페인팅 방법을 이용하되, 상기 타겟 영역을 채우는 순서는 상기 오브젝트 영역에 있는 픽셀의 우선순위에 의해 결정되는 것을 특징으로 하는 동영상에 포함된 오브젝트를 처리하는 장치.
제 1 항 내지 제 8 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.