KR20030062313A

KR20030062313A - 영상 변환 및 부호화 기술

Info

Publication number: KR20030062313A
Application number: KR10-2003-7001886A
Authority: KR
Inventors: 허먼필립빅터; 폭스사이몬리차드; 도레이마크로버트; 플랙줄리엔찰스
Original assignee: 다이나믹 디지탈 텝스 리서치 피티와이 엘티디
Priority date: 2000-08-09
Filing date: 2001-08-09
Publication date: 2003-07-23
Also published as: WO2002013141A1; MXPA03001171A; CA2418800A1; US20020048395A1; EP1316068A1; JP2004505393A; US7035451B2

Abstract

원근 맵을 생성하는 방법은 영상의 적어도 하나의 픽셀 또는 부분에 원근을 부여하는 단계와, 상기 영상의 적어도 하나의 픽셀 또는 부분에 대한 상대적인 위치 및 영상 특성을 결정하는 단계, 상기 원근과 영상 특성 및 상대적인 위치를 이용하여 상대적인 위치와 영상 특성의 함수로서 원근 특성을 알아내기 위한 알고리즘의 구성을 결정하는 단계, 상기 알고리즘을 이용하여 상기 영상의 각각의 픽셀 또는 부분에 대한 원근 특성을 계산하는 단계를 포함하여 구성된다. 상기 원근 특성은 상기 영상에 대한 원근 맵을 형성한다. 상기 원근 맵을 처리하는 제 2단계에서 상대적인 위치, 영상 특성 및 키 프레임까지의 거리를 이용하여 키 프레임이 아닌 프레임에 대한 원근 맵을 생성하기 위하여 키 프레임을 형성한다.

Description

영상 변환 및 부호화 기술{IMAGE CONVERSION AND ENCODING TECHNIQUES}

여러 가지 영상 처리 작업을 위해서는 영상내의 대상물의 원근(depth)을 알아야 한다. 이러한 영상 처리작업에는 영화 및 비디오 시퀀스에 특수 효과를 적용하는 것과 2차원 영상을 입체적인 3차원 영상으로 변환시키는 작업이 포함된다. 대상물의 원근(depth)를 결정하는 것은 원근 맵을 형성하는 과정이라고 할 수 있다. 원근 맵에 있어서, 각각의 대상물에는 회색 음영이 가해지는데 이 음영은 특정한 점으로부터의 대상물의 원근을 나타낸다. 일반적으로, 멀리 있는 대상물에는 어두운 음영이 가해지고 가까운 대상물에는 밝은 음영이 가해진다. 원근 맵을 생성하기 위한 표준 규약은 아직 채택되지 않았으며, 서로 다른 원근을 나타내기 위해서는 역 컬러링(reverse colouring)을 사용하거나 각기 다른 색들을 사용할 수 있다. 본 명세서에서는 멀리 있는 대상물은 가까운 대상물보다 어둡게 하고 그레이 스케일(gray scale)로 컬러링하는 것으로 설명될 것이다.

역사적으로 2차원 영상으로부터 원근 맵을 생성하는 것은 수동으로 행해져 왔다. 컴퓨터에게 영상은 단지 일련의 픽셀들인 반면에 사람은 대상물과 이와 관련된 원근을 구별할 수 있다.

원근 맵을 생성하는데는 변환될 영상의 각각의 대상물의 윤곽을 그리고 대상물에 원근을 부여하는 시스템이 필요하다. 이러한 과정은 느리게 진행되며 시간과 비용이 든다. 윤곽을 그리는 단계는 마우스와 함께 소프트웨어 프로그램을 사용하여 수행한다. 이 작업을 실행하는데 사용될 수 있는 소프트웨어 프로그램의 예로는 Adobe의 "애프터 이펙트(After Effects)"가 있다. "애프터 이펙트"를 사용하는 작업자는 원근을 부여할 각각의 대상물의 윤곽을 그린 다음, 관찰자(viewer)와 대상물간의 원근 또는 거리를 규정하는 회색 음영을 상기 대상물에 입힌다. 이 과정을 영상내의 각각의 대상물에 대해 반복적으로 행한다. 또한, 예컨대 영화와 같이 다수의 영상들이 존재하는 경우에는 상기 과정을 영화의 각각의 영상 또는 프레임에 대해 수행해야 한다.

종래의 시스템에 있어서, 영상의 윤곽선은 예컨대 베지어 곡선(Bezier curve)과 같은 곡선으로 묘사된다. 이와 같은 곡선을 이용하면 작업자는 대상물의 윤곽선이 대상물과 정확하게 정렬되도록 윤곽선의 형태를 수정할 수 있다.

영화 또는 비디오와 같이 일련의 영상들의 원근 매핑이 요구되는 경우에는 상기 과정을 시퀀스내의 각각의 프레임에 대해 반복한다.

대상물의 크기, 위치 및/또는 원근은 시퀀스를 통해 변화될 수 있다. 이 경우, 작업자는 각각의 프레임내의 대상물을 수동으로 트랙킹하고 곡선을 수정하여 각각의 프레임을 처리하고, 필요에 따라 회색 음영을 변화시켜 대상물의 원근을 갱신할 필요가 있다. 이것은 느리고 지루하며 시간과 비용이 많이 드는 과정이다.

이러한 과정을 개선하기 위해 여러 가지 시도들이 이루어졌다. 이러한 종래 기술에는 대상물이 프레임에서 프레임으로 이동하면 대상물의 윤곽선을 자동적으로 트랙킹하는 기술들이 있다. 이러한 기술의 일례로 활성 윤곽선(Active contour)을 적용하는 기술이 있다(참조: Active contour - Andrew Blake & Michael Isard - ISBN 3-540-76217-5). 이 기술의 주요 취약점은 대상물의 예상되는 움직임을 트랙킹하는 기술을 실행하는 소프트웨어를 가르쳐야 한다는 것이다. 이것은 예상되는 움직임을 모르거나 복잡한 변형이 예상되거나 서로 다른 움직임 특성을 갖는 다수의 대상물들을 동시에 트랙킹해야 하는 경우에는 심각한 문제가 된다.

포인트에 기초한 트랙킹(Point-based tracking) 기술도 윤곽선의 움직임을 정의하기 위해 사용되어 왔다. 이것은 코모션(Commotion) 및 애프터 이펙트와 같은 편집 환경에서 인기가 있는 기술이다. 그러나 그 움직임이 대상물의 움직임을 모두 반영하는 적절한 트랙킹 포인트를 식별하는 것이 불가능한 경우가 많기 때문에 이 기술의 적용은 매우 제한된다. 포인팅 트랙킹은 때때로 대상물이 단순한 변환을 거칠 경우에는 적용할 수 있으나, 형태 변형, 폐색(occulsion) 또는 일반적인 다양한 다른 문제들을 처리하지 못한다.

이스라엘 회사 AutoMedia는 AutoMasker라는 소프트웨어 프로그램을 생산하였다. 이 프로그램은 작업자로 하여금 대상물의 윤곽선을 그리고 그것을 프레임에서 프레임으로 트랙킹하도록 할 수 있다. 이것은 대상물의 색을 트랙킹에 의존하므로 유사한 색의 대상물들이 교차하는 경우에는 작용할 수 없다. 이 프로그램은 또한 연속되는 프레임들을 통해 크기가 변하는 대상물을 트랙킹하는데 어려움이 있다.예를 들면, 대상물이 관찰자 쪽으로 가까워지거나 스크린 상에서 앞쪽으로 이동할 때 이 대상물을 트랙킹하는데 어려움이 있다.

적용 가능한 정도로 원근 맵을 부여하고 트랙킹할 수 있는 기술이 없기 때문에 원근 맵은 아직도 수동 시스템으로 생성하고 있다.

원래는 2차원 시퀀스를 기록하는데 사용되는 카메라의 움직임의 재구성에 의존하는 종래의 기술들이 있으나, 이 기술들은 본래의 영상 시퀀스내의 카메라의 움직임과 트랙킹 포인트로 사용할 수 있는 각각의 프레임내의 잘 정의된 특징을 필요로 한다는 취약점을 가진다.

본 발명은 하나 이상의 2차원 영상으로부터 원근 맵(Depth map)을 얻기 위한 개선된 기술에 관한 것이다.

도 1은 단계1의 트레이닝 과정의 일실시예를 나타낸 도면,

도 2는 단계1의 변환 과정의 일실시예를 나타낸 도면,

도 3은 단계2의 트레이닝 과정의 일실시예를 나타낸 도면,

도 4는 단계2의 변환 과정의 일실시예를 나타낸 도면,

도 5는 학습과정이 어떻게 특성 공간을 분할하는지를 보여주는 도면,

도 6은 단계2를 위한 다른 원근 맵 생성 과정을 나타낸 도면,

도 7은 단계2에서 각각의 픽셀의 원근을 결정하는 방법을 나타낸 도면,

도 8은 후보 트레이닝 샘플을 검색하는 과정을 나타낸 도면,

도 9는 다수의 후보 트레이닝 샘플들로부터 원근을 계산하는 것을 나타낸 도면.

현재, 작업자는 영상의 각각의 프레임에 대한 원근 맵을 수동으로 생성하여 겨우 기준에 맞는 결과를 얻어야 한다. 이에 본 발명은 수동으로 원근을 생성해야 하는 프레임의 수를 감소시킴으로써 작업자가 원근 맵을 생성하는데 소요되는 시간을 줄이는 것을 그 목적으로 한다.

그러나 여전히 원근 맵을 수동으로 생성해야 하는 프레임들이 존재한다. 이에 본 발명의 또 다른 목적은 이들 프레임에 대한 원근 맵을 수동으로 생성하는 과정을 돕는 데에 있다.

상기 목적을 달성하기 위하여 본 발명은 영상의 적어도 하나의 픽셀 또는 부분에 원근을 부여하는 단계와, 상기 영상의 적어도 하나의 픽셀 또는 부분에 대한 상대적인 위치 및 영상 특성을 결정하는 단계, 상기 원근과 영상 특성 및 상대적인 위치를 이용하여 상대적인 위치와 영상 특성의 함수로서 원근 특성을 알아내기 위한 제 1알고리즘의 구성을 결정하는 단계, 상기 제 1알고리즘을 이용하여 상기 영상의 각각의 픽셀 또는 부분에 대한 원근 특성을 계산하는 단계를 포함하여 구성되되, 상기 원근 특성이 상기 영상에 대한 원근 맵을 형성하는 것을 특징으로 하는 원근 맵을 형성하는 방법을 제공한다.

또 다른 일면에 있어서, 본 발명은 영상의 적어도 하나의 픽셀 또는 부분에 원근을 부여하는 단계와, 상기 영상의 적어도 하나의 픽셀 또는 부분에 대한 x,y좌표 및 영상 특성을 결정하는 단계, 상기 원근과 영상 특성 및 x,y좌표를 이용하여 x,y좌표와 영상 특성의 함수로서 원근 특성을 알아내기 위한 제 1알고리즘을 결정하는 단계, 상기 제 1알고리즘을 이용하여 상기 영상의 각각의 픽셀 또는 부분에 대한 원근 특성을 계산하는 단계를 포함하여 구성되되, 상기 원근 특성이 상기 영상에 대한 원근 맵을 형성하는 것을 특징으로 하는 원근 맵을 형성하는 방법을 제공한다.

또 다른 일면에 있어서, 본 발명은 영상 시퀀스의 적어도 하나의 프레임에 대한 원근 맵을 입력하는 단계와, 상기 적어도 하나의 원근 맵을 이용하여 상대적인 위치와 영상 특성의 함수로서 원근 특성을 확인하기 위한 제 2알고리즘의 제 2구성을 결정하는 단계, 및 상기 알고리즘을 이용하여 상기 영상 시퀀스의 각각의 프레임에 대한 원근 맵을 생성하는 단계를 포함하여 구성되는 영상 시퀀스에 대한 일련의 원근 맵들을 생성하는 방법을 제공한다.

또 다른 일면에 있어서, 본 발명은 영상 시퀀스로부터 적어도 하나의 키 프레임을 선택하는 단계와, 적어도 하나의 키 프레임 각각에 대하여 각각의 프레임의적어도 하나의 픽셀 또는 일부분에 원근을 부여하는 단계, 상기 각각의 키 프레임의 적어도 하나의 픽셀 또는 부분에 대하여 상대적인 위치(예를 들면, x,y좌표)와 영상 특성을 결정하는 단계, 상기 적어도 하나의 키 프레임 각각에 대한 원근과 영상 특성 및 상대적인 위치를 이용하여 상대적인 위치와 원근 특성의 함수로서 원근 특성을 확인하기 위하여 상기 적어도 하나의 프레임 각각에 대한 제 1알고리즘의 제 1구성을 결정하는 단계, 상기 제 1알고리즘을 이용하여 상기 적어도 하나의 키 프레임의 각각의 픽셀 또는 부분에 대한 원근 특성을 계산하는 단계, 상기 각각의 원근 맵을 이용하여 상대적인 위치와 영상 특성의 함수로서 각각의 프레임에 대한 원근 특성을 확인하기 위한 제2알고리즘의 제2구성을 결정하는 단계, 및 상기 제2알고리즘을 이용하여 상기 영상 시퀀스의 각각의 프레임에 대한 원근 맵을 생성하는 단계를 포함하여 구성되되, 상기 원근 특성은 상기 적어도 하나의 키 프레임에 대한 원근 맵을 형성하는 것을 특징으로 하는 영상 시퀀스에 대한 일련의 원근 맵을 생성하는 방법을 제공한다.

상대적인 위치 및 영상 특성의 결과로서 원근 맵을 생성하기 위해 알고리즘에 의한 시스템은 실제로 다수의 서로 다른 함수들을 생성한다. 바람직한 시스템에 있어서, 상대적인 위치는 x,y 좌표의 값이 된다.

본 발명을 구현하는 시스템은 시퀀스의 어느 프레임을 키 프레임으로 할 것인지를 미리 결정한다. 예를 들면, 5번째 프레임을 키 프레임으로 하도록 결정한다. 또한, 알고리즘은 시간을 알고리즘의 입력으로 간주하여 프로세싱을 더욱 개선한다.

본 발명은 관련된 2차원 영상을 위한 원근 맵을 생성하는 과정을 개선하기 위한 것이다. 본 발명의 바람직한 실시예는 키 프레임의 원근 맵을 생성하는 단계와 나머지 맵을 생성하는 단계의 두 가지 단계를 포함한다.

첫 번째 단계에서 사용자로부터 적은 양의 데이터를 얻는다. 이 데이터는 장면의 기본 구조를 나타내는 것이다. 사용자에 의해 여러 영상 픽셀들에 부여되는 원근 z와, x,y 위치 및 영상 특성간의 관계를 학습할 수 있는 알고리즘에 2차원 영상 및 이와 관련된 데이터가 제공된다. 상기 영상 특성에는 각각의 픽셀의 RGB값이 포함된다. 일반적으로, 상기 알고리즘에 의해 사용자가 규정한 프레임에 있어서의 각각의 픽셀에 대한 다음 방정식의 답이 구해진다.

z=f(x,y,R,G,B)

상기 알고리즘은 상기에서 학습한 관계를 영상의 나머지 픽셀들에 적용하여 원근 맵을 생성한다. 필요할 경우, 사용자는 데이터를 정련하여 원근 맵의 정확성을 향상시킬 수 있다. 초기의 원근 데이터를 반드시 사용자가 규정할 필요는 없으며, 모션 알고리즘으로부터의 자동화된 구조를 이용하거나 스테레오 영상으로부터 원근 값을 구하는 것을 포함하는 다른 과정에 의해 결정할 수 있다.

두 번째 단계는 선택된 키 프레임에 제공될 2차원 영상과 이와 관련된 원근 맵을 필요로 한다. 키 프레임의 원근 맵은 예컨대, 본 출원인이 이전에 개시한 바와 같이 생성하거나, 레이저 레인지 파인더(laser range finder), 예컨대 LIDAR(Light Detection And Range)장치를 포함하는 원근 포획(depth capture) 기술 및 DFF(Depth-from-focus) 기술을 이용하여 자동적으로 생성한다.

각각의 키 프레임에 대한 2차원 영상과 이와 관련된 원근 맵은 나머지 프레임의 각각의 픽셀에 부여된 원근 z와, 픽셀의 x 및 y위치 및 영상 특성간의 관계를 학습할 수 있는 알고리즘에 제공된다. 상기 영상 특성에는 각각의 픽셀의 RGB값이 포함된다. 일반적으로, 상기 알고리즘에 의해 키 프레임내의 각각의 픽셀에 대한 다음 방정식의 해를 구한다.

z=f(x,y,R,G,B)

인접한 키 프레임들 사이의 연속되는 프레임이 상기 알고리즘에 제공되며 각각의 픽셀에 대해 알고리즘을 사용하여 z값을 계산한다.

본 발명은 하나 이상의 2차원 영상으로부터 원근 맵을 구하는 개선된 기술을 제공한다. 본 발명은 두 단계를 포함하는바, 각각의 단계에는 자동화된 학습 과정이 통합되는 것이 이상적이다.

단계1

제 1단계는 하나의 영상에 대해 작용한다. 사용자는 영상을 제공받아 단순한 그래픽 인터페이스를 이용하여 제공받은 영상내의 여러 영역들에 대한 대략적인 원근을 규정한다. 상기 그래픽 인터페이스는 사용자가 픽셀에 원근을 부여하는 것을 돕기 위한 도구를 제공할 수 있다. 이 도구에는 펜 및 화필(paintbrush) 도구, 영역을 채우는(area fill) 도구 및 픽셀의 색에 기초한 원근을 부여하는 도구가 포함된다. 상기 과정의 결과로서 영상내의 픽셀들의 부분 집합에 대해 원근이 규정된다.

이것을 도 1에 예시하였다. 도 1에서 2차원 영상(1)이 사용자에게 제공된다. 그러면 사용자는 2차원 영상내의 여러 픽셀들에게 원근을 부여할 수 있다. 도 1의 예에서 "X"로 표시된 픽셀들은 사용자가 원근을 규정하지 않은 픽셀들이다. 본 발명의 시스템은 상기 2차원 영상(1)과 사용자가 제공한 원근 데이터(2)를 서로 관련시키고, 영상내의 각각의 픽셀의 원근에 대한 함수를 풀 수 있는 매핑 함수(4)의 생성을 돕기 위해 트레이닝 알고리즘(3)을 이용한다.

사용자가 제공하는 정보는 이하에서 후술될 학습 과정에 이용되는 트레이닝 데이터를 규정하여 원근과 상기 하나의 영상내의 각각의 픽셀을 관련시킨다. 이 과정은 상호 작용하는 방식(interative)으로 수행된다는 점에서 사용자는 몇 개의 영역들에 대해 대략적인 원근을 정의할 수 있다. 상기 영역들에 대한 학습 과정의 결과에 기초하여 사용자는 학습 과정이 불충분하게 행해진 영역들에 대한 원근 값들을 제공할 수 있다. 사용자와 학습 과정간의 이러한 상호작용은 여러 번 반복될 수 있다. 실제로, 사용자는 이 단계에서 학습과정을 가이드할 수 있다. 초기의 원근 데이터는 사용자에 의해 규정될 필요가 없으며 상술한 바와 같은 다른 과정에 의해 결정할 수 있다는데 주목해야 한다.

<매핑 함수의 생성>

시스템에 영상과 픽셀 원근들이 제공되면, 시스템은 매핑 함수를 생성하기 위하여 규정된 원근을 갖는 픽셀들을 분석한다. 매핑 함수는 영상으로부터의 픽셀 또는 픽셀들 대한 값을 입력으로 받고 이 픽셀 또는 픽셀들에 대한 원근 값을 출력으로 제공하는 과정 또는 함수가 될 수 있다.

개별적인 픽셀에 대한 값들은 적색, 녹색 및 청색값들로 이루어지거나 휘도, 색도, 콘트라스트와 같은 다른 값들 및 영상에 있어서의 수평 및 수직 위치와 같은 공간 값들로 이루어진다. 또한, 상기 매핑 함수는 보다 큰 픽셀들의 집합들 및 평균과 분산 또는 엣지 또는 코너 등(즉, 특징 검출기의 응답)과 같은 픽셀들의 집합에 대한 값들과 같이 높은 레벨의 영상 특징에 작용할 수 있다. 보다 큰 픽셀들의 집합들은 예컨대 영상내의 부분들(Segments)을 나타내며, 동종(homogeneous) 영역을 형성하는 연결된 픽셀들의 집합들에 해당된다.

설명을 위해 하나의 픽셀은 다음과 같은 형태로 표현될 수 있다.

x,y,R,G,B,z

여기서 x와 y는 픽셀의 x 및 y좌표와 같은 상대적인 위치를 나타내며, R,G,B는 이 픽셀의 적색, 녹색 및 청색값들을 나타내고, z는 이 픽셀의 원근을 나타낸다. z값은 사용자가 어떤 값을 규정했을 경우에만 정의된다.

매핑 함수는 영상 데이터와 사용자에 의해 식별된 픽셀에 대한 데이터 사이의 관계를 파악함으로써 학습된다. 매핑 함수는 입력 데이터를 수신하여 처리하고 출력하는 제네릭-프로세싱 유닛(generic-processing unit)의 형태를 가질 수 있다. 이 처리 유닛은 사용자 데이터와 해당 영상 데이터의 조사에 의해 그 성질이 결정되는 학습 과정을 수행하는 것이 바람직하다.

입력 데이터와 원하는 출력 사이의 관계를 학습하는 과정은 인공지능 또는 기계 학습 분야에 종사하는 자들에 의해 이해될 것이며, 다양한 형태를 가질 수 있다. 인공지능 또는 기계 학습 분야에 종사하는 사람들은 일반적으로 입체 시스템 또는 2차원 영상의 3차원 영상으로의 변환기술 분야에서 일하지 않는다. 기계 학습에 있어서, 매핑 함수는 공지의 것으로, 신경망, 판단 트리(decision tree), 판단 그래프(decision graph), 모델 트리 및 최단거리-이웃 분류자(nearest-neighbor classifier)를 포함한다. 학습 알고리즘의 바람직한 실시예는 매핑 에러의 측정값을 최소화하고 본래의 데이터 세트 외부의 값들을 만족스럽게 일반화하는 매핑 함수의 설계를 추구하는 것이다.

학습 알고리즘은 2차원 영상정보와 원근 사이의 관계를 전체 영상에 대해 전체적으로 결정하거나 작은 공간적인 영역에 대해 부분적으로 결정하는 것이다.

상기 관계는 전체 시퀀스에 대한 원근 맵들을 완성하기 위해 적용될 수 있다.

이것을 도 2에 예시한 바, 2차원 영상(1)으로부터 데이터를 생성된 매핑 함수(4)로 입력하여 2차원 영상(1)의 원근 맵(5)을 생성한다.

성공적인 학습 알고리즘의 예는 신경망을 학습하기 위한 후방-전파 알고리즘(back-propagation algorithm), 판단 트리 학습을 위한 C4.5 알고리즘, 부분적으로 가중된 선형 복귀(locally weighted linear regression) 및 클러스터 타입 분류자(cluster-type classifier) 학습을 위한 K-means 알고리즘이다.

설명을 위해서, 학습 알고리즘이 2차원 영상 시퀀스의 프레임내의 각각의 픽셀에 대한 다음 관계식을 계산하는 것으로 간주할 수 있다.

Z_n= k_a·x_n+ k_b·y_n+ k_c·R_n+ k_d·G_n+ k_e·B_n

여기서,

n은 키프레임 영상의 n번째 픽셀이고,

Z_n은 x_n,y_n에 위치한 픽셀에 부여된 원근의 값이고,

k_a내지 k_e는 상수로서 상기 알고리즘에 의해 결정되며,

R_n은 x_n,y_n에 위치한 픽셀의 적색 성분의 값이고,

G_n은 x_n,y_n에 위치한 픽셀의 녹색 성분의 값이고,

B_n은 x_n,y_n에 위치한 픽셀의 청색 성분의 값이다.

이 과정은 도 1에 나타내었다.

상기 방정식은 단지 설명을 위해 단순화한 것으로 실제로는 이상적으로 작용하지 않는 것을 당 분야의 통상의 지식을 가진 자들은 이해할 수 있을 것이다. 예컨대 신경망과 영상내의 다수의 픽셀들을 이용하는 실제적인 상황에서 상기 신경망은 다수의 k값들과 승산 및 가산을 포함하는 하나의 큰 방정식을 학습하게 된다. 또한, k값들은 부분적인 영상의 특징에 적합하도록 영상내의 각기 다른 x,y 위치들에 따라 변화될 수 있다.

<매핑 함수의 2차원 영상에의 적용>

본 발명은 상기 매핑 함수를 2차원 영상 시퀀스의 전체 프레임에 적용한다. 소정의 픽셀에 대하여 매핑 함수의 입력은 학습 과정동안 매핑 함수에 제공된 것과 같은 방식으로 결정된다. 예를 들어, 단일 픽셀의 값들을 입력으로 제공하여 매핑 함수를 학습한 경우에는 매핑 함수가 이 값들을 입력으로서 필요로 할 것이다. 이 입력으로 매핑 함수는 학습한 작업을 수행하고 원근 값을 출력한다. 단일 픽셀에 대한 예에 있어서, 이 원근 값은 단순한 원근 값일 수 있다. 이 예에서, 매핑 함수는 전체 영상에 대해 적용되어 영상에 대한 원근 데이터의 전체 집합을 완성한다. 보다 큰 픽셀들의 집합을 이용하여 매핑 함수를 학습한 경우에는 영상에 대해 상기한 바와 같은 큰 픽셀들의 집합을 생성할 필요가 있다. 평균 및 분산과 같은 이러한 픽셀들의 집합에 관한 높은 레벨의 값들은 학습 과정에서와 같은 동일한 방식으로 만들어진다. 이러한 값들을 입력으로 하여 매핑 함수는 상기 픽셀들의 집합에 대하여 필요한 원근 값을 생성한다.

이 과정을 도 2에 도시한 바, 2차원 영상에 대한 전체적인 원근 맵이 얻어진다. 이 원근 맵이 에러가 있는 영역을 포함하는 경우, 사용자 데이터를 수정할 수 있으며 상기 과정을 반복하여 이 영역을 보정한다. 매핑 함수를 다른 프레임들에 적용하여 원근 맵을 생성할 수 있다.

트레이닝 단계가 알고리즘의 일반적인 구성에 포함될 수 있다는 것을 기계 학습 분야에 통상의 지식을 가진 자들은 이해할 수 있을 것이다. 이것은 사례에 기초한 학습(instance-based learning)이라고 하며, 부분적으로 가중된 선형 복귀(locally weighted linear regression)와 같은 기술들을 포함한다. 다른 실시예에 있어서, 사용자는 대상물들의 집합을 정의하고 이 대상물들에 픽셀들을 할당할 수 있다. 이 실시예에 있어서, 영상의 나머지 픽셀들에 대해 사용자 데이터를 일반화하는 과정은 전체 영상을 사용자에 의해 최초로 식별된 대상물들의 집합으로 분할한다. 상기 대상물들을 규정하는 매핑 함수 또는 대상물들 자체는 본 실시예에서 요구되는 출력이 될 수 있다. 또한, 상기 대상물들에 함수들을 적용하여 이 대상물들의 원근을 규정함으로써 상기 영상에 대한 원근 맵을 구성할 수 있다. 이 함수들은 원근 램프(depth ramp)의 형태를 취할 수 있으며 본 출원인이 이전에 출원한 PCT/AU00/00700에 기술된 바와 같은 대상물의 원근을 규정하는 다른 방법의 형태를 가질 수 있다.

또 다른 실시예에 있어서, 상기 트레이닝 알고리즘은 사용자 정보에 임의의 요소의 도입을 시도할 수 있다. 어떠한 학습 알고리즘에 대해서도 이것은 오버트레이닝(over-training)의 문제점을 극복하는 것을 돕는다. 오버트레이닝은 학습 알고리즘이 트레이닝 정보를 단순히 기억하는 상황을 의미한다. 이것은 어린이가 곱셈자체의 개념을 이해하지 않고 구구단을 써가면서 익히는 것과 유사하다. 이 문제는 기계 학습 분야에서 공지의 것으로, 이를 해결하기 위한 방법은 트레이닝 데이터에 불규칙 잡음을 도입하는 것이다. 우수한 학습 알고리즘은 트레이닝 데이터에 있어서의 잡음과 쓸만한 정보를 구별해야 한다. 그러므로 데이터를 단순히 기억하기보다는 데이터의 성질을 알아야 한다. 이러한 시도의 일 실시예는 트레이닝 알고리즘이 다음의 함수를 학습하는 상술한 예와 관련된다.

Z_n= k_a·x_n+ k_b·y_n+ k_c·R_n+ k_d·G_n+ k_e·B_n

트레이닝 알고리즘에 z,x,y,R,G,B 입력값을 제공하면, 이 값들에 작은 잡음 성분이 가해진다. 이 잡음 성분은 임의의 작은 양의 수 또는 음의 수일 수 있다. 바람직한 실시예에 있어서는 z성분에는 잡음이 가해지지 않는다.

<학습 과정>

바람직한 실시에에 있어서, 학습 과정의 입력은 다음과 같다.

1. 원근을 포함한 특성들을 갖는 다수의 트레이닝 샘플들

2. 그 원근이 학습 과정에 의해 결정되며 상기 트레이닝 샘플들에 필적하는 특성들을 갖는 다수의 "분류" 샘플들

상기 트레이닝 샘플들은 위치(x,y)와 색(R,G,B) 및 원근(z)를 포함하는 특성을 갖는 개별적인 픽셀들로 구성된다. 학습 과정의 목적은 위치(x,y)와 색(R,G,B)을 포함하는 특성들을 가진 각각의 분류 픽셀에 대한 원근(z)를 계산하는 것이다.

각각의 분류 샘플에 대한 학습 과정의 첫 번째 단계는 문제의 분류 픽셀과 "유사한" 영상 특성을 공유하는 트레이닝 샘플들의 부분집합을 식별하는 것이다.

<트레이닝 후보의 검색>

현재의 분류 샘플과 유사한 특성을 가진 트레이닝 샘플을 식별하기 위해 샘플이 발생하는 n차원의 특징 공간을 그려본다. 바람직한 실시예에 있어서, 이것은 각각의 차원이 영상 특성인 x,y,R,G,B,z 중의 하나를 나타내는 5차원 공간이다. 이 공간의 축들은 각각의 차원의 범위의 차이를 나타내기 위해 정규화된다. 그러므로 상대적인 백분율을 이용하여 샘플들 간의 차이를 나타낼 수 있다. 예를 들면, 소정의 샘플의 R성분은 제2의 샘플에 비해 (R성분의 절대 범위의) 10% 다르다.

이 공간내의 두 샘플들간의 거리는 이 샘플들의 유사도의 크기이다. 현재의 분류 샘플과 유사한 트레이닝 샘플을 검출하기 위해 검색 반경을 정한다. 분류 샘플과의 거리가 검색 반경보다 작은 트레이닝 샘플은 분류 샘플과 유사한 것으로 간주하고 원근 계산에 사용한다. 단순한 유클리드 미터법을 이용하여 n차원의 검색 공간에서의 거리를 측정한다. n차원 특징 공간의 특별한 공간을 차지하지 않는 데이터에는 마할라노비스(Mahalanobis) 거리 미터법을 이용하여 더 나은 결과를 얻도록 한다. RGB, YUV 또는 HSV 성분의 히스토그램 균등화(histogram equalization) 또는 주요 성분 분석(principal component analysis)과 같이 데이터 범위를 스트레칭하는 방법도 유사한 장점을 제공한다.

상기 검색 반경은 원근의 정확한 산정에 있어서 중요한 변수이며 데이터의 특성과 관련하여 구성한다. 높은 공간적 또는 시간적 자기상관성(autocorrelation)을 나타내는 데이터에 있어서, 상기 검색 반경은 낮은 공간적 또는 시간적 자기상관성을 갖는 영상에 대한 반경보다 작은 값으로 설정한다.

상기 검색 반경은 특징 공간의 각각의 차원에 대해서 다를 수 있다. 예를 들면, x-축에서의 검색 반경은 적색 강도를 나타내는 축의 검색 반경과 다를 수 있다. 또한, 상기 학습 과정은 사용자가 규정한 범위내의 데이터에 상기 변수들을 적용할 수 있다. 예를 들어, 5%의 공간 반경과 10%의 색 반경 내에서 적절한 트레이닝 샘플이 식별되지 않으면, 공간 반경을 10% 증가시킨다.

도 8은 후보 검색 과정의 간략한 예를 나타낸 것이다. 도8은 샘플의 공간적인 x축과 적색 강도가 변화하는 2차원 검색 공간을 도시하고 있다. 이 공간에는 다수의 트레이닝 샘플들(20)이 있다. 목표 픽셀(11)의 제1반경(21) 내에는 트레이닝 샘플이 존재하지 않는다. 따라서 학습 과정은 목표 픽셀(11)의 제2검색반경(22)으로 검색을 확장하여 3개의 후보 트레이닝 샘플들을 식별해낸다.

다른 검색 방법을 적절한 트레이닝 후보를 식별하기 위해 사용할 수 있다. 이러한 방법에 있어서, 트레이닝 데이터는 해즈 트리(has tree), k-d 트리 도는 차원 보로누아도(Voronoi diagram)와 같은 구조에 저장된다. 이러한 방법은 후보 트레이닝 샘플들을 식별하는 속도를 증가시킬 수도 있지만 본 발명의 본질에는 영향을 미치지 않는다.

트레이닝 샘플들을 저장함으로써 특징 공간내의 연속되는 분류 샘플들의 근접성을 이용하는 검색 방법은 후보 트레이닝 샘플을 식별하는 속도를 증가시킬 수 있으나 본 발명의 경우 심하게 증가시키지 않는다.

<거리 가중 학습(Distance weighted learning)>

소정의 분류 샘플에 대한 원근을 계산하기 위해서는 상술한 바와 같이 분류 샘플과 유사한 것으로 간주되는 하나 이상의 트레이닝 샘플이 필요하다. 이 트레이닝 샘플을 "후보" 트레이닝 샘플이라고 한다.

분류 샘플의 원근을 후보 트레이닝 샘플의 원근의 가중 평균(weighted average)으로서 계산한다. 어떤 후보 트레이닝 샘플에 가해지는 가중치(weight)는 그 후보 트레이닝 샘플과 n차원 공간내의 분류 샘플간의 거리와 비례한다. 상술한 바와 같이 이 거리는 정규화되며 마할라노비스 미터법(Mahalanobis metrics) 또는 주요 성분 스타일 분석을 이용하여 데이터바이어스(data-biased)될 수 있다.

도 9는 원근 계산 과정의 간략화된 예를 나타낸 것이다. 도8에서와 같이 도9는 샘플들의 공간적 x축과 적색 강도가 변화하는 2차원 검색 공간을 도시하고 있다. 3개의 후보 트레이닝 샘플들(19)이 목표 픽셀(11)로부터 서로 다른 거리(w1,w2,w3)에 위치하고 있다. 그 원근은 다음 식을 이용하여 후보 트레이닝 샘플들의 가중 평균으로서 계산할 수 있다.

여기서, D1은 목표 픽셀(11)로부터의 거리가 w1인 트레이닝 샘플의 깊이이고, D2는 목표 픽셀(11)로부터의 거리가 w2인 트레이닝 샘플의 깊이이며, D3은 목표 픽셀(11)로부터의 거리가 w3인 트레이닝 샘플의 깊이이다.

바람직한 실시예에 있어서, 상기 가중치들은 n차원 공간내의 거리의 제곱에반비례한다.

<다른 실시예>

다른 실시예에 있어서, 학습 과정은 모든 이용 가능한 트레이닝 데이터를 분석하고 영상 특성과 샘플 원근의 관계를 결정하는 규칙을 추정한다.

이 과정에서 n차원 특징 공간은 다수의 영역들로 분할된다. 도 5는 그 원리를 간략하게 나타낸 것이다. 여기서 n차원 공간은 결정 경계(23)에 의해 다수의 직사각형 영역들로 분할된다. 목표 픽셀(11)이 어느 영역을 차지하고 있는가에 따라 원근 값이 목표 픽셀(11)에 부여된다.

실제로, M5 모델 트리 알고리즘을 사용하여 특징 공간을 분할한다. M5 알고리즘은 상술한 기본적인 예를 두 가지 방식으로 개선한다. 결정 경계는 특징 공간의 축과 직교할 필요가 없으며 원근은 영상 특성의 선형 함수로서 개별적인 영역들 내에서 변화할 수 있다.

기계 학습 분야의 통상의 지식을 가진 자들은 신경망, 판단 트리, 판단 그래프 및 최단거리-이웃 분류자를 포함하는 많은 학습 구조들을 M5 모델 대신 사용할 수 있다는 것을 이해할 수 있을 것이다. 학습 알고리즘의 본질은 본 발명의 신규성에 영향을 미치지 않는다.

바람직한 실시예에 있어서, 학습 과정은 영상 특성 x,y,R,G,B에 작용한다. 다른 실시예는 많은 픽셀들과 같은 높은 레벨의 영상 특성과 평균, 분산 또는 엣지, 코너 등(즉, 특징 검출기의 응답)과 같은 다수의 픽셀들에 관한 값들에 작용할 수 있다. 많은 픽셀들은 예컨대 영상내의 부분들을 나타내며, 동종 영역을 형성하는 연결된 픽셀들에 해당된다.

단계2

제 2단계는 적어도 하나 이상의 프레임이 키 프레임으로 식별된 영상 시퀀스에 작용한다. 제 2단계는 각각의 키 프레임에 대한 3차원 입체 데이터를 원근 맵의 형태로 입력한다. 원근 맵은 인간 규정화(human specification)와 같은 과정으로 인한 상술한 제 1단계의 출력, 입체 영상으로부터 결정된 원근 또는 거리 탐지 시스템(range finding system)을 이용하여 직접 얻은 원근이 될 수 있다. 상기 3차원 입체 정보는 원근 맵 이외의 형태를 가질 수 있는데, 예를 들면 스테레오 쌍(stereo pair)을 포함하는 키 프레임으로부터 얻어진 불일치(disparity) 정보의 형태를 가질 수 있다.

2차원 영상 시퀀스의 다른 모든 프레임에 대해 본 발명은 초기에 이용 가능한 키 프레임 정보에 기초하여 원근 맵에 대한 상세한 사항을 제공한다. 키 프레임의 수는 전체 프레임 수의 작은 부분이 될 것으로 예상된다. 그러므로 본 발명은 초기에 생성해야 하는 원근 맵의 양을 대폭적으로 감소시키는 방법을 제공한다.

<매핑 함수의 생성>

키 프레임과 이에 해당하는 원근 맵이 시스템에 제공되면, 시스템은 매핑 함수를 생성하기 위하여 키 프레임과 초기에 이용 가능한 원근 맵을 분석한다. 매핑 함수는 2차원 영상의 소정의 값을 입력하여 그 영상에 대한 원근 맵을 출력으로 제공하는 과정 또는 함수이다. 이러한 매핑은 키 프레임 영상 데이터와 이 영상에 대해 이용 가능한 원근 맵 데이터 사이의 관계를 파악함으로써 학습된다.

상기 매핑 함수는 입력 데이터를 받아 처리하여 출력하는 제네릭-프로세싱 유닛(generic-processing unit)의 형태를 가질 수 있다. 이 처리유닛은 키 프레임 데이터와 이에 해당하는 원근 맵을 조사하여 그 성질을 결정하는 학습 과정을 수행하는 것이 바람직하다. 기계 학습 분야에 있어서, 이러한 매핑 함수는 공지의 것으로 신경망, 판단 트리, 판단 그래프, 모델 트리 및 최단거리-이웃 분류자를 포함한다.

시스템은 입력 데이터와 원하는 출력 데이터간의 관계를 알고자 시도한다. 학습 과정에서 2차원 키 프레임 영상으로부터의 정보가 트레이닝 알고리즘에 제공된다. 이 정보는 적색, 녹색 및 청색 값들 또는 휘도, 색도, 콘트라스트 및 영상내의 수평 및 수직 위치와 같은 공간 값들과 같은 다른 값들과 같은 픽셀 값들이 제공될 경우 픽셀마다 제공된다. 또한, 상기 정보는 큰 픽셀들의 집합 및 평균과 분산 또는 엣지, 코너 등(즉, 특징 검출기의 응답)과 같은 픽셀들에 관한 측정값들과 같은 높은 레벨의 영상 특성의 형태로 제공될 수 있다. 큰 픽셀들의 집합은 예컨대 영상내의 부분들을 나타낼 수 있으며, 동종 영역을 형성하는 연결된 픽셀들의 집합이 될 수 있다.

설명을 위해서, 2차원 영상을 다음과 같은 형태로 나타낼 수 있다.

x,y,R,G,B

여기서, x와 y는 각각의 픽셀의 x 및 y좌표를 나타내며, R,G,B는 그 픽셀의 적색, 녹색 및 청색값을 나타낸다.

해당 원근 맵은 트레이닝 알고리즘에 제공되어 트레이닝 알고리즘이 요구되는 매핑을 학습할 수 있게 된다. 일반적으로 개별적인 픽셀들이 트레이닝 알고리즘에 제공된다. 그러나 큰 픽셀들 또는 부분들의 집합과 같이 높은 레벨의 영상 특징이 사용될 경우, 원근 맵은 평균과 분산과 같은 픽셀들의 집합에 대한 원근 값이 될 수 있다.

설명을 위해서, 원근 맵은 다음과 같이 나타낼 수 있다.

z,x,y

여기서 x와 y는 각각의 픽셀의 x와 y좌표를 나타내며, z는 해당 픽셀에 부여되는 원근 값을 나타낸다.

입력 데이터와 원하는 출력 사이의 관계를 학습하는 과정은 인공지능 분야에 종사하는 자들에 의해 이해될 수 있으며 다양한 형태를 가질 수 있다. 학습 알고리즘의 바람직한 실시예는 매핑 에러를 최소화하는 매핑 함수를 설계하는 것이다.

학습 알고리즘은 2차원 영상 정보와 키 프레임에 존재하는 원근 맵간의 관계를 일반화한다. 이러한 일반화는 전체 시퀀스에 대한 원근 맵을 완성하는데 적용된다. 당 분야에서 알려진 성공적인 학습 알고리즘의 예는 신경망을 학습하기 위한 후방전파 알고리즘(bask-propagation algorithm), 판단 트리를 학습하기 위한 C4.5 알고리즘, 클러스터-타입 분류자를 학습하기 위한 K-means 알고리즘이다.

설명을 위해서, 학습 알고리즘이 2차원 영상내의 각각의 픽셀에 대한 다음 관계식을 계산하는 것으로 간주할 수 있다.

Z_n= k_a·x_n+ k_b·y_n+ k_c·R_n+ k_d·G_n+ k_e·B_n

여기서,

n은 키프레임 영상의 n번째 픽셀이고,

Z_n은 x_n,y_n에 위치한 픽셀에 부여된 원근의 값이고,

k_a내지 k_e는 상수로서 상기 알고리즘에 의해 결정되며,

R_n은 x_n,y_n에 위치한 픽셀의 적색 성분의 값이고,

G_n은 x_n,y_n에 위치한 픽셀의 녹색 성분의 값이고,

B_n은 x_n,y_n에 위치한 픽셀의 청색 성분의 값이다.

상기 방정식은 단지 설명을 위해 단순화한 것으로 실제로는 이상적으로 작용하지 않는 것을 당 분야의 통상의 지식을 가진 자들을 이해할 수 있을 것이다. 예컨대 신경망과 영상내의 다수의 픽셀들을 이용하는 실제적인 상황에서 상기 신경망은 다수의 k값들과 승산 및 가산을 포함하는 하나의 큰 방정식을 학습하게 된다.

상기 과정을 도 3에 나타내었다. 도 3은 유사한 과정이 서로 다른 개수의 키 프레임들을 사용할 수 있음을 나타낸다.

<매핑 함수의 적용>

본 발명은 상기 매핑 함수를 이용 가능한 원근 맵을 아직 가지지 못한 2차원 영상들의 집합에 적용한다. 이 집합내의 소정의 2차원 영상에 대하여 매핑 함수의 입력은 학습 과정동안 매핑 함수에 제공된 것과 같은 방식으로 결정된다. 예를 들어, 단일 픽셀의 값들을 입력으로 제공하여 매핑 함수를 학습한 경우에는 매핑 함수가 이 값들을 새로운 영상의 픽셀들을 위해 필요로 할 것이다. 이 입력으로 매핑 함수는 학습한 작업을 수행하고 원근 값을 출력한다. 단일 픽셀에 대한 예에 있어서, 이 원근 값은 단순한 원근 값일 수 있다. 이 예에서, 매핑 함수는 전체 영상 시퀀스에 대해 적용되어 영상 시퀀스에 대한 원근 데이터의 전체 집합을 완성한다. 보다 큰 픽셀들의 집합을 이용하여 매핑 함수를 학습한 경우에는 새로운 영상에 대해 상기한 바와 같은 큰 픽셀들의 집합을 생성할 필요가 있다. 평균 및 분산과 같은 이러한 픽셀들의 집합에 관한 높은 레벨의 값들은 학습 과정에서와 같은 동일한 방식으로 만들어진다. 이러한 값들을 입력으로 하여 매핑 함수는 상기 픽셀들의 집합에 대하여 필요한 원근 값을 생성한다.

2차원 영상 시퀀스에 있어서, 원근 맵을 가진 키 프레임들은 임의로 상기 시퀀스에 걸쳐 일정한 간격으로 위치할 수 있다. 바람직한 실시예에 있어서, 어떤 공통성을 갖는 2차원 영상들의 집합에 걸쳐 있는 키 프레임들의 집합과 이에 해당되는 원근 맵들이 매핑 함수에 제공된다. 가장 간단한 경우, 두 개의 키 프레임이 매핑 함수를 학습하는데 사용되며, 매핑 함수는 상기 두 개의 키 프레임들 사이의 2차원 영상들을 위한 원근 맵을 결정하기 위해 사용된다. 그러나 매핑 함수를 학습하기 위해 사용되는 키 프레임의 개수에는 제한이 없다. 또한, 2차원 영상들의 전체 집합을 완성하기 위해 사용되는 매핑 함수의 개수에도 제한이 없다. 바람직한 실시예에 있어서, 하나 이상의 중재 프레임(intervening frame)에 의해 분리되는 두 개의 키 프레임들이 제 2단계의 입력으로 정의된다. 이 제 2단계의 목적은 각각의 중재 프레임에 원근 맵을 할당하는 것이다. 중재 프레임들에 원근 맵이 할당되는 바람직한 순서는 키 프레임에 시간적으로 가장 가까운 프레임을 먼저 처리하는 것이다. 처리된 프레임은 키 프레임이 되어 후속 프레임의 원근을 매핑한다.

이러한 시간 변수를 부가하면 키 프레임에서 이용 가능한 정보를 일반화하는 트레이닝 함수를 돕게 된다. 시간 변수가 없으면, 두 개의 키 프레임의 원근 정보가 서로 모순될 수 있다. 이것은 유사한 색의 픽셀들이 두 개의 키 프레임내의 동일한 공간 영역에 발생하되 서로 다른 대상물에 속할 경우 일어난다. 예를 들면, 첫 번째 키 프레임에서, 원근 특성에 의해 전경에 보이는 녹색 자동차가 영상의 중앙부분에서 관찰될 수 있다. 다음 키 프레임에서, 상기 자동차가 이동하여 원근 특성이 중간 녹색 영역을 규정하는 녹색의 발차 대기소 뒤로 숨는다. 트레이닝 알고리즘에는 양쪽 모두 영상의 중앙부에 녹색 픽셀을 가지지만 서로 다른 원근 특성을 갖는 두 개의 키 프레임이 제공된다. 이러한 모순은 해결할 수 없으며 매핑 함수가 그러한 영역에서 만족스럽게 실행될 것으로는 예상되지 않는다. 시간 변수를 도입하면, 트레이닝 알고리즘이 영상의 중앙부분의 녹색 픽셀들이 영상 시퀀스의 첫 번째 키 프레임에 가까운 시간에 전경의 픽셀들이라는 것을 인식함으로써 상기 모순을 해결할 수 있다. 시간이 두 번째 키 프레임에 가까워질수록 트레이닝 알고리즘은 영상의 중앙부분의 녹색 픽셀들을 녹색의 발차 대기소의 중간 원근으로 인식하게 된다.

이 과정은 도 6에 나타내었다. 도 6에서 박스들은 영상 시퀀스의 각각의 프레임들을 나타낸다. 윗줄의 6개는 소오스 프레임을 나타내며, 영상 시퀀스내의 상대적인 위치에 따라 번호가 매겨져 있다. 아랫줄은 이 단계에서 생성된 원근 맵을나타낸다. 번호는 원근 맵들이 형성되는 순서를 나타낸다. 원근 프레임 1과 2를 역순으로 처리할 수 있지만 원근 프레임 3과 4도 역순으로 처리할 수 있다. 키 프레임(7)은 상술한 바와 같이 이 과정의 입력으로 제공된다. 생성될 첫 번째 원근 맵은 도시된 바와 같이 소오스 프레임1과 관련된다. 먼저 생성된 두 개의 원근 맵을 이용하여 후속 원근 맵이 생성된다.

<바람직한 실시예>

원근이 매핑될 프레임의 각각의 픽셀에 대해 목표 픽셀의 영상 특성을 이용하여 상기 픽셀과 관련된 원근을 결정한다. 바람직한 실시예에 있어서, 각각의 프레임으로부터 하나씩 두 개의 원근 값을 구한다. 이 과정을 도7에 나타내었다. 도7은 영상 시퀀스의 현재 프레임의 전과 후에 목표 픽셀(11)을 어떻게 가장 가까운 소오스 키 프레임과 비교(단계12 및 13)하는지를 보여준다. 상술한 학습 과정과 유사한 학습 과정이 검색 반경(14)을 이용하여 유사한 영상 특성을 갖는 픽셀들을 식별하고 상기 픽셀들과 관련된 원근을 이용하여(단계15 및 16) 목표 픽셀에 대한 원근을 계산한다(단계17 및 18). 각각의 키 프레임은 목표 픽셀의 원근 값을 생성한다. 이것을 D1 및 D2로 정의한다.

목표 픽셀과 관련된 최종 원근을 결정하기 위해 상기 원근 값 D1과 D2를 조합해야 한다. 바람직한 실시예에 있어서, 이 값들의 가중 평균을 키 프레임의 위치를 가중 파라미터로 이용하여 계산한다. 현재 프레임과 첫 번째 키 프레임 사이의 거리가 T1이고 현재 프레임과 두 번째 키 프레임 사이의 거리가 T2이면, 목표 픽셀의 원근은 다음과 같이 주어진다.

여기서, D1 및 D2는 각각 키 프레임1과 키 프레임2로부터 계산한 깊이(원근)이다.

몇몇 경우에 있어서, 학습 과정은 주어진 픽셀에 대한 원근 값을 결정할 수 없다. 상기한 계산과정 중에 두 개의 키 프레임 원근 값들 중의 하나를 결정할 수 없으면 목표 픽셀은 할당된 키 프레임 원근 값에 할당되며 가중치는 부여하지 않는다. 두 개의 값 D1 및 D2가 모두 정의되지 않으면, 검색 반경을 확장하고 상기 과정을 반복한다.

다른 프레임에 대한 원근 맵을 생성하는데는 하나의 키 프레임만이 필요하다는데 주목해야 한다. 그러나 대상물의 원근이 영상 시퀀스에서 변하는 경우에는 상술한 바와 같이 가중되는 둘 이상의 키 프레임이 개선된 결과를 제공한다.

프레임들을 처리하는 순서와 다수의 키 프레임들로부터의 결과를 조합하는 방식은 본 발명의 본질에 영향을 미치는 일없이 변화될 수 있다는 것을 이해해야 한다.

2차원 영상의 경우와 같이 영상 시퀀스의 어떤 픽셀의 원근 값을 결정하기 위해 트레이닝 단계가 사례에 기초한 학습(instance based learning)에 포함될 수 있다. 이 과정을 도 4에 도시하였다.

단계 1을 위해 사용된 것과 유사한 학습 과정을 단계 2에서 수행할 수 있다는 것에 주목해야 한다. 두 과정 모두 입력 데이터와 원하는 출력, 즉, 원근 사이의 관계를 고려한다. 주요한 차이는 단계 2를 위한 학습 과정이 프레임 번호에 따른 시간 요소를 고려해야 하는 반면, 단계 1은 시간 요소를 고려할 필요가 없다는 것이다.

기타 응용분야

매핑 함수는 시퀀스내의 키 프레임이 아닌 모든 영상들에 관한 원근 정보를 모두 나타낸다. 이것은 이 원근 정보의 부호화에 이용될 수 있다. 매핑 함수는 비교적 적은 양의 데이터로 전송될 수 있으므로 원근 정보의 상당한 압축을 나타낼 것으로 예상된다.

20개의 프레임이 시퀀스에 시간을 두고 위치하고 두 개의 키 프레임이 존재하는 경우를 생각해 보자. 이 두 개의 키 프레임에 대하여 매핑 함수를 학습하였고, 이제 이 매핑 함수가 중간 프레임들에 대한 모든 원근 정보를 제공한다. 매핑 함수 자체는 20개의 프레임에 대한 모든 원근 정보의 압축을 나타낸다. 예컨대, 매핑 함수가 6000바이트를 이용하여 파일에 기록된 경우, 20개의 프레임의 원근 정보를 얻을 수 있다. 이것은 프레임당 6000/20=300인 파일 크기를 나타낸다. 실제로, 효과적인 압축이 이루어진다.

또 다른 응용에 있어서, 상기한 압축에 의해 2차원 영상 소오스, 즉 2차원과 3차원 호환 가능한 영상에 포함된 3차원 정보를 효율적으로 전송할 수 있다. 매핑 함수가 3차원 정보를 제공하는 2차원 영상 데이터의 매우 작은 부분에 해당하는 파일 길이를 필요로 하므로 매우 작은 오버헤드로 2차원 영상 시퀀스에 3차원 정보를 부가할 수 있다.

이 경우, 시퀀스내의 2차원 영상이 보여질 때 단순히 매핑 함수를 상기 시퀀스내의 각각의 2차원 영상에 인가함으로써 영상이 보여지기 전 또는 실시간으로 상기 3차원 정보를 생성한다. 이것은 기계 학습에서 발견된 매핑 함수의 형태가 매핑 함수를 학습한 후에 계산을 행하는데 있어서 매우 효율적이라는 사실에 의해 가능해진다. 일반적으로, 트레이닝 과정은 느리고 방대한 자원이 요구되며, 3차원 영상을 구축하는 과정 중에 오프라인으로 수행된다. 일단 학습되면, 매핑 함수는 관찰자에게 전송되며, 2차원 영상의 3차원 영상으로의 실시간 변환에 적합한 매우 높은 처리량으로 수행된다.

본 출원인이 이전에 출원한 내용은 2차원 영상을 입체적인 3차원 영상으로 변환하는 기술과 관련이 있다. 이 변환 과정은 2차원 영상과 관련된 원근 맵의 생성을 포함한다. 일 실시예에 있어서, 원근 맵은 한 프레임씩 수동으로 생성된다. 본 명세서에 기술된 개선된 기술에 의해 더 적은 수의 키 프레임들이 생성된 원근 맵과 계산된 중간 원근 맵을 가질 수 있게 된다. 키 프레임은 전체 프레임 수의 작은 부분을 나타내므로 이 새로운 기술은 시간과 비용 면에서 변환 효율을 향상시킨다.

본 발명은 입체 영상의 생성이 아닌 원근 맵의 생성에 적용되어야 한다.

원근 맵은 로토스코핑(rotoscoping)이라고 하는 과정에 있어서 특수 효과 분야에 광범위하게 사용된다는 것은 당 분야의 통상의 지식을 가진 자들에게 알려져 있다. 2차원 영상 내에 생생한 움직임 또는 컴퓨터에 의해 생성된 영상을 합성하기 위해서는 2차원 영상의 각각의 프레임에 대한 원근 맵 또는 매트를 수동으로 생성할 필요가 있다. 이 매트는 부가적인 영상이 압축되어 원래의 2차원 영상 내에서 적절하게 움직이는 것으로 보이도록 한다. 상술한 본 발명에 의하면 이러한 매트를 신속하게 생성할 수 있다.

움직이는 장면으로부터 원근 맵을 구할 수 있도록 하는 카메라가 개발되고 있다. 이 카메라는 레이저 레인지 탐지 기술을 이용하는 것으로, 일반적으로 LIDAR 장치로 알려져 있다. 텔레비젼 프레임률로 원근 맵을 얻기 위해서는 고가의 복잡한 시스템이 필요하다. 본 발명을 적용하면, 비디오 필드율(video field rate)의 일부에 해당하는 속도 또는 빈번하지 않은 주기로 원근 맵을 구하고 본 발명에서 기술한 기술을 이용한 보간에 의해 발생되는 잃어버린 원근 맵을 필요로 하는 단순하고 덜 복잡한 LIDAR 장치를 구축할 수 있다.

Claims

영상의 적어도 하나의 픽셀 또는 부분에 원근을 부여하는 단계와,

상기 영상의 적어도 하나의 픽셀 또는 부분에 대한 상대적인 위치 및 영상 특성을 결정하는 단계,

상기 원근과 영상 특성 및 상대적인 위치를 이용하여 상대적인 위치와 영상 특성의 함수로서 원근 특성을 알아내기 위한 제 1알고리즘의 구성을 결정하는 단계,

상기 제 1알고리즘을 이용하여 상기 영상의 각각의 픽셀 또는 부분에 대한 원근 특성을 계산하는 단계를 포함하여 구성되되,

상기 원근 특성이 상기 영상에 대한 원근 맵을 형성하는 것을 특징으로 하는 원근 맵을 형성하는 방법.
영상의 적어도 하나의 픽셀 또는 부분에 원근을 부여하는 단계와,

상기 영상의 적어도 하나의 픽셀 또는 부분에 대한 x,y좌표 및 영상 특성을 결정하는 단계,

상기 원근과 영상 특성 및 x,y좌표를 이용하여 x,y좌표와 영상 특성의 함수로서 원근 특성을 알아내기 위한 제 1알고리즘을 결정하는 단계,

상기 제 1알고리즘을 이용하여 상기 영상의 각각의 픽셀 또는 부분에 대한 원근 특성을 계산하는 단계를 포함하여 구성되되,

상기 원근 특성이 상기 영상에 대한 원근 맵을 형성하는 것을 특징으로 하는 원근 맵을 형성하는 방법.
제 1항에 있어서,

상기 영상 특성이 RGB 값들을 포함하는 것을 특징으로 하는 방법.
제 1항 내지 제 3항 중 어느 한 항에 있어서,

상기 영상의 픽셀 또는 부분에 원근을 재할당하여 모순을 불일치(inconsistency)를 보정하는 단계를 더 포함하는 것을 특징으로 하는 방법.
제 1항 내지 제 4항 중 어느 한 항에 있어서,

상기 영상 특성이 휘도, 색도, 콘트라스트 또는 공간 값 중의 적어도 하나를 포함하는 것을 특징으로 하는 방법.
제 1항 내지 제 5항 중 어느 한 항에 있어서,

상기 제 1알고리즘이 방정식 z=f(x,y.R,G,B)(여기서, x와 y는 샘플의 상대적인 위치를 나타낸다)로 표현되는 것을 특징으로 하는 방법.
제 1항 내지 제 6항 중 어느 한 항에 있어서,

상기 제 1알고리즘의 구성을 결정하기 위해 학습 알고리즘을 사용하는 것을특징으로 하는 방법.
제 7항에 있어서,

상기 영상의 각각의 픽셀에 대하여 상기 학습 알고리즘은

Z_n= k_a·x_n+ k_b·y_n+ k_c·R_n+ k_d·G_n+ k_e·B_n

(여기서, n은 키프레임 영상의 n번째 픽셀이고, Z_n은 x_n,y_n에 위치한 픽셀에 부여된 원근의 값이고, k_a내지 k_e는 상수로서 상기 알고리즘에 의해 결정되며, R_n은 x_n,y_n에 위치한 픽셀의 적색 성분의 값이고, G_n은 x_n,y_n에 위치한 픽셀의 녹색 성분의 값이고, B_n은 x_n,y_n에 위치한 픽셀의 청색 성분의 값이다)

을 계산하는 것을 특징으로 하는 방법.
제 7항 또는 제 8항에 있어서,

상기 학습 알고리즘에 임의의 요소를 도입하여 오버 트레이닝을 감소시키는 것을 특징으로 하는 방법.
제 9항에 있어서,

상기 임의의 요소는 임의의 작은 양의 수 또는 음의 수인 것을 특징으로 하는 방법.
제 7항 내지 제 10항 중 어느 한 항에 있어서,

첫 단계에서 상기 학습 알고리즘은 알려진 픽셀과 유사한 특성을 갖는 픽셀들을 식별하는 것을 특징으로 하는 방법.
제 11항에 있어서,

유사한 픽셀들을 검색 반경 내에서 검색하는 것을 특징으로 하는 방법.
제 12항에 있어서,

상기 검색 반경은 각각의 특성에 대해 변화하는 것을 특징으로 하는 방법.
제 11항 내지 제 13항 중 어느 한 항에 있어서,

픽셀의 원근은 유사한 픽셀들로부터의 거리의 가중 평균에 의해 결정되는 것을 특징으로 하는 방법.
제 14항에 있어서,

가중치는 거리에 반비례하는 것을 특징으로 하는 방법.
제 7항에 있어서,

각각의 특성은 다수의 영역들로 분할되고 원근 값은 점유된 영역에 기초하여부여되는 것을 특징으로 하는 방법.
영상 시퀀스의 적어도 하나의 프레임에 대한 원근 맵을 입력하는 단계와,

상기 적어도 하나의 원근 맵을 이용하여 상대적인 위치와 영상 특성의 함수로서 원근 특성을 확인하기 위한 제 2알고리즘의 제 2구성을 결정하는 단계, 및

상기 알고리즘을 이용하여 상기 영상 시퀀스의 각각의 프레임에 대한 원근 맵을 생성하는 단계를 포함하여 구성되는 영상 시퀀스에 대한 일련의 원근 맵들을 생성하는 방법.
영상 시퀀스의 적어도 하나의 프레임에 대한 원근 맵을 입력하는 단계와,

상기 적어도 하나의 원근 맵을 이용하여 x,y좌표와 영상 특성의 함수로서 원근 특성을 확인하기 위한 제 2알고리즘을 결정하는 단계, 및

상기 알고리즘을 이용하여 상기 영상 시퀀스의 각각의 프레임에 대한 원근 맵을 생성하는 단계를 포함하여 구성되는 영상 시퀀스에 대한 일련의 원근 맵들을 생성하는 방법.
제 17항 또는 제 18항에 있어서,

상기 영상 시퀀스의 적어도 두 개의 프레임에 해당하는 적어도 두 개의 원근 맵을 입력하는 것을 특징으로 하는 방법.
제 17항 내지 제 19항 중 어느 한 항에 있어서,

상기 영상 특성이 RGB 값들을 포함하는 것을 특징으로 하는 방법.
제 17항 내지 제 20항 중 어느 한 항에 있어서,

상기 영상 특성은 휘도, 색도, 콘트라스트 또는 공간 값 중의 적어도 하나를 포함하는 것을 특징으로 하는 방법.
제 17항 내지 제 21항 중 어느 한 항에 있어서,

상기 제 2알고리즘의 구성을 결정하기 위해 학습 알고리즘을 이용하는 것을 특징으로 하는 방법.
제 22항에 있어서,

상기 학습 알고리즘은 후방전파 알고리즘, C4.5 알고리즘 또는 k-means 알고리즘 중의 하나인 것을 특징으로 하는 방법.
제 22항 또는 제 23항에 있어서,

상기 제 2알고리즘은 Z_n= k_a·x_n+ k_b·y_n+ k_c·R_n+ k_d·G_n+ k_e·B_n

(여기서, n은 키프레임 영상의 n번째 픽셀이고, Z_n은 x_n,y_n에 위치한 픽셀에 부여된 원근의 값이고, k_a내지 k_e는 상수로서 상기 알고리즘에 의해 결정되며, R_n은x_n,y_n에 위치한 픽셀의 적색 성분의 값이고, G_n은 x_n,y_n에 위치한 픽셀의 녹색 성분의 값이고, B_n은 x_n,y_n에 위치한 픽셀의 청색 성분의 값이다)을 계산하는 것을 특징으로 하는 방법.
제 17항 내지 제 24항 중 어느 한 항에 있어서,

원근 맵이 입력된 프레임들의 각각의 쌍에 대해 부가적인 알고리즘 구성을 생성하는 것을 특징으로 하는 방법.
영상 시퀀스의 적어도 두 개의 키 프레임들에 대한 원근 맵들을 입력하는 단계와,

상기 원근 맵들을 이용하여 x,y좌표와 영상 특성의 함수로서 원근 특성을 확인하기 위한 제 2알고리즘을 결정하는 단계, 및

상기 알고리즘을 이용하여 상기 영상 시퀀스의 각각의 프레임에 대한 원근 맵을 생성하는 단계를 포함하여 구성되되, 상기 키 프레임들과 인접한 프레임들을 키 프레임들과 인접하지 않은 프레임들보다 먼저 처리하는 것을 특징으로 하는 영상 시퀀스에 대한 일련의 원근 맵들을 생성하는 방법.
제 26항에 있어서,

상기 인접한 키 프레임이 처리되면, 상기 인접한 키 프레임을 원근 맵 생성을 위한 키 프레임으로 간주하는 것을 특징으로 하는 방법.
제 22항, 제 23항, 제 26항 또는 제 27항에 있어서,

상기 제2알고리즘은 Z_n= k_a·x_n+ k_b·y_n+ k_c·R_n+ k_d·G_n+ k_e·B_n+ k_f·T

(여기서, n은 키프레임 영상의 n번째 픽셀이고, Z_n은 x_n,y_n에 위치한 픽셀에 부여된 원근의 값이고, k_a내지 k_e는 상수로서 상기 알고리즘에 의해 결정되며, R_n은 x_n,y_n에 위치한 픽셀의 적색 성분의 값이고, G_n은 x_n,y_n에 위치한 픽셀의 녹색 성분의 값이고, B_n은 x_n,y_n에 위치한 픽셀의 청색 성분의 값이고, T는 시퀀스내의 이 특정 프레임에 대한 시간 값이다)을 계산하는 것을 특징으로 하는 방법.
영상 시퀀스로부터 적어도 하나의 키 프레임을 선택하는 단계와,

적어도 하나의 키 프레임 각각에 대하여 각각의 프레임의 적어도 하나의 픽셀 또는 일부분에 원근을 부여하는 단계,

상기 각각의 키 프레임의 적어도 하나의 픽셀 또는 부분에 대하여 상대적인 위치와 영상 특성을 결정하는 단계,

상기 적어도 하나의 키 프레임 각각에 대한 원근과 영상 특성 및 상대적인 위치를 이용하여 상대적인 위치와 원근 특성의 함수로서 원근 특성을 확인하기 위하여 상기 적어도 하나의 프레임 각각에 대한 제 1알고리즘의 제 1구성을 결정하는단계,

상기 제 1알고리즘을 이용하여 상기 적어도 하나의 키 프레임의 각각의 픽셀 또는 부분에 대한 원근 특성을 계산하는 단계,

상기 각각의 원근 맵을 이용하여 상대적인 위치와 영상 특성의 함수로서 각각의 프레임에 대한 원근 특성을 확인하기 위한 제 2알고리즘의 제 2구성을 결정하는 단계, 및

상기 제 2알고리즘을 이용하여 상기 영상 시퀀스의 각각의 프레임에 대한 원근 맵을 생성하는 단계를 포함하여 구성되되,

상기 원근 특성은 상기 적어도 하나의 키 프레임에 대한 원근 맵을 형성하는 것을 특징으로 하는 영상 시퀀스에 대한 일련의 원근 맵을 생성하는 방법.
제 29항에 있어서,

상기 키 프레임들에 인접한 프레임들을 인접하지 않은 프레임들보다 먼저 처리하는 것을 특징으로 하는 방법.
제 30항에 있어서,

다음에 처리하는 인접한 프레임을 그 후의 처리를 위한 키 프레임으로 간주하는 것을 특징으로 하는 방법.
일련의 프레임들과 함께 적어도 하나의 매핑 함수를 전송하는 단계를 포함하되, 상기 매핑 함수가 상대적인 위치와 영상 특성의 함수로서 원근 특성을 확인하기 위한 알고리즘을 포함하는 것을 특징으로 하는 일련의 프레임들을 부호화하는 방법.
제 32항에 있어서,

상기 영상 특성은 RGB 값들을 포함하는 것을 특징으로 하는 방법.
제 32항 또는 제 33항에 있어서,

상기 영상 특성은 휘도, 색도, 콘트라스트, 공간 값 중의 적어도 하나를 포함하는 것을 특징으로 하는 방법.
제 32항 내지 제 34항 중 어느 한 항에 있어서,

상기 매핑 함수를 결정하기 위하여 학습 알고리즘을 이용하는 것을 특징으로 하는 방법.
제 35항에 있어서,

상기 학습 알고리즘은 후방전파 알고리즘, C4.5 알고리즘 또는 K-means 알고리즘인 것을 특징으로 하는 방법.
제 35항 또는 제 36항에 있어서,

상기 매핑 함수가 Z_n= k_a·x_n+ k_b·y_n+ k_c·R_n+ k_d·G_n+ k_e·B_n

(여기서, n은 키프레임 영상의 n번째 픽셀이고, Z_n은 x_n,y_n에 위치한 픽셀에 부여된 원근의 값이고, k_a내지 k_e는 상수로서 상기 알고리즘에 의해 결정되며, R_n은 x_n,y_n에 위치한 픽셀의 적색 성분의 값이고, G_n은 x_n,y_n에 위치한 픽셀의 녹색 성분의 값이고, B_n은 x_n,y_n에 위치한 픽셀의 청색 성분의 값이다)을 계산하는 것을 특징으로 하는 방법.
제 32항 내지 제 37항 중 어느 한 항에 있어서,

원근 맵이 입력된 프레임들의 각각의 쌍에 대해 부가적인 알고리즘을 생성하는 것을 특징으로 하는 방법.