KR20240035554A

KR20240035554A - 다중 객체 표면 이미지(mosi) 포맷

Info

Publication number: KR20240035554A
Application number: KR1020247005034A
Authority: KR
Inventors: 크리스티안 바레캄프; 앤디 빌렘스
Original assignee: 코닌클리케 필립스 엔.브이.
Priority date: 2021-07-14
Filing date: 2022-07-12
Publication date: 2024-03-15
Also published as: EP4371077A1; EP4120198A1; CA3226416A1; WO2023285435A1; AR126440A1; CN117730346A; TW202310616A

Abstract

멀티-뷰 이미지 데이터를 처리하기 위한 방법. 방법은 복수의 센서로부터 소스 뷰 데이터를 획득하는 단계를 포함하며, 소스 뷰 데이터는 하나 이상의 객체를 갖는 장면의 소스 텍스처 데이터 및 소스 깊이 데이터를 포함한다. 장면 내의 객체들 중 하나 이상의 객체의 위치들이 획득되고, 계층들의 스택이 객체들 중 적어도 하나에 대한 가상 장면에 생성되며, 가상 장면 내의 계층들의 스택의 위치는 장면 내의 대응하는 객체의 위치에 기초한다. 계층들의 스택을 생성하는 것은 복수의 계층을 생성하는 것을 포함하며, 각각의 계층은 대응하는 객체에 대한 텍스처 데이터 및 투명도 데이터를 포함한다.

Description

다중 객체 표면 이미지(MOSI) 포맷

본 발명은 멀티-뷰 이미지 포맷의 분야에 관한 것이다. 특히, 본 발명은 멀티-뷰 이미지 프레임 데이터를 위한 포맷의 처리 및 렌더링에 관한 것이다.

깊이를 갖는 멀티-뷰 이미지로부터 렌더링하는 기존 접근법은 블렌딩(blending)을 사용하여 다수의 소스 뷰 (캡처) 카메라로부터의 워핑(warping)된 텍스처들을 결합한다. 블렌딩 동작은 소스 및 타겟 카메라 위치/배향(예를 들어, 광선 각도 차이), 깊이 크기, 깊이 변화, 역차폐(de-occlusion), 투명도 및 컬러와 같은 변수에 의존할 수 있다. 몇몇 기술은 심지어 훈련된 컨볼루션 신경망을 사용하여 타겟 뷰포인트(target viewpoint)에서 텍스처들을 정렬한다. 멀티-뷰 이미지를 저장하기 위한 여러 포맷이 있다.

다중 평면 이미지(MPI) 및 다중 구체 이미지(MSI) 기술은 3D 공간에서 미리 정의된 평면 또는 구체 세트에 대한 컬러 및 투명도를 구성한다. 이어서, 새로운 가상 뷰포인트에 대해, 계층들의 백-투-프론트 오버-합성(back-to-front over-compositing)을 사용하여 이미지가 구성된다.

최근에, MPI 및 MSI는 멀티-뷰 비디오를 표현하기 위한 3D 이미지 포맷으로서 대중화되었다. MPI 및 MSI 포맷은 포인트로부터의 다양한 깊이(평면) 또는 거리(구체)에 위치된 투명도를 갖는 다수의 컬러 이미지로 구성된다. 새로운 가상 뷰포인트를 생성할 때, 컬러 계층들이 서로에 대해 시프트되고 이어서 컬러들이 함께 합성된다.

MPI 및 MSI 포맷은 멀티-뷰 비디오를 표현하는 데 적합해 보이지만, 몇몇 문제가 남아 있다. 예를 들어, 포맷은 전형적으로 많은(100개 초과) 프레임 크기 RGBA(즉, 컬러 및 투명도) 깊이 계층으로 구성되어서, 픽셀 데이터 관련 크기를 감소시키기보다는 원래의 멀티-뷰 캡처된 픽셀 데이터 관련 크기를 자동으로 확대시킨다. 따라서, 실시간 스트리밍을 가능하게 하기 위해 특정 데이터 레이트 감소 단계가 필요할 것이다.

일본 제2019046077 A호는 지정된 뷰포인트 배향에 따라 배향을 갖는 복수의 표면을 설정함으로써 컴퓨터에서 더 적은 메모리 자원으로 더 적은 계산량으로 자유 뷰포인트 비디오를 합성할 수 있는 비디오 합성 장치를 개시한다.

MPI 및 MSI 포맷들 둘 모두는 관찰된 장면에 관계없이 미리 결정된 그리고 고정된 위치들에 계층들을 배치한다. 더욱이, 이러한 계층들은 전형적으로 공간에 걸쳐 균일한 방식으로(때때로 캡처 시스템으로부터 더 멀리 떨어져 있는 곳보다 캡처 시스템에 가까운 곳에서 더 조밀하게) 펼쳐져 있다. 실제로, 어디든지 계층들을 배치하는 것은 고스트 객체의 도입을 유발할 가능성이 있다. 예를 들어, 최근의 연구들은 MPI가 빈 공간의 넓은 영역들로 구성된 실제 장면들에 대해 과잉-파라미터화되는 것을 보여준다. 이 문제에 대한 제안된 솔루션은 계층들에 희소성을 강제하는 것이다. 그러나, 계층들에 희소성을 강제하는 것은 장면 내의 객체들의 시각적 품질을 감소시킬 수 있다.

본 발명은 청구항들에 의해 한정된다.

본 발명의 태양에 따른 예들에 따르면, 멀티-뷰 이미지 데이터를 처리하기 위한 방법으로서,

복수의 센서들로부터 소스 뷰 데이터를 획득하는 단계로서, 소스 뷰 데이터는 2개 이상의 객체들을 갖는 장면의 소스 텍스처 데이터 및 소스 깊이 데이터를 포함하는, 상기 복수의 센서들로부터 소스 뷰 데이터를 획득하는 단계;

장면 내의 객체들 중 2개 이상의 객체들의 위치를 획득하는 단계; 및

객체들 중 적어도 2개에 대한 가상 장면에 계층들의 2개 이상의 스택(stack)들을 생성하는 단계를 포함하며,

계층들의 각각의 스택은 상이한 객체에 대응하고,

가상 장면 내의 계층들의 각각의 스택의 위치는 장면 내의 대응하는 객체의 위치에 기초하고,

계층들의 각각의 스택을 생성하는 것은 복수의 계층을 생성하는 것을 포함하며, 각각의 계층은 대응하는 객체에 대한 텍스처 데이터 및 투명도 데이터를 포함하는, 방법이 제공된다.

전형적으로, 멀티-뷰 이미지들에 대한 계층화된 접근법들은 가상 장면에서 간격을 두고 배치된 계층들(평면들)을 사용한다. 계층들의 간격은 보통 일정하거나 타겟 뷰포인트로부터의 거리에 기초한다. 그러나, 본 발명자들은 이러한 포맷들이 저장 및 송신할 대량의 데이터를 사용하며 이에 따라 (예를 들어, 특히 실시간 방송에) 항상 적합하지는 않을 수 있다는 것을 깨달았다. 예를 들어, 대부분의 계층들은 100% 투명도를 갖는 상당한 수의 픽셀들을 가질 것이고, 이에 따라 여전히 저장되어야 하는 객체들 중 임의의 객체의 임의의 유용한 데이터를 포함하지 않을 것이다.

이에 따라, 본 발명자들은 각각의 객체에 대한 계층들의 스택을 생성하지만, 계층들의 스택을 가상 장면에 객체가 장면 내에 있을 곳에 위치시키는 것을 제안한다. 이러한 방식으로, 계층들은 대부분 객체들 옆에(또는 그 부근에) 위치되며, 100% 투명도를 갖는 픽셀들의 수가 크게 감소될 수 있다. 이것은 장면 내의 객체들의 위치들을 획득하는 것으로부터 가능하다.

객체들의 위치들은 소스 텍스처 데이터 및/또는 소스 깊이 데이터의 분할로부터 획득될 수 있다. 훈련된 기계 학습 알고리즘들이 또한 객체들의 위치들을 검출하는 데 사용될 수 있다. 객체들의 위치들을 획득하기 위한 다른 방법들이 당업자에게 알려질 것이다. 예를 들어, 축구 경기에서, 축구장 및 스타디움의 위치는 사용자-생성 3D 모델로부터 획득될 수 있고, 선수들 및 공의 위치는 객체 검출 알고리즘들로부터 획득될 수 있다.

대안적으로, 객체들은 그래픽 엔진에 의해 장면 내에 생성될 수 있으며, 이에 따라 객체의 위치는 객체가 그래픽 엔진에 의해 장면 내에 생성된 곳으로부터 알려질 것이다.

계층들의 스택의 위치는, 예를 들어, 계층들의 스택의 중심 및 스택의 크기 및/또는 기하학적 구조를 정의하는 3D 좌표에 의해 정의될 수 있다. 대안적으로, 계층들의 스택의 위치는 계층들의 스택 내의 임의적인 계층의 임의적인 픽셀, 계층들의 수 및 계층들의 간격에 의해 정의될 수 있다. 계층 내의 각각의 픽셀은 RGBA(즉, 컬러 및 투명도)를 가질 수 있다.

몇몇의 얇은 또는 반투명한 객체들(예를 들어, 축구 골문 네트)은 텍스처화된 메시 또는 깊이 포맷을 갖는 멀티-뷰로부터의 다수의 워핑된 텍스처들의 블렌드(blend)로서보다 투명한 계층들로서 더 잘 표현될 수 있다(즉, 더 높은 이미지 품질을 야기함). 그러면 이것은 상이한 포맷들(예를 들어, 메시, 깊이를 갖는 멀티-뷰 및 MOSI)이 공간적으로 결합되어 장면을 설명하는 종합적인 시스템을 야기할 수 있다. 적어도 관련 텍스처/깊이 맵과 알파 맵 데이터가 송신을 위해 단일 비디오 파일로 함께 패킹(packing)될 수 있다는 점에 유의한다. 그러한 하이브리드 포맷 시나리오에서, 메타데이터는 패킹된 비디오 텍스처 아틀라스(video texture atlas)에서 무엇이 어디에 있는지를 나타낼 수 있다.

객체들을 그들 각자의 위치들에 표현하는 계층들의 스택들과 관련된 특정 포맷은 다중 객체 표면 이미징(MOSI) 포맷으로 지칭될 수 있다.

가상 장면 내의 계층들의 스택의 배향은 다음 중 하나 이상에 기초할 수 있다: 장면 내의 대응하는 객체의 위치, 장면 내의 대응하는 객체의 배향, 대응하는 객체의 기하학적 구조, 대응하는 객체에 관한 선험적 지식, 복수의 센서들 중 하나 이상의 센서들의 위치, 복수의 센서들 중 하나 이상의 센서들의 배향, 및 의도된 관찰 존의 위치.

객체의 배향은 소스 뷰 데이터(즉, 객체의 위치, 배향 및/또는 기하학적 구조)로부터 측정될 수 있다. 예를 들어, 긴 객체들에 대해, 스택 내의 계층들은 긴 객체에 의해 정의되는 축에 평행하게(또는 평행에 가깝게) 생성될 수 있다.

대안적으로, 객체의 배향은 이미 알려져 있을 수 있다. 예를 들어, 축구장의 배향은 항상 임의의 뷰포인트로부터 알려질 것인데, 왜냐하면 그것은 변하지 않기 때문이다.

장면(및 장면 내의 객체들)이 그래픽 엔진에 의해 생성되는 경우, 객체(또는 센서들)의 위치, 기하학적 구조 및 배향은 그래픽 엔진으로부터 획득될 수 있다.

계층들의 스택 내의 계층들이 평면형인 경우에, 그들이 관찰 존의 평균 관찰 방향에 평행한 그들의 법선을 갖도록 평면 배향들이 선택될 수 있다.

의도된 관찰 존은 관찰자가 이동해야 하는(그리고 허용 가능한 이미지 품질을 얻어야 하는) 6 자유도(6DoF) 영역(즉, 위치 및 배향)에 있을 수 있다. 그것은 주어진 관찰 존을 캡처하도록 설계된(즉, 카메라들의 수, 시야, 위치/배향에 의존하는) 센서 캡처 구성과 관련된다.

계층들의 스택에 대응하는 계층들의 형상은 다음 중 하나 이상에 기초할 수 있다: 장면 내의 대응하는 객체의 위치, 장면 내의 대응하는 객체의 배향, 대응하는 객체의 기하학적 구조, 및 대응하는 객체에 관한 선험적 지식.

계층들의 스택의 형상은 예를 들어 구형, 원통형 또는 직사각형일 수 있다. 스택의 형상은 스택을 구성하는 계층들의 형상에 기초할 수 있다. 계층들은 계층들의 대응하는 스택의 형상에 따라 원통형 쉘(shell), 구형 쉘 또는 평면일 수 있다. 예를 들어, 축구공은 대응하는 스택 내의 구형 계층들로부터 이익을 얻을 수 있는 반면, 축구장은 대응하는 스택 내의 평면형 계층들로부터 이익을 얻을 수 있다.

순수 그래픽 엔진 기반 작업 흐름에서, 계층들의 형상은 축소된 또는 확장된 객체 표면들로 구성될 수 있으며, 여기서 이들은 진정한 표면 기하학적 구조의 법선 벡터를 따라 축소되거나 확장되었다. 그러면 그래픽 엔진 렌더/익스포트 스크립트가 객체에 대한 MOSI 포맷을 생성할 수 있다.

장면 내의 하나 이상의 객체들의 위치를 획득하는 단계는 장면의 배경의 배경 깊이 데이터를 포함하여서, 배경의 위치를 포함하는 장면의 배경 모델을 획득하는 단계, 소스 깊이 데이터로부터 배경 깊이 데이터를 감산하는 단계, 감산된 데이터에서 전경 객체들을 검출하는 단계, 및 가상 장면 내의 전경 객체들의 위치를 결정하는 단계로서, 객체들의 위치는 배경의 위치 및 전경 객체들의 위치에 기초하는, 상기 가상 장면 내의 전경 객체들의 위치를 결정하는 단계에 기초할 수 있다.

방법은 객체들 중 하나 이상에 대한 계층들의 하나 이상의 추가적인 스택들을 생성하여서, 계층들의 스택 또는 계층들의 추가적인 스택들 중 적어도 하나를 사용하여 타겟 관찰 공간 내의 임의의 포인트로부터 관찰될 때 객체들을 완전히 보이게 만드는 단계를 추가로 포함할 수 있으며, 제1 객체에 대한 계층들의 추가적인 스택은 제1 객체에 대한 계층들의 스택과는 상이한 배향을 갖고, 타겟 관찰 공간은 관찰자가 가상 장면을 볼 수 있는 가상 장면 내의 하위-공간을 정의한다.

계층들의 스택의 형상에 따라, 계층들의 텍스처 데이터를 렌더링하는 것은 소정 각도들로부터 관찰될 때 객체가 완전히 보이지 못하게 할 수 있는 아티팩트(artefact)들을 생성할 수 있다. 예를 들어, 평면형 계층들이 평면형 계층들에 평행한 축으로부터 관찰되는 경우, 계층들의 전체 텍스처 데이터가 관찰자에게 보이지 않을 수 있다. 유사하게, 원통형 계층이 위로부터 관찰되는 경우, 텍스처 데이터가 완전히는 보이지는 않을 수 있다.

이에 따라, 관찰자가 가상 장면을 볼 수 있는 타겟 관찰 공간이 정의될 수 있다. 계층들의 스택 내의 계층들의 텍스처 데이터가 타겟 관찰 공간 내의 하나 이상의 포인트들로부터 보이지 않는 경우, 대응하는 객체(예를 들어, 상이한 배향 및/또는 형상)에 대해 계층들의 추가적인 스택들이 생성될 수 있으며, 따라서 객체는 타겟 관찰 공간 내의 아티팩트들 없이 항상 보일 것이다. 계층들의 추가적인 스택은 동일한 객체들에 대한 계층들의 "원래의" 스택과는 상이한 배향을 가질 것이다. 예를 들어, 계층들의 추가적인 스택 내의 계층들은 계층들의 스택 내의 계층들에 직교이거나 거의 직교일 수 있다(예를 들어, 70도 내지 110도).

제1 객체에 대응하는 계층들의 제1 스택은 계층들의 제1 스택 내의 계층들이 제2의 상이한 객체(예를 들어, 배경 객체)에 대응하는 계층들의 제2 스택 내의 계층들과 교차하도록 생성될 수 있다.

축구 선수를 나타내는 계층들의 스택이 축구장을 나타내는 계층들의 스택과 교차하지 않는 경우, 가상 장면이 소정 각도들로부터 관찰될 때, 축구 선수는 그가 축구장 위에 떠 있는 것처럼 보일 수 있다. 이에 따라, 계층들의 스택들 둘 모두를 교차시키는 것은 가상 장면이 "부자연스럽게" 보이지 않는 것을 보장한다. 교차하는 계층들의 섹션들이, 예를 들어, 렌더링될 때 블렌딩될 수 있다.

방법은 알려진 객체들의 세트 내의 각각의 알려진 객체에 대한 데이터 할당을 수신하는 단계, 및 알려진 객체에 대한 데이터 할당에 기초하여 제1 해상도 및/또는 제1 프레임 레이트로 알려진 객체에 대한 계층들의 스택 내의 계층들을 저장하는 단계를 추가로 포함할 수 있다.

멀티-뷰 이미지 프레임들을 방송할 때, 전형적으로 방송에 사용되는 네트워크의 유형(예를 들어, 4G, 5G 등)에 기초한 각각의 프레임의 크기에 대한 한계가 존재한다. 이에 따라, 모든 객체들이 네트워크의 한계 내에서 적합할 수 있는 것을 보장하기 위해 각각의 객체에 데이터 할당이 주어질 수 있다.

예를 들어, 배경 객체(예를 들어, 축구장)에 대한 각각의 계층은 상대적으로 낮은 프레임 레이트(예를 들어, 10 fps)로 8k 프레임에 저장될 수 있는 반면, 전경 객체(예를 들어, 축구공)는 상대적으로 높은 프레임 레이트(예를 들어, 30 fps)로 4k 프레임에 저장될 수 있다.

방법은 계층들의 스택들에 대한 메타데이터를 생성하는 단계를 추가로 포함할 수 있으며, 메타데이터는 다음 중 하나 이상을 포함한다: 계층들의 스택의 위치, 계층들의 스택의 배향, 계층들의 스택 내의 계층들의 수, 계층들 사이의 간격, 계층들의 유형 및/또는 형상, 및 계층들의 스택의 역학.

또한, 계층들 사이의 간격은 계층들의 스택의 위치의 함수일 수 있다.

계층들의 스택의 역학은 스택의 임의의 시간적 코딩을 지칭한다. 예를 들어, 계층들의 스택의 전역적 위치 또는 배향은 시간이 지남에 따라 변할 수 있다. 대안적으로, 스택의 간격 또는 스택 내의 계층들의 수는, 예를 들어, 객체가 평균 관찰 위치로부터 더 멀리 떨어져 이동하고 이에 따라 더 적은 둘러보기 효과가 모델링될 필요가 있을 때 시간이 지남에 따라 변할 수 있다.

소스 텍스처 데이터는 복수의 소스 뷰 이미지들을 포함할 수 있으며, 계층에 대한 텍스처 데이터 및 투명도 데이터를 생성하는 것은 소스 뷰 이미지들로부터의 텍스처 데이터에 기초한다.

소스 뷰 이미지들로부터 텍스처 데이터 및 투명도 데이터를 생성하는 것은 당업자에게 알려질 것이다. 예를 들어, 텍스처 데이터 및 투명도 데이터를 생성하는 것은 각각의 소스 뷰 이미지를 가상 장면 상에 투영하는 것을 포함하며, 소스 뷰 이미지 내의 각각의 소스 픽셀은 가상 장면 내의 대응하는 위치를 갖는다. 계층들 중 각각의 하나의 계층에 대해, 그것은, 각각의 소스 뷰 이미지 내의 각각의 소스 픽셀에 대해, 가상 장면 내의 소스 픽셀에 가장 가까운 계층 내의 픽셀인 근위 픽셀, 근위 픽셀과 소스 픽셀 사이의 소스 대 계층 거리, 및 소스 대 계층 거리에 기초한 가중치를 결정하는 것을 추가로 포함한다. 타겟 컬러 값이 계층 픽셀에 대응하는 가중치들 및 대응하는 계층 픽셀에 대한 소스 대 계층 거리들을 찾는 데 사용되는 소스 픽셀들 중 각각의 하나의 소스 픽셀의 소스 컬러 값에 기초하여 계층 내의 각각의 계층 픽셀에 대해 생성될 수 있다.

대안적으로, 가중치는 소스 카메라로부터 소스 픽셀로의 벡터와, 타겟 평면에 직교로 놓이고 타겟 픽셀에서 그것과 교차하는 벡터 사이의 각도에 기초하여 결정될 수 있다(즉, 타겟 평면은 본질적으로 투시 투영 대신에 평행 투영과 대응한다).

계층에 대한 텍스처 및 투명도 데이터를 찾는 것은 소스 뷰 이미지들에 기초하여 계층 내의 각각의 픽셀에 대해 행해질 수 있다. 각각의 소스 뷰 이미지는 가상 장면 상에 투영되고, 각각의 소스 뷰 이미지의 각각의 픽셀(즉, 소스 픽셀들)에 대한 계층 내의 가장 가까운 픽셀(즉, 근위 픽셀)이 발견된다. 소스 픽셀과 대응하는 근위 계층 픽셀 사이의 거리는 계층 픽셀에 대한 소스 픽셀의 기여의 중요도/가중치의 추정치를 제공한다. 예를 들어, 계층으로부터 멀리 있는 소스 픽셀들은 계층에 대한 픽셀과 관련된 컬러 값을 포함할 가능성이 적은 반면, 더 가까운 소스 픽셀들은 더 관련 있을 가능성이 있다.

주어진 계층에서의 소스 픽셀과 대응하는 근위 픽셀 사이의 거리(즉, 소스 대 계층 거리)는 가중치를 결정하는 데 사용될 수 있다. 이어서 가중치는, 예를 들어, 각각의 소스 픽셀의 컬러를 대응하는 가중치로 가중하고 가중된 소스 컬러 값들의 합을 발견함으로써 타겟 픽셀에 대한 타겟 컬러 값을 생성하는 데 사용될 수 있다. 대안적으로, 가장 높은 가중치 값을 갖는 소스 뷰 픽셀이 계층 픽셀의 컬러에 대해 사용된다. 다른 대안적인 샘플링 스킴(scheme)들이 또한 채택될 수 있다.

소스 뷰 데이터는 장면의 텍스처 이미지들 및 소스 텍스처 데이터를 포함할 수 있고, 소스 깊이 데이터는 텍스처 이미지들에 대해 깊이 추정을 수행함으로써 획득될 수 있다.

본 발명은 또한 2개 이상의 객체들을 갖는 장면을 묘사하는 멀티-뷰 이미지 데이터를 렌더링하기 위한 방법으로서,

가상 장면에 대한 계층들의 2개 이상의 스택들을 수신하는 단계로서,

계층들의 각각의 스택은 상이한 객체에 대응하고,

계층들의 각각의 스택은 복수의 계층들을 포함하며, 각각의 계층은 대응하는 객체에 대한 텍스처 데이터 및 투명도 데이터를 포함하는, 상기 가상 장면에 대한 계층들의 2개 이상의 스택들을 수신하는 단계;

가상 장면 내의 타겟 뷰포인트를 수신하는 단계; 및

타겟 뷰포인트에 기초하여 계층들의 스택들을 렌더링하는 단계를 포함하는, 방법을 제공한다.

방법은 계층들의 스택들의 위치와 가상 장면 내의 타겟 뷰포인트의 위치 사이의 거리에 기초하여 계층들의 스택들을 정렬하는 단계를 추가로 포함할 수 있다.

계층들의 스택들을 렌더링하는 단계는 계층들의 각각의 스택으로부터 타겟 뷰포인트까지의 거리의 감소 순서로 수행될 수 있으며, 계층들의 각각의 스택 내의 계층들을 렌더링하는 단계는 각각의 계층의 위치와 타겟 뷰포인트의 위치 사이의 거리에 기초하여 감소 순서로 수행된다.

본 발명은 또한 컴퓨터 프로그램 코드 수단을 포함하는 컴퓨터 프로그램 제품으로서, 컴퓨터 프로그램 코드 수단은, 처리 시스템을 갖는 컴퓨팅 디바이스 상에서 실행될 때, 처리 시스템으로 하여금 멀티-뷰 데이터를 처리 및 렌더링하는 전술된 방법들의 단계들 모두를 수행하게 하는, 컴퓨터 프로그램 제품을 제공한다. 프로세서가 또한 코드를 실행하기 위해 제공된다.

본 발명은 또한 2개 이상의 객체들을 갖는 장면을 묘사하는 멀티-뷰 이미지 프레임 데이터를 포함하는 비트스트림으로서, 비트스트림은 비디오 비트스트림을 포함하며, 비디오 비트스트림은 장면 내의 적어도 2개의 각자의 객체들에 대한 가상 장면 내의 계층들의 2개 이상의 스택들을 포함하고,

계층들의 각각의 스택은 상이한 객체에 대응하고,

가상 장면 내의 계층들의 각각의 스택의 위치는 장면 내의 각자의 객체의 위치에 기초하고,

계층들의 각각의 스택은 복수의 계층들을 포함하며, 각각의 계층은 대응하는 객체에 대한 텍스처 데이터 및 투명도 데이터를 포함하는, 비트스트림을 제공한다.

본 발명의 이들 및 다른 태양들이 이하에 설명되는 실시예(들)로부터 명백할 것이며 그것을 참조하여 설명될 것이다.

본 발명의 더 양호한 이해를 위해, 그리고 그것이 어떻게 실시될 수 있는지를 더욱 명확하게 보여주기 위해, 이제 단지 예로서 첨부 도면을 참조할 것이다.
도 1은 MPI 및 MSI 포맷의 예시를 도시한다.
도 2는 다중 객체 표면 이미지(MOSI) 포맷의 예시를 도시한다.
도 3은 교차하는 계층들의 2개의 스택을 도시한다.
도 4는 계층들의 2개의 스택 및 계층들의 추가적인 스택을 갖는 장면을 도시한다.
도 5는 모든 계층들이 평행한 MOSI 포맷의 예를 도시한다.

본 발명이 도면들을 참조하여 설명될 것이다.

상세한 설명 및 특정 예들은, 장치, 시스템들 및 방법들의 예시적인 실시예들을 나타내지만, 단지 예시의 목적으로 의도되며 본 발명의 범위를 제한하고자 하는 것이 아님이 이해되어야 한다. 본 발명의 장치, 시스템들 및 방법들의 이들 및 다른 특징, 태양 및 이점이 하기의 설명, 첨부된 청구항들 및 첨부 도면으로부터 더 잘 이해될 것이다. 도면들은 단지 개략적인 것이며 일정한 축척으로 작성된 것이 아님이 이해되어야 한다. 동일한 도면 부호들이 도면들 전체에 걸쳐 동일한 또는 유사한 부분들을 지시하는 데 사용된다는 것이 또한 이해되어야 한다.

본 발명은 멀티-뷰 이미지 데이터를 처리하기 위한 방법을 제공한다. 방법은 복수의 센서로부터 소스 뷰 데이터를 획득하는 단계를 포함하며, 소스 뷰 데이터는 하나 이상의 객체를 갖는 장면의 소스 텍스처 데이터 및 소스 깊이 데이터를 포함한다. 장면 내의 객체들 중 하나 이상의 객체의 위치들이 획득되고, 계층들의 스택이 객체들 중 적어도 하나에 대한 가상 장면에 생성되며, 가상 장면 내의 계층들의 스택의 위치는 장면 내의 대응하는 객체의 위치에 기초한다. 계층들의 스택을 생성하는 것은 복수의 계층을 생성하는 것을 포함하며, 각각의 계층은 대응하는 객체에 대한 텍스처 데이터 및 투명도 데이터를 포함한다.

도 1은 MPI 및 MSI 포맷의 예시를 도시한다. 도 1의 (a)는 MPI 포맷의 계층들(102)의 예시를 도시한다. 이 예에서, 계층들(102)은 그들이 뷰포인트(104)로부터 얼마나 멀리 떨어져 있는지에 비례하여 이격된다. MPI에 대한 계층들(102)은 각각의 픽셀에 대한 RGBA(즉, 컬러 및 투명도) 데이터를 포함하는 서로 평행한 평면들이며, 각각의 계층(102) 사이의 간격은 뷰포인트로부터의 깊이(즉, z 방향)에 대해 정의된다.

도 1의 (b)는 MSI 포맷의 계층들(102)의 예시를 도시한다. MPI 포맷과 유사하게, 계층들(102)은 그들이 중심 뷰포인트(106)로부터 얼마나 멀리 떨어져 있는지에 비례하여 이격된다. 계층들(102)은 형상에 있어서 그리고 중심 뷰포인트(106)를 갖고서 구형이며, 계층들(102)의 간격은 예를 들어 이전의 더 가까운 계층(102)의 (r 방향의) 반경에 대해 정의된다.

대안적으로, 도 1의 (a) 및/또는 도 1의 (b)에서의 계층들(102)은 일정한 또는 임의적인 간격을 가질 수 있다.

도면들의 복잡성을 줄이기 위해 도면들 중 임의의 것 내의 모든 계층들(102)에 대해 참조 번호들이 제공되지는 않는다.

도 2는 다중 객체 표면 이미지(MOSI) 포맷의 예시를 도시한다. 4개의 상이한 객체에 대응하는 계층들의 4개의 스택(202)이 도 2에 도시되어 있다. 스택(202a)은 장면의 배경에 대응하고, 스택(202b)은 장면의 그라운드에 대응하고, 스택들(202c 및 202d)은 그라운드에 서 있는 2개의 객체에 대응한다.

배경 및 그라운드 스택들(202a 및 202b)은 각각 3개의 계층(102)을 갖는 평면형 스택들이다. 스택(202)당 계층들(102)의 수는 사용되는 처리 시스템, 및/또는 MOSI 포맷의 의도된 사용에 의존할 수 있다. 3개의 계층(102)은 순전히 예시 목적으로 도 2에 도시된다.

스택(202c)은 그라운드 위의 객체(예를 들어, 축구장 위의 축구 선수)에 대응하며, 원통형 스택이다. 스택(202c) 내의 계층들(102)은 중공 실린더들이다. 스택(202d)은 또한 그라운드 위의 객체에 대응하지만, 스택(202d)은 계층들(102)이 평면들인 평면형 스택이다.

스택들(202)에 대한 형상의 선택(예를 들어, 평면형, 원통형 또는 구형)은 장면 내의 객체의 위치 및/ 대응하는 객체의 기하학적 구조에 의존할 수 있다. 예를 들어, 스택(202)은 객체의 표면의 형상을 갖는 계층들(202)을 가질 수 있고, 이에 따라 스택(202)은 객체의 형상을 가질 것이다.

계층들의 각각의 스택(202)의 위치는 장면의 기하학적 구조와 직접적으로 관련된다. 다시 말해서, 장면 내의 객체들의 위치는 가상 장면 내의 계층들의 대응하는 스택(202)의 위치를 정의한다.

본 발명은 장면 내의 객체들의 세트에 대한 다중 객체 표면 이미지(MOSI)를 생성할 것을 제안한다. 장면 기하학적 구조와 무관한 미리 정의된 깊이 계층들(102)을 생성하는 대신에, 제안된 MOSI 포맷은 계층들의 스택들(202) 내의 3D 표면들(평면들, 원통들, 구체들)을, 객체들이 실제로 위치되는 위치 주위에 집중시킨다. 이러한 방식으로, 장면 기하학적 구조에 관한 사전 지식이 사용된다. 따라서 MOSI 포맷은 캡처된 장면의 특정 기하학적 구조에 적응된다.

MOSI 포맷은 픽셀 레이트의 면에서 더 콤팩트하며, 고스트 객체들이 장면 요소들로부터 멀리 떨어진 곳에서 발생할 가능성이 없다. 이러한 더 콤팩트한 MOSI 포맷은 또한 새로운 뷰들을 합성할 때 더 빠를 수 있다.

MPI 및 MSI 포맷과 유사하게, 계층들(102) 내의 각각의 픽셀에 대한 RGBA 데이터를 저장하는 것이 제안된다. 그러나, MOSI 포맷은 객체들이 장면 내에 있는 선험적으로 알려진 위치들에 대응하는 공간 내의 상이한 위치들을 갖는 계층들의 다수의 스택(202)을 생성한다. MPI 및 MSI에서와 같이, MOSI 내의 단일 계층(102)이 또한 컬러 및 투명도 정보로 구성된다.

MPI 및 MSI에 대해, 최종 이미지를 생성하기 위한 포맷으로부터의 렌더링은 소위 '오버(over)' 연산자를 이용하는 알파 합성을 사용하여 뒤에서 앞으로 순서로 행해진다. 제안된 MOSI 포맷에 대해, 이것은 또한 스택(202) 내에서 행해지지만, 스택들(202) 사이에서는 행해지지 않는다. MOSI 포맷에서, 스택(202)은 3D 공간 내의 주어진 객체에 대응한다. 렌더링 전에, 스택들(202)은 뷰포인트에 대한 그들의 위치에 기초하여 정렬될 수 있다. 이어서 스택들(202)은 뷰포인트로부터의 감소하는 깊이 순서로 차례로 그려질 수 있다.

아래의 절차는 캡처된 멀티-뷰 이미지로부터 시작하는 MOSI 스택들(202)의 기하학적 위치를 정의하기 위한 방법을 설명한다. 예는 경기장의 측면으로부터 캡처된 바와 같은 전형적인 스포츠 장면에 대한 것이다:

- 스포츠 경기장의 측면으로부터 다수의 카메라(예를 들어, 16개의 카메라)로 이미지들을 캡처한다;

- 그라운드 표면 및 배경의 평면 파라미터들을 결정하기 위해 평면 피팅을 수행한다;

- 피팅된 그라운드 평면 표면 주위에 높이가 10 센티미터의 간격을 갖는 5개의 계층(102)을 갖는 제1 스택(202)을 배치한다;

- 배경의 평균 거리에서 5 미터의 간격을 갖는 5개의 계층을 갖는 제2 스택(202)을 생성한다;

- 이웃 뷰들과의 이미지 매칭을 사용하여 각각의 뷰에 대한 깊이 추정을 수행하여서, 피팅된 그라운드 및 배경 모델들을 사용하여 결과적인 깊이 값들을 제한한다;

- 추정된 깊이 맵으로부터 피팅된 그라운드 표면 배경을 포함하는 깊이 맵을 감산하고, 이것을 임계화를 사용하여 이진 전경 객체 마스크로 변환한다. 이진 마스크는, 예를 들어, 스포츠 선수들 및 공을 포함할 수 있다;

- 이진 마스크를 사용하여 가변 위치를 갖는 가변 수의 직사각형들을 검출한다; 그리고

- (선수의 크기를 커버하는) 20cm 이격된 직사각형 내부의 평균 깊이에 객체당 5개의 평면을 배치함으로써 가변 수의 추가 스택들(202)을 생성한다.

3D 포인트 클라우드를 캡처하기 위해 별개의 레이저 스캐너(또는 깊이 센서)가 멀티-카메라 셋업에 추가될 때 뷰들 사이의 깊이 추정 단계는 생략될 수 있다. 그 경우에, 위의 알고리즘은 계층들의 스택들(202)이 장면 내의 객체들과 상관관계가 있는 포인트 클라우드 내의 포인트들의 조밀한 클러스터들에 배치될 것이라는 점에서 변경될 것이다.

MOSI 포맷에 대한 계층들의 스택(202)이 정의되었기 때문에, 아래의 단계들이 캡처된 멀티-뷰 카메라 이미지들(즉, 소스 뷰들)을 입력으로서 사용하여 모든 스택들(202) 내의 각각의 계층(102)에 대한 RGBA 텍스처를 생성하는 데 사용될 수 있다:

- 모든 소스 뷰들 i를 모든 표면들 j(즉, 모든 계층들) 상에 투영하고, 표면 j까지의 소스 뷰 i 내의 3D 픽셀 위치의 최단 거리에 의존하는 타겟 픽셀별 가중치 를 계산한다. 거리가 작을수록, 가중치가 더 크다. 예를 들어, 다음과 같으며:

여기서, 은 소스 i의 깊이 맵으로부터 도출된 소스 뷰 이미지 좌표 에서의 3D 포인트 위치이고, 는 타겟 표면 j에 위치하는 가장 가까운 포인트이고, k는 상수 파라미터(예를 들어, 값 1/10을 가짐)이고, 는 표면 j에 대한 텍스처와 관련된 컬러 및 투명도를 포함할 타겟 텍스처 좌표이다;

- 모든 표면들 j에 대해, 모든 소스 뷰들에 걸쳐 타겟 텍스처 좌표 별 가중치들을 누산한다:

- 모든 표면들 j에 대해, 모든 소스 뷰들에 걸쳐 타겟 텍스처 좌표 별 가중치 x 컬러의 곱을 누산한다:

- 모든 표면들 j에 대해, 다음과 같이 텍스처 좌표 에 대한 최종 컬러 값 를 계산한다:

- 모든 표면들 j에 대해, 다음과 같이 텍스처 좌표 에 대한 최종 투명도 값 를 계산하며:

여기서, 는 소스 뷰들의 수이다.

위의 절차에 대한 대안으로서, 가중치 는 깊이 차이에 기초할 뿐만 아니라, 표면 j의 위치를 사용하여 계산되는 더 근본적인 컬러 매치 에러 항에 기초하여 계산될 수 있다. 보다 구체적으로, 대응하는 텍스처 좌표 를 갖는 표면 j에 위치하는 3D 포인트는 개의 컬러 값을 검색하기 위해 소스 뷰들에 매핑될 수 있다.

이러한 컬러 값들의 통계는 를 계산하는 데 사용될 수 있다. 예를 들어, 주어진 소스 뷰 i에 대해, 컬러 차이가 검색된 컬러 값들의 평균과는 크게 다른 경우, 가중치 는 비교적 낮은 값으로 자동 설정되는데, 그 이유는 3D 포인트 가 소스 뷰 j에서 차폐될 가능성이 있기 때문이다. 컬러 분산 또는 컬러들의 일반 히스토그램과 같은 다른 통계가 를 결정하는 데 사용될 수 있다.

MOSI 포맷의 품질을 더욱 개선하기 위해, 심층 학습이 적용되어 계층들(102)에 대한 컬러 및/또는 투명도 픽셀 값들을 생성할 수 있다. 그 경우에, 어떤 형태의 실측 자료가 필요할 수 있다. 이러한 실측 자료는 MOSI 포맷을 직접 생성할 수 있는 그래픽 엔진으로부터 올 수 있거나, 원래의 소스 뷰들 자체를 실측 자료로서 사용하기 위해 추가 렌더링 단계가 취해질 수 있다. 후자가 가능한데, 왜냐하면 렌더링 동작이 선형 동작이고, 따라서 구별 가능하고, 이에 따라 신경망에서의 역전파에 적합하기 때문이다.

정적 스택들(202)은 이들을 스포츠 그라운드, 골문 또는 스타디움 배경과 같은 정적 장면 객체에 대해 배치하기 위해 에디터에서 손으로 튜닝될 수 있다.

도 3은 교차하는 계층들의 2개의 스택(202)을 도시한다. 아티팩트들은 스택들(202)이 교차하지 않음으로 인해 발생할 수 있다. 이에 따라, 스택들(202)이 중첩되도록 배치되는 것이 유리할 수 있다. 스택들(202)은 객체가 그라운드 위에 떠 있는 것처럼 보이는 것을 회피하기 위해 교차될 수 있다.

예를 들어, 축구장의 그라운드 표면은 오버-합성을 사용하여 아래에서 위로 렌더링될 수 있고, 이어서 수직 배향 스택(예를 들어, 축구 선수)이 오버 합성을 사용하여 뒤에서 앞으로 렌더링될 수 있다. 이러한 접근법은 계층들의 특별한 블렌딩을 요구하지 않는다. 단지 갭을 회피하기 위해 2개의 스택의 약간의 교차(예를 들어, 적어도 하나의 픽셀)가 필요할 수 있다.

도 4는 계층들의 2개의 스택(202) 및 계층들의 추가적인 스택(402)을 갖는 장면을 도시한다. 계층들의 추가적인 스택(402)은 계층들의 스택(202e)과 동일하지만, 스택(202f)에 대한 법선을 중심으로 90도만큼 회전될 수 있다. 스택(202f)은 장면 내의 그라운드를 나타내고, 스택(202e)은 그라운드 위의 객체를 나타낸다. 추가적인 스택(402)은 스택(202e)과 동일한 객체를 나타내지만, 계층들(102)은 스택(202e) 내의 계층들(102)과는 상이한 배향을 갖는다.

예를 들어, 몇몇 경우들에서, 몇몇 MOSI 스택들(202)을 타겟 뷰포인트(404)에 의존하게 만드는 것이 또한 필요할 수 있다. 예를 들어, 평면형 스택에 의해 표현된 스포츠 경기장의 그라운드는 사방을 둘러보기에 적합할 수 있지만, 이것은 평면형 스택으로서 표현될 때 스포츠 선수에 대해서는 그렇지 않다.

도 4에, 2개의 타겟 뷰포인트(404a 및 404b)가 도시되어 있다. 관찰자가 뷰포인트(404a)로부터 장면을 보고 있을 때, 스택(202e)은 장면 내의 대응하는 객체를 보여주는 데 사용될 수 있다. 그러나, 관찰자가 뷰포인트(404b)로부터 장면을 보고 있을 때, 스택(202e)은 대응하는 객체를 보여주기에 적합하지 않을 수 있지만(예를 들어, 계층들(102) 사이의 갭들이 보일 것임), 추가적인 스택(402)은 적합할 것이다.

추가적인 스택들(402)은 상이한 타겟 뷰포인트들(404)에 대해, 그리고/또는 관찰자가 그로부터 장면을 볼 수 있는 장면 내의 공간에 기초하여 생성될 수 있다.

도 5는 모든 계층들(102)이 평행한 MOSI 포맷의 예를 도시한다. 도 5는 객체들(502)의 위치에 적응되는 불규칙 계층(102) 간격을 도시한다. 계층들의 스택들(202)은 객체들(502)의 깊이에 또는 그 부근에 배치된다. 이러한 형태의 MOSI 포맷은 장면 및 객체 정보에 적응되는 MPI의 수정이다. 가변 계층 간격이 객체 검출 프로세스에서의 불확실성을 고려하는 데 유용할 수 있다.

패킹:

장면 기하학적 구조에 대한 의존으로 인해, 전형적인 MOSI 픽셀 데이터 크기(각각의 텍스처 맵이 하나의 계층(102)에 대응하는 텍스처 맵들에 걸쳐 합산된 픽셀들의 총 수)는 MPI 및 MSI에 대해 필요한 것보다 훨씬 더 작을 것이다.

그러나, 모든 스택들(202) 내의 계층들(102)에 대한 RGBA 픽셀 값들은 여전히 기존의 2K, 4K 또는 8K 프레임 크기들로 패킹될 필요가 있으며, 따라서 그들은 HEVC와 같은 비디오 인코더를 사용하여 압축될 수 있다.

낮은 계산 비용을 갖는 솔루션은 이미징되고 있는 장면에 따라 패킹 포맷을 선험적으로 정의하는 것이다. 예를 들어, 축구 경기에 대해, 그라운드 표면에 대응하는 스택(202) 및 스타디움 배경에 대응하는 스택(202)은, 더 낮은 프레임 레이트가 시간적 픽셀 레이트를 감소시키기 위해 사용되는 단일 4K 비디오 프레임으로 패킹될 수 있다.

반면에 축구 선수들은 최대 선수 수(예를 들어, 22명)의 텍스처 크기가 달라질 수 있는 제2 비디오로 함께 패킹될 수 있으며, 따라서 타겟 뷰포인트에 가까운 선수들은 더 높은 해상도로 패킹될 수 있다. 장면에 들어갈 수 있는 예측하지 못한 객체들을 위해 얼마간의 공간이 예약될 수 있다. 스택(202)별 텍스처 맵들의 해상도 스케일링이 객체들을 잃지 않고서 항상 결과를 피팅하기 위해 적용될 수 있다. 위의 추론은 종종 다른 동적 이벤트(예를 들어, 다른 스포츠 이벤트)에 또한 적용될 수 있다는 점에 유의한다.

메타데이터:

클라이언트 디바이스가 패킹된 비디오를 올바르게 해석하기 위해, MOSI 스택들(202)의 기하학적 파라미터들을 설명하는 메타데이터가 사용된 패킹 전략에 더하여 필요할 수 있다.

특히, 단일 스택(202)에 대한 메타데이터는 다음 중 하나 이상을 포함할 수 있다:

- 스택(202)의 위치 및/또는 배향;

- 스택(202) 내의 계층들(102)의 수;

- 스택(202) 내의 계층들(102)에 대한 간격 파라미터들(예를 들어, 규칙 - 스칼라 거리 또는 불규칙 - 거리 함수);

- 스택(202)의 유형 및/또는 형상(예를 들어, 평면형, 구형, 원통형, 맞춤형 등); 및

- 스택(202)의 역학(즉, 스택의 시간적 파라미터).

기술자는 임의의 본 명세서에 설명된 방법을 수행하기 위한 프로세서를 손쉽게 개발할 수 있을 것이다. 이에 따라, 흐름도의 각각의 단계는 프로세서에 의해 수행되는 상이한 액션을 나타낼 수 있으며, 처리 프로세서의 각자의 모듈에 의해 수행될 수 있다.

위에서 논의된 바와 같이, 시스템은 데이터 처리를 수행하기 위해 프로세서를 이용한다. 프로세서는 요구되는 다양한 기능을 수행하도록, 소프트웨어 및/또는 하드웨어로, 다수의 방식으로 구현될 수 있다. 프로세서는 전형적으로 요구되는 기능을 수행하기 위해 소프트웨어(예컨대, 마이크로코드)를 사용하여 프로그래밍될 수 있는 하나 이상의 마이크로프로세서를 이용한다. 프로세서는 몇몇 기능들을 수행하기 위한 전용 하드웨어와, 다른 기능들을 수행하기 위한 하나 이상의 프로그래밍된 마이크로프로세서들 및 연관된 회로부의 조합으로서 구현될 수 있다.

본 개시의 다양한 실시예에서 이용될 수 있는 회로부의 예는 종래의 마이크로프로세서, 주문형 집적 회로(ASIC), 및 필드 프로그래머블 게이트 어레이(FPGA)를 포함하지만 이로 제한되지 않는다.

다양한 구현예들에서, 프로세서는 RAM, PROM, EPROM, 및 EEPROM과 같은 휘발성 및 비휘발성 컴퓨터 메모리와 같은 하나 이상의 저장 매체와 연관될 수 있다. 저장 매체는, 하나 이상의 프로세서 및/또는 컨트롤러 상에서 실행될 때, 요구되는 기능을 수행하는 하나 이상의 프로그램으로 인코딩될 수 있다. 다양한 저장 매체가 프로세서 또는 컨트롤러 내에 고정될 수 있거나 운반 가능할 수 있으며, 따라서 그것에 저장된 하나 이상의 프로그램들이 프로세서에 로딩될 수 있다.

개시된 실시예들에 대한 변화들이 도면, 개시 내용, 및 첨부된 청구항들의 검토로부터, 청구된 발명을 실시하는 중에 당업자에 의해 이해되고 이루어질 수 있다. 청구항들에서, 단어 "포함하는"은 다른 요소들 또는 단계들을 배제하지 않으며, 단수 형태(부정 관사 "a" 또는 "an")는 복수를 배제하지 않는다.

단일 프로세서 또는 다른 유닛이 청구항들에 열거된 수개의 아이템들의 기능들을 충족시킬 수 있다.

소정의 수단들이 서로 상이한 종속 청구항들에 열거된다는 단순한 사실이, 이들 수단의 조합이 유리하게 사용될 수 없다는 것을 나타내지는 않는다.

컴퓨터 프로그램이 다른 하드웨어와 함께 또는 그의 일부로서 공급되는 광학 저장 매체 또는 솔리드-스테이트 매체와 같은 적합한 매체 상에 저장/배포될 수 있지만, 또한 다른 형태들로, 예를 들어 인터넷 또는 다른 유선 또는 무선 통신 시스템들을 통해 배포될 수 있다.

용어 "~하도록 적응된"이 청구항들 또는 설명에서 사용되는 경우, 용어 "~하도록 적응된"은 용어 "~하도록 구성된"과 동등한 것으로 의도된다는 점에 유의한다.

청구항들에서의 임의의 도면 부호들은 범위를 제한하는 것으로 해석되어서는 안 된다.

Claims

멀티-뷰 이미지 데이터를 처리하기 위한 방법으로서,
복수의 센서들로부터 소스 뷰 데이터를 획득하는 단계로서, 상기 소스 뷰 데이터는 2개 이상의 객체들을 갖는 장면의 소스 텍스처 데이터 및 소스 깊이 데이터를 포함하는, 상기 복수의 센서들로부터 소스 뷰 데이터를 획득하는 단계;
상기 장면 내의 상기 객체들 중 적어도 2개의 객체들의 위치를 획득하는 단계; 및
위치가 획득된 상기 2개 이상의 객체들에 대한 가상 장면에 계층들의 2개 이상의 스택(stack)들(202)을 생성하는 단계를 포함하며,
계층들의 각각의 스택(202)은 상이한 객체에 대응하고,
상기 가상 장면 내의 계층들의 각각의 스택(202)의 위치는 상기 장면 내의 대응하는 객체의 위치에 기초하고,
계층들의 각각의 스택(202)의 상기 생성은 복수의 계층들(102)을 생성하는 것을 포함하며, 각각의 계층(102)은 상기 대응하는 객체에 대한 텍스처 데이터 및 투명도 데이터를 포함하는, 방법.
제1항에 있어서, 상기 가상 장면 내의 상기 계층들의 스택들(202)의 배향은,
상기 장면 내의 상기 대응하는 객체의 위치,
상기 장면 내의 상기 대응하는 객체의 배향,
상기 대응하는 객체의 기하학적 구조,
상기 대응하는 객체에 관한 선험적 지식,
상기 복수의 센서들 중 하나 이상의 센서들의 위치,
상기 복수의 센서들 중 하나 이상의 센서들의 배향, 및
의도된 관찰 존의 위치
중 하나 이상에 기초하는, 방법.
제1항 또는 제2항에 있어서, 계층들의 스택(202)에 대응하는 상기 계층들(102)의 형상은,
상기 장면 내의 상기 대응하는 객체의 위치,
상기 장면 내의 상기 대응하는 객체의 배향,
상기 대응하는 객체의 기하학적 구조, 및
상기 대응하는 객체에 관한 선험적 지식
중 하나 이상에 기초하는, 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 장면 내의 하나 이상의 객체들의 위치를 획득하는 단계는,
상기 장면의 배경의 배경 깊이 데이터를 포함하여서, 상기 배경의 위치를 포함하는 상기 장면의 배경 모델을 획득하는 단계,
상기 소스 깊이 데이터로부터 상기 배경 깊이 데이터를 감산하는 단계,
상기 감산된 데이터에서 전경 객체들을 검출하는 단계, 및
상기 가상 장면 내의 상기 전경 객체들의 위치를 결정하는 단계로서, 상기 객체들의 위치는 상기 배경의 위치 및 상기 전경 객체들의 위치에 기초하는, 상기 가상 장면 내의 상기 전경 객체들의 위치를 결정하는 단계
에 기초하는, 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 방법은 상기 객체들 중 하나 이상에 대한 계층들의 하나 이상의 추가적인 스택들(402)을 생성하여서, 상기 계층들의 스택(202) 또는 상기 계층들의 추가적인 스택들(402) 중 적어도 하나를 사용하여 타겟 관찰 공간 내의 임의의 포인트로부터 관찰될 때 상기 객체들을 완전히 보이게 만드는 단계를 추가로 포함하며, 제1 객체에 대한 계층들의 추가적인 스택(402)은 상기 제1 객체에 대한 상기 계층들의 스택(202)과는 상이한 배향을 갖고, 타겟 관찰 공간은 관찰자가 상기 가상 장면을 볼 수 있는 상기 가상 장면 내의 하위-공간을 정의하는, 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 제1 객체에 대응하는 계층들의 제1 스택은 상기 계층들의 제1 스택 내의 상기 계층들(102)이 제2의 상이한 객체에 대응하는 계층들의 제2 스택 내의 상기 계층들(102)과 교차하도록 생성되는, 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
알려진 객체들의 세트 내의 각각의 알려진 객체에 대한 데이터 할당을 수신하는 단계; 및
상기 알려진 객체에 대한 상기 데이터 할당에 기초하여 제1 해상도 및/또는 제1 프레임 레이트로 상기 알려진 객체에 대한 계층들의 스택(202) 내의 상기 계층들(102)을 저장하는 단계를 추가로 포함하는, 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 방법은 상기 계층들의 스택들(202)에 대한 메타데이터를 생성하는 단계를 추가로 포함하며, 상기 메타데이터는,
상기 계층들의 스택(202)의 위치,
상기 계층들의 스택(202)의 배향,
상기 계층들의 스택(202) 내의 계층들(102)의 수,
계층들(102) 사이의 간격,
상기 계층들(102)의 유형 및/또는 형상, 및
상기 계층들의 스택(202)의 역학
중 하나 이상을 포함하는, 방법.
제1항 내지 제8항 중 어느 한 항에 있어서, 상기 소스 텍스처 데이터는 복수의 소스 뷰 이미지들을 포함하고, 계층(102)에 대한 상기 텍스처 데이터 및 투명도 데이터를 생성하는 것은 상기 소스 뷰 이미지들로부터의 상기 텍스처 데이터에 기초하는, 방법.
제1항 내지 제9항 중 어느 한 항에 있어서, 상기 소스 뷰 데이터는 상기 장면의 텍스처 이미지들 및 상기 소스 텍스처 데이터를 포함하고, 상기 소스 깊이 데이터는 상기 텍스처 이미지들에 대해 깊이 추정을 수행함으로써 획득되는, 방법.
2개 이상의 객체들을 갖는 장면을 묘사하는 멀티-뷰 이미지 데이터를 렌더링하기 위한 방법으로서,
가상 장면에 대한 계층들의 2개 이상의 스택들(202)을 수신하는 단계로서,
계층들의 각각의 스택(202)은 상이한 객체에 대응하고,
상기 가상 장면 내의 계층들의 각각의 스택(202)의 위치는 상기 장면 내의 대응하는 객체의 위치에 기초하고,
계층들의 각각의 스택(202)은 복수의 계층들(102)을 포함하며, 각각의 계층(102)은 상기 대응하는 객체에 대한 텍스처 데이터 및 투명도 데이터를 포함하는, 상기 가상 장면에 대한 계층들의 2개 이상의 스택들(202)을 수신하는 단계;
상기 가상 장면 내의 타겟 뷰포인트(target viewpoint)를 수신하는 단계; 및
상기 타겟 뷰포인트에 기초하여 상기 계층들의 스택들(202)을 렌더링하는 단계를 포함하는, 방법.
제11항에 있어서, 상기 계층들의 스택들(202)을 렌더링하는 단계는 계층들의 각각의 스택(202)으로부터 상기 타겟 뷰포인트까지의 거리의 감소 순서로 수행되고, 계층들의 각각의 스택(202) 내의 상기 계층들(102)을 렌더링하는 단계는 각각의 계층(102)의 위치와 상기 타겟 뷰포인트의 위치 사이의 거리에 기초하여 감소 순서로 수행되는, 방법.
컴퓨터 프로그램 코드 수단을 포함하는 컴퓨터 프로그램 제품으로서, 상기 컴퓨터 프로그램 코드 수단은, 처리 시스템을 갖는 컴퓨팅 디바이스 상에서 실행될 때, 상기 처리 시스템으로 하여금 제1항 내지 제10항 중 어느 한 항에 따른 방법의 단계들 모두 및/또는 제11항 또는 제12항에 따른 방법의 단계들 모두를 수행하게 하는, 컴퓨터 프로그램 제품.
제13항의 코드를 실행하도록 구성된 프로세서.
2개 이상의 객체들을 갖는 장면을 묘사하는 멀티-뷰 이미지 프레임 데이터를 포함하는 비트스트림으로서, 상기 비트스트림은 비디오 비트스트림을 포함하며, 상기 비디오 비트스트림은 상기 장면 내의 2개 이상의 각자의 객체들에 대한 가상 장면 내의 계층들의 2개 이상의 스택들(202)을 포함하고,
상기 가상 장면 내의 계층들의 각각의 스택(202)의 위치는 상기 장면 내의 상기 각자의 객체의 위치에 기초하고,
계층들의 각각의 스택(202)은 복수의 계층들(102)을 포함하며, 각각의 계층(102)은 대응하는 객체에 대한 텍스처 데이터 및 투명도 데이터를 포함하는, 비트스트림.