KR20240016401A

KR20240016401A - 멀티-뷰 비디오에서의 깊이 분할

Info

Publication number: KR20240016401A
Application number: KR1020247000002A
Authority: KR
Inventors: 크리스천 바레캄프
Original assignee: 코닌클리케 필립스 엔.브이.
Priority date: 2021-06-03
Filing date: 2022-05-25
Publication date: 2024-02-06
Also published as: BR112023025252A2; EP4348577A1; CA3221973A1; WO2022253677A1; EP4099270A1; TW202305746A; CN117413294A

Abstract

멀티-뷰 비디오 데이터의 생성을 위한 깊이 분할의 방법. 방법은 복수의 센서들로부터 3D 장면을 나타내는 복수의 소스 뷰 이미지들 및 소스 뷰 깊이 맵들을 획득하는 단계를 포함한다. 3D 장면 내의 전경 객체들은 소스 뷰 이미지들 및/또는 소스 뷰 깊이 맵들로부터 분할된다. 이어서 하나 이상의 패치가 적어도 하나의 전경 객체를 포함하는 각각의 소스 뷰 이미지 및 소스 뷰 깊이 맵에 대해 생성되며, 각각의 패치는 전경 객체에 대응하고, 패치를 생성하는 것은 소스 뷰 이미지들 및 소스 뷰 깊이 맵들에 기초하여 패치 텍스처 이미지, 패치 깊이 맵 및 패치 투명도 맵을 생성하는 것을 포함한다.

Description

멀티-뷰 비디오에서의 깊이 분할

본 발명은 멀티-뷰 비디오의 분야에 관한 것이다. 특히, 본 발명은 멀티-뷰 비디오의 생성을 위한 깊이 분할 및 멀티-뷰 비디오의 렌더링에 관한 것이다.

깊이를 갖는 멀티-뷰 이미지로부터 렌더링하는 기존 접근법은 블렌딩(blending)을 사용하여 다수의 소스 뷰 (캡처) 카메라로부터의 워핑(warping)된 텍스처들을 결합한다. 블렌딩 동작은 소스 및 타겟 카메라 위치/배향(예를 들어, 광선 각도 차이), 깊이 크기, 깊이 변화, 역차폐(de-occlusion), 투명도 및 컬러와 같은 변수에 의존할 수 있다. 더 진보된 기술은 심지어 훈련된 컨볼루션 신경망을 사용하여 타겟 뷰포인트에서 텍스처들을 정렬한다. 멀티-뷰 이미지를 저장하기 위한 여러 포맷이 있다.

계층화된 깊이 이미지(LDI)는 단일 시선을 따른 깊이 픽셀들(단지 하나가 아님)의 세트를 저장한다. 가상 뷰포인트가 LDI 저장 뷰포인트로부터 멀어지는 쪽으로 움직일 때, 차폐된 표면이 보이게 된다.

다중 평면 이미지(MPI) 및 다중 구체 이미지(MSI) 기술은 3D 공간에서 미리 정의된 평면 또는 구체 세트에 대한 컬러 및 투명도를 구성한다. 이어서, 새로운 가상 뷰포인트에 대해, 계층들의 백-투-프론트 과잉-합성(back-to-front over-compositing)을 사용하여 이미지가 구성된다.

계층화된 메시(LM)가 MPI 및 MSI로부터 구성될 수 있으며 텍스처를 갖는 전통적인 그래픽 메시를 표현하고 따라서 기존 비디오 코덱을 사용하는 아틀라스 구성 및 전송에 적합하다.

계층화된 포맷들(LDI, MPI, MSI, LM)은 잠재적으로 명시적인 차폐 핸들링으로 인해 더 넓은 뷰잉 존을 초래할 수 있지만, 이러한 포맷들은, 특히 실시간으로, 멀티-카메라 시스템으로부터 생성하기 어렵다.

문헌[Loghman Maziar et al. "Segmentation-based view synthesis for multi-view video plus depth", Multimedia Tools and Applications, Kluwer Academy Publishers Boston vol. 74, no. 5, 8 November 2013]은 소스 이미지들로부터 객체들을 분할하고 분할된 객체들을 개별적으로 워핑하는 것에 의한 이미지 합성을 위한 방법을 개시한다.

본 발명은 청구항들에 의해 한정된다.

본 발명의 태양에 따른 예들에 따르면, 멀티-뷰 비디오 데이터의 생성을 위한 깊이 분할의 방법으로서,

복수의 센서들로부터 3D 장면을 나타내는 복수의 소스 뷰 이미지들 및 소스 뷰 깊이 맵들을 획득하는 단계;

소스 뷰 이미지들 및/또는 소스 뷰 깊이 맵들로부터 3D 장면 내의 전경 객체들을 분할하는 단계; 및

적어도 하나의 전경 객체를 포함하는 각각의 소스 뷰 이미지 및 소스 뷰 깊이 맵에 대한 하나 이상의 패치들을 생성하는 단계로서, 각각의 패치는 전경 객체에 대응하고, 패치를 생성하는 단계는 소스 뷰 이미지들 및 소스 뷰 깊이 맵들에 기초하여 패치 텍스처 이미지, 패치 깊이 맵 및 패치 투명도 맵을 생성하는 단계를 포함하는, 상기 적어도 하나의 전경 객체를 포함하는 각각의 소스 뷰 이미지 및 소스 뷰 깊이 맵에 대한 하나 이상의 패치들을 생성하는 단계를 포함하는, 멀티-뷰 비디오 데이터의 생성을 위한 깊이 분할의 방법이 제공된다.

멀티-뷰 비디오에 대한 전형적인 포맷들은 각각의 픽셀에 대한 깊이 값을 추정하는 데 전형적으로 요구되는 복잡한 분석으로 인해 (예를 들어, 계층화된 깊이 이미지들, 다중-평면 이미지들 등을) 생성하는 데 상당한 처리 능력을 요구한다. 예를 들어, 이것을 행하기 위한 강건한 알고리즘을 찾을 수 없는 것은 심층 학습에 기초한 데이터 구동형 접근법들의 증가된 사용을 야기하였다. 이러한 문제는 특히 라이브 스포츠 이벤트들과 같은 멀티-뷰 비디오들의 브로드캐스트에 존재하는데, 왜냐하면 깊이 및 텍스처 아틀라스 데이터의 생성이, 데이터 감소를 위해, 각각의 프레임에 대해 실시간으로 행해져야 하기 때문이다.

이에 따라, 본 발명자는 전경 객체들을 포함하는 소스 뷰들(즉, 이미지들 및 깊이 맵들)로부터 패치들을 "분할"하는 것을 제안하였다. 이에 따라, 아틀라스는 소스 뷰들 모두에 대한 데이터 대신에 패치들로부터의(그리고 배경으로부터의) 데이터만을 포함할 것이다. 각각의 패치는 소스 뷰 이미지 자체보다 작은 소스 뷰 이미지의 섹션 및 섹션에 대한 대응하는 깊이 및 투명도 데이터에 기초한다. 다시 말해서, 각각의 패치는 장면의 임의적인 부분들에 대응하는 소스 뷰들을 사용하는 대신에 장면을 렌더링하는 데 사용되는 전경 객체에 대응하는 텍스처, 투명도 및 깊이 데이터를 갖는 부분 소스 뷰로서의 기능을 한다. 패치들은 서로 중첩될 수 있다. 상이한 패치들이 동일한 크기를 가질 수 있거나, 그들은 (예를 들어, 그들의 대응하는 전경 객체들에 따라) 상이한 크기들을 가질 있다. 몇몇 경우들에, 상이한 패치들은, 예를 들어, 그들이 소스 뷰 이미지의 동일한 섹션에 기초하는 경우(예를 들어, 특정 섹션이 하나 초과의 전경 객체를 포함할 때) 동일한 패치 텍스처 이미지들 및 패치 깊이 맵들을 가질 수 있다.

소스 뷰 이미지들 또는 소스 뷰 깊이 맵들로부터 전경 객체들을 분할하기 위한 다양한 방법들이 존재한다. 예를 들어, 분할 알고리즘들 또는 객체 검출 알고리즘들이 전경 객체들을 검출/분할하기 위해 소스 뷰 이미지들에 대해 사용될 수 있다. 대안적으로, 소스 뷰 깊이 맵들에서의 (임계치 초과의) 깊이 차이들이 계산될 수 있으며, 따라서 전경 객체의 에지가 큰 깊이 차이들에 의해 정의될 수 있다. 멀티-뷰 비디오에 대해, (소스 뷰 이미지들 또는 소스 뷰 깊이 맵들의) 프레임들 간의 차이가 전경 객체의 움직임을 검출하고 이에 따라 전경 객체를 검출하는 데 사용될 수 있다.

이에 따라 패치들이 각각의 소스 뷰 내의 전경 객체들에 대해 생성될 수 있다. 각각의 패치는 단일 전경 객체에 대응한다. 특히, 패치의 크기가, 적어도 부분적으로, 객체(또는 객체의 일부)의 크기에 의해 결정될 수 있다. 그러나, 전경 객체는 하나 초과의 대응하는 패치를 가질 수 있다. 대안적으로, 각각의 전경 객체는 단일 패치와 연관될 수 있다. 패치들은 패치에 대한 텍스처/컬러 데이터를 포함하는 패치 텍스처 이미지, 및 패치에 대한 깊이 데이터를 포함하는 패치 깊이 맵을 갖는다. 패치들은 또한 패치 내의 각각의 픽셀의 투명도 값들을 포함하는 패치 투명도 맵(패치 알파 맵으로도 지칭됨)을 갖는다.

방법은 3D 장면의 배경을 나타내는 3D 장면의 복수의 배경 깊이 맵들을 획득하는 단계를 추가로 포함할 수 있으며, 배경 깊이 맵은 특정 배향으로부터의 배경의 깊이 데이터를 포함하고, 전경 객체들을 분할하는 단계는 배경 깊이 맵과 대응하는 소스 뷰 깊이 맵 사이의 차이에 기초한다.

예를 들어, 소스 뷰 이미지들 그들만에 기초하여 분할할 때, 생성되는 패치들은 깊이 경계들을 가로질러 블리딩(bleeding)할 가능성이 있다. 이것은 인코딩 또는 나중의 렌더링에서 문제들을 유발할 수 있다. 이에 따라, 배경 깊이 맵들을 사용함으로써, 전경 객체가 강건하게 분할될 수 있고 이러한 문제들이 회피될 수 있다.

각각의 소스 뷰에 대한 배경 깊이 맵은 미리 정의된 기하학적 장면 모델을 소스 뷰들의 서브세트에 피팅함으로써 획득될 수 있다. 예를 들어, 배경이 수평 그라운드 표면 평면 및 수직 배경 평면으로 이루어진다고 가정하면, 이러한 평면들은 이미지 기반 멀티-뷰 매칭 기준이 최소화되도록 초기에 서로 및 카메라들에 대해 배치되고 시프트/회전될 수 있다. 미리 정의된 기하학적 장면을 소스 뷰들의 서브세트에 피팅한 후에, 배경 깊이 맵이 각각의 소스 뷰에 대해 렌더링될 수 있다.

배경 깊이 맵은 3D 장면의 배경의 깊이 데이터를 포함한다. 예를 들어, 배경 깊이 맵은 상이한 각도들로부터 3D 장면을 이미징하는 복수의 카메라들의 뷰들에 기초하여 생성될 수 있다. 배경 깊이 맵은 소스 뷰들을 획득하는 데 사용된 것들과는 상이한 카메라들의 세트로부터 생성될 수 있다. 예를 들어, 3D 장면이 축구장인 경우, 축구장의 측면에 있는 카메라들은 전경 객체들(즉, 선수들 및 공)을 이미징하는 데 사용될 수 있고, 위에서 축구장을 보는 카메라들(예를 들어, 톱 다운 카메라들)은 배경 깊이 맵을 생성하는 데 사용될 수 있다.

전경 객체들은 각각의 소스 뷰에 대한 소스 뷰 깊이 맵들과 배경 깊이 맵 간의 차이를 임계화함으로써 분할될 수 있다. 이러한 전역적 임계화 후에, 연결된 전경 객체들을 상대적 깊이 스텝(depth step)에 기초하여 분리하기 위해 제2의 로컬 임계화가 적용될 수 있다.

훈련된 인간 검출 알고리즘이 전경 객체들을 검출하는 데 사용될 수 있다. 공 검출기가 스포츠 경기에서 공을 검출하는 데 사용될 수 있다. 모션 추정 또는 시간 프레임 차분이 전경 객체 검출을 더욱 개선하는 데 사용될 수 있다.

방법은 배경 깊이 맵 및 배경 텍스처 데이터를 포함하는 배경 모델을 획득하는 단계를 추가로 포함할 수 있다.

방법은 패치 텍스처 이미지들, 패치 깊이 맵들, 패치 투명도 맵들 및 배경 모델에 기초하여 아틀라스를 생성하는 단계를 추가로 포함할 수 있다. 예를 들어, 아틀라스는 패치 텍스처 이미지들, 패치 깊이 맵들, 패치 투명도 맵들 및 배경 모델을 포함할 수 있다.

아틀라스는, 본질적으로, 다양한 이미지들 및/또는 맵들(예를 들어, 텍스처, 깊이 및 투명도 데이터)을 포함하는 데이터 행렬이다. 아틀라스에서 이미지 또는 맵을 찾기 위해, 각각의 이미지의 "좌표들"이 지정된다(즉, 행렬에 대한 열 및 행 값들). 이에 따라, 아틀라스는 다수의 소스 뷰들로부터의 데이터를 포함한다.

전형적으로, 패치 데이터는 모두 아틀라스에 개별적으로 포함된다. 그러나, 예를 들어, 패치 투명도 맵들을 이진수(즉, 0 또는 1의 투명도 값들)로 정의하고 깊이 맵에 예약된 값을 통해 코딩하는 것이 또한 가능하다.

전경 객체들을 검출하는 단계는 소스 뷰 깊이 맵들로부터 각자의 배경 깊이 맵들을 감산하여, 차이 이미지들을 생성하는 단계, 및 차이 이미지들을 임계화하는 단계로서, 임계화는 차이 이미지들의 픽셀 값들을 임계 값과 비교하여, 임계치 맵들을 생성하여서, 배경과 전경 객체들을 구별하는, 상기 차이 이미지들을 임계화하는 단계를 포함할 수 있다. 깊이 스텝들에 대응하는 소스 뷰 깊이 맵들 내의 픽셀들이 식별되며, 깊이 스텝들은 깊이 임계 값보다 큰 소스 뷰 깊이 맵 내의 이웃하는 깊이 값들 간의 차이들에 의해 정의된다. 깊이 스텝들에 대응하는 모든 깊이 값들이 임계치 맵들에서 조정되어서 전경 객체들을 서로 구별하고, 경계 상자들이 조정된 임계치 맵들에 기초하여 전경 객체들에 대해 생성된다.

차이 이미지를 임계화하는 것은 픽셀 값 "1"이 전경을 의미하고 "0"이 배경을 의미하는 이진 맵을 야기할 수 있다. 전경 객체들을 식별하기 위해, 연결된 컴포넌트들이 4-연결 또는 8-연결 컴포넌트 라벨링 알고리즘을 통해 식별된다. 초기 임계화 동작 직후에 이것을 행하는 것은 다수의 전경 객체들이 단일 객체로서 잘못 식별되는 것을 야기할 것이다. 이것을 회피하기 위해, 예를 들어, 오리지널 소스 뷰 깊이 맵의 공간 도함수가 분석된다. 깊이 스텝이 "깊이 임계치"를 초과할 때, 이진 맵은 스텝의 더 먼 쪽에서 "0"(즉, 배경)으로 설정된다. 결과적인 이진 맵이 연결 컴포넌트 라벨링 알고리즘에 입력될 때, 전경 객체들은 상이한 라벨들을 받을 수 있다.

패치의 크기 및 위치는 경계 상자의 크기 및 위치에 기초할 수 있다.

소스 뷰 깊이 맵들 내에 존재하는 전경 객체들 외에는 모든 값들을 0으로(또는 0에 가깝게) 만들기 위해, 배경 깊이 맵의 깊이 값들이 소스 뷰 깊이 맵들로부터 감산된다. 이어서, 예를 들어, 배경에 대응하는 깊이 값들 모두를 0(또는 흑색)으로 설정하고 전경 객체들에 대응하는 깊이 값들 모두를 1(또는 백색)로 설정하기 위해, 감산된 맵들을 "임계 값"에 기초하여 임계화된다.

깊이 스텝들이 또한 소스 뷰 깊이 맵들에서 식별된다. 깊이 스텝들은 전경 객체들의 에지들을 나타내는 인접한/이웃하는 픽셀들에 대한 깊이에 있어서의 큰 변화들에 대응한다. 깊이 스텝들은 깊이 임계 값보다 큰(예를 들어, 정규화된 깊이 맵에서 0.1보다 큰) 이웃하는 깊이 값들 간의 차이에 의해 식별될 수 있다.

이어서, 각각의 전경 객체의 에지들을 강조하고 구별하기 위해, 임계치 맵들의 깊이 값들이 깊이 스텝들에서 예를 들어 0(또는 흑색)으로 조정될 수 있다. 경계 상자가 조정된 임계치 맵들에 기초하여 각각의 전경 객체에 대해 생성된다(예를 들어, 조정된 임계치 맵들에서 전경 객체들을 분할함).

패치의 크기 및 위치는 경계 상자의 크기 및 위치일 수 있다. 대안적으로, 다수의 패치들이 경계 상자에 대해 생성될 수 있다. 예를 들어, 경계 상자당 패치들의 수는 경계 상자의 크기, 전경 객체의 유형, 전경 객체의 위치 등에 의존할 수 있다.

전경 객체들을 검출하는 단계는 경계 상자들을 확장시켜서 임계 값 아래의 감산된 맵들 내의 전경 객체들의 영역들을 포함시키는 단계를 추가로 포함할 수 있다.

예를 들어, 경계 상자들을 확장시키는 것은 소스 뷰 깊이 맵과 배경 깊이 맵 간의 차이가 전경 객체를 포함하는 영역들에 대한 임계 값보다 작은 것에 기초할 수 있으며, 경계 상자들은 각각의 전경 객체가 경계 상자에 의해 둘러싸이도록 확장된다.

몇몇 경우들에, 전경 객체는 배경의 깊이 값과 유사한 깊이 값을 갖는 부분들을 가질 수 있다. 이에 따라, 임계화 동안, 전경 객체는 더 작게 보일 것이고, 경계 상자는 소스 뷰들에서 전경 객체를 완전히 둘러싸지 못할 수 있다.

예를 들어, 축구 선수의 발들은 그들이 서 있는 축구장과 유사한 깊이를 갖는다. 이러한 경우들에서, 경계 상자들은 전경 객체에 대응하는 경계 상자(들)가 전경 객체를 완전히 둘러싸도록 확장된다(예를 들어, 아래쪽으로 확장된다).

패치 텍스처 이미지 및 패치 투명도 맵을 생성하는 것은 소스 뷰 이미지들을 알파 매팅(alpha matting)하는 것에 기초할 수 있다. 알파 매팅은 이미지로부터 전경을 추출하는 것에 기초한다. 이에 따라, 패치의 각각의 픽셀의 텍스처 및 투명도(알파 값들)가 알파 매팅을 사용하여 추정될 수 있다.

방법은 패치 깊이 맵들의 픽셀 깊이 값들을, 패치 깊이 맵의 픽셀 깊이 값들 모두가 대응하는 전경 객체의 깊이 값들 이하의 값들로 이루어지도록 적응시키는 단계를 추가로 포함할 수 있다.

일관성 및 명료함을 위해, 본 출원에서 정의된 임의의 깊이 맵들은 최대 값(예를 들어, 255)이 뷰포인트까지의 가장 가까운 거리(즉, 가장 작은 깊이 값)를 나타내고 최소 값(예를 들어, 0)이 가장 먼 거리(즉, 가장 높은 깊이 값)를 나타내도록 구성될 것이다. 깊이 맵 내의 픽셀들의 값에 관한 본 출원에서의 "더 낮은" 또는 "더 높은"의 임의의 언급은 앞서 언급된 정의에 관하여 해석되어야 한다. 그러나, 깊이 맵들을 나타내는 임의의 다른 포맷이 또한 사용될 수 있고 당업자에게 알려질 것임에 유의해야 한다. 예를 들어, "0" 픽셀은 가장 가까운 거리를 나타낼 수 있고, "1" 값은 가장 먼 거리를 나타낼 수 있다.

몇몇 패치 깊이 맵들은 대응하는 전경 객체를 차폐하는 다른 전경 객체로부터의 깊이 데이터를 포함할 수 있다. "원치 않는"(또는 나머지) 깊이 데이터는 전경 객체들을 렌더링할 때 아티팩트(artefact)들을 야기할 수 있다. 이에 따라, 모든 픽셀 깊이 값들이 타겟 전경 객체(즉, 문제의 패치 깊이 맵에 대응하는 전경 객체)의 깊이 값들 이상이 되도록 패치 깊이 맵의 픽셀 깊이 값들을 적응시키는(즉, 픽셀 값들을 변경하는) 것이 유리할 수 있다.

추가적으로, 방법은 객체 깊이 범위 내의 식별된 패치들의 패치 깊이 맵들을 식별하는 것에 기초하여 제1 전경 객체에 대응하는 상이한 소스 뷰들로부터 비롯되는 복수의 패치들을 식별하는 단계, 및 식별된 패치 깊이 맵들을, 그들이 3D 장면 내의 객체 위치에 대응하도록 정정하는 단계를 추가로 포함할 수 있다.

예를 들어, 패치 깊이 맵들은 모든 뷰들의 패치 깊이 맵들의 중심 위치들을 공통 월드 좌표계에 투영함으로써 정정(예를 들어, 필터링)될 수 있다. 유사한 월드 공간 좌표들에 매핑되는(즉, 주어진 객체간 거리 내에 있는) 상이한 소스 뷰들로부터의 패치들은 하나의 동일한 물리적 전경 객체로부터 비롯될 가능성이 있다. 따라서 패치 깊이 맵들은 정정될 수 있다(즉, 더 유사한 월드 공간 좌표를 갖도록 될 수 있다). 정정 후에, 소스 뷰에의 역투영은 패치별로의 필터링된 깊이 맵을 야기한다.

방법은 다수의 소스 뷰들 내의 패치들 간의 일관성을 측정하는 것에 기초하여 패치들을 프루닝(pruning)하는 단계를 추가로 포함할 수 있다. 예를 들어, 방법은 다른 소스 뷰들 내에 충분한 대응하는 패치들이 존재하지 않는 경우에(패치가 아마도 추정 잡음의 결과로서 격리된 에러임을 나타냄) 특정 패치를 필터링하여 가능하게는 그것을 제거하는 단계를 포함할 수 있다.

이것은 잘못 검출된 전경 패치들을 식별하는 데 도움이 될 수 있다. 예를 들어, 패치를 공통 월드 좌표계에 투영한 후에, 패치의 최소 월드-공간 (유클리드) 거리보다 더 가까운 다른 소스 뷰들로부터의 패치들의 수가 계산될 수 있다. 이러한 수가 패치 수 임계치(예를 들어, 소스 뷰들의 수의 주어진 분수)보다 낮은 경우, 패치는 폐기된다. 예를 들어, "전경 객체"가 8개의 소스 뷰들 중 3개 미만에서만 식별되는 경우, 그 특정 전경 객체에 대한 패치들은 폐기된다. 패치가 폐기되는 경우, 그것은 아틀라스에서 사용되지 않을 것이다.

하나 이상의 패치들을 생성하는 단계는 소스 뷰 깊이 맵에서 하위-영역을 식별하는 단계, 하위-영역 내에 존재하는 상이한 깊이들의 다수의 깊이 표면들을 결정하는 단계, 및 하위-영역 내의 각각의 깊이 표면에 대한 패치를 생성하는 단계로서, 각각의 패치는 상이한 패치 투명도 맵을 포함하는, 상기 하위-영역 내의 각각의 깊이 표면에 대한 패치를 생성하는 단계를 포함할 수 있다.

대안적으로 또는 추가적으로, 하나 이상의 패치들을 생성하는 단계는 소스 뷰 이미지에서 하위-영역을 식별하는 단계를 포함할 수 있다.

본 발명은 또한 시스템으로서,

컴퓨팅 디바이스 상에서 실행될 때, 컴퓨팅 시스템으로 하여금 전술된 방법을 수행하게 하는 컴퓨터 프로그램 코드를 포함하는 하나 이상의 프로세서들; 및

소스 뷰 이미지들 및 소스 뷰 깊이 맵들을 획득하도록 구성된 복수의 센서들을 포함하는, 시스템을 제공한다.

본 발명은 또한 멀티-뷰 비디오들을 렌더링하기 위한 방법으로서,

3D 장면의 복수의 패치들 및 배경 모델을 갖는 아틀라스를 수신하는 단계로서, 각각의 패치는 전경 객체에 대응하고, 각각의 패치는 소스 뷰 이미지들 및 소스 뷰 깊이 맵들로부터 도출된 패치 텍스처 이미지, 패치 깊이 맵 및 패치 투명도 맵을 포함하는, 상기 3D 장면의 복수의 패치들 및 배경 모델을 갖는 아틀라스를 수신하는 단계;

3D 장면 내의 가상 뷰포인트를 수신하는 단계;

가상 뷰포인트의 위치와 각각의 패치에 대응하는 전경 객체들의 위치 사이의 차이에 기초하여 패치들을 정렬하는 단계; 및

배경 모델 및 정렬된 패치들을 렌더링하는 단계를 포함하는, 멀티-뷰 비디오들을 렌더링하기 위한 방법을 제공한다.

렌더링 방법은 가상 뷰포인트에 대한 대응하는 전경 객체들의 위치에 기초하여 패치들을 그룹화하는 단계를 추가로 포함할 수 있다.

배경 모델 및 정렬된 패치들을 렌더링하는 단계는 배경 모델을 렌더링하는 단계, 제1 패치 그룹을 워핑 및/또는 블렌딩하는 단계, 워핑 및/또는 블렌딩된 제1 패치 그룹을 렌더링된 배경 모델 상에 합성하는 단계, 제2 패치 그룹을 워핑 및/또는 블렌딩하는 단계로서, 가상 뷰포인트에 대한 제2 패치 그룹에 대응하는 전경 객체들의 위치는 제1 패치 그룹에 대응하는 전경 객체들의 위치보다 가상 뷰포인트에 더 가까운, 제2 패치 그룹을 워핑 및/또는 블렌딩하는 단계, 및 워핑 및/또는 블렌딩된 제2 패치 그룹을 워핑 및/또는 블렌딩된 제1 패치 그룹 상에 합성하는 단계를 포함할 수 있다.

방법은 아틀라스 내의 각각의 패치의 위치 및 기하학적 구조와, 소스 뷰 이미지 및/또는 소스 뷰 깊이 맵 내의 각각의 패치의 위치 및 기하학적 구조를 포함하는 메타데이터를 수신하는 단계를 추가로 포함할 수 있으며, 패치들을 렌더링하는 것은 위치들 및 기하학적 구조들 둘 모두에 기초한다.

본 발명은 또한, 처리 시스템을 갖는 컴퓨팅 디바이스 상에서 실행될 때, 처리 시스템으로 하여금 멀티-뷰 비디오 데이터의 생성을 위한 깊이 분할의 방법 및/또는 멀티-뷰 비디오들을 렌더링하기 위한 방법의 단계들 모두를 수행하게 하는 컴퓨터 프로그램 코드를 포함하는 컴퓨터 프로그램 제품, 및 컴퓨터 프로그램 코드를 실행하도록 구성된 프로세서를 제공한다.

본 발명의 이들 및 다른 태양들이 이하에 설명되는 실시예(들)로부터 명백할 것이며 그것을 참조하여 설명될 것이다.

본 발명의 더 양호한 이해를 위해, 그리고 그것이 어떻게 실시될 수 있는지를 더욱 명확하게 보여주기 위해, 이제 단지 예로서 첨부 도면을 참조할 것이다.
도 1은 멀티-뷰 비디오에 대한 깊이 분할의 방법을 도시한다.
도 2는 소스 뷰 이미지 및 소스 뷰 깊이 맵을 도시한다.
도 3은 도 2에서의 삼각형 객체에 대응하는 패치를 도시한다.
도 4는 패치를 생성하기 위한 제1 프로세스를 예시한다.
도 5는 3개의 전경 객체를 갖는 소스 뷰 깊이 맵을 도시한다.
도 6은 단일 영역에 대해 생성된 4개의 패치 투명도 맵을 도시한다.
도 7은 아틀라스로부터의 패치 그룹을 워핑 및 블렌딩하는 단계를 예시한다.
도 8은 2개의 소스 뷰 및 2개의 타겟 뷰를 갖는 3D 장면을 도시한다.

본 발명이 도면들을 참조하여 설명될 것이다.

상세한 설명 및 특정 예들은, 장치, 시스템들 및 방법들의 예시적인 실시예들을 나타내지만, 단지 예시의 목적으로 의도되며 본 발명의 범위를 제한하고자 하는 것이 아님이 이해되어야 한다. 본 발명의 장치, 시스템들 및 방법들의 이들 및 다른 특징, 태양 및 이점이 하기의 설명, 첨부된 청구항들 및 첨부 도면으로부터 더 잘 이해될 것이다. 도면들은 단지 개략적인 것이며 일정한 축척으로 작성된 것이 아님이 이해되어야 한다. 동일한 도면 부호가 도면 전체에 걸쳐 동일하거나 유사한 부분을 지시하는 데 사용된다는 것이 또한 이해되어야 한다.

본 발명은 멀티-뷰 비디오 데이터의 생성을 위한 깊이 분할의 방법을 제공한다. 방법은 복수의 센서로부터 3D 장면을 나타내는 복수의 소스 뷰 이미지 및 소스 뷰 깊이 맵을 획득하는 단계를 포함한다. 3D 장면 내의 전경 객체들은 소스 뷰 이미지들(102) 및/또는 소스 뷰 깊이 맵들(104)로부터 분할된다. 이어서 하나 이상의 패치가 적어도 하나의 전경 객체를 포함하는 각각의 소스 뷰 이미지 및 소스 뷰 깊이 맵에 대해 생성되며, 각각의 패치는 전경 객체에 대응하고, 패치를 생성하는 것은 소스 뷰 이미지들 및 소스 뷰 깊이 맵들에 기초하여 패치 텍스처 이미지, 패치 깊이 맵 및 패치 투명도 맵을 생성하는 것을 포함한다.

도 1은 멀티-뷰 비디오에 대한 깊이 분할의 방법을 도시한다. 방법은 멀티-뷰 비디오를 렌더링하는 데 필요한 모든 데이터를 포함하는 아틀라스(112)를 생성하는 것에 기초한다. 다수의 소스 뷰가 전형적으로 멀티-뷰 이미지 프레임을 렌더링하는 데 필요하다. 각각의 소스 뷰는 전형적으로 소스 뷰 이미지(102) 및 소스 뷰 깊이 맵(104)을 가질 것이다. 깊이 맵(104)은 멀티-뷰 이미지 기반 매칭을 사용하여, 또는 대안적으로 (소스 뷰 데이터를 획득하는 데 사용되는) 멀티-카메라 셋업에 하나 이상의 깊이 센서(예를 들어, 레이저 깊이 센서)를 추가하고 이어서 각각의 소스 뷰에서 측정된 깊이를 워핑하고 그 후에 필터링/홀 채우기가 깊이 맵들을 각각의 소스 뷰에 대해 완성되게 만드는 데 사용될 수 있는 것에 의해 도출될 수 있다.

본 발명자는 전역적으로 결정된 배경 모델(106)과의 차이에 기초하여 모든 소스 뷰 깊이 맵(104)을 분할하는 것을 제안한다. 배경 모델(106)은 각각의 소스 뷰에 대한 배경 깊이 맵을 생성하는 데 사용된다. 이어서 전경 객체들(108)은 배경 깊이 맵과 소스 뷰 깊이 맵들(104)의 픽셀들 간의 상대적 깊이 차이들에 기초하여 추가로 분할된다. 단일의 계층화된 표현을 생성하는 대신에, 전경 객체들(108)의 분할된 패치들(110)이 모든 소스 뷰에 대해 유지되고 아틀라스(112)에 함께 패킹된다.

클라이언트 디바이스가 새로운 가상 뷰포인트의 z-축을 따라 패치들(110)을 정렬할 수 있다. 이어서 뷰 합성 알고리즘은 이 순서대로 패치들(110)을 방문하고, 이러한 패치들(110)이 유사한 깊이를 가질 때 상이한 소스 뷰들로부터의 패치들(110)을 블렌딩하는 것과 블렌딩된 뷰를 이전의 합성된 출력 위에 합성하는 것 사이에서 교번할 수 있다.

도 2는 소스 뷰 이미지(102) 및 소스 뷰 깊이 맵(104)을 도시한다. 도 2의 (a)는 소스 뷰 이미지(102)를 도시하고, 도 2의 (b)는 소스 뷰 깊이 맵(104)을 도시한다. 소스 뷰 이미지(102) 및 소스 뷰 깊이 맵(104)은 배경(206) 및 2개의 전경 객체(즉, 직사각형(202) 및 삼각형(204))를 포함하는 3D 장면의 것이다. 도 2의 (b)에서 알 수 있는 바와 같이, 배경(206)의 깊이는 변하고, 2개의 객체(202 및 204)의 깊이는 일정하게 유지된다. 직사각형 객체(202)의 하부 섹션은 배경(206)의 가장 가까운 섹션과 유사한 깊이를 갖는다.

도 3은 (도 1에 표시된 바와 같은) 삼각형 객체(204)에 대응하는 (도 1에 표시된 바와 같은) 패치(110)를 도시한다. 각각의 패치(110)에 대해, 패치 텍스처 이미지(302), 패치 깊이 맵(306) 및 패치 투명도 맵(304)(예컨대, 알파 채널)이 생성된다. 도 3의 (a)는 삼각형 객체(204)에 대한 패치 텍스처 이미지(302)를 도시한다. 도 3의 (b)는 도 2의 삼각형 객체(204)에 대응하는 패치 투명도 맵(304)을 도시하며, 여기서 패치 투명도 맵(304)의 흑색 섹션들은 완전히 투명한 영역들을 나타내고, 흰색 섹션들은 불투명한 영역들을 나타낸다. 도 3의 (c)는 삼각형 객체(204)의 패치 깊이 맵(306)을 도시한다.

패치 텍스처 이미지(302) 및 패치 깊이 맵(306)은 패치(110)에 대응하는 섹션에서 소스 뷰 이미지(102)(도 2) 및 소스 뷰 깊이 맵(104)(도 2)으로부터의 데이터를 직접 복사함으로써 생성될 수 있다. 투명도 값들은 삼각형 객체(204)가 존재하는 경우 1로, 그리고 그것이 부존재하는 경우 0으로 설정될 수 있다.

대안적으로, 보다 정확한 알고리즘이, 각각의 패치(110)에 대해, 소위 알파 매팅을 사용하여 전경 컬러 및 알파(투명도)를 추정하는 데 사용될 수 있다. 그 경우에, 픽셀 i의 컬러는 픽셀의 투명도 값 α에 기초한 로컬 전경 컬러 F와 배경 컬러 B의 선형 조합일 수 있다:

트라이맵(trimap)이 각각의 패치(110) 내부의 픽셀별 객체 컴포넌트 라벨 맵에 기초하여 구성될 수 있다. 트라이맵은 클래스들 '확실히 전경'(α = 1), '확실히 배경'(α = 0) 및 '불확실'(α는 추정될 필요가 있음)로 이루어질 수 있다. 이어서 알파 매팅 알고리즘은 불확실한 픽셀들에 대해 α _i 및 F _i 둘 모두를 추정한다.

패치 깊이 맵(306)이 깊이 이미지 기반 렌더링에 사용되는 경우, 삼각형 객체(204)는 직사각형의 '나머지'(예컨대, 도 3의 (c)의 좌하에 있는 직사각형의 부분) 뒤에 가려질 수 있다. 이것은 이러한 나머지 영역 내의 픽셀들이 삼각형 객체(204)에 대한 픽셀들보다 카메라에 더 가깝기 때문이다. 이것은 각각의 정점이 패치 깊이 맵(306)에 의존하는 삼각형 메시를 사용하여 패치(110)를 렌더링하는 뷰 합성 로직과 관련이 있다.

이러한 문제를 해결하기 위해, 다른 패치(110)의 '나머지' 영역이 패치(110)의 대응하는 전경 객체의 로컬 전경보다 적어도 더 멀리 떨어진 깊이 값으로 변경되도록 패치 깊이 맵(306)을 처리하는 것이 유리할 수 있다. 도 3의 (c)에서의 수정된 패치 깊이 맵(308)은 단지 삼각형 객체(204) 외부의 모든 픽셀들을 모든 유효한 객체 픽셀들에 걸쳐 취해진 최소값과 동일한 깊이 값으로 설정하는 간단한 방법을 예시한다. 이러한 예에서, 전체 수정된 패치 깊이 맵(308)은 이제 삼각형 객체(204)가 갖는 일정한 깊이를 수신한다. 대안적으로, 삼각형 객체(204)에 대응하지 않는 모든 픽셀들은 삼각형 객체(204)에 대응하는 임의의 깊이 값보다 더 낮은 깊이 값으로 설정될 수 있다.

본 예에서, 객체 영역 외부에 있을 때 직사각형 내부의 깊이 픽셀들을 수정하는 접근법은 클라이언트 렌더링 시스템의 설계로부터 기인한다. 클라이언트 렌더링 애플리케이션은 전형적으로 각각의 직사각형을 단일의 규칙적인 메시 전체로서 워핑할 것이다(어느 픽셀들이 배경에 대응하는지는 무시함). 카메라에 더 가까운 객체 영역 외부의 픽셀들은 메시가 객체 자체 위로 다시 접히는 것을 야기할 것이다.

대안적으로, 소위 기하 셰이더가 객체 라벨을 갖는 픽셀들만이 워핑되도록 렌더링 동안 삼각형들을 선택/절단하는 데 사용될 수 있다. 그러나, 이것은 실시간 렌더러의 구현의 면에서 더 복잡할 것이다.

삼각형 객체(204)의 깊이가 변하지 않거나 약간만 변하는 경우에, 패치 깊이 맵(306)은 맵으로서 저장될 필요가 없으며, 스칼라 깊이 값이 전체 패치(110)에 대해 표시될 수 있다.

도 4는 패치들(110)(도 1)을 생성하기 위한 제1 프로세스를 예시한다. 각각의 소스 뷰는 연관된 배경 깊이 맵(106)(도 1)을 갖는 것으로 가정된다. 스포츠 경기장에 대해, 이것은 경기장의 기하학적 모델과 결합된 그라운드 표면 모델의 깊이 맵 렌더링일 수 있다. 도 4의 (a)는 2개의 전경 객체(202 및 204)(예를 들어, 스포츠 선수)를 갖는 소스 뷰 깊이 맵(104)을 도시한다. 전경 객체들(202 및 204)은 추정된 소스 뷰 깊이 맵(104)에서 배경 모델(106)의 깊이를 뺀 다음에 그 결과를 임계화함으로써 검출될 수 있다. 도 4의 (b)는 임계화된 맵(402)을 도시한다. 도 4의 (b)로부터 알 수 있는 바와 같이, 서로를 차폐하는 전경 객체들(202 및 204)은 (이진) 임계화된 맵(402)에서 여전히 함께 붙어 있다.

붙어 있는 객체들을 분리하기 위해, 깊이 스텝 에지 픽셀들이 검출되고, 예를 들어, 0으로 설정된다. 도 4의 (c)는 깊이 스텝 픽셀들이 0으로 설정된 임계화된 맵(404)을 도시한다. 로컬 배경 픽셀들의 이진 마스크가 깊이 스텝을 로컬 전경에 대응하는 픽셀들이 아니라 0으로 제한하도록 설정된다는 점에 유의한다. 이것은 전경 픽셀들을 느슨하게 하는 것을 회피하기 위해 행해진다. 이어서 연속적인 연결 컴포넌트 라벨링이 전경 객체들(202 및 204)을 배경(206)으로부터 그리고 서로로부터 세그먼트들로 분리한다. 도 4의 (d)는 각각의 객체를 라벨링하는 세그먼트들을 갖는 이미지(406)를 도시한다(배경(206)은 0으로 라벨링되고, 삼각형 객체(204)는 1로 라벨링되고, 직사각형 객체(202)는 2로 라벨링됨).

이어서 경계 상자들(408)이 각각의 세그먼트에 대해 검출될 수 있다. 도 4의 (e)는 전경 객체들(202 및 204)에 대한 경계 상자들(408)을 갖는 소스 뷰 깊이 맵(104)을 도시한다. 이어서 각각의 경계 상자(408)는 그것이 배경(206)의 그라운드 표면의 깊이에 닿는(또는 근접해 있는) 직사각형 객체(202) 섹션을 포함하도록 수직 하향으로 더욱 확장될 수 있다. 도 4의 (f)는 확장된 경계 상자들(410)을 갖는 소스 뷰 깊이 맵(104)을 도시한다. 이어서 패치들(110)은 경계 상자들(408) 및/또는 확장된 경계 상자들(410)에 기초하여 결정될 수 있다. 경계 상자들(408)을 확장하는 것은 경계 상자들(408)이 (예를 들어, 전경 객체들(202 및 204)의 부분들이 배경(206)에 가까운 것으로 인해) 임계화 단계에서 잘려 나간 전경 객체들(202 및 204)의 임의의 부분들을 추가로 둘러쌀 수 있게 한다.

도 5는 3개의 전경 객체(202, 204 및 502)를 갖는 소스 뷰 깊이 맵(104)을 도시한다. 3개의 전경 객체 모두를 포함하는 소스 뷰 깊이 맵(104)의 하위-영역(506)을 정의하는 직사각형 격자(504)가 도시되어 있다.

패치(110)(도 1)를 생성하는 단계에 대한 대안적인 접근법은 도 5에 도시된 하위-영역(506)과 같은 하위-영역들(506)을 사용한다. 하위-영역(506)에 존재하는 깊이 표면들의 수에 따라, 하나의 또는 다수의 패치(110)가 하위-영역(506)에 대응하여 구성된다. 도 5는 예시적인 하위-영역(506)을 도시하며, 여기서 하위-영역(506) 내의 모든 깊이 표면(즉, 배경(206) 및 3개의 전경 객체(202, 204 및 502))을 모델링하기 위해 4개의 패치가 필요하다.

하위-영역(506)마다 다수의 패치를 갖는 것은 다수의 패치가 동일한 패치 텍스처 이미지(302) 및, 잠재적으로, 동일한 패치 깊이 맵(304)을 공유할 수 있게 하여서, 브로드캐스트될 필요가 있는 데이터의 전체 양을 감소시킨다. 추가적으로, 패치들 간의 공간 관계는 또한 각각의 패치의 위치를 정의해야 하는 것 대신에 (하위-영역들(506)의) 격자에 의해 정의될 수 있다.

배경 모델(106)(도 1)로부터 생성된 바와 같은, 배경 깊이 맵은 전경 객체들(108)을 분할하는 데 사용될 수 있지만, 필수적인 것은 아니다. 도 5의 예에서, 배경 모델 대신에, 소스 뷰 깊이 맵들(104) 내의 픽셀들의 깊이 값들에 기초한 픽셀들의 분류, 클러스터링 및/또는 비닝이 상이한 세그먼트들을 식별하고 따라서 하위-영역(506)마다 다수의 패치를 생성하는 데 사용될 수 있다.

하위-영역들(506)의 수 및 위치는, 예를 들어, 소스 뷰 이미지들(102)(도 1) 또는 소스 뷰 깊이 맵들(104)에서 전경 객체들을 검출하는 객체 검출 알고리즘(또는 이와 유사한 것)에 의존할 수 있다. 대안적으로, 하위-영역들(506)의 수 및 위치는 전경 객체들(202, 204 및 502)의 알려진 위치들에 기초하여 고정될 수 있다.

도 6은 단일 하위-영역(506)(도 5)에 대해 생성된 4개의 패치 투명도 맵을 도시한다. 4개의 패치 투명도 맵(602, 604, 606 및 608)은 모두 도 5에 도시된 하위-영역(506)에 대한 것이며, 각각은 상이한 패치(110)(도 1)에 대응한다. 이 예에서, 하위-영역(506)에 4개의 깊이 표면(배경 및 3개의 객체)이 존재하는 것으로 인해 단일 하위-영역(506)에 대해 4개의 패치(110)(및 이에 따라 4개의 패치 투명도 맵)가 생성된다.

도 6의 (a)는 얇은 객체(502)(도 5)에 대한 제1 패치 투명도 맵(602)을 도시한다. 도 6의 (b)는 직사각형 객체(202)(도 5)에 대한 제2 패치 투명도 맵(604)을 도시한다. 도 6의 (c)는 삼각형 객체(204)(도 5)에 대한 제3 패치 투명도 맵(606)을 도시한다. 도 6의 (d)는 배경(206)(도 5)에 대한 제4 패치 투명도 맵(608)을 도시한다.

이에 따라, 소스 뷰 깊이 맵(104)의 영역이 다수의 깊이 표면을 포함할 때 다수의 패치(110)가 생성될 수 있다. 각각의 표면은 별개의 패치(110)를 야기한다. 투명도(알파) 맵들만이 도 6에 도시되어 있는데, 이는 패치 텍스처 이미지(302)(도 3)가 4개의 패치(110) 모두에 대해 동일하기 때문에 한 번만 저장되면 되기 때문이다. 추가적으로, 몇몇 패치들(110)에 대해, 스칼라 깊이 맵이 충분할 반면, 다른 패치들에 대해, (차분) 패치 깊이 맵이 필요할 수 있다.

전경 패치들(110)이 제거된 곳이 알려져 있다는 사실을 고려하고 이것을 이용하여 임의의 갭들을 채움으로써 소스 뷰들로부터 단일 배경 모델(106)(비디오 스프라이트 텍스처 및 깊이)이 구성될 수 있다. 예를 들어, 다수의 카메라가 하키 경기를 이미징할 때, 그라운드 및 관중만을 포함하고 선수는 포함하지 않는 단일 배경 스프라이트 이미지가 생성될 수 있다. 이러한 단일 배경 스프라이트는 소스 뷰보다 더 넓은 시야를 갖는 원근 투영을 통해 모델링될 수 있다. 배경 스프라이트 및 깊이는 소스 뷰 패치들(110)과 함께 단일 아틀라스(112)(도 1)로 패킹될 수 있다.

뷰 합성

패치(110) 뷰 합성은 동일한 전경 객체(108)의, 그러나 다수의 소스 뷰에 대한 패치 텍스처 이미지(302), 패치 투명도 맵(304)(도 3) 및 패치 깊이 맵(306)(도 3)을 포함하는 아틀라스(112) 데이터를 디코딩한 후에 시작된다. 예를 들어, 전경 객체(108)는 총 8개의 소스 뷰 중 5개에서만 보일 수 있다. 배경 모델(106)은 모든 다른 패치(110)보다 먼저 렌더링되는데, 왜냐하면 그것은 항상 3D 장면에서 가장 먼 객체라는 것이 알려져 있기 때문이다.

(3D 장면이 뷰잉되고 있는 위치 및 배향을 정의하는) 타겟 뷰 행렬이 주어지면, 이어서 패치들(110)은 먼저 가상 뷰포인트로부터의 거리(z-축)에 기초하여 내림차순으로 정렬된다. 이어서 정렬된 패치들은 패치 그룹들을 형성하며, 여기서 그룹 내의 z-좌표 변화는 전형적으로 패치 그룹들 간의 z-좌표 변화보다 작다. 다수의 소스 뷰로부터의 패치들(110)이 가상 뷰포인트에 따라 결국 동일한 그룹으로 끝날 것임에 유의한다.

이어서 뷰 합성은 패치 그룹을 워핑 및/또는 블렌딩하는 것과 블렌딩된 결과를 이전의 합성 결과 상에 합성하는 것 사이에서 교번한다.

도 7은 아틀라스(112)로부터의 패치 그룹을 워핑 및 블렌딩하는 단계를 예시한다. 아틀라스(112)로부터의 패치 그룹에서 도 1에 도시된 바와 같은 패치(110)(즉, 패치 텍스처 이미지(302), 패치 투명도 맵(304)(도 3) 및 패치 깊이 맵(306))를 페치(fetch)한 후에, 패치(110)는 타겟 뷰 행렬을 사용하여 그의 연관된 소스 뷰 버퍼로 워핑된다. 따라서 결과는 타겟 뷰 이미지 좌표들로 직접 표현된다.

예시 목적을 위해, 패치 텍스처 이미지들(302) 및 패치 깊이 맵들(306)만이 아틀라스(112)에 도시되어 있다. 패치 투명도 맵들(304)이 또한 아틀라스(112)에 포함될 수 있거나, 예를 들어 패치 깊이 맵들(306)에 내장될 수 있다.

각각의 패치(110)는 그의 연관된 소스 뷰 버퍼(702)로 워핑되고, 소스 뷰 버퍼들(702)의 전부(또는 일부)가 패치 그룹에 대응하는 전경 객체(들)(108)를 합성된 다른 패치 그룹이 없는 경우 배경 모델(106)(도 1) 상에, 또는 (이미 합성된 패치 그룹이 있는 경우) 이전에 합성된 이미지(704) 상에 합성하는 데 사용된다.

전경 객체(들)(108)(도 1)를 합성하는 데 사용되는 소스 뷰 버퍼들(702)의 수는 합성 동안 일정한 메모리 사용을 유지하기 위해 고정될 수 있다. 예를 들어, (타겟 뷰에 대한 소스 뷰의 근접도에 기초하여) 소스 뷰 이미지들 중 8개만이 합성을 수행하는 데 선택될 수 있다.

도 8은 2개의 소스 뷰(800) 및 2개의 타겟 뷰(808 및 810)를 갖는 3D 장면을 도시한다. 도 8의 (a)는 제1 타겟 뷰포인트(808)를 도시하고, 도 8의 (b)는 제2 뷰포인트(810)를 도시한다. 도 8은 타겟 뷰들(808 또는 810)의 좌표들에 기초하여 클라이언트 측에서 패치들(110)(도 1)을 정렬하는 것에 대한 필요성을 예시한다. 타겟 뷰들(808 및 810)은 또한 가상 뷰포인트들 또는 가상 뷰들로 지칭될 수 있다.

도 8의 (a)에 도시된 제1 타겟 뷰(808)에 대해, 객체들(804 및 806)은 결국 먼저 워핑 및 블렌딩되는 동일한 패치 그룹으로 끝날 수 있다. 객체(802)는 제1 타겟 뷰(808)의 좌표들에 가장 가깝고, 따라서 마지막으로 워핑, 블렌딩 및 합성된다.

그러나, 이것은 도 8의 (b)에 도시된 제2 타겟 뷰(810)에 대해서는 상이하다. 제2 타겟 뷰(810)에 대해, 객체들(802 및 804)이 먼저 워핑, 블렌딩 및 합성되고 객체(806)가 마지막으로 워핑, 블렌딩 및 합성되는데, 왜냐하면 객체(806)가 객체들(802 및 804)보다 제2 타겟 뷰(810)에 더 가깝기 때문이다.

메타데이터

메타데이터가 또한 각각의 패치(110)에 대해 저장될 수 있다. 예를 들어, 각각의 패치(110)에 대해, 소스 뷰 식별자, 소스 뷰 위치 및 크기 (u _0,v , v _0,v , w _v , h _v ), 및 아틀라스(112)(도 1) 위치 및 크기 (u _0,a , v _0,a , w _a , h _a )가 저장될 수 있다.

(u _0,a , v _0,a )는 아틀라스 좌표들에서의 직사각형 패치(110)의 좌하 코너를 나타내는 것으로 하자. 이에 따라, 주어진 패치 크기에 대해 워핑되고 있는 직사각형 내부에 위치하는 아틀라스 좌표들을 샘플링하는 것만이 필요하다. 정규화된 (u, v) 좌표들이 도메인 [0,1]에 위치한다고 가정하면, 직사각형의 포인트 (u, v)의 정규화된 아틀라스 좌표들 (u _a , v _a )는 다음과 같이 계산될 수 있다:

아틀라스 좌표들 (u _a , v _a )는 정점 셰이더 스테이지 동안 패치 깊이 맵들(306)(도 3) 내부의 깊이 값에 액세스하고, 아틀라스 좌표들을 단편 셰이더에 전달함으로써 컬러 및 투명도를 보간하는 데 사용된다.

그러나, 패치(110)를 출력 뷰로 워핑하기 위해, 직사각형 소스 뷰 이미지(102)(도 1) 좌표들을 아는 것이 필요할 수 있다. 정규화된 (u, v) 좌표들이 도메인 [0,1]에 위치한다고 가정하면, 직사각형의 포인트 (u, v)의 정규화된 아틀라스 좌표들 (u _v , v _v )는 다음과 같이 계산될 수 있다:

정규화된 좌표들이 사용되기 때문에, 소스 뷰 이미지들(102) 및/또는 깊이 맵들은 아틀라스(112)에 저장된 것보다 더 적은 또는 더 많은 픽셀들을 가질 수 있다는 점에 유의한다. 아틀라스(112)에서의 고정된 픽셀 예산으로, 패치들(110)은 항상 피팅되도록 스케일링될 수 있다.

기술자는 임의의 본 명세서에 설명된 방법을 수행하기 위한 프로세서를 손쉽게 개발할 수 있을 것이다. 이에 따라, 흐름도의 각각의 단계는 프로세서에 의해 수행되는 상이한 액션을 나타낼 수 있으며, 처리 프로세서의 각자의 모듈에 의해 수행될 수 있다.

위에서 논의된 바와 같이, 시스템은 데이터 처리를 수행하기 위해 프로세서를 이용한다. 프로세서는 요구되는 다양한 기능을 수행하도록, 소프트웨어 및/또는 하드웨어로, 다수의 방식으로 구현될 수 있다. 프로세서는 전형적으로 요구되는 기능을 수행하기 위해 소프트웨어(예컨대, 마이크로코드)를 사용하여 프로그래밍될 수 있는 하나 이상의 마이크로프로세서를 이용한다. 프로세서는 몇몇 기능들을 수행하기 위한 전용 하드웨어와, 다른 기능들을 수행하기 위한 하나 이상의 프로그래밍된 마이크로프로세서들 및 연관된 회로부의 조합으로서 구현될 수 있다.

본 개시의 다양한 실시예에서 이용될 수 있는 회로부의 예는 종래의 마이크로프로세서, 주문형 집적 회로(ASIC), 및 필드 프로그래머블 게이트 어레이(FPGA)를 포함하지만 이로 제한되지 않는다.

다양한 구현예들에서, 프로세서는 RAM, PROM, EPROM, 및 EEPROM과 같은 휘발성 및 비휘발성 컴퓨터 메모리와 같은 하나 이상의 저장 매체와 연관될 수 있다. 저장 매체는, 하나 이상의 프로세서 및/또는 컨트롤러 상에서 실행될 때, 요구되는 기능을 수행하는 하나 이상의 프로그램으로 인코딩될 수 있다. 다양한 저장 매체가 프로세서 또는 컨트롤러 내에 고정될 수 있거나 운반 가능할 수 있으며, 따라서 그것에 저장된 하나 이상의 프로그램들이 프로세서에 로딩될 수 있다.

개시된 실시예들에 대한 변화들이 도면, 개시 내용, 및 첨부된 청구항들의 검토로부터, 청구된 발명을 실시하는 중에 당업자에 의해 이해되고 이루어질 수 있다. 청구항들에서, 단어 "포함하는"은 다른 요소들 또는 단계들을 배제하지 않으며, 단수 형태(부정 관사 "a" 또는 "an")는 복수를 배제하지 않는다.

단일 프로세서 또는 다른 유닛이 청구항들에 열거된 수개의 아이템들의 기능들을 충족시킬 수 있다. 컴퓨터 프로그램이 다른 하드웨어와 함께 또는 그의 일부로서 공급되는 광학 저장 매체 또는 솔리드-스테이트 매체와 같은 적합한 매체 상에 저장되거나 배포될 수 있지만, 또한 다른 형태들로, 예를 들어 인터넷 또는 다른 유선 또는 무선 통신 시스템들을 통해 배포될 수 있다.

용어 "~하도록 적응된"이 청구항들 또는 설명에서 사용되는 경우, 용어 "~하도록 적응된"은 용어 "~하도록 구성된"과 동등한 것으로 의도된다는 점에 유의한다.

청구항들에서의 임의의 도면 부호들은 범위를 제한하는 것으로 해석되어서는 안 된다.

Claims

멀티-뷰 비디오 데이터의 생성을 위한 깊이 분할의 방법으로서,
복수의 센서들로부터 3D 장면을 나타내는 복수의 소스 뷰 이미지들(102) 및 소스 뷰 깊이 맵들(104)을 획득하는 단계;
상기 소스 뷰 이미지들(102) 및/또는 상기 소스 뷰 깊이 맵들(104)로부터 상기 3D 장면 내의 전경 객체들(108)을 분할하는 단계;
적어도 하나의 전경 객체(108)를 포함하는 각각의 소스 뷰 이미지(102) 및 소스 뷰 깊이 맵(104)에 대한 하나 이상의 패치들(110)을 생성하는 단계로서,
각각의 패치(110)는 전경 객체(108)에 대응하고,
패치(110)를 생성하는 단계는 상기 소스 뷰 이미지들(102) 및 상기 소스 뷰 깊이 맵들(104)에 기초하여 패치 텍스처 이미지(302), 패치 깊이 맵(306) 및 패치 투명도 맵(304)을 생성하는 단계를 포함하고,
각각의 패치(110)는 상기 소스 뷰 이미지보다 작은 대응하는 소스 뷰 이미지의 섹션에 기초하는, 상기 적어도 하나의 전경 객체(108)를 포함하는 각각의 소스 뷰 이미지(102) 및 소스 뷰 깊이 맵(104)에 대한 하나 이상의 패치들(110)을 생성하는 단계;
적어도 하나의 배경 깊이 맵 및 배경 텍스처 데이터를 포함하는 배경 모델(106)을 획득하는 단계; 및
상기 패치 텍스처 이미지들(302), 상기 패치 깊이 맵들(306), 상기 패치 투명도 맵들(304) 및 상기 배경 모델(106)에 기초하여 아틀라스(112)를 생성하는 단계를 포함하는, 멀티-뷰 비디오 데이터의 생성을 위한 깊이 분할의 방법.
제1항에 있어서, 상기 방법은 상기 3D 장면의 배경(206)을 나타내는 상기 3D 장면의 복수의 배경 깊이 맵들을 획득하는 단계를 추가로 포함하며, 각각의 배경 깊이 맵은 특정 배향으로부터의 상기 배경(206)의 깊이 데이터를 포함하고, 전경 객체들(108)을 분할하는 단계는 배경 깊이 맵과 대응하는 소스 뷰 깊이 맵(104) 사이의 차이에 기초하는, 멀티-뷰 비디오 데이터의 생성을 위한 깊이 분할의 방법.
제1항 또는 제2항에 있어서, 전경 객체들(108)을 검출하는 단계는,
각각의 대응하는 소스 뷰 깊이 맵(104)으로부터 배경 깊이 맵을 감산하여, 각자의 차이 이미지를 생성하는 단계,
상기 차이 이미지들을 임계화하는 단계로서, 임계화는 상기 차이 이미지들의 픽셀 값들을 임계 값과 비교하여 상기 배경과 상기 전경 객체들(108)을 구별하는 임계치 맵들을 생성하는 것을 포함하는, 상기 차이 이미지들을 임계화하는 단계,
깊이 스텝(depth step)들에 대응하는 상기 소스 뷰 깊이 맵들(104) 내의 픽셀들을 식별하는 단계로서, 깊이 스텝들은 깊이 임계 값보다 큰 소스 뷰 깊이 맵(104) 내의 이웃하는 깊이 값들 사이의 차이들에 의해 정의되는, 상기 깊이 스텝들에 대응하는 상기 소스 뷰 깊이 맵들(104) 내의 픽셀들을 식별하는 단계,
상기 임계치 맵들(402) 내의 상기 깊이 스텝들을 배경으로서 마킹하여서, 상기 전경 객체들(108)을 서로 구별하는 단계, 및
조정된 임계치 맵들(404)에 기초하여 상기 전경 객체들(108) 주위에 경계 상자들(408)을 생성하는 단계를 포함하는, 멀티-뷰 비디오 데이터의 생성을 위한 깊이 분할의 방법.
제3항에 있어서, 전경 객체들(108)을 검출하는 단계는 상기 경계 상자들(408)을 확장시켜서 상기 임계 값 아래의 상기 감산된 맵들(402) 내의 상기 전경 객체들(108)의 영역들을 포함시키는 단계를 추가로 포함하는, 멀티-뷰 비디오 데이터의 생성을 위한 깊이 분할의 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 패치 깊이 맵(306)의 픽셀 깊이 값들을, 상기 패치 깊이 맵(306)의 상기 픽셀 깊이 값들 모두가 대응하는 전경 객체(108)의 상기 깊이 값들 이하의 값들로 이루어지도록 적응시키는 단계를 추가로 포함하는, 멀티-뷰 비디오 데이터의 생성을 위한 깊이 분할의 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
객체 깊이 범위 내의 상기 패치들(110)의 상기 패치 깊이 맵들(306)을 식별하는 것에 기초하여 제1 전경 객체에 대응하는 복수의 패치들을 상기 패치들(110)로부터 식별하는 단계; 및
상기 식별된 패치 깊이 맵들을, 상기 식별된 패치 깊이 맵들이 상기 3D 장면 내의 객체 위치에 대응하도록 정정하는 단계를 추가로 포함하는, 멀티-뷰 비디오 데이터의 생성을 위한 깊이 분할의 방법.
제1항 내지 제6항 중 어느 한 항에 있어서, 다수의 소스 뷰들 내의 패치들 사이의 일관성의 측정에 기초하여 상기 패치들을 프루닝(pruning)하는 단계를 추가로 포함하는, 멀티-뷰 비디오 데이터의 생성을 위한 깊이 분할의 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 하나 이상의 패치들(110)을 생성하는 단계는,
소스 뷰 깊이 맵(104)에서 하위-영역(506)을 식별하는 단계,
상기 하위-영역(506) 내에 존재하는 상이한 깊이들의 다수의 깊이 표면들을 결정하는 단계, 및
상기 하위-영역(506) 내의 각각의 깊이 표면에 대한 패치(110)를 생성하는 단계로서, 각각의 패치(110)는 상이한 패치 투명도 맵(304)을 포함하는, 상기 하위-영역(506) 내의 각각의 깊이 표면에 대한 패치(110)를 생성하는 단계를 포함하는, 멀티-뷰 비디오 데이터의 생성을 위한 깊이 분할의 방법.
시스템으로서,
컴퓨팅 디바이스 상에서 실행될 때, 상기 컴퓨팅 디바이스로 하여금 제1항 내지 제8항 중 어느 한 항에 따른 방법의 단계들 모두를 수행하게 하는 컴퓨터 프로그램 코드를 포함하는 하나 이상의 프로세서들; 및
상기 소스 뷰 이미지들(102) 및 소스 뷰 깊이 맵들(104)을 획득하도록 구성된 복수의 센서들을 포함하는, 시스템.
멀티-뷰 비디오들을 렌더링하기 위한 방법으로서,
3D 장면의 복수의 패치들(110) 및 배경 모델(106)을 갖는 아틀라스(112)를 수신하는 단계로서,
각각의 패치(110)는 전경 객체(108)에 대응하고,
각각의 패치(110)는 소스 뷰 이미지들(102) 및 소스 뷰 깊이 맵들(104)로부터 도출된 패치 텍스처 이미지(302), 패치 깊이 맵(306) 및 패치 투명도 맵(304)을 포함하고,
각각의 패치(110)는 상기 소스 뷰 이미지보다 작은 대응하는 소스 뷰 이미지의 섹션에 기초하는, 상기 3D 장면의 복수의 패치들(110) 및 배경 모델(106)을 갖는 아틀라스(112)를 수신하는 단계;
상기 3D 장면 내의 가상 뷰포인트(808, 810)를 수신하는 단계;
상기 가상 뷰포인트(808, 810)의 위치와 각각의 패치(110)에 대응하는 상기 전경 객체들(108)의 위치 사이의 차이에 기초하여 상기 패치들(110)을 정렬하는 단계; 및
상기 배경 모델(106) 및 상기 정렬된 패치들을 렌더링하는 단계를 포함하는, 멀티-뷰 비디오들을 렌더링하기 위한 방법.
제10항에 있어서, 상기 가상 뷰포인트(808, 810)에 대한 대응하는 전경 객체들(108)의 위치에 기초하여 상기 패치들(110)을 그룹화하는 단계를 추가로 포함하는, 멀티-뷰 비디오들을 렌더링하기 위한 방법.
제11항에 있어서, 상기 배경 모델(106) 및 상기 정렬된 패치들을 렌더링하는 단계는,
상기 배경 모델(106)을 렌더링하는 단계,
제1 패치 그룹을 워핑(warping) 및/또는 블렌딩(blending)하는 단계,
상기 워핑 및/또는 블렌딩된 제1 패치 그룹을 상기 렌더링된 배경 모델(106) 상에 합성하는 단계,
제2 패치 그룹을 워핑 및/또는 블렌딩하는 단계로서, 상기 가상 뷰포인트(808, 810)에 대한 상기 제2 패치 그룹에 대응하는 상기 전경 객체들(108)의 위치는 상기 제1 패치 그룹에 대응하는 상기 전경 객체들(108)의 위치보다 상기 가상 뷰포인트에 더 가까운, 상기 제2 패치 그룹을 워핑 및/또는 블렌딩하는 단계, 및
상기 워핑 및/또는 블렌딩된 제2 패치 그룹을 상기 워핑 및/또는 블렌딩된 제1 패치 그룹 상에 합성하는 단계를 포함하는, 멀티-뷰 비디오들을 렌더링하기 위한 방법.
컴퓨터 프로그램 코드를 포함하는 컴퓨터 프로그램 제품으로서, 상기 컴퓨터 프로그램 코드는, 처리 시스템을 갖는 컴퓨팅 디바이스 상에서 실행될 때, 상기 처리 시스템으로 하여금 제1항 내지 제8항 중 어느 한 항에 따른 방법 및/또는 제10항 내지 제12항 중 어느 한 항에 따른 방법의 단계들 모두를 수행하게 하는, 컴퓨터 프로그램 제품.
제13항의 컴퓨터 프로그램 코드를 실행하도록 구성된 프로세서.