KR20130079580A

KR20130079580A - 사용자 선호도들에 기초하여 3d 비디오 렌더링을 조정하기 위한 3d 비디오 제어 시스템

Info

Publication number: KR20130079580A
Application number: KR1020137011755A
Authority: KR
Inventors: 주딧 마르티네즈 바우자; 사미르 에스. 솔리만; 소함 브이. 쉬트; 순 루오; 비자야라크쉬미 알. 라빈드란; 파니쿠마르 케이. 브하미디파티
Original assignee: 퀄컴 인코포레이티드
Priority date: 2010-10-04
Filing date: 2011-10-04
Publication date: 2013-07-10
Also published as: JP2013540402A; US20120084652A1; EP2625861A1; US9035939B2; CN103155572A; EP2625861B1; CN103155572B; WO2012047917A1; KR101492876B1

Abstract

3D 이미지 데이터는 사용자로부터 수신되는 사용자 선호도 데이터에 기초하여 변형될 수 있다. 사용자 선호도 데이터는 제 1 디바이스에서 수신될 수 있고, 디스플레이 디바이스에 의한 프리젠테이션을 위해 제 1 디바이스에 의해 생성된 3D 이미지 데이터를 조정하는데 이용될 수 있거나, 또는 제 1 디바이스는 사용자 선호도 데이터를 수신할 수 있고, 디스플레이 디바이스가 사용자 선호도 데이터에 기초하여 3D 이미지 데이터를 조정할 수 있도록 이를 디스플레이 디바이스에 송신할 수 있다. 3D 이미지 데이터는 사용자가 원하는 방식으로 디스플레이 디바이스 상의 3D 이미지의 프리젠테이션을 지원하기 위해 사용자 선호도 데이터에 기초하여 조정될 수 있다. 3D 사용자 시청 선호도들은 이미지들에서의 팝-아웃 효과의 양, 이미지들의 스테레오 베이스라인, 이미지들의 깊이 범위, 이미지들의 공간 분포, 이미지들에서 깊이 선예도, 사용자의 우세안의 특정을 포함할 수 있다.

Description

사용자 선호도들에 기초하여 3D 비디오 렌더링을 조정하기 위한 3D 비디오 제어 시스템{3D VIDEO CONTROL SYSTEM TO ADJUST 3D VIDEO RENDERING BASED ON USER PREFERNCES}

본 출원은 2010년 10월 4일에 출원된 미국 가특허출원 61/389,372호를 우선권으로 주장하며, 상기 가특허출원의 전체 내용들은 인용에 의해 본원에 포함된다.

본 개시는 멀티미디어 데이터의 렌더링(rendering) 및 프로세싱에 관한 것이고, 더 상세하게는, 3차원 화상 및 비디오 데이터의 렌더링 및 프로세싱에 관한 것이다.

스테레오 비디오 프로세싱의 계산 복잡도는 3차원(3D) 그래픽스(graphics)의 렌더링에서, 특히, 모바일 폰들, 모바일 미디어 플레이어들, 개인 휴대 정보 단말(PDA) 디바이스들 등과 같은 저전력(즉, 배터리-전력) 디바이스들에서 3D 장면(scene)들의 시각화에서 중요하다. 3D 장면들의 시각화는 몇몇 영화들, 비디오 게임들, 사용자 인터페이스들 및 다른 3D 그래픽스 애플리케이션들의 프리젠테이션에서 유용할 수 있다.

일반적으로, 스테레오-가능 디스플레이(예를 들어, 오토-스테레오스코픽(auto-stereoscopic) 또는 스테레오스코픽 디스플레이) 상에서 3D 그래픽스의 렌더링 시의 난제들은 스테레오 비디오 프로세싱의 효율 및 사실성 양상들에 기인한다. 저전력 디바이스들의 제한된 계산 자원들은 3D 그래픽스의 렌더링을 과도하게 시간 소모적인 루틴이 되게 할 수 있다. 스테레오 비디오 프로세싱의 성능을 증가시키기 위해 소모되는 상당한 노력들에도 불구하고, 추가적 개선들이 바람직할 것이다.

추가적으로, 사용자들이 자신들의 시청(viewing) 경험들을 커스터마이징하게 하는 능력이 또한 바람직할 것이다. 인간의 시각 시스템(HVS)은, 동일한 장면의 2개의 뷰(view)들이 좌안과 우안에 각각 제공될 때 깊이를 인지한다. 평면 3D 디스플레이들(스테레오스코픽 또는 오토-스테레오스코픽)은 좌안과 우안에 2개의 상이한 뷰들을 각각 제공하는 것에 의존하고, 이 뷰들은, 그 장면을 직접 볼 때 눈이 인지하게 될 뷰와 동일하다. 따라서, 장면의 상이한 깊이들에 위치된 포인트들은 2개의 뷰들에서 상이하게 시프트될 것이다. 위치에서의 시프트는, 이미지들을 지칭할 경우에는 디스패리티(disparity)로 지칭되고, 이 위치가 스크린 상에 있을 경우에는 패럴랙스(parallax)로 지칭된다.

주어진 포인트에 대한 패럴랙스는, 좌측 뷰에 대한 스크린 상에서의 이 포인트의 위치가 우측 뷰에 대한 스크린 상에서의 이 포인트의 위치의 좌측인 경우, 포지티브이다. 그 다음, 좌측 뷰에 대한 스크린 상에서의 이 포인트의 위치가 우측 뷰에 대한 스크린 상에서의 이 포인트의 위치의 우측인 경우, 패럴랙스는 네거티브이다. 두개의 뷰들 모두에 대한 위치가 동일하면, 패럴랙스는 널(null)이다. 제로(zero) 패럴랙스를 갖는 모든 포인트들을 포함하는 공간에서의 위치는 수렴(convergence) 평면으로 공지된다. 네거티브 패럴랙스는 팝-아웃(pop-out) 효과를 제공하는 반면, 포지티브 패럴랙스는 (구멍 또는 창문을 통해 보여지는 것처럼) 딥(deep) 효과를 제공한다.

스크린 특성들 및 시청 거리와 같은 특정한 시청 조건들이 주어지면, 각각의 개인이 그들의 눈들을 수렴시킬 수 있는 최대 이미지 디스패리티가 존재한다. 이것은 가용성(fusible) 범위로 지칭된다. 포지티브 및 네거티브 디스패리티들의 범위는 대칭이 아니고, 각각의 개인에 좌우된다. 스크린 패럴랙스의 인지된 망막의 디스패리티는 이미지 디스패리티, 스크린 상의 픽셀들의 피치(pitch)(스크린의 사이즈 및 해상도와 관련됨) 및 시청 거리에 좌우된다. 개인들의 눈들에서의 차이뿐만 아니라 시청 조건들에서의 변화들에 기인하여, 최적의 3D 컨텐츠를 렌더링하기 위해 이용되는 파라미터들의 유효성은 여러 시청자들에 대해 다를 수 있다.

본 개시는 사용자로부터 수신된 사용자 선호도 데이터에 기초하여 3D 이미지 데이터를 변형하기 위한 기술들을 설명한다. 몇몇 예들에서, 사용자 선호도 데이터는 제 1 디바이스에서 수신될 수 있고, 디스플레이 디바이스에 의한 프리젠테이션을 위해 제 1 디바이스에 의해 생성된 3D 이미지 데이터를 조정하는데 이용될 수 있다. 다른 예들에서, 제 1 디바이스는 사용자 선호도 데이터를 수신할 수 있고, 이를 디스플레이 디바이스에 송신하여, 디스플레이 디바이스가 사용자 선호도 데이터에 기초하여 3D 이미지 데이터를 조정할 수 있게 한다. 어느 경우든, 3D 이미지 데이터는, 사용자가 원하는 방식으로 디스플레이 디바이스 상에서 3D 이미지의 프리젠테이션 및 시청을 지원하기 위해, 사용자 선호도 데이터에 기초하여 조정될 수 있다. 몇몇 예들에서, 제 1 디바이스는 모바일 폰, 모바일 미디어 플레이어, 개인 휴대 정보 단말(PDA) 디바이스 등과 같은 모바일 디바이스일 수 있다. 3D 사용자 시청 선호도들의 예들은 이미지들에서 팝-아웃 효과의 양, 이미지들의 스테레오 베이스라인, 이미지들의 깊이 범위, 이미지들의 공간적 분포, 이미지들에서 깊이 선예도(sharpness), 또는 사용자의 우세안(dominant eye)의 특정을 포함할 수 있다.

일례에서, 시스템은, 3D 이미지 컨텐츠의 프리젠테이션을 위해 사용자 선호도 데이터를 수신하도록 구성되는 사용자 인터페이스 모듈; 3D 이미지 컨텐츠와 연관된 디스패리티 값들에 기초하여 디스패리티 맵을 저장하도록 구성되는 디스패리티 추정 모듈; 및 사용자 선호도 데이터에 기초하여 디스패리티 맵을 변형하도록 구성되는 디스패리티 프로세싱 모듈을 포함한다.

다른 예에서, 방법은, 3D 이미지 컨텐츠의 프리젠테이션을 위해 사용자 선호도 데이터를 수신하는 단계; 3D 이미지 컨텐츠와 연관된 디스패리티 값들에 기초하여 디스패리티 맵을 저장하는 단계; 사용자 선호도 데이터에 기초하여 디스패리티 맵을 변형하는 단계; 변형된 디스패리티 맵에 기초하여 3D 비디오를 생성하는 단계를 포함한다.

다른 예에서, 컴퓨터 판독가능 저장 매체는 하나 또는 그 초과의 명령들을 유형적으로(tangibly) 저장하며, 하나 또는 그 초과의 명령들은 하나 또는 그 초과의 프로세서들에 의해 실행되는 경우 하나 또는 그 초과의 프로세서들로 하여금, 3D 이미지 컨텐츠의 프리젠테이션을 위해 사용자 선호도 데이터를 수신하게 하고; 3D 이미지 컨텐츠와 연관된 디스패리티 값들에 기초하여 디스패리티 맵을 저장하게 하고; 사용자 선호도 데이터에 기초하여 디스패리티 맵을 변형하게 하고; 그리고 변형된 디스패리티 맵에 기초하여 3D 비디오를 생성하게 한다.

다른 예시적인 실시예에서, 장치는, 3D 이미지 컨텐츠의 프리젠테이션을 위해 사용자 선호도 데이터를 수신하기 위한 수단; 3D 이미지 컨텐츠와 연관된 디스패리티 값들에 기초하여 디스패리티 맵을 저장하기 위한 수단; 사용자 선호도 데이터에 기초하여 디스패리티 맵을 변형하기 위한 수단; 변형된 디스패리티 맵에 기초하여 3D 비디오를 생성하기 위한 수단을 포함한다.

본 개시의 하나 또는 그 초과의 양상들의 세부사항들은 첨부된 도면들 및 하기 설명에서 기술된다. 본 개시에서 설명되는 기술들의 다른 특징들, 목적들 및 이점들은 하기 설명, 도면들 및 청구항들로부터 명백해질 것이다.

도 1은, 소스 디바이스가 목적지 디바이스에 3차원 이미지 데이터를 전송하는 예시적인 시스템을 도시하는 블록도이다.
도 2는 디스패리티 프로세싱 유닛의 컴포넌트들의 예시적인 배열을 도시하는 블록도이다.
도 3a 내지 도 3c는, 픽셀들의 깊이들에 기초하여, 포지티브, 제로 및 네거티브 디스패리티 값들의 예들을 각각 도시하는 개념도들이다.
도 4는 본 개시의 일례에 따라, 사용자 선호도들에 기초하여, 인지된 3D 효과들을 조정하도록 구성되는 예시적인 시스템의 블록도를 도시한다.
도 5는 3D 비디오 제어 모듈의 컴포넌트들의 예시적인 배열들을 도시하는 블록도를 도시한다.
도 6은 본 개시의 일례에 따라, 사용자 선호도들에 기초하여, 인지된 3D 효과들을 조정하도록 구성되는 예시적인 시스템의 블록도를 도시한다.
도 7은 본 개시의 예시적인 양상들을 도시하는 흐름도를 도시한다.
도 8은 본 개시의 일례에 따라, 3D 비디오를 렌더링하도록 구성되는 예시적인 시스템의 블록도를 도시한다.

현재의 2D 디스플레이들 상에서, 밝기 및 선예도와 같은 화상 특징들은 사용자 선호도들에 기초하여 조정될 수 있다. 그러나, 현재의 3D-준비 디스플레이들은 통상적으로, 3D 컨텐츠의 시각화를 조정하기 위한 어떠한 메커니즘도 포함하지 않는다. 모든 개인은, 시청 조건들 및 선호도들에 기초하여 3D 컨텐츠의 디스플레이된 특성들에 관해 상이한 선호도들 또는 요구사항들을 가질 수 있다. 본 개시는 사용자 선호도들에 기초하여 인지된 3D 효과들을 조정하는 것을 설명한다.

본 개시의 양상들은, 이미지들의 스테레오 쌍 중 2개의 이미지들에 대한 디스패리티 값들을 계산하기 위한 기술들을 포함하고, 이미지들의 스테레오 쌍은 공통 장면의 제 1 이미지 및 제 2 이미지를 포함한다. 제 1 및 제 2 이미지들은 또한 본 명세서 전체에서 좌측 및 우측 이미지들, 좌측 및 우측 뷰들 또는 제 1 및 제 2 뷰들로 지칭될 수 있다. 스테레오 쌍의 제 1 및 제 2 이미지들은 3차원(3D) 오브젝트들을 갖는 장면을 생성하기 위해 동시에 또는 연속적으로(in rapid succession) 디스플레이될 수 있다. 본 개시의 양상들은, 사용자들이 선호도들을 조정하여, 3D 컨텐츠가 렌더링되고 궁극적으로 디스플레이되는 방법을 커스터마이징할 수 있게 하기 위한 기술들을 더 포함한다.

본 개시에서 사용되는 용어 "디스패리티"는 일반적으로, 3D 효과를 발생시키기 위해, 하나의 이미지에서의 픽셀의, 다른 이미지의 대응하는 픽셀에 대한 수평 오프셋을 나타낸다. 본 개시에서 사용되는 바와 같은 대응하는 픽셀들은 일반적으로 3D 오브젝트의 동일한 포인트에 속하지만 상이한 이미지들에 있는 픽셀들을 지칭한다.

카메라의 촛점에 비교적 근접한 오브젝트를 표현하는 픽셀들은 카메라로부터 비교적 멀리 떨어진 오브젝트를 표현하는 픽셀들보다 높은 디스패리티를 갖는다. 더 구체적으로, 이미지들을 디스플레이하는데 이용되는 스크린이 수렴 평면으로 간주될 수 있어서, 제로 디스패리티를 갖는 대응하는 픽셀들은 수렴 평면에 위치되고, 시청자에게 일반적으로 수렴 평면과 동일한 거리에 위치된 것으로 보인다. 일반적으로, 스크린의 앞에 있는 오브젝트들은 네거티브 디스패리티들을 갖는 것으로 간주되는 반면, 스크린의 뒤에 있는 오브젝트들은 포지티브 디스패리티를 갖는 것으로 간주된다.

이미지들의 스테레오 쌍에 대한 복수의 디스패리티 값들은 디스패리티 맵으로 지칭되는 데이터 구조에 저장될 수 있다. 이미지들의 스테레오 쌍과 연관된 디스패리티 맵은 2D 함수 d(x,y)로 표현할 수 있어서, 제 1 이미지의 임의의 주어진 (x,y) 좌표에서의 d 값은, 제 2 이미지의 대응하는 픽셀을 발견하기 위해 제 2 이미지의 좌표 (x,y)에서의 픽셀에 적용될 필요가 있는 x 좌표에서의 시프트에 대응한다.

도 1은 예시적인 시스템(10)을 도시하는 블록도이다. 도 1에 도시된 바와 같이, 시스템(10)은, 이미지 소스(22), 디스패리티 프로세싱 유닛(24), 인코더(26) 및 송신기(28)를 갖는 소스 디바이스를 포함할 수 있고, 이미지 디스플레이(42), 뷰 합성 유닛(44), 디코더(46) 및 수신기(48)를 갖는 목적지 디바이스(40)를 더 포함할 수 있다. 도 1의 예에서, 목적지 디바이스(40)는 소스 디바이스(20)로부터 인코딩된 이미지 데이터(54)를 수신한다. 소스 디바이스(20) 및/또는 목적지 디바이스(40)는 무선 핸드셋들, 소위 셀룰러 또는 위성 라디오전화들, 또는 통신 채널을 통해 화상 및/또는 비디오 정보를 통신할 수 있는 임의의 무선 디바이스들과 같은 무선 통신 디바이스들을 포함할 수 있고, 이 경우, 통신 채널은 무선 통신 채널을 포함할 수 있다. 목적지 디바이스(40)는 3차원(3D) 디스플레이 디바이스 또는 3D 렌더링 디바이스로 지칭될 수 있다.

이미지 소스(22)는, 제 1 뷰(50) 및 제 2 뷰(56)를 포함하는 이미지들의 스테레오 쌍을 디스패리티 프로세싱 유닛(24)에 제공한다. 디스패리티 프로세싱 유닛(24)은 제 1 뷰(50) 및 제 2 뷰(56)를 이용하여 3D 프로세싱 정보(52)를 생성한다. 디스패리티 프로세싱 유닛(24)은 3D 프로세싱 정보(52)와, 2개의 뷰들 중 하나(도 1의 예에서는 제 1 뷰(50))를 인코더(26)에 전달하고, 인코더(26)는 제 1 뷰(50) 및 3D 프로세싱 정보(52)를 인코딩하여 인코딩된 비디오 데이터(54)를 형성한다. 송신기(28)는 인코딩된 비디오 데이터(54)를 목적지 디바이스(40)에 송신한다.

수신기(48)는 송신기(28)로부터 인코딩된 이미지 데이터(54)를 수신한다. 디코더(46)는 인코딩된 이미지 데이터(54)를 디코딩하여 제 1 뷰(50) 및 3D 프로세싱 정보(52)를 추출한다. 제 1 뷰(50) 및 3D 프로세싱 정보(52)에 기초하여, 뷰 합성 유닛(44)은 제 2 뷰(56)를 재구성할 수 있다. 제 1 뷰(50) 및 제 2 뷰(56)에 기초하여, 이미지 디스플레이(42)는 3차원 이미지를 렌더링할 수 있다. 도 1에는 도시되지 않았지만, 제 1 뷰(50) 및 제 2 뷰(56)는 소스 디바이스(20) 또는 목적지 디바이스(40)에서 추가적으로 프로세싱될 수 있다. 따라서, 몇몇 예들에서, 뷰 합성 유닛(44)에 의해 수신되는 제 1 뷰(50) 또는 이미지 디스플레이(42)에 의해 수신되는 제 1 뷰(50) 및 제 2 뷰(56)는 실제로는 이미지 소스(56)로부터 수신된 제 1 뷰(50) 및 제 2 뷰(56)의 변형된 버젼들일 수 있다. 3D 프로세싱 정보(52)는, 예를 들어, 디스패리티 맵 또는 디스패리티 맵에 기초한 깊이 정보를 포함할 수 있다.

디스패리티 정보에 기초하여 깊이 정보를 결정하는 것 또는 그 역을 위한 다양한 기술들이 존재한다. 따라서, 본 개시가 디스패리티 정보의 인코딩, 디코딩, 프로세싱 또는 송신을 논의하는 경우에는 항상, 디스패리티 정보에 기초한 깊이 정보가 그 대신 인코딩, 디코딩, 프로세싱 또는 송신될 수 있는 것이 또한 고려된다.

본 개시의 양상들은 반드시 무선 애플리케이션들 또는 세팅들에 제한되는 것은 아니다. 예를 들어, 본 개시의 양상들은 오버-디-에어(over-the-air) 텔레비젼 브로드캐스트들, 케이블 텔레비젼 송신들, 위성 텔레비젼 송신들, 인터넷 비디오 송신들, 저장 매체 상으로 인코딩되는 인코딩된 디지털 비디오, 또는 다른 시나리오들에 적용될 수 있다. 따라서, 통신 채널은, 인코딩된 비디오 및/또는 화상 데이터의 송신에 적합한 무선 또는 유선 매체의 임의의 조합을 포함할 수 있다. 일례로서, 핀홀(pinhole) 카메라 모델 및 병렬적 스테레오 셋업을 이용하는 경우, 깊이 값(Z)은 하기 수식에 따라 디스패리티 값(d)에 기초하여 결정될 수 있고:

Z=bf/d (1)

여기서, b는 베이스라인(즉, 핀홀 카메라 모델의 2개의 카메라의 중심들 사이의 거리)이고 f는 핀홀 카메라 모델의 촛점 길이이다.

이미지 소스(22)는, 예를 들어, 디지털 정지 화상 카메라 또는 디지털 비디오 카메라와 같은 이미지 센서 어레이, 하나 또는 그 초과의 저장된 이미지들을 포함하는 컴퓨터 판독가능 저장 매체, 외부 소스로부터 디지털 이미지들을 수신하기 위한 인터페이스, 예를 들어, 비디오 게임 또는 다른 대화형 멀티미디어 소스를 실행함으로써 디지털 이미지들을 생성하는 프로세싱 유닛, 또는 이미지 데이터의 다른 소스들을 포함할 수 있다. 이미지 소스(22)는 일반적으로 캡쳐된, 프리-캡쳐된(pre-captured) 그리고/또는 컴퓨터로 생성된 이미지들 중 임의의 하나 또는 그 초과의 소스에 대응할 수 있다. 몇몇 예들에서, 이미지 소스(22)는 셀룰러(즉, 모바일) 전화의 카메라에 대응할 수 있다. 일반적으로, 본 개시의 이미지들에 대한 참조들은 정지 화상들 뿐만 아니라 비디오 데이터의 프레임들 모두를 포함한다. 따라서, 본 개시의 기술들은 정지 디지털 화상들 뿐만 아니라 캡쳐된 디지털 비디오 데이터 또는 컴퓨터로 생성된 디지털 비디오 데이터의 프레임들 모두에 적용될 수 있다.

이미지 소스(22)는 이미지들 사이의 디스패리티 값들의 계산을 위해 이미지들(50 및 56)의 스테레오 쌍에 대한 이미지 데이터를 디스패리티 프로세싱 유닛(24)에 제공한다. 이미지들(50 및 56)의 스테레오 쌍은 제 1 뷰(50) 및 제 2 뷰(56)를 포함한다. 디스패리티 프로세싱 유닛(24)은 이미지들(50 및 56)의 스테레오 쌍에 대한 디스패리티 값들을 자동으로 계산하도록 구성될 수 있고, 그 다음, 이들은 3D 이미지에서 오브젝트들에 대한 깊이 값들을 계산하는데 이용될 수 있다. 예를 들어, 이미지 소스(22)는 장면의 2개의 뷰들을 상이한 원근법들에서 캡쳐할 수 있고, 그 다음, 결정된 디스패리티 맵에 기초하여 장면의 오브젝트들에 대한 깊이 정보를 계산할 수 있다. 다양한 예들에서, 이미지 소스(22)는 표준 2차원 카메라, 장면의 스테레오스코픽 뷰를 제공하는 2개의 카메라 시스템, 장면의 다수의 뷰들을 캡쳐하는 카메라 어레이, 또는 하나의 뷰와 깊이 정보를 캡쳐하는 카메라를 포함할 수 있다.

이미지 소스(22)가 다수의 뷰들(즉, 제 1 뷰(50) 및 제 2 뷰(56))을 제공할 수 있을지라도, 디스패리티 프로세싱 유닛(24)은 다수의 뷰들에 기초하여 디스패리티 값들을 계산할 수 있고, 소스 디바이스(20)는 오직 제 1 뷰(50)와 3D 프로세싱 정보(52)(즉, 디스패리티 맵으로부터 결정된 장면의 뷰들의 각각의 쌍에 대한 디스패리티 맵 또는 깊이 정보)만을 송신할 수 있다. 예를 들어, 이미지 소스(22)는 상이한 각도들로부터 보여지는 장면의 뷰들의 4개의 쌍들을 생성하도록 의도되는 8개의 카메라 어레이를 포함할 수 있다. 소스 디바이스(20)는 각 쌍에 대한 디스패리티 정보 또는 깊이 정보를 계산할 수 있고, 각 쌍 중 오직 하나의 이미지와 그 쌍에 대한 디스패리티 정보 또는 깊이 정보를 목적지 디바이스(40)에 송신할 수 있다. 따라서, 8개의 뷰들을 송신하기 보다는, 소스 디바이스(20)는 이 예에서, 4개의 뷰들과 4개의 뷰들 각각에 대한 깊이/디스패리티 정보를 인코딩된 이미지 데이터(54)의 형태로 송신할 수 있다. 몇몇 예들에서, 디스패리티 프로세싱 유닛(24)은 사용자로부터 또는 다른 외부 디바이스로부터 이미지에 대한 디스패리티 정보를 수신할 수 있다.

디스패리티 프로세싱 유닛(24)은 제 1 뷰(50) 및 3D 프로세싱 정보(52)를 인코더(26)에 전달한다. 3D 프로세싱 정보(52)는 이미지들(50 및 56)의 스테레오 쌍에 대한 디스패리티 맵을 포함할 수 있다. 제 1 뷰(50)가 디지털 정지 화상인 경우, 인코더(26)는 제 1 뷰(50)를 예를 들어, JPEG(Joint Photographic Experts Group) 이미지로서 인코딩하도록 구성될 수 있다. 제 1 뷰(50)가 비디오 데이터의 프레임인 경우, 인코더(26)는, 예를 들어, MPEG(Motion Picture Experts Group), MPEG-2, ITU(International Telecommunication Union) H.263, ITU-T H.264/MPEG-4, H.264 AVC(Advanced Video Coding), ITU-T H.265 또는 다른 비디오 인코딩 표준들과 같은 비디오 코딩 표준에 따라 제 1 뷰(50)를 인코딩하도록 구성될 수 있다. 인코더(26)는 제 1 뷰(50)에 대한 인코딩된 이미지와 함께 3D 프로세싱 정보(52)를 인코딩된 이미지 데이터(54)에 포함시킬 수 있다. 인코더(26)는 인코딩된 이미지 데이터(54)를 송신기(28)에 전달한다.

몇몇 예들에서, 깊이 맵이 추정될 수 있다. 하나보다 많은 뷰가 존재하는 경우, 하나보다 많은 뷰가 이용가능한 경우의 깊이 맵들을 추정하기 위해 스테레오 매칭이 이용될 수 있다. 그러나, 2D에서 3D로의 변환에서, 깊이를 추정하는 것은 더욱 난해할 수 있다. 그럼에도 불구하고, 다양한 방법들에 의해 추정된 깊이 맵은 DIBR(Depth-Image-Based Rendering)에 기초한 3D 렌더링에 이용될 수 있다.

예를 들어, JVT(Joint Video Team)로 공지된 공동 파트너쉽의 산물로서 ISO/IEC MPEG(Moving Picture Experts Group)와 함께 ITU-T VCEG(Video Coding Experts Group)에 의해 ITU-T H.264/MPEG-4 (AVC) 표준이 포뮬레이트되었다. 몇몇 양상들에서, 본 개시에서 설명되는 기술들은 일반적으로 H.264 표준에 따르는 디바이스들에 적용될 수 있다. H.264 표준은, 2005년 3월, ITU-T Study Group에 의한 ITU-T Recommendation H.264, Advanced Video Coding for generic audiovisual services에서 설명되고, 이것은 본 명세서에서, H.264 표준 또는 H.264 규격 또는 H.264/AVC 표준 또는 규격으로 지칭될 수 있다. JVT(Joint Video Team)는 H.264/MPEG-4 AVC에 대한 확장들에 대해 계속 작업하고 있다.

디스패리티 프로세싱 유닛(24)은 3D 프로세싱 정보(52)를 디스패리티 맵의 형태로 생성할 수 있다. 인코더(26)는 비트스트림에서 송신된 3D 컨텐츠의 일부로서의 디스패리티 맵을 인코딩된 이미지 데이터(54)로서 인코딩하도록 구성될 수 있다. 이 프로세스는 하나의 캡쳐된 뷰에 대한 하나의 디스패리티 맵 또는 몇몇 송신된 뷰들에 대한 디스패리티 맵들을 생성할 수 있다. 인코더(26)는 하나 또는 그 초과의 뷰들 및 디스패리티 맵들을 수신할 수 있고, 다수의 뷰들을 함께 코딩할 수 있는 H.264/AVC, MVC와 같은 비디오 코딩 표준들, 또는 깊이 및 텍스쳐를 함께 코딩할 수 있는 SVC(scalable video coding)로 이들을 코딩할 수 있다.

제 1 뷰(50)가 비디오 데이터의 프레임에 대응하는 경우, 인코더(26)는 제 1 뷰(50)를 인트라-예측 모드 또는 인터-예측 모드로 인코딩할 수 있다. 일례로서, ITU-T H.264 표준은 루마(luma) 성분들에 대한 16 곱하기 16, 8 곱하기 8 또는 4 곱하기 4 및 크로마(chroma) 성분들에 대한 8x8과 같은 다양한 블록 사이즈들에서 인트라 예측을 지원할 뿐만 아니라, 루마 컴포넌트들에 대한 16x16, 16x8, 8x16, 8x8, 8x4, 4x8 및 4x4 및 크로마 성분들에 대한 대응하는 스케일링된 사이즈들과 같은 다양한 블록 사이즈들에서 인트라 예측을 지원한다. 본 개시에서, "NxN" 및 "N 곱하기 N"은, 예를 들어, 16x16 픽셀들 또는 16 곱하기 16 픽셀들과 같이, 블록의 픽셀 치수들을 수평 및 수직 치수들의 측면에서 지칭하도록 상호교환되어 사용될 수 있다. 일반적으로, 16x16 블록은 수직 방향에서 16개의 픽셀들 및 수평 방향에서 16개의 픽셀들을 가질 것이다. 유사하게, NxN 블록은 일반적으로 수직 방향에서 N개의 픽셀들 및 수평 방향에서 N개의 픽셀들을 갖고, N은 16보다 클 수 있는 양의 정수값을 표현한다. 블록의 픽셀들은 행(row)들 및 열(culumn)들로 배열될 수 있다. 블록들은 또한 NxM일 수 있고, N 및 M은, 반드시 동일할 필요는 없는 정수들이다.

16 곱하기 16보다 작은 블록 사이즈들은 16 곱하기 16 매크로블록의 파티션들로 지칭될 수 있다. 유사하게, NxN 블록의 경우, NxN보다 작은 블록 사이즈들은 NxN 블록의 파티션들로 지칭될 수 있다. 비디오 블록들은, 예를 들어, 이산 코사인 변환(DCT), 정수 변환, 웨이블릿(wavelet) 변환, 또는 코딩된 비디오 블록들과 예측 비디오 블록들 사이의 픽셀 차들을 표현하는 잔여 비디오 블록 데이터에 대한 개념적으로 유사한 변환과 같은 변환의 적용 이후, 픽셀 도메인에서 픽셀 데이터의 블록들 또는 변환 도메인에서 변환 계수들의 블록들을 포함할 수 있다. 몇몇 경우들에서, 비디오 블록은 변환 도메인에서 양자화된 변환 계수들의 블록들을 포함할 수 있다.

더 작은 비디오 블록들은 더 양호한 해상도를 제공할 수 있고, 높은 레벨들의 세부사항을 포함하는 비디오 프레임의 위치들에 대해 이용될 수 있다. 일반적으로, 매크로블록들, 및 때때로 서브-블록들로 지칭되는 다양한 파티션들이 비디오 블록들인 것으로 간주될 수 있다. 또한, 슬라이스가, 매크로블록들 및/ 서브-블록들과 같은 복수의 비디오 블록들인 것으로 간주될 수 있다. 각각의 슬라이스는 비디오 프레임의 독립적으로 디코딩가능한 유닛일 수 있다. 대안적으로, 프레임들 자체가 디코딩가능한 유닛들일 수 있거나, 또는 프레임의 다른 부분들이 디코딩가능한 유닛들로서 정의될 수 있다. 용어 "코딩된 유닛" 또는 "코딩 유닛"은, 전체 프레임, 프레임의 슬라이스, 시퀀스 또는 수퍼프레임으로 또한 지칭되는 화상 그룹(GOP) 또는 적용가능한 코딩 기술들에 따라 정의되는 다른 독립적으로 디코딩가능한 유닛과 같은, 비디오 프레임의 임의의 독립적으로 디코딩가능한 유닛을 지칭할 수 있다.

일반적으로, 매크로블록들 및 다양한 서브-블록들 또는 파티션들 모두가 비디오 블록들인 것으로 간주될 수 있다. 또한, 슬라이스는 매크로블록들 및/또는 서브-블록들 또는 파티션들과 같은 일련의 비디오 블록들인 것으로 간주될 수 있다. 일반적으로, 매크로블록은, 16 곱하기 16의 픽셀들의 영역을 정의하는 색차(chrominance) 및 휘도 값들의 세트를 지칭할 수 있다. 휘도 블록은 16 곱하기 16 세트의 값들을 포함할 수 있지만, 8 곱하기 8 블록들, 4 곱하기 4 블록들, 8 곱하기 4 블록들, 4 곱하기 8 블록들 또는 다른 사이즈들과 같은 더 작은 비디오 블록들로 추가로 파티셔닝될 수 있다. 2개의 상이한 색차 블록들은 그 매크로블록에 대한 색을 정의할 수 있고, 16 곱하기 16 영역의 픽셀들과 연관된 색 값들의 8 곱하기 8 서브-샘플링된 블록들을 각각 포함할 수 있다. 매크로블록들은, 그 매크로블록들에 적용되는 코딩 모드들 및/또는 코딩 기술들을 정의하기 위한 신택스(syntax) 정보를 포함할 수 있다.

매크로블록들 또는 다른 비디오 블록들은 슬라이스들, 프레임들 또는 다른 독립적 유닛들과 같은 디코딩가능한 유닛들로 그룹화될 수 있다. 각각의 슬라이스는 비디오 프레임의 독립적으로 디코딩가능한 유닛일 수 있다. 대안적으로, 프레임들 자체가 디코딩가능한 유닛들일 수 있거나, 또는 프레임의 다른 부분들이 디코딩가능한 유닛들로서 정의될 수 있다.

앞서 언급된 바와 같이, 이미지 소스(22)는 3D 프로세싱 정보(52)를 생성할 목적으로, 동일한 장면의 2개의 뷰들을 디스패리티 프로세싱 유닛(24)에 제공할 수 있다. 이러한 예들에서, 인코더(26)는 3D 프로세싱 정보(56)와 함께 뷰들 중 오직 하나만 인코딩할 수 있다. 일반적으로, 소스 디바이스(20)는 3D 프로세싱 정보(52)와 함께 제 1 이미지(50)를, 목적지 디바이스(40)와 같은 목적지 디바이스에 전송하도록 구성될 수 있다. 디스패리티 맵 또는 깊이 맵과 함께 오직 하나의 이미지만을 전송하는 것은, 그렇지 않은 경우 3D 이미지를 생성하기 위해 장면의 2개의 인코딩된 뷰들을 전송하는 것을 초래할 수 있을 저장 공간 이용을 감소시키고 그리고/또는 대역폭 소모를 감소시킬 수 있다.

송신기(28)는 인코딩된 이미지 데이터(54)를 포함하는 비트스트림을 목적지 디바이스(40)의 수신기(48)에 전송할 수 있다. 예를 들어, 송신기(28)는, 예를 들어, MPEG-2 시스템 기술들과 같은 전송 레벨 캡슐화 기술들을 이용하여, 인코딩된 이미지 데이터(54)를 캡슐화할 수 있다. 송신기(28)는 예를 들어, 네트워크 인터페이스, 무선 네트워크 인터페이스, 라디오 주파수 송신기, 송신기/수신기(트랜시버) 또는 다른 송신 유닛을 포함할 수 있다. 다른 예들에서, 소스 디바이스(20)는, 인코딩된 이미지 데이터(54)를, 예를 들어, 컴팩트 디스크와 같은 광학 저장 매체, 디지털 비디오 디스크, 블루-레이 디스크, 플래쉬 메모리, 자기 매체 또는 다른 저장 매체와 같은 물리적 매체에 저장하도록 구성될 수 있다. 이러한 예들에서, 저장 매체는 목적지 디바이스(40)의 위치에 물리적으로 전송될 수 있고, 데이터를 리트리브하기 위한 적절한 인터페이스 유닛에 의해 판독될 수 있다. 몇몇 예들에서, 비트스트림(54)은 송신기(28)에 의해 송신되기 전에 변조기/복조기(MODEM)에 의해 변조될 수 있다.

인코딩된 이미지 데이터(54)를 수신하고 데이터를 캡슐해제한 후, 그리고 몇몇 예들에서, 수신기(48)는 인코딩된 이미지 데이터(54)를 디코더(46)에(또는, 몇몇 예들에서는 비트스트림을 복조하는 MODEM에) 제공할 수 있다. 디코더(46)는 수신된 비트스트림으로부터 제 1 뷰(50) 및 3D-프로세싱 정보(52)를 추출하기 위해 인코딩된 이미지 데이터(54)를 디코딩한다. 예를 들어, 디코더(46)는 3D 프로세싱 정보(52)로부터 제 1 뷰(50) 및 제 1 뷰(50)에 대한 디스패리티 맵을 재생성할 수 있다. 디스패리티 맵들의 디코딩 후, 뷰 합성 알고리즘은, 송신되지 않은 다른 뷰들에 대한 텍스쳐를 생성할 수 있다. 디코더(46)는 또한 제 1 뷰(50) 및 3D 프로세싱 정보(52)를 뷰 합성 유닛(44)에 전송할 수 있다. 뷰 합성 유닛(44)은 제 1 뷰(50) 및 3D 프로세싱 정보(52)에 기초하여 제 2 뷰(56)를 재생성한다.

일반적으로, 인간의 시각 시스템(HVS)은, 오브젝트에 대한 수렴의 각도에 기초하여 깊이를 인지한다. 시청자에게 비교적 더 가까이 있는 오브젝트들은, 시청자로부터 비교적 더 멀리 있는 오브젝트들보다 더 큰 각도에서 오브젝트 상으로 수렴하는 시청자의 눈들에 기인하여 시청자에게 더 가까이 있는 것으로 인지된다. 화상들 및 비디오와 같은 멀티미디어에서 3차원을 시뮬레이션하기 위해, 2개의 이미지들이 시청자에게 디스플레이되고, 시청자의 눈들 각각에 대해 하나의 이미지가 디스플레이된다. 이미지 내의 동일한 공간 위치에 위치된 오브젝트들은 일반적으로, 이미지들이 디스플레이되고 있는 스크린과 동일한 깊이에 있는 것으로 인지될 것이다.

깊이의 착각(illusion)을 생성하기 위해, 오브젝트들은 수평 축을 따라 이미지들 각각에서 약간 상이한 위치들에 나타날 수 있다. 2개의 이미지들에서 오브젝트들의 위치들 사이의 차이는 디스패리티로 지칭된다. 일반적으로, 오브젝트가 스크린보다 시청자에게 더 가까이 있는 것으로 보이게 하기 위해, 네거티브 디스패리티 값이 이용될 수 있는 한편, 오브젝트가 스크린보다 사용자로부터 더 멀리 있는 것으로 보이게 하기 위해, 포지티브 디스패리티 값이 이용될 수 있다. 몇몇 예들에서, 포지티브 또는 네거티브 디스패리티를 갖는 픽셀들은 더 많거나 더 적은 해상도로 디스플레이되어, 촛점으로부터 포지티브 또는 네거티브 깊이의 효과를 추가로 생성하도록 선예도 또는 흐려짐(blurriness)을 증가 또는 감소시킬 수 있다.

뷰 합성은, 임의의 뷰 각도에서 뷰를 생성하기 위해 조밀하게 샘플링된 뷰들을 이용하는 샘플링 문제로 간주될 수 있다. 그러나, 실제 애플리케이션들에서, 조밀하게 샘플링된 뷰들에 의해 요구되는 저장 또는 송신 대역폭은 클 수 있다. 따라서, 드물게 샘플링된 뷰들 및 이들의 깊이 맵들에 기초한 뷰 합성에 대한 연구가 수행되어 왔다. 상세히 구별될지라도, 드물게 샘플링된 뷰들에 기초한 이들 알고리즘들은 대부분 3D 워핑(warping)에 기초한다. 3D 워핑에서, 깊이 및 카메라 모델이 주어지면, 기준 뷰의 픽셀은 먼저, 2D 카메라 좌표로부터 월드(world) 좌표의 포인트 P로 배경-영사(back-project)될 수 있다. 그 다음, 포인트 P는 목적지 뷰(생성될 가상의 뷰)로 영사될 수 있다. 월드 좌표에서 동일한 오브젝트의 상이한 영사들에 대응하는 2개의 픽셀들은 동일한 색 강도들을 가질 수 있다.

뷰 합성 유닛(44)은 오브젝트들에 대한 깊이 값들에 기초하여 이미지의 오브젝트들(예를 들어, 픽셀들, 블록들, 픽셀들의 그룹들, 또는 블록들의 그룹들)에 대한 디스패리티 값들을 계산하도록 구성될 수 있거나, 인코딩된 이미지 데이터(54)에서 인코딩된 디스패리티 값들을 수신할 수 있다. 뷰 합성 유닛(44)은 디스패리티 값들을 이용하여 제 1 뷰(50)로부터 제 2 뷰(56)를 생성하고, 이것은 시청자가 하나의 눈으로 제 1 뷰(50)를 시청하고 나머지 눈으로 제 2 뷰(56)를 시청할 때 3차원 효과를 생성한다. 뷰 합성 유닛(44)은 사용자에게의 디스플레이를 위해 제 1 뷰 및 제 2 뷰(56)를 이미지 디스플레이(42)에 전달할 수 있다.

이미지 디스플레이(42)는 스테레오스코픽 디스플레이 또는 오토스테레오스코픽 디스플레이를 포함할 수 있다. 일반적으로, 스테레오스코픽 디스플레이들은, 하나의 눈에 하나의 이미지를 향하게 하고 나머지 눈에 제 2 이미지를 향하게 하는, 예를 들어, 고글 또는 안경과 같은 헤드 장착 유닛을 시청자가 착용한 동안 2개의 이미지들을 디스플레이함으로써 3차원을 시뮬레이션한다. 몇몇 예들에서, 각각의 이미지는 예를 들어, 편향된 안경 또는 컬러-필터링 안경을 이용하여 동시에 디스플레이된다. 몇몇 예들에서, 이미지들은 빠르게 교번되고, 안경 또는 고글은 디스플레이와 동기식으로 셔터링(shuttering)을 빠르게 교번하여, 정확한 이미지가 오직 대응하는 눈에만 나타나게 한다. 오토-스테레오스코픽 디스플레이들은 안경을 이용하지 않지만, 그 대신, 정확한 이미지들을 시청자의 대응하는 눈들에 향하게 할 수 있다. 예를 들어, 오토-스테레오스코픽 디스플레이들은, 시청자의 눈들이 어디에 위치되는지를 결정하기 위한 카메라들 및 이미지들을 시청자의 눈들에 향하게 하기 위한 기계적 및/또는 전기적 수단을 구비할 수 있다.

뷰 합성 유닛(44)은 시청자에 대해, 스크린 뒤, 스크린, 및 스크린 앞에 대한 깊이 값들로 구성될 수 있다. 뷰 합성 유닛(44)은, 비트스트림(54)의 이미지 데이터에서 표현되는 오브젝트들의 깊이를 디스패리티 값들에 맵핑하는 함수들로 구성될 수 있다. 따라서, 뷰 합성 유닛(44)은 함수들 중 하나를 실행하여 오브젝트들에 대한 디스패리티 값들을 계산할 수 있다. 3d 프로세싱 정보(52)에 기초하여 제 1 뷰(50)의 오브젝트들에 대한 디스패리티 값들을 계산한 후, 뷰 합성 유닛(44)은 제 1 뷰(50) 및 디스패리티 값들로부터 제 2 뷰(56)를 생성할 수 있다.

뷰 합성 유닛(44)은 스크린의 뒤 또는 앞의 최대 깊이들에서 오브젝트들을 디스플레이하기 위해 최대 디스패리티 값들로 구성될 수 있다. 이 방식으로, 뷰 합성 유닛(44)은 제로와, 최대 포지티브 및 네거티브 디스패리티 값들 사이의 디스패리티 범위들로 구성될 수 있다. 시청자는 이 구성들을 조정하여, 목적지 디바이스(44)에 의해 오브젝트들이 디스플레이되는 스크린 앞 또는 뒤의 최대 깊이들을 변형할 수 있다. 예를 들어, 목적지 디스플레이(40)는, 시청자가 조작할 수 있는 원격 제어 디바이스 또는 다른 제어 유닛과 통신할 수 있다. 원격 제어 디바이스는, 오브젝트들을 디스플레이할 스크린의 앞의 최대 깊이 및 스크린의 뒤의 최대 깊이를 시청자가 제어할 수 있게 하는 사용자 인터페이스를 포함할 수 있다. 이 방식으로, 시청자는 시청 경험을 개선하기 위해 이미지 디스플레이(42)에 대한 구성 파라미터들을 조정할 수 있다.

스크린의 앞 또는 스크린의 뒤에 디스플레이될 오브젝트들에 대한 최대 디스패리티 값들로 구성됨으로써, 뷰 합성 유닛(44)은, 비교적 단순한 계산들을 이용하는 3D 프로세싱 정보(52)에 기초하여 디스패리티 값들을 계산할 수 있다. 예를 들어, 뷰 합성 유닛(44)은, 깊이 값들을 디스패리티 값들에 맵핑하는 함수들로 구성될 수 있다. 함수들은, 대응하는 디스패리티 범위 내의 하나의 디스패리티 값과 깊이 사이의 선형 관계들을 포함할 수 있어서, 수렴 깊이 간격 내의 깊이 값을 갖는 픽셀들은 제로의 디스패리티 값에 맵핑되는 한편, 스크린의 앞의 최대 깊이에 있는 오브젝트들은 최소(네거티브) 디스패리티 값에 맵핑되어 스크린의 앞에 있는 것으로 나타나고, 최대 깊이에 있어서 스크린의 뒤에 있는 것으로 나타나는 오브젝트들은 스크린 뒤에 대한 최대(포지티브) 디스패리티 값들에 맵핑된다.

실제 좌표에 대한 하나의 예에서, 예를 들어, 밀리미터로 측정되는 경우, 깊이 범위는 예를 들어 [200, 1000]일 수 있고, 수렴 깊이 거리는 예를 들어, 약 400일 수 있다. 그 다음, 스크린의 앞의 최대 깊이는 200에 대응하고, 스크린의 뒤의 최대 깊이는 1000이고, 수렴 깊이 간격은 예를 들어, [395, 405]일 수 있다. 그러나, 실제 좌표계의 깊이 값들은 이용가능하지 않을 수 있거나, 예를 들어 8 비트 값(0내지 255 범위)일 수 있는 더 작은 동적 범위로 양자화될 수 있다. 몇몇 예들에서, 0 내지 255의 값을 갖는 이러한 양자화된 깊이 값들은, 깊이 맵이 저장 또는 송신되거나 깊이 맵이 추정되는 시나리오들에서 이용될 수 있다. 통상적인 깊이-이미지 기반 렌더링(DIBR) 프로세스는, 디스패리티가 계산되기 전에, 낮은 동적 범위의 양자화된 깊이 맵을 실제 깊이 맵의 맵으로 변환하는 것을 포함할 수 있다. 몇몇 기술들에서, 더 작은 양자화된 깊이 값은 실제 좌표의 더 큰 깊이 값에 대응함을 주목한다.그러나, 본 개시의 기술들은, 반드시 이러한 변환을 수행할 필요가 있는 것은 아니고, 따라서, 실제 좌표의 깊이 범위, 또는 양자화된 깊이 값으로부터 실제 좌표의 깊이 값으로의 변환 함수를 반드시 알 필요는 없을 수 있다. 예시적인 디스패리티 범위 [-dis_n, dis_p]를 고려하면, 양자화된 깊이 범위가 d_min(0일 수 있음)으로부터 d_max(255일 수 있음)까지의 값들을 포함하는 경우, 깊이 값 d_min은 dis_p에 맵핑되고, d_max의 깊이 값(255일 수 있음)은 -dis_n에 맵핑된다. 이 예에서 dis_n은 포지티브임을 주목한다. 수렴 깊이 맵 간격이 [d₀-δ, d₀+δ]인 것으로 가정하면, 이 간격의 깊이 값은 0의 디스패리티에 맵핑된다. 일반적으로, 본 개시에서, 문구 "깊이 값"은 더 낮은 동적 범위 [d_min, d_max]의 값을 지칭한다. δ 값은 공차 값으로 지칭될 수 있고, 각각의 방향에서 동일할 필요는 없다. 즉, d₀은 제 1 공차 값 δ₁로 변형될 수 있고, 잠재적으로 상이한 두번째 값은 공차 값 δ₂로 변형될 수 있어서, [d₀-δ₂, d₀+δ₁]은, 제로의 디스패리티 값에 모두 맵핑될 수 있는 깊이 값들의 범위를 표현할 수 있다.

도 2는 디스패리티 프로세싱 유닛(24)의 컴포넌트들의 예시적인 배열을 도시하는 블록도이다. 디스패리티 프로세싱 유닛(24)은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합으로 구현될 수 있다. 소프트웨어 및/또는 펌웨어로 구현되는 경우, 목적지 디바이스(20)는, 예를 들어, 하나 또는 그 초과의 프로세서들 또는 프로세싱 유닛들과 같은, 소프트웨어를 실행하기 위한 하드웨어를 포함할 수 있다. 디스패리티 프로세싱 유닛(24)의 컴포넌트들 중 임의의 또는 모든 컴포넌트는 기능적으로 통합될 수 있다.

도 2의 예에서, 디스패리티 프로세싱 유닛(24)은, 이미지 소스로부터의 제 1 뷰(50) 및 제 2 뷰(56)를 포함하는 이미지들(50 및 56)의 스테레오 쌍을 수신하기 위한 이미지 입력 인터페이스(62)를 포함한다. 디스패리티 계산 유닛(66)은 제 1 뷰(50) 및 제 2 뷰(56)로 이루어진 스테레오 이미지 쌍의 픽셀들에 대한 디스패리티 값들을 계산할 수 있고, 디스패리티 값들을 디스패리티 맵으로서 저장할 수 있다. 디스패리티 맵은 선택적으로, 디스패리티-깊이 변환 유닛(68)에 의해 깊이 맵으로 변환될 수 있다. 출력 인터페이스(70)는 스테레오 쌍(50 및 56) 중 제 1 뷰(50), 및 디스패리티 맵 또는 깊이 맵을 포함하는 3D 프로세싱 정보(52)를 인코더(26)에 출력하도록 구성될 수 있다.

도 1 및 도 2의 예들은 일반적으로 본 개시의 기술들이 소스 디바이스(20)의 디스패리티 프로세싱 유닛(24)에 의해 구현되는 것을 논의하지만, 디스패리티 프로세싱 유닛(24)과 기능적으로 동등한 디스패리티 프로세싱 유닛이 목적지 디바이스(40), 또는 소스 디바이스(20) 및 목적지 디바이스(40)와는 별개인 제 3의 디바이스에 위치될 수 있다. 도 1의 대안적 구성의 예에서, 소스 디바이스(20)는, 제 1 뷰(50) 및 제 2 뷰(56)를 포함하는 인코딩된 이미지 데이터(54)를 목적지 디바이스(40)에 송신할 수 있고, 디스패리티 프로세싱 유닛(24)과 기능적으로 동등한 디스패리티 프로세싱 유닛이 목적지 디바이스(40)에서 3D 프로세싱 정보(52)를 계산할 수 있다. 목적지 디바이스(40)는 이미지 개선 또는 사용자 선호도들의 조정과 같은 목적들로 3D 프로세싱 정보를 이용할 수 있다.

도 3a 내지 도 3c는 픽셀들의 깊이들에 기초한 포지티브, 제로 및 네거티브 디스패리티 값들의 예들을 도시하는 개념도들이다. 일반적으로, 3차원 효과를 생성하기 위해, 예를 들어 스크린 상에 2개의 이미지들이 나타나고, 스크린의 앞 또는 뒤에 있는 것으로 디스플레이될 오브젝트들의 픽셀들은 각각 포지티브 또는 네거티브 디스패리티 값들을 갖는 한편, 스크린의 깊이에 있는 것으로 디스플레이될 오브젝트들은 제로의 디스패리티 값들을 갖는다. 몇몇 예들에서, 예를 들어, 사용자가 헤드-장착 고글을 착용한 경우, "스크린"의 깊이는 그 대신 공통 깊이 d₀에 대응할 수 있다.

도 3a 내지 도 3c의 예들은, 스크린(82)이 좌측 이미지(84) 및 우측 이미지(86)를 동시에 또는 연속적으로 디스플레이하는 예들을 도시한다. 도 3a는, 픽셀(80A)을 스크린(82)의 뒤(또는 내부)에서 발생하는 것으로 나타내는 예를 도시한다. 도 3a의 예에서, 스크린(82)은 좌측 이미지 픽셀(88A) 및 우측 이미지 픽셀(90A)을 디스플레이하고, 여기서 좌측 이미지 픽셀(88A) 및 우측 이미지 픽셀(90A)은 일반적으로 동일한 오브젝트에 대응하고, 따라서 유사하거나 동일한 픽셀 값들을 가질 수 있다. 몇몇 예들에서, 3차원 시청 경험을 추가로 향상시키기 위해, 예를 들어, 오브젝트를 약간 상이한 각도들에서 시청할 때 발생할 수 있는 휘도 또는 색의 차이들에서의 약간의 변화들을 해결하기 위해, 좌측 이미지 픽셀(88A) 및 우측 이미지 픽셀(90A)에 대한 휘도 및 색차 값들은 약간 상이할 수 있다.

이 예에서, 좌측 이미지 픽셀(88A)의 위치는 스크린(82)에 의해 디스플레이될 때 우측 이미지 픽셀(90A)의 좌측에 발생한다. 즉, 좌측 이미지 픽셀(88A)과 우측 이미지 픽셀(90A) 사이에는 포지티브 디스패리티가 존재한다. 디스패리티 값이 d이고, 좌측 이미지 픽셀(92A)이 좌측 이미지(84)의 수평 위치 x에서 발생하며, 여기서 좌측 이미지 픽셀(92A)이 좌측 이미지 픽셀(88A)에 대응한다고 가정하면, 우측 이미지 픽셀(94A)은 우측 이미지(86)에서 수평 위치 x+d에서 발생하고, 여기서 우측 이미지 픽셀(94A)은 우측 이미지 픽셀(90A)에 대응한다. 이 포지티브 디스패리티는, 사용자의 좌안이 좌측 이미지 픽셀(88A)에 촛점을 맞추고 사용자의 우안이 우측 이미지 픽셀(90A)에 촛점을 맞출 때, 시청자의 눈이 상대적으로 스크린(82) 뒤에 있는 포인트에 수렴하게 하여, 픽셀(80A)이 스크린(82)의 뒤에 나타나는 착각을 생성할 수 있다.

좌측 이미지(84)는 도 1 및 도 2에 도시된 제 1 이미지(50)에 대응할 수 있다. 다른 예들에서, 우측 이미지(86)는 제 1 이미지(50)에 대응할 수 있다. 도 3a의 예에서 포지티브 디스패리티 값을 계산하기 위해, 뷰 합성 유닛(44)은, 좌측 이미지 픽셀(92A)의 깊이 위치를 스크린(82)의 뒤에 나타내는, 좌측 이미지 픽셀(92A)에 대한 깊이 값 및 좌측 이미지(84)를 수신할 수 있다. 뷰 합성 유닛(44)은 좌측 이미지(84)를 카피하여, 우측 이미지(86)를 형성할 수 있고, 우측 이미지 픽셀(94A)의 값을 변경하여, 좌측 이미지 픽셀(92A)의 값을 매칭 또는 모방할 수 있다. 즉, 우측 이미지 픽셀(94A)은 좌측 이미지 픽셀(92A)과 동일하거나 유사한 휘도 및/또는 색차 값들을 가질 수 있다. 따라서, 이미지 디스플레이(42)에 대응할 수 있는 스크린(82)은 좌측 이미지 픽셀(88A) 및 우측 이미지 픽셀(90A)을 실질적으로 동시에 또는 연속적으로 디스플레이하여, 픽셀(80A)이 스크린(82)의 뒤에서 발생하는 효과를 생성할 수 있다.

도 3b는 스크린(82)의 깊이에서 픽셀(80B)을 나타내기 위한 예를 도시한다. 도 3b의 예에서, 스크린(82)은 좌측 이미지 픽셀(88B) 및 우측 이미지 픽셀(90B)을 동일한 위치에서 디스플레이한다. 즉, 이 예에서 좌측 이미지 픽셀(88B)과 우측 이미지 픽셀(90B) 사이에는 제로 디스패리티가 존재한다. 좌측 이미지(84)의 좌측 이미지 픽셀(92B)(이것은 스크린(82)에 의해 디스플레이되는 좌측 이미지 픽셀(88B)에 대응함)이 수평 위치 x에서 발생하는 것으로 가정하면, 우측 이미지 픽셀(94B)(이것은 스크린(82)에 의해 디스플레이되는 우측 이미지 픽셀(90B)에 대응함)은 또한 우측 이미지(86)에서 수평 위치 x에서 발생한다.

뷰 합성 유닛(44)은, 좌측 이미지 픽셀(92B)에 대한 깊이 값이 스크린(82)의 깊이와 동등한 깊이 d₀ 또는 스크린(82)의 깊이로부터 작은 거리 δ 이내에 있다고 결정할 수 있다. 따라서, 뷰 합성 유닛(44)은 좌측 이미지 픽셀(92B)에 제로의 디스패리티 값을 할당할 수 있다. 좌측 이미지(84) 및 디스패리티 값들로부터 우측 이미지(86)를 구성하는 경우, 뷰 합성 유닛(44)은 좌측 이미지 픽셀(92B)과 동일한 우측 이미지 픽셀(94B)의 값을 남길 수 있다.

도 3c는 픽셀(80C)을 스크린(82)의 앞에 나타내기 위한 예를 도시한다. 도 3c의 예에서, 스크린(82)은 좌측 이미지 픽셀(88C)을 우측 이미지 픽셀(90C)의 우측에 디스플레이한다. 즉, 이 예에서, 좌측 이미지 픽셀(88C)과 우측 이미지 픽셀(90C) 사이에는 네거티브 디스패리티가 존재한다. 따라서, 사용자의 눈들은 스크린(82)의 앞에 있는 위치에서 수렴할 수 있고, 이것은, 픽셀(80C)이 스크린(82)의 앞에 나타나는 착각을 생성할 수 있다.

뷰 합성 유닛(44)은, 좌측 이미지 픽셀(92C)에 대한 깊이 값이 스크린(82)의 앞에 있는 깊이에 있다고 결정할 수 있다. 따라서, 뷰 합성 유닛(44)은, 좌측 이미지 픽셀(92C)의 깊이를 네거티브 디스패리티 값 -d에 맵핑하는 함수를 실행할 수 있다. 그 다음, 뷰 합성 유닛(44)은 좌측 이미지(84) 및 네거티브 디스패리티 값에 기초하여 우측 이미지(86)를 구성할 수 있다. 예를 들어, 우측 이미지(86)를 구성하는 경우, 좌측 이미지 픽셀(92C)가 x의 수평 위치를 갖는다고 가정하면, 뷰 합성 유닛(44)은 우측 이미지(86)의 수평 위치 x-d(즉, 우측 이미지 픽셀(94C))에 있는 픽셀의 값을 좌측 이미지 픽셀(92C)의 값으로 변경할 수 있다.

본 개시의 양상들은, 사용자-커스터마이징된 3D 비디오를 생성하기 위해 사용자가 사용자 선호도들을 조정하는 것을 허용하는 것을 포함한다. 사용자 인터페이스를 통해, 사용자들은 사용자 선호도를 나타내는 값들을 입력할 수 있다. 사용자-입력 값에 기초하여, 사용자 선호도 데이터가 생성될 수 있고, 사용자 선호도 데이터는, 효과를 규정하는 파라미터를 변형하기 위해 이용될 수 있다. 사용자가 제어할 수 있는 선호도의 타입의 일례는 팝-아웃 효과의 양을 선택하는 것을 포함한다. 팝-아웃 효과의 양은 총 깊이 범위에 대한 수렴 평면의 위치와 관련된다. 수렴 평면이 최소 깊이에 더 가까울수록 (깊이 값들이 시청자 위치 쪽으로 증가한다고 가정하면), 팝-아웃 효과는 더 많이 인지될 수 있다. 사용자 선호도의 다른 예는 베이스라인을 선택하는 것이다. 베이스라인은 2개의 카메라 중심들 사이의 분리도를 지칭한다(핀홀 카메라 모델을 가정함). 베이스라인은 인간의 눈들의 분리도와 관련되고, 이것은 사람들마다 상이하다(예를 들어, 아이들은 더 작은 분리도를 갖는다).

사용자 선호도의 다른 예는 깊이 범위를 선택하는 것이고, 이것은 디스플레이될 최대 포지티브 및 네거티브 패럴랙스와 관련된다. 사용자 선호도의 다른 예는 깊이 분포 모드를 선택하는 것이다. 사용자에 의해 선택된 최대 깊이 범위가 주어지면, 장면에서 실제 깊이 범위의 조정은 선형으로 또는 상이한 분포, 예를 들어, 산술적, 지수적 또는 절단된 선형 또는 임의의 다른 함수를 따라 맵핑될 수 있다. 예를 들어, 평균 오목(concave) 표면 깊이 분포, 또는 볼록(convex) 분포 또는 임의의 다른 공간적 분포 함수를 생성하기 위해, 깊이 범위 분포뿐만 아니라 공간 깊이 분포가 변형될 수 있다.

사용자 선호도의 다른 예는 선예도를 깊이 불연속적으로 선택하는 것이다. 깊이 맵 또는 디스패리티 맵은, 깊이 불연속들이 사용자 선호도들에 따라 스무딩(smoothing) 또는 샤프닝(sharpening)될 수 있는 방식으로 프로세싱될 수 있다. 사용자 선호도의 다른 예는 우세안을 선택하는 것이다. 사용자의 우세안에 따라, 합성된 이미지는 원래 이미지의 좌측 또는 우측에 렌더링될 수 있다. 원래의 이미지를 우세안에 대해 유지하는 것이 종종 바람직하다.

사용자 선호도들을 조정하는데 이용되는 제어 함수에서의 입도는 값들의 스케일에 기초할 수 있다. 주어진 파라미터에 대한 최소 값부터 최대 값까지 사용자는 원하는 값을 선택할 수 있다. 예를 들어, 사용자는 1 내지 10, 1 내지 20 또는 임의의 다른 원하는 원하는 스케일 사이의 값을 입력할 수 있고, 여기서 이 값은 사용자가 원하는 팝-아웃 효과의 양을 나타내고, 1은 적은 팝 아웃 효과를 나타내고 더 큰 수는 더 많은 팝-아웃 효과를 나타낸다. 사용자-입력 값에 기초하여, 팝-아웃 효과 파라미터가 변형될 수 있다. 예를 들어, 우세안을 특정하는 경우, 사용자는 좌측 또는 우측을 특정할 수 있다. 사용자가 좌측을 특정하면, 우세안 파라미터는 우측으로 설정될 수 있거나, 사용자가 좌측을 특정하면, 우세안 파라미터는 좌측으로 설정될 수 있다. 우세안 파라미터의 설정에 기초하여, 디스패리티 프로세싱 정보와 함께 제 1 뷰 또는 제 2 뷰는 3D 비디오를 렌더링하는데 이용될 것이다.

선택은 또한 모드 선택에 기초할 수 있고, 여기서, 임의의 주어진 수의 조정가능한 파라미터들 및 특정한 값들이 특정한 모드에 할당된다. 예를 들어, 모드 1은 5개의 파라미터들의 그룹에 대한 사용자-입력 값들을 특정할 수 있는 한편, 모드 2는 이 5개의 파라미터들에 대해 상이한 값들을 특정한다. 상이한 모드들이 이전에 입력된 사용자 선호도 데이터에 기초하여 저장될 수 있거나, 파라미터들에 대해 공통으로 원하는 값들 또는 서로 결합되어 이용되는 경우 높은 품질의 비디오를 야기하는 것으로 믿어지는 파라미터들에 대한 값들에 기초하여 미리-프로그래밍될 수 있다. 사용자 조정들은 또한 멀티-뷰 디스플레이에 적용될 수 있다. 이 특정한 경우에서, 각각의 뷰는 별개로 조정될 수 있고, 이것은 다중-사용자 시청 조건들에 특히 이점이 있다. 이러한 경우에서, 각각의 사용자는 자신의 특정한 뷰의 시청 조건들을 제어할 수 있다.

도 4는 본 개시에 따라 사용자 선호도 데이터에 기초하여, 인지된 3D 효과들을 조정하도록 구성되는 예시적인 시스템을 도시한다. 아래에서 더 상세히 설명되는 바와 같이, 도 4에 도시된 다양한 컴포넌트들은 도 1의 소스 디바이스(20) 및 목적지 디바이스(40) 전체에 분산될 수 있거나, 도 1에 도시되지 않은 외부 디바이스들에 있을 수 있다. 도 4에 도시된 예시적인 시스템에서, 디바이스(420)의 컴포넌트들은 도 1의 소스 디바이스(20)와 같은 디바이스에 있을 수 있는 한편, 디바이스(440)의 컴포넌트들은 도 1의 목적지 디바이스(40)와 같은 디바이스에 있을 수 있다. 도 4의 시스템은, 3D 비디오 제어 모듈(422)에 3D 컨텐츠(특히, 스테레오 컨텐츠)를 제공하는 3D 컨텐츠 소스(421)를 포함한다. 이 컨텐츠는 파일로서 로컬로 저장될 수 있거나, 디바이스 외부의 소스로부터 스트리밍될 수 있거나, 또는 디바이스에 임베딩되거나 그렇지 않으면 디바이스에 접속된 멀티-뷰 이미지/비디오 카메라에 의해 제공될 수 있다.

도 4는 사용자들의 입력을 캡쳐 및 프로세싱하도록 구성되는 3D 사용자 인터페이스 모듈(423)을 더 포함한다. 캡쳐는 촉각, 시각 또는 청각 매체와 같은 임의의 다양한 사용자 입력 매체에 기초할 수 있다. 예를 들어, 사용자는 그래픽 사용자 인터페이스(GUI), 하드 키 인터페이스, 드롭 다운 메뉴, 다이얼 또는 다른 인터페이스를 통해 특정한 수치 값을 특정할 수 있다. 사용자에 의해 입력된 수치 값은 사용자 선호도 파라미터에 대한 값 또는 사용자 선호도 파라미터에 대한 변형을 특정할 수 있다. 그래픽 사용자 인터페이스(GUI), 하드 키 인터페이스, 드롭 다운 메뉴, 다이얼 또는 다른 인터페이스를 통해, 사용자는 또한, 사용자 선호도 파라미터가 특정 양만큼 증분 또는 감분되는 것을 특정할 수 있다. 몇몇 예시적인 시스템들에서, 3D 사용자 인터페이스 모듈은, 음성 커맨드들에 응답하는 음성-활성화 인터페이스 또는 움직임을 검출하도록 구성되는 움직임-활성화 인터페이스일 수 있다. 입력 커맨드를 프로세싱한 결과는 사용자 선호도 데이터로서 3D 비디오 제어 모듈(422)에 통신된다. 사용자 선호도 데이터에 기초하여, 3D 비디오 제어 모듈(422)은 시청 세션의 초기화 동안 또는 컨텐츠가 디스플레이되고 있는 동안 3D 시청 선호도들을 조정할 수 있다. 일 구성에서, 3D 비디오 제어 모듈(422)은 3D 사용자 인터페이스 모듈(423)로부터의 사용자 선호도 데이터를 실시간으로 프로세싱할 수 있다.

도 4의 예시적인 시스템은, 무선 채널(454)을 통해 블록(440)의 컴포넌트들과 인터페이싱하도록 구성되는 무선 호스트(424)를 더 포함한다. 무선 호스트(424)는 3D 비디오 제어 모듈(422)로부터 사용자 선호도 데이터에 기초하여 변형된 3D 컨텐츠를 수신하고, WiFi 또는 당업계에 공지된 임의의 다른 전송 프로토콜과 같은 전송 프로토콜에 따라 디바이스(440)의 무선 클라이언트(441)에 그 변형된 3D 컨텐츠를 송신한다. 하나의 특정한 실시예에서, 사용자 선호도 데이터는 또한 변형된 3D 컨텐츠와 함께 송신될 수 있고, 디바이스(440)에서 3D 비디오 제어 모듈에 의해 별도로 프로세싱될 수 있다.

디바이스(440)의 3D 디스플레이(442)는 무선 클라이언트(441)를 통해 3D 컨텐츠를 수신할 수 있다. 무선 클라이언트(441)는 3D 디스플레이(442)에 임베딩될 수 있거나 또는 3D 디스플레이(442)의 외부에 있고 HDMI 또는 디스플레이 포트 인터페이스와 같은 인터페이스를 통해 접속될 수 있다. 하나의 특정한 양상에서, 3D 비디오 제어 모듈(422)의 특정한 기능이 또한 3D 디스플레이(442)에 임베딩될 수 있다.

하나의 예시적인 시스템에서, 디바이스(420)의 기능은 셀룰러 폰, 스마트폰, 노트북 컴퓨터, 태블릿 컴퓨터, 모바일 미디어 플레이어, 또는 통신 채널을 통해 화상 및/또는 비디오 정보를 통신할 수 있는 임의의 무선 디바이스들에 포함될 수 있다. 디바이스(440)의 기능은 3D-가능 텔레비젼 내에 또는 3D-가능 텔레비젼에 접속된 셋탑 박스 내에 포함될 수 있다. 추가적으로, 도 4의 예는 무선 통신 채널로 설명되지만, 몇몇 구성들에서, 통신 채널(454)은 유선 통신 채널일 수 있음을 고려한다.

도 5는 도 4의 3D 비디오 제어 모듈(422)과 같은 3D 비디오 제어 모듈의 더 상세한 버젼을 도시한다. 그러나, 앞서 언급된 바와 같이, 3D 비디오 제어 모듈(522)의 기능의 전부 또는 일부는 소스 디바이스, 목적지 디바이스 또는 제 3의 디바이스 사이에 분산될 수 있다. 3D 비디오 제어 모듈(522)은 3D 비디오 컨텐츠 소스(510)로부터 3D 비디오 컨텐츠를 수신한다. 3D 비디오 컨텐츠는 디바이스 메모리와 같은 로컬 소스로부터 수신될 수 있거나, 외부 비디오 소스와의 무선 또는 유선 접속을 통하는 것과 같이 외부에서 수신될 수 있다. 3D 컨텐츠 소스(510)는 3D 비디오 컨텐츠를 3D 비디오 제어 모듈(522)에 송신하기 전에 3D 비디오 컨텐츠를 인코딩 또는 디코딩하기 위한 비디오 코더(511)를 포함할 수 있다. 예시적인 3D 컨텐츠 소스(510)는, 동일한 장면의 다수의 뷰들을 캡쳐 및 프로세싱하도록 구성되는 멀티-뷰 카메라 프로세싱 블록(512)을 포함한다. 대안적인 구성들에서, 3D 컨텐츠 소스의 컨텐츠는 게이밍과 같은 특정한 애플리케이션들을 위해 컴퓨터로 생성된 것일 수 있다. 일반적으로, 3D 컨텐츠 소스(510)는 도 1의 이미지 소스(22)와 관련하여 앞서 논의된 이미지 데이터의 동일한 타입들 전부를 제공할 수 있다.

3D 비디오 제어 모듈(522)은 수신된 3D 컨텐츠에 기초하여 합성된 3D 이미지를 렌더링하도록 구성되는 뷰 합성기(530)를 포함한다. 뷰 합성기(530)는, 디스패리티 맵을 생성하기 위해 스테레오 셋업으로 획득된 이미지들의 임의의 쌍 사이에서 디스패리티를 추정하도록 구성되는 디스패리티 추정 모듈(531)을 포함한다. 디스패리티 추정 모듈(531)은 도 1 및 도 2와 관련하여 앞서 설명된 디스패리티 프로세싱 유닛(24)과 기능적으로 유사할 수 있다. 뷰 합성기(530)는, 3D 사용자 인터페이스 모듈(523)로부터 수신된 사용자 선호도 데이터에 따라 디스패리티 추정 모듈(531)에 의해 생성된 디스패리티 맵을 변형하도록 구성되는 디스패리티 포스트-프로세싱 모듈(532)을 더 포함한다. 뷰 합성기(530)는, 디스패리티 정보 및 사용자 선호도들에 기초하여 3D 이미지를 렌더링하도록 구성되는 렌더링 엔진(533)을 더 포함한다.

3D 사용자 인터페이스 모듈(523)은 3D 비디오 제어 모듈(522)에 사용자 선호도 데이터를 전송할 수 있다. 일례에서, 사용자 선호도 데이터는, 3D 컨텐츠의 렌더링 시에 좌측 및 우측 이미지 중 어느 이미지를 이용할지를 특정한다. 예를 들어, 3D 사용자 선호도 데이터가 좌측 이미지를 특정하면, 렌더링 엔진(533)은 원래의 좌측 이미지 및 디스패리티 맵에 기초하여 3D 컨텐츠를 렌더링할 수 있는 한편, 3D 사용자 선호도 데이터가 우측 이미지를 특정하면, 렌더링 엔진(533)은 원래의 우측 이미지 및 디스패리티 맵에 기초하여 3D 컨텐츠를 렌더링할 수 있다. 특정한 시청자들은 특정한 타입들의 위치 정보를 프로세싱하기 위해 자신들의 우안에 의존하는 경향이 있는 한편, 다른 사람들은 자신들의 좌안에 의존하는 경향이 있다. 특정한 사람이 어느 눈에 기초하여 대부분을 의존하는지 여부, 즉, 어느 눈이 이들의 우세안인지 여부는 이들이 3D 컨텐츠를 시각화하는 방법에 영향을 미칠 수 있다. 따라서, 본 개시의 양상들은, 사용자들이 렌더링을 위해 좌측 및 우측 이미지들 중 어느 이미지를 이용할지를 특정할 수 있게 하여, 사용자가, 좌측 또는 우측 중 어느 이미지가 이들이 선호하는 3D 컨텐츠를 생성할지를 결정할 수 있게 하는 시스템을 포함한다.

다른 예에서, 3D 사용자 인터페이스 모듈(523)은 사용자 선호도 데이터를, 새로운 깊이 범위를 포함하거나 현재의 깊이 범위에 대한 변형을 포함하는 3D 비디오 제어 모듈(522)에 전송할 수 있다. 깊이 범위는, 이미지 데이터가 렌더링될 수 있는 스크린의 앞의 최대 깊이 및 스크린의 뒤의 최대 깊이를 특정한다. 제 1 예에서, 밀리미터로 측정되는 현재의 깊이 범위는 스크린의 앞에서 200 및 스크린의 뒤에서 1000의 최대 깊이를 갖는 1200일 수 있거나, 제 2 예에서, 현재의 깊이 범위는 스크린의 앞에서 600 및 스크린의 뒤에서 600의 최대 깊이를 갖는 1200일 수 있다. 3D 사용자 인터페이스 모듈(523)로부터 깊이 범위에 대한 변형을 포함하는 사용자 선호도 데이터를 수신하는 것에 응답하여, 3D 비디오 제어 모듈(522)은 깊이 범위를 예를 들어 10%의 양만큼 감소시킬 수 있다. 사용자 선호도 데이터가 스크린의 앞 또는 스크린의 뒤에서 더 큰 감소에 대한 선호도를 특정하지 않으면, 깊이 범위를 감소시키기 위해, 3D 비디오 제어 모듈(522)은 스크린의 앞에서 10% 및 스크린의 뒤에서 10%만큼 깊이 범위를 감소시킬 수 있어서, 제 1 예의 경우, 새로운 전체 깊이 범위는 스크린의 앞에서 140 및 스크린의 뒤에서 940이 할당된 1080일 것이다. 제 2 예의 경우, 새로운 전체 깊이 범위는 또한 1080일 것이지만, 스크린의 앞에서 540 및 스크린의 뒤에서 540이 할당된다.

몇몇 구현들에서, 사용자는, 스크린의 앞에 할당된 깊이 범위의 부분에만 또는 스크린의 뒤에 할당된 부분에만 감소 또는 증가를 특정할 수 있다. 예를 들어, 사용자 선호도 데이터가 스크린의 앞에 할당된 깊이 범위의 부분에 10%의 감소를 특정하면, 제 1 예에서, 새로운 전체 깊이 범위는 스크린의 앞에서 180 및 스크린의 뒤에서 1000이 할당된 1180으로 조정될 것이고, 또는 제 2 예에서는 스크린의 앞에서 540 및 스크린의 뒤에서 600이 할당된 1140으로 조정될 것이다. 스크린의 앞에 할당된 깊이 범위의 부분만을 변형하는 것은 예를 들어, 사용자가 경험하는 팝-아웃 효과의 양을 조정하는 하나의 방식일 수 있다. 추후에 설명되는 바와 같이, 본 개시는 또한 사용자가 경험하는 팝-아웃 효과의 양을 조정하기 위한 다른 기술들을 고려한다.

3D 컨텐츠의 깊이 범위를 변형하기 위해, 디스패리티 추정 모듈(531)은 깊이 맵의 각각의 깊이 값을 새로운 깊이 값에 선형으로 영사하여 변형된 깊이 맵을 생성할 수 있다. 새로운 깊이 맵에 기초하여, 새로운 디스패리티 맵이 생성될 수 있고, 새로운 디스패리티 맵에 기초하여, 렌더링 엔진(533)은 사용자 선호도들에 따라 3D 컨텐츠를 생성할 수 있다. 깊이 범위를 증가 또는 감소시키는 것은 시청자가 렌더링된 3D를 인지하는 방법을 개선할 수 있고, 또한 예를 들어, 감소된 안압(eye strain)에 기인하여 시청자의 편안함을 개선할 수 있다.

다른 예에서, 3D 사용자 인터페이스 모듈(523)은 사용자 선호도 데이터를 3D 비디오 제어 모듈(522)에 전송하여 깊이 분포 모드를 변경할 수 있다. 예를 들어, 3D 사용자 인터페이스 모듈(523)은, 오목 또는 볼록 효과를 생성하기 위해 현재의 깊이 범위에 대해 비균일한 새로운 깊이 범위 또는 비균일한 변형을 포함하는 사용자 선호도 데이터를 전송할 수 있다. 예를 들어, 이미지의 중심으로부터 더 멀리 떨어진 픽셀들에 대해 깊이 범위들을 감소시키는 것은 오목 효과를 생성할 수 있는 한편, 중심으로부터 더 멀리 떨어진 픽셀들에 대해 깊이 범위들을 증가시키는 것은 볼록 효과를 생성할 수 있다. 볼록 또는 오목 효과를 생성하기 위해, 깊이 범위들은 앞서 설명된 방식으로 변경되지만, 각각의 픽셀에 대한 깊이 범위는 상이할 수 있다. 예를 들어, 볼록 효과를 생성하기 위해, 중심 픽셀들은 1200의 깊이 범위를 가질 수 있는 한편, 경계 픽셀들은 1000의 깊이 범위를 갖는다. 중심과 경계 사이의 픽셀들은 이미지의 중심으로부터의 거리에 따라 1000과 1200 사이의 깊이 범위를 가질 수 있다. 반대로, 오목 효과를 생성하기 위해, 이미지의 줌심에 있는 픽셀들은 1000의 깊이를 가질 수 있는 한편, 이미지의 경계에 있는 픽셀들은 1200의 깊이를 가질 수 있다.

다른 예에서, 3D 사용자 인터페이스 모듈(523)은, 새로운 베이스라인 또는 팝-아웃 효과의 새로운 양, 또는 현재의 베이스라인 또는 팝-아웃 효과의 양에 대한 변형을 포함하는 사용자 선호도 데이터를 3D 비디오 제어 모듈(522)에 전송할 수 있다. 사용자 선호도 데이터를 수신할 때, 디스패리티 포스트 프로세싱 모듈(532)은 하기 수식에 따라 디스패리티 맵을 변형할 수 있고:

(2)

여기서, d_synth는 픽셀에 대한 변형된 디스패리티 값이고; b_d는 베이스라인, 즉, 2개의 카메라 중심들 사이의 분리도(픽셀 단위)이고; Z_c는 카메라로부터 수렴 평면까지의 거리이고; Z는 카메라로부터의 픽셀의 깊이이고; f는 카메라의 촛점 길이이다. 팝-아웃 효과의 양이 증가됨을 나타내는 사용자 선호도 데이터를 수신하는 것에 응답하여, 디스패리티 포스트 프로세싱 모듈(532)은 Z_c의 값을 낮출 수 있고, 새로운 Z_c 값에 기초하여 각각의 픽셀에 대한 새로운 디스패리티 값을 결정할 수 있다. 팝-아웃 효과의 양이 감소됨을 나타내는 사용자 선호도 데이터를 수신하는 것에 응답하여, 디스패리티 포스트 프로세싱 모듈(532)은 Z_c의 값을 증가시킬 수 있고, 새로운 Z_c 값에 기초하여 각각의 픽셀에 대한 새로운 디스패리티 값을 결정할 수 있다. 변형된 디스패리티 맵에 기초하여, 렌더링 엔진(533)은 사용자의 선호도들에 따라 3D 컨텐츠를 렌더링할 수 있다. 팝-아웃 효과의 양을 증가 또는 감소시키는 것은, 시청자가 렌더링된 3D를 인지하는 방법을 개선할 수 있고, 또한 예를 들어, 감소된 안압에 기인하여 시청자의 편안함을 개선할 수 있다.

수식 1에 기초하여, 디스패리티 포스트 프로세싱 유닛(532)은 또한 베이스라인을 조정할 수 있다. 베이스라인이 감소됨을 나타내는 사용자 선호도 데이터를 수신하는 것에 응답하여, 디스패리티 포스트 프로세싱 모듈(532)은 b_d의 값을 낮출 수 있고, 새로운 b_d 값에 기초하여 각각의 픽셀에 대한 새로운 디스패리티 값을 결정할 수 있다. 베이스라인이 증가됨을 나타내는 사용자 선호도 데이터를 수신하는 것에 응답하여, 디스패리티 포스트 프로세싱 모듈(532)은 b_d의 값을 증가시킬 수 있고, 새로운 b_d 값에 기초하여 각각의 픽셀에 대한 새로운 디스패리티 값을 결정할 수 있다. 변형된 디스패리티 맵에 기초하여, 렌더링 엔진(533)은 사용자의 선호도들에 따라 3D 컨텐츠를 렌더링할 수 있다. 상이한 시청자들은 이들의 눈들 사이의 상이한 양의 분리도를 갖고, 따라서, 상이한 시청자들은 렌더링된 3D 컨텐츠에 대해 상이한 베이스라인을 선호할 수 있다.

3D 비디오 제어 모듈(522)은, 다른 사용자 선호도 데이터에 따라 또는 무선 채널 능력들에 따라, 합성된 이미지를 변형하도록 구성되는 3D 포스트-프로세싱 블록(541)을 더 포함한다. 다른 사용자 선호도 데이터의 예로서, 3D 사용자 인터페이스 모듈(523)은, 3D 컨텐츠의 깊이 값들에 기초하여, 3D 컨텐츠의 다양한 부분들을 샤프닝하거나 스무딩하는 사용자 선호도 데이터를 3D 비디오 제어 모듈(522)에 전송할 수 있다. 3D 포스트-프로세싱 블록(541)은, 예를 들어, 이미지에서 오브젝트 전이들을 식별하고, 오브젝트 전이들에 대응하는 것으로 식별되는 픽셀들에서, 크로마 및 루마 값들과 같은 픽셀 값들을 변형하는 하이 패스 필터링과 같은 엣지 검출 기술을 이용함으로써 이미지 또는 이미지의 부분들을 샤프닝하거나 스무딩할 수 있다. 예를 들어, 특정한 오브젝트 전이들을 강조하기 위해, 식별된 오브젝트 전이에서 픽셀 값들 사이의 차는 증가될(즉, 샤프닝될) 수 있거나 감소될(즉, 스무딩될) 수 있다. 몇몇 구현에서, 3D 포스트-프로세싱 블록(541)은 깊이-기반 샤프닝 또는 깊이-기반 스무딩을 수행할 수 있고, 여기서 픽셀 값에 대한 변형은 픽셀의 깊이 값의 함수일 수 있다. 깊이-기반 샤프닝 및 깊이-기반 스무딩은, 예를 들어, 스크린 앞의 이미지들만을 샤프닝하거나 스크린 뒤의 이미지들만을 스무딩하기 위해, 사용자에 의해 이용될 수 있다. 깊이-기반 샤프닝 및 깊이-기반 스무딩은, 시청자가 샤프닝을 통해 특정한 깊이들에서 오브젝트들을 강조할 수 있게 하거나, 스무딩을 통해 특정한 깊이들에서 오브젝트들을 경시할 수 있게 함으로써, 시청자 경험을 개선할 수 있다.

예를 들어, 합성된 이미지는 무선 송신을 위해 압축되는 경우 더 낮은 비트 레이트를 요구하기 위해 스무딩(로우 패스 필터링)되거나 또는 해상도에서 감소될 수 있다. 이것은, 특히 이미지들 중 하나가 비-우세안으로 시각화된 이미지인 경우, 그 이미지에서의 에러들에 대해 HVS가 용인한다는 사실에 기초한다. 3D 비디오 제어 모듈(522)은, 모든 뷰들의 정보를 포함하는 결합된 이미지를 생성하기 위해 둘 또는 그 초과의 뷰들을 인코딩하도록 구성되는 3D 비디오 인코더(542)를 더 포함한다. 3D 비디오 인코더(542)는, 예를 들어, 모든 뷰들의 정보를 포함하는 결합된 이미지를 위해 H.264/AVC-Amendment1: Multiview Video Coding(MVC) 또는 H.264/AVC에 기초하여, 결합된 이미지를 인코딩할 수 있다. 결합된 이미지는 원래의 뷰들 및 포스트-프로세싱된 합성된 뷰들의 사이드-바이-사이드(side-by-side) 구성 또는 임의의 인터리빙된 구성을 이용하여 획득될 수 있다. 결합된 이미지는 모든 뷰들에 대한 원래의 해상도를 유지하거나 임의의 수의 합성된 뷰들에 대한 해상도를 감소시킬 수 있다.

도 6은 본 개시에 따라 사용자 선호도 데이터에 기초하여 인지된 3D 효과들을 조정하도록 구성되는 예시적인 시스템을 도시한다. 도 6의 시스템은 도 4의 시스템과 유사하지만, 3D 비디오 제어 모듈(422)은 전체적으로 디바이스(420) 내에 있는 것으로 도 4에 도시되는 한편, 3D 비디오 제어 모듈(422)과 동등한 기능이 디바이스(620)의 3D 비디오 제어 모듈(622A)과 디바이스(640)의 3D 비디오 제어 모듈(622B) 사이에 분산된다. 도 6에 도시된 예시적인 시스템에서, 디바이스(620)의 컴포넌트들은 도 1의 소스 디바이스(20)와 같은 디바이스에 있을 수 있는 한편, 디바이스(640)의 컴포넌트들은 도 1의 목적지 디바이스(40)와 같은 디바이스에 있을 수 있다. 도 6의 시스템은, 3D 비디오 제어 모듈(622A)에 3D 컨텐츠(특히, 스테레오 컨텐츠)를 제공하는 3D 컨텐츠 소스(621)를 포함한다. 이 컨텐츠는 파일로서 로컬로 저장될 수 있거나, 디바이스 외부의 소스로부터 스트리밍될 수 있거나, 또는 디바이스에 임베딩된 멀티-뷰 이미지/비디오 카메라에 의해 제공될 수 있다.

도 6은 사용자들의 입력을 캡쳐 및 프로세싱하도록 구성되는 3D 사용자 인터페이스 모듈(623)을 더 포함한다. 캡쳐는 임의의 촉각, 시각 또는 청각 수단에 기초할 수 있다. 입력 커맨드를 프로세싱한 결과는 사용자 선호도 데이터로서 3D 비디오 제어 모듈(622A)에 통신된다. 사용자 선호도 데이터에 기초하여, 3D 비디오 제어 모듈(622A)은 시청 세션의 초기화 동안 또는 컨텐츠가 디스플레이되고 있는 동안 3D 시청 선호도들을 조정할 수 있다. 3D 비디오 제어 모듈(622A)은 3D 사용자 인터페이스 모듈(623)로부터의 사용자 선호도 데이터를 실시간으로 프로세싱할 수 있다.

도 6의 예시적인 시스템은, 무선 채널(654)을 통해 디바이스(640)의 컴포넌트들과 인터페이싱하도록 구성되는 무선 호스트(624)를 더 포함한다. 무선 호스트(624)는 3D 비디오 제어 모듈(622A)로부터 3D 컨텐츠를 수신하고, WiFi 또는 다른 전송 프로토콜과 같은 전송 프로토콜에 따라 디바이스(640)의 무선 클라이언트(641)에 3D 컨텐츠를 송신한다. 하나의 특정한 실시예에서, 사용자 선호도 데이터는 또한 3D 컨텐츠와 함께 송신될 수 있고, 디바이스(640)에서 3D 비디오 제어 모듈에 의해 프로세싱될 수 있다.

디바이스(640)의 3D 디스플레이(642)는 무선 클라이언트(641)를 통해 3D 컨텐츠를 수신할 수 있다. 무선 클라이언트(641)는 3D 디스플레이(642)에 임베딩될 수 있거나 또는 3D 디스플레이(642)의 외부에 있고 HDMI 또는 디스플레이 포트 인터페이스와 같은 인터페이스를 통해 접속될 수 있다. 하나의 특정한 양상에서, 3D 비디오 제어 모듈(622B)의 특정한 기능이 또한 3D 디스플레이(642)에 임베딩될 수 있다.

3D 비디오 제어 모듈(622A&B)의 기능이 디바이스(620 및 640) 사이에 분리되는 도 6의 예에서, 사용자 인터페이스 모듈(623)로부터 수신된 사용자 선호도 데이터는 디바이스(620)를 포함하는 디바이스로부터 디바이스(640)를 포함하는 디바이스로 송신될 수 있다. 이러한 구성에서, 디바이스(620)를 포함하는 디바이스는 사용자 선호도 데이터에 기초하여 디스플레이의 3D 효과들의 조정을 위한 원격 제어부로서 동작한다. 송신 채널은 블루투스 또는 Wi-Fi와 같은 이용가능한 무선 라디오들 중 임의의 것일 수 있다. 사용자 선호도 데이터의 전송은 3D 컨텐츠에 이용되는 송신 채널에 의한 대역내일 수 있거나 별개의 대역 상에 있을 수 있다. 3D 사용자 선호도 데이터는, 3D 컨텐츠가 디스플레이로 스트리밍되기 전에 또는 스트리밍되고 있는 동안에 셋업될 수 있다.

도 6의 예에서, 3D 비디오 제어 모듈(622A)은 도 5를 참조하여 설명된 디스패리티 추정 모듈(531) 및 3D 비디오 인코더(542)와 유사한 디스패리티 추정 모듈 및 3D 비디오 인코더를 포함할 수 있다. 3D 비디오 제어 모듈(622A)의 비디오 인코더는 공지된 코딩 표준에 따라 예를 들어, 원래의 이미지 및 디스패리티 맵을 인코딩 및 송신할 수 있다. 3D 비디오 제어 모듈(622A)의 비디오 인코더는 또한 사용자 인터페이스 모듈(623)로부터 수신된 사용자-선호도 데이터를 인코딩 및 송신할 수 있다.

도 6의 예에서, 3D 비디오 제어 모듈(622B)은, 도 5를 참조하여 설명된 디스패리티 포스트 프로세싱 모듈(532), 렌더링 엔진(533) 및 3D 포스트 프로세싱 블록(541)과 유사한 디스패리티 포스트 프로세싱 모듈, 렌더링 엔진 및 3D 포스트 프로세싱 블록을 포함할 수 있다. 원래의 이미지, 디스패리티 맵 및 사용자 선호도 데이터에 기초하여, 디스패리티 포스트 프로세싱 모듈, 렌더링 엔진 및 3D 포스트 프로세싱 블록은 도 1, 도 2 및 도 5와 관련하여 앞서 설명된 방식과 동일한 방식으로 3D 이미지들을 생성할 수 있다. 도 5와 관련하여 앞서 설명된 사용자 선호도 데이터 및 사용자 선호도 데이터에 기초한 비디오 렌더링에 대한 조정들은 또한 도 6의 시스템에 의해 수행될 수 있다. 예를 들어, 도 5의 3D 비디오 제어 모듈(522)과 관련하여 앞서 논의된 우세안 선택, 깊이 범위, 깊이 분포 모드, 베이스라인, 팝-아웃 효과의 양, 선예도에 대한 변형들은 또한 도 6의 3D 비디오 제어 모듈(622B)에 의해 수행될 수 있다.

하나의 예시적인 시스템에서, 디바이스(620)의 기능은 셀룰러 폰, 스마트폰, 노트북 컴퓨터, 태블릿 컴퓨터, 또는 통신 채널을 통해 화상 및/또는 비디오 정보를 통신할 수 있는 임의의 무선 디바이스들에 포함될 수 있다. 디바이스(640)의 기능은 3D-가능 텔레비젼 내에 또는 3D-가능 텔레비젼에 접속된 셋탑 박스 내에 포함될 수 있다. 추가적으로, 도 6의 예는 무선 통신 채널로 설명되지만, 통신 채널(654)에 대해 유선 통신 채널이 또한 이용될 수 있음을 고려한다.

일례에서, RTSP 네트워크 제어 프로토콜을 이용하면 3D 사용자 선호도 데이터는, 임의의 시간에 업데이트될 수 있는 SETUP/SET-PARAMETER 방법에 의한 요청의 일부일 수 있다. 다른 예에서, SOAP(Simple Access Object Protocol) 및 HTTP 애플리케이션 프로토콜을 이용하면, 3D 사용자 선호도들은, 디바이스 디스크립션에 설명된 서비스들의 아규먼트를 업데이트하는 동작 커맨드 수단에 의해 업데이트될 수 있고, 여기서 디바이스는 3D 비디오 제어 모듈(622B)의 기능들을 갖는 3D 디스플레이이다.

도 7은 본 개시의 양상들을 구현하는 방법의 흐름도를 도시한다. 방법은 도 1 내지 도 6을 참조하여 설명될 것이다. 3d 비디오 제어 모듈들(422, 522 또는 622A)과 같은 3d 비디오 제어 모듈에서, 3D 이미지 컨텐츠의 프리젠테이션을 위해 사용자 선호도 데이터가 수신된다(710). 디스패리티 추정 모듈(531) 또는 디스패리티 프로세싱 유닛(24)과 같은 디스패리티 추정 모듈에서, 3D 이미지 컨텐츠와 연관된 디스패리티 값들에 기초하여 디스패리티 맵이 생성, 저장 및 업데이트된다(720). 디스패리티 포스트 프로세싱 모듈(532)과 같은 디스패리티 포스트 프로세싱 모듈이 사용자 선호도 데이터에 기초하여 디스패리티 맵을 변형한다(730). 3D 렌더링 엔진(533)과 같은 렌더링 엔진이 변형된 디스패리티 맵에 기초하여 3D 비디오를 생성한다(740).

도 8은 본 개시에 따라 사용자 선호도 데이터에 기초하여, 인지된 3D 효과들을 조정하도록 구성되는 예시적인 시스템을 도시한다. 도 8의 시스템은, 3D 비디오 제어 모듈(822)에 3D 컨텐츠(특히, 스테레오 컨텐츠)를 제공하는 3D 컨텐츠 소스(810)를 포함한다. 이 3D 컨텐츠는 파일로서 로컬로 저장될 수 있거나, 디바이스 외부의 소스로부터 스트리밍될 수 있거나, 또는 디바이스에 임베딩된 멀티-뷰 이미지/비디오 카메라에 의해 제공될 수 있다. 로컬로 저장된 파일들 또는 외부 소스로부터 스트리밍된 비디오의 경우, 3D 컨텐츠 소스(810)는, 3D 컨텐츠가 3D 비디오 제어 모듈(822)에 송신되기 전에 3D 컨텐츠를 디코딩하기 위한 비디오 디코더(811)를 포함할 수 있다. 임베딩된 3D 카메라로부터 획득된 멀티-뷰 이미지/비디오 데이터의 경우, 3D 컨텐츠 소스(810)는, 획득된 3D 컨텐츠가 3D 비디오 제어 모듈(822)에 송신되기 전에, 획득된 3D 컨텐츠를 프로세싱하기 위한 스테레오 카메라 프로세싱 블록(812)을 포함할 수 있다. 비디오 디코더(811)로부터의 컨텐츠이든 스테레오 카메라 프로세싱 블록(812)으로부터의 컨텐츠이든, 3D 비디오 제어 모듈(822)에 송신되는 3D 컨텐츠는 일반적으로 이미지들의 스테레오 쌍(뷰 1 및 뷰 2)의 형태일 것이다. 3D 비디오 제어 모듈(822)은 이미지들의 스테레오 쌍에 기초하여 합성된 3D 이미지를 생성한다.

3D 비디오 제어 모듈(822)은, 수신된 3D 컨텐츠(뷰 1 및 뷰 2)에 기초하여, 합성된 3D 이미지를 렌더링하도록 구성되는 뷰 합성기(830)를 포함한다. 뷰 합성기(830)는, 뷰 1 및 뷰 2에 기초하여 디스패리티 맵을 결정하도록 구성되는 디스패리티 추정 모듈(831)을 포함한다. 디스패리티 추정 모듈(831)은 도 1 및 도 2와 관련하여 앞서 설명된 디스패리티 프로세싱 유닛(24)과 기능적으로 유사할 수 있다. 뷰 합성기(830)는, 뷰 1 및 뷰 2 중 하나 또는 둘 모두 및 디스패리티 정보로부터 획득된 깊이 정보에 기초하여, 합성된 3D 이미지를 렌더링하도록 구성되는 깊이 이미지 기반 렌더링(DIBR) 엔진(833)을 더 포함한다. 뷰 합성기(830)는 DIBR(835)에 의해 생성된 3D 이미지를 개선하도록 구성되는 홀 필링 모듈(836)을 더 포함한다. 홀 필링 모듈(836)에 의해 수행되는 개선들은 합성된 3D 이미지들에서의 아티팩트들을 검출 및 정정할 수 있다. 아티팩트들은 예를 들어, 디스패리티 추정 모듈(831)에 의해 수행된 디스패리티 추정에서의 에러들 또는 DIBR(836)에 의해 수행된 렌더링에서의 에러들의 결과일 수 있다.

3D 비디오 제어 모듈(822)은, 합성된 3D 이미지를 변형하도록 구성되는 3D 포스트-프로세싱 블록(841)을 더 포함한다. 예를 들어, 합성된 이미지는, 무선 송신을 위해 압축되는 경우 더 낮은 비트 레이트를 요구하기 위해 스무딩(로우 패스 필터링)되거나 또는 해상도에서 감소될 수 있다. 앞서 더 상세히 설명된 바와 같이, 3D 비디오 제어 모듈(822)은 사용자 선호도 데이터에 기초하여, 수신된 3D 컨텐츠 및/또는 합성된 3D 이미지를 변형하도록 구성될 수 있다. 도 5와 관련하여 앞서 설명된 사용자 선호도 데이터 및 사용자 선호도 데이터에 기초한 비디오 렌더링에 대한 조정들은 또한 도 8의 시스템에 의해 수행될 수 있다. 예를 들어, 도 5의 3D 비디오 제어 모듈(522)과 관련하여 앞서 논의된 우세안 선택, 깊이 범위, 깊이 분포 모드, 베이스라인, 팝-아웃 효과의 양, 선예도에 대한 변형들은 또한 도 8의 3D 비디오 제어 모듈(822)에 의해 수행될 수 있다.

합성된 3D 이미지는 임베딩된 3D 디스플레이(842A) 상에 디스플레이될 수 있거나, 또는 대안적으로, 합성된 3D 이미지는 외부 3D 디스플레이(842B)로의 송신을 위해 스테레오 비디오 인코더(850)에 의해 인코딩될 수 있다. 스테레오 비디오 인코더(850)는 다수의 인코딩 모듈들을 포함할 수 있다. 예를 들어, 제 1 인코더 모듈(851)은 외부 3D 디스플레이 디바이스(842B)로의 송신을 위해 깊이 정보와 함께 뷰 1 및 뷰 2 모두를 인코딩하거나, 뷰 1 또는 뷰 2 중 오직 하나와 디스패리티 정보를 인코딩하도록 구성될 수 있다. 제 2 인코더 모듈은 예를 들어, 오직 뷰 1 및 뷰 2, 또는 뷰 1의 원래의 버젼 및 뷰 2의 변형된 버젼을 인코딩하도록 구성될 수 있다. 제 2 인코더 모듈(852)은 대안적으로, 뷰 합성기(830)에 의해 출력된 합성된 3D 이미지 또는 3D 포스트 프로세싱 블록(841)에 의해 출력된 합성된 3D 이미지를 인코딩할 수 있다.

3D 비디오 제어 모듈(822)은, 다른 사용자 선호도들 또는 무선 채널 능력들에 따라, 합성된 이미지를 변형하도록 구성되는 3D 포스트-프로세싱 블록(841)을 더 포함한다. 예를 들어, 합성된 이미지는 무선 송신을 위해 압축되는 경우 더 낮은 비트 레이트를 요구하기 위해 스무딩(로우 패스 필터링)되거나 또는 해상도에서 감소될 수 있다. 3D 비디오 제어 모듈(522)은, 모든 뷰들에 대한 정보를 포함하는 결합된 이미지를 생성하기 위해 둘 또는 그 초과의 뷰들을 인코딩하도록 구성되는 3D 비디오 인코더(542)를 더 포함한다. 3D 비디오 인코더(542)는, 예를 들어, 모든 뷰들의 정보를 포함하는 결합된 이미지를 위해 H.264/AVC-Amendment1: Multiview Video Coding(MVC) 또는 H.264/AVC에 기초하여 결합된 이미지를 인코딩할 수 있다. 결합된 이미지는 원래의 뷰들 및 포스트-프로세싱된 합성된 뷰들의 사이드-바이-사이드 구성 또는 임의의 인터리빙된 구성을 이용하여 획득될 수 있다. 결합된 이미지는 모든 뷰들에 대한 원래의 해상도를 유지하거나 임의의 수의 합성된 뷰들에 대한 해상도를 감소시킬 수 있다. 도 1, 2, 4, 5, 6 및 8에서 설명된 모듈들, 유닛들, 블록들 및 다른 컴포넌트들은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합으로 구현될 수 있다.

본 명세서에서 설명되는 기술들은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합으로 구현될 수 있다. 예를 들어, 기술들의 다양한 양상들은 하나 또는 그 초과의 마이크로프로세서들, DSP들, ASIC들, FPGA들, 또는 임의의 다른 동등한 통합된 또는 이산 로직 회로 뿐만 아니라, 인코더들, 랩탑, 데스크탑 또는 핸드헬드 컴퓨터들, 무선 모바일 핸드셋들, 셋탑 박스들 또는 다른 디바이스들에 구현되는 이러한 컴포넌트들의 임의의 조합들 내에서 구현될 수 있다. 용어 "프로세서" 또는 "프로세싱 회로"는 일반적으로, 독립적으로 또는 다른 로직 회로와 결합된 전술한 로직 회로 중 임의의 회로 또는 임의의 다른 균등한 회로를 지칭할 수 있다.

모듈들 또는 컴포넌트들로 설명된 임의의 특징들은 통합된 로직 디바이스에서 함께 또는 이산적이지만 협력가능한 로직 디바이스들로서 별개로 구현될 수 있다. 소프트웨어로 구현되는 경우, 기술들은, 실행되는 경우 본 개시에 설명된 방법들 중 하나 또는 그 초과를 수행하는 명령들을 포함하는 프로세싱 코드를 포함하는 비일시적 컴퓨터 판독가능 데이터 저장 매체에 의해 적어도 부분적으로 실현될 수 있다. 비일시적 컴퓨터 판독가능 데이터 저장 매체는 컴퓨터 프로그램 물건의 일부를 형성할 수 있다. 비일시적 컴퓨터 판독가능 매체는, 동기식 동적 랜덤 액세스 메모리(SDRAM)과 같은 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 비휘발성 랜덤 액세스 메모리(NVRAM), 전기적으로 소거가능한 프로그래머블 판독 전용 메모리(EEPROM), FLASH 메모리, 자기적 또는 광학적 데이터 저장 매체 등을 포함할 수 있다. 기술들은 추가적으로 또는 대안적으로, 명령들 또는 데이터 구조들의 형태로 컴퓨터에 의해 액세스, 판독 및/또는 실행될 수 있는 프로그램 코드를 반송 또는 통신하는 비일시적 컴퓨터 판독가능 통신 매체에 의해 적어도 부분적으로 실현될 수 있다. 용어 "비일시적"은, 저장 매체가 반송파 또는 전파되는 신호로 구현되지 않음을 나타낼 수 있다. 그러나, 용어 "비일시적"은 저장 매체가 이동불가능한 것을 의미하는 것으로 해석되어서는 안된다. 일례로, 저장 매체는 디바이스로부터 제거되어 다른 디바이스로 이동될 수 있다. 다른 예로, 저장 매체는 디바이스에 삽입될 수 있다. 특정한 예들에서, 비일시적 저장 매체는, 시간에 걸쳐 변하는 데이터를 (예를 들어, RAM에) 저장할 수 있다.

프로그램 코드는 하나 또는 그 초과의 디지털 신호 프로세서들(DSP들), 범용 마이크로프로세서들, 주문형 집적 회로들(ASIC들), 필드 프로그래머블 로직 어레이들(FPGA들), 또는 다른 균등한 통합된 또는 이산 로직 회로와 같은 하나 또는 그 초과의 프로세서들에 의해 실행될 수 있다. 따라서, 본 명세서에서 사용되는 용어 "프로세서는 전술한 구조 중 임의의 구조 또는 본 명세서에서 설명되는 기술들의 구현에 적합한 임의의 다른 구조를 지칭할 수 있다. 또한, 몇몇 양상들에서, 본 명세서에서 설명되는 기능은 인코딩 및 디코딩을 위해 구성된 전용 소프트웨어 모듈들 또는 하드웨어 모듈들 내에 제공되거나, 결합된 비디오 인코더-디코더(CODEC)에 통합될 수 있다.

Claims

3D 이미지 컨텐츠의 프리젠테이션을 위해 사용자 선호도 데이터를 수신하도록 구성되는 사용자 인터페이스 모듈;
상기 3D 이미지 컨텐츠와 연관된 디스패리티 값들에 기초하여 디스패리티 맵을 유지하도록 구성되는 디스패리티 추정 모듈;
상기 사용자 선호도 데이터에 기초하여 상기 디스패리티 맵을 변형함으로써, 변형된 디스패리티 맵을 생성하도록 구성되는 디스패리티 프로세싱 모듈을 포함하는,
시스템.
제 1 항에 있어서,
상기 사용자 선호도 데이터는 팝-아웃(pop-out) 효과 파라미터에 대한 변형을 나타내는 사용자-입력 값을 포함하는, 시스템.
제 1 항에 있어서,
상기 사용자 선호도 데이터는 베이스라인 파라미터를 변형하기 위한 사용자-입력 값을 포함하는, 시스템.
제 1 항에 있어서,
상기 사용자 선호도 데이터는 깊이 범위 파라미터를 변형하기 위한 사용자-입력 값을 포함하는, 시스템.
제 1 항에 있어서,
상기 사용자 선호도 데이터는 우세안 파라미터를 선택하기 위한 사용자-입력 값을 포함하는, 시스템.
제 1 항에 있어서,
상기 사용자 선호도 데이터는 선예도(degree-of-sharpness) 파라미터를 변형하기 위한 사용자-입력 값을 포함하는, 시스템.
제 1 항에 있어서,
상기 사용자 선호도 데이터는 깊이-분포 파라미터를 선택하기 위한 사용자-입력 값을 포함하는, 시스템.
제 1 항에 있어서,
상기 디스패리티 프로세싱 모듈은 무선 통신을 통해 상기 사용자 인터페이스 모듈로부터 상기 사용자 선호도 데이터를 수신하도록 구성되는, 시스템.
제 1 항에 있어서,
상기 변형된 디스패리티 맵에 기초하여 3D 비디오를 렌더링하도록 구성되는 렌더링 모듈을 더 포함하는, 시스템.
제 9 항에 있어서,
상기 사용자 인터페이스 모듈을 포함하는 소스 디바이스로부터 상기 렌더링 모듈을 포함하는 목적지 디바이스로 상기 사용자 선호도 데이터를 송신하도록 구성되는 송신기를 더 포함하는, 시스템.
제 9 항에 있어서,
상기 사용자 인터페이스 모듈을 포함하는 소스 디바이스로부터 상기 렌더링 모듈을 포함하는 목적지 디바이스로 상기 변형된 디스패리티 맵을 송신하도록 구성되는 송신기를 더 포함하는, 시스템.
3D 이미지 컨텐츠의 프리젠테이션을 위해 사용자 선호도 데이터를 수신하는 단계;
상기 3D 이미지 컨텐츠와 연관된 디스패리티 값들에 기초하여 디스패리티 맵을 저장하는 단계;
상기 사용자 선호도 데이터에 기초하여 상기 디스패리티 맵을 변형하는 단계;
변형된 디스패리티 맵에 기초하여 3D 비디오를 생성하는 단계를 포함하는,
방법.
제 12 항에 있어서,
상기 사용자 선호도 데이터는 팝-아웃 효과 파라미터를 변형하기 위한 사용자-입력 값을 포함하는, 방법.
제 12 항에 있어서,
상기 사용자 선호도 데이터는 베이스라인 파라미터를 변형하기 위한 사용자-입력 값을 포함하는, 방법.
제 12 항에 있어서,
상기 사용자 선호도 데이터는 깊이 범위 파라미터를 변형하기 위한 사용자-입력 값을 포함하는, 방법.
제 12 항에 있어서,
상기 사용자 선호도 데이터는 우세안 파라미터를 선택하기 위한 사용자-입력 값을 포함하는, 방법.
제 12 항에 있어서,
상기 사용자 선호도 데이터는 선예도 파라미터를 변형하기 위한 사용자-입력 값을 포함하는, 방법.
제 12 항에 있어서,
상기 사용자 선호도 데이터는 깊이-분포 파라미터를 선택하기 위한 사용자-입력 값을 포함하는, 방법.
제 12 항에 있어서,
상기 디스패리티 프로세싱 모듈은 무선 통신을 통해 상기 사용자 인터페이스 모듈로부터 상기 사용자 선호도 데이터를 수신하도록 구성되는, 방법.
제 20 항에 있어서,
상기 수신하는 단계는 소스 디바이스에 의해 수행되고, 상기 생성하는 단계는 목적지 디바이스에 의해 수행되는, 방법.
제 12 항에 있어서,
상기 변형된 디스패리티 맵에 기초하여 3D 비디오를 렌더링하는 단계를 더 포함하는, 방법.
제 21 항에 있어서,
상기 수신하는 단계를 수행하는 소스 디바이스로부터 상기 렌더링하는 단계를 수행하는 목적지 디바이스로 상기 사용자 선호도 데이터를 송신하는 단계를 더 포함하는, 방법.
제 21 항에 있어서,
상기 수신하는 단계를 수행하는 소스 디바이스로부터 상기 렌더링하는 단계를 수행하는 목적지 디바이스로 상기 변형된 디스패리티 맵을 송신하는 단계를 더 포함하는, 방법.
3D 이미지 컨텐츠의 프리젠테이션을 위해 사용자 선호도 데이터를 수신하기 위한 수단;
상기 3D 이미지 컨텐츠와 연관된 디스패리티 값들에 기초하여 디스패리티 맵을 저장하기 위한 수단;
상기 사용자 선호도 데이터에 기초하여 상기 디스패리티 맵을 변하기 위한 수단;
변형된 디스패리티 맵에 기초하여 3D 비디오를 생성하기 위한 수단을 포함하는,
장치.
제 24 항에 있어서,
상기 사용자 선호도 데이터는 팝-아웃 효과 파라미터를 변형하기 위한 사용자-입력 값을 포함하는, 장치.
제 24 항에 있어서,
상기 사용자 선호도 데이터는 베이스라인 파라미터를 변형하기 위한 사용자-입력 값을 포함하는, 장치.
제 24 항에 있어서,
상기 사용자 선호도 데이터는 깊이 범위 파라미터를 변형하기 위한 사용자-입력 값을 포함하는, 장치.
제 24 항에 있어서,
상기 사용자 선호도 데이터는 우세안 파라미터를 선택하기 위한 사용자-입력 값을 포함하는, 장치.
제 24 항에 있어서,
상기 사용자 선호도 데이터는 선예도 파라미터를 변형하기 위한 사용자-입력 값을 포함하는, 장치.
제 24 항에 있어서,
상기 사용자 선호도 데이터는 깊이-분포 파라미터를 선택하기 위한 사용자-입력 값을 포함하는, 장치.
제 24 항에 있어서,
상기 디스패리티 프로세싱 모듈은 무선 통신을 통해 상기 사용자 인터페이스 모듈로부터 상기 사용자 선호도 데이터를 수신하도록 구성되는, 장치.
제 24 항에 있어서,
상기 변형된 디스패리티 맵에 기초하여 3D 비디오를 렌더링하기 위한 수단을 더 포함하는, 장치.
제 32 항에 있어서,
상기 수신하기 위한 수단을 포함하는 소스 디바이스로부터 상기 렌더링하기 위한 수단을 포함하는 목적지 디바이스로 상기 사용자 선호도 데이터를 송신하기 위한 수단을 더 포함하는, 장치.
제 32 항에 있어서,
상기 수신하기 위한 수단을 포함하는 소스 디바이스로부터 상기 렌더링하기 위한 수단을 포함하는 목적지 디바이스로 상기 변형된 디스패리티 맵을 송신하기 위한 수단을 더 포함하는, 장치.
하나 또는 그 초과의 명령들을 유형적으로(tangibly) 저장하는 컴퓨터 판독가능 저장 매체로서,
상기 하나 또는 그 초과의 명령들은 하나 또는 그 초과의 프로세서들에 의해 실행되는 경우 상기 하나 또는 그 초과의 프로세서들로 하여금,
3D 이미지 컨텐츠의 프리젠테이션을 위해 사용자 선호도 데이터를 수신하게 하고;
상기 3D 이미지 컨텐츠와 연관된 디스패리티 값들에 기초하여 디스패리티 맵을 저장하게 하고;
상기 사용자 선호도 데이터에 기초하여 상기 디스패리티 맵을 변형하게 하고;
상기 변형된 디스패리티 맵에 기초하여 3D 비디오를 생성하게 하는,
컴퓨터 판독가능 저장 매체.
제 35 항에 있어서,
상기 사용자 선호도 데이터는 팝-아웃 효과 파라미터를 변형하기 위한 사용자-입력 값을 포함하는, 컴퓨터 판독가능 저장 매체.
제 35 항에 있어서,
상기 사용자 선호도 데이터는 베이스라인 파라미터를 변형하기 위한 사용자-입력 값을 포함하는, 컴퓨터 판독가능 저장 매체.
제 35 항에 있어서,
상기 사용자 선호도 데이터는 깊이 범위 파라미터를 변형하기 위한 사용자-입력 값을 포함하는, 컴퓨터 판독가능 저장 매체.
제 35 항에 있어서,
상기 사용자 선호도 데이터는 우세안 파라미터를 선택하기 위한 사용자-입력 값을 포함하는, 컴퓨터 판독가능 저장 매체.
제 35 항에 있어서,
상기 사용자 선호도 데이터는 선예도 파라미터를 변형하기 위한 사용자-입력 값을 포함하는, 컴퓨터 판독가능 저장 매체.
제 35 항에 있어서,
상기 사용자 선호도 데이터는 깊이-분포 파라미터를 선택하기 위한 사용자-입력 값을 포함하는, 컴퓨터 판독가능 저장 매체.
제 35 항에 있어서,
상기 디스패리티 프로세싱 모듈은 무선 통신을 통해 상기 사용자 인터페이스 모듈로부터 상기 사용자 선호도 데이터를 수신하도록 구성되는, 컴퓨터 판독가능 저장 매체.
제 35 항에 있어서,
상기 수신은 소스 디바이스에 의해 수행되고, 상기 생성은 목적지 디바이스에 의해 수행되는, 컴퓨터 판독가능 저장 매체.
제 35 항에 있어서,
상기 하나 또는 그 초과의 프로세서들에 의해 실행되는 경우, 상기 하나 또는 그 초과의 프로세서들로 하여금,
상기 변형된 디스패리티 맵에 기초하여 3D 비디오를 렌더링하게 하는 하나 또는 그 초과의 명령들을 저장하는, 컴퓨터 판독가능 저장 매체.
제 44 항에 있어서,
상기 하나 또는 그 초과의 프로세서들에 의해 실행되는 경우, 상기 하나 또는 그 초과의 프로세서들로 하여금,
상기 수신을 수행하는 소스 디바이스로부터 상기 렌더링을 수행하는 목적지 디바이스로 상기 사용자 선호도 데이터를 송신하게 하는 하나 또는 그 초과의 명령들을 저장하는, 컴퓨터 판독가능 저장 매체.
제 44 항에 있어서,
상기 하나 또는 그 초과의 프로세서들에 의해 실행되는 경우, 상기 하나 또는 그 초과의 프로세서들로 하여금,
상기 수신을 수행하는 소스 디바이스로부터 상기 렌더링을 수행하는 목적지 디바이스로 상기 변형된 디스패리티 맵을 송신하게 하는 하나 또는 그 초과의 명령들을 저장하는, 컴퓨터 판독가능 저장 매체.