KR20020064761A

KR20020064761A - 모델 기초 비디오 코더

Info

Publication number: KR20020064761A
Application number: KR1020027001560A
Authority: KR
Inventors: 야흐 만; 다니엘 코헨-오흐; 아싸프 몬사; 예휴다 쉐머; 우리 아라드
Original assignee: 리츠에프엑스 리미티드
Priority date: 1999-08-06
Filing date: 2000-08-04
Publication date: 2002-08-09
Also published as: EP1201086A1; US6330281B1; JP2003506976A; AU6465900A; WO2001011888A1; IL147787A0; CA2381457A1

Abstract

비디오 압축 시스템이 제공된다. 인코더는 디코더에 의해 디코드된 비디오를 인코드한다. 이 비디오는 비디오 프레임으로 구성된다. 디코더는 보정된 기준 프레임에 기초하여 디스플레이 장치 상에 뷰잉(viewing)하기 위해 근사화된 디스플레이 프레임을 발생한다. 디코더에서 보정된 기준 프레임은 인코더에 의해 제공된 차분 프레임에 기초하고 모델 상태 정보에 기초하여 발생된 근사화된 기준 프레임에 기초하여 생성된다. 인코더는 정확한 기준 프레임에서 근사화된 기준 프레임을 감산함으로써 차분 프레임을 생성할 수 있다. 이 정확한 기준 프레임은 3차원 가상현실 환경의 모델에 기초하여 생성된다. 인코더는 차분 기준 프레임에 기초하여 발생된 보정된 기준 프레임에 기초하여 근사화된 기준 프레임을 생성한다.

Description

모델 기초 비디오 코더{MODEL-BASED VIDEO CODER}

네트워크에 기초한 애플리케이션의 대중화에 수반하여, 효율적인 전송을 위한 합성 애니메이션 영상 시퀀스의 압축이 이전보다 더 중요시 되었다. 긴 시퀀스에 대해서는 전체적인 압축비가 높더라도, 압축된 파일의 다운로딩 대기 시간이 상당히 걸린다. 보다 우수한 네트워크에 기초한 압축 구조에서는 압축된 시퀀스를 2개의 부분으로 파티셔닝하는 것을 포함한다. 제 1 부분, 즉 헤더는 허용될 수 있는 초기화 시간 내에 다운로드되기에 충분히 작고, 반면 제 2 부분은 스트림으로 전송된다. 압축된 데이터는 네트워크 파이프라인을 따라 프로세스될 데이터의 스트림으로 분산되는데, 즉 압축된 데이터는 한 단부로부터 전송되어, 다른 단부에서 수신되고, 디코드되어, 디스플레이된다. 스트리밍시에는 반드시 모든 파이프라인 스테이지가 실시간으로 동작해야만 한다. 네트워크 대역폭은 파이프라인에서의 가장 제한된 리소스이다. 따라서, 주요한 목표는 네트워크 대역폭 제한을 수용할 수 있을 만큼 스트림 대역폭을 저감시키는데 있다.

MPEG같은 표준 비디오 압축 기술은 일반적으로 저 대역폭 환경에서 스트리밍하기에는 불충분하다. 예를 들면, 평균 MPEG 프레임의 일반적으로 적절한 프레임 해상도를 위한 크기는 약 2-6K 바이트이다. 네트워크가 초당 2K 바이트의 유지 전송률을 갖는다고 가정하면, 초당 수 프레임의 적정한 품질도 얻을 수 없다.

비디오를 실시간으로 스트리밍하기 위해서 아직까지는 압축률이 크게 향상되어야만 한다.

본 발명은 비디오 압축 기술에 관한 것으로서, 특히 3차원 가상현실 환경 같은 3차원 콘텐트를 사용하는데 적합한 비디오 압축 기술에 관한 것이다.

도 1은 본 발명에 따른 비디오 압축 구조의 개략도.

도 2는 본 발명에 따른 인코딩 프로세스의 일례를 나타낸 도면.

도 3은 본 발명에 따른 디코딩 프로세스의 일례를 나타낸 도면.

도 4는 본 발명에 따라 유저와의 실시간 대화를 지원하는 클라이언트-서버 비디오 압축 장치의 일 실시예의 개략도.

도 5는 다른 깊이를 갖는 어떤 인접 픽셀이 본 발명에 따라 저 품질 픽셀의 값을 추정하기 위해 인접 고 품질 픽셀의 값들을 사용하는 가를 나타내는 도면.

도 6은 어떠한 픽셀이 본 발명에 따른 다수의 기준 프레임 내의 픽셀로부터의 컨트리뷰션을 포함하는 가를 나타낸 도면.

도 7은 본 발명에 따른 깊이 정보(Z)를 사용하는 비디오 압축 프로세스의 일례의 도면.

도 8은 본 발명에 따라 압축된 비디오의 재구성 중 이후의(future) 기준 프레임 사용의 일례를 나타낸 도면.

도 9는 본 발명에 따른 네비게이션 그래프의 일례를 나타낸 도면.

본 발명의 목적은 향상된 비디오 압축 구조를 제공하는데 있다.

본 발명의 다른 목적은 고-품질의 콘텐트를 비교적 저-대역폭의 네트워크 접속을 통해 스트림되도록 하는 비디오 압축 구조를 제공하는데 있다.

본 발명에 따르면, 비디오 압축 시스템이 제공된다.

이 시스템은 비디오를 제공하기 위한 비디오 소스를 포함한다. 이 비디오 소스는 실제 카메라에 기초한 것일 수 있다. 예를 들면, 비디오 소스는 디지털 영상 및 범위 또는 거리 정보를 제공하는 실제 카메라일 수 있다. 이 비디오 소스는 또한 애니메이션 또는 다른 3차원 가상현실 콘텐트의 생성을 포함할 수 있다. 이러한 콘텐트는, 예를 들면 가상 카메라 위치에서 유저의 시점(point-of-view)으로부터 나타나는 3차원 세계를 포함할 수 있다. 모델 및 애니메이션 데이터는 비디오 소스에 의해 제공된다. 소망한다면, 다른 적절한 비디오 캡쳐(capture) 또는 재생 기기가 비디오 소스로서 사용될 수 있다.

비디오 소스로부터의 비디오 콘텐트는 인코더에 의해 인코드되고, 디코더에 의해 디코드된다. 디코더에 의해 디코드된 비디오는 디스플레이 장치를 통해 유저에게 나타난다.

소망한다면, 인코더는 서버측에서 실행되고, 디코더는 클라이언트측에서 실행된다. 서버와 클라이언트는 비교적 저-대역폭의 네트워크 접속(예를 들면, 인터넷 등과의 표준 전화선 모뎀 접속)을 통해 통신할 수 있다. 클라이언트측의 유저는 유저 입력(예를 들면, 가상현실 환경에서의 소망하는 움직임)을 네트워크 접속을 통해 인코더에 제공함으로써 실시간으로 인코더와 대화한다(interact).

본 발명의 다른 특징, 그 장점 및 여러 가지 장점들은 첨부된 도면과 바람직한 실시예들에 대한 이하의 상세한 설명으로부터 더 명백해질 것이다.

본 발명에 따른 비디오 압축 기술을 지원하기 위해 사용되는 시스템(10)을 예시한 도면을 도 1에 나타내었다. 이 시스템(10)은 비디오 소스(12), 인코더(14), 디코더(16) 및 디스플레이 장치(18)를 포함한다. 비디오 소스(12) 및 인코더(14)는 어느 한 컴퓨터(예를 들면, 서버)를 사용하여 실행될 수 있고, 디코더(16) 및 디스플레이 장치(18)는 다른 한 컴퓨터(예를 들면, 클라이언트)를 사용하여 실행될 수 있다. 비디오 소스(12), 인코더(14), 디코더(16) 및 디스플레이 장치(18)는 또한 하나의 컴퓨터, 또는 서로간에 통신하지만 클라이언트-서버 아키텍쳐는 사용하지 않는 2대 이상의 컴퓨터 상에서 실행될 수 있다.

비디오는 비디오 소스(12)에 의해 공급된다. 비디오 소스(12)는 비디오의 소정의 적절한 소스이다. 예를 들면, 비디오 소스(12)는 실제 비디오 카메라로부터 캡쳐된 비디오를 제공한다. 비디오 소스(12)는 또한 애니메이션 툴로부터 생성된 비디오를 제공한다. 예를 들면, 애니메이션 툴은 모델(M)로 묘사된 3차원 가상현실 세계를 만들기 위해 사용된다. 소스(12)에 의해 제공된 비디오에는 각각이 가상 세계의 다른 뷰(view)에 대응하는 비디오 프레임(E_i)의 시퀀스가 포함된다. 각 프레임은 환경의 다른 상태에 대응한다. 예를 들면, 디코더(16)에 위치해 있는 유저는 가상현실 환경과 대화할 수 있고, 각 뷰는 유저 시점의 다른 위치(예를 들면, 가상 환경 내에서의 유저 가상 카메라의 다른 위치)에 대응한다. 유저의 시야(field-of-view)에 나타나는 애니메이트된 객체는 또한 다른 프레임에서 다른 위치와 모습을 갖을 수 있다.

비디오 프레임을 디코더(16)에 전송하기 위해 필요한 대역폭을 저감시키기 위하여, 디코더(16)는 비교적 적은 수의 전송된 기준 프레임 및 모델 정보에 기초하여 디스플레이(18) 상에 디스플레이될 프레임을 추정하도록 사용된다. 기준 프레임은 비디오 시퀀스로부터 선택되거나, 또는 비디오 시퀀스와 이웃하는 모델 상태를 나타낼 수 있다.

처음에, C₀, 초기의 정확한 프레임(E₀)의 압축 버전, 및 E₀내의 모든 요소에서 3차원 위치를 계산하기에 충분한 모델링 정보의 적어도 일부가 디코더(16)에 전송될 수 있다.

인코더(14)는 보정된(corrected) 기준 프레임(C₀)과 모델 정보(M₀) 및 모델 정보(M₁)에 기초하여 기준 프레임(A₁)을 근사화한다. 모델 정보(M_i)는 비디오 프레임(E_i)(예를 들면, 애니메이션 또는 Z-버퍼를 포함한 다각형 모델) 내의 각 포인트에 대한 3차원 위치를 제공하는 소정의 정보이다.

근사화된 뷰(A_i, A_j)를 생성하기 위해 사용되는 3차원 맵핑은 모델-기초 후방-투사 기술에 기초한다. 모델에 기초한 방식은 MPEG 같은 기술보다 인터-프레임 간섭을 활용하는데 상당히 좋다. 모델 기초 방식에서, 움직임 보상(예를 들면,새로운 근사화된(approximated) 프레임(A₁)에서 기준 프레임(C₀)으로의 2차원 맵핑 -- 또는 후방-투사(back-projection)로 칭함)은 클라이언트(22)에 의해 계산되며, 서버(20)로부터 클라이언트(22)로 전송될 필요는 없다.

비이오 소스(12)에서는 정확한 기준 프레임(E₁)이 생성될 수 있다. 예를 들면, 인코더(14)가 위치된 컴퓨터 기기 상에서 실행되는 렌더링 애플리케이션 또는 엔진은 프레임(E₁)을 렌더링하기 위해 사용될 수 있다.

시스템(10)은, 완전한 기준 프레임을 인코더(14)로부터 디코더(16)로 전송하는 것 보다는, 차분(difference) 기준 프레임(D_i) 또는 압축된 차분 기준 프레임(D_i')을 인코더(14)로부터 디코더(16)로 전송할 수 있는 장치를 사용한다.

차분 프레임(D_i')은 기준 뷰(E_i) 이상으로 압축하여, 네트워크 상에 전송되어야 하는 데이터량을 저감시킬 수 있다. 또한, 서버(20)는 기준 프레임을 보정하는 것 만으로, 디스플레이 프레임보다 저 주파수(예를 들면, 디스플레이 프레임 주파수의 1/20)에서 구성된다.

인코더(14)에서, 차분 프레임, D₁=E₁-A₁은 정확한 기준 프레임(E₁)과 근사화된 기준 프레임(A₁)에 기초하여 구해진다. 소망한다면, 차분 프레임(D₁)은 압축된 차분 프레임(D₁')을 생성하기 위해 JPEG 압축 또는 다른 손실 압축 방식 또는 무손실 압축 기술을 사용하여 압축될 수 있다.

반드시 모든 픽셀들을 포함할 필요는 없다. 오히려, 픽셀들은 그들의 "품질"에 기초한 전송을 위해 선택될 수 있다. 예를 들면, 고 품질의 픽셀들만이 전송되고, 다른 픽셀들은 버려질 수 있다. 고 품질의 픽셀은 고 가시도를 갖는 것(즉, 홀 또는 갭 등을 채운 픽셀)과 고 스케일링 팩터(유사도(closeness))를 갖는 것으로 정의될 수 있다. 사용되는 품질 기준은 이하에 더 상세히 설명된다.

이하에 더 상세히 설명되는 바와 같이, 차분 프레임(D₁) 같은 차분 프레임을 압축하기 전에 적절한 패킹 구조가 사용될 수 있다. 예를 들면, 차분 프레임(D_i)은 상술한 바와 같이 선택된 픽셀들을 포함한 섹션들로 분할되며, 나머지 픽셀들은 버려진다. 이 섹션들은 함께 팩(pack)되어, 차분 프레임(D_i')을 형성할 때 압축될 수 있다. 보정된 기준 뷰를 발생하기 위해 이렇게 팩된 차분 프레임을 사용하기 전에, 이 팩된 차분 프레임을 압축 해제한 후, 언팩(unpack)한다.

차분 프레임이 클라이언트(22)에 전송되기 전에 손실 압축을 사용하여 압축되면, 클라이언트(22)에 의해 계산된 보정된 기준 프레임(C_i)이 정확한 기준 프레임(E_i)과 일치하지 않게 될 것이다. 이러한 상황에서, 서버(20)는 압축된 차분 프레임(D_i')과 근사화된 뷰(A_i)를 가산함으로써, 클라이언트(22)와 마찬가지로 보정된 기준 프레임(C_i)을 계산하기 위해 사용된다. 이로서, 클라이언트(22)의 상태가 항상 서버(20)에 이용되도록 할 수 있다.

언팩된 차분 기준 뷰(D₁')는 C₁=A₁+D₁'이기 때문에, 근사화된 프레임(A₁)에 기초하여 보정된 기준 프레임(C₁)을 계산하기 위해 인코더(14)에서 사용된다.

이 후, 보정된 기준 프레임(C₁)은 모델 정보(M₂)에 기초하여 추가로 근사화된 기준 프레임(A₂)을 계산하기 위해 인코더(14)에 의해 사용된다. 이 프로세스는 각각의 연속적으로 압축된 차분 기준 프레임(D_i')을 대응하는 보정된 기준 프레임(C_i)의 생성을 위해 사용하고, 새로운 모델링 정보(M_i) 및 C₀... C_i-1및 M₀... M_i-1의 이전 값에 기초하여 근사화된 기준 프레임(A_i)을 생성함으로써, 인코더(14)에서 지속된다. 차분 프레임(D_i)은 정확한 기준 프레임(E_i)에 기초하여 생성될 수 있다.

마찬가지로, 근사화된 프레임(A_i, A_j)을 생성할 때, 보정된 기준 프레임(C₀...C_i-1)에 의존하는 소스 픽셀은 각 픽셀의 품질에 기초하여 선택된다. 특히, 픽셀은 이들이 가까운 객체에 배치되어 있는가 또는 먼 객체에 배치되어 있는가의 여부에 따라 선택된다. 뷰에서의 픽셀의 근접도(nearness)는 유사도 또는 스케일링으로 불리우는 기준이다. 픽셀은 또한 이들이 홀이나 갭을 채우고 있는 가의 여부에 따라(예를 들면, 이들의 가시도에 따라) 선택된다. 소망한다면, 스케일링과 가시도는 모두 근사화된 뷰와 차분 뷰를 생성하기 위해 사용되고 있는 픽셀들의 품질을 판단하기 위해 사용될 수 있다.

도 1 내지 3의 장치에서, 장면(scene)의 모델링 데이터(예를 들면, 3차원 및 애니메이션 데이터)는 3차원 맵핑을 사용하여 기준 뷰로부터 뷰를 근사화(보간)하기 위해 사용된다. 맵된 뷰는 프레임을 섹션으로 분할함으로써 구성된다. 프레임의 각 섹션은 기본적인 기하학 모델에 기초한다. 구성된 프레임의 각 섹션에 대하여 사용될 기준 프레임은 품질 기준에 따라 다수의 기준 프레임의 풀(pool)로부터 선택된다. 각 프레임 섹션은 선택된 기준 프레임의 세트로부터 3차원적으로 맵된다. 이 세트는 품질 기준에 기초하여 선택된다. 이것은 이하에 더 상세히 설명된다.

디코더측에서의 기준 프레임은 인코더측에서의 기준 프레임이 구성되어 보정되는 것과 같은 방식으로 구성되어 보정된다. 각 근사화된 기준 프레임은 비디오 소스(12)로부터의 모델 상태 정보(M_i)에 기초하고, 이전에 보정된 기준 프레임(C₀... C_i-1) 및 모델 정보(M₀... M_i-1)에 기초한다. 차분 프레임(D_i')은 근사화된 기준 프레임(A_i)을 보정하여 보정된 기준 프레임(C_i)을 생성하기 위해 언팩되어 사용될 수 있다.

보정된 기준 프레임(C₀... C_i-1) 및 모델 정보(M₀... M_i-1)는 모델 상태 정보(M_j)에 기초하여 일련의 근사화된 디스플레이 프레임(A_j)을 추정하기 위해 사용된다. 소망한다면, 모델 상태 정보(M_j)는 유저 입력에 기초할 수 있다.

소망한다면, 모델 상태(M_i)는 기준 프레임 발생시 이들의 적합성에 대하여 선택될 수 있다. 모델 상태(M_j) 및 디스플레이 프레임(A_j)은 디스플레이되고 있는 비디오 시퀀스에 의해 결정된다.

디코더(16)가 근사화된 프레임(A_i, A_j)을 생성할 때, 보정된 기준 프레임(C₀... C_i-1)에 의존하는 소스 픽셀은 각 픽셀의 품질에 기초하여 선택될 수 있다.

인코더(14)에 의해 수행되는 인코딩 프로세스는 도 2에 더 상세히 나타난다. 도 2에 나타낸 바와 같이, 모델 상태(M_i)는 보정된 기준 프레임(C₀내지 C_i-1) 및 모델 정보(M₀...M_i-1)와 조합되어, 근사화된 기준 프레임(A_i)을 생성한다. 이 근사화된 기준 프레임(A_i)은 정확한 기준 프레임(E_i)으로부터 감산되어 차분 기준 프레임(D_i)을 생성한다. 프레임(E_i)은 비디오 소스(12)에서 발생된다. 차분 기준 프레임(D_i)은 압축된 차분 기준 프레임(D_i')을 생성하기 위해 압축된다.

디코더(16)에 의해 수행되는 디코딩 프로세스는 도 3에 더 상세히 나타난다. 도 3에 나타낸 바와 같이, 모델 상태(M_i)는 이전에 보정된 기준 프레임(C₀내지 C_i-1) 및 모델 정보(M₀... M_i-1)와 조합되어, 근사화된 기준 프레임(A_i)을 생성한다. 압축된 차분 기준 프레임(D_i')은 근사화된 기준 프레임(A_i)을 보정하여, 보정된 기준 프레임(C_i)을 생성하기 위해 사용된다. 보정된 기준 프레임(C₀... C_i-1) 및 모델 정보(M₀... M_i-1)는 모델 상태 정보(M_j)에 기초해서 근사화된 디스플레이 프레임(A_j)을 외삽(extrapolate)하기 위하여 사용된다.

로컬 스케일링 팩터는 기하학적 모델을 사용하여 기준 프레임으로부터 3차원 맵핑의 품질을 측정하기 위한 기준으로 사용된다. 스케일링 팩터는 구성된 영상 내의 각 픽셀마다 다르며, 기준 프레임에서 근사화된 프레임까지 주어진 맵핑에 포함된 스트레칭량의 측정치일 수 있다. 고 스케일링 팩터는 번지게 되고(blurred), 그 결과 저 품질로 된다. 스케일링 팩터는 소정의 픽셀 부근에서의 맵핑의 부분 도함수 매트릭스의 매트릭스 표준 2로부터 계산된다.

가상현실 환경은 다각형의 기하학적 모델, 텍스쳐 및 복수의 광원에 의해서 묘사되는 것으로 가정한다. 뷰(프레임) 및 뷰-의존 텍스쳐(보정된 기준 프레임)의 세트가 주어지면, 각 가시적인 다각형마다 최고 품질의 텍스쳐를 선택하는 것이 바람직하다. 소스 텍스쳐의 품질은 소스 프레임(보정된 기준 프레임) 내에 각 다각형을 투사하여 덮이는 영역에 관련된다. 따라서, 다각형당 로컬 스케일링 팩터는 소스 프레임(보정된 기준 프레임) 상에 맵될 때 부분적으로 수축되거나 확장되는 소스 텍스쳐 내의 영역을 평가하기 위해 사용된다. 스케일링 팩터가 1 이하이면, 소스 프레임은 타깃 프레임을 발생하기에 충분한 것으로 간주된다. 스케일링 팩터가 1보다 크게 증가함에 따라, 타깃 영상에는 더욱 더 번짐이 나타나고, 그래서 소스 텍스쳐는 충족도가 점점 더 감소하게 된다. 이러한 다각형당 텍스쳐 품질 팩터는 뷰-의존 텍스쳐(보정된 기준 프레임)의 이용가능한 세트 중에서 최상의 소스 텍스쳐를 선택하기 위해 사용된다. 최상의 소스가 소정의 임계치 보다 높으면, 새로운 텍스쳐(보정된 기준 프레임)가 필요하게 된다. 그러나, 텍스쳐의 성공적인 스트리밍으로 품질 펙토리가 만족되는 하나의 이용가능한 텍스쳐가 항상 있도록 보증할 수 있다.

소스 프레임에서의 특정한 다각형 내의 스케일링 팩터의 최대값은 주어진 타깃 프레임(근사화된 기준 프레임(A_i))마다 추정된다. 스케일링 팩터는 다각형의 가시도와 무관하게 정해진다. 다각형은 선형 변환 또는 비선형 변환으로 소스로부터 타깃으로 맵된다.

선형인 경우, A를 선형 변환에 대응하는 스퀘어 매트릭스로 가정한다. 선형 변환의 스케일링 팩터는 매트릭스 A의 2-표준, 즉 모든 단위 벡터v에 걸친 Av의 최대 2-표준이다.

A의 2-표준은 A^TA의 최대 고유값인 λ_max의 제곱근과 동일하다. 2차원 선형 변환의 경우, A는 2×2 매트릭스이고, λ_max에 대하여 닫친 형태의 식으로 제공된다.a _ij 는 A의 원소들을 표시하고,e _ij 는 A^TA의 원소들을 표시한다:

(1)

매트릭스 A^TA의 고유값은 다항식(A^TA-λI)의 근(roots)이고, 여기서 I는 동일 매트릭스이다. 2차원의 경우, λ_max는 이차 방정식의 최대 근이다.

(2)

따라서,

(3)

원소e _ij 를 원소a _ij 의 항으로 표현하여 다음의 식을 만들고,

(4)

결국, S=1/2(a² ₁₁+a² ₁₂+a² ₂₁+a² ₂₂)임을 정의하여, 다음의 식을 만든다.

(5)

투사 변환 같은 비선형 변환을 처리 시에는 상기 특정한 포인트에서 변환의 부분 도함수를 사용하여 영상 내의 특정한 포인트에서 국소적으로 스케일 팩터를 측정할 필요가 있다. 부분 도함수는 선형 변환 계수로서 사용된다.

포인트의 소스 및 타깃 영상 좌표는 각각 x₀, y₀및 x₁, y₁으로 표시된다. 타깃 카메라에서의 상기 포인트의 3차원 좌표 위치는 x, y, z로 표시되며, 이것은 다음과 같이 주어지거나:

(6)

(7)

또는, 다음과 같이 전개된다.

(8)

(x₁, y₁)에서의 상기 맵핑의 부분 도함수는 그 기울기를 정의하며, 이 기울기는 선형 변환이다:

(9)

시야가 작고, 소스와 타깃 뷰에 대한 면의 회전이 적은 경우, 다음의 근사화가 사용될 수 있다. 소스로부터 타깃으로의 상기 면 포인트의 변환은 다음과 같이 근사화된다:

이것은 의사(pseudo) 2D 투사 변환으로 불리우며, 그 결과는 다음과 같다:

(11)

최대 스케일링 팩터를 추정하기 위하여, 삼각형의 3개의 꼭지점에서 기울기를 계산할 수 있다. 삼각형이 충분히 작을 경우, (삼각형의 중심에서의) 하나의 샘플로도 양호한 근사화를 이룰 수 있다.

본 발명의 기술을 포함한 영상 기초 렌더링 기술로 비 일-대-일 함수인 프레임들간의 맵핑으로 인한 홀과 오버랩같은 아티팩트(artifact)를 나타낼 수 있다. 가시 갭으로 불리우는 홀들은 기준 뷰에 의해서 덮이지 않는 근사화된 프레임의 영역이다. 오버랩은 기준 내의 하나 이상의 영역에 의해 맵된 근사화된 프레임 내의 영역이다. 오버랩은 깊이값을 사용하여 방지되어 숨겨진 표면의 존재를 판단한다. 홀은 후술하는 바와 같이 다수의 기준 프레임을 사용하여 더 처리될 수 있다.

스케일링 팩터와 더불어 사용되는 다른 적절한 품질 기준으로는 가시도가 있다. 가시 갭은 근사화된 프레임에서는 볼 수 있는 영역이지만, 이와 연관된 기준 프레임에서는 볼 수 없는 영역이다. 가시 갭에 존재하는 근사화된 프레임에서의 픽셀은 기준 프레임으로부터 맵될 때 매우 낮은 품질을 갖는 것으로 간주한다. 갭 내의 픽셀은 일반적으로 기준 프레임에서의 근접한 객체 뒤에 숨겨지거나, 또는 뷰잉 프러스트럼(frustrum) 밖에 있다.

소망한다면, 스케일링 팩터와 가시도 기준을 모두 조합하여 기준 프레임으로부터 3차원 맵핑의 품질을 판단하는데 사용할 수 있다. 기준 프레임(C_i)에서 볼 수 있는 픽셀은 최저 품질값을 수신한다. 볼 수 있는 픽셀의 품질은 스케일링 팩터에 의해 판단된다. 계산적인 결과는 프레임을 작은 패치로 분할함으로써 최소화될 수 있다. 스케일링 팩터는 각 패치의 중심에서 계산되어, 패치 내의 모든 픽셀에 주어진다. 영상을 패치로 파티셔닝하는 간단한 방법으로는 기본적인 3차원 모델을 사용하는 것이 있다. 구성된 영상으로의 각 다각형의 투사는 분리 패치로 간주되며, 각 다각형의 투사는 로컬 스케일링 팩터 및 기준에서의 픽셀의 가시도를 포함한다.

소망한다면, 클라이언트측 유저에 나타나는 디스플레이 시야보다 광폭의 시야(FOV)가 기준 프레임(C_i)에 사용될 수 있다. 광폭의 기준 시야는 2개의 기준 프레임들간의 가상 카메라 뷰잉각의 변화에 의해 3차원적으로 맵된 프레임의 에지 주위에 홀이 유발되는 것을 방지할 수 있다.

다른 방식에서는 근사화된 프레임 내에 저 품질 픽셀을 위치시키는 것과, 이들을 고품질의 이웃값에 기초하여 근사화시키는 것을 포함한다. 이러한 방식은 다수의 기준 프레임이나 또는 광폭의 기준 시야에 기초한 방식과 조합하여 사용될 수 있다. 소망한다면, 유사한 깊이값에 대한 요구가 인접 픽셀이 근사화된 픽셀과 동일 면에 속하도록 하기 위해 사용될 수 있다. 텍스쳐(또는, 색, 즉 적색-녹색-청색 또는 RGB) 값에 대한 가중 평균이 모든 상기 이웃값에 대하여 계산된다. 사용되는 가중치는 이웃값과 근사화된 픽셀간의 거리의 역치이다. 도 5에 나타낸 바와 같이, 상기한 방식으로 고품질 픽셀 근방의 값은 가중 평균에 포함되고, 따라서 저품질 픽셀과 같은 표면 부분이 아닌 다른 깊이를 갖는 이웃값은 배제된다.

도 6에 나타낸 바와 같이, 다수의 이용가능한 기준 프레임(C₀-C_i)이 새로이 근사화된 프레임(A)의 3차원적 맵에 사용될 수 있다. 이용가능한 보정된 기준 프레임(C₀-C_i)의 풀이 선택될 수 있다. 근사화된 프레임(A) 내의 각 픽셀 P_j에 대하여, 풀 기준 프레임(C₀-C_i)까지의 모든 3차원적 맵핑의 품질(Q₀-Q_i)은 선택된 기준(예를 들면, 가시도 및 스케일링)에 따라 계산될 수 있다. 최상의 품질값(Q_k)을 갖는 기준 프레임(C_k)이 픽셀(P_j)에 대한 소스로서 선택될 수 있다. 소망한다면, 하나 이상의 기준 프레임이 픽셀에 대한 소스로서 사용되고, 품질값(Q₀-Q_i)을 가중 평균에서의 가중치로 사용하여 조화된다(blend). 이것으로 픽셀의 맵핑이 새로운 시야에 대한 프레임(A)에 대하여 스무드하도록 할 수 있다.

품질 기준은 또한 대역폭 필요조건을 감소하기 위해 사용될 수 있다. 근사화된 프레임 내의 각 픽셀의 3차원적 맵핑과 연관된 품질은 사용되는 기준 프레임의 수와 상관없이 계산될 수 있다. 고품질로 맵된 픽셀은 대역폭을 절감하기 위하여 차분 프레임으로부터 생략될 수 있다.

추가적인 대역폭 감소는 나머지 픽셀에 대한 패킹 알고리즘을 사용하여 구현될 수 있다. 적절한 패킹 알고리즘은 Y. Mann 등에 의한 "Selective Pixel Transmission for Navigation in Remote Virtual Environments,"(Eurographics 97)에 개시되어 있다. 패킹 알고리즘은 인접 픽셀간의 상관관계를 유지하면서 나머지(저 품질) 차분 프레임 픽셀을 작은 직사각형 영역 내에 재배치한다. 패킹된 영상은 JPEG 같은 손실 기술을 사용할 때의 언팩된 영상보다 훨씬 양호하게 압축될 수 있다. 잔차(residual)로부터 생략된 픽셀은 보정된 기준 프레임에서 보정되지 않는다. 상기 픽셀들은 그 소스 기준 프레임에 대한 어떠한 부가 정보도 포함하지 않는다. 따라서, 상기 픽셀들은 다음의 3차원 맵핑을 위한 소스로서 사용되도록 마크되지 않으며, 반면 적어도 그 소스 기준 프레임은 3차원 맵핑에 이용될 수 없다.

근사화된 뷰(A)는 후방 투사에 의해 구성된다. 후방 투사는 다각형 모델과 함께 사용된다. 2개의 원근 투영(perspective) 뷰들간의 의존성은 투사 맵에 있기 때문에, 모델은 원근 투영 맵핑보다는 투사 맵핑을 적용함으로써 렌더링된다. 이 투사 맵은 동일 공간에서의 선형 변환에 의해 표시될 수 있고, 적절한 선형 보간에 의해 실행될 수 있으며, 각 픽셀에서의 분할을 필요로 한다.

대안으로, 데이터 세트 내에 기하학적 모델을 포함시켜서 깊이 데이터(또한, 유저 시야에서의 실제 또는 가상 카메라의 광학 면으로부터의 거리에 관한 데이터 또는 Z-버퍼 데이터로서 공지됨)를 표준 색 대역(RGB 대역)과 더불어 다른 영상 대역으로서 처리한다. Z-대역은 3차원 맵핑을 사용하여 보정된 기준 프레임으로부터 Z-대역을 맵핑함으로써 근사화된다. Z-대역의 잔차는 도 7에 나타낸 바와 같이 계산되어 데이터 세트에 포함된다. 깊이 대역의 추가 때문에, 정확한 기준 프레임(E_i), 근사화된 기준 프레임(A_i), 차분 프레임(D_i및 D_i') 및 보정된 기준 프레임(C_i)은 색 정보에 대한 RGB 데이터 및 깊이 정보에 대한 Z 데이터를 모두 포함한다. 상기 구조에서는 어떠한 분리 모델 상태 정보(M_i)도 필요로 하지 않는데, 그 이유는 상기 맵핑이 내장된 깊이 정보로부터 계산되기 때문이다. Z-버퍼의 잔차는 B.K. Guenter 등에 의한 1993년자의 Computer Graphics Proceedings, Annual Conference Series에서의 "Motion Compensated Compression of Computer Animation Frames"에 개시된 바와 같이 방향 인코딩을 갖는 알고리즘을 사용하여 효과적으로 압축될 수 있다. 그러나, Z-버퍼가 기하학적 모델 대신에 사용되면, 고속 주사선 알고리즘이 사용되지 않는다. 오히려, 픽셀은 소스로부터 포워드 맵되고, 홀 방지를 위해 타깃 영상에 스미어된다(smeared). 광선 트레이싱 알고리즘이 또한 사용될 수 있다. 이러한 솔루션은 일반적으로 주사선 알고리즘보다 느리며 더 복잡하다.

모델 상태 정보(예를 들면, 기하학 및 애니메이션 데이터) 및 차분 프레임을포함한 데이터 세트는 인코더(14)로부터 디코더(16)로 전송된다. 데이터 세트는 압축되어 팩된다. 데이터 세트는 유저 입력에 기초(예를 들면, 가상 세계를 통해 네비게이트할 때 유저의 가상 시야에 기초)하고 애니메이션 요건에 기초(예를 들면, 가상현실 세계에서의 소정의 객체가 움직이거나 또는 변화하며, 유저에 의해 뷰될 때 비정적인 요건에 기초)하여 필요에 따라 디코더(14)로 스트림된다.

본 발명의 다른 양태는 다음의 일례를 참조하면 이해될 것이다.

실시간 대화식 클라이언트-서버 시스템

실시간 대화식 클라이언트-서버 시스템(19)을 도 4에 나타낸다. 비디오는 서버(20)에서 발생되어, 네트워크 상의 클라이언트(22)에 제공된다. 네트워크는, 예를 들면 종래의 전화선을 이용한 모뎀 등에 의해 액세스되는 인터넷 같은 비교적 저-대역폭 네트워크일 수 있다.

유저는 디스플레이 장치(30) 상의 유저에게 나타나는 가상현실 환경에서 로움(roam)한다. 유저는 마우스, 트랙볼, 조이스틱, 키보드, 터치 패드, 터치 스크린 등의 소정의 적절한 유저 입력 장치(32)를 사용하여 네비게이트 할 수 있다.

클라이언트(22)는 고정된 간격으로(예를 들면, 초당 1회의 빈도로) 서버(20)에 카메라 시점(유저 입력)을 전송한다. 이에 응답하여, 서버(20)는 도 4에 나타낸 바와 같이 카메라 위치 정보를 사용하여 정확한 프레임(E_i)을 렌더링할 수 있도록 상세한 모델 정보(DM_i) 및 텍스쳐 정보(T)를 사용한다. 서버(20)는 차분프레임(D_i')을 발생하여, 프레임(D_i')을 클라이언트(22)에 바로 전송한다. 도 4의 장치의 장점은 서버(20)에 거의 계산적인 요소를 배치하지 않는 것인데, 그 이유는 비교적 저 주파수에서 렌더링되어야 하기 때문이다.

상세한 모델 상태 정보(DM_i)는 가상현실 환경의 정확한 프레임(뷰)(E_i)을 렌더링하기 위해 서버(20)의 비디오 소스(24)에 의해 사용된다. 프레임은 유저의 가상 카메라 시점에 관한 정보를 포함한 모델 상태 및 가상 환경에서의 소정의 애니메이션의 상태(예를 들면, 유저 시야에서의 움직임 객체의 위치)에 대응한다. 카메라 시점 정보는 유저 입력 장치(32)로부터 전송된다. 소망한다면, 외삽기(34)는 유저의 현재 위치로부터 외삽하기 위해 사용되며, 이 외삽된 정보는 프레임 발생시 사용하기 위해 비디오 소스(24)에 전송된다. 텍스쳐 정보(T)는 또한 프레임(E_i)을 렌더링할 때 비디오 소스(24)에 의해 사용된다.

우선, 클라이언트(22)는 초기 시점(유저 입력)을 비디오 소스(24)에 전송한다. 비디오 소스(24)는 초기 시점에 대한 정확한 기준 프레임(E₀)을 렌더링한다. 비디오 소스(24)는 상기 시점에 필요한 단순화된 3차원 모델(M₀)의 일부를 수반한 프레임(E₀)을 클라이언트(22)로 전송된다.

초기화 후, 유저는 새로운 시점(유저 입력)의 좌표를 입력함으로써 가상현실 세계를 두루 네비게이트할 수 있다. 클라이언트(22)는 유저 입력에 기초하여(즉, 유저의 시점 정보에 기초하여) 디스플레이 프레임을 작성하기 위하여 3차원 맵핑을사용할 수 있다. 유저 입력은 클라이언트(22)로부터 서버(20)로 주기적으로(예를 들면, 초당 1회) 전송될 수 있다. 소망한다면, 클라이언트(22)는 유저 시점의 선형 또는 고차 외삽을 사용하여 이후의 시점을 근사화하기 위해 외삽기(34)를 사용한다. 이러한 방식으로 이후의 시점을 근사화하면 이용가능한 기준 뷰들에 의해서 덮이지 않은 3차원적으로 맵된 프레임 내의 영역을 감소시키는데 도움을 준다. 외삽기(34)로부터의 외삽된 시점 정보를 수신한 후에, 서버(20)는 3차원 맵핑을 사용하여 클라이언트(22)에 의해 발생된 것과 동일한 대응하는 근사화된 기준 뷰(A_i)를 생성한다. 이 후, 서버(20)는 완전히 텍스쳐된 고 상세 모델(T, DM_i)을 이용하여 외삽된 시점에 대한 정확한 기준 뷰(E_i)를 렌더링한다. 정확한 프레임(E_i)으로부터 근사화된 프레임(A_i)을 감산하여 클라이언트(22)에 전송될 차분 프레임 정보를 생성한다.

정확한 기준 프레임(E_i)을 렌더링한 후에, 인코더(26)는 통신 네트워크를 통해(예를 들면, 인터넷을 통해) 클라이언트(22)에 전송된 데이터 세트를 발생한다.

디코더(28)는 새로운 보정된 기준 프레임(C_i)을 발생한다. 기준 프레임(C₀... C_i-1) 및 모델 정보(M₀... M_i-1)는 다음의 근사화된 기준 프레임(A_i)을 구성하기 위하여 국부적으로 이용될 수 있는 데이터(M_i)와 조합된다. 디코더(28)에 의해 구성된 기준 프레임(A_i)은 근사치일 뿐이기 때문에, 클라이언트에 제공된 데이터 세트는 보정된 기준 프레임(C_i)을 발생하기 위해 사용되는 차분(잔차) 프레임(D_i')을 포함할 수 있다.

차분 프레임은 서버(20)에 의해 렌더링된 정확한 기준 뷰(E_i)와 근사화된 기준 프레임(A_i)간의 차를 나타낸다.

클라이언트(22)측에서, 근사화된 디스플레이 프레임(A_j)은 보정된 기준 프레임(C₀... C_i-1) 및 모델 정보(M₀... M_i-1)의 3차원 맵핑에 의해 발생된다. 카메라 위치 또는 모델 상태(M_j)에 대한 소정의 다른 유저 제어형 파라미터는 유저 입력 장치(32)로부터의 유저 입력을 사용하여 실시간으로 판단된다. 이것에 의해 디스플레이 프레임(A_j)이 대기없이 디스플레이 장치(30) 상에 디스플레이되도록 할 수 있다. 대기는 디스플레이 프레임(A_j)의 구성 및 인코더(26)에 의해 생성된 데이터 세트 사이의 디커플링으로 인해 회피될 수 있다. 서버(20)는 보정된 기준 프레임(C₀... C_i-1)의 풀과, 디스플레이 프레임(A_j)에 사용되는 것에 충분히 근접한 카메라 위치와 연관된 클라이언트(22)측 모델 정보(M₀... M_i-1)를 유지하기 위하여 충분한 정보를 클라이언트(22)에 전송하는 것만으로, 프레임(C₀... C_i-1)과 프레임(A_j)간의 3차원 맵핑을 위한 고 품질의 소스의 이용성을 제공한다.

소망한다면, 상세 모델 상태 정보(DM_i)보다는 단순화된 모델 상태 정보(M_i)가 서버(20)로부터 클라이언트(22)로 전송될 수 있다. 가상현실 환경은 서버(20)에기억된 텍스쳐된 모델 정보(즉, 상세 모델(DM_i) 및 텍스쳐(T))를 포함한다. 전송된 모델(즉, 단순화된 모델 상태 정보(M_i))은 텍스쳐를 제외한 기하학 및 애니메이션 정보만을 포함하면 된다. 이것에 의해 서버(20)로부터 클라이언트(22)로 모델 상태 정보를 전송하기 위해 필요한 대역폭에서의 상당한 감소가 나타나게 되는데, 그 이유는 텍스쳐 공간 정보가 대부분의 가상현실 환경에서의 기하학 공간 정보보다 충분히 크기 때문이다.

서버(20)는 새로운 모델이 유저의 뷰잉 프러스트럼을 입력할 때나, 또는 새로운 상세 레벨이 현재의 모델에 필요한 때의 모델 데이터(M_i)만을 전송하면 된다. 전송된 모델은 무손실 압축되거나, 또는 손실 압축을 사용하여 압축된다. 모델(M_i)이 필요한 3차원 맵핑을 계산하기에 충분하다면, 전송된 모델 정보(M_i)는 진짜 모델(DM_i)의 단순화된 버전이라도 좋다. 클라이언트(22) 측의 유저가 볼 수 있는 시간과 공간의 모델에 적용될 애니메이션 정보는 모델 정보(M_i)에 포함될 수 있다. 소망한다면, 이 애니메이션 정보는 무손실로 압축되거나, 손실 압축을 사용하여 압축되거나, 또는 근사화될 수 있다.

컴퓨터-생성된 비디오 압축

합성(컴퓨터-생성된) 비디오 압축 구조는, 도 1의 인코더(14)가 이후에 디코더(16)(도 1)에 의해 디코드되어 디스플레이 장치(18)에 디스플레이될 파일을 오프라인으로 준비하는데 사용된다. 클라이언트-서버 장치는 비디오를 재생하기 위해 사용되지 않는데, 즉, 비-클라이언트-서버 시스템이 사용될 수 있다. 소망한다면, 인코더(14) 및 디코더(16)는 동일한 컴퓨터 상에 존재할 수 있다.

비디오 프레임과 렌더링된 장면의 3차원 모델은 3D 스튜디오 맥스나 광파 같은 3차원 애니메이션 툴에 의해 발생된다. 비디오 시퀀스 내의 프레임은 또한 카메라 시점 및 애니메이션 데이터를 포함하는 모델 상태(M_j)와 연관된다.

인코더(14)는 비디오 시퀀스로부터의 기준 프레임이나 또는 비디오 시퀀스에 이웃한 모델 상태를 나타내는 기준 프레임을 선택한다. 기준은 비디오 디스플레이율보다 저 주파수로로 시퀀스로부터 샘플된다. 인코더(14)는 각 기준 프레임에 대한 잔차(차분 프레임)를 포함한 데이터 세트를 준비한다. 이 잔차는 이전에 보정된 기준으로부터 3차원적으로 맵된 근사화된 기준 뷰와 정확한 기준 뷰간의 차분을 나타낸다. 각 기준 데이터 세트는 또한 기준 뷰의 근사화를 위해 필요한 3차원 모델 부분과 애니메이션을 포함한다. 유저는 어떠한 입력도 공급하지 않기 때문에, 데이터 세트는 기준 프레임을 포함한 비디오 시퀀스 내의 각 프레임에 대한 카메라 시점 정보를 포함해야만 한다.

기준 데이터 세트 파일을 판독하는 디코더(16)는 기준 뷰를 재구성한다. 근사화된 기준 뷰(A_i)는 이전에 보정된 기준 뷰(C₀... C_i) 및 모델 정보(M₀... M_i-1)로부터 3차원 맵핑에 의해 근사화된다. 근사화된 기준 뷰는 각각 보정된 기준 뷰(C_i)에 도달하기 위해 잔차(차분 프레임)(D_i')와 조합된다. 일단, 보정된 기준뷰(C_i)의 전체 세트가 재구성되면, 디코더(16)는 모델 상태(M_j)에 기초하여 디스플레이하기 위해 비디오 프레임(A_j)의 전체 시퀀스를 계속 재구성한다. 모델 상태(M_j)는 비디오 시퀀스의 각 프레임마다의 카메라 및 모델의 상태를 나타낸다. 디코더(16)는 비디오 시퀀스 내의 각 프레임을 3D-맵하기 위해 모델 정보(M₀... M_i-1) 및 보정된 기준 뷰(C₀... C_i)의 전체 세트를 사용한다. 3D-맵핑에서는 "홀"은 거의 없는데, 그 이유는 디코더(16)가 이전의 3차원적으로 맵된 기준 프레임뿐만 아니라 이후에 3차원적으로 맵될 기준 프레임을 사용하기 때문이다. 따라서, 이들의 이웃한 픽셀들로부터 근사화되어야 하는 3차원 맵핑시의 저질의 픽셀수는 적다.

이러한 비-대화식 구조는 또한 실제 비디오 시퀀스(즉, 컴퓨터 생성되지 않은 비디오)의 압축을 위해 사용될 수 있다. 예를 들면, 비디오 시퀀스로부터 장면의 3D-모델 및 애니메이션을 추출하기 위해 이용가능한 사진계측(photogrametric) 방법이 사용될 수 있다. 소망한다면, 깊이 데이터(Z-버퍼 데이터)는 3차원 모델을 사용하는 대신에 데이터 세트에 포함될 수 있다. 버위 스캐너를 구비한 실제 비디오 카메라는 상기 압축 구조를 위한 데이터를 발생하기 위해 사용된다.

이러한 구조에서 인코더(14)에 의해 발생되는 압축된 데이터 세트는 스트림된다. 스트리밍은 수 초 길이 이상의 인터넷을 통한 비디오 시퀀스를 뷰잉하거나 또는 인터넷을 통해 비디오를 브로드케스팅하는데 중요한 역할을 한다. 각 기준 프레임은 후속 기준 프레임에 대한 소정의 데이터가 디코더(16)에 의해 판독되기전에 재구성될 수 있다. 스트리밍 환경으로 인해, 전체 세트의 기준 프레임이 비-기준 프레임을 발생하는데 이용될 수는 없다. 그러나, 소망한다면, 이후의 뷰로부터 하나 또는 둘(또는, 그 이상)의 기준 뷰가 재구성될 때까지, 주어진 비디오 프레임의 3차원적 맵핑은 지연된다. 이러한 기술로 스트리밍 환경을 지원하면서, 3차원 맵핑에서의 "홀"과 연관된 아티팩트의 대부분을 경감시킨다.

이러한 재생 방식은 도 8a, 8b 및 8c에 예시된다. 도 8a에서, 프레임(C₀)은 클라이언트측에서 재구성되었다. 도 8b에서, 프레임(C₀, C₁)은 재구성되고, 이에 따라 재생이 개시되어, 프레임은 C₀와 C₁사이의 시각(t₁)에서 현재 재생되고 있다. 도 8c에서, 프레임(C₂)은 재구성되어, 재생이 시각(t₂)까지 진행한다.

오프라인 데이터 세트에 기초한 클라이언트-서버 시스템

클라이언트측 유저가 서버에 유지되는 원격 가상현실 환경에서 로움하지만, 이 서버가 환경의 뷰들을 렌더링하거나 데이터 세트를 온라인으로 인코드하지 못하도록 하는 대화식 클라이언트 서버 웹 시스템이 제공된다. 대신에, 인코더는 각각이 상기 환경에서의 짧은 워크스루(walkthrough)에 대응하는 많은 데이터 세트를 오프라인으로 준비한다. 상기 데이터 세트는 서버에 존재하는 데이터베이스에 기억된다. 유저는 준비된 워크스루들로부터 선택함으로써(예를 들면, 온-스크린 표시 또는 다른 옵션을 클릭함으로써) 가상현실 환경에서 네비게이트한다. 이 후, 적절한 워크스루가 데이터베이스로부터 서버에 의해 추출된 후, 클라이언트에게 스트림되어, 유저에게 디스플레이된다.

이러한 방법이 유저의 대화성을 다소 제한하더라도, 완전한 대화 방식보다는 현저히 적은 계산 및 그래픽 서버 용량을 필요로 한다. 이 서버는, 예를 들면 표준 퍼스널 컴퓨터 하드웨어 플랫폼을 사용하여 수 백 또는 수 천의 클라이언트를 동시에 지원할 수 있는 비교적 간단한 HTTP 파일 서버일 수 있다.

인코더에 의해 준비된 짧은 워크스루는 유저가 잠재적인 관심을 갖는 가상현실 환경 내의 모든 영역에 걸친 방향성 그래프의 에지(edge)를 규정한다. 복수의 워크스루는 동일한 단일 뷰(예를 들면, 정확한 기준 프레임)에서 종료된다. 이 뷰는 또한 복수의 다른 워크스루의 최초 뷰일 수 있다. 이러한 뷰는 그래프에서의 정점을 규정하고, 또한 교점으로도 불리워 질 있다. 교점들 사이에서, 다수의 기준 프레임들(예를 들면, 다수의 정확한 기준 프레임들, 보정된 기준 프레임들, 차분 기준 프레임들 및 근사화된 기준 프레임들)이 각 에지와 연관될 수 있다. 특정한 교점에서의 워크스루 종점 및 시점은 각각 정점의 도래하는 에지와 빠져나가는 에지이다. 유저는 매듭으로 연결된 워크스루로 구성된 방향성 그래프의 경로를 선택함으로써 네비게이트한다. 도 9는 이러한 타입의 일례의 네비게이트 그래프의 그래픽 표시이다. 짧은 워크스루 BA는 교점 B로부터 나와서 교점 A으로 들어가는 것이다.

워크스루 그래프 내에서 네비게이션하는데 편리한 유저 인터페이스는 비디오 프레임 상의 핫스폿(hot spot)을 사용하는 것을 포함한다. 예를 들면, "식당"을 의미하는 표시를 클릭하면, 유저가 가상현실 환경에서의 가상 식당을 향하여 갈 수있도록 서버가 워크스루를 클라이언트에게 스트림시킨다. 소망한다면, "좌회전" 또는 "우회전" 같은 네비게이션 버튼이 제공될 수 있다. 반면, 소정의 교점에서 이러한 버튼을 선택함으로써, 유저는 상기 교점에서 이용가능한 빠져나가는 워크스루로부터 미리 인코딩된 워크스루를 선택할 수 있다. 예를 들면, 유저가 좌회전 옵션을 선택하면, 좌회전을 위한 비디오 시퀀스가 제공된다.

각 개별 워크스루는 인코딩 될 수 있고, 컴퓨터-생성된 비디오 압축 기술과 연계해서 상술된 방식을 사용하여 데이터 세트를 준비할 수 있다. 각 워크스루의 최초 및 최종 뷰(그래프의 정점)는 항상 기준 뷰들로서 선택될 수 있다. 소망한다면, 각 워크스루 내의 다른 뷰들은, 예를 들면 디스플레이율보다 저 주파수에서 워크스루 뷰를 샘플링함으로써 기준으로서 선택될 수 있다.

워크스루의 최초 기준 뷰는 또한 일반적으로 이전에 디스플레이된 워크스루의 최종 기준이다. 이 경우, 최초 기준과 연관된 데이터는 데이터 세트로부터 생략될 수 있다. 더불어, 최초 기준에서 필요로 하는 기하학 모델의 모든 부분들은 미리 클라이언트측에 존재할 수 있고, 이에 따라 데이터 세트로부터 생략될 수 있다.

이러한 타입의 장치에서, 실제 세계 비디오 시퀀스는 컴퓨터-생성된 비디오 압축과 연계하여 상술된 바와 같이 사용될 수 있다. 그러나, 워크스루가 거의 정확한 동일 뷰에서 종료 및 개시할 수 있도록 각별한 주의를 기울이는 것이 바람직하다. 예를 들면, 실제 카메라는 물리적인 트랙 등 상에 장착되어, 상기 실제 카메라는 유저가 가상현실 환경에서 네비게이트하게 될 그래프의 경로와 동일한 경로로 이동한다.

소망한다면, 인코더에 의해 준비된 미리 정해진 경로를 따라(그러나, 단순하지 않게) 유저가 로움할 수 있도록 더 많은 대화성이 지원될 수 있다. 이것은 클라이언트측에 디스플레이하기 위해 3차원적으로 맵되는 뷰들이 기준 뷰들만을 필요로 하지 않기 때문에 구현될 수 있다(즉, 도 1의 모델 상태(M_j)가 기준 모델 상태(M_i)와 동일한 경로에 위치될 필요없이, 뷰잉 각 등을 변화시킬 수 있음). 일반적으로, 재구성된 뷰들의 대부분은 기준 뷰들이 아니다. 유저가 카메라 뷰잉 각을 그 위치와 함께 변화시킬 수 있도록 하면, 기준 프레임의 시야각은 유저에게 디스플레이되는 시야보다 훨씬 넓은 것이 바람직하다. 유저가 소정의 뷰잉 각을 자유롭게 선택할 수 있는 비교적 극단적인 상황에서, 각 기준마다의 시야는 360°(파노라마)인 것이 바람직하다.

본 명세서에 설명된 예들이 보정 데이터 세트로서 차분 영상을 사용하지만, 다른 타입의 보정 데이터 세트가 차분 영상 대신에 또는 차분 영상과 함께 사용될 수 있다.

본 명세서에 설명된 3차원 모델은 일반적으로 다각형 및 텍스쳐 같은 기본요소(primitive)를 사용하여 형성될 수 있다. 소망한다면, 3차원 환경을 나타내는 다른 방법이 복셀(voxel), 너브(nurb) 등과 같이 사용될 수 있다.

또한, 픽셀 또는 픽셀의 그룹을 3차원적으로 맵핑할 때는 다른 품질의 기준이 사용될 수 있다. 예를 들면, 소정의 패치가 소스 대 타깃 뷰에 걸치는 영역들간의 비가 품질 기준으로 사용될 수 있다.

이상은 본 발명의 원리에 대한 일례일 뿐이며, 본 발명의 범주 및 사상을 이탈하지 않는 범위 내에서 당업자에게 다양한 변형이 이루어질 수 있다.

Claims

기준 프레임의 시퀀스를 사용하여 비디오를 압축 및 압축 해제하기 위한 비-클라이언트-서버 시스템에 있어서,

인코더, 및

디포더를 포함하고,

상기 인코더 및 디코더는 각각 3차원 맵핑을 사용하여 상기 시퀀스 내의 이전에 보정된(corrected) 기준 프레임으로부터 근사화된(approximated) 기준 프레임을 발생하도록 구성되고,

상기 인코더는 대응하는 정확한 기준 프레임에서 상기 근사화된 기준 프레임을 감산함으로써 복수의 차분(difference) 기준 프레임을 발생하도록 구성되고,

상기 인코더는 상기 차분 기준 프레임을 상기 디코더에 제공하도록 구성되고, 상기 인코더에서 보정된 기준 프레임을 생성시 다른 기준 프레임을 사용하도록 구성되고,

상기 디코더는 상기 인코더로부터 차분 기준 프레임을 수신하도록 구성되고, 상기 차분 기준 프레임 및 근사화된 기준 프레임에 기초하여 상기 디코더에서 보정된 기준 프레임을 생성하도록 구성되는

비-클라이언트-서버 시스템.
제 1 항에 있어서,

상기 디코더는 또한 상기 보정된 기준 프레임에 기초하여 근사화된 디스플레이 기준 프레임을 발생하도록 구성되는 비-클라이언트-서버 시스템.
제 1 항에 있어서,

상기 디코더는 또한 상기 보정된 기준 프레임에 기초하여 근사화된 디스플레이 프레임을 발생하도록 구성되고,

근사화된 기준 프레임보다 더 근사화된 디스플레이 프레임이 발생되는 비-클라이언트-서버 시스템.
제 1 항에 있어서,

상기 디코더는 또한 상기 보정된 기준 프레임에 기초하여 근사화된 디스플레이 프레임을 발생하도록 구성되고,

10개 이상의 근사화된 디스플레이 프레임이 각 근사화된 기준 프레임마다 발생되는 비-클라이언트-서버 시스템.
제 1 항에 있어서,

상기 인코더는 또한 차분 기준 프레임을 상기 디코더에 공급하기 전에 상기 차분 기준 프레임을 압축하도록 구성되는 비-클라이언트-서버 시스템.
제 1 항에 있어서,

상기 인코더는 또한 상기 디코더에 차분 기준 프레임을 공급하기 전에 JPEG 압축을 사용하여 상기 차분 기준 프레임을 압축하도록 구성되는 비-클라이언트-서버 시스템.
제 1 항에 있어서,

상기 인코더는 또한 상기 디코더에 차분 기준 프레임을 공급하기 전에 손실(lossy) 압축을 사용하여 상기 차분 기준 프레임을 압축하도록 구성되는 비-클라이언트-서버 시스템.
제 1 항에 있어서,

상기 인코더 및 디코더는 또한 3차원 모델 상태 정보에 기초하여 3차원 맵핑을 행하도록 구성되고,

상기 모델 상태 정보는 범위(range) 데이터를 생성하기 위해 사용되는 카메라 시점(point-of-view)을 포함하는 비-클라이언트-서버 시스템.
제 1 항에 있어서,

상기 인코더 및 디코더는 또한 3차원 모델 상태 정보에 기초하여 3차원 맵핑을 행하도록 구성되고,

상기 모델 상태 정보는 범위 데이터를 생성하기 위해 사용되는 카메라 시점을 포함하고,

상기 인코더는 또한 차분 기준 프레임을 통신 네트워크를 통해 상기 디코더에 스트림하도록 구성되는 비-클라이언트-서버 시스템.
제 1 항에 있어서,

상기 인코더는 또한 차분 기준 프레임을 통신 네트워크를 통해 상기 디코더에 스트림하도록 구성되는 비-클라이언트-서버 시스템.
제 1 항에 있어서,

상기 인코더는 또한 차분 기준 프레임을 통신 네트워크를 통해 상기 디코더에 스트림하도록 구성되고,

상기 인코더는 또한 유저 입력에 기초하여 정보를 인코드하도록 구성되는 비-클라이언트-서버 시스템.
제 1 항에 있어서,

상기 인코더는 또한 상기 디코더에 의한 다음의 사용을 위해 차분 기준 프레임을 오프라인으로 준비하도록 구성되는 비-클라이언트-서버 시스템.
기준 프레임의 시퀀스를 사용하여 비디오를 압축하는 시스템으로서, 상기 압축된 비디오는 디코더에 의해 압축 해제되는, 비디오 압축 시스템에 있어서,

3차원 맵핑을 사용하여 상기 시퀀스 내의 이전에 보정된 기준 프레임으로부터 근사화된 기준 프레임을 발생하고,

대응하는 정확한 기준 프레임에서 상기 근사화된 기준 프레임을 감산함으로써 복수의 차분 기준 프레임을 발생하고,

상기 차분 기준 프레임 및 근사화된 기준 프레임에 기초하여 상기 디코더에서 보정된 기준 프레임을 생성시 사용하기 위해 상기 차분 기준 프레임을 상기 디코더에 공급하도록

구성된 인코더를 포함하고,

상기 인코더에서 근사화된 기준 프레임의 발생시 3차원 맵핑에 의해 보정된 기준 프레임과 근사화된 기준 프레임 사이에서 맵되고 있는 근사화된 기준 프레임 내의 픽셀에 대한 품질 팩터를 계산하는

비디오 압축 시스템.
제 13 항에 있어서,

상기 품질 팩터는 픽셀 가시도와 로컬 스케일링 팩터의 조합에 기초하는 비디오 압축 시스템.
제 13 항에 있어서,

상기 차분 기준 프레임은 저 품질인 것으로 판단된 픽셀들만을 포함하는 비디오 압축 시스템.
제 13 항에 있어서,

상기 차분 기준 프레임은 저 품질인 것으로 판단된 픽셀들만을 포함하고, 상기 디코더에 공급되기 전에 팩되는(packed) 비디오 압축 시스템.
제 13 항에 있어서,

상기 근사화된 기준 프레임 내의 픽셀은 유사한 깊이값 및 고 품질을 갖는 비디오 압축 시스템.
제 13 항에 있어서,

상기 근사화된 기준 프레임 내의 픽셀은 유사한 깊이값 및 고 품질을 갖고,

상기 근사화된 기준 프레임 내에 주어진 픽셀은 각 주어진 픽셀에 이웃하는 픽셀들의 그룹에 대한 가중 평균 RGB값을 계산함으로써 보정된 기준 프레임 내의 픽셀로부터 발생되고,

상기 가중 평균은 상기 이웃한 픽셀과 각 주어진 픽셀간의 거리의 역에 기초한 가중치를 사용하는 비디오 압축 시스템.
기준 프레임의 시퀀스를 사용하여 비디오를 압축하는 시스템으로서, 상기 압축된 비디오는 디코더에 의해 압축 해제되는, 비디오 압축 시스템에 있어서,

3차원 맵핑을 사용하여 상기 시퀀스 내의 이전에 보정된 기준 프레임으로부터 근사화된 기준 프레임을 발생하고,

대응하는 정확한 기준 프레임에서 상기 근사화된 기준 프레임을 감산함으로써 복수의 차분 기준 프레임을 발생하고,

상기 차분 기준 프레임 및 근사화된 기준 프레임에 기초하여 상기 디코더에서 보정된 기준 프레임을 생성시 사용하기 위해 상기 차분 기준 프레임을 상기 디코더에 공급하도록

구성된 인코더를 포함하고,

상기 보정된 기준 프레임의 풀(pool)은 상기 인코더에 의해 선택되고,

품질 팩터는 보정된 기준 프레임 내의 픽셀을 근사화된 기준 프레임 내의 픽셀로 3차원 맵핑하기 위해 계산되고,

상기 픽셀은 최고의 품질 픽셀과 연관된 보정된 기준 프레임으로부터 근사화된 기준 프레임으로 맵되는

비디오 압축 시스템.
제 19 항에 있어서,

상기 픽셀은 각각 다수의 보정된 기준 프레임으로부터 근사화된 기준 프레임으로 맵되는 비디오 압축 시스템.
기준 프레임의 시퀀스를 사용하여 비디오를 압축하는 시스템으로서, 상기 압축된 비디오는 디코더에 의해 압축 해제되는, 비디오 압축 시스템에 있어서,

3차원 맵핑을 사용하여 상기 시퀀스 내의 이전에 보정된 기준 프레임으로부터 근사화된 기준 프레임을 발생하고,

대응하는 정확한 기준 프레임에서 상기 근사화된 기준 프레임을 감산함으로써 복수의 차분 기준 프레임을 발생하고,

상기 차분 기준 프레임 및 근사화된 기준 프레임에 기초하여 상기 디코더에서 보정된 기준 프레임을 생성시 사용하기 위해 상기 차분 기준 프레임을 상기 디코더에 공급하도록

구성된 인코더를 포함하고,

상기 3차원 맵핑은 Z-버퍼를 사용하여 행해지는

비디오 압축 시스템.
기준 프레임의 시퀀스를 사용하여 비디오를 압축하는 시스템으로서, 상기 압축된 비디오는 디코더에 의해 압축 해제되는, 비디오 압축 시스템에 있어서,

3차원 맵핑을 사용하여 상기 시퀀스 내의 이전에 보정된 기준 프레임으로부터 근사화된 기준 프레임을 발생하고,

대응하는 정확한 기준 프레임에서 상기 근사화된 기준 프레임을 감산함으로써 복수의 차분 기준 프레임을 발생하고,

상기 차분 기준 프레임 및 근사화된 기준 프레임에 기초하여 상기 디코더에서 보정된 기준 프레임을 생성시 사용하기 위해 상기 차분 기준 프레임을 상기 디코더에 공급하도록

구성된 인코더를 포함하고,

상기 인코더는 또한 3차원 모델 상태 정보에 기초하여 3차원 맵핑을 행하도록 구성되고,

상기 모델 상태 정보는 범위 데이터를 생성하기 위해 사용되는 카메라 시점을 포함하고,

상기 3차원 모델 상태 정보는 디코더에 공급되기 전에 단순화되는

비디오 압축 시스템.
기준 프레임의 시퀀스를 사용하여 비디오를 압축하는 시스템으로서, 상기 압축된 비디오는 디코더에 의해 압축 해제되는, 비디오 압축 시스템에 있어서,

3차원 맵핑을 사용하여 상기 시퀀스 내의 이전에 보정된 기준 프레임으로부터 근사화된 기준 프레임을 발생하고,

대응하는 정확한 기준 프레임에서 상기 근사화된 기준 프레임을 감산함으로써 복수의 차분 기준 프레임을 발생하고,

상기 차분 기준 프레임 및 근사화된 기준 프레임에 기초하여 상기 디코더에서 보정된 기준 프레임을 생성시 사용하기 위해 상기 차분 기준 프레임을 상기 디코더에 공급하고,

상기 차분 기준 프레임을 통신 네트워크를 통해 상기 디코더에 스트림하고,

유저 입력에 기초하여 정보를 인코딩하도록

구성된 인코더를 포함하고,

상기 디코더는 외삽기를 사용하여, 이후의 유저 입력을 외삽해서 이것을 상기 디코더에 전송하는

비디오 압축 시스템.
기준 프레임의 시퀀스를 사용하여 비디오를 압축하는 시스템으로서, 상기 압축된 비디오는 디코더에 의해 압축 해제되는, 비디오 압축 시스템에 있어서,

3차원 맵핑을 사용하여 상기 시퀀스 내의 이전에 보정된 기준 프레임으로부터 근사화된 기준 프레임을 발생하고,

대응하는 정확한 기준 프레임에서 상기 근사화된 기준 프레임을 감산함으로써 복수의 차분 기준 프레임을 발생하고,

상기 차분 기준 프레임 및 근사화된 기준 프레임에 기초하여 상기 디코더에서 보정된 기준 프레임을 생성시 사용하기 위해 상기 차분 기준 프레임을 상기 디코더에 공급하도록

구성된 인코더를 포함하고,

실제 세계 카메라가 정확한 기준 프레임을 생성하도록 사용되는

비디오 압축 시스템.
제 24 항에 있어서,

상기 실제 세계 카메라는 정확한 기준 프레임에 대한 깊이 정보를 발생하는 범위 스캐너를 포함하는 비디오 압축 시스템.
기준 프레임의 시퀀스를 사용하여 비디오를 압축하는 시스템으로서, 상기 압축된 비디오는 디코더에 의해 압축 해제되는, 비디오 압축 시스템에 있어서,

3차원 맵핑을 사용하여 상기 시퀀스 내의 이전에 보정된 기준 프레임으로부터 근사화된 기준 프레임을 발생하고,

대응하는 정확한 기준 프레임에서 상기 근사화된 기준 프레임을 감산함으로써 복수의 차분 기준 프레임을 발생하고,

상기 차분 기준 프레임 및 근사화된 기준 프레임에 기초하여 상기 디코더에서 보정된 기준 프레임을 생성시 사용하기 위해 상기 차분 기준 프레임을 상기 디코더에 공급하도록

구성된 인코더를 포함하고,

상기 정확한 기준 프레임의 적어도 일부는 방향성 그래프 내의 정점과 연관되는

비디오 압축 시스템.
제 26 항에 있어서,

상기 방향성 그래프는 에지를 포함하고,

차분 기준 프레임의 시퀀스는 각 에지와 연관되는 비디오 압축 시스템.
제 26 항에 있어서,

상기 방향성 그래프는 에지와 소스 및 타깃 정점을 포함하고,

최초 차분 기준 프레임 및 최종 차분 기준 프레임을 포함한 차분 기준 프레임의 시퀀스는 상기 에지들 중 주어진 것과 연관되어, 상기 소스 및 타깃 정점이 각각 상기 최초 및 최종 차분 기준 프레임과 연관되도록 하는 비디오 압축 시스템.
제 26 항에 있어서,

상기 방향성 그래프는 에지와 소스 및 타깃 정점을 포함하고,

최초 차분 기준 프레임 및 최종 차분 기준 프레임을 포함한 차분 기준 프레임의 시퀀스는 상기 에지들 중 주어진 것과 연관되어, 상기 소스 및 타깃 정점이 각각 상기 최초 및 최종 차분 기준 프레임과 연관되도록 하고,

상기 인코더는 상기 차분 기준 프레임을 오프라인으로 준비하는 비디오 압축 시스템.
제 26 항에 있어서,

상기 방향성 그래프는 에지와 소스 및 타깃 정점을 포함하고,

최초 차분 기준 프레임 및 최종 차분 기준 프레임을 포함한 차분 기준 프레임의 시퀀스는 상기 에지들 중 주어진 것과 연관되어, 상기 소스 및 타깃 정점이 각각 상기 최초 및 최종 차분 기준 프레임과 연관되도록 하고,

상기 인코더는 상기 차분 기준 프레임을 오프라인으로 준비하고,

상기 디코더는 상기 그래프를 통해 경로를 선택하기 위해 사용되는 비디오 압축 시스템.
제 26 항에 있어서,

상기 방향성 그래프는 에지와 소스 및 타깃 정점을 포함하고,

기준 프레임의 시퀀스가 각 에지와 연관되고,

상기 기준 프레임들 중 최초 프레임은 소스 정점과 연관되고,

상기 기준 프레임들 중 최종 프레임은 타깃 정점과 연관되고,

상기 최초 기준 프레임은 상기 소스 정점을 상기 주어진 에지와 공유하는 보정된 기준 프레임의 시퀀스로부터의 최종 보정된 기준 프레임인 비디오 압축 시스템.
제 26 항에 있어서,

상기 방향성 그래프는 에지와 소스 및 타깃 정점을 포함하고,

기준 프레임의 시퀀스가 각 에지와 연관되고,

상기 기준 프레임들 중 최초 프레임은 소스 정점과 연관되고,

상기 기준 프레임들 중 최종 프레임은 타깃 정점과 연관되고,

상기 인코더 및 디코더는 3차원 모델 상태 정보에 기초하여 3차원 맵핑을 행하고,

상기 인코더는 주어진 에지의 소스 정점에 대한 어떠한 3차원 모델 상태 정보도 디코더에 공급하지 않도록 구성되고,

상기 디코더는 다른 에지에 사용되는 기준 프레임 시퀀스의 최종 기준 프레임과 연관된 모델 상태 정보를 대신 사용하는 비디오 압축 시스템.