KR20200098495A

KR20200098495A - 전방향 비디오를 나타내는 멀티-뷰 비디오 시퀀스를 인코딩 및 디코딩하기 위한 방법 및 장치

Info

Publication number: KR20200098495A
Application number: KR1020207013823A
Authority: KR
Inventors: 조엘 정; 바파딧야 레이
Original assignee: 오렌지
Priority date: 2017-12-15
Filing date: 2018-11-26
Publication date: 2020-08-20
Also published as: JP2021507593A; EP3725080A1; WO2019115899A1; FR3075540A1; US11166043B2; US20200389670A1; JP7279047B2; BR112020011762A2; CN111630862B; EP3725080B1; RU2020123288A; RU2020123288A3; CN111630862A

Abstract

본 발명은 전방향(omnidirectional) 비디오를 나타내는 멀티-뷰 비디오 시퀀스를 나타내는 인코딩된 데이터 신호를 디코딩하는 방법 및 장치에 관한 것으로, 멀티-뷰 비디오 시퀀스는, 적어도, 제1 뷰와 제2 뷰를 포함한다. 제2 뷰의 평면으로부터 제1 뷰의 평면으로의 변환을 나타내는 호모그래픽 매트릭스(homographic matrix)가 획득(61)될 수 있게 하는 파라미터가 신호로부터 판독된다(60). 제2 뷰의 이미지는 호모그래픽 매트릭스를 통해 제1 뷰의 이미지 상으로 투영될 때 제1 뷰의 이미지에 포함되는 픽셀을 포함하는 이른바 활성 영역을 포함한다. 제2 뷰의 이미지는 제1 뷰의 이미지의 이전에 재구성된 픽셀 및 호모그래픽 매트릭스로부터 결정된 픽셀 값을 포함하는 기준 이미지의 생성(620)에 의해 디코딩되고(62), 제2 뷰의 이미지의 적어도 하나의 블록에 대하여, 생성된 기준 이미지는 블록이 활성 영역에 속할 때(622) 기준 이미지 리스트에 포함된다. 블록은 데이터 신호로부터 판독된(621) 인덱스가 나타내는 기준 이미지로부터 재구성된다(625).

Description

전방향 비디오를 나타내는 멀티-뷰 비디오 시퀀스를 인코딩 및 디코딩하기 위한 방법 및 장치

본 발명은 특히 360°, 180° 비디오 등과 같은 전방향(omnidirectional) 비디오에 관한 것이다. 상세하게는, 본 발명은 이러한 비디오의 인코딩 및 디코딩에 관한 것이다.

360° 비디오는 구형(spherical) 플랫폼에 설치된 카메라들에 의해 캡처된다. 이러한 카메라들은 모든 방향으로 장면을 캡처하기 위하여 배치되기 때문에, 발산적(divergent)이라고 한다. 각각의 카메라는 장면의 일부를 캡처하고, 카메라들에 의해 캡처된 모든 뷰(view)들은 360° 시야에 따른 장면을 나타내는 비디오를 생성할 수 있게 된다.

그 다음, 이러한 360° 비디오는 사용자가 자신이 마치 장면의 중심에 놓여 있는 것처럼 장면을 볼 수 있게 하고, 자신의 주위로 360°로 모든 것을 볼 수 있게 하며, 이에 따라 비디오를 시청하는 새로운 방식을 제공한다. 이러한 비디오는 일반적으로, "헤드 마운트 장치(Head Mounted Device)"를 나타내는 HMD라는 명칭으로도 알려진 가상 현실 헤드셋에서 재생된다. 그러나, 이는 또한 맞춤식 사용자 상호 작용 수단을 구비한 2D 스크린 상에서도 디스플레이될 수 있다. 360° 장면을 캡처하기 위한 카메라의 수는 사용되는 플랫폼에 따라 달라진다.

그러나, 사용되는 플랫폼에 관계 없이, 2개의 이웃하는 카메라는 각각 이러한 2개의 카메라에 의해 캡처되는 데이터에서 중첩을 갖는 장면의 일부를 캡처한다. 다른 말로 하면, 360°로 캡처된 장면의 일부는 2개의 이웃하는 카메라에 의해 각각 캡처되는 2개의 뷰 사이에서 공통된다. 이것은 다음의 2개의 뷰를 도시하는 도 1에 예시된다: 제1 카메라가 캡처한 뷰 1 및 제1 카메라의 오른쪽에 놓여진 제2 카메라가 캡처한 뷰 2. 도 1에서, 뷰 1에서의 오른쪽 상의 영역(실선으로 프레이밍됨)은 뷰 2에서의 왼쪽 상의 영역(실선으로 프레이밍됨)과 동일한 캡처 장면 부분에 대응한다. 따라서, 뷰 1 및 뷰 2 사이에 장면 데이터의 중첩이 있다. 이러한 중첩은 사용자가 360° 비디오에 의해 제공된 시야를 가로지를 때 연속하는 전이를 가능하게 하는데 필수적이다.

360° 비디오를 생성하기 위하여, 상이한 카메라에 의해 캡처된 발산하는 뷰는 뷰들 사이의 중첩을 고려하여 끝과 끝을 붙여 배치되어, 파노라마 2D 뷰를 생성한다. 이 단계는 "스티칭(stitching)"으로도 알려져 있다. 예를 들어, 정방형 도법(equirectangular projection(ERP)이 이러한 파노라마 이미지를 획득하기 위한 가능한 투영법이다. 이 투영법에 따르면, 각각의 뷰의 이미지는 구형 표면 상으로 투영된다. 또한, 큐브 매핑 유형의 투영법(큐브의 면 상의 투영)과 같은 다른 종류의 투영법도 가능하다. 그 다음, 표면 상에 투영된 이미지는 2D 평면 상으로 투영되어 주어진 순간에 캡처된 장면의 모든 뷰를 포함하는 2D 이미지를 획득한다.

따라서, 2D 이미지는 종래의 2D 비디오 인코더, 예를 들어, HEVC("High Efficiency Video Coding"에 대한 약어) 표준에 준수하는 인코더를 이용하여 인코딩된다.

이 기술의 주요 이점은 360° 비디오가 사용자에게 리턴될 때, 고정된 중심점 주위로 회전함으로써 시점을 변경하는 것이 가능하다는 것이지만, 예를 들어, 왼쪽, 오른쪽, 전방 또는 후방으로 몇 센티미터 이동함으로써, 이 중심점으로부터 변위하는 것은 가능하지 않다. 다른 말로 하면, 시점을 변경하기 위하여는, 단지 회전만이 혀용되며, 다른 이동, 특히 병진 운동(translation)은 배제된다. 따라서, 이러한 기술은 3의 자유도(3의 자유도(3 Degree of Freedom에 대하여 3DoF)를 제공하지만, 이는 6의 자유도(6DoF)에 따른 자연스러운 이동을 제공하지 않는다.

이러한 단점은 사용자가 단지 회전 이동만을 수행할 때에도 실제로는 많은 작은 기생 병진 이동이 있다는 점에서 오히려 짜증스럽다. 이러한 병진 이동은 정확하게 렌더링되지 않으며, 이는 사용자의 뇌가 예상하는 것에 완벽하게는 대응하지 않는 사용자 픽셀에 대한 디스플레이의 결과를 초래한다. 이것은 HMD 유형의 장비의 사용자가 느끼는 불편함의 주요 원인 중 하나이다.

MV-HEVC 및 3D-HEVC 인코더가 멀티-뷰(multi-view) 컨텐츠를 인코딩하는데 사용된다. 이러한 인코더는 멀티-뷰 컨텐츠의 뷰간(inter-view) 유사성을 이용한다. 그러나, 이러한 인코더는, 장면의 외부에 위치 설정된, 상이한 중심을 갖는 카메라에 의해 캡처된 다수의 선형 또는 수렴(convergent) 뷰를 다루도록 설계된다. 따라서, 이러한 인코더에서, "베이스라인 거리(baseline distance)"라 하는 2개의 카메라 중심 사이의 거리가 깊이 맵의 도움으로 격차(disparity)를 계산하는데 사용된다. 그 다음, 격차는 격차 보상에 의한 예측을 통해 일부 블록의 예측을 위하여 사용되며, 이는 비디오 시퀀스의 이미지를 인코딩할 때 뷰간 유사성을 이용할 수 있게 한다.

360° 비디오의 경우, 뷰는 발산하고, 이러한 멀티-뷰 인코더는 360° 비디오의 뷰를 인코딩하는데 최적이지 않으며, 뷰간 예측은 인코더에 의해 거의 사용되지 않거나 심지어 사용되지 않는다. 사실, 360° 비디오의 2개의 뷰 사이에, 뷰들 사이에서 예측될 수 있는 유사한 컨텐츠는 거의 없다.

또한, 2개의 이웃하는 뷰 사이의 중첩하는 영역은 완전히 유사하지는 않다. 사실, 중첩하는 영역의 픽셀은 뷰들 사이에서 기하학적 변환을 겪었으며, 중첩하는 영역에서 하나의 뷰에서 다른 뷰로의 픽셀의 단순한 복사는 비효율적인 뷰간 예측을 초래한다.

따라서, 종래 기술을 개선할 필요성이 있다.

본 발명은 종래 기술을 개선한다. 그 목적으로, 이는 전방향(omnidirectional) 비디오를 나타내는 멀티-뷰 비디오 시퀀스를 나타내는 인코딩된 데이터 신호를 디코딩하는 디코딩 방법에 관련되고, 멀티-뷰 비디오 시퀀스는, 적어도, 하나의 제1 뷰와 하나의 제2 뷰를 포함한다. 이러한 디코딩 방법은,

- 데이터 신호에서, 제2 뷰의 평면으로부터 제1 뷰의 평면으로의 변환을 나타내는 호모그래픽 매트릭스(homographic matrix)를 획득할 수 있게 하는 파라미터를 판독하는 단계와,

- 제2 뷰의 이미지를 디코딩하는 단계

를 포함하고,

제2 뷰의 이미지는 픽셀이 호모그래픽 매트릭스를 통해 제1 뷰의 이미지 상으로 투영될 때, 제1 뷰의 이미지에 포함된 픽셀을 포함하는, 활성 영역이라 불리는 영역을 포함하고,

상기 제2 뷰의 이미지를 디코딩하는 단계는,

- 제1 뷰의 이미지의 이전에 재구성된 픽셀 및 호모그래픽 매트릭스로부터 결정된 픽셀 값을 포함하는 기준 이미지를 생성하는 단계와,

- 제2 뷰의 이미지의 적어도 하나의 블록에 대하여:

- 이전에 재구성된 제2 뷰의 적어도 하나의 이미지를 포함하는 기준 이미지 리스트에 포함된 기준 이미지를 나타내는 인덱스를 데이터 신호에서 판독하는 단계와,

- 블록이 활성 영역에 속하는지 여부를 판단하는 단계와,

- 판독된 인덱스가 나타내는 상기 기준 이미지로부터 상기 블록을 재구성하는 단계

를 포함하고,

생성된 기준 이미지는 상기 블록이 활성 영역에 속할 때 상기 기준 이미지 리스트에 포함되고, 생성된 기준 이미지는 상기 블록이 활성 영역에 속하지 않을 때 상기 기준 이미지 리스트에 포함되지 않는다.

따라서, 본 발명에 따른 방법은, 뷰간 중첩 영역에 속하는 블록에 대하여 이웃하는 뷰들 사이의 리던던시를 활용함으로써, 발산하는 뷰를 인코딩하는 멀티 뷰 인코더의 압축 성능을 개선할 수 있게 한다.

유익하게는, 뷰간 예측은 뷰들 사이의 기하학적 왜곡을 보상할 수 있게 하는 호모그래픽 매트릭스를 고려함으로써 개선된다.

뷰간 중첩 영역은 제1 뷰의 이미지 평면으로부터 제2 뷰의 이미지 평면으로의 변환을 나타내는 호모그래픽 매트릭스를 이용하여 결정된다.

본 발명에 따르면, 디코딩될 이미지의 활성 영역에 속하는 블록에 대하여, 예측은 호모그래픽 매트릭스 및 이전에 재구성된 뷰의 이미지 덕분에 생성된 새로운 기준 이미지를 고려하는 가능성에 의해 개선된다. 이러한 새로운 기준 이미지는 활성 영역에 속하는 블록에 대하여만 사용 가능하다. 따라서, 기준 이미지 리스트에서의 이러한 새로운 기준 이미지의 삽입은 활성 영역에 속하지 않는 다른 블록에 대한 기준 이미지를 신호 전송하는 비용에 영향을 미치지 않는다.

활성 영역에 속하는 블록의 위치는 호모그래픽 매트릭스를 통해 디코딩될 이미지의 픽셀의 이전에 재구성된 이미지 상의 투영으로부터 직접 얻어지며, 따라서 이러한 블록이 새로운 기준 이미지를 사용할 수 있는지 여부를 나타내기 위한 추가 정보를 인코딩하는 것은 필요하지 않다.

블록이 활성 영역에 속하지 않는다면, 이는, 예를 들어, 인트라(intra) 예측에 의해 이전에 재구성되거나 또는 이미지간(inter-image) 예측에 의해 이전에 인코딩 및 디코딩된 동일한 뷰의 다른 이미지에 속하는 픽셀을 이용하여 통상적으로 재구성된다.

유익하게는, 기준 이미지는 제2 뷰의 평면에서 정의된다. 특히, 활성 영역은 호모그래픽 매트릭스를 이용하여 제1 뷰의 이미지 내로 투영된 모든 픽셀에 의해 제2 뷰의 이미지 내에서 결정된다.

따라서, 새로운 기준 이미지는 호모그래픽 매트릭스에 의해 제1 뷰의 이미지 상으로 투영된 제2 뷰의 이미지의 픽셀에 대응하는 활성 영역이라 불리는 픽셀을 포함한다. 제1 뷰의 이미지에서 대응 관계를 가지지 않는 기준 이미지의 나머지 픽셀은 비활성 픽셀이라 불린다.

아래에 언급된 다양한 실시예들 또는 특징들은 위에서 정의된 디코딩 방법의 특징에 독립적으로 또는 서로 조합하여 추가될 수 있다.

본 발명의 특정 실시예에 따르면, 파라미터는 제1 뷰와 연관된 제1 카메라 및 제2 뷰와 연관된 제2 카메라와 각각 연관된 카메라 파라미터이고, 방법은 상기 카메라 파라미터로부터 상기 호모그래픽 매트릭스를 계산하는 단계를 더 포함한다.

본 발명의 이 특정 실시예에 따르면, 호모그래픽 매트릭스는, 특히, 각각의 카메라의 초점 길이와 제1 뷰의 카메라와 제2 뷰의 카메라 사이의 회전 각도를 나타내는 각도 분리와 같은 멀티-뷰 시퀀스를 나타내는 데이터 신호에 인코딩된 카메라 파라미터로부터, 디코딩 동안 계산된다.

본 발명의 다른 특정 실시예에 따르면, 파라미터는 호모그래픽 매트릭스의 계수이다.

본 발명의 이 특정 실시예에 따르면, 디코딩에 따라 호모그래픽 매트릭스를 재계산하는 것이 필요하지 않다. 이의 계수는 인코더에서 계산되고, 멀티-뷰 시퀀스를 나타내는 데이터 신호 내에 전송된다. 이것은 디코더에서 더 낮은 계산 복잡성을 제공한다.

본 발명의 다른 특정 실시예에 따르면, 활성 영역의 경계가 재구성될 블록을 교차할 때, 디코딩 방법은,

- 데이터 신호에서, 기준 이미지 그룹에 포함된 기준 이미지를 나타내는 다른 인덱스를 판독하는 단계

를 더 포함하고,

상기 기준 이미지 그룹은 생성된 기준 이미지를 포함하지 않고, 활성 영역에 속하지 않는 재구성될 블록의 픽셀은 판독된 다른 인덱스가 나타내는 기준 이미지의 픽셀로부터 재구성된다.

본 발명의 이 특정 실시예는 활성 영역의 경계에 위치된 블록의 세그먼트화를 제공하는 것을 허용하며, 경계에 상대적인 블록에서의 픽셀의 위치에 따라 이러한 블록의 픽셀의 예측을 조정하고, 이 세그먼트화를 인코딩하기 위한 정보를 필요로 하지 않는다.

본 발명의 다른 특정 실시예에 따르면, 디코딩 방법은,

- 데이터 신호에서, 제2 뷰의 평면으로부터 제3 뷰의 평면으로의 변환을 나타내는 다른 호모그래픽 매트릭스를 획득할 수 있게 하는 파라미터를 판독하는 단계

를 더 포함하고,

다른 호모그래픽 매트릭스를 통해 제3 뷰의 이미지 내로 투영된 제2 뷰의 이미지의 적어도 하나의 픽셀은 제3 뷰의 이미지에 포함되고,

- 생성된 기준 이미지는 제3 뷰의 이미지의 이전에 재구성된 픽셀 및 다른 호모그래픽 매트릭스로부터 결정된 픽셀 값을 더 포함한다.

본 발명의 이 특정 실시예는 새로운 기준 이미지를 생성하기 위하여 다른 이전에 재구성된 뷰의 이미지를 고려할 수 있게 한다. 따라서, 다른 뷰가 또한 제2 뷰를 예측하는데 사용 가능할 때, 비활성 픽셀의 영역이 감소된다. 사실, 제2 뷰로부터 제3 뷰로 스위칭할 수 있게 하는 다른 호모그래픽 매트릭스는 다른 호모그래픽 매트릭스를 통해 제3 뷰의 이미지 상으로 투영될 때 제3 뷰의 이미지에 포함되는 픽셀에 대응하는 새로운 활성 영역을 기준 이미지에서 정의할 수 있게 한다.

또한, 본 발명은, 전방향 비디오를 나타내는 멀티-뷰 비디오 시퀀스를 데이터 신호에 인코딩하는 인코딩 방법에 관한 것으로, 멀티-뷰 비디오 시퀀스는, 적어도, 하나의 제1 뷰와 하나의 제2 뷰를 포함한다. 인코딩 방법은,

- 제2 뷰의 평면으로부터 제1 뷰의 평면으로의 변환을 나타내는 호모그래픽 매트릭스를 계산하는 단계와,

- 디코딩에 따라 상기 호모그래픽 매트릭스를 획득할 수 있게 하는 파라미터를 데이터 신호에 인코딩하는 단계와,

- 제2 뷰의 이미지를 인코딩하는 단계

를 포함하고,

상기 제2 뷰의 이미지를 인코딩하는 단계는,

- 제2 뷰의 이미지의 적어도 하나의 블록에 대하여:

블록이 활성 영역에 속하는지 여부를 판단하는 단계와,

- 이전에 재구성된 제2 뷰의 적어도 하나의 이미지를 포함하는 기준 이미지 리스트에 포함된 기준 이미지로부터 1상기 블록을 예측하는 단계와,

- 상기 블록을 예측하는데 사용되는 기준 이미지를 나타내는 인덱스를 데이터 신호에 인코딩하는 단계

를 포함하고,

본 발명의 다른 특정 실시예에 따르면, 파라미터는 제1 뷰와 연관된 제1 카메라 및 제2 뷰와 연관된 제2 카메라와 각각 연관된 카메라 파라미터이다.

본 발명의 다른 특정 실시예에 따르면, 활성 영역의 경계가 인코딩될 블록을 교차할 때, 인코딩 방법은,

- 기준 이미지 그룹에 포함된 기준 이미지를 나타내는 다른 인덱스를 데이터 신호에 인코딩하는 단계

를 더 포함하고,

상기 기준 이미지 그룹은 생성된 기준 이미지를 포함하지 않고, 활성 영역에 속하지 않는 인코딩될 블록의 픽셀은 다른 인덱스가 나타내는 기준 이미지의 픽셀로부터 예측된다.

본 발명의 다른 특정 실시예에 따르면, 인코딩 방법은,

- 제2 뷰의 평면으로부터 제3 뷰의 평면으로의 변환을 나타내는 다른 호모그래픽 매트릭스를 계산하는 단계로서, 다른 호모그래픽 매트릭스를 통해 제3 뷰의 이미지 내로 투영된 제2 뷰의 이미지의 적어도 하나의 픽셀은 제3 뷰의 이미지에 포함되는 단계와,

- 상기 다른 호모그래픽 매트릭스를 획득할 수 있게 하는 파라미터를 데이터 신호에 인코딩하는 단계

를 더 포함하고,

또한, 본 발명은, 전방향 비디오를 나타내는 멀티-뷰 비디오 시퀀스를 나타내는 인코딩된 데이터 신호를 디코딩하는 디코딩 장치에 관한 것으로, 멀티-뷰 비디오 시퀀스는, 적어도, 하나의 제1 뷰와 하나의 제2 뷰를 포함하고, 디코딩 장치는,

- 데이터 신호에서, 제2 뷰의 평면으로부터 제1 뷰의 평면으로의 변환을 나타내는 호모그래픽 매트릭스를 획득할 수 있게 하는 파라미터를 판독하는 수단과,

- 제2 뷰의 이미지를 디코딩하는 수단

을 포함하고,

상기 제2 뷰의 이미지를 디코딩하는 수단은,

- 제1 뷰의 이미지의 이전에 재구성된 픽셀 및 호모그래픽 매트릭스로부터 결정된 픽셀 값을 포함하는 기준 이미지를 생성하는 수단과,

- 제2 뷰의 이미지의 적어도 하나의 블록에 대하여:

- 이전에 재구성된 제2 뷰의 적어도 하나의 이미지를 포함하는 기준 이미지 리스트에 포함된 기준 이미지를 나타내는 인덱스를 데이터 신호로부터 판독하는 수단과,

- 블록이 활성 영역에 속하는지 여부를 판단하는 수단과,

- 판독된 인덱스가 나타내는 상기 기준 이미지로부터 상기 블록을 재구성하는 수단

을 포함하고,

또한, 본 발명은 전방향 비디오를 나타내는 멀티-뷰 비디오 시퀀스를 데이터 신호에 인코딩하는 인코딩 장치에 관한 것으로, 멀티-뷰 비디오 시퀀스는, 적어도, 하나의 제1 뷰와 하나의 제2 뷰를 포함하고, 인코딩 장치는,

- 제2 뷰의 평면으로부터 제1 뷰의 평면으로의 변환을 나타내는 호모그래픽 매트릭스를 계산하는 수단과,

- 상기 호모그래픽 매트릭스를 획득할 수 있게 하는 파라미터를 데이터 신호에 인코딩하는 수단과,

- 제2 뷰의 이미지를 인코딩하는 수단

을 포함하고,

제2 뷰의 이미지는 상기 픽셀이 호모그래픽 매트릭스를 통해 제1 뷰의 이미지 상으로 투영될 때, 제1 뷰의 이미지에 포함된 픽셀을 포함하는, 활성 영역이라 불리는 영역을 포함하고,

상기 제2 뷰의 이미지를 인코딩하는 수단은,

- 제2 뷰의 이미지의 적어도 하나의 블록에 대하여:

- 블록이 활성 영역에 속하는지 여부를 판단하는 수단과,

- 이전에 재구성된 제2 뷰의 적어도 하나의 이미지를 포함하는 기준 이미지 리스트에 포함된 기준 이미지로부터 상기 블록을 예측하는 수단과,

- 블록을 예측하는데 사용되는 기준 이미지를 나타내는 인덱스를 데이터 신호에 인코딩하는 수단

을 포함하고,

본 발명의 특정 실시예에 따르면, 디코딩 방법 및 인코딩 방법은 각각 컴퓨터 프로그램에 의해 구현된다. 또한, 본 발명은, 프로세서에 의해 실행될 때, 전술된 특정 실시예들 중 임의의 하나에 의해 따른 디코딩 방법 또는 인코딩 방법을 구현하기 위한 명령어를 포함하는 컴퓨터 프로그램에 관한 것이다. 이러한 프로그램은 임의의 프로그래밍 언어를 사용할 수 있다. 이는 통신 네트워크로부터 다운로드될 수 있고 그리고/또는 컴퓨터 판독 가능한 매체에 저장될 수 있다. 이 프로그램은 임의의 프로그래밍 언어를 사용할 수 있고, 부분적으로 컴파일된 형태 또는 임의의 다른 원하는 형태와 같이, 소스 코드, 오브젝트 코드, 또는 소스 코드와 오브젝트 코드 사이의 중간 코드의 형태를 가질 수 있다.

또한, 본 발명은 컴퓨터에 의해 판독 가능하고 위에서 언급된 바와 같은 컴퓨터 프로그램의 명령어를 포함하는 기록 매체 또는 정보 매체에 관한 것이다. 위에서 언급된 기록 매체는 프로그램을 저장할 수 있는 임의의 엔티티 또는 장치일 수 있다. 예를 들어, 매체는 예를 들어 CR ROM이나 마이크로 전자회로 ROM인 ROM과 같은 저장 수단이나, 아니면 예를 들어 플로피 디스크나 하드 디스크인 자기 기록 수단을 포함할 수 있다. 한편, 기록 매체는 전기 또는 광 케이블을 통해, 무선에 의해 또는 다른 수단에 의해 라우팅될 수 있는 전기 또는 광 신호와 같은 전송 가능한 매체에 대응할 수 있다. 특히, 본 발명에 따른 프로그램은 인터넷 유형의 네트워크로부터 다운로드될 수 있다. 대안적으로, 기록 매체는 프로그램이 포함되는 집적 회로에 대응할 수 있고, 회로는 논의 대상인 방법의 실행에 사용되거나 이를 실행하도록 맞추어진다.

본 발명의 다른 특징 및 이점은 단순히 예시적이고 비한정적인 예로서 주어지는 특정 실시예 및 다음의 도면에 대한 이어지는 설명을 읽고 더욱 명백하게 될 것이다:
- 도 1은 2개의 카메라에 의해 캡처되고 중첩하는 영역을 갖는 2개의 발산하는 뷰를 도시하고,
- 도 2는 발산하는 뷰를 캡처하는 일례를 개략적으로 도시하고,
- 도 3은 도 2에 도시된 시스템에 따라 배치된 인접하는 뷰들과 하나 또는 2개의 중첩하는 영역(들)을 갖는 뷰들의 2가지 예를 도시하고,
- 도 4는 본 발명의 특정 실시예에 따른 전방향 비디오를 인코딩하기 위한 방법의 단계들을 개략적으로 도시하고,
- 도 5는 중심 뷰의 왼쪽 상의 뷰와 오른쪽 상의 뷰로부터 인코딩되거나 디코딩될 중심 뷰를 위한 본 발명의 특정 실시예에 따라 생성된 기준 이미지의 일례를 도시하고,
- 도 6은 본 발명의 특정 실시예에 따른 전방향 비디오를 디코딩하기 위한 방법의 단계들을 개략적으로 도시하고,
- 도 7은 인코딩되거나 디코딩될 이미지의 활성 영역과 비활성 영역 사이의 경계를 통해 교차되는 블록의 일례를 도시하고,
- 도 8은 본 발명의 특정 실시예에 따른 전방향 비디오를 인코딩하기 위한 장치를 개략적으로 도시하고,
- 도 9는 본 발명의 특정 실시예에 따른 전방향 비디오를 디코딩하기 위한 장치를 개략적으로 도시하고,
- 도 10a 및 10b는 본 발명의 특정 실시예에 따른 전방향 비디오를 나타내는 인코딩된 데이터 신호를 개략적으로 도시하고,
- 도 11은 2개의 발산하는 카메라 A 및 B 각각에 대한 2개의 이미지 평면 상의 3D 공간의 점 P의 투영을 도시한다.

1. 일반 원리

본 발명의 목적 중 하나는, 각각의 뷰가 동일한 이전에 인코딩된 뷰의 이미지에 상대적인 시간적 예측에 의해 또는 다른 뷰의 이미지에 상대적인 뷰간 예측(inter-view prediction)에 의해 인코딩되는, 전방향 비디오(omnidirectional video)가 멀티-뷰 인코더에 의해 인코딩될 때 이러한 비디오의 인코딩을 개선하는 것이다.

전방향 비디오의 뷰를 인코딩할 때 뷰간 예측을 개선하기 위하여, 인코딩될 뷰에 이웃하는 뷰들의 이전에 인코딩된 이미지로부터 새로운 기준 이미지가 생성된다. 더욱 상세하게는, 인코딩되거나 디코딩될 뷰로부터의 픽셀들을 인코딩되거나 디코딩될 뷰에 인접한 뷰의 이미지로 투영할 수 있게 하는 호모그래픽 매트릭스(homographic matrix)가 계산된다. 그 다음, 인접한 뷰의 이미지의 경계에서 투영되는 인코딩되거나 디코딩될 뷰의 픽셀들은 인코딩되거나 디코딩될 이미지의 활성 영역을 정의한다. 그 다음, 이러한 활성 영역은 이 픽셀들이 이전에 재구성되었을 때 인접한 뷰의 이미지의 픽셀들로부터 예측될 수 있다. 따라서, 뷰간 중첩의 영역을 고려함으로써 전방향 비디오의 뷰를 인코딩할 때 뷰간 예측은 개선된다.

유익하게는, 현재 뷰의 이미지 블록을 인코딩하거나 디코딩하기 위하여, 새로운 기준 이미지가 인접한 뷰의 이전에 재구성된 픽셀들 및 호모그래픽 매트릭스로부터 생성된다. 인코딩되거나 디코딩될 블록이 인코딩되거나 디코딩될 이미지의 활성 영역에 적어도 부분적으로 속할 때, 이 새로운 기준 이미지는 기준 이미지 리스트에 사용될 수 있다.

따라서, 이 새로운 기준 이미지를 신호 전송하는 비용은 활성 영역에 속하지 않는 다른 블록의 인코딩에 영향을 미치지 않는다.

2. 구현예

도 2는 발산하는 뷰 캡처의 일례를 개략적으로 도시하고, 6개의 뷰(V1 내지 V6)가 도 2에서 점 C로 나타낸 플랫폼 상에 배치된 6개의 카메라로부터 각각 캡처된다. 도 2에서, 각각의 카메라의 시야는 실선 또는 점선으로 표시되고, 각각의 카메라와 연관된 뷰의 이미지 평면은 카메라의 시야와 동일한 실선 또는 점선을 이용하여 표시된다. 각각의 뷰에 대하여, 현재 뷰와 왼쪽 및 오른 쪽 뷰의 각각 사이의 중첩 영역 존재하는 것으로 보여진다. 다른 말로 하면, 2개의 인접하거나 이웃하는 뷰들은 각각의 카메라에 의해 각각 캡처된 장면의 동일한 3D 데이터를 나타내는 픽셀을 가진다. 예를 들어, 도 2에서, 영역(ZC1)은 뷰(V1) 및 뷰(V6) 사이의 중첩을 도시하고, 영역(ZC2)은 뷰(V2) 및 뷰(V3) 사이의 중첩을 도시하고, 영역(ZC5)은 뷰(V5) 및 뷰(V6) 사이의 중첩을 도시한다.

그러나, 현재 뷰를 인코딩하기 위하여 인접한 뷰의 중첩하는 영역으로부터의 정보를 이용하기 위하여, 인접한 뷰가 이전에 인코딩되고 재구성되는 것이 필요하다.

따라서, 예를 들어, 뷰의 인코딩 순서가 V1, V2, V3, V4, V5 및 V6이라면, 뷰(V1)는 어떠한 뷰도 아직 인코딩되지 않기 때문에 중첩하는 영역에 상대적인 예측 없이 인코딩된다. 뷰(V1)의 이미지는, 예를 들어, 뷰(V1)의 이전에 인코딩된 이미지에 상대적인 시간적 예측에 의해 인코딩될 것이다.

뷰(V2, V3, V4 및 V5)의 인코딩은 동일한 뷰의 이전에 인코딩된 이미지에 상대적인 시간적 예측 및/또는 현재 뷰(V2, V3, V3 및 V5)와 오른쪽 뷰(각각 V1, V2, V3 및 V4) 사이의 중첩하는 영역을 이용한 뷰간 예측을 구현할 수 있다.

뷰(V6)의 인코딩은 동일한 뷰의 이전에 인코딩된 이미지에 상대적인 시간적 예측 및/또는 현재 뷰(V6)와 오른쪽 뷰(V5) 사이의 중첩하는 영역을 이용한 뷰간 예측 및/또는 현재 뷰(V6)와 왼쪽 뷰(V1) 사이의 중첩하는 영역을 이용한 뷰간 예측을 이용할 수 있다.

예를 들어, 도 3에 도시된 바와 같이, 뷰(V6)에 대하여, 뷰(V6)와의 뷰(V1)의 중첩을 나타내는 영역(ZA1)과 뷰(V6)와의 뷰(V5)의 중첩을 나타내는 중첩하는 영역(ZA5)이 뷰(V6)의 예측을 위하여 사용될 수 있다.

다른 예에 따르면, 뷰(V3)에 대하여, 뷰(V3)와의 뷰(V2)의 중첩을 나타내는 영역(ZA2)이 뷰(V3)의 예측을 위하여 사용될 수 있다.

아래에서 설명되는 전방향 비디오를 인코딩 및 디코딩하기 위한 방법은 일반적으로 N 뷰를 갖는 멀티-뷰 이미지 시퀀스의 경우에 적용되고, N은 2 이상의 정수이다.

전방향 비디오를 인코딩 및 디코딩하기 위한 방법이 아래에서 일반적으로 설명되며, 예를 들어, 3D-HEVC나 MV-HEVC 표준, 또는 다른 것과 같은 임의의 종류의 멀티-뷰 비디오 인코더/디코더에 통합될 수 있다.

도 4는 본 발명의 특정 실시예에 따른 전방향 비디오를 인코딩하기 위한 방법의 단계들을 개략적으로 도시한다.

단계 40 동안, 인코딩될 각각의 뷰(k)에 대하여, 인코딩될 뷰(k)의 평면으로부터 인코딩될 뷰(k)에 인접한 뷰(예를 들어, k-1)의 평면으로의 변환을 나타내기 위한 호모그래픽 매트릭스(homographic matrix)가 계산된다. 여기에서, 인코딩될 뷰에 인접한 뷰의 이미지는 이전에 인코딩되고 재구성된 것으로 고려된다. 따라서, 여기에서, 뷰(k-1)의 이미지는, 동일한 뷰의 이전에 인코딩되고 재구성된 이미지에 상대적인 시간적 예측 또는 뷰간 예측에 의해, 이전에 인코딩되고 재구성된 것으로 고려된다.

인코딩될 현재 뷰(k)가 2개의 이전에 인코딩되고 재구성된 뷰에 각각의 측에서 인접할 때, 각각 인코딩될 뷰의 평면으로부터 오른쪽 뷰의 평면으로의 변환 및 인코딩될 뷰의 평면으로부터 왼쪽 뷰의 평면으로의 변환에 대응하는 2개의 호모그래픽 매트릭스가 계산된다.

뷰(k)의 인코딩이 아래에서 고려되며, 인접한 뷰(k-1)는 이전에 인코딩되고 재구성되었으며, 뷰(k)와 중첩하는 영역을 가진다.

여기에서, 뷰(k)의 이미지의 적어도 하나의 픽셀이 뷰(k-1)의 이미지 상으로 투영된다면, 뷰(k)는 뷰(k-1)와 중첩하는 영역을 가지는 것으로 고려된다. 그러면, 이러한 픽셀은 뷰(k)의 이미지의 활성 영역이라 불리는 영역에 있다.

단계 40 동안, 인접한 뷰(k-1)와 인코딩될 현재 뷰(k) 사이의 호모그래픽 매트릭스가 인접한 뷰(k-1) 및 현재 뷰(k)와 각각 연관된 카메라 파라미터로부터 계산된다.

호모그래픽 매트릭스의 계산은 2개의 발산하는 카메라 A 및 B의 캡처 시야가 표시되는 도 11과 관련하여 설명된다. 카메라 A의 주축은 축(z_A)이고, 카메라 A의 이미지 평면(PL_A)에 수직인 축에 대응한다. 인접한 카메라 B는 카메라 A의 축(Z_A)에 대하여 θsep의 각도로 회전된다. 카메라 B의 주축은 축(z_B)이고, 카메라 B의 이미지 평면(PL_B)에 수직인 축에 대응한다.

3D 공간의 점 P(px, py, pz)는 카메라 A의 이미지 평면(PL_A)에서 점 P_A(pax, pay)에 투영되고, 카메라 B의 이미지 평면(PL_B)에서 점 P_B(pbx, pby)에 투영된다. 점 P, P_A, P_B 사이의 관계는 다음과 같이 주어진다:

여기에서, K_A와 K_B는 다음과 같은 카메라 A 및 B의 내부(intrinsic) 파라미터이다:

,

f_A 및 f_B는 각각 카메라 A 및 B의 초점 길이다. R_A2B는 카메라 B의 주축(z_B)을 향한 카메라 A의 주축(z_A)의 회전을 나타내고, y 축 주위로의 각도 θsep의 시계 방향 회전에 대응한다. R_B2A는 카메라 A의 주축(z_A)을 향한 카메라 B의 주축(z_B)의 회전을 나타내고, y 축 주위로의 각도 θsep의 반시계 방향 회전에 대응한다.

그 다음 수학식 2는 다음과 같이 기재될 수 있다:

수학식 1에 의해 제공된 P의 값을 대입함으로써, P_A와 P_B 사이의 관계는 다음에 의해 유도될 수 있다:

그러므로, 점 P_A와 P_B는 호모그래피 매트릭스(H)를 통해 연결된다.

따라서, 매트릭스(H)의 파라미터는 카메라 A 및 B의 초점 길이와 2개의 카메라 사이의 각도 편차(θsep)로부터 얻어질 수 있다.

단계 40 동안, 뷰(k)로부터 뷰(k-1)로의 변환을 나타내는 호모그래피 매트릭스(H_k,k-1)의 파라미터가 뷰(k) 및 뷰(k-1)와 각각 연관된 카메라의 초첨 길이와 2개의 카메라 사이의 각도 편차(θsep)로부터 계산된다.

단계 41 동안, 호모그래피 매트릭스(H_k,k-1)를 획득할 수 있게 하는 파라미터가 전방향 비디오를 나타내는 데이터 신호에 인코딩된다.

하나의 변형예에 따르면, 3×3 호모그래픽 매트릭스(H_k,k-1)의 9개의 계수가 신호에 인코딩된다.

다른 변형예에 따르면, 뷰(k-1) 및 뷰(k)의 카메라의 내부 파라미터 및 외부(extrinsic) 파라미터, 즉 카메라의 초점 길이와 2개의 카메라 사이의 분리 각도(θsep)가 신호에 인코딩된다. 이 변형예에 따르면, 호모그래피 매트릭스(H_k,k-1)는 디코더에서 재계산되어야 할 것이다.

단계 41에 이어, 현재 뷰(k)가 이미지별로 데이터 신호에 인코딩된다. 단계 42 동안, 뷰(k)의 순간 t의 현재 이미지(

)가 인코딩된다.

이 목적으로, 단계 420 동안, 새로운 기준 이미지(I_ref)가 생성된다. 새로운 기준 이미지(I_ref)는 이전에 인코딩되고 재구성된 인접한 뷰(k-1)의 동일한 순간 t에서의 이미지(

)의 픽셀로부터 생성된다. 이 목적으로, 기준 이미지의 각각의 픽셀에 대하여, 기준 이미지의 픽셀 (x, y)은 호모그래픽 매트릭스(H_k,k-1)에 의해 뷰(k-1)의 기준 프레임에서 점 (x', y')에 투영된다. 픽셀 (x, y)은 점 (x', y')가 이미지(

)에 속하는 경우 뷰(k-1)의 이미지(

) 내로 투영된다. 투영된 픽셀이 이미지(

)에 속하지 않으면, 즉, 투영된 픽셀이 이미지의 경계 외부에 있다면, 기준 이미지 내의 픽셀의 값은 디폴트 값, 예를 들어 128로 설정된다. 픽셀은 비활성 픽셀이라 불린다.

투영된 이미지가 이미지(

) 내에 있다면, 즉, 투영된 픽셀이 이미지 경계 내에 있다면, 기준 이미지 내의 픽셀의 값은 이미지 픽셀(

)로부터 획득된다. 그러면, 픽셀은 활성 픽셀이라 불린다.

투영된 픽셀이 이미지(

)의 그리드의 픽셀에 대응하면, 기준 이미지에 투영된 픽셀의 값은 이미지(

)의 대응하는 픽셀의 값을 취한다. 그렇지 않으면, 투영된 픽셀이 이미지(

) 내의 서브 픽셀 위치에 위치되면, 기준 이미지에 투영된 픽셀의 값은 이미지(

)에 투영된 픽셀의 위치를 둘러싸는 이미지(

)의 그리드의 픽셀의 값으로부터 통상적으로 보간된다.

따라서, 활성 및 비활성 픽셀은 기준 이미지에서 활성 영역과 비활성 영역을 정의한다.

인코딩될 뷰(k)가 이전에 인코딩되고 재구성된 다른 인접한 뷰(k+1)를 가지는 경우에, 단계 420은 이 때 뷰(k)와 뷰(k+1) 사이에 계산된 호모그래픽 매트릭스와 뷰(k+1)로부터의 이미지(

)를 이용하여 반복된다.

도 5는 본 발명의 특정 실시예에 따라 현재 뷰로부터 왼쪽에 이웃하는 뷰와 오른쪽에 이웃하는 뷰로부터 현재 뷰에 대하여 생성된 기준 이미지의 일례를 도시한다. 도 5의 예에서, 각각의 인접하는 왼쪽 및 오른쪽 뷰에 대하여 하나씩 2개의 호모그래피 매트릭스가 사용되었다. 인접한 뷰들 사이의 중첩하는 영역만이 호모그래픽 매트릭스에 의한 투영을 통해 기준 이미지에서 재구성되는 것으로 보인다. 사실, 도 5에서, 기준 이미지는 비활성 영역(회색 영역)과, 현재 뷰의 왼쪽 뷰 및 오른쪽 뷰와의 중첩을 각각 나타내는 2개의 활성 영역(ZAg 및 ZAd)을 제공한다.

도 4를 다시 참조하면, 그 다음, 뷰(k)의 현재 이미지(

)가 인코딩된다. 이 목적으로, 이미지는 픽셀 블록으로 절단되고, 이미지의 픽셀 블록은 스캐닝되어, 아래에서 알 수 있는 바와 같이, 공간적 예측, 시간적 예측 또는 뷰간 예측에 의해 인코딩된다.

현재 이미지(

)의 각각의 블록(B_k)에 대하여, 다음의 단계들이 구현된다.

단계 421 동안, 블록(B_k)이 현재 이미지의 활성 영역 내에 위치되는지 판단된다. 다른 말로 하면, 블록(B_k)이 활성 픽셀을 포함하는지 판단된다. 기준 이미지가 인코딩될 현재 뷰의 이미지 평면 내에 표시되고, 인코딩될 현재 뷰의 이미지 내의 활성 및 비활성 영역이 기준 이미지의 활성 및 비활성 영역에 대응한다는 것이 주목되어야 한다.

따라서, 본 명세서에 설명된 본 발명의 특정 실시예에 따르면, 블록(B_k)의 모든 픽셀이 활성이면, 즉 블록(B_k)의 모든 픽셀이 활성 영역 내에 있으면, 블록(B_k)은 활성 영역에 속한다.

블록(B_k)이 활성 영역에 속하면, 단계 422 동안, 새로운 기준 이미지(I_ref)가 블록(B_k)을 인코딩하기 위한 기준 이미지 리스트에 추가된다. 그렇지 않으면, 즉 블록(B_k)이 활성 영역에 속하지 않으면, 블록(B_k)을 인코딩하기 위한 기준 이미지 리스트는 변경되지 않고, 단지 인코딩될 현재 뷰(k)의 이전에 재구성된 이미지만을 포함한다.

단계 423 동안, 블록(B_k)의 인코딩 모두가 결정된다. 예를 들어, 레이트 왜곡(rate-distortion) 최적화가 구현되며, 그 동안 블록(B_k)에 대하여 사용 가능한 모든 인코딩 모드는 경쟁하게 된다. 더욱 상세하게는, 레이트 왜곡 최적화 동안, 통상적으로, 공간적 예측 또는 인트라-이미지(intra-image) 예측에 의한 인코딩 모드가 시험되고, 기준 이미지 리스트를 이용한 시간적 예측에 의한 인코딩 모드가 시험된다.

본 명세서에 설명된 본 발명의 특정 실시예에 따르면, 유익하게는, 현재 블록에 대한 인코딩 모드를 결정하기 위한 인코더의 통상적인 동작은 수정되지 않는다. 사실, 블록(B_k)이 활성 영역에 위치될 때, 새로운 기준 이미지가 기준 이미지 리스트에 추가되었다. 따라서, 레이트 왜곡 최적화는 이 인코딩 모드가 통상의 인트라-인코딩(intra-encoding) 모드 또는 인터-인코딩(inter-encoding) 모드보다 블록(B_k)에 대하여 더 유익하다면 단계 420 동안 생성된 새로운 기준 이미지에 상대적인 예측을 이용하여 인코딩 모드를 선택할 것이다. 통상적으로, 시간적 예측 인코딩 모드가 시험될 때, 예를 들어, 블록 매칭 방법에 의해, 현재 블록과 기준 이미지 리스트의 기준 이미지에서의 픽셀 블록 사이의 이동이 예측된다.

단계 424 동안, 최상의 인코딩 모드가 블록(B_k)에 대하여 결정될 때, 블록의 데이터가 데이터 신호에 인코딩된다. 통상적으로, 예측 블록은 단계 423 동안 결정된 인코딩 모드에 따라 구성된다.

특히, 단계 423에서 결정된 인코딩 모드가 새로운 기준 이미지에 상대적인 예측을 이용한다면, 예측 블록은, 예를 들어, 단계 423에서 결정된 현재 블록(B_k)의 격차 정보 또는 이동 벡터에 의해 지시되는 새로운 기준 이미지 내의 픽셀 블록에 대응한다.

잔여(residue) 블록이 현재 블록(B_k)과 예측 블록 사이의 차이를 계산함으로써 획득된다. 예측 잔여는, 예를 들어, 엔트로피 인코더에 의해 양자화되고 인코딩된 DCT 유형의 변환("Discrete Cosine Transform")에 의해 변환된다. 또한, 예측 모드는, 예측을 위해 사용되는 기준 이미지의 인덱스, 이동 또는 격차 벡터와 같은 연관된 인코딩 파라미터와 함께 데이터 신호에 인코딩된다.

통상적으로, 현재 블록(B_k)은 다음 블록의 인코딩을 위한 예측의 역할을 하도록 재구성된다.

단계 425 동안, 현재 이미지의 모든 블록이 인코딩되었는지 확인된다. 인코딩될 블록이 여전히 있다면, 방법은 인코딩될 이미지 내의 다음 블록으로 스위칭하고 단계 421로 복귀한다. 그렇지 않으면, 현재 이미지의 인코딩이 종료한다. 재구성된 현재 이미지는 다음 이미지 또는 후속 뷰를 인코딩하기 위한 기준 이미지의 역할을 하도록 기억된다.

도 10a는 도 4에 관련하여 설명된 본 발명의 특정 실시예에 따른 전방향 비디오를 나타내는 인코딩된 데이터 신호의 일례를 개략적으로 도시한다. 이러한 데이터 신호는 뷰(k)의 평면으로부터 이웃하는 뷰(k-1)의 평면으로의 변환을 나타내는 호모그라픽 매트릭스를 획득할 수 있게 하는 파라미터(PAR)를 포함한다. 뷰(k)의 각각의 이미지에 대하여, 인코딩된 데이터(DAT)는, 이미지의 활성 영역의 적어도 하나의 블록에 대하여, 블록을 재구성하기 위하여 사용될 기준 이미지 리스트로부터의 기준 이미지를 나타내는 인덱스(idx)를 포함한다.

도 6은 본 발명의 특정 실시예에 따라 전방향 비디오를 나타내는 인코딩된 데이터 신호를 디코딩하기 위한 방법의 단계들을 도시한다. 예를 들어, 인코딩된 데이터 신호는 도 4에 관련하여 설명된 인코딩 방법에 따라 생성되었다. 여기에서, 뷰(k-1)에 인접한 현재 뷰(k)의 디코딩이 고려된다. 또한, 뷰(k-1)의 이미지는 이전에 디코딩되고 재구성된 것으로 고려된다.

단계 60 동안, 디코딩될 뷰(k)의 평면으로부터 인접한 뷰(k-1)의 평면으로의 변환을 나타내는 호모그래픽 매트릭스(H_k,k-1)를 획득할 수 있게 하는 파라미터가 신호에서 판독된다.

하나의 변형예에 따르면, 3×3 호모그래픽 매트릭스(H_k,k-1)의 9개의 파라미터가 신호에서 판독된다. 다른 변형예에 따르면, 뷰(k-1) 및 뷰(k)의 카메라의 내부 파라미터 및 외부 파라미터, 즉 카메라의 초점 길이와 2개의 카메라 사이의 분리 각도(θsep)가 신호에서 판독된다.

단계 61 동안, 호모그래픽 매트릭스(H_k,k-1)가 획득된다. 매트릭스의 파라미터들이 신호에서 판독될 때, 호모그래픽 매트릭스(H_k,k-1)는 이 파라미터들로부터 직접 획득된다.

판독된 파라미터가 카메라 파라미터에 대응할 때, 호모그래픽 매트릭스(H_k,k-1)가 위에서 주어진 수학식 3을 이용하여 계산된다.

단계 61에 이어, 현재 뷰(k)가 데이터 신호에 포함된 데이터로부터 이미지 별로 디코딩된다. 단계 62 동안, 뷰의 뷰(k)의 순간 t의 현재 이미지(

)가 디코딩된다.

이 목적으로, 단계 620 동안, 새로운 기준 이미지(I_ref)가 생성된다. 새로운 기준 이미지(I_ref)는 이전에 재구성된 인접한 뷰(k-1)의 동일한 순간 t에서의 이미지(

)의 픽셀로부터 생성된다. 도 4의 단계 420에 관련하여 설명된 것과 동일한 메커니즘이 기준 이미지(I_ref)를 생성하기 위하여 구현된다.

그 다음, 뷰(k)의 현재 이미지(

)가 디코딩된다. 이 목적으로, 이미지는 픽셀 블록으로 절단되고, 이미지의 픽셀 블록은 스캐닝되어, 디코딩 및 재구성된다.

현재 이미지(

)의 각각의 블록(B_k)에 대하여, 다음의 단계들이 구현된다.

단계 621 동안, 블록(B_k)의 인코딩된 데이터가 신호에서 판독된다. 특히, 블록(B_k)이 기준 이미지 리스트에 포함된 기준 이미지에 상대적인 예측(이미지간 예측)에 의해 인코딩되면, 기준 이미지 인덱스가 판독된다. 통상적으로, 이미지간 예측에 의해 인코딩된 이미지에 대하여, 기준 이미지 리스트는 재구성될 현재 이미지와 동일한 뷰로부터 이전에 재구성된 적어도 하나의 이미지를 포함한다. 가능하게는, 인코딩 모드, 이동 벡터 또는 격차 정보, 예측 잔여 계수와 같은 다른 정보가 현재 블록(B_k)에 대하여 신호에서 판독될 수 있다. 통상적으로, 블록에 대하여 판독된 데이터는 엔트로피 디코더에 의해 디코딩된다. 잔여 블록은 인코딩에서 구현된 것에 반대인 양자화의 디코딩된 계수 및 역양자화된 디코딩된 계수에 인코딩에서 구현된 것에 반대인 변환을 적용함으로써 획득된다.

단계622에서, 블록(B_k)이 현재 이미지의 활성 영역 내에 위치되는지 판단된다. 다른 말로 하면, 블록(B_k)이 활성 픽셀을 포함하는지 판단된다. 본 명세서에 설명된 본 발명의 특정 실시예에 따르면, 블록(B_k)의 모든 픽셀이 활성이면, 즉 블록(B_k)의 모든 픽셀이 활성 영역 내에 있으면, 블록(B_k)은 활성 영역에 속한다.

블록(B_k)이 활성 영역에 속하면, 단계 623 동안, 새로운 기준 이미지(I_ref)가 기준 이미지 리스트에 추가된다. 그렇지 않으면, 즉 블록(B_k)이 활성 영역에 속하지 않으면, 블록(B_k)을 디코딩하기 위한 기준 이미지 리스트는 변경되지 않고, 단지 디코딩될 현재 뷰(k)의 이전에 재구성된 이미지만을 포함한다.

그 다음, 단계 624 동안, 블록(B_k)의 예측이 통상적으로 계산된다. 본 명세서에 설명된 본 발명의 특정 실시예에 따르면, 유익하게는, 현재 블록을 예측하기 위한 디코더의 통상적인 동작은 수정되지 않는다.

블록(B_k)이 활성 영역에 위치될 때, 새로운 기준 이미지가 기준 이미지 리스트에 추가되었다. 따라서, 현재 블록(B_k)에 대한 예측 블록의 구성은 신호에서 판독된 기준 인덱스가 나타내는 기준 이미지로부터 그리고 현재 블록에 대하여 결정된 이동 또는 격차 정보로부터 이동 또는 격차 보상에 의해 수행된다.

단계 625 동안, 현재 블록(B_k)이 재구성된다. 이 목적으로, 단계 624 동안 구성된 예측 블록이 단계 621 동안 획득된 잔여 블록에 추가된다.

단계 626 동안, 현재 이미지의 모든 블록이 디코딩되었는지 확인된다. 디코딩될 블록이 여전히 있다면, 방법은 디코딩될 이미지 내의 다음 블록으로 진행하고 단계 621로 복귀한다. 그렇지 않으면, 현재 이미지의 디코딩이 종료한다. 재구성된 현재 이미지는 다음 이미지 또는 후속 뷰를 디코딩하기 위한 기준 이미지의 역할을 하도록 저장된다.

위에서 설명된 본 발명의 특정 실시예에서, 블록(B_k)의 모든 픽셀이 활성이면, 즉 블록(B_k)의 모든 픽셀이 활성 영역 내에 있으면, 인코딩되거나 디코딩될 블록(B_k)이 현재 블록의 활성 영역에 속한다고 결정된다.

본 발명의 다른 특정 실시예에서, 인코딩되거나 디코딩될 블록의 적어도 하나의 픽셀이 활성 픽셀이면 블록(B_k)이 활성 영역에 속한다고 결정된다.

본 발명의 상기 특정 실시예에 따르면, 인코딩되거나 디코딩될 블록의 모든 픽셀이 활성일 때 인코딩 및 디코딩 방법은 유사하다.

인코딩되거나 디코딩될 블록의 모든 픽셀이 비활성일 때에도 동일하게 적용된다.

상기 다른 실시예에 따르면, 적어도 하나의 활성 픽셀 및 적어도 하나의 비활성 픽셀을 포함하는 인코딩되거나 디코딩될 블록에 대하여, 이러한 블록의 예측은 조정된다.

도 7은 인코딩되거나 디코딩될 이미지의 활성 영역(71) 및 비활성 영역(72) 사이의 경계(70)를 통해 교차되는 인코딩되거나 디코딩될 블록의 일례를 도시한다.

이러한 종류의 블록에 대하여, 도 4 및 6의 단계 424 및 624에서 결정된 예측 블록이 단계 420 및 620에서 생성된 새로운 기준 이미지를 이용하여 구성될 때, 예측 블록은 블록의 활성 영역(71)에서 새로운 기준 이미지에 상대적인 이동 보상에 의해 획득된 픽셀과, 블록의 비활성 영역(72)에서 기준 이미지 리스트에 포함된 현재 뷰의 이전에 재구성된 이미지에 상대적인 이동 보상에 의해 획득된 픽셀을 포함한다. 따라서, 활성 영역과 비활성 영역 사이의 경계를 통해 교차되는 블록에 대하여:

- 제1 기준 인덱스가 신호에 인코딩되거나, 신호로부터 디코딩되고, 제1 기준 인덱스는 블록의 활성 영역을 인코딩하는데 사용되는 기준 이미지의 인덱스에 대응하고, 그리고,

- 블록의 비활성 영역을 인코딩하기 위하여 사용된 현재 뷰의 이전에 재구성된 기준 이미지의 인덱스에 대응하는 제2 기준 인덱스가 신호에 인코딩되거나, 신호로부터 디코딩된다.

이러한 신호의 일례는 도 10b에 도시된다. 도 10b의 데이터 신호는 현재 뷰의 평면으로부터 이웃하는 뷰의 평면으로의 변환을 나타내는 호모그래픽 매트릭스를 획득할 수 있게 하는 파라미터(PAR)를 포함한다. 현재 뷰의 각각의 이미지에 대하여, 인코딩된 데이터(DAT)는, 이미지의 활성 영역과 비활성 영역 사이의 경계를 통해 교차되는 적어도 하나의 블록에 대하여, 블록을 재구성하는데 사용될 기준 이미지 리스트로부터의 기준 이미지를 나타내는 2개의 인덱스(idx1, idx2)를 포함한다.

대안적으로, 제2 인덱스(idx2)는, 블록의 활성 영역에 대하여 사용될 기준 이미지가 단계 420 또는 620에서 생성된 새로운 기준 이미지에 대응한다고 제1 인덱스(idx1)가 나타낼 경우에만, 이미지의 활성 영역과 비활성 영역 사이의 경계를 통해 교차되는 블록에 대하여 신호에 인코딩된다. 이 변형예에 따르면, 블록을 예측하는데 사용되는 기준 이미지가 현재 뷰로부터 이전에 재구성된 이미지일 때 제2 인덱스를 인코딩하는 것은 필요하지 않다.

도 8은 전술된 본 발명의 특정 실시예들 중 임의의 하나에 따른 인코딩 방법을 구현하도록 맞추어진 인코딩 장치(COD)의 간략화된 구조를 도시한다.

이러한 디코딩 장치는, 메모리(MEM)와, 예를 들어, 프로세서(PROC)가 구비되고 메모리(MEM)에 저장된 컴퓨터 프로그램(PG)에 의해 제어되는 처리 유닛(UT)을 포함한다. 컴퓨터 프로그램(PG)은, 프로그램이 프로세서(PROC)에 의해 실행될 때, 이전에 설명된 디코딩 방법의 단계들을 구현하기 위한 명령어들을 포함한다.

초기에, 컴퓨터 프로그램(PG)의 코드 명령어는 예를 들어 프로세서(PROC)에 의해 실행되기 전에 처리 유닛(미도시)의 메모리로 로딩된다. 처리 유닛(UT)의 프로세서(PROC)는, 컴퓨터 프로그램(PG)의 명령어에 따라, 특히, 도 4 및 7과 관련하여 설명된 인코딩 방법의 단계들을 구현한다.

본 발명의 특정 실시예에 따르면, 인코딩 장치는, 특히 인코딩 장치가, 통신 네트워크를 통해, 전방향 비디오를 나타내는 인코딩된 데이터 신호를 전송할 수 있게 하는 통신 인터페이스(COM)를 포함한다.

본 발명의 특정 실시예에 따르면, 위에서 설명된 인코딩 장치는 단말기 내에 포함된다.

도 9은 전술된 본 발명의 특정 실시예들 중 임의의 하나에 따른 디코딩 방법을 구현하도록 맞추어진 디코딩 장치(DEC)의 간략화된 구조를 도시한다.

이러한 인코딩 장치는, 메모리(MEM0)와, 예를 들어, 프로세서(PROC0)가 구비되고 메모리(MEM0)에 저장된 컴퓨터 프로그램(PG0)에 의해 제어되는 처리 유닛(UT0)을 포함한다. 컴퓨터 프로그램(PG0)은, 프로그램이 프로세서(PROC0)에 의해 실행될 때, 이전에 설명된 인코딩 방법의 단계들을 구현하기 위한 명령어들을 포함한다.

본 발명의 특정 실시예에 따르면, 디코딩 장치(DEC)는, 특히 디코딩 장치가, 통신 네트워크를 통해, 전방향 비디오를 나타내는 인코딩된 데이터 신호를 수신할 수 있게 하는 통신 인터페이스(COM0)를 포함한다.

초기에, 컴퓨터 프로그램(PG0)의 코드 명령어는 예를 들어 프로세서(PROC0)에 의해 실행되기 전에 처리 유닛(미도시)의 메모리로 로딩된다. 처리 유닛(UT0)의 프로세서(PROC0)는, 컴퓨터 프로그램(PG0)의 명령어에 따라, 특히, 도 6 및 7과 관련하여 설명된 디코딩 방법의 단계들을 구현한다.

본 발명의 특정 실시예에 따르면, 위에서 설명된 디코딩 장치는 단말기 내에 포함된다.

Claims

전방향(omnidirectional) 비디오를 나타내는 멀티-뷰 비디오 시퀀스를 나타내는 인코딩된 데이터 신호를 디코딩하는 디코딩 방법에 있어서, 상기 멀티-뷰 비디오 시퀀스는, 적어도, 하나의 제1 뷰와 하나의 제2 뷰를 포함하고, 상기 디코딩 방법은,
- 상기 데이터 신호에서, 상기 제2 뷰의 평면으로부터 상기 제1 뷰의 평면으로의 변환을 나타내는 호모그래픽 매트릭스(homographic matrix)를 획득(61)할 수 있게 하는 파라미터를 판독하는 단계(60)와,
- 상기 제2 뷰의 이미지를 디코딩하는 단계(62)
를 포함하고,
상기 제2 뷰의 이미지는 픽셀이 상기 호모그래픽 매트릭스를 통해 상기 제1 뷰의 이미지 상으로 투영될 때, 상기 제1 뷰의 이미지에 포함되는 픽셀을 포함하는, 활성 영역이라 불리는 영역을 포함하고,
상기 제2 뷰의 이미지를 디코딩하는 단계는,
- 상기 제1 뷰의 이미지의 이전에 재구성된 픽셀 및 상기 호모그래픽 매트릭스로부터 결정된 픽셀 값을 포함하는 기준 이미지를 생성하는 단계(620)와,
- 상기 제2 뷰의 이미지의 적어도 하나의 블록에 대하여:
- 이전에 재구성된 상기 제2 뷰의 적어도 하나의 이미지를 포함하는 기준 이미지 리스트에 포함된 기준 이미지를 나타내는 인덱스를 상기 데이터 신호에서 판독하는 단계(621)와,
- 상기 블록이 상기 활성 영역에 속하는지 여부를 판단하는 단계(622)와,
- 판독된 상기 인덱스가 나타내는 상기 기준 이미지로부터 상기 블록을 재구성하는 단계(625)
를 포함하고,
생성된 상기 기준 이미지는 상기 블록이 상기 활성 영역에 속할 때 상기 기준 이미지 리스트에 포함되고, 생성된 상기 기준 이미지는 상기 블록이 상기 활성 영역에 속하지 않을 때 상기 기준 이미지 리스트에 포함되지 않는, 디코딩 방법.
제1항에 있어서, 상기 파라미터는 상기 제1 뷰와 연관된 제1 카메라 및 상기 제2 뷰와 연관된 제2 카메라와 각각 연관된 카메라 파라미터이고, 상기 방법은 상기 카메라 파라미터로부터 상기 호모그래픽 매트릭스를 계산하는 단계를 더 포함하는, 디코딩 방법.
제1항에 있어서, 상기 파라미터는 상기 호모그래픽 매트릭스의 계수인, 디코딩 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 상기 활성 영역의 경계가 재구성될 상기 블록을 교차할 때, 상기 디코딩 방법은,
- 상기 데이터 신호에서, 상기 기준 이미지 그룹에 포함된 기준 이미지를 나타내는 다른 인덱스를 판독하는 단계
를 더 포함하고,
상기 기준 이미지 그룹은 생성된 상기 기준 이미지를 포함하지 않고, 상기 활성 영역에 속하지 않는 재구성될 상기 블록의 픽셀은 판독된 상기 다른 인덱스가 나타내는 기준 이미지의 픽셀로부터 재구성되는, 디코딩 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
- 상기 데이터 신호에서, 상기 제2 뷰의 평면으로부터 제3 뷰의 평면으로의 변환을 나타내는 다른 호모그래픽 매트릭스를 획득할 수 있게 하는 파라미터를 판독하는 단계
를 더 포함하고,
상기 다른 호모그래픽 매트릭스를 통해 상기 제3 뷰의 이미지 내로 투영된 상기 제2 뷰의 이미지의 적어도 하나의 픽셀은 상기 제3 뷰의 이미지에 포함되고,
- 생성된 상기 기준 이미지는 상기 제3 뷰의 이미지의 이전에 재구성된 픽셀 및 상기 다른 호모그래픽 매트릭스로부터 결정된 픽셀 값을 더 포함하는, 디코딩 방법.
전방향(omnidirectional) 비디오를 나타내는 멀티-뷰 비디오 시퀀스를 데이터 신호에 인코딩하는 인코딩 방법에 있어서, 상기 멀티-뷰 비디오 시퀀스는, 적어도, 하나의 제1 뷰와 하나의 제2 뷰를 포함하고, 상기 인코딩 방법은,
- 상기 제2 뷰의 평면으로부터 상기 제1 뷰의 평면으로의 변환을 나타내는 호모그래픽 매트릭스(homographic matrix)를 계산하는 단계(40)와,
- 디코딩에 따라 상기 호모그래픽 매트릭스를 획득할 수 있게 하는 파라미터를 상기 데이터 신호에 인코딩하는 단계(41)와,
- 상기 제2 뷰의 이미지를 인코딩하는 단계(42)
를 포함하고,
상기 제2 뷰의 이미지는 픽셀이 상기 호모그래픽 매트릭스를 통해 상기 제1 뷰의 이미지 상으로 투영될 때, 상기 제1 뷰의 이미지에 포함된 픽셀을 포함하는, 활성 영역이라 불리는 영역을 포함하고,
상기 제2 뷰의 이미지를 인코딩하는 단계는,
- 상기 제1 뷰의 이미지의 이전에 재구성된 픽셀 및 상기 호모그래픽 매트릭스로부터 결정된 픽셀 값을 포함하는 기준 이미지를 생성하는 단계(420)와,
- 상기 제2 뷰의 이미지의 적어도 하나의 블록에 대하여:
- 상기 블록이 상기 활성 영역에 속하는지 여부를 판단하는 단계(421)와,
- 이전에 재구성된 상기 제2 뷰의 적어도 하나의 이미지를 포함하는 기준 이미지 리스트에 포함된 기준 이미지로부터 상기 블록을 예측하는 단계(424)와,
- 상기 블록을 예측하는데 사용되는 상기 기준 이미지를 나타내는 인덱스를 상기 데이터 신호에 인코딩하는 단계(424)
를 포함하고,
생성된 상기 기준 이미지는 상기 블록이 상기 활성 영역에 속할 때 상기 기준 이미지 리스트에 포함되고, 생성된 상기 기준 이미지는 상기 블록이 상기 활성 영역에 속하지 않을 때 상기 기준 이미지 리스트에 포함되지 않는, 인코딩 방법.
제6항에 있어서, 상기 파라미터는 상기 제1 뷰와 연관된 제1 카메라 및 상기 제2 뷰와 연관된 제2 카메라와 각각 연관된 카메라 파라미터인, 인코딩 방법.
제6항에 있어서, 상기 파라미터는 상기 호모그래픽 매트릭스의 파라미터인, 인코딩 방법.
제6항 내지 제8항 중 어느 한 항에 있어서, 상기 활성 영역의 경계가 인코딩될 상기 블록을 교차할 때, 상기 인코딩 방법은,
- 상기 기준 이미지 그룹에 포함된 기준 이미지를 나타내는 다른 인덱스를 상기 데이터 신호에 인코딩하는 단계
를 더 포함하고,
상기 기준 이미지 그룹은 생성된 상기 기준 이미지를 포함하지 않고, 상기 활성 영역에 속하지 않는 인코딩될 상기 블록의 픽셀은 상기 다른 인덱스가 나타내는 기준 이미지의 픽셀로부터 예측되는, 인코딩 방법.
제6항 내지 제9항 중 어느 한 항에 있어서,
- 상기 제2 뷰의 평면으로부터 제3 뷰의 평면으로의 변환을 나타내는 다른 호모그래픽 매트릭스를 계산하는 단계로서, 상기 다른 호모그래픽 매트릭스를 통해 상기 제3 뷰의 이미지 내로 투영된 상기 제2 뷰의 이미지의 적어도 하나의 픽셀은 상기 제3 뷰의 이미지에 포함되는 단계와,
- 상기 다른 호모그래픽 매트릭스를 획득할 수 있게 하는 파라미터를 상기 데이터 신호에 인코딩하는 단계
를 더 포함하고,
- 생성된 상기 기준 이미지는 상기 제3 뷰의 이미지의 이전에 재구성된 픽셀 및 상기 다른 호모그래픽 매트릭스로부터 결정된 픽셀 값을 더 포함하는, 인코딩 방법.
전방향(omnidirectional) 비디오를 나타내는 멀티-뷰 비디오 시퀀스를 나타내는 인코딩된 데이터 신호를 디코딩하는 디코딩 장치에 있어서, 상기 멀티-뷰 비디오 시퀀스는, 적어도, 하나의 제1 뷰와 하나의 제2 뷰를 포함하고, 상기 디코딩 장치는,
- 상기 데이터 신호에서, 상기 제2 뷰의 평면으로부터 상기 제1 뷰의 평면으로의 변환을 나타내는 호모그래픽 매트릭스(homographic matrix)를 획득하게 하는 파라미터를 판독하는 수단과,
- 상기 제2 뷰의 이미지를 디코딩하는 수단
을 포함하고,
상기 제2 뷰의 이미지는 픽셀이 상기 호모그래픽 매트릭스를 통해 상기 제1 뷰의 이미지 상으로 투영될 때, 상기 제1 뷰의 이미지에 포함된 픽셀을 포함하는, 활성 영역이라 불리는 영역을 포함하고,
상기 제2 뷰의 이미지를 디코딩하는 수단은,
- 상기 제1 뷰의 이미지의 이전에 재구성된 픽셀 및 상기 호모그래픽 매트릭스로부터 결정된 픽셀 값을 포함하는 기준 이미지를 생성하는 수단과,
- 상기 제2 뷰의 이미지의 적어도 하나의 블록에 대하여:
- 이전에 재구성된 상기 제2 뷰의 적어도 하나의 이미지를 포함하는 기준 이미지 리스트에 포함된 기준 이미지를 나타내는 인덱스를 상기 데이터 신호로부터 판독하는 수단과,
- 상기 블록이 상기 활성 영역에 속하는지 여부를 판단하는 수단과,
- 판독된 상기 인덱스가 나타내는 상기 기준 이미지로부터 상기 블록을 재구성하는 수단
을 포함하고,
생성된 상기 기준 이미지는 상기 블록이 상기 활성 영역에 속할 때 상기 기준 이미지 리스트에 포함되고, 생성된 상기 기준 이미지는 상기 블록이 상기 활성 영역에 속하지 않을 때 상기 기준 이미지 리스트에 포함되지 않는, 디코딩 장치.
전방향(omnidirectional) 비디오를 나타내는 멀티-뷰 비디오 시퀀스를 데이터 신호에 인코딩하는 인코딩 장치에 있어서, 상기 멀티-뷰 비디오 시퀀스는, 적어도, 하나의 제1 뷰와 하나의 제2 뷰를 포함하고, 상기 인코딩 장치는,
- 상기 제2 뷰의 평면으로부터 상기 제1 뷰의 평면으로의 변환을 나타내는 호모그래픽 매트릭스(homographic matrix)를 계산하는 수단과,
- 디코딩에 따라 상기 호모그래픽 매트릭스를 획득할 수 있게 하는 파라미터를 상기 데이터 신호에 인코딩하는 수단과,
- 상기 제2 뷰의 이미지를 인코딩하는 수단
을 포함하고,
상기 제2 뷰의 이미지는 픽셀이 상기 호모그래픽 매트릭스를 통해 상기 제1 뷰의 이미지 상으로 투영될 때, 상기 제1 뷰의 이미지에 포함된 픽셀을 포함하는, 활성 영역이라 불리는 영역을 포함하고,
상기 제2 뷰의 이미지를 인코딩하는 수단은,
- 상기 제1 뷰의 이미지의 이전에 재구성된 픽셀 및 상기 호모그래픽 매트릭스로부터 결정된 픽셀 값을 포함하는 기준 이미지를 생성하는 수단과,
- 상기 제2 뷰의 이미지의 적어도 하나의 블록에 대하여:
- 상기 블록이 상기 활성 영역에 속하는지 여부를 판단하는 수단과,
- 이전에 재구성된 상기 제2 뷰의 적어도 하나의 이미지를 포함하는 기준 이미지 리스트에 포함된 기준 이미지로부터 상기 블록을 예측하는 수단과,
- 상기 블록을 예측하는데 사용되는 상기 기준 이미지를 나타내는 인덱스를 상기 데이터 신호에 인코딩하는 수단
을 포함하고,
생성된 상기 기준 이미지는 상기 블록이 상기 활성 영역에 속할 때 상기 기준 이미지 리스트에 포함되고, 생성된 상기 기준 이미지는 상기 블록이 상기 활성 영역에 속하지 않을 때 상기 기준 이미지 리스트에 포함되지 않는, 인코딩 장치.
프로세서에 의해 실행될 때, 제1항 내지 제5항 중 어느 한 항에 따른 디코딩 방법을 구현하기 위한 명령어 및/또는 제6항 내지 제10항 중 어느 한 항에 따른 인코딩 방법을 구현하기 위한 명령어를 포함하는 컴퓨터 프로그램.