KR20210003809A

KR20210003809A - 멀티뷰 비디오 디코딩 방법 및 장치와 이미지 처리 방법 및 장치

Info

Publication number: KR20210003809A
Application number: KR1020207032921A
Authority: KR
Inventors: 조엘 정; 파벨 니키틴; 패트릭 부아소나드
Original assignee: 오렌지
Priority date: 2018-05-03
Filing date: 2019-04-16
Publication date: 2021-01-12
Also published as: CN112075081A; US20220182672A1; US20210243472A1; WO2019211541A2; US20220182671A1; FR3080968A1; US20220182673A1; WO2019211541A3; US11910016B2; EP3788789A2; JP7371090B2; JP2021524214A; US11910015B2; US11290746B2; US11889115B2; JP2024012332A

Abstract

본 발명은 멀티뷰(multi-view) 비디오를 나타내는 데이터 스트림을 디코딩하는 방법 및 장치에 관한 것이다. 신택스(syntax) 요소가 데이터 스트림의 적어도 하나의 부분으로부터 획득되고(E20), 비디오의 뷰의 적어도 하나의 이미지를 재구성(E21)하는데 사용된다. 그 다음, 미리 정해진 형태의 적어도 하나의 메타데이터 항목이 적어도 하나의 획득된 신택스 요소로부터 획득되고(E23), 이미지 처리 모듈로 제공된다. 또한, 본 발명은 미리 정해진 형태의 상기 적어도 하나의 메타데이터 항목을 판독하고 이를 사용하여 멀티뷰 비디오의 재구성된 뷰로부터 가상 뷰의 적어도 하나의 이미지를 생성하도록 구성된, 이미지를 처리하기 위한 방법 및 장치에 관한 것이다.

Description

멀티뷰 비디오 디코딩 방법 및 장치와 이미지 처리 방법 및 장치

본 발명은 일반적으로 3D 이미지 처리 분야에 관한 것으로, 더욱 구체적으로는, 멀티뷰(multi-view) 이미지 시퀀스의 디코딩 및 중간 뷰들의 이미지 합성에 관한 것이다.

가상 현실 분야에서, 자유 내비게이션(free navigation)은 시청자가 임의의 시점(point of view)으로부터, 그 시점이 카메라에 의해 캡처된 시점에 대응하는지 카메라에 의해 캡처되지 않은 시점에 대응하는지에 관계 없이, 장면을 볼 수 있게 한다. 또한, 카메라에 의해 캡처되지 않은 이러한 뷰는, 카메라에 의해 캡처된 뷰들 사이에 있고 복원(restitution)을 위하여 합성되어야 하기 때문에, 가상 뷰 또는 중간 뷰라 한다.

장면 내의 자유 내비게이션은 멀티뷰 비디오를 시청하는 사용자의 모든 움직임이 정확하게 관리되고, 이미지가 렌더링되지 않을 때 시청자가 느낄 수 있는 불편함이 최적으로 방지되는 것을 요구한다.

일반적으로, 사용자의 움직임은 복원 장치, 예를 들어, HMD(Head Mounted Device) 가상 현실 헤드셋에 의해 정확하게 고려된다.

그러나, 디스플레이를 위하여 정확한 픽셀을 제공하는 것은, 사용자의 움직임(회전 또는 병진)에 상관 없이, 여전히 문제가 있다. 실제로, 디스플레이될 이미지의 계산은 가상(즉, 합성된) 뷰의 추가 이미지를 디스플레이하기 위하여 여러 개의 캡처된 뷰의 사용을 필요로 한다. 이러한 가상 뷰는 카메라에 의해 캡처되지 않은 시점에 대응한다. 그러면, 캡처되고 디코딩된 뷰 및 연관된 심도(depth)로부터 이를 계산하는 것이 필요하다.

결과적으로, 자유 내비게이션 기능을 제공하는 코덱(codec)은 여러 뷰 및 연관된 심도를 인코딩하는데 효과적이어야 하고, 가상 뷰의 최적 렌더링을 허용해야 하며, 즉 디스플레이될 합성 알고리즘의 사용을 필요로 한다.

MV-HEVC 또는 3D-HEVC 표준(Series H: Audiovisual and multimedia systems - Infrastructure of audio visual services - Coding of moving video, High Efficiency Video Coding, Recommendation ITU-T H.265, International Telecommunication Union, December 2016)와 같은 멀티뷰 시퀀스를 인코딩하도록 설계된 멀티뷰 비디오 인코더가 알려져 있다.

MV-HEVC 인코더는 매우 기본적인 뷰간(inter-view) 예측을 적용하고, 3D-HEVC 인코더는 시간적 리던던시뿐만 아니라 뷰간 리던던시를 이용하는 여러 추가 도구를 포함한다. 또한, 3D-HEVC는 심도 맵의 효율적인 인코딩을 위한 특수 도구들을 가진다. 이러한 2개의 코덱, 특히 3D-HEVC는, HEVC 표준과 같은 2D 비디오 시퀀스를 핸들링하는 종래의 비디오 코덱에 비하여, 연관된 심도로 여러 뷰를 인코딩할 때 비트 레이트를 효과적으로 감소시킨다.

가상 현실 상황에서, 카메라에 의해 캡처되고 데이터 스트림으로 인코딩된 뷰를 디코딩한 후에, 가상 뷰는 예를 들어 사용자의 움직임에 기초하여 합성될 수 있다.

예를 들어, VSRS 도구(Wegner, Stankiewicz, Tanimoto, Domanski, Enhanced view synthesis reference software (VSRS) for free-viewpoint television, ISO/IEC JTC1/SC29/WG11 m31520, October 2013, Geneva, Switzerland)가 이러한 가상 뷰를 합성하는 것에 대하여 알려져 있다.

도 1은 디코더(DEC)(예를 들어, 3D-HEVC)가 데이터 스트림(STR)을 디코딩하여 디코딩된 뷰(VD1, VD2)를 생성하는 종래의 자유 내비게이션 시스템을 도시한다. 그 다음, 이러한 뷰는 뷰 합성기(SYNTH)(예를 들어, VSRS)에 의해 사용되어 합성된 뷰(VS(1+2))를 생성한다. 다음으로, 디코딩된 뷰와 합성된 뷰는 사용자의 움직임에 따라 복원 장치(DISP)에 의해 디스플레이된다.

종래의 디코더(DEC)는 도 2에 도시된다. 통상적으로, 이러한 디코더는 데이터 스트림(STR)의 분석(E20)을 수행하여 디코딩될 관련된 데이터를 획득하고, 그 다음 디코딩 프로세스(E21)를 적용하여 가상 뷰를 생성하기 위하여 합성 모듈(SYNTH)에 의해 사용될 수 있는 디코딩된 뷰(VD1, VD2)를 재구성한다.

따라서, 데이터 스트림으로부터 뷰를 디코딩하기 위한 프로세스와 가상 뷰를 합성하기 위한 프로세서는 상관되지 않는 것으로 보인다. 특히, 합성 프로세스는 디코더가 관여되지 않는 어려운 작업이다. 디코더는 단순히 데이터 스트림으로부터 재구성된 디코딩된 뷰가 합성 모듈에서 사용 가능하게 한다.

가상 현실 애플리케이션이 직면하는 기술적 문제는 인코더 및 디코더가, 특히 자유 내비게이션의 경우에, 사용자가 필요로 하는 최종 시점에 대한 선험적인 지식이 없다는 것이다. 멀티뷰 비디오 인코더 및 디코더는 심지어 가상 뷰들을 합성하기 위하여 최종적으로 사용될 합성 프로세스에 대한 지식도 없다. 사실, 가상 뷰들을 합성하기 위하여 사용되는 합성 방법은, 멀티뷰 비디오 인코더와는 다르게, 현재 표준화되어 있지 않아, 가상 현실 애플리케이션에 의해 사용되는 합성 방법은 여전히 사설 도구(proprietary tool)로 남아 있다.

따라서, 합성된 가상 뷰의 품질은 이러한 애플리케이션에 의해 사용되는 합성 도구 및 합성 알고리즘에 따라 다르다. 일반적으로, 이러한 품질은 사용되는 합성 도구의 복잡성 및 이러한 합성 도구를 구현하는 장치의 리소스에 따라 다르다.

가상 현실 애플리케이션, 특히 자유 내비게이션을 사용하는 가상 현실 애플리케이션은 실시간이어야 한다. 일반적으로 가상 뷰 합성 모듈은, 특히 캡처되고 디코딩된 뷰의 개수가 불충분할 때, 심지어 캡처되고 디코딩 및 재구축된 뷰가 높은 시각적 품질을 가질 때, 중간 품질의 가상 뷰를 제공한다.

본 발명은 종래 기술을 개선한다.

이는, 데이터 스트림의 적어도 하나의 부분으로부터 신택스(syntax) 요소를 획득하는 단계와, 획득된 신택스 요소로부터 비디오의 뷰의 적어도 하나의 이미지를 재구성하는 단계를 포함하고, 디코딩 장치에 의해 구현되는, 멀티뷰(multi-view) 비디오를 나타내는 데이터 스트림을 디코딩하는 방법에 관한 것이다. 유리하게는, 디코딩 방법은, 적어도 하나의 신택스 요소로부터 미리 정해진 형태로 적어도 하나의 메타데이터 항목을 획득하는 단계와, 이미지 처리 모듈로 상기 적어도 하나의 메타데이터 항목을 제공하는 단계를 더 포함한다.

따라서, 이러한 디코딩 방법은, 이미지 처리 모듈에, 예를 들어, 디코더의 외부에 있는 합성 모듈에, 비디오 스트림의 데이터를 나타내고 이 이미지 처리 모듈에 의해 사용될 수 있는 메타데이터를 제공할 수 있게 한다. 따라서, 이미지 처리 모듈 내에서 구현되는 프로세스는 덜 복잡하다. 예를 들어, 가상 뷰 합성 모듈의 경우, 합성 알고리즘에 의해 사용되고 디코더로부터 사용 가능한 데이터의 일부를 재계산하는 것이 필요하지 않다. 더욱이, 본 발명은 또한 이미지 처리 모듈로 하여금 스스로 계산할 수 없는 데이터에 액세스하고, 이를 자신의 동작을 개선하기 위하여 사용할 수 있게 한다. 예를 들어, 가상 뷰 합성 모듈의 경우, 디코더는 합성 모듈로 폐색 맵을 제공할 수 있으며, 이러한 폐색은 비디오의 뷰의 재구성된 이미지만으로부터는 합성 모듈에 의해 판단하기 어려운 것이다.

따라서, 디코더 레벨에서 사용 가능한 데이터를 획득하기 위한 동작 복잡성이 감소되어, 더 복잡하고 이에 따라 더 강력한 이미지 처리 알고리즘이 이미지 처리 모듈 내에서 더 쉽게 구현될 수 있기 때문에, 이미지 처리 모듈 내에 구현되는 프로세스가 개선될 수 있다.

따라서, 가상 뷰 합성 모듈의 경우에, 가상 뷰의 품질이 개선된다. 또한, 이는 뷰들 사이에 더 매끄러운 전이를 제공함으로써 멀티뷰 비디오에서의 사용자의 자유 내비게이션을 향상시킨다. 더욱이, 가상 뷰의 합성을 개선시키는 것은 또한 장면을 캡처하는데 필요한 카메라의 개수를 감소시킨다.

미리 정해진 포맷으로 메타데이터를 제공하는 것은 디코더와 이미지 처리 모듈 사이의 통신을 용이하게 한다. 예를 들어, 메타데이터는 인덱싱되고 표준화된 테이블의 형태로 제공된다. 따라서, 이미지 처리 모듈은 각각의 인덱스에 대하여 어느 메타데이터가 이 인덱스에 저장되어 있는지를 안다.

비디오 데이터 통신에 대하여 메타데이터를 사용하는 것은 알려져 있다. 예를 들어, H.264/AVC 표준으로 도입된 SEI(Supplemental Enhancement Information) 메시지는 디코더 레벨에서 구현되는 선택적인 처리 동작에 관련되는 데이터이다. SEI 메시지는 비디오 데이터 비트 스트림을 통해 디코더에 전송된다. 그러나, 이러한 SEI 메시지 데이터는 인코더 레벨에서 생성되고 디코더에 의해서만 사용되어, 선택적으로, 디코딩되고 재구성된 뷰의 품질을 개선한다.

본 발명의 특정 실시예에 따르면, 적어도 하나의 메타데이터 항목을 획득하는 단계는, 신택스 요소의 적어도 하나의 부분으로부터 상기 적어도 하나의 메타데이터 항목을 계산하는 단계를 더 포함한다.

본 발명의 이러한 특정 실시예는, 예를 들어, 심도 정보를 위하여 계산된 신뢰값과 같은 뷰를 재구성하기 위하여 디코더에 의해 사용되지 않은 정보 또는 이미지를 재구성할 때 사용되는 것보다 더 거친(coarser) 입도(granularity)를 갖는 모션 정보와 같은 다른 형태로 디코더에 의해 사용되는 정보에 대응하는 새로운 메타데이터를 계산할 수 있게 한다.

본 발명의 다른 특정 실시예에 따르면, 상기 적어도 하나의 메타데이터 항목은 적어도 하나의 이미지를 재구성하기 위하여 사용되지 않는다,

본 발명의 다른 특정 실시예에 따르면, 상기 적어도 하나의 메타데이터 항목은,

- 카메라 파라미터,

- 디코딩되고 스케일링된 모션 벡터,

- 재구성된 이미지의 파티셔닝(partitioning),

- 재구성된 뷰의 이미지의 블록에 의해 사용되는 기준 이미지,

- 재구성된 뷰의 이미지의 코딩 모드,

- 재구성된 뷰의 이미지의 양자화 파라미터 값,

- 재구성된 뷰의 이미지의 예측 잔차값(residual value),

- 재구성된 뷰의 이미지에서의 움직임을 나타내는 맵,

- 재구성된 뷰의 이미지에서의 폐색(occlusion)의 존재를 나타내는 맵, 및

- 심도 맵과 연관된 신뢰값을 나타내는 맵

을 포함하는 그룹에 포함된 정보 항목에 대응한다.

본 발명의 다른 특정 실시예에 따르면, 미리 정해진 형태는 적어도 하나의 메타데이터 항목이 인덱스와 연관되어 저장된 인덱싱된 테이블에 대응한다.

본 발명의 다른 특정 실시예에 따르면, 상기 적어도 하나의 메타데이터 항목은 디코딩 장치에 특정된 입도(granularity) 레벨에 기초하여 획득된다.

본 발명의 이 특정 실시예에 따르면, 신택스 요소로부터 생성된 메타데이터는 상이한 입도 레벨로 획득될 수 있다. 예를 들어, 모션 정보에 대하여, 모션 벡터에는 디코더에서 사용된 입도(즉, 디코더에 의해 사용된 것과 같은) 또는 더 거친 입도(예를 들어, 크기 64×64의 블록 당 하나의 모션 벡터를 제공함으로써)가 제공될 수 있다.

본 발명의 다른 특정 실시예에 따르면, 디코딩 방법은 이미지 처리 모듈이 필요로 하는 적어도 하나의 메타데이터 항목을 나타내는 이미지 처리 모듈로부터의 요청을 디코딩 장치에 의해 수신하는 단계를 더 포함한다. 본 발명의 이 특정 실시예에 따르면, 이미지 처리 모듈은 자신이 필요로 하는 정보를 디코더에 나타낼 수 있다. 따라서, 디코더는 필요한 메타데이터만이 이미지 처리 모듈에서 사용 가능하게 할 수 있어, 디코더에서의 복잡성과 메모리 리소스의 사용을 제한한다.

본 발명의 다른 특정 실시예에 따르면, 요청은 사용 가능한 메타데이터의 미리 정해진 리스트 중에서 필요한 메타데이터 항목을 나타내는 적어도 하나의 인덱스를 포함한다.

또한, 본 발명은 위에서 정의된 특정 실시예들 중 임의의 하나에 따른 디코딩 방법을 구현하도록 구성된 디코딩 장치에 관한 것이다. 이 디코딩 장치는, 물론, 본 발명에 따른 디코딩 방법에 관련된 상이한 특성들을 포함할 수 있다. 따라서, 이 디코딩 장치의 특성들 및 이점들은 디코딩 방법의 특성들 및 이점들과 동일하고, 더 상술되지 않는다.

본 발명의 특정 실시예에 따르면, 이러한 디코딩 장치는 터미널 또는 서버에 포함된다.

또한, 본 발명은 디코딩 장치에 의해 디코딩된 뷰의 적어도 하나의 이미지로부터 가상 뷰의 적어도 하나의 이미지를 생성하는 단계를 포함하는 이미지 합성 방법에 관한 것이다. 본 발명에 따르면, 이러한 이미지 처리 방법은, 또한, 미리 정해진 형태의 적어도 하나의 메타데이터 항목을 판독하는 단계를 포함하고, 상기 적어도 하나의 메타데이터 항목은 멀티뷰 비디오를 나타내는 데이터 스트림으로부터 획득된 적어도 하나의 신택스 요소로부터 디코딩 장치에 의해 획득되고, 상기 적어도 하나의 이미지는 판독된 상기 적어도 하나의 메타데이터 항목을 이용하여 생성된다.

따라서, 이미지 합성 방법은 멀티뷰 비디오의 가상 뷰의 이미지를 생성하기 위하여 디코더에서 사용 가능한 메타데이터를 이용한다. 이러한 메타데이터는 이미지 처리 장치가 액세스할 수 없는 데이터 또는 높은 동작 복잡성의 비용으로만 재계산할 수 있는 데이터에 대응할 수 있다.

여기에서, 가상 뷰는 이미지 시퀀스가 장면 획득 시스템의 카메라에 의해 캡처되지 않은 장면의 새로운 시점으로부터의 뷰를 의미한다.

본 발명의 특정 실시예에 따르면, 이미지 합성 방법은 이미지를 생성하기 위하여 필요한 적어도 하나의 메타데이터 항목을 나타내는 요청을 디코딩 장치로 전송하는 단계를 더 포함한다.

또한, 본 발명은 위에서 정의된 특정 실시예들 중 임의의 하나에 따른 이미지 처리 방법을 구현하도록 구성된 이미지 처리 장치에 관한 것이다. 이 이미지 처리 장치는, 물론, 본 발명에 따른 이미지 처리 방법에 관련된 상이한 특성들을 포함할 수 있다. 따라서, 이 이미지 처리 장치의 특성들 및 이점들은 이미지 처리 방법의 특성들 및 이점들과 동일하고, 더 상술되지 않는다.

본 발명의 특정 실시예에 따르면, 이러한 이미지 처리 장치는 터미널 또는 서버에 포함된다.

또한, 본 발명은, 전술된 실시예들 중 임의의 하나에 따른 디코딩 장치와, 전술된 실시예들 중 임의의 하나에 따른 이미지 처리 장치를 포함하는, 멀티뷰 비디오를 나타내는 데이터 스트림으로부터 멀티뷰 비디오를 디스플레이하는 이미지 처리 시스템에 관한 것이다.

본 발명에 따른 디코딩 방법 및 이미지 처리 방법은 각각 다양한 방법으로, 특히 유선 형태나 소프트웨어 형태로 구현될 수 있다. 본 발명의 특정 실시예에 따르면, 디코딩 방법 및 이미지 처리 방법은 각각 컴퓨터 프로그램에 의해 구현된다. 또한, 본 발명은, 프로세서에 의해 실행될 때, 전술된 특정 실시예들 중 임의의 하나에 의해 따른 디코딩 방법 또는 이미지 처리 방법을 구현하기 위한 명령어를 포함하는 컴퓨터 프로그램에 관한 것이다. 이러한 프로그램은 임의의 프로그래밍 언어를 사용할 수 있다. 이는 통신 네트워크로부터 다운로드될 수 있고 그리고/또는 컴퓨터 판독 가능한 매체에 기록될 수 있다.

이 프로그램은 임의의 프로그래밍 언어를 사용할 수 있고, 부분적으로 컴파일된 형태 또는 임의의 다른 원하는 형태와 같이, 소스 코드, 오브젝트 코드, 또는 소스 코드와 오브젝트 코드 사이의 중간 코드의 형태를 가질 수 있다.

또한, 본 발명은 위에서 언급된 바와 같은 컴퓨터 프로그램의 명령어를 포함하는 기록 매체 또는 데이터 매체에 관한 것이다. 위에서 언급된 기록 매체는 프로그램을 저장할 수 있는 임의의 엔티티 또는 장치일 수 있다. 예를 들어, 매체는 예를 들어 CR ROM이나 마이크로 전자회로 ROM인 ROM, USB 플래시 메모리 드라이브 또는 예를 들어 하드 디스크 드라이브인 자기 기록 수단과 같은 저장 수단을 포함할 수 있다. 한편, 기록 매체는 전기 또는 광 케이블을 통해, 무선(radio)에 의해 또는 다른 수단에 의해 반송될 수 있는 전기 또는 광 신호와 같은 전송 가능한 매체에 대응할 수 있다. 본 발명에 따른 프로그램은 특히 인터넷 유형의 네트워크로부터 다운로드될 수 있다.

대안적으로, 기록 매체는 프로그램이 내장되는 집적 회로에 대응할 수 있고, 회로는 논의 대상인 방법의 실행에 사용되거나 이를 실행하도록 맞추어진다.

본 발명의 다른 특징 및 이점은 단순히 비한정적이고 예시적인 예로서 주어지는 특정 실시예 및 다음의 도면에 대한 이어지는 설명을 읽고 더욱 명백하게 될 것이다:
- 도 1은 종래 기술에 따른 멀티뷰 비디오 내의 자유 내비게이션을 위한 시스템을 개략적으로 도시하고,
- 도 2는 종래 기술에 따른 멀티뷰 비디오를 나타내는 데이터 스트림의 디코더를 개략적으로 도시하고,
- 도 3은 본 발명의 특정 실시예에 따른 멀티뷰 비디오 내의 자유 내비게이션을 위한 시스템을 개략적으로 도시하고,
- 도 4는 본 발명의 특정 실시예에 따른 멀티뷰 비디오를 나타내는 데이터 스트림을 디코딩하기 위한 방법의 단계들을 도시하고,
- 도 5는 본 발명의 특정 실시예에 따른 멀티뷰 비디오를 나타내는 데이터 스트림의 디코더를 개략적으로 도시하고,
- 도 6은 본 발명의 특정 실시예에 따른 이미지 처리 방법의 단계들을 도시하고,
- 도 7은 본 발명의 다른 특정 실시예에 따른 디코딩 방법 및 이미지 처리 방법의 단계들을 도시하고,
- 도 8은 본 발명의 특정 실시예에 따른 디코딩 방법을 구현하는데 알맞은 장치를 개략적으로 도시하고,
- 도 9는 본 발명의 특정 실시예에 따른 이미지 처리 방법을 구현하는데 알맞은 장치를 개략적으로 도시하고,
- 도 10은 멀티뷰 캡처 시스템의 뷰들의 배열을 도시한다.

본 발명은, 디코딩 프로세스에 의해 재구성된 뷰들에 기초한 이미지 처리 프로세스가 가능하게 되도록, 멀티뷰 비디오를 나타내는 데이터 스트림의 디코딩 프로세스를 수정하는 것에 기초한다. 예를 들어, 이미지 처리 프로세스는 가상 뷰들을 합성하기 위한 프로세스에 대응한다. 이 목적으로, 디코더는 데이터 스트림으로부터 재구성된 뷰들의 이미지뿐만 아니라 가상 뷰들의 합성을 위하여 사용될 수 있는 이러한 이미지와 관련된 메타데이터를 제공한다. 유리하게는, 이러한 메타데이터는 디코더와 합성기 사이의 상호 운용성을 가능하게 하도록 포맷팅, 즉 미리 정해진 형태로 표현된다. 따라서, 미리 정해진 형태의 메타데이터를 판독하도록 구성된 임의의 합성기가 가상 뷰들을 합성하는데 사용될 수 있다.

도 3은 본 발명의 특정 실시예에 따른 멀티뷰 비디오 내의 자유 내비게이션을 위한 시스템을 개략적으로 도시한다. 도 3에서의 시스템은 도 1에 관련하여 설명된 시스템과 유사하게 동작하며, 디코더(DEC)가 재구성된 뷰(VD1, VD2)의 이미지에 더하여 출력에서 메타데이터(MD1, MD2)를 제공한다는 차이점이 있다. 이러한 메타데이터(D1, D2)는 입력에서, 예를 들어, 재구성된 뷰(VD1, VD2)로부터 가상 뷰(VS(1+2))를 생성하는 합성기로 제공된다. 그러면, 디코더(DEC) 및 합성기(SYNTH)는 본 발명에 따른 이미지 처리 시스템을 형성한다. 이들은 동일한 장치에 포함될 수 있거나 서로 통신할 수 있는 2개의 개별 장치에 포함될 수 있다.

예를 들어, 비제한적이고 비소진적인 방식으로, 이러한 메타데이터는 다음에 대응할 수 있다:

- 디코더에 의해 재구성된 뷰의 카메라 파라미터,

- 디코더에 의해 재구성된 이미지의 디코딩되고 스케일링된 모션 벡터,

- 재구성된 이미지의 파티셔닝(partitioning),

- 재구성된 이미지의 블록에 의해 사용되는 기준 이미지의 표시,

- 재구성된 이미지의 코딩 모드,

- 재구성된 이미지의 양자화 파라미터 값,

- 재구성된 이미지의 예측 잔차값(residual value).

이러한 정보는 디코더에 의해 사용되는 것으로서 제공될 수 있다. 대안적으로, 이러한 정보는, 예를 들어, 디코더에 의해 사용되는 것보다 더 미세하거나 더 거친 입도(granularity)로 제공되도록 디코더에 의해 처리될 수 있다.

또한, 메타데이터는 디코더에 의해 계산되거나 공유될 수 있고, 예를 들어, 다음과 같다:

- 재구성된 뷰의 이미지에서 또는 이미지 그룹에서 일반적인 모션을 나타내는 맵; 예를 들어, 이러한 맵은 이미지 또는 이미지 그룹의 모션 벡터를 경계화(thresholding)함으로써 획득된 바이너리 맵일 수 있다.

- 재구성된 뷰의 이미지에서의 폐색(occlusion)의 존재를 나타내는 맵; 예를 들어, 이러한 맵은 뷰간 예측의 경우에 각각의 픽셀에서의 예측 잔차(residue)에 포함된 정보의 레벨을 고려함으로써 획득된 바이너리 맵일 수 있거나, 가능한 폐색 위치에 대한 정보는 이미지의 변이 벡터(disparity vector) 또는 에지 맵으로부터 도출될 수 있다.

- 심도 맵과 연관된 신뢰값을 나타내는 맵; 예를 들어, 이러한 맵은 텍스처의 코딩 모드 및 대응하는 심도를 비교함으로써 디코더에 의해 계산될 수 있다.

출력된 메타데이터의 일부는 단일 뷰에 관련된 데이터일 수 있다: 그러면, 이는 그 뷰에 대하여 고유하다. 다른 메타데이터는 2 이상의 뷰로부터 획득될 수 있다. 이 경우에, 메타데이터는 뷰들 사이의 차이 또는 상관 관계를 나타낸다(카메라 파라미터, 폐색 맵, 디코딩 모드에서의 차이 등).

도 4는 본 발명의 특정 실시예에 따른 멀티뷰 비디오를 나타내는 데이터 스트림을 디코딩하기 위한 방법의 단계들을 도시한다.

데이터 스트림(STR)은 디코더(DEC)의 입력에서, 예를 들어, 비트 스트림으로서 공급된다. 데이터 스트림(STR)은, 예를 들어, 프레임들 사이의 리던던시를 이용한 멀티뷰 비디오의 인코딩에 알맞은 종래 기술에 따른 비디오 인코더 또는 멀티뷰의 비디오의 각각의 뷰에 개별적으로 적용된 단일 뷰 비디오 인코더에 의해 인코딩된 멀티뷰 비디오의 데이터를 포함한다.

단계 E20에서, 디코더(DEC)는 스트림 데이터의 적어도 하나의 부분을 디코딩하여 디코딩된 신택스(syntax) 요소를 제공한다. 이러한 디코딩(E20)은, 예를 들어, 데이터 스트림에 대한 경로 및 재구성될 뷰, 예를 들어, 사용자가 보는 뷰의 현재 이미지를 재구성하기 위하여 필요한 신택스 요소를 추출하기 위한 비트 스트림의 엔트로피 디코딩에 대응한다. 이러한 신택스 요소는, 예를 들어, 현재 이미지의 블록들의 코딩 모드, 이미지간 또는 뷰간 예측의 경우의 모션 벡터, 예측 잔차의 양자화된 계수 등에 대응한다.

전통적으로, 단계 E21 동안, 재구성될 뷰(VD1, VD2)의 현재 이미지는 디코딩된 신택스 요소로부터 그리고 가능하게는 뷰 또는 다른 이전에 재구성된 뷰들의 이미지로부터 재구성된다. 현재 이미지의 이러한 재구성은 현재 이미지를 인코딩하기 위하여 인코더 레벨에서 사용되는 코딩 모드 및 예측 기술에 따라 구현된다.

재구성된 뷰들의 이미지들은 이미지 처리 모듈(SYNTH)의 입력에 제공된다.

단계 E23에서, 적어도 하나의 메타데이터 항목이 적어도 하나의 디코딩된 신택스 요소로부터 획득된다. 이러한 메타데이터 항목은 미리 정해진 형태로 포맷팅된다. 이러한 미리 정해진 형태는, 예를 들어, 데이터가 전송되거나 메모리 내에 저장될 때 따르는 특정 신택스에 대응한다. 멀티뷰 비디오 디코더가 특정 표준에 준수하는 디코더일 때, 메타데이터의 신택스는, 예를 들어, 그 특정 표준 또는 특정 디코딩 표준과 연관된 표준에 기술될 수 있다.

본 발명의 특정 실시예에 따르면, 미리 정해진 형태는 적어도 하나의 메타데이터 항목이 인덱스와 연관되어 저장된 인덱싱된 테이블에 대응한다. 이 특정 실시예에 따르면, 각각의 메타데이터 유형은 인덱스와 연관된다. 이러한 테이블의 일례는 아래의 표 1에 예시된다.

인덱스	메타데이터 유형
0	카메라 파라미터
1	모션 벡터
2	이미지 파티셔닝
3	이미지의 블록의 기준 이미지
4	이미지의 블록의 인코딩 모드
5	이미지의 블록의 양자화 파라미터
6	이미지의 블록의 예측 잔차값
7	이미지의 모션 맵
8	이미지 그룹의 글로벌 모션 맵
9	폐색 맵
10	심도 맵
11	심도 맵에 대한 신뢰도 맵

메타데이터 테이블의 예

각각의 메타데이터 항목은 이의 인덱스와 연관되어 메타데이터 유형에 따른 적합한 포맷으로 저장된다.

예를 들어, 뷰의 카메라 파라미터는, 예를 들어 장면 내의 카메라의 위치에 대응하는 3D 좌표계에서의 점의 좌표에 대응하는 위치 정보, 예를 들어, 3D 좌표 시스템에서의 3개의 각도의 값에 의해 정의된 배향 정보 및 피사계 심도(depth of field)를 각각 포함하는 3개의 데이터로서 저장된다.

다른 예에 따르면, 모션 벡터는 대응하는 재구성된 이미지의 각각의 블록에 대하여 대응하는 모션 벡터의 값을 포함하는 테이블의 형태로 저장된다.

아래에서 예시된 메타데이터 테이블은 단지 비제한적인 예이다. 메타데이터는 다른 미리 정해진 형태로 저장될 수 있다. 예를 들어, 단지 하나의 메타데이터 유형이 가능할 때, 인덱스를 그 메타데이터 유형과 연관시키는 것은 필요하지 않다.

본 발명의 특정 실시예에 따르면, 단계 E22에서, 적어도 하나의 메타데이터 항목은, 획득하는 단계(E23) 전에, 디코딩된 신택스 요소의 적어도 하나의 부분으로부터 계산된다.

따라서, 본 발명의 이러한 특정 실시예는 재구성될 뷰의 현재 이미지를 재구성하는데 사용되지 않지만, 재구성된 현재 이미지로부터 가상 뷰들, 예를 들어, 폐색 맵을 합성하는데 사용될 수 있는 메타데이터를 획득하는 것을 가능하게 한다.

또한, 본 발명의 이러한 특정 실시예는 현재 이미지를 재구성하는데 사용되는 것과 상이한 입도를 갖는 메타데이터를 획득하는 것을 가능하게 한다. 예를 들어, 모션 벡터는, 예를 들어, 전체 이미지에 대하여 크기가 64×64 픽셀인 블록들에 대하여, 64×64 블록에 포함된 현재 이미지의 모든 서브 블록의 재구성된 모션 벡터로부터 더 거친(coarse) 방식으로 계산될 수 있다. 예를 들어, 각각의 64×64 블록에 대하여, 모션 벡터는 서브 블록의 모션 벡터들의 최소 또는 최대값, 중간값 또는 중앙값이나 임의의 다른 함수를 취하여 계산될 수 있다.

단계 E24에서, 단계 E23에서 획득된 메타데이터(MD1, MD2)는 디코더(DEC) 외부에 있는 이미지 처리 모듈(SYNTH), 예를 들어, 가상 뷰 합성 모듈에 제공된다. 디코더 외부에 있는 모듈은 동작이 데이터 스트림을 디코딩하거나 디코더에 의해 재구성된 뷰를 디스플레이하기 위하여 필요하지 않은 모듈을 의미한다.

예를 들어, 메타데이터는 이미지 처리 모듈이 액세스 가능한 메모리에 저장된다. 다른 예에 따르면, 메타데이터는, 디코더 및 이미지 처리 모듈이 동일한 장치에 통합되어 있을 때 데이터 통신 버스와 같은 연결 링크를 통해 또는 디코더 및 이미지 처리 모듈이 별개 장치들에 통합되어 있을 때 케이블 또는 무선 연결을 통해 이미지 처리 모듈로 전송된다.

도 5는 본 발명의 특정 실시예에 따른 멀티뷰 비디오를 나타내는 데이터 스트림의 디코더를 개략적으로 도시한다.

전통적으로, 데이터 스트림(STR)으로부터 재구성될 뷰의 디코딩은 다음과 같이 구현된다. 재구성될 뷰의 디코딩은 이미지별로, 그리고 각각의 이미지에 대하여 블록별로 수행된다. 재구성될 각각의 블록에 대하여, 블록에 대응하는 요소들은 데이터 스트림(STR)으로부터 엔트로피 디코딩 모듈(D)에 의해 디코딩되어, 디코딩된 신택스 요소(SE)(텍스처 인코딩 모드, 모션 벡터, 변이 벡터, 심도 인코딩 모드, 기준 이미지 인덱스, ...)와 양자화된 계수(coeff)의 세트를 제공한다.

양자화된 계수(coeff)는 역양자화 모듈(Q^-1)로 전송되고 그 다음 역변환 모듈(T^-1)로 전송되어, 블록의 예측 잔차값(res_rec)을 제공한다. 디코딩된 신택스 요소(SE)는 예측 모듈(P)로 전송되어 역시 이전에 재구성된 이미지(I_ref)(현재 이미지의 한 부분이나, 이전에 재구성된 뷰의 기준 이미지 또는 다른 이전에 재구성된 뷰의 기준 이미지)를 이용하여 예측 변수(predictor) 블록(pred)을 계산한다. 그 다음, 현재 블록은 블록의 예측 잔치(res_rec)에 예측 변수(pred)를 더하여 재구성된다(B_rec). 그 다음, 재구성된 블록(B_rec)은 현재 이미지나, 다른 이미지 또는 다른 뷰를 재구성하기 위하여 나중에 사용되도록 메모리(MEM)에 저장된다.

본 발명에 따르면, 엔트로피 디코딩 모듈의 출력에서, 블록의 디코딩된 신택스 요소(SE) 및 선택적으로는 양자화된 계수가, 디코딩된 신택스 요소(SE) 및 선택적으로는 양자화된 계수의 적어도 하나의 부분을 선택하고, 재구성된 이미지 또는 이미지 그룹에 관련된 메타데이터(MD)를 제공하기 위하여 이를 미리 정해진 형태로 저장하도록 구성된 모듈(FROM)로 전송된다.

포맷팅될 디코딩된 신택스 요소(SE)의 선택은 정해져 있을 수 있고, 예를 들어, 디코더의 동작을 기술하는 표면에서 명시적으로 설정될 수 있다. 대안적으로, 상이한 유형의 선택이 정해진 방식으로, 예를 들어, 디코더 프로파일 통해 정의될 수 있으며, 디코더의 매개변수화는 포맷팅 모듈(FORM)이 대응하는 신택스 요소를 선택하도록 이를 구성할 수 있다. 또 다른 변형예에 따르면, 디코더는 이것이 메타데이터를 제공하는 이미지 처리 모듈과 교환할 수 있다. 이 경우에, 이미지 처리 유닛은 수신하기 원하는 메타데이터의 유형을 디코더에 명시적으로 표시하고, 디코더의 모듈(FORM)은 필요한 디코딩된 신택스 요소만을 선택할 수 있다.

메타데이터가 디코더에 의해 사용되는 것과 상이한 입도 레벨로 제공될 수 있을 때, 이러한 입도 레벨은 디코더의 동작을 기술하는 표준에서 정해진 방식으로 또는 디코더 프로파일을 통해 정의될 수 있다. 이미지 처리 모듈이 메타데이터를 획득하기 위하여 디코더와 통신할 때, 이미지 처리 모듈은 메타데이터의 일부를 수신하기 원하는 입도 레벨을 디코더에 명시적으로 표시할 수 있다.

본 발명의 특정 실시예에 따르면, 엔트로피 디코딩 모듈의 출력에서의 디코딩된 신택스 요소(SE) 및 선택적으로는 양자화된 계수는, 신택스 요소(SE) 및/또는 양자화된 계수로부터 메타데이터를 계산하도록 구성된 모듈(CALC)로 전송된다. 전과 같이, 계산될 메타데이터는 상이한 프로파일에 따라 디코더의 동작을 기술하는 표준에 명시적으로 정의될 수 있거나, 의도되는 이미지 처리 모듈과의 교환으로부터 결정될 수 있다.

본 발명의 특정 실시예에 따르면, 모듈(FORM)은, 특히, 재구성될 뷰의 카메라 파라미터를 선택한다.

새로운 시점을 합성하기 위하여, 합성 모듈은 원래(재구성된) 뷰의 각각의 픽셀이 가상 뷰로 어떻게 투사되는지를 기술하는 모델을 생성하여야 한다. 예를 들어 DIBR(Depth Image Based Rendering) 기술에 기초한 대부분의 합성기는 재구성된 뷰의 픽셀을 3D 공간으로 투사하기 위하여 심도 정보를 사용한다. 그 다음, 3D 공간에서의 대응하는 점은 새로운 시점으로부터 카메라 평면으로 투사된다.

3D 공간에서의 이미지 점의 이러한 투사는 다음의 식으로 모델링될 수 있다: M = K.RT.M', 여기에서, M은 3D 공간에서의 점들의 좌표 행렬이고, K는 가상 카메라의 고유 파라미터의 행렬이고, RT는 가상 카메라의 외부 파라미터(3D 공간에서의 카메라 위치 및 배향)의 행렬이고, M'는 현재 이미지의 픽셀 행렬이다.

카메라 파라미터들이 합성 모듈로 전송되지 않으면, 합성 모듈은 높은 복잡성과 정밀성의 비용으로 이들을 계산하여야 하며, 계산은 실시간으로 수행될 수 없거나, 외부 센서에 의해 획득되어야 한다. 따라서, 디코더에 의해 이 파라미터들을 제공하는 것은 합성 모듈의 복잡성을 제한할 수 있게 한다.

본 발명의 다른 특정 실시예에 따르면, 모듈(FORM)은, 특히, 현재 이미지를 구성하기 위하여 사용되는 기준 이미지에 관한 신택스 요소를 선택한다.

가상 뷰를 생성하기 위하여 합성 모듈이 사용 가능하고 이전에 재구성된 상이한 뷰들의 이미지들 중에서 기준 이미지를 선택할 가능성을 갖는 경우에, 합성 모듈은 합성을 위하여 사용되는 뷰를 코딩할 때 어느 기준 뷰가 사용되었는지를 아는 것으로부터 이점을 얻을 수 있다. 예를 들어, 도 10은 16개의 카메라를 포함하는 멀티뷰 캡처 시스템의 뷰들의 배열을 도시한다. 각각의 프레임 사이의 화살표는 뷰들의 디코딩 순서를 나타낸다. 합성 모듈이 뷰(V6)와 뷰(V10) 사이에 배치된 시점(도 10에서 X표로 표시됨)에 대하여 가상 뷰(VV)를 생성하여야 한다면, 전통적으로, 합성 모듈은 가상 뷰를 최상으로 구성하기 위하여 각각의 뷰의 가용성을 검사하여야 한다.

여기에서 설명된 특정 실시예에 따르면, 합성 모듈이, 뷰에 대하여, 이를 재구성하는데 사용된 기준 뷰를 나타내는 메타데이터를 가진다면, 합성 모듈은, 가상 뷰를 생성하기 위하여 어느 이미지를 사용할 지 결정하기 위하여, 가상 시점에 가장 가까운 사용 가능한 뷰(도 10의 경우에 뷰(V6))를 선택할 수 있다. 예를 들어, 뷰(V6)의 블록이 기준 이미지로서 뷰(V7)의 이미지를 사용하면, 합성 모듈은 또한 뷰(V7)를 사용하도록 결정할 수 있으며, 이는 이것이 뷰(V6)에 의해 사용되기 때문에 필연적으로 사용 가능하다. 따라서, 이러한 실시예는 합성 동안 각각의 뷰의 가용성을 검사할 필요성을 방지함으로써 합성 모듈의 복잡성을 감소시킨다.

본 발명의 다른 특정 실시예에 따르면, 모듈(CALC)은, 특히, 모션 맵을 생성하기 위한 모션 벡터에 관련된 신택스 요소를 선택한다.

움직임이 거의 없는 영역에서, 가상 뷰 합성은, 심도 맵의 부정확성 때문에, 일반적으로 시간적 일관성(temporal coherence)의 부족을 나타낸다. 이러한 비일관성은 가상 시점으로부터의 시각화를 극도로 방해한다.

이 특정 실시예에서, 디코더의 모듈(CALC)은 디코딩되고 재구성된 모션 벡터, 즉 모션 벡터의 역예측(inverse prediction) 및 모션 벡터의 스케일링 후의 모션 벡터를 선택한다. 모듈(CALC)은 통상적으로 각각의 요소가 0 또는 1을 취하여 영역이 모션을 가지는지 아닌지 여부를 국지적으로 나타내는 바이너리 맵인 모션 맵을 생성하기 위하여 각각의 블록의 재구성된 모션 벡터의 경계화(thresholding)를 수행한다. 바이너리 맵은 예를 들어 수학적 형태(예를 들어, 부식(erosion), 팽창(expansion), 개방(opening), 폐쇄(closing))를 이용하여 개선될 수 있다.

그 다음, 모션 바이너리 맵은 모션이 뷰 내에 존재하는지 여부를 나타내기 위하여 원하는 입도(픽셀 레벨 맵, 블록 또는 서브 블록 레벨 맵, 또는 이미지 내의 특정 블록 크기에 대하여 정의된 맵 등)에 따라 포맷팅될 수 있다.

그 다음, 이러한 모션 맵을 수신하는 합성 모듈은, 예를 들어, 영역이 모션을 가지는 것으로 표시되는지 여부에 따라 상이한 합성 프로세스를 적용함으로써, 이의 동작을 조정할 수 있다. 예를 들어, 시간적 비일관성의 문제를 해결하기 위하여, 종래의 합성 프로세스는 고정된(모션 없는) 영역에서 디스에이블되고 단순히 이전 이미지의 픽셀의 값을 이어 받을 수 있다.

물론, 합성 모듈은 다른 수단을 이용하여, 예를 들어, 인코더로서 모션을 추산함으로써, 모션 맵을 스스로 생성할 수 있다. 그러나, 인코더가 디코더의 출력에서 더 이상 사용 가능하지 않은 코딩되지 않은 이미지로부터 모션을 추산하기 때문에, 이러한 동작은 합성 알고리즘 및 결과에 따른 모션의 정확성에 상당한 영향을 미친다.

도 10에 도시된 예와 이전에 설명된 실시예에서, 유효한 기준 뷰는 가장 가까운 가용 뷰를 이용하는 것뿐만 아니라 가상 시점의 이웃의 기준 뷰를 평균함으로써 계산될 수 있다. 예를 들어, 기준 뷰들(V6, V7, V10 및 V11)이 디코더의 모듈(CACL)에 의해 평균될 수 있고, 결과에 따른 평균 뷰는 합성 모듈로 전송된다.

다른 변형에 따르면, 디코더의 모듈(CALC)은 영역이 폐색 영역에 대응하는지 이미지의 각각의 픽셀 또는 블록에 대하여 표시하는 폐색 맵을 계산할 수 있다. 예를 들어, 모듈(CALC)은 영역을 재구성하기 위하여 디코더에 의해 사용되는 기준 이미지(들)의 정보를 이용함으로써 영역이 폐색 영역에 대응하는지 판단할 수 있다. 예를 들어, 도 10의 경우에, 예를 들어, 뷰(V2)에 관하여, 뷰(V6)의 이미지 내의 대부분의 블록이 시간 예측을 사용하고, 뷰(V6)의 이미지 내의 일부 블록이 뷰간 예측을 사용하면, 이러한 블록들은 폐색 영역에 대응할 것으로 예상된다.

그 다음, 이러한 폐색 맵을 수신하는 합성 모듈은 영역이 폐색 영역으로 표시되는지 여부에 따라 상이한 합성 프로세스를 적용하도록 결정할 수 있다.

본 발명의 다른 특정 실시예에 따르면, 모듈(CALC)은, 특히, 재구성된 이미지의 텍스처 및 이미지의 심도 맵과 각각 연관된 코딩 모드들을 선택한다.

종래 기술에 따르면, 합성 알고리즘은 심도 맵을 사용한다. 이러한 심도 맵은 보통 합성된 가상 뷰에서 아티팩트(artefact)를 생성하는 오류를 보인다. 텍스처와 심도 맵 사이의 인코딩 모드들을 비교함으로써, 디코더는 심도 및 텍스처가 상관되는지(값 1) 또는 아닌지(값 0)을 나타내는 바이너리 맵과 같은 심도 맵과 연관된 신뢰 기준을 도출할 수 있다.

예를 들어, 신뢰값은 인코딩 모드로부터 도출될 수 있다. 텍스처 인코딩 모드와 심도 인코딩 모드가 다르다면, 예를 들어 하나가 인트라(intra) 모드에 있고 다른 하나가 인터(inter) 모드에 있으면, 이는 텍스처와 심도가 상관되지 않는 것을 의미한다. 따라서, 신뢰값은 낮을 것이고, 예를 들어, 0일 것이다.

또한, 신뢰값은 모션 벡터에 따라 배치될 수 있다. 텍스처와 심도가 다른 모션 벡터를 가지면, 이는 텍스처와 심도가 상관되지 않는 것을 의미한다. 따라서, 신뢰값은 낮을 것이고, 예를 들어, 0일 것이다.

또한, 신뢰값은 텍스처와 심도에 의해 사용되는 기준 이미지에 따라 배치될 수 있다. 기준 이미지가 다르다면, 이는 텍스처와 심도가 상관되지 않는 것을 의미한다. 따라서, 신뢰값은 낮을 것이고, 예를 들어, 0일 것이다.

이러한 신뢰도 맵을 수신하는 합성 모듈은 영역이 낮은 신뢰값으로 표시되는지 여부에 따라 상이한 합성 프로세스를 적용하도록 결정할 수 있다. 예를 들어, 이러한 영역에 대하여, 영역에 대하여 더 나은 신뢰값을 제공하는 다른 기준 뷰가 대응하는 영역을 합성하는데 사용될 수 있다.

도 6은 본 발명의 특정 실시예에 따른 이미지 처리 방법의 단계들을 도시한다. 이러한 프로세스는, 예를 들어, 도 5에 관련하여 설명된 디코딩 방법에 의해 디코딩되고 재구성된 뷰들로부터, 예를 들어, 가상 뷰 합성 모듈에 의해 구현된다.

단계 E60에서, 적어도 하나의 메타데이터 항목(MD1, MD2)이 합성 모듈에 의해 판독된다. 합성 모듈에 의해 판독된 메타데이터는 멀티뷰 비디오를 나타내는 스트림으로부터 디코딩된 신택스 요소에 대응하고, 하나 이상의 뷰와 연관된다. 또한, 이는 디코딩된 신택스 요소로부터 스트림을 디코딩하기 위한 방법 동안 계산된 정보에 대응할 수 있다. 메타데이터는, 적합한 판독 모듈을 갖는 임의의 합성 모듈이 이를 판독할 수 있도록, 미리 정해진 형태로 합성 모듈로 저장되거나 전송될 수 있다.

단계 E61에서, 합성 모듈은, 예를 들어, 도 5에 관련하여 설명된 디코딩 방법에 따라, 멀티뷰 비디오 디코더에 의해 재구성된 뷰(VD1, VD2)의 적어도 하나의 이미지를 입력에서 수신한다. 합성 모듈은 가상 시점(VS(1+2))로부터 적어도 하나의 이미지를 생성하도록 이러한 수신된 뷰(VD1, VD2) 및 판독된 메타데이터(MD1, MD2)를 사용한다. 특히, 메타데이터(MD1, MD2)는 이미지의 소정의 영역에 대하여 사용될 합성 알고리즘을 결정하거나 가상 뷰의 이미지를 생성하는데 사용될 뷰를 결정하기 위하여 합성 모듈에 의해 사용된다.

도 7은 본 발명의 다른 특정 실시예에 따른 디코딩 방법 및 이미지 처리 방법의 단계들을 도시한다.

일반적으로, 멀티 뷰 비디오의 디코더는 가상 시점을 생성하는데 사용될 합성기의 유형을 알지 못한다. 다른 말로 하면, 디코더는 어느 합성 알고리즘이 사용될지 또는 어느 메타데이터 유형이 이에 유용할 것인지 모른다.

여기에서 설명된 특정 실시예에 따라, 디코더 및 합성 모듈은 양방향으로 교환할 수 있도록 조정된다. 예를 들어, 합성 모듈은 자신이 더 나은 합성을 성취하는데 필요할 수 있는 메타데이터의 리스트를 디코더에 표시할 수 있다. 합성 모듈로부터의 요청 전 또는 후에, 디코더는 합성 모듈에 전송할 수 있는 메타데이터를 합성 모듈에 알릴 수 있다. 유리하게는, 디코더가 공유할 수 있는 메타데이터의 리스트는 표준화된다. 즉, 디코딩 표준에 준수하는 모든 디코더는 리스트 상의 메타데이터를 공유할 수 있어야 한다. 따라서, 주어진 디코딩 표준에 대하여, 합성 모듈은 어느 메타데이터가 사용 가능할 수 있는지 안다. 또한, 메타데이터의 리스트는 디코더 표준의 프로파일에 따라 조정될 수 있다. 예를 들어, 낮은 동작 복잡성을 필요로 하는 디코더에 대하여 의도된 프로파일에 대해, 메타데이터의 리스트는 스트림의 디코딩된 신택스 요소만을 포함하는 반면, 더 높은 동작 복잡성을 핸들링할 수 있는 디코더에 대하여 의도된 프로파일에 대해, 메타데이터의 리스트는 또한 모션 맵, 폐색 맵, 신뢰 맵 등과 같은 스트림의 디코딩된 신택스 요소로부터 계산에 의해 획득된 메타데이터도 포함할 수 있다.

단계 E70에서, 합성 모듈은 가상 시점으로부터 이미지를 생성하기 위하여 필요한 적어도 하나의 메타데이터 항목을 나타내는 요청을 디코더에 전송한다. 예를 들어, 질의는 필요한 메타데이터에 각각 대응하는 인덱스 또는 인덱스의 리스트를 포함한다.

이러한 요청은 합성 모듈과 디코더가 서로 이해할 수 있도록 미리 정해진 포맷에 따라, 즉 미리 정해진 신택스에 따라 전송된다. 예를 들어, 이러한 신택스는 다음과 같을 수 있다:

nb

0 내지 nb-1의 정수에 대하여, list[i]

여기에서, 신택스 요소 nb는 합성 모듈이 필요로 하는 메타데이터의 개수, 따라서 디코더에 의해 판독될 인덱스의 개수를 나타내고, list[i]는 필요한 메타데이터의 해당하는 인덱스를 나타낸다.

일례에 따르면, 전술한 표 1에 의해 제공된 메타데이터의 예를 들어, 합성 모듈은 요청에서 nb = 2와, 카메라 파라미터 및 폐색 맵에 각각 대응하는 인덱스 0 및 9를 나타낼 수 있다.

또한, 일 변형예에서, 합성 모듈은, 필요한 메타데이터 항목의 인덱스와 연관하여, 예를 들어, 메타데이터 항목과 연관된 미리 정해진 값의 "grlevel" 신택스 요소를 특정함으로써, 입도 레벨을 나타낼 수 있다. 예를 들어, 폐색 맵의 경우에, 합성 모듈은, 픽셀 레벨의 폐색 맵을 원하는 경우, 인덱스 9와 연관된 "level" 요소에 대하여 값 1을 나타낼 수 있거나, 또는 예를 들어 크기가 8×8인 블록에 대한 더 거친 레벨의 폐색 맵을 원하는 경우, 인덱스 9와 연관된 "level" 요소에 대하여 값 2를 나타낼 수 있다.

단계 E71에서, 디코더는 대응하는 메타데이터를 획득한다. 이 목적으로, 그리고 도 4 또는 5와 관련하여 전술된 예에 따라, 디코더는 메타데이터를 획득하는데 필요한 디코딩된 신택스 요소를 검색하고, 폐색 맵과 같이 재구성을 위하여 디코더에 의해 사용되지 않은 메타데이터를 계산한다. 그 다음, 메타데이터는 합성 모듈이 판독할 수 있도록 미리 정해진 형태에 따라 포맷팅된다.

단계 E72에서, 디코더는 메타데이터를 자신의 합성 알고리즘에 사용할 수 있는 합성 모듈로 전송한다.

도 8은 본 발명의 이전에 설명된 특정 실시예에 따른 디코딩 방법을 구현하는데 알맞은 장치(DEC)를 개략적으로 도시한다.

이러한 디코딩 장치는, 메모리(MEM)와, 예를 들어, 프로세서(PROC)가 구비되고 메모리(MEM)에 저장된 컴퓨터 프로그램(PG)에 의해 제어되는 처리 유닛(UT)을 포함한다. 컴퓨터 프로그램(PG)은, 프로그램이 프로세서(PROC)에 의해 실행될 때, 이전에 설명된 디코딩 방법의 단계들을 구현하기 위한 명령어들을 포함한다.

본 발명의 특정 실시예에 따르면, 디코딩 장치(DEC)는, 특히 디코딩 장치가, 통신 네트워크를 통해, 멀티뷰 비디오를 나타내는 데이터 신호를 수신할 수 있게 하는 통신 인터페이스(COM0)를 포함한다.

본 발명의 다른 특정 실시예에 따르면, 디코딩 장치(DEC)는 디코딩 장치가 메타데이터 및 데이터 스트림으로부터 재구성된 뷰의 이미지를 합성 모듈과 같은 이미지 처리 장치에 전송할 수 있게 하는 통신 인터페이스(COM1)를 포함한다.

초기에, 컴퓨터 프로그램(PG)의 코드 명령어는 예를 들어 프로세서(PROC)에 의해 실행되기 전에 메모리로 로딩된다. 특히, 처리 유닛(UT)의 프로세서(PROC)는, 컴퓨터 프로그램(PG)의 명령어에 따라, 특히, 도 4, 5 및 7과 관련하여 설명된 디코딩 방법의 단계들을 구현한다. 특히, 메모리(MEM)는 미리 정해진 형태로 디코딩 방법 동안 획득된 메타데이터를 저장하도록 맞추어진다.

본 발명의 특정 실시예에 따르면, 이전에 설명된 디코딩 장치는 텔레비전 수신기, 모바일 폰(예를 들어, 스마트폰), 셋톱 박스, 가상 현실 헤드셋 등과 같은 단말기 내에 포함된다.

도 9는 본 발명의 이전에 설명된 특정 실시예에 따른 이미지 처리 디코딩 방법을 구현하는데 알맞은 장치(SYNTH)를 개략적으로 도시한다.

이러한 장치는, 메모리(MEM9)와, 예를 들어, 프로세서(PROC9)가 구비되고 메모리(MEM9)에 저장된 컴퓨터 프로그램(PG9)에 의해 제어되는 처리 유닛(UT9)을 포함한다. 컴퓨터 프로그램(PG9)은, 프로그램이 프로세서(PROC9)에 의해 실행될 때, 이전에 설명된 이미지 처리 방법의 단계들을 구현하기 위한 명령어들을 포함한다.

본 발명의 특정 실시예에 따르면, 장치(SYNTH)는, 특히 장치가, 전술한 장치(DEC)와 같은 디코딩 장치로부터 유래하는 메타데이터와, 장치(DEC)에 의해 멀티뷰 비디오를 나타내는 데이터 스트림으로부터 재구성된 뷰의 이미지를 수신할 수 있게 하는 통신 인터페이스(COM9)를 포함한다.

초기에, 컴퓨터 프로그램(PG9)의 코드 명령어는 예를 들어 프로세서(PROC9)에 의해 실행되기 전에 메모리로 로딩된다. 특히, 처리 유닛(UT9)의 프로세서(PROC9)는, 컴퓨터 프로그램(PG9)의 명령어에 따라, 특히, 도 6 및 7과 관련하여 설명된 이미지 처리 방법의 단계들을 구현한다.

본 발명의 특정 실시예에 따르면, 장치(SYNTH)는 장치(SYNTH)가 디스플레이 장치, 예를 들어, 스크린에 이미지를 전송할 수 있게 하는 출력 인터페이스(AFF9)를 포함한다. 예를 들어, 이러한 이미지는 장치(DEC)로부터 수신된 재구성된 뷰의 이미지와 메타데이터를 이용하여 장치(SYNTH)에 의해 생성되는 가상 시점으로부터의 이미지에 대응할 수 있다.

본 발명의 특정 실시예에 따르면, 장치(SYNTH)는 합성 모듈이다. 이는 텔레비전 수신기, 모바일 폰(예를 들어, 스마트폰), 셋톱 박스, 가상 현실 헤드셋 등과 같은 단말기 내에 포함된다.

본 발명의 원리는, 여러 뷰가 동일한 스트림(비트 스트림)으로부터 디코딩되고 메타데이터가 각각의 뷰에 대하여 획득되는 멀티 뷰 디코딩 시스템의 경우에 설명되었다. 이 원리는 멀티뷰 비디오가 여러 스트림(비트 스트림)으로 인코딩되고 스트림 당 하나의 뷰가 인코딩되는 경우에 유사하게 적용된다. 이 경우에, 각각의 뷰 디코더는 자신이 디코딩하는 뷰와 연관된 메타데이터를 제공한다.

Claims

디코딩 장치에 의해 구현되는, 멀티뷰(multi-view) 비디오를 나타내는 데이터 스트림을 디코딩하는 방법에 있어서,
상기 데이터 스트림의 적어도 하나의 부분으로부터 신택스(syntax) 요소를 획득하는 단계(E20);
획득된 상기 신택스 요소로부터 상기 비디오의 뷰의 적어도 하나의 이미지를 재구성하는 단계(E21);
적어도 하나의 신택스 요소로부터 미리 정해진 형태로 적어도 하나의 메타데이터 항목을 획득하는 단계(E23); 및
이미지 합성 모듈로 상기 적어도 하나의 메타데이터 항목을 제공하는 단계
를 포함하는 것을 특징으로 하는, 방법.
제1항에 있어서,
상기 적어도 하나의 메타데이터 항목을 획득하는 단계는, 상기 신택스 요소의 적어도 하나의 부분으로부터 상기 적어도 하나의 메타데이터 항목을 계산하는 단계를 더 포함하는, 방법.
제1항 또는 제2항에 있어서,
상기 적어도 하나의 메타데이터 항목은 상기 적어도 하나의 이미지를 재구성하기 위하여 사용되지 않는, 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 적어도 하나의 메타데이터 항목은,
- 카메라 파라미터,
- 디코딩되고 스케일링된 모션 벡터,
- 재구성된 상기 이미지의 파티셔닝(partitioning),
- 재구성된 상기 뷰의 이미지의 블록에 의해 사용되는 기준 이미지,
- 재구성된 상기 뷰의 이미지의 코딩 모드,
- 재구성된 상기 뷰의 이미지의 양자화 파라미터 값,
- 재구성된 상기 뷰의 이미지의 예측 잔차값(residual value),
- 재구성된 상기 뷰의 이미지에서의 움직임을 나타내는 맵,
- 재구성된 상기 뷰의 이미지에서의 폐색(occlusion)의 존재를 나타내는 맵, 및
- 심도(depth) 맵과 연관된 신뢰값을 나타내는 맵
을 포함하는 그룹에 포함된 정보 항목에 대응하는, 방법.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 미리 정해진 형태는 적어도 하나의 메타데이터 항목이 인덱스와 연관되어 저장된 인덱싱된 테이블에 대응하는, 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 적어도 하나의 메타데이터 항목은 상기 디코딩 장치에 특정된 입도(granularity) 레벨에 기초하여 획득되는, 방법.
제1항 내지 제6항 중 어느 한 항에 있어서,
상기 이미지 합성 모듈이 필요로 하는 적어도 하나의 메타데이터 항목을 나타내는 상기 이미지 합성 모듈로부터의 요청을 상기 디코딩 장치에 의해 수신하는 단계를 더 포함하는, 방법.
제7항에 있어서,
상기 요청은 사용 가능한 메타데이터의 미리 정해진 리스트 중에서 필요한 메타데이터 항목을 나타내는 적어도 하나의 인덱스를 포함하는, 방법.
멀티뷰 비디오를 나타내는 데이터 스트림을 디코딩하는 장치에 있어서,
상기 장치는,
상기 데이터 스트림의 적어도 하나의 부분으로부터 신택스(syntax) 요소를 획득하고;
획득된 신택스 요소로부터 상기 비디오의 뷰의 적어도 하나의 이미지를 재구성하고;
적어도 하나의 신택스 요소로부터 미리 정해진 형태로 적어도 하나의 메타데이터 항목을 획득하고; 그리고,
이미지 합성 모듈로 상기 적어도 하나의 메타데이터 항목을 제공하도록 구성되는(UT, MEM, COM1), 장치.
디코딩 장치에 의해 디코딩된 뷰의 적어도 하나의 이미지로부터 가상 뷰의 적어도 하나의 이미지를 생성하는 단계를 포함하는 이미지 합성 방법에 있어서,
멀티뷰 비디오를 나타내는 데이터 스트림으로부터 획득된 적어도 하나의 신택스 요소로부터 상기 디코딩 장치에 의해 획득된 미리 정해진 형태의 적어도 하나의 메타데이터 항목을 판독하는 단계(E60); 및
판독된 상기 적어도 하나의 메타데이터 항목을 이용하여 상기 적어도 하나의 이미지를 생성하는 단계(E61)
를 포함하는, 이미지 합성 방법.
제10항에 있어서,
상기 이미지를 생성하기 위하여 필요한 적어도 하나의 메타데이터 항목을 나타내는 요청을 상기 디코딩 장치로 전송하는 단계를 더 포함하는, 이미지 합성 방법.
디코딩 장치에 의해 디코딩된 뷰의 적어도 하나의 이미지로부터 가상 뷰의 적어도 하나의 이미지를 생성하도록 구성된 이미지 합성 장치에 있어서,
상기 이미지 합성 장치는 멀티뷰 비디오를 나타내는 데이터 스트림으로부터 획득된 적어도 하나의 신택스 요소로부터 상기 디코딩 장치에 의해 획득된 미리 정해진 형태의 적어도 하나의 메타데이터 항목을 판독하도록 구성되고(UT9, MEM9, COM9),
상기 적어도 하나의 이미지가 생성될 때, 판독된 상기 적어도 하나의 메타데이터 항목이 사용되는, 이미지 합성 장치.
멀티뷰 비디오를 나타내는 데이터 스트림으로부터 상기 멀티뷰 비디오를 디스플레이하는 이미지 처리 시스템에 있어서,
제9항에 따른 디코딩 장치; 및
제12항에 따른 이미지 합성 장치
를 포함하는, 이미지 처리 시스템.
프로세서에 의해 실행될 때, 제1항 내지 제8항 중 임의의 한 항에 따른 디코딩 방법을 구현하거나, 제10항 또는 제11항에 따른 이미지 합성 방법을 구현하기 위한 명령어를 포함하는 컴퓨터 프로그램.