KR20210132712A - 이미지 신호를 생성하는 장치 및 방법 - Google Patents

이미지 신호를 생성하는 장치 및 방법 Download PDF

Info

Publication number
KR20210132712A
KR20210132712A KR1020217031555A KR20217031555A KR20210132712A KR 20210132712 A KR20210132712 A KR 20210132712A KR 1020217031555 A KR1020217031555 A KR 1020217031555A KR 20217031555 A KR20217031555 A KR 20217031555A KR 20210132712 A KR20210132712 A KR 20210132712A
Authority
KR
South Korea
Prior art keywords
images
image
candidate
prediction
pixels
Prior art date
Application number
KR1020217031555A
Other languages
English (en)
Inventor
바르트 크룬
기스트 바르톨로메우스 윌헬무스 다미아누스 반
Original Assignee
코닌클리케 필립스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 엔.브이. filed Critical 코닌클리케 필립스 엔.브이.
Publication of KR20210132712A publication Critical patent/KR20210132712A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/597Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding specially adapted for multi-view video sequence encoding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/103Selection of coding mode or of prediction mode
    • H04N19/105Selection of the reference unit for prediction within a chosen coding or prediction mode, e.g. adaptive choice of position and number of pixels used for prediction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • H04N19/132Sampling, masking or truncation of coding units, e.g. adaptive resampling, frame skipping, frame interpolation or high-frequency transform coefficient masking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/146Data rate or code amount at the encoder output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/17Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object
    • H04N19/172Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being an image region, e.g. an object the region being a picture, frame or field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/816Monomedia components thereof involving special video data, e.g 3D video

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Processing Or Creating Images (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Image Processing (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

장면의 복수의 이미지로부터 이미지 신호를 생성하는 방법은 (이전에) 포함된 이미지들의 세트로부터 후보 이미지들의 세트에 대한 예측 이미지들을 생성하는 단계(505)를 포함하는 반복들을 수행한다. 선택된 이미지들의 세트가 예측 품질에 응답하여 후보 이미지들의 세트로부터 선택된다(509). 각각의 선택된 이미지에 대해, 픽셀들의 서브세트가 이미지의 픽셀들에 대한 픽셀 예측 품질들에 응답하여 결정되고(511), 선택된 이미지들에 대응하는 부분 이미지들의 세트가 픽셀들의 서브세트를 선택(511)함으로써 생성된다(513). 선택된 이미지는 후보 세트로부터 삭제되고, 부분 이미지는 포함된 세트에 추가된다. 이 접근법은 장면을 표현하는 이미지 데이터의 낮은 복잡성 및 낮은 자원 선택을 제공할 수 있다.

Description

이미지 신호를 생성하는 장치 및 방법
본 발명은 이미지 신호를 생성하기 위한 장치 및 방법에 관한 것으로, 특히, 배타적이지는 않지만, 동일한 장면에 대한 다수의 이미지를 포함하는 이미지 신호의 생성 및/또는 처리에 관한 것이다.
이미지 및 비디오 애플리케이션들의 다양성 및 범위는 최근 몇 년간 실질적으로 증가하였으며, 비디오를 이용하고 소비하는 새로운 서비스들 및 방식들이 계속하여 개발되고 도입되고 있다.
예를 들어, 점점 더 대중화되고 있는 하나의 서비스는 뷰어(viewer)가 렌더링의 파라미터들을 변경하기 위해 시스템과 능동적으로 그리고 동적으로 상호작용할 수 있는 방식으로 이미지 시퀀스들을 제공하는 것이다. 많은 애플리케이션들에서 매우 매력적인 특징은, 예를 들어 뷰어가 제시되는 장면에서 이동하고 "둘러보는" 것을 허용하는 것과 같은, 뷰어의 효과적인 관찰 위치 및 관찰 방향을 변경하는 능력이다.
그러한 특징은 구체적으로 가상 현실 경험이 사용자에게 제공될 수 있게 할 수 있다. 이것은 사용자가 예컨대 가상 환경에서 (비교적) 자유롭게 이동하고 자신의 위치 및 자신이 보고 있는 곳을 동적으로 변경할 수 있게 할 수 있다. 전형적으로, 그러한 가상 현실 애플리케이션들은 장면의 3차원 모델에 기초하며, 이 모델은 특정 요청된 뷰(view)를 제공하기 위해 동적으로 평가된다. 이 접근법은, 컴퓨터들 및 콘솔들에 대해, 1인칭 슈터들(first person shooters)의 카테고리에서와 같은, 예컨대 게임 애플리케이션들로부터 잘 알려져 있다.
특히 가상 현실 애플리케이션들에 대해, 제시되는 이미지가 3차원 이미지인 것이 또한 바람직하다. 실제로, 뷰어의 몰입을 최적화하기 위해, 전형적으로 사용자가 제시된 장면을 3차원 장면으로서 경험하는 것이 바람직하다. 실제로, 가상 현실 경험은 바람직하게는 사용자가 가상 세계에 대한 그/그녀 자신의 위치, 카메라 뷰 포인트(viewpoint), 및 시간적 순간을 선택하도록 허용해야 한다.
다수의 가상 현실 애플리케이션은 그들이 장면의 미리 결정된 모델의 존재에, 그리고 예를 들어 게이밍 애플리케이션들에 대한 것과 같이, 전형적으로 가상 세계의 인공 모델에 기초한다는 점에서 본질적으로 제한된다.
그러나, 사용자가 실세계 캡처를 경험할 수 있게 하는 가상 현실 경험들을 제공할 수 있는 것이 바람직하다. 이러한 애플리케이션들은 예컨대, 사용자가 실세계 장면의 표현에서 위치 및 뷰 방향을 자유롭게 변경할 수 있게 하는 애플리케이션들을 포함한다. 그러나, 이러한 자유를 지원하기 위한 요건들은, 특히 실세계 장면이 또한 동적으로 변화하는, 그리고 구체적으로 실시간 장면인 경우와 같은 많은 상황들에서 충족시키기 어렵다. 예를 들어, 사용자가 예컨대, 스포츠 이벤트의 라이브, 실시간 방송에 대응하는 장면에 대한 뷰 방향을 자유롭게 이동시키고 변경할 수 있게 하는 충분한 데이터를 제공하는 것은 전형적으로 실용적이지 않거나 실현가능하지 않다. 따라서, 사용자가 움직임 및/또는 뷰 방향들에서 제한된 자유를 갖는 애플리케이션들 및 경험들은 점점 더 많은 관심을 받고 있다. 예를 들어, 스포츠 이벤트가 방송될 수 있는데, 여기서 사용자는 180° 범위 내에서 자신의 머리를 자유롭게 회전시킬 수 있지만, 비교적 작은 양만큼만 자신의 머리를 이동시킬 수 있다. 이러한 제한된 이동은 실질적으로 제공될 필요가 있는 데이터에 대한 요건들을 감소시킬 수 있다.
MAUGEY THOMAS 등은 "Reference View Selection in DI BR-Based Multiview Coding", IEEE TRANSACTIONS ON IMAGE PROCESSING, IEEE SERVICE CENTER, PISCATAWAY, NJ, US, vol. 25, no. 4, 1 April 2016 (2016-04-01), pages 1808-1819, XP011602607"에서, 멀티뷰 코딩 시스템들에서의 기준 뷰들의 최적의 선택을 위한 알고리즘을 발표하였다. 3D 장면들, 멀티뷰 비디오, 및 다른 최근 생겨난 멀티미디어 애플리케이션들에서의 증강 현실, 상호작용 내비게이션은 이미지들의 큰 세트들, 따라서 전통적인 비디오 서비스들에 비해 더 큰 데이터 볼륨들 및 증가된 자원들을 요구한다는 것이 설명된다. 멀티뷰 시스템들에서의 이미지들의 수의 상당한 증가는 자원 제약 환경들에서 고품질의 경험을 제공하기 위한 데이터 표현 및 데이터 송신에서 새로운 어려운 문제들을 유발한다. 데이터의 크기를 줄이기 위해, 상이한 멀티뷰 비디오 압축 전략들이 최근에 제안되었다. 이들 대부분은 데이터 세트에 높은 상관이 있을 때 다른 이미지들을 추정하는 데 사용되는 기준 또는 주요 뷰들의 개념들을 사용한다. 뷰들 사이의 유사성을 측정하는 메트릭에 기초하여, 뷰 재구성의 왜곡 및 코딩 레이트 비용 모두가 최소화되도록 기준 뷰들의 위치설정을 위한 최적화가 수행된다.
장면의 상이한 뷰 포인트들에 대한 이미지들의 국지적 렌더링을 허용하는 대부분의 애플리케이션들에 대한 중대한 문제는 이러한 장면을 표현하는 방법, 특히, 실세계 및 종종 실시간 장면의 뷰 이미지들을 국지적으로 생성하기에 충분한 데이터가 최종 사용자 디바이스에 제공되도록, 실세계 장면을 표현하는 데이터를 효과적으로 생성, 분배, 및 처리하는 방법에 대한 것이다. 전형적으로 실세계 장면의 모델을 생성하는 것은 실현가능하지 않거나 실용적이지 않고 특히 서비스가 실시간 이벤트와 같은 동적으로 변화하는 장면을 지원하고 있을 때는 실현가능하지 않거나 실용적이지 않다.
많은 시스템들에서, 장면은 카메라들과 같은 적절한 캡처 장치들에 의해 캡처된 이미지들에 의해 표현될 수 있다. 예를 들어, 카메라들은 주어진 구성으로, 예컨대 행으로 배열될 수 있으며, 각각의 카메라는 주어진 캡처 포즈로부터 장면을 캡처한다. 상이한 위치들로부터의 이미지들은 장면의 상이한 부분들의 표현을 제공할 수 있다. 예를 들어, 배경 물체는 일부 캡처 위치들로부터는 전경 물체에 의해 폐색되지만 다른 캡처 위치들로부터는 폐색되지 않을 수 있고, 따라서 배경 물체와 관련된 정보는 일부 캡처 이미지들에는 존재하지만 다른 것들에는 존재하지 않을 수 있다.
많은 실제 시스템들에서, 캡처된 이미지들은 연관된 깊이 맵 내의 각각의 픽셀에 대해 제공되는 z-값 또는 디스패리티 값과 같은 깊이 정보에 의해 보충될 수 있다. 이러한 이미지+깊이 표현은 3D 이미지로 간주될 수 있다. 뷰 포인트들의 범위에 대해 제공되는 이미지+깊이 정보를 이용하는 것은 많은 애플리케이션을 가질 수 있으며, 많은 장면에 대해 뷰 이미지들의 국지적 생성을 가능하게 하는 장면의 유리한 표현을 제공할 수 있다. 이미지+깊이 정보는 사용자의 현재 뷰 위치 및 뷰 방향에 대한 뷰 이미지들을 동적으로 생성할 수 있는 렌더링 디바이스에 송신될 수 있다.
그러나, 상이한 캡처 위치들로부터의 복수의 이미지를 포함하는 장면의 이미지 표현은 많은 실시예들에서 바람직한 성능 및 동작을 제공할 수 있는 반면, 그것은 또한 렌더링 디바이스로의 이미지 표현의 통신을 위해 높은 데이터 레이트들을 요구하는 경향이 있다. 실제로, 모든 캡처된 뷰 이미지들을 직접 분배하는 것은 종종 실현불가능한데, 그 이유는 픽셀 레이트, 따라서 데이터 레이트가 너무 높기 때문이다. 모든 이미지들을 직접 송신하는 것은 또한 많은 양의 중복 데이터를 송신하는 것을 포함하기 때문에 낭비적이다. 예를 들어, 전경 물체의 정면은 복수의 캡처 위치로부터 보일 수 있고, 따라서 물체에 대한 시각적 정보는 송신될 복수의 캡처 이미지에 포함될 것이다.
그러나, 필요한 데이터 레이트를 줄이는 방법의 문제는 해결하기 어려운 복잡한 문제이다. 일부 중복 데이터를 식별하고 생략한 다음 이 중복 데이터 없이 이미지 신호를 생성하는 것이 제안되었다. 그러나, 이것은 데이터 레이트를 감소시킬 수 있는 반면, 이미지 품질, 데이터 레이트, 복잡성, 자원 요건들 등이 가능한 한 최적화되도록 이를 구체적으로 달성하는 방법은 어려운 과제이다.
따라서, 개선된 접근법이 유리할 것이다. 특히, 개선된 동작, 증가된 유연성, 개선된 가상 현실 경험, 감소된 데이터 레이트들, 증가된 효율성, 용이한 분배, 감소된 복잡성, 용이한 구현, 증가된 이미지 품질, 및/또는 개선된 성능 및/또는 동작을 가능하게 하는, 상이한 뷰들로부터의 이미지들에 의해 장면을 표현하는 이미지 신호를 생성 및/또는 처리하기 위한 접근접이 유리할 것이다.
따라서, 본 발명은 상기 언급된 단점들 중 하나 이상을 단독으로 또는 임의의 조합으로 바람직하게 완화, 경감 또는 제거하고자 한다.
본 발명의 제1 태양에 따르면, 이미지 신호를 생성하는 방법이 제공되며, 방법은 장면의 복수의 이미지들을 포함하는 후보 이미지들의 세트를 수신하는 단계로서, 후보 이미지들의 세트 중 적어도 일부 이미지들은 장면의 상이한 뷰 포즈들(view poses)에 대한 것인, 후보 이미지들의 세트를 수신하는 단계; 후보 이미지들의 세트의 적어도 하나의 이미지를 선택하고, 적어도 하나의 이미지를 포함하도록, 포함된 이미지들의 세트를 초기화하는 단계; 포함된 이미지들의 세트의 이미지들로부터 후보 이미지들의 세트의 이미지들에 대한 예측 이미지들을 생성하는 단계; 후보 이미지들의 세트의 각각의 이미지에 대한 예측 품질 척도(prediction quality measure)를 결정하는 단계로서, 후보 이미지들의 세트의 제1 이미지에 대한 예측 품질 척도는 제1 이미지와 제1 이미지에 대한 제1 예측 이미지 사이의 차이를 나타내는, 예측 품질 척도를 결정하는 단계; 예측 품질들에 응답하여 후보 이미지들의 세트로부터 선택된 이미지들의 세트를 선택하는 단계; 선택된 이미지들의 세트의 각각의 이미지에 대해, 이미지의 픽셀들에 대한 픽셀 예측 품질들에 응답하여 픽셀들의 서브세트를 결정하는 단계; 선택된 이미지들의 세트에 대응하는 부분 이미지들의 세트를 생성하는 단계로서, 선택된 이미지들의 세트의 주어진 이미지에 대한 부분 이미지는 주어진 이미지에 대한 픽셀들의 서브세트의 픽셀들만을 포함하는, 부분 이미지들의 세트를 생성하는 단계; 포함된 이미지들의 세트에 부분 이미지들의 세트를 포함시키는 단계; 및 후보 이미지들의 세트로부터 선택된 이미지들의 세트를 제거하는 단계를 반복적으로 수행하는 단계; 포함된 이미지들의 세트 내의 이미지들의 이미지 데이터를 포함하는 이미지 신호를 생성하는 단계를 포함한다.
본 발명은 장면의 개선된 표현을 제공할 수 있다. 많은 실시예들에서, 장면의 더 효율적인 표현이 제공될 수 있는데, 예컨대 주어진 품질이 감소된 데이터 레이트에 의해 달성될 수 있게 한다.
이 접근법은 많은 실시예들에서 상이한 뷰 위치들/포즈들에 대한 뷰 이미지들의 유연하고, 효율적이고, 높은 성능의 국지적 생성에 적합한 장면의 표현을 갖는 개선된 이미지 신호를 제공할 수 있다. 많은 실시예들에서, 그것은 개선된 인지 이미지 품질 및/또는 감소된 데이터 레이트를 가능하게 할 수 있다.
이 접근법은 많은 실시예들 및 시나리오들에서 이미지 신호의 특히 효율적이고 그리고/또는 낮은 복잡성의 생성을 가능하게 할 수 있다.
이미지들은, 구체적으로 연관된 깊이 이미지/맵을 갖는 2D 이미지 또는 텍스처 맵과 같은, 깊이 정보를 포함하는 3D 이미지들일 수 있다. 예측 품질들에 응답하여 후보 이미지들의 세트로부터 선택된 이미지들의 세트를 선택하는 단계는 선택된 이미지들의 세트에 포함될 최저 예측 품질 척도를 갖는 후보 이미지들의 세트의 이미지들을 선택하는 단계를 포함할 수 있다.
본 발명의 선택적인 특징에 따르면, 제1 이미지에 대한 예측 품질을 결정하는 단계는 제1 이미지 및 제1 예측 이미지의 대응하는 픽셀들에 대한 픽셀 값들이 유사성 기준을 충족시키는 제1 이미지의 복수의 픽셀들을 결정하는 단계; 복수의 픽셀들의 특성에 응답하여 제1 이미지에 대한 예측 품질을 결정하는 단계를 포함한다.
이것은 많은 실시예들에서 특히 유리한 접근법을 제공할 수 있다.
본 발명의 선택적인 특징에 따르면, 특성은 픽셀들의 수이고, 예측 품질은 복수의 픽셀들 내의 픽셀들의 수의 단조 증가 함수이다.
본 발명의 선택적인 특징에 따르면, 픽셀들의 서브세트를 결정하는 단계는 이미지에 대한 복수의 픽셀들에 포함되지 않은 제1 이미지의 픽셀들로부터 제1 이미지에 대한 픽셀들의 서브세트를 결정하는 단계를 포함한다.
본 발명의 선택적인 특징에 따르면, 선택된 이미지들의 세트의 제1 선택된 이미지에 대한 픽셀들의 서브세트를 결정하는 단계는, 선택된 이미지들의 세트를 제외한 후보 이미지들의 세트의 적어도 하나의 후보 이미지에 대해, 적어도 하나의 후보 이미지의 픽셀들에 대해, 적어도 하나의 후보 이미지의 픽셀과, 포함된 이미지들의 세트에 기초하는 픽셀의 예측을 위한 예측 픽셀 및 포함된 이미지들의 세트에만 기초하는 픽셀의 예측에 대한 제1 선택된 이미지 사이의 차이의 변화를 나타내는 오차 변화를 결정하는 단계; 및 제1 선택된 이미지에 대한 오차 변화 이미지를 생성하는 단계로서, 오차 변화 이미지는 적어도 하나의 후보 이미지의 뷰 포즈로부터 제1 선택된 이미지의 뷰 포즈로의 뷰 포즈 시프트(view pose shift)에 의해 적어도 하나의 후보 이미지의 오차 변화들로부터 결정된 픽셀 값들을 포함하는, 오차 변화 이미지를 생성하는 단계; 및 오차 변화 이미지에 응답하여 픽셀들의 서브세트를 선택하는 단계를 포함한다.
이것은 많은 실시예들에서 특히 유리한 접근법을 제공할 수 있다. 이것은 특히 픽셀의 포함이 다른 이미지들의 예측을 얼마나 잘 개선할 수 있는지에 기초하여 부분 이미지들에 대한 픽셀들을 선택하기 위한 효율적인 접근법을 제공할 수 있다.
오차 변화 이미지에 응답하여 픽셀들의 서브세트를 선택하는 단계는 예를 들어 오차 변화 값이 임계값을 초과하는 개선을 나타내는 픽셀들을 선택하는 것에 의한 것일 수 있다.
본 발명의 선택적인 특징에 따르면, 제1 선택된 이미지에 대한 픽셀들의 서브세트를 결정하는 단계는 후보 이미지들의 세트의 복수의 후보 이미지들에 대한 오차 변화들을 결정하는 단계, 및 제1 선택된 이미지의 동일한 픽셀에 대한 상이한 후보 이미지들로부터 결정된 오차 변화 값들을 결합함으로써 오차 변화 이미지를 생성하는 단계를 포함한다.
이것은 복수의 후보 이미지들의 예측들이 특정 픽셀을 포함함으로써 얼마나 개선될 수 있는지를 효율적으로 고려함으로써 개선된 성능을 제공할 수 있다.
본 발명의 선택적인 특징에 따르면, 후보 이미지들의 세트에 대한 예측 이미지들을 생성하는 단계는, 후보 이미지들의 세트의 제1 후보 이미지에 대해, 포함된 이미지들의 세트의 이미지 각각에 대해 제1 후보 이미지의 중간 예측 이미지들을 제공하는 단계; 및 중간 예측 이미지들을 결합함으로써 제1 예측 이미지를 생성하는 단계를 포함한다.
이것은 많은 실시예들에서 더 효율적인 예측 동작을 가능하게 할 수 있다.
본 발명의 선택적인 특징에 따르면, 반복은 중간 예측 이미지들을 저장하는 단계를 추가로 포함하고; 중간 예측 이미지들을 제공하는 단계는, 중간 예측 이미지들이 이전 반복에서 생성 및 저장된 포함된 이미지들의 세트의 이미지들에 대해, 저장된 중간 예측 이미지들을 검색하는 단계; 및 중간 예측 이미지가 이전 반복에서 저장되지 않은 기준 이미지들의 세트의 임의의 이미지에 대한 중간 예측 이미지들을 예측하는 단계를 포함한다.
이것은 많은 실시예들에서 매우 효율적인 동작을 제공할 수 있다. 이 접근법은 증분적 예측을 가능하게 하여 필요한 예측 동작들의 양을 실질적으로 감소시킬 수 있다.
본 발명의 선택적인 특징에 따르면, 결합은 가중 결합이고, 픽셀에 대한 가중치는 픽셀의 깊이에 의존한다.
본 발명의 선택적인 특징에 따르면, 반복들은 최저 예측 품질이 임계값을 초과할 때 중단된다.
다른 실시예들에서, 반복들은 예컨대 후보 이미지들의 세트가 비어 있을 때 중단될 수 있다.
본 발명의 선택적인 특징에 따르면, 선택된 이미지들의 서브세트는 적어도 하나의 반복에서 복수의 선택된 이미지들을 포함한다.
본 발명의 선택적인 특징에 따르면, 이미지들은 비디오 시퀀스의 프레임들이고, 방법은 복수의 프레임들에 대해 포함된 이미지들의 세트의 배열을 사용하는 단계를 포함한다.
이것은 많은 실시예들에서 개선된 시간적 일관성을 제공할 수 있다.
본 발명의 선택적인 특징에 따르면, 방법은 픽셀들의 서브세트에 대응하는 마스크를 생성하고, 마스크에 대한 공간 필터의 적용에 응답하여 픽셀들의 서브세트를 수정하는 단계를 추가로 포함한다.
본 발명의 다른 태양에 따르면, 이미지 신호를 생성하기 위한 장치가 제공되며, 장치는 장면의 복수의 이미지들을 포함하는 후보 이미지들의 세트를 수신하기 위한 수신기로서, 후보 이미지들의 세트 중 적어도 일부 이미지들은 장면의 상이한 뷰 포즈들에 대한 것인, 수신기; 후보 이미지들의 세트의 적어도 하나의 이미지를 선택하고, 적어도 하나의 이미지를 포함하도록, 포함된 이미지들의 세트를 초기화하기 위한 기준 선택기; 반복기로서, 포함된 이미지들의 세트의 이미지들로부터 후보 이미지들의 세트의 이미지들에 대한 예측 이미지들을 생성하는 단계; 후보 이미지들의 세트의 각각의 이미지에 대한 예측 품질 척도를 결정하는 단계로서, 후보 이미지들의 세트의 제1 이미지에 대한 예측 품질 척도는 제1 이미지와 제1 이미지에 대한 제1 예측 이미지 사이의 차이를 나타내는, 예측 품질 척도를 결정하는 단계; 예측 품질들에 응답하여 후보 이미지들의 세트로부터 선택된 이미지들의 세트를 선택하는 단계; 선택된 이미지들의 세트의 각각의 이미지에 대해, 이미지의 픽셀들에 대한 픽셀 예측 품질들에 응답하여 픽셀들의 서브세트를 결정하는 단계; 선택된 이미지들의 세트에 대응하는 부분 이미지들의 세트를 생성하는 단계로서, 선택된 이미지들의 세트의 주어진 이미지에 대한 부분 이미지는 주어진 이미지에 대한 픽셀들의 서브세트의 픽셀들만을 포함하는, 부분 이미지들의 세트를 생성하는 단계; 포함된 이미지들의 세트에 부분 이미지들의 세트를 포함시키는 단계; 및 후보 이미지들의 세트로부터 선택된 이미지들의 세트를 제거하는 단계를 반복적으로 수행하기 위한, 반복기; 포함된 이미지들의 세트 내의 이미지들의 이미지 데이터를 포함하는 이미지 신호를 생성하기 위한 출력 회로를 포함한다.
본 발명의 이들 및 다른 태양들, 특징들 및 이점들이 후술되는 실시예(들)로부터 명백할 것이고 그것을 참조하여 설명될 것이다.
본 발명의 실시예들은 도면들을 참조하여 단지 예로서 설명될 것이다.
도 1은 가상 현실 경험을 제공하기 위한 배열의 예를 예시한다.
도 2는 본 발명의 일부 실시예들에 따른 이미지 신호 송신기의 요소들의 예를 예시한다.
도 3은 본 발명의 일부 실시예들에 따른 이미지 신호 수신기의 요소들의 예를 예시한다.
도 4는 본 발명의 일부 실시예들에 따른 이미지 신호 송신기에 대한 반복기의 요소들의 예를 예시한다.
도 5는 본 발명의 일부 실시예들에 따른 이미지 신호에 대한 이미지 데이터를 생성하기 위한 방법의 예를 예시한다.
사용자가 가상 세계에서 돌아다닐 수 있게 하는 가상 경험들은 점점 더 대중화되고 있고 그러한 요구를 충족시키기 위해 서비스들이 개발되고 있다. 그러나, 특히 경험이 완전히 가상으로 생성된 인공 세계보다는 현실 세계 환경의 캡처에 기초해야 하는 경우, 효율적인 가상 현실 서비스들의 제공은 매우 어렵다.
많은 가상 현실 애플리케이션들에서, 장면 내의 가상 뷰어의 포즈를 반영하는 뷰어 포즈 입력이 결정된다. 이어서, 가상 현실 장치/시스템/애플리케이션은 뷰어 포즈에 대응하는 뷰어에 대한 장면의 뷰들 및 뷰포트들(viewports)에 대응하는 하나 이상의 이미지를 생성한다.
전형적으로, 가상 현실 애플리케이션은 좌안 및 우안에 대한 별개의 뷰 이미지들의 형태로 3차원 출력을 생성한다. 이어서, 이들은, 전형적으로 VR 헤드셋의 개별 좌안 및 우안 디스플레이들과 같은, 적합한 수단에 의해 사용자에게 제시될 수 있다. 다른 실시예들에서, 이미지는 예컨대 무안경입체 디스플레이(autostereoscopic display) 상에 제시될 수 있거나(이 경우에 뷰어 포즈에 대해 다수의 뷰 이미지가 생성될 수 있음), 실제로 일부 실시예들에서 (예컨대, 종래의 2차원 디스플레이를 사용하여) 단일 2차원 이미지만이 생성될 수 있다.
뷰어 포즈 입력은 상이한 애플리케이션들에서 상이한 방식들로 결정될 수 있다. 많은 실시예들에서, 사용자의 물리적 움직임은 직접 추적될 수 있다. 예를 들어, 사용자 영역을 조사하는 카메라가 사용자의 머리(또는 심지어 눈)를 검출하고 추적할 수 있다. 많은 실시예들에서, 사용자는 외부 및/또는 내부 수단에 의해 추적될 수 있는 VR 헤드셋을 착용할 수 있다. 예를 들어, 헤드셋은 헤드셋 및 그에 따라 머리의 움직임 및 회전에 관한 정보를 제공하는 가속도계들 및 자이로스코프들을 포함할 수 있다. 일부 예들에서, VR 헤드셋은 신호들을 송신할 수 있거나, 외부 센서가 VR 헤드셋의 움직임을 결정할 수 있게 하는 (예컨대 시각적) 식별자들을 포함할 수 있다.
일부 시스템들에서, 뷰어 포즈는 수동 수단에 의해, 예컨대 사용자가 조이스틱 또는 유사한 수동 입력을 수동으로 제어함으로써 제공될 수 있다. 예를 들어, 사용자는 제1 아날로그 조이스틱을 한 손으로 제어함으로써 장면에서 가상 뷰어를 수동으로 이동시키고, 다른 손으로 제2 아날로그 조이스틱을 수동으로 이동시킴으로써 가상 뷰어가 보고 있는 방향을 수동으로 제어할 수 있다.
일부 애플리케이션들에서, 수동 접근법과 자동화된 접근법의 조합이 입력 뷰어 포즈를 생성하는 데 사용될 수 있다. 예를 들어, 헤드셋이 머리의 배향을 추적할 수 있고, 장면 내의 뷰어의 움직임/위치가 조이스틱을 사용하는 사용자에 의해 제어될 수 있다.
이미지들의 생성은 가상 세계/환경/장면의 적합한 표현에 기초한다. 일부 애플리케이션들에서, 완전 3차원 모델이 장면에 대해 제공될 수 있고, 특정 뷰어 포즈로부터의 장면의 뷰들은 이 모델을 평가함으로써 결정될 수 있다. 다른 시스템들에서, 장면은 상이한 캡처 포즈들로부터 캡처된 뷰들에 대응하는 이미지 데이터에 의해 표현될 수 있고, 구체적으로 연관된 깊이를 갖는 복수의 소스 이미지에 의해 표현될 수 있으며, 여기서 각각의 이미지는 상이한 뷰 포인트로부터의 장면을 표현한다. 그러한 접근법들에서, 캡처 포즈(들)와는 다른 포즈들에 대한 뷰 이미지들은 3차원 이미지 처리에 의해, 예컨대 구체적으로 뷰 시프팅 알고리즘들을 사용하여 생성될 수 있다. 장면이 별개의 뷰 포인트들/위치들/포즈들에 대해 저장된 뷰 데이터에 의해 기술/참조되는 시스템들에서, 이들은 또한 앵커 뷰 포인트들/위치들/포즈들로 지칭될 수 있다. 전형적으로, 현실 세계 환경이 상이한 포인트들/위치들/포즈들로부터 이미지들을 캡처함으로써 캡처되었을 때, 이러한 캡처 포인트들/위치들/포즈들은 또한 앵커 포인트들/위치들/포즈들이다.
따라서 전형적인 VR 애플리케이션은 현재 뷰어 포즈에 대한 장면에 대한 뷰포트들에 대응하는 (적어도) 이미지들을 제공하며, 이미지들은 뷰어 포즈에 있어서의 변화들을 반영하도록 동적으로 업데이트되고, 이미지들은 가상 장면/환경/세계를 표현하는 데이터에 기초하여 생성된다.
이 분야에서, 용어들 배치와 포즈는 위치 및/또는 방향/배향에 대한 공통 용어로서 사용된다. 예컨대 객체, 카메라, 머리, 또는 뷰의 위치와 방향/배향의 조합은 포즈 또는 배치로 지칭될 수 있다. 따라서, 배치 또는 포즈 표시는 6개의 값/성분/자유도를 포함할 수 있으며, 각각의 값/성분은 전형적으로 대응하는 객체의 위치/로케이션 또는 배향/방향의 개별 특성을 기술한다. 물론, 많은 상황들에서, 예를 들어 하나 이상의 성분이 고정되거나 무관한 것으로 간주되는 경우, 배치 또는 포즈가 더 적은 성분들로 표현되거나 더 적은 성분들을 갖는 것으로 간주될 수 있다(예컨대, 모든 객체들이 동일한 높이에 있고 수평 배향을 갖는 것으로 간주되는 경우, 4개의 성분이 객체의 포즈에 대한 완전한 표현을 제공할 수 있다). 하기에서, 용어 포즈는 (최대 가능한 자유도들에 대응하는) 1 내지 6개의 값에 의해 표현될 수 있는 위치 및/또는 배향을 지칭하는 데 사용된다.
많은 VR 애플리케이션들은 최대 자유도를 갖는, 즉 위치 및 배향 각각의 3 자유도가 총 6 자유도를 유발하는 포즈에 기초한다. 따라서, 포즈는 6 자유도를 표현하는 6개의 값의 벡터 또는 세트에 의해 표현될 수 있고, 따라서 포즈 벡터는 3차원 위치 및/또는 3차원 방향 표시를 제공할 수 있다. 그러나, 다른 실시예들에서, 포즈는 더 적은 값들에 의해 표현될 수 있다는 것을 알 것이다.
포즈는 배향 및 위치 중 적어도 하나일 수 있다. 포즈 값은 배향 값 및 위치 값 중 적어도 하나를 나타낼 수 있다.
뷰어에 대한 최대 자유도를 제공하는 것에 기초하는 시스템 또는 엔티티는 전형적으로 6 자유도(6DoF)를 갖는 것으로 지칭된다. 많은 시스템들 및 엔티티들은 배향 또는 위치만을 제공하며 이들은 전형적으로 3 자유도(3DoF)를 갖는 것으로 알려져 있다.
일부 시스템들에서, VR 애플리케이션은, 예컨대 원격 디바이스/서버로부터 장면 데이터(로컬 뷰어에 대한 특정 뷰어 포즈와 무관함)를 수신한 후 로컬 뷰어의 특정 현재 뷰들에 대한 뷰 이미지들을 국지적으로 생성하는 독립형 디바이스에 의해 뷰어에게 국지적으로 제공될 수 있다. 따라서, 많은 애플리케이션들에서, 특히 방송 서비스들에 대해, 소스는 뷰어 포즈와는 독립적인 장면의 이미지(비디오를 포함함) 표현의 형태로 장면 데이터를 송신할 수 있다. 예를 들어, 복수의 캡처된 뷰 이미지 및 연관된 깊이 맵을 포함하는 이미지 표현이 수신될 수 있다. 이어서, 개별 클라이언트들은 현재 뷰어 포즈에 대응하는 뷰 이미지들을 국지적으로 합성할 수 있다.
특별한 관심을 끌고 있는 특정 애플리케이션은 제시된 뷰들이 머리의 작은 머리 움직임들 및 회전들만을 만들고 있는 실질적으로 정적인 뷰어에 대응하는 작은 움직임들 및 회전들을 따르게 업데이트되도록 제한된 양의 움직임이 지원되는 경우이다. 예를 들어, 앉아 있는 뷰어가 그의 머리를 돌리고 약간 이동시킬 수 있고, 제시된 뷰들/이미지들은 이러한 포즈 변화들을 따르도록 적응된다. 그러한 접근법은 고도의 그리고 몰입형의, 예컨대 비디오 경험을 제공할 수 있다. 예를 들어, 스포츠 이벤트를 보는 뷰어는 자신이 경기장 내의 특정 장소에 있다고 느낄 수 있다.
그러한 제한된 자유 애플리케이션들은, 많은 상이한 위치들로부터의 장면의 정확한 표현을 요구하지 않고 이에 의해 실질적으로 캡처 요건들을 감소시키면서, 개선된 경험을 제공하는 이점을 갖는다. 유사하게, 렌더러에 제공될 필요가 있는 데이터의 양이 실질적으로 감소될 수 있다. 실제로, 많은 시나리오들에서, 단일 뷰 포인트에 대한 이미지 및 전형적으로 깊이 데이터만이 제공될 필요가 있고, 로컬 렌더러는 이것으로부터 원하는 뷰들을 생성할 수 있다. 머리 회전들을 지원하기 위해, 뷰 포인트로부터의 뷰의 큰 영역이 제공된 데이터에 의해 표현되고, 바람직하게는 뷰 포인트에 중심을 둔 뷰 구의 전체 표면이 제공된 이미지 및 깊이 데이터에 의해 커버되는 것이 전형적으로 요구된다.
이 접근법은 구체적으로, 예를 들어 방송 또는 클라이언트 서버 애플리케이션의 경우와 같이, 데이터가 대역제한 통신 채널을 통해 소스로부터 목적지로 통신될 필요가 있는 애플리케이션들에 대해 매우 적합할 수 있다.
도 1은 원격 VR 클라이언트 디바이스(101)가 VR 서버(103)와, 예컨대 인터넷과 같은 네트워크(105)를 통해 연락을 취하는 VR 시스템의 그러한 예를 예시한다. 서버(103)는 잠재적으로 다수의 클라이언트 디바이스(101)를 동시에 지원하도록 배열될 수 있다.
VR 서버(103)는 예를 들어 복수의 뷰 포인트에 대한 이미지 데이터 및 깊이를 송신함으로써 방송 경험을 지원할 수 있으며, 클라이언트 디바이스들은 이어서 이 정보를 처리하여 현재 포즈에 대응하는 뷰 이미지들을 국지적으로 합성하도록 배열된다.
효율적인 분배를 제공하기 위해, 데이터 레이트가 주어진 이미지 품질에 대해 가능한 한 낮게 유지되는 것이 바람직하며, 따라서 생성되는 중복 데이터의 양을 줄이려는 시도를 구체적으로 포함할 수 있다.
도 2는 상이한 뷰 포즈들(앵커 포즈들)로부터의 장면의 복수의 이미지의 표현을 포함하는 이미지 신호를 생성하기 위한 장치의 예를 예시한다. 장치는 이미지 신호 송신기(200)로도 지칭될 것이다. 이미지 신호 송신기(200)는 예를 들어 도 1의 VR 서버(103)에 포함될 수 있다.
도 3은 장면의 복수의 이미지의 표현을 포함하는 수신된 이미지 신호에 기초하여 뷰 이미지들을 렌더링하기 위한 장치의 예를 예시한다. 장치는 구체적으로 도 2의 장치에 의해 생성된 데이터 신호를 수신하고, 특정 뷰 포즈들에 대한 이미지들을 렌더링하기 위해 이를 처리하도록 진행할 수 있다. 도 3의 장치는 이미지 신호 수신기(300)로도 지칭될 것이다. 이미지 신호 수신기(300)는 예를 들어 도 1의 클라이언트 디바이스(101)에 포함될 수 있다.
이미지 신호 송신기(200)는 장면의 복수의 소스 이미지를 수신하도록 배열된 이미지 소스 수신기(201)를 포함한다. 소스 이미지들은 상이한 캡처 포즈들로부터의 장면의 뷰들을 표현할 수 있다. 예를 들어, 소스 이미지들은 등거리 캡처 포즈들의 행으로부터의 이미지들을 포함할 수 있다.
많은 실시예들에서, 소스 이미지들은 연관된 깊이 정보를 갖는 2D 이미지들을 포함하는 3D 이미지들일 수 있다. 2D 이미지들은 구체적으로 대응하는 캡처 포즈로부터의 장면의 뷰포트들에 대한 뷰 이미지들일 수 있고, 2D 이미지는 2D 이미지의 픽셀들 각각에 대한 깊이 값들을 포함하는 깊이 이미지 또는 맵을 동반할 수 있다. 2D 이미지는 텍스처 맵일 수 있다.
깊이 값들은 예를 들어 디스패리티 값들 또는 예컨대 z-좌표에 의해 표시되는 거리 값들일 수 있다. 일부 실시예들에서, 소스 이미지는 연관된 3D 메시를 갖는 텍스처 맵의 형태의 3D 이미지일 수 있다. 일부 실시예들에서, 그러한 텍스처 맵들 및 메시 표현들은 이미지 신호 송신기(200)에 의한 추가 처리 전에 이미지 소스 수신기에 의해 이미지 플러스 깊이 표현들로 변환될 수 있다.
따라서, 이미지 소스 수신기(201)는 상이한 포즈들로부터의 장면을 특성화하고 표현하는 복수의 소스 이미지를 수신한다. 그러한 소스 이미지들의 세트는 뷰 이미지들이 당업자에게 알려질 바와 같은 뷰 시프팅과 같은 알고리즘들을 이용하여 다른 포즈들에 대해 생성되는 것을 가능하게 할 것이다. 따라서, 이미지 신호 송신기(200)는 소스 이미지들에 대한 이미지 데이터를 포함하는 이미지 신호를 생성하고 이 데이터를 국지적 렌더링을 위해 원격 디바이스에 송신하도록 배열된다. 그러나, 모든 소스 이미지들을 직접 송신하는 것은 실현불가능하게 높은 데이터 레이트를 요구할 것이고, 많은 양의 중복 정보를 포함할 것이다.
이미지 신호 송신기(200)는 중복 정보가 제거된 부분 이미지들을 생성함으로써 데이터 레이트를 감소시키도록 배열된다. 부분 이미지들은 후속하여 결합되고 인코딩되어 이미지 신호를 생성한다.
이미지 소스 수신기(201)는 소스 이미지들로부터 이미지들의 세트를 생성하도록 배열되는 픽셀 선택기(203)에 결합되며, 이미지들의 세트 중 적어도 하나는 부분 이미지이다. 픽셀 선택기(203)는 이미지 신호에 포함시킬 소스 이미지 내의 픽셀들의 서브세트를 선택함으로써 소스 이미지들 중 하나 또는 전형적으로 대부분(또는 심지어 전부)의 부분 버전들을 생성함으로써 부분 이미지들의 세트를 생성할 수 있다. 부분 이미지는 또한 프루닝된 이미지(pruned image)로 지칭될 것이며, 이미지의 픽셀들의 서브세트를 선택하여 그의 부분 이미지를 생성하는 것은 또한 이미지를 프루닝하는 것으로 지칭될 것이다.
따라서, 픽셀 선택기(203)의 출력은 소스 이미지들에 대응하는 프루닝된 또는 부분 이미지들의 세트일 수 있지만, 이미지들 중 하나 또는 전형적으로 대부분은 대응하는 소스 이미지의 부분 버전들이다. 픽셀 선택기(203)는, 생성된 부분 이미지들의 세트의 전체 중복성이 감소되거나 바람직하게는 최소화되도록, 부분 이미지에 포함시킬 이러한 픽셀들의 서브세트를 선택하려고 시도한다. 생성된 부분 이미지들은 또한 프루닝되지 않은 하나 이상의 원본 소스 이미지를 포함할 수 있다.
픽셀 선택기(203)는 부분 이미지들의 세트를 공급받는 이미지 생성기(205)에 결합된다. 이미지 생성기(205)는 부분 이미지들을 결합 이미지들로 결합하도록 배열되며, 각각의 이미지는 부분 이미지들 중 하나 이상을 표현할 수 있다. 구체적으로, 결합 이미지는 복수의 부분 이미지로부터 유래하는 픽셀들을 포함할 수 있다. 예를 들어, 하나의 부분 이미지로부터의 픽셀들은 다른 부분 이미지의 미사용 영역들에 삽입될 수 있다. 이미지 생성기(205)는 부분 이미지들을 더 조밀하게 팩킹되는 결합 이미지들로 팩킹하는 것으로 간주될 수 있다.
이미지 생성기(205)는 더 적지만 덜 희소한 이미지들을 생성한다. 결합 이미지들의 세트는 이미지들의 인코딩을 수행하도록 진행하는 인코더(207)에 공급된다. 이미지 생성기(205)는 송신할 이미지들의 수를 감소시켰으므로, 전형적으로 더 효율적인 인코딩이 달성된다. 또한, 부분 이미지들을 결합 이미지들로 팩킹하는 것은 전형적으로 결과 이미지들이 인코딩에 매우 적합하도록 수행될 수 있다.
이 접근법의 특정 이점은 부분 이미지들에 의한 장면의 표현이 종래의 이미지 및 비디오 인코딩 접근법들이 인코더(207)에 의해 수행되는 것을 허용하는 방식으로 달성된다는 것이다. 예를 들어, 많은 실시예들에서, H.265 및 MPEG-H Part 2라고도 알려진 HEVC(High Efficiency Video Coding), 또는 JVET(Joint Video Exploration Team)에 의해 개발된 VVC(Versatile Video Coding)와 같은 인코딩 포맷들이 사용될 수 있다.
따라서, 도 2의 이미지 신호 송신기(200)는 뷰 포즈들의 범위로부터 장면을 나타내는 효율적인 이미지 신호를 생성하기 위한 효율적인 접근법을 제공할 수 있다.
이미지 신호는 이미지 신호를 수신하고 이를 디코딩하여 인코더(207)로 공급되는 결합 이미지들의 세트를 생성하도록 배열된 디코더(301)를 포함하는 이미지 신호 수신기(300)로 송신된다. 따라서, 디코더(301)는, 예를 들어 HEVC 또는 VVC 디코딩을 수행하는 것에 의한 것과 같이, 인코더(207)에 의해 이용된 표준에 따라 디코딩을 수행하도록 배열될 수 있다.
이미지 신호 송신기(200) 및 이미지 신호 수신기(300)는 이미지 신호의 인코딩, 변조, 송신, 수신 등을 위한 기능을 포함하는, 이미지 신호를 통신하기 위한 필요한 기능을 추가로 포함한다는 것을 알 것이다. 그러한 기능은 개별 실시예의 선호들 및 요건들에 의존할 것이며, 그러한 기술들은 당업자에게 알려질 것이고, 따라서 명확함 및 간결함을 위해 본 명세서에서 추가로 논의되지 않을 것임을 알 것이다.
디코더(301)는 수신된 결합 이미지들로부터 부분 이미지들을 검색하도록 배열된 이미지 검색기(303)에 결합된다. 따라서, 이미지 검색기(303)는 결합 이미지의 픽셀들을 개별 부분 이미지들로 분할하기 위해 이미지 생성기(205)의 역기능을 수행할 수 있다. 따라서, 결합 이미지는 전형적으로 복수의 상이한 뷰 포인트 또는 포즈에 대응하는 픽셀들을 포함하는 반면, 부분 이미지들은 각각의 이미지가 단지 하나의 소스 이미지로부터 유래하고 따라서 단지 하나의 뷰 포즈에 대응하는 픽셀들을 포함하도록 생성된다.
많은 실시예들에서, 이미지 신호는 또한 하나 이상의 완전한 소스 이미지를 포함하고, 이미지 검색기(303)의 출력은 그에 따라 소스 이미지들에 대응하는 이미지들의 세트를 제공하고, 따라서 뷰 포즈들의 범위로부터 장면을 표현하며, 이미지들 중 하나 이상은 단지 부분 이미지이다. 그러나, 주어진 부분 이미지로부터의 누락된 부분은 전형적으로 이미지 검색기(303)로부터의 이미지들의 출력 세트의 다른 이미지들로부터 이용가능한 중복 정보에 대응한다.
이미지들은 수신된 세트 오프 부분 이미지들(및 임의의 풀 이미지들(full images))에 기초하여 새로운 뷰 이미지들을 생성하도록 배열된 제1 렌더러(305)에 공급된다. 이러한 이미지들은 원본 소스 이미지들에 대응한다. 주어진 뷰어 포즈에 대응하는 뷰 이미지를 렌더링하기 위한 임의의 적절한 알고리즘이 이용될 수 있다는 것을 알 것이다. 예를 들어, 제1 렌더러(305)는 수신된 풀 소스 이미지에 기초하여 뷰 이미지를 먼저 생성하도록 배열될 수 있다. 이것은 전형적으로 변화된 뷰 포인트로 인한 폐색으로부터 생기는 다수의 홀을 초래할 수 있다. 그러한 홀들은 그 후 부분 이미지들로부터의 데이터를 이용하여 채워질 수 있다. 당업자는 다른 뷰 포인트들로부터의 이미지들에 기초하여 특정 목적들을 위해 뷰들을 합성하기 위한 많은 상이한 알고리즘들 및 접근법들을 알 것이며, 임의의 적절한 알고리즘이 제1 렌더러(305)에 의해 구현될 수 있다는 것을 알 것이다.
일부 실시예들에서, 이미지 신호 수신기(300)는 수신된 결합 이미지들로부터 직접 뷰 이미지들을 합성하도록 배열된 제2 렌더러(307)를 포함할 수 있다. 많은 실시예들에서, 이미지 신호 수신기(300)는 제1 렌더러(305) 및 이미지 검색기(303), 또는 제2 렌더러(307)를 포함할 것이다. 제2 렌더러(307)는 주어진 뷰어 포즈에 대한 뷰 이미지들을 렌더링하기 위한 임의의 적절한 접근법을 이용할 수 있다는 것을 알 것이다.
제1 및 제2 렌더러들은 동일한 합성 방법 및 파라미터들을 사용할 수 있으며, 이는 예측 값을 증가시킬 수 있기 때문에 유리할 수 있다.
도 2 및 3의 접근법과 같이, 부분 이미지들에 기초한 접근법의 특히 중대한 문제는 부분 이미지들이 어떻게 생성되는지 및 부분 이미지들에 어느 픽셀들을 포함시킬지를 어떻게 선택할지에 대한 것이다. 도 4는 많은 실시예들 및 시나리오들에서 소스 이미지들의 세트로부터 부분 이미지들의 세트의 특히 유리하고 효율적인 생성을 제공할 수 있는 픽셀 선택기(203)의 가능한 구현의 요소들의 예를 예시한다. 도 5는 도 4의 픽셀 선택기(203)의 동작을 특히 강조한 이미지 신호 송신기(200)의 동작 방법의 예를 예시한다. 그러나, 도 4 및 도 5의 접근법은 도 2 및 도 3의 이미지 신호 송신기(200) 및 이미지 신호 수신기(300)와 다른 실시예들에 적용가능할 수 있다는 것을 알 것이다.
픽셀 선택기(203)의 접근법은 구체적으로 입력 소스 이미지들의 반복 처리에 기초한다. 아직 처리되지 않은(그리고 모든 소스 이미지들을 포함하여 초기화되는) 이미지들을 포함하는 후보 이미지들의 세트가 생성된다. 이어서, 프로세스는 반복적으로 진행하여 후보 이미지들 중 하나 이상을 선택하고, 이들을 프루닝된 이후 포함된 이미지들의 세트에 추가한다. 따라서, 반복적으로 후보 이미지들이 선택되고, 프루닝되고, 그 후 2차 식별자로 이동된다. 이 접근법은 이미지들을 어떻게 프루닝할지, 구체적으로는 뷰 이미지들을 국지적으로 생성하는 데 사용하기 위한 장면의 더 정확하고 완전한 표현을 제공할 수 있는 프루닝된 또는 부분 이미지들의 선택된 세트를 제공하기 위해 그렇게 할 순서를 선택하는 효율적인 방법을 제공할 수 있다.
이전에 언급된 바와 같이, 이미지 소스 수신기(201)는 장면의 복수의 이미지를 포함하는 이미지들의 세트를 수신하고, 이들 중 적어도 일부, 전형적으로 전부는 장면의 상이한 뷰 포즈들에 대한 것이다. 이미지들은 구체적으로 2D 이미지/텍스처 맵 및 연관된 깊이 맵을 포함하는 3D 이미지들일 수 있다.
픽셀 선택기(203)는 이미지 소스 수신기(201)로부터 소스 이미지들의 세트를 수신하는 단계(501)를 수행하는 입력 수신기(401)를 포함한다. 따라서, 입력 수신기(401)는 전형적으로 뷰 포즈들의 범위에 대한 텍스처 맵들 및 깊이 맵들인 소스 이미지들의 세트를 수신한다. 입력 수신기(401)는 후보 이미지들의 세트를 개시한다(세트는 간결함을 위해 단순히 후보 세트라고도 지칭될 것이다).
입력 수신기(401)는 후보 이미지들 중 하나 이상을 선택하고 그것(그것들)을 포함된 이미지들의 세트에 포함시킴으로써 포함된 이미지들의 세트가 초기화되는 단계(503)를 수행하는 기준 선택기(403)에 결합된다. 포함된 이미지들의 세트는 이미지 데이터가 이미지 신호 송신기(200)에 의해 생성된 이미지 신호에 포함되는 후보 이미지들의 이미지들(전형적으로 부분 이미지들)을 포함한다. 포함된 이미지들의 세트는 전형적으로 하나의 후보 이미지를 포함된 이미지로서 선택함으로써 단계(503)에서 초기화된다.
선택된 이미지는 전형적으로 풀 이미지로서 포함되며, 따라서 선택된 이미지(들)의 모든 픽셀들이 포함된다. 선택된 이미지는 전형적으로 임의의 다른 포함된 이미지(이들은 전형적으로 부분 이미지들이기 때문임)보다 더 많은 장면의 정보를 제공할 수 있고, 원격 렌더러에 의한 이미지 합성을 위한 초기 기준 이미지일 뿐만 아니라 다른 포함된 이미지들의 선택을 위한 그리고 대응하는 후보 이미지의 어느 픽셀들이 부분 이미지에 대해 선택되어야 하는지를 결정하기 위한 기준인 것으로 간주될 수 있다.
포함된 이미지들의 세트에 대한 초기 기준 이미지들을 선택하기 위해 상이한 접근법들 및 기준들이 이용될 수 있다는 것을 알 것이다. 일부 실시예들에서, 기준 선택기(403)는 가장 중심 이미지에 대응하는 후보 이미지를 단순히 선택할 수 있다. 다른 실시예들에서, 기준 이미지는 연관된 깊이 맵의 분석에 기초하여 선택될 수 있다. 예를 들어, 가능한 한 많은 배경을 포함하는 이미지를 선택하기 위해, 주어진 임계값 위의 깊이를 갖는 최대 수의 픽셀들을 갖는 후보 이미지가 선택될 수 있다.
일부 실시예들에서, 기준 이미지(들)는 예컨대 상이한 후보 이미지들의 뷰포트들에 대한 뷰포트 유사성에 기초할 수 있다. 예를 들어, 뷰포트 유사성은 예컨대, 하나의 뷰(즉, 하나의 소스 이미지/캡처 포즈)로부터 픽셀들의 세트를 샘플링하고 그것들을 다른 뷰에 투영하고, 그 후 이 합성 이미지와 원본 이미지 사이의 유사성을 결정함으로써 계산될 수 있다. 메트릭은 프로세스를 반대 방향으로 반복함으로써 대칭으로 될 수 있다.
유사성 척도의 예로서, 합성 픽셀 값과 원본 픽셀 값 사이의 차이가 결정될 수 있고, 이것은 이미지/뷰포트에 걸쳐 평균화될 수 있다. 다른 예로서, 오차가 주어진 임계값 미만인 픽셀들의 수가 카운트될 수 있고 그러한 픽셀들의 수가 유사성 척도로서 이용될 수 있다.
프로세스는 주어진 후보 이미지에 대해 모든 다른 후보 이미지들에 대해 수행될 수 있고, 유사성 척도들은 후보 이미지에 대한 하나의 단일 유사성 척도로 결합될 수 있다. 프로세스는 후보 이미지들의 전부(또는 일부)에 대해 추가로 반복될 수 있고, 최종적으로 후보 이미지는 전체 최고 유사성 척도를 갖는 것으로서 선택될 수 있다.
따라서, 기준 이미지는 다른 후보 이미지들의 최상의 평균 예측/뷰 합성을 허용하는 이미지로서 선택될 수 있다.
선택기(403)는 후보 이미지들의 부분 버전들을 포함하기 위해 포함된 이미지들의 세트를 반복적으로 확장하도록 배열되는 반복기(405)에 결합된다. 각각의 반복에서, 후보 이미지들의 서브세트, 전형적으로는 하나가 포함된 이미지들의 세트에 포함하기 위해 선택된다. 각각의 선택된 후보 이미지에 대해, 부분 이미지가 생성되어, 포함된 이미지들의 세트에 추가되고, 선택된 후보 이미지는 후보 이미지들의 세트로부터 제거된다.
일부 실시예들에서, 반복기(405)는 모든 후보 이미지들이 선택될 때까지 프로세스를 계속 반복한다. 다른 실시예들에서, 반복 프로세스는 모든 후보 이미지들이 선택되기 전에 잠재적으로 중단될 수 있다.
반복 프로세스는 후보 이미지들이 선택되는 순서가 이미지들의 특성들에 따라 달라지게 할 수 있다. 부분 이미지들은 이전에 선택된 이미지들(및 포함된 이미지들의 세트에 이미 포함된 부분 이미지들)에 의존하므로, 상이한 순서는 상이한 부분 이미지들을 유발할 수 있다. 반복 프로세스는, 데이터 레이트를 감소시킬 수 있고, 구체적으로 인코더(207)에 의한 효율적인 이미지 코딩에 적합할 수 있는 부분 이미지들이 생성되게 하는 순서로 후보 이미지들을 선택하려고 시도한다. 많은 실시예들에서, 반복 프로세스는 부분 이미지들에 포함된 픽셀들의 수를 감소시키려고 시도할 수 있다.
반복은 단계(505)에서 시작하고, 여기서 반복기(405)는 포함된 이미지들의 세트의 이미지들로부터 후보 이미지들의 세트의 이미지들에 대한 예측 이미지들을 생성한다. 포함된 이미지들의 세트로부터의 제1 포함된 이미지로부터의 후보 이미지들의 세트의 제1 후보 이미지에 대한 예측 이미지는 제1 포함된 이미지로부터의 뷰 합성에 의해 생성된 제1 후보 이미지의 뷰 포즈에 대한 이미지일 수 있다. 제1 포함된 이미지 및 제1 후보 이미지가 상이한 뷰 포즈들에 대한 소스 이미지들에 대응하므로, 뷰 합성은 뷰 포즈 시프트, 및 전형적으로 뷰 위치 시프트를 포함한다. 뷰 합성은 뷰 시프트 이미지 합성일 수 있다. 따라서, 제1 포함된 이미지로부터의 제1 후보 이미지에 대한 예측 이미지는 후보 이미지의 뷰 포즈로부터의 뷰포트가 제1 포함된 이미지로부터 얼마나 잘 예측/추정될 수 있는지를 반영하는 이미지일 수 있다.
제2 이미지로부터의 제1 이미지의 예측은 구체적으로 제2 이미지(및 이것의 뷰 포즈)에 기초하는 제1 이미지의 뷰 포즈에서의 이미지의 뷰 합성일 수 있다. 따라서, 제2 이미지로부터 제1 이미지를 예측하기 위한 예측 동작은 이와 연관된 뷰 포즈로부터 제1 이미지의 뷰 포즈로의 제2 이미지의 뷰 포즈 시프트일 수 있다.
뷰 합성 및 예측을 위한 상이한 방법들 및 알고리즘들이 상이한 실시예들에서 사용될 수 있다는 것을 알 것이다. 많은 실시예들에서, 입력으로서 합성 이미지가 생성될 합성 뷰 포즈, 및 각각이 상이한 뷰 포즈와 연관되는 복수의 입력 이미지를 취하는 뷰 합성/예측 알고리즘이 사용될 수 있다. 이어서, 뷰 합성 알고리즘은 전형적으로 텍스처 맵 및 깊이 양자를 포함할 수 있는 입력 이미지들에 기초하여 이 뷰 포즈에 대한 합성 이미지를 생성할 수 있다.
다수의 이러한 알고리즘이 알려져 있고, 본 발명으로부터 벗어남이 없이 임의의 적합한 알고리즘이 사용될 수 있다. 그러한 접근법의 예로서, 각각의 입력 이미지에 대해 중간 합성/예측 이미지들이 먼저 생성될 수 있다. 이것은 예를 들어 먼저 이미지의 깊이 맵에 기초하여 입력 이미지에 대한 메시를 생성함으로써 달성될 수 있다. 이어서, 메시는 기하학적 계산들에 기초하여 입력 이미지의 뷰 포즈로부터 합성 뷰 포즈로 워핑/시프팅될 수 있다. 이어서, 결과적인 메시의 정점들이 중간 합성/예측 이미지 상에 투영될 수 있으며, 텍스처 맵이 이 이미지에 오버레이될 수 있다. 그러한 프로세스는 예컨대 표준 그래픽 파이프라인들로부터 알려진 정점 처리 및 프래그먼트 셰이더들을 이용하여 구현될 수 있다.
이러한 방식으로, 합성 뷰 포즈에 대한 중간 합성/예측 이미지(이하, 단지 중간 예측 이미지)가 입력 이미지들 각각에 대해 생성될 수 있다.
그 다음, 중간 예측 이미지들은 예컨대 가중 결합/합산에 의해 또는 선택 결합에 의해 함께 결합될 수 있다. 예를 들어, 일부 실시예들에서, 합성 뷰 포즈에 대한 합성/예측 이미지의 각각의 픽셀은 가장 순방향인 중간 예측 이미지로부터 픽셀을 선택함으로써 생성될 수 있거나, 픽셀은 주어진 중간 예측 이미지에 대한 가중치가 그 픽셀에 대해 결정된 깊이에 의존하는 모든 중간 예측 이미지들에 대한 대응하는 픽셀 값의 가중 합산에 의해 생성될 수 있다. 결합 동작은 혼합 동작으로도 알려져 있다.
단계(505)에서, 반복기(405)는 그에 따라, 포함된 이미지들의 세트 내의 이미지들에 기초하여 제1 후보 이미지에 대해, 즉 이미 포함된 이미지들 각각에 대해 예측 이미지를 생성하도록 진행할 수 있다. 따라서, 예측은 (전형적으로 제1 반복과는 별도로) 일부 이미지들이 부분 이미지들인 복수의 이미지에 기초할 수 있다.
뷰 합성기는 예를 들어, 각각의 포함된 이미지에 대해, 이를 제1 후보 이미지의 뷰 포즈로 뷰 시프팅함으로써 중간 이미지를 생성하도록 진행할 수 있다. 그 후, 이들 중간 예측 이미지들을 혼합함으로써 제1 후보 이미지에 대한 예측 이미지를 생성할 수 있다. 이미지들 중 일부는 픽셀들의 서브세트만을 위한 이미지 데이터를 포함하는 부분 이미지들이므로, 적어도 일부 픽셀들에 대한 혼합/결합은 중간 예측 이미지들의 서브세트로부터의 픽셀들만을 포함할 것이다(즉, 중간 예측 이미지들은 또한 부분 이미지들일 수 있다).
따라서, 제1 후보 이미지에 대해, 포함된 이미지들에 기초하여, 즉 포함된 이미지들의 세트 내에 이미 있는 이미지들에 기초하여 제1 예측 이미지가 생성된다. 따라서, 이러한 예측 이미지는 이미지 신호의 일부가 되도록 이미 선택된 이미지 데이터로부터 제1 후보 이미지가 얼마나 잘 예측될 수 있는지를 반영할 수 있다.
프로세스는 모든 후보 이미지에 대해 반복될 수 있고, 따라서 각각의 후보 이미지에 대해 예측 이미지가 생성될 수 있고, 따라서 단계(505)는 이미 선택된 포함된 이미지들에 기초하여 각각의 후보 이미지에 대한 예측 이미지를 생성한다.
그 후, 반복기(405)는 단계(507)로 진행하고, 여기서 후보 이미지들 각각에 대해 예측 품질이 결정되며, 주어진 후보 이미지에 대한 예측 품질 척도는 후보 이미지와 후보 이미지에 대한 예측 이미지 사이의 차이를 나타내는 척도이다.
따라서, 예측 품질 척도는 증가하는 값이 (이미) 포함된 이미지들의 세트로부터의 후보 이미지의 개선된 예측 품질을 나타낼 수 있는 척도이다. 예측 품질 척도는 예측 이미지와 후보 이미지를 직접 비교함으로써 결정될 수 있다. 예를 들어, 예측 품질 척도는 후보 이미지 및 예측 이미지의 대응하는(동일한 위치) 픽셀 값들 사이의 평균 또는 누적 오차로서 결정될 수 있다. 다른 예로서, 예측 품질은 후보 이미지와 예측 이미지의 픽셀 값 사이의 차이가 임계값을 초과하는 픽셀들의 수로서 결정될 수 있다. 다른 실시예들에서 다른 예측 품질 척도들이 사용될 수 있다는 것을 알 것이다.
따라서, 단계(507)의 끝에서, 포함된 이미지들의 세트의 이미지들로부터 후보 이미지의 예측의 품질을 반영하는 예측 품질 척도가 각각의 후보 이미지에 대해 결정된다.
단계(507) 다음에 단계(509)가 이어지고, 여기서 반복기(405)는 예측 품질에 응답하여 후보 이미지들의 세트로부터 선택된 이미지들의 세트를 선택하도록 진행한다. 반복기(405)는 구체적으로 최저 예측 품질 척도를 갖는 후보 이미지들로서 미리 결정된 수의 후보 이미지들을 선택할 수 있는데, 즉 이미 포함된 이미지들에 의해 가장 열악하게 예측되는 미리 결정된 수의 후보 이미지들이 선택된다.
이어서, 반복기(405)는 선택된 이미지(들)에 대한 프루닝된 또는 부분 이미지를 결정하도록 진행하며, 이어서 선택된 이미지(들)는 후보 이미지들의 세트로부터 이동된다. 많은 실시예들에서, 각각의 반복에서 단일 후보 이미지만이 선택되고, 명확함 및 간결함을 위해, 하기 설명은 이러한 접근법에 중점을 둘 것이지만, 선택되는 단일 후보 이미지에 대한 참조가 선택되는 복수의 이미지를 포함하는 서브세트로 확장될 수 있다는 것을 알 것이다.
단계(509) 다음에 단계(511)가 이어지고, 여기서 반복기(405)는 선택된 이미지에 대응하는 부분 이미지를 생성하고, 부분 이미지는 선택된 이미지의 픽셀들의 서브세트만을 포함한다.
구체적으로, 반복기(405)는 선택된 후보 이미지의 픽셀들의 서브세트를 선택하도록 진행할 수 있다. 서브세트에 어느 픽셀들을 포함할지 및 어느 픽셀들을 배제할지를 선택하기 위해 상이한 접근법들 및 알고리즘들이 사용될 수 있다는 것을 알 것이다. 픽셀들의 서브세트는 픽셀 예측 품질들에 응답하여 선택되고, 구체적으로 각각의 픽셀에 대한 픽셀 예측 품질의 척도 또는 표시가 결정될 수 있다. 픽셀 예측 품질 척도는 픽셀이 전형적으로 다른 포함된 이미지들로부터 얼마나 잘 예측될 수 있는지를 나타낼 수 있고/있거나, 픽셀을 서브세트 내에 포함시킴으로써 달성될 수 있는 다른 이미지들의 예측의 개선을 나타낼 수 있다. 반복기(405)는 픽셀 예측 품질 척도가 기준을 충족시키는지 여부에 기초하여 서브세트에 포함되거나 서브세트로부터 배제될 픽셀을 선택할 수 있다.
많은 실시예들에서, 픽셀들의 선택은 예측 이미지와 선택된 이미지의 픽셀 값들 사이의 차이에 기초할 수 있다. 예를 들어, 후보 이미지에서 예측 값과 실제 값 사이의 차이가 임계값을 초과하면 픽셀들이 서브세트에 포함될 수 있고, 그렇지 않으면 그것이 포함되지 않을 수 있다.
아래에 추가로 설명될 바와 같이, 일부 실시예들에서 부분 이미지 내에 픽셀을 포함시킴으로써 다른 이미지들의 예측이 어떻게 개선될 수 있는지를 평가하는 것을 포함하는 훨씬 더 복잡한 접근법들이 사용될 수 있다.
일부 실시예들에서, 후보 이미지의 제1 픽셀은 예측 이미지에서의 제1 픽셀에 대한 예측 값과 후보 이미지에서의 픽셀의 값 사이의 차이의 척도가 임계값을 초과한다는 결정에 응답하여 서브세트에 대해 선택될 수 있다.
일부 실시예들에서, 예측에 픽셀을 포함시킴으로써 다른 후보 이미지들의 (하나 이상의) 픽셀들의 예측의 개선을 나타내는 예측 개선 척도가 각각의 픽셀에 대해 결정될 수 있다. 그 후, 서브세트는 예측 개선 척도에 응답하여, 예컨대 예측 개선 척도가 임계값 위에 있는 픽셀들을 선택함으로써 선택될 수 있다.
따라서, 단지 픽셀들의 서브세트에 대한 이미지 데이터를 포함하는 부분 이미지가 후보 이미지에 대해 생성된다. 부분 이미지는 후보 이미지 내의 픽셀들의 상보적 서브세트를 폐기함으로써 생성될 수 있다. 픽셀들을 폐기하는 것은 부분 이미지에 픽셀 값들의 정보를 포함시키지 않는 것, 및 예컨대 대응하는 픽셀 값들을 고정된 값(예컨대, 0) 또는 후보 이미지의 픽셀 값과 무관한 값으로 설정하는 것에 의한 것일 수 있다. 픽셀들을 폐기하는 접근법은 그들을 이미지 생성기(205)에 의해 생성된 결합 이미지들 내에 포함시키지 않는 것이다. 부분 이미지의 생성은 구체적으로 후보 이미지와 마스크에 의해 마스킹되지 않은 픽셀들만을 포함하는 부분 이미지로 오버레이될 수 있는 프루닝 마스크의 생성에 대응하는 것으로 간주될 수 있다.
단계(511) 다음에 단계(513)가 이어지고, 여기서 부분 이미지(또는 하나 초과의 후보 이미지가 선택되는 경우 부분 이미지들)가 포함된 이미지들의 세트에 추가된다. 단계(513) 다음에 단계(515)가 이어지고, 여기서 선택된 이미지(들)가 후보 이미지들의 세트로부터 제거된다.
따라서, 반복은 하나 이상의 이미지를 찾기 위해 포함된 이미지들의 세트를 구체적으로 평가할 수 있고, 하나 이상의 이미지는 그 후 부분 이미지를 생성하기 위해 프루닝된 후에 포함된 이미지들의 세트로 이동된다.
단계(515) 다음에 단계(517)가 이어지고, 여기서 추가의 반복들이 수행되어야 하는지가 평가된다. 그렇다면, 프로세스는 단계(505)로 복귀하여 새로운 반복을 개시한다. 그렇지 않으면, 단계(517) 다음에 단계(519)가 이어지고, 여기서 이미지 신호는 포함된 이미지들의 세트를 포함하도록 이미지 생성기(205) 및 인코더(207)에 의해 생성된다.
이전에 언급된 바와 같이, 일부 실시예들에서, 반복들은 후보 이미지들의 세트가 비어 있을 때까지, 즉 모든 후보 이미지들이 선택될 때까지 수행될 수 있다.
다른 실시예들에서, 접근법은 모든 나머지 후보 이미지들에 대한 예측 오차들이 주어진 임계값 미만일 때까지 진행할 수 있다. 이 경우, 모든 뷰들이 충분히 정확하게 예측될 수 있고, 더 이상의 이미지 데이터가 필요하지 않다고 간주될 수 있다. 그러한 실시예들에서, 다른 반복을 수행할지 여부의 결정은 예측 품질 척도들이 결정되는 단계(505) 후에 이루어질 수 있다. 반복들은 구체적으로 가장 낮은 예측 품질 척도가 주어진 임계값을 초과하면 중단될 수 있다.
부분 이미지에 포함되는 후보 이미지(들) 및 픽셀들의 서브세트의 선택은 다른, 구체적으로 이미 포함된 이미지들에 대한 관계의 고려에 의해 그리고 선택들의 예측 영향의 고려에 응답하여 수행된다.
이 접근법은 인코딩 및 송신에 매우 적합한 포함된 이미지들의 세트들을 유발하는 경향이 있는 것으로 밝혀졌다. 이 접근법은 주어진 원하는 이미지 품질에 대한 데이터 레이트를 실질적으로 감소시키는 것으로 밝혀졌다. 동시에, 반복 접근법은 낮은 계산 요건을 갖는 특히 효율적이고 낮은 복잡성의 구현을 허용한다.
일부 실시예들에서, 단계(507)에서의 예측 품질 측정의 결정은 언급된 바와 같이 예측 오차가 주어진 임계값 미만인 픽셀들의 수를 선택하고 카운트함으로써 행해질 수 있다.
구체적으로, 반복기(405)는 제1 후보 이미지 및 후보 이미지에 대한 예측 이미지의 대응하는 픽셀들에 대한 픽셀 값들이 유사성 기준을 충족시키는 제1 후보 이미지의 복수의 픽셀을 결정할 수 있다. 따라서, 충분히 잘 예측되는 픽셀들이 결정될 수 있고, 제1 후보 이미지에 대한 예측 품질 척도가 복수의 픽셀의 특성에 응답하여, 예컨대 복수의 픽셀 내의 픽셀들의 수의 단조 증가 함수로서 결정될 수 있다. 따라서, 예측 품질 척도는 충분히 잘 예측된 픽셀들의 수가 증가함에 따라 증가할 수 있다.
따라서, 이 접근법은 유사성 기준을 충족시키는 픽셀들의 서브세트를 선택하는 것에 기초한다. 일부 실시예들에서, 단계(513)에서 결정되는 픽셀들의 서브세트는 단계(507)에서 결정되는 서브세트에 기초하여 결정될 수 있다.
구체적으로, 부분 이미지에 포함되는 픽셀들의 서브세트는 유사성 요건을 충족시키는 복수의 픽셀에 포함되지 않는 후보 이미지의 픽셀들로부터 생성될 수 있다. 따라서, 동일한 고려사항, 기준 및 접근법이 후보 이미지를 선택하는 데 사용되는 예측 품질 척도를 결정하고 이 이미지에 대한 서브세트/프룬 마스크를 생성하는 데 사용될 수 있다. 이것은 많은 실시예들에서 양 목적들을 위해 동일한 동작이 사용되므로 복잡성 및 계산 자원 사용을 줄일 수 있을 뿐만 아니라, 많은 실시예들에서 선택이 선택의 결과로서 이미지 신호에 포함될 이미지 데이터의 양과 직접 관련되므로 개선된 선택을 제공할 수도 있다.
예를 들어, 이미지 신호 송신기(200)는 후보 이미지들 각각에 대한 프룬 마스크를 생성하도록 진행하여, 후보 이미지를 유사성 기준이 충족되는 픽셀들의 제1 서브세트 및 유사성 기준이 충족되지 않는 제2 서브세트로 분할할 수 있다. 제1 서브세트 내의 픽셀들의 수가 결정되고 예측 품질 척도로서 사용될 수 있다. 구체적으로, 후보 이미지는 제1 서브세트 내의 픽셀들의 최저 수 및 제2 서브세트 내의 픽셀들의 최고 수에 대응하는 최저 예측 품질 척도를 갖는다. 그 다음, 부분 이미지는 제2 서브세트의 픽셀들만을 포함하고 제1 서브세트의 픽셀들을 폐기함으로써, 예컨대 그것의 픽셀 값들을 고정된 값으로(예컨대, 0으로) 설정함으로써 생성된다.
일부 실시예들에서, 이미지 신호 송신기(200)는 단계(511)에서 개별 픽셀을 포함하는 것으로부터 유래될 나머지 후보 이미지들에 대한 예측 개선/오차 변화(즉, 예측 픽셀 값과 정확한 값 사이의 오차의 변화)를 고려함으로써 부분 이미지에 대한 픽셀들을 선택할 수 있다. 구체적으로, 이미지 신호 송신기(200)는 선택된 이미지 내의 주어진 제1 픽셀에 대해, 예측 프로세스에서 제1 픽셀을 포함함으로써 다른 후보 이미지들의 픽셀들에 대한 예측 품질 개선을 결정할 수 있다. 그 다음, 제1 픽셀은 이러한 예측 품질 개선이 임계값을 초과하는 경우 생성된 부분 이미지에 포함된다.
예측 품질 개선은 구체적으로 하기 프로세스에 의해 결정될 수 있다.
제1 예측들은 선택된 이미지 및 포함된 이미지들의 세트로부터의 각각의 나머지 후보 이미지에 대해 생성되는데, 즉 예측들은 단계(509)에서 선택된 이미지를 추가로 고려함으로써 후보 이미지에 대해 생성된다. 따라서, 단계(505)에서의 예측과 대조적으로, 단계(513)는 단계(509)에서 선택된 이미지에 또한 기초하는 각각의 후보 이미지에 대한 새로운 예측을 생성한다. 예를 들어, 제1 나머지 후보 이미지에 대해, 반복기(405)는 이전 반복들로부터의 포함된 이미지들의 세트 내의 모든 이미지들 및 이 반복으로부터의 선택된 이미지에 기초하여 예측 이미지를 생성한다.
이 제1 나머지 후보 이미지의 픽셀들에 대해, 반복기(405)는 그 후 픽셀의 값과, 포함된 이미지들의 세트 플러스 포함된 이미지들의 세트에만 기초하여 결정된 예측 값에 대한 선택된 이미지에 기초하여 결정된 예측 값 사이의 차이의 변화를 나타내는 오차 변화를 결정하도록 진행한다.
따라서, 제1 나머지 후보 이미지의 각각의 픽셀에 대해, 선택된 이미지를 포함하는 예측에 대해 제1 예측 오차가 결정될 수 있고, 선택된 이미지를 포함하지 않는, 즉, 단계(505)에서 이전에 행해진 예측에 대응하는 예측에 대해 제2 예측 오차가 결정될 수 있다. 이들 간의 차이는 선택된 이미지를 예측에 포함시킴으로써 달성되는 예측 개선을 반영한다. Yuv 컬러 표현의 경우, (선택된 이미지를 포함함으로써) 오차 변화는 예를 들어 각각의 픽셀에 대해 다음과 같이 결정될 수 있다:
Figure pct00001
여기서, 인덱스 cond는 예측 이미지를 지칭하고, 인덱스 ref는 원본 후보 이미지를 지칭하며, 인덱스 beforeafter는 선택된 이미지를 고려하지 않는 예측 및 예측 이미지를 고려하는 예측에 대한 예측 오차를 각각 지칭한다.
따라서, 제1 나머지 후보 이미지의 각각의 픽셀에 대해 오차 변화가 결정된다. 이것은 후보 오차 변화 이미지를 형성할 수 있으며, 이어서 후보 오차 변화 이미지는 제1 나머지 후보 이미지의 뷰 포즈로부터 선택된 이미지의 뷰 포즈로 뷰 시프팅된다. 그 결과, 선택된 오차 변화 이미지는 제1 나머지 후보 이미지의 뷰 포즈로부터 선택된 이미지의 뷰 포즈로의 뷰 포즈 시프트에 의해 결정되며, 여기서 픽셀 값들은 선택된 이미지의 그 픽셀을 제1 나머지 후보 이미지의 예측에 포함시킴으로써 예측 후보 이미지에서 발생하는 예측 오차의 변화를 반영한다. 따라서, 선택된 이미지의 부분 이미지에 개별 픽셀을 포함시킴으로써 그 제1 나머지 후보 이미지의 예측에 대한 이익의 직접 척도가 결정된다.
따라서, 반복기(405)는 오차 변화 이미지가 오차가 주어진 임계값보다 많이 감소될 것임을 나타내는 모든 픽셀들을 선택하도록 진행할 수 있다.
그러나, 많은 실시예들에서, 부분 이미지에 대한 픽셀들의 선택은 하나의 나머지 후보 이미지를 고려하는 것만이 아니라, 이들 중 다수, 전형적으로 전부를 고려하는 것에 기초한다. 많은 실시예들에서, 선택된 이미지의 뷰 포즈로 시프팅된 오차 변화 이미지들은 나머지 후보 이미지들 모두에 대해 생성될 수 있다.
일부 실시예들에서, 이들은 그 후, 예를 들어, 생성된 오차 변화 이미지들 중 임의의 것이 주어진 임계값을 넘는 개선이 달성될 수 있음을 나타내는 경우, 부분 이미지에 픽셀을 포함시킴으로써 별도로 고려될 수 있다. 그러나, 많은 실시예들에서, 결합된 오차 변화 이미지가 선택된 이미지의 동일한 픽셀에 대해 상이한 후보 이미지들에 대해 결정된 오차 변화 값들을 결합함으로써 생성될 수 있다. 간단한 예로서, 상이한 후보 이미지들에 대한 오차 변화 값들은 단순히 함께 가산되거나, 선택된 이미지의 뷰 포즈로 시프팅된 후에 평균화될 수 있다. 이어서, 반복기(405)는 결합된 오차 변화 값들이 부분 이미지 내의 주어진 임계값 위의 오차 감소를 나타내는 선택된 이미지의 픽셀들을 선택하는 것으로 진행할 수 있는데, 즉 나머지 후보 이미지들에 가장 큰 전체 예측 개선을 제공하는 픽셀들이 선택된다.
많은 실시예들에서, 결합된 오차 변화 이미지는 선택된 이미지 자체에 대해 생성된 오차 변화 이미지를 포함할 수 있다. 실제로, 이 스테이지에서, 선택된 이미지는 오직 예측되고(완전히 포함되지 않음), 따라서 선택된 이미지는 결합된 오차 변화 이미지에서 계산할 때 유리하게 또한 포함될 수 있고, 이에 의해, 선택된 이미지 자체에 대해 달성되는 예측 개선을 나타낸다. 예를 들어, 이것은 픽셀이 선택된 이미지 자체에 대해 필요하지만 나머지 후보 이미지들 중 어느 것에 대해서도 필요하지 않기 때문에 픽셀이 부분 이미지에 포함되는 것일 수 있다.
전술된 바와 같이, (구체적으로 단계(505)에서) 수행되는 예측/뷰 합성은 많은 실시예들에서 포함된 이미지들의 세트 내의 이미지들 각각에 대한 제1 후보 이미지에 대한 개별 중간 예측 이미지들을 생성함으로써 수행될 수 있는데, 즉 하나의 중간 이미지가 각각의 후보 이미지 및 포함된 이미지 쌍에 대해 생성될 수 있다. 이러한 중간 예측 이미지들은 이어서 제1 후보 이미지에 대한 단일 예측 이미지로 결합/혼합된다.
많은 실시예들에서, 이러한 동작들 모두를 수행하도록 배열되고, 단순히 입력으로서 포함된 이미지들의 세트(및 관련 뷰 포즈들) 및 합성/예측 이미지가 생성될 뷰 포즈를 제공받을 수 있는 합성기가 사용될 수 있다. 이것은 이러한 입력들로부터 주어진 후보 이미지에 대한 합성/예측 이미지를 생성할 수 있다. 합성기는 중간 결과들 또는 동작들에 대한 액세스를 허용하지 않는 소프트웨어 서브루틴, 함수, 또는 객체와 같은 통합 함수 및 알고리즘으로서 구현될 수 있다. 따라서, 중간 이미지들의 생성 및 혼합은 다른 기능들, 프로세스들 또는 동작들에 액세스가능하지 않을 수 있다. 따라서, 그러한 합성기를 이용하는 실시예들에서, 예컨대 단계(505)에서의 예측은 각각의 반복에서 모든 포함된 이미지들을 이용하여 모든 후보 이미지들에 대해 전체 합성이 수행되는 것을 필요로 할 수 있다.
그러나, 일부 실시예들에서, 중간 예측 이미지들 및 혼합에 대한 액세스를 허용하는 합성기가 사용될 수 있다. 이것은 예를 들어 합성 기능이 도 5의 방법을 구현할 목적으로 특별히 개발되는 경우일 수 있다.
그러한 실시예에서, 반복기(405)는 하나의 반복에서 생성되는 중간 이미지들을 추가로 저장하고, 후속 반복에서 저장된 중간 이미지들을 검색하도록 배열될 수 있다.
따라서, 이러한 실시예에서, 중간 예측 이미지는, 하나의 이러한 이미지가 이용가능한 경우 이전 반복에서 생성되고 저장된 이미지를 검색함으로써 혼합을 위해, 그리고 이전 반복으로부터 어떠한 이러한 이미지도 저장되지 않은 경우에만 뷰 시프팅에 의해 새로운 중간 예측 이미지를 생성하기 위해 제공될 수 있다. 따라서, 중간 예측 이미지가 이전에 생성되었다면, 이것은 재사용되고, 그 후보 및 포함된 이미지 쌍에 대해 새로운 뷰 시프트 동작이 요구되지 않는다.
도 5의 방법에서, 새로운 이미지들이 각각의 반복에서 점진적으로 성장/확장되는 포함된 이미지들의 세트에 기초하여 후보 이미지들에 대해 예측된다. 따라서, 각각의 반복에서, 주어진 나머지 후보 이미지에 대한 새로운 예측의 생성은 이전 반복에서와 동일한 포함된 이미지들 플러스 이전 반복에 의해 포함된 임의의 이미지들에 기초하여 수행된다. 따라서, 이전 반복에서 선택된 것들을 제외한 모든 이미지들에 대해, 중간 예측 이미지들이 이미 생성되고 저장되었다. 따라서, 새로운 중간 예측 이미지들은 이전 반복에 포함된 이미지들에 대해서만 생성되고, 많은 실시예들에서, 하나의 새로운 중간 예측 이미지만이 각각의 나머지 후보 이미지에 대해 생성될 필요가 있다(예컨대, 더 이상 필요하지 않기 때문에 오래된 중간 예측 이미지를 대체함).
따라서, 이 방법은 증분적 예측 접근법에 매우 적합하고, 그에 따라 요구되는 처리의 매우 큰 감소를 갖는 매우 효율적인 구현을 제공하는 데 이용될 수 있다.
중간 예측 이미지들의 픽셀들을 혼합하기 위한 상이한 접근법들이 상이한 실시예들에서 사용될 수 있으며, 구체적으로 상이한 기능들 및 파라미터들이 가중치들을 생성하기 위해 사용될 수 있다는 것을 알 것이다.
많은 실시예들에서, 혼합은 주어진 픽셀에 대한 가중치가 픽셀과 연관된 깊이에 의존하는 가중 결합일 수 있다. 예를 들어, 혼합은, 주어진 픽셀 위치에 대한 중간 예측 이미지들의 모든 픽셀들에 대한 깊이가 비교되고, 가장 먼 순방향 깊이 값을 가지는 중간 예측 이미지의 픽셀이 선택되는 선택 혼합일 수 있다. 많은 실시예들에서, 가중치에 기초한 상이한 픽셀들의 더욱 점진적인 가중이 사용될 수 있다. 예를 들어, 깊이와 가중치 사이의 지수 관계가 종종 사용될 수 있다.
다른 실시예들에서, 다른 파라미터들이 대안적으로 또는 부가적으로 고려될 수 있다. 예를 들어, 뷰 시프트를 수행하기 위해 얼마나 많은 신장(기본 프리미티브들의 기하학적 왜곡)이 요구되는지가 고려될 수 있고, 가중치는 요구되는 프리미티브들의 더 많은 신장 및 기하학적 왜곡을 감소시킬 수 있다.
많은 실시예들에서, 각각의 반복에서 포함된 이미지들의 세트에 포함시키기 위해 단일 이미지만이 선택된다. 그러나, 일부 실시예들에서, 선택된 이미지들의 서브세트는 유리하게는 각각의 반복에서 복수의 이미지를 포함할 수 있고, 따라서 복수의 이미지는 각각의 반복에서 포함된 이미지들의 세트로 이동될 수 있다.
이것은 일부 시나리오들에서는 데이터 레이트를 약간 증가시킬 수 있지만, 일부 실시예들에서는 계산 요건들 및 구체적으로 전체 방법이 실행되는 데 필요한 예측들의 수를 실질적으로 줄일 수 있다. 그것은 특히, 예컨대 중간 예측 이미지들에 대한 액세스 또는 혼합 동작이 없기 때문에, 증분 예측이 사용될 수 없는 실시예들에서 실질적으로 감소된 계산 자원 사용을 제공할 수 있다.
많은 실시예들에서, 부분 이미지에 대한 픽셀들의 선택은, 예컨대 픽셀 예측 특성들에 기초하여 결정되는 초기 서브세트의 일부 처리를 포함할 수 있다. 이러한 처리는 구체적으로 픽셀들의 공간 특성들 또는 관계들을 고려할 수 있다.
특정 예로서, 반복기(405)는 픽셀들의 서브세트에 대응하는 마스크를 생성할 수 있는데, 예컨대 각각의 값에 대해 이것이 부분 이미지에 포함되어야 하는지 여부를 나타내는 이진 이미지가 생성될 수 있다. 다른 예로서, 픽셀 예측 품질 값들을 반영하는 이미지(예컨대, 결합된 오차 변화 이미지)가 생성될 수 있다. 이러한 이미지는 부분 이미지에 값을 포함시킬 가능성 또는 이익을 반영하므로 소프트 마스크일 수 있고, 따라서 임계값과 함께 부분 이미지에 포함되는 픽셀들을 표현한다.
이러한 마스크를 원래 생성된 대로 직접 사용하기보다는, 반복기(405)는 마스크를 먼저 처리하도록 배열될 수 있다. 구체적으로, 공간 필터, 전형적으로는 공간 저역 통과 필터가 마스크에 적용될 수 있다. 따라서, 마스크의 변화는 부분 이미지를 위해 선택된 픽셀들의 서브세트의 수정을 유발할 수 있다.
이러한 필터링은 부분 이미지에서 매우 얇은 구조들을 회피하는 데 매우 유용할 수 있다. 적용될 수 있는 공간 필터의 예는 작은 커널을 갖는 박스 블러(box blur)이다.
일부 실시예들에서, 처리되는 이미지들은 비디오 시퀀스의 프레임들일 수 있다. 그러한 경우, 하나의 프레임에 대해 결정된 포함된 이미지들의 세트의 순서는 복수의 프레임에서 적용될 수 있다. 예를 들어, 인트라 인코딩된 프레임에 대해, 설명된 접근법은 포함된 이미지들의 순차적 세트를 생성하기 위해 사용될 수 있다. 이어서, 이미지들의 동일한 배열/순서/시퀀스가 다음 인트라-코딩된 프레임까지 모든 인터 코딩된 프레임들에 대해 사용될 수 있다. 따라서, 일부 실시예들에서, 방법은 인트라-프레임들에 대해서만 실행될 수 있고, 이 동작에서 결정된 배열은 모든 후속 인트라-프레임들에 대해 재사용될 수 있다.
프루닝 마스크들은 일부 프레임들에 대해, 예를 들어, 더 낮은 프레임 레이트에서 프루닝 마스크들을 생성함으로써, 또는 낮은 이미지 모션의 표시가 있는 경우들에서 프루닝 마스크들을 재사용함으로써 재사용될 수 있다. 대안적으로, 프루닝 마스크들은 인트라-코딩된 프레임에 대해 결정된 배열을 사용하여 모든 인터-코딩된 프레임들에 대해 생성될 수 있다.
장면 변경시에 배열을 업데이트하는 것이 특히 유리할 수 있지만, 그러한 이벤트는 또한 전형적으로 추가 인트라 프레임을 트리거할 것이고, 이는 이어서 새로운 배열이 결정되게 할 수 있다.
이러한 접근법은 프레임들에 걸쳐 개선된 일관성을 제공할 수 있다. 전체 데이터 레이트 또는 품질 저하는 방법이 각각의 프레임에 적용된 경우보다 약간 더 높을 수 있지만, 전형적으로 이것은 시간적 변동들이 뷰어에게 매우 가시적인 경향이 있기 때문에 더 일관된 시각적 결과를 달성하기 위한 바람직한 절충일 것이다.
상기 설명은 명확함을 위해 상이한 기능 회로들, 유닛들 및 프로세서들을 참조하여 본 발명의 실시예들을 설명하였음을 알 것이다. 그러나, 본 발명으로부터 벗어남이 없이 상이한 기능 회로들, 유닛들 또는 프로세서들 간의 기능의 임의의 적합한 분배가 사용될 수 있음이 명백할 것이다. 예를 들어, 별개의 프로세서들 또는 제어기들에 의해 수행되도록 예시된 기능이 동일한 프로세서 또는 제어기들에 의해 수행될 수 있다. 따라서, 특정 기능 유닛들 또는 회로들에 대한 언급들은 오로지 엄격한 논리적 또는 물리적 구조 또는 조직을 나타내기보다는 설명된 기능을 제공하기 위한 적합한 수단에 대한 언급들로 간주되어야 한다.
본 발명은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합을 포함한 임의의 적합한 형태로 구현될 수 있다. 본 발명은 선택적으로 하나 이상의 데이터 프로세서 및/또는 디지털 신호 프로세서 상에서 실행되는 컴퓨터 소프트웨어로서 적어도 부분적으로 구현될 수 있다. 본 발명의 실시예의 요소들 및 컴포넌트들은 임의의 적합한 방식으로 물리적으로, 기능적으로 그리고 논리적으로 구현될 수 있다. 실제로 기능은 단일 유닛에서, 복수의 유닛에서, 또는 다른 기능 유닛들의 일부로서 구현될 수 있다. 그렇기 때문에, 본 발명은 단일 유닛에서 구현될 수 있거나, 상이한 유닛들, 회로들 및 프로세서들 간에 물리적으로 그리고 기능적으로 분배될 수 있다.
본 발명이 일부 실시예들과 관련하여 설명되었지만, 본 발명은 본 명세서에 기재된 특정 형태로 제한되도록 의도되지 않는다. 오히려, 본 발명의 범주는 첨부된 청구범위에 의해서만 제한된다. 또한, 특징이 특정 실시예들과 관련하여 설명되는 것으로 보일 수 있지만, 당업자는 설명된 실시예들의 다양한 특징들이 본 발명에 따라 조합될 수 있다는 것을 인식할 것이다. 청구범위에서, 용어 '포함하는'은 다른 요소들 또는 단계들의 존재를 배제하지 않는다.
또한, 개별적으로 열거되지만, 복수의 수단, 요소, 회로 또는 방법 단계는 예컨대 단일 회로, 유닛 또는 프로세서에 의해 구현될 수 있다. 또한, 개별 특징들이 상이한 청구항들에 포함될 수 있지만, 이들은 아마도 유리하게 조합될 수 있으며, 상이한 청구항들에의 포함은 특징들의 조합이 실현가능하지 않고/않거나 유리하지 않다는 것을 암시하지는 않는다. 또한, 하나의 카테고리의 청구항들에의 소정 특징의 포함은 이 카테고리로의 제한을 암시하는 것이 아니라, 오히려 그 특징이 적절한 바에 따라 다른 청구항 카테고리들에 동등하게 적용될 수 있음을 나타낸다. 또한, 청구항들에서의 특징들의 순서는 특징들이 작용되어야 하는 임의의 특정 순서를 암시하지는 않으며, 특히 방법 청구항에서의 개별 단계들의 순서는 단계들이 이 순서대로 수행되어야 함을 암시하지는 않는다. 오히려, 단계들은 임의의 적합한 순서로 수행될 수 있다. 또한, 단수형 언급들은 복수를 배제하지 않는다. 따라서 "부정관사(a, an)", "제1", "제2" 등에 대한 언급들은 복수를 배제하지 않는다. 청구범위에서의 도면 부호들은 단지 명료화 예로서 제공되며, 어떤 방식으로도 청구범위의 범주를 제한하는 것으로 해석되지 않아야 한다.
본 발명은 일반적으로 이미지 신호를 생성하는 방법으로서 요약될 수 있으며, 방법은,
장면의 복수의 이미지들을 포함하는 후보 이미지들의 세트를 수신하는 단계(501)로서, 후보 이미지들의 세트 중 적어도 일부 이미지들은 장면의 상이한 뷰 포즈들에 대한 것인, 후보 이미지들의 세트를 수신하는 단계(501);
후보 이미지들의 세트의 적어도 하나의 이미지를 선택하고, 적어도 하나의 이미지를 포함하도록, 포함된 이미지들의 세트를 초기화하는 단계(503);
포함된 이미지들의 세트의 이미지들로부터 후보 이미지들의 세트의 이미지들에 대한 예측 이미지들을 생성하는 단계(505);
후보 이미지들의 세트의 각각의 이미지에 대한 예측 품질 척도를 결정하는 단계(507)로서, 후보 이미지들의 세트의 제1 이미지에 대한 예측 품질 척도는 제1 이미지와 제1 이미지에 대한 제1 예측 이미지 사이의 차이를 나타내는, 예측 품질 척도를 결정하는 단계(507);
예측 품질들에 응답하여 후보 이미지들의 세트로부터 선택된 이미지들의 세트를 선택하는 단계(509);
선택된 이미지들의 세트의 각각의 이미지에 대해, 이미지의 픽셀들에 대한 픽셀 예측 품질들에 응답하여 픽셀들의 서브세트를 결정하는 단계(511);
선택된 이미지들의 세트에 대응하는 부분 이미지들의 세트를 생성하는 단계(513)로서, 선택된 이미지들의 세트의 주어진 이미지에 대한 부분 이미지는 주어진 이미지에 대한 픽셀들의 서브세트의 픽셀들만을 포함하는, 부분 이미지들의 세트를 생성하는 단계(513);
포함된 이미지들의 세트에 부분 이미지들의 세트를 포함시키는 단계(515); 및
후보 이미지들의 세트로부터 선택된 이미지들의 세트를 제거하는 단계(515)
를 반복적으로 수행하는 단계;
포함된 이미지들의 세트 내의 이미지들의 이미지 데이터를 포함하는 이미지 신호를 생성하는 단계(519)를 포함한다.
이 방법은 첨부된 청구범위 제2항 내지 제13항에 한정된 바와 같이 추가로 한정될 수 있다.
본 발명은 일반적으로 컴퓨터 프로그램 제품으로서 추가로 요약될 수 있으며, 컴퓨터 프로그램 제품은 상기 프로그램이 컴퓨터 상에서 실행될 때 이미지 신호를 생성하는 상기 열거된 요약된 방법들 중 임의의 것의 단계들 모두를 수행하도록 구성된 컴퓨터 프로그램 코드 수단을 포함한다.
본 발명은 일반적으로 이미지 신호를 생성하기 위한 장치로서 또한 추가로 요약될 수 있으며, 장치는,
장면의 복수의 이미지들을 포함하는 후보 이미지들의 세트를 수신(501)하기 위한 수신기(401)로서, 후보 이미지들의 세트 중 적어도 일부 이미지들은 장면의 상이한 뷰 포즈들에 대한 것인, 수신기(401);
후보 이미지들의 세트의 적어도 하나의 이미지를 선택하고, 적어도 하나의 이미지를 포함하도록, 포함된 이미지들의 세트를 초기화(503)하기 위한 기준 선택기(403);
반복기(405)로서,
포함된 이미지들의 세트의 이미지들로부터 후보 이미지들의 세트의 이미지들에 대한 예측 이미지들을 생성하는 단계(505);
후보 이미지들의 세트의 각각의 이미지에 대한 예측 품질 척도를 결정하는 단계(507)로서, 후보 이미지들의 세트의 제1 이미지에 대한 예측 품질 척도는 제1 이미지와 제1 이미지에 대한 제1 예측 이미지 사이의 차이를 나타내는, 예측 품질 척도를 결정하는 단계(507);
예측 품질들에 응답하여 후보 이미지들의 세트로부터 선택된 이미지들의 세트를 선택하는 단계(509);
선택된 이미지들의 세트의 각각의 이미지에 대해, 이미지의 픽셀들에 대한 픽셀 예측 품질들에 응답하여 픽셀들의 서브세트를 결정하는 단계(511);
선택된 이미지들의 세트에 대응하는 부분 이미지들의 세트를 생성하는 단계(513)로서, 선택된 이미지들의 세트의 주어진 이미지에 대한 부분 이미지는 주어진 이미지에 대한 픽셀들의 서브세트의 픽셀들만을 포함하는, 부분 이미지들의 세트를 생성하는 단계(513);
포함된 이미지들의 세트에 부분 이미지들의 세트를 포함시키는 단계(515); 및
후보 이미지들의 세트로부터 선택된 이미지들의 세트를 제거하는 단계(515)
를 반복적으로 수행하기 위한, 반복기(405);
포함된 이미지들의 세트 내의 이미지들의 이미지 데이터를 포함하는 이미지 신호를 생성(519)하기 위한 출력 회로(205, 207)를 포함한다.
본 발명은 구체적으로 첨부된 청구범위 제1항 내지 제15항에 한정된 바와 같이 요약될 수 있다.

Claims (15)

  1. 이미지 신호를 생성하는 방법으로서,
    장면의 복수의 이미지들을 포함하는 후보 이미지들의 세트를 수신하는 단계(501)로서, 상기 후보 이미지들의 세트 중 적어도 일부 이미지들은 상기 장면의 상이한 뷰 포즈들(view poses)에 대한 것인, 상기 후보 이미지들의 세트를 수신하는 단계(501);
    상기 후보 이미지들의 세트의 적어도 하나의 이미지를 선택하고, 상기 적어도 하나의 이미지를 포함하도록, 포함된 이미지들의 세트를 초기화하는 단계(503);
    상기 포함된 이미지들의 세트의 상기 이미지들로부터 상기 후보 이미지들의 세트의 상기 이미지들에 대한 예측 이미지들을 생성하는 단계(505);
    상기 후보 이미지들의 세트의 각각의 이미지에 대한 예측 품질 척도(prediction quality measure)를 결정하는 단계(507)로서, 상기 후보 이미지들의 세트의 제1 이미지에 대한 상기 예측 품질 척도는 상기 제1 이미지와 상기 제1 이미지에 대한 제1 예측 이미지 사이의 차이를 나타내는, 상기 예측 품질 척도를 결정하는 단계(507);
    상기 예측 품질들에 응답하여 상기 후보 이미지들의 세트로부터 선택된 이미지들의 세트를 선택하는 단계(509)로서, 이에 따라 상기 선택된 이미지들은 상기 선택된 이미지들의 세트에 이미 포함된 상기 이미지들에 대해 최저 예측 품질 척도를 갖는, 상기 선택된 이미지들의 세트를 선택하는 단계(509);
    상기 선택된 이미지들의 세트의 각각의 이미지에 대해, 상기 이미지의 픽셀들에 대한 픽셀 예측 품질들에 응답하여 픽셀들의 서브세트를 결정하는 단계(511);
    상기 선택된 이미지들의 세트에 대응하는 부분 이미지들의 세트를 생성하는 단계(513)로서, 상기 선택된 이미지들의 세트의 주어진 이미지에 대한 상기 부분 이미지는 상기 주어진 이미지에 대한 상기 픽셀들의 서브세트의 상기 픽셀들만을 포함하는, 상기 부분 이미지들의 세트를 생성하는 단계(513);
    상기 포함된 이미지들의 세트에 상기 부분 이미지들의 세트를 포함시키는 단계(515); 및
    상기 후보 이미지들의 세트로부터 상기 선택된 이미지들의 세트를 제거하는 단계(515)
    를 반복적으로 수행하는 단계;
    상기 포함된 이미지들의 세트 내의 상기 이미지들의 이미지 데이터를 포함하는 상기 이미지 신호를 생성하는 단계(519)를 포함하는, 방법.
  2. 제1항에 있어서, 상기 제1 이미지에 대한 상기 예측 품질을 결정하는 단계(507)는,
    상기 제1 이미지 및 상기 제1 예측 이미지의 대응하는 픽셀들에 대한 픽셀 값들이 유사성 기준을 충족시키는 상기 제1 이미지의 복수의 픽셀들을 결정하는 단계;
    상기 복수의 픽셀들의 특성에 응답하여 상기 제1 이미지에 대한 상기 예측 품질을 결정하는 단계를 포함하는, 방법.
  3. 제2항에 있어서, 상기 특성은 픽셀들의 수이고, 상기 예측 품질은 상기 복수의 픽셀들 내의 상기 픽셀들의 수의 단조 증가 함수인, 방법.
  4. 제3항에 있어서, 상기 픽셀들의 서브세트를 결정하는 단계(511)는 상기 이미지에 대한 상기 복수의 픽셀들에 포함되지 않은 상기 제1 이미지의 픽셀들로부터 상기 제1 이미지에 대한 픽셀들의 서브세트를 결정하는 단계를 포함하는, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 선택된 이미지들의 세트의 제1 선택된 이미지에 대한 상기 픽셀들의 서브세트를 결정하는 단계(511)는,
    상기 선택된 이미지들의 세트를 제외한 상기 후보 이미지들의 세트의 적어도 하나의 후보 이미지에 대해,
    상기 적어도 하나의 후보 이미지의 픽셀들에 대해, 상기 적어도 하나의 후보 이미지의 픽셀과, 상기 포함된 이미지들의 세트에 기초하는 상기 픽셀의 예측을 위한 예측 픽셀 및 상기 포함된 이미지들의 세트에만 기초하는 상기 픽셀의 예측에 대한 상기 제1 선택된 이미지 사이의 차이의 변화를 나타내는 오차 변화를 결정하는 단계; 및
    상기 제1 선택된 이미지에 대한 오차 변화 이미지를 생성하는 단계로서, 상기 오차 변화 이미지는 상기 적어도 하나의 후보 이미지의 뷰 포즈로부터 상기 제1 선택된 이미지의 뷰 포즈로의 뷰 포즈 시프트(view pose shift)에 의해 상기 적어도 하나의 후보 이미지의 오차 변화들로부터 결정된 픽셀 값들을 포함하는, 상기 오차 변화 이미지를 생성하는 단계; 및
    상기 오차 변화 이미지에 응답하여 상기 픽셀들의 서브세트를 선택하는 단계를 포함하는, 방법.
  6. 제5항에 있어서, 상기 제1 선택된 이미지에 대한 상기 픽셀들의 서브세트를 결정하는 단계는 상기 후보 이미지들의 세트의 복수의 후보 이미지들에 대한 오차 변화들을 결정하는 단계, 및 상기 제1 선택된 이미지의 동일한 픽셀에 대한 상이한 후보 이미지들로부터 결정된 오차 변화 값들을 결합함으로써 상기 오차 변화 이미지를 생성하는 단계를 포함하는, 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 상기 후보 이미지들의 세트에 대한 예측 이미지들을 생성하는 단계(505)는, 상기 후보 이미지들의 세트의 제1 후보 이미지에 대해,
    상기 포함된 이미지들의 세트의 상기 이미지 각각에 대해 상기 제1 후보 이미지의 중간 예측 이미지들을 제공하는 단계; 및
    상기 중간 예측 이미지들을 결합함으로써 상기 제1 예측 이미지를 생성하는 단계를 포함하는, 방법.
  8. 제7항에 있어서, 상기 반복은,
    중간 예측 이미지들을 저장하는 단계를 추가로 포함하고;
    중간 예측 이미지들을 제공하는 단계는, 중간 예측 이미지들이 이전 반복에서 생성 및 저장된 상기 포함된 이미지들의 세트의 이미지들에 대해, 저장된 중간 예측 이미지들을 검색하는 단계; 및 중간 예측 이미지가 이전 반복에서 저장되지 않은 기준 이미지들의 세트의 임의의 이미지에 대한 중간 예측 이미지들을 예측하는 단계를 포함하는, 방법.
  9. 제7항 또는 제8항에 있어서, 상기 결합은 가중 결합이고, 픽셀에 대한 가중치는 상기 픽셀의 깊이에 의존하는, 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 반복들은 최저 예측 품질이 임계값을 초과할 때 중단되는, 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서, 상기 선택된 이미지들의 서브세트는 적어도 하나의 반복에서 복수의 선택된 이미지들을 포함하는, 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 상기 이미지들은 비디오 시퀀스의 프레임들이고, 상기 방법은 복수의 프레임들에 대해 상기 포함된 이미지들의 세트의 배열을 사용하는 단계를 포함하는, 방법.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서, 상기 픽셀들의 서브세트에 대응하는 마스크를 생성하고, 상기 마스크에 대한 공간 필터의 적용에 응답하여 픽셀들의 서브세트를 수정하는 단계를 추가로 포함하는, 방법.
  14. 이미지 신호를 생성하기 위한 장치로서,
    장면의 복수의 이미지들을 포함하는 후보 이미지들의 세트를 수신(501)하기 위한 수신기(401)로서, 상기 후보 이미지들의 세트 중 적어도 일부 이미지들은 상기 장면의 상이한 뷰 포즈들에 대한 것인, 상기 수신기(401);
    상기 후보 이미지들의 세트의 적어도 하나의 이미지를 선택하고, 상기 적어도 하나의 이미지를 포함하도록, 포함된 이미지들의 세트를 초기화(503)하기 위한 기준 선택기(403);
    반복기(405)로서,
    상기 포함된 이미지들의 세트의 상기 이미지들로부터 상기 후보 이미지들의 세트의 상기 이미지들에 대한 예측 이미지들을 생성하는 단계(505);
    상기 후보 이미지들의 세트의 각각의 이미지에 대한 예측 품질 척도를 결정하는 단계(507)로서, 상기 후보 이미지들의 세트의 제1 이미지에 대한 상기 예측 품질 척도는 상기 제1 이미지와 상기 제1 이미지에 대한 제1 예측 이미지 사이의 차이를 나타내는, 상기 예측 품질 척도를 결정하는 단계(507);
    상기 예측 품질들에 응답하여 상기 후보 이미지들의 세트로부터 선택된 이미지들의 세트를 선택하는 단계(509)로서, 이에 따라 상기 선택된 이미지들은 상기 선택된 이미지들의 세트에 이미 포함된 상기 이미지들에 대해 최저 예측 품질 척도를 갖는, 상기 선택된 이미지들의 세트를 선택하는 단계(509);
    상기 선택된 이미지들의 세트의 각각의 이미지에 대해, 상기 이미지의 픽셀들에 대한 픽셀 예측 품질들에 응답하여 픽셀들의 서브세트를 결정하는 단계(511);
    상기 선택된 이미지들의 세트에 대응하는 부분 이미지들의 세트를 생성하는 단계(513)로서, 상기 선택된 이미지들의 세트의 주어진 이미지에 대한 상기 부분 이미지는 상기 주어진 이미지에 대한 상기 픽셀들의 서브세트의 상기 픽셀들만을 포함하는, 상기 부분 이미지들의 세트를 생성하는 단계(513);
    상기 포함된 이미지들의 세트에 상기 부분 이미지들의 세트를 포함시키는 단계(515); 및
    상기 후보 이미지들의 세트로부터 상기 선택된 이미지들의 세트를 제거하는 단계(515)
    를 반복적으로 수행하기 위한, 상기 반복기(405);
    상기 포함된 이미지들의 세트 내의 상기 이미지들의 이미지 데이터를 포함하는 상기 이미지 신호를 생성(519)하기 위한 출력 회로(205, 207)를 포함하는, 장치.
  15. 컴퓨터 프로그램 제품으로서,
    상기 프로그램이 컴퓨터 상에서 실행될 때 제1항 내지 제13항 중 어느 한 항의 단계들 모두를 수행하도록 구성된 컴퓨터 프로그램 코드 수단을 포함하는, 컴퓨터 프로그램 제품.
KR1020217031555A 2019-03-01 2020-02-12 이미지 신호를 생성하는 장치 및 방법 KR20210132712A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19160414.9 2019-03-01
EP19160414.9A EP3703378A1 (en) 2019-03-01 2019-03-01 Apparatus and method of generating an image signal
PCT/EP2020/053509 WO2020177990A1 (en) 2019-03-01 2020-02-12 Apparatus and method of generating an image signal

Publications (1)

Publication Number Publication Date
KR20210132712A true KR20210132712A (ko) 2021-11-04

Family

ID=65686712

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217031555A KR20210132712A (ko) 2019-03-01 2020-02-12 이미지 신호를 생성하는 장치 및 방법

Country Status (10)

Country Link
US (1) US11856223B2 (ko)
EP (2) EP3703378A1 (ko)
JP (1) JP7326457B2 (ko)
KR (1) KR20210132712A (ko)
CN (1) CN113519165A (ko)
BR (1) BR112021016995A2 (ko)
ES (1) ES2928951T3 (ko)
PL (1) PL3932081T3 (ko)
TW (1) TW202042539A (ko)
WO (1) WO2020177990A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113938602B (zh) * 2021-09-08 2022-08-02 荣耀终端有限公司 图像处理方法、电子设备、芯片及可读存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4703350A (en) * 1985-06-03 1987-10-27 Picturetel Corporation Method and apparatus for efficiently communicating image sequences
US6807231B1 (en) * 1997-09-12 2004-10-19 8×8, Inc. Multi-hypothesis motion-compensated video image predictor
CN103181171B (zh) * 2010-11-04 2016-08-03 皇家飞利浦电子股份有限公司 深度指示图的产生
US10264281B2 (en) 2012-07-02 2019-04-16 Hfi Innovation Inc. Method and apparatus of inter-view candidate derivation in 3D video coding
JP2014082540A (ja) 2012-10-12 2014-05-08 National Institute Of Information & Communication Technology 互いに類似した情報を含む複数画像のデータサイズを低減する方法、プログラム、および装置、ならびに、互いに類似した情報を含む複数画像を表現するデータ構造
JP5947977B2 (ja) 2013-04-11 2016-07-06 日本電信電話株式会社 画像符号化方法、画像復号方法、画像符号化装置、画像復号装置、画像符号化プログラム及び画像復号プログラム
JP6250805B2 (ja) 2013-07-19 2017-12-20 ホアウェイ・テクノロジーズ・カンパニー・リミテッド 深度ベース・ブロック・パーティショニングを使用して、テクスチャブロックを符号化および復号するための方法ならびに装置
JP6430542B2 (ja) * 2014-06-16 2018-11-28 クゥアルコム・インコーポレイテッドQualcomm Incorporated 3d−hevcにおける簡略化シフティングマージ候補およびマージリスト導出
WO2018058090A1 (en) * 2016-09-26 2018-03-29 University Of Florida Research Foundation Incorporated Method for no-reference image quality assessment
EP3441788A1 (en) * 2017-08-08 2019-02-13 Koninklijke Philips N.V. Apparatus and method for generating a representation of a scene
EP3509308A1 (en) * 2018-01-05 2019-07-10 Koninklijke Philips N.V. Apparatus and method for generating an image data bitstream

Also Published As

Publication number Publication date
WO2020177990A1 (en) 2020-09-10
EP3932081B1 (en) 2022-08-31
JP2022521701A (ja) 2022-04-12
CN113519165A (zh) 2021-10-19
JP7326457B2 (ja) 2023-08-15
US20220167013A1 (en) 2022-05-26
BR112021016995A2 (pt) 2021-11-30
ES2928951T3 (es) 2022-11-23
US11856223B2 (en) 2023-12-26
EP3932081A1 (en) 2022-01-05
TW202042539A (zh) 2020-11-16
PL3932081T3 (pl) 2023-01-16
EP3703378A1 (en) 2020-09-02

Similar Documents

Publication Publication Date Title
KR102641527B1 (ko) 이미지 합성
CN111602403B (zh) 用于生成图像数据比特流的装置和方法
JP7480163B2 (ja) 画像の奥行きマップの処理
RU2760228C2 (ru) Формирование изображений по видео
JP7326457B2 (ja) 画像信号を生成する装置および方法
EP3742404A1 (en) Content coding system and method
RU2817803C2 (ru) Сигнал изображения, представляющий сцену
JP7493496B2 (ja) 画像合成
JP7462668B2 (ja) シーンを表す画像信号
US11823323B2 (en) Apparatus and method of generating an image signal