RU2778456C2

RU2778456C2 - Device and method for formation of binary image data flow

Info

Publication number: RU2778456C2
Application number: RU2020125985A
Authority: RU
Inventors: Барт КРОН; Кристиан ВАРЕКАМП; Патрик Люк Элс ВАНДЕВАЛЛЕ
Original assignee: Конинклейке Филипс Н.В.
Priority date: 2018-01-05
Filing date: 2019-01-04
Publication date: 2022-08-19

Abstract

FIELD: information technologies.

SUBSTANCE: invention relates to means for the formation of a binary image data flow providing an adaptive three-dimensional representation of a scene. A set of image parts and related depth data, which is a scene from different viewing poses, are stored. Prediction measures for image parts are formed, wherein the prediction measure for the first image part for the first viewing pose indicates a prediction quality assessment of an image part for a viewing window of the first viewing pose based on the first subset of image parts, not containing the first image part. The second subset of image parts of the set of image parts is selected in response to prediction measures. A binary image flow is formed, containing image data and depth data from the second subset of image parts. Moreover, the selection includes the selection of a set of adjacent image parts in response to the determination of that the set of adjacent image parts forms an area with a prediction measure lower than the first threshold value for an inner part of the area and a prediction measure higher than the second threshold value for a boundary part of the area.

EFFECT: increase in the efficiency of formation of an image data flow.

13 cl, 8 dwg

Description

ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY

Настоящее изобретение относится к формированию двоичного потока данных изображения и, в частности, но не исключительно, к формированию двоичного потока данных изображения, обеспечивающего адаптивное трехмерное представление сцены.The present invention relates to the generation of an image bitstream, and in particular, but not exclusively, to the generation of an image bitstream providing an adaptive 3D representation of a scene.

УРОВЕНЬ ТЕХНИКИBACKGROUND OF THE INVENTION

Благодаря непрерывному развитию и введению новых услуг и способов использования и потребления видео в последние годы произошел значительный рост разнообразия и диапазона приложений для изображений и видео.With the continuous development and introduction of new services and ways to use and consume video, there has been a significant increase in the variety and range of image and video applications in recent years.

Например, одной из набирающих все большую популярность услуг является предоставление последовательностей изображений таким образом, чтобы зритель мог активно и динамически взаимодействовать с системой для изменения параметров отрисовки. Весьма привлекательной особенностью многих приложений является возможность изменения эффективного положения обзора и направления обзора (позы обзора) зрителя, чтобы, например, зритель мог перемещаться и «оглядываться вокруг» в представляемой сцене.For example, one service that is gaining popularity is providing image sequences in such a way that the viewer can actively and dynamically interact with the system to change rendering parameters. A very attractive feature of many applications is the ability to change the effective viewing position and viewing direction (viewing posture) of the viewer so that, for example, the viewer can move and "look around" in the scene being presented.

Такая функция может, в частности, давать пользователю ощущение виртуальной реальности. Благодаря этому пользователь может (относительно) свободно передвигаться в виртуальной среде и динамически изменять свое положение и направление, в котором он смотрит. Как правило, такие приложения виртуальной реальности основаны на трехмерной модели сцены, причем модель динамически оценивается для обеспечения конкретного запрошенного вида. Данный подход хорошо известен, например, из игровых приложений для компьютеров и консолей, например, из категории шутеров от первого лица.Such a function may in particular provide the user with a virtual reality experience. Due to this, the user can move (relatively) freely in the virtual environment and dynamically change his position and the direction in which he looks. Typically, such virtual reality applications are based on a 3D scene model, with the model being dynamically evaluated to provide the particular requested look. This approach is well known, for example, from gaming applications for computers and consoles, for example, from the category of first-person shooters.

Также желательно, в частности, для приложений виртуальной реальности, чтобы представляемое изображение было трехмерным изображением. Действительно, для оптимизации погружения зрителя, как правило, предпочтительно, чтобы пользователь ощущал представленную сцену как трехмерную сцену. Ведь ощущение виртуальной реальности предпочтительно должно позволять пользователю выбирать свое собственное положение, точку обзора камеры и момент времени относительно виртуального мира.It is also desirable, particularly for virtual reality applications, that the displayed image be a three-dimensional image. Indeed, in order to optimize the viewer's immersion, it is generally preferred that the user experience the presented scene as a three-dimensional scene. After all, the virtual reality experience should preferably allow the user to choose their own position, camera viewpoint, and point in time relative to the virtual world.

Главная проблема в поддержке различных услуг, основанных, в частности, на трехмерных, представлениях сцены, заключается в том, что требуется большой объем данных. Это приводит к высоким требованиям к ресурсам, таким как потребность в больших ресурсах хранилища. Однако во многих ситуациях самым большим ограничением являются не требования к хранению и обработке, а требования к обмену данными. Если требуется, чтобы данные, представляющие сцену, передавались по каналу связи с ограниченной полосой пропускания (будь то внутренний или внешний), крайне желательно попытаться уменьшить объем данных, подлежащих передаче.The main problem in supporting various services based in particular on 3D scene representations is that a large amount of data is required. This results in high resource requirements, such as the need for large storage resources. However, in many situations, the biggest constraint is not the storage and processing requirements, but the data exchange requirements. If it is required that data representing a scene be transmitted over a limited bandwidth communication channel (whether internal or external), it is highly desirable to try to reduce the amount of data to be transmitted.

Например, во многих ситуациях и многих приложениях может быть использован подход «клиент-сервер», в котором удаленный клиент, исполняющий, например, приложение виртуальной реальности, соединен с центральной службой, которая предоставляет требуемые данные сцены по линии связи с ограниченной полосой пропускания. Однако многовидовое представление будет, как правило, связано с высокой скоростью передачи битов (даже без информации о глубине требуется высокая скорость передачи битов, и в действительности она может быть даже еще выше в этом случае, поскольку потребуются больше видов). Например, воспроизведение виртуальной реальности со свободой движения потребует разных видов сцены при скорости, с которой наблюдатель движется через 3D-пространство. Проблема обеспечения достаточных данных по такому каналу связи весьма сложна для решения на практике.For example, in many situations and many applications, a client-server approach may be used in which a remote client running, for example, a virtual reality application is connected to a central service that provides the required scene data over a limited bandwidth link. However, a multi-view representation will typically be associated with a high bit rate (even without depth information, a high bit rate is required, and in fact it may be even higher in this case as more views are required). For example, rendering virtual reality with freedom of movement will require different views of the scene at the speed at which the observer is moving through 3D space. The problem of providing sufficient data over such a communication channel is very difficult to solve in practice.

Для эффективной потоковой передачи информации о 3D-геометрии и текстуре по каналам связи с ограниченной полосой пропускания, в особенности для использования в сетях, таких как Интернет, были предложены несколько форматов. Например, стандарт формата всенаправленного медиа (Omnidirectional MediA Format, OMAF) MPEG будет включать потоковую передачу мозаичных элементов 360-градусного видео (3 степени свободы - Degrees of Freedom, DoF)) с использованием динамической адаптивной потоковой передачи данных по HTTP (MPEG DASH). Ожидается, что будущая версия OMAF будет поддерживать ограниченный параллакс при перемещении (3DoF+).Several formats have been proposed for efficient streaming of 3D geometry and texture information over limited bandwidth communication channels, especially for use on networks such as the Internet. For example, the MPEG Omnidirectional MediA Format (OMAF) standard will enable streaming of 360-degree video tiles (3 degrees of freedom - Degrees of Freedom, DoF) using Dynamic Adaptive Streaming over HTTP (MPEG DASH). A future version of OMAF is expected to support limited parallax while moving (3DoF+).

Как упоминалось, на практике наиболее актуальной проблемой в многовидовом представлении с кодированием глубины часто являются не потребности в хранении, а, скорее, ширина полосы пропускания и задержка передачи. Чтобы восприятие было плавным, изображения должны во время поступать в гарнитуру. Тем не менее, хотя разработанные форматы и кодировки направлены на уменьшение скорости передачи данных, она все еще остается, как правило, основным ограничением для качества изображения и восприятия пользователя, которые могут быть достигнуты на стороне клиента.As mentioned, in practice, the most pressing issue in depth-encoded multiview is often not storage requirements, but rather bandwidth and transmission delay. In order for the perception to be smooth, the images must arrive at the headset on time. However, although the developed formats and encodings aim to reduce the data transfer rate, it still remains, as a rule, the main limitation for the image quality and user experience that can be achieved on the client side.

Следовательно, усовершенствованный подход к формированию и использованию двоичных потоков данных изображения был бы полезен. В частности, был бы полезен подход, который позволяет улучшать работу, спосбствовать работе, улучшать представление сцены, повышать гибкость, спосбствовать реализации, спосбствовать работе, уменьшать объем данных, снижать требования к ресурсам хранения, распределения и/или обработки данных, улучшать адаптируемость и/или улучшать производительность.Therefore, an improved approach to the generation and use of binary image data streams would be useful. In particular, an approach that improves performance, facilitates performance, enhances scene presentation, enhances flexibility, facilitates implementation, facilitates performance, reduces data volume, reduces storage, distribution and/or processing resource requirements, improves adaptability and/ or improve performance.

РАСКРЫТИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯDISCLOSURE OF THE INVENTION

Соответственно, настоящее изобретение направлено предпочтительно на ослабление, смягчение или устранение одного или более из вышеупомянутых недостатков по отдельности или в любой комбинации.Accordingly, the present invention is preferably directed to the weakening, mitigation or elimination of one or more of the above disadvantages individually or in any combination.

Согласно аспекту настоящего изобретения предложено устройство для формирования двоичного потока данных изображения, содержащее: хранилище для хранения набора частей изображения и связанных данных глубины, представляющих сцену из различных поз обзора; процессор прогнозирования для формирования мер прогнозирования для частей изображения набора частей изображения для поз обзора сцены, причем мера прогнозирования для первой части изображения для первой позы обзора указывает на оценку качества прогнозирования для прогнозирования по меньшей мере части изображения для окна просмотра первой позы обзора на основе первого подмножества частей изображения набора частей изображения, не содержащего первую часть изображения; селектор для выбора второго подмножества частей изображения набора частей изображения в ответ на меры прогнозирования и генератор двоичного потока для формирования двоичного потока изображения, содержащего данные изображения и данные глубины из второго подмножества частей изображения, причем селектор выполнен с возможностью выбора множества смежных частей изображения в ответ на определение того, что множество смежных частей изображения образуют область, имеющую меру прогнозирования ниже первого порогового значения для внутренней части области и меру прогнозирования выше второго порогового значения для пограничной части области.According to an aspect of the present invention, there is provided an apparatus for generating a binary image data stream, comprising: a storage for storing a set of image parts and associated depth data representing a scene from different viewing poses; a prediction processor for generating prediction measures for the image parts of the set of image parts for the scene view poses, wherein the prediction measure for the first image part for the first view pose indicates a prediction quality score for predicting at least a part of the image for the viewport of the first view pose based on the first subset image parts of a set of image parts not containing the first image part; a selector for selecting a second subset of image parts of a set of image parts in response to the prediction measures; and a bitstream generator for generating an image bitstream containing image data and depth data from the second subset of image parts, wherein the selector is configured to select a plurality of adjacent image parts in response to determining that the plurality of adjacent portions of the image form an area having a prediction measure below a first threshold for an interior portion of the area and a prediction measure above a second threshold for a boundary portion of the area.

Настоящее изобретение может обеспечивать улучшенное формирование двоичного потока, обеспечивающее представление сцены, такое как, например, обеспечивающее адаптивное трехмерное представление сцены, например, для приложений виртуальной реальности. Данный подход может обеспечивать снижение сложности во многих ситуациях. Во многих ситуациях он может обеспечить существенное снижение скорости передачи данных для двоичного потока и/или улучшенное качество. Во многих ситуациях может быть достигнут улучшенный компромисс между качеством/скоростью передачи данных.The present invention may provide improved bitstreaming providing a scene representation such as, for example, providing an adaptive 3D scene representation, for example for virtual reality applications. This approach can provide a reduction in complexity in many situations. In many situations, it can provide a significant reduction in the data rate for the bitstream and/or improved quality. In many situations, an improved quality/data rate trade-off can be achieved.

Мера прогнозирования для части изображения и позы обзора может указывать на качество прогнозирования части изображения для изображения сцены для той позы обзора, в которой выполняют прогнозирование в пределах использования части изображения, для которой определяют меру прогнозирования.The prediction measure for the image part and the viewing pose may indicate the quality of the prediction of the image part for the scene image for the viewing pose at which prediction is performed within the use of the image part for which the prediction measure is determined.

Связанные данные глубины для части изображения могут быть данными глубины, которые указывают на расстояния от точки обзора для части изображения до объектов на части изображения.The associated depth data for the image part may be depth data that indicates distances from the viewpoint for the image part to objects in the image part.

В соответствии с дополнительной особенностью настоящего изобретения процессор прогнозирования выполнен с возможностью формирования меры прогнозирования для первой части изображения, как указывающей на качество прогнозирования для прогнозирования первой части изображения.According to a further feature of the present invention, the prediction processor is configured to generate a prediction measure for the first image part as indicative of the prediction quality for predicting the first image part.

Это может обеспечить особенно эффективную и высокопроизводительную работу во многих ситуациях и вариантах реализации. Это может обеспечить улучшенную адаптацию двоичного потока к конкретным свойствам сцены и/или использованию двоичного потока.This can provide particularly efficient and high performance performance in many situations and implementations. This may provide improved adaptation of the bitstream to specific scene properties and/or use of the bitstream.

Мера прогнозирования для первой части изображения может указывать на качество прогнозирования первой части изображения на основе одной или более других частей изображения сохраненного набора частей изображения.The prediction measure for the first part of the image may indicate the quality of the prediction of the first part of the image based on one or more other parts of the image of the stored set of parts of the image.

В соответствии с дополнительной особенностью настоящего изобретения первое подмножество частей изображения содержит только части изображения, уже включенные в двоичный поток.In accordance with a further feature of the present invention, the first subset of image parts contains only image parts already included in the bit stream.

Это может обеспечить особенно эффективную и высокопроизводительную работу во многих ситуациях и вариантах реализации и может, в частности, обеспечить подход, в котором части изображения предоставляют по мере и в случае необходимости дополнительных данных, чтобы приемник двоичного потока синтезировал изображения вида достаточного качества.This may provide particularly efficient and high performance performance in many situations and implementations, and may in particular provide an approach in which portions of an image provide additional data as and when necessary so that the bitstream receiver synthesizes images of sufficient quality.

В соответствии с дополнительной особенностью настоящего изобретения селектор также выполнен с возможностью выбора второго подмножества частей изображения в ответ на меру видимости для набора частей изображения для целевой позы обзора, причем мера видимости для части изображения указывает, насколько близка часть изображения к окну просмотра для целевой позы обзора.In accordance with a further feature of the present invention, the selector is also configured to select a second subset of image parts in response to a visibility measure for a set of image parts for a target viewing pose, where the visibility measure for the image part indicates how close the image part is to the viewing window for the target viewing pose .

Это может обеспечить особенно эффективную и высокопроизводительную работу во многих ситуациях и вариантах реализации. Это может обеспечить улучшенную адаптацию формирования двоичного потока к конкретным свойствам сцены и/или использованию двоичного потока.This can provide particularly efficient and high performance performance in many situations and implementations. This may provide improved tailoring of the bitstream generation to particular scene properties and/or the use of the bitstream.

В соответствии с дополнительной особенностью настоящего изобретения по меньшей мере некоторые из набора частей изображения, хранящегося в хранилище, являются предварительно закодированными частями изображения.In accordance with a further feature of the present invention, at least some of the set of image parts stored in the storage are pre-encoded image parts.

Это может обеспечить особенно эффективный подход и может существенно снизить требования к вычислительным возможностям устройства для формирования двоичного потока. Например, части изображения могут быть закодированы один раз, и затем сохраненные закодированные части изображения могут быть использованы повторно при каждом последующем формировании двоичного потока.This may provide a particularly efficient approach and may significantly reduce the computational requirements of the device for generating the bitstream. For example, parts of an image may be encoded once, and then the stored encoded parts of the image may be reused on each subsequent bitstream generation.

Устройство может быть выполнено с возможностью извлечения закодированных частей изображения из хранилища и включения их в двоичный поток без всякого кодирования изображения или перекодирования части изображения.The apparatus may be configured to retrieve the encoded portions of an image from storage and include them in a bit stream without any image encoding or re-encoding of the image part.

В соответствии с дополнительной особенностью настоящего изобретения набор частей изображения содержит грани многогранных проекций сцены для различных поз обзора.In accordance with a further feature of the present invention, the set of image parts contains facets of polyhedral projections of the scene for various viewing poses.

Это может обеспечить особенно эффективную и высокопроизводительную работу во многих ситуациях и вариантах реализации. Это может также обеспечить совместимость со многими другими алгоритмами обработки изображения.This can provide particularly efficient and high performance performance in many situations and implementations. It may also provide compatibility with many other image processing algorithms.

В соответствии с дополнительной особенностью настоящего изобретения части изобретения соответствуют заданному разбиению изображений.In accordance with a further feature of the present invention, parts of the invention correspond to a given partition of images.

Это может обеспечить улучшенную производительность во многих вариантах реализации и может во многих вариантах реализации обеспечить более эффективный выбор данных, особенно полезных для синтеза вида на основе двоичного потока.This may provide improved performance in many implementations and may in many implementations provide more efficient data selection, particularly useful for view synthesis based on a binary stream.

В соответствии с дополнительной особенностью настоящего изобретения устройство также содержит разделитель для формирования по меньшей мере некоторых частей изображения набора частей изображения в ответ на разбиение изображений на основе по меньшей мере одного из значений пикселя изображений и значений глубины для изображений.In accordance with a further feature of the present invention, the device also includes a divider for forming at least some of the image parts of a set of image parts in response to splitting images based on at least one of the image pixel values and image depth values.

Это может обеспечить особенно эффективную и несложную работу во многих ситуациях и вариантах реализации. Это может также обеспечить совместимость со многими другими алгоритмами обработки изображения.This can provide particularly efficient and uncomplicated operation in many situations and implementations. It may also provide compatibility with many other image processing algorithms.

В соответствии с дополнительной особенностью настоящего изобретения по меньшей мере некоторые части изображения набора частей изображения являются частями изображения текстурного атласа изображения, который содержит части текстуры из сеточных и текстурных представлений сцены.In accordance with a further feature of the present invention, at least some of the image parts of the image part set are image parts of an image texture atlas that contains texture parts from mesh and texture representations of the scene.

Селектор выполнен с возможностью выбора частей изображения для второго подмножества частей изображения в ответ на целевую позу обзора, принятую от удаленного источника.The selector is configured to select image parts for a second subset of image parts in response to a target viewing pose received from a remote source.

Это может обеспечить особенно привлекательную работу во многих вариантах реализации и может, например, сделать возможной систему, в которой устройство может динамически формировать двоичный поток, обеспечивающий наиболее существенную информацию, например, приложению виртуальной реальности, в котором виртуальный наблюдатель перемещается в сцене.This may provide particularly attractive performance in many implementations and may, for example, enable a system where a device can dynamically generate a bitstream providing the most relevant information, such as a virtual reality application in which a virtual observer moves around in a scene.

В соответствии с дополнительной особенностью настоящего изобретения селектор выполнен с возможностью выбора множества смежных частей изображения в ответ на определение того, что множество смежных частей изображения образуют область, имеющую меру качества прогнозирования ниже первого порогового значения для внутренней части областей и меру качества прогнозирования выше второго порогового значения для пограничной части области.In accordance with a further feature of the present invention, the selector is configured to select a plurality of adjacent image parts in response to determining that the plurality of adjacent image parts form an area having a prediction quality measure below a first threshold for the interior of the areas and a prediction quality measure above a second threshold. for the border area.

Это может обеспечить особенно эффективную и высокопроизводительную работу во многих ситуациях и вариантах реализации.This can provide particularly efficient and high performance performance in many situations and implementations.

В соответствии с дополнительной особенностью настоящего изобретения по меньшей мере некоторые части изображения перекрываются.In accordance with a further feature of the present invention, at least some parts of the image overlap.

В соответствии с дополнительной особенностью настоящего изобретения процессор прогнозирования выполнен с возможностью формирования меры прогнозирования для первой части изображения в ответ на связанные данные глубины для первой части изображения.In accordance with a further aspect of the present invention, the prediction processor is configured to generate a prediction measure for the first image part in response to associated depth data for the first image part.

Это может обеспечить особенно полезную меру прогнозирования во многих вариантах реализации и может, например, позволить снизить сложность реализации, которая, тем не менее, позволяет очень точную и эффективную адаптацию.This may provide a particularly useful predictive measure in many implementations and may, for example, allow a reduction in implementation complexity that nevertheless allows very accurate and efficient adaptation.

Согласно аспекту настоящего изобретения предложен способ формирования двоичного потока данных изображения, включающий: хранение набора частей изображения и связанных данных глубины, представляющих сцену из различных поз обзора; формирование мер прогнозирования для частей изображения набора частей изображения для поз обзора сцены, причем мера прогнозирования для первой части изображения для первой позы обзора указывает на оценку качества прогнозирования для прогнозирования по меньшей мере части изображения для окна просмотра первой позы обзора на основе первого подмножества частей изображения набора частей изображения, не содержащего первую часть изображения; выбор второго подмножества частей изображения набора частей изображения в ответ на меры прогнозирования и формирование двоичного потока изображения, содержащего данные изображения и данные глубины из второго подмножества частей изображения, причем выбор включает выбор множества смежных частей изображения в ответ на определение того, что множество смежных частей изображения образуют область, имеющую меру прогнозирования ниже первого порогового значения для внутренней части области и меру прогнозирования выше второго порогового значения для пограничной части области.According to an aspect of the present invention, there is provided a method for generating a binary image data stream, comprising: storing a set of image parts and associated depth data representing a scene from various viewing poses; generating prediction measures for image parts of a set of image parts for scene view poses, wherein the prediction measure for the first image part for the first view pose indicates a prediction quality score for predicting at least an image part for the viewport of the first view pose based on a first subset of the image parts of the set parts of the image that does not contain the first part of the image; selecting a second subset of image parts of the set of image parts in response to the prediction measures, and generating an image bit stream containing image data and depth data from the second subset of image parts, the selection comprising selecting a plurality of adjacent image parts in response to determining that the plurality of adjacent image parts forming an area having a prediction measure below the first threshold value for the interior of the region and a prediction measure above the second threshold value for the boundary part of the region.

Эти и другие аспекты, особенности и/или преимущества настоящего изобретения станут очевидны из вариантов реализации, описанных далее в этом документе, и будут пояснены со ссылкой на данные варианты реализации.These and other aspects, features and/or advantages of the present invention will become apparent from the embodiments described later in this document and will be explained with reference to these implementation options.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

Варианты реализации изобретения будут описаны только на примерах со ссылкой на чертежи, где:Embodiments of the invention will be described by way of example only with reference to the drawings, where:

на ФИГ. 1 показан пример элементов системы обработки изображения в соответствии с некоторыми вариантами реализации настоящего изобретения;in FIG. 1 shows an example of elements of an image processing system in accordance with some embodiments of the present invention;

на ФИГ. 2 показан пример устройства для формирования двоичного потока в соответствии с некоторыми вариантами реализации настоящего изобретения;in FIG. 2 shows an example of an apparatus for generating a bitstream in accordance with some embodiments of the present invention;

на ФИГ. 3 показан пример сцен и связанных свойств качества прогнозирования;in FIG. 3 shows an example of scenes and associated prediction quality properties;

на ФИГ. 4 показан пример выбора частей привязочного изображения для двоичного потока в соответствии с некоторыми вариантами реализации настоящего изобретения;in FIG. 4 shows an example of selecting parts of an anchor image for a bitstream in accordance with some embodiments of the present invention;

на ФИГ. 5 показан пример плиток изображения сцены;in FIG. 5 shows an example of scene image tiles;

на ФИГ. 6 показан пример выбора частей привязочного изображения для двоичного потока в соответствии с некоторыми вариантами реализации настоящего изобретения;in FIG. 6 shows an example of selecting parts of an anchor image for a bitstream in accordance with some embodiments of the present invention;

на ФИГ. 7 показан пример видов сцены; иin FIG. 7 shows an example of scene views; and

на ФИГ. 8 показан пример выбора частей привязочного изображения для двоичного потока в соответствии с некоторыми вариантами реализации настоящего изобретения.in FIG. 8 shows an example of selecting parts of an anchor image for a bitstream in accordance with some embodiments of the present invention.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯIMPLEMENTATION OF THE INVENTION

В следующем описании основное внимание уделяется вариантам реализации настоящего изобретения, которые могут быть применены для формирования потока данных изображения для приложения виртуальной реальности. Однако следует понимать, что настоящее изобретение не ограничивается этим приложением, а может быть применено, например, во многих других приложениях для обработки и отрисовки изображения.The following description focuses on embodiments of the present invention that can be applied to generate an image data stream for a virtual reality application. However, it should be understood that the present invention is not limited to this application, but can be applied, for example, to many other applications for image processing and rendering.

На ФИГ. 1 показан пример системы, которая может реализовать примеры и модификации вариантов реализации идеи изобретения.FIG. 1 shows an example of a system that can implement examples and modifications of embodiments of the inventive idea.

В этом примере клиент в виде устройства 101 отрисовки изображения выполнен с возможностью формирования изображений, представляющих сцену с различных точек обзора, т.е. могут быть сформированы изображения, соответствующие разным окнам просмотра для разных поз обзора сцены. Устройство 101 отрисовки изображения выполнено с возможностью приема двоичного потока данных изображения, который содержит части изображения, а также связанную глубину, обеспечивая тем самым частичное трехмерное представление изображения сцены. После этого оно может на основе принятых данных формировать надлежащие изображения, соответствующие данному окну просмотра и позе. В примере двоичный поток данных изображения принимают из устройства 103 формирования двоичного потока, которое действует как удаленный сервер. Устройство 103 формирования двоичного потока выполнено с возможностью предоставления двоичного потока данных изображения через сеть 105, которая может быть, например, Интернетом. В конкретном примере удаленный сервер 103 представляет собой сервер виртуальной реальности, который обеспечивает трехмерные данные изображения, представляющие трехмерную среду для устройства 101 отрисовки изображения для формирования видов, соответствующих, например, виртуальному перемещению пользователя в среде.In this example, the client in the form of an image rendering device 101 is configured to generate images representing the scene from different viewpoints, i.e. images can be generated corresponding to different viewports for different viewpoints of the scene. The image renderer 101 is configured to receive a binary image data stream that contains image parts as well as associated depth, thereby providing a partial 3D representation of the scene image. It can then, based on the received data, generate appropriate images corresponding to the given viewport and pose. In the example, the image data bitstream is received from the bitstreamer 103, which acts as a remote server. The bitstream generator 103 is configured to provide a bitstream of image data via a network 105, which may be the Internet, for example. In a specific example, the remote server 103 is a virtual reality server that provides 3D image data representing a 3D environment to the image rendering device 101 to generate views corresponding to, for example, a user's virtual movement in the environment.

В данной области термины расположение или поза используют в качестве общего термина для положения и/или направления/ориентации, а комбинацию положения и/или направления/ориентации, например, объекта, камеры или вида, в действительности обычно называют позой или расположением. Таким образом, указание расположения или позы может включать шесть значений/компонентов/степеней свободы, причем каждые значение/компонент/степень свободы описывают отдельное свойство положения/местоположения или ориентации/направления соответствующего объекта. Конечно, во многих ситуациях расположение или поза могут быть учтены или представлены с использованием меньшего числа компонентов, например, если один или более компонентов считают фиксированными или не относящимися к делу (например, если все объекты считают расположенными на одной и той же высоте и имеющими горизонтальную ориентацию, то полное представление позы объекта могут обеспечить четыре компонента). Далее термин «поза» используется для ссылки на положение и/или ориентацию, которые могут быть представлены от одного до шести значениями (соответствующими максимально возможным степеням свободы). Описание будет сосредоточено на вариантах реализации и примерах, в которых поза имеет максимум степеней свободы, т.е. по три степени свободы каждого из положения и ориентации, дающих в результате в общей сложности шесть степеней свободы (6DoF). Таким образом, поза может быть представлена набором или вектором из шести значений, представляющих шесть степеней свободы и, следовательно, вектор позы может обеспечивать указание трехмерного положения и/или трехмерного направления. Однако понятно, что в других вариантах реализации поза может быть представлена меньшим количеством значений.In the art, the terms position or pose are used as a general term for position and/or direction/orientation, and a combination of position and/or direction/orientation, such as an object, camera, or view, is actually commonly referred to as a pose or position. Thus, a location or pose indication may include six values/components/degrees of freedom, with each value/component/degree of freedom describing a separate property of the position/location or orientation/direction of the respective object. Of course, in many situations, location or pose can be accounted for or represented using fewer components, for example, if one or more components is considered fixed or irrelevant (for example, if all objects are considered to be located at the same height and have a horizontal orientation, four components can provide a complete representation of the object's pose). Hereinafter, the term "pose" is used to refer to the position and/or orientation, which can be represented by one to six values (corresponding to the maximum possible degrees of freedom). The description will focus on implementations and examples where the pose has the maximum degrees of freedom, i.e. three degrees of freedom each of position and orientation, resulting in a total of six degrees of freedom (6DoF). Thus, a pose may be represented by a set or vector of six values representing six degrees of freedom, and therefore a pose vector may provide an indication of a 3D position and/or a 3D direction. However, it is understood that in other implementations, the pose may be represented by fewer values.

Во многих приложениях трехмерное представление изображения сцены, присутствующее на сервере, может быть сформировано из захвата сцены или среды реального мира с использованием, например, воспринимающих глубину камер. Это позволяет захватывать визуальные свойства наряду с трехмерной информацией. Для достаточного захвата сцены принято использовать зачастую очень большое количество захватов, соответствующих разным позам обзора. В некоторых приложениях для обеспечения точного и подробного представления всей сцены из различных поз обзора могут быть использованы несколько сотен или даже тысяч изображений (со связанной информацией о глубине).In many applications, a 3D representation of a scene image present on a server may be generated from a capture of a real world scene or environment using, for example, depth sensing cameras. This allows visual properties to be captured along with 3D information. To sufficiently capture the scene, it is customary to use often a very large number of captures corresponding to different viewing poses. In some applications, several hundred or even thousands of images (with associated depth information) may be used to provide an accurate and detailed representation of the entire scene from various viewing poses.

Виртуальное представление данных сцены является критическим фактором в обеспечении эффективного восприятия пользователем. Необходимо, чтобы данные, описывающие сцену, обеспечивали точное представление как визуальных свойств, так и пространственных свойств. В то же время крайне важно уменьшать объем данных, необходимых для представления сцены, поскольку во многих приложениях это, как правило, является ограничивающим фактором для качества, которое может быть достигнуто.The virtual representation of the scene data is a critical factor in providing an effective user experience. It is necessary that the data describing the scene provide an accurate representation of both visual properties and spatial properties. At the same time, it is critical to reduce the amount of data needed to represent a scene, as in many applications this tends to be the limiting factor in the quality that can be achieved.

В частности, требуется снабжать достаточной информацией устройство 101 отрисовки изображения, чтобы оно могло локально формировать подходящие изображения, соответствующие требуемым позам обзора, например, путем выполнения сдвига точки обзора, как известно специалисту в данной области. Однако в то же время требуется поддерживать небольшим объем передаваемых данных и задержку на низком уровне. Во многих ситуациях ограниченная полоса пропускания связи является ограничивающим фактором в стремлении обеспечить высокое качество восприятия пользователем за счет высокого качества и малой задержки.In particular, it is required to supply sufficient information to the image rendering device 101 so that it can locally generate suitable images corresponding to the desired viewing positions, for example by performing a viewpoint shift, as known to a person skilled in the art. However, at the same time, it is required to keep the amount of data transferred and the delay low. In many situations, limited communication bandwidth is the limiting factor in trying to provide a high quality user experience at the expense of high quality and low latency.

Кроме того, преобразование снимков камер, воспринимающих глубину, в представление данных среды/сцены часто является очень сложной задачей и может приводить к ошибкам и артефактам. Например, в некоторых приложениях данные снимков могут быть использованы для разработки трехмерной модели сцены реального мира. Затем путем оценки модели из конкретной точки обзора могут быть сформированы изображения вида для обеспечения пользователя ощущением трехмерной виртуальной реальности. В других приложениях изображения для конкретных окон просмотра или точек обзора могут быть непосредственно сформированы из захваченных изображений и информации о глубине, например, путем выбора одного или более ближайших захваченных изображений и выполнения сдвига точки обзора для приведения в соответствие с требуемой точкой обзора, или, в некоторых случаях, путем непосредственного использования захваченных изображений.In addition, converting depth-sensing camera shots to environment/scene representations is often very complex and can lead to errors and artifacts. For example, in some applications, imagery data can be used to develop a 3D model of a real world scene. View images can then be generated by evaluating the model from a particular viewpoint to provide the user with a 3D virtual reality experience. In other applications, images for particular viewports or viewpoints may be directly generated from captured images and depth information, for example, by selecting one or more nearby captured images and performing a viewpoint shift to match the desired viewpoint, or, in some cases, by directly using the captured images.

В данном случае сцену представляют в области изображения с помощью набора изображений вместе с данными глубины. Во многих вариантах реализации изображения могут обеспечивать визуальную информацию, отражающую вид данной точки обзора для данной позы обзора, а данные глубины могут представлять глубину пикселей или объектов на изображении. В частности, каждое изображение может соответствовать данному захвату для данной позы обзора для сцены, причем данные глубины представляют собой сопутствующую карту глубины, как известно специалисту в данной области. В некоторых вариантах реализации изображения могут быть изображениями текстурного атласа изображения или текстурных карт, а данные глубины могут быть сетками, обеспечивающими сеточное и текстурное представление сцены, как будет описано подробнее позже.In this case, the scene is represented in the image area by a set of images along with depth data. In many implementations, images may provide visual information that reflects the appearance of a given viewpoint for a given viewing pose, and depth data may represent the depth of pixels or objects in the image. In particular, each image may correspond to a given capture for a given viewing pose for the scene, the depth data being an accompanying depth map as known to one of skill in the art. In some implementations, the images may be image texture atlas images or texture maps, and the depth data may be grids providing a grid and texture representation of the scene, as will be described in more detail later.

Устройство 103 формирования двоичного потока может, соответственно, содержать изображения и связанные данные глубины, представляющие сцену из набора поз обзора, и, в частности, изображения и данные глубины могут быть захваченными данными. Устройство 103 формирования двоичного потока, соответственно, хранит представление 3D-сцены в виде набора изображений с глубиной для дискретного набора поз обзора. Позы обзора, для которых такие изображения имеются, также будут называться «привязочными позами обзора», а изображения будут называться «привязочными изображениями вида».The streamer 103 may respectively contain images and associated depth data representing a scene from a set of view poses, and in particular, the images and depth data may be captured data. The bitstreamer 103 accordingly stores a representation of the 3D scene as a set of images with depth for a discrete set of view poses. The view poses for which such images are available will also be referred to as "reference view poses", and the images will be referred to as "reference view images".

Изображения могут быть далее разделены на части изображения и, как правило, устройство 103 формирования двоичного потока может содержать большой набор частей привязочного изображения для привязочных поз. В некоторых вариантах реализации части изображения могут быть сформированы путем (активной) сегментации или разделения привязочных изображений В других вариантах реализации часть изображения может, например, содержать все данные, имеющиеся для данной привязочной позы, т.е. часть изображения может быть полным изображением для данной привязки.Images can be further divided into image parts, and typically, the bitstreamer 103 can contain a large set of anchor image parts for anchor poses. In some implementations, parts of an image may be formed by (actively) segmenting or separating anchor images. a part of an image can be a complete image for a given anchor.

Устройство 103 формирования двоичного потока, соответственно, содержит (потенциально частичное, но часто по существу полное) трехмерное изображение, представляющее сцену посредством набора частей изображения и связанных карт глубины.The streamer 103 accordingly contains a (potentially partial, but often substantially complete) 3D image representing the scene through a set of image sub-images and associated depth maps.

Для каждой части светоинтенсивного/текстурного изображения устройство 103 формирования двоичного потока хранит связанную карту глубины, обеспечивающую информацию о глубине для пикселей частей светоинтенсивного/текстурного изображения. Карта глубины может, как правило, содержать значения глубины, которые указывают на расстояние от данного положения обзора до объекта в направлении обзора, соответствующем позиции значения глубины. Значение глубины может быть, например, тем больше, чем больше расстояния от точки обзора до объекта, или может быть тем меньше, чем больше расстояние от точки обзора до объекта. Значения глубины во многих вариантах реализации предоставляют в виде значений диспаратности.For each light intensity/texture image part, the bitstream generator 103 stores an associated depth map providing depth information for the pixels of the light intensity/texture image parts. The depth map may typically contain depth values that indicate the distance from a given viewing position to an object in the viewing direction corresponding to the position of the depth value. The depth value may be, for example, the greater the greater the distance from the viewpoint to the object, or may be the smaller the greater the distance from the viewpoint to the object. Depth values in many implementations are provided as disparity values.

Предоставление информации как о глубине, так и об изображении (текстуре) может обеспечивать дополнительную информацию, позволяющую улучшать обработку устройством 101 отрисовки изображения. В частности, это может позволить, либо облегчить либо улучшить, формирование других изображений вида для поз обзора, отличных от привязочных поз обзора.Providing information about both depth and image (texture) can provide additional information to improve the processing device 101 image rendering. In particular, this may allow, either to facilitate or improve, the generation of other view images for view poses other than anchor view poses.

Для облегчения такой обработки желательно, чтобы расстояние между позами обзора было как можно меньше. В частности, большое расстояние между привязочными позами приводит к видимым незаслоненным зонам и требует очень точных карт глубины или сеточных моделей для синтеза промежуточных видов. Блок отрисовки может заполнять незаслоненные зоны путем комбинирования нескольких привязок, но это требует больше ресурсов для передачи, декодирования и отрисовки и имеет тенденцию снижать качество.To facilitate such processing, it is desirable that the distance between the viewing positions is as small as possible. In particular, large distances between anchor poses result in visible unobscured areas and require very accurate depth maps or mesh models to synthesize intermediate views. The renderer can fill in the unshielded areas by combining multiple bindings, but this requires more resources to transmit, decode, and render, and tends to reduce quality.

Однако небольшое расстояние между привязками приводит к увеличению скорости передачи битов, которая, как правило, особенно высокая для приложений, таких как приложения виртуальной реальности, допускающие свободное перемещение. Причина этого заключается в том, что (в отличие от обычного видео) световое поле с глубиной меняется как функция от трех пространственных измерений. Это означает, что стоимость кодирования фиксированных элементов (не остальной части) высока из-за высокой размерности данных.However, a small distance between anchors leads to an increase in the bit rate, which is generally particularly high for applications such as virtual reality applications that allow free movement. The reason for this is that (unlike conventional video) the light field changes with depth as a function of three spatial dimensions. This means that the cost of encoding the fixed elements (not the rest) is high due to the high dimensionality of the data.

В системе на ФИГ. 1 может быть обеспечен улучшенный подход, в котором части изображения и связанные данные глубины адаптивно выбирают и включают в двоичный поток в зависимости от меры прогнозирования.In the system of FIG. 1, an improved approach can be provided in which image parts and associated depth data are adaptively selected and included in the bitstream depending on the prediction measure.

На ФИГ. 2 показаны примеры некоторых элементов устройства 103 формирования двоичного потока.FIG. 2 shows examples of some elements of the bit stream generator 103 .

В примере устройство 103 формирования двоичного потока содержит хранилище 201, которое хранит набор частей изображения и связанные данные глубины.In an example, the streamer 103 includes a store 201 that stores a set of image sub-images and associated depth data.

Устройство 103 формирования двоичного потока также содержит процессор 203 прогнозирования, который выполнен с возможностью формирования меры прогнозирования для частей изображения набора изображений. Меры прогнозирования могут быть сформированы для поз обзора сцены. Прогнозирование для данной части изображения и позы обзора формируют для того, чтобы указать на качество прогнозирования (всего или части) изображения, которое соответствует окну просмотра для данной позы обзора, на основе подмножества частей изображения, не содержащего часть изображения, для которой формируют меру прогнозирования.The bit stream generator 103 also includes a prediction processor 203 that is configured to generate a predictive measure for the image parts of the image set. Prediction measures can be generated for scene view poses. Prediction for a given image part and viewing pose is generated to indicate the quality of the prediction (total or part) of the image that corresponds to the viewport for a given viewing pose, based on a subset of image parts not containing the image part for which the prediction measure is generated.

Таким образом, для данной позы обзора и данной части изображения формируют меру прогнозирования, которая отражает, насколько хорошо часть изображения для окна просмотра данной позы просмотра может быть спрогнозирована на основе частей изображения набора за исключением части изображения, для которого формируют меру прогнозирования.Thus, for a given viewing pose and a given image portion, a prediction measure is generated that reflects how well the image portion for the viewport of the given viewing pose can be predicted based on the image portions of the set, excluding the image portion for which the prediction measure is generated.

Например, мера прогнозирования может быть сформирована для данной части изображения для позы обзора, которая соответствует текущей целевой позе обзора от клиента. Эта мера прогнозирования может, соответственно, указывать, насколько хорошо изображение для позы обзора может быть спрогнозировано, если данную часть изображения не используют.For example, a predictive measure may be generated for a given portion of the image for a viewing pose that corresponds to the current target viewing pose from the client. This predictive measure may accordingly indicate how well the viewing pose image can be predicted if that part of the image is not used.

В качестве другого примера мера прогнозирования может быть сформирована для данной части изображения для позы обзора данной части изображения Эта мера прогнозирования может, в частности, в таком случае указывать, насколько хорошо может быть спрогнозирована сама данная часть изображения на основе других частей изображения набора сохраненных частей изображения.As another example, a prediction measure can be generated for a given image part for the viewing pose of a given image part. This predictive measure can, in particular, then indicate how well a given image part itself can be predicted based on other image parts of a set of stored image parts. .

Во многих вариантах реализации меры прогнозирования могут быть сформированы для множества или, возможно, всех сохраненных частей изображения, и/или множество мер прогнозирования может быть сформировано для каждой части изображения (соответствующей другим позам обзора). В некоторых вариантах реализации все меры прогнозирования могут быть сформированы один раз и потенциально до запуска конкретного приложения. В некоторых вариантах реализации меры прогнозирования могут формироваться динамически по мере и в случае необходимости.In many implementations, prediction measures may be generated for a plurality or possibly all of the stored image parts, and/or a plurality of prediction measures may be generated for each image part (corresponding to different viewing positions). In some implementations, all predictive measures may be generated once and potentially prior to the launch of a particular application. In some embodiments, predictive measures may be dynamically generated as and when required.

Процессор 203 прогнозирования соединен с селектором 205, который выполнен с возможностью выбора подмножества частей изображения из набора частей изображения в ответ на меры прогнозирования. Например, селектор 203 может выбирать некоторые части изображения, для которых меры прогнозирования низкие, но не части изображения, для которых меры прогнозирования высокие.The prediction processor 203 is coupled to a selector 205 that is configured to select a subset of image parts from a set of image parts in response to the prediction measures. For example, the selector 203 may select some parts of the image for which the prediction measures are low, but not parts of the image for which the prediction measures are high.

Селектор 205 соединен с генератором 207 двоичного потока, который выполнен с возможностью формирования двоичного потока изображения, содержащего данные изображения и данные глубины из подмножества частей изображения. Однако, если данную часть изображения не выбирают для включения в подмножество (а выбирают для исключения из него), эта часть изображения не будет включена в двоичный поток.The selector 205 is coupled to a bitstream generator 207 that is configured to generate an image bitstream containing image data and depth data from a subset of image parts. However, if this part of the image is not selected to be included in the subset (but is chosen to be excluded from it), this part of the image will not be included in the bitstream.

Подмножество частей изображения, из которого формируют меру прогнозирования, может отличаться в разных вариантах осуществления. Например, во многих вариантах реализации оно может содержать части изображения, (только) выбранные из частей изображения, которые уже включены в двоичный поток, и, следовательно, мера прогнозирования для данной позы и части изображения может отражать прогнозирование изображений для этой позы на основе частей изображения, которые уже предоставлены клиенту.The subset of image parts from which the prediction measure is generated may differ in different embodiments. For example, in many implementations it may contain image parts (only) selected from image parts that are already included in the bitstream, and therefore the prediction measure for a given pose and image part can reflect the image prediction for that pose based on the image parts. that have already been provided to the client.

В других вариантах реализации подмножество может, например, быть определено в соответствии с фиксированным требованием. Например, подмножество, используемое для определения меры прогнозирования для данной части изображения для позы части изображения, может быть выбрано как ближайшие N частей изображения.In other implementations, the subset may, for example, be defined according to a fixed requirement. For example, the subset used to determine the predictive measure for a given image part for the pose of the image part may be selected as the nearest N image parts.

Также понятно, что в разных вариантах реализации могут быть использованы другие подходы к формированию подмножества частей изображения. Например, в некоторых вариантах реализации может быть использован динамический и последовательный подход. Например, во время работа от клиента может быть принято указание целевой позы обзора. После этого устройство 103 формирования двоичного потока может перейти к формированию меры прогнозирования для позы для каждой части изображения по соседству вокруг этой позы (например, для N ближайших частей изображения), где прогнозирование основывается только на частях изображения, которые уже переданы устройству 101 отрисовки изображения. Затем селектор 205 может выбрать часть изображения, имеющую самую низкую меру прогнозирования, и включить ее в подмножество частей изображения, которые будут (или уже) включены в двоичный поток. Далее может быть определено, указывает ли мера прогнозирования на достаточно высокое качество прогнозирования для данной целевой позы. Если нет, процесс может быть повторен, но на этот раз только что включенную в двоичный поток часть изображения также включают в подмножество базовых частей изображения, используемых для прогнозирования. Таким образом, устройство 103 формирования двоичного потока может итеративно добавлять соседние части изображения до тех пор, пока требуемое целевое окно просмотра не будет спрогнозировано с достаточно высоким качеством.It is also understood that other approaches to generating a subset of image parts may be used in different implementations. For example, in some implementations, a dynamic and sequential approach may be used. For example, during operation, an indication of the target viewing pose may be received from the client. After that, the bitstream generator 103 may proceed to generate a prediction measure for a pose for each image part in the neighborhood around that pose (for example, for the N closest image parts), where the prediction is based only on the parts of the image that have already been transmitted to the image rendering device 101. The selector 205 may then select the part of the image having the lowest predictive measure and include it in the subset of the parts of the image that will (or already) be included in the bitstream. Next, it can be determined whether the predictive measure indicates a sufficiently high prediction quality for a given target posture. If not, the process can be repeated, but this time the image part just included in the bitstream is also included in the subset of the basic image parts used for prediction. Thus, the bitstream generator 103 can iteratively add adjacent portions of an image until the desired target viewport is predicted with a sufficiently high quality.

В некоторых вариантах реализации каждую часть изображения необязательно рассматривают отдельно. Например, в некоторых вариантах реализации может быть сформирована общая мера прогнозирования для части сцены, охватываемой множеством поз и частей изображения (например, на основе учета содержимого/свойств сцены, таких как количество видимых объектов, как будет описано более подробно позже).In some embodiments, each part of the image is not necessarily considered separately. For example, in some implementations, a general predictive measure for a portion of a scene spanned by a plurality of poses and portions of an image may be generated (eg, based on consideration of scene content/properties such as the number of objects visible, as will be described in more detail later).

Аналогичным образом, выбор необязательно основан на учете только меры прогнозирования для данной части изображения. Например, в некоторых вариантах реализации пространственная плотность выбранных поз для части изображения может зависеть от окрестной меры прогнозирования (как правило, общей для ряда частей изображения). В качестве примера в областях, где меру прогнозирования считают высокой (например, ввиду низкой сложности сцены), части изображения могут быть включены для каждого третьего привязочного положения обзора. В отличие от этого, когда меру прогнозирования считают низкой (например, ввиду высокой сложности сцены), для включения в двоичный поток могут быть выбраны части изображения для всех привязочных положений обзора.Likewise, the selection is not necessarily based on considering only the predictive measure for a given part of the image. For example, in some implementations, the spatial density of the selected poses for a portion of an image may depend on a neighborhood prediction measure (generally common to a number of portions of the image). As an example, in areas where the predictive measure is considered high (eg, due to low scene complexity), parts of the image may be included for every third anchor view position. In contrast, when the predictive measure is considered low (eg, due to high scene complexity), parts of the image for all anchor view positions may be selected for inclusion in the bitstream.

Этот подход может обеспечить адаптированное и улучшенное формирования двоичного потока с пониженной общей скоростью передачи данных, которая, тем не менее, позволяет устройству 101 отрисовки изображения формировать требуемые виды для данных поз просмотра и с требуемым уровнем качества. Данный подход может снизить избыточность в передаваемых данных и тем самым улучшить соотношение между качеством и скоростью передачи битов (ФИГ. 1).This approach can provide an adapted and improved bitstreaming with a reduced overall data rate, which nevertheless allows the image rendering device 101 to generate the desired views for the viewing pose data and with the required level of quality. This approach can reduce redundancy in the transmitted data and thereby improve the trade-off between quality and bit rate (FIG. 1).

Например, в примере на ФИГ. 3 показаны три иллюстративные сцены разного качества и связанные кривые, указывающие потенциальное качество синтеза вида как функции от количества привязочных изображений, захватывающих сцену.For example, in the example of FIG. 3 shows three exemplary scenes of varying quality and associated curves indicating the potential quality of view synthesis as a function of the number of anchor images capturing the scene.

Простая сцена 301 может иметь внешний вид, который мало изменяется в зависимости от угла и позиции. Она может, например, содержать матовые окрашенные поверхности и иметь небольшие затенения. Для формирования устройством 101 отрисовки изображения множества различных видов этой простой сцены требуются лишь несколько частей привязочного изображения/изображений. В отличие от этого, сложная сцена 303 будет иметь внешний вид, который сильно изменяется в зависимости от угла и позиции. Она, например, может содержать отражающие и металлические элементы или объекты, которые сами себя загораживают, такие как ваза с цветами. Для захвата такой сложной сцены требуется много частей привязочного изображения/изображений, и, соответственно, для формирования других видов устройством 101 отрисовки изображения требуется большое количество частей привязочного изображения. Типичная сцена 305 будет представлять собой комбинацию простых и сложных частей, и захват такой сцены посредством достаточного количества привязок, требуемых для сложной сцены, приведет к большой избыточности. Описанный подход адаптивного выбора подмножества имеющихся частей привязочного изображения для включения в двоичный поток может существенно снизить избыточность данных, включенных в двоичный поток, и тем самым существенно снизить скорость передачи битов без соответствующей потери в конечном качестве. Во многих вариантах реализации этот подход может снизить избыточность путем разбиения привязочных изображений на части и принятия решения о том, какие изображения и части изображения подлежат передаче, на основе прогнозирования.A simple scene 301 may have an appearance that changes little depending on the angle and position. It may, for example, contain matte painted surfaces and have slight shading. Only a few parts of the anchor image/images are required for the rendering device 101 to render many different views of this simple scene. In contrast, complex scene 303 will have an appearance that varies greatly depending on the angle and position. It may, for example, contain reflective and metallic elements or objects that block themselves, such as a vase of flowers. To capture such a complex scene, many parts of the anchor image/images are required, and accordingly, a large number of parts of the anchor image are required to form other views by the image rendering device 101. A typical scene 305 would be a combination of simple and complex parts, and capturing such a scene with enough of the anchors required for a complex scene would result in a lot of redundancy. The described approach of adaptively selecting a subset of the available parts of the anchor image to include in the bitstream can significantly reduce the redundancy of the data included in the bitstream, and thereby significantly reduce the bit rate without a corresponding loss in final quality. In many implementations, this approach can reduce redundancy by splitting anchor images into parts and deciding which images and parts of the image to transmit based on prediction.

На ФИГ. 4 показан пример сцены с удаленным фоном 401 и объектом 403 переднего плана. Изображения с глубиной захватывают из диапазона поз 405 обзора, получая в результате набор привязочных изображений/частей изображения для разных поз обзора. В этом примере используют стратегию выборочной передачи, в которой могут быть пропущены целые привязки. Все привязочные изображения изображают фон 401 на большом расстоянии, но привязочные изображения в центре массива содержат объект 403 на близком расстоянии в своем поле зрения. Это обычно приводит к тому, что центральные изображения изменяются существенно больше, чем изображения по направлению к краям (при небольших изменениях точки обзора изображение близкого объекта неправильной формы изменяется существенно больше, чем изображение фона). Поэтому спрогнозировать центральные привязочные изображения на основе соседних привязочных изображений существенно труднее, чем спрогнозировать краевые привязочные изображения на основе соседних привязочных изображений, и, соответственно, мера прогнозирования для центральных изображений существенно ниже, чем для краевых изображений. Соответственно, доля центральных изображений (со связанными картами глубины), включаемых в двоичный поток, больше доли краевых изображений (изображения, включаемые в двоичный поток, на ФИГ. 4 указаны соответствующими закрашенными позами). Таким образом, в данном примере селектор 205 выполнен с возможностью выбора привязочных изображений для включения в двоичный поток путем изменения частоты пространственной выборки в ответ на меры прогнозирования для привязочных изображений (и для поз обзора привязочных изображений).FIG. 4 shows an example of a scene with the background 401 removed and the foreground object 403. Depth images are captured from a range of view poses 405 resulting in a set of anchor images/image parts for different view poses. This example uses a selective transfer strategy in which entire bindings can be skipped. All of the anchor images depict the background 401 at a long distance, but the anchor images at the center of the array contain the object 403 at close range in their field of view. This usually results in the center images changing significantly more than the images towards the edges (for small changes in the viewpoint, the image of a close object of irregular shape changes significantly more than the image of the background). Therefore, predicting center anchor images based on neighboring anchor images is much more difficult than predicting edge anchor images based on neighboring anchor images, and, accordingly, the prediction measure for center images is significantly lower than for edge images. Accordingly, the proportion of central images (with associated depth maps) included in the bitstream is larger than the proportion of edge images (the images included in the bitstream are indicated in FIG. 4 by the corresponding filled poses). Thus, in this example, the selector 205 is configured to select anchor pictures for inclusion in the bitstream by changing the spatial sampling rate in response to the prediction measures for the anchor pictures (and for the view poses of the anchor pictures).

На ФИГ. 5 показан пример приложения, в котором на устройстве 101 отрисовки изображения формируют равнопрямоугольное изображение для воспроизведения виртуальной реальности. Устройство 103 формирования двоичного потока обеспечивает части изображения, которые используют для формирования равнопрямоугольного изображения и, в частности, части изображения могут соответствовать плиткам изображения. С каждой плиткой также связана карта глубины, которую используют для отрисовки на основе изображения. При изменениях положения и ориентации наблюдателем плитки передают в потоковом режиме с сервера/устройства 103 формирования двоичного потока в приложение зрителя на устройстве 101 отрисовки изображения. Пространственная частота требуемых обновлений привязки с сервера меняется в зависимости от плитки/направления обзора. Это проиллюстрировано на ФИГ. 6, где показана горизонтальная сетка привязочных поз/положений. В данном примере пространственная плотность предоставляемых привязочных изображений меняется для разных плиток равнопрямоугольного изображения в зависимости от вариаций мер прогнозирования для плиток.FIG. 5 shows an example of an application in which an equal-rectangular image is generated on the image rendering device 101 for rendering virtual reality. The bitstream generator 103 provides image parts that are used to form an equirectangular image, and in particular, image parts can correspond to image tiles. Each tile also has an associated depth map, which is used for rendering based on the image. As the viewer changes position and orientation, the tiles are streamed from the server/streamer 103 to the viewer application on the renderer 101 . The spatial frequency of anchor updates required from the server varies depending on the tile/view direction. This is illustrated in FIG. 6, which shows a horizontal grid of anchoring poses/positions. In this example, the spatial density of the provided anchor images varies for different tiles of an equirectangular image depending on variations in the predictive measures for the tiles.

Например, как показано на ФИГ. 7, для текущей позы виртуального пользователя три (примыкающие) плитки, T₁, T₂, T₃, равнопрямоугольного изображения/окна просмотра соответствуют слегка отличающимся (примыкающим) интервалам угла обзора. Два из этих интервалов обзора/плиток, T₁, T₂, содержат близкий объект неправильной формы, а T₃ не содержит. Соответственно, устройство 103 формирования двоичного потока может формировать меры прогнозирования для частей изображения, соответствующих плиткам T₁, T₂, T₃, и будет определять более низкую меру прогнозирования для первых двух плиток, T₁, T₂, чем для последней плитки, T₃. Соответственно, оно может далее определить, что для первых двух плиток, T₁, T₂, требуется более высокая плотность пространственной выборки, чем для третьей плитки, T₃. Соответственно, для частей изображения, соответствующих первым двум плиткам, T₁, T₂, все части изображения могут быть включены (соответствует ФИГ. 6a), тогда как для третьей плитки, T₃, включают только каждую третью (в двух направлениях) часть привязочного изображения (соответствует ФИГ. 6b).For example, as shown in FIG. 7, for the virtual user's current pose, three (adjacent) tiles, T ₁ , T ₂ , T ₃ , of an equirectangular image/viewport correspond to slightly different (adjacent) view angle intervals. Two of these view/tile intervals, T ₁ , T ₂ , contain an irregularly shaped close object, while T ₃ does not. Accordingly, the bitstream generator 103 can generate prediction measures for the image portions corresponding to tiles T ₁ , T ₂ , T ₃ and will determine a lower prediction measure for the first two tiles, T ₁ , T ₂ than for the last tile, T ₃ . Accordingly, it may further determine that the first two tiles, T ₁ , T ₂ , require a higher spatial sampling density than the third tile, T ₃ . Accordingly, for the image parts corresponding to the first two tiles, T ₁ , T ₂ , all image parts can be included (corresponding to FIG. 6a), while for the third tile, T ₃ , only every third (in two directions) part of the anchor images (corresponding to FIG. 6b).

В некоторых вариантах реализации определение того, какие привязочные изображения включать в двоичный поток, может выполняться динамически во время работы приложения. В других вариантах реализации может быть выполнено начальное статическое определение на основе анализа, например, сцены, привязочных изображений и/или сохраненных частей изображения.In some implementations, the determination of which anchor images to include in the bitstream may be done dynamically at run time of the application. In other implementations, an initial static determination may be made based on an analysis of, for example, the scene, anchor images, and/or saved image portions.

В некоторых таких вариантах реализации информация о том, какие привязки извлекать с сервера/устройства 103 формирования двоичного потока, и какие привязки прогнозировать в клиенте/устройстве 101 отрисовки изображения, может быть первоначально (при запуске приложения) сообщена клиентской стороне, например, в виде карты вида, которая указывает, какие части изображения будут (или могут быть) сделаны доступными для устройства 101 отрисовки изображения.In some such implementations, information about which bindings to retrieve from the server/streamer 103 and which bindings to predict in the client/renderer 101 may be initially (at application startup) communicated to the client side, such as in the form of a map. view, which indicates which parts of the image will (or can be) made available to the image rendering device 101 .

Как указано в предыдущих примерах, для определения мер прогнозирования для разных частей изображения и поз могут быть использованы разные подходы и алгоритмы.As indicated in the previous examples, different approaches and algorithms can be used to determine prediction measures for different parts of the image and poses.

Мера прогнозирования может указывать на качество, которое может быть достигнуто вновь синтезируемыми изображениями с использованием основанной на изображении глубины отрисовки (синтеза вида) для данной позы обзора на основе подмножества привязочных изображений, не содержащего привязочное изображение, для которого формируют меру прогнозирования.The predictive measure may indicate the quality that can be achieved by newly synthesized images using image-based rendering depth (view synthesis) for a given view pose based on a subset of anchor images that does not contain the anchor image for which the predictive measure is generated.

Мера прогнозирования может быть определена непосредственно или опосредованно путем рассмотрения признаков или характеристик, которые отражают качество синтезированного изображения или влияют на него.A predictive measure can be determined directly or indirectly by considering features or characteristics that reflect or affect the quality of the synthesized image.

В некоторых вариантах реализации, где может быть определена более непосредственная мера прогнозирования, это может, например, включать устройство 103 формирования двоичного потока, выполняющее синтез вида части привязочного изображения и сравнивающего фактическую сохраненную часть изображения с синтезированной версией. Если разница небольшая, меру прогнозирования считают высокой. Точнее говоря, мера прогнозирования может быть определена как качество синтеза вида в терминах измеренной среднеквадратичной ошибки, отношения пикового сигнала к шуму (Peak Signal-to-Noise Ratio, PSNR), метрики качества видео (Video Quality Metric, VQM), многомасштабного структурного сходства (Multiscale Structural Similarity, MS-SSIM) или иной метрики части изображения при прогнозировании на основе одной или более соседних частей (обычно в 6DoF-пространстве). Как правило, это прогнозирование выполняют с использованием моделируемых отрисовок части изображения и карты глубины (или текстуры и сетки).In some implementations, where a more direct measure of prediction can be defined, this may, for example, include the bitstreamer 103 performing synthesis of a view of the anchor image part and comparing the actual stored part of the image with the synthesized version. If the difference is small, the predictive measure is considered high. More precisely, the predictive measure can be defined as the quality of the view synthesis in terms of measured RMS error, Peak Signal-to-Noise Ratio (PSNR), Video Quality Metric (VQM), multi-scale structural similarity ( Multiscale Structural Similarity, MS-SSIM) or other metric of a part of an image when predicting based on one or more neighboring parts (typically in 6DoF space). Typically, this prediction is done using simulated renderings of a portion of an image and a depth map (or texture and mesh).

В других вариантах реализации мера прогнозирования может быть сформирована в ответ на рассмотрение свойства сцены. В частности, во многих вариантах реализации мера прогнозирования может быть сформирована в ответ на указание сложности сцены. В частности, мера прогнозирования может быть сформирована на основе данных глубины для части изображения. Например, если данные глубины указывают на присутствие относительно близких одного или более объектов, то можно предположить, что часть изображения содержит объект, который трудно спрогнозировать на основе других частей привязочного изображения для других (обычно близких) поз обзора.In other implementations, a predictive measure may be generated in response to consideration of a scene property. In particular, in many implementations, a predictive measure may be generated in response to an indication of scene complexity. Specifically, a prediction measure may be generated based on depth data for a portion of an image. For example, if the depth data indicates the presence of relatively close one or more objects, then it can be assumed that a part of the image contains an object that is difficult to predict based on other parts of the reference image for other (usually close) viewing positions.

В качестве конкретного примера мера прогнозирования для части изображения может быть сформирована в ответ на минимальную глубину (расстояние от камеры/точки обзора до объекта), которая имеет место на части изображения. Если объекты на части изображения далеко от камеры, то небольшое (6DoF) перемещение наблюдателя не изменит относительную текстуру внутри части изображения. Перемещение приведет к приблизительно аффинному преобразованию всей части изображения. Например, часть изображения повернется, сдвинется или изменит масштаб в целом. Это преобразование обычно очень хорошо прогнозируемо на основе соседних изображений с глубиной на стороне клиента. Такое прогнозирование может, как правило, иметь настолько высокое качество, что синтез вида является достаточным, и в отправке остального сигнала действительно нет необходимости.As a specific example, a prediction measure for a part of an image may be generated in response to the minimum depth (distance from the camera/viewpoint to the object) that occurs in the part of the image. If objects in a part of the image are far from the camera, then moving the observer slightly (6DoF) will not change the relative texture within the part of the image. Moving will result in an approximately affine transformation of the entire part of the image. For example, part of the image will rotate, move, or change the scale as a whole. This transformation is usually very well predictable based on adjacent images with client-side depth. Such a prediction can typically be of such high quality that the view synthesis is sufficient and there really is no need to send the rest of the signal.

Мера прогнозирования часто может быть определена на основе данных глубины, данных изображения или данных глубины и данных изображения. Например, если данные глубины указывают на большую вариацию глубины в сцене/данных глубины для части изображения, например, с относительно частыми и относительно крутыми ступенчатыми изменениями, это можно считать указанием на то, что сцена/текущий вид сложны и более трудны для прогнозирования. Аналогичным образом, если изображение имеет большую вариацию с точки зрения сегментов изображения, имеющих очень сильно отличающиеся визуальные свойства со значительными и внезапными изменениями между сегментами, это можно рассматривать как указание на сложность сцены и, следовательно, на сложность прогнозирования. Напротив, если вариация глубины и/или визуальная вариация невелика, то можно считать, что сцена относительно низкой сложности, и мера прогнозирования может быть повышенной, поскольку вполне вероятно, что можно будет формировать более точные прогнозируемые изображения.The predictive measure can often be determined based on depth data, image data, or depth data and image data. For example, if the depth data indicates a large variation in depth in a scene/depth data for a portion of an image, such as with relatively frequent and relatively steep step changes, this can be considered an indication that the scene/current view is complex and more difficult to predict. Similarly, if an image has a lot of variation in terms of image segments having very different visual properties with significant and sudden changes between segments, this can be considered as an indication of the complexity of the scene and hence the difficulty of prediction. On the contrary, if the depth variation and/or visual variation is small, then the scene may be considered to be of relatively low complexity and the prediction measure may be increased since it is likely that more accurate prediction images can be generated.

Подход может, например, отражать, что в сценах с относительно большим количеством мелких объектов обычно требуется большее количество захваченных поз, чем для сцен с несколькими объектами или без них, и прогнозирование, соответственно, более трудное.The approach may, for example, reflect that scenes with a relatively large number of small objects generally require more captured poses than scenes with few or no objects, and prediction is correspondingly more difficult.

В некоторых вариантах реализации процессор 203 прогнозирования может, в частности, быть выполнен с возможностью определения меры прогнозирования в ответ на вариацию глубины в данных глубины.In some implementations, the prediction processor 203 may specifically be configured to determine a prediction measure in response to a depth variation in the depth data.

Может быть сформирована оценка вариации глубины, которая имеет тенденцию отражать присутствие (или отсутствие) ряда переходов глубины, соответствующих наличию относительно большого количества разных объектов на разной глубине. Это может быть достигнуто, например, путем выявления сегментов на основе переходов глубины на карте глубины и последующего определения количества найденных сегментов. Понятно, что для определения подходящих мер вариации глубины могут быть использованы многие другие подходы.A depth variation estimate can be generated that tends to reflect the presence (or absence) of a series of depth transitions corresponding to the presence of a relatively large number of different objects at different depths. This can be achieved, for example, by identifying segments based on depth transitions in the depth map and then determining the number of segments found. It will be appreciated that many other approaches may be used to determine suitable measures of depth variation.

В некоторых вариантах реализации процессор 203 прогнозирования выполнен с возможностью определения меры прогнозирования в ответ на расстояния до объектов, указанных посредством данных глубины для части изображения. В частности, мера прогнозирования может увеличиваться с увеличением расстояния до объектов.In some embodiments, prediction processor 203 is configured to determine a prediction measure in response to object distances indicated by depth data for a portion of an image. In particular, the predictive measure may increase as the distance to the objects increases.

Это может свидетельствовать о том, что сцена может считаться менее сложной, когда объекты относительно далеки от камеры, поскольку это, как правило, обеспечивает улучшенную видимость различных аспектов и приводит к меньшим изменениям при изменении позы обзора. Это также обычно приводит меньшему загораживанию объектом других частей сцены. Следовательно, прогнозирование будет, как правило, более точным.This may indicate that the scene can be considered less complex when objects are relatively far from the camera, as this generally provides improved visibility of various aspects and results in less change when the viewing pose changes. It also usually results in less object obstruction of other parts of the scene. Therefore, forecasting will generally be more accurate.

Аналогичным образом, сцена может считаться более сложной, когда объекты относительно близки к камере, поскольку это требует более подробных снимков для точного отражения вариаций в объекте и помимо всего приводит к тому, что объект обычно загораживает более значительную часть сцены, поэтому требуются дополнительные привязочные позы, чтобы можно было увидеть то, что заслонено. Это может привести к более трудному и неточному прогнозированию.Likewise, a scene can be considered more complex when subjects are relatively close to the camera, as this requires more detailed shots to accurately reflect variations in the subject and, in addition, results in the subject typically obscuring a larger portion of the scene, thus requiring additional anchor poses. to see what is obscured. This can lead to more difficult and inaccurate predictions.

В некоторых вариантах реализации селектор 205 может быть выполнен также с возможностью выбора частей изображения для включения в двоичный поток в ответ на меру видимости для частей изображения для целевой позы обзора. Целевая поза обзора может, в частности, соответствовать позе обзора, изображение для которой должно быть синтезировано посредством устройства 101 отрисовки изображения и может быть предоставлено динамически из устройства 101 отрисовки изображения, как будет описано позже.In some implementations, the selector 205 may also be configured to select image parts to include in the bitstream in response to a measure of visibility for the image parts for the target viewing pose. The target viewing pose may specifically correspond to the viewing pose for which an image is to be synthesized by the image rendering device 101 and may be provided dynamically from the image rendering device 101 as will be described later.

Мера видимости может указывать, видна ли часть изображения для целевой позы обзора, и, в частности, будет ли она в пределах подходящего окна просмотра для целевой позы обзора. В частности, мера видимости для части изображения может указывать, насколько близка эта часть изображения к окну просмотра для целевой позы обзора. Если она достаточно близка или в пределах окна обзора (и, например, мера прогнозирования достаточно низкая), эту часть изображения включают в двоичный поток. Если она слишком далеко от окна просмотра, ее не включают.The visibility measure may indicate whether a portion of the image for the target viewing pose is visible, and in particular, whether it would be within a suitable viewing window for the target viewing pose. In particular, the measure of visibility for a portion of an image may indicate how close that portion of the image is to the viewport for the target viewing pose. If it is close enough or within the view-window (and, for example, the predictive measure is low enough), that part of the image is included in the bitstream. If it is too far from the viewport, it is not turned on.

Этом может повысить производительность во многих ситуациях. Например, для клиента весьма характерно иметь окна просмотра, которые существенно меньше, чем содержимое. Например, гарнитура может иметь поле обзора лишь в 100 градусов, тогда как содержимое является 360-градусным.This can improve performance in many situations. For example, it is very common for a client to have viewports that are substantially smaller than the content. For example, a headset may only have a 100 degree field of view while the content is 360 degrees.

Окно просмотра целевой позы обзора может быть, как правило, таким, для которого, как ожидается, потребуется изображение, чтобы представить окно просмотра. В качестве конкретного примера селектор 205 может руководствоваться следующими правилами для такого будущего окна просмотра:The viewport of the target view pose may typically be one that is expected to require an image to represent the viewport. As a specific example, the selector 205 may be guided by the following rules for such a future viewport:

- Части, которые почти наверняка находятся за пределами будущего окна просмотра, не подлежат передаче.- Parts that are almost certainly outside the future viewport are non-transferable.

- Части, которые вряд ли будут внутри будущего окна просмотра и для которых на клиенте будут доступны другие части, передавать не нужно.- Parts that are unlikely to be inside the future viewport and for which other parts will be available on the client do not need to be transferred.

- Части, которые видны, но прогнозируемые на основе другой части, которая будет доступна на клиенте, передавать не нужно.- Parts that are visible but predicted based on another part that will be available on the client do not need to be transferred.

- Для любого трудно прогнозируемого пикселя в изображении, который не наверняка находится за пределами будущего окна просмотра, следует выбрать по меньшей мере одну часть из одной привязки.- For any hard-to-predict pixel in the image that is not likely to be outside the future viewport, at least one part from one anchor should be selected.

В разных вариантах реализации могут быть использованы разные подходы к выбору используемого для прогнозирования подмножества частей изображения, которое образует основу для определения меры прогнозирования для данной комбинации поза/часть изображения. Во многих вариантах реализации используемое для прогнозирования подмножество может быть выбрано просто как возможно заданное количество привязочных изображений или частей изображения, которые наиболее близки к данной позе, поскольку они, как правило, являются лучшими кандидатами для прогнозирования. В других вариантах реализации могут быть использованы более сложные и ресурсоемкие подходы. Например, можно выполнить прогнозирование с учетом разных возможных наборов частей якорного изображения, выбрать лучшее прогнозирование и использовать соответствующий набор частей привязочного изображения.Different implementations may take different approaches to selecting the subset of image parts used for prediction that forms the basis for determining the prediction measure for a given pose/image part combination. In many implementations, the subset used for prediction may be chosen simply as a given number of anchor images or parts of the image that are closest to a given pose, as they tend to be the best candidates for prediction. In other implementations, more complex and resource intensive approaches may be used. For example, you can make predictions given different possible sets of anchor image parts, select the best prediction, and use the appropriate set of anchor image parts.

Во многих вариантах реализации используемое для прогнозирования подмножество частей привязочного изображения ограничивают включением только частей изображения, которые содержатся в двоичном потоке. Как правило, учитываемые части изображения являются частями изображения, которые ранее были включены в двоичный поток, но в некоторых вариантах реализации используемое для прогнозирования подмножество может также включать в себя части изображения, которые еще не были отправлены, но которые были выбраны для включения в двоичный поток (или которые выбирают вместе с текущей частью изображения ввиду пригодности в качестве базовых изображений для прогнозирования).In many implementations, the subset of the anchor image parts used for prediction is limited to include only the parts of the image that are contained in the bitstream. Generally, the parts of the image considered are the parts of the image that were previously included in the bitstream, but in some implementations, the subset used for prediction may also include parts of the image that have not yet been sent but have been selected for inclusion in the bitstream. (or which are chosen along with the current part of the image due to suitability as base images for prediction).

Такой подход может привести к весьма эффективному формированию двоичного потока, где новые части изображения по существу предоставляют устройству 101 отрисовки изображения тогда, и только тогда, когда устройство 101 отрисовки изображения не в состоянии локально формировать изображение достаточного качества на основе только частей изображения, которые уже доступны устройству 101 отрисовки изображения. В частности, в таких вариантах реализации мера прогнозирования может указывать на качество, которое может быть достигнуто при синтезировании изображения для данной позы на основе только частей привязочного изображения, которые уже присутствуют на клиенте/устройстве 101 отрисовки изображения.This approach can lead to a very efficient bitstream generation where the new parts of the image are essentially provided to the image renderer 101 if, and only if, the renderer 101 is unable to locally generate an image of sufficient quality based only on the parts of the image that are already available. to the image rendering device 101 . In particular, in such implementations, the predictive measure may indicate the quality that can be achieved when synthesizing an image for a given pose based on only portions of the anchor image that are already present on the client/renderer 101.

Во многих вариантах реализации устройство 101 отрисовки изображения может быть выполнено с возможностью формирования двоичного потока и выбора частей изображения в ответ на целевую позу обзора, которую принимает устройство 103 формирования двоичного потока от устройства 101 отрисовки изображения. В частности, по мере перемещения виртуального пользователя в виртуальной среде устройство 101 отрисовки изображения может непрерывно передавать указание текущей позы обзора в качестве целевой позы обзора (или, например, может прогнозировать целевую позу обзора для уменьшения задержки).In many embodiments, the image renderer 101 may be configured to generate a bitstream and select portions of an image in response to a target viewing pose that the bitstreamer 103 receives from the image renderer 101. In particular, as the virtual user moves in the virtual environment, the image rendering device 101 may continuously transmit an indication of the current viewing pose as the target viewing pose (or, for example, may predict the target viewing pose to reduce delay).

Устройство 103 формирования двоичного потока может принимать целевую позу обзора от устройства 101 отрисовки изображения и может приступать к выбору подходящих частей изображения для включения в двоичный поток, направляемый устройству 101 отрисовки изображения, на основе целевой позы обзора. В частности, устройство 103 формирования двоичного потока может определять меру прогнозирования для целевой позы обзора, которая указывает, насколько хорошо может быть сформировано изображение для окна просмотра, соответствующего целевой позе обзора, на основе частей изображения, которые уже переданы устройству 101 отрисовки изображения, и которые поэтому уже доступны для синтеза вида/изображения на устройстве 101 отрисовки изображения.The bit stream generator 103 may receive the target viewing pose from the image rendering apparatus 101 and may proceed to select suitable parts of an image to include in the bit stream directed to the image rendering apparatus 101 based on the target viewing pose. In particular, the bitstream generating apparatus 103 may determine a prediction measure for the target viewing pose, which indicates how well an image can be generated for the viewport corresponding to the target viewing pose, based on the portions of the image that have already been transmitted to the image rendering apparatus 101, and which therefore already available for view/image synthesis on the image rendering device 101 .

Если мера прогнозирования указывает на достаточно высокое качество прогнозирования, в двоичный поток для текущей целевой позы обзора не добавляют еще одну часть изображения (например, если только буфер частей изображения, подлежащих передаче устройству 101 отрисовки изображения, не достаточно пустой). Однако, если мера прогнозирования указывает на недостаточно высокое качество прогнозирования, в двоичный поток добавляют одну или более частей изображения. В некоторых вариантах реализации может быть использован заданный выбор, например, может быть добавлена ближайшая часть изображения (или части изображения) (и, таким образом, мера прогнозирования может рассматриваться как формируемая для этой (этих) части (частей) изображения). Затем этот подход может быть итерирован по мере включения частей изображения, выбранных в предыдущей итерации в используемом для прогнозирования наборе для текущей итерации. В других вариантах реализации устройство 103 формирования двоичного потока может формировать меру прогнозирования на основе включения других частей изображения и может затем выбирать части изображения, которые приводят к наивысшей мере прогнозирования.If the prediction measure indicates a sufficiently high prediction quality, no more image part is added to the bitstream for the current target viewing pose (for example, unless the buffer of image parts to be transmitted to the image rendering device 101 is empty enough). However, if the prediction measure indicates poor prediction quality, one or more image parts are added to the bitstream. In some implementations, a predetermined selection may be used, for example, the nearest part of the image (or parts of the image) can be added (and thus the prediction measure can be considered to be generated for this (these) part (s) of the image). This approach can then be iterated as the image parts selected in the previous iteration are included in the prediction set for the current iteration. In other implementations, the bitstream generator 103 may generate a prediction measure based on the inclusion of other parts of the image, and may then select the parts of the image that result in the highest prediction measure.

Понятно, что в разных вариантах реализации части изображения могут представлять собой разное. Например, в некоторых вариантах реализации каждая часть изображения может быть захваченным изображением (включающим потенциально целиком полное полусферическое изображение).It is clear that in different implementations, parts of the image may be different. For example, in some implementations, each part of the image may be a captured image (including potentially the entire hemispherical image).

Во многих вариантах реализации части изображения могут быть частичными видами, такими как особые сегменты изображения, соответствующие относительно небольшим интервалам угла обзора, таким как, например, в диапазоне от 10° до 45° (например, как в горизонтальном, так и в вертикальном направлении). Например, прямоугольное изображение, соответствующее прямоугольному окну просмотра для данной позы обзора, может быть разделено на множество частей изображения, которые могут быть выбраны по отдельности для включения в двоичный поток (например, плитки в примере на ФИГ. 5).In many implementations, parts of an image may be partial views, such as specific image segments corresponding to relatively small intervals of viewing angle, such as, for example, in the range of 10° to 45° (for example, in both horizontal and vertical directions) . For example, a rectangular image corresponding to a rectangular viewport for a given viewing pose can be divided into multiple image parts that can be individually selected for inclusion in the bitstream (eg, tiles in the example of FIG. 5).

В некоторых вариантах реализации части изображения могут соответствовать заданному разбиению изображений. Например, в примере на ФИГ. 5 прямоугольное изображение может быть разделено на заданное множество квадратных плиток, причем каждый квадрат соответствует отдельно выбираемой части изображения. В качестве конкретного примера каждая часть изображения может быть изображением блока кодирования, таким как, например, макроблок размером 16×16 пикселей.In some embodiments, portions of an image may correspond to a given partitioning of images. For example, in the example of FIG. 5, a rectangular image may be divided into a given set of square tiles, with each square corresponding to a separately selectable portion of the image. As a specific example, each part of an image may be an image of a coding block, such as, for example, a 16x16 pixel macroblock.

Такой подход может сделать возможной реализацию низкой сложности, тем не менее обеспечивающую превосходную производительность.Such an approach can make it possible to implement low complexity, yet provide excellent performance.

В некоторых вариантах реализации части изображения (или по меньшей мере некоторые части изображения) могут быть гранями многогранных проекций сцены для разных поз обзора, такими как, например, квадраты в кубической карте или треугольники в икосаэдре.In some embodiments, parts of the image (or at least some parts of the image) may be faces of polyhedral projections of the scene for different viewing poses, such as, for example, squares in a cube map or triangles in an icosahedron.

В частности, для данной точки обзора полусферический вид может быть разделен на набор соответствующих плоских многоугольников, которые вместе образуют полусферическую геометрическую конструкцию. Это во многих вариантах реализации облегчит операции синтеза и, более того, облегчит интегрирование принимаемых новых частей изображения с ранее принятыми или прогнозируемыми частями изображения. По сравнению с равнопрямоугольной проекцией и благодаря плоским граням многогранной проекции изображение дешевле отрисовывать на стандартном графическом процессорном устройстве (Graphics Processing Unit, GPU), поскольку небольшое количество треугольников может точно описать форму, которая связана с проекцией. Для многогранных проекций с достаточным количеством граней (вроде икосаэдральной проекции) среднее искажение проекции ниже, чем для равнопрямоугольной проекции. Кроме того грани обеспечивают естественное разбиение изображения.In particular, for a given viewpoint, the hemispherical view can be divided into a set of corresponding planar polygons that together form a hemispherical geometric design. This will, in many implementations, facilitate synthesis operations and, moreover, facilitate the integration of received new parts of the image with previously received or predicted parts of the image. Compared to equirectangular projection and due to the flat faces of polyhedral projection, the image is cheaper to render on a standard graphics processing unit (GPU) because a small number of triangles can accurately describe the shape that is associated with the projection. For polyhedral projections with a sufficient number of faces (like an icosahedral projection), the average projection distortion is lower than for an equirectangular projection. In addition, the edges provide a natural splitting of the image.

В некоторых вариантах реализации устройство 103 формирования двоичного потока может содержать разделитель 209, который выполнен с возможностью формирования по меньшей мере некоторых частей изображения путем разбиения привязочных изображений. В некоторых вариантах реализации это разбиение может быть заданным, например, разделитель 209 может разбивать изображение на плитки правильной формы.In some implementations, the bitstream generator 103 may include a splitter 209 that is configured to generate at least some portions of an image by splitting the anchor images. In some implementations, this partitioning may be predetermined, for example, the divider 209 may partition the image into regular shaped tiles.

Однако во многих вариантах реализации могут быть сформированы части или сегменты более произвольной формы, и, в частности, формирование частей изображения может быть осуществлено путем сегментации, которая зависит от свойств изображения и/или карты глубины. Это может позволить, например, представлять конкретные объекты разными частями изображения, а фон посредством другой отдельной части изображения и т. д.However, in many implementations, more arbitrary shaped parts or segments can be formed, and in particular, the formation of image parts can be done by segmentation, which depends on the properties of the image and/or depth map. This may allow, for example, to represent specific objects by different parts of the image, and the background by another separate part of the image, etc.

Действительно, часто может случиться так, что изображение состоит из фона и нескольких объектов переднего плана. Преимуществом является то, что объект переднего плана плюс периферия фона содержатся в пределах части изображения, поскольку объекты переднего плана, как правило, менее прогнозируемы, чем фоновые объекты. В более общем смысле хорошая для выбора часть изображения имеет низкое внутреннее прогнозирование и высокое прогнозирование возле краев части.Indeed, it can often happen that an image consists of a background and several foreground objects. The advantage is that the foreground plus the background periphery are contained within the image part, since foreground objects tend to be less predictable than background objects. More generally, a good selection part of an image has low intra-prediction and high prediction near the edges of the part.

Соответственно, за счет сегментации изображения на подходящие части изображения можно достичь особенно эффективной работы.Accordingly, by segmenting an image into suitable image parts, a particularly efficient operation can be achieved.

Понятно, что может быть использован любой подходящий подход к сегментации изображения, не выходящий за пределы настоящего изобретения. Например, сегменты могут быть сформированы так, чтобы они имели сообразные цвета и/или интенсивности, или соответствовали изображениям распознанных объектов, таких как лица, или, например, сегменты могут быть сформированы так, чтобы они соответствовали зонам, имеющим похожие значения глубины и т.д. Понятно, что специалисту в данной области известно огромное количество алгоритмов и критериев сегментации.It is understood that any suitable approach to image segmentation can be used within the scope of the present invention. For example, the segments may be shaped to have consistent colors and/or intensities, or to match images of recognized objects such as faces, or, for example, the segments may be shaped to correspond to areas having similar depth values, etc. d. It is clear that a person skilled in the art knows a huge number of segmentation algorithms and criteria.

Во многих вариантах реализации селектор 205 выполнен с возможностью выбора множества смежных частей изображения в ответ на определение того, что множество смежных частей изображения образует область, имеющую меру качества прогнозирования ниже первого порогового значения для внутренней части областей и меру качества прогнозирования выше второго пороговго значения для пограничной части области (причем во многих вариантах реализации первое пороговое значение может быть ниже второго порогового значения).In many embodiments, the selector 205 is configured to select a plurality of adjacent image parts in response to determining that the plurality of adjacent image parts form an area having a prediction quality measure below a first threshold for the interior of the areas and a prediction quality measure above a second threshold for a boundary part of the area (and in many implementations, the first threshold value may be lower than the second threshold value).

Во многих таких подходах низкое прогнозирование на крае части изображения приведет к выбору и примыкающей части изображения тоже, когда край находится в пределах требуемого окна просмотра. Это может исключить или ослабить артефакты отрисовки на крае части, отрисовываемой с использованием части изображения с низким прогнозированием на крае. Таким образом, части изображения могут быть связаны с образованием групп, которые имеют низкое внутреннее прогнозирование, но которые имеют высокое внешнее (краевое) прогнозирование.In many of these approaches, low prediction at the edge of a portion of the image will result in the selection of the adjacent portion of the image as well when the edge is within the desired viewport. This can eliminate or attenuate rendering artifacts at the edge of the portion rendered using the low prediction portion of the image at the edge. Thus, portions of an image can be associated to form groups that have low intra prediction but that have high extrinsic (edge) prediction.

Такой подход может быть проиллюстрирован примером на ФИГ. 8, показывающим разбитое на плитки изображение сферы, где каждая плитка соответствует части изображения. Плитки, которые содержат один и тот же край, проходящий через пиксели с низким прогнозированием, связаны. Любые две части, которые содержат один и тот же край, проходящий через область с низким прогнозированием, имеют критерий связанного выбора, такой что либо передают все части изображения, либо не передают ни одну.This approach can be illustrated by the example in FIG. 8 showing a tiled image of a sphere, where each tile corresponds to a part of the image. Tiles that contain the same edge passing through low-prediction pixels are connected. Any two parts that contain the same edge passing through the low prediction region have a linked selection criterion such that either all parts of the image are transmitted or none is transmitted.

В некоторых вариантах реализации устройство 103 формирования двоичного потока может особо учитывать прогнозирование на краях при определении того, связывать ли части изображения или нет. Однако в других вариантах реализации выбор может быть основан только на учете мер прогнозирования для части изображения в целом. Например, если мера прогнозирования для данной части изображения ниже данного порогового значения (т.е. ее трудно спрогнозировать), все смежные части изображения тоже включают. Данный подход может быть итерирован, в результате чего части изображения включают до тех пор, пока их мера прогнозирования не станет высокой. Это приведет к эффективному формированию более крупной части изображения с низким внутренним прогнозированием и высоким прогнозированием на краях за счет группировки исходных частей изображения.In some implementations, the bitstream generator 103 may specifically consider edge prediction when determining whether to link parts of an image or not. However, in other implementations, the selection may be based only on consideration of prediction measures for part of the image as a whole. For example, if the predictive measure for a given part of the image is below a given threshold (ie, difficult to predict), all adjacent parts of the image are also included. This approach can be iterated, whereby parts of the image are included until their predictive measure becomes high. This will effectively generate a larger part of the image with low intra-prediction and high edge prediction by grouping the original parts of the image.

В некоторых вариантах реализации по меньшей мере некоторые части изображения перекрываются.In some embodiments, at least some portions of the image overlap.

Во многих вариантах реализации может оказаться полезным разрешить перекрывающиеся части изображения так, чтобы две смежные части изображения обе содержали данные изображения для перекрывающейся пограничной области. Это может привести к увеличению потребностей в хранении для устройства 103 формирования двоичного потока и может увеличить скорость передачи данных двоичного потока. Однако во многих вариантах реализации это может улучшить эффективность кодирования (например, если блоки кодирования не выровнены с границами между частями изображения). Кроме того, перекрывающиеся области могут существенно облегчить смешивание новой части изображения с другими частями изображения, которые, например, могут быть прогнозируемы или сформированы ранее в устройстве 101 отрисовки изображения.In many implementations, it may be useful to resolve overlapping image parts such that two adjacent image parts both contain image data for the overlapping border region. This may result in increased storage requirements for the bitstream generator 103 and may increase the data rate of the bitstream. However, in many implementations, this can improve coding efficiency (eg, if coding blocks are not aligned with boundaries between image parts). In addition, overlapping areas can greatly facilitate blending of the new image part with other parts of the image, which, for example, can be predicted or generated earlier in the image rendering device 101 .

Хотя в приведенном выше описании основное внимание уделено представлению с использованием стандартных изображений и карт глубины, понятно, что в других вариантах реализации могут быть использованы другие подходы.While the description above has focused on presentation using standard images and depth maps, it is understood that other approaches may be used in other implementations.

Например, изображения могут содержать изображения текстурного атласа, которые содержат текстурные части из сеточных и текстурных представлений сцены. Пример такого представления можно найти, например, в статье A. Collet и др. High-quality streamable free-viewpoint video. ACM Transactions on Graphics (TOG), Proceedings of ACM SIGGRAPH 2015. Том 34, выпуск 4, август 2015.For example, the images may contain texture atlas images that contain texture portions from the mesh and texture representations of the scene. An example of such a view can be found, for example, in A. Collet et al. High-quality streamable free-viewpoint video. ACM Transactions on Graphics (TOG), Proceedings of ACM SIGGRAPH 2015. Volume 34, Issue 4, August 2015.

В таком примере привязочное изображение может соответствовать текстурному атласу, который наиболее подходит для просмотра из положения (области) привязки. Текстурный атлас в сочетании с (непересекающейся) сеткой могут формировать геометрическую модель объекта или сцены. В данном случае часть изображения может, например, быть одной текстурой в таком атласе, который соответствует одной поверхности в сцене.In such an example, the anchor image may correspond to a texture atlas that is most suitable for viewing from the anchor position (region). A texture atlas combined with a (non-intersecting) mesh can form a geometric model of an object or scene. In this case, a part of the image may, for example, be one texture in such an atlas, which corresponds to one surface in the scene.

В качестве конкретного примера сцена может содержать некоторые объекты с низким прогнозированием, например, отражающий объект, такой как металлический светильник или загораживающий сам себя объект, такой как ваза с цветами. Устройство 103 формирования двоичного потока может делить части привязочного изображения на разные уровни. Уровень 0 частей привязочного изображения может содержать все объекты в сцене, включающие в себя фон, поэтому по меньшей мере одна привязка (геометрическая модель) уровня 0 будет передана в потоке. Когда зритель перемещается в пространстве, выбор привязки уровня 0 будет меняться.As a specific example, the scene may contain some low prediction objects, such as a reflective object such as a metal lamp or a self-obstructing object such as a vase of flowers. The bitstream generator 103 can divide parts of the anchor image into different levels. Level 0 parts of an anchor image can contain all the objects in the scene that include the background, so at least one anchor (geometry) of level 0 will be streamed. As the viewer moves in space, the level 0 anchor selection will change.

Кроме того, для учета угловой зависимости внешнего вида некоторых объектов привязки более высокого уровня могут содержать частичные модели сцены. Даже в этом случае может быть передана только часть такой привязки, исходя из позиции пользователя. Данное решение основано на прогнозирования частей в привязках уровня выше 1.In addition, to account for the angular dependence of the appearance of some objects, higher-level anchors may contain partial scene models. Even so, only a portion of such an anchor may be passed, based on the user's position. This solution is based on predicting parts in level bindings above 1.

В некоторых вариантах реализации части изображения (или по меньшей мере некоторые из них) могут быть предварительно закодированы. Таким образом, они могут быть закодированы и сохранены в формате, в котором они могут быть непосредственно включены в двоичный поток без всякой необходимости перекодирования или (повторного) кодирования. Вернее, часть изображения, которая подлежит включению в двоичный поток, может быть просто извлечена из хранилища 201 и добавлена в двоичный поток без операции кодирования. Это может весьма существенно снизить сложность и требования к ресурсам в устройстве 103 формирования двоичного потока и обеспечить очень эффективную работу.In some embodiments, parts of the image (or at least some of them) may be pre-encoded. Thus, they can be encoded and stored in a format in which they can be directly included in the bit stream without any need for re-encoding or (re-) encoding. Rather, the part of the image to be included in the bitstream can simply be retrieved from the storage 201 and added to the bitstream without an encoding operation. This can greatly reduce the complexity and resource requirements in the streamer 103 and provide a very efficient operation.

Настоящее изобретение может быть реализовано в любой подходящей форме, включая оборудование, программное обеспечение, встроенное программное обеспечение или любую их комбинацию. Настоящее изобретение необязательно может быть реализовано, по меньшей мере частично, в виде компьютерного программного обеспечения, выполняемого на одном или более процессорах и/или цифровых процессорах сигналов. Элементы и компоненты варианта реализации настоящего изобретения могут быть физически, функционально и логически реализованы любым подходящим образом. В действительности функциональные возможности могут быть реализованы в одном блоке, в множестве блоков или как часть других функциональных блоков. В силу этого настоящее изобретение может быть реализовано в одном блоке или может быть физически или функционально распределено между разными блоками, схемами и процессорами.The present invention may be implemented in any suitable form, including hardware, software, firmware, or any combination thereof. The present invention may optionally be implemented, at least in part, as computer software executing on one or more processors and/or digital signal processors. The elements and components of an embodiment of the present invention may be physically, functionally and logically implemented in any suitable manner. Indeed, functionality may be implemented in a single block, in multiple blocks, or as part of other functional blocks. Because of this, the present invention may be implemented in a single unit, or may be physically or functionally distributed among different units, circuits, and processors.

Хотя настоящее изобретение было описано в связи с некоторыми вариантами реализации, это не следует рассматривать как ограничение конкретной формой, изложенной в настоящем документе. Скорее, объем настоящего изобретения ограничен только прилагаемой формулой изобретения. Кроме того, хотя может показаться, что признак описан в связи с конкретными вариантами реализации, специалисту в данной области понятно, что различные признаки описанных вариантов реализации могут быть объединены в соответствии с настоящим изобретением. В формуле изобретения термин «содержащий/включающий» не исключает присутствия других элементов или этапов.Although the present invention has been described in connection with some embodiments, this should not be construed as a limitation to the particular form set forth herein. Rather, the scope of the present invention is only limited by the appended claims. In addition, while it may appear that a feature is described in connection with particular embodiments, one skilled in the art will appreciate that various features of the described embodiments may be combined in accordance with the present invention. In the claims, the term "comprising/comprising" does not exclude the presence of other elements or steps.

Кроме того, хотя множество средств, элементов, схем или этапов способа перечислены по отдельности, они могут быть реализованы, например, с помощью одной схемы, блока или процессора. Далее, хотя отдельные признаки могут быть включены в разные пункты формулы изобретения, они, возможно, могут быть эффективно объединены, а включение в разные пункты формулы изобретения не означает, что комбинация признаков является неосуществимой и/или невыгодной. Кроме того, включение признака в одну категорию пунктов формулы изобретения не означает ограничения этой категорией, а, скорее, указывает на то, что данный признак в равной степени может быть применен к другим категориям пунктов изобретения, когда это уместно. Кроме того, порядок признаков в формуле изобретения не означает конкретного порядка, в котором эти признаки должны прорабатываться, и, в частности, порядок отдельных этапов в формуле изобретения на способ, не означает, что этапы должны выполняться в данном порядке. Скорее, этапы могут выполняться в любом подходящем порядке. Кроме того, упоминания в единственном числе не исключают множественного числа. Поэтому ссылки с использованием грамматических средств указания единственного числа, прилагательных в единственном числе «первый», «второй» и т.д. не исключают множественного числа. Ссылочные позиции в формуле изобретения приведены исключительно в качестве уточняющего примера и не должны трактоваться как ограничивающие объем формулы изобретения каким-либо образом.In addition, although a plurality of means, elements, circuits, or method steps are listed individually, they may be implemented, for example, using a single circuit, block, or processor. Further, although individual features may be included in different claims, they may be effectively combined, and inclusion in different claims does not imply that the combination of features is not feasible and/or disadvantageous. In addition, the inclusion of a feature in one category of claims does not imply a limitation to that category, but rather indicates that the feature is equally applicable to other categories of claims when appropriate. In addition, the order of the features in the claims does not indicate the specific order in which the features should be worked out, and in particular the order of the individual steps in the claims per method does not mean that the steps must be performed in that order. Rather, the steps may be performed in any suitable order. In addition, references in the singular do not exclude the plural. Therefore, references using grammatical means of indicating the singular, adjectives in the singular "first", "second", etc. do not exclude the plural. Reference positions in the claims are provided solely as a clarifying example and should not be construed as limiting the scope of the claims in any way.

Claims

1. A device for generating a binary image data stream, comprising:

storage (201) for storing a set of image parts and associated depth data representing the scene from different view poses;

prediction processor (203) for generating prediction measures for image parts of a set of image parts for scene view poses, wherein the prediction measure for the first image part for the first view pose indicates a prediction quality score for predicting at least a part of the image for the view window of the first view pose on based on the first subset of image parts of the set of image parts not containing the first image part;

a selector (205) for selecting a second subset of the image parts of the set of image parts in response to the prediction measures; and

a bit stream generator (207) for generating an image bit stream containing image data and depth data from the second subset of image parts;

moreover, the selector (205) is configured to select a plurality of adjacent image parts in response to determining that the plurality of adjacent image parts form an area having a prediction measure below the first threshold value for the interior of the region and a prediction measure above the second threshold value for the boundary part of the region.

2. The apparatus of claim 1, wherein the prediction processor (203) is configured to generate a prediction measure for the first image part as indicative of a prediction quality for predicting the first image part.

3. The device according to any preceding claim, wherein the first subset of the image parts contains only the image parts already included in the bitstream.

4. The apparatus of any preceding claim, wherein the selector (205) is also configured to select a second subset of image parts in response to a measure of visibility for the set of image parts for the target viewing pose, wherein the measure of visibility for the image part indicates how close the image part is to viewport for the target view pose.

5. The device according to any previous claim, wherein at least some of the set of image parts stored in the storage (201) are pre-encoded image parts.

6. The device according to any previous claim, wherein the set of image parts contains facets of polyhedral projections of the scene for various viewing poses.

7. The apparatus of any preceding claim, wherein the portions of the image correspond to a predetermined image split.

8. The device according to any previous claim, also comprising a divider (209) for forming at least some image parts of a set of image parts in response to splitting images based on at least one of the pixel values of the images and the depth values for the images.

9. The apparatus of any preceding claim, wherein at least some of the image parts of the set of image parts are image parts of an image texture atlas that contains texture parts from mesh and texture representations of the scene.

10. The apparatus of any preceding claim, wherein the selector (205) is configured to select image parts for a second subset of image parts in response to a target viewing pose received from a remote source.

11. An apparatus according to any preceding claim, wherein at least some parts of the image are covered.

12. The apparatus of any preceding claim, wherein the prediction processor (203) is configured to generate a prediction measure for the first image part in response to associated depth data for the first image part.

13. A method for generating a binary image data stream, including:

storing a set of image parts and associated depth data representing the scene from different view poses;

generating prediction measures for image parts of a set of image parts for scene view poses, wherein the prediction measure for the first image part for the first view pose indicates a prediction quality score for predicting at least an image part for the viewport of the first view pose based on a first subset of the image parts of the set parts of the image that does not contain the first part of the image;

selecting a second subset of the image parts of the set of image parts in response to the prediction measures; and

generating an image bit stream containing image data and depth data from the second subset of image parts;

wherein the selection includes selecting a plurality of adjacent image parts in response to determining that the plurality of adjacent image parts form an area having a prediction measure below a first threshold for an interior portion of the area and a prediction measure above a second threshold for a boundary portion of the area.