RU2778456C2 - Device and method for formation of binary image data flow - Google Patents
Device and method for formation of binary image data flow Download PDFInfo
- Publication number
- RU2778456C2 RU2778456C2 RU2020125985A RU2020125985A RU2778456C2 RU 2778456 C2 RU2778456 C2 RU 2778456C2 RU 2020125985 A RU2020125985 A RU 2020125985A RU 2020125985 A RU2020125985 A RU 2020125985A RU 2778456 C2 RU2778456 C2 RU 2778456C2
- Authority
- RU
- Russia
- Prior art keywords
- image
- parts
- prediction
- image parts
- scene
- Prior art date
Links
- 230000015572 biosynthetic process Effects 0.000 title abstract description 12
- 238000005755 formation reaction Methods 0.000 title abstract description 4
- 230000003044 adaptive Effects 0.000 abstract description 4
- 230000000694 effects Effects 0.000 abstract 1
- 238000001303 quality assessment method Methods 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 238000009877 rendering Methods 0.000 description 27
- 230000000875 corresponding Effects 0.000 description 20
- 230000002194 synthesizing Effects 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 8
- 230000027455 binding Effects 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000036961 partial Effects 0.000 description 4
- 230000000670 limiting Effects 0.000 description 3
- 230000002708 enhancing Effects 0.000 description 2
- 230000004301 light adaptation Effects 0.000 description 2
- 229910052751 metal Inorganic materials 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 230000001131 transforming Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004873 anchoring Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000000034 method Methods 0.000 description 1
- 230000000116 mitigating Effects 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006011 modification reaction Methods 0.000 description 1
- 230000000414 obstructive Effects 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 230000002829 reduced Effects 0.000 description 1
- 230000003068 static Effects 0.000 description 1
- 230000003313 weakening Effects 0.000 description 1
Images
Abstract
Description
ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY
Настоящее изобретение относится к формированию двоичного потока данных изображения и, в частности, но не исключительно, к формированию двоичного потока данных изображения, обеспечивающего адаптивное трехмерное представление сцены.The present invention relates to the generation of an image bitstream, and in particular, but not exclusively, to the generation of an image bitstream providing an adaptive 3D representation of a scene.
УРОВЕНЬ ТЕХНИКИBACKGROUND OF THE INVENTION
Благодаря непрерывному развитию и введению новых услуг и способов использования и потребления видео в последние годы произошел значительный рост разнообразия и диапазона приложений для изображений и видео.With the continuous development and introduction of new services and ways to use and consume video, there has been a significant increase in the variety and range of image and video applications in recent years.
Например, одной из набирающих все большую популярность услуг является предоставление последовательностей изображений таким образом, чтобы зритель мог активно и динамически взаимодействовать с системой для изменения параметров отрисовки. Весьма привлекательной особенностью многих приложений является возможность изменения эффективного положения обзора и направления обзора (позы обзора) зрителя, чтобы, например, зритель мог перемещаться и «оглядываться вокруг» в представляемой сцене.For example, one service that is gaining popularity is providing image sequences in such a way that the viewer can actively and dynamically interact with the system to change rendering parameters. A very attractive feature of many applications is the ability to change the effective viewing position and viewing direction (viewing posture) of the viewer so that, for example, the viewer can move and "look around" in the scene being presented.
Такая функция может, в частности, давать пользователю ощущение виртуальной реальности. Благодаря этому пользователь может (относительно) свободно передвигаться в виртуальной среде и динамически изменять свое положение и направление, в котором он смотрит. Как правило, такие приложения виртуальной реальности основаны на трехмерной модели сцены, причем модель динамически оценивается для обеспечения конкретного запрошенного вида. Данный подход хорошо известен, например, из игровых приложений для компьютеров и консолей, например, из категории шутеров от первого лица.Such a function may in particular provide the user with a virtual reality experience. Due to this, the user can move (relatively) freely in the virtual environment and dynamically change his position and the direction in which he looks. Typically, such virtual reality applications are based on a 3D scene model, with the model being dynamically evaluated to provide the particular requested look. This approach is well known, for example, from gaming applications for computers and consoles, for example, from the category of first-person shooters.
Также желательно, в частности, для приложений виртуальной реальности, чтобы представляемое изображение было трехмерным изображением. Действительно, для оптимизации погружения зрителя, как правило, предпочтительно, чтобы пользователь ощущал представленную сцену как трехмерную сцену. Ведь ощущение виртуальной реальности предпочтительно должно позволять пользователю выбирать свое собственное положение, точку обзора камеры и момент времени относительно виртуального мира.It is also desirable, particularly for virtual reality applications, that the displayed image be a three-dimensional image. Indeed, in order to optimize the viewer's immersion, it is generally preferred that the user experience the presented scene as a three-dimensional scene. After all, the virtual reality experience should preferably allow the user to choose their own position, camera viewpoint, and point in time relative to the virtual world.
Главная проблема в поддержке различных услуг, основанных, в частности, на трехмерных, представлениях сцены, заключается в том, что требуется большой объем данных. Это приводит к высоким требованиям к ресурсам, таким как потребность в больших ресурсах хранилища. Однако во многих ситуациях самым большим ограничением являются не требования к хранению и обработке, а требования к обмену данными. Если требуется, чтобы данные, представляющие сцену, передавались по каналу связи с ограниченной полосой пропускания (будь то внутренний или внешний), крайне желательно попытаться уменьшить объем данных, подлежащих передаче.The main problem in supporting various services based in particular on 3D scene representations is that a large amount of data is required. This results in high resource requirements, such as the need for large storage resources. However, in many situations, the biggest constraint is not the storage and processing requirements, but the data exchange requirements. If it is required that data representing a scene be transmitted over a limited bandwidth communication channel (whether internal or external), it is highly desirable to try to reduce the amount of data to be transmitted.
Например, во многих ситуациях и многих приложениях может быть использован подход «клиент-сервер», в котором удаленный клиент, исполняющий, например, приложение виртуальной реальности, соединен с центральной службой, которая предоставляет требуемые данные сцены по линии связи с ограниченной полосой пропускания. Однако многовидовое представление будет, как правило, связано с высокой скоростью передачи битов (даже без информации о глубине требуется высокая скорость передачи битов, и в действительности она может быть даже еще выше в этом случае, поскольку потребуются больше видов). Например, воспроизведение виртуальной реальности со свободой движения потребует разных видов сцены при скорости, с которой наблюдатель движется через 3D-пространство. Проблема обеспечения достаточных данных по такому каналу связи весьма сложна для решения на практике.For example, in many situations and many applications, a client-server approach may be used in which a remote client running, for example, a virtual reality application is connected to a central service that provides the required scene data over a limited bandwidth link. However, a multi-view representation will typically be associated with a high bit rate (even without depth information, a high bit rate is required, and in fact it may be even higher in this case as more views are required). For example, rendering virtual reality with freedom of movement will require different views of the scene at the speed at which the observer is moving through 3D space. The problem of providing sufficient data over such a communication channel is very difficult to solve in practice.
Для эффективной потоковой передачи информации о 3D-геометрии и текстуре по каналам связи с ограниченной полосой пропускания, в особенности для использования в сетях, таких как Интернет, были предложены несколько форматов. Например, стандарт формата всенаправленного медиа (Omnidirectional MediA Format, OMAF) MPEG будет включать потоковую передачу мозаичных элементов 360-градусного видео (3 степени свободы - Degrees of Freedom, DoF)) с использованием динамической адаптивной потоковой передачи данных по HTTP (MPEG DASH). Ожидается, что будущая версия OMAF будет поддерживать ограниченный параллакс при перемещении (3DoF+).Several formats have been proposed for efficient streaming of 3D geometry and texture information over limited bandwidth communication channels, especially for use on networks such as the Internet. For example, the MPEG Omnidirectional MediA Format (OMAF) standard will enable streaming of 360-degree video tiles (3 degrees of freedom - Degrees of Freedom, DoF) using Dynamic Adaptive Streaming over HTTP (MPEG DASH). A future version of OMAF is expected to support limited parallax while moving (3DoF+).
Как упоминалось, на практике наиболее актуальной проблемой в многовидовом представлении с кодированием глубины часто являются не потребности в хранении, а, скорее, ширина полосы пропускания и задержка передачи. Чтобы восприятие было плавным, изображения должны во время поступать в гарнитуру. Тем не менее, хотя разработанные форматы и кодировки направлены на уменьшение скорости передачи данных, она все еще остается, как правило, основным ограничением для качества изображения и восприятия пользователя, которые могут быть достигнуты на стороне клиента.As mentioned, in practice, the most pressing issue in depth-encoded multiview is often not storage requirements, but rather bandwidth and transmission delay. In order for the perception to be smooth, the images must arrive at the headset on time. However, although the developed formats and encodings aim to reduce the data transfer rate, it still remains, as a rule, the main limitation for the image quality and user experience that can be achieved on the client side.
Следовательно, усовершенствованный подход к формированию и использованию двоичных потоков данных изображения был бы полезен. В частности, был бы полезен подход, который позволяет улучшать работу, спосбствовать работе, улучшать представление сцены, повышать гибкость, спосбствовать реализации, спосбствовать работе, уменьшать объем данных, снижать требования к ресурсам хранения, распределения и/или обработки данных, улучшать адаптируемость и/или улучшать производительность.Therefore, an improved approach to the generation and use of binary image data streams would be useful. In particular, an approach that improves performance, facilitates performance, enhances scene presentation, enhances flexibility, facilitates implementation, facilitates performance, reduces data volume, reduces storage, distribution and/or processing resource requirements, improves adaptability and/ or improve performance.
РАСКРЫТИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯDISCLOSURE OF THE INVENTION
Соответственно, настоящее изобретение направлено предпочтительно на ослабление, смягчение или устранение одного или более из вышеупомянутых недостатков по отдельности или в любой комбинации.Accordingly, the present invention is preferably directed to the weakening, mitigation or elimination of one or more of the above disadvantages individually or in any combination.
Согласно аспекту настоящего изобретения предложено устройство для формирования двоичного потока данных изображения, содержащее: хранилище для хранения набора частей изображения и связанных данных глубины, представляющих сцену из различных поз обзора; процессор прогнозирования для формирования мер прогнозирования для частей изображения набора частей изображения для поз обзора сцены, причем мера прогнозирования для первой части изображения для первой позы обзора указывает на оценку качества прогнозирования для прогнозирования по меньшей мере части изображения для окна просмотра первой позы обзора на основе первого подмножества частей изображения набора частей изображения, не содержащего первую часть изображения; селектор для выбора второго подмножества частей изображения набора частей изображения в ответ на меры прогнозирования и генератор двоичного потока для формирования двоичного потока изображения, содержащего данные изображения и данные глубины из второго подмножества частей изображения, причем селектор выполнен с возможностью выбора множества смежных частей изображения в ответ на определение того, что множество смежных частей изображения образуют область, имеющую меру прогнозирования ниже первого порогового значения для внутренней части области и меру прогнозирования выше второго порогового значения для пограничной части области.According to an aspect of the present invention, there is provided an apparatus for generating a binary image data stream, comprising: a storage for storing a set of image parts and associated depth data representing a scene from different viewing poses; a prediction processor for generating prediction measures for the image parts of the set of image parts for the scene view poses, wherein the prediction measure for the first image part for the first view pose indicates a prediction quality score for predicting at least a part of the image for the viewport of the first view pose based on the first subset image parts of a set of image parts not containing the first image part; a selector for selecting a second subset of image parts of a set of image parts in response to the prediction measures; and a bitstream generator for generating an image bitstream containing image data and depth data from the second subset of image parts, wherein the selector is configured to select a plurality of adjacent image parts in response to determining that the plurality of adjacent portions of the image form an area having a prediction measure below a first threshold for an interior portion of the area and a prediction measure above a second threshold for a boundary portion of the area.
Настоящее изобретение может обеспечивать улучшенное формирование двоичного потока, обеспечивающее представление сцены, такое как, например, обеспечивающее адаптивное трехмерное представление сцены, например, для приложений виртуальной реальности. Данный подход может обеспечивать снижение сложности во многих ситуациях. Во многих ситуациях он может обеспечить существенное снижение скорости передачи данных для двоичного потока и/или улучшенное качество. Во многих ситуациях может быть достигнут улучшенный компромисс между качеством/скоростью передачи данных.The present invention may provide improved bitstreaming providing a scene representation such as, for example, providing an adaptive 3D scene representation, for example for virtual reality applications. This approach can provide a reduction in complexity in many situations. In many situations, it can provide a significant reduction in the data rate for the bitstream and/or improved quality. In many situations, an improved quality/data rate trade-off can be achieved.
Мера прогнозирования для части изображения и позы обзора может указывать на качество прогнозирования части изображения для изображения сцены для той позы обзора, в которой выполняют прогнозирование в пределах использования части изображения, для которой определяют меру прогнозирования.The prediction measure for the image part and the viewing pose may indicate the quality of the prediction of the image part for the scene image for the viewing pose at which prediction is performed within the use of the image part for which the prediction measure is determined.
Связанные данные глубины для части изображения могут быть данными глубины, которые указывают на расстояния от точки обзора для части изображения до объектов на части изображения.The associated depth data for the image part may be depth data that indicates distances from the viewpoint for the image part to objects in the image part.
В соответствии с дополнительной особенностью настоящего изобретения процессор прогнозирования выполнен с возможностью формирования меры прогнозирования для первой части изображения, как указывающей на качество прогнозирования для прогнозирования первой части изображения.According to a further feature of the present invention, the prediction processor is configured to generate a prediction measure for the first image part as indicative of the prediction quality for predicting the first image part.
Это может обеспечить особенно эффективную и высокопроизводительную работу во многих ситуациях и вариантах реализации. Это может обеспечить улучшенную адаптацию двоичного потока к конкретным свойствам сцены и/или использованию двоичного потока.This can provide particularly efficient and high performance performance in many situations and implementations. This may provide improved adaptation of the bitstream to specific scene properties and/or use of the bitstream.
Мера прогнозирования для первой части изображения может указывать на качество прогнозирования первой части изображения на основе одной или более других частей изображения сохраненного набора частей изображения.The prediction measure for the first part of the image may indicate the quality of the prediction of the first part of the image based on one or more other parts of the image of the stored set of parts of the image.
В соответствии с дополнительной особенностью настоящего изобретения первое подмножество частей изображения содержит только части изображения, уже включенные в двоичный поток.In accordance with a further feature of the present invention, the first subset of image parts contains only image parts already included in the bit stream.
Это может обеспечить особенно эффективную и высокопроизводительную работу во многих ситуациях и вариантах реализации и может, в частности, обеспечить подход, в котором части изображения предоставляют по мере и в случае необходимости дополнительных данных, чтобы приемник двоичного потока синтезировал изображения вида достаточного качества.This may provide particularly efficient and high performance performance in many situations and implementations, and may in particular provide an approach in which portions of an image provide additional data as and when necessary so that the bitstream receiver synthesizes images of sufficient quality.
В соответствии с дополнительной особенностью настоящего изобретения селектор также выполнен с возможностью выбора второго подмножества частей изображения в ответ на меру видимости для набора частей изображения для целевой позы обзора, причем мера видимости для части изображения указывает, насколько близка часть изображения к окну просмотра для целевой позы обзора.In accordance with a further feature of the present invention, the selector is also configured to select a second subset of image parts in response to a visibility measure for a set of image parts for a target viewing pose, where the visibility measure for the image part indicates how close the image part is to the viewing window for the target viewing pose .
Это может обеспечить особенно эффективную и высокопроизводительную работу во многих ситуациях и вариантах реализации. Это может обеспечить улучшенную адаптацию формирования двоичного потока к конкретным свойствам сцены и/или использованию двоичного потока.This can provide particularly efficient and high performance performance in many situations and implementations. This may provide improved tailoring of the bitstream generation to particular scene properties and/or the use of the bitstream.
В соответствии с дополнительной особенностью настоящего изобретения по меньшей мере некоторые из набора частей изображения, хранящегося в хранилище, являются предварительно закодированными частями изображения.In accordance with a further feature of the present invention, at least some of the set of image parts stored in the storage are pre-encoded image parts.
Это может обеспечить особенно эффективный подход и может существенно снизить требования к вычислительным возможностям устройства для формирования двоичного потока. Например, части изображения могут быть закодированы один раз, и затем сохраненные закодированные части изображения могут быть использованы повторно при каждом последующем формировании двоичного потока.This may provide a particularly efficient approach and may significantly reduce the computational requirements of the device for generating the bitstream. For example, parts of an image may be encoded once, and then the stored encoded parts of the image may be reused on each subsequent bitstream generation.
Устройство может быть выполнено с возможностью извлечения закодированных частей изображения из хранилища и включения их в двоичный поток без всякого кодирования изображения или перекодирования части изображения.The apparatus may be configured to retrieve the encoded portions of an image from storage and include them in a bit stream without any image encoding or re-encoding of the image part.
В соответствии с дополнительной особенностью настоящего изобретения набор частей изображения содержит грани многогранных проекций сцены для различных поз обзора.In accordance with a further feature of the present invention, the set of image parts contains facets of polyhedral projections of the scene for various viewing poses.
Это может обеспечить особенно эффективную и высокопроизводительную работу во многих ситуациях и вариантах реализации. Это может также обеспечить совместимость со многими другими алгоритмами обработки изображения.This can provide particularly efficient and high performance performance in many situations and implementations. It may also provide compatibility with many other image processing algorithms.
В соответствии с дополнительной особенностью настоящего изобретения части изобретения соответствуют заданному разбиению изображений.In accordance with a further feature of the present invention, parts of the invention correspond to a given partition of images.
Это может обеспечить улучшенную производительность во многих вариантах реализации и может во многих вариантах реализации обеспечить более эффективный выбор данных, особенно полезных для синтеза вида на основе двоичного потока.This may provide improved performance in many implementations and may in many implementations provide more efficient data selection, particularly useful for view synthesis based on a binary stream.
В соответствии с дополнительной особенностью настоящего изобретения устройство также содержит разделитель для формирования по меньшей мере некоторых частей изображения набора частей изображения в ответ на разбиение изображений на основе по меньшей мере одного из значений пикселя изображений и значений глубины для изображений.In accordance with a further feature of the present invention, the device also includes a divider for forming at least some of the image parts of a set of image parts in response to splitting images based on at least one of the image pixel values and image depth values.
Это может обеспечить особенно эффективную и несложную работу во многих ситуациях и вариантах реализации. Это может также обеспечить совместимость со многими другими алгоритмами обработки изображения.This can provide particularly efficient and uncomplicated operation in many situations and implementations. It may also provide compatibility with many other image processing algorithms.
В соответствии с дополнительной особенностью настоящего изобретения по меньшей мере некоторые части изображения набора частей изображения являются частями изображения текстурного атласа изображения, который содержит части текстуры из сеточных и текстурных представлений сцены.In accordance with a further feature of the present invention, at least some of the image parts of the image part set are image parts of an image texture atlas that contains texture parts from mesh and texture representations of the scene.
Это может обеспечить особенно эффективную и высокопроизводительную работу во многих ситуациях и вариантах реализации. Это может также обеспечить совместимость со многими другими алгоритмами обработки изображения.This can provide particularly efficient and high performance performance in many situations and implementations. It may also provide compatibility with many other image processing algorithms.
Селектор выполнен с возможностью выбора частей изображения для второго подмножества частей изображения в ответ на целевую позу обзора, принятую от удаленного источника.The selector is configured to select image parts for a second subset of image parts in response to a target viewing pose received from a remote source.
Это может обеспечить особенно привлекательную работу во многих вариантах реализации и может, например, сделать возможной систему, в которой устройство может динамически формировать двоичный поток, обеспечивающий наиболее существенную информацию, например, приложению виртуальной реальности, в котором виртуальный наблюдатель перемещается в сцене.This may provide particularly attractive performance in many implementations and may, for example, enable a system where a device can dynamically generate a bitstream providing the most relevant information, such as a virtual reality application in which a virtual observer moves around in a scene.
В соответствии с дополнительной особенностью настоящего изобретения селектор выполнен с возможностью выбора множества смежных частей изображения в ответ на определение того, что множество смежных частей изображения образуют область, имеющую меру качества прогнозирования ниже первого порогового значения для внутренней части областей и меру качества прогнозирования выше второго порогового значения для пограничной части области.In accordance with a further feature of the present invention, the selector is configured to select a plurality of adjacent image parts in response to determining that the plurality of adjacent image parts form an area having a prediction quality measure below a first threshold for the interior of the areas and a prediction quality measure above a second threshold. for the border area.
Это может обеспечить особенно эффективную и высокопроизводительную работу во многих ситуациях и вариантах реализации.This can provide particularly efficient and high performance performance in many situations and implementations.
В соответствии с дополнительной особенностью настоящего изобретения по меньшей мере некоторые части изображения перекрываются.In accordance with a further feature of the present invention, at least some parts of the image overlap.
Это может обеспечить особенно эффективную и высокопроизводительную работу во многих ситуациях и вариантах реализации.This can provide particularly efficient and high performance performance in many situations and implementations.
В соответствии с дополнительной особенностью настоящего изобретения процессор прогнозирования выполнен с возможностью формирования меры прогнозирования для первой части изображения в ответ на связанные данные глубины для первой части изображения.In accordance with a further aspect of the present invention, the prediction processor is configured to generate a prediction measure for the first image part in response to associated depth data for the first image part.
Это может обеспечить особенно полезную меру прогнозирования во многих вариантах реализации и может, например, позволить снизить сложность реализации, которая, тем не менее, позволяет очень точную и эффективную адаптацию.This may provide a particularly useful predictive measure in many implementations and may, for example, allow a reduction in implementation complexity that nevertheless allows very accurate and efficient adaptation.
Согласно аспекту настоящего изобретения предложен способ формирования двоичного потока данных изображения, включающий: хранение набора частей изображения и связанных данных глубины, представляющих сцену из различных поз обзора; формирование мер прогнозирования для частей изображения набора частей изображения для поз обзора сцены, причем мера прогнозирования для первой части изображения для первой позы обзора указывает на оценку качества прогнозирования для прогнозирования по меньшей мере части изображения для окна просмотра первой позы обзора на основе первого подмножества частей изображения набора частей изображения, не содержащего первую часть изображения; выбор второго подмножества частей изображения набора частей изображения в ответ на меры прогнозирования и формирование двоичного потока изображения, содержащего данные изображения и данные глубины из второго подмножества частей изображения, причем выбор включает выбор множества смежных частей изображения в ответ на определение того, что множество смежных частей изображения образуют область, имеющую меру прогнозирования ниже первого порогового значения для внутренней части области и меру прогнозирования выше второго порогового значения для пограничной части области.According to an aspect of the present invention, there is provided a method for generating a binary image data stream, comprising: storing a set of image parts and associated depth data representing a scene from various viewing poses; generating prediction measures for image parts of a set of image parts for scene view poses, wherein the prediction measure for the first image part for the first view pose indicates a prediction quality score for predicting at least an image part for the viewport of the first view pose based on a first subset of the image parts of the set parts of the image that does not contain the first part of the image; selecting a second subset of image parts of the set of image parts in response to the prediction measures, and generating an image bit stream containing image data and depth data from the second subset of image parts, the selection comprising selecting a plurality of adjacent image parts in response to determining that the plurality of adjacent image parts forming an area having a prediction measure below the first threshold value for the interior of the region and a prediction measure above the second threshold value for the boundary part of the region.
Эти и другие аспекты, особенности и/или преимущества настоящего изобретения станут очевидны из вариантов реализации, описанных далее в этом документе, и будут пояснены со ссылкой на данные варианты реализации.These and other aspects, features and/or advantages of the present invention will become apparent from the embodiments described later in this document and will be explained with reference to these implementation options.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS
Варианты реализации изобретения будут описаны только на примерах со ссылкой на чертежи, где:Embodiments of the invention will be described by way of example only with reference to the drawings, where:
на ФИГ. 1 показан пример элементов системы обработки изображения в соответствии с некоторыми вариантами реализации настоящего изобретения;in FIG. 1 shows an example of elements of an image processing system in accordance with some embodiments of the present invention;
на ФИГ. 2 показан пример устройства для формирования двоичного потока в соответствии с некоторыми вариантами реализации настоящего изобретения;in FIG. 2 shows an example of an apparatus for generating a bitstream in accordance with some embodiments of the present invention;
на ФИГ. 3 показан пример сцен и связанных свойств качества прогнозирования;in FIG. 3 shows an example of scenes and associated prediction quality properties;
на ФИГ. 4 показан пример выбора частей привязочного изображения для двоичного потока в соответствии с некоторыми вариантами реализации настоящего изобретения;in FIG. 4 shows an example of selecting parts of an anchor image for a bitstream in accordance with some embodiments of the present invention;
на ФИГ. 5 показан пример плиток изображения сцены;in FIG. 5 shows an example of scene image tiles;
на ФИГ. 6 показан пример выбора частей привязочного изображения для двоичного потока в соответствии с некоторыми вариантами реализации настоящего изобретения;in FIG. 6 shows an example of selecting parts of an anchor image for a bitstream in accordance with some embodiments of the present invention;
на ФИГ. 7 показан пример видов сцены; иin FIG. 7 shows an example of scene views; and
на ФИГ. 8 показан пример выбора частей привязочного изображения для двоичного потока в соответствии с некоторыми вариантами реализации настоящего изобретения.in FIG. 8 shows an example of selecting parts of an anchor image for a bitstream in accordance with some embodiments of the present invention.
ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯIMPLEMENTATION OF THE INVENTION
В следующем описании основное внимание уделяется вариантам реализации настоящего изобретения, которые могут быть применены для формирования потока данных изображения для приложения виртуальной реальности. Однако следует понимать, что настоящее изобретение не ограничивается этим приложением, а может быть применено, например, во многих других приложениях для обработки и отрисовки изображения.The following description focuses on embodiments of the present invention that can be applied to generate an image data stream for a virtual reality application. However, it should be understood that the present invention is not limited to this application, but can be applied, for example, to many other applications for image processing and rendering.
На ФИГ. 1 показан пример системы, которая может реализовать примеры и модификации вариантов реализации идеи изобретения.FIG. 1 shows an example of a system that can implement examples and modifications of embodiments of the inventive idea.
В этом примере клиент в виде устройства 101 отрисовки изображения выполнен с возможностью формирования изображений, представляющих сцену с различных точек обзора, т.е. могут быть сформированы изображения, соответствующие разным окнам просмотра для разных поз обзора сцены. Устройство 101 отрисовки изображения выполнено с возможностью приема двоичного потока данных изображения, который содержит части изображения, а также связанную глубину, обеспечивая тем самым частичное трехмерное представление изображения сцены. После этого оно может на основе принятых данных формировать надлежащие изображения, соответствующие данному окну просмотра и позе. В примере двоичный поток данных изображения принимают из устройства 103 формирования двоичного потока, которое действует как удаленный сервер. Устройство 103 формирования двоичного потока выполнено с возможностью предоставления двоичного потока данных изображения через сеть 105, которая может быть, например, Интернетом. В конкретном примере удаленный сервер 103 представляет собой сервер виртуальной реальности, который обеспечивает трехмерные данные изображения, представляющие трехмерную среду для устройства 101 отрисовки изображения для формирования видов, соответствующих, например, виртуальному перемещению пользователя в среде.In this example, the client in the form of an
В данной области термины расположение или поза используют в качестве общего термина для положения и/или направления/ориентации, а комбинацию положения и/или направления/ориентации, например, объекта, камеры или вида, в действительности обычно называют позой или расположением. Таким образом, указание расположения или позы может включать шесть значений/компонентов/степеней свободы, причем каждые значение/компонент/степень свободы описывают отдельное свойство положения/местоположения или ориентации/направления соответствующего объекта. Конечно, во многих ситуациях расположение или поза могут быть учтены или представлены с использованием меньшего числа компонентов, например, если один или более компонентов считают фиксированными или не относящимися к делу (например, если все объекты считают расположенными на одной и той же высоте и имеющими горизонтальную ориентацию, то полное представление позы объекта могут обеспечить четыре компонента). Далее термин «поза» используется для ссылки на положение и/или ориентацию, которые могут быть представлены от одного до шести значениями (соответствующими максимально возможным степеням свободы). Описание будет сосредоточено на вариантах реализации и примерах, в которых поза имеет максимум степеней свободы, т.е. по три степени свободы каждого из положения и ориентации, дающих в результате в общей сложности шесть степеней свободы (6DoF). Таким образом, поза может быть представлена набором или вектором из шести значений, представляющих шесть степеней свободы и, следовательно, вектор позы может обеспечивать указание трехмерного положения и/или трехмерного направления. Однако понятно, что в других вариантах реализации поза может быть представлена меньшим количеством значений.In the art, the terms position or pose are used as a general term for position and/or direction/orientation, and a combination of position and/or direction/orientation, such as an object, camera, or view, is actually commonly referred to as a pose or position. Thus, a location or pose indication may include six values/components/degrees of freedom, with each value/component/degree of freedom describing a separate property of the position/location or orientation/direction of the respective object. Of course, in many situations, location or pose can be accounted for or represented using fewer components, for example, if one or more components is considered fixed or irrelevant (for example, if all objects are considered to be located at the same height and have a horizontal orientation, four components can provide a complete representation of the object's pose). Hereinafter, the term "pose" is used to refer to the position and/or orientation, which can be represented by one to six values (corresponding to the maximum possible degrees of freedom). The description will focus on implementations and examples where the pose has the maximum degrees of freedom, i.e. three degrees of freedom each of position and orientation, resulting in a total of six degrees of freedom (6DoF). Thus, a pose may be represented by a set or vector of six values representing six degrees of freedom, and therefore a pose vector may provide an indication of a 3D position and/or a 3D direction. However, it is understood that in other implementations, the pose may be represented by fewer values.
Во многих приложениях трехмерное представление изображения сцены, присутствующее на сервере, может быть сформировано из захвата сцены или среды реального мира с использованием, например, воспринимающих глубину камер. Это позволяет захватывать визуальные свойства наряду с трехмерной информацией. Для достаточного захвата сцены принято использовать зачастую очень большое количество захватов, соответствующих разным позам обзора. В некоторых приложениях для обеспечения точного и подробного представления всей сцены из различных поз обзора могут быть использованы несколько сотен или даже тысяч изображений (со связанной информацией о глубине).In many applications, a 3D representation of a scene image present on a server may be generated from a capture of a real world scene or environment using, for example, depth sensing cameras. This allows visual properties to be captured along with 3D information. To sufficiently capture the scene, it is customary to use often a very large number of captures corresponding to different viewing poses. In some applications, several hundred or even thousands of images (with associated depth information) may be used to provide an accurate and detailed representation of the entire scene from various viewing poses.
Виртуальное представление данных сцены является критическим фактором в обеспечении эффективного восприятия пользователем. Необходимо, чтобы данные, описывающие сцену, обеспечивали точное представление как визуальных свойств, так и пространственных свойств. В то же время крайне важно уменьшать объем данных, необходимых для представления сцены, поскольку во многих приложениях это, как правило, является ограничивающим фактором для качества, которое может быть достигнуто.The virtual representation of the scene data is a critical factor in providing an effective user experience. It is necessary that the data describing the scene provide an accurate representation of both visual properties and spatial properties. At the same time, it is critical to reduce the amount of data needed to represent a scene, as in many applications this tends to be the limiting factor in the quality that can be achieved.
В частности, требуется снабжать достаточной информацией устройство 101 отрисовки изображения, чтобы оно могло локально формировать подходящие изображения, соответствующие требуемым позам обзора, например, путем выполнения сдвига точки обзора, как известно специалисту в данной области. Однако в то же время требуется поддерживать небольшим объем передаваемых данных и задержку на низком уровне. Во многих ситуациях ограниченная полоса пропускания связи является ограничивающим фактором в стремлении обеспечить высокое качество восприятия пользователем за счет высокого качества и малой задержки.In particular, it is required to supply sufficient information to the
Кроме того, преобразование снимков камер, воспринимающих глубину, в представление данных среды/сцены часто является очень сложной задачей и может приводить к ошибкам и артефактам. Например, в некоторых приложениях данные снимков могут быть использованы для разработки трехмерной модели сцены реального мира. Затем путем оценки модели из конкретной точки обзора могут быть сформированы изображения вида для обеспечения пользователя ощущением трехмерной виртуальной реальности. В других приложениях изображения для конкретных окон просмотра или точек обзора могут быть непосредственно сформированы из захваченных изображений и информации о глубине, например, путем выбора одного или более ближайших захваченных изображений и выполнения сдвига точки обзора для приведения в соответствие с требуемой точкой обзора, или, в некоторых случаях, путем непосредственного использования захваченных изображений.In addition, converting depth-sensing camera shots to environment/scene representations is often very complex and can lead to errors and artifacts. For example, in some applications, imagery data can be used to develop a 3D model of a real world scene. View images can then be generated by evaluating the model from a particular viewpoint to provide the user with a 3D virtual reality experience. In other applications, images for particular viewports or viewpoints may be directly generated from captured images and depth information, for example, by selecting one or more nearby captured images and performing a viewpoint shift to match the desired viewpoint, or, in some cases, by directly using the captured images.
В данном случае сцену представляют в области изображения с помощью набора изображений вместе с данными глубины. Во многих вариантах реализации изображения могут обеспечивать визуальную информацию, отражающую вид данной точки обзора для данной позы обзора, а данные глубины могут представлять глубину пикселей или объектов на изображении. В частности, каждое изображение может соответствовать данному захвату для данной позы обзора для сцены, причем данные глубины представляют собой сопутствующую карту глубины, как известно специалисту в данной области. В некоторых вариантах реализации изображения могут быть изображениями текстурного атласа изображения или текстурных карт, а данные глубины могут быть сетками, обеспечивающими сеточное и текстурное представление сцены, как будет описано подробнее позже.In this case, the scene is represented in the image area by a set of images along with depth data. In many implementations, images may provide visual information that reflects the appearance of a given viewpoint for a given viewing pose, and depth data may represent the depth of pixels or objects in the image. In particular, each image may correspond to a given capture for a given viewing pose for the scene, the depth data being an accompanying depth map as known to one of skill in the art. In some implementations, the images may be image texture atlas images or texture maps, and the depth data may be grids providing a grid and texture representation of the scene, as will be described in more detail later.
Устройство 103 формирования двоичного потока может, соответственно, содержать изображения и связанные данные глубины, представляющие сцену из набора поз обзора, и, в частности, изображения и данные глубины могут быть захваченными данными. Устройство 103 формирования двоичного потока, соответственно, хранит представление 3D-сцены в виде набора изображений с глубиной для дискретного набора поз обзора. Позы обзора, для которых такие изображения имеются, также будут называться «привязочными позами обзора», а изображения будут называться «привязочными изображениями вида».The
Изображения могут быть далее разделены на части изображения и, как правило, устройство 103 формирования двоичного потока может содержать большой набор частей привязочного изображения для привязочных поз. В некоторых вариантах реализации части изображения могут быть сформированы путем (активной) сегментации или разделения привязочных изображений В других вариантах реализации часть изображения может, например, содержать все данные, имеющиеся для данной привязочной позы, т.е. часть изображения может быть полным изображением для данной привязки.Images can be further divided into image parts, and typically, the
Устройство 103 формирования двоичного потока, соответственно, содержит (потенциально частичное, но часто по существу полное) трехмерное изображение, представляющее сцену посредством набора частей изображения и связанных карт глубины.The
Для каждой части светоинтенсивного/текстурного изображения устройство 103 формирования двоичного потока хранит связанную карту глубины, обеспечивающую информацию о глубине для пикселей частей светоинтенсивного/текстурного изображения. Карта глубины может, как правило, содержать значения глубины, которые указывают на расстояние от данного положения обзора до объекта в направлении обзора, соответствующем позиции значения глубины. Значение глубины может быть, например, тем больше, чем больше расстояния от точки обзора до объекта, или может быть тем меньше, чем больше расстояние от точки обзора до объекта. Значения глубины во многих вариантах реализации предоставляют в виде значений диспаратности.For each light intensity/texture image part, the
Предоставление информации как о глубине, так и об изображении (текстуре) может обеспечивать дополнительную информацию, позволяющую улучшать обработку устройством 101 отрисовки изображения. В частности, это может позволить, либо облегчить либо улучшить, формирование других изображений вида для поз обзора, отличных от привязочных поз обзора.Providing information about both depth and image (texture) can provide additional information to improve the
Для облегчения такой обработки желательно, чтобы расстояние между позами обзора было как можно меньше. В частности, большое расстояние между привязочными позами приводит к видимым незаслоненным зонам и требует очень точных карт глубины или сеточных моделей для синтеза промежуточных видов. Блок отрисовки может заполнять незаслоненные зоны путем комбинирования нескольких привязок, но это требует больше ресурсов для передачи, декодирования и отрисовки и имеет тенденцию снижать качество.To facilitate such processing, it is desirable that the distance between the viewing positions is as small as possible. In particular, large distances between anchor poses result in visible unobscured areas and require very accurate depth maps or mesh models to synthesize intermediate views. The renderer can fill in the unshielded areas by combining multiple bindings, but this requires more resources to transmit, decode, and render, and tends to reduce quality.
Однако небольшое расстояние между привязками приводит к увеличению скорости передачи битов, которая, как правило, особенно высокая для приложений, таких как приложения виртуальной реальности, допускающие свободное перемещение. Причина этого заключается в том, что (в отличие от обычного видео) световое поле с глубиной меняется как функция от трех пространственных измерений. Это означает, что стоимость кодирования фиксированных элементов (не остальной части) высока из-за высокой размерности данных.However, a small distance between anchors leads to an increase in the bit rate, which is generally particularly high for applications such as virtual reality applications that allow free movement. The reason for this is that (unlike conventional video) the light field changes with depth as a function of three spatial dimensions. This means that the cost of encoding the fixed elements (not the rest) is high due to the high dimensionality of the data.
В системе на ФИГ. 1 может быть обеспечен улучшенный подход, в котором части изображения и связанные данные глубины адаптивно выбирают и включают в двоичный поток в зависимости от меры прогнозирования.In the system of FIG. 1, an improved approach can be provided in which image parts and associated depth data are adaptively selected and included in the bitstream depending on the prediction measure.
На ФИГ. 2 показаны примеры некоторых элементов устройства 103 формирования двоичного потока.FIG. 2 shows examples of some elements of the
В примере устройство 103 формирования двоичного потока содержит хранилище 201, которое хранит набор частей изображения и связанные данные глубины.In an example, the
Устройство 103 формирования двоичного потока также содержит процессор 203 прогнозирования, который выполнен с возможностью формирования меры прогнозирования для частей изображения набора изображений. Меры прогнозирования могут быть сформированы для поз обзора сцены. Прогнозирование для данной части изображения и позы обзора формируют для того, чтобы указать на качество прогнозирования (всего или части) изображения, которое соответствует окну просмотра для данной позы обзора, на основе подмножества частей изображения, не содержащего часть изображения, для которой формируют меру прогнозирования.The
Таким образом, для данной позы обзора и данной части изображения формируют меру прогнозирования, которая отражает, насколько хорошо часть изображения для окна просмотра данной позы просмотра может быть спрогнозирована на основе частей изображения набора за исключением части изображения, для которого формируют меру прогнозирования.Thus, for a given viewing pose and a given image portion, a prediction measure is generated that reflects how well the image portion for the viewport of the given viewing pose can be predicted based on the image portions of the set, excluding the image portion for which the prediction measure is generated.
Например, мера прогнозирования может быть сформирована для данной части изображения для позы обзора, которая соответствует текущей целевой позе обзора от клиента. Эта мера прогнозирования может, соответственно, указывать, насколько хорошо изображение для позы обзора может быть спрогнозировано, если данную часть изображения не используют.For example, a predictive measure may be generated for a given portion of the image for a viewing pose that corresponds to the current target viewing pose from the client. This predictive measure may accordingly indicate how well the viewing pose image can be predicted if that part of the image is not used.
В качестве другого примера мера прогнозирования может быть сформирована для данной части изображения для позы обзора данной части изображения Эта мера прогнозирования может, в частности, в таком случае указывать, насколько хорошо может быть спрогнозирована сама данная часть изображения на основе других частей изображения набора сохраненных частей изображения.As another example, a prediction measure can be generated for a given image part for the viewing pose of a given image part. This predictive measure can, in particular, then indicate how well a given image part itself can be predicted based on other image parts of a set of stored image parts. .
Во многих вариантах реализации меры прогнозирования могут быть сформированы для множества или, возможно, всех сохраненных частей изображения, и/или множество мер прогнозирования может быть сформировано для каждой части изображения (соответствующей другим позам обзора). В некоторых вариантах реализации все меры прогнозирования могут быть сформированы один раз и потенциально до запуска конкретного приложения. В некоторых вариантах реализации меры прогнозирования могут формироваться динамически по мере и в случае необходимости.In many implementations, prediction measures may be generated for a plurality or possibly all of the stored image parts, and/or a plurality of prediction measures may be generated for each image part (corresponding to different viewing positions). In some implementations, all predictive measures may be generated once and potentially prior to the launch of a particular application. In some embodiments, predictive measures may be dynamically generated as and when required.
Процессор 203 прогнозирования соединен с селектором 205, который выполнен с возможностью выбора подмножества частей изображения из набора частей изображения в ответ на меры прогнозирования. Например, селектор 203 может выбирать некоторые части изображения, для которых меры прогнозирования низкие, но не части изображения, для которых меры прогнозирования высокие.The
Селектор 205 соединен с генератором 207 двоичного потока, который выполнен с возможностью формирования двоичного потока изображения, содержащего данные изображения и данные глубины из подмножества частей изображения. Однако, если данную часть изображения не выбирают для включения в подмножество (а выбирают для исключения из него), эта часть изображения не будет включена в двоичный поток.The
Подмножество частей изображения, из которого формируют меру прогнозирования, может отличаться в разных вариантах осуществления. Например, во многих вариантах реализации оно может содержать части изображения, (только) выбранные из частей изображения, которые уже включены в двоичный поток, и, следовательно, мера прогнозирования для данной позы и части изображения может отражать прогнозирование изображений для этой позы на основе частей изображения, которые уже предоставлены клиенту.The subset of image parts from which the prediction measure is generated may differ in different embodiments. For example, in many implementations it may contain image parts (only) selected from image parts that are already included in the bitstream, and therefore the prediction measure for a given pose and image part can reflect the image prediction for that pose based on the image parts. that have already been provided to the client.
В других вариантах реализации подмножество может, например, быть определено в соответствии с фиксированным требованием. Например, подмножество, используемое для определения меры прогнозирования для данной части изображения для позы части изображения, может быть выбрано как ближайшие N частей изображения.In other implementations, the subset may, for example, be defined according to a fixed requirement. For example, the subset used to determine the predictive measure for a given image part for the pose of the image part may be selected as the nearest N image parts.
Также понятно, что в разных вариантах реализации могут быть использованы другие подходы к формированию подмножества частей изображения. Например, в некоторых вариантах реализации может быть использован динамический и последовательный подход. Например, во время работа от клиента может быть принято указание целевой позы обзора. После этого устройство 103 формирования двоичного потока может перейти к формированию меры прогнозирования для позы для каждой части изображения по соседству вокруг этой позы (например, для N ближайших частей изображения), где прогнозирование основывается только на частях изображения, которые уже переданы устройству 101 отрисовки изображения. Затем селектор 205 может выбрать часть изображения, имеющую самую низкую меру прогнозирования, и включить ее в подмножество частей изображения, которые будут (или уже) включены в двоичный поток. Далее может быть определено, указывает ли мера прогнозирования на достаточно высокое качество прогнозирования для данной целевой позы. Если нет, процесс может быть повторен, но на этот раз только что включенную в двоичный поток часть изображения также включают в подмножество базовых частей изображения, используемых для прогнозирования. Таким образом, устройство 103 формирования двоичного потока может итеративно добавлять соседние части изображения до тех пор, пока требуемое целевое окно просмотра не будет спрогнозировано с достаточно высоким качеством.It is also understood that other approaches to generating a subset of image parts may be used in different implementations. For example, in some implementations, a dynamic and sequential approach may be used. For example, during operation, an indication of the target viewing pose may be received from the client. After that, the
В некоторых вариантах реализации каждую часть изображения необязательно рассматривают отдельно. Например, в некоторых вариантах реализации может быть сформирована общая мера прогнозирования для части сцены, охватываемой множеством поз и частей изображения (например, на основе учета содержимого/свойств сцены, таких как количество видимых объектов, как будет описано более подробно позже).In some embodiments, each part of the image is not necessarily considered separately. For example, in some implementations, a general predictive measure for a portion of a scene spanned by a plurality of poses and portions of an image may be generated (eg, based on consideration of scene content/properties such as the number of objects visible, as will be described in more detail later).
Аналогичным образом, выбор необязательно основан на учете только меры прогнозирования для данной части изображения. Например, в некоторых вариантах реализации пространственная плотность выбранных поз для части изображения может зависеть от окрестной меры прогнозирования (как правило, общей для ряда частей изображения). В качестве примера в областях, где меру прогнозирования считают высокой (например, ввиду низкой сложности сцены), части изображения могут быть включены для каждого третьего привязочного положения обзора. В отличие от этого, когда меру прогнозирования считают низкой (например, ввиду высокой сложности сцены), для включения в двоичный поток могут быть выбраны части изображения для всех привязочных положений обзора.Likewise, the selection is not necessarily based on considering only the predictive measure for a given part of the image. For example, in some implementations, the spatial density of the selected poses for a portion of an image may depend on a neighborhood prediction measure (generally common to a number of portions of the image). As an example, in areas where the predictive measure is considered high (eg, due to low scene complexity), parts of the image may be included for every third anchor view position. In contrast, when the predictive measure is considered low (eg, due to high scene complexity), parts of the image for all anchor view positions may be selected for inclusion in the bitstream.
Этот подход может обеспечить адаптированное и улучшенное формирования двоичного потока с пониженной общей скоростью передачи данных, которая, тем не менее, позволяет устройству 101 отрисовки изображения формировать требуемые виды для данных поз просмотра и с требуемым уровнем качества. Данный подход может снизить избыточность в передаваемых данных и тем самым улучшить соотношение между качеством и скоростью передачи битов (ФИГ. 1).This approach can provide an adapted and improved bitstreaming with a reduced overall data rate, which nevertheless allows the
Например, в примере на ФИГ. 3 показаны три иллюстративные сцены разного качества и связанные кривые, указывающие потенциальное качество синтеза вида как функции от количества привязочных изображений, захватывающих сцену.For example, in the example of FIG. 3 shows three exemplary scenes of varying quality and associated curves indicating the potential quality of view synthesis as a function of the number of anchor images capturing the scene.
Простая сцена 301 может иметь внешний вид, который мало изменяется в зависимости от угла и позиции. Она может, например, содержать матовые окрашенные поверхности и иметь небольшие затенения. Для формирования устройством 101 отрисовки изображения множества различных видов этой простой сцены требуются лишь несколько частей привязочного изображения/изображений. В отличие от этого, сложная сцена 303 будет иметь внешний вид, который сильно изменяется в зависимости от угла и позиции. Она, например, может содержать отражающие и металлические элементы или объекты, которые сами себя загораживают, такие как ваза с цветами. Для захвата такой сложной сцены требуется много частей привязочного изображения/изображений, и, соответственно, для формирования других видов устройством 101 отрисовки изображения требуется большое количество частей привязочного изображения. Типичная сцена 305 будет представлять собой комбинацию простых и сложных частей, и захват такой сцены посредством достаточного количества привязок, требуемых для сложной сцены, приведет к большой избыточности. Описанный подход адаптивного выбора подмножества имеющихся частей привязочного изображения для включения в двоичный поток может существенно снизить избыточность данных, включенных в двоичный поток, и тем самым существенно снизить скорость передачи битов без соответствующей потери в конечном качестве. Во многих вариантах реализации этот подход может снизить избыточность путем разбиения привязочных изображений на части и принятия решения о том, какие изображения и части изображения подлежат передаче, на основе прогнозирования.A
На ФИГ. 4 показан пример сцены с удаленным фоном 401 и объектом 403 переднего плана. Изображения с глубиной захватывают из диапазона поз 405 обзора, получая в результате набор привязочных изображений/частей изображения для разных поз обзора. В этом примере используют стратегию выборочной передачи, в которой могут быть пропущены целые привязки. Все привязочные изображения изображают фон 401 на большом расстоянии, но привязочные изображения в центре массива содержат объект 403 на близком расстоянии в своем поле зрения. Это обычно приводит к тому, что центральные изображения изменяются существенно больше, чем изображения по направлению к краям (при небольших изменениях точки обзора изображение близкого объекта неправильной формы изменяется существенно больше, чем изображение фона). Поэтому спрогнозировать центральные привязочные изображения на основе соседних привязочных изображений существенно труднее, чем спрогнозировать краевые привязочные изображения на основе соседних привязочных изображений, и, соответственно, мера прогнозирования для центральных изображений существенно ниже, чем для краевых изображений. Соответственно, доля центральных изображений (со связанными картами глубины), включаемых в двоичный поток, больше доли краевых изображений (изображения, включаемые в двоичный поток, на ФИГ. 4 указаны соответствующими закрашенными позами). Таким образом, в данном примере селектор 205 выполнен с возможностью выбора привязочных изображений для включения в двоичный поток путем изменения частоты пространственной выборки в ответ на меры прогнозирования для привязочных изображений (и для поз обзора привязочных изображений).FIG. 4 shows an example of a scene with the
На ФИГ. 5 показан пример приложения, в котором на устройстве 101 отрисовки изображения формируют равнопрямоугольное изображение для воспроизведения виртуальной реальности. Устройство 103 формирования двоичного потока обеспечивает части изображения, которые используют для формирования равнопрямоугольного изображения и, в частности, части изображения могут соответствовать плиткам изображения. С каждой плиткой также связана карта глубины, которую используют для отрисовки на основе изображения. При изменениях положения и ориентации наблюдателем плитки передают в потоковом режиме с сервера/устройства 103 формирования двоичного потока в приложение зрителя на устройстве 101 отрисовки изображения. Пространственная частота требуемых обновлений привязки с сервера меняется в зависимости от плитки/направления обзора. Это проиллюстрировано на ФИГ. 6, где показана горизонтальная сетка привязочных поз/положений. В данном примере пространственная плотность предоставляемых привязочных изображений меняется для разных плиток равнопрямоугольного изображения в зависимости от вариаций мер прогнозирования для плиток.FIG. 5 shows an example of an application in which an equal-rectangular image is generated on the
Например, как показано на ФИГ. 7, для текущей позы виртуального пользователя три (примыкающие) плитки, T1, T2, T3, равнопрямоугольного изображения/окна просмотра соответствуют слегка отличающимся (примыкающим) интервалам угла обзора. Два из этих интервалов обзора/плиток, T1, T2, содержат близкий объект неправильной формы, а T3 не содержит. Соответственно, устройство 103 формирования двоичного потока может формировать меры прогнозирования для частей изображения, соответствующих плиткам T1, T2, T3, и будет определять более низкую меру прогнозирования для первых двух плиток, T1, T2, чем для последней плитки, T3. Соответственно, оно может далее определить, что для первых двух плиток, T1, T2, требуется более высокая плотность пространственной выборки, чем для третьей плитки, T3. Соответственно, для частей изображения, соответствующих первым двум плиткам, T1, T2, все части изображения могут быть включены (соответствует ФИГ. 6a), тогда как для третьей плитки, T3, включают только каждую третью (в двух направлениях) часть привязочного изображения (соответствует ФИГ. 6b).For example, as shown in FIG. 7, for the virtual user's current pose, three (adjacent) tiles, T 1 , T 2 , T 3 , of an equirectangular image/viewport correspond to slightly different (adjacent) view angle intervals. Two of these view/tile intervals, T 1 , T 2 , contain an irregularly shaped close object, while T 3 does not. Accordingly, the
В некоторых вариантах реализации определение того, какие привязочные изображения включать в двоичный поток, может выполняться динамически во время работы приложения. В других вариантах реализации может быть выполнено начальное статическое определение на основе анализа, например, сцены, привязочных изображений и/или сохраненных частей изображения.In some implementations, the determination of which anchor images to include in the bitstream may be done dynamically at run time of the application. In other implementations, an initial static determination may be made based on an analysis of, for example, the scene, anchor images, and/or saved image portions.
В некоторых таких вариантах реализации информация о том, какие привязки извлекать с сервера/устройства 103 формирования двоичного потока, и какие привязки прогнозировать в клиенте/устройстве 101 отрисовки изображения, может быть первоначально (при запуске приложения) сообщена клиентской стороне, например, в виде карты вида, которая указывает, какие части изображения будут (или могут быть) сделаны доступными для устройства 101 отрисовки изображения.In some such implementations, information about which bindings to retrieve from the server/
Как указано в предыдущих примерах, для определения мер прогнозирования для разных частей изображения и поз могут быть использованы разные подходы и алгоритмы.As indicated in the previous examples, different approaches and algorithms can be used to determine prediction measures for different parts of the image and poses.
Мера прогнозирования может указывать на качество, которое может быть достигнуто вновь синтезируемыми изображениями с использованием основанной на изображении глубины отрисовки (синтеза вида) для данной позы обзора на основе подмножества привязочных изображений, не содержащего привязочное изображение, для которого формируют меру прогнозирования.The predictive measure may indicate the quality that can be achieved by newly synthesized images using image-based rendering depth (view synthesis) for a given view pose based on a subset of anchor images that does not contain the anchor image for which the predictive measure is generated.
Мера прогнозирования может быть определена непосредственно или опосредованно путем рассмотрения признаков или характеристик, которые отражают качество синтезированного изображения или влияют на него.A predictive measure can be determined directly or indirectly by considering features or characteristics that reflect or affect the quality of the synthesized image.
В некоторых вариантах реализации, где может быть определена более непосредственная мера прогнозирования, это может, например, включать устройство 103 формирования двоичного потока, выполняющее синтез вида части привязочного изображения и сравнивающего фактическую сохраненную часть изображения с синтезированной версией. Если разница небольшая, меру прогнозирования считают высокой. Точнее говоря, мера прогнозирования может быть определена как качество синтеза вида в терминах измеренной среднеквадратичной ошибки, отношения пикового сигнала к шуму (Peak Signal-to-Noise Ratio, PSNR), метрики качества видео (Video Quality Metric, VQM), многомасштабного структурного сходства (Multiscale Structural Similarity, MS-SSIM) или иной метрики части изображения при прогнозировании на основе одной или более соседних частей (обычно в 6DoF-пространстве). Как правило, это прогнозирование выполняют с использованием моделируемых отрисовок части изображения и карты глубины (или текстуры и сетки).In some implementations, where a more direct measure of prediction can be defined, this may, for example, include the
В других вариантах реализации мера прогнозирования может быть сформирована в ответ на рассмотрение свойства сцены. В частности, во многих вариантах реализации мера прогнозирования может быть сформирована в ответ на указание сложности сцены. В частности, мера прогнозирования может быть сформирована на основе данных глубины для части изображения. Например, если данные глубины указывают на присутствие относительно близких одного или более объектов, то можно предположить, что часть изображения содержит объект, который трудно спрогнозировать на основе других частей привязочного изображения для других (обычно близких) поз обзора.In other implementations, a predictive measure may be generated in response to consideration of a scene property. In particular, in many implementations, a predictive measure may be generated in response to an indication of scene complexity. Specifically, a prediction measure may be generated based on depth data for a portion of an image. For example, if the depth data indicates the presence of relatively close one or more objects, then it can be assumed that a part of the image contains an object that is difficult to predict based on other parts of the reference image for other (usually close) viewing positions.
В качестве конкретного примера мера прогнозирования для части изображения может быть сформирована в ответ на минимальную глубину (расстояние от камеры/точки обзора до объекта), которая имеет место на части изображения. Если объекты на части изображения далеко от камеры, то небольшое (6DoF) перемещение наблюдателя не изменит относительную текстуру внутри части изображения. Перемещение приведет к приблизительно аффинному преобразованию всей части изображения. Например, часть изображения повернется, сдвинется или изменит масштаб в целом. Это преобразование обычно очень хорошо прогнозируемо на основе соседних изображений с глубиной на стороне клиента. Такое прогнозирование может, как правило, иметь настолько высокое качество, что синтез вида является достаточным, и в отправке остального сигнала действительно нет необходимости.As a specific example, a prediction measure for a part of an image may be generated in response to the minimum depth (distance from the camera/viewpoint to the object) that occurs in the part of the image. If objects in a part of the image are far from the camera, then moving the observer slightly (6DoF) will not change the relative texture within the part of the image. Moving will result in an approximately affine transformation of the entire part of the image. For example, part of the image will rotate, move, or change the scale as a whole. This transformation is usually very well predictable based on adjacent images with client-side depth. Such a prediction can typically be of such high quality that the view synthesis is sufficient and there really is no need to send the rest of the signal.
Мера прогнозирования часто может быть определена на основе данных глубины, данных изображения или данных глубины и данных изображения. Например, если данные глубины указывают на большую вариацию глубины в сцене/данных глубины для части изображения, например, с относительно частыми и относительно крутыми ступенчатыми изменениями, это можно считать указанием на то, что сцена/текущий вид сложны и более трудны для прогнозирования. Аналогичным образом, если изображение имеет большую вариацию с точки зрения сегментов изображения, имеющих очень сильно отличающиеся визуальные свойства со значительными и внезапными изменениями между сегментами, это можно рассматривать как указание на сложность сцены и, следовательно, на сложность прогнозирования. Напротив, если вариация глубины и/или визуальная вариация невелика, то можно считать, что сцена относительно низкой сложности, и мера прогнозирования может быть повышенной, поскольку вполне вероятно, что можно будет формировать более точные прогнозируемые изображения.The predictive measure can often be determined based on depth data, image data, or depth data and image data. For example, if the depth data indicates a large variation in depth in a scene/depth data for a portion of an image, such as with relatively frequent and relatively steep step changes, this can be considered an indication that the scene/current view is complex and more difficult to predict. Similarly, if an image has a lot of variation in terms of image segments having very different visual properties with significant and sudden changes between segments, this can be considered as an indication of the complexity of the scene and hence the difficulty of prediction. On the contrary, if the depth variation and/or visual variation is small, then the scene may be considered to be of relatively low complexity and the prediction measure may be increased since it is likely that more accurate prediction images can be generated.
Подход может, например, отражать, что в сценах с относительно большим количеством мелких объектов обычно требуется большее количество захваченных поз, чем для сцен с несколькими объектами или без них, и прогнозирование, соответственно, более трудное.The approach may, for example, reflect that scenes with a relatively large number of small objects generally require more captured poses than scenes with few or no objects, and prediction is correspondingly more difficult.
В некоторых вариантах реализации процессор 203 прогнозирования может, в частности, быть выполнен с возможностью определения меры прогнозирования в ответ на вариацию глубины в данных глубины.In some implementations, the
Может быть сформирована оценка вариации глубины, которая имеет тенденцию отражать присутствие (или отсутствие) ряда переходов глубины, соответствующих наличию относительно большого количества разных объектов на разной глубине. Это может быть достигнуто, например, путем выявления сегментов на основе переходов глубины на карте глубины и последующего определения количества найденных сегментов. Понятно, что для определения подходящих мер вариации глубины могут быть использованы многие другие подходы.A depth variation estimate can be generated that tends to reflect the presence (or absence) of a series of depth transitions corresponding to the presence of a relatively large number of different objects at different depths. This can be achieved, for example, by identifying segments based on depth transitions in the depth map and then determining the number of segments found. It will be appreciated that many other approaches may be used to determine suitable measures of depth variation.
В некоторых вариантах реализации процессор 203 прогнозирования выполнен с возможностью определения меры прогнозирования в ответ на расстояния до объектов, указанных посредством данных глубины для части изображения. В частности, мера прогнозирования может увеличиваться с увеличением расстояния до объектов.In some embodiments,
Это может свидетельствовать о том, что сцена может считаться менее сложной, когда объекты относительно далеки от камеры, поскольку это, как правило, обеспечивает улучшенную видимость различных аспектов и приводит к меньшим изменениям при изменении позы обзора. Это также обычно приводит меньшему загораживанию объектом других частей сцены. Следовательно, прогнозирование будет, как правило, более точным.This may indicate that the scene can be considered less complex when objects are relatively far from the camera, as this generally provides improved visibility of various aspects and results in less change when the viewing pose changes. It also usually results in less object obstruction of other parts of the scene. Therefore, forecasting will generally be more accurate.
Аналогичным образом, сцена может считаться более сложной, когда объекты относительно близки к камере, поскольку это требует более подробных снимков для точного отражения вариаций в объекте и помимо всего приводит к тому, что объект обычно загораживает более значительную часть сцены, поэтому требуются дополнительные привязочные позы, чтобы можно было увидеть то, что заслонено. Это может привести к более трудному и неточному прогнозированию.Likewise, a scene can be considered more complex when subjects are relatively close to the camera, as this requires more detailed shots to accurately reflect variations in the subject and, in addition, results in the subject typically obscuring a larger portion of the scene, thus requiring additional anchor poses. to see what is obscured. This can lead to more difficult and inaccurate predictions.
В некоторых вариантах реализации селектор 205 может быть выполнен также с возможностью выбора частей изображения для включения в двоичный поток в ответ на меру видимости для частей изображения для целевой позы обзора. Целевая поза обзора может, в частности, соответствовать позе обзора, изображение для которой должно быть синтезировано посредством устройства 101 отрисовки изображения и может быть предоставлено динамически из устройства 101 отрисовки изображения, как будет описано позже.In some implementations, the
Мера видимости может указывать, видна ли часть изображения для целевой позы обзора, и, в частности, будет ли она в пределах подходящего окна просмотра для целевой позы обзора. В частности, мера видимости для части изображения может указывать, насколько близка эта часть изображения к окну просмотра для целевой позы обзора. Если она достаточно близка или в пределах окна обзора (и, например, мера прогнозирования достаточно низкая), эту часть изображения включают в двоичный поток. Если она слишком далеко от окна просмотра, ее не включают.The visibility measure may indicate whether a portion of the image for the target viewing pose is visible, and in particular, whether it would be within a suitable viewing window for the target viewing pose. In particular, the measure of visibility for a portion of an image may indicate how close that portion of the image is to the viewport for the target viewing pose. If it is close enough or within the view-window (and, for example, the predictive measure is low enough), that part of the image is included in the bitstream. If it is too far from the viewport, it is not turned on.
Этом может повысить производительность во многих ситуациях. Например, для клиента весьма характерно иметь окна просмотра, которые существенно меньше, чем содержимое. Например, гарнитура может иметь поле обзора лишь в 100 градусов, тогда как содержимое является 360-градусным.This can improve performance in many situations. For example, it is very common for a client to have viewports that are substantially smaller than the content. For example, a headset may only have a 100 degree field of view while the content is 360 degrees.
Окно просмотра целевой позы обзора может быть, как правило, таким, для которого, как ожидается, потребуется изображение, чтобы представить окно просмотра. В качестве конкретного примера селектор 205 может руководствоваться следующими правилами для такого будущего окна просмотра:The viewport of the target view pose may typically be one that is expected to require an image to represent the viewport. As a specific example, the
- Части, которые почти наверняка находятся за пределами будущего окна просмотра, не подлежат передаче.- Parts that are almost certainly outside the future viewport are non-transferable.
- Части, которые вряд ли будут внутри будущего окна просмотра и для которых на клиенте будут доступны другие части, передавать не нужно.- Parts that are unlikely to be inside the future viewport and for which other parts will be available on the client do not need to be transferred.
- Части, которые видны, но прогнозируемые на основе другой части, которая будет доступна на клиенте, передавать не нужно.- Parts that are visible but predicted based on another part that will be available on the client do not need to be transferred.
- Для любого трудно прогнозируемого пикселя в изображении, который не наверняка находится за пределами будущего окна просмотра, следует выбрать по меньшей мере одну часть из одной привязки.- For any hard-to-predict pixel in the image that is not likely to be outside the future viewport, at least one part from one anchor should be selected.
В разных вариантах реализации могут быть использованы разные подходы к выбору используемого для прогнозирования подмножества частей изображения, которое образует основу для определения меры прогнозирования для данной комбинации поза/часть изображения. Во многих вариантах реализации используемое для прогнозирования подмножество может быть выбрано просто как возможно заданное количество привязочных изображений или частей изображения, которые наиболее близки к данной позе, поскольку они, как правило, являются лучшими кандидатами для прогнозирования. В других вариантах реализации могут быть использованы более сложные и ресурсоемкие подходы. Например, можно выполнить прогнозирование с учетом разных возможных наборов частей якорного изображения, выбрать лучшее прогнозирование и использовать соответствующий набор частей привязочного изображения.Different implementations may take different approaches to selecting the subset of image parts used for prediction that forms the basis for determining the prediction measure for a given pose/image part combination. In many implementations, the subset used for prediction may be chosen simply as a given number of anchor images or parts of the image that are closest to a given pose, as they tend to be the best candidates for prediction. In other implementations, more complex and resource intensive approaches may be used. For example, you can make predictions given different possible sets of anchor image parts, select the best prediction, and use the appropriate set of anchor image parts.
Во многих вариантах реализации используемое для прогнозирования подмножество частей привязочного изображения ограничивают включением только частей изображения, которые содержатся в двоичном потоке. Как правило, учитываемые части изображения являются частями изображения, которые ранее были включены в двоичный поток, но в некоторых вариантах реализации используемое для прогнозирования подмножество может также включать в себя части изображения, которые еще не были отправлены, но которые были выбраны для включения в двоичный поток (или которые выбирают вместе с текущей частью изображения ввиду пригодности в качестве базовых изображений для прогнозирования).In many implementations, the subset of the anchor image parts used for prediction is limited to include only the parts of the image that are contained in the bitstream. Generally, the parts of the image considered are the parts of the image that were previously included in the bitstream, but in some implementations, the subset used for prediction may also include parts of the image that have not yet been sent but have been selected for inclusion in the bitstream. (or which are chosen along with the current part of the image due to suitability as base images for prediction).
Такой подход может привести к весьма эффективному формированию двоичного потока, где новые части изображения по существу предоставляют устройству 101 отрисовки изображения тогда, и только тогда, когда устройство 101 отрисовки изображения не в состоянии локально формировать изображение достаточного качества на основе только частей изображения, которые уже доступны устройству 101 отрисовки изображения. В частности, в таких вариантах реализации мера прогнозирования может указывать на качество, которое может быть достигнуто при синтезировании изображения для данной позы на основе только частей привязочного изображения, которые уже присутствуют на клиенте/устройстве 101 отрисовки изображения.This approach can lead to a very efficient bitstream generation where the new parts of the image are essentially provided to the
Во многих вариантах реализации устройство 101 отрисовки изображения может быть выполнено с возможностью формирования двоичного потока и выбора частей изображения в ответ на целевую позу обзора, которую принимает устройство 103 формирования двоичного потока от устройства 101 отрисовки изображения. В частности, по мере перемещения виртуального пользователя в виртуальной среде устройство 101 отрисовки изображения может непрерывно передавать указание текущей позы обзора в качестве целевой позы обзора (или, например, может прогнозировать целевую позу обзора для уменьшения задержки).In many embodiments, the
Устройство 103 формирования двоичного потока может принимать целевую позу обзора от устройства 101 отрисовки изображения и может приступать к выбору подходящих частей изображения для включения в двоичный поток, направляемый устройству 101 отрисовки изображения, на основе целевой позы обзора. В частности, устройство 103 формирования двоичного потока может определять меру прогнозирования для целевой позы обзора, которая указывает, насколько хорошо может быть сформировано изображение для окна просмотра, соответствующего целевой позе обзора, на основе частей изображения, которые уже переданы устройству 101 отрисовки изображения, и которые поэтому уже доступны для синтеза вида/изображения на устройстве 101 отрисовки изображения.The
Если мера прогнозирования указывает на достаточно высокое качество прогнозирования, в двоичный поток для текущей целевой позы обзора не добавляют еще одну часть изображения (например, если только буфер частей изображения, подлежащих передаче устройству 101 отрисовки изображения, не достаточно пустой). Однако, если мера прогнозирования указывает на недостаточно высокое качество прогнозирования, в двоичный поток добавляют одну или более частей изображения. В некоторых вариантах реализации может быть использован заданный выбор, например, может быть добавлена ближайшая часть изображения (или части изображения) (и, таким образом, мера прогнозирования может рассматриваться как формируемая для этой (этих) части (частей) изображения). Затем этот подход может быть итерирован по мере включения частей изображения, выбранных в предыдущей итерации в используемом для прогнозирования наборе для текущей итерации. В других вариантах реализации устройство 103 формирования двоичного потока может формировать меру прогнозирования на основе включения других частей изображения и может затем выбирать части изображения, которые приводят к наивысшей мере прогнозирования.If the prediction measure indicates a sufficiently high prediction quality, no more image part is added to the bitstream for the current target viewing pose (for example, unless the buffer of image parts to be transmitted to the
Понятно, что в разных вариантах реализации части изображения могут представлять собой разное. Например, в некоторых вариантах реализации каждая часть изображения может быть захваченным изображением (включающим потенциально целиком полное полусферическое изображение).It is clear that in different implementations, parts of the image may be different. For example, in some implementations, each part of the image may be a captured image (including potentially the entire hemispherical image).
Во многих вариантах реализации части изображения могут быть частичными видами, такими как особые сегменты изображения, соответствующие относительно небольшим интервалам угла обзора, таким как, например, в диапазоне от 10° до 45° (например, как в горизонтальном, так и в вертикальном направлении). Например, прямоугольное изображение, соответствующее прямоугольному окну просмотра для данной позы обзора, может быть разделено на множество частей изображения, которые могут быть выбраны по отдельности для включения в двоичный поток (например, плитки в примере на ФИГ. 5).In many implementations, parts of an image may be partial views, such as specific image segments corresponding to relatively small intervals of viewing angle, such as, for example, in the range of 10° to 45° (for example, in both horizontal and vertical directions) . For example, a rectangular image corresponding to a rectangular viewport for a given viewing pose can be divided into multiple image parts that can be individually selected for inclusion in the bitstream (eg, tiles in the example of FIG. 5).
В некоторых вариантах реализации части изображения могут соответствовать заданному разбиению изображений. Например, в примере на ФИГ. 5 прямоугольное изображение может быть разделено на заданное множество квадратных плиток, причем каждый квадрат соответствует отдельно выбираемой части изображения. В качестве конкретного примера каждая часть изображения может быть изображением блока кодирования, таким как, например, макроблок размером 16×16 пикселей.In some embodiments, portions of an image may correspond to a given partitioning of images. For example, in the example of FIG. 5, a rectangular image may be divided into a given set of square tiles, with each square corresponding to a separately selectable portion of the image. As a specific example, each part of an image may be an image of a coding block, such as, for example, a 16x16 pixel macroblock.
Такой подход может сделать возможной реализацию низкой сложности, тем не менее обеспечивающую превосходную производительность.Such an approach can make it possible to implement low complexity, yet provide excellent performance.
В некоторых вариантах реализации части изображения (или по меньшей мере некоторые части изображения) могут быть гранями многогранных проекций сцены для разных поз обзора, такими как, например, квадраты в кубической карте или треугольники в икосаэдре.In some embodiments, parts of the image (or at least some parts of the image) may be faces of polyhedral projections of the scene for different viewing poses, such as, for example, squares in a cube map or triangles in an icosahedron.
В частности, для данной точки обзора полусферический вид может быть разделен на набор соответствующих плоских многоугольников, которые вместе образуют полусферическую геометрическую конструкцию. Это во многих вариантах реализации облегчит операции синтеза и, более того, облегчит интегрирование принимаемых новых частей изображения с ранее принятыми или прогнозируемыми частями изображения. По сравнению с равнопрямоугольной проекцией и благодаря плоским граням многогранной проекции изображение дешевле отрисовывать на стандартном графическом процессорном устройстве (Graphics Processing Unit, GPU), поскольку небольшое количество треугольников может точно описать форму, которая связана с проекцией. Для многогранных проекций с достаточным количеством граней (вроде икосаэдральной проекции) среднее искажение проекции ниже, чем для равнопрямоугольной проекции. Кроме того грани обеспечивают естественное разбиение изображения.In particular, for a given viewpoint, the hemispherical view can be divided into a set of corresponding planar polygons that together form a hemispherical geometric design. This will, in many implementations, facilitate synthesis operations and, moreover, facilitate the integration of received new parts of the image with previously received or predicted parts of the image. Compared to equirectangular projection and due to the flat faces of polyhedral projection, the image is cheaper to render on a standard graphics processing unit (GPU) because a small number of triangles can accurately describe the shape that is associated with the projection. For polyhedral projections with a sufficient number of faces (like an icosahedral projection), the average projection distortion is lower than for an equirectangular projection. In addition, the edges provide a natural splitting of the image.
В некоторых вариантах реализации устройство 103 формирования двоичного потока может содержать разделитель 209, который выполнен с возможностью формирования по меньшей мере некоторых частей изображения путем разбиения привязочных изображений. В некоторых вариантах реализации это разбиение может быть заданным, например, разделитель 209 может разбивать изображение на плитки правильной формы.In some implementations, the
Однако во многих вариантах реализации могут быть сформированы части или сегменты более произвольной формы, и, в частности, формирование частей изображения может быть осуществлено путем сегментации, которая зависит от свойств изображения и/или карты глубины. Это может позволить, например, представлять конкретные объекты разными частями изображения, а фон посредством другой отдельной части изображения и т. д.However, in many implementations, more arbitrary shaped parts or segments can be formed, and in particular, the formation of image parts can be done by segmentation, which depends on the properties of the image and/or depth map. This may allow, for example, to represent specific objects by different parts of the image, and the background by another separate part of the image, etc.
Действительно, часто может случиться так, что изображение состоит из фона и нескольких объектов переднего плана. Преимуществом является то, что объект переднего плана плюс периферия фона содержатся в пределах части изображения, поскольку объекты переднего плана, как правило, менее прогнозируемы, чем фоновые объекты. В более общем смысле хорошая для выбора часть изображения имеет низкое внутреннее прогнозирование и высокое прогнозирование возле краев части.Indeed, it can often happen that an image consists of a background and several foreground objects. The advantage is that the foreground plus the background periphery are contained within the image part, since foreground objects tend to be less predictable than background objects. More generally, a good selection part of an image has low intra-prediction and high prediction near the edges of the part.
Соответственно, за счет сегментации изображения на подходящие части изображения можно достичь особенно эффективной работы.Accordingly, by segmenting an image into suitable image parts, a particularly efficient operation can be achieved.
Понятно, что может быть использован любой подходящий подход к сегментации изображения, не выходящий за пределы настоящего изобретения. Например, сегменты могут быть сформированы так, чтобы они имели сообразные цвета и/или интенсивности, или соответствовали изображениям распознанных объектов, таких как лица, или, например, сегменты могут быть сформированы так, чтобы они соответствовали зонам, имеющим похожие значения глубины и т.д. Понятно, что специалисту в данной области известно огромное количество алгоритмов и критериев сегментации.It is understood that any suitable approach to image segmentation can be used within the scope of the present invention. For example, the segments may be shaped to have consistent colors and/or intensities, or to match images of recognized objects such as faces, or, for example, the segments may be shaped to correspond to areas having similar depth values, etc. d. It is clear that a person skilled in the art knows a huge number of segmentation algorithms and criteria.
Во многих вариантах реализации селектор 205 выполнен с возможностью выбора множества смежных частей изображения в ответ на определение того, что множество смежных частей изображения образует область, имеющую меру качества прогнозирования ниже первого порогового значения для внутренней части областей и меру качества прогнозирования выше второго пороговго значения для пограничной части области (причем во многих вариантах реализации первое пороговое значение может быть ниже второго порогового значения).In many embodiments, the
Во многих таких подходах низкое прогнозирование на крае части изображения приведет к выбору и примыкающей части изображения тоже, когда край находится в пределах требуемого окна просмотра. Это может исключить или ослабить артефакты отрисовки на крае части, отрисовываемой с использованием части изображения с низким прогнозированием на крае. Таким образом, части изображения могут быть связаны с образованием групп, которые имеют низкое внутреннее прогнозирование, но которые имеют высокое внешнее (краевое) прогнозирование.In many of these approaches, low prediction at the edge of a portion of the image will result in the selection of the adjacent portion of the image as well when the edge is within the desired viewport. This can eliminate or attenuate rendering artifacts at the edge of the portion rendered using the low prediction portion of the image at the edge. Thus, portions of an image can be associated to form groups that have low intra prediction but that have high extrinsic (edge) prediction.
Такой подход может быть проиллюстрирован примером на ФИГ. 8, показывающим разбитое на плитки изображение сферы, где каждая плитка соответствует части изображения. Плитки, которые содержат один и тот же край, проходящий через пиксели с низким прогнозированием, связаны. Любые две части, которые содержат один и тот же край, проходящий через область с низким прогнозированием, имеют критерий связанного выбора, такой что либо передают все части изображения, либо не передают ни одну.This approach can be illustrated by the example in FIG. 8 showing a tiled image of a sphere, where each tile corresponds to a part of the image. Tiles that contain the same edge passing through low-prediction pixels are connected. Any two parts that contain the same edge passing through the low prediction region have a linked selection criterion such that either all parts of the image are transmitted or none is transmitted.
В некоторых вариантах реализации устройство 103 формирования двоичного потока может особо учитывать прогнозирование на краях при определении того, связывать ли части изображения или нет. Однако в других вариантах реализации выбор может быть основан только на учете мер прогнозирования для части изображения в целом. Например, если мера прогнозирования для данной части изображения ниже данного порогового значения (т.е. ее трудно спрогнозировать), все смежные части изображения тоже включают. Данный подход может быть итерирован, в результате чего части изображения включают до тех пор, пока их мера прогнозирования не станет высокой. Это приведет к эффективному формированию более крупной части изображения с низким внутренним прогнозированием и высоким прогнозированием на краях за счет группировки исходных частей изображения.In some implementations, the
В некоторых вариантах реализации по меньшей мере некоторые части изображения перекрываются.In some embodiments, at least some portions of the image overlap.
Во многих вариантах реализации может оказаться полезным разрешить перекрывающиеся части изображения так, чтобы две смежные части изображения обе содержали данные изображения для перекрывающейся пограничной области. Это может привести к увеличению потребностей в хранении для устройства 103 формирования двоичного потока и может увеличить скорость передачи данных двоичного потока. Однако во многих вариантах реализации это может улучшить эффективность кодирования (например, если блоки кодирования не выровнены с границами между частями изображения). Кроме того, перекрывающиеся области могут существенно облегчить смешивание новой части изображения с другими частями изображения, которые, например, могут быть прогнозируемы или сформированы ранее в устройстве 101 отрисовки изображения.In many implementations, it may be useful to resolve overlapping image parts such that two adjacent image parts both contain image data for the overlapping border region. This may result in increased storage requirements for the
Хотя в приведенном выше описании основное внимание уделено представлению с использованием стандартных изображений и карт глубины, понятно, что в других вариантах реализации могут быть использованы другие подходы.While the description above has focused on presentation using standard images and depth maps, it is understood that other approaches may be used in other implementations.
Например, изображения могут содержать изображения текстурного атласа, которые содержат текстурные части из сеточных и текстурных представлений сцены. Пример такого представления можно найти, например, в статье A. Collet и др. High-quality streamable free-viewpoint video. ACM Transactions on Graphics (TOG), Proceedings of ACM SIGGRAPH 2015. Том 34, выпуск 4, август 2015.For example, the images may contain texture atlas images that contain texture portions from the mesh and texture representations of the scene. An example of such a view can be found, for example, in A. Collet et al. High-quality streamable free-viewpoint video. ACM Transactions on Graphics (TOG), Proceedings of ACM SIGGRAPH 2015. Volume 34, Issue 4, August 2015.
В таком примере привязочное изображение может соответствовать текстурному атласу, который наиболее подходит для просмотра из положения (области) привязки. Текстурный атлас в сочетании с (непересекающейся) сеткой могут формировать геометрическую модель объекта или сцены. В данном случае часть изображения может, например, быть одной текстурой в таком атласе, который соответствует одной поверхности в сцене.In such an example, the anchor image may correspond to a texture atlas that is most suitable for viewing from the anchor position (region). A texture atlas combined with a (non-intersecting) mesh can form a geometric model of an object or scene. In this case, a part of the image may, for example, be one texture in such an atlas, which corresponds to one surface in the scene.
В качестве конкретного примера сцена может содержать некоторые объекты с низким прогнозированием, например, отражающий объект, такой как металлический светильник или загораживающий сам себя объект, такой как ваза с цветами. Устройство 103 формирования двоичного потока может делить части привязочного изображения на разные уровни. Уровень 0 частей привязочного изображения может содержать все объекты в сцене, включающие в себя фон, поэтому по меньшей мере одна привязка (геометрическая модель) уровня 0 будет передана в потоке. Когда зритель перемещается в пространстве, выбор привязки уровня 0 будет меняться.As a specific example, the scene may contain some low prediction objects, such as a reflective object such as a metal lamp or a self-obstructing object such as a vase of flowers. The
Кроме того, для учета угловой зависимости внешнего вида некоторых объектов привязки более высокого уровня могут содержать частичные модели сцены. Даже в этом случае может быть передана только часть такой привязки, исходя из позиции пользователя. Данное решение основано на прогнозирования частей в привязках уровня выше 1.In addition, to account for the angular dependence of the appearance of some objects, higher-level anchors may contain partial scene models. Even so, only a portion of such an anchor may be passed, based on the user's position. This solution is based on predicting parts in level bindings above 1.
В некоторых вариантах реализации части изображения (или по меньшей мере некоторые из них) могут быть предварительно закодированы. Таким образом, они могут быть закодированы и сохранены в формате, в котором они могут быть непосредственно включены в двоичный поток без всякой необходимости перекодирования или (повторного) кодирования. Вернее, часть изображения, которая подлежит включению в двоичный поток, может быть просто извлечена из хранилища 201 и добавлена в двоичный поток без операции кодирования. Это может весьма существенно снизить сложность и требования к ресурсам в устройстве 103 формирования двоичного потока и обеспечить очень эффективную работу.In some embodiments, parts of the image (or at least some of them) may be pre-encoded. Thus, they can be encoded and stored in a format in which they can be directly included in the bit stream without any need for re-encoding or (re-) encoding. Rather, the part of the image to be included in the bitstream can simply be retrieved from the
Настоящее изобретение может быть реализовано в любой подходящей форме, включая оборудование, программное обеспечение, встроенное программное обеспечение или любую их комбинацию. Настоящее изобретение необязательно может быть реализовано, по меньшей мере частично, в виде компьютерного программного обеспечения, выполняемого на одном или более процессорах и/или цифровых процессорах сигналов. Элементы и компоненты варианта реализации настоящего изобретения могут быть физически, функционально и логически реализованы любым подходящим образом. В действительности функциональные возможности могут быть реализованы в одном блоке, в множестве блоков или как часть других функциональных блоков. В силу этого настоящее изобретение может быть реализовано в одном блоке или может быть физически или функционально распределено между разными блоками, схемами и процессорами.The present invention may be implemented in any suitable form, including hardware, software, firmware, or any combination thereof. The present invention may optionally be implemented, at least in part, as computer software executing on one or more processors and/or digital signal processors. The elements and components of an embodiment of the present invention may be physically, functionally and logically implemented in any suitable manner. Indeed, functionality may be implemented in a single block, in multiple blocks, or as part of other functional blocks. Because of this, the present invention may be implemented in a single unit, or may be physically or functionally distributed among different units, circuits, and processors.
Хотя настоящее изобретение было описано в связи с некоторыми вариантами реализации, это не следует рассматривать как ограничение конкретной формой, изложенной в настоящем документе. Скорее, объем настоящего изобретения ограничен только прилагаемой формулой изобретения. Кроме того, хотя может показаться, что признак описан в связи с конкретными вариантами реализации, специалисту в данной области понятно, что различные признаки описанных вариантов реализации могут быть объединены в соответствии с настоящим изобретением. В формуле изобретения термин «содержащий/включающий» не исключает присутствия других элементов или этапов.Although the present invention has been described in connection with some embodiments, this should not be construed as a limitation to the particular form set forth herein. Rather, the scope of the present invention is only limited by the appended claims. In addition, while it may appear that a feature is described in connection with particular embodiments, one skilled in the art will appreciate that various features of the described embodiments may be combined in accordance with the present invention. In the claims, the term "comprising/comprising" does not exclude the presence of other elements or steps.
Кроме того, хотя множество средств, элементов, схем или этапов способа перечислены по отдельности, они могут быть реализованы, например, с помощью одной схемы, блока или процессора. Далее, хотя отдельные признаки могут быть включены в разные пункты формулы изобретения, они, возможно, могут быть эффективно объединены, а включение в разные пункты формулы изобретения не означает, что комбинация признаков является неосуществимой и/или невыгодной. Кроме того, включение признака в одну категорию пунктов формулы изобретения не означает ограничения этой категорией, а, скорее, указывает на то, что данный признак в равной степени может быть применен к другим категориям пунктов изобретения, когда это уместно. Кроме того, порядок признаков в формуле изобретения не означает конкретного порядка, в котором эти признаки должны прорабатываться, и, в частности, порядок отдельных этапов в формуле изобретения на способ, не означает, что этапы должны выполняться в данном порядке. Скорее, этапы могут выполняться в любом подходящем порядке. Кроме того, упоминания в единственном числе не исключают множественного числа. Поэтому ссылки с использованием грамматических средств указания единственного числа, прилагательных в единственном числе «первый», «второй» и т.д. не исключают множественного числа. Ссылочные позиции в формуле изобретения приведены исключительно в качестве уточняющего примера и не должны трактоваться как ограничивающие объем формулы изобретения каким-либо образом.In addition, although a plurality of means, elements, circuits, or method steps are listed individually, they may be implemented, for example, using a single circuit, block, or processor. Further, although individual features may be included in different claims, they may be effectively combined, and inclusion in different claims does not imply that the combination of features is not feasible and/or disadvantageous. In addition, the inclusion of a feature in one category of claims does not imply a limitation to that category, but rather indicates that the feature is equally applicable to other categories of claims when appropriate. In addition, the order of the features in the claims does not indicate the specific order in which the features should be worked out, and in particular the order of the individual steps in the claims per method does not mean that the steps must be performed in that order. Rather, the steps may be performed in any suitable order. In addition, references in the singular do not exclude the plural. Therefore, references using grammatical means of indicating the singular, adjectives in the singular "first", "second", etc. do not exclude the plural. Reference positions in the claims are provided solely as a clarifying example and should not be construed as limiting the scope of the claims in any way.
Claims (23)
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18150423.4A EP3509308A1 (en) | 2018-01-05 | 2018-01-05 | Apparatus and method for generating an image data bitstream |
EP18150423.4 | 2018-01-05 | ||
PCT/EP2019/050183 WO2019134979A1 (en) | 2018-01-05 | 2019-01-04 | Apparatus and method for generating an image data bitstream |
Publications (3)
Publication Number | Publication Date |
---|---|
RU2020125985A RU2020125985A (en) | 2022-02-07 |
RU2020125985A3 RU2020125985A3 (en) | 2022-03-23 |
RU2778456C2 true RU2778456C2 (en) | 2022-08-19 |
Family
ID=
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110280318A1 (en) * | 2009-11-30 | 2011-11-17 | Panasonic Corporation | Multiview video decoding apparatus and multiview video decoding method |
JP4964827B2 (en) * | 2008-06-05 | 2012-07-04 | 日本電信電話株式会社 | Multi-view distance information encoding method, decoding method, encoding device, decoding device, encoding program, decoding program, and computer-readable recording medium |
US20120328017A1 (en) * | 2011-06-23 | 2012-12-27 | Yuji Kawashima | Video decoder and video decoding method |
US20130093853A1 (en) * | 2010-06-24 | 2013-04-18 | Hideki Iwami | Information processing apparatus and information processing method |
US20140313291A1 (en) * | 2007-10-24 | 2014-10-23 | Huawei Device Co., Ltd | Video coding method, video decoding method, video coder, and video decoder |
RU2538919C2 (en) * | 2010-06-24 | 2015-01-10 | Сони Корпорейшн | Transmitting device, receiving device and communication system |
US8964859B2 (en) * | 2009-11-11 | 2015-02-24 | Panasonic Corporation | 3D video decoding apparatus and 3D video decoding method |
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140313291A1 (en) * | 2007-10-24 | 2014-10-23 | Huawei Device Co., Ltd | Video coding method, video decoding method, video coder, and video decoder |
JP4964827B2 (en) * | 2008-06-05 | 2012-07-04 | 日本電信電話株式会社 | Multi-view distance information encoding method, decoding method, encoding device, decoding device, encoding program, decoding program, and computer-readable recording medium |
US8964859B2 (en) * | 2009-11-11 | 2015-02-24 | Panasonic Corporation | 3D video decoding apparatus and 3D video decoding method |
US20110280318A1 (en) * | 2009-11-30 | 2011-11-17 | Panasonic Corporation | Multiview video decoding apparatus and multiview video decoding method |
US20130093853A1 (en) * | 2010-06-24 | 2013-04-18 | Hideki Iwami | Information processing apparatus and information processing method |
RU2538919C2 (en) * | 2010-06-24 | 2015-01-10 | Сони Корпорейшн | Transmitting device, receiving device and communication system |
US20120328017A1 (en) * | 2011-06-23 | 2012-12-27 | Yuji Kawashima | Video decoder and video decoding method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11122295B2 (en) | Apparatus and method for generating an image data bitstream | |
JP7493496B2 (en) | Image Composition | |
JP2010045776A (en) | Method and system for rendering image, and computer program therefor | |
RU2778456C2 (en) | Device and method for formation of binary image data flow | |
CN114897681A (en) | Multi-user free visual angle video method and system based on real-time virtual visual angle interpolation | |
JP7471314B2 (en) | Apparatus and method for generating an image signal | |
CN117376540A (en) | Virtual visual angle synthesis method and device based on depth map | |
US11856223B2 (en) | Apparatus and method of generating an image signal | |
TWI848978B (en) | Image synthesis | |
RU2817803C2 (en) | Image signal representing scene | |
EP4386678A1 (en) | Novel view generation using point clouds | |
WO2023186588A1 (en) | Compression of depth maps |