RU2803531C2

RU2803531C2 - Method and device for encoding and decoding video

Info

Publication number: RU2803531C2
Application number: RU2022122992A
Authority: RU
Inventors: Тон Кё СИМ; Хан Соль ЧХВЕ; Чон Сок Ли; Сеа Нэ ПАК; Сон Ук ПАК; Хва Пён ЛИМ
Original assignee: Хёндэ Мотор Кампани; Киа Корпорейшн; Кванун Юниверсити Индастри-Академик Коллаборейшн Фаундейшн
Priority date: 2019-03-12
Filing date: 2020-03-12
Publication date: 2023-09-14

Abstract

FIELD: video encoding and decoding.

SUBSTANCE: invention relates to a method for incrementally encoding or decoding an entire area in an image over a plurality of images associated with an image. A method of encoding and decoding is proposed using gradual update comprising decoding, from the sequence header in the bitstream, a flag indicating whether gradual update is allowed; decoding the identification information to identify the first picture in the sequence to which the incremental update has been applied and determine the value of a picture order counter (POC) of the first picture; decoding the group size information to identify the group of pictures associated with the first picture to which the gradual update has been applied; determining a POC value of a second image corresponding to the last image belonging to the group based on the group size information; and determining a group of pictures associated with the first picture using the POC value of the first picture and the POC value of the second picture, where the identification information indicates that the gradual update is not applied to the first picture in the sequence, based on a flag indicating that the gradual update is not allowed.

EFFECT: increasing the decoding efficiency.

12 cl, 22 dwg

Description

Область техники, к которой относится изобретениеField of technology to which the invention relates

[1] Настоящее раскрытие относится к кодированию и декодированию видео, а конкретнее, к способу постепенного кодирования или декодирования всей области в изображении по множеству изображений, связанных с изображением.[1] The present disclosure relates to video encoding and decoding, and more specifically, to a method for incrementally encoding or decoding an entire region in an image across multiple images associated with an image.

Уровень техникиState of the art

[2] Поскольку объем видеоданных больше, чем объем речевых данных или данных статического изображения, для хранения или передачи видеоданных без обработки для сжатия требуется много аппаратных ресурсов, включая запоминающее устройство. Соответственно, при хранении или передаче видеоданных видеоданные обычно сжимаются с использованием кодировщика для хранения или передачи. Затем декодер принимает сжатые видеоданные, распаковывает и воспроизводит видеоданные. Процедуры сжатия для такого видео включают H.264/AVC и высокоэффективное кодирование видео (HEVC), которое повышает эффективность кодирования по сравнению с H.264/AVC примерно на 40%.[2] Since the volume of video data is larger than the volume of speech data or still image data, storing or transmitting video data without processing for compression requires a lot of hardware resources, including a storage device. Accordingly, when storing or transmitting video data, the video data is typically compressed using an encoder for storage or transmission. The decoder then receives the compressed video data, decompresses and plays back the video data. Compression procedures for such video include H.264/AVC and High Efficiency Video Coding (HEVC), which improves encoding efficiency over H.264/AVC by approximately 40%.

[3] Однако размер, разрешение и частота кадров видео постепенно увеличиваются, и, соответственно, увеличивается также объем данных, которые необходимо кодировать. Следовательно, требуется новая процедура сжатия, имеющая лучшую эффективность кодирования и более высокое качество изображения, чем существующая процедура сжатия.[3] However, video size, resolution, and frame rate are gradually increasing, and accordingly, the amount of data that needs to be encoded is also increasing. Therefore, a new compression procedure having better coding efficiency and higher image quality than the existing compression procedure is required.

[4] Для сжатия видеоданных каждый из блоков изображения может кодироваться с предсказанием. Как правило, предсказание текущего блока выполняется с использованием процедуры интра-предсказания (с использованием данных из изображения, содержащего текущий блок) или процедуры интер-предсказания (с использованием данных из изображения, которое было закодировано до изображения, содержащего текущий блок). Интер-предсказание включает в себя как однонаправленное, так и двунаправленное предсказание.[4] To compress video data, each of the image blocks can be predictively encoded. Typically, prediction of the current block is performed using an intra-prediction procedure (using data from the image containing the current block) or an inter-prediction procedure (using data from the image that was encoded before the image containing the current block). Inter-prediction includes both unidirectional and bidirectional prediction.

[5] Первое изображение, включенное в битовый поток видео, или изображение с произвольным доступом, которое обеспечивает произвольный доступ в произвольной позиции, например изображение мгновенного обновления декодирования (IDR) или изображение чистого произвольного доступа (CRA), кодируется с использованием интра-предсказания. В общем, кодирование I- (внутреннего) изображения, в котором вся область изображения предсказывается с использованием интра-предсказания, требует большого количества битов по сравнению с Р- (предсказанным) или В- (с двунаправленным предсказанием) изображением, которое допускает интер-предсказание. Это может вызвать проблемы с контролем частоты и контролем буфера с точки зрения обслуживания. В частности, эта тенденция может возникать чаще, когда размер, разрешение и частота кадров видео постепенно увеличиваются.[5] The first picture included in the video bitstream, or a random access picture that provides random access at a random position, such as an instant decoding update (IDR) picture or a pure random access (CRA) picture, is encoded using intra-prediction. In general, encoding an I- (intra) image in which the entire image region is predicted using intra-prediction requires a large number of bits compared to a P- (predicted) or B- (bidirectional) image that allows inter-prediction . This can cause problems with frequency control and buffer control from a maintenance perspective. In particular, this trend may occur more frequently as video size, resolution, and frame rate gradually increase.

Раскрытие сущности изобретенияDisclosure of the invention

[6] Настоящее раскрытие направлено на процедуру постепенного кодирования или декодирования всей области изображения по множеству изображений, связанных с указанным изображением.[6] The present disclosure is directed to a procedure for incrementally encoding or decoding an entire image area across a plurality of images associated with a specified image.

[7] В соответствии с одним аспектом настоящего раскрытия, предлагается способ декодирования видео для декодирования последовательности изображений с использованием постепенного обновления. Способ включает в себя декодирование, из заголовка последовательности в битовом потоке, флага, указывающего, разрешено ли постепенное обновление; декодирование идентификационной информации для идентификации первого изображения, к которому применено постепенное обновление, в последовательности и определения значения счетчика порядка изображения (РОС) первого изображения; декодирование информации о размере группы для идентификации группы изображений, связанных с первым изображением, к которому применено постепенное обновление; определение значения РОС второго изображения, соответствующего последнему изображению, принадлежащему группе, на основе информации о размере группы; и определение группы изображений, связанных с первым изображением, используя значение РОС первого изображения и значение РОС второго изображения.[7] In accordance with one aspect of the present disclosure, a video decoding method is provided for decoding a sequence of images using incremental updating. The method includes decoding, from a sequence header in the bitstream, a flag indicating whether incremental updating is enabled; decoding identification information to identify a first picture to which incremental updating has been applied in the sequence and determining a picture order counter (POC) value of the first picture; decoding group size information to identify a group of pictures associated with the first picture to which the gradual update has been applied; determining a POC value of a second image corresponding to the last image belonging to the group based on the group size information; and determining a group of images associated with the first image using the POC value of the first image and the POC value of the second image.

В соответствии с другим аспектом настоящего раскрытия, предлагается устройство декодирования видео для декодирования последовательности изображений с использованием постепенного обновления. Устройство включает в себя один или более процессор, сконфигурированный для декодирования битового потока для восстановления изображений в последовательности; и одно или несколько элементов запоминающем устройстве, сконфигурированных для хранения восстановленных изображений. Один или более процессор сконфигурирован для декодирования, из заголовка последовательности в битовом потоке, флага, указывающего, разрешено ли постепенное обновление; декодирования идентификационной информации для идентификации первого изображения, к которому применено постепенное обновление, в последовательности и определения значения счетчика порядка изображения (РОС) первого изображения; декодирования информации о размере группы для идентификации группы изображений, связанных с первым изображением, к которому применено постепенное обновление; определения значения РОС второго изображения, соответствующего последнему изображению, принадлежащему группе, на основе информации о размере группы; и определения группы изображений, связанных с первым изображением, с использованием значения РОС первого изображения и значения РОС второго изображения. Краткое описание чертежейAccording to another aspect of the present disclosure, a video decoding apparatus for decoding a sequence of images using incremental updating is provided. The apparatus includes one or more processors configured to decode the bitstream to reconstruct images in sequence; and one or more storage elements configured to store the recovered images. One or more processors are configured to decode, from a sequence header in the bit stream, a flag indicating whether incremental updating is enabled; decoding identification information to identify a first image to which incremental updating has been applied in the sequence and determining a picture order counter (POC) value of the first image; decoding the group size information to identify a group of pictures associated with the first picture to which the incremental update has been applied; determining a POC value of a second image corresponding to the last image belonging to the group based on the group size information; and determining a group of images associated with the first image using the POC value of the first image and the POC value of the second image. Brief description of drawings

[8] Фиг. 1 - примерная блок-схема устройства кодирования видео, выполненного с возможностью реализации процедур настоящего раскрытия.[8] FIG. 1 is an exemplary block diagram of a video encoding apparatus configured to implement the procedures of the present disclosure.

[9] Фиг. 2 - схема, иллюстрирующая разделение на блоки с использованием структуры QTBTTT.[9] FIG. 2 is a diagram illustrating blocking using the QTBTTT structure.

[10] Фиг. 3 - схема, иллюстрирующая множество режимов интра-предсказания.[10] FIG. 3 is a diagram illustrating a variety of intra-prediction modes.

[11] Фиг. 4 - примерная блок-схема устройства декодирования видео, выполненного с возможностью реализации процедур настоящего раскрытия.[11] FIG. 4 is an exemplary block diagram of a video decoding apparatus configured to implement the procedures of the present disclosure.

[12] Фиг. 5А-5В - примерные схемы, иллюстрирующие кодирование или декодирование видео согласно аспекту настоящего раскрытия[12] FIG. 5A-5B are exemplary diagrams illustrating video encoding or decoding according to an aspect of the present disclosure.

[13] Фиг. 6 - примерная диаграмма, иллюстрирующая способ генерации изображения путем комбинирования областей обновления, декодированных по изображениям, принадлежащим группе IR, согласно аспекту настоящего раскрытия.[13] FIG. 6 is an example diagram illustrating a method for generating an image by combining update regions decoded from images belonging to an IR group according to an aspect of the present disclosure.

[14] Фиг. 7А-7В - примерные схемы, иллюстрирующие способ хранения и управления изображениями, принадлежащими декодированной группе IR, в запоминающем устройстве согласно аспекту настоящего раскрытия.[14] FIG. 7A-7B are exemplary diagrams illustrating a method for storing and managing images belonging to a decoded IR group in a storage device according to an aspect of the present disclosure.

[15] Фиг. 8А-8С - примерные схемы, иллюстрирующие другой способ хранения и управления изображениями, принадлежащими декодированной группе IR, в запоминающем устройстве согласно аспекту настоящего раскрытия.[15] FIG. 8A-8C are exemplary diagrams illustrating another method of storing and managing images belonging to a decoded IR group in a storage device according to an aspect of the present disclosure.

[16] Фиг. 9 - примерная диаграмма, иллюстрирующая другой способ генерации изображения путем комбинирования областей обновления, декодированных по изображениям, принадлежащим группе IR, согласно аспекту настоящего раскрытия.[16] FIG. 9 is an example diagram illustrating another method of generating an image by combining update regions decoded from images belonging to an IR group, according to an aspect of the present disclosure.

[17] Фиг. 10 - блок-схема, иллюстрирующая способ идентификации группы IR в последовательности изображений для декодирования видео с использованием постепенного обновления, согласно аспекту настоящего раскрытия.[17] FIG. 10 is a flow diagram illustrating a method for identifying an IR group in a sequence of pictures for video decoding using incremental update, according to an aspect of the present disclosure.

[18] Фиг. 11 - примерная диаграмма, иллюстрирующая способ пост-обработки декодированных изображений в группе IR согласно аспекту настоящего раскрытия.[18] FIG. 11 is an example diagram illustrating a method for post-processing decoded images in an IR group according to an aspect of the present disclosure.

[19] Фиг. 12А-12В - примерные схемы, иллюстрирующие другой способ постобработки декодированных изображений в группе IR согласно аспекту настоящего раскрытия.[19] FIG. 12A-12B are exemplary diagrams illustrating another method of post-processing decoded images in an IR group according to an aspect of the present disclosure.

[20] Фиг. 13 - примерная блок-схема устройства управления запоминающим устройством для управления запоминающим устройством на основе мозаичных элементов или на основе группы мозаичных элементов согласно аспекту настоящего раскрытия.[20] FIG. 13 is an exemplary block diagram of a memory control apparatus for controlling a tile-based or tile group-based storage device according to an aspect of the present disclosure.

[21] Фиг. 14А-14В - примерные схемы, иллюстрирующие способ управления запоминающим устройством в единицах мозаичных элементов или групп мозаичных элементов с помощью устройства управления запоминающим устройством согласно аспекту настоящего раскрытия.[21] FIG. 14A-14B are exemplary diagrams illustrating a method for controlling storage in tile units or tile groups by a storage control device according to an aspect of the present disclosure.

[22] Фиг. 15А-15В - примерные схемы, иллюстрирующие масштабируемость, поддерживаемую способом управления запоминающим устройством, согласно аспекту настоящего раскрытия.[22] FIG. 15A-15B are exemplary diagrams illustrating scalability supported by a storage device management method according to an aspect of the present disclosure.

Осуществление изобретенияCarrying out the invention

[23] Далее вариант осуществления настоящего раскрытия будет подробно описан со ссылкой на приложенные чертежи. Следует отметить, что при присвоении ссылочных позиций составляющим элементам на соответствующих чертежах одинаковые ссылочные позиции использованы для обозначения одинаковых элементов, хотя элементы показаны на различных чертежах. Кроме того, в последующем описании настоящего раскрытия подробное описание известных функций и конфигураций, включенных в него, будет опущено, чтобы избежать затруднения понимания предмета настоящего раскрытия.[23] Next, an embodiment of the present disclosure will be described in detail with reference to the accompanying drawings. It should be noted that in assigning reference numerals to constituent elements in the respective drawings, the same reference numerals are used to designate like elements even though the elements are shown in different drawings. Moreover, in the following description of the present disclosure, a detailed description of the known functions and configurations included herein will be omitted in order to avoid obscuring the subject matter of the present disclosure.

[24] Фиг. 1 - примерная блок-схема устройства кодирования видео, выполненного с возможностью реализации процедур настоящего раскрытия. Далее устройство кодирования видео и элементы устройства будут описаны со ссылкой на фиг. 1.[24] FIG. 1 is an exemplary block diagram of a video encoding apparatus configured to implement the procedures of the present disclosure. Next, the video encoding device and elements of the device will be described with reference to FIG. 1.

[25] Устройство кодирования видео включает в себя разделитель 110 блоков, предиктор 120, вычитатель 130, преобразователь 140, квантователь 145, модуль 150 перегруппировки, энтропийный кодировщик 155, обратный квантователь 160, обратный преобразователь 165, сумматор 170, модуль 180 фильтрации и запоминающее устройство 190.[25] The video encoding apparatus includes a block separator 110, a predictor 120, a subtractor 130, a converter 140, a quantizer 145, a rearrangement unit 150, an entropy encoder 155, an inverse quantizer 160, an inverse converter 165, an adder 170, a filtering unit 180, and a memory device. 190.

[26] Каждый элемент устройства кодирования видео может быть реализован в виде аппаратного или программного обеспечения или в виде сочетания аппаратного и программного обеспечения. Функции соответствующих элементов могут быть реализованы в виде программного обеспечения, и микропроцессор может быть реализован для выполнения функций программного обеспечения, соответствующих соответствующим элементам.[26] Each element of a video encoding device may be implemented as hardware or software, or a combination of hardware and software. The functions of the corresponding elements may be implemented as software, and the microprocessor may be implemented to perform the software functions corresponding to the corresponding elements.

[27] Одно видео включает в себя множество изображений. Каждое изображение разбивается на множество областей, и для каждой области выполняется кодирование. Например, одно изображение разбивается на одну или несколько мозаичных элементов или/и фрагментов. В частности, один или несколько мозаичных элементов могут быть определены как группа мозаичных элементов. Каждый мозаичный элемент или фрагмент разделяют на одну или несколько единиц дерева кодирования (CTU). И каждую CTU разделяют на одну или несколько единиц кодирования (CU) с древовидной структурой. Информация, применяемая к каждому CU, кодируется как синтаксис CU, а информация, применяемая к CU, включенной в один общий CTU, кодируется как синтаксис CTU. Кроме того, информация, обычно применяемая ко всем блокам в одном фрагменте, кодируется как синтаксис заголовка фрагмента, а информация, применяемая ко всем блокам, составляющим одно изображение, кодируется в наборе параметров изображения (PPS) или заголовке изображения. Кроме того, информация, к которой относится множество изображений, кодируется в наборе параметров последовательности (SPS). Кроме того, информация, на которую опираются один или несколько общих SPS, кодируется в наборе параметров видео (VPS). Информация, обычно применяемая к одному мозаичному элементу или группе мозаичных элементов, может быть закодирована как синтаксис заголовка мозаичного элемента или группы мозаичных элементов.[27] One video includes many images. Each image is divided into multiple regions, and coding is performed for each region. For example, one image is divided into one or more mosaic elements and/or fragments. In particular, one or more tiles may be defined as a group of tiles. Each tile or fragment is divided into one or more coding tree units (CTUs). And each CTU is divided into one or more coding units (CUs) with a tree structure. Information applied to each CU is encoded as CU syntax, and information applied to CUs included in one common CTU is encoded as CTU syntax. In addition, information typically applied to all blocks in a single tile is encoded as tile header syntax, and information applied to all blocks composing one image is encoded in a picture parameter set (PPS) or image header. In addition, the information to which a plurality of pictures relate is encoded in a Sequence Parameter Set (SPS). In addition, the information relied upon by one or more common SPSs is encoded in a video parameter set (VPS). Information typically applied to a single tile or group of tiles may be encoded as tile or group of tile header syntax.

[28] Разделитель 110 блоков конфигурирован для определения размера единицы дерева кодирования (CTU). Информация о размере единицы CTU (размер CTU) кодируется как синтаксис SPS или PPS и передается в устройство декодирования видео.[28] Block separator 110 is configured to determine the size of a coding tree unit (CTU). CTU unit size information (CTU size) is encoded as SPS or PPS syntax and sent to the video decoding device.

[29] Разделитель 110 блоков выполнен с возможностью разделения каждого изображения, составляющего видео, на множество CTU, имеющих заранее определенный размер, а затем рекурсивно разделять CTU с использованием древовидной структуры. В древовидной структуре листовой узел служит единицей кодирования (CU), которая является базовой единицей кодирования.[29] The block divider 110 is configured to divide each image constituting a video into a plurality of CTUs having a predetermined size, and then recursively divide the CTUs using a tree structure. In a tree structure, a leaf node serves as a coding unit (CU), which is the basic coding unit.

[30] Древовидная структура может быть QuadTree (QT), в которой узел (или родительский узел) разделен на четыре подузла (или дочерних узла) одинакового размера, BinaryTree (ВТ), в которой узел разделен на два подузла, TernaryTree (ТТ), в котором узел разделен на три подузла в соотношении 1: 2: 1, или структурой, образованной комбинацией двух или более из структуры QT, структуры ВТ и структуры ТТ. Например, может использоваться структура, включающая дерево квадрантов и двоичное дерево (QTBT), или структура, включающая дерево квадрантов и троичное дерево двоичное дерево (QTBTTT). В частности, ВТТТ может в совокупности называться деревом множественного типа (МТТ).[30] The tree structure can be QuadTree (QT), in which a node (or parent node) is divided into four subnodes (or child nodes) of equal size, BinaryTree (BT), in which a node is divided into two subnodes, TernaryTree (TT), in which a node is divided into three sub-nodes in a 1:2:1 ratio, or a structure formed by a combination of two or more of a QT structure, a BT structure, and a TT structure. For example, a structure including a quadtree and a binary tree (QTBT) or a structure including a quadtree and a ternary tree binary tree (QTBTTT) may be used. In particular, the VTTT may be collectively referred to as a multiple type tree (MTT).

[31] Фиг. 2 в качестве примера показывает древовидную структуру разделения QTBTTT. Как показано на фиг. 2, CTU может быть изначально разделена в структуре QT. Разделение QT может повторяться до тех пор, пока размер блока разделения не достигнет минимального размера блока (MinQTSize) листового узла, разрешенного в QT. Первый флаг (QT_split_flag), указывающий, разделен ли каждый узел структуры QT на четыре узла нижнего уровня, кодируется энтропийным кодировщиком 155 и сигнализируется в устройство декодирования видеоизображений. Если листовой узел QT меньше или равен максимальному размеру блока (MaxBTSize) корневого узла, разрешенного в ВТ, он может быть дополнительно разделен на любую одну или несколько структур ВТ или структур ТТ. Структура ВТ и/или структура ТТ может иметь множество направлений разделения. Например, может быть два направления, а именно направление, в котором блок узла разделен по горизонтали, и направление, в котором блок разделяется по вертикали. Как показано на фиг. 2, когда начинается разделение МТТ, второй флаг (mtt_split_flag), указывающий, разделены ли узлы, флаг, указывающий направление разделения (вертикальное или горизонтальное) в случае разделения, и/или флаг, указывающий тип разделения (двоичное или троичное) кодируются энтропийным кодировщиком 155 и сигнализируются в устройство декодирования видео. В качестве альтернативы, перед кодированием первого флага (QT_split_flag), указывающего, разделен ли каждый узел на четыре узла нижнего уровня, может быть закодирован флаг разделения CU (split_cu_flag), указывающий, разделен ли этот узел или нет. Когда значение флага разделения CU (split_cu_flag) указывает, что разделение не выполнено, блок узла становится листовым узлом в структуре дерева разделения и обслуживает единицу кодирования (CU), которая является базовой единицей кодирования. Когда значение флага разделения CU (split_cu_flag) указывает, что разделение выполнено, устройство кодирования видео конфигурируется для начала кодирования флагов способом, описанным выше, начиная с первого флага.[31] FIG. 2 shows the tree structure of the QTBTTT partition as an example. As shown in FIG. 2, CTU can be initially divided into QT structure. QT splitting can be repeated until the split block size reaches the minimum block size (MinQTSize) of a leaf node allowed in QT. The first flag (QT_split_flag) indicating whether each node of the QT structure is divided into four lower-level nodes is encoded by the entropy encoder 155 and signaled to the video decoding apparatus. If a leaf node QT is less than or equal to the maximum block size (MaxBTSize) of the root node allowed in the BT, it can be further divided into any one or more BT structures or TT structures. The BT structure and/or the CT structure can have multiple division directions. For example, there may be two directions, namely the direction in which the node block is divided horizontally and the direction in which the block is divided vertically. As shown in FIG. 2, when MTT splitting begins, a second flag (mtt_split_flag) indicating whether the nodes are split, a flag indicating the direction of splitting (vertical or horizontal) in case of splitting, and/or a flag indicating the type of splitting (binary or ternary) are encoded by the entropy encoder 155 and are signaled to the video decoding device. Alternatively, before encoding the first flag (QT_split_flag) indicating whether each node is split into four lower-level nodes, a CU split flag (split_cu_flag) may be encoded indicating whether the node is split or not. When the value of the CU split flag (split_cu_flag) indicates that the split has not been completed, the node block becomes a leaf node in the split tree structure and serves a coding unit (CU), which is the basic coding unit. When the value of the CU split flag (split_cu_flag) indicates that splitting has been completed, the video encoding device is configured to begin encoding the flags in the manner described above, starting with the first flag.

[32] Когда QTBT используется в качестве другого примера древовидной структуры, может быть два типа разделения, которые представляют собой тип горизонтального разделения блока на два блока одинакового размера (т.е. симметричное горизонтальное разделение) и тип вертикального разделения блока на два блока одинакового размера (т.е. симметричное вертикальное разделение). Флаг разделения (split_flag), указывающий, разделен ли каждый узел структуры ВТ на блок нижнего уровня, и информация о типе разделения, указывающая тип разделения, кодируются энтропийным кодировщиком 155 и передаются в устройство декодирования видео. Возможен дополнительный тип разделения блока узла на два асимметричных блока. Тип асимметричного разделения может включать в себя тип разделения блока на два прямоугольных блока с соотношением размеров 1: 3 или тип разделения по диагонали блока узла.[32] When QTBT is used as another example of a tree structure, there can be two types of partitioning, which are a type of horizontal partitioning of a block into two blocks of equal size (i.e. symmetrical horizontal partitioning) and a type of vertical partitioning of a block into two blocks of equal size (i.e. symmetrical vertical division). A split flag (split_flag) indicating whether each node of the VT structure is divided into a lower-layer block, and split type information indicating the type of division, are encoded by the entropy encoder 155 and transmitted to the video decoding device. An additional type of division of the node block into two asymmetric blocks is possible. The asymmetrical division type may include a block division type into two rectangular blocks with an aspect ratio of 1:3, or a node block diagonal division type.

[33] В частности, блоки CU могут иметь различные размеры в соответствии с разделением блока CTU на QTBT или QTBTTT. В дальнейшем блок, соответствующий CU (то есть конечному узлу QTBTTT), который должен быть закодирован или декодирован, называется «текущим блоком». Поскольку используется разделение QTBTTT, форма текущего блока может быть квадратной или прямоугольной.[33] In particular, the CUs may have different sizes according to the division of the CTU into QTBT or QTBTTT. In the following, the block corresponding to the CU (i.e., the QTBTTT end node) to be encoded or decoded is called the “current block”. Because QTBTTT partitioning is used, the shape of the current block can be square or rectangular.

[34] Предиктор 120 сконфигурирован для предсказания текущего блока для генерирования блока предсказания. Предиктор 120 включает в себя интра-предиктор 122 и интер-предиктор 124.[34] Predictor 120 is configured to predict the current block to generate a prediction block. Predictor 120 includes intra-predictor 122 and inter-predictor 124.

[35] Модуль 122 интра-предсказания сконфигурирован для предсказания пикселей в текущем блоке с использованием пикселей (опорных пикселей), расположенных вокруг текущего блока в текущем изображении, включая текущий блок. Существует множество режимов интра-предсказания согласно направлениям предсказания. Например, как показано на фиг. 3, множество режимов интра-предсказания может включать в себя два ненаправленных режима, которые включают в себя планарный режим и режим DC, и 65 направленных режимов. Соседние пиксели и используемое уравнение определяются по-разному для каждого режима предсказания.[35] The intra-prediction unit 122 is configured to predict pixels in the current block using pixels (reference pixels) located around the current block in the current image, including the current block. There are many intra-prediction modes according to the prediction directions. For example, as shown in FIG. 3, the plurality of intra-prediction modes may include two omnidirectional modes, which include planar mode and DC mode, and 65 directional modes. The neighboring pixels and the equation used are determined differently for each prediction mode.

[36] Модуль 122 интра-предсказания может быть сконфигурирован для определения режима интра-предсказания, используемого при кодировании текущего блока. В некоторых примерах модуль 122 интра-предсказания может быть сконфигурирован для кодирования текущего блока с использованием нескольких режимов интра-предсказания и выбора из протестированных режимов соответствующего режима интра-предсказания для использования. Например, блок 122 интра-предсказания может быть сконфигурирован вычислять значения искажения частоты с использованием анализа отношения частота-искажение нескольких протестированных режимов интра-предсказания и выбирать режим интра-предсказания, который имеет лучшие характеристики частота-искажения среди протестированных режимов.[36] The intra-prediction module 122 may be configured to determine the intra-prediction mode used when encoding the current block. In some examples, intra-prediction module 122 may be configured to encode the current block using multiple intra-prediction modes and select from the tested modes the appropriate intra-prediction mode to use. For example, intra-prediction block 122 may be configured to calculate frequency distortion values using frequency-distortion ratio analysis of several tested intra-prediction modes and select the intra-prediction mode that has the best frequency-distortion characteristics among the tested modes.

[37] Модуль 122 интра-предсказания сконфигурирован для выбора одного режима интра-предсказания из множества режимов интра-предсказания и для предсказания текущего блока с использованием соседних пикселей (опорных пикселей) и уравнения, определенного в соответствии с выбранным режимом интра-предсказания. Информация о выбранном режиме интра-предсказания кодируется энтропийным кодировщиком 155 и передается в устройство декодирования видеоизображений.[37] The intra-prediction unit 122 is configured to select one intra-prediction mode from a plurality of intra-prediction modes and predict the current block using neighboring pixels (reference pixels) and an equation determined in accordance with the selected intra-prediction mode. Information about the selected intra-prediction mode is encoded by the entropy encoder 155 and transmitted to the video decoding device.

[38] Модуль 124 интер-предсказания сконфигурирован для генерации модуля предсказания для текущего блока посредством компенсации движения. Модуль 124 интер-предсказания сконфигурирован для поиска блока, наиболее похожего на текущий блок в опорном изображении, который был закодирован и декодирован раньше, чем текущее изображение, и генерировать блок предсказания для текущего блока с использованием найденного блока. Затем интер-предиктор конфигурирован генерировать вектор движения, соответствующий смещению между текущим блоком в текущем изображении и блоком предсказания в опорном изображении. В общем, оценку движения выполняют для компонента яркости, а вектор движения, вычисленный на основе компонента яркости, используется как для компонента яркости, так и для компонента цветности.[38] The inter-prediction unit 124 is configured to generate a prediction unit for the current block by motion compensation. The inter-prediction module 124 is configured to search for a block most similar to a current block in a reference picture that was encoded and decoded earlier than the current picture, and generate a prediction block for the current block using the found block. The inter-predictor is then configured to generate a motion vector corresponding to an offset between the current block in the current image and the prediction block in the reference image. In general, motion estimation is performed on the luminance component, and a motion vector calculated based on the luminance component is used for both the luminance component and the chrominance component.

[39] Информация о движении, включающая в себя информацию об опорном изображении и информацию о векторе движения, используемую для предсказания текущего блока, кодируется энтропийным кодировщиком 155 и передается в устройство декодирования видео. Интер-предиктор 124 может быть сконфигурирован выполнять интерполяцию на опорном изображении или опорном блоке, чтобы повысить точность предсказания. Другими словами, субпиксели между целыми пикселями интерполируются с использованием целых пикселей. Когда выполняется процесс поиска блока, наиболее похожего на текущий блок для интерполированного опорного изображения, вектор движения может быть выражен не с точностью до единицы целого пикселя, а с точностью до дольной единицы пикселя. Точность или разрешение вектора движения могут быть установлены по-разному для каждой единицы целевой области, которая должна быть закодирована, например, как фрагмент, мозаичный элемент, CTU или CU.[39] Motion information including reference image information and motion vector information used for predicting the current block is encoded by the entropy encoder 155 and transmitted to the video decoding apparatus. Inter-predictor 124 may be configured to interpolate on a reference image or reference block to improve prediction accuracy. In other words, subpixels between whole pixels are interpolated using whole pixels. When the process of searching for a block that is most similar to the current block for an interpolated reference image is performed, the motion vector may not be expressed in whole-pixel precision, but in sub-unit pixel precision. The precision or resolution of the motion vector can be set differently for each target area unit to be encoded, for example, as a fragment, tile, CTU or CU.

[40] Вычитатель 130 сконфигурирован для вычитания блока предсказания, сгенерированного интра-предиктором 122 или интер-предиктором 124, из текущего блока для генерации остаточного блока. Преобразователь 140 может быть конфигурирован разделять остаточный блок на один или несколько блоков преобразования и применять преобразование к одному или нескольким блокам преобразования, тем самым преобразуя остаточные значения блоков преобразования из области пикселей в область частот. В области частот преобразованные блоки называются блоками коэффициентов, содержащими одно или более значений коэффициентов преобразования. Ядро двумерного преобразования может использоваться для преобразования, а ядра одномерного преобразования могут использоваться для горизонтального преобразования и вертикального преобразования соответственно. Ядра преобразования могут быть основаны на дискретном косинусном преобразовании (DCT), дискретном синусоидальном преобразовании (DST) или другим подобным.[40] Subtractor 130 is configured to subtract a prediction block generated by intra-predictor 122 or inter-predictor 124 from the current block to generate a residual block. Converter 140 may be configured to divide the residual block into one or more transform blocks and apply a transform to the one or more transform blocks, thereby converting the transform block residuals from the pixel domain to the frequency domain. In the frequency domain, transformed blocks are called coefficient blocks containing one or more transform coefficient values. The two-dimensional transformation kernel can be used for transformation, and the one-dimensional transformation kernels can be used for horizontal transformation and vertical transformation, respectively. The transform kernels may be based on discrete cosine transform (DCT), discrete sine transform (DST), or the like.

[41] Преобразователь 140 может быть сконфигурирован для преобразования остаточных сигналов в остаточном блоке с использованием всего размера остаточного блока в качестве единицы преобразования. В качестве альтернативы, остаточный блок может быть разделен на множество подблоков, и остаточные сигналы в подблоке могут быть преобразованы с использованием подблока в качестве единицы преобразования.[41] Converter 140 may be configured to convert residual signals in a residual block using the entire size of the residual block as a conversion unit. Alternatively, the residual block can be divided into a plurality of sub-blocks, and the residual signals in the sub-block can be converted using the sub-block as a conversion unit.

[42] Преобразователь 140 может быть выполнен с возможностью индивидуального преобразования остаточного блока в горизонтальном направлении и вертикальном направлении. Для преобразования могут использоваться различные типы функций преобразования или матриц преобразования. Например, пара функций преобразования для преобразования в горизонтальном направлении и вертикальном направлении может быть определена как набор множественных преобразований (MTS). Преобразователь 140 может быть сконфигурирован для выбора одной пары функций преобразования, имеющей наибольшую эффективность преобразования в MTS, и преобразования остаточного блока в горизонтальном и вертикальном направлениях соответственно. Информация (nits_idx) о паре функций преобразования, выбранной из MTS, кодируется энтропийным кодировщиком 155 и сигнализируется в устройство декодирования видео.[42] The converter 140 may be configured to individually convert the residual block in the horizontal direction and the vertical direction. Various types of transformation functions or transformation matrices can be used for transformation. For example, a pair of transform functions for transforming in the horizontal direction and vertical direction may be defined as a multiple transform set (MTS). Converter 140 may be configured to select one pair of transform functions having the greatest conversion efficiency in the MTS, and transform the residual block in the horizontal and vertical directions, respectively. Information (nits_idx) about the transform function pair selected from the MTS is encoded by the entropy encoder 155 and signaled to the video decoding device.

[43] Квантователь 145 выполнен с возможностью квантования коэффициентов преобразования, выводимых из преобразователя 140, и вывода квантованных коэффициентов преобразования на энтропийный кодировщик 155. Для некоторых блоков или кадров квантователь 145 может быть сконфигурирован для прямого квантования связанного остаточного блока без преобразования.[43] Quantizer 145 is configured to quantize transform coefficients output from transformer 140 and output the quantized transform coefficients to entropy encoder 155. For some blocks or frames, quantizer 145 may be configured to directly quantize the associated residual block without transform.

[44] Модуль 150 перегруппировки может быть сконфигурирован для реорганизации значений коэффициентов для квантованного остаточного значения. Модуль 150 перегруппировки может быть сконфигурирован для изменения 2-мерного массива коэффициентов в 1-мерную последовательность коэффициентов посредством сканирования коэффициентов. Например, модуль 150 перегруппировки может быть сконфигурирован для сканирования коэффициентов от коэффициента DC до коэффициента в высокочастотной области с использованием зигзагообразного сканирования или диагонального сканирования для вывода 1-мерной последовательности коэффициентов. В зависимости от размера единицы преобразования и режима интра-предсказания, вместо зигзагообразного сканирования может использоваться вертикальное сканирование, в котором двумерный массив коэффициентов сканируется в направлении столбцов, или горизонтальное сканирование, в котором двумерные блочные коэффициенты сканируются в направлении строк. Другими словами, используемый режим сканирования может быть определен среди зигзагообразного сканирования, диагонального сканирования, вертикального сканирования и горизонтального сканирования в соответствии с размером единицы преобразования и режимом интра-предсказания.[44] Rearrangement module 150 may be configured to reorganize coefficient values for the quantized residual value. Rearrangement module 150 may be configured to change a 2-dimensional array of coefficients into a 1-dimensional sequence of coefficients by scanning the coefficients. For example, rearrangement module 150 may be configured to scan coefficients from a DC coefficient to a high-frequency domain coefficient using a zigzag scan or a diagonal scan to output a 1-dimensional sequence of coefficients. Depending on the size of the transform unit and the intra-prediction mode, instead of zigzag scanning, vertical scanning may be used, in which a two-dimensional array of coefficients is scanned in the column direction, or horizontal scanning, in which two-dimensional block coefficients are scanned in the row direction. In other words, the scanning mode used can be determined among zigzag scanning, diagonal scanning, vertical scanning and horizontal scanning according to the size of the transformation unit and the intra-prediction mode.

[45] Энтропийный кодировщик 155 сконфигурирован для кодирования одномерных квантованных коэффициентов преобразования, выводимых из модуля 150 перегруппировки, с использованием различных методов кодирования, таких как контекстно-зависимый адаптивный двоичный арифметический код (САВАС) и экспоненциальный код Голомба, для генерации битового потока.[45] Entropy encoder 155 is configured to encode one-dimensional quantized transform coefficients output from rearrangement module 150 using various encoding techniques such as context-sensitive adaptive binary arithmetic code (CABAC) and exponential Golomb code to generate a bitstream.

[46] Энтропийный кодировщик 155 сконфигурирован для кодирования информации, такой как размер CTU, флаг разделения CU, флаг разделения QT, тип разделения МТТ и направление разделения МТТ, которая связана с разделением блоков, так что устройство декодирования видео может разделить блок таким же образом, как в устройстве кодирования видео. Кроме того, энтропийный кодировщик 155 сконфигурирован для кодирования информации о типе предсказания, указывающей, закодирован ли текущий блок посредством интра-предсказания или интер-предсказания, и кодирует информацию интра-предсказания (т.е. информацию о режиме интра-предсказания) или информация по интер-предсказанию (информация об индексе опорного изображения и векторе движения) согласно типу предсказания.[46] The entropy encoder 155 is configured to encode information such as CTU size, CU partition flag, QT partition flag, MTT partition type, and MTT partition direction, which is associated with block partitioning, so that the video decoding apparatus can partition the block in the same manner. as in a video encoder. In addition, the entropy encoder 155 is configured to encode prediction type information indicating whether the current block is encoded by intra-prediction or inter-prediction, and encodes intra-prediction information (i.e., intra-prediction mode information) or inter-prediction information. inter-prediction (reference image index and motion vector information) according to the prediction type.

[47] Обратный квантователь 160 сконфигурирован для обратного квантования коэффициентов преобразования, выводимых из квантователя 145, для генерации коэффициентов преобразования. Обратный преобразователь 165 сконфигурирован для преобразования коэффициентов преобразования, выводимых из обратного квантователя 160, из частотной области в пространственную область и восстановления остаточного блока.[47] The inverse quantizer 160 is configured to inversely quantize the transform coefficients output from the quantizer 145 to generate transform coefficients. The inverse converter 165 is configured to convert the conversion coefficients output from the inverse quantizer 160 from the frequency domain to the spatial domain and restore the residual block.

[48] Сумматор 170 выполнен с возможностью добавления восстановленного остаточного блока к блоку предсказания, сгенерированному модулем 120 предсказания, для восстановления текущего блока. Пиксели в восстановленном текущем блоке используются в качестве опорных пикселей при выполнении интра-предсказания следующего блока. Модуль 180 фильтрации сконфигурирован для фильтрации восстановленных пикселей для уменьшения артефактов блочности, артефактов ложного оконтуривания и артефактов размытия, генерируемых из-за предсказания на основе блоков и преобразования/квантования. Модуль 180 фильтрации может включать в себя фильтр 182 удаления блочности и фильтр 184 с адаптивным смещением пикселей (SAO).[48] The adder 170 is configured to add the reconstructed residual block to the prediction block generated by the prediction module 120 to recover the current block. The pixels in the reconstructed current block are used as reference pixels when performing intra-prediction of the next block. The filtering module 180 is configured to filter the reconstructed pixels to reduce blocking artifacts, false outlining artifacts, and blur artifacts generated due to block-based prediction and transform/quantization. Filtering module 180 may include a deblocking filter 182 and an adaptive pixel offset (SAO) filter 184.

[49] Фильтр 180 удаления блочности сконфигурирован для фильтрации границы между восстановленными блоками, чтобы удалить артефакт блочности, вызванный поблочным кодированием/декодированием, а фильтр 184 SAO выполняет дополнительную фильтрацию отфильтрованного изображения с удалением блочности. Фильтр SAO 184 - это фильтр, используемый для компенсации разницы между восстановленным пикселем и исходным пикселем, вызванной кодированием с потерями. Восстановленный блок фильтруется через фильтр 182 удаления блочности и фильтр 184 SAO и сохраняется в запоминающем устройстве 190. Когда все блоки в одном изображении восстановлены, восстановленное изображение может использоваться в качестве опорного изображения для интер-предсказания блоков в следующем изображении, подлежащим кодированию.[49] The deblocking filter 180 is configured to filter the boundary between reconstructed blocks to remove the blocking artifact caused by block-by-block encoding/decoding, and the SAO filter 184 further performs deblocking filtering on the filtered image. The SAO 184 filter is a filter used to compensate for the difference between the reconstructed pixel and the original pixel caused by lossy encoding. The reconstructed block is filtered through the deblocking filter 182 and the SAO filter 184 and stored in the memory 190. When all the blocks in one image are reconstructed, the reconstructed image can be used as a reference image for inter-prediction of blocks in the next image to be encoded.

[50] Фиг. 4 - примерная функциональная блок-схема устройства декодирования видео, выполненного с возможностью реализации процедур настоящего раскрытия. Далее устройство декодирования видео и элементы устройства будут описаны со ссылкой на фиг. 4. Устройство декодирования видео может включать в себя энтропийный декодер 410, модуль 415 перегруппировки, обратный квантователь 420, обратный преобразователь 430, предиктор 440, сумматор 450, модуль 460 фильтрации и запоминающее устройство 470.[50] FIG. 4 is an exemplary functional block diagram of a video decoding apparatus configured to implement the procedures of the present disclosure. Next, the video decoding device and elements of the device will be described with reference to FIG. 4. The video decoding apparatus may include an entropy decoder 410, a rearranger 415, an inverse quantizer 420, an inverse transformer 430, a predictor 440, an adder 450, a filtering unit 460, and a memory 470.

[51] Подобно устройству кодирования видео с фиг. 1, каждый элемент устройства декодирования видео может быть реализован в виде аппаратного или программного обеспечения или в виде сочетания аппаратного и программного обеспечения. Кроме того, функция каждого элемента может быть реализована в виде программного обеспечения, а микропроцессор может быть реализован для выполнения функции программного обеспечения, соответствующей каждому элементу.[51] Similar to the video encoding apparatus of FIG. 1, each element of a video decoding apparatus may be implemented as hardware or software, or a combination of hardware and software. In addition, the function of each element may be implemented as software, and a microprocessor may be implemented to execute the software function corresponding to each element.

[52] Энтропийный декодер 410 сконфигурирован для определения текущего блока, который должен быть декодирован, путем декодирования битового потока, сгенерированного устройством кодирования видео, и извлечения информации, относящейся к разделению блока, и извлечения информации предсказания и информации об остаточном сигнале и т.п., необходимых для восстановления текущего блока.[52] The entropy decoder 410 is configured to determine the current block to be decoded by decoding the bitstream generated by the video encoding apparatus and extracting block division related information and extracting prediction information and residual signal information and the like. , necessary to restore the current block.

[53] Энтропийный декодер 410 сконфигурирован для извлечения информации о размере CTU из набора параметров последовательности (SPS) или набора параметров изображения (PPS), определяет размер CTU и разбивает изображение на CTU определенного размера. Затем декодер сконфигурирован определять CTU как самый верхний уровень, то есть корневой узел древовидной структуры, и извлекать информацию разделения о CTU для разделения CTU с использованием древовидной структуры.[53] Entropy decoder 410 is configured to extract CTU size information from a sequence parameter set (SPS) or picture parameter set (PPS), determines the size of the CTU, and splits the image into CTUs of a certain size. The decoder is then configured to determine the CTU as the topmost level, that is, the root node of the tree structure, and retrieve partitioning information about the CTU to partition the CTU using the tree structure.

[54] Например, когда CTU разделяется с использованием структуры QTBTTT, первый флаг (QT_split_flag), связанный с разделением QT, извлекается для разделения каждого узла на четыре узла подуровня. Для узла, соответствующего листовому узлу QT, извлекают второй флаг (МТТ_split_flag) и информацию о направлении разделения (вертикальное/ горизонтальное) и/или типе разделения (двоичное/тройное), относящееся к разделению МТТ, чтобы разделить соответствующий листовой узел в структуре МТТ. Таким образом, каждый узел ниже листового узла QT рекурсивно разделяется в структуре ВТ или ТТ.[54] For example, when a CTU is split using the QTBTTT structure, the first flag (QT_split_flag) associated with the QT split is retrieved to split each node into four sublayer nodes. For a node corresponding to a QT leaf node, a second flag (MTT_split_flag) and split direction (vertical/horizontal) and/or split type (binary/ternary) information related to the MTT split are retrieved to split the corresponding leaf node in the MTT structure. Thus, each node below the leaf node QT is recursively divided into a BT or TT structure.

[55] В качестве другого примера, когда CTU разделяется с использованием структуры QTBTTT, может быть извлечен флаг разделения CU (split_cu_flag), указывающий, следует ли разбивать CU. Когда соответствующий блок разделен, может быть извлечен первый флаг (QT_split_flag). В операции разделения может произойти ноль или более рекурсивных разделений МТТ для каждого узла после нуля или более рекурсивных разделений QT. Например, CTU может непосредственно подвергаться расщеплению МТТ без расщепления QT или многократно подвергаться только расщеплению QT.[55] As another example, when a CTU is split using the QTBTTT structure, a CU split flag (split_cu_flag) may be retrieved indicating whether the CU should be split. When the corresponding block is split, the first flag (QT_split_flag) can be retrieved. In a split operation, zero or more recursive MTT splits may occur for each node after zero or more recursive QT splits. For example, a CTU may directly undergo MTT cleavage without QT cleavage or repeatedly undergo QT cleavage alone.

[56] В качестве другого примера, когда CTU разделяется с использованием структуры QTBT, извлекается первый флаг (QT_split_flag), связанный с разбиением QT, и каждый узел разделяется на четыре узла нижнего уровня. Затем флаг разделения (split_flag), указывающий, разделяется ли дополнительно в ВТ узел, соответствующий листовому узлу QT, и извлекается информация о направлении разделения.[56] As another example, when a CTU is split using the QTBT structure, the first flag (QT_split_flag) associated with the QT split is retrieved and each node is split into four lower-level nodes. Then, a split flag (split_flag) indicates whether the node corresponding to the leaf node QT is further split in the VT, and the split direction information is retrieved.

[57] Как только текущий блок, который должен быть декодирован, определен посредством разделения в древовидной структуре, энтропийный декодер 410 сконфигурирован извлекать информацию о типе предсказания, указывающую, предсказан ли текущий блок с использованием интра-предсказания или интер-предсказания. Когда информация о типе предсказания указывает на интра-предсказание, энтропийный декодер 410 сконфигурирован извлекать элемент синтаксиса для информации интра-предсказания (режим интра-предсказания) текущего блока. Когда информация о типе предсказания указывает на интер-предсказание, энтропийный декодер 410 сконфигурирован извлекать элемент синтаксиса для информации интер-предсказания, то есть информацию, указывающую вектор движения и опорное изображение, на которое опирается вектор движения.[57] Once the current block to be decoded is determined by partitioning in the tree structure, the entropy decoder 410 is configured to extract prediction type information indicating whether the current block is predicted using intra-prediction or inter-prediction. When the prediction type information indicates intra-prediction, the entropy decoder 410 is configured to extract a syntax element for the intra-prediction information (intra-prediction mode) of the current block. When the prediction type information indicates inter-prediction, the entropy decoder 410 is configured to extract a syntax element for the inter-prediction information, that is, information indicating a motion vector and a reference image on which the motion vector is based.

[58] Энтропийный декодер 410 также сконфигурирован для извлечения информации о квантованных коэффициентах преобразования текущего блока в качестве информации об остаточном сигнале. Модуль 415 перегруппировки может быть сконфигурирован для изменения последовательности одномерных квантованных коэффициентов преобразования, энтропийно декодированных энтропийным декодером 410, на двумерный массив коэффициентов (то есть блок) в порядке, обратном сканированию коэффициентов, выполняемому устройством кодирования видео.[58] Entropy decoder 410 is also configured to extract information about the quantized transform coefficients of the current block as residual signal information. Rearrangement module 415 may be configured to change the sequence of one-dimensional quantized transform coefficients entropy decoded by entropy decoder 410 into a two-dimensional coefficient array (ie, block) in the reverse order of the coefficient scan performed by the video encoding device.

[59] Обратный квантователь 420 сконфигурирован для обратного квантования квантованных коэффициентов преобразования. Обратный преобразователь 430 выполнен с возможностью обратного преобразования обратно квантованных коэффициентов преобразования из частотной области в пространственную, тем самым генерируя восстановленный остаточный блок для текущего блока. Кроме того, когда применяется MTS, обратный преобразователь 430 сконфигурирован для определения функции преобразования или матрицы преобразования, которые должны применяться в горизонтальном и вертикальном направлениях, соответственно, на основе информации MTS (rats_idx), сигнализированной из устройства кодирования видео, и обратное преобразование коэффициентов преобразования в блоке преобразования в горизонтальном и вертикальном направлениях на основе определенной функции преобразования.[59] Inverse quantizer 420 is configured to inversely quantize the quantized transform coefficients. The inverse converter 430 is configured to inversely convert the inversely quantized transform coefficients from the frequency domain to the spatial domain, thereby generating a reconstructed residual block for the current block. In addition, when MTS is applied, the inverter 430 is configured to determine a transform function or transform matrix to be applied in the horizontal and vertical directions, respectively, based on the MTS information (rats_idx) signaled from the video encoding device, and inversely converts the transform coefficients to transformation block in the horizontal and vertical directions based on a specific transformation function.

[60] Предиктор 440 может включать в себя интра-предиктор 442 и интер-предиктор 444. Итра-предиктор 442 активируется, когда тип предсказания текущего блока является интра-предсказанием, а интер-предиктор 444 активируется, когда тип предсказания текущего блока является интер-предсказанием. Интра-предиктор 442 сконфигурирован для определения режима интра-предсказания текущего блока среди множества режимов интра-предсказания на основе синтаксического элемента для режима интра-предсказания, извлеченного из энтропийного декодера 410, и для предсказания текущего блока с использованием опорных пикселей вокруг текущего блока в соответствии с режимом интра-предсказания.[60] Predictor 440 may include intra predictor 442 and inter predictor 444. Itra predictor 442 is activated when the prediction type of the current block is intra prediction, and inter predictor 444 is activated when the prediction type of the current block is inter-prediction. prediction. The intra predictor 442 is configured to determine the intra prediction mode of the current block among the plurality of intra prediction modes based on the syntax element for the intra prediction mode extracted from the entropy decoder 410, and to predict the current block using reference pixels around the current block in accordance with intra-prediction mode.

[61] Интер-предиктор 444 сконфигурирован для определения вектора движения текущего блока и опорного изображения, на которое опирается вектор движения, с использованием элемента синтаксиса для информации интер-предсказания, извлеченной из энтропийного декодера 410, и предсказания текущего блока на основе вектора движения и опорного изображения. Сумматор 450 сконфигурирован для восстановления текущего блока путем складывания выходного сигнала остаточного блока из обратного преобразователя и блока предсказания, выводимого из интер-предиктора или интра-предиктора. Пиксели в восстановленном текущем блоке используются в качестве опорных пикселей при интра-предсказании подлежащего декодированию следующего блока.[61] The inter-predictor 444 is configured to determine a motion vector of the current block and a reference image on which the motion vector is based, using a syntax element for inter-prediction information extracted from the entropy decoder 410, and predict the current block based on the motion vector and the reference Images. The adder 450 is configured to reconstruct the current block by adding the output of the residual block from the inverse transformer and the prediction block output from the inter-predictor or intra-predictor. The pixels in the reconstructed current block are used as reference pixels in intra-prediction of the next block to be decoded.

[62] Модуль 460 фильтрации может включать в себя фильтр 462 удаления блочности и фильтр 464 SAO. Фильтр 462 удаления блочности фильтрует границу между восстановленными блоками для удаления артефактов блочности, вызванных поблочным декодированием. Фильтр 464 SAO выполняет дополнительную фильтрацию на восстановленном блоке после фильтрации удаления блочности так, чтобы компенсировать разницу между восстановленным пикселем и исходным пикселем, вызванную кодированием с потерями. Восстановленный блок фильтруется через фильтр 182 удаления блочности и фильтр 184 SAO и сохраняется в запоминающем устройстве 190. Когда все блоки в одном изображении восстановлены, восстановленное изображение используется в качестве опорного изображения для интер-предсказания блоков в следующем изображении, подлежащим кодированию.[62] Filtering module 460 may include a deblocking filter 462 and an SAO filter 464 . A deblocking filter 462 filters the boundary between reconstructed blocks to remove blocking artifacts caused by block-by-block decoding. The SAO filter 464 performs additional filtering on the reconstructed block after the deblocking filtering so as to compensate for the difference between the reconstructed pixel and the original pixel caused by lossy encoding. The reconstructed block is filtered through the deblocking filter 182 and the SAO filter 184 and stored in the memory 190. When all the blocks in one image are reconstructed, the reconstructed image is used as a reference image for inter-prediction of blocks in the next image to be encoded.

[63] Как описано выше, устройство кодирования видео или устройство декодирования видео кодирует и декодирует одно изображение в единицах блоков. Изображения могут быть классифицированы на I (интра) изображение, в котором разрешено только внутреннее предсказание, Ρ (предсказывающее) изображение, в котором вместе разрешены интер-предсказание и интра-предсказание, или В (двойное предсказание) изображение, в котором разрешено двунаправленное интер-предсказание. Первое изображение в битовом потоке видео или изображение произвольного доступа, такое как изображение мгновенного обновления декодирования (IDR) или изображение чистого произвольного доступа (CRA), которое допускает произвольный доступ в произвольной позиции, является I-изображением. Обычно для кодирования I (интра) изображения требуется значительное количество битов, в котором вся область изображения предсказана посредством интра-предсказания.[63] As described above, a video encoding apparatus or a video decoding apparatus encodes and decodes one image in units of blocks. Images can be classified into an I (intra) image in which only intra-prediction is allowed, a P (prediction) image in which inter-prediction and intra-prediction are allowed together, or a B (dual-prediction) image in which bi-directional inter-prediction is allowed. prediction. The first picture in a video bitstream or a random access picture, such as an instant decoding update (IDR) picture or a pure random access (CRA) picture, that allows random access at a random position is an I picture. Typically, a significant number of bits are required to encode an I (intra) image, in which the entire image region is predicted by intra-prediction.

[64] По мере увеличения эффективности кодирования Р- или В-изображений посредством опоры на интер-изображения, т.е. интер-предсказания, вследствие развития технологии кодирования и декодирования, разница в количестве битов между I и Ρ или В-изображениями может увеличиваться, что может увеличивать проблемы, касающиеся управления частотой, управления буфером и т.п. с точки зрения обслуживания. Кроме того, когда ошибка возникает из-за среды транспортного канала, по которому передается поток битов, ошибка может быть сконцентрирована в I-изображении. В частности, этот эффект может возникать чаще, когда размер, разрешение и частота кадров видео постепенно увеличиваются.[64] As the coding efficiency of P or B pictures increases by relying on inter-pictures, i.e. inter-prediction, due to the development of encoding and decoding technology, the difference in the number of bits between I and P or B pictures may increase, which may increase problems regarding frequency control, buffer management and the like. from a service point of view. In addition, when an error occurs due to the environment of the transport channel over which the bit stream is transmitted, the error may be concentrated in the I-picture. In particular, this effect may occur more frequently as video size, resolution, and frame rate gradually increase.

[65] Следующее раскрытие представляет способ постепенного кодирования или декодирования всей области изображения по множеству изображений, связанных с изображением, для решения вышеупомянутых проблем. Устройство кодирования видео может кодировать последовательность изображений, а устройство декодирования видео может декодировать последовательность изображений, используя вышеописанный способ. Изображение (первое изображение) в последовательности может образовывать одну группу в связи с множеством изображений. Каждое изображение в группе включает в себя область обновления. По мере того, как изображения в группе декодируются, области обновления могут постепенно декодироваться. После того, как все области обновления декодированы, может быть сгенерировано полное изображение со всеми обновленными областями. Полное изображение со всеми обновленными областями может быть последним изображением (вторым изображением), принадлежащим группе. Другими словами, отдельные области постепенно обновляются по множеству изображений, принадлежащих группе, так, что все области в изображениях обновляются, когда достигается второе изображение.[65] The following disclosure presents a method for incrementally encoding or decoding an entire image area across a plurality of images associated with an image to solve the above-mentioned problems. The video encoding device can encode a sequence of images, and the video decoding device can decode the sequence of images using the above-described method. An image (the first image) in a sequence may form one group in connection with multiple images. Each image in the group includes an update area. As the pictures in the group are decoded, the update regions can be gradually decoded. Once all update regions are decoded, a complete image with all updated regions can be generated. The complete image with all the updated regions can be the last image (second image) belonging to the group. In other words, individual regions are gradually updated across multiple images belonging to the group, such that all regions in the images are updated when the second image is reached.

[66] В дальнейшем группа из множества изображений, связанных с первым изображением, может называться группой IR (с интра-обновлением) или группой постепенного произвольного доступа (GRA). Кроме того, область обновления в каждом изображении, принадлежащем группе, может называться единицей интра-обновления (IRU) или единицей постепенного произвольного доступа (GRU). Кроме того, первое изображение может называться IR изображением или GRA изображением.[66] Hereinafter, a group of multiple images associated with a first image may be called an IR (intra-refresh) group or a Gradual Random Access (GRA) group. In addition, the update area in each picture belonging to a group may be called an intra-update unit (IRU) or a gradual random access unit (GRU). In addition, the first image may be called an IR image or a GRA image.

[67] Устройство декодирования видео может быть сконфигурировано для правильного или более точного декодирования всех изображений из последнего изображения (второго изображения) группы в порядке декодирования. Последнее изображение (второе изображение) в группе может служить опорным изображением для одного или более закодированных последующих изображений, следующих за группой в порядке декодирования. Кроме того, группа или последнее изображение в группе может служить изображением с произвольным доступом для одного или более закодированных последующих изображений, следующих за группой в порядке декодирования.[67] The video decoding apparatus may be configured to correctly or more accurately decode all pictures from the last picture (second picture) of a group in decoding order. The last picture (second picture) in a group may serve as a reference picture for one or more encoded subsequent pictures following the group in decoding order. In addition, a group or the last picture in a group may serve as a random access picture for one or more encoded subsequent pictures following the group in decoding order.

[68] Далее процедура согласно настоящему раскрытию будет подробно описана со ссылкой на чертежи.[68] Next, the procedure according to the present disclosure will be described in detail with reference to the drawings.

[69] Фиг. 5А-5В - примерные схемы, иллюстрирующие процедуру согласно настоящему раскрытию.[69] FIG. 5A-5B are exemplary diagrams illustrating a procedure according to the present disclosure.

[70] Фиг. 5А показывает последовательность изображений. Устройство кодирования видео последовательно кодирует каждое изображение для каждого блока в соответствии с порядком кодирования и передает его в устройство декодирования видео. Устройство декодирования видео декодирует каждое изображение для каждого блока в соответствии с порядком декодирования. Последовательность изображений может включать в себя изображения, принадлежащие группе (группе IR или группе GRA) изображений, к которым применяется постепенное обновление. Информация или флаг, указывающие, может ли постепенное обновление применяться к последовательности изображений, может сообщаться в заголовке последовательности, то есть в SPS. Например, когда флаг указывает первое значение (например, 1), изображения, к которым применимо постепенное обновление, могут присутствовать в последовательности. Когда флаг указывает второе значение (например, 0), в последовательности нет изображений, к которым применимо постепенное обновление.[70] FIG. 5A shows a sequence of images. The video encoding apparatus sequentially encodes each image for each block according to the encoding order and transmits it to the video decoding apparatus. The video decoding apparatus decodes each picture for each block according to the decoding order. The sequence of images may include images belonging to a group (IR group or GRA group) of images to which gradual updating is applied. Information or a flag indicating whether incremental updating can be applied to a sequence of images may be reported in the sequence header, ie, in the SPS. For example, when the flag indicates the first value (eg, 1), images to which incremental updating applies may be present in the sequence. When the flag specifies the second value (for example, 0), there are no images in the sequence to which incremental updating applies.

[71] Когда флаг указывает, что постепенное обновление применимо к последовательности, сигнализируется информация для идентификации в последовательности группы IR. Например, когда интервал времени, в котором группа IR появляется в последовательности, является постоянным, а размер группы, то есть количество изображений, принадлежащих группе, является постоянным, информация об интервале между группами IR и размер групп IR может сообщаться один раз в единице последовательности.[71] When the flag indicates that incremental update is applicable to the sequence, information to identify the IR group in the sequence is signaled. For example, when the time interval at which an IR group appears in a sequence is constant and the group size, that is, the number of images belonging to the group, is constant, information about the interval between IR groups and the size of the IR groups may be reported once per sequence unit.

[72] В другом примере группы IR могут нерегулярно присутствовать в последовательности. В частности, требуется информация для идентификации каждой группы IR в последовательности. Эта информация может сигнализироваться для каждого изображения, то есть как синтаксис заголовка изображения, и может включать в себя информацию, указывающую, является ли изображение IR изображением, и размер группы IR. В качестве примера, устройство декодирования видео получает идентификационную информацию, указывающую, является ли соответствующее ей изображение изображением, к которому применяется постепенное обновление, посредством декодирования информации заголовка соответствующего изображения. Когда идентификационная информация указывает, что к соответствующему изображению было применено постепенное обновление, устройство декодирования видео декодирует информацию, указывающую размер группы изображений, связанных с соответствующим изображением, то есть, группы IR. Идентификационная информация и информация, указывающая размер группы IR, могут быть включены в первое изображение, представляющее начальное изображение группы IR.[72] In another example, IR groups may not be regularly present in the sequence. In particular, information is required to identify each IR group in the sequence. This information may be signaled for each picture, ie, as picture header syntax, and may include information indicating whether the picture is an IR picture, and the size of the IR group. As an example, the video decoding apparatus obtains identification information indicating whether the corresponding picture is an image to which incremental updating is applied by decoding header information of the corresponding picture. When the identification information indicates that incremental updating has been applied to the corresponding picture, the video decoding apparatus decodes information indicating the size of a group of pictures associated with the corresponding picture, that is, an IR group. Identification information and information indicating the size of the IR group may be included in the first image representing the initial image of the IR group.

[73] В общем, битовый поток содержит информацию, указывающую счетчик порядка (РОС) изображения. Эта информация может быть включена, например, в заголовок изображения. Соответственно, устройство декодирования видео может быть сконфигурировано для определения значения РОС первого изображения, которое является начальным изображением группы IR. Кроме того, РОС второго изображения, которое соответствует последнему изображению группы IR, может быть определено с помощью информации о размере группы IR. Например, значение РОС второго изображения может быть получено путем сложения значения РОС первого изображения и значения, указанного в информации о размере группы. Устройство декодирования видео сконфигурировано для определения изображений, имеющих значение РОС, большее или равное значению РОС первого изображения и меньшее или равное значению РОС второго изображения, в качестве группы IR.[73] In general, the bit stream contains information indicating the order counter (POC) of an image. This information may be included, for example, in the title of the image. Accordingly, the video decoding apparatus may be configured to determine a POC value of the first picture, which is the starting picture of the IR group. In addition, the POC of the second image, which corresponds to the last image of the IR group, can be determined using the size information of the IR group. For example, the POC value of the second image can be obtained by adding the POC value of the first image and the value specified in the group size information. The video decoding apparatus is configured to determine pictures having a POC value greater than or equal to the POC value of the first image and less than or equal to the POC value of the second image as an IR group.

[74] Как показано на фиг. 5В, группа изображений, связанных с первым изображением, то есть изображений, принадлежащих группе IR, включает в себя область обновления и область без обновления. В частности, область обновления может быть областью, в которой данные изображения могут быть правильно и точно кодированы/декодированы, а область без обновления может быть областью, в которой не гарантируется правильное и более точное кодирование/декодирование данных изображения. Например, одно изображение, которое должно быть кодировано или декодировано, может быть разделено на множество областей и распределено на множество изображений, принадлежащих группе IR. Данные изображения, соответствующие множеству областей, постепенно кодируются или декодируются по множеству изображений. Множество изображений можно определить как группу IR. Множество областей, которые соответственно включены в изображения, принадлежащие группе IR, могут быть определены как области обновления, а другая область каждого изображения, за исключением области обновления, может быть определена как область без обновления.[74] As shown in FIG. 5B, a group of images associated with the first image, that is, images belonging to the IR group, includes an update area and a non-update area. Specifically, the update region may be a region in which image data can be correctly and accurately encoded/decoded, and the non-updating region may be a region in which image data is not guaranteed to be correctly and more accurately encoded/decoded. For example, one picture to be encoded or decoded may be divided into a plurality of regions and distributed into a plurality of pictures belonging to an IR group. Image data corresponding to a plurality of areas is gradually encoded or decoded across the plurality of images. A set of images can be defined as an IR group. A plurality of regions that are respectively included in the images belonging to the IR group may be defined as updating regions, and another region of each image except the updating region may be defined as a non-refreshing region.

[75] Изображение, принадлежащее группе IR, может быть 1-изображением, Р-изображением, В-изображением или изображением с произвольным доступом, таким как IDR или CRA. Однако не все изображения в группе IR могут быть изображениями с произвольным доступом. Область обновления в каждом изображении, принадлежащем группе IR, может состоять из CU, CTU, мозаичного элемента, группы мозаичных элементов, фрагмента или группы фрагментов.[75] A picture belonging to an IR group may be a 1-picture, a P-picture, a B-picture, or a random access picture such as IDR or CRA. However, not all images in an IR group can be random access images. The update region in each image belonging to an IR group may consist of a CU, a CTU, a tile, a group of tiles, a tile, or a group of tiles.

[76] Устройство декодирования видео декодирует область обновления в изображении, принадлежащем группе IR. В целом, область обновления кодируется посредством интра-предсказания, но не ограничивается этим. Устройство декодирования видео восстанавливает область обновления, декодируя режим интра-предсказания для каждой единицы (CU), включенной в область обновления, и восстанавливая каждый блок согласно режиму интра-предсказания.[76] The video decoding apparatus decodes the update area in the image belonging to the IR group. In general, the update region is encoded by intra-prediction, but is not limited to this. The video decoding apparatus reconstructs the update area by decoding the intra-prediction mode for each unit (CU) included in the update area and reconstructing each block according to the intra-prediction mode.

[77] Область без обновления может быть восстановлена посредством интра-предсказания или интер-предсказания. Когда блок в области без обновления предсказывается с использованием интер-предсказания, блок предсказания может быть сгенерирован путем копирования предварительно определенного значения. Например, блок предсказания может быть заполнен значениями пикселей в той же позиции, что и область без обновления в ранее сгенерированном опорном изображении. В частности, ранее сгенерированное опорное изображение может быть опорным изображением, совместно используемым устройством кодирования и устройством декодирования. В качестве примера, ранее сгенерированное опорное изображение может быть изображением, имеющим РОС, наиболее близким к РОС изображения, которое должно быть декодировано в настоящий момент. В качестве другого примера это может быть изображение, дополненное значением, полученным из битовой глубины пикселя. Например, значение, соответствующее половине максимального значения, выражаемого битовой глубиной, может использоваться как заполняющее значение. Когда битовая глубина равна 8, заполняющее значение равно 128, что составляет половину от 256 -максимального значения, которое может быть выражено в 8 битах. В качестве другого примера информация об опорном изображении, на которое опирается область без обновления, может сигнализироваться из устройства кодирования видео в устройство декодирования видео.[77] The region without updating can be reconstructed through intra-prediction or inter-prediction. When a block in a non-updating region is predicted using inter-prediction, a prediction block can be generated by copying a predetermined value. For example, a prediction block may be filled with pixel values at the same position as a non-updating region in a previously generated reference image. In particular, the previously generated reference picture may be a reference picture shared between the encoding device and the decoding device. As an example, a previously generated reference picture may be an image having a POC closest to the POC of the image that is currently to be decoded. As another example, this could be an image augmented with a value derived from the pixel bit depth. For example, a value corresponding to half the maximum value expressed by the bit depth can be used as a padding value. When the bit depth is 8, the padding value is 128, which is half of 256, the maximum value that can be expressed in 8 bits. As another example, information about a reference picture on which the non-updating region is based may be signaled from the video encoding apparatus to the video decoding apparatus.

[78] В качестве альтернативы, может быть декодирована только область обновления каждого изображения, принадлежащего группе IR, и процесс декодирования для области без обновления может быть пропущен. После завершения декодирования всех изображений, принадлежащих группе IR, от первого изображения до второго изображения, устройство декодирования видео может быть сконфигурировано генерировать одно изображение, в котором области обновления изображений объединены, как показано на фиг. 6. Изображение, состоящее только из областей обновления, используется в качестве опорного изображения для других изображений, которые должны декодироваться впоследствии после группы IR. Изображение, содержащее область без обновления, не может быть гарантированно правильно и точно закодировано/декодировано. Следовательно, может потребоваться ограничение, чтобы изображение, включающее в себя область без обновления, не использовалось в качестве опорного изображения других изображений, подлежащих декодированию после группы IR.[78] Alternatively, only the update region of each picture belonging to the IR group may be decoded, and the decoding process for the non-update region may be skipped. After decoding of all the pictures belonging to the IR group from the first picture to the second picture is completed, the video decoding apparatus may be configured to generate one picture in which the picture update areas are combined, as shown in FIG. 6. The picture consisting only of the update areas is used as a reference picture for other pictures to be decoded subsequently after the IR group. An image containing an area without updating cannot be guaranteed to be correctly and accurately encoded/decoded. Therefore, a restriction may be required so that a picture including a region without updating is not used as a reference picture of other pictures to be decoded after the IR group.

[79] Фиг. 7А-7В - схемы, иллюстрирующие способ хранения и управления декодированным изображением группы IR в запоминающем устройстве. После завершения декодирования областей обновления и областей без обновления изображений, принадлежащих группе IR, каждое изображение может быть сохранено в запоминающем устройстве (например, в DPB, буфере декодированных изображений) с другим присвоенным ему значением РОС, как показано на фиг. 7А. Когда второе изображение устанавливается как отображаемое изображение или изображение, на которое опираются другие изображения, подлежащие декодированию после группы IR, изображение, имеющее области обновления в группе IR, объединенные, как показано на фиг. 6, отображается или опирается на другое изображение.[79] FIG. 7A to 7B are diagrams illustrating a method for storing and managing a decoded image of an IR group in a storage device. After decoding of the update areas and non-update areas of the pictures belonging to the IR group is completed, each picture may be stored in a storage device (eg, DPB, decoded picture buffer) with a different POC value assigned to it, as shown in FIG. 7A. When the second picture is set as a display picture or a picture on which other pictures to be decoded after the IR group are based, a picture having update areas in the IR group combined as shown in FIG. 6, is displayed or based on another image.

[80] В качестве другого примера, как показано на фиг. 7В, область обновления изображения, которое декодируется первым среди изображений, принадлежащих группе IR, сохраняется в запоминающем устройстве таким образом, что декодированная область обновления заменяет область без обновления в той же позиции в изображении, которое будет декодировано следующим. Согласно этому способу второе изображение, сохраненное в запоминающем устройстве, становится одним изображением, состоящим только из областей обновления из каждого изображения, принадлежащего группе IR. Когда второе изображение устанавливается как отображаемое изображение или изображение, на которое опираются другие изображения, подлежащие декодированию после группы IR, второе изображение может отображаться или опираться на другие изображения.[80] As another example, as shown in FIG. 7B, the update area of the image that is decoded first among the pictures belonging to the IR group is stored in the storage device such that the decoded update area replaces the non-update area at the same position in the image to be decoded next. According to this method, the second image stored in the storage device becomes one image consisting only of update areas from each image belonging to the IR group. When the second picture is set as a display picture or a picture on which other pictures to be decoded after the IR group are based, the second picture may be displayed or based on the other pictures.

[81] Способ хранения/управления запоминающим устройством, описанный со ссылкой на фиг. 7А-7В, может включать ограничение, что отображение других изображений в группе IR не должно быть разрешено, за исключением второго изображения, которое является последним изображением. Другими словами, изображениям, имеющие значение РОС больше или равное значению РОС первого изображения, которое является начальным изображением группы IR, и меньшим, чем у второго изображения, которое является последним изображением, не разрешают отображаться.[81] A storage/memory storage management method described with reference to FIG. 7A-7B may include a restriction that display of other pictures in the IR group should not be allowed except for the second picture, which is the last picture. In other words, images having a POC value greater than or equal to the POC value of the first image, which is the starting image of the IR group, and less than that of the second image, which is the last image, are not allowed to be displayed.

[82] Фиг. 8А-8С показывают другой пример способа хранения и управления декодированным изображением группы IR в запоминающем устройстве. Пример на фиг. 8А-8С может применяться в случае, когда декодируется только область обновления, принадлежащая каждому изображению в группе IR, но не ограничивается этим.[82] FIG. 8A to 8C show another example of a method for storing and managing a decoded image of an IR group in a storage device. Example in Fig. 8A-8C may be applied to, but is not limited to, the case where only the update region belonging to each picture in the IR group is decoded.

[83] В качестве примера, как показано на фиг. 8А, только области обновления в соответствующих изображениях, принадлежащих группе IR, могут иметь разные значения РОС при сохранении в запоминающем устройстве. В качестве другого примера, после того как декодирование всех областей обновления завершено, область без обновления каждого изображения, принадлежащего группе IR, может быть заполнена областью обновления в той же позиции другого изображения. В запоминающем устройстве, как показано на фиг. 8В, одни и те же изображения, составленные из областей обновления, могут храниться в запоминающем устройстве с разными РОС. В качестве другого примера, как показано на фиг. 8С, после завершения декодирования всех областей обновления, принадлежащих группе IR, в запоминающем устройстве может быть сохранено только изображение, состоящее только из областей обновления. В частности, изображение, состоящее только из областей обновления, сохраняется в запоминающем устройстве со значением РОС второго изображения.[83] As an example, as shown in FIG. 8A, only the update areas in the corresponding images belonging to the IR group may have different POC values when stored in the storage device. As another example, after decoding of all update areas is completed, the non-update area of each picture belonging to the IR group may be filled with an update area at the same position of another picture. In a storage device, as shown in FIG. 8B, the same images composed of update areas can be stored in a storage device with different POCs. As another example, as shown in FIG. 8C, after decoding of all update areas belonging to the IR group is completed, only an image consisting of only update areas can be stored in the storage device. Specifically, an image consisting only of update areas is stored in a storage device with a POC value of the second image.

[84] Согласно примеру с фиг. 8А-8С, изображения, принадлежащие группе IR и сохраненные в запоминающем устройстве, могут отображаться индивидуально и использоваться в качестве опорных изображений для изображений, подлежащих декодированию после группы IR.[84] According to the example of FIG. 8A to 8C, pictures belonging to the IR group and stored in the storage device can be displayed individually and used as reference pictures for pictures to be decoded after the IR group.

[85] Информация положения для идентификации положений областей обновления в изображениях, принадлежащих группе IR, может сигнализироваться из устройства кодирования видео в устройство декодирования видео. Информация положения может быть индексом или координатами, идентифицирующими CTU, мозаичный элемент или группу мозаичных элементов. Как показано на фиг. 9, информация положения может быть установлена так, что, по меньшей мере, некоторые из областей обновления пространственно перекрывают друг с другом. В частности, после декодирования областей обновления, принадлежащих группе IR, устройство декодирования видео может быть сконфигурировано применять фильтрацию, такую как взвешенное усреднение, к областям, которые перекрываются друг с другом, и сохранять отфильтрованные области обновления или изображение, включающее отфильтрованные области обновления. Устройство декодирования видео может быть сконфигурировано для выполнения фильтрации с использованием фильтра, заранее определенного в связи с устройством кодирования видео. В качестве альтернативы устройство кодирования видео может сигнализировать информацию о коэффициентах фильтрации для фильтрации перекрывающихся областей в устройство декодирования видео, а устройство декодирования видео может фильтровать перекрывающиеся области на основе информации о коэффициентах фильтрации.[85] Position information for identifying positions of update areas in pictures belonging to an IR group may be signaled from the video encoding apparatus to the video decoding apparatus. The position information may be an index or coordinates identifying a CTU, a tile, or a group of tiles. As shown in FIG. 9, the position information may be set such that at least some of the update areas spatially overlap with each other. In particular, after decoding the update regions belonging to the IR group, the video decoding apparatus may be configured to apply filtering, such as weighted averaging, to the regions that overlap with each other, and store the filtered update regions or an image including the filtered update regions. The video decoding apparatus may be configured to perform filtering using a filter predetermined in connection with the video encoding apparatus. Alternatively, the video encoding device may signal filter coefficient information for filtering overlapping regions to the video decoding device, and the video decoding device may filter the overlapping regions based on the filter coefficient information.

[86] Фиг. 10 - блок-схема, иллюстрирующая способ идентификации группы IR в последовательности изображений для декодирования видео с использованием постепенного обновления, согласно варианту осуществления настоящего раскрытия.[86] FIG. 10 is a flowchart illustrating a method for identifying an IR group in a sequence of pictures for video decoding using incremental update, according to an embodiment of the present disclosure.

[87] Устройство декодирования видео сконфигурировано для приема битового потока, сгенерированного кодированием последовательности изображений, и определения первого изображения, к которому применено постепенное обновление в последовательности (S1010). Например, как описано выше, первое изображение, к которому применено постепенное обновление, может быть идентифицировано посредством декодирования, из заголовка каждого изображения в последовательности, идентификационной информации, указывающей, является ли соответствующее изображение изображением, для которого применено постепенное обновление. Затем определяется значение РОС первого изображения (S1020). Значение РОС может быть получено из информации в битовом потоке, например, информации РОС, включенной в заголовок первого изображения.[87] The video decoding apparatus is configured to receive a bit stream generated by encoding a sequence of pictures, and determine the first picture to which incremental updating in the sequence has been applied (S1010). For example, as described above, the first image to which gradual updating is applied can be identified by decoding, from the header of each picture in the sequence, identification information indicating whether the corresponding image is an image to which gradual updating is applied. Then, the POC value of the first image is determined (S1020). The POC value may be obtained from information in the bitstream, for example, POC information included in the header of the first picture.

[88] После этого устройство декодирования видео конфигурировано для декодирования информации о размере группы (группы IR) изображений, связанных с первым изображением, к которому применено постепенное обновление, и определения размера группы IR (S1030). Информация о размере может быть извлечена из заголовка первого изображения. Затем значение РОС второго изображения, соответствующего последнему изображению группы IR, определяется на основе определенного размера группы (S1040). Устройство декодирования видео может быть сконфигурировано для определения значения РОС второго изображения, соответствующего последнему изображению в группе IR, путем добавления размера группы, определенного из информации о размере, к значению РОС первого изображения. Группа IR может быть определена как изображения, имеющие значение РОС, большее или равное значению РОС первого изображения и меньшее или равное значению РОС второго изображения (S1050). Изображения в группе IR декодируют и сохраняют в запоминающем устройстве вышеописанным способом. Поскольку эта операция подробно описана выше, дальнейшее описание будет опущено.[88] Thereafter, the video decoding apparatus is configured to decode group size information (IR group) of pictures associated with the first picture to which incremental updating has been applied, and determine the IR group size (S1030). The size information can be extracted from the header of the first image. Then, the POC value of the second image corresponding to the last image of the IR group is determined based on the determined group size (S1040). The video decoding apparatus may be configured to determine a POC value of the second picture corresponding to the last picture in the IR group by adding the group size determined from the size information to the POC value of the first picture. The IR group can be defined as images having a POC value greater than or equal to the POC value of the first image and less than or equal to the POC value of the second image (S1050). The images in the IR group are decoded and stored in a memory device in the above-described manner. Since this operation has been described in detail above, further description will be omitted.

[89] Далее описан способ постобработки декодированных областей обновления после декодирования областей обновления изображений, принадлежащих группе IR. Фиг. 11 - примерная диаграмма, иллюстрирующая способ постобработки декодированных изображений группы IR согласно варианту осуществления, описанному в настоящем раскрытии.[89] Next, a method for post-processing decoded update areas after decoding update areas of images belonging to an IR group is described. Fig. 11 is an exemplary diagram illustrating a post-processing method of decoded IR group images according to the embodiment described in the present disclosure.

[90] Как показано на фиг. 11, устройство декодирования видео может расширять каждую из областей обновления, дополняя определенный диапазон за пределами границы области обновления восстановленными пикселями рядом с границей в декодированной области обновления. Когда области обновления объединяют для формирования одного опорного изображения, области обновления перекрывают друг друга за счет заполненных областей. Соответственно, как описано со ссылкой на фиг. 9, после фильтрации областей, которые перекрывают друг друга, устройство декодирования видео может быть сконфигурировано для хранения отфильтрованных областей обновления или изображения, включающего в себя отфильтрованные области обновления, в запоминающем устройстве. Размер заполненной области может быть размером, совместно используемым устройством кодирования видео и устройством декодирования видео, или может сигнализироваться из устройства кодирования видео в устройство декодирования видео. Этот способ постобработки может использоваться для уменьшения артефактов, возникающих на границе области обновления во время комбинирования областей обновления.[90] As shown in FIG. 11, the video decoding apparatus may expand each of the update regions by padding a certain range beyond the boundary of the update region with reconstructed pixels near the boundary in the decoded update region. When update regions are combined to form a single reference image, the update regions overlap each other due to the filled regions. Accordingly, as described with reference to FIG. 9, after filtering the regions that overlap each other, the video decoding apparatus may be configured to store the filtered update regions or an image including the filtered update regions in a storage device. The size of the filled area may be a size shared between the video encoding apparatus and the video decoding apparatus, or may be signaled from the video encoding apparatus to the video decoding apparatus. This post-processing technique can be used to reduce artifacts that occur at the edge of the update region when combining update regions.

[91] Фиг. 12А-12В - примерные схемы, иллюстрирующие способ постобработки для декодированных изображений группы IR согласно другому варианту осуществления, описанному в настоящем раскрытии. Как показано на фиг. 12А, изображения в группе IR или изображение, сгенерированное путем объединения областей обновления изображений, принадлежащих группе IR, могут использоваться в качестве опорного изображения для интер-предсказания других изображений, которые должны быть декодированы после группы IR.[91] FIG. 12A-12B are exemplary diagrams illustrating a post-processing method for decoded IR group images according to another embodiment described in the present disclosure. As shown in FIG. 12A, pictures in an IR group or an image generated by combining image update areas belonging to an IR group can be used as a reference picture for inter-prediction of other pictures to be decoded after the IR group.

[92] Изображения, состоящие из областей обновления, могут иметь артефакты на границе между областями обновления. Таким образом, как показано на фиг. 12В, когда изображение, состоящее из областей обновления, используется в качестве опорного изображения для интер-предсказания блока в другом изображении, которое должно быть декодировано после группы IR, артефакты могут снизить точность предсказания, снизить эффективность кодирования и ухудшить субъективное качество изображение отображаемого изображения. Следовательно, в некоторых вариантах осуществления настоящего раскрытия, при сохранении декодированных изображений группы IR в запоминающем устройстве, отображении изображения, объединяющем области обновления изображений, принадлежащих группе IR, или использовании изображений, принадлежащих группе IR, или изображений, объединяющих области обновления в качестве опорного изображения, устройство декодирования видео может выполнять фильтрацию на границе между областями обновления.[92] Images composed of update regions may have artifacts at the border between update regions. Thus, as shown in FIG. 12B, when an image consisting of update regions is used as a reference image for inter-prediction of a block in another image to be decoded after the IR group, artifacts may reduce the prediction accuracy, reduce the encoding efficiency, and degrade the subjective image quality of the displayed image. Therefore, in some embodiments of the present disclosure, when storing decoded images of an IR group in a storage device, displaying an image combining update areas of images belonging to the IR group, or using images belonging to an IR group or images combining update areas as a reference image, The video decoding device may perform filtering at the boundary between update areas.

[93] Устройство кодирования видео может сигнализировать информацию или флаг, указывающий, разрешена ли фильтрация на границах областей обновления, устройству декодирования видео через синтаксис высокого уровня, например SPS, заголовок изображения группы IR или заголовок области обновления на изображении группы IR. Устройство декодирования видео может быть сконфигурировано для определения, применять ли фильтрацию к границе области обновления в соответствии с сигнализированной информацией.[93] The video encoding apparatus may signal information or a flag indicating whether filtering is enabled at the boundaries of update regions to the video decoding apparatus via a high-level syntax such as SPS, IR group picture header, or update region header on the IR group picture. The video decoding apparatus may be configured to determine whether to apply filtering to the update region boundary in accordance with the signaled information.

[94] В качестве альтернативы, то, разрешена ли фильтрация на границах областей обновления, может быть адаптивно определено на основе по меньшей мере одного из фильтрации яркости, применяемого к области обновления, информации о размере или параметре квантования (QP), связанной с опорным блоком, на который опираются в области обновления, режима интра-предсказания опорного сигнала, типа функции преобразования, применяемой к опорному сигналу, точности разности векторов движения или вектора движения блока, предназначенный для кодирования/декодирования в настоящее время. Например, когда к соседним областям обновления не применяется фильтр яркости, когда применяемые фильтры яркости одинаковы или похожи, или когда разница в параметре квантования между двумя блоками области обновления рядом с границы между соседними областями обновления меньше или равна предварительно установленному порогу, фильтрация может не выполняться. Устройство декодирования видео может быть сконфигурировано для получения вышеописанной информации для определения, разрешать ли фильтрацию из ранее восстановленной информации. Соответственно, устройство декодирования видео может быть сконфигурировано для определения, разрешена ли фильтрация, без приема дополнительной информации от устройства кодирования видео. Другими словами, не требуется сигнализирование для дополнительной информации, указывающей, разрешать ли фильтрацию.[94] Alternatively, whether filtering is enabled at the boundaries of update regions can be adaptively determined based on at least one of luminance filtering applied to the update region, size information, or quantization parameter (QP) associated with the reference block , which is relied upon in the area of updating, the intra-prediction mode of the reference signal, the type of transform function applied to the reference signal, the precision of the motion vector difference, or the motion vector of the block currently intended for encoding/decoding. For example, when no luminance filter is applied to adjacent update regions, when the applied luminance filters are the same or similar, or when the difference in the quantization parameter between two blocks of an update region adjacent to the boundary between adjacent update regions is less than or equal to a preset threshold, filtering may not be performed. The video decoding apparatus may be configured to receive the information described above to determine whether to allow filtering from the previously recovered information. Accordingly, the video decoding apparatus may be configured to determine whether filtering is enabled without receiving additional information from the video encoding apparatus. In other words, no signaling is required for additional information indicating whether to enable filtering.

[95] Фильтрационная информация для фильтрации границы между областями обновления может быть явно сигнализирована из устройства кодирования видео в устройство декодирования видео. Фильтрационная информация может быть включена в заголовок по меньшей мере одного из целевого изображения, предназначенное для кодирования/декодирования в настоящий момент, фрагмента или мозаичного элемента или CTU, предназначенных для кодирования/декодирования в настоящий момент в целевом изображении, изображения, на которое опирается в группе IR целевое изображение, или области обновления изображения в группе IR. Например, фильтрационная информация может сигнализироваться из устройства кодирования видео в устройство декодирования видео в качестве синтаксиса последнего изображения (второго изображения на фиг. 5А) в группе IR. В качестве альтернативы фильтрационная информация может сигнализироваться в качестве синтаксиса изображения, декодированного после группы IR и опирающегося на изображение в группе IR (например, изображение, составленное из областей обновления соответствующих изображений в группе IR).[95] Filtering information for filtering the boundary between update areas may be explicitly signaled from the video encoding apparatus to the video decoding apparatus. The filtering information may be included in a header of at least one of the target image currently being encoded/decoded, a tile or tile or CTU currently being encoded/decoded in the target image, an image relied upon in the group IR target image, or image update areas in an IR group. For example, the filter information may be signaled from the video encoding device to the video decoding device as the syntax of the last picture (the second picture in FIG. 5A) in the IR group. Alternatively, the filter information may be signaled as the syntax of a picture decoded after the IR group and based on a picture in the IR group (eg, a picture composed of update areas of corresponding pictures in the IR group).

[96] Фильтрационная информация может быть информацией коэффициента фильтрации или информацией для выбора одного из множества фильтров. Когда используется множество фильтров, множество фильтров может быть заранее определено между устройством кодирования видео и устройством декодирования видео. В качестве альтернативы устройство кодирования видео может быть сконфигурировано для выбора одного набора фильтров из наборов фильтров, каждый из которых состоит из одного или нескольких фильтров, и информации сигнала, указывающей на выбранный набор фильтров, для устройства декодирования видео.[96] The filter information may be filter coefficient information or information for selecting one of a plurality of filters. When multiple filters are used, the plurality of filters may be predetermined between the video encoding apparatus and the video decoding apparatus. Alternatively, the video encoding apparatus may be configured to select one filter bank from the filter banks, each of which consists of one or more filters, and signal information indicative of the selected filter bank for the video decoding apparatus.

[97] Фильтрационная информация может не сигнализироваться, но может быть получена с использованием различных частей предварительно декодированной информации. Например, она может быть получен с помощью по меньшей мере одного из фильтрации яркости области обновления, размера опорного блока, информации QP о каждом сигнале, на который опираются в области обновления, режима внутреннего предсказания опорного сигнала, типа функции преобразования, применяемой к опорному сигналу, опорного режима, точности разности векторов движения, точности вектора движения, размера блока предсказания, типа компонента цветности или диапазон компонента яркости.[97] Filter information may not be signaled, but may be obtained using various pieces of pre-decoded information. For example, it may be obtained by at least one of brightness filtering of the update region, a size of the reference block, QP information about each signal relied upon in the update region, an intra prediction mode of the reference signal, a type of transform function applied to the reference signal, reference mode, motion vector difference accuracy, motion vector accuracy, prediction block size, chrominance component type, or luma component range.

[98] В качестве примера устройство кодирования видео и устройство декодирования видео могут адаптивно определять коэффициент фильтрации или длину фильтра, используя значение фильтрации яркости, примененного к области обновления, в качестве веса. В качестве альтернативы, значение коэффициента фильтрации или длины фильтрации может быть определено адаптивно в соответствии с типом функции преобразования, применяемой к опорному сигналу. В качестве альтернативы, интенсивность фильтрации может быть определена адаптивно в соответствии с одним или несколькими из размера опорного блока или информации QP о каждом опорном сигнале, формы опорного блока или точности разности векторов движения или вектора движения блока, который должен быть декодирован в данный момент, и определять коэффициент фильтрации или длину фильтрации в соответствии с интенсивностью.[98] As an example, the video encoding apparatus and the video decoding apparatus may adaptively determine a filter coefficient or a filter length using the luminance filtering value applied to the update region as a weight. Alternatively, the value of the filter coefficient or filter length can be determined adaptively in accordance with the type of transform function applied to the reference signal. Alternatively, the filtering strength may be determined adaptively in accordance with one or more of the size of the reference block or QP information about each reference signal, the shape of the reference block, or the motion vector difference precision or motion vector of the block that is currently to be decoded, and determine the filtration coefficient or filtration length according to the intensity.

[99] Кроме того, когда опорный сигнал в IR изображении декодируется посредством интра-предсказания, направление фильтрации может определяться согласно направлению интра-предсказания. В качестве альтернативы, фильтрационная информация может быть получена из соседнего блока в соответствии с опорным режимом (однонаправленное предсказание, двунаправленное предсказание и т.д.) текущего блока или взаимосвязью между опорными режимами текущего блока и соседнего блока. Например, может использоваться тот же фильтр, что и для соседнего блока. В качестве альтернативы, индекс фильтрации для выбора одного из множества фильтров может быть получен на основе точности разности векторов движения, точности вектора движения, размера блока предсказания, типа компонента цветности, диапазона компонент яркости и т.п.[99] In addition, when the reference signal in the IR image is decoded by intra-prediction, the filtering direction can be determined according to the intra-prediction direction. Alternatively, filter information may be obtained from a neighboring block in accordance with the reference mode (unidirectional prediction, bidirectional prediction, etc.) of the current block or the relationship between the reference modes of the current block and the neighboring block. For example, the same filter may be used as for an adjacent block. Alternatively, a filtering index for selecting one of a plurality of filters may be obtained based on motion vector difference accuracy, motion vector accuracy, prediction block size, chroma component type, luminance component range, and the like.

[100] Таким образом, фильтрационная информация, такая как коэффициент фильтра, длина фильтра, интенсивность фильтрации и направление фильтрации, может быть получена с использованием комбинации одной или нескольких частей информации, описанных выше в качестве примера. В качестве альтернативы фильтрационная информация, полученная с помощью вышеописанного способа, может использоваться в качестве информации предсказания для фильтра, который будет фактически применяться. В частности, дифференциальная фильтрационная информация сигнализируется от устройства кодирования видео к устройству декодирования видео. Устройство декодирования видео может быть сконфигурировано для получения фильтрационной информации, которая должна быть фактически применена, на основе полученной фильтрационной информации (информации предсказания) и дифференциальной фильтрационной информации.[100] Thus, filtering information such as filter coefficient, filter length, filtering intensity and filtering direction can be obtained using a combination of one or more pieces of information described above as an example. Alternatively, the filter information obtained by the above method can be used as prediction information for a filter to actually be applied. In particular, the differential filtering information is signaled from the video encoding device to the video decoding device. The video decoding apparatus may be configured to obtain filtering information to actually be applied based on the received filtering information (prediction information) and differential filtering information.

[101] Согласно некоторым вариантам осуществления настоящего раскрытия, к каждой из областей обновления может применяться различная фильтрация. В частности, фильтрационная информация, такая как коэффициент фильтрации или индекс, указывающий на один из множества фильтров, сигнализируется для каждой области обновления, составляющей группу IR. В качестве альтернативы, может сигнализироваться информация о присвоении между областью обновления (или блоком в области обновления) и индексом фильтра. Устройство декодирования видео может быть сконфигурировано для определения фильтра, который должен применяться к каждой области обновления, на основе индекса фильтра, присвоенного каждой области обновления.[101] According to some embodiments of the present disclosure, different filtering may be applied to each of the update areas. In particular, filtering information such as a filter coefficient or an index indicating one of a plurality of filters is signaled for each update region constituting the IR group. Alternatively, assignment information may be signaled between the update area (or a block in the update area) and the filter index. The video decoding apparatus may be configured to determine a filter to be applied to each update area based on the filter index assigned to each update area.

[102] В другом варианте осуществления одна и та же фильтрационная информация может совместно использоваться всеми областями обновления в группе IR. Устройство декодирования видео может быть сконфигурировано для выполнения фильтрации путем применения одной и той же фильтрационной информации ко всем областям обновления в группе IR. Совместно используемая фильтрационная информация может быть заранее определена между устройством кодирования видео и устройством декодирования.[102] In another embodiment, the same filtering information may be shared by all update areas in an IR group. The video decoding apparatus may be configured to perform filtering by applying the same filtering information to all update regions in an IR group. Shared filtering information may be predetermined between the video encoding device and the decoding device.

[103] В другом варианте осуществления флаг, указывающий, является ли информация фильтрации совместно используемой между всеми областями обновления в группе IR, может сигнализироваться устройством кодирования видео. Когда фильтрационная информация совместно используется, совместно используемая фильтрационная информация (например, индекс для указания на один из множества фильтров, информация для вывода индекса или информация о коэффициенте в отношении совместно используемого фильтра) может сигнализироваться. Устройство декодирования видео может быть сконфигурировано для выполнения фильтрации путем применения одной и той же фильтрационной информации ко всем областям обновления на основе совместно используемой фильтрационной информации. Когда фильтрационная информация не используется совместно, устройство декодирования видео может быть сконфигурировано для декодирования фильтрационной информации для каждой области обновления и применения различной фильтрации к каждой области обновления, как описано выше.[103] In another embodiment, a flag indicating whether filtering information is shared among all update areas in an IR group may be signaled by the video encoding device. When filtering information is shared, the shared filtering information (eg, an index to indicate one of a plurality of filters, index output information, or coefficient information regarding a shared filter) may be signaled. The video decoding apparatus may be configured to perform filtering by applying the same filtering information to all update regions based on the shared filtering information. When the filtering information is not shared, the video decoding apparatus may be configured to decode the filtering information for each update area and apply different filtering to each update area as described above.

[104] Операции фильтрации могут выполняться для изображения, принадлежащего группе IR, последовательно или одновременно как внутри области обновления, так и на границе области обновления. Когда фильтрация выполняется последовательно, устройство декодирования видео сначала фильтрует внутреннюю часть области обновления, когда каждая область обновления декодируется. Например, фильтрация удаления блочности или SAO-фильтрация, описанные выше, могут применяться к внутренней части области обновления. Фильтрация на границе области обновления может выполняться, когда декодирование всех областей обновления завершено, то есть когда декодируются области обновления, включенные в последнее изображение группы IR. Когда фильтрация выполняется одновременно, фильтрация согласно настоящему раскрытию может выполняться внутри области обновления и на границе области обновления в то время, когда декодируется область обновления, включенная в последнее изображение группы IR.[104] Filtering operations may be performed on an image belonging to an IR group sequentially or simultaneously both within the update region and at the boundary of the update region. When filtering is performed sequentially, the video decoding apparatus first filters the inside of the update region as each update region is decoded. For example, deblocking or SAO filtering described above can be applied to the interior of the update region. Update region edge filtering may be performed when decoding of all update regions is completed, that is, when update regions included in the last IR group image are decoded. When filtering is performed simultaneously, filtering according to the present disclosure may be performed within the update region and at the edge of the update region at the time that the update region included in the last picture of the IR group is decoded.

[105] Устройство кодирования видео может быть сконфигурировано сигнализировать информацию, указывающую, используется ли фильтрация согласно настоящему раскрытию для опоры интер-изображения для интер-предсказания или для отображения. Устройство декодирования видео может быть сконфигурировано для применения фильтрации согласно настоящему раскрытию при выполнении одной или нескольких опор интер-изображений и отображения в соответствии с информацией. Например, когда фильтрация используется как для опирания, так и для отображения, устройство декодирования видео сконфигурировано для хранения отфильтрованного изображения как в запоминающем устройстве для опоры, так и в запоминающем устройстве для отображения. Когда фильтрация используется для опоры и не используется на последующем этапе отображения, отфильтрованное изображение сохраняется в запоминающем устройстве для опоры, а не в запоминающем устройстве для отображения. В качестве альтернативы устройство декодирования видео может быть сконфигурировано для хранения нефильтрованного изображения. Фильтрация может выполняться, когда сохраненное изображение отображается в будущем или используется в качестве опорного изображения.[105] The video encoding apparatus may be configured to signal information indicating whether filtering according to the present disclosure is used to support an inter-image for inter-prediction or for display. The video decoding apparatus may be configured to apply filtering according to the present disclosure when performing one or more inter-image supports and display according to the information. For example, when filtering is used for both support and display, the video decoding apparatus is configured to store the filtered image in both the support memory and the display memory. When filtering is used for a support and is not used in a subsequent display step, the filtered image is stored in the support storage device rather than in the display storage device. Alternatively, the video decoding apparatus may be configured to store an unfiltered image. Filtering can be performed when the stored image is displayed in the future or used as a reference image.

[106] В другом варианте осуществления устройство кодирования видео может быть сконфигурировано сигнализировать, через заголовок начального изображения (первого изображения на фиг. 5А) или заголовок области обновления, включенной в начальное изображение, информацию положения об изображении, из которого декодирование начинается с опорой на отфильтрованное изображение группы IR. Устройство декодирования видео сконфигурировано для декодирования изображений перед изображением, указанным посредством информации положения, среди изображений, декодированных после декодирования группы IR, с опорой на нефильтрованное изображение в группе IR. Затем декодирование изображения, указанного в информации положения, и последующих изображений выполняется с опорной на отфильтрованные изображения группы IR.[106] In another embodiment, the video encoding apparatus may be configured to signal, through a header of a starting picture (the first picture in FIG. 5A) or a header of an update region included in the starting picture, position information about the picture from which decoding begins based on the filtered IR group image. The video decoding apparatus is configured to decode pictures before the picture indicated by the position information among pictures decoded after decoding the IR group, relying on the unfiltered picture in the IR group. Then, decoding of the image specified in the position information and subsequent images is performed based on the filtered images of the IR group.

[107] Выше было описано, что устройство декодирования видео выполняет фильтрацию на основе информации, передаваемой устройством кодирования видео. Однако очевидно, что устройство кодирования видео также должно выполнять фильтрацию таким же образом, как устройство декодирования видео, чтобы гарантировать совместимость между устройством кодирования видео и устройством декодирования видео.[107] As described above, the video decoding apparatus performs filtering based on information transmitted by the video encoding apparatus. However, it is obvious that the video encoding apparatus must also perform filtering in the same manner as the video decoding apparatus to ensure compatibility between the video encoding apparatus and the video decoding apparatus.

[108] Далее описан способ управления запоминающим устройством на основе мозаичного элемента или на основе группы мозаичных элементов. Как описано выше, области обновления могут состоять из одного или более мозаичных элементов. Следовательно, нижеописанный способ управления запоминающим устройством естественно связан с хранением и управлением изображениями группы IR, описанными выше.[108] Next, a method for managing a storage device based on a tile or a group of tiles will be described. As described above, update areas may consist of one or more tiles. Therefore, the storage device management method described below is naturally related to the storage and management of IR group images described above.

[109] Фиг. 13 - примерная блок-схема устройства управления запоминающим устройством для управления запоминающим устройством на основе мозаичных элементов или на основе группы мозаичных элементов согласно варианту осуществления настоящего раскрытия. Когда устройство управления запоминающим устройством реализовано в устройстве кодирования видео и устройстве декодирования видео, описанных выше, его можно использовать для управления DPB в устройствах. Каждый компонент устройства управления запоминающим устройством может быть реализован как аппаратное обеспечение, программное обеспечение или комбинация аппаратного и программного обеспечения. Кроме того, функция каждого компонента может быть реализована как программное обеспечение, и микропроцессор может быть реализован для выполнения функции программного обеспечения, соответствующей каждому компоненту.[109] FIG. 13 is an exemplary block diagram of a storage device control device for controlling a storage device based on tiles or on a group of tiles according to an embodiment of the present disclosure. When the storage device control is implemented in the video encoding device and video decoding device described above, it can be used to control DPB in the devices. Each component of a storage device control device may be implemented as hardware, software, or a combination of hardware and software. Moreover, the function of each component may be implemented as software, and a microprocessor may be implemented to execute the software function corresponding to each component.

[110] Модуль 1310 запоминающего устройства может включать в себя множество запоминающих устройств для хранения восстановленного сигнала. Диспетчер 1320 запоминающего устройства сконфигурирован для хранения и управления восстановленными изображениями в модуле 1310 запоминающего устройства с использованием изображения или группы мозаичных элементов, состоящей из одного или нескольких мозаичных элементов, в качестве единицы хранения. Например, как показано на фиг. 14А, диспетчер 1310 запоминающего устройства может быть сконфигурирован для разделения восстановленного изображения на группы или мозаичные элементы и сохранения разделенных групп или мозаичных элементов в модуле 1310 запоминающего устройства или объединения восстановленных сигналов в единицах групп или мозаичных элементов в одно изображение, и сохранения объединенного изображения в модуле 1310 запоминающего устройства.[110] Memory module 1310 may include a plurality of memories for storing the reconstructed signal. The storage device manager 1320 is configured to store and manage the restored images in the storage device module 1310 using an image or a tile group consisting of one or more tiles as a storage unit. For example, as shown in FIG. 14A, the storage manager 1310 may be configured to divide the reconstructed image into groups or tiles and store the divided groups or tiles in the storage module 1310, or combine the reconstructed signals in the group or tile units into a single image, and store the combined image in the module 1310 storage device.

[111] Диспетчер 1320 запоминающего устройства может быть сконфигурирован для определения позиции хранения в зависимости от того, является ли целевая группа мозаичных элементов которая должна быть сохранена, МСТ (наборами мозаичных элементов с ограничением движения), которые не позволяют опираться между мозаичными элементами в различных положениях. Например, когда целевая группа мозаичных элементов не является МСТ, опирание между смежными группами мозаичных элементов может быть разрешена. Соответственно, целевая группа мозаичных элементов сохраняется в том же запоминающем устройстве, что и соседние МСТ, для облегчения опирания между группами мозаичных элементов. Когда целевая группа мозаичных элементов представляет собой МСТ, целевой группе мозаичных элементов разрешается только опираться на группу совместно размещенных мозаичных элементов в ранее декодированном изображении. Соответственно, целевая группа мозаичных элементов сохраняется в том же запоминающем устройстве, что и группа совместно размещенных мозаичных элементов в ранее декодированном изображении.[111] The storage manager 1320 may be configured to determine a storage position depending on whether the target group of tiles to be stored are MCTs (Motion Restricted Tile Sets) that do not allow leaning between tiles at different positions . For example, when the target tile group is not an MCT, support between adjacent tile groups may be allowed. Accordingly, a target tile group is stored in the same storage device as adjacent MCTs to facilitate reference between tile groups. When the target tile group is an MCT, the target tile group is only allowed to rely on the group of co-located tiles in the previously decoded image. Accordingly, the target group of tiles is stored in the same storage device as the group of co-located tiles in the previously decoded image.

[112] Диспетчер 1320 запоминающего устройства также может быть сконфигурирован для хранения восстановленного сигнала в запоминающем устройстве для каждого изображения. В частности, диспетчер 1320 запоминающего устройства может быть сконфигурирован для хранения восстановленных изображений в том же запоминающем устройстве на основе временного слоя, порядка декодирования или порядка вывода.[112] Memory manager 1320 may also be configured to store the reconstructed signal in a memory device for each image. In particular, the storage device manager 1320 may be configured to store the reconstructed images in the same storage device based on the temporary layer, decoding order, or output order.

[113] Кроме того, когда восстановленный сигнал сохраняется в запоминающем устройстве для каждого изображения, диспетчер 1320 запоминающего устройства может быть сконфигурирован непрерывно сохранять все отсчеты в изображении в запоминающем устройстве или сохранять все отсчеты в изображении с интервалом в один или более отсчетов между группами мозаичных элементов, включенными в изображение. Когда восстановленный сигнал сохраняется в запоминающем устройстве на основе каждой группы мозаичных элементов, диспетчер 1320 запоминающего устройства может быть сконфигурирован непрерывно сохранять группы мозаичных элементов в запоминающем устройстве или сохранять группы мозаичных элементов с интервалом в один или несколько отсчетов между группами мозаичных элементов. В частности, предварительно определенное значение может сохраняться в пространстве памяти, соответствующем интервалу отсчетов между группами мозаичных элементов. Например, можно использовать такое значение, как 128. Определенное значение определяется битовой глубиной пикселя. Например, предварительно определенное значение может быть установлено равным значению, соответствующему половине максимального значения, выраженного битовой глубиной. Когда битовая глубина равна 8, предварительно заданное значение равно 128, что составляет половину от 256 -максимального значения, которое может быть выражено в 8 битах.[113] In addition, when the reconstructed signal is stored in the memory device for each image, the memory manager 1320 may be configured to continuously store all samples in the image in the memory device or store all samples in the image at intervals of one or more samples between groups of tiles included in the image. When the reconstructed signal is stored in the memory device on a per-tile group basis, the memory manager 1320 may be configured to continuously store the tile groups in the memory device or store the tile groups with an interval of one or more samples between the tile groups. In particular, the predetermined value may be stored in a memory space corresponding to a sample interval between groups of tiles. For example, you could use a value such as 128. The specific value is determined by the bit depth of the pixel. For example, the predetermined value may be set to a value corresponding to half the maximum value expressed in bit depth. When the bit depth is 8, the preset value is 128, which is half of 256, the maximum value that can be expressed in 8 bits.

[114] Диспетчер 1320 запоминающего устройства может быть сконфигурирован для удаления сохраненных восстановленных сигналов из запоминающего устройства на основе каждого изображения или на основе группы мозаичных элементов, как показано на фиг. 14В. Диспетчер 1320 запоминающего устройства может быть сконфигурирован для изменения места хранения восстановленного отсчета на основе опорной информации, принятой от устройства кодирования видео. Например, когда на множество групп мозаичных элементов опираются для генерации отсчетов предсказания целевого блока, который должен быть закодирован или декодирован, диспетчер 1320 запоминающего устройства может быть сконфигурирован для идентификации нескольких групп мозаичных элементов из индексной информации в нескольких группах мозаичных элементов, полученных из устройства кодирования видео, и сохранения идентифицированных групп мозаичных элементов в том же запоминающем устройстве. В качестве альтернативы, он может идентифицировать несколько групп мозаичных элементов из позиции опорного блока в опорном изображении, указанной в информации движения (индекс опорного изображения и вектор движения) о целевом блоке, и сохранять идентифицированные группы мозаичных элементов в одной и том же запоминающем устройстве.[114] Storage manager 1320 may be configured to remove stored reconstructed signals from storage on a per-image basis or on a group-of-tile basis, as shown in FIG. 14V. Storage manager 1320 may be configured to change the storage location of the reconstructed sample based on reference information received from the video encoding device. For example, when multiple tile groups are relied upon to generate prediction samples of a target block to be encoded or decoded, storage manager 1320 may be configured to identify the multiple tile groups from the index information in the multiple tile groups obtained from the video encoding device. , and storing the identified groups of tiles in the same storage device. Alternatively, it may identify multiple tile groups from a reference block position in the reference image specified in motion information (reference image index and motion vector) about the target block, and store the identified tile groups in the same storage device.

[115] Модуль 1330 реконфигурации видео может быть сконфигурирован для приема восстановленных сигналов, хранящихся в запоминающем устройстве, в качестве входных данных и реконфигурации изображения, предназначенное для вывода модулем 1340 вывода видео. Например, когда восстановленные сигналы вводятся из запоминающего устройства на основе каждой группы мозаичных элементов, восстановленные сигналы могут выводиться для каждой группы мозаичных элементов, или входные группы мозаичных элементов могут быть реконфигурированы в одно изображение для вывода на основе каждого изображения. Способ управления запоминающим устройством согласно настоящему раскрытию может поддерживать временную масштабируемость и пространственную масштабируемость для каждой группы мозаичных элементов в одном изображении.[115] The video reconfiguration module 1330 may be configured to receive reconstructed signals stored in a memory device as input and reconfigure an image to be output by the video output module 1340. For example, when reconstructed signals are input from a storage device on a per-tile group basis, the reconstructed signals may be output for each tile group, or the input tile groups may be reconfigured into one image for output on a per-image basis. The storage management method of the present disclosure can support temporal scalability and spatial scalability for each group of tiles in one image.

[116] Фиг. 15А-15В - примерные схемы, иллюстрирующие масштабируемость, поддерживаемую способом управления запоминающим устройством, согласно настоящему раскрытию. Как показано на фиг. 15А, которая иллюстрирует временную масштабируемость, группы мозаичных элементов могут кодироваться и декодироваться с разными частотами кадров. Мозаичные элементы, декодируемые с одинаковой частотой кадров, могут храниться в одной и том же запоминающем устройстве. Например, группа 2 мозаичных элементов, закодированная со скоростью 30 кадров в секунду, может храниться в запоминающем устройстве 1, а группы 1 и 3 мозаичных элементов, закодированные со скоростью 15 кадров в секунду, могут храниться в запоминающем устройстве 2. Модуль 1330 реконфигурации видео может быть сконфигурирован реконфигурировать группу 1 мозаичных элементов, хранящуюся в запоминающем устройстве 2, в группу мозаичных элементов, имеющую частоту кадров 30 кадров в секунду, посредством интерполяции с использованием групп совместно размещенных мозаичных элементов, временно смежных с группой 1 мозаичных элементов. Точно так же группа 3 мозаичных элементов может быть переконфигурирована в группу мозаичных элементов, имеющую кадровую частоту в 30 кадров в секунду. После этого модуль реконфигурации видео может объединить группы 1-3 мозаичных элементов для вывода видео с кадровой частотой 30 кадров в секунду.[116] FIG. 15A-15B are exemplary diagrams illustrating the scalability supported by a storage device management method according to the present disclosure. As shown in FIG. 15A, which illustrates temporal scalability, groups of tiles can be encoded and decoded at different frame rates. Tile tiles decoded at the same frame rate may be stored in the same storage device. For example, tile group 2 encoded at 30 frames per second may be stored in memory 1, and tile groups 1 and 3 encoded at 15 frames per second may be stored in memory 2. Video reconfiguration module 1330 may be configured to reconfigure tile group 1 stored in storage device 2 into a tile group having a frame rate of 30 frames per second by interpolation using co-located tile groups temporarily adjacent to tile group 1. Similarly, the tile group 3 can be reconfigured into a tile group having a frame rate of 30 frames per second. The video reconfiguration module can then combine groups of 1-3 tiles to output video at a frame rate of 30 frames per second.

[117] Как показано на фиг. 15В, который иллюстрирует пространственную масштабируемость, группы мозаичных элементов могут кодироваться и декодироваться с различными пространственными разрешениями. Группа 2 мозаичных элементов может быть декодирована с первым разрешением и сохранена в запоминающем устройстве 1, а группы 1 и 3 мозаичных элементов могут быть декодированы с разрешением, равным половине первого разрешения, и сохранены в запоминающем устройстве 2. Модуль 1330 реконфигурации видео может быть сконфигурирован для реконфигурирования групп мозаичных элементов, хранящихся в запоминающем устройстве 2, в группы мозаичных элементов, имеющих первое разрешение, посредством интерполяции между пикселями. После этого группы 13 мозаичных элементов, имеющие одинаковое разрешение, могут быть объединены для вывода видео, имеющего первое разрешение.[117] As shown in FIG. 15B, which illustrates spatial scalability, groups of tiles can be encoded and decoded at different spatial resolutions. Tile group 2 may be decoded at a first resolution and stored in memory 1, and tile groups 1 and 3 may be decoded at half the first resolution and stored in memory 2. Video reconfiguration unit 1330 may be configured to reconfiguring the tile groups stored in the storage device 2 into tile groups having a first resolution through interpolation between pixels. Thereafter, groups of 13 tiles having the same resolution can be combined to output video having the first resolution.

[118] Кроме того, МСТ не позволяют опираться между группами мозаичных элементов в разных положениях. Следовательно, только интер-предсказание, относящееся к группе совместно размещенных мозаичных элементов в опорном изображении, разрешено для целевого блока, который должен быть закодирован или декодирован в МСТ. В настоящем раскрытии предлагается способ обработки, используемый, когда опорный блок, указанный вектором движения целевого блока в МСТ, находится вне группы совместно размещенных мозаичных элементов в опорном изображении.[118] In addition, MSTs do not allow for support between groups of tiles in different positions. Therefore, only inter-prediction related to a group of co-located tiles in the reference image is allowed for the target block to be encoded or decoded in the MCT. The present disclosure proposes a processing method used when a reference block indicated by a motion vector of a target block in an MCT is outside a group of co-located tiles in the reference image.

[119] В варианте осуществления, когда по меньшей мере часть опорного блока, указанного вектором движения целевого блока в МСТ, находится вне группы совмещенных мозаичных элементов, пиксели или отсчеты во внешней области могут быть дополнены одним или несколькими отсчетами внутри совмещенного мозаичного элемента. Например, они могут быть дополнены значениями отсчетов, смежными с границей внутри группы мозаичных элементов.[119] In an embodiment, when at least a portion of the reference block indicated by the motion vector of the target block in the MCT is outside the group of aligned tiles, the pixels or samples in the outer region may be complemented by one or more samples within the aligned tile. For example, they can be supplemented with sample values adjacent to a boundary within a group of tiles.

[120] В качестве альтернативы они могут быть дополнены предварительно определенным значением, например 128. Предварительно определенное значение может быть получено из битовой глубины отсчета, как описано выше. Использование предварительно определенного значения заполнения в качестве значения прогнозирования может быть легко реализовано с помощью вышеописанного способа управления запоминающим устройством. Например, как описано выше, множество групп мозаичных элементов, составляющих одно изображение, может быть сохранено с интервалом в несколько отсчетов, размещенных между группами мозаичных элементов. Предварительно определенное значение, такое как 128, сохраняется в пространстве памяти между группами мозаичных элементов. Соответственно, когда по меньшей мере часть опорного блока, указанного вектором движения целевого блока в МСТ, находится вне группы совместно размещенных мозаичных элементов, значения отсчетов во внешней области автоматически устанавливаются на 128.[120] Alternatively, they may be padded with a predetermined value, for example 128. The predetermined value may be derived from the sample bit depth, as described above. Using a predetermined padding value as a prediction value can be easily implemented using the above-described storage device control method. For example, as described above, a plurality of tile groups constituting one image may be stored at intervals of several samples spaced between the tile groups. A predefined value such as 128 is stored in memory space between tile groups. Accordingly, when at least a portion of the reference block indicated by the motion vector of the target block in the MCT is outside the group of co-located tiles, the sample values in the outer region are automatically set to 128.

[121] В другом варианте осуществления, когда по меньшей мере часть опорного блока, указанная вектором движения целевого блока в МСТ, находится вне области группы совместно размещенных мозаичных элементов, вектор движения целевого блока может быть отрегулирован так, что опорный блок полностью помещается в группу совмещенных мозаичных элементов. Например, вектор движения целевого блока может масштабироваться так, чтобы опорный блок располагался внутри группы совместно размещенных мозаичных элементов.[121] In another embodiment, when at least a portion of the reference block, indicated by the motion vector of the target block in the MCT, is outside the region of the group of co-located tiles, the motion vector of the target block can be adjusted so that the reference block is completely contained in the group of co-located tiles mosaic elements. For example, the motion vector of the target block may be scaled so that the reference block is located within a group of co-located tiles.

[122] Следует понимать, что описанные выше примерные варианты осуществления могут быть реализованы множеством различных способов. Функции, описанные в одном или нескольких примерах, могут быть реализованы при помощи аппаратного обеспечения, программного обеспечения, встроенного программного обеспечения или любой их комбинации. Следует понимать, что описанные здесь функциональные компоненты описаны как «модули», чтобы еще больше подчеркнуть их независимость от реализации.[122] It should be understood that the exemplary embodiments described above may be implemented in a variety of different ways. The functions described in one or more examples may be implemented by hardware, software, firmware, or any combination thereof. It should be understood that the functional components described here are described as "modules" to further emphasize their implementation independence.

[123] Различные функции или способы, описанные в настоящем раскрытии, могут быть реализованы с помощью инструкций, хранящихся на невременном носителе записи, которые могут быть прочитаны и выполнены одним или несколькими процессорами. Невременный носитель записи включает в себя, например, все типы записывающих устройств, в которых данные хранятся в форме, читаемой компьютерной системой. Например, невременные носители записи включают в себя носители, такие как стираемая программируемая постоянная память (EPROM), флэш-накопители, оптические приводы, магнитные жесткие диски и твердотельные накопители (SSD).[123] Various functions or methods described in the present disclosure may be implemented by instructions stored on a non-transitory recording medium that can be read and executed by one or more processors. Non-transitory recording medium includes, for example, all types of recording devices in which data is stored in a form readable by a computer system. For example, non-transitory recording media includes media such as erasable programmable read-only memory (EPROM), flash drives, optical drives, magnetic hard disks, and solid-state drives (SSDs).

[124] Хотя примерные варианты осуществления были описаны в иллюстративных целях, специалисты в данной области техники поймут, что возможны различные модификации и изменения, не выходящие за рамки концепции и объема вариантов осуществления. Примерные варианты осуществления были описаны для краткости и ясности. Соответственно, специалист поймет, что объем вариантов осуществления не ограничивается вариантами осуществления, явно описанными выше, но включает пункты формулы изобретения и их эквиваленты.[124] Although exemplary embodiments have been described for illustrative purposes, those skilled in the art will appreciate that various modifications and changes are possible without departing from the concept and scope of the embodiments. Exemplary embodiments have been described for brevity and clarity. Accordingly, one skilled in the art will appreciate that the scope of the embodiments is not limited to the embodiments expressly described above, but includes the claims and their equivalents.

Перекрестная ссылка на родственную заявкуCross reference to related application

Эта заявка испрашивает приоритет патентной заявки №10-2019-0028371, поданной 12 марта 2019 г. в Корее, патентной заявки №10-2019-0030334, поданной 18 марта 2019 г. в Корее, и патентной заявки №10-. 2019-0056985, поданной 15 мая 2019 г. в Корее, полное содержание которой включено в настоящий документ посредством ссылки.This application claims priority to Patent Application No. 10-2019-0028371, filed on March 12, 2019 in Korea, Patent Application No. 10-2019-0030334, filed on March 18, 2019 in Korea, and Patent Application No. 10-. 2019-0056985, filed May 15, 2019 in Korea, the entire contents of which are incorporated herein by reference.

Claims

1. A video decoding method for decoding a sequence of images using incremental updating, comprising:

decoding, from the sequence header in the bit stream, a flag indicating whether incremental updating is enabled;

decoding identification information to identify a first picture to which incremental updating has been applied in the sequence, and determining a picture order counter (POC) value of the first picture;

decoding group size information to identify a group of pictures associated with the first picture to which the gradual update has been applied;

determining a POC value of a second image corresponding to the last image belonging to the group based on the group size information and the POC value of the first image; And

determining a group of images associated with the first image using the POC value of the first image and the POC value of the second image,

wherein pictures having a POC value greater than or equal to the POC value of the first image and less than the POC value of the second image are not allowed to be displayed after decoding,

wherein the identification information indicates that gradual updating is not applied to the first image in the sequence based on the flag indicating that gradual updating is not allowed.

2. The method of claim 1, wherein when a block in an image belonging to a group is predicted using inter-prediction, the block is allowed to be predicted using a reference block filled with a predetermined value.

3. The method of claim 2, wherein the predetermined value is obtained from the bit depth of the pixel values.

4. The method of claim 1, wherein each of the images belonging to a group of images associated with the first image includes update regions at different positions, the update regions being gradually decoded as corresponding images belonging to the group are decoded, and wherein all decoded update regions in a group of pictures associated with the first picture are combined to form a reference picture that will be available as a reference picture for another picture.

5. The method of claim 4, wherein only intra-prediction decoding is enabled for the update regions.

6. The method of claim 4, wherein both intra-prediction decoding and inter-prediction decoding are enabled for non-updating regions in each of the pictures belonging to the group of pictures associated with the first picture.

7. The method according to claim 4, additionally containing:

decoding position information indicating positions of update areas in each of the pictures belonging to the group of pictures associated with the first picture.

8. The method according to claim 7, additionally containing:

Overlapping region filtering, where image update regions overlap each other.

9. The method according to claim 8, additionally containing:

decoding filter coefficient information to filter overlapping regions.

10. The method of claim 4, wherein when a reference image combining decoded update regions is used to inter-predict a target block to be decoded in said other image, the target block is predicted using the reference image after filtering the boundary between the decoded update regions.

11. A video encoding method for encoding a sequence of images using incremental updating, comprising:

encoding, into a sequence header in the bitstream, a flag indicating that incremental updating is enabled;

encoding identification information for identifying a first image to which incremental updating has been applied in the sequence, and a picture order counter (POC) value of the first image;

determining a group of images associated with the first image to which incremental updating is applied, and encoding group size information to identify the group of images, wherein the group size information is used as information for obtaining a POC value of a second image corresponding to the last image belonging to the group;

12. A method for storing a bitstream associated with video data, the method comprising:

generating a bit stream by encoding video data; And

storing the bitstream in a non-transitory machine-readable medium,

in this case, the generation of the bit stream includes:

encoding identification information for identifying a first picture to which incremental updating is applied in the sequence, and a picture order counter (POC) value of the first picture;