RU2813229C1

RU2813229C1 - Computing dynamic metadata for editing hdr content

Info

Publication number: RU2813229C1
Application number: RU2022134497A
Authority: RU
Inventors: Робин АТКИНС
Original assignee: Долби Лэборетериз Лайсенсинг Корпорейшн
Priority date: 2020-06-03
Filing date: 2021-06-02
Publication date: 2024-02-08

Abstract

FIELD: editing video content.

SUBSTANCE: invention relates to a system and method for editing video content. The solution includes receiving video input data; converting input video data to a predefined format; generating a plurality of initial metadata values for a frame of converted video data, the plurality of initial metadata values including the first metadata value corresponding to the first fixed value not calculated from content including the frame, the second metadata value corresponding to an average luminance value of the frame, and the third value metadata corresponding to a second fixed value not calculated from the content, wherein the first metadata value, the second metadata value and the third metadata value include information used by the decoder to prepare by rendering a decoded image on a display.

EFFECT: improving the quality of video content processing.

17 cl, 10 dwg

Description

[0001] Данная заявка притязает на приоритет заявки на патент (Европа) номер 20178044.2; и предварительной заявки (США) номер 63/034,006, обе из которых поданы 3 июня 2020 года, каждая из которых полностью содержится в данном документе по ссылке.[0001] This application claims priority to patent application (Europe) number 20178044.2; and U.S. Provisional Application No. 63/034,006, both filed June 3, 2020, each of which is incorporated herein in its entirety by reference.

Уровень техникиState of the art

1. Область техники, к которой относится изобретение1. Field of technology to which the invention relates

[0002] Данная заявка, в общем, относится к изображениям; более конкретно, данная заявка относится к формированию метаданных для управления отображением в связи с видеоконтентом.[0002] This application generally relates to images; More specifically, this application relates to the generation of metadata for display control in connection with video content.

2. Описание предшествующего уровня техники2. Description of the prior art

[0003] При использовании в данном документе, термин "динамический диапазон (DR)" может относиться к способности зрительной системы человека (HVS) воспринимать диапазон интенсивности (например, яркость, сигнал яркости) в изображении, например, от самых темно-черных цветов (наиболее темные участки) до самых ярких белых цветов (ярких участков изображений). В этом смысле, DR относится к "связанной со сценой" интенсивности. DR также может относиться к способности устройства отображения адекватно или приблизительно подготавливать посредством рендеринга диапазон интенсивности конкретной широты. В этом смысле, DR относится к "связанной со отображением" интенсивности. Если конкретный смысл явно не указывается как имеющий конкретную значимость в любой точке в описании в данном документе, необходимо сделать вывод, что термин может использоваться в любом смысле, например, взаимозаменяемо.[0003] As used herein, the term "dynamic range (DR)" may refer to the ability of the human visual system (HVS) to perceive a range of intensities (e.g., luminance, luminance signal) in an image, for example, from the darkest blacks ( the darkest areas) to the brightest whites (the brightest areas of the images). In this sense, DR refers to "scene-related" intensity. DR may also refer to the ability of a display device to adequately or approximately prepare by rendering an intensity range of a particular latitude. In this sense, DR refers to "display-related" intensity. Unless a particular sense is clearly stated to have a particular meaning at any point in the description herein, it is understood that the term may be used in any sense, such as interchangeably.

[0004] При использовании в данном документе, термин "расширенный динамический диапазон (HDR)" относится к DR-широте, которая охватывает приблизительно 14-15 или более порядков величины HVS. На практике, DR, по которому человек может одновременно воспринимать обширную широту в диапазоне интенсивности, может в определенной степени усекаться, относительно HDR. При использовании в данном документе, термины "улучшенный динамический диапазон (EDR)" или "визуальный динамический диапазон (VDR)" могут отдельно или взаимозаменяемо относиться к DR, который является воспринимаемым в сцене или изображении посредством HVS, который включает в себя перемещения глаз, обеспечивая некоторые изменения адаптации к свету в сцене или изображении. При использовании в данном документе, EDR может относиться к DR, который охватывает 5-6 порядков величины. Таким образом, хотя возможно и является в определенной степени более узким относительно отнесенного HDR истинной сцены, тем не менее, EDR представляет существенную DR-широту и также может называться "HDR".[0004] As used herein, the term “high dynamic range (HDR)” refers to DR latitude that spans approximately 14-15 or more orders of magnitude of HVS. In practice, DR, by which a person can simultaneously perceive a wide latitude over a range of intensities, may be truncated to a certain extent, relative to HDR. As used herein, the terms "enhanced dynamic range (EDR)" or "visual dynamic range (VDR)" may separately or interchangeably refer to DR, which is perceived in a scene or image by HVS, which includes eye movements, providing some light adaptation changes in a scene or image. As used herein, EDR may refer to DR that spans 5-6 orders of magnitude. Thus, although perhaps narrower to a certain extent than the referenced HDR of the true scene, EDR nevertheless represents significant DR breadth and may also be referred to as "HDR".

[0005] На практике, изображения содержат один или более цветовых компонентов (например, RGB, сигнал Y яркости и сигнал Cb и Cr цветности), причем в квантованной цифровой системе каждый цветовой компонент представляется посредством точности в n битов в расчете на пиксел (например, n=8). Битовая глубина n≤8 (например, цветные 24-битовые JPEG-изображения) может использоваться с изображениями со стандартным динамическим диапазоном (SDR), тогда как битовая глубина n>8 может рассматриваться для изображений с улучшенным динамическим диапазоном (EDR), чтобы не допускать артефактов оконтуривания и лестницы. В дополнение к целочисленным типам данных, EDR-изображения и изображения с расширенным динамическим диапазоном (HDR) также могут сохраняться и распространяться с использованием высокоточных (например, 16-битовых) форматов с плавающей запятой, таких как OpenEXR-формат файлов, разработанный компанией Industrial Light and Magic.[0005] In practice, images contain one or more color components (e.g., RGB, a luminance signal Y, and a chrominance signal Cb and Cr), where in a quantized digital system each color component is represented by a precision of n bits per pixel (e.g. n=8). A bit depth of n≤8 (for example, 24-bit color JPEG images) may be used with standard dynamic range (SDR) images, while a bit depth of n>8 may be considered for enhanced dynamic range (EDR) images to avoid contouring and staircase artifacts. In addition to integer data types, EDR and high dynamic range (HDR) images can also be stored and distributed using high-precision (e.g., 16-bit) floating point formats, such as the OpenEXR file format developed by Industrial Light and Magic.

[0006] Опорная электрооптическая передаточная функция (EOTF) для данного дисплея характеризует взаимосвязь между значениями цветов (например, яркостью) входного видеосигнала, чтобы выводить значения цветов экрана (например, яркость экрана), сформированные посредством дисплея. Например, ITU Rec. ITU-R BT.1886 "Reference electro-optical transfer function for flat panel displays used in HDTV studio production" (март 2011 года), которая полностью содержится в данном документе по ссылке, задает опорную EOTF для плоскопанельных дисплеев на основе измеренных характеристик электронно-лучевой трубки (CRT). С учетом видеопотока, информация относительно его EOTF типично встраивается в поток битов в качестве метаданных.[0006] A reference electro-optical transfer function (EOTF) for a given display characterizes the relationship between color values (eg, brightness) of an input video signal to output screen color values (eg, screen brightness) generated by the display. For example, ITU Rec. ITU-R BT.1886 "Reference electro-optical transfer function for flat panel displays used in HDTV studio production" (March 2011), which is contained in this document in its entirety by reference, specifies a reference EOTF for flat panel displays based on the measured characteristics of the electro-optical radiation tube (CRT). Given a video stream, information regarding its EOTF is typically embedded in the bitstream as metadata.

[0007] Многие бытовые настольные дисплеи подготавливают посредством рендеринга не-HDR-контент при максимальной яркости в 200-300 кд/см² ("нит"), а бытовые телевизионные приемники высокой четкости и сверхвысокой четкости ("HDTV" и "телевизор UHD TV") - от 300 до 500 нит. Такой отображаемый вывод в силу этого наглядно показывает узкий динамический диапазон (LDR), также называемый "SDR", относительно HDR или EDR. По мере того, как доступность HDR- или EDR-контента растет вследствие усовершенствований как в оборудовании захвата изображений (например, в камерах), так и в HDR-дисплеях (например, в профессиональном опорном мониторе PRM-4200 компании Dolby Laboratories или в главном 4K HDR-мониторе Sony Trimaster HX 31''), HDR-контент может цветокорректироваться и отображаться на HDR-дисплеях, которые поддерживают более широкие динамические диапазоны (например, от 700 нит до 5000 нит или больше). Такие дисплеи могут задаваться с использованием альтернативных EOTF, которые поддерживают высокие характеристики яркости (например, от 0 до 10000 нит). Пример такой EOTF задается в работе SMPTE ST 2084:2014 "High Dynamic Range EOTF of Mastering Reference Displays", которая полностью содержится в данном документе по ссылке.[0007] Many consumer desktop displays render non-HDR content at a maximum brightness of 200-300 cd/ ^cm2 (“nits”), and consumer high-definition and ultra-high-definition television receivers (“HDTV” and “UHD TV” ") - from 300 to 500 nits. This displayed output therefore clearly shows the low dynamic range (LDR), also called "SDR", relative to HDR or EDR. As the availability of HDR or EDR content increases due to improvements in both image capture hardware (such as cameras) and HDR displays (such as Dolby Laboratories' PRM-4200 professional reference monitor or 4K flagship Sony Trimaster HX 31'' HDR Monitor), HDR content can be color corrected and displayed on HDR displays that support wider dynamic ranges (for example, 700 nits to 5000 nits or more). Such displays may be specified using alternative EOTFs that support high brightness specifications (eg, 0 to 10,000 nits). An example of such an EOTF is specified in SMPTE ST 2084:2014 "High Dynamic Range EOTF of Mastering Reference Displays", which is contained in this document by reference in its entirety.

[0008] При использовании в данном документе, термин "управление отображением" обозначает обработку (например, преобразование тона и гаммы), требуемую для того, чтобы преобразовывать входной видеосигнал с первым динамическим диапазоном (например, 1000 нит) в дисплей со вторым динамическим диапазоном (например, 500 нит). Примеры процессов управления отображением описываются в PCT-заявке порядковый номер PCT/US2014/016304 (заявке '304), поданной 13 февраля 2014 года, "Display management for high dynamic range video", авторов R. El Atkins и другие, которая полностью содержится в данном документе по ссылке. Управление отображением может выполняться с помощью или управляться посредством входных метаданных, сформированных посредством источника входящего контента и мультиплексированных в кодированный поток битов.[0008] As used herein, the term "display control" refers to the processing (eg, tone and gamma conversion) required to convert an input video signal with a first dynamic range (eg, 1000 nits) to a display with a second dynamic range ( for example 500 nits). Examples of display control processes are described in PCT application serial number PCT/US2014/016304 (the '304 application), filed February 13, 2014, "Display management for high dynamic range video" by R. El Atkins et al., which is contained in its entirety in this document by reference. Display control may be performed by or controlled by input metadata generated by the incoming content source and multiplexed into a coded bitstream.

[0009] Подходы, описанные в этом разделе, представляют собой подходы, которые могут рассматриваться, но не обязательно представляют собой подходы, которые заранее задуманы или рассмотрены. Следовательно, если не указано иное, не следует предполагать, что какой-либо из описанных в этом разделе подходов относится к предшествующему уровню техники просто в силу своего включения в этот раздел. Аналогично, проблемы, идентифицированные относительно одного или более подходов, не должны предполагаться как выявленные в предшествующем уровне техники на основе этого раздела, если не указано иное.[0009] The approaches described in this section are approaches that may be considered, but do not necessarily represent approaches that have been previously conceived or considered. Therefore, unless otherwise noted, any approach described in this section should not be assumed to be prior art simply by virtue of its inclusion in this section. Likewise, problems identified with one or more approaches should not be assumed to be identified in the prior art based on this section unless otherwise noted.

Краткая сущность изобретенияBrief summary of the invention

[0010] Различные аспекты настоящего раскрытия сущности относятся к устройствам, системам и способам для формирования метаданных, которые могут использоваться для того, чтобы предоставлять повышенное качество видео, повышенную временную стабильность, низкие требования по объему вычислений и уменьшенную задержку.[0010] Various aspects of the present disclosure relate to devices, systems and methods for generating metadata that can be used to provide increased video quality, increased temporal stability, low computational requirements and reduced latency.

[0011] В одном аспекте настоящего раскрытия сущности, предусмотрен способ редактирования видеоконтента, содержащий: прием входных видеоданных; преобразование входных видеоданных в предварительно определенный формат, чтобы за счет этого формировать преобразованные видеоданные; формирование множества начальных значений метаданных для кадра преобразованных видеоданных, причем множество начальных значений метаданных включают в себя первое значение метаданных, соответствующее первому фиксированному значению, не вычисленному из контента, включающего в себя кадр, второе значение метаданных, соответствующее среднему значению яркости кадра, и третье значение метаданных, соответствующее второму фиксированному значению, не вычисленному из контента, при этом первое значение метаданных, второе значение метаданных и третье значение метаданных включают в себя информацию, используемую посредством декодера для того, чтобы подготавливать посредством рендеринга декодированное изображение на дисплее.[0011] In one aspect of the present disclosure, there is provided a method for editing video content, comprising: receiving input video data; converting the input video data into a predetermined format to thereby generate converted video data; generating a plurality of initial metadata values for a frame of converted video data, the plurality of initial metadata values including a first metadata value corresponding to a first fixed value not calculated from content including the frame, a second metadata value corresponding to an average luminance value of the frame, and a third value metadata corresponding to a second fixed value not calculated from the content, wherein the first metadata value, the second metadata value and the third metadata value include information used by the decoder to prepare by rendering a decoded image on a display.

[0012] В другом аспекте настоящего раскрытия сущности, предусмотрена система редактирования видео, содержащая: запоминающее устройство; и процессор, выполненный с возможностью инструктировать системе редактирования видео: принимать входные видеоданные, преобразовывать входные видеоданные в предварительно определенный формат, чтобы за счет этого формировать преобразованные видеоданные, формировать множество начальных значений метаданных для кадра преобразованных видеоданных, причем множество начальных значений метаданных включают в себя первое значение метаданных, соответствующее первому фиксированному значению, не вычисленному из контента, включающего в себя кадр, второе значение метаданных, соответствующее среднему значению яркости кадра, и третье значение метаданных, соответствующее второму фиксированному значению, не вычисленному из контента.[0012] In another aspect of the present disclosure, there is provided a video editing system comprising: a storage device; and a processor configured to instruct the video editing system to: receive input video data, convert the input video data into a predetermined format thereby generating converted video data, generate a plurality of initial metadata values for a frame of converted video data, the plurality of initial metadata values including the first a metadata value corresponding to a first fixed value not calculated from the content including the frame, a second metadata value corresponding to an average luminance value of the frame, and a third metadata value corresponding to a second fixed value not calculated from the content.

[0013] В другом аспекте настоящего раскрытия сущности, предусмотрен способ редактирования видеоконтента, содержащий: прием входных видеоданных; преобразование входных видеоданных в предварительно определенный формат, чтобы за счет этого формировать преобразованные видеоданные; формирование первого значения метаданных для кадра преобразованных видеоданных, причем первое значение метаданных соответствует среднему значению яркости кадра; определение временного окна, включающего в себя кадр, причем временное окно имеет предварительно определенную длину во времени; вычисление максимального диапазона метаданных и минимального диапазона метаданных за временное окно, чтобы за счет этого формировать первое фильтрованное значение метаданных и второе фильтрованное значение метаданных; и сглаживание первого фильтрованного значения метаданных и второго фильтрованного значения метаданных, чтобы за счет этого формировать первое сглаженное и фильтрованное значение метаданных и второе сглаженное и фильтрованное значение метаданных.[0013] In another aspect of the present disclosure, there is provided a method for editing video content, comprising: receiving input video data; converting the input video data into a predetermined format to thereby generate converted video data; generating a first metadata value for a frame of converted video data, the first metadata value corresponding to an average brightness value of the frame; defining a time window including the frame, wherein the time window has a predetermined length in time; calculating a maximum metadata range and a minimum metadata range over a time window to thereby generate a first filtered metadata value and a second filtered metadata value; and smoothing the first filtered metadata value and the second filtered metadata value to thereby generate a first smoothed and filtered metadata value and a second smoothed and filtered metadata value.

[0014] Таким образом, различные аспекты настоящего раскрытия сущности осуществляют улучшения, по меньшей мере, областей техники захвата, редактирования видео и обработки сигналов, а также смежных областей техники доставки видео и другого контента.[0014] Thus, various aspects of the present disclosure provide improvements to at least the fields of video capture, video editing, and signal processing technology, as well as related fields of video and other content delivery technology.

Краткое описание чертежейBrief description of drawings

[0015] Эти и другие более подробные и конкретные признаки различных вариантов осуществления более полно раскрываются в нижеприведенном описании, со ссылкой на прилагаемые чертежи, на которых:[0015] These and other more detailed and specific features of the various embodiments are more fully set forth in the description below, with reference to the accompanying drawings, in which:

[0016] Фиг. 1 иллюстрирует примерный конвейер доставки видео в соответствии с различными аспектами настоящего раскрытия сущности;[0016] FIG. 1 illustrates an exemplary video delivery pipeline in accordance with various aspects of the present disclosure;

[0017] Фиг. 2 иллюстрирует последовательность операций обработки для примерного способа формирования метаданных согласно различным аспектам настоящего раскрытия сущности;[0017] FIG. 2 illustrates a processing flow for an exemplary method of generating metadata in accordance with various aspects of the present disclosure;

[0018] Фиг. 3 иллюстрирует примерные метаданные, сформированные посредством способа по фиг. 2;[0018] FIG. 3 illustrates exemplary metadata generated by the method of FIG. 2;

[0019] Фиг. 4 иллюстрирует последовательность операций обработки для другого примерного способа формирования метаданных согласно различным аспектам настоящего раскрытия сущности;[0019] FIG. 4 illustrates a processing flow for another exemplary method of generating metadata in accordance with various aspects of the present disclosure;

[0020] Фиг. 5 иллюстрирует примерные метаданные, сформированные посредством способа по фиг. 2;[0020] FIG. 5 illustrates exemplary metadata generated by the method of FIG. 2;

[0021] Фиг. 6 иллюстрирует последовательность операций обработки для другого примерного способа формирования метаданных согласно различным аспектам настоящего раскрытия сущности;[0021] FIG. 6 illustrates a processing flow for another exemplary method of generating metadata in accordance with various aspects of the present disclosure;

[0022] Фиг. 7A-7C, соответственно, иллюстрируют примерные метаданные, сформированные посредством способа по фиг. 6; и[0022] FIG. 7A-7C, respectively, illustrate exemplary metadata generated by the method of FIG. 6; And

[0023] Фиг. 8 иллюстрирует примерную систему в соответствии с различными аспектами настоящего раскрытия сущности.[0023] FIG. 8 illustrates an exemplary system in accordance with various aspects of the present disclosure.

Подробное описание изобретенияDetailed Description of the Invention

[0024] Это раскрытие сущности и его аспекты могут осуществляться в различных формах, включающих в себя аппаратные средства, устройства или схемы, управляемые посредством машинореализованных способов, компьютерных программных продуктов, компьютерных систем и сетей, пользовательских интерфейсов и интерфейсов прикладного программирования; а также аппаратно-реализованные способы, схемы обработки сигналов, матрицы запоминающего устройства, специализированные интегральные схемы (ASIC), программируемые пользователем вентильные матрицы (FPGA) и т.п. Вышеприведенная сущность изобретения предназначена только для того, чтобы выдавать общую идею относительно различных аспектов настоящего раскрытия сущности, и не ограничивает объем раскрытия сущности каким-либо образом.[0024] This disclosure and aspects thereof may be embodied in various forms, including hardware, devices or circuits controlled by computer-implemented methods, computer program products, computer systems and networks, user interfaces and application programming interfaces; as well as hardware-based methods, signal processing circuits, memory matrices, application-specific integrated circuits (ASICs), field programmable gate arrays (FPGAs), and the like. The above summary is intended only to give a general idea regarding various aspects of the present disclosure, and does not limit the scope of the disclosure in any way.

[0025] В нижеприведенном описании, изложено множество подробностей, таких как конфигурации оптических устройств, временные синхронизации, операции и т.п., с тем чтобы предоставлять понимание одного или более аспектов настоящего раскрытия сущности. Специалистам в данной области техники должно быть очевидным, что эти конкретные подробности являются просто примерными и не имеют намерение ограничивать объем этой заявки.[0025] In the following description, numerous details are set forth, such as optical device configurations, timing synchronizations, operations, and the like, so as to provide an understanding of one or more aspects of the present disclosure. It will be apparent to those skilled in the art that these specific details are merely exemplary and are not intended to limit the scope of this application.

[0026] Кроме того, хотя настоящее раскрытие сущности фокусируется главным образом на примерах, в которых различные схемы используются при формировании контента, следует понимать, что это представляет собой просто один пример реализации. Дополнительно следует понимать, что раскрытые системы и способы могут использоваться в любом устройстве, в котором существует потребность в том, чтобы формировать, модифицировать или отображать данные изображений и/или ассоциированные метаданные; например, в кино-, бытовых и других коммерческих проекционных системах, смартфоне и других бытовых электронных устройствах, дисплеях на лобовом стекле, дисплеях в стиле виртуальной реальности и т.п.[0026] Additionally, although the present disclosure focuses primarily on examples in which various schemas are used in generating content, it should be understood that this represents merely one example implementation. Additionally, it should be understood that the disclosed systems and methods may be used in any device in which there is a need to generate, modify, or display image data and/or associated metadata; for example, in cinema, home and other commercial projection systems, smartphone and other consumer electronic devices, head-up displays, virtual reality style displays, etc.

[0027] Метаданные [0027] Metadata

[0028] При использовании в данном документе, термин "метаданные" относится к любой вспомогательной информации, которая передается как часть кодированного потока битов и помогает декодеру подготавливать посредством рендеринга декодированное изображение. Такие метаданные могут включать в себя, но не только, информацию цветового пространства или гаммы, параметры опорного дисплея и вспомогательные параметры сигналов, к примеру, как описано в данном документе, и могут совместно называться "метаданными формирования изображений".[0028] As used herein, the term "metadata" refers to any supporting information that is carried as part of the encoded bitstream and helps the decoder render the decoded image. Such metadata may include, but is not limited to, color space or gamma information, reference display parameters, and auxiliary signal parameters, for example, as described herein, and may be collectively referred to as “imaging metadata.”

[0029] Такие метаданные могут разделяться или классифицироваться на различные уровни метаданных. В одном конкретном примере, в котором настоящее раскрытие сущности реализуется в Dolby Vision-архитектуре, метаданные преобразования могут включать в себя L0-метаданные, L1-метаданные, L2/L8-метаданные, L3-параметры, L4-метаданные, L11-метаданные и т.п. В некоторых примерах, L0-метаданные предоставляют или описывают информацию относительно динамического диапазона видеоданных для всего видеоконтента (т.е. для нескольких снимков и/или сцен). Например, L0-метаданные могут включать в себя L0min и L0max, которые, соответственно, представляют минимальную яркость и максимальную яркость для видеоконтента, соответственно. В одном конкретном примере, в котором видеоконтент представляет собой HDR-контент, L0min и L0max могут соответствовать 0,01 нит и 1000 нит, соответственно.[0029] Such metadata may be divided or classified into different levels of metadata. In one specific example, in which the present disclosure is implemented in a Dolby Vision architecture, the transform metadata may include L0 metadata, L1 metadata, L2/L8 metadata, L3 parameters, L4 metadata, L11 metadata, etc. .P. In some examples, L0 metadata provides or describes information regarding the dynamic range of video data for entire video content (ie, multiple pictures and/or scenes). For example, the L0 metadata may include L0min and L0max, which respectively represent the minimum luminance and maximum luminance for the video content, respectively. In one specific example, in which the video content is HDR content, L0min and L0max may correspond to 0.01 nits and 1000 nits, respectively.

[0030] В некоторых примерах, L1-метаданные предоставляют или описывают информацию относительно распределения значений яркости в исходном изображении, исходной сцене, исходной группе кинокадров (GOP) и т.д., как представлено в видеоданных. Распределение значений яркости может представляться посредством гистограмм, извлекаемых на основе контента изображений (например, пиксельных значений, значений сигнала яркости, значений сигнала цветности, Y-значений, Cb/Cr-значений, RGB-значений и т.д.) для изображения, сцены, GOP и т.д. L1-метаданные могут включать в себя параметры L1min, L1mid и L1max, которые, соответственно, представляют минимальную яркость ("сминание"), полутоновую яркость ("середина") и максимальную яркость ("клип") для одного или более изображений, сцен, GOP и т.д., в видеоконтенте, соответственно.[0030] In some examples, L1 metadata provides or describes information regarding the distribution of luminance values in a source image, source scene, source GOP, etc., as represented in the video data. The distribution of luminance values may be represented by histograms extracted based on image content (eg, pixel values, luminance values, chrominance values, Y values, Cb/Cr values, RGB values, etc.) for an image, scene , GOP, etc. The L1 metadata may include parameters L1min, L1mid and L1max, which respectively represent the minimum brightness ("crease"), grayscale brightness ("mid") and maximum brightness ("clip") for one or more images, scenes, GOP, etc., in video content, respectively.

[0031] Другие уровни метаданных также могут задаваться. Например, L2 предоставляет или описывает информацию относительно регулирований характеристик видео, которые инициируются или обратно прослеживаются в отношении регулирований, осуществляемых режиссером, цветокорректировщиком, специалистом по обработке видео и т.д., в производственной студии и/или во время постпроизводства. L8-метаданные являются аналогичными L2-метаданным и в некоторых случаях могут быть эквивалентными L2-метаданным (например, в зависимости от соответствующих тональных кривых). L2- и L8-метаданные могут называться "параметрами "обрезки" и могут указывать или относиться к усилению/смещению/мощности данных изображений. L2-метаданные могут соответствовать первому опорному дисплею, имеющему первый опорный динамический диапазон.[0031] Other levels of metadata may also be specified. For example, L2 provides or describes information regarding adjustments to video characteristics that are initiated or traced back to adjustments made by the director, color corrector, video editor, etc., in the production studio and/or during post-production. L8 metadata is similar to L2 metadata and in some cases may be equivalent to L2 metadata (eg, depending on the corresponding tone curves). The L2 and L8 metadata may be referred to as "cropping parameters" and may indicate or relate to the gain/offset/power of the image data. The L2 metadata may correspond to a first reference display having a first reference dynamic range.

[0032] L3-метаданные предоставляют или описывают информацию относительно регулирований характеристик видео, которые инициируются или обратно прослеживаются в отношении регулирований, осуществляемых режиссером, цветокорректировщиком, специалистом по обработке видео и т.п. По сравнению с L2-метаданными, L3-метаданные могут соответствовать второму опорному дисплею с опорным динамическим диапазоном, отличающимся от опорного динамического диапазона первого опорного дисплея. L3-метаданные могут включать в себя, например, смещения или регулирования из L1-метаданных, включающие в себя смещения или регулирования для значений яркости "сминание", "середина" и/или "клип".[0032] L3 metadata provides or describes information regarding adjustments to video characteristics that are initiated or traced back to adjustments made by a director, color corrector, video processor, or the like. Compared with L2 metadata, L3 metadata may correspond to a second reference display with a reference dynamic range different from the reference dynamic range of the first reference display. The L3 metadata may include, for example, offsets or adjustments from the L1 metadata, including offsets or adjustments for crease, mid, and/or clip luminance values.

[0033] L4-метаданные предоставляют или описывают информацию относительно операций глобального регулирования яркости. L4-метаданные могут вычисляться посредством кодера во время предварительной обработки и могут вычисляться с использованием первичных RGB-цветов. В одном примере, L4-метаданные могут включать в себя данные, которые диктуют глобальный уровень яркости задней подсветки панели отображения на покадровой основе. Другие сформированные метаданные, к примеру, L11-метаданные, могут предоставлять или описывать информацию, которая должна использоваться для того, чтобы идентифицировать источник видеоданных, к примеру, кинематографический контент, контент компьютерных игр, спортивный контент и т.п. Такие метаданные дополнительно могут предоставлять или описывать намеченные настройки кинокадра, такие как намеченная белая точка, резкость и т.п.[0033] L4 metadata provides or describes information regarding global dimming operations. L4 metadata can be calculated by the encoder during pre-processing and can be calculated using primary RGB colors. In one example, the L4 metadata may include data that dictates the global brightness level of the display panel backlight on a frame-by-frame basis. Other generated metadata, for example, L11 metadata, may provide or describe information that should be used to identify the source of video data, for example, cinematic content, computer game content, sports content, and the like. Such metadata may further provide or describe intended movie frame settings, such as intended white point, sharpness, and the like.

[0034] При совместном рассмотрении, метаданные формирования изображений могут включать в себя данные преобразования для преобразования из первого динамического диапазона во второй динамический диапазон, который отличается от первого динамического диапазона. В некоторых аспектах настоящего раскрытия сущности, первый динамический диапазон может быть шире второго динамического диапазона (например, при преобразовании из HDR в SDR). В других аспектах настоящего раскрытия сущности, второй динамический диапазон может быть шире первого динамического диапазона (например, при преобразовании из SDR в HDR).[0034] Taken together, the imaging metadata may include transform data for converting from a first dynamic range to a second dynamic range that is different from the first dynamic range. In some aspects of the present disclosure, the first dynamic range may be wider than the second dynamic range (eg, when converting from HDR to SDR). In other aspects of the present disclosure, the second dynamic range may be wider than the first dynamic range (eg, when converting from SDR to HDR).

[0035] Сравнительные способы формирования метаданных формирования изображений могут включать в себя вычисление метаданных в расчете на кадр (например, L1-метаданных в расчете на кадр) и либо применение IIR-фильтрации (например, для широковещательной передачи вживую или игры), либо комбинирование метаданных в сцены посредством вычисления минимума, середины и максимума сцены (например, для студийного или профессионального оффлайнового контента). Тем не менее, ни один из этих способов не предоставляет возможность мгновенного предварительного просмотра контента во время редактирования. Например, пользователь может хотеть делать HDR-кинокадр более ярким и предварительно просматривать результат на SDR-мониторе в качестве опорного дисплея. Для этого, осуществляются следующие этапы: регулирование применяется к HDR-кинокадру; L1-метаданные повторно вычисляются для отрегулированного HDR-кинокадра; операции тонального преобразования модифицируются; и отрегулированное тональное преобразование применяется к отрегулированному HDR-кинокадру, чтобы формировать SDR-кинокадр для предварительного просмотра.[0035] Comparative methods for generating imaging metadata may include calculating metadata per frame (eg, L1 metadata per frame) and either applying IIR filtering (eg, for live or game broadcast) or combining the metadata into scenes by calculating the minimum, middle and maximum of the scene (for example, for studio or professional offline content). However, none of these methods provide an instant preview of your content as you edit. For example, a user might want to brighten an HDR movie frame and preview the result on an SDR monitor as a reference display. To do this, the following steps are carried out: regulation is applied to the HDR film frame; L1 metadata is recalculated for the adjusted HDR movie frame; tone mapping operations are modified; and the adjusted tone mapping is applied to the adjusted HDR movie frame to generate an SDR preview movie frame.

[0036] Этот набор операций может быть удовлетворительным, если применяется к одному изображению, поскольку одно изображение может целесообразно сохраняться в запоминающем устройстве, так что операции могут применяться подряд. Тем не менее, L1-метаданные (и в силу этого результирующая тональная кривая) могут значительно варьироваться между кадрами, вызывая мерцание преобразованного изображения. Это может называться "временной нестабильностью". Чтобы обеспечивать временную стабильность тональной кривой, может выполняться некоторая фильтрация. Тем не менее, если операция повторного вычисления метаданных зависит от нескольких изображений, то операция регулирования и операция повторного вычисления метаданных должна применяться ко множеству изображений, что может быть непрактичным или невозможным на высоких скоростях передачи видео.[0036] This set of operations may be satisfactory if applied to a single image, since one image may conveniently be stored in a storage device such that the operations may be applied consecutively. However, the L1 metadata (and therefore the resulting tone curve) can vary significantly between frames, causing flickering in the converted image. This may be called "temporary instability". To ensure temporal stability of the tonal curve, some filtering may be performed. However, if the metadata recalculation operation depends on multiple images, then the throttling operation and the metadata recalculation operation must be applied to multiple images, which may be impractical or impossible at high video bit rates.

[0037] Таким образом, сравнительные способы формирования метаданных формирования изображений могут приводить к замедлению в итеративном цикле регулирования, обновления и предварительного просмотра результатов. Кроме того, сравнительный способ IIR-фильтрации может требовать очень большого числа кадров, которые должны анализироваться до текущего кадра, поскольку текущий кадр требует всех предыдущих кадров для IIR-фильтра. Студийный или профессиональный сравнительный способ требует всех кадров сцены, которая в некоторых случаях может иметь длину порядка минут или даже часов.[0037] Thus, comparative methods for generating imaging metadata may result in slowdowns in the iterative cycle of adjusting, updating, and previewing results. In addition, the comparative IIR filtering method may require a very large number of frames that must be analyzed prior to the current frame, since the current frame requires all previous frames for the IIR filter. The studio or professional comparison method requires all frames of a scene, which in some cases can be on the order of minutes or even hours in length.

[0038] С учетом этого, различные аспекты настоящего раскрытия сущности предоставляют способы формирования метаданных для эффективного редактирования; т.е. для редактирования, которое приводит к высокому качеству изображений и высокой временной стабильности. Различные аспекты настоящего раскрытия сущности могут выполнять такое редактирование с низкими требованиями по объему вычислений и низкой или нулевой задержкой. В некоторых аспектах, способы формирования метаданных включаются или используются в/с конвейером доставки видео.[0038] With this in mind, various aspects of the present disclosure provide methods for generating metadata for efficient editing; those. for editing that results in high quality images and high temporal stability. Various aspects of the present disclosure can perform such editing with low computational requirements and low or no latency. In some aspects, methods for generating metadata are included or used in/with the video delivery pipeline.

[0039] Конвейер доставки видео [0039] Video delivery pipeline

[0040] Фиг. 1 иллюстрирует примерный конвейер доставки видео и показывает различные стадии от видеозахвата до отображения видеоконтента. Кроме того, хотя нижеприведенное описание предоставляется с точки зрения видео (т.е. движущихся изображений), настоящее раскрытие сущности не ограничено этим. В некоторых примерах, контент изображений может представлять собой неподвижные изображения либо комбинации видео и неподвижных изображений. Контент изображений может представляться посредством растровой (или пиксельной) графики, посредством векторной графики либо посредством комбинаций растровой и векторной графики. Фиг. 1 иллюстрирует блок 101 формирования изображений, блок 102 производства, блок 103 постпроизводства, блок 104 кодирования, блок 105 декодирования и блок 106 управления отображением. Различные блоки, проиллюстрированные на фиг. 1, могут реализовываться как/через аппаратные средства, программное обеспечение, микропрограммное обеспечение либо комбинации вышеозначенного. Кроме того, различные группы проиллюстрированных блоков могут иметь комбинированные соответствующие функции и/или могут выполняться в различных устройствах и/или в различные моменты времени. Отдельные из или группы проиллюстрированных блоков могут реализовываться с помощью схемы, в том числе, но не только, с помощью центральных процессоров (CPU), графических процессоров (GPU), ASIC, FPGA и комбинаций вышеозначенного. Операции, выполняемые посредством одного или более блоков, могут обрабатываться локально, удаленно (например, облачно) либо как комбинация локально и удаленно.[0040] FIG. 1 illustrates an example video delivery pipeline and shows the various stages from video capture to display of video content. Moreover, although the following description is provided in terms of video (ie, moving images), the present disclosure is not limited to this. In some examples, the image content may be still images or combinations of video and still images. Image content may be represented using raster (or pixel) graphics, vector graphics, or a combination of raster and vector graphics. Fig. 1 illustrates an image generating unit 101, a production unit 102, a post-production unit 103, an encoding unit 104, a decoding unit 105, and a display control unit 106. The various blocks illustrated in FIG. 1 may be implemented as/via hardware, software, firmware, or combinations of the above. In addition, different groups of illustrated blocks may have combined respective functions and/or may be executed in different devices and/or at different times. Individual or groups of illustrated blocks may be implemented by circuitry, including, but not limited to, central processing units (CPUs), graphics processing units (GPUs), ASICs, FPGAs, and combinations of the foregoing. Operations performed by one or more blocks may be processed locally, remotely (e.g., in the cloud), or a combination of locally and remotely.

[0041] Как проиллюстрировано на фиг. 1, конвейер доставки видео дополнительно включает в себя опорный дисплей 111, который может предоставляться для того, чтобы помогать или отслеживать операции, проводимые в блоке 103 постпроизводства и на целевом дисплее 112. Для целей пояснения, блок 101 формирования изображений, блок 102 производства, блок 103 постпроизводства и блок 104 кодирования могут называться "вышележащими блоками или компонентами", тогда как блок 105 декодирования и блок 106 управления отображением могут называться "нижележащими блоками или компонентами".[0041] As illustrated in FIG. 1, the video delivery pipeline further includes a reference display 111 that may be provided to assist or monitor operations conducted in the post-production unit 103 and the target display 112. For purposes of explanation, the imaging unit 101, the production unit 102, the unit The post-production unit 103 and encoding unit 104 may be referred to as “upstream blocks or components,” while the decoding unit 105 and display control unit 106 may be referred to as “lower blocks or components.”

[0042] В примере, проиллюстрированном на фиг. 1, видеоконтент в форме последовательности видеокадров 121 захватывается или формируется в блоке 101 формирования изображений. Видеокадры 121 могут захватываться в цифровой форме (например, посредством цифровой камеры) или формироваться посредством компьютера (например, с использованием компьютерной анимации), с тем чтобы формировать видеоданные 122. Альтернативно, видеокадры 121 могут захватываться на пленке посредством пленочной камеры и затем преобразовываться в цифровой формат, с тем чтобы предоставлять видеоданные 122. В любом случае, видеоданные 122 предоставляются в блок 102 производства, в котором они редактируются для того, чтобы предоставлять производственный поток 123. Видеокадры 121 могут группироваться в последовательности, такие как снимки и сцены. Снимок, например, представляет собой набор временно соединенных кадров. Снимки могут разделяться посредством "переключений снимков" (например, моментов времени, в которые весь контент изображения изменяется вместо только его части). Сцена, например, представляет собой последовательность снимков, которые описывают повествующий сегмент большего контента. В одном конкретном примере, в котором видеоконтент представляет собой боевик, видеоконтент может включать в себя (в числе других) сцену погони, которая в свою очередь включает в себя последовательность снимков (например, снимок водителя преследующего транспортного средства, снимок водителя преследуемого транспортного средства, снимок улицы, на которой проводится погоня, и т.д.).[0042] In the example illustrated in FIG. 1, video content in the form of a sequence of video frames 121 is captured or generated in the imaging unit 101. Video frames 121 may be captured digitally (eg, by a digital camera) or generated by a computer (eg, using computer animation) to form video data 122. Alternatively, video frames 121 may be captured on film by a film camera and then converted to digital format so as to provide video data 122. In either case, video data 122 is provided to production unit 102, where it is edited to provide production stream 123. Video frames 121 may be grouped into sequences, such as shots and scenes. A snapshot, for example, is a collection of temporarily connected frames. Snapshots can be separated by "snapshot switches" (eg, points in time at which all of the image's content is changed instead of just part of it). A scene, for example, is a sequence of shots that describe a narrative segment of larger content. In one specific example, in which the video content is an action movie, the video content may include (among others) a chase scene, which in turn includes a sequence of shots (e.g., shot of the driver of the pursuing vehicle, shot of the driver of the pursued vehicle, shot the street where the chase is taking place, etc.).

[0043] Видеоданные в производственном потоке 123 затем предоставляются в процессор или процессоры в блоке 103 постпроизводства для постпроизводственного редактирования. Редактирование, выполняемое в блоке 103 постпроизводства, может включать в себя регулирование либо модификацию цветов или яркости в конкретных зонах изображения, с тем чтобы повышать качество изображений или достигать конкретного внешнего вида для изображения в соответствии с творческим намерением создателя (или редактора) видео. Это может называться "цветовой синхронизацией" или "цветокоррекцией". Другое редактирование (например, выбор и упорядочение сцен, обрезка изображений, добавление машиногенерируемых визуальных спецэффектов или наложений и т.д.) может выполняться в блоке 103 постпроизводства, чтобы давать в результате распространяемый поток 124. В некоторых примерах, блок 103 постпроизводства может предоставлять промежуточный поток 125 в опорный дисплей 111, чтобы обеспечивать возможность просмотра изображений на его экране, например, с тем чтобы помогать в процессе редактирования. Одно, два или все из блока 102 производства, блока 103 постпроизводства и блока 104 кодирования дополнительно могут включать в себя обработку для того, чтобы добавлять метаданные в видеоданные. Эта последующая обработка может включать в себя, но не только, статистический анализ свойств контента. Последующая обработка может выполняться локально или удаленно (например, как облачная обработка).[0043] The video data in production stream 123 is then provided to the processor or processors in post-production block 103 for post-production editing. Editing performed in the post-production block 103 may include adjusting or modifying colors or brightness in specific areas of the image in order to enhance the quality of the images or achieve a particular appearance for the image in accordance with the creative intent of the video creator (or editor). This may be called "color sync" or "color grading." Other editing (eg, selecting and arranging scenes, cropping images, adding machine-generated visual effects or overlays, etc.) may be performed in post-production block 103 to result in a distributed stream 124. In some examples, post-production block 103 may provide intermediate stream 125 to the reference display 111 to allow images to be viewed on its screen, for example, to assist in the editing process. One, two, or all of the production unit 102, the post-production unit 103, and the encoding unit 104 may further include processing for adding metadata to the video data. This post-processing may include, but is not limited to, statistical analysis of content properties. Post-processing can be done locally or remotely (eg as cloud processing).

[0044] После операций постпроизводства, распространяемый поток 124 может доставляться в блок 104 кодирования для доставки в нисходящем направлении в устройства декодирования и воспроизведения, такие как телевизионные приемники, абонентские приставки, кинотеатры, переносные компьютеры, планшетные компьютеры и т.п. В некоторых примерах, блок 104 кодирования может включать в себя аудио- и видеокодеры, к примеру, кодеры, заданные посредством стандарта Комитета по перспективным телевизионным системам (ATSC), стандарта цифровой широковещательной передачи видео (DVB), универсального цифрового диска (DVD), Blu-Ray и других форматов доставки, чтобы за счет этого формировать кодированный поток 126 битов. В приемнике, кодированный поток 126 битов декодируется посредством модуля 105 декодирования, чтобы формировать декодированный сигнал 127, представляющий идентичную или хорошую аппроксимацию распространяемого потока 124. Приемник может присоединяться к целевому дисплею 112, который может иметь характеристики, которые отличаются от опорного дисплея 111. Если опорный дисплей 111 и целевой дисплей 112 имеют различные характеристики, блок 106 управления отображением может использоваться для того, чтобы преобразовывать динамический диапазон или другие характеристики декодированного сигнала 127 в характеристики целевого дисплея 112 посредством формирования преобразованного для отображения сигнала 128. Блок 106 управления отображением дополнительно или альтернативно может использоваться для того, чтобы предоставлять управление мощностью целевого дисплея 112.[0044] Following post-production operations, the distributed stream 124 may be delivered to an encoder 104 for downstream delivery to decoding and playback devices such as televisions, set-top boxes, movie theaters, laptop computers, tablet computers, and the like. In some examples, encoding unit 104 may include audio and video encoders, for example, encoders defined by the Advanced Television System Committee (ATSC) standard, Digital Video Broadcast (DVB), Digital Versatile Disc (DVD), Blu -Ray and other delivery formats, in order to generate a 126-bit encoded stream. At the receiver, the coded bit stream 126 is decoded by decoding module 105 to generate a decoded signal 127 representing an identical or good approximation of the propagated stream 124. The receiver may be coupled to a target display 112, which may have characteristics that differ from the reference display 111. If the reference display 111 and target display 112 have different characteristics, display control unit 106 may be used to convert dynamic range or other characteristics of decoded signal 127 into characteristics of target display 112 by generating display-converted signal 128. Display control unit 106 may additionally or alternatively be used to provide power control to the target display 112.

[0045] Целевой дисплей 112 формирует изображение с использованием матрицы пикселов. Конкретная матричная структура зависит от архитектуры и разрешения дисплея. Например, если целевой дисплей 112 работает в жидкокристаллической архитектуре, он может включать в себя матрицу задней подсветки сравнительно низкого разрешения (например, матрицу светодиодов или других светоизлучающих элементов) и жидкокристаллическую матрицу и матрицу цветных светофильтров сравнительно высокого разрешения для того, чтобы избирательно ослаблять белый свет из матрицы задней подсветки и предоставлять окрашенный свет (зачастую называется "технологией отображения на основе двойной модуляции"). Если целевой дисплей 112 работает в OLED-архитектуре, он может включать в себя матрицу высокого разрешения самоэмиссионных цветных пикселов.[0045] The target display 112 generates an image using an array of pixels. The specific matrix structure depends on the architecture and resolution of the display. For example, if the target display 112 operates in a liquid crystal architecture, it may include a relatively low resolution backlight array (e.g., an array of LEDs or other light emitting elements) and a relatively high resolution liquid crystal array and color filter array to selectively attenuate white light from the backlight array and provide colored light (often called "dual modulation display technology"). If the target display 112 operates in an OLED architecture, it may include a high-resolution array of self-emissive color pixels.

[0046] Линия связи между вышележащими блоками и нижележащими блоками (т.е. тракт, по которому предоставляется кодированный поток 126 битов) может осуществляться посредством передачи вживую или в реальном времени, к примеру, посредством широковещательной передачи по радиоинтерфейсу с использованием электромагнитных волн либо через линию доставки контента, к примеру, через оптоволокно, витую пару (Ethernet) и/или коаксиальные кабели. В других примерах, линия связи может осуществляться посредством независимой от времени передачи, к примеру, посредством записи кодированного потока битов на физический носитель (например, DVD-диск или жесткий диск) для физической доставки в конечное пользовательское устройство (например, DVD-проигрыватель). Блок 105 декодера и блок 106 управления отображением могут быть включены в устройство, ассоциированное с целевым дисплеем 112; например, в форме интеллектуального телевизора, который включает в себя функции декодирования, управления отображением, управления мощностью и отображения. В некоторых примерах, блок 105 декодера и/или блок 106 управления отображением могут быть включены в устройство, отдельное от целевого дисплея 112; например, в форме абонентской приставки или мультимедийного проигрывателя.[0046] The communication link between the upper blocks and the lower blocks (i.e., the path over which the 126 bit coded stream is provided) may be via live or real-time transmission, for example, via broadcast over an air interface using electromagnetic waves or via content delivery line, for example, through optical fiber, twisted pair (Ethernet) and/or coaxial cables. In other examples, the communication link may be accomplished through time-independent transmission, for example, by recording an encoded bitstream onto a physical medium (eg, a DVD or hard drive) for physical delivery to an end user device (eg, a DVD player). A decoder unit 105 and a display control unit 106 may be included in a device associated with the target display 112; for example, in the form of a smart TV that includes decoding, display control, power control and display functions. In some examples, decoder block 105 and/or display control block 106 may be included in a device separate from target display 112; for example, in the form of a set-top box or multimedia player.

[0047] Блок 105 декодера и/или блок 106 управления отображением могут быть выполнены с возможностью принимать, анализировать и работать в ответ на метаданные, включенные или добавленные в вышележащие блоки. Такие метаданные в силу этого могут использоваться для того, чтобы предоставлять дополнительное регулирование или управление целевым дисплеем 112. Метаданные могут включать в себя метаданные формирования изображений, описанные выше (например, метаданные Dolby Vision). Метаданные могут формироваться в блоке 103 постпроизводства с использованием опорного дисплея 111 и производственного потока 123 и/или промежуточного потока 125.[0047] The decoder block 105 and/or the display control block 106 may be configured to receive, parse, and operate in response to metadata included or added to the underlying blocks. Such metadata may therefore be used to provide additional adjustment or control to the target display 112. The metadata may include imaging metadata described above (eg, Dolby Vision metadata). Metadata may be generated in post-production block 103 using reference display 111 and production stream 123 and/or intermediate stream 125.

[0048] Полудинамическое формирование метаданных [0048] Semi-dynamic generation of metadata

[0049] Метаданные формирования изображений могут формироваться с использованием "полудинамического" способа, пример которого проиллюстрирован на фиг. 2. Этапы, проиллюстрированные на фиг. 2, могут выполняться автоматически с помощью аппаратных средств, программного обеспечения, микропрограммного обеспечения либо комбинаций вышеозначенного, ассоциированных с блоком 103 постпроизводства по фиг. 1.[0049] Imaging metadata may be generated using a "semi-dynamic" method, an example of which is illustrated in FIG. 2. The steps illustrated in FIG. 2 may be performed automatically by hardware, software, firmware, or combinations thereof associated with post-production unit 103 of FIG. 1.

[0050] Как проиллюстрировано на фиг. 2, процесс полудинамического формирования метаданных может начинаться на этапе 201, на котором видеосигнал преобразуется в предварительно определенный формат (например, конкретную EOTF). Например, видеосигнал может преобразовываться из гибридного логарифмического гамма-распределения (HLG) или SLOG-3 HDR в HDR на основе перцепционного RGB-квантователя (PQ), например, как описано в Rec. ITU-R BT.2100-1 (06/2017). В некоторых реализациях, на этапе 202, могут применяться пространственное сглаживание и/или субдискретизация. Этап 202 может реализовываться с использованием ядра двумерного сглаживания (например, [1 1]/2 или [1 3 3 1]/8). Это уменьшает чувствительность к отдельным пикселам. В некоторых примерах, изображение может прореживаться до меньшего размера (например, до половины размера) после фильтрации. В других реализациях, этап 202 может опускаться, и процесс полудинамического формирования метаданных может переходить непосредственно от этапа 201 к этапу 203. На этапе 203, начальные значения L1mid вычисляются (например, на покадровой основе). Например, L1mid может представлять среднее значение максимальной RGB-яркости. Другими словами, L1mid может представлять среднее значение максимума значений R, G, B цветовых компонентов для каждого пиксела. Значения L1min и L1max не вычисляются из контента, вместо этого, на этапе 204 используются фиксированные значения, которые соответствуют минимально и максимально допустимому диапазону контента изображений, как представлено в L0-метаданных (например, Level0.Smin и Level0.Smax). Например, L1mid может представлять среднее значение яркости значений Y-компонента, когда используется YCbCr-представление.[0050] As illustrated in FIG. 2, the semi-dynamic metadata generation process may begin at step 201, where the video signal is converted to a predefined format (eg, a specific EOTF). For example, the video signal may be converted from hybrid log-gamma (HLG) or SLOG-3 HDR to perceptual RGB quantizer (PQ)-based HDR, for example, as described in Rec. ITU-R BT.2100-1 (06/2017). In some implementations, at step 202, spatial smoothing and/or subsampling may be applied. Step 202 may be implemented using a two-dimensional smoothing kernel (eg, [1 1]/2 or [1 3 3 1]/8). This reduces sensitivity to individual pixels. In some examples, the image may be downsized to a smaller size (eg, half the size) after filtering. In other implementations, step 202 may be omitted, and the semi-dynamic metadata generation process may proceed directly from step 201 to step 203. At step 203, initial L1mid values are calculated (eg, on a frame-by-frame basis). For example, L1mid may represent the average value of the maximum RGB brightness. In other words, L1mid may represent the average value of the maximum of the R, G, B color component values for each pixel. The L1min and L1max values are not calculated from the content; instead, at step 204, fixed values are used that correspond to the minimum and maximum allowable range of image content as represented in the L0 metadata (eg, Level0.Smin and Level0.Smax). For example, L1mid may represent the average brightness value of the Y component values when the YCbCr representation is used.

[0051] В качестве одного конкретного примера этапов по фиг. 2, следующий псевдокод представляется с использованием MATLAB-формата:[0051] As one specific example of the steps of FIG. 2, the following pseudocode is represented using MATLAB format:

% Преобразование в PQ (пример этапа 201)
if strcmpi(SEOTF,'HLG')
imPQ=L2PQ(HLG2L(im, SMax,Smin));
else
imPQ=im;
end
% Субдискретизация на 50% (пример этапа 202)
imPQHalf=Half(imPQ);
% Вычисление метаданных в расчете на пиксел (пример этапа 203, 204)
maxRGB=max(imPQHalf, [],3);
L1Min=L2PQ(MD{n}.Level0.Smin);
L1Mid=mean(MAXRGB(:));
L1Max=L2PQ(MD{n}.Level0.Smax);% Conversion to PQ (example step 201)
if strcmpi(SEOTF,'HLG')
imPQ=L2PQ(HLG2L(im, SMax,Smin));
else
imPQ=im;
end
% Downsample by 50% (example step 202)
imPQHalf=Half(imPQ);
% Compute metadata per pixel (example step 203, 204)
maxRGB=max(imPQHalf, [],3);
L1Min=L2PQ(MD{n}.Level0.Smin);
L1Mid=mean(MAXRGB(:));
L1Max=L2PQ(MD{n}.Level0.Smax);

[0052] Фиг. 3 иллюстрирует примерный вывод вышеуказанных этапов для метаданных, соответствующих значениям "сминание", "середина" и "клип". Каждый график иллюстрирует нормализованный сигнал яркости в качестве функции номера кадра. Линии 310_min, 310_mid и 310_max иллюстрируют минимальные, средние и максимальные значения яркости данного кадра, соответственно. Линии 320_min, 320_mid и 320_max иллюстрируют значения L1min, L1mid и L1max для данного кадра.[0052] FIG. 3 illustrates an example output of the above steps for metadata corresponding to the values "crease", "middle" and "clip". Each plot illustrates the normalized luminance signal as a function of frame number. The lines 310 _min , 310 _mid and 310 _max illustrate the minimum, average and maximum brightness values of a given frame, respectively. The 320 _min , 320 _mid and 320 _max lines illustrate the L1min, L1mid and L1max values for a given frame.

[0053] Поскольку L1min и L1max задаются равными значениям L0min и L0max, соответственно, значения метаданных "сминание" и "клип" не совпадают строго с фактическими значениями яркости для всех кадров. В конкретном примере, проиллюстрированном на фиг. 3, минимальное значение яркости в расчете на кадр (линия 310_min) варьируется приблизительно между 0,01 и 0.48, тогда как значение L1min (линия 320_min) задается равным приблизительно 0. Максимальное значение яркости в расчете на кадр (линия 310_max) варьируется приблизительно между 0,53 и 0,82, тогда как значение L1max (линия 320max) задается равным приблизительно 0,82. Тем не менее, поскольку L1mid определяется посредством динамического значения, значение метаданных "середина" близко совпадает с фактическим значением яркости для всех кадров. Как проиллюстрировано на фиг. 3, среднее значение яркости в расчете на кадр (линия 310_mid) и значение L1mid (линия 320_mid) имеют высокое соответствие.[0053] Since L1min and L1max are set equal to the values of L0min and L0max, respectively, the crease and clip metadata values do not strictly match the actual luminance values for all frames. In the specific example illustrated in FIG. 3, the minimum luminance value per frame (line 310 _min ) varies between approximately 0.01 and 0.48, while the value L1min (line 320 _min ) is set to approximately 0. The maximum luminance value per frame (line 310 _max ) varies between approximately 0.53 and 0.82, while the L1max value (line 320max) is set to approximately 0.82. However, since L1mid is determined by a dynamic value, the "mid" metadata value closely matches the actual brightness value for all frames. As illustrated in FIG. 3, the average brightness value per frame (310 _mid line) and the L1mid value (320 _mid line) have a high agreement.

[0054] Полудинамическое формирование метаданных требует обработки только одного кадра. Этот способ приводит к высокой эффективности; тем не менее, как видно из фиг. 3, использование статических значений для значений метаданных "сминание" и "клип" приводит к немного более низкой контрастности преобразованного изображения для изображений, которые не используют полный динамический диапазон контейнера.[0054] Semi-dynamic metadata generation requires processing of only one frame. This method results in high efficiency; however, as can be seen from FIG. 3, Using static values for the "crease" and "clip" metadata values results in slightly lower converted image contrast for images that do not use the full dynamic range of the container.

[0055] Динамическое формирование метаданных [0055] Dynamic generation of metadata

[0056] Метаданные формирования изображений могут формироваться с использованием "динамического" способа, пример которого проиллюстрирован на фиг. 4. Этапы, проиллюстрированные на фиг. 4, могут выполняться автоматически с помощью аппаратных средств, программного обеспечения, микропрограммного обеспечения либо комбинаций вышеозначенного, ассоциированных с блоком 103 постпроизводства по фиг. 1.[0056] Imaging metadata may be generated using a "dynamic" method, an example of which is illustrated in FIG. 4. The steps illustrated in FIG. 4 may be performed automatically by hardware, software, firmware, or combinations thereof associated with post-production unit 103 of FIG. 1.

[0057] Как проиллюстрировано на фиг. 4, процесс динамического формирования метаданных может начинаться на этапе 401, на котором видеосигнал преобразуется в предварительно определенный формат (например, конкретную EOTF). Например, видеосигнал может преобразовываться из HLG или SLOG-3 HDR в RGB PQ HDR, например, как описано в Rec. ITU-R BT.2100-1 (06/2017). В некоторых реализациях, на этапе 402, могут применяться пространственное сглаживание и/или субдискретизация. Этап 402 может реализовываться с использованием ядра двумерного сглаживания (например, [1 1]/2 или [1 3 3 1]/8). Это уменьшает чувствительность к отдельным пикселам. В некоторых примерах, изображение может прореживаться до меньшего размера (например, до половины размера) после фильтрации. В других реализациях, этап 402 может опускаться, и процесс полудинамического формирования метаданных может переходить непосредственно от этапа 401 к этапу 403. На этапе 403, начальные значения L1min, L1mid и L1max вычисляются (например, на покадровой основе). Например, L1min может представлять минимальное значение RGB-яркости, L1mid может представлять среднее значение максимальной RGB-яркости, и L1max может представлять максимальное значение RGB-яркости.[0057] As illustrated in FIG. 4, the dynamic metadata generation process may begin at step 401, where the video signal is converted to a predefined format (eg, a specific EOTF). For example, the video signal may be converted from HLG or SLOG-3 HDR to RGB PQ HDR, for example, as described in Rec. ITU-R BT.2100-1 (06/2017). In some implementations, at block 402, spatial smoothing and/or subsampling may be applied. Step 402 may be implemented using a two-dimensional smoothing kernel (eg, [1 1]/2 or [1 3 3 1]/8). This reduces sensitivity to individual pixels. In some examples, the image may be downsized to a smaller size (eg, half the size) after filtering. In other implementations, step 402 may be omitted, and the semi-dynamic metadata generation process may proceed directly from step 401 to step 403. At step 403, the initial values L1min, L1mid and L1max are calculated (eg, on a frame-by-frame basis). For example, L1min may represent a minimum RGB brightness value, L1mid may represent an average of a maximum RGB brightness value, and L1max may represent a maximum RGB brightness value.

[0058] Затем, на этапе 404, значения L1min и L1max повторно вычисляются с использованием динамических значений для данного снимка или сцены. Например, каждый кадр снимка или сцены может анализироваться, чтобы определять минимальную и максимальную RGB-яркость для данного снимка или сцены. На этапе 405, значения L1min и L1max повторно вычисляются с использованием значения, которое соответствует минимуму и максимуму для всего "клипа", определенным на этапе 404. По сравнению с полудинамическим способом, описанным выше, динамический способ может более близко соответствовать данным изображений, поскольку L1min и L1max определяются относительно фактической минимальной и максимальной RGB-яркости контента, а не допустимой (т.е. возможной) минимальной и максимальной RGB-яркости контента.[0058] Then, at step 404, the L1min and L1max values are recalculated using the dynamic values for the given shot or scene. For example, each frame of a photo or scene can be analyzed to determine the minimum and maximum RGB brightness for that photo or scene. At step 405, the L1min and L1max values are recalculated using the value that corresponds to the minimum and maximum for the entire “clip” determined at step 404. Compared to the semi-dynamic method described above, the dynamic method can more closely match the image data because L1min and L1max are determined relative to the actual minimum and maximum RGB luminance of the content, rather than the permissible (i.e., possible) minimum and maximum RGB luminance of the content.

[0059] В качестве одного конкретного примера этапов по фиг. 4, следующий псевдокод представляется с использованием MATLAB-формата:[0059] As one specific example of the steps of FIG. 4, the following pseudocode is represented using MATLAB format:

% Преобразование в PQ (пример этапа 401)
if strcmpi(SEOTF,'HLG')
imPQ=L2PQ(HLG2L(im, SMax,Smin));
else
imPQ=im;
end
% Субдискретизация на 50% (пример этапа 402)
imPQHalf=Half(imPQ);
% Вычисление метаданных в расчете на пиксел (пример этапа 403)
maxRGB=max(imPQHalf, [],3);
L1Min=min(imPQHalf(:));
L1Mid=mean(MAXRGB(:));
L1Max=max(imPQHalf(:));
% Определение минимума и максимума всего "клипа" (пример этапа 404)
minPQ=1;
maxPQ=0;
for n=1:N
if L1Min(n)<minPQ
minPQ=L1Min(n)
end
if L1Max(n)>maxPQ
maxPQ=L1Max(n)
end
end
% Обновление динамических метаданных (пример этапа 405)
for n=1:N
fprintf ("Обновление метаданных для кадра%d%d/n", n, N);
NewMinF(n)=minPQ;
NewMidF(n)=L1Mid(n);
NewMaxF(n)=maxPQ;
end% Convert to PQ (example step 401)
if strcmpi(SEOTF,'HLG')
imPQ=L2PQ(HLG2L(im, SMax,Smin));
else
imPQ=im;
end
% Downsample by 50% (example step 402)
imPQHalf=Half(imPQ);
% Compute metadata per pixel (example step 403)
maxRGB=max(imPQHalf, [],3);
L1Min=min(imPQHalf(:));
L1Mid=mean(MAXRGB(:));
L1Max=max(imPQHalf(:));
% Determine the minimum and maximum of the entire "clip" (example step 404)
minPQ=1;
maxPQ=0;
for n=1:N
if L1Min(n)<minPQ
minPQ=L1Min(n)
end
if L1Max(n)>maxPQ
maxPQ=L1Max(n)
end
end
% Update dynamic metadata (example step 405)
for n=1:N
fprintf("Updating metadata for frame%d%d/n", n, N);
NewMinF(n)=minPQ;
NewMidF(n)=L1Mid(n);
NewMaxF(n)=maxPQ;
end

[0060]а[0060]a

Фиг. 5 иллюстрирует примерный вывод вышеуказанных этапов для метаданных, соответствующих вышеуказанным этапам для метаданных, соответствующих значениям "сминание", "середина" и "клип". Каждый график иллюстрирует нормализованный сигнал яркости в качестве функции номера кадра. Линии 510_min, 510_mid и 510_max иллюстрируют минимальные, средние и максимальные значения яркости данного кадра, соответственно. Линии 520_min, 520_mid и 520_max иллюстрируют значения L1min, L1mid и L1max для данного кадра.Fig. 5 illustrates an exemplary output of the above steps for metadata corresponding to the above steps for metadata corresponding to the values "wrinkle", "middle" and "clip". Each plot illustrates the normalized luminance signal as a function of frame number. The lines 510 _min , 510 _mid and 510 _max illustrate the minimum, average and maximum brightness values of a given frame, respectively. The lines 520 _min , 520 _mid and 520 _max illustrate the values of L1min, L1mid and L1max for a given frame.

[0061] Поскольку L1min и L1max задаются равными минимальным значениям для всего кадра клипа, значения метаданных "сминание" и "клип" не совпадают строго с фактическими значениями яркости для всех кадров. Тем не менее, по сравнению с полудинамическим способом, описанным выше, значения метаданных "сминание" и "клип" более близко совпадают с фактическими значениями яркости. В конкретном примере, проиллюстрированном на фиг. 5, минимальное значение яркости в расчете на кадр (линия 510_min) варьируется приблизительно между 0,02 и 0.48, тогда как значение L1min (линия 510_min) задается равным приблизительно 0,02. Для сравнения, в полудинамическом способе, как проиллюстрировано на фиг. 3, значение L1min (линия 310_min) задано равным 0. Максимальное значение яркости в расчете на кадр (линия 510_max) варьируется приблизительно между 0,53 и 0,82, тогда как значение L1max (линия 520max) задается равным приблизительно 0,82. Как описано выше, поскольку L1mid определяется посредством динамического значения, значение метаданных "середина" близко совпадает с фактическим значением яркости для всех кадров. Как проиллюстрировано на фиг. 5, среднее значение яркости в расчете на кадр (линия 510_mid) и значение L1mid (линия 520_mid) имеют высокое соответствие.[0061] Because L1min and L1max are set to the minimum values for the entire frame of the clip, the crease and clip metadata values do not strictly match the actual luminance values for all frames. However, compared to the semi-dynamic method described above, the crease and clip metadata values more closely match the actual brightness values. In the specific example illustrated in FIG. 5, the minimum luminance value per frame (510 _min line) varies between approximately 0.02 and 0.48, while the L1min value (510 _min line) is set to approximately 0.02. In comparison, in the semi-dynamic method as illustrated in FIG. 3, the L1min value (line 310 _min ) is set to 0. The maximum luminance value per frame (line 510 _max ) varies between approximately 0.53 and 0.82, while the value L1max (line 520max) is set to approximately 0.82 . As described above, since L1mid is determined by a dynamic value, the "mid" metadata value closely matches the actual brightness value for all frames. As illustrated in FIG. 5, the average brightness value per frame (510 _mid line) and the L1mid value (520 _mid line) have a high agreement.

[0062] Динамическое формирование метаданных требует обработки всех кадров в данном снимке или сцене и в силу этого может приводить к более высоким требованиям по объему вычислений по сравнению с полудинамическим формированием метаданных. Тем не менее, как видно из фиг. 5, использование динамических значений для значений метаданных "сминание" и "клип" не страдает от идентичного типа снижения контрастности преобразованных изображений для изображений, которые не используют полный динамический диапазон контейнера.[0062] Dynamic metadata generation requires processing of all frames in a given picture or scene and may therefore result in higher computational requirements than semi-dynamic metadata generation. However, as can be seen from FIG. 5, the use of dynamic values for the "crease" and "clip" metadata values does not suffer from the same type of contrast reduction in the converted images for images that do not use the full dynamic range of the container.

[0063] Оконное формирование FIR-метаданных [0063] Windowing FIR metadata

[0064] Метаданные формирования изображений могут формироваться с использованием "оконного" способа, пример которого проиллюстрирован на фиг. 6. Этапы, проиллюстрированные на фиг. 6, могут выполняться автоматически с помощью аппаратных средств, программного обеспечения, микропрограммного обеспечения либо комбинаций вышеозначенного, ассоциированных с блоком 103 постпроизводства по фиг. 1.[0064] Imaging metadata may be generated using a windowing method, an example of which is illustrated in FIG. 6. The steps illustrated in FIG. 6 may be performed automatically by hardware, software, firmware, or combinations thereof associated with post-production unit 103 of FIG. 1.

[0065] Как проиллюстрировано на фиг. 6, процесс оконного формирования метаданных может начинаться на этапе 601, на котором AV-видеосигнал преобразуется в предварительно определенный формат (например, конкретную EOTF). Например, видеосигнал может преобразовываться из HLG или SLOG-3 HDR в RGB PQ HDR, например, как описано в Rec. ITU-R BT.2100-1 (06/2017). После этого, на этапе 602, применяются пространственное сглаживание и/или субдискретизация. Этап 402 может реализовываться с использованием ядра двумерного сглаживания (например, [1 1]/2 или [1 3 3 1]/8). Это уменьшает чувствительность к отдельным пикселам. В некоторых примерах, изображение может прореживаться до меньшего размера (например, до половины размера) после фильтрации. На этапе 603, начальные значения L1min, L1mid и L1max вычисляются (например, в расчете на пиксел). Например, L1min может представлять минимальное значение минимальной RGB-яркости, L1mid может представлять среднее значение максимальной RGB-яркости, и L1max может представлять максимальное значение максимальной RGB-яркости.[0065] As illustrated in FIG. 6, the metadata windowing process may begin at step 601, where the AV video signal is converted to a predefined format (eg, a specific EOTF). For example, the video signal may be converted from HLG or SLOG-3 HDR to RGB PQ HDR, for example, as described in Rec. ITU-R BT.2100-1 (06/2017). Thereafter, at step 602, spatial smoothing and/or subsampling is applied. Step 402 may be implemented using a two-dimensional smoothing kernel (eg, [1 1]/2 or [1 3 3 1]/8). This reduces sensitivity to individual pixels. In some examples, the image may be downsized to a smaller size (eg, half the size) after filtering. At step 603, the initial values L1min, L1mid and L1max are calculated (eg, per pixel). For example, L1min may represent the minimum value of the minimum RGB brightness, L1mid may represent the average value of the maximum RGB brightness, and L1max may represent the maximum value of the maximum RGB brightness.

[0066] Затем, на этапе 604, список кадров в скользящем окне (k) определяется. Это может указываться в качестве максимальной длины T во времени, умноженной на частоту кадров. Временное окно T (также называемое "временным окном") может быть конфигурируемым оператором. В некоторых примерах, временное окно T является конфигурируемым между 0,4 секундами и 8 секундами. В одном конкретном примере, временное окно T равно 4 секундам. Как подробнее описано ниже, конкретное значение временного окна T выбирается с возможностью балансировать временную стабильность и качество кинокадров; например, меньшие окна могут вводить определенную степень мерцания, тогда как большие окна могут приводить к более статическому процессу. Тем не менее, непосредственно окно имеет такую конфигурацию, в которой оно не пересекает быстрые переключения сцены и в силу этого ограничивается посредством первого и последнего кадра текущей сцены.[0066] Next, at step 604, a list of frames in the sliding window (k) is determined. This can be specified as the maximum length T in time multiplied by the frame rate. The time window T (also called a "time window") may be statement configurable. In some examples, the time window T is configurable between 0.4 seconds and 8 seconds. In one specific example, the time window T is 4 seconds. As discussed in more detail below, a particular time window value T is selected to balance temporal stability and quality of movie frames; for example, smaller windows may introduce a degree of flicker, while larger windows may result in a more static experience. However, the window itself is configured in such a way that it does not intersect fast scene switches and is therefore limited by the first and last frame of the current scene.

[0067] Этап 605 представляет собой первый проход, на котором вычисляются минимум и максимум окна. Например, для каждого кадра f в скользящем окне k, этап 605 может сглаживать метаданные с использованием ядра одномерного сглаживания, к примеру, [1 1]/2, [1 2 1]/4, [1 3 3 1]/8 или [1 3 8 3 1]/16, чтобы за счет этого получать сглаженные метаданные L1minS(f) и L1maxS(f). Это уменьшает чувствительность к отдельным кадрам. После этого, этап 605 может определять максимальный диапазон метаданных по скользящему окну k; например, посредством вычисления L1minM(f)=min(L1minS(k)) (т.е. минимально сглаженного минимального значения метаданных) и L1maxM(f)=max(L1max(S(k)) (т.е. максимально сглаженного максимального значения метаданных).[0067] Step 605 is the first pass where the minimum and maximum of the window are calculated. For example, for each frame f in sliding window k, step 605 may smooth the metadata using a one-dimensional smoothing kernel, for example, [1 1]/2, [1 2 1]/4, [1 3 3 1]/8, or [ 1 3 8 3 1]/16, in order to thereby obtain smoothed metadata L1minS(f) and L1maxS(f). This reduces sensitivity to individual frames. Thereafter, step 605 may determine the maximum metadata range over the sliding window k; for example, by calculating L1minM(f)=min(L1minS(k)) (i.e. the minimum smoothed minimum metadata value) and L1maxM(f)=max(L1max(S(k)) (i.e. the maximum smoothed maximum metadata values).

[0068] Этап 606 представляет собой второй проход, на котором сглаживаются минимум и максимум окна. Например, этап 606 может вычислять сглаживающий фильтр F в качестве гауссовой формы с L отводов и среднеквадратическим отклонением s=L/6 и затем для каждого кадра f в скользящем окне k может сглаживать фильтрованные метаданные, вычисленные на этапе 605, с помощью сглаживающего фильтра F, чтобы получать сглаженные и фильтрованные значения L1minF и L1maxF метаданных. Этап 606 также может, для каждого кадра f, задавать L1min и L1max равными сглаженным и фильтрованным значениям метаданных и задавать L1mid равным своему начальному значению, определенному на этапе 603.[0068] Step 606 is a second pass in which the minimum and maximum of the window are smoothed. For example, block 606 may compute a smoothing filter F as a Gaussian with L taps and standard deviation s=L/6 and then, for each frame f in the sliding window k, smooth the filtered metadata computed at block 605 using the smoothing filter F. to obtain smoothed and filtered L1minF and L1maxF metadata values. Step 606 may also, for each frame f, set L1min and L1max equal to the smoothed and filtered metadata values and set L1mid equal to its initial value determined at step 603.

[0069] Поскольку этапы 605 и 606 применяются к скользящему окну кадров, этапы 604, 605 и 606 могут повторяться таким образом, что все возможные окна в данной сцене обрабатываются.[0069] Since steps 605 and 606 apply to a sliding window of frames, steps 604, 605 and 606 may be repeated such that all possible windows in a given scene are processed.

[0070] В качестве одного конкретного примера этапов по фиг. 6, следующий псевдокод представляется с использованием MATLAB-формата:[0070] As one specific example of the steps of FIG. 6, the following pseudocode is represented using MATLAB format:

% Преобразование в PQ (пример этапа 601)
if strcmpi(SEOTF,'HLG')
imPQ=L2PQ(HLG2L(im, SMax,Smin));
else
imPQ=im;
end
% Субдискретизация на 50% (пример этапа 602)
imPQHalf=Half(imPQ);
% Вычисление метаданных в расчете на пиксел (пример этапа 603)
maxRGB=max(imPQHalf, [],3);
L1Min=min(imPQHalf(:));
L1Mid=mean(MAXRGB(:));
L1Max=max(imPQHalf(:));
% Модификация для оконных метаданных (пример этапов 604, 605)
for n=1:N
fprintf ("Обновление метаданных для кадра%d%d/n", n, N);
% Извлечение локального окна (пример этапа 604)
kmin=n-FIRWindow/2;
kmax=n+FIRwindow/2;
klastscenecut=SceneCuts(find(n>=SceneCuts,1,'last'));
kmin=max(kmin, klastscenecut);
knextscenecut=SceneCuts(find(n<SceneCuts,1,'first'));
if ~isempty(knextscenecut)
kmax=min(kmax, knextscenecut-1);
end
%Вычисление середины и максимума сцены (пример этапа 605)
padding=[[1 1]*k(1) k[1 1]*k(end)];
L1MinF=conv(L1Min(padding), [1 3 8 3 1]/16,'valid');
L1MaxF=conv(L1Max(padding), [1 3 8 3 1]/16,'valid');
WindowedMin(n)=min(L1MinF);
WindowedMax(n)=max(L1MaxF);
end
% Сглаживание (примерный этап 606)
for n=1:N
fprintf ("Обновление метаданных для кадра%d%d/n", n, N);
% Извлечение локального окна (пример этапа 604)
kmin=n-FIRWindow/2;
kmax=n+FIRwindow/2;
klastscenecut=SceneCuts(find(n>=SceneCuts,1,'last'));
kmin=max(kmin, klastscenecut);
knextscenecut=SceneCuts(find(n<SceneCuts,1,'first'));
if ~isempty(knextscenecut)
kmax=min(kmax, knextscenecut-1);
end
% Фильтрация (пример этапа 605)
H=exp(-(k-n).hathathat2/(2*(1/6*FIRWindow)hathathat2))';
H=H/sum(H);
NewMinF(n)=WindowedMin(k)*H;
NewMidF(n)=L1Mid(n);
NewMaxF(n)=WindowedMax(k)*H;
end% Convert to PQ (example step 601)
if strcmpi(SEOTF,'HLG')
imPQ=L2PQ(HLG2L(im, SMax,Smin));
else
imPQ=im;
end
% Downsample by 50% (example step 602)
imPQHalf=Half(imPQ);
% Calculate metadata per pixel (example step 603)
maxRGB=max(imPQHalf, [],3);
L1Min=min(imPQHalf(:));
L1Mid=mean(MAXRGB(:));
L1Max=max(imPQHalf(:));
% Modification for window metadata (example steps 604, 605)
for n=1:N
fprintf("Updating metadata for frame%d%d/n", n, N);
% Retrieve local window (example step 604)
kmin=n-FIRWindow/2;
kmax=n+FIRwindow/2;
klastscenecut=SceneCuts(find(n>=SceneCuts,1,'last'));
kmin=max(kmin, klastscenecut);
knextscenecut=SceneCuts(find(n<SceneCuts,1,'first'));
if ~isempty(knextscenecut)
kmax=min(kmax, knextscenecut-1);
end
%Calculate the middle and maximum of the scene (example step 605)
padding=[[1 1]*k(1) k[1 1]*k(end)];
L1MinF=conv(L1Min(padding), [1 3 8 3 1]/16,'valid');
L1MaxF=conv(L1Max(padding), [1 3 8 3 1]/16,'valid');
WindowedMin(n)=min(L1MinF);
WindowedMax(n)=max(L1MaxF);
end
% Smoothing (example step 606)
for n=1:N
fprintf("Updating metadata for frame%d%d/n", n, N);
% Retrieve local window (example step 604)
kmin=n-FIRWindow/2;
kmax=n+FIRwindow/2;
klastscenecut=SceneCuts(find(n>=SceneCuts,1,'last'));
kmin=max(kmin, klastscenecut);
knextscenecut=SceneCuts(find(n<SceneCuts,1,'first'));
if ~isempty(knextscenecut)
kmax=min(kmax, knextscenecut-1);
end
% Filtering (example step 605)
H=exp(-(kn).hathathat2/(2*(1/6*FIRWindow)hathathat2))';
H=H/sum(H);
NewMinF(n)=WindowedMin(k)*H;
NewMidF(n)=L1Mid(n);
NewMaxF(n)=WindowedMax(k)*H;
end

[0071] Фиг. 7A-7C иллюстрируют примерный вывод вышеуказанных этапов для метаданных, соответствующих значениям "сминание", "середина" и "клип" для различных длин окна. Каждый график иллюстрирует нормализованный сигнал яркости в качестве функции номера кадра. На каждом из фиг. 7A-7C, линии 710_min, 710_mid и 710_max иллюстрируют минимальные, средние и максимальные значения яркости данного кадра, соответственно. На фиг. 7A, линии 721_min, 721_mid и 721_max иллюстрируют значения L1min, L1mid, L1max для данного кадра, вычисленные согласно вышеописанным способам с длиной T окна в 1 секунду. На фиг. 7B, линии 722_min, 722_mid и 722_max иллюстрируют значения L1min, L1mid, L1max для данного кадра, вычисленные согласно вышеописанным способам с длиной T окна в 4 секунды. На фиг. 7C, линии 723_min, 723_mid и 723_max иллюстрируют значения L1min, L1mid, L1max для данного кадра, вычисленные согласно вышеописанным способам с длиной T окна в 8 секунд.[0071] FIG. 7A-7C illustrate an example output of the above steps for metadata corresponding to the values of "crease", "middle" and "clip" for various window lengths. Each plot illustrates the normalized luminance signal as a function of frame number. In each of FIG. 7A-7C, lines 710 _min , 710 _mid and 710 _max illustrate the minimum, average and maximum luminance values of a given frame, respectively. In fig. 7A, lines 721 _min , 721 _mid and 721 _max illustrate the values of L1min, L1mid, L1max for a given frame, calculated according to the methods described above with a window length T of 1 second. In fig. 7B, lines 722 _min , 722 _mid and 722 _max illustrate the values of L1min, L1mid, L1max for a given frame, calculated according to the methods described above with a window length T of 4 seconds. In fig. 7C, lines 723 _min , 723 _mid and 723 _max illustrate the values of L1min, L1mid, L1max for a given frame, calculated according to the methods described above with a window length T of 8 seconds.

[0072] Посредством сравнения фиг. 7A-7C друг с другом, можно видеть, что меньшие длины окна приводят к увеличенному качеству кинокадров (например, линия 721_max более близко отслеживает линию 710_max); тем не менее, более длинные длины окна приводят к повышенной временной стабильности (например, линия 723_max демонстрирует большую степень вариабильности). В одной конкретной реализации настоящего раскрытия сущности, длина окна предпочтительно составляет 4 секунды, как проиллюстрировано на фиг. 7B.[0072] By comparing FIG. 7A-7C with each other, it can be seen that shorter window lengths result in increased quality of movie frames (eg, _max line 721 more closely tracks _max line 710); however, longer window lengths result in increased temporal stability (e.g., the 723 _max line exhibits a greater degree of variability). In one particular implementation of the present disclosure, the window length is preferably 4 seconds, as illustrated in FIG. 7B.

[0073] Оконное формирование метаданных формирует метаданные, которые представляют собой наружную огибающую "сминание" и "клип" скользящего окна. По сравнению с полудинамическим формированием метаданных, оно требует большего числа кадров для вычисления, но является конечным по числу кадров, требуемых для того, чтобы вычислять метаданные для любого одного кадра, в отличие от сравнительных способов, описанных выше. Посредством применения фильтра дважды последовательно, результирующий фильтр по существу утраивает длину указанного окна. Последовательные операции могут комбинироваться в одну операцию или поток, например, с использованием псевдокода, проиллюстрированного выше.[0073] Metadata windowing generates metadata that is the outer "crease" and "clip" envelope of a sliding window. Compared to semi-dynamic metadata generation, it requires more frames to compute, but is finite in the number of frames required to compute metadata for any one frame, unlike the comparative methods described above. By applying the filter twice in succession, the resulting filter essentially triples the length of the specified window. Sequential operations can be combined into a single operation or thread, for example using the pseudocode illustrated above.

[0074] Примерная реализация компьютерной системы [0074] Exemplary Computer System Implementation

[0075] Различные аспекты настоящего раскрытия сущности могут реализовываться с помощью компьютерной системы, систем, сконфигурированных в электронных схемах и компонентах, устройства на интегральных схемах (IC), такого как микроконтроллер, FPGA либо другого конфигурируемого программируемого логического устройства (PLD), дискретной временной схемы или процессора цифровых сигналов (DSP), ASIC и/или оборудования, которое включает в себя одну или более таких систем, устройств и компонентов. Компьютер и/или IC могут выполнять, управлять или выполнять инструкции, относящиеся к вышеописанным процессам и операциям. Компьютер и/или IC могут вычислять любое множество параметров или значений, которые относятся к вышеописанным процессам и операциям.[0075] Various aspects of the present disclosure may be implemented by a computer system, systems configured in electronic circuits and components, an integrated circuit (IC) device such as a microcontroller, FPGA or other configurable programmable logic device (PLD), discrete timing circuit or a digital signal processor (DSP), ASIC and/or hardware that includes one or more such systems, devices and components. The computer and/or IC may execute, control, or carry out instructions related to the above-described processes and operations. The computer and/or IC may calculate any variety of parameters or values that relate to the processes and operations described above.

[0076] Фиг. 8 иллюстрирует один пример компьютерной системы 800, в которой могут реализовываться один или более аспектов настоящего раскрытия сущности. Как проиллюстрировано, компьютерная система 800 включает в себя шину 801 или другой механизм связи для передачи информации и аппаратный процессор 802, соединенный с шиной 801 для обработки информации. Процессор 802, например, может представлять собой микропроцессор общего назначения.[0076] FIG. 8 illustrates one example of a computer system 800 in which one or more aspects of the present disclosure may be implemented. As illustrated, computer system 800 includes a bus 801 or other communication mechanism for transmitting information and a hardware processor 802 coupled to bus 801 for processing the information. Processor 802, for example, may be a general purpose microprocessor.

[0077] Компьютерная система 800 также включает в себя основное запоминающее устройство 803, такое как оперативное запоминающее устройство (RAM) или другое устройство динамического хранения данных, соединенное с шиной 801 для сохранения информации и инструкций, которые должны выполняться посредством процессора 802. Основное запоминающее устройство 803 также может использоваться для сохранения временных переменных или другой промежуточной информации во время выполнения инструкций, которые должны выполняться посредством процессора 802. Такие инструкции, когда сохраняются на энергонезависимых носителях хранения данных, доступных для процессора 802, превращают компьютерную систему 800 в машину специального назначения, которая индивидуально настраивается с возможностью выполнять операции, указываемые в инструкциях.[0077] The computer system 800 also includes a main storage device 803, such as random access memory (RAM) or other dynamic storage device, coupled to the bus 801 for storing information and instructions to be executed by the processor 802. Main storage device 803 may also be used to store temporary variables or other intermediate information during the execution of instructions to be executed by the processor 802. Such instructions, when stored on non-volatile storage media accessible to the processor 802, make the computer system 800 a special purpose machine that individually configured with the ability to perform operations specified in the instructions.

[0078] Компьютерная система 800 дополнительно включает в себя постоянное запоминающее устройство 804 (ROM) или другое устройство статического хранения данных, соединенное с шиной 801 для сохранения статической информации и инструкций для процессора 802. Устройство 805 хранения данных, такое как магнитный диск или оптический диск, может предоставляться и соединяться с шиной 801 для сохранения информации и инструкций. Компьютерная система 800 может соединяться через шину 801 с дисплеем 811, таким как жидкокристаллический дисплей, для отображения информации пользователю компьютера. Устройство 812 ввода, включающее в себя буквенно-цифровые и другие клавиши, соединяется с шиной 801 для передачи информации и выборов команд в процессор 802. Компьютерная система 800 дополнительно может соединяться через шину 801 со средством 813 управления курсором, таким как мышь, шаровой манипулятор или клавиши управления курсором, для передачи информации направления и выборов команд в процессор 802 и для управления перемещением курсора на дисплее 811.[0078] The computer system 800 further includes a read-only memory (ROM) 804 or other static data storage device coupled to a bus 801 for storing static information and instructions for the processor 802. A data storage device 805, such as a magnetic disk or an optical disk , can be provided and connected to the 801 bus to store information and instructions. The computer system 800 may couple via a bus 801 to a display 811, such as a liquid crystal display, to display information to a computer user. An input device 812, including alphanumeric and other keys, is coupled to a bus 801 to transmit information and command selections to the processor 802. The computer system 800 may further be coupled via the bus 801 to a cursor control means 813, such as a mouse, trackball, or cursor control keys for transmitting directional information and command selections to processor 802 and for controlling cursor movement on display 811.

[0079] Компьютерная система 800 может реализовывать технологии, описанные в данном документе, с использованием настраиваемой аппаратно-реализованной логики, одной или более ASIC или FPGA, микропрограммного обеспечения и/или программной логики, которая в комбинации с компьютерной системой инструктирует или программирует компьютерную систему 800 таким образом, что она представляет собой машину специального назначения. Согласно одному варианту осуществления, технологии, описанные в данном документе, выполняются посредством компьютерной системы 800 в ответ на выполнение, посредством процессора 802, одной или более последовательностей из одной или более инструкций, содержащихся в основном запоминающем устройстве 803. Такие инструкции могут считываться в основное запоминающее устройство 803 из другого носителя хранения данных, к примеру, из устройства 805 хранения данных. Выполнение последовательностей инструкций, содержащихся в основном запоминающем устройстве 803, инструктирует процессору 802 выполнять этапы процесса, описанные в данном документе. В альтернативных вариантах осуществления, аппаратно-реализованная схема может использоваться вместо или в комбинации с программными инструкциями.[0079] The computer system 800 may implement the technologies described herein using custom hardware-based logic, one or more ASICs or FPGAs, firmware, and/or software logic that, in combination with the computer system, instructs or programs the computer system 800 in such a way that it is a special purpose machine. According to one embodiment, the technologies described herein are performed by the computer system 800 in response to the execution, by the processor 802, of one or more sequences of one or more instructions contained in the main storage device 803. Such instructions may be read into the main storage device. device 803 from another storage medium, for example, from storage device 805. Execution of the sequences of instructions contained in the main storage device 803 instructs the processor 802 to carry out the process steps described herein. In alternative embodiments, hardware-implemented circuitry may be used instead of or in combination with software instructions.

[0080] Термин "носители хранения данных" при использовании в данном документе означает любые энергонезависимые носители, которые сохраняют данные и/или инструкции, которые инструктируют машине работать конкретным способом. Такие носители хранения данных могут содержать энергонезависимые носители и/или энергозависимые носители. Энергонезависимые носители включают в себя, например, оптические или магнитные диски, такие как устройство 805 хранения данных. Энергозависимые носители включают в себя динамическое запоминающее устройство, такое как основное запоминающее устройство 803. Общие формы носителей хранения данных включают в себя, например, гибкий диск, дискету, жесткий диск, полупроводниковый накопитель, магнитную ленту или любой другой магнитный носитель хранения данных, CD-ROM, любой другой оптический носитель хранения данных, любой физический носитель с шаблонами отверстий, RAM, PROM и EPROM, флэш-EPROM, NVRAM, любую другую микросхему или картридж запоминающего устройства.[0080] The term "storage media" as used herein means any non-volatile media that stores data and/or instructions that instruct a machine to operate in a particular manner. Such storage media may include non-volatile media and/or volatile media. Non-volatile media includes, for example, optical or magnetic disks, such as storage device 805. Volatile media includes dynamic storage media such as main storage device 803. Common forms of storage media include, for example, floppy disk, floppy disk, hard disk, semiconductor drive, magnetic tape or any other magnetic storage media, CD- ROM, any other optical storage media, any physical media with hole patterns, RAM, PROM and EPROM, flash EPROM, NVRAM, any other memory chip or cartridge.

[0081] Носители хранения данных являются отличающимися от, но могут использоваться в сочетании с передающими средами. Передающие среды участвуют в передаче информации между носителями хранения данных. Например, передающие среды включают в себя коаксиальные кабели, медный провод и оптоволокно, включающие в себя провода, которые содержат шину 801. Передающие среды также могут принимать форму акустических или световых волн, таких как волны, сформированные во время радиоволнового и инфракрасного обмена данными.[0081] Storage media are different from, but may be used in combination with, transmission media. Transmission media are involved in the transfer of information between storage media. For example, transmission media include coaxial cables, copper wire, and fiber optics, including wires that contain bus 801. Transmission media can also take the form of acoustic or light waves, such as those generated during radio wave and infrared communications.

[0082] Различные формы носителей могут быть предусмотрены в переносе одной или более последовательностей из одной или более инструкций в процессор 802 для выполнения. Например, инструкции могут первоначально переноситься на магнитном диске или на полупроводниковом накопителе удаленного компьютера. Удаленный компьютер может загружать инструкции в свое динамическое запоминающее устройство и отправлять инструкции по линии связи, такой как коаксиальный кабель, оптические волокна и т.д. Интерфейс 806 связи, локальный для компьютерной системы 800, может принимать данные по линии связи, и соответствующая схема может размещать данные по шине 801. Шина 801 переносит данные в основное запоминающее устройство 803, из которых процессор 802 извлекает и выполняет инструкции. Инструкции, принимаемые посредством основного запоминающего устройства 803, необязательно могут сохраняться на устройстве 805 хранения данных до или после выполнения посредством процессора 802.[0082] Various forms of media may be provided in carrying one or more sequences of one or more instructions to processor 802 for execution. For example, the instructions may initially be carried on a magnetic disk or on a semiconductor drive of a remote computer. The remote computer can load instructions into its dynamic storage device and send instructions over a communication line such as coaxial cable, optical fibers, etc. A communications interface 806 local to the computer system 800 may receive data over a communications link, and associated circuitry may place the data on a bus 801. The bus 801 carries data to main storage 803, from which processor 802 retrieves and executes instructions. Instructions received by main storage device 803 may optionally be stored on storage device 805 before or after execution by processor 802.

[0083] Интерфейс 806 связи предоставляет двунаправленное соединение для обмена данными с сетевой линией 821 связи, которая соединяется с локальной сетью 822. Например, интерфейс 806 связи может представлять собой карту по стандарту цифровой сети с интегрированными услугами (ISDN), кабельный модем, спутниковый модем или модем для того, чтобы предоставлять соединение для передачи данных с соответствующим типом телефонной линии. В качестве другого примера, интерфейс 806 связи может представлять собой карту локальной вычислительной сети (LAN), которая предоставляет соединение для передачи данных с совместимой LAN. Также могут реализовываться линии беспроводной связи. В любой такой реализации, интерфейс 806 связи отправляет и принимает электрические, электромагнитные или оптические сигналы, которые переносят потоки цифровых данных, представляющие различные типы информации.[0083] Communications interface 806 provides a bidirectional data connection to a network communications link 821 that connects to a local area network 822. For example, communications interface 806 may be an integrated services digital network (ISDN) card, a cable modem, a satellite modem or a modem to provide a data connection to the appropriate type of telephone line. As another example, communications interface 806 may be a local area network (LAN) card that provides a data connection to a compatible LAN. Wireless communication lines can also be implemented. In any such implementation, communications interface 806 sends and receives electrical, electromagnetic, or optical signals that carry digital data streams representing various types of information.

[0084] Сетевая линия 821 связи типично предоставляет обмен данными через одну или более сетей с другими устройствами передачи данных. Например, сетевая линия 821 связи может предоставлять соединение через локальную сеть 822 с хост-компьютером 823 или с оборудованием передачи данных, управляемым посредством поставщика 824 Интернет-услуг (ISP). ISP 824 в свою очередь предоставляет услуги обмена данными через всемирную сеть передачи пакетных данных, теперь обычно называемую "Интернетом 825". Локальная сеть 822 и Интернет 825 используют электрические, электромагнитные или оптические сигналы, которые переносят потоки цифровых данных. Сигналы через различные сети и сигналы в сетевой линии 821 связи и через интерфейс 806 связи, которые переносят цифровые данные в/из компьютерной системы 800, представляют собой примерные формы передающих сред.[0084] Network communication link 821 typically allows communication through one or more networks with other data communications devices. For example, the network link 821 may provide a connection through a local network 822 to a host computer 823 or to data communications equipment managed by an Internet service provider (ISP) 824 . ISP 824 in turn provides data services over the worldwide packet data network, now commonly referred to as "Internet 825". Local area network 822 and Internet 825 use electrical, electromagnetic, or optical signals that carry digital data streams. Signals through various networks and signals on network communication link 821 and communication interface 806 that carry digital data to/from computer system 800 are exemplary forms of transmission media.

[0085] Компьютерная система 800 может отправлять сообщения и принимать данные, включающие в себя программный код, через сеть(и), сетевую линию 821 связи и интерфейс 806 связи. В Интернет-примере, сервер 826 может передавать запрашиваемый код для прикладной программы через Интернет 825, ISP 824, локальную сеть 822 и интерфейс 806 связи. Принимаемый код может выполняться посредством процессора 802 по мере того, как он принимается, и/или сохраняться в устройстве 805 хранения данных или другом энергонезависимом устройстве хранения данных для последующего выполнения.[0085] The computer system 800 may send messages and receive data, including program code, through the network(s), network link 821, and communications interface 806. In the Internet example, server 826 may transmit requested code for an application program via Internet 825, ISP 824, local network 822, and communications interface 806. Received code may be executed by processor 802 as it is received and/or stored in storage device 805 or other non-volatile storage device for later execution.

[0086] Варианты применения и преимущества [0086] Applications and Benefits

[0087] Вышеприведенные аспекты настоящего раскрытия сущности могут предоставлять формирование метаданных, которые могут использоваться для того, чтобы предоставлять повышенное качество видео, повышенную временную стабильность, низкие требования по объему вычислений и уменьшенную задержку.[0087] The above aspects of the present disclosure can provide generation of metadata that can be used to provide increased video quality, increased temporal stability, low computational requirements, and reduced latency.

[0088] Системы, способы и устройства в соответствии с настоящим раскрытием сущности могут принимать любую одну или более следующих конфигураций.[0088] Systems, methods, and devices in accordance with the present disclosure may take any one or more of the following configurations.

[0089] (1) Способ редактирования видеоконтента, содержащий: прием входных видеоданных; преобразование входных видеоданных в предварительно определенный формат, чтобы за счет этого формировать преобразованные видеоданные; формирование множества начальных значений метаданных для кадра преобразованных видеоданных, причем множество начальных значений метаданных включают в себя первое значение метаданных, соответствующее первому фиксированному значению, не вычисленному из контента, включающего в себя кадр, второе значение метаданных, соответствующее среднему значению яркости кадра, и третье значение метаданных, соответствующее второму фиксированному значению, не вычисленному из контента, при этом первое значение метаданных, второе значение метаданных и третье значение метаданных включают в себя информацию, используемую посредством декодера для того, чтобы подготавливать посредством рендеринга декодированное изображение на дисплее.[0089] (1) A method for editing video content, comprising: receiving input video data; converting the input video data into a predetermined format to thereby generate converted video data; generating a plurality of initial metadata values for a frame of converted video data, the plurality of initial metadata values including a first metadata value corresponding to a first fixed value not calculated from content including the frame, a second metadata value corresponding to an average luminance value of the frame, and a third value metadata corresponding to a second fixed value not calculated from the content, wherein the first metadata value, the second metadata value and the third metadata value include information used by the decoder to prepare by rendering a decoded image on a display.

[0090] (2) Способ согласно (1), дополнительно содержащий применение операции пространственного сглаживания к преобразованным видеоданным до формирования множества начальных значений метаданных.[0090] (2) The method according to (1), further comprising applying a spatial smoothing operation to the transformed video data before generating a plurality of initial metadata values.

[0091] (3) Способ согласно (2), в котором применение операции пространственного сглаживания включает в себя субдискретизацию преобразованных видеоданных.[0091] (3) The method according to (2), wherein applying a spatial smoothing operation includes subsampling the converted video data.

[0092] (4) Способ согласно (2) или (3), в котором применение операции пространственного сглаживания включает в себя прореживание преобразованных видеоданных до меньшего размера.[0092] (4) The method according to (2) or (3), wherein applying a spatial smoothing operation includes decimating the converted video data to a smaller size.

[0093] (5) Способ согласно любому из (1)-(4), дополнительно содержащий: вывод распространяемых видеоданных, включающих в себя часть видеоданных, соответствующую кадру, первое значение метаданных, второе значение метаданных и третье значение метаданных.[0093] (5) The method according to any of (1) to (4), further comprising: outputting distributed video data including a portion of video data corresponding to a frame, a first metadata value, a second metadata value, and a third metadata value.

[0094] (6) Способ согласно любому из (1)-(5), в котором первое фиксированное значение соответствует минимально допустимому значению яркости контента, и второе фиксированное значение соответствует максимально допустимому значению яркости контента.[0094] (6) The method according to any of (1) to (5), wherein the first fixed value corresponds to the minimum permissible brightness value of the content, and the second fixed value corresponds to the maximum permissible brightness value of the content.

[0095] (7) Способ согласно любому из (1)-(6), в котором предварительно определенный формат представляет собой формат с расширенным динамическим диапазоном на основе перцепционного квантователя.[0095] (7) The method according to any of (1) to (6), wherein the predetermined format is a high dynamic range format based on a perceptual quantizer.

[0096] (8) Энергонезависимый машиночитаемый носитель, сохраняющий инструкции, которые, при выполнении посредством процессора компьютерной системы, инструктируют компьютерной системе выполнять операции, содержащие способ согласно любому из (1)-(7).[0096] (8) A non-transitory computer-readable medium storing instructions that, when executed by a computer system processor, instruct the computer system to perform operations comprising a method according to any of (1) to (7).

[0097] (9) Система редактирования видео, содержащая: запоминающее устройство; и процессор, выполненный с возможностью инструктировать системе редактирования видео: принимать входные видеоданные, преобразовывать входные видеоданные в предварительно определенный формат, чтобы за счет этого формировать преобразованные видеоданные, формировать множество начальных значений метаданных для кадра преобразованных видеоданных, причем множество начальных значений метаданных включают в себя первое значение метаданных, соответствующее первому фиксированному значению, не вычисленному из контента, включающего в себя кадр, второе значение метаданных, соответствующее среднему значению яркости кадра, и третье значение метаданных, соответствующее второму фиксированному значению, не вычисленному из контента.[0097] (9) A video editing system, comprising: a storage device; and a processor configured to instruct the video editing system to: receive input video data, convert the input video data into a predetermined format thereby generating converted video data, generate a plurality of initial metadata values for a frame of converted video data, the plurality of initial metadata values including the first a metadata value corresponding to a first fixed value not calculated from the content including the frame, a second metadata value corresponding to an average luminance value of the frame, and a third metadata value corresponding to a second fixed value not calculated from the content.

[0098] (10) Система редактирования видео согласно (9), в которой процессор выполнен с возможностью инструктировать системе редактирования видео: применять операцию пространственного сглаживания к преобразованным видеоданным до формирования множества начальных значений метаданных.[0098] (10) The video editing system according to (9), wherein the processor is configured to instruct the video editing system to: apply a spatial smoothing operation to the converted video data before generating a plurality of initial metadata values.

[0099] (11) Система редактирования видео согласно (10), в которой операция пространственного сглаживания включает в себя субдискретизацию преобразованных видеоданных.[0099] (11) The video editing system according to (10), in which the spatial smoothing operation includes downsampling the converted video data.

[0100] (12) Система редактирования видео согласно (10) или (11), в которой операция пространственного сглаживания включает в себя прореживание преобразованных видеоданных до меньшего размера.[0100] (12) The video editing system according to (10) or (11), in which the spatial smoothing operation includes decimating the converted video data to a smaller size.

[0101] (13) Система редактирования видео согласно любому из (9)-(12), в которой процессор выполнен с возможностью дополнительно инструктировать системе редактирования видео: выводить распространяемые видеоданные, включающие в себя часть видеоданных, соответствующую кадру, первое значение метаданных, второе значение метаданных и третье значение метаданных.[0101] (13) The video editing system according to any one of (9)-(12), wherein the processor is configured to further instruct the video editing system to: output distributed video data including a portion of video data corresponding to a frame, a first metadata value, a second a metadata value and a third metadata value.

[0102] (14) Система редактирования видео согласно любому из (9)-(13), в которой первое фиксированное значение соответствует минимально допустимому значению яркости контента, и второе фиксированное значение соответствует максимально допустимому значению яркости контента.[0102] (14) The video editing system according to any one of (9) to (13), wherein the first fixed value corresponds to the minimum permissible brightness value of the content, and the second fixed value corresponds to the maximum permissible brightness value of the content.

[0103] (15) Система редактирования видео согласно любому из (9)-(14), в которой предварительно определенный формат представляет собой формат с расширенным динамическим диапазоном на основе перцепционного квантователя.[0103] (15) The video editing system according to any one of (9) to (14), wherein the predetermined format is a high dynamic range format based on a perceptual quantizer.

[0104] (16) Способ редактирования видеоконтента, содержащий: прием входных видеоданных; преобразование входных видеоданных в предварительно определенный формат, чтобы за счет этого формировать преобразованные видеоданные; формирование первого значения метаданных для кадра преобразованных видеоданных, причем первое значение метаданных соответствует среднему значению яркости кадра; определение временного окна, включающего в себя кадр, причем временное окно имеет предварительно определенную длину во времени; вычисление максимального диапазона метаданных и минимального диапазона метаданных за временное окно, чтобы за счет этого формировать первое фильтрованное значение метаданных и второе фильтрованное значение метаданных; и сглаживание первого фильтрованного значения метаданных и второго фильтрованного значения метаданных, чтобы за счет этого формировать первое сглаженное и фильтрованное значение метаданных и второе сглаженное и фильтрованное значение метаданных.[0104] (16) A method for editing video content, comprising: receiving input video data; converting the input video data into a predetermined format to thereby generate converted video data; generating a first metadata value for a frame of converted video data, the first metadata value corresponding to an average brightness value of the frame; defining a time window including the frame, wherein the time window has a predetermined length in time; calculating a maximum metadata range and a minimum metadata range over a time window to thereby generate a first filtered metadata value and a second filtered metadata value; and smoothing the first filtered metadata value and the second filtered metadata value to thereby generate a first smoothed and filtered metadata value and a second smoothed and filtered metadata value.

[0105] (17) Способ согласно (16), в котором предварительно определенная длина во времени составляет четыре секунды.[0105] (17) The method according to (16), in which the predetermined length in time is four seconds.

[0106] (18) Способ согласно (16) или (17), в котором окно сконфигурировано таким образом, чтобы не пересекать быстрое переключение сцены во входных видеоданных.[0106] (18) The method according to (16) or (17), in which the window is configured so as not to intersect a fast scene switch in the input video data.

[0107] (19) Способ согласно любому из (16)-(18), дополнительно содержащий применение операции пространственного сглаживания к преобразованным видеоданным до формирования первого значения метаданных.[0107] (19) The method according to any of (16)-(18), further comprising applying a spatial smoothing operation to the transformed video data before generating the first metadata value.

[0108] (20) Энергонезависимый машиночитаемый носитель, сохраняющий инструкции, которые, при выполнении посредством процессора компьютерной системы, инструктируют компьютерной системе выполнять операции, содержащие способ согласно любому из (16)-(19).[0108] (20) A non-transitory computer-readable medium storing instructions that, when executed by a computer system processor, instruct the computer system to perform operations comprising a method according to any of (16)-(19).

[0109] Относительно процессов, систем, способов, эвристических процедур и т.д., описанных в данном документе, следует понимать, что хотя этапы таких процессов и т.д. описаны как осуществляемые согласно некоторой упорядоченной последовательности, такие процессы могут осуществляться на практике с описанными этапами, выполняемыми в порядке, отличном от порядка, описанного в данном документе. Дополнительно следует понимать, что некоторые этапы могут выполняться одновременно, что другие этапы могут добавляться, или что некоторые этапы, описанные в данном документе, могут опускаться. Другими словами, описания процессов в данном документе предоставляются для целей иллюстрации некоторых вариантов осуществления и никоим образом не должны истолковываться как ограничивающие формулу изобретения.[0109] With respect to the processes, systems, methods, heuristic procedures, etc. described herein, it should be understood that although the steps of such processes, etc. described as being carried out according to some ordered sequence, such processes may be practiced with the described steps performed in an order different from the order described herein. Additionally, it should be understood that some steps may be performed concurrently, that other steps may be added, or that some steps described herein may be omitted. In other words, the process descriptions herein are provided for purposes of illustrating certain embodiments and should in no way be construed as limiting the claims.

[0110] Соответственно, следует понимать, что вышеприведенное описание имеет намерение быть иллюстративным, а не ограничивающим. Множество вариантов осуществления и вариантов применения, отличных от предоставленных примеров, должны становиться очевидными после прочтения вышеприведенного описания. Объем должен определяться не со ссылкой на вышеприведенное описание, а вместо этого должен определяться со ссылкой на прилагаемую формулу изобретения, наряду с полным объемом эквивалентов, на которые уполномочена такая формула изобретения. Предполагается и подразумевается, что будущие разработки должны осуществляться в технологиях, поясненных в данном документе, и что раскрытые системы и способы должны быть включены в такие будущие варианты осуществления. В общем, следует понимать, что заявка допускает модификацию и варьирование.[0110] Accordingly, it should be understood that the foregoing description is intended to be illustrative and not limiting. Many embodiments and uses other than the examples provided should become apparent upon reading the foregoing description. The scope should not be determined by reference to the foregoing description, but instead should be determined by reference to the appended claims, along with the full scope of equivalents to which such claims are authorized. It is intended and implied that future developments will be made in the technologies explained herein and that the disclosed systems and methods will be included in such future embodiments. In general, it should be understood that the application is subject to modification and variation.

[0111] Все термины, используемые в формуле изобретения, должны получать свои самые широкие обоснованные конструкции и свои обычные смысловые значения, как должны понимать специалисты в областях техники, описанных в данном документе, если иное явно не указывается в данном документе. В частности, использование артиклей единственного числа, таких как "a", "the", "said" и т.д., должно рассматриваться как перечисление одного или более указываемых элементов, если только пункт формулы изобретения не перечисляет иное явное ограничение.[0111] All terms used in the claims are to be given their broadest reasonable construction and their ordinary meaning as understood by those skilled in the art described herein, unless otherwise expressly stated herein. In particular, the use of singular articles such as "a", "the", "said", etc., should be considered as listing one or more specified elements, unless the claim lists another express limitation.

[0112] Реферат раскрытия сущности предоставляется для того, чтобы обеспечивать возможность читателю быстро выявлять характер технического раскрытия сущности. Он представляется с пониманием того, что он не должен использоваться для того, чтобы интерпретировать или ограничивать объем или смысловое значение формулы изобретения. Помимо этого, в вышеприведенном подробном описании можно видеть, что различные признаки группируются в различных вариантах осуществления с целью упрощения раскрытия сущности. Этот способ раскрытия сущности не должен интерпретироваться как отражающий намерение того, что заявленные варианты осуществления включают большее число признаков, чем явно изложено в каждом пункте формуле изобретения. Наоборот, как отражает прилагаемая формула изобретения, предмет изобретения заключается не во всех признаках одного раскрытого варианта осуществления. Таким образом, прилагаемая формула изобретения в силу этого включается в подробное описание, причем каждый пункт является независимым как отдельно заявленный предмет изобретения.[0112] An abstract of the disclosure is provided to enable the reader to quickly identify the nature of the technical disclosure. It is submitted with the understanding that it is not to be used to interpret or limit the scope or meaning of the claims. In addition, in the above detailed description, it can be seen that various features are grouped in various embodiments for the purpose of simplifying the disclosure. This disclosure should not be interpreted as indicating that the claimed embodiments include more features than are expressly set forth in each claim. On the contrary, as reflected in the accompanying claims, the subject matter of the invention is not all of the features of a single disclosed embodiment. Accordingly, the appended claims are hereby incorporated into the detailed description, each claim being independently claimed as subject matter.

Различные аспекты настоящего изобретения могут приниматься во внимание из следующих перечислимых примерных вариантов осуществления (EEE):Various aspects of the present invention may be taken into account from the following enumerated exemplary embodiments (EEE):

1. Способ редактирования видеоконтента, содержащий:1. A method for editing video content, containing:

- прием входных видеоданных;- receiving input video data;

- преобразование входных видеоданных в предварительно определенный формат, чтобы за счет этого формировать преобразованные видеоданные;- converting input video data into a predetermined format in order to thereby generate converted video data;

- формирование множества начальных значений метаданных для кадра преобразованных видеоданных, причем множество начальных значений метаданных включают в себя первое значение метаданных, соответствующее первому фиксированному значению, не вычисленному из контента, включающего в себя кадр, второе значение метаданных, соответствующее среднему значению яркости кадра, и третье значение метаданных, соответствующее второму фиксированному значению, не вычисленному из контента,- generating a plurality of initial metadata values for a frame of converted video data, the plurality of initial metadata values including a first metadata value corresponding to a first fixed value not calculated from the content including the frame, a second metadata value corresponding to an average luminance value of the frame, and a third the metadata value corresponding to the second fixed value not calculated from the content,

- при этом первое значение метаданных, второе значение метаданных и третье значение метаданных включают в себя информацию, используемую посредством декодера для того, чтобы подготавливать посредством рендеринга декодированное изображение на дисплее.- wherein the first metadata value, the second metadata value and the third metadata value include information used by the decoder to prepare a decoded image on the display by rendering.

2. Способ согласно EEE 1, дополнительно содержащий применение операции пространственного сглаживания к преобразованным видеоданным до формирования множества начальных значений метаданных.2. A method according to EEE 1, further comprising applying a spatial smoothing operation to the transformed video data before generating a plurality of initial metadata values.

3. Способ согласно EEE 2, в котором применение операции пространственного сглаживания включает в себя субдискретизацию преобразованных видеоданных.3. A method according to EEE 2, wherein applying a spatial smoothing operation includes downsampling the converted video data.

4. Способ согласно EEE 2 или EEE 3, в котором применение операции пространственного сглаживания включает в себя прореживание преобразованных видеоданных до меньшего размера.4. A method according to EEE 2 or EEE 3, wherein applying a spatial smoothing operation involves decimating the converted video data to a smaller size.

5. Способ согласно любому из EEE 1-4, дополнительно содержащий:5. A method according to any one of EEE 1-4, further comprising:

- вывод распространяемых видеоданных, включающих в себя часть видеоданных, соответствующую кадру, первое значение метаданных, второе значение метаданных и третье значение метаданных.- outputting distributed video data, including a portion of the video data corresponding to the frame, a first metadata value, a second metadata value, and a third metadata value.

6. Способ согласно любому из EEE 1-5, в котором первое фиксированное значение соответствует минимально допустимому значению яркости контента, и второе фиксированное значение соответствует максимально допустимому значению яркости контента.6. A method according to any one of EEE 1-5, wherein the first fixed value corresponds to the minimum permissible brightness value of the content, and the second fixed value corresponds to the maximum permissible brightness value of the content.

7. Способ согласно любому из EEE 1-6, в котором предварительно определенный формат представляет собой формат с расширенным динамическим диапазоном на основе перцепционного квантователя.7. A method according to any one of EEE 1-6, wherein the predetermined format is a high dynamic range format based on a perceptual quantizer.

8. Энергонезависимый машиночитаемый носитель, сохраняющий инструкции, которые, при выполнении посредством процессора компьютерной системы, инструктируют компьютерной системе выполнять операции, содержащие способ согласно любому из EEE 1-7.8. A non-transitory computer-readable medium storing instructions that, when executed by a computer system processor, instruct the computer system to perform operations comprising a method according to any of EEE 1-7.

9. Система редактирования видео, содержащая:9. Video editing system containing:

- запоминающее устройство; и- Memory device; And

- процессор, выполненный с возможностью инструктировать системе редактирования видео:- a processor configured to instruct the video editing system to:

- принимать входные видеоданные,- accept input video data,

- преобразовывать входные видеоданные в предварительно определенный формат, чтобы за счет этого формировать преобразованные видеоданные,- convert input video data into a predefined format in order to thereby generate converted video data,

- формировать множество начальных значений метаданных для кадра преобразованных видеоданных, причем множество начальных значений метаданных включают в себя первое значение метаданных, соответствующее первому фиксированному значению, не вычисленному из контента, включающего в себя кадр, второе значение метаданных, соответствующее среднему значению яркости кадра, и третье значение метаданных, соответствующее второму фиксированному значению, не вычисленному из контента.- generating a plurality of initial metadata values for a frame of converted video data, the plurality of initial metadata values including a first metadata value corresponding to a first fixed value not calculated from the content including the frame, a second metadata value corresponding to an average luminance value of the frame, and a third the metadata value corresponding to the second fixed value not calculated from the content.

10. Система редактирования видео согласно EEE 9, в которой процессор выполнен с возможностью инструктировать системе редактирования видео:10. A video editing system according to EEE 9, wherein the processor is configured to instruct the video editing system:

- применять операцию пространственного сглаживания к преобразованным видеоданным до формирования множества начальных значений метаданных.- apply a spatial smoothing operation to the converted video data before generating a set of initial metadata values.

11. Система редактирования видео согласно EEE 10, в которой операция пространственного сглаживания включает в себя субдискретизацию преобразованных видеоданных.11. An EEE 10 video editing system in which the spatial anti-aliasing operation involves downsampling the converted video data.

12. Система редактирования видео согласно EEE 10 или EEE 11, в которой операция пространственного сглаживания включает в себя прореживание преобразованных видеоданных до меньшего размера.12. A video editing system according to EEE 10 or EEE 11, in which the spatial anti-aliasing operation involves decimating the converted video data to a smaller size.

13. Система редактирования видео согласно любому из EEE 9-12, в которой процессор выполнен с возможностью дополнительно инструктировать системе редактирования видео:13. A video editing system according to any one of EEE 9-12, wherein the processor is configured to further instruct the video editing system:

- выводить распространяемые видеоданные, включающие в себя часть видеоданных, соответствующую кадру, первое значение метаданных, второе значение метаданных и третье значение метаданных.- output distributed video data including a portion of video data corresponding to a frame, a first metadata value, a second metadata value, and a third metadata value.

14. Система редактирования видео согласно любому из EEE 9-13, в которой первое фиксированное значение соответствует минимально допустимому значению яркости контента, и второе фиксированное значение соответствует максимально допустимому значению яркости контента.14. A video editing system according to any one of EEE 9-13, wherein the first fixed value corresponds to a minimum permissible luminance value of the content, and the second fixed value corresponds to a maximum permissible luminance value of the content.

15. Система редактирования видео согласно любому из EEE 9-14, в которой предварительно определенный формат представляет собой формат с расширенным динамическим диапазоном на основе перцепционного квантователя.15. A video editing system according to any one of EEE 9-14, wherein the predefined format is a high dynamic range format based on a perceptual quantizer.

Claims

1. A method for editing video content, containing stages in which:

receive input video data;

converting the input video data into a predetermined format that is different from the format of the input video data with respect to the dynamic range, thereby generating converted video data;

applying a spatial smoothing operation to the converted video data;

generating a plurality of initial metadata values for a frame of converted video data, wherein the plurality of initial metadata values includes a first metadata value corresponding to a first fixed value not calculated from the content including the frame, wherein the first fixed value corresponds to a minimum acceptable brightness value of the content, the second a metadata value corresponding to the average brightness value of the frame, and a third metadata value corresponding to a second fixed value not calculated from the content, wherein the second fixed value corresponds to the maximum allowed brightness value of the content,

wherein the first metadata value, the second metadata value and the third metadata value include information used by the decoder to prepare a decoded image on a display by rendering.

2. The method of claim 1, wherein the predetermined format is a standard dynamic range format, wherein the input video data is optionally in a high dynamic range format.

3. The method of claim 1, wherein applying the spatial smoothing operation includes downsampling the converted video data.

4. The method of claim 1 or 3, wherein applying the spatial smoothing operation includes cutting down the converted video data to a smaller size.

5. Method according to any one of paragraphs. 1-4, also containing a step in which:

outputting distributed video data including a portion of video data corresponding to a frame, a first metadata value, a second metadata value, and a third metadata value.

6. Method according to any one of paragraphs. 1-5, wherein the predefined format is a high dynamic range format based on a perceptual quantizer.

7. A non-transitory computer-readable medium storing instructions that, when executed by a computer system processor, instruct the computer system to perform operations comprising the method of any one of claims. 1-6.

8. Video editing system containing:

Memory device; And

a processor configured to instruct the video editing system to:

accept input video data,

convert the input video data into a predetermined format that is different from the format of the input video data with respect to the dynamic range, thereby generating converted video data,

apply a spatial smoothing operation to the converted video data,

generate a plurality of initial metadata values for a frame of converted video data, the plurality of initial metadata values including a first metadata value corresponding to a first fixed value not calculated from the content including the frame, wherein the first fixed value corresponds to a minimum acceptable luminance value of the content, a second a metadata value corresponding to the average brightness value of the frame, and a third metadata value corresponding to a second fixed value not calculated from the content, wherein the second fixed value corresponds to the maximum allowed brightness value of the content,

9. The video editing system of claim 8, wherein the predefined format is a standard dynamic range format, wherein the input video data is optionally in a high dynamic range format.

10. The video editing system of claim 8, wherein the spatial smoothing operation includes downsampling the converted video data.

11. The video editing system of claim 8 or 10, wherein the spatial smoothing operation includes decimating the converted video data to a smaller size.

12. Video editing system according to any one of paragraphs. 8-11, wherein the processor is also configured to instruct the video editing system:

output distributed video data including a portion of video data corresponding to a frame, a first metadata value, a second metadata value, and a third metadata value.

13. Video editing system according to any one of paragraphs. 8-12, wherein the predetermined format is a high dynamic range format based on a perceptual quantizer.

14. A method for editing video content, containing the stages of:

receive input video data;

converting the input video data into a predetermined format to thereby generate converted video data;

applying a spatial smoothing operation to the converted video data;

generating a first metadata value for a frame of converted video data, the first metadata value corresponding to the average brightness value of the frame;

determining a time window including the frame, the time window having a predetermined length in time;

calculating a maximum metadata range and a minimum metadata range over a time window to thereby generate a first filtered metadata value and a second filtered metadata value; And

smoothing the first filtered metadata value and the second filtered metadata value to thereby generate the first smoothed and filtered metadata value and the second smoothed and filtered metadata value.

15. The method of claim 14, wherein the predetermined length in time is four seconds.

16. Method according to any one of paragraphs. 14 or 15, in which the window is configured so as not to intersect a fast scene switch in the input video data.

17. A non-transitory computer-readable medium storing instructions that, when executed by a computer system processor, instruct the computer system to perform operations comprising the method of any one of claims. 14-16.