RU2793271C1

RU2793271C1 - Systems, methods and equipment for converting from channel-oriented audio to object-oriented audio

Info

Publication number: RU2793271C1
Application number: RU2022117942A
Authority: RU
Inventors: Майкл С. УОРД; Фредди САНЧЕС; Кристоф ФЕРШ
Original assignee: Долби Лэборетериз Лайсенсинг Корпорейшн; Долби Интернэшнл Аб
Priority date: 2019-12-02
Filing date: 2020-12-02
Publication date: 2023-03-30

Abstract

FIELD: audio processing.

SUBSTANCE: bit stream is received including channel-based audio and associated channel-based audio metadata. The service signal broadcast parameter is parsed from the channel-oriented audio metadata, wherein the service signal broadcast parameter specifies one of a plurality of different object audio metadata (OAMD) representations. Each of the OAMD representations maps one or more channel-based audio channels into one or more audio objects. The channel-specific metadata is converted to OAMD associated with one or more audio objects using the OAMD representation. Channel mixing information is generated based on OAMD channel ordering constraints. The audio channels of the channel-based audio are reordered based on the channel mixing information. The reordered channel-oriented audio and OAMD are coded into a stream of object-oriented audio bits.

EFFECT: increase of audio processing efficiency.

15 cl, 26 dwg

Description

Перекрестные ссылки на родственные заявкиCross-references to related applications

[0001] Данная заявка притязает на приоритет предварительной заявки на патент (США) номер 62/942322, поданной 2 декабря 2019 года, и заявки на патент EP номер 19212906.2, поданной 2 декабря 2019 года, обе из которых полностью содержатся в данном документе по ссылке.[0001] This application claims priority of U.S. Provisional Application No. 62/942322, filed December 2, 2019, and EP Application No. 19212906.2, filed December 2, 2019, both of which are incorporated herein in their entirety by reference .

Область техники, к которой относится изобретениеThe technical field to which the invention belongs

[0002] Данное раскрытие сущности, в общем, относится к обработке аудиосигналов, включающей в себя преобразование канально-ориентированного аудио в объектно-ориентированного аудио.[0002] This disclosure relates generally to audio signal processing, including converting channel-based audio to object-based audio.

Уровень техникиState of the art

[0003] При кодировании канально-ориентированного аудио (CBA), набор дорожек неявно назначается конкретным громкоговорителям посредством ассоциирования набора дорожек с конфигурацией каналов. Если конфигурация динамиков для воспроизведения отличается от конфигурации кодированных каналов, спецификации понижающего микширования или повышающего микширования требуются для того, чтобы перераспределять аудио в доступные динамики. Эта парадигма известна и работает, когда конфигурация каналов на стороне декодирования может предварительно определяться или предполагаться с обоснованной достоверностью как 2.0, 5.X или 7.X. Тем не менее, в силу популярности новых компоновок динамиков, предположения относительно компоновки динамиков, используемой для воспроизведения, не могут выдвигаться. Следовательно, CBA не предлагает достаточный способ для адаптации представления, в котором исходная схема размещения динамиков не совпадает со схемой размещения динамиков на стороне декодирования. Это представляет собой проблему при попытке авторски разрабатывать контент, который воспроизводится хорошо независимо от конфигурации динамиков.[0003] In channel-based audio (CBA) coding, a track set is implicitly assigned to specific speakers by associating the track set with a channel configuration. If the playback speaker configuration differs from the scrambled channel configuration, downmix or upmix specifications are required in order to redistribute audio to the available speakers. This paradigm is known and works when the channel configuration on the decoding side can be predetermined or assumed with reasonable certainty as 2.0, 5.X or 7.X. However, due to the popularity of new speaker layouts, speculation regarding the speaker layout used for playback cannot be made. Therefore, CBA does not offer a sufficient way to adapt a presentation in which the original speaker layout does not match the speaker layout on the decoding side. This presents a problem when trying to author content that plays well regardless of the speaker configuration.

[0004] При кодировании объектно-ориентированного аудио (OBA), рендеринг применяется к объектам, которые содержат аудиосущность объектов в сочетании с метаданными, которые содержат отдельно назначенные свойства объектов. Свойства (например, позиция по оси X, Y, Z или местоположение канала) более явно указывают то, как создатель контента нацеливает аудиоконтент, который должен подготавливаться посредством рендеринга (т.е. они накладывают ограничения на то, как подготавливать посредством рендеринга сущность в динамики). Поскольку отдельные звуковые элементы могут быть ассоциированы с гораздо более богатым набором метаданных, с учетом смыслового значения элементов, способ адаптации к конфигурации динамиков, воспроизводящей аудио, может предоставлять лучшую информацию относительно того, как подготавливать посредством рендеринга в меньшее число динамиков.[0004] When encoding object-oriented audio (OBA), rendering is applied to objects that contain the audio entity of the objects in combination with metadata that contains separately assigned properties of the objects. Properties (such as x, y, z position, or channel location) more explicitly indicate how the content creator targets the audio content to be rendered (i.e., they impose restrictions on how to render the entity to the speakers ). Because individual audio elements can be associated with a much richer set of metadata, given the semantic meaning of the elements, the way to adapt to the audio speaker configuration may provide better information on how to prepare by rendering to fewer speakers.

[0005] Предусмотрено несколько стандартизированных форматов для передачи CBA-контента, таких как улучшенный AC-3 (E-AC-3), заданный в ETSI TS 102 366 [1]. Чтобы обеспечивать совместимость с уже существующими устройствами, объединенное кодирование объектов (JOC) может использоваться в сочетании со стандартизированными CBA-форматами для того, чтобы транспортировать OBA. JOC доставляет иммерсивное аудио на низких скоростях передачи битов, достигаемых за счет передачи многоканального понижающего микширования иммерсивного контента с использованием алгоритмов перцепционного кодирования аудио вместе с параметрической вспомогательной информацией, которая обеспечивает восстановление аудиообъектов из понижающего микширования в декодере. В некоторых вариантах применения, таких как телевизионные широковещательные передачи, требуется представлять CBA-контент в качестве OBA-контента таким образом, что контент является совместимым с установочной базой OBA-устройств воспроизведения. Тем не менее, стандартизированные форматы потока битов для CBA и OBA не являются полностью совместимыми.[0005] Several standardized formats are provided for the transmission of CBA content, such as Enhanced AC-3 (E-AC-3) specified in ETSI TS 102 366 [1]. To ensure compatibility with already existing devices, Joint Object Coding (JOC) can be used in conjunction with standardized CBA formats to transport OBAs. JOC delivers immersive audio at low bit rates achieved by transmitting multi-channel downmix of immersive content using perceptual audio coding algorithms along with parametric assistance information that enables audio objects to be recovered from the downmix at the decoder. In some applications, such as television broadcasts, it is desirable to present CBA content as OBA content such that the content is compatible with the installation base of OBA playback devices. However, the standardized bitstream formats for CBA and OBA are not fully compatible.

Сущность изобретенияThe essence of the invention

[0006] Раскрываются варианты осуществления для преобразования CBA-контента в OBA-контент и, в конкретном варианте осуществления, для преобразования 22.2-канального контента в OBA-контент для воспроизведения на OBA-совместимых устройствах воспроизведения.[0006] Embodiments are disclosed for converting CBA content to OBA content and, in a specific embodiment, for converting 22.2-channel content to OBA content for playback on OBA-compatible playback devices.

[0007] В варианте осуществления, способ содержит: прием, посредством одного или более процессоров оборудования аудиообработки, потока битов, включающего в себя канально-ориентированное аудио и ассоциированные канально-ориентированные аудиометаданные; причем один или более процессоров выполнены с возможностью: синтаксически анализировать параметр передачи служебных сигналов из канально-ориентированных аудиометаданных, причем параметр передачи служебных сигналов указывает одно из множества различных представлений аудиометаданных объектов (OAMD), причем каждое из OAMD-представлений преобразует один или более аудиоканалов канально-ориентированного аудио в один или более аудиообъектов; преобразовывать канально-ориентированные метаданные в OAMD, ассоциированные с одним или более аудиообъектов, с использованием OAMD-представления, которое указывается посредством параметра передачи служебных сигналов; формировать информацию перемешивания каналов на основе ограничений упорядочения каналов OAMD; переупорядочивать аудиоканалы канально-ориентированного аудио на основе информации перемешивания каналов для того, чтобы формировать переупорядоченное канально-ориентированное аудио; и подготавливать посредством рендеринга переупорядоченное канально-ориентированное аудио в подготовленное посредством рендеринга аудио с использованием OAMD; или кодировать переупорядоченное канально-ориентированное аудио и OAMD в поток объектно-ориентированных аудиобитов и передавать поток объектно-ориентированных аудиобитов в устройство воспроизведения или устройство-источник.[0007] In an embodiment, the method comprises: receiving, by one or more audio processing equipment processors, a bit stream including channel-based audio and associated channel-based audio metadata; wherein the one or more processors are configured to: parse a signaling parameter from the channel-oriented audio metadata, wherein the signaling parameter specifies one of a plurality of different object audio metadata (OAMD) representations, each of the OAMD representations converting one or more audio channels channel-wise -oriented audio into one or more audio objects; convert the channel-specific metadata to OAMD associated with one or more audio objects using the OAMD representation that is indicated by a signaling parameter; generate channel mixing information based on OAMD channel ordering constraints; reordering the audio channels of the channel-based audio based on the channel mixing information to generate the re-ordered channel-based audio; and prepare by rendering the reordered channel-oriented audio into the prepared by rendering audio using OAMD; or encode the reordered channel-oriented audio and OAMD into an object-oriented audio bit stream and transmit the object-oriented audio bit stream to a playback device or a source device.

[0008] В варианте осуществления, канально-ориентированное аудио и метаданные включаются в собственный поток аудиобитов, и способ дополнительно содержит декодирование собственного потока аудиобитов для того, чтобы восстанавливать (т.е. определять или извлекать) канально-ориентированное аудио и метаданные.[0008] In an embodiment, the channel-specific audio and metadata are included in the native audio bit stream, and the method further comprises decoding the native audio bitstream in order to recover (i.e., determine or extract) the channel-specific audio and metadata.

[0009] В варианте осуществления, канально-ориентированное аудио и метаданные представляют собой N.M-канально-ориентированное аудио и метаданные, где N является положительным целым числом, большим девяти, и M является положительным целым числом, большим или равным нуля.[0009] In an embodiment, the channel-based audio and metadata is N.M channel-based audio and metadata, where N is a positive integer greater than nine and M is a positive integer greater than or equal to zero.

[0010] В варианте осуществления, способ дополнительно содержит: определение первого набора каналов канально-ориентированного аудио, которые допускают представление посредством подложенных OAMD-каналов; назначение меток подложенных OAMD-каналов первому набору каналов; определение второго набора каналов канально-ориентированного аудио, которые не допускают представление посредством подложенных OAMD-каналов; и назначение статических позиционных OAMD-координат второму набору каналов.[0010] In an embodiment, the method further comprises: determining a first set of channel-based audio channels that are capable of being represented via overlaid OAMD channels; assigning tagged OAMD channels to the first channel set; determining a second set of channel-based audio channels that are not capable of being represented by overlaid OAMD channels; and assigning static positional OAMD coordinates to the second set of channels.

[0011] В варианте осуществления, способ содержит: прием, посредством одного или более процессоров оборудования аудиообработки, потока битов, включающего в себя канально-ориентированное аудио и метаданные; причем один или более процессоров выполнены с возможностью: кодировать канально-ориентированное аудио в собственный поток аудиобитов; синтаксически анализировать параметр передачи служебных сигналов из метаданных, причем параметр передачи служебных сигналов указывает одно из множества различных представлений аудиометаданных объектов (OAMD); преобразовывать канально-ориентированные метаданные в OAMD с использованием OAMD-представления, которое указывается посредством параметра передачи служебных сигналов; формировать информацию перемешивания каналов на основе ограничений упорядочения каналов OAMD; формировать пакет потоков битов, который включает в себя собственный поток аудиобитов, информацию перемешивания каналов и OAMD; мультиплексировать пакет в поток битов транспортного слоя; и передавать поток битов транспортного слоя в устройство воспроизведения или устройство-источник.[0011] In an embodiment, the method comprises: receiving, by one or more audio processing equipment processors, a bitstream including channel-based audio and metadata; wherein the one or more processors are configured to: encode the channel-specific audio into a native audio bit stream; parse a signaling parameter from the metadata, wherein the signaling parameter specifies one of a plurality of different object audio metadata (OAMD) representations; convert the channel-oriented metadata to OAMD using the OAMD representation, which is indicated by the signaling parameter; generate channel mixing information based on OAMD channel ordering constraints; generate a bitstream packet that includes a native audio bitstream, channel mixing information, and OAMD; multiplex the packet into a transport layer bitstream; and transmit the transport layer bit stream to the playback device or source device.

[0012] В варианте осуществления, канально-ориентированное аудио и метаданные представляют собой N.M-канально-ориентированное аудио и метаданные, где N является положительным целым числом, большим семи, и M является положительным целым числом, большим или равным нуля.[0012] In an embodiment, the channel-based audio and metadata is N.M channel-based audio and metadata, where N is a positive integer greater than seven and M is a positive integer greater than or equal to zero.

[0013] В варианте осуществления, каналы в канально-ориентированном аудио, которые могут представляться посредством меток подложенных OAMD-каналов, используют метки подложенных OAMD-каналов, и каналы в канально-ориентированном аудио, которые не могут представляться посредством позиций статических объектов, используют метки подложенных OAMD-каналов, причем каждая позиция статического объекта описывается в позиционных OAMD-координатах.[0013] In an embodiment, channels in channel-based audio that can be represented by OAMD-padded channel labels use OAMD-padded channel labels, and channels in channel-based audio that cannot be represented by static object positions use labels. overlaid OAMD channels, where each position of the static object is described in positional OAMD coordinates.

[0014] В варианте осуществления, поток транспортных битов представляет собой поток аудиобитов по стандарту Экспертной группы по киноизображению (MPEG), который включает в себя сигнал, который указывает присутствие OAMD в поле расширения потока MPEG-аудиобитов.[0014] In an embodiment, the transport bit stream is a Motion Picture Expert Group (MPEG) audio bit stream that includes a signal that indicates the presence of an OAMD in an extension field of the MPEG audio bit stream.

[0015] В варианте осуществления, сигнал, который указывает присутствие OAMD в потоке MPEG-аудиобитов, включается в зарезервированное поле метаданных в потоке MPEG-аудиобитов для передачи в служебных сигналах режима объемного звука.[0015] In an embodiment, a signal that indicates the presence of OAMD in the MPEG audio bit stream is included in a reserved metadata field in the MPEG audio bit stream for transmission in surround sound mode signaling.

[0016] В варианте осуществления, способ содержит: прием, посредством одного или более процессоров оборудования аудиообработки, потока битов транспортного слоя, включающего в себя пакет; причем один или более процессоров выполнены с возможностью: демультиплексировать поток битов транспортного слоя для того, чтобы восстанавливать (т.е. определять или извлекать) пакет; декодировать пакет для того, чтобы восстанавливать (т.е. определять или извлекать) собственный поток аудиобитов, информацию перемешивания каналов и аудиометаданные объектов (OAMD); декодировать собственный поток аудиобитов для того, чтобы восстанавливать поток канально-ориентированных аудиобитов и метаданные; переупорядочивать каналы канально-ориентированного аудио на основе информации перемешивания каналов; и подготавливать посредством рендеринга переупорядоченное канально-ориентированное аудио в подготовленное посредством рендеринга аудио с использованием OAMD; или кодировать канально-ориентированное аудио и OAMD в поток объектно-ориентированных аудиобитов и передавать поток объектно-ориентированных аудиобитов в устройство-источник.[0016] In an embodiment, the method comprises: receiving, by one or more audio processing equipment processors, a transport layer bitstream including a packet; wherein the one or more processors are configured to: demultiplex the transport layer bit stream in order to recover (ie, determine or extract) the packet; decode the packet to recover (ie, determine or extract) the native audio bit stream, channel mixing information, and object audio metadata (OAMD); decode the native audio bit stream in order to recover the channel-specific audio bit stream and metadata; reorder channels of the channel-based audio based on the channel mixing information; and prepare by rendering the reordered channel-oriented audio into the prepared by rendering audio using OAMD; or encode the channel-oriented audio and OAMD into an object-oriented audio bit stream and transmit the object-oriented audio bit stream to the source device.

[0017] В варианте осуществления, канально-ориентированное аудио и метаданные представляют собой N.M-канально-ориентированное аудио и метаданные, где N является положительным целым числом, большим семи, и M является положительным целым числом, большим или равным нуля.[0017] In an embodiment, the channel-based audio and metadata is N.M channel-based audio and metadata, where N is a positive integer greater than seven and M is a positive integer greater than or equal to zero.

[0018] В варианте осуществления, способ дополнительно содержит: определение первого набора каналов канально-ориентированного аудио, которые допускают представление посредством подложенных OAMD-каналов; назначение меток подложенных OAMD-каналов первому набору каналов; определение второго набора каналов канально-ориентированного аудио, которые не допускают представление посредством подложенных OAMD-каналов; и назначение статических позиционных OAMD-координат второму набору каналов.[0018] In an embodiment, the method further comprises: determining a first set of channel-based audio channels that are capable of being represented via overlaid OAMD channels; assigning tagged OAMD channels to the first channel set; determining a second set of channel-based audio channels that are not capable of being represented by overlaid OAMD channels; and assigning static positional OAMD coordinates to the second set of channels.

[0019] В варианте осуществления, поток транспортных битов представляет собой поток аудиобитов по стандарту Экспертной группы по киноизображению (MPEG), который включает в себя сигнал, который указывает присутствие OAMD в поле расширения потока MPEG-аудиобитов.[0019] In an embodiment, the transport bit stream is a Motion Picture Expert Group (MPEG) audio bit stream that includes a signal that indicates the presence of an OAMD in an extension field of the MPEG audio bit stream.

[0020] В варианте осуществления, сигнал, который указывает присутствие OAMD в потоке MPEG-аудиобитов, включается в зарезервированное поле структуры данных в метаданных потока MPEG-аудиобитов для передачи в служебных сигналах режима объемного звука.[0020] In an embodiment, a signal that indicates the presence of OAMD in the MPEG audio bit stream is included in a reserved data structure field in the MPEG audio bit stream metadata for transmission in surround sound mode signaling.

[0021] В варианте осуществления, оборудование содержит: один или более процессоров; и энергонезависимый машиночитаемый носитель хранения данных, имеющий сохраненные инструкции, которые, при выполнении посредством одного или более процессоров, инструктируют одному или более процессоров осуществлять способы, описанные в данном документе.[0021] In an embodiment, the hardware comprises: one or more processors; and a non-volatile computer-readable storage medium having stored instructions that, when executed by one or more processors, instructs one or more processors to perform the methods described herein.

[0022] Другие варианты осуществления, раскрытые в данном документе, направлены на системы, оборудование и машиночитаемые носители. Подробности раскрытых реализаций изложены на прилагаемых чертежах и в нижеприведенном описании. Другие признаки, цели и преимущества должны становиться очевидными из описания, чертежей и формулы изобретения.[0022] Other embodiments disclosed herein are directed to systems, equipment, and computer-readable media. Details of the disclosed implementations are set forth in the accompanying drawings and in the description below. Other features, purposes and advantages should become apparent from the description, drawings and claims.

[0023] Конкретные варианты осуществления, раскрытые в данном документе, предоставляют одно или более следующих преимуществ. Существующая установленная база OBA-совместимых устройств воспроизведения может преобразовывать CBA-контент в OBA-контент с использованием существующего стандартизированных форматов собственного аудио и потока транспортных битов, без замены аппаратных компонентов устройств воспроизведения.[0023] The specific embodiments disclosed herein provide one or more of the following advantages. The existing installed base of OBA-compatible playback devices can convert CBA content to OBA content using existing standardized native audio and transport bitstream formats, without changing the hardware components of the playback devices.

Описание чертежейDescription of drawings

[0024] На прилагаемых чертежах, упоминаемых ниже, различные варианты осуществления проиллюстрированы на блок-схемах, блок-схемах последовательности операций способа и других схемах. Каждый блок на блок-схемах последовательности операций способа или блок могут представлять модуль, программу или часть кода, который содержит одну или более выполняемых инструкций для выполнения указанных логических функций. Хотя эти блоки проиллюстрированы в конкретных последовательностях для выполнения этапов способов, они не обязательно могут выполняться строго в соответствии с проиллюстрированной последовательностью. Например, они могут выполняться в обратной последовательности или одновременно, в зависимости от характера соответствующих операций. Также следует отметить, что блок-схемы и/или каждый блок на блок-схемах последовательности операций способа и их комбинации могут реализовываться посредством выделенной программной или аппаратной системы для выполнения указанных функций/операций либо посредством комбинации специализированных аппаратных средств и компьютерных инструкций.[0024] In the accompanying drawings, referred to below, various embodiments are illustrated in block diagrams, flowcharts, and other diagrams. Each block in the flowcharts or block may represent a module, program, or piece of code that contains one or more executable instructions to perform the specified logical functions. Although these blocks are illustrated in specific sequences for performing the steps of the methods, they may not necessarily be performed strictly in accordance with the illustrated sequence. For example, they may be performed in reverse order or simultaneously, depending on the nature of the respective operations. It should also be noted that the flowcharts and/or each block in the flowcharts, and combinations thereof, may be implemented by a dedicated software or hardware system to perform said functions/operations, or by a combination of specialized hardware and computer instructions.

[0025] Фиг. 1A является таблицей, показывающей позиции подложенных каналов и объектов для двух различных представлений аудиометаданных объектов (OAMD), согласно варианту осуществления.[0025] FIG. 1A is a table showing sub-channel and object positions for two different object audio metadata (OAMD) representations, according to an embodiment.

[0026] Фиг. 1B является таблицей, показывающей назначение подложенных каналов и упорядочение каналов для двух различных OAMD-представлений, согласно варианту осуществления.[0026] FIG. 1B is a table showing sub-channel assignment and channel ordering for two different OAMD representations, according to an embodiment.

[0027] Фиг. 2A является таблицей, показывающей метаданные размерной подстройки, согласно варианту осуществления.[0027] FIG. 2A is a table showing sizing metadata according to an embodiment.

[0028] Фиг. 2B является таблицей, показывающей средства управления подстройкой/балансом, согласно варианту осуществления.[0028] FIG. 2B is a table showing trim/balance controls according to an embodiment.

[0029] Фиг. 3 является блок-схемой системы для преобразования потока 22.2-канальных аудиобитов в аудиообъекты и OAMD без использования кодирования потоков битов, согласно варианту осуществления.[0029] FIG. 3 is a block diagram of a system for converting a 22.2-channel audio bitstream into audio objects and OAMD without using bitstream coding, according to an embodiment.

[0030] Фиг. 4 является блок-схемой системы для преобразования потока 22.2-канальных аудиобитов в аудиообъекты и OAMD с использованием кодирования потоков битов, согласно варианту осуществления.[0030] FIG. 4 is a block diagram of a system for converting a 22.2-channel audio bitstream into audio objects and OAMD using bitstream coding, according to an embodiment.

[0031] Фиг. 5 является блок-схемой системы для преобразования потока 22.2-канальных аудиобитов в аудиообъекты и OAMD для рендеринга в устройстве-источнике, согласно варианту осуществления.[0031] FIG. 5 is a block diagram of a system for converting a 22.2-channel audio bit stream into audio objects and OAMD for rendering at a source device, according to an embodiment.

[0032] Фиг. 6A и 6B являются блок-схемами системы для преобразования потока 22.2-канальных аудиобитов в аудиообъекты и OAMD для передачи по мультимедийному интерфейсу высокой четкости (HDMI) для внешнего рендеринга, согласно варианту осуществления.[0032] FIG. 6A and 6B are block diagrams of a system for converting a 22.2-channel audio bit stream into audio objects and OAMD for high definition multimedia interface (HDMI) transmission for external rendering, according to an embodiment.

[0033] Фиг. 7A-7C являются блок-схемами системы для преобразования потока 22.2-канальных аудиобитов в аудиообъекты и OAMD, при этом информация перемешивания каналов и OAMD пакетируются в собственном потоке аудиобитов, согласно варианту осуществления.[0033] FIG. 7A-7C are block diagrams of a system for converting a 22.2-channel audio bit stream into audio objects and OAMD, wherein the channel mixing and OAMD information is packaged in a native audio bit stream, according to an embodiment.

[0034] Фиг. 8A и 8B являются блок-схемой системы для преобразования потока 22.2-канальных аудиобитов в аудиообъекты и OAMD, при этом информация перемешивания каналов и OAMD пакетируются в собственном потоке аудиобитов для рендеринга в устройстве-источнике, согласно варианту осуществления.[0034] FIG. 8A and 8B are a block diagram of a system for converting a 22.2-channel audio bit stream into audio objects and OAMD, wherein the churn information and OAMD are packaged in a native audio bit stream for rendering at a source device, according to an embodiment.

[0035] Фиг. 9A-9C являются блок-схемами системы для преобразования потока 22.2-канальных аудиобитов в аудиообъекты и OAMD, при этом информация перемешивания каналов и OAMD встраиваются в транспортный слой для доставки в устройства-источники и затем пакетируются в собственном потоке аудиобитов для передачи по HDMI, согласно варианту осуществления.[0035] FIG. 9A-9C are block diagrams of a system for converting a 22.2-channel audio bit stream into audio objects and OAMD, wherein the channel mixing and OAMD information is embedded in the transport layer for delivery to source devices and then packaged in the native audio bit stream for transmission over HDMI, according to embodiment.

[0036] Фиг. 10A и 10B являются блок-схемами системы для преобразования потока 22.2-канальных аудиобитов в аудиообъекты и OAMD, при этом информация перемешивания каналов и OAMD встраиваются в транспортный слой для рендеринга в устройствах-источниках, согласно варианту осуществления.[0036] FIG. 10A and 10B are block diagrams of a system for converting a 22.2-channel audio bit stream into audio objects and OAMD, with channel mixing and OAMD information embedded in the transport layer for rendering in source devices, according to an embodiment.

[0037] Фиг. 11 является блок-схемой последовательности операций способа для процесса CBA-OBA-преобразования, согласно варианту осуществления.[0037] FIG. 11 is a flowchart for a CBA-OBA conversion process, according to an embodiment.

[0038] Фиг. 12 является блок-схемой последовательности операций способа для альтернативного процесса CBA-OBA-преобразования, согласно варианту осуществления.[0038] FIG. 12 is a flowchart for an alternative CBA-OBA conversion process, according to an embodiment.

[0039] Фиг. 13 является блок-схемой последовательности операций способа для альтернативного процесса CBA-OBA-преобразования, согласно варианту осуществления.[0039] FIG. 13 is a flowchart for an alternative CBA-OBA conversion process, according to an embodiment.

[0040] Фиг. 14 является блок-схемой последовательности операций способа для альтернативного процесса CBA-OBA-преобразования, согласно варианту осуществления.[0040] FIG. 14 is a flowchart for an alternative CBA-OBA conversion process, according to an embodiment.

[0041] Фиг. 15 является блок-схемой последовательности операций способа для альтернативного процесса CBA-OBA-преобразования, согласно варианту осуществления.[0041] FIG. 15 is a flowchart for an alternative CBA-OBA conversion process, according to an embodiment.

[0042] Фиг. 16 является блок-схемой последовательности операций способа для альтернативного процесса CBA-OBA-преобразования, согласно варианту осуществления.[0042] FIG. 16 is a flowchart for an alternative CBA-OBA conversion process, according to an embodiment.

[0043] Фиг. 17 является блок-схемой примерной архитектуры аудиосистемы, которая включает в себя преобразование аудио каналов в аудио объектов, согласно варианту осуществления.[0043] FIG. 17 is a block diagram of an exemplary audio system architecture that includes mapping audio channels to audio objects, according to an embodiment.

[0044] Идентичный номер ссылки, используемый на различных чертежах, указывает аналогичные элементы.[0044] The same reference number used throughout the drawings indicates like elements.

Подробное описание изобретенияDetailed description of the invention

Общее представлениеGeneral view

[0045] Аудиометаданные объектов (OAMD) являются представлением кодированных потоков битов метаданных для OBA-обработки, таких как, например, метаданные, описанные в ETSI TS 103 420 v1.2.1 (2018-10). Поток OAMD-битов может переноситься в контейнере расширяемого формата доставки метаданных (EMDF), к примеру, как указано в ETSI TS 102 366[1]. OAMD используются для рендеринга аудиообъекта. Информация рендеринга может динамически изменяться (например, усиление и позиция). Элементы потока OAMD-битов могут включать в себя метаданные описания контента, метаданные свойств объектов, метаданные обновления свойств и другие метаданные.[0045] Object audio metadata (OAMD) is a representation of coded metadata bitstreams for OBA processing, such as, for example, the metadata described in ETSI TS 103 420 v1.2.1 (2018-10). The OAMD bit stream may be carried in an Extensible Metadata Delivery Format (EMDF) container, for example, as specified in ETSI TS 102 366[1]. OAMDs are used to render the audio object. Rendering information can change dynamically (eg gain and position). The elements of the OAMD bit stream may include content description metadata, object property metadata, property update metadata, and other metadata.

[0046] В варианте осуществления, метаданные описания контента включают в себя версию синтаксиса рабочих OAMD-данных, общее число объектов, типы объектов и композицию программ. Метаданные свойств объектов включают в себя позицию объекта в привязанных к помещению, привязанных к экрану или привязанных к динамику координатах, размер объекта (ширину, глубину, высоту), приоритет (налагает упорядочение по важности на объекты, в которых более высокий приоритет указывает более высокую важность для объекта), усиление (используемое для того, чтобы применять индивидуально настраиваемое значение усиления к объекту), блокировку каналов (используемую для того, чтобы ограничивать рендеринг объекта одним динамиком, что обеспечивает нерассеянное, нейтральное в отношении тембра воспроизведение аудио), зональные ограничения (указывают зоны или подобъем в окружении прослушивания, в котором объект исключается или включается), расхождение объектов (используемое для того, чтобы преобразовывать объект в два объекта, при этом энергия разбрасывается вдоль оси X) и подстройку объектов (используемую для того, чтобы понижать уровень внеэкранных элементов, которые указываются в микшировании).[0046] In an embodiment, the content description metadata includes the syntax version of the working OAMD data, the total number of objects, object types, and program composition. Object property metadata includes the object's position in room-referenced, screen-referenced, or speaker-referenced coordinates, object size (width, depth, height), priority (imposes ordering by importance on objects where higher priority indicates higher importance for the object), gain (used to apply a individually adjustable gain value to the object), channel blocking (used to restrict the rendering of the object to a single speaker, resulting in non-diffused, tone-neutral audio reproduction), zone restrictions (indicate zone or sub-volume in the listening environment in which an object is excluded or included), object divergence (used to convert an object into two objects, with the energy spread along the x-axis), and object adjustment (used to reduce the level of off-screen elements , which are specified in the mix).

[0047] В варианте осуществления, метаданные обновления свойств передают в служебных сигналах данные временной синхронизации, применимые к обновлениям для всех передаваемых объектов. Данные временной синхронизации передаваемого обновления свойств указывают начальное время для обновления, наряду с контекстом обновления с предшествующими или последующими обновлениями и временной длительностью для процесса интерполяции между последовательными обновлениями. Синтаксис потока OAMD-битов поддерживает вплоть до восьми обновлений свойств в расчете на объект в каждом кадре кодека. Число передаваемых в служебных сигналах обновлений или время начала и прекращения каждого обновления свойств являются идентичными для всех объектов. Метаданные указывают значение линейно изменяющегося значения длительности в OAMD, которое указывает период времени в аудиовыборках для интерполяции из передаваемых в служебных сигналах значений свойств объектов предыдущего обновления свойств в значения текущего обновления.[0047] In an embodiment, property update metadata signaling timing data applicable to updates for all transmitted objects. The time synchronization data of the transmitted property update indicates the start time for the update, along with the update context with previous or subsequent updates, and the time duration for the interpolation process between successive updates. The OAMD bit stream syntax supports up to eight property updates per object per codec frame. The number of updates signaled or the start and stop time of each property update is the same for all objects. The metadata indicates the OAMD duration ramp value that indicates the time period in audio samples to interpolate from the signaled property values of the objects of the previous property update to the values of the current update.

[0048] В варианте осуществления, данные временной синхронизации также включают в себя значение выборочного смещения и значение блочного смещения, которые используются посредством декодера для того, чтобы вычислять начальное смещение выборочного значения и кадровое смещение. Выборочное смещение представляет собой временное смещение в выборках относительно первой аудиовыборки с импульсно-кодовой модуляцией (PCM), к которой применяются данные в рабочих OAMD-данных, к примеру, как указано в ETSI TS 102 366 [1], разделы H.2.2.3.1 и H.2.2.3.2. Значение блочного смещения указывает период времени в выборках в качестве смещения от выборочного смещения, общего для всех обновлений свойств.[0048] In an embodiment, the timing data also includes a sample offset value and a block offset value, which are used by the decoder to calculate an initial sample value offset and a frame offset . The sample offset is the time offset in samples relative to the first PCM audio sample to which the data in the OAMD payload is applied, for example, as specified in ETSI TS 102 366 [1], sections H.2.2.3.1 and H.2.2.3.2. The block offset value specifies a period of time in samples as an offset from the sample offset common to all property updates.

[0049] В варианте осуществления, декодер предоставляет интерфейс для OBA, содержащего аудиоданные аудиосущности объектов и обновления метаданных с временной меткой для соответствующих свойств объектов. В интерфейсе, декодер предоставляет декодированные метаданные в расчете на объект в обновлениях с временной меткой. Для каждого обновления, декодер предоставляет данные, указываемые в структуре обновления метаданных.[0049] In an embodiment, the decoder provides an interface to an OBA containing the audio entity audio data of the objects and timestamped metadata updates for the corresponding properties of the objects. At the interface, the decoder provides the decoded metadata per object in timestamped updates. For each update, the decoder provides the data specified in the metadata update structure.

Примерное CBA-OBA-преобразованиеSample CBA-OBA conversion

[0050] В нижеприведенном раскрытии сущности, раскрываются технологии для преобразования CBA-контента в OBA с использованием OAMD. В примерном варианте осуществления, 22.2-канальный ("22.2-канальн.") контент преобразуется в OBA с использованием OAMD. В этом варианте осуществления, 22.2-канальный контент имеет два заданных способа, посредством которых каналы позиционируются и в силу этого понижающе микшируются/подготавливаются посредством рендеринга. Выбор способа может зависеть от значения параметра, такого как параметр dmix_pos_adj_idx, встраиваемый в 22.2-канальный поток битов. Преобразователь форматов, который преобразует 22.2-канального местоположения в OAMD-представление, выбирает одно из двух OAMD-представлений на основе значения этого параметра. Выбранное представление переносится в потоке OBA-битов (например, в Dolby® MAT-потоке битов), который вводится в устройство воспроизведения (например, в Dolby® Atmos®-устройство воспроизведения). Примерная 22.2-канальная система представляет собой Hamasaki 22.2. Hamasaki 22.2 представляет собой компонент объемного звука по стандарту Super Hi-Vision, который представляет собой телевизионный стандарт, разработанный компанией NHK Science and Technical Research Laboratories, который использует 24 динамика (включающих в себя два сабвуфера), размещаемых в трех слоях.[0050] In the disclosure below, technologies are disclosed for converting CBA content to OBA using OAMD. In an exemplary embodiment, 22.2-channel ("22.2ch") content is converted to OBA using OAMD. In this embodiment, the 22.2-channel content has two predetermined ways in which the channels are positioned and therefore downmixed/prepared by rendering. The choice of method may depend on the value of a parameter, such as the parameter dmix_pos_adj_idx embedded in the 22.2-channel bitstream. The format converter that converts the 22.2-channel location to an OAMD representation chooses one of the two OAMD representations based on the value of this parameter. The selected representation is carried in an OBA bitstream (eg, a Dolby® MAT bitstream) that is input to a playback device (eg, a Dolby® Atmos® playback device). An exemplary 22.2 channel system is a Hamasaki 22.2. Hamasaki 22.2 is a Super Hi-Vision surround sound component, which is a television standard developed by NHK Science and Technical Research Laboratories that uses 24 speakers (including two subwoofers) arranged in three layers.

[0051] Хотя нижеприведенное раскрытие сущности направлено на вариант осуществления, в котором 22.2-канальный контент преобразуется в OBA-контент с использованием OAMD, раскрытые варианты осуществления являются применимыми к любому формату потока CBA- или OBA-битов, включающему в себя стандартизированные или собственные форматы потока битов, и к любому устройству или системе воспроизведения. Дополнительно, нижеприведенное раскрытие сущности не ограничено 22.2-канальным-в-OBA-преобразованием, но также является применимым к преобразованию любого N.M-канально-ориентированного аудио, где N является положительным целым числом, большим семи, и M является положительным целым числом, большим или равным нуля.[0051] Although the following disclosure is directed to an embodiment in which 22.2-channel content is converted to OBA content using OAMD, the disclosed embodiments are applicable to any CBA or OBA bit stream format including standardized or proprietary formats. bit stream, and to any playback device or system. Additionally, the following disclosure is not limited to a 22.2-channel-to-OBA transform, but is also applicable to transforming any N.M channel-based audio, where N is a positive integer greater than seven and M is a positive integer greater than or equal to zero.

[0052] При использовании в данном документе, термин "включает в себя" и его разновидности должны читаться как многовариантные термины, которые означают "включает в себя, но не только". Термин "или" должен читаться как "и/или", если контекст явно не указывает иное. Термин "на основе" должен читаться как "по меньшей мере, частично на основе". Термин "один примерный вариант осуществления" и "примерный вариант осуществления" должен читаться как "по меньшей мере, один примерный вариант осуществления". Термин "другой вариант осуществления" должен читаться как "по меньшей мере, один другой вариант осуществления". Помимо этого, в нижеприведенном описании и в формуле изобретения, если не указано иное, все технические и научные термины, используемые в данном документе, имеют смысл, идентичный тому, как обычно понимается специалистами в области техники, которой принадлежит это раскрытие сущности.[0052] As used herein, the term "includes" and variations thereof should be read as multivariate terms that mean "includes, but not limited to". The term "or" should be read as "and/or" unless the context clearly indicates otherwise. The term "based on" should be read as "at least partially based on". The terms "one exemplary embodiment" and "exemplary embodiment" should be read as "at least one exemplary embodiment". The term "another embodiment" should be read as "at least one other embodiment". In addition, in the description below and in the claims, unless otherwise indicated, all technical and scientific terms used herein have the same meaning as is commonly understood by those skilled in the art to which this disclosure belongs.

Назначение программ и позиции объектовAssignment of programs and positions of objects

[0053] В этой заявке, 22.2-канальный контент 305 (например, файл или передаваемый вживую поток) принимается посредством преобразователя 301 форматов. Контент 305 включает в себя аудио и ассоциированные метаданные. Метаданные включают в себя параметр dmix_pos_adj_idx для выбора одного из двух OAMD-представлений на основе значения этого параметра. Каналы, которые могут представляться посредством меток подложенных OAMD-каналов, используют метки подложенных OAMD-каналов. Каналы, которые не могут представляться посредством меток подложенных OAMD-каналов, используют позиции статических объектов, при этом каждая позиция статического объекта описывается в позиционных OAMD-координатах [x, y, z], к примеру, как описано в ETSI TS 103 420 v1.2.1 (2018-10). При использовании в данном документе, "подложенный канал" представляет собой группу из нескольких подложенных объектов, и "подложенный объект" представляет собой статический объект, пространственная позиция которого является фиксированной посредством назначения громкоговорителю системы воспроизведения.[0053] In this application, 22.2-channel content 305 (eg, a file or a live stream) is received by a format converter 301. Content 305 includes audio and associated metadata. The metadata includes a dmix_pos_adj_idx parameter to select one of two OAMD representations based on the value of this parameter. Channels that can be represented by overlaid OAMD channel labels use overlaid OAMD channel labels. Channels that cannot be represented by sub-OAMD channel labels use static object positions, where each static object position is described in OAMD positional coordinates [x, y, z], for example, as described in ETSI TS 103 420 v1. 2.1 (2018-10). As used herein, a "sub-channel" is a group of multiple sub-objects, and a "sub-object" is a static object whose spatial position is fixed by assigning a speaker to a playback system.

[0054] Фиг. 1A является таблицей, показывающей позиции подложенных каналов и объектов для двух различных OAMD-представлений, согласно варианту осуществления. Верхняя строка таблицы включает в себя двадцать четыре 22.2-канальные метки, средняя строка таблицы включает в себя метки подложенных каналов и позиции объектов для первого OAMD-представления, передаваемого в служебных сигналах посредством dmix_pos_adj_idx=0, и нижняя строка таблицы включает в себя метки подложенных каналов и позиции объектов для второго OAMD-представления, передаваемого в служебных сигналах посредством dmix_pos_adj_idx=1. Следует обратить внимание, что dmix_pos_adj_idx сигнал представляет собой примерный сигнал, и может использоваться любой тип передачи служебных сигналов, в том числе, но не только, булевы флаги и сигналы, кодированные с одним или более битов.[0054] FIG. 1A is a table showing sub-channel and object positions for two different OAMD representations, according to an embodiment. The top row of the table includes twenty-four 22.2-channel labels, the middle row of the table includes the sub-channel labels and object positions for the first OAMD representation signaled by dmix_pos_adj_idx=0, and the bottom row of the table includes the sub-channel labels and object positions for the second OAMD representation signaled by dmix_pos_adj_idx=1. Note that the dmix_pos_adj_idx signal is an exemplary signal, and any type of signaling may be used, including, but not limited to, boolean flags and signals encoded with one or more bits.

[0055] Ссылаясь на таблицу на фиг. 1A, некоторые примеры 22.2-канальных меток включают в себя передний левый (FL), передний правый (FR), передний центральный (RC), с низкочастотными эффектами 1 (LFE1), задний левый (BL), задний правый (BR), передний левый центральный (FLc), передний правый центральный (FRc), задний центральный (BC), с низкочастотными эффектами 2 (LFE2), левый боковой (SIL), правый боковой (SIR), верхний передний левый (TpFL), верхний передний правый (TpFR), верхний передний центральный (TpFC), верхний центральный (TpC), верхний задний левый (TpBL), верхний задний правый (TpBR), верхний боковой левый (TpSIL), верхний боковой правый (TpSIR), верхний задний центральный (TpBC), между передним левым (BtFL), между передним правым (BtFR) и между передним центральным (BtFC). Следует отметить, что эти метки преобразуются либо в метки подложенных OAMD-каналов, либо в позиции статических объектов [x, y, z]. Например, для первого OAMD-представления (dmix_pos_adj_idx=0), 22.2-канальная метка FL преобразуется в позицию статического объекта [0,0.25,0], 22.2-канальная метка FR преобразуется в позицию статического объекта [1, 0.25, 0], 22.2-канальная метка FC преобразуется в метку C подложенного OAMD-канала и т.д. OAMD-представление преобразует один или более аудиоканалов в один или более аудиообъектов на основе (например, значения) параметра передачи в служебных сигналах. Один или более аудиообъектов могут представлять собой динамические или статические аудиообъекты. Как задано выше, статический аудиообъект представляет собой аудиообъект, имеющий фиксированную пространственную позицию. Динамический аудиообъект представляет собой аудиообъект, пространственная позиция которого может изменяться во времени. В вышеприведенном примере, OAMD-представление содержит метки каналов, метки подложенных каналов и позиции статических объектов. OAMD-представление преобразует метки каналов или в метки подложенных каналов или в позиции статических объектов на основе (например, значения) параметра передачи в служебных сигналах.[0055] Referring to the table in FIG. 1A, some examples of 22.2-channel tags include front left (FL), front right (FR), front center (RC), low frequency effects 1 (LFE1), rear left (BL), rear right (BR), front Left Center (FLc), Front Right Center (FRc), Rear Center (BC), LFE2 (LFE2), Left Wide (SIL), Right Wide (SIR), Top Front Left (TpFL), Top Front Right ( TpFR), Top Anterior Center (TpFC), Top Center (TpC), Top Back Left (TpBL), Top Back Right (TpBR), Top Side Left (TpSIL), Top Side Right (TpSIR), Top Back Center (TpBC) , between front left (BtFL), between front right (BtFR) and between front center (BtFC). It should be noted that these labels are converted either into labels of embedded OAMD channels or into positions of static objects [x, y, z]. For example, for the first OAMD representation (dmix_pos_adj_idx=0), a 22.2-channel FL label is mapped to a static object position [0,0.25,0], a 22.2-channel FR label is mapped to a static object position [1, 0.25, 0], 22.2 The FC-channel label is mapped to the label C of the overlaid OAMD-channel, and so on. The OAMD representation maps one or more audio channels to one or more audio objects based on (eg, the value of) a transmission parameter in the overhead. One or more audio objects may be dynamic or static audio objects. As defined above, a static audio object is an audio object having a fixed spatial position. A dynamic audio object is an audio object whose spatial position can change over time. In the example above, the OAMD representation contains channel labels, sub-channel labels, and static object positions. The OAMD representation maps channel labels to either sub-channel labels or static object positions based on (eg, the value of) a transmission parameter in the signaling.

[0056] OAMD предполагают то, что подложенные объекты предшествуют динамическим объектам. Дополнительно, подложенные объекты появляются в конкретном порядке. По этим причинам, аудио для 22.2-канального контента переупорядочивается посредством модуля 303 перемешивания аудиоканалов для того, чтобы удовлетворять ограничениям OAMD-порядка. Модуль 303 перемешивания аудиоканалов принимает информацию перемешивания каналов из генератора 304 метаданных и использует информацию перемешивания каналов для того, чтобы переупорядочивать 22.2-каналы.[0056] OAMDs assume that embedded objects precede dynamic objects. Additionally, the underlying objects appear in a specific order. For these reasons, audio for 22.2-channel content is reordered by the audio channel mixing unit 303 in order to satisfy OAMD ordering constraints. The audio channel mixing unit 303 receives the channel mixing information from the metadata generator 304 and uses the channel mixing information to reorder the 22.2 channels.

[0057] Фиг. 1B является таблицей, показывающей назначение подложенных каналов и упорядочение каналов для двух различных OAMD-представлений, согласно варианту осуществления. Верхняя строка таблицы показывает предполагаемый порядок каналов (0-23 канала) и метки каналов для 22.2-канального контента (Hamasaki 22.2). Средняя строка таблицы показывает метки подложенных назначений для первого OAMD-представления, и нижняя строка таблицы показывает метки подложенных назначений для второго OAMD-представления. Преобразованное аудио и OAMD-метаданные выводится, со ссылкой на фиг. 3, посредством преобразователя 301 форматов в модуль 302 рендеринга аудио объектов, который формирует подготовленное посредством рендеринга аудио.[0057] FIG. 1B is a table showing sub-channel assignment and channel ordering for two different OAMD representations, according to an embodiment. The top row of the table shows the suggested channel order (0-23 channels) and channel labels for 22.2 channel content (Hamasaki 22.2). The middle row of the table shows the sub-assignment labels for the first OAMD representation, and the bottom row of the table shows the sub-assignment labels for the second OAMD representation. The converted audio and OAMD metadata is output, with reference to FIG. 3 through the format converter 301 to an audio object renderer 302 that generates rendered audio.

[0058] Ссылаясь на таблицу на фиг. 1B, первые два канала (0, 1) 22.2-канального контента представляют собой FL и FR. Для первого OAMD-представления (dmix_pos_adj_idx=0), первые два канала (0,1) переупорядочиваются ("перемешиваются") в OAMD-каналы 15 и канал 16, соответственно. Для второго OAMD-представления (dmix_pos_adj_idx=1), первые два канала (0,1) 22.2-канального контента переупорядочиваются в подложенные OAMD-каналы L и R, соответственно. В этом примере, для первого OAMD-представления (dmix_pos_adj_idx=0), для первого выходного канала с индексом 0, чтобы ассоциировать первое OAMD-представление с ним, индекс 6 канала ввода (например, Hamasaki 22.2) переупорядочивается/перемешивается таким образом, что он становится индексом 0 канала. Другими словами, в этом примере, если левый канал (L) присутствует во входных подложенных каналах, этом левый канал в первом OAMD-представлении принудительно представляет собой первый канал (с индексом 0 канала). Все подложенные каналы, если есть, появляются в конкретном порядке, при представлении в OAMD. После того как подложенные каналы переупорядочиваются, динамические объекты переупорядочиваются как результат переупорядочения подложенных каналов. Переупорядочение удовлетворяет определенным ограничениям порядка OAMD-представления. Ограничения зависят от OAMD-спецификации, которая используется посредством OBA-устройства/системы воспроизведения. Например, для OBA-устройства/системы воспроизведения, совместимого с Dolby Atmos, OAMD, передаваемые в системах и кодеках, содержащих Dolby Atmos-контент, указываются посредством Dolby Atoms OAMD-спецификаций. Эти спецификации/ограничения определяют порядок подложенных OAMD-каналов как представляющий собой, например, то, что показано на фиг. 1A, и следующим образом, с соответствующими метками каналов в скобках: левый (L), правый (R), центральный (C), с низкочастотными эффектами (LFE), левый объемного звучания (Ls), правый объемного звучания (Rs), левый задний объемного звучания (Lrs), правый задний объемного звучания (Rrs), левый передний высокий (Lfh), правый передний высокий (Rfh), левый верхний средний (Ltm), правый верхний средний (Rtm), левый задний высокий (Lrh), правый задний высокий (Rrh) и с низкочастотными эффектами 2 (LFE2).[0058] Referring to the table in FIG. 1B, the first two channels (0, 1) of 22.2-channel content are FL and FR. For the first OAMD representation (dmix_pos_adj_idx=0), the first two channels (0,1) are reordered ("mixed") into OAMD channels 15 and channel 16, respectively. For the second OAMD representation (dmix_pos_adj_idx=1), the first two channels (0,1) of the 22.2-channel content are reordered into the overlaid OAMD channels L and R, respectively. In this example, for the first OAMD view (dmix_pos_adj_idx=0), for the first output channel at index 0, to associate the first OAMD view with it, input channel index 6 (e.g. Hamasaki 22.2) is reordered/shuffled such that it becomes channel index 0. In other words, in this example, if the left channel (L) is present in the input padded channels, then the left channel in the first OAMD representation is forced to be the first channel (with channel index 0). All spoofed channels, if any, appear in a specific order when presented to OAMD. After the padded channels are reordered, the dynamic objects are reordered as a result of the padded channels reordering. The reordering satisfies certain restrictions on the order of the OAMD representation. The restrictions depend on the OAMD specification that is used by the OBA device/playback system. For example, for an OBA device/playback system compatible with Dolby Atmos, the OAMDs transmitted in systems and codecs containing Dolby Atmos content are specified by Dolby Atoms OAMD specifications. These specifications/constraints define the order of the overlaid OAMD channels as being, for example, what is shown in FIG. 1A, and as follows, with the respective channel labels in brackets: Left (L), Right (R), Center (C), Low Frequency Effects (LFE), Surround Left (Ls), Surround Right (Rs), Left surround back (Lrs), right surround back (Rrs), left front high (Lfh), right front high (Rfh), left top middle (Ltm), right top middle (Rtm), left back high (Lrh), right rear high (Rrh) and low frequency effects 2 (LFE2).

Метаданные размерной подстройкиSizing Metadata

[0059] Фиг. 2A является таблицей, показывающей метаданные размерной подстройки, согласно варианту осуществления. Чтобы обеспечивать то, что рендеринг 22.2-канального контента в OBA-контент выполняется как тесно совпадающий с понижающими микшированиями, указываемыми посредством 22.2-канальной спецификации, метаданные размерной подстройки включаются в OAMD, которые прилагаются к 22.2-канальный контенту, доставляемому в OBA-устройство рендеринга. Подстройка объектов используется для того, чтобы понижать уровень внеэкранных элементов, которые включаются в микширование. Это может требоваться, когда иммерсивное микширование воспроизводится в схемах размещения с небольшим числом громкоговорителей.[0059] FIG. 2A is a table showing sizing metadata according to an embodiment. To ensure that rendering of 22.2-channel content to OBA content is performed as closely matching the downmixes indicated by the 22.2-channel specification, sizing metadata is included in the OAMD that is attached to the 22.2-channel content delivered to the OBA renderer. . Object trimming is used to lower the level of off-screen elements that are included in the mix. This may be required when the immersive mix is played back in layouts with a small number of speakers.

[0060] В варианте осуществления, первое поле метаданных включает в себя параметр warp_mode, который, если задан равным значению 0, указывает нормальный рендеринг (т.е. без искривления) объектов в выходных 5.1.X-конфигурациях. Если warp_mode задается равным значению "1", искривление применяется к объектам в выходной 5.1.X-конфигурации. Искривление означает то, как модуль рендеринга решает проблемы, связанные с контентом, который панорамируется между средней точкой и задней стороной окружения прослушивания (например, помещения). За счет искривления, контент представляется на постоянном уровне в динамиках объемного звучания между задней стороной и средней точкой окружения прослушивания, полностью исключая потребность в формировании фантомных изображений, до тех пор, пока он не находится в передней половине окружения прослушивания.[0060] In an embodiment, the first metadata field includes a warp_mode parameter which, if set to a value of 0, indicates normal rendering (ie, no warping) of objects in output 5.1.X configurations. If warp_mode is set to "1", warp is applied to objects in the output 5.1.X configuration. Curvature refers to how the renderer handles issues related to content being panned between the midpoint and the back of the listening environment (such as a room). By curving, content is presented at a constant level in the surround speakers between the rear side and midpoint of the listening environment, completely eliminating the need for ghost imaging until it is in the front half of the listening environment.

[0061] Второе поле метаданных в таблице метаданных размерной подстройки включает в себя средства управления подстройкой/балансом для каждой конфигурации для восьми конфигураций динамиков (например, 2.0, 5.1.0, 7.1.0, 2.1.2, 5.1.2, 7.1.2, 2.1.4, 5.1.4, 7.1.4), как показано на фиг. 2B. Предусмотрены поля метаданных для автоматической подстройки (auto_trim), подстройки по центру (center_trim), подстройки по объемному звучанию (surround_trim), подстройки по высоте (height_trim) и подстройки по балансу передних/задних каналов (fb_balance_ohfl, fb_balance_surr).[0061] The second metadata field in the sizing metadata table includes trim/balance controls for each configuration for eight speaker configurations (e.g., 2.0, 5.1.0, 7.1.0, 2.1.2, 5.1.2, 7.1.2 , 2.1.4, 5.1.4, 7.1.4), as shown in Fig. 2b. Metadata fields are provided for auto trim (auto_trim), center trim (center_trim), surround trim (surround_trim), height trim (height_trim), and front/rear balance trim (fb_balance_ohfl, fb_balance_surr).

[0062] Со ссылкой на таблицу по фиг. 2A, третье поле метаданных включает в себя параметр object_trim_bypass, который имеет значение, которое применяется ко всем подложенным и динамическим объектам в 22.2-канальном канальном контенте. Если object_trim_bypass задается равным значению "1", подстройка не применяется к подложенным и динамическим объектам.[0062] With reference to the table of FIG. 2A, the third metadata field includes an object_trim_bypass parameter which has a value that applies to all padded and dynamic objects in the 22.2 channel content. If object_trim_bypass is set to "1", trimming is not applied to inline and dynamic objects.

Объектное усилениеObject Gain

[0063] OAMD обеспечивает возможность каждому объекту иметь отдельное объектное усиление (описывается посредством поля object_gain). Это усиление применяется посредством модуля 302 рендеринга аудио объектов. Объектное усиление обеспечивает возможность компенсации разностей между значениями понижающего микширования 22.2-канального контента и рендерингом OAMD-представлений 22.2-канального контента. В варианте осуществления, объектное усиление задается равным -3 дБ для объектов с назначением подложенных каналов в LFE1 или LFE2 и равным 0 дБ для всех других объектов. Другие значения для объектного усиления могут использоваться в зависимости от варианта применения.[0063] OAMD allows each object to have a separate object gain (described by the object_gain field). This gain is applied by the audio object renderer 302 . Object Gain provides the ability to compensate for differences between 22.2-channel content downmix values and rendering OAMD representations of 22.2-channel content. In an embodiment, the object gain is set to -3 dB for objects with sub-channel assignments in LFE1 or LFE2, and to 0 dB for all other objects. Other values for object gain may be used depending on the application.

Примерные варианты примененияExemplary Applications

Прослушивание 22.2-контента в качестве OBAListening to 22.2 content as an OBA

[0064] Фиг. 3 является блок-схемой примерной системы 300 для преобразования потока 22.2-канальных аудиобитов в аудио и OAMD без использования кодирования потоков битов, согласно варианту осуществления. Система 300 используется в варианте применения, в котором 22.2-канальный контент прослушивается в качестве OBA-контента на OBA-системе воспроизведения (Dolby® Atmos®).[0064] FIG. 3 is a block diagram of an exemplary system 300 for converting a 22.2-channel audio bitstream to audio and OAMD without using bitstream coding, according to an embodiment. System 300 is used in an application in which 22.2 channel content is heard as OBA content on an OBA playback system (Dolby® Atmos®).

[0065] Система 300 включает в себя преобразователь 301 форматов и модуль 302 рендеринга аудио объектов. Преобразователь 301 форматов дополнительно включает в себя модуль 303 перемешивания аудиоканалов и генератор 304 OAMD-метаданных. Некоторые примеры OAMD-метаданных включают в себя, но не только, метаданные описания контента, метаданные обновления свойств и данные подстройки. 22.2-канальный контент 305 (например, файл или передаваемый вживую поток) включает в себя 22.2-канальные аудио и метаданные, которые вводятся в преобразователь 301 форматов. Генератор 304 OAMD-метаданных преобразует 22.2-канальные метаданные в OAMD, к примеру, в соответствии с принципами, как описано в отношении фиг. 1A, и формирует информацию перемешивания каналов. Информация перемешивания каналов описывает переупорядочение каналов 22.2-канального контента, который применяется посредством модуля 303 перемешивания аудиоканалов, к примеру, в соответствии с принципами, как описано в отношении фиг. 1B. Вывод модуля 303 перемешивания аудиоканалов представляет собой переупорядоченные аудиоканалы. Вывод преобразователя 301 форматов представляет собой переупорядоченные каналы аудио и OAMD, которые вводятся в модуль 302 рендеринга аудио объектов. Модуль 302 рендеринга аудио объектов обрабатывает аудио с использованием OAMD, чтобы адаптировать его к конкретной схеме размещения громкоговорителей.[0065] System 300 includes a format converter 301 and an audio object renderer 302 . The format converter 301 further includes an audio mixing module 303 and an OAMD metadata generator 304 . Some examples of OAMD metadata include, but are not limited to, content description metadata, property update metadata, and customization data. The 22.2-channel content 305 (eg, file or live stream) includes 22.2-channel audio and metadata that is input to the format converter 301 . The OAMD metadata generator 304 converts the 22.2-channel metadata to OAMD, for example, in accordance with the principles as described with respect to FIG. 1A and generates channel mixing information. The channel mixing information describes the channel reordering of the 22.2-channel content that is applied by the audio channel mixing unit 303, for example, in accordance with the principles as described with respect to FIG. 1b. The output of the audio channel mixing module 303 is the reordered audio channels. The output of the format converter 301 is the reordered audio and OAMD channels that are input to the audio object renderer 302 . The audio object renderer 302 processes the audio using OAMD to tailor it to a particular speaker layout.

Передача 22.2-контента в качестве OBATransferring 22.2 content as an OBA

[0066] Фиг. 4 является блок-схемой примерной системы 400 для преобразования потока 22.2-канальных аудиобитов в аудиообъекты и OAMD с использованием кодирования потоков битов, согласно варианту осуществления. В этой заявке, вместо передачи 22.2-канального контента, 22.2-канальный контент подвергается преобразованию формата и передается в качестве OBA с использованием OBA-кодека.[0066] FIG. 4 is a block diagram of an exemplary system 400 for converting a 22.2-channel audio bitstream into audio objects and OAMD using bitstream coding, according to an embodiment. In this application, instead of transmitting 22.2-channel content, 22.2-channel content is subjected to format conversion and transmitted as an OBA using an OBA codec.

[0067] Система 400 включает в себя преобразователь 401 форматов и OBA-кодер 402. Преобразователь 401 форматов дополнительно включает в себя генератор 404 OAMD-метаданных и модуль 403 перемешивания аудиоканалов. Некоторые примеры OAMD-метаданных включают в себя, но не только, метаданные описания контента, метаданные обновления свойств и данные подстройки. 22.2-канальный контент 405 (например, файл или передаваемый вживую поток) включает в себя 22.2-канальные аудио и метаданные, которые вводятся в преобразователь 401 форматов. Генератор 404 OAMD-метаданных преобразует 22.2-канальные метаданные в OAMD, к примеру, в соответствии с принципами, как описано в отношении фиг. 1A, и формирует информацию перемешивания каналов. Информация перемешивания каналов описывает переупорядочение каналов 22.2-канального контента, который применяется посредством модуля 403 перемешивания аудиоканалов, к примеру, в соответствии с принципами, как описано в отношении фиг. 1B. Вывод модуля 403 перемешивания аудиоканалов представляет собой переупорядоченные аудиоканалы.[0067] The system 400 includes a format converter 401 and an OBA encoder 402. The format converter 401 further includes an OAMD metadata generator 404 and an audio mixing module 403. Some examples of OAMD metadata include, but are not limited to, content description metadata, property update metadata, and customization data. The 22.2-channel content 405 (eg, file or live stream) includes 22.2-channel audio and metadata that is input to the format converter 401 . The OAMD metadata generator 404 converts the 22.2-channel metadata to OAMD, for example, in accordance with the principles as described with respect to FIG. 1A and generates channel mixing information. The channel mixing information describes the channel reordering of the 22.2-channel content that is applied by the audio channel mixing unit 403, for example, in accordance with the principles as described with respect to FIG. 1b. The output of the audio channel mixing module 403 is the reordered audio channels.

[0068] Вывод преобразователя 401 форматов представляет собой переупорядоченные каналы аудио и OAMD, которые вводятся в OBA-кодер 402. OBA-кодер 402 кодирует аудио с использованием OAMD (например, с использованием JOC) для того, чтобы формировать поток 406 OBA-битов, который может отправляться в OBA-устройство воспроизведения в нисходящем направлении, в котором он подготавливается посредством рендеринга посредством модуля рендеринга аудио объектов, который обрабатывает аудио, чтобы адаптировать его к конкретной схеме размещения громкоговорителей.[0068] The output of the format converter 401 is the reordered audio and OAMD channels that are input to the OBA encoder 402. The OBA encoder 402 encodes the audio using OAMD (eg, using JOC) to generate an OBA bit stream 406, which may be sent to the downstream OBA player, where it is rendered by an audio object renderer that processes the audio to adapt it to a particular speaker layout.

Преобразование передаваемого 22.2-контента в OBA для рендеринга в устройстве-источникеConverting the transmitted 22.2 content to OBA for rendering on the source device

[0069] Фиг. 5 является блок-схемой примерной системы для преобразования потока 22.2-канальных аудиобитов в аудиообъекты и OAMD для рендеринга в устройстве-источнике, согласно варианту осуществления. В этой заявке, устройство-источник, такое как абонентская приставка (STB) или записывающее аудио/видеоустройство (AVR), принимает 22.2-канальный контент из собственного потока аудиобитов, и после преобразования формата посредством преобразователя форматов, контент подготавливается посредством рендеринга с использованием модуля рендеринга аудио объектов. Примерная форманта собственного потока аудиобитов представляет собой формат потока битов по стандарту усовершенствованного кодирования аудио (AAC).[0069] FIG. 5 is a block diagram of an exemplary system for converting a 22.2-channel audio bit stream into audio objects and OAMD for rendering at a source device, according to an embodiment. In this application, a source device such as a set-top box (STB) or an audio/video recorder (AVR) receives 22.2-channel content from its own audio bit stream, and after format conversion by a format converter, the content is prepared by rendering using a renderer audio objects. An exemplary native audio bitstream formant is the Advanced Audio Coding (AAC) bitstream format.

[0070] Система 500 включает в себя преобразователь 501 форматов и модуль 502 рендеринга аудио объектов и декодер 506. Преобразователь 501 форматов дополнительно включает в себя генератор 504 OAMD-метаданных и модуль 503 перемешивания аудиоканалов. Некоторые примеры OAMD-метаданных включают в себя, но не только, метаданные описания контента, метаданные обновления свойств и данные подстройки. Поток 505 аудиобитов (например, AAC/MP4) включает в себя 22.2-канальные аудио и метаданные, которые вводятся в декодер 506 (например, в AAC/MP4-декодер). Вывод декодера 506 представляет собой 22.2-канальные аудио и метаданные, которые вводятся в преобразователь 501 форматов. Генератор 504 OAMD-метаданных преобразует 22.2-канальные метаданные в OAMD, к примеру, в соответствии с принципами, как описано в отношении фиг. 1A, и формирует информацию перемешивания каналов. Информация перемешивания каналов описывает переупорядочение каналов 22.2-канального контента, который применяется посредством модуля 503 перемешивания аудиоканалов, к примеру, в соответствии с принципами, как описано в отношении фиг. 1B. Вывод модуля 503 перемешивания аудиоканалов представляет собой переупорядоченные аудиоканалы. Вывод преобразователя 501 форматов представляет собой переупорядоченные каналы аудио и OAMD, которые вводятся в модуль 502 рендеринга аудио объектов. Модуль 502 рендеринга аудио объектов обрабатывает аудио с использованием OAMD, чтобы адаптировать его к конкретной схеме размещения громкоговорителей.[0070] The system 500 includes a format converter 501 and an audio object renderer 502 and a decoder 506. The format converter 501 further includes an OAMD metadata generator 504 and an audio channel mixing module 503. Some examples of OAMD metadata include, but are not limited to, content description metadata, property update metadata, and customization data. An audio bit stream 505 (eg, AAC/MP4) includes 22.2-channel audio and metadata that is input to a decoder 506 (eg, an AAC/MP4 decoder). The output of the decoder 506 is 22.2-channel audio and metadata that is input to the format converter 501. The OAMD metadata generator 504 converts the 22.2-channel metadata to OAMD, for example, in accordance with the principles as described with respect to FIG. 1A and generates channel mixing information. The channel mixing information describes the channel reordering of the 22.2-channel content that is applied by the audio channel mixing unit 503, for example, in accordance with the principles as described with respect to FIG. 1b. The output of the audio channel mixing module 503 is the reordered audio channels. The output of the format converter 501 is the reordered audio and OAMD channels that are input to the audio object renderer 502 . The audio object renderer 502 processes the audio using OAMD to tailor it to a particular speaker layout.

Преобразование передаваемого 22.2-контента в OBA для передачи по HDMI для внешнего рендеринга (STBA/VR/SB)Converting 22.2 transmitted content to OBA for HDMI transmission for external rendering (STBA/VR/SB)

[0071] Фиг. 6A и 6B являются блок-схемой примерной системы для преобразования потока 22.2-канальных аудиобитов в аудиообъекты и OAMD для передачи по мультимедийному интерфейсу высокой четкости (HDMI) для внешнего рендеринга, согласно варианту осуществления. В этой заявке, информация перемешивания каналов, а также OAMD формируются в кодере и пакетируются в собственном потоке аудиобитов (например, AAC), который должен передаваться. В этой конфигурации, преобразование формата, которое возникает, упрощается в модуль перемешивания аудио. Перемешиваемое аудио наряду с OAMD отправляется в OBA-кодер для передачи в потоке битов по HDMI. На стороне приемного устройства, поток битов декодируется и подготавливается посредством рендеринга посредством модуля рендеринга аудио объектов.[0071] FIG. 6A and 6B are a block diagram of an exemplary system for converting a 22.2-channel audio bit stream into audio objects and OAMD for transmission over a High Definition Multimedia Interface (HDMI) for external rendering, according to an embodiment. In this application, the channel mixing information as well as the OAMD are generated in the encoder and packetized in the native audio bit stream (eg AAC) to be transmitted. In this configuration, the format conversion that occurs is simplified into an audio mixing unit. The shuffled audio along with the OAMD is sent to the OBA encoder for bitstreaming over HDMI. On the receiver side, the bitstream is decoded and rendered by the audio object renderer.

[0072] Ссылаясь на фиг. 6A система 600A кодирования включает в себя преобразователь 601 форматов и OBA-кодер 602 и декодер 606. Преобразователь 601 форматов дополнительно включает в себя генератор 604 OAMD-метаданных и модуль 603 перемешивания аудиоканалов. Некоторые примеры OAMD-метаданных включают в себя, но не только, метаданные описания контента, метаданные обновления свойств и данные подстройки. Собственный поток 605 аудиобитов (например, AAC/MP4) включает в себя 22.2-канальные аудио и метаданные, которые вводятся в декодер 606 (например, в AAC/MP4-декодер). Вывод декодера 606 представляет собой 22.2-канальные аудио и метаданные, которые вводятся в преобразователь 601 форматов. Генератор 604 OAMD-метаданных преобразует 22.2-канальные метаданные в OAMD, к примеру, в соответствии с принципами, как описано в отношении фиг. 1A, и формирует информацию перемешивания каналов. Информация перемешивания каналов описывает переупорядочение каналов 22.2-канального контента, который применяется посредством модуля 603 перемешивания аудиоканалов, к примеру, в соответствии с принципами, как описано в отношении фиг. 1B. Вывод модуля 603 перемешивания аудиоканалов представляет собой переупорядоченные аудиоканалы. Вывод преобразователя 601 форматов представляет собой переупорядоченные каналы аудио и OAMD, которые вводятся в OBA-кодер 602. OBA-кодер 602 кодирует аудио и OAMD и выводит поток OBA-битов, который включает в себя аудио и OAMD.[0072] Referring to FIG. 6A, the encoding system 600A includes a format converter 601 and an OBA encoder 602 and a decoder 606. The format converter 601 further includes an OAMD metadata generator 604 and an audio channel mixing module 603. Some examples of OAMD metadata include, but are not limited to, content description metadata, property update metadata, and customization data. Native audio bit stream 605 (eg, AAC/MP4) includes 22.2-channel audio and metadata that is input to a decoder 606 (eg, AAC/MP4 decoder). The output of the decoder 606 is 22.2-channel audio and metadata that is input to the format converter 601 . The OAMD metadata generator 604 converts the 22.2-channel metadata to OAMD, for example, in accordance with the principles as described with respect to FIG. 1A and generates channel mixing information. The channel mixing information describes the channel reordering of the 22.2-channel content that is applied by the audio channel mixing unit 603, for example, in accordance with the principles as described with respect to FIG. 1b. The output of the audio channel mixing module 603 is the reordered audio channels. The output of the format converter 601 is the reordered audio and OAMD channels that are input to the OBA encoder 602. The OBA encoder 602 encodes the audio and OAMD and outputs an OBA bit stream that includes audio and OAMD.

[0073] Ссылаясь на фиг. 6B, система 600B декодирования включает в себя OBA-декодер 607 и модуль 608 рендеринга аудио объектов. Поток OBA-битов вводится в OBA-декодер 607, который выводит аудио и OAMD, которые вводятся в модуль 608 рендеринга аудио объектов. Модуль 608 рендеринга аудио объектов обрабатывает аудио с использованием OAMD, чтобы адаптировать его к конкретной схеме размещения громкоговорителей.[0073] Referring to FIG. 6B, the decoding system 600B includes an OBA decoder 607 and an audio object renderer 608. The OBA bit stream is input to the OBA decoder 607, which outputs audio and OAMD, which are input to the audio object renderer 608 . The audio object renderer 608 processes the audio using OAMD to tailor it to a particular speaker layout.

Передача предварительно вычисленных 22.2-OAMD через собственный поток битов для передачи по HDMITransmission of pre-calculated 22.2-OAMD via proprietary HDMI bitstream

[0074] Фиг. 7A-7C являются блок-схемами примерных систем для преобразования потока 22.2-канальных аудиобитов в аудиообъекты и OAMD, при этом информация перемешивания каналов и OAMD пакетируются в собственном потоке аудиобитов, согласно варианту осуществления. В предыдущих примерных вариантах применения, OAMD формируются после декодера (например, AAC-декодера). Тем не менее, можно встраивать информацию перемешивания каналов и OAMD в формат передачи (в собственном потоке аудиобитов или в транспортном слое), в качестве альтернативного варианта осуществления. В этой заявке, информация перемешивания каналов, а также OAMD формируются в кодере и пакетируются в собственном потоке аудиобитов (например, в потоке AAC-битов), который должен передаваться. В этой конфигурации, преобразование формата, которое возникает, упрощается в модуль перемешивания аудио. Перемешиваемое аудио наряду с OAMD отправляется в OBA-кодер для передачи по HDMI. На приемной стороне, поток OBA-битов декодируется и подготавливается посредством рендеринга с использованием модуля рендеринга аудио объектов.[0074] FIG. 7A-7C are block diagrams of exemplary systems for converting a 22.2-channel audio bit stream into audio objects and OAMD, wherein the channel mixing and OAMD information is packaged in a native audio bit stream, according to an embodiment. In the previous exemplary applications, OAMDs are generated after a decoder (eg, an AAC decoder). However, it is possible to embed the channel mixing and OAMD information in the transmission format (in the native audio bitstream or in the transport layer), as an alternative implementation. In this application, the channel mixing information as well as the OAMD are generated in the encoder and packetized in the native audio bitstream (eg, AAC bitstream) to be transmitted. In this configuration, the format conversion that occurs is simplified into an audio mixing unit. The shuffled audio along with the OAMD is sent to the OBA encoder for transmission over HDMI. On the receiving side, the OBA bit stream is decoded and rendered using an audio object renderer.

[0075] Ссылаясь на фиг. 7A, система 700A кодирования включает в себя кодер 701 (например, AAC-кодер) и мультиплексор 706 транспортного слоя. Кодер 701 дополнительно включает в себя базовый кодер 702, преобразователь 703 форматов и модуль 705 пакетирования потоков битов. Преобразователь 703 форматов дополнительно включает в себя генератор 704 OAMD-метаданных, который, например, может представлять собой генератор Dolby Atmos-метаданных. Некоторые примеры OAMD-метаданных включают в себя, но не только, метаданные описания контента, метаданные обновления свойств и данные подстройки.[0075] Referring to FIG. 7A, encoding system 700A includes an encoder 701 (eg, an AAC encoder) and a transport layer mux 706. The encoder 701 further includes a core encoder 702, a format converter 703, and a bitstream packetizer 705. The format converter 703 further includes an OAMD metadata generator 704, which may be a Dolby Atmos metadata generator, for example. Some examples of OAMD metadata include, but are not limited to, content description metadata, property update metadata, and customization data.

[0076] Собственный поток 707 аудиобитов (например, AAC/MP4) включает в себя 22.2-канальные аудио и метаданные. Аудио вводится в базовый кодер 702 кодера 701, который кодирует аудио в собственный аудиоформат и выводит кодированное аудио в модуль 705 пакетирования потоков битов. Генератор 704 OAMD-метаданных преобразует 22.2-канальные метаданные в OAMD, к примеру, в соответствии с принципами, как описано в отношении фиг. 1A, и формирует информацию перемешивания каналов. Информация перемешивания каналов описывает переупорядочение каналов 22.2-канального контента, к примеру, в соответствии с принципами, как описано в отношении фиг. 1B. Информация перемешивания каналов вводится в модуль 705 пакетирования потоков битов вместе с OAMD. Вывод модуля 705 пакетирования потоков битов представляет собой собственный поток аудиобитов, который включает в себя информацию перемешивания каналов и OAMD. Собственный поток аудиобитов вводится в мультиплексор 706 транспортного слоя, который выводит транспортный поток, который включает в себя собственный поток аудиобитов.[0076] Native audio bit stream 707 (eg, AAC/MP4) includes 22.2-channel audio and metadata. The audio is input to the base encoder 702 of the encoder 701, which encodes the audio into a native audio format and outputs the encoded audio to the bitstream packetizer 705 . The OAMD metadata generator 704 converts the 22.2-channel metadata to OAMD, for example, in accordance with the principles as described with respect to FIG. 1A and generates channel mixing information. The channel mixing information describes channel reordering of 22.2-channel content, for example, in accordance with the principles as described with respect to FIG. 1b. The channel mixing information is input to the bit stream packetizer 705 along with the OAMD. The output of the bitstream packetizer 705 is a native audio bitstream that includes channel mixing and OAMD information. The native audio bit stream is input to the transport layer multiplexer 706, which outputs a transport stream that includes the native audio bit stream.

[0077] Ссылаясь на фиг. 7B, система 700B декодирования/кодирования включает в себя демультиплексор 708 транспортного слоя, декодер 709, модуль 710 перемешивания аудиоканалов и OBA-кодер 711. Демультиплексор 708 транспортного слоя демультиплексирует аудио и OAMD из потока транспортных битов и вводит аудио и OAMD в декодер 709, который декодирует аудио и OAMD из собственного потока аудиобитов. Декодированное аудио и OAMD затем вводятся в OBA-кодер 711, который кодирует аудио и OAMD в поток OBA-битов.[0077] Referring to FIG. 7B, the decoding/encoding system 700B includes a transport layer demultiplexer 708, a decoder 709, an audio mixing unit 710, and an OBA encoder 711. The transport layer demultiplexer 708 demultiplexes the audio and OAMD from the transport bit stream and inputs the audio and OAMD to the decoder 709, which decodes audio and OAMD from native audio bitstream. The decoded audio and OAMD are then input to an OBA encoder 711, which encodes the audio and OAMD into an OBA bitstream.

[0078] Ссылаясь на фиг. 7C, система 700C декодирования включает в себя OBA-декодер 712 и модуль 713 рендеринга аудио объектов. Поток OBA-битов вводится в OBA-декодер 712, который выводит аудио и OAMD, которые вводятся в модуль 713 рендеринга аудио объектов. Модуль 713 рендеринга аудио объектов обрабатывает аудио с использованием OAMD, чтобы адаптировать его к конкретной схеме размещения громкоговорителей.[0078] Referring to FIG. 7C, the decoding system 700C includes an OBA decoder 712 and an audio object renderer 713. The OBA bit stream is input to the OBA decoder 712, which outputs audio and OAMD, which are input to the audio object renderer 713 . The audio object renderer 713 processes the audio using OAMD to tailor it to a particular speaker layout.

Передача предварительно вычисленных OAMD для рендеринга в устройстве-источникеPassing precomputed OAMDs for rendering on the source device

[0079] Фиг. 8A и 8B являются блок-схемами примерных систем для преобразования потока 22.2-канальных аудиобитов в аудиообъекты и OAMD, при этом информация перемешивания каналов и OAMD пакетируются в собственном потоке аудиобитов для рендеринга в устройстве-источнике, согласно варианту осуществления. В этой заявке, информация перемешивания каналов, а также OAMD формируются в кодере и пакетируются в собственном потоке аудиобитов (например, в потоке AAC-битов), который должен передаваться через транспортный слой. В этой конфигурации, преобразование формата, которое возникает, упрощается в модуль перемешивания аудио. Перемешиваемое аудио наряду с OAMD отправляется в модуль рендеринга аудио объектов для рендеринга.[0079] FIG. 8A and 8B are block diagrams of exemplary systems for converting a 22.2-channel audio bit stream into audio objects and OAMD, where the churn information and OAMD are packaged in a native audio bit stream for rendering at a source device, according to an embodiment. In this application, the channel mixing information as well as the OAMD are generated in the encoder and packetized in the native audio bit stream (eg, AAC bit stream) to be transmitted through the transport layer. In this configuration, the format conversion that occurs is simplified into an audio mixing unit. The shuffled audio along with the OAMD is sent to the audio object renderer for rendering.

[0080] Ссылаясь на фиг. 8A, система 800A кодирования включает в себя кодер 801 (например, AAC-кодер) и мультиплексор 807 транспортного слоя. Кодер 801 дополнительно включает в себя базовый кодер 803, преобразователь 802 форматов и модуль 805 пакетирования потоков битов. Преобразователь 802 форматов дополнительно включает в себя генератор 804 OAMD-метаданных, который, например, может представлять собой генератор Dolby Atmos-метаданных. Некоторые примеры OAMD-метаданных включают в себя, но не только, метаданные описания контента, метаданные обновления свойств и данные подстройки.[0080] Referring to FIG. 8A, encoding system 800A includes an encoder 801 (eg, an AAC encoder) and a transport layer mux 807. The encoder 801 further includes a core encoder 803, a format converter 802, and a bitstream packetizer 805. The format converter 802 further includes an OAMD metadata generator 804, which may be a Dolby Atmos metadata generator, for example. Some examples of OAMD metadata include, but are not limited to, content description metadata, property update metadata, and customization data.

[0081] Собственный поток 806 аудиобитов (например, AAC/MP4) включает в себя 22.2-канальные аудио и метаданные. Аудио вводится в базовый кодер 803 кодера 801, который кодирует аудио в собственный аудиоформат и выводит кодированное аудио в модуль 805 пакетирования потоков битов. Генератор 804 OAMD-метаданных преобразует 22.2-канальные метаданные в OAMD, к примеру, в соответствии с принципами, как описано в отношении фиг. 1A, и формирует информацию перемешивания каналов. Информация перемешивания каналов описывает переупорядочение каналов 22.2-канального контента, к примеру, в соответствии с принципами, как описано в отношении фиг. 1B. Информация перемешивания каналов вводится в модуль 805 пакетирования потоков битов вместе с OAMD. Вывод модуля 805 пакетирования потоков битов представляет собой собственный поток аудиобитов, который включает в себя информацию перемешивания каналов и OAMD. Собственный поток аудиобитов вводится в мультиплексор 807 транспортного слоя, который выводит транспортный поток, который включает в себя собственный поток аудиобитов.[0081] Native audio bit stream 806 (eg, AAC/MP4) includes 22.2-channel audio and metadata. The audio is input to the base encoder 803 of the encoder 801, which encodes the audio into a native audio format and outputs the encoded audio to the bitstream packetizer 805. The OAMD metadata generator 804 converts the 22.2-channel metadata to OAMD, for example, in accordance with the principles as described with respect to FIG. 1A and generates channel mixing information. The channel mixing information describes channel reordering of 22.2-channel content, for example, in accordance with the principles as described with respect to FIG. 1b. The channel mixing information is input to the bit stream packetizer 805 along with the OAMD. The output of the bitstream packetizer 805 is a native audio bitstream that includes channel mixing and OAMD information. The native audio bit stream is input to the transport layer multiplexer 807, which outputs a transport stream that includes the native audio bit stream.

[0082] Ссылаясь на фиг. 8B, система 800B декодирования включает в себя демультиплексор 808 транспортного слоя, декодер 809, модуль 810 перемешивания аудиоканалов и модуль 811 рендеринга аудио объектов. Демультиплексор 808 транспортного слоя демультиплексирует аудио и OAMD из потока транспортных битов и вводит аудио и OAMD в декодер 809, который декодирует аудио и OAMD из собственного потока аудиобитов. Декодированное аудио и OAMD затем вводятся в модуль 811 рендеринга аудио объектов. Модуль 811 рендеринга аудио объектов обрабатывает аудио с использованием OAMD, чтобы адаптировать его к конкретной схеме размещения громкоговорителей.[0082] Referring to FIG. 8B, the decoding system 800B includes a transport layer demultiplexer 808, a decoder 809, an audio mixing unit 810, and an audio object rendering unit 811. The transport layer demultiplexer 808 demultiplexes the audio and OAMD from the transport bit stream and inputs the audio and OAMD to a decoder 809 which decodes the audio and OAMD from the native audio bit stream. The decoded audio and OAMD are then input to the audio object renderer 811 . The audio object renderer 811 processes the audio using OAMD to adapt it to a particular speaker layout.

Передача предварительно вычисленных OAMD через транспортный слой для передачи по HDMITransfer of precomputed OAMDs through the transport layer for transmission over HDMI

[0083] Фиг. 9A-9C являются блок-схемами примерных систем для преобразования потока 22.2-канальных аудиобитов в аудиообъекты и OAMD, при этом информация перемешивания каналов и OAMD встраиваются в транспортный слой для доставки в устройства-источники и затем пакетируются в собственном потоке аудиобитов для передачи по HDMI, согласно варианту осуществления.[0083] FIG. 9A-9C are block diagrams of exemplary systems for converting a 22.2-channel audio bit stream into audio objects and OAMD, where the channel mixing and OAMD information is embedded in the transport layer for delivery to source devices and then packaged in the native audio bit stream for transmission over HDMI, according to the embodiment.

[0084] OAMD, используемые для того, чтобы представлять 22.2-канальный контент, являются статическими для программы. По этой причине, желательно не допускать частой отправки OAMD, чтобы не допускать того, что скорость передачи данных увеличивается в потоке аудиобитов. Это может достигаться посредством отправки статических OAMD и информации перемешивания каналов в транспортном слое и передаваться в транспортном слое. При приеме, OAMD и информация перемешивания каналов используются посредством OBA-кодера для последующей передачи по HDMI. Примерный транспортный слой представляет собой базовый формат мультимедийных файлов (BMFF), описанный в ISO/IEC 14496-12-MPEG-4 Часть 12, который задает общую структуру для временных мультимедийных файлов, к примеру, видео и аудио. В варианте осуществления, который использует MPEG DASH, OAMD включаются в манифест.[0084] The OAMDs used to represent 22.2-channel content are static to the program. For this reason, it is desirable to prevent the OAMD from being sent frequently so as to prevent the data rate from increasing in the audio bitstream. This can be achieved by sending static OAMD and channel mixing information in the transport layer and transmitted in the transport layer. On reception, OAMD and channel mixing information are used by the OBA encoder for subsequent transmission over HDMI. An exemplary transport layer is the Basic Media File Format (BMFF) described in ISO/IEC 14496-12-MPEG-4 Part 12, which defines a common structure for temporary media files such as video and audio. In an embodiment that uses MPEG DASH, the OAMDs are included in the manifest.

[0085] Ссылаясь на фиг. 9A, система 900A кодирования включает в себя кодер 902 (например, AAC-кодер), преобразователь 905 форматов и мультиплексор 903 транспортного слоя. Преобразователь 905 форматов дополнительно включает в себя генератор 904 OAMD-метаданных. Некоторые примеры OAMD-метаданных включают в себя, но не только, метаданные описания контента, метаданные обновления свойств и данные подстройки.[0085] Referring to FIG. 9A, encoding system 900A includes an encoder 902 (eg, an AAC encoder), a format converter 905, and a transport layer multiplexer 903. The format converter 905 further includes an OAMD metadata generator 904 . Some examples of OAMD metadata include, but are not limited to, content description metadata, property update metadata, and customization data.

[0086] Собственный поток 901 аудиобитов (например, AAC/MP4) включает в себя 22.2-канальные аудио и метаданные. Аудио вводится в кодер 902, который кодирует аудио в собственный аудиоформат и выводит кодированное аудио в мультиплексор 903 транспортного слоя. Генератор 904 OAMD-метаданных преобразует 22.2-канальные метаданные в OAMD, к примеру, в соответствии с принципами, как описано в отношении фиг. 1A, и формирует информацию перемешивания каналов. Информация перемешивания каналов описывает переупорядочение каналов 22.2-канального контента, к примеру, в соответствии с принципами, как описано в отношении фиг. 1B. Информация перемешивания каналов вводится в мультиплексор 903 транспортного слоя вместе с OAMD. Вывод мультиплексора 903 транспортного слоя представляет собой поток транспортных битов (например, транспортный MPEG-2-поток) или пакетный файл (например, ISO BMFF-файл) либо описание мультимедийного представления (например, MPEG-DASH-манифест), которое включает в себя собственный поток аудиобитов.[0086] Native audio bit stream 901 (eg, AAC/MP4) includes 22.2-channel audio and metadata. The audio is input to an encoder 902 which encodes the audio into a native audio format and outputs the encoded audio to a transport layer multiplexer 903 . The OAMD metadata generator 904 converts the 22.2-channel metadata to OAMD, for example, in accordance with the principles as described with respect to FIG. 1A and generates channel mixing information. The channel mixing information describes the channel reordering of the 22.2-channel content, for example, in accordance with the principles as described with respect to FIG. 1b. The channel mixing information is input to the transport layer multiplexer 903 along with the OAMD. The output of the transport layer multiplexer 903 is a transport bit stream (eg, an MPEG-2 transport stream) or a batch file (eg, an ISO BMFF file) or a description of the media representation (eg, an MPEG-DASH manifest) that includes its own stream of audio bits.

[0087] Ссылаясь на фиг. 9B, система 900B декодирования включает в себя демультиплексор 906 транспортного слоя, декодер 907, модуль 908 перемешивания аудиоканалов и OBA-кодер 909. Демультиплексор 906 транспортного слоя демультиплексирует аудио, информацию перемешивания каналов и OAMD из потока транспортных битов. Декодированное аудио вводится в поток аудиобитов в декодере 907 (например, в AAC-декодере), который декодирует аудио, чтобы восстанавливать (т.е. определять или извлекать) собственный поток аудиобитов. Собственный поток аудиобитов затем вводится в модуль 908 перемешивания аудиоканалов вместе с информацией перемешивания каналов, выводимой посредством демультиплексора 906 транспортного слоя. Аудио с переупорядоченными каналами выводится из модуля 908 перемешивания аудиоканалов и вводится в OBA-кодер 909 вместе с OAMD. Вывод OBA-кодера представляет собой поток OBA-битов.[0087] Referring to FIG. 9B, decoding system 900B includes a transport layer demultiplexer 906, a decoder 907, an audio mixing module 908, and an OBA encoder 909. The transport layer demultiplexer 906 demultiplexes the audio, channel mixing information, and OAMD from the transport bitstream. The decoded audio is input to the audio bitstream at a decoder 907 (eg, an AAC decoder) that decodes the audio to reconstruct (ie, determine or extract) its own audio bitstream. The native audio bit stream is then input to the audio mixing module 908 along with the channel mixing information output by the transport layer demultiplexer 906 . Reordered audio is output from the audio channel mixing module 908 and input to the OBA encoder 909 along with the OAMD. The output of the OBA encoder is a stream of OBA bits.

[0088] Ссылаясь на фиг. 9C, система 900C декодирования включает в себя OBA-декодер 910 и модуль 911 рендеринга аудио объектов. Поток OBA-битов вводится в OBA-декодер 910, который выводит аудио и OAMD, которые вводятся в модуль 911 рендеринга аудио объектов. Модуль 911 рендеринга аудио объектов обрабатывает аудио с использованием OAMD, чтобы адаптировать его к конкретной схеме размещения громкоговорителей.[0088] Referring to FIG. 9C, the decoding system 900C includes an OBA decoder 910 and an audio object renderer 911. The OBA bit stream is input to the OBA decoder 910, which outputs audio and OAMD, which are input to the audio object renderer 911 . The audio object renderer 911 processes the audio using OAMD to adapt it to a particular speaker layout.

Передача предварительно вычисленных OAMD через транспортный слой для рендеринга в устройстве-источникеPassing precomputed OAMDs through the transport layer for rendering on the source device

[0089] Фиг. 10A и 10B являются блок-схемами примерных систем для преобразования потока 22.2-канальных аудиобитов в аудиообъекты и OAMD, при этом информация перемешивания каналов и OAMD встраиваются в транспортный слой для рендеринга в устройствах-источниках (например, STB, AVR), согласно варианту осуществления. OAMD, используемые для того, чтобы представлять 22.2-канальный контент, являются статическими для программы. По этой причине, желательно не допускать частой отправки OAMD, чтобы не допускать того, что скорость передачи данных увеличивается в потоке аудиобитов. Это может достигаться посредством отправки статических OAMD и информации перемешивания каналов в транспортном слое и передаваться в транспортном слое. При приеме, OAMD и информация перемешивания каналов используются посредством модуля рендеринга аудио объектов для рендеринга контента. Примерный транспортный слой представляет собой базовый формат мультимедийных файлов (BMFF), описанный в ISO/IEC 14496-12-MPEG-4 Часть 12, который задает общую структуру для временных мультимедийных файлов, к примеру, видео и аудио. В варианте осуществления, OAMD включаются в MPEG-DASH-манифест.[0089] FIG. 10A and 10B are block diagrams of exemplary systems for converting a 22.2-channel audio bitstream into audio objects and OAMD, with channel mixing information and OAMD embedded in the transport layer for rendering in source devices (e.g., STB, AVR), according to an embodiment. The OAMDs used to represent 22.2 channel content are static to the program. For this reason, it is desirable to prevent the OAMD from being sent frequently so as to prevent the data rate from increasing in the audio bit stream. This can be achieved by sending static OAMD and channel mixing information in the transport layer and transmitted in the transport layer. On reception, the OAMD and channel mixing information are used by the audio object renderer to render the content. An exemplary transport layer is the Basic Media File Format (BMFF) described in ISO/IEC 14496-12-MPEG-4 Part 12, which defines a common structure for temporary media files such as video and audio. In an embodiment, the OAMDs are included in the MPEG-DASH manifest.

[0090] Ссылаясь на фиг. 10A система 1000A кодирования включает в себя кодер 1001 (например, AAC-кодер), преобразователь 1002 форматов и мультиплексор 1004 транспортного слоя. Преобразователь 1002 форматов дополнительно включает в себя генератор 1003 OAMD-метаданных. Некоторые примеры OAMD-метаданных включают в себя, но не только, метаданные описания контента, метаданные обновления свойств и данные подстройки.[0090] Referring to FIG. 10A, encoding system 1000A includes an encoder 1001 (eg, an AAC encoder), a format converter 1002, and a transport layer multiplexer 1004. The format converter 1002 further includes an OAMD metadata generator 1003 . Some examples of OAMD metadata include, but are not limited to, content description metadata, property update metadata, and customization data.

[0091] Собственный поток 1005 аудиобитов (например, AAC/MP4) включает в себя 22.2-канальные аудио и метаданные. Аудио вводится в кодер 1001, который кодирует аудио в собственный аудиоформат и выводит кодированное аудио в мультиплексор 1004 транспортного слоя. Генератор 1003 OAMD-метаданных преобразует 22.2-канальные метаданные в OAMD, к примеру, в соответствии с принципами, как описано в отношении фиг. 1A, и формирует информацию перемешивания каналов. Информация перемешивания каналов описывает переупорядочение каналов 22.2-канального контента, к примеру, в соответствии с принципами, как описано в отношении фиг. 1B. Информация перемешивания каналов вводится в мультиплексор 1004 транспортного слоя вместе с OAMD. Вывод мультиплексора 1004 транспортного слоя представляет собой транспортный поток, который включает в себя собственный поток аудиобитов.[0091] Native audio bit stream 1005 (eg, AAC/MP4) includes 22.2-channel audio and metadata. The audio is input to an encoder 1001 which encodes the audio into a native audio format and outputs the encoded audio to a transport layer multiplexer 1004. The OAMD metadata generator 1003 converts the 22.2-channel metadata to OAMD, for example, in accordance with the principles as described with respect to FIG. 1A and generates channel mixing information. The channel mixing information describes the channel reordering of the 22.2-channel content, for example, in accordance with the principles as described with respect to FIG. 1b. The channel mixing information is input to the transport layer multiplexer 1004 along with the OAMD. The output of transport layer multiplexer 1004 is a transport stream that includes its own audio bit stream.

[0092] Ссылаясь на фиг. 10B, система 1000B декодирования включает в себя демультиплексор 1006 транспортного слоя, декодер 1007, модуль 1008 перемешивания аудиоканалов и модуль 1009 рендеринга аудио объектов. Демультиплексор 1006 транспортного слоя демультиплексирует аудио и OAMD из потока транспортных битов и вводит аудио и OAMD в декодер 1007, который декодирует аудио и OAMD из собственного потока аудиобитов. Декодированное аудио и OAMD затем вводятся в модуль 1009 рендеринга аудио объектов. Модуль 1009 рендеринга аудио объектов обрабатывает аудио с использованием OAMD, чтобы адаптировать его к конкретной схеме размещения громкоговорителей.[0092] Referring to FIG. 10B, the decoding system 1000B includes a transport layer demultiplexer 1006, a decoder 1007, an audio mixing unit 1008, and an audio object rendering unit 1009. The transport layer demultiplexer 1006 demultiplexes the audio and OAMD from the transport bitstream and inputs the audio and OAMD to a decoder 1007 which decodes the audio and OAMD from the native audio bitstream. The decoded audio and OAMD are then input to the audio object renderer 1009 . The audio object renderer 1009 processes the audio using OAMD to tailor it to a particular speaker layout.

Примерный процессSample Process

[0093] Фиг. 11 является блок-схемой последовательности операций способа для процесса 1100 CBA-OBA-преобразования. Процесс 1100 может реализовываться с использованием архитектуры аудиосистемы, показанной на фиг. 3. Процесс 1100 включает в себя прием потока битов, включающего в себя канально-ориентированное аудио и метаданные (1101), синтаксический анализ параметра передачи служебных сигналов из потока битов, указывающего OAMD-представление (1102), преобразование канально-ориентированных метаданных в OAMD на основе передаваемого в служебных сигналах OAMD-представления (1103), формирование информации перемешивания каналов на основе ограничений упорядочения OAMD (1104), переупорядочивание каналов канально-ориентированного аудио на основе информации перемешивания каналов (1105) и подготовку посредством рендеринга переупорядоченного канально-ориентированного аудио с использованием OAMD (1106). Вышеприведенные этапы 1103 и 1104 могут выполняться с использованием, например, OAMD-представлений и назначений/упорядочения подложенных каналов, показанных на фиг. 1A и 1B, соответственно, и архитектуры аудиосистемы, показанной на фиг. 3. Некоторые примеры OAMD-метаданных включают в себя, но не только, метаданные описания контента, метаданные обновления свойств и данные подстройки.[0093] FIG. 11 is a flowchart for a CBA-OBA conversion process 1100. Process 1100 may be implemented using the audio system architecture shown in FIG. 3. Process 1100 includes receiving a bitstream including channel-specific audio and metadata (1101), parsing a signaling parameter from the bitstream indicating an OAMD representation (1102), converting the channel-oriented metadata to OAMD to based on the signaled OAMD representation (1103), generating channel mixing information based on the OAMD ordering constraints (1104), channel reordering of the channel based audio based on the channel mixing information (1105), and preparing by rendering the reordered channel based audio using OAMD (1106). Steps 1103 and 1104 above may be performed using, for example, the OAMD representations and sub-channel assignments/ordering shown in FIG. 1A and 1B, respectively, and the audio system architecture shown in FIG. 3. Some examples of OAMD metadata include, but are not limited to, content description metadata, property update metadata, and customization data.

[0094] Фиг. 12 является блок-схемой последовательности операций способа для процесса 1200 CBA-OBA-преобразования. Процесс 1200 может реализовываться с использованием архитектуры аудиосистемы, показанной на фиг. 4. Процесс 1200 включает в себя прием потока битов, включающего в себя канально-ориентированное аудио и метаданные (1201), синтаксический анализ параметра передачи служебных сигналов из потока битов, указывающего OAMD-представление (1202), преобразование канально-ориентированных метаданных в OAMD на основе передаваемого в служебных сигналах OAMD-представления (1203), формирование информации перемешивания каналов на основе ограничений упорядочения OAMD (1204), переупорядочивание каналов канально-ориентированного аудио на основе информации перемешивания каналов (1205) и кодирование переупорядоченного канально-ориентированного аудио и OAMD в поток OBA-битов (1206) для передачи в устройство воспроизведения, при этом аудио подготавливается посредством рендеринга посредством модуля рендеринга аудио объектов с использованием OAMD. Вышеприведенные этапы 1203 и 1205 могут выполняться с использованием, например, OAMD-представлений и назначений/упорядочения подложенных каналов, показанных на фиг. 1A и 1B, соответственно, и архитектуры аудиосистемы, показанной на фиг. 4. Некоторые примеры OAMD-метаданных включают в себя, но не только, метаданные описания контента, метаданные обновления свойств и данные подстройки.[0094] FIG. 12 is a flowchart for a CBA-OBA conversion process 1200. Process 1200 may be implemented using the audio system architecture shown in FIG. 4. Process 1200 includes receiving a bitstream including channel-specific audio and metadata (1201), parsing a signaling parameter from the bitstream indicating an OAMD representation (1202), converting the channel-oriented metadata to OAMD to based on the signaled OAMD representation (1203), generation of channel mixing information based on OAMD ordering constraints (1204), channel reordering of the channel based audio based on the channel mixing information (1205), and encoding of the reordered channel specific audio and OAMD into a stream OBA bits (1206) for transmission to the playback device, wherein the audio is prepared by rendering by an audio object renderer using OAMD. Steps 1203 and 1205 above may be performed using, for example, the OAMD representations and sub-channel assignments/ordering shown in FIG. 1A and 1B, respectively, and the audio system architecture shown in FIG. 4. Some examples of OAMD metadata include, but are not limited to, content description metadata, property update metadata, and customization data.

[0095] Фиг. 13 является блок-схемой последовательности операций способа для процесса 1300 CBA-OBA-преобразования. Процесс 1300 может реализовываться с использованием архитектуры аудиосистемы, показанной на фиг. 5. Процесс 1300 включает в себя прием собственного потока аудиобитов, включающего в себя канально-ориентированное аудио и метаданные в собственном аудиоформате (1301), декодирование собственного потока аудиобитов для того, чтобы восстанавливать канально-ориентированное аудио и метаданные (1302), синтаксический анализ параметра передачи служебных сигналов из потока битов, указывающего OAMD-представление (1303), преобразование канально-ориентированных метаданных в OAMD на основе передаваемого в служебных сигналах OAMD-представления (1304), формирование информации перемешивания каналов на основе ограничений упорядочения OAMD (1305), переупорядочивание каналов канально-ориентированного аудио на основе информации перемешивания каналов (1306), подготовку посредством рендеринга переупорядоченного канально-ориентированного аудио с использованием OAMD (1307). Этапы 1304 и 1305 могут выполняться с использованием, например, OAMD-представлений и назначений/упорядочения подложенных каналов, показанных на фиг. 1A и 1B, соответственно, и архитектуры аудиосистемы, показанной на фиг. 5.[0095] FIG. 13 is a flowchart for a CBA-OBA conversion process 1300. Process 1300 may be implemented using the audio system architecture shown in FIG. 5. Process 1300 includes receiving a native audio bit stream including channel-specific audio and metadata in a native audio format (1301), decoding the native audio bitstream to recover the channel-specific audio and metadata (1302), parsing the parameter signaling from a bitstream indicating an OAMD representation (1303), transforming channel-specific metadata to OAMD based on the signaled OAMD representation (1304), generating channel mixing information based on OAMD ordering constraints (1305), reordering channels channel oriented audio based on the channel mixing information (1306), preparing by rendering the reordered channel oriented audio using OAMD (1307). Steps 1304 and 1305 may be performed using, for example, the OAMD representations and sub-channel assignments/sequencing shown in FIG. 1A and 1B, respectively, and the audio system architecture shown in FIG. 5.

[0096] Фиг. 14 является блок-схемой последовательности операций способа для процесса 1400 CBA-OBA-преобразования. Процесс 1400 может реализовываться с использованием архитектуры аудиосистемы, показанной на фиг. 6A и 6B. Процесс 1400 начинается посредством приема собственного потока аудиобитов, включающего в себя канально-ориентированное аудио и метаданные в собственном аудиоформате (1401), декодирования собственного потока аудиобитов для того, чтобы восстанавливать, т.е. определять или извлекать, канально-ориентированное аудио и метаданные (1402), синтаксического анализа параметра передачи служебных сигналов из потока битов, указывающего OAMD-представление (1403), и преобразования канально-ориентированных метаданных в OAMD на основе передаваемого в служебных сигналах OMD-представления (1404), формирования информации перемешивания каналов на основе ограничений упорядочения OAMD (1405), переупорядочивания каналов канально-ориентированного аудио на основе информации перемешивания каналов (1406), кодирования переупорядоченного канально-ориентированного аудио и OAMD в поток OBA-битов (1407) для передачи в устройство воспроизведения, при этом аудио подготавливается посредством рендеринга посредством модуля рендеринга аудио объектов с использованием OAMD. Этапы 1404 и 1405 могут выполняться с использованием, например, OAMD-представлений и назначений/упорядочения подложенных каналов, показанных на фиг. 1A и 1B, соответственно, и архитектуры аудиосистемы, показанной на фиг. 6A и 6B.[0096] FIG. 14 is a flowchart for a CBA-OBA conversion process 1400. Process 1400 may be implemented using the audio system architecture shown in FIG. 6A and 6B. Process 1400 begins by receiving a native audio bitstream including channel-specific audio and metadata in a native audio format (1401), decoding the native audio bitstream in order to recover, i.e. determine, or extract, the channel-specific audio and metadata (1402), parse the signaling parameter from the bitstream indicating the OAMD representation (1403), and convert the channel-oriented metadata to OAMD based on the signaled OMD representation ( 1404), generation of channel mixing information based on OAMD ordering constraints (1405), channel reordering of channel oriented audio based on channel mixing information (1406), encoding of the reordered channel oriented audio and OAMD into an OBA bit stream (1407) for transmission to a playback device, wherein the audio is prepared by rendering by an audio object renderer using OAMD. Steps 1404 and 1405 may be performed using, for example, the OAMD representations and sub-channel assignments/sequencing shown in FIG. 1A and 1B, respectively, and the audio system architecture shown in FIG. 6A and 6B.

[0097] Фиг. 15 является блок-схемой последовательности операций способа для процесса 1500 CBA-OBA-преобразования. Процесс 1500 может реализовываться с использованием архитектуры аудиосистемы, показанной на фиг. 7A-7C. Процесс 1500 начинается посредством приема потока канально-ориентированных аудиобитов, включающего в себя канально-ориентированное аудио и метаданные (1501), кодирования канально-ориентированного аудио в собственный поток аудиобитов (1502), синтаксического анализа параметра передачи служебных сигналов из канально-ориентированных метаданных, указывающих OAMD-представление (1503), преобразования канально-ориентированных метаданных в OAMD на основе передаваемого в служебных сигналах OMD-представления (1504), формирования информации перемешивания каналов на основе ограничений упорядочения OAMD (1505), комбинирования собственного потока аудиобитов, информации перемешивания каналов и OAMD в комбинированный поток аудиобитов (1506), включения комбинированного потока аудиобитов в поток битов транспортного слоя (1507) для передачи в устройство воспроизведения для рендеринга или в устройство-источник для рендеринга (например, STB, AVR). Подробности вышеобозначенных этапов описаны в отношении фиг. 1A, 1B, 7A, 7C, 8A, 8B, 9A-9C, 10A и 10B.[0097] FIG. 15 is a flowchart for a CBA-OBA conversion process 1500. Process 1500 may be implemented using the audio system architecture shown in FIG. 7A-7C. Process 1500 begins by receiving a channel-based audio bit stream including channel-based audio and metadata (1501), encoding the channel-based audio into a native audio bitstream (1502), parsing a signaling parameter from the channel-based metadata indicating OAMD representation (1503), mapping channel-oriented metadata to OAMD based on signaling OMD representation (1504), generating channel mixing information based on OAMD ordering constraints (1505), combining native audio bit stream, channel mixing information and OAMD into the combined audio bit stream (1506), including the combined audio bit stream into the transport layer bit stream (1507) for transmission to a rendering playback device or a rendering source device (eg, STB, AVR). Details of the above steps are described with respect to FIG. 1A, 1B, 7A, 7C, 8A, 8B, 9A-9C, 10A and 10B.

[0098] Фиг. 16 является блок-схемой последовательности операций способа для процесса 1600 CBA-OBA-преобразования. Процесс 1600 может реализовываться с использованием архитектуры аудиосистемы, показанной на фиг. 8A, 8B, 9A-9C, 10A, 10B. Процесс 1600 начинается посредством приема потока битов транспортного слоя, включающего в себя собственный поток аудиобитов и метаданные (1601), извлечения собственного потока аудиобитов и метаданных, информации перемешивания каналов и OAMD из потока транспортных битов (1602), декодирования собственного потока аудиобитов для того, чтобы восстанавливать, т.е. определять или извлекать, канально-ориентированное аудио (1603), переупорядочивания каналов канально-ориентированного аудио с использованием информации перемешивания каналов (1604), необязательного кодирования переупорядоченного канально-ориентированного аудио и OAMD в поток OBA-битов (1605), чтобы передавать в устройство воспроизведения или устройство-источник, или необязательного декодирования потока OBA-битов для того, чтобы восстанавливать переупорядоченное канально-ориентированное аудио и OAMD (1606), и подготовки посредством рендеринга переупорядоченного канально-ориентированного аудио с использованием OAM (1607) и передачи в устройство воспроизведения. Подробности вышеобозначенных этапов описаны в отношении фиг. 8A, 8B, 9A-9C, 10A и 10B.[0098] FIG. 16 is a flowchart for a CBA-OBA conversion process 1600. Process 1600 may be implemented using the audio system architecture shown in FIG. 8A, 8B, 9A-9C, 10A, 10B. Process 1600 begins by receiving a transport layer bitstream including the native audio bitstream and metadata (1601), extracting the native audio bitstream and metadata, channel mixing information, and OAMD from the transport bitstream (1602), decoding the native audio bitstream to restore, i.e. determine or extract, channel-based audio (1603), channel-based audio channel reordering using channel mixing information (1604), optionally encoding the re-ordered channel-based audio and OAMD into an OBA-bit stream (1605) to be passed to a playback device or the source device, or optionally decoding the OBA bitstream to recover the reordered channel-based audio and OAMD (1606), and preparing by rendering the reordered channel-based audio using OAM (1607) and passing to the playback device. Details of the above steps are described with respect to FIG. 8A, 8B, 9A-9C, 10A and 10B.

Передача предварительно вычисленных OAMD в потоках MPEG-4-аудиобитов или MPEG-D-аудиобитовTransmission of precomputed OAMDs in MPEG-4 audio bit streams or MPEG-D audio bit streams

[0099] В варианте осуществления, OAMD, представляющие 22.2-контент, переносятся в собственном потоке аудиобитов, к примеру, в потоке MPEG-4-аудиобитов (ISO/IEC 14496-3). Ниже предоставляется примерный синтаксис для трех вариантов осуществления.[0099] In an embodiment, OAMDs representing 22.2 content are carried in their own audio bit stream, eg, in an MPEG-4 audio bit stream (ISO/IEC 14496-3). An exemplary syntax for three embodiments is provided below.

MPEG-4-синтаксис, альтернатива #1MPEG-4 syntax alternative #1

СинтаксисSyntax Число битовNumber of bits МнемоникаMnemonics data_stream_element(){
element_instance_tag;
data_byte_align_flag;
reserved;
cnt=count;
if(cnt==255)
cnt+=esc_count;
if(data_byte_align_flag)
byte_alignment();
for (i=0; i<cnt; i++)
data_stream_byte[element_instance_tag][i];
}data_stream_element(){
element_instance_tag;
data_byte_align_flag;
reserved;
cnt=count;
if(cnt==255)
cnt+=esc_count;
if(data_byte_align_flag)
byte_alignment();
for (i=0; i<cnt; i++)
data_stream_byte[element_instance_tag][i];
} 4
1
3
8
8 4
1
3
8
8 uimsbf
uimsbf
uimsbf
uimsbf
uismsbfuimsbf
uimsbf
uimsbf
uimsbf
uismsbf

MPEG-4-синтаксис, альтернатива #2MPEG-4 syntax alternative #2

СинтаксисSyntax Число битовNumber of bits МнемоникаMnemonics fill_element(){
cnt=count;
if(cnt==15)
cnt+=esc_count-1;
while(cnt>0){
cnt-=extension_payload(cnt);
}
}fill_element(){
cnt=count;
if(cnt==15)
cnt+=esc_count-1;
while(cnt>0){
cnt-=extension_payload(cnt);
}
} 4
84
8 uimsbf
uimsbfuimsbf
uimsbf

MPEG-4-синтаксис, альтернатива #3MPEG-4 syntax alternative #3

СинтаксисSyntax Число битовNumber of bits МнемоникаMnemonics extension_payload(cnt)
{
extension_type;
align=4;
switch(extension_type){
[...] Case EXT_OAMD_INFO:
return oamdInfo;
[...] }
}extension_payload(cnt)
{
extension_type;
align=4;
switch(extension_type){
[...] Case EXT_OAMD_INFO:
return oamdInfo;
[...] }
} 44 usimsbfusimsbf

[00100] В вышеприведенном примерном синтаксисе, элемент element_instance_tag является числом, чтобы идентифицировать элемент потока данных, и элемент extension_payload(int) может содержаться в элементе заливки (ID_FIL). Каждый из вышеуказанных трех вариантов осуществления синтаксиса описывает "tag" или "extension_type", чтобы указывать смысл дополнительных данных. В варианте осуществления, сигнал может вставляться в поток битов, передающий в служебных сигналах то, что дополнительные OAMD и информация перемешивания каналов присутствуют в одной из трех зон расширения потока битов для того, чтобы не допускать необходимость для декодера проверять эти зоны потока битов. Например, поле MPEG4_ancillary_data содержит поле dolby_surround_mode со следующей семантикой. Аналогичный синтаксис передачи в служебных сигналах может использоваться для того, чтобы указывать для декодера то, что OAMD присутствуют в потоке битов.[00100] In the above exemplary syntax, the element_instance_tag element is a number to identify the data flow element, and the extension_payload(int) element may be contained in the fill element (ID_FIL). Each of the above three syntax embodiments describes a "tag" or "extension_type" to indicate the meaning of the additional data. In an embodiment, a signal may be inserted into a bitstream signaling that additional OAMD and channel mixing information is present in one of the three bitstream extension zones to avoid the need for a decoder to check these bitstream zones. For example, the MPEG4_ancillary_data field contains a dolby_surround_mode field with the following semantics. A similar signaling transmission syntax can be used to indicate to the decoder that OAMDs are present in the bitstream.

Определение сигнала dolby_surround_modeDefining the dolby_surround_mode signal

dolby_surround_modedolby_surround_mode ОписаниеDescription "00""00" Dolby-режим объемного звучания не указываетсяDolby surround mode not specified "01""01" 2-канальн. аудиочасть не кодируется в Dolby-режиме объемного звучания2ch audio part is not encoded in Dolby surround mode "10""10" 2-канальн. аудиочасть кодируется в Dolby-режиме объемного звучания2ch the audio part is encoded in Dolby surround mode "11""eleven" Зарезервированоreserved

[00101] В варианте осуществления, зарезервированное поле в вышеприведенной таблице используется для того, чтобы указывать то, что рабочие данные предварительно вычисленных OAMD встраиваются в каком-либо месте в расширенных данных потока битов. Зарезервированное значение (dolby_surround_mode="11") используется для того, чтобы указывать для декодера то, что поля расширенных данных содержат требуемые OAMD и информацию канала, требуемую для того, чтобы преобразовывать 22.2 в OBA (например, Dolby® Atmos®). Альтернативно, зарезервированное поле указывает то, что контент является OBA-совместимым (например, Dolby® Atmos®-совместимым), и преобразование 22.2-канального контента в OBA является возможным. Таким образом, если сигнал dolby_surround_mode задается равным зарезервированному значению "11", то декодер должен знать то, что контент является OBA-совместимым, и преобразовывать 22.2-канальный контент в OBA для дополнительного кодирования и/или рендеринга.[00101] In an embodiment, a reserved field in the above table is used to indicate that precomputed OAMD payload data is embedded somewhere in the extended bitstream data. The reserved value (dolby_surround_mode="11") is used to indicate to the decoder that the extended data fields contain the required OAMD and channel information required to convert 22.2 to OBA (eg, Dolby® Atmos®). Alternatively, the reserved field indicates that the content is OBA compatible (eg, Dolby® Atmos® compatible) and conversion of 22.2 channel content to OBA is possible. Thus, if the dolby_surround_mode signal is set to the reserved value "11", then the decoder must know that the content is OBA-compatible and convert the 22.2-channel content to OBA for additional encoding and/or rendering.

[00102] В варианте осуществления, OAMD, представляющие 22.2-контент, переносятся в собственном потоке аудиобитов, к примеру, в потоке MPEG-D USAC-аудиобитов (ISO/IEC 23003-3). Ниже предоставляется примерный синтаксис для такого варианта осуществления.[00102] In an embodiment, OAMDs representing 22.2 content are carried in their own audio bit stream, eg, in an MPEG-D USAC audio bit stream (ISO/IEC 23003-3). An exemplary syntax for such an embodiment is provided below.

СинтаксисSyntax Число битовNumber of bits МнемоникаMnemonics UsacExtElementConfigUsacExtElementConfig {{ usacExtElementType=escapedValue (4,8,16); usacExtElementType=escapedValue(4,8,16); usacExtElementConfigLength=escapedValue (4,8,16); usacExtElementConfigLength=escapedValue(4,8,16); usacExtElementDefaultLengthPresent; usacExtElementDefaultLengthPresent; 11 uimsbfuimsbf if(usacExtElementDefaultLengthPresent){ if(usacExtElementDefaultLengthPresent){ usacExtElementDefaultLength=escapedValue (8,16,0)+1; usacExtElementDefaultLength=escapedValue(8,16,0)+1; } else { } else { usacExtElementDefaultLength=0; usacExtElementDefaultLength=0; } } usacExtElementPayloadFrag; usacExtElementPayloadFrag; 11 uimsbfuimsbf switch(usacExtElementType) { switch(usacExtElementType) { case ID_EXT_ELE_FILL: case ID_EXT_ELE_FILL: break; break; case ID_EXT_ELE_MPEGS: case ID_EXT_ELE_MPEGS: SpatialSpecificConfig(); SpatialSpecificConfig(); break; break; case ID_EXT_ELE_SAOC: case ID_EXT_ELE_SAOC: SaocSpecificConfig(); SaocSpecificConfig(); break; break; case ID_EXT_ELE_AUDIOPREROLL: case ID_EXT_ELE_AUDIOPREROLL: /* Без конфигурационного элемента *//* No config element */ break; break; case ID_EXT_ELE_UNI_DRC: case ID_EXT_ELE_UNI_DRC: uniDrcConfig(); uniDrcConfig(); break; break; case ID_EXT_ELE_OAMD: case ID_EXT_ELE_OAMD: oamdInfo(); oamdInfo(); break; break; default: default: ПримечаниеNote while(usacExtElementConfigLength} { while(usacExtElementConfigLength} { tmp; tmp; 88 uimsbfuimsbf } } break; break; } } }} Примечание: Запись по умолчанию для usacExtElementType используется для неизвестного extElementTypes таким образом, что унаследованные декодеры могут удовлетворять требованиям будущих расширений.Note: The default entry for usacExtElementType is used for the unknown extElementTypes so that legacy decoders can accommodate future extensions.

Примерная архитектура аудиосистемыExemplary audio system architecture

[00103] Фиг. 17 является блок-схемой примерной архитектуры аудиосистемы, которая включает в себя преобразование аудио каналов в аудио объектов, согласно варианту осуществления. В этом примере, архитектура служит для STB или AVR. STB/AVR 1700 включает в себя ввод 1701, аналого-цифровой преобразователь 1702 (ADC), демодулятор 1703, синхронизатор/декодер 1704, MPEG-демультиплексор 1707, MPEG-декодер 1706, запоминающее устройство 1709, управляющий процессор 1710, модуль 1705 перемешивания аудиоканалов, OBA-кодер 1711 и видеокодер 1712. В этом примере, STB/AVR 1700 реализует варианты применения, описанные на фиг. 9A-9C и 10A, 10B, при этом предварительно вычисленные OAMD переносятся в потоке MPEG4-аудиобитов.[00103] FIG. 17 is a block diagram of an exemplary audio system architecture that includes mapping audio channels to audio objects, according to an embodiment. In this example, the architecture is for STB or AVR. The STB/AVR 1700 includes an input 1701, an analog-to-digital converter (ADC) 1702, a demodulator 1703, a synchronizer/decoder 1704, an MPEG demultiplexer 1707, an MPEG decoder 1706, a memory 1709, a control processor 1710, an audio mixing module 1705, OBA encoder 1711 and video encoder 1712. In this example, STB/AVR 1700 implements the applications described in FIG. 9A-9C and 10A, 10B, the precomputed OAMDs are carried in an MPEG4 audio bit stream.

[00104] В варианте осуществления, малошумный блок собирает радиоволны из спутниковой антенны и преобразует их в аналоговый сигнал, который отправляется через коаксиальный кабель в порт 1701 ввода STB/AVR 1700. Аналоговый сигнал преобразуется в цифровой сигнал посредством ADC 1702. Цифровой сигнал демодулируется посредством демодулятора 1703 (например, QPSK-демодулятора) и синхронизируется и декодируется посредством синхронизатора/декодера 1704 (например, синхронизатора плюс декодера Витерби) для того, чтобы восстанавливать поток транспортных MPEG-битов, который демодулируется посредством MPEG-демультиплексора 1707 и декодируется посредством MPEG-декодера 1706 для того, чтобы восстанавливать потоки аудиобитов с канально-ориентированным аудио и видео и метаданные, включающие в себя информацию перемешивания каналов и OAMD. Модуль 1705 перемешивания аудиоканалов переупорядочивает аудиоканалы в соответствии с информацией перемешивания каналов, к примеру, в соответствии с принципами, как описано в отношении фиг. 1B. OBA-кодер 1711 кодирует аудио с помощью переупорядоченных каналов в поток OBA-аудиобитов (например, Dolby® MAT), который передается в устройство воспроизведения (например, Dolby® Atmos®-устройство) для подготовки посредством рендеринга посредством модуля рендеринга аудио объектов в устройстве воспроизведения. Видеокодер 1712 кодирует видео в видеоформат, который поддерживается посредством устройства воспроизведения.[00104] In an embodiment, the low noise unit collects radio waves from a satellite dish and converts them into an analog signal, which is sent via a coaxial cable to the input port 1701 of the STB/AVR 1700. The analog signal is converted to a digital signal by the ADC 1702. The digital signal is demodulated by a demodulator 1703 (eg, QPSK demodulator) and synchronized and decoded by synchronizer/decoder 1704 (eg, synchronizer plus Viterbi decoder) in order to recover the MPEG transport bit stream, which is demodulated by MPEG demultiplexer 1707 and decoded by MPEG decoder 1706 in order to recover channel-oriented audio and video audio bit streams and metadata including channel mixing information and OAMD. The audio channel mixing module 1705 reorders the audio channels according to the channel mixing information, for example, in accordance with the principles as described with respect to FIG. 1b. An OBA encoder 1711 encodes audio using reordered channels into an OBA audio bit stream (eg, Dolby® MAT) that is transmitted to a playback device (eg, Dolby® Atmos® device) for preparation by rendering by an audio renderer of objects in the playback device . A video encoder 1712 encodes the video into a video format that is supported by the playback device.

[00105] Следует отметить, что архитектура, описанная в отношении фиг. 17, представляет собой только примерную архитектуру. Преобразование из CBA в OBA может выполняться посредством любого устройства, которое включает в себя один или более процессоров, запоминающее устройство, соответствующие интерфейсы ввода-вывода и программные модули и/или аппаратные средства (например, ASIC) для выполнения преобразования формата и переупорядочения каналов, описанного в данном документе.[00105] It should be noted that the architecture described with respect to FIG. 17 is only an exemplary architecture. The conversion from CBA to OBA may be performed by any device that includes one or more processors, a storage device, appropriate I/O interfaces, and software modules and/or hardware (e.g., an ASIC) to perform the format conversion and channel reordering described in this document.

[00106] Хотя этот документ содержит множество конкретных сведений по реализации, они должны истолковываться не в качестве ограничений на объем того, что может заявляться в качестве формулы изобретения, а вместо этого в качестве описаний признаков, которые могут быть конкретными для конкретных вариантов осуществления. Определенные признаки, которые поясняются в этом подробном описании в контексте отдельных вариантов осуществления, также могут реализовываться комбинированно в одном варианте осуществления. Наоборот, различные признаки, которые описываются в контексте одного варианта осуществления, также могут реализовываться в нескольких вариантах осуществления по отдельности либо в любой подходящей субкомбинации. Кроме того, хотя признаки могут описываться выше как работающие в определенных комбинациях и даже первоначально задаваться в формуле изобретения как таковые, один или более признаков из заявленной комбинации в некоторых случаях могут быть исключены из комбинации, и заявленная комбинация может быть направлена на субкомбинацию или варьирование субкомбинации. Логические последовательности операций, проиллюстрированные на чертежах, не требуют конкретного показанного порядка или последовательного порядка для того, чтобы достигать требуемых результатов. Помимо этого, другие этапы могут предоставляться, или этапы могут исключаться из описанных последовательностей операций, и другие компоненты могут добавляться или удаляться из описанных систем. Соответственно, другие реализации находятся в пределах объема прилагаемой формулы изобретения.[00106] Although this document contains many specific implementation details, they should not be construed as limitations on the scope of what may be claimed as claims, but instead as descriptions of features that may be specific to particular embodiments. Certain features that are explained in this detailed description in the context of separate embodiments may also be implemented in combination in one embodiment. Conversely, various features that are described in the context of one embodiment may also be implemented in multiple embodiments individually or in any suitable subcombination. In addition, although the features may be described above as working in certain combinations and even initially set as such in the claims, one or more features from the claimed combination may in some cases be excluded from the combination, and the claimed combination may be directed to a subcombination or variation of the subcombination. . The logical sequences of operations illustrated in the drawings do not require the specific order shown or sequential order in order to achieve the desired results. In addition, other steps may be provided or steps may be omitted from the described sequences of operations, and other components may be added to or removed from the systems described. Accordingly, other implementations are within the scope of the appended claims.

[00107] Различные аспекты настоящего изобретения могут приниматься во внимание из следующих перечислимых примерных вариантов осуществления (EEE):[00107] Various aspects of the present invention may be taken into account from the following enumerated exemplary embodiments (EEE):

EEE 1. Способ, содержащий:EEE 1. A method comprising:

- прием, посредством одного или более процессоров оборудования аудиообработки, потока битов, включающего в себя канально-ориентированное аудио и метаданные;- receiving, by means of one or more processors of the audio processing equipment, a bit stream including channel-oriented audio and metadata;

- причем один или более процессоров выполнены с возможностью:- wherein one or more processors are configured to:

- синтаксически анализировать параметр передачи служебных сигналов из метаданных, причем параметр передачи служебных сигналов указывает одно из множества различных представлений аудиометаданных объектов (OAMD);- parse a signaling parameter from the metadata, wherein the signaling parameter specifies one of a plurality of different object audio metadata (OAMD) representations;

- преобразовывать канально-ориентированные метаданные в OAMD с использованием OAMD-представления, которое указывается посредством параметра передачи служебных сигналов;- convert the channel-specific metadata to OAMD using the OAMD representation, which is indicated by the signaling parameter;

- формировать информацию перемешивания каналов на основе ограничений упорядочения каналов OAMD;- generate channel intermixing information based on OAMD channel ordering constraints;

- переупорядочивать каналы канально-ориентированного аудио на основе информации перемешивания каналов; и- reorder the channels of the channel-based audio based on the channel mixing information; And

- подготавливать посредством рендеринга переупорядоченное канально-ориентированное аудио в подготовленное посредством рендеринга аудио с использованием OAMD; или- prepare by rendering reordered channel-oriented audio into prepared by rendering audio using OAMD; or

- кодировать канально-ориентированное аудио и OAMD в поток объектно-ориентированных аудиобитов и передавать поток объектно-ориентированных аудиобитов в устройство воспроизведения или устройство-источник.- encode the channel-oriented audio and OAMD into an object-oriented audio bit stream, and pass the object-oriented audio bit stream to a playback device or source device.

EEE 2. Способ по EEE 1, в котором канально-ориентированное аудио и метаданные включаются в собственный поток аудиобитов, и способ дополнительно содержит декодирование собственного потока аудиобитов для того, чтобы восстанавливать канально-ориентированное аудио и метаданные.EEE 2: The EEE 1 method, wherein the channel-based audio and metadata are included in the native audio bitstream, and the method further comprises decoding the native audio bitstream in order to recover the channel-based audio and metadata.

EEE 3. Способ по EEE 2, в котором собственный поток аудиобитов представляет собой поток битов по стандарту усовершенствованного кодирования аудио (AAC).EEE 3: An EEE 2 method wherein the native audio bitstream is an Advanced Audio Coding (AAC) bitstream.

EEE 4. Способ по любому из EEE 1-3, в котором канально-ориентированное аудио и метаданные представляют собой N.M-канально-ориентированное аудио и метаданные, где N является положительным целым числом, большим девяти, и M является положительным целым числом, большим или равным нуля.EEE 4. The method as in any one of EEE 1-3, wherein the channel oriented audio and metadata is N.M channel oriented audio and metadata, where N is a positive integer greater than nine and M is a positive integer greater than or equal to zero.

EEE 5. Способ по любому из EEE 1-4, в котором устройство-источник представляет собой телевизионную абонентскую приставку или приемное аудио/видеоустройство.EEE 5. A method according to any one of EEE 1-4, wherein the source device is a set-top box or an audio/video receiver.

EEE 6. Способ по любому из EEE 1-5, дополнительно содержащий:EEE 6. A method according to any one of EEE 1-5, further comprising:

- определение первого набора каналов канально-ориентированного аудио, которые допускают представление посредством подложенных OAMD-каналов;- defining a first set of channel-oriented audio channels that are capable of being represented by overlaid OAMD channels;

- назначение меток подложенных OAMD-каналов первому набору каналов;- assignment of labels of embedded OAMD channels to the first set of channels;

- определение второго набора каналов канально-ориентированного аудио, которые не допускают представление посредством подложенных OAMD-каналов; и- defining a second set of channel-oriented audio channels that do not allow representation via overlaid OAMD channels; And

- назначение статических позиционных OAMD-координат второму набору каналов.- assignment of static positional OAMD coordinates to the second set of channels.

EEE 7. Способ по любому из EEE 1-6, в котором OAMD включают в себя данные размерной подстройки, чтобы понижать уровни громкости одного или более внеэкранных аудиообъектов в подготовленном посредством рендеринга аудио.EEE 7. A method as in any one of EEE 1-6, wherein the OAMD includes sizing data to lower the volume levels of one or more off-screen audio objects in the rendered audio.

EEE 8. Способ по любому из EEE 1-7, в котором OAMD включают в себя объектные усиления, используемые для того, чтобы компенсировать разности между значениями понижающего микширования канально-ориентированного аудио и рендерингом OAMD-представлений канально-ориентированного аудио.EEE 8. A method as in any one of EEE 1-7, wherein the OAMDs include object gains used to compensate for differences between the channel oriented audio downmix values and the rendering of the OAMD representations of the channel oriented audio.

EEE 9. Способ, содержащий:EEE 9. A method comprising:

- кодировать канально-ориентированное аудио в собственный поток аудиобитов;- encode channel-oriented audio into a native audio bitstream;

- формировать пакет потоков битов, который включает в себя собственный поток аудиобитов, информацию перемешивания каналов и OAMD;- generate a packet of bit streams, which includes its own audio bit stream, channel mixing information and OAMD;

- мультиплексировать пакет в поток битов транспортного слоя; и- multiplex the packet into a transport layer bitstream; And

- передавать поток битов транспортного слоя в устройство воспроизведения или устройство-источник.- transmit the transport layer bit stream to the playback device or source device.

EEE 10. Способ по EEE 9, в котором собственный поток аудиобитов представляет собой поток битов по стандарту усовершенствованного кодирования аудио (AAC).EEE 10: The EEE 9 method wherein the native audio bit stream is an Advanced Audio Coding (AAC) bit stream.

EEE 11. Способ по EEE 9 или EEE 10, в котором канально-ориентированное аудио и метаданные представляют собой N.M-канально-ориентированное аудио и метаданные, где N является положительным целым числом, большим семи, и M является положительным целым числом, большим или равным нуля.EEE 11. A method according to EEE 9 or EEE 10, wherein the channel-based audio and metadata is N.M channel-based audio and metadata, where N is a positive integer greater than seven and M is a positive integer greater than or equal to zero.

EEE 12. Способ по любому из EEE 9-11, в котором устройство-источник представляет собой телевизионную абонентскую приставку или приемное аудио/видеоустройство.EEE 12. The method of any one of EEE 9-11, wherein the source device is a set-top box or an audio/video receiver.

EEE 13. Способ по любому из EEE 9-12, в котором каналы в канально-ориентированном аудио, которые могут представляться посредством меток подложенных OAMD-каналов, используют метки подложенных OAMD-каналов, и каналы в канально-ориентированном аудио, которые не могут представляться посредством позиций статических объектов, используют метки подложенных OAMD-каналов, причем каждая позиция статического объекта описывается в позиционных OAMD-координатах.EEE 13. A method as in any one of EEE 9-12, wherein channels in channel-based audio that can be represented by OAMD sub-channel labels use OAMD sub-channel labels, and channels in channel-based audio that cannot be represented through the positions of static objects, the labels of the embedded OAMD channels are used, and each position of the static object is described in positional OAMD coordinates.

EEE 14. Способ по любому из EEE 9-13, в котором OAMD включают в себя данные размерной подстройки, чтобы понижать уровни громкости одного или более внеэкранных аудиообъектов в подготовленном посредством рендеринга аудио.EEE 14. A method as in any one of EEE 9-13, wherein the OAMD includes sizing data to lower the volume levels of one or more off-screen audio objects in the rendered audio.

EEE 15. Способ по любому из EEE 9-14, в котором OAMD включают в себя объектные усиления, используемые для того, чтобы компенсировать разности между значениями понижающего микширования канально-ориентированного аудио и рендерингом OAMD-представлений канально-ориентированного аудио.EEE 15. A method as in any one of EEE 9-14, wherein the OAMDs include object gains used to compensate for differences between the channel oriented audio downmix values and the rendering of the OAMD representations of the channel oriented audio.

EEE 16. Способ по любому из EEE 9-15, в котором поток транспортных битов представляет собой поток аудиобитов по стандарту Экспертной группы по киноизображению (MPEG), который включает в себя сигнал, который указывает присутствие OAMD в поле расширения потока MPEG-аудиобитов.EEE 16. The method of any one of EEE 9-15, wherein the transport bit stream is a Motion Picture Expert Group (MPEG) audio bit stream that includes a signal that indicates the presence of an OAMD in an extension field of the MPEG audio bit stream.

EEE 17. Способ по EEE 16, в котором сигнал, который указывает присутствие OAMD в потоке MPEG-аудиобитов, включается в зарезервированное поле метаданных в потоке MPEG-аудиобитов для передачи в служебных сигналах режима объемного звука.EEE 17. The EEE 16 method, wherein a signal that indicates the presence of an OAMD in an MPEG audio bit stream is included in a reserved metadata field in the MPEG audio bit stream for transmission in surround sound mode signaling.

EEE 18. Способ, содержащий:EEE 18. A method comprising:

- прием, посредством одного или более процессоров оборудования аудиообработки, потока битов транспортного слоя, включающего в себя пакет;- receiving, by means of one or more processors of the audio processing equipment, a transport layer bit stream including the packet;

- демультиплексировать поток битов транспортного слоя для того, чтобы восстанавливать пакет;- demultiplex the transport layer bit stream in order to recover the packet;

- декодировать пакет для того, чтобы восстанавливать собственный поток аудиобитов, информацию перемешивания каналов и аудиометаданные объектов (OAMD);- decode the packet in order to recover its own audio bitstream, channel mixing information and object audio metadata (OAMD);

- декодировать собственный поток аудиобитов для того, чтобы восстанавливать поток канально-ориентированных аудиобитов и метаданные;- decode the native audio bit stream in order to recover the channel-specific audio bit stream and metadata;

- кодировать канально-ориентированное аудио и OAMD в поток объектно-ориентированных аудиобитов и передавать поток объектно-ориентированных аудиобитов в устройство-источник.- encode the channel-oriented audio and OAMD into an object-oriented audio bit stream and transmit the object-oriented audio bit stream to the source device.

EEE 19. Способ по EEE 18, в котором собственный поток аудиобитов представляет собой поток битов по стандарту усовершенствованного кодирования аудио (AAC).EEE 19: The EEE 18 method, wherein the native audio bit stream is an Advanced Audio Coding (AAC) bit stream.

EEE 20. Способ по EEE 18 или EEE 19, в котором канально-ориентированное аудио и метаданные представляют собой N.M-канально-ориентированное аудио и метаданные, где N является положительным целым числом, большим семи, и M является положительным целым числом, большим или равным нуля.EEE 20. A method according to EEE 18 or EEE 19, wherein the channel-based audio and metadata is N.M channel-based audio and metadata, where N is a positive integer greater than seven and M is a positive integer greater than or equal to zero.

EEE 21. Способ по любому из EEE 18-20, дополнительно содержащий:EEE 21. A method according to any one of EEE 18-20, further comprising:

EEE 22. Способ по любому из EEE 18-21, в котором OAMD включают в себя данные размерной подстройки, чтобы понижать уровни громкости одного или более внеэкранных объектов в подготовленном посредством рендеринга аудио.EEE 22. A method as in any one of EEEs 18-21, wherein the OAMD includes size adjustment data to lower the volume levels of one or more off-screen objects in the rendered audio.

EEE 23. Способ по любому из EEE 18-22, в котором OAMD включают в себя объектные усиления, используемые для того, чтобы компенсировать разности между значениями понижающего микширования канально-ориентированного аудио и рендерингом OAMD-представлений канально-ориентированного аудио.EEE 23. A method as in any one of EEEs 18-22, wherein the OAMDs include object gains used to compensate for differences between the channel oriented audio downmix values and the rendering of the OAMD representations of the channel oriented audio.

EEE 24. Способ по любому из EEE 18-23, в котором поток транспортных битов представляет собой поток аудиобитов по стандарту Экспертной группы по киноизображению (MPEG), который включает в себя сигнал, который указывает присутствие OAMD в поле расширения потока MPEG-аудиобитов.EEE 24. The method of any one of EEEs 18-23, wherein the transport bit stream is a Motion Picture Expert Group (MPEG) audio bit stream that includes a signal that indicates the presence of an OAMD in an extension field of the MPEG audio bit stream.

EEE 25. Способ по любому из EEE 18-24, в котором сигнал, который указывает присутствие OAMD в потоке MPEG-аудиобитов, включается в зарезервированное поле структуры данных в метаданных потока MPEG-аудиобитов для передачи в служебных сигналах режима объемного звука.EEE 25. A method as in any of EEEs 18-24, wherein a signal that indicates the presence of OAMD in the MPEG audio bit stream is included in a reserved data structure field in MPEG audio bit stream metadata for transmission in surround sound mode signaling.

EEE 26. Оборудование, содержащее:EEE 26 Equipment comprising:

- один или более процессоров; и- one or more processors; And

- энергонезависимый машиночитаемый носитель хранения данных, имеющий сохраненные инструкции, которые, при выполнении посредством одного или более процессоров, инструктируют одному или более процессоров осуществлять способы по любому из предшествующих EEE 1-25.- a non-volatile computer-readable storage medium having stored instructions that, when executed by one or more processors, instruct one or more processors to perform the methods of any of the preceding EEE 1-25.

EEE 27. Энергонезависимый машиночитаемый носитель хранения данных, имеющий сохраненные инструкции, которые, при выполнении посредством одного или более процессоров, инструктируют одному или более процессоров осуществлять способы по любому из предшествующих EEE 1-25.EEE 27. A non-volatile computer-readable storage medium having stored instructions that, when executed by one or more processors, instructs one or more processors to perform the methods of any of the preceding EEE 1-25.

Claims

1. An audio processing method (1100; 1200), comprising the step of:

- receive (1101; 1201), by one or more processors of the audio processing equipment, a bit stream including channel-based audio and associated channel-based audio metadata;

- wherein one or more processors are configured to:

- parse (1102; 1202) a signaling parameter from channel-oriented audio metadata, wherein the signaling parameter specifies one of a plurality of different object audio metadata (OAMD) representations, each of the OAMD representations converting one or more channel-oriented audio audio channels to one or more audio objects;

- convert (1103; 1203) channel-specific metadata to OAMD associated with one or more audio objects using an OAMD representation that is indicated by a signaling parameter;

- generate (1104; 1204) channel mixing information based on OAMD channel ordering constraints;

- reorder (1105; 1205) one or more audio channels of channel-based audio based on the channel mixing information in order to generate reordered channel-based audio; And

- prepare (1106) by rendering reordered channel-oriented audio into prepared by rendering audio using OAMD; or

- encode (1206) the reordered channel-oriented audio and OAMD into an object-oriented audio bit stream and transmit the object-oriented audio bit stream to a playback device or source device (600B).

2. The method of claim 1, wherein the bitstream is a native audio bitstream, and the method further comprises decoding the native audio bitstream to determine channel-oriented audio and metadata.

3. The method of claim 2, wherein the native audio bit stream is an advanced audio coding (AAC) bit stream.

4. A method according to any one of the preceding claims, wherein the channel-based audio and associated channel-based audio metadata are N.M channel-based audio and channel-based audio metadata associated with the N.M channel-based audio, respectively, and where N is a positive integer greater than nine, and M is a positive integer greater than or equal to zero.

5. The method of claim 4, wherein the channel-based audio is 22.2.

6. An audio processing method (1500), comprising:

receive (1501), by one or more processors of the audio processing equipment, a bit stream including channel-based audio and associated channel-based audio metadata;

- wherein one or more processors are configured to:

- encode (1502) channel-oriented audio in its own stream of audio bits;

- parse (1503) a signaling parameter from the channel-based audio metadata, wherein the signaling parameter specifies one of a plurality of different object audio metadata (OAMD) representations, each of the OAMD representations converting one or more channel-based audio audio channels into one or more audio objects;

- convert (1504) channel-oriented metadata to OAMD associated with one or more audio objects, using the OAMD representation, which is indicated by a signaling parameter;

- generate (1505) channel mixing information based on OAMD channel ordering constraints;

- generate (1506) a packet of bit streams that includes its own audio bit stream, channel mixing information and OAMD, where the channel mixing information provides reordering of one or more channel-based audio audio channels based on the channel mixing information in the playback device or source device ( 700B; 800B) to generate reordered channel-based audio;

- multiplex (1507) a packet of bitstreams into a transport layer bitstream; And

- transmit the transport layer bit stream to the playback device or source device (700B; 800B).

7. The method of claim 6, wherein the native audio bit stream is an advanced audio coding (AAC) bit stream.

8. The method according to any one of paragraphs. 6 or 7, wherein the channel specific audio and associated channel specific audio metadata are N.M channel specific audio and channel specific audio metadata associated with N.M channel specific audio, respectively, and where N is a positive integer, greater than seven, and M is a positive integer greater than or equal to zero.

9. The method of claim 8, wherein the channel-based audio is 22.2.

10. An audio processing method (1600), comprising:

receiving (1601), by one or more processors of the audio processing equipment, a transport layer bitstream including a bitstream packet, wherein the bitstream packet contains its own audio bitstream containing encoded channel-specific audio, channel mixing information, and object audio metadata (OAMD );

- wherein one or more processors are configured to:

- demultiplex the bitstream of the transport layer in order to determine the packet of bitstreams;

- decode (1606) the packet of bit streams in order to determine channel-oriented audio, channel mixing information and object audio metadata (OAMD);

- reorder (1604) the audio channels of the channel-based audio based on the channel mixing information in order to generate a re-ordered channel-based audio; And

- prepare (1607) by rendering reordered channel-oriented audio into prepared by rendering audio using OAMD; or

- encode (1605) the reordered channel-oriented audio and OAMD into an object-oriented audio bit stream and transmit the object-oriented audio bit stream to the source device.

11. The method of claim 10, wherein the native audio bit stream is an advanced audio coding (AAC) bit stream.

12. The method of claim 10 or 11, wherein the channel-based audio is N.M channel-based audio, wherein N is a positive integer greater than seven and M is a positive integer greater than or equal to zero.

13. The method of claim 12, wherein the channel-based audio is 22.2.

14. Equipment for audio processing, comprising:

- one or more processors; And

a non-volatile computer-readable storage medium having instructions stored thereon which, when executed by one or more processors, instructs one or more processors to perform the methods of any one of the preceding claims.

15. A non-volatile computer-readable storage medium having instructions stored thereon which, when executed by one or more processors, instructs one or more processors to carry out the methods of any one of claims. 1-13.