RU2780733C2

RU2780733C2 - Method and device for processing auxiliary media streams embedded in the mpeg-h 3d audio stream

Info

Publication number: RU2780733C2
Application number: RU2021134283A
Authority: RU
Inventors: Штефан ШРАЙНЕР; Кристоф ФЕРШ
Original assignee: Долби Интернешнл Аб
Priority date: 2018-02-22
Filing date: 2019-02-22
Publication date: 2022-09-30

Abstract

FIELD: audio technology.

SUBSTANCE: invention relates to systems for local processing of packaged media streams. The expected result is achieved by the fact that the device contains: a receiver for receiving a bitstream and a separation module for identifying the type of packet in the bitstream and performing separation based on identifying the value of the packet type in the bitstream into the main stream, for example, MPEG-H 3D audio packed in MHAS format, and an auxiliary stream. Media streams presented as packaged streams typically use packet type identifiers to distinguish between several sub-streams in a common media stream. To send additional (media) data that is not related to the main stream of media data, the device can pack additional data into packets formatted according to the main stream of media data, but marked with a special label in the packet header. This special label will force the receiving device to separate packets carrying an additional stream of media data.

EFFECT: increase in the efficiency of decoding/rendering.

13 cl, 6 dwg, 2 tbl

Description

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИCROSS-REFERENCE TO RELATED APPLICATIONS

Данная заявка претендует на приоритет следующих приоритетных заявок: предварительная заявка США 62/634136 (ссылка: D18027USP1), поданная 22 февраля 2018 г., предварительная заявка США 62/641098 (ссылка: D18027USP2), поданная 9 марта 2018 г., европейская заявка 18166319.6 (ссылка: D18027EP), поданная 9 апреля 2018 г., и предварительная заявка США 62/697536 (ссылка: D18027USP3) от 13 июля 2018 г., которые включены в данную заявку посредством ссылки.This application claims priority to the following priority applications: U.S. Provisional Application 62/634136 (Ref: D18027USP1) filed February 22, 2018, U.S. Provisional Application 62/641098 (Ref: D18027USP2) filed March 9, 2018, European Application 18166319.6 (Ref: D18027EP) filed April 9, 2018, and Provisional Application US 62/697536 (Ref: D18027USP3) dated July 13, 2018, which are incorporated herein by reference.

ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY

Настоящее изобретение относится к предоставлению устройства, системы и способа обработки пакетированных медиаданных.The present invention relates to the provision of an apparatus, system and method for processing packetized media.

ПОДРОБНОЕ ОПИСАНИЕDETAILED DESCRIPTION

Для оборудования домашней потребительской электроники (CE) функциональность может быть распределена между несколькими приспособлениями (например, телевизионными приставками, телевизорами, аудио/видеоприемниками), где такие приспособления соединены посредством стандартизованных интерфейсов (например, HDMI).For consumer electronics (CE) equipment, functionality may be distributed across multiple devices (eg set-top boxes, televisions, audio/video receivers) where such devices are connected via standardized interfaces (eg HDMI).

Первое приспособление может принимать потоки медиаданных через широковещательные и/или широкополосные соединения. То первое приспособление может дополнительно иметь высокий уровень искусственного интеллекта (например, набор функций «умной акустической системы»). Второе приспособление может быть предназначено для декодирования, рендеринга и выведения медиаданных пользователям.The first device may receive media streams via broadcast and/or broadband connections. That first device may additionally have a high level of artificial intelligence (eg, a "smart speaker" feature set). The second fixture may be for decoding, rendering, and displaying the media to users.

Как правило, медиапрограмма принимается приспособлением № 1 и отправляется на приспособление № 2 для воспроизведения. Эта медиапрограмма может быть известна как «основная программа». Время от времени или дополнительно другая медиапрограмма (такая как реклама), принятая по другому каналу передачи, или медиаданные, сгенерированные с помощью средств «смарт-приспособления» в приспособлении № 1, при этом как программа, так и данные обычно представлены в другом медиаформате, должны быть вставлены внутрь или наложены поверх основной медиапрограммы.Typically, the media program is received by fixture #1 and sent to fixture #2 for playback. This media program may be known as the "main program". From time to time or additionally, another media program (such as an advertisement) received on a different transmission channel, or media generated by means of a "smart device" in device No. 1, with both the program and the data usually presented in a different media format, should be inserted inside or overlaid on top of the main media program.

Это может быть достигнуто декодированием как основной, так и вспомогательной программ с получением общего, обычно несжатого, представления, переключением потоков или микшированием/рендерингом их обоих с получением комбинированного представления и повторным кодированием сгенерированного потока медиаданных в закодированный формат передачи. Этот способ может быть выполнен в любом приспособлении, например, целиком выполнен в приспособлении № 1. Однако могут понадобиться значительные вычислительные мощности, в то же время этапы рендеринга и промежуточное представление могут не обеспечивать оптимального согласования в отношении фактической системы воспроизведения в приспособлении № 2.This can be achieved by decoding both the main and supporting programs into a common, usually uncompressed representation, stream switching, or mixing/rendering both of them into a combined representation and re-encoding the generated media stream into an encoded transmission format. This method can be performed in any fixture, for example, performed entirely in fixture #1. However, significant processing power may be required, while the rendering steps and intermediate representation may not provide an optimal match with the actual playback system in fixture #2.

На фиг. 1 проиллюстрированы примерное приспособление № 1 и примерное приспособление № 2. Приспособление № 1 может содержать первичный приемник 101, вторичный приемник / локальный механизм 103 и модуль 102 объединения пакетированных потоков. Модуль 102 объединения пакетированных потоков может объединять потоки данных, принятые от первичного приемника 101 (например, основной поток) и от вторичного приемника / локального механизма 103 (например, вспомогательный поток данных). Приспособление № 2 может содержать модуль 201 разделения потоков, первичный модуль 202 декодирования/рендеринга и вторичный модуль 203 декодирования/рендеринга. Модуль 201 разделения потоков может разделять потоки, такие как основной поток (который может быть предоставлен затем на первичный модуль 202 декодирования/рендеринга) и вспомогательный поток (который может быть предоставлен затем на вторичный модуль 203 декодирования/рендеринга). Оба выходных сигнала модуля декодирования могут быть представлены слушателю одновременно.In FIG. 1, exemplary fixture #1 and exemplary fixture #2 are illustrated. Fixture #1 may include a primary sink 101, a secondary sink/local engine 103, and a packetized stream combiner 102. Packetized stream combining module 102 may combine data streams received from primary sink 101 (eg, main stream) and from secondary sink/local engine 103 (eg, auxiliary data stream). Device No. 2 may include a stream splitter 201, a primary decoding/rendering module 202, and a secondary decoding/rendering module 203. The stream splitter 201 may separate streams such as a main stream (which may then be provided to the primary decoding/rendering unit 202) and an auxiliary stream (which may then be provided to the secondary decoding/rendering unit 203). Both output signals of the decoding module can be presented to the listener at the same time.

Для преодоления вышеописанного ограничения приспособление № 1 может непосредственно отправлять входящий основной поток медиаданных на приспособление № 2. Этот режим приспособления № 1 может быть назван «сквозным» режимом. Однако недостатком этого подхода является то, что стандартизованные интерфейсы определены для пересылки лишь одного-единственного потока данных для видео и звука и, таким образом, второй поток медиаданных не может быть отправлен по умолчанию через интерфейс на приспособление № 2 для воспроизведения.To overcome the above limitation, fixture #1 can directly send the incoming mainstream media to fixture #2. This mode of fixture #1 may be referred to as a "pass-through" mode. However, the disadvantage of this approach is that the standardized interfaces are defined to send only one single data stream for video and audio, and thus a second media stream cannot be sent by default through the interface to playback device #2.

Настоящее изобретение может предоставлять способы и устройство для первого приемника для приема пакетированных медиаданных, вторичного приемника для приема дополнительного потока медиаданных и интерфейса передатчика для отправки пакетированных медиаданных.The present invention may provide methods and apparatus for a first receiver for receiving packetized media, a secondary receiver for receiving an additional media stream, and a transmitter interface for sending packetized media.

В настоящем изобретении предложено объединять второй вспомогательный поток медиаданных с пакетированным основным потоком медиаданных следующим образом.The present invention proposes to combine the second auxiliary media stream with the packetized main media stream as follows.

Потоки медиаданных, представленные в виде пакетированных потоков, обычно используют идентификаторы типа пакета для различения нескольких подпотоков в общем потоке медиаданных. Для пересылки дополнительных (медиа) данных, не относящихся к основному потоку медиаданных, первое приспособление № 1 может запаковывать дополнительные данные в пакеты, форматированные согласно основному потоку медиаданных, но помеченные специальной меткой в заголовке пакета. Эта специальная метка заставит приемное приспособление № 2 отделять пакеты, переносящие дополнительный поток медиаданных. Приспособление № 2 может затем необязательно предоставлять дополнительный поток медиаданных на экземпляр вторичного модуля 203 декодирования/рендеринга при одновременном приеме основного потока первичным модулем 202 декодирования/рендеринга.Media streams represented as packetized streams typically use packet type identifiers to distinguish between multiple substreams in the overall media stream. To send additional (media) data not related to the main media stream, the first device #1 can pack the additional data into packets formatted according to the main media stream, but marked with a special label in the packet header. This special label will cause receiver #2 to separate packets carrying the extra media stream. Appliance #2 may then optionally provide an additional media stream to an instance of the secondary decoding/rendering module 203 while simultaneously receiving the main stream by the primary decoding/rendering module 202.

В одном примере приемные приспособления прежнего типа, которые не распознают эту новую метку в заголовке пакета для дополнительных запакованных потоков медиаданных, как уже ожидается, будут игнорировать те пакеты.In one example, legacy receivers that do not recognize this new label in the packet header for additional packed media streams are already expected to ignore those packets.

Метка может быть предоставлена в любой среде потока закодированных звуковых данных, такой как MPEG-H, AC-4, Dolby Digital+ и т. д.The label can be provided in any encoded audio stream environment such as MPEG-H, AC-4, Dolby Digital+, etc.

Если дополнительные вставленные потоки данных существенно превосходят по скорости передачи данных изначальный поток медиаданных, приспособление в виде приемника должно отфильтровывать входящий пакетированный поток и необязательно отделять пакеты дополнительных данных для поддержания модели буфера приемника подключенного за ним модуля декодирования (прежнего типа) медиаданных.If the additional inserted data streams significantly exceed the data rate of the original media data stream, the sink fixture must filter the incoming packetized stream and optionally separate the additional data packets to maintain the sink buffer model of the downstream (legacy) media decoding module.

Далее, на фиг. 3 проиллюстрированы примерное приспособление № 1 и примерное приспособление № 3. Приспособление № 1 может содержать первичный приемник 101, вторичный приемник / локальный механизм 103 и модуль 102 объединения пакетированных потоков. Модуль 102 объединения пакетированных потоков может объединять потоки данных, принятые от первичного приемника 101 (например, основной поток) и от вторичного приемника / локального механизма 103 (например, вспомогательный поток данных). Приспособление № 3 может содержать лишь первичный модуль 301 декодирования/рендеринга, но не модуль разделения потоков. В одном примере может быть невозможно предоставить вспомогательный поток на вторичный модуль декодирования/рендеринга. В этом примере модифицированный первичный модуль декодирования может декодировать/конвертировать/ микшировать вспомогательный поток с основным потоком внутри себя.Next, in FIG. 3 illustrates exemplary fixture #1 and exemplary fixture #3. Fixture #1 may include a primary sink 101, a secondary sink/local engine 103, and a packetized stream combiner 102. Packetized stream combining module 102 may combine data streams received from primary sink 101 (eg, main stream) and from secondary sink/local engine 103 (eg, auxiliary data stream). Appliance #3 may only contain the primary decoding/rendering module 301, but not the stream splitter. In one example, it may not be possible to provide an auxiliary stream to a secondary decoding/rendering module. In this example, the modified primary decoding module can decode/convert/mix the sub stream with the main stream within itself.

Экосистема MPEG-HMPEG-H Ecosystem

MPEG-H 3d Audio согласно ISO/IEC 23008-3 запакован в формате MHAS (MPEG-H Audio Stream (звукового потока по стандарту MPEG-H Audio)). Этот формат использует пакетированный формат, в котором каждый пакет состоит из заголовка пакета и полезной нагрузки пакета. Хотя полезная нагрузка может представлять собой любые двоичные данные, заголовок определяет тип и длину полезной нагрузки. (Может быть использована дополнительно доступная метка для различения нескольких экземпляров, но она не использована в данном случае).MPEG-H 3d Audio according to ISO/IEC 23008-3 is packaged in MHAS (MPEG-H Audio Stream) format. This format uses a packetized format in which each packet consists of a packet header and a packet payload. Although the payload can be any binary data, the header specifies the type and length of the payload. (An optional label can be used to distinguish between multiple instances, but it is not used in this case).

Посредством назначения нового типа пакета MHAS для вторичного потока медиаданных (названного для примера PACTYP_MEDIA) дополнительные звуковые данные, представленные либо в виде несжатых данных PCM (импульсно-кодовой модуляции), необязательно дополнительно определенных с применением формата RIFF/WAV, либо сжатых звуковых данных, таких как звук MPEG-4 согласно ISO/IEC 14496-3 или любому другому кодированному представлению (например, согласно ATSC A/52 или ETSI TS 103 190), могут быть запакованы в пакеты MHAS и, следовательно, могут быть объединены с основным потоком MPEG-H 3d Audio. Разные форматы, предназначенные для запаковки, могут быть различены либо разными типами пакетов (например, PACTYP_PCM, PACTYP_MPEG4AUDIO, …), либо, как показано в примере ниже, дополнительным определителем, образующим подзаголовок пакета MHAS.By assigning a new MHAS packet type to the secondary media stream (named for example PACTYP_MEDIA), additional audio data represented either as uncompressed PCM (pulse code modulation) data, optionally further defined using the RIFF/WAV format, or compressed audio data such as as MPEG-4 audio according to ISO/IEC 14496-3 or any other encoded representation (eg according to ATSC A/52 or ETSI TS 103 190) can be packed into MHAS packets and hence can be combined with the main MPEG-stream. H 3d audio. Different formats intended for packaging can be distinguished either by different types of packets (eg PACTYP_PCM, PACTYP_MPEG4AUDIO, ...) or, as shown in the example below, by an additional qualifier that forms the subheading of the MHAS packet.

Поскольку (медиа) данные могут нуждаться в данных конфигурации, но могут не быть представленными в виде самостоятельных потоков, эти данные могут быть запакованы в заголовок содержащего пакета MHAS, или же может быть назначен дополнительный пакет MHAS (например, PACTYP_MEDIA_CONFIG или другой тип имени пакета MHAS, указывающий конфигурацию, например, PACTYP_PCMCONFIG), который дополнительно может также переносить информацию о типе дополнительных данных. Тип пакета MHAS может переносить информацию о конфигурации для данных полезной нагрузки PCM с целью подачи информации о конфигурации на модуль декодирования. Например, если тип пакета MHAS для информации о конфигурации (например, PACTYP_MEDIA_CONFIG или PACTYP_PCMCONFIG) присутствует в битовом потоке (например, после PACTYP_MEDIA_CONFIG), на модуль декодирования может быть подана информация о конфигурации данных PCT в форме структуры данных (например, pcmDataConfig()).Since (media) data may need configuration data but may not be represented as separate streams, this data may be packed in the header of the containing MHAS packet, or an additional MHAS packet may be assigned (e.g. PACTYP_MEDIA_CONFIG or another type of MHAS packet name , indicating the configuration, for example, PACTYP_PCMCONFIG), which optionally also carries information about the type of additional data. The MHAS packet type may carry configuration information for the PCM payload data in order to provide the configuration information to the decoding module. For example, if the MHAS packet type for configuration information (e.g., PACTYP_MEDIA_CONFIG or PACTYP_PCMCONFIG) is present in the bitstream (e.g., after PACTYP_MEDIA_CONFIG), PCT data configuration information in the form of a data structure (e.g., pcmDataConfig()) may be supplied to the decoding module. .

В целом, тип пакета MHAS (например, PACTYP_PCMDATA) может быть использован для встраивания данных полезной нагрузки PCM, соответствующих сигналам PCM, заданным в структуре конфигурации, и для подачи данных PCM в форме структуры полезной нагрузки данных PCM в модуль декодирования. Если тип пакета MHAS (например, PACTYP_PCMDATA) присутствует в битовом потоке, во время декодирования может быть использована структура полезной нагрузки данных PCM (например, pcmDataPayload()).In general, an MHAS packet type (eg, PACTYP_PCMDATA) can be used to embed PCM payload data corresponding to PCM signals specified in a configuration structure and to supply PCM data in the form of a PCM data payload structure to a decoding module. If the MHAS packet type (eg, PACTYP_PCMDATA) is present in the bitstream, a PCM data payload structure (eg, pcmDataPayload()) may be used during decoding.

На фиг. 2 проиллюстрирован примерный поток пакетов MPEG-H 3D audio в соответствии с настоящим изобретением.In FIG. 2 illustrates an exemplary MPEG-H 3D audio packet flow in accordance with the present invention.

В одном примере настоящее изобретение может быть основано на идентификации информации, основанной на следующих синтаксических изменениях.In one example, the present invention may be based on identifying information based on the following syntactic changes.

1. Таблица изменений 220 - синтаксис MHASPacketPayload() со следующим.1. Changesheet 220 - MHASPacketPayload() syntax with the following.

2. Назначить подходящий MHASPacketType для PACTYP_MEDIA в таблице 223. Альтернативно значение MHASPacketType может варьировать или может зависеть от предустановленного значения, например, значения, опубликованного организацией, занимающейся стандартами, в конечном документе о стандартах.2. Assign an appropriate MHASPacketType to PACTYP_MEDIA in table 223. Alternatively, the value of MHASPacketType may vary or may depend on a predefined value, such as a value published by a standards organization in a final standards document.

3. Следующий тип медиаданных должен быть определен с применением нумерации mhasMediaDataType.3. The next media data type must be defined using the mhasMediaDataType enumeration.

На фиг. 2 в качестве примера показан пакетированный основной поток, содержащий примерные пакеты согласно MPEG-H 3D audio с 3D звуковыми данными (в качестве примера содержащими данные конфигурации, например, PACTYP_MPEGH3DACFG, в качестве метаданных и кодированные звуковые данные, например, PACTYP_MPEGH3DAFRAME).In FIG. 2 exemplarily shows a packetized main stream containing exemplary MPEG-H 3D audio packets with 3D audio data (example containing configuration data such as PACTYP_MPEGH3DACFG as metadata and encoded audio data such as PACTYP_MPEGH3DAFRAME).

Кроме того, на фиг. 2 в качестве примера показан пакетированный вторичный поток (вспомогательный поток), содержащий примерные пакеты в соответствии с настоящим изобретением, как указано информацией заголовка, относящейся к вышеописанному примерному дополнительному типу пакета PACTYP_MEDIA, содержащему дополнительные звуковые данные (вспомогательные звуковые данные / вторичные звуковые данные), в качестве примера в сжатом формате, например, MPEG4Audio.In addition, in FIG. 2 exemplarily shows a packetized secondary stream (auxiliary stream) containing exemplary packets according to the present invention, as indicated by header information related to the above-described exemplary additional packet type PACTYP_MEDIA containing additional audio data (auxiliary audio data / secondary audio data), as an example in a compressed format such as MPEG4Audio.

Альтернативно или дополнительно дополнительные звуковые данные могут быть пакетированы с получением пакета, имеющего заголовок в соответствии с форматом пакетированного основного потока, в данном случае в качестве примера MPEG-H 3D audio, который содержит подзаголовок, указывающий разные форматы, запакованные так, как обсуждено выше.Alternatively or additionally, the additional audio data may be packetized into a packet having a header according to the format of the packetized main stream, in this case as an example MPEG-H 3D audio, which contains a sub-header indicating different formats, packed as discussed above.

В соответствии с примерными аспектами настоящего изобретения основной поток и вспомогательный (вторичный) поток могут быть объединены модулем объединения потоков, в том числе, например, модулем 102 объединения пакетированных потоков.In accordance with exemplary aspects of the present invention, the main stream and the auxiliary (secondary) stream may be combined by a stream combining module, including, for example, a packetized stream combining module 102.

Исходящий поток (объединенный поток) содержит пакеты, относящиеся к закодированным звуковым данным основного потока, и пакеты, относящиеся к звуковым данным вспомогательного потока внутри единственного пакетированного битового потока того же формата (такого как в качестве примера MPEG-H 3D audio на фиг. 2).The outgoing stream (joint stream) contains packets related to the encoded audio data of the main stream and packets related to the audio data of the sub-stream within a single packetized bitstream of the same format (such as MPEG-H 3D audio in FIG. 2 as an example) .

Следует отметить, что немодифицированные модули декодирования (прежнего типа) MPEG-H 3D audio могут не понимать недавно добавленный тип пакета (например, PACTYP_MEDIA), и такие немодифицированные модули декодирования (прежнего типа) MPEG-H 3D audio могут игнорировать или удалять из памяти пакеты, содержащие недавно добавленный тип пакета (например, PACTYP_MEDIA), указанный в их заголовке. Такие немодифицированные модули декодирования (прежнего типа) MPEG-H 3D audio все еще могут декодировать звуковые данные, относящиеся к основному потоку, но не будут обрабатывать дополнительные вспомогательные/вторичные звуковые данные.It should be noted that unmodified (legacy) MPEG-H 3D audio decoders may not understand the newly added packet type (e.g., PACTYP_MEDIA), and such unmodified (legacy) MPEG-H 3D audio decoders may ignore or remove packets from memory. , containing the newly added package type (for example, PACTYP_MEDIA) specified in their header. Such unmodified (legacy) MPEG-H 3D audio decoding modules can still decode audio data related to the main stream, but will not process the additional auxiliary/secondary audio data.

Для декодирования и обработки объединенного потока с получением основного и вспомогательного потоков приспособления в виде модулей декодирования могут быть модифицированы для включения модифицированного модуля декодирования, способного фильтровать и декодировать/обрабатывать пакеты, относящиеся к вспомогательным звуковым данным.To decode and process the combined stream into main and sub streams, decoding module fixtures can be modified to include a modified decoding module capable of filtering and decoding/processing packets related to audio ancillary data.

На фиг. 4 схематически проиллюстрирован другой пример первичного модуля декодирования/рендеринга в соответствии с настоящим изобретением.In FIG. 4 schematically illustrates another example of a primary decoding/rendering module in accordance with the present invention.

На фиг. 4 проиллюстрировано то, как этого можно достичь в модуле декодирования MPEG-H 3D Audio, где медиаформат представляет собой данные PCM. В качестве примера первичный модуль 301 декодирования/рендеринга реализован как содержащий модуль M1 декодирования ядра MPEG-H 3D Audio и соответствующие блоки рендеринга, такие как модуль M2 рендеринга объекта, например, в том числе заданный согласно стандарту MPEG-H 3D audio (ISO/IEC 23008-3).In FIG. 4 illustrates how this can be achieved in an MPEG-H 3D Audio decoder where the media format is PCM data. As an example, the primary decoding/rendering module 301 is implemented as comprising an MPEG-H 3D Audio core decoding module M1 and corresponding renderers such as an object renderer M2, for example, including those defined according to the MPEG-H 3D audio (ISO/IEC 23008-3).

Модифицированный модуль 301 декодирования может дополнительно фильтровать и отделять пакеты MHAS, имеющие заголовок, указывающий новый дополнительный тип пакета (например, PACTYP_MEDIA), и вводить пакеты, содержащие вспомогательные звуковые данные, в блок 301c1 конвертирования формата, а затем - на модуль конвертирования частоты дискретизации (такой как в качестве примера модуль M3 конвертирования частоты дискретизации, присутствующий в архитектуре модуля декодирования после модуля M1 декодирования ядра MPEG-H 3D Audio, как задано согласно стандарту MPEG-H 3D audio (ISO/IEC 23008-3)).The modified decoding module 301 may further filter and separate MHAS packets having a header indicating a new optional packet type (eg, PACTYP_MEDIA), and input packets containing auxiliary audio data to the format converting block 301c1 and then to the sample rate converting module ( such as, by way of example, the sample rate converting module M3 present in the architecture of the decoding module after the decoding module M1 of the MPEG-H 3D Audio core as specified according to the MPEG-H 3D audio standard (ISO/IEC 23008-3)).

Соответственно, модифицированный модуль 301 декодирования может выполнять конвертирование частоты дискретизации (например, посредством модуля M3 конвертирования частоты дискретизации) и конвертирование формата (например, посредством блока 301c1 конвертирования формата) в отношении входных медиаданных (MHASPacketType == PACTYP_MEDIA) для согласования частоты дискретизации медиаданных и структуры каналов с выходной частотой дискретизации и конфигурацией каналов модуля декодирования. Кроме того, модифицированный модуль декодирования может микшировать входные медиаданные или входные медиаданные, частота дискретизации которых была конвертирована, со звуковыми медиаданными, которые были созданы модулем M1 декодирования ядра MPEG-H 3D Audio в микшере (таком как в качестве примера микшерный блок M4, присутствующий в архитектуре модуля декодирования после модуля M1 декодирования ядра MPEG-H 3D Audio, как задано согласно стандарту MPEG-H 3D audio (ISO/IEC 23008-3)).Accordingly, the modified decoding unit 301 can perform sample rate conversion (for example, by the sample rate converting unit M3) and format conversion (for example, by the format converting unit 301c1) on the input media data (MHASPacketType == PACTYP_MEDIA) to match the media sampling rate and structure channels with output sample rate and channel configuration of the decoding module. In addition, the modified decoding unit can mix input media data or input media whose sample rate has been converted with audio media data that has been created by the MPEG-H 3D Audio core decoding unit M1 in a mixer (such as, for example, the mixing unit M4 present in architecture of the decoding module after the decoding module M1 of the MPEG-H 3D Audio core, as specified according to the MPEG-H 3D audio standard (ISO/IEC 23008-3)).

Вышеприведенный пример по фиг. 4 в качестве примера относится к вспомогательным медиаданным, содержащим несжатые медиаданные, такие как данные PCM или т. п. Следует отметить, что, если несжатые медиаданные, такие как данные PCM или т. п., дополнительно содержат информацию о положении или связаны с соответствующими метаданными о положении, например, для применений для 3D звука, вспомогательные данные могут быть дополнительно обработаны модулем рендеринга объекта, обрабатывающим данные о положении, таким как модуль M2 рендеринга объекта, присутствующим в архитектуре модуля декодирования после модуля M1 декодирования ядра MPEG-H 3D Audio, как задано согласно стандарту MPEG-H 3D audio (ISO/IEC 23008-3).The above example in FIG. 4 refers to ancillary media data containing uncompressed media data such as PCM data or the like by way of example. It should be noted that if the uncompressed media data such as PCM data or the like additionally contains position metadata, e.g. for 3D audio applications, the ancillary data may be further processed by an object renderer that processes the position data, such as an object renderer M2 present in the architecture of the decoder after the MPEG-H 3D Audio core decoder M1, as specified by the MPEG-H 3D audio standard (ISO/IEC 23008-3).

На фиг. 5 схематически проиллюстрирован еще один пример первичного модуля декодирования/рендеринга в соответствии с настоящим изобретением. В качестве примера первичный модуль 301 декодирования/рендеринга реализован как содержащий модуль M1 декодирования ядра MPEG-H 3D Audio и соответствующие блоки рендеринга, такие как модуль M2 рендеринга объекта, например, в том числе заданный согласно стандарту MPEG-H 3D audio (ISO/IEC 23008-3).In FIG. 5 schematically illustrates another example of a primary decoding/rendering module in accordance with the present invention. As an example, the primary decoding/rendering module 301 is implemented as comprising an MPEG-H 3D Audio core decoding module M1 and corresponding renderers such as an object renderer M2, for example, including those defined according to the MPEG-H 3D audio (ISO/IEC 23008-3).

На фиг. 5 в качестве примера проиллюстрировано то, как вышеописанного можно достичь в модуле декодирования MPEG-H 3D Audio, где медиаформат представляет собой закодированные данные (такие как MPEG-4 Audio). Модифицированный модуль 301 декодирования может декодировать входные медиаданные (MHASPacketType == PACTYP_MEDIA) с применением дополнительного модуля 301c2 декодирования (модуля конвертирования и/или модуля декодирования, приспособленных для конвертирования и/или декодирования вспомогательных медиаданных), не обязательно определенного в ISO/IEC 23008-3. Кроме того, модифицированный модуль декодирования может микшировать те декодированные медиаданные со звуковыми медиаданными, которые были созданы модулем M1 декодирования ядра MPEG-H 3D Audio, как задано согласно стандарту MPEG-H 3D audio (ISO/IEC 23008-3).In FIG. 5 illustrates by way of example how the above can be achieved in an MPEG-H 3D Audio decoding module where the media format is encoded data (such as MPEG-4 Audio). The modified decoding module 301 can decode the input media data (MHASPacketType == PACTYP_MEDIA) using an additional decoding module 301c2 (a converting module and/or a decoding module adapted to convert and/or decode the auxiliary media data), not necessarily defined in ISO/IEC 23008-3 . In addition, the modified decoding module can mix the decoded media data with the audio media data that was created by the MPEG-H 3D Audio core decoding module M1 as specified according to the MPEG-H 3D audio standard (ISO/IEC 23008-3).

Выравнивание во времени нескольких подпотоков MHAS, берущих начало от разных источниковTime Alignment of Multiple MHAS Substreams Originating from Different Sources

В примерных аспектах в соответствии с настоящим изобретением могут быть предоставлены дополнительные блоки выравнивания во времени для выравнивания во времени пакетов вспомогательного потока, например, для обеспечения выравнивания во времени нескольких подпакетов MHAS, берущих начало от разных источников.In exemplary aspects, in accordance with the present invention, additional time alignment units may be provided for time alignment of substream packets, for example, to provide time alignment of multiple MHAS subpackets originating from different sources.

Как указано в разделе 14.6 ISO/IEC 23008-3, «подпотоки MHAS генерируются одним и тем же модулем кодирования, [и, следовательно] считается, что различные входящие потоки […] полностью выровнены и не имеют фазового сдвига». В этом случае выравнивание группы данных может быть завершено с применением номера MHASPacketLabel. С предложенным способом в настоящем изобретении это вышеуказанное ограничение можно более не считать обязательным. С разными длительностями групп данных для разных кодеков или частот дискретизации сдвиг по времени следующих друг за другом пакетов MHAS вторичного потока, который объединяется с основным потоком MHAS, варьирует со временем. В каждом конкретном временном интервале должен сигнализироваться сдвиг согласования по времени вторичного потока относительно основного потока. Например, в связанных пакетах вспомогательного потока, указывающих тип пакета, относящийся к метаданным, связанным с медиаданными, содержащимися в полезной нагрузке пакетов вспомогательного потока, как показано на фиг. 6.As stated in section 14.6 of ISO/IEC 23008-3, "MHAS substreams are generated by the same coding unit, [and hence] the different incoming streams are considered to be […] fully aligned and have no phase shift." In this case, data group alignment can be completed using the MHASPacketLabel number. With the proposed method in the present invention, this above limitation can no longer be considered mandatory. With different data group lengths for different codecs or sampling rates, the time offset of successive MHAS packets of a secondary stream that is merged with the main MHAS stream varies over time. In each particular time interval, the timing offset of the secondary stream relative to the main stream must be signaled. For example, in associated sub-stream packets indicating a packet type related to metadata associated with media data contained in the sub-stream packet payload, as shown in FIG. 6.

На фиг. 6 проиллюстрированы примерные типы пакетов для достижения целей настоящего изобретения на основе MHAS, например, в том случае, если задан другой тип пакета MHAS для переноса подходящей сигнальной информации о сдвиге по времени. Для связи этой сигнальной информации с соответствующим потоком пакет сдвига по времени должен иметь тот же назначенный номер MHASPacketLabel, что и MHASPacket типа PACTYP_MEDIA, к которому он относится. Из фиг. 6 становится очевидно, что прямое отношение «один к одному» данных потока, соответствующих одному конкретному временному интервалу каждого потока, не гарантировано, напротив, два или более временных интервалов из одного потока могут соответствовать одному временному интервалу из другого потока в отношении времени.In FIG. 6 illustrates exemplary packet types to achieve the objectives of the present invention based on MHAS, for example, if another MHAS packet type is specified to carry appropriate time offset signaling information. To associate this signaling information with the corresponding stream, the timeshift packet must have the same assigned MHASPacketLabel number as the MHASPacket of type PACTYP_MEDIA to which it belongs. From FIG. 6, it becomes apparent that a direct one-to-one relationship of stream data corresponding to one particular time slot of each stream is not guaranteed, on the contrary, two or more time slots from one stream may correspond to one time slot from another stream in terms of time.

Другим вариантом сигнализирования сдвига по времени является добавление этого сдвига по времени в сам пакет MHAS типа PACTYP_MEDIA.Another option for signaling a time offset is to add this time offset to the MHAS packet of type PACTYP_MEDIA itself.

С учетом вышесказанного, в некоторых примерных аспектах в соответствии с настоящим изобретением блок конвертирования и/или декодирования модифицированного первичного модуля 301 декодирования/рендеринга согласно примерам по фиг. 4 и/или фиг. 5 может содержать блок выравнивания во времени для выравнивания во времени данных вспомогательного потока с данными основного потока, например, перед микшером, таким как микшерный блок M4 согласно примерам по фиг. 4 и фиг. 5, или также перед модулем дискретизации (например, модулем M3 конвертирования частоты дискретизации) согласно примерам по фиг. 4 и фиг. 5, или также в виде части вторичного модуля 203 декодирования/рендеринга согласно примеру по фиг. 1.In view of the foregoing, in some exemplary aspects in accordance with the present invention, the converting and/or decoding unit of the modified primary decoding/rendering module 301 according to the examples of FIG. 4 and/or FIG. 5 may include a time alignment unit for time alignment of the sub-stream data with the main stream data, for example, before a mixer, such as the mixing unit M4 according to the examples of FIG. 4 and FIG. 5, or also before the sampling unit (for example, the sampling rate converting unit M3) according to the examples of FIG. 4 and FIG. 5, or also as part of a secondary decoding/rendering module 203 according to the example of FIG. one.

Управление микшированием основного и вторичного звуковых потоковMixing control of the main and secondary audio streams

Могут понадобиться дополнительные данные для управления микшированием вторичного (вспомогательного) звукового потока с основными звуковыми потоками. Среди прочих вариантов эти данные могут содержать статические коэффициенты усиления или динамические последовательности усиления, в качестве примера образованные как данные DynamicRangeControl согласно ISO/IEC 23003-4 для обработки основного потока при воспроизведении вторичного звукового потока. Те данные обычно генерируются приспособлением № 1 и могут быть включены в поток либо раздельными пакетами MHAS (например, с идентификатором PACTYP_MPEGH_MEDIA_CFG) в качестве еще одного дополнения к заголовку вторичного потока, либо за счет любого другого вида запаковки потока.Additional data may be needed to control the mixing of the secondary (auxiliary) audio stream with the main audio streams. Among other options, this data may contain static gains or dynamic gain sequences, as an example, formed as DynamicRangeControl data according to ISO/IEC 23003-4 for processing the main stream when playing a secondary audio stream. That data is usually generated by fixture #1 and can be included in the stream either by separate MHAS packets (eg, with identifier PACTYP_MPEGH_MEDIA_CFG) as another addition to the secondary stream header, or by any other kind of stream packaging.

С учетом вышесказанного, в некоторых примерных аспектах в соответствии с настоящим изобретением блок конвертирования и/или декодирования модифицированного модуля 301 декодирования согласно примерам по фиг. 4 и/или фиг. 5 может содержать блок регулировки коэффициента усиления для задействования статических и/или динамических коэффициентов усиления (например, для регулировки громкости), например, перед микшером, таким как микшерный блок M4 согласно примерам по фиг. 4 и фиг. 5, или также перед модулем дискретизации (например, модулем M3 конвертирования частоты дискретизации) согласно примерам по фиг. 4 и фиг. 5, или также в виде части вторичного модуля 203 декодирования/рендеринга согласно примеру по фиг. 1.In view of the foregoing, in some exemplary aspects in accordance with the present invention, the converting and/or decoding unit of the modified decoding module 301 according to the examples of FIG. 4 and/or FIG. 5 may comprise a gain adjuster for engaging static and/or dynamic gains (eg for volume control), for example before a mixer, such as the mixer M4 according to the examples of FIG. 4 and FIG. 5, or also before the sampling unit (for example, the sampling rate converting unit M3) according to the examples of FIG. 4 and FIG. 5, or also as part of a secondary decoding/rendering module 203 according to the example of FIG. one.

Экосистема DolbyEcosystem Dolby

Также в Dolby AC-4 (ETSI TS 103 190), и Dolby Digital, и Dolby Digital Plus (ETSI TS 102 366) предложена возможность переноса любых двоичных данных в полезной нагрузке EMDF, что может быть использовано для переноса тех же или похожих данных, как задано в вышеописанном разделе (Экосистема MPEG-H).Also Dolby AC-4 (ETSI TS 103 190), and Dolby Digital and Dolby Digital Plus (ETSI TS 102 366) offer the ability to carry any binary data in an EMDF payload, which can be used to carry the same or similar data, as specified in the above section (MPEG-H Ecosystem).

Для этих целей могут быть применены элемент синтаксиса emdf_info(), как задано в ETSI TS 103 190, или элемент синтаксиса emdf_container(), как задано в ETSI TS 102 366, приложение H и их подлежащие элементы. Чтобы сделать это, можно просто задать одну или более формулировок emdf_payload_id, которые могут быть использованы с целью идентификации двоичных данных, которые имеют формат, который одинаков с тем или подобен тому, что описан выше в отношении PACTYP_MEDIA и/или PACTYP_MPEGH_MEDIA_CFG.For these purposes, the emdf_info() syntax element, as specified in ETSI TS 103 190, or the emdf_container() syntax element, as specified in ETSI TS 102 366 Annex H, and their subject elements can be used. To do this, one or more emdf_payload_id statements can be simply given, which can be used to identify binary data that has a format that is the same or similar to that described above with respect to PACTYP_MEDIA and/or PACTYP_MPEGH_MEDIA_CFG.

Системное микширование звуков для потоков медиаданных, содержащих несжатые/незакодированные данные, может быть достигнуто подобным образом в Dolby AC-4 или Dolby Digital / Dolby Digital Plus, как показано на фиг. 4 и фиг. 5, при этом разница заключается в том, что различение сигнального пути для использования производится не на основе MHASPacketType, а на основе значения emdf_payload_id. System audio mixing for media streams containing uncompressed/unencoded data can be achieved similarly in Dolby AC-4 or Dolby Digital/Dolby Digital Plus as shown in FIG. 4 and FIG. 5, with the difference being that the signaling path to use is distinguished not based on MHASPacketType , but based on the value of emdf_payload_id.

Потоки медиаданных, к которым относится настоящее изобретение, как основной поток, так и потоки побочных данных, могут представлять собой следующий тип:The media streams to which the present invention relates, both the main stream and the side data streams, may be of the following type:

звуковые потоки, как сжатые, так и несжатые;audio streams, both compressed and uncompressed;

видеопотоки;video streams;

субтитры.subtitles.

Настоящее изобретение также может быть применено к приспособлениям представления видео (мониторам), в которых будет происходить отправка вышележащих картинки, видео или текста в дополнение к основному (обычно сжатому) видеопотоку через стандартизованное интерфейсное соединение.The present invention can also be applied to video presentation devices (monitors) that will send an overhead picture, video or text in addition to the main (usually compressed) video stream via a standardized interface connection.

Ссылки:Links:

US20170223429A1, EP3149955A1;US20170223429A1, EP3149955A1;

ISO/IEC 23008-3: (MPEG-H 3d Audio, 2-е издание).ISO/IEC 23008-3: (MPEG-H 3d Audio 2nd edition).

Пронумерованные примерные варианты осуществления настоящего изобретения относятся к следующему.Numbered exemplary embodiments of the present invention refer to the following.

EEE1. Способ обработки звукового сигнала, включающий:EEE1. A method for processing an audio signal, including:

прием объединенного пакетированного битового потока медиаданных, который содержит пакеты, связанные с основным потоком, указывающим основную звуковую информацию, и пакеты, связанные с потоком побочных данных, указывающим вспомогательную звуковую информацию, идентификацию значения типа пакета в информации заголовка пакетов объединенного пакетированного битового потока медиаданных и разделение объединенного пакетированного битового потока медиаданных на основе идентификации значения типа пакета в информации заголовка пакетов объединенного пакетированного битового потока медиаданных на основной поток, указывающий основную звуковую информацию, и поток побочных данных, указывающий вспомогательную звуковую информацию.receiving a combined packetized media bitstream that contains packets associated with a main stream indicating main audio information and packets associated with a side data stream indicating auxiliary audio information, identifying a packet type value in the packet header information of the combined packetized media bitstream, and separating of the combined packetized media bitstream based on identifying a packet type value in the header information of the packets of the combined packetized media bitstream into a main stream indicating main audio information and a side data stream indicating auxiliary audio information.

EEE2. Способ согласно пункту EEE1, дополнительно включающий:EEE2. The method according to item EEE1, further comprising:

микширование звукового выходного сигнала, основанного на выходном сигнале, полученном из основной звуковой информации основного потока, и выходного сигнала, полученного из вспомогательной звуковой информации потока побочных данных.mixing an audio output signal based on an output signal obtained from the main audio information of the main stream and an output signal obtained from the auxiliary audio information of the side data stream.

EEE3. Способ согласно пункту EEE2, в котором выходные сигналы из основной и вспомогательной звуковой информации выводят слушателю одновременно.EEE3. The method according to EEE2, wherein output signals from the main and auxiliary audio information are output to the listener at the same time.

EEE4. Способ согласно пункту EEE1, дополнительно включающий:EEE4. The method according to item EEE1, further comprising:

декодирование основного потока первичным модулем декодирования.decoding the main stream by the primary decoding module.

EEE5. Способ согласно пункту EEE1, дополнительно включающий:EEE5. The method according to item EEE1, further comprising:

декодирование, когда поток побочных данных относится к сжатой вспомогательной звуковой информации, потока побочных данных вторичным модулем декодирования.decoding, when the side data stream is related to the compressed auxiliary audio information, of the side data stream by the secondary decoding unit.

EEE6. Способ согласно пункту EEE1, дополнительно включающий:EEE6. The method according to item EEE1, further comprising:

конвертирование, когда поток побочных данных относится к сжатой вспомогательной звуковой информации, медиаданных, содержащихся в пакетах потока побочных данных, модулем конвертирования.converting, when the side data stream refers to the compressed auxiliary audio information, the media data contained in the packets of the side data stream, by the converting unit.

EEE7. Способ согласно пункту EEE5 или пункту EEE6, в которомEEE7. A method according to EEE5 or EEE6, wherein

сжатая вспомогательная звуковая информация содержит звуковые данные MPEG-4.the compressed auxiliary audio information contains MPEG-4 audio data.

EEE8. Способ согласно пункту EEE1, в которомEEE8. A method according to EEE1, wherein

поток побочных данных относится к несжатой вспомогательной звуковой информации.the side data stream refers to the uncompressed auxiliary audio information.

EEE9. Способ согласно пункту EEE8, в которомEEE9. A method according to EEE8, wherein

несжатая вспомогательная звуковая информация содержит данные PCM.uncompressed auxiliary audio information contains PCM data.

EEE10. Способ согласно пункту EEE1, в которомEEE10. A method according to EEE1, wherein

тип пакета указывает внутренний необработанный формат, в частности, внутренний по отношению к модулю декодирования необработанный формат.the packet type indicates an internal raw format, in particular, an internal raw format with respect to the decoding module.

EEE11. Способ согласно пункту EEE1, дополнительно включающий:EEE11. The method according to item EEE1, further comprising:

выполнение обработки сигнала в отношении потока побочных данных.performing signal processing on the side data stream.

EEE12. Способ согласно пункту EEE11, в которомEEE12. A method according to EEE11, wherein

выполнение обработки сигнала в отношении потока побочных данных выполняют перед микшированием звукового выходного сигнала, основанного на выходном сигнале, полученном из основной звуковой информации основного потока, и выходного сигнала, полученного из вспомогательной звуковой информации потока побочных данных.performing signal processing on the side data stream is performed before mixing the audio output signal based on the output signal obtained from the main audio information of the main stream and the output signal obtained from the auxiliary audio information of the side data stream.

EEE13. Способ согласно пункту EEE11, в которомEEE13. A method according to EEE11, wherein

выполнение обработки сигнала в отношении потока побочных данных включает выполнение регулировки коэффициента усиления.performing signal processing on the side data stream includes performing gain adjustment.

EEE14. Способ согласно пункту EEE13, в которомEEE14. The method according to paragraph EEE13, in which

регулировку коэффициента усиления выполняют на основе статического коэффициента усиления или динамического коэффициента усиления.the gain adjustment is performed based on the static gain or the dynamic gain.

EEE15. Способ согласно пункту EEE13, дополнительно включающий:EEE15. The method according to paragraph EEE13, further comprising:

прием информации микширования, относящейся к по меньшей мере одному из статического коэффициента усиления (статических коэффициентов усиления) или динамического коэффициента усиления (динамических коэффициентов усиления).receiving mixing information related to at least one of a static gain(s) or a dynamic gain(s).

EEE16. Способ согласно пункту EEE13, в которомEEE16. The method according to paragraph EEE13, in which

регулировку коэффициента усиления выполняют для регулировки громкости.gain adjustment is performed to adjust the volume.

EEE17. Способ согласно пункту EEE11, в которомEEE17. A method according to EEE11, wherein

выполнение обработки сигнала в отношении потока побочных данных включает выполнение выравнивания во времени.performing signal processing on the side data stream includes performing time alignment.

EEE18. Способ согласно пункту EEE17, в которомEEE18. The method according to paragraph EEE17, in which

выполнение выравнивания во времени выполняют для выравнивания во времени вспомогательной звуковой информации битового потока побочных данных с основной звуковой информацией основного битового потока.performing the alignment in time is performed to align the auxiliary audio information of the side data bitstream with the main audio information of the main bitstream in time.

EEE19. Способ согласно пункту EEE17 или пункту EEE18, дополнительно включающий:EEE19. The method according to item EEE17 or item EEE18, further comprising:

прием информации о выравнивании во времени, относящейся к выравниванию во времени вспомогательной звуковой информации битового потока побочных данных с основной звуковой информацией основного битового потока.receiving temporal alignment information relating to the temporal alignment of the auxiliary audio information of the side data bitstream with the main audio information of the main bitstream.

EEE20. Способ согласно пункту EEE1, в которомEEE20. A method according to EEE1, wherein

задают тип пакета для переноса сигнальной информации о сдвиге по времени, в частности, для выравнивания во времени.specifying a packet type for carrying time shift signaling information, in particular for time alignment.

EEE21. Способ согласно пункту EEE1, дополнительно включающий:EEE21. The method according to item EEE1, further comprising:

прием указания сдвига согласования по времени потока побочных данных относительно основного потока.receiving an indication of a timing offset of the side data stream relative to the main stream.

EEE22. Способ согласно пункту EEE11, в которомEEE22. A method according to EEE11, wherein

выполнение обработки сигнала в отношении потока побочных данных включает рендеринг объекта, когда вспомогательная звуковая информация связана с информацией о положении.performing signal processing on the side data stream includes rendering an object when the auxiliary audio information is associated with the position information.

EEE23. Способ согласно пункту EEE22, в которомEEE23. A method according to EEE22, wherein

рендеринг объекта выполняют с помощью модуля рендеринга объекта, выполняющего рендеринг объекта для основного потока и для потока побочных данных.object rendering is performed by an object rendering module performing object rendering for the main stream and for the side data stream.

EEE24. Способ согласно пункту EEE11, в которомEEE24. A method according to EEE11, wherein

выполнение обработки сигнала в отношении потока побочных данных включает конвертирование формата.performing signal processing on the side data stream includes format conversion.

EEE25. Способ согласно пункту EEE1, дополнительно включающий:EEE25. The method according to item EEE1, further comprising:

декодирование основного потока стандартизованным модулем декодирования MPEG-H 3D audio.decoding of the main stream by a standardized MPEG-H 3D audio decoding module.

EEE26. Способ согласно пункту EEE25, дополнительно включающий:EEE26. A method according to EEE25, further comprising:

микширование медиаданных, содержащихся в пакетах потока побочных данных, с медиаданными, генерируемыми стандартизованным модулем декодирования MPEG-H 3D audio.mixing media data contained in side data stream packets with media data generated by a standardized MPEG-H 3D audio decoding module.

EEE27. Способ согласно пункту EEE26, в которомEEE27. A method according to EEE26, wherein

медиаданные, содержащиеся в пакетах потока побочных данных, представляют собой несжатые данные, в частности, данные PCM, или сжатые данные, в частности, звуковые данные MPEG4.the media data contained in the packets of the side data stream is uncompressed data, in particular PCM data, or compressed data, in particular MPEG4 audio data.

EEE28. Способ согласно пункту EEE26, в которомEEE28. A method according to EEE26, wherein

медиаданные, содержащиеся в пакетах потока побочных данных, декодируют с помощью модуля декодирования, не стандартизованного в MPEG-H 3D audio.the media contained in the packets of the side data stream is decoded using a decoding module not standardized in MPEG-H 3D audio.

EEE29. Способ согласно пункту EEE1, в которомEEE29. A method according to EEE1, wherein

объединенный пакетированный битовый поток медиаданных содержит пакеты MHAS.the combined packetized media bitstream contains MHAS packets.

EEE30. Способ обработки звукового сигнала, включающий:EEE30. A method for processing an audio signal, including:

- прием основного потока, указывающего основную звуковую информацию;- receiving the main stream indicating the main audio information;

- генерирование на основе вспомогательной звуковой информации или прием потока побочных данных, указывающего вспомогательную звуковую информацию; и- generating, based on the auxiliary audio information, or receiving a side data stream indicating the auxiliary audio information; and

- объединение основного потока и потока побочных данных для генерирования объединенного пакетированного битового потока медиаданных, который содержит пакеты, связанные с основным потоком, указывающим основную звуковую информацию, и пакеты, связанные с потоком побочных данных, указывающим вспомогательную звуковую информацию.combining the main stream and the side data stream to generate a combined packetized media bitstream that contains packets associated with the main stream indicating main audio information and packets associated with the side data stream indicating auxiliary audio information.

EEE31. Способ согласно пункту EEE30, дополнительно включающийEEE31. The method according to item EEE30, further comprising

пакетирование медиаданных, указывающих вспомогательную звуковую информацию, с получением пакетов формата объединенного пакетированного битового потока медиаданных.packetizing media data indicating auxiliary audio information to obtain packets of the combined packetized media bitstream format.

EEE32. Способ согласно пункту EEE30, в которомEEE32. A method according to EEE30, wherein

поток побочных данных относится к сжатой вспомогательной звуковой информации.the side data stream refers to the compressed auxiliary audio information.

EEE33. Способ согласно пункту EEE32, в которомEEE33. A method according to EEE32, wherein

EEE34. Способ согласно пункту EEE30, в которомEEE34. A method according to EEE30, wherein

EEE35. Способ согласно пункту EEE34, в которомEEE35. A method according to EEE34, wherein

EEE36. Способ согласно пункту EEE30, в которомEEE36. A method according to EEE30, wherein

информация заголовка пакетов объединенного пакетированного битового потока медиаданных указывает тип пакета.the packet header information of the combined packetized media bitstream indicates the packet type.

EEE37. Способ согласно пункту EEE36, в которомEEE37. A method according to EEE36, wherein

значение типа пакета, имеющего отношение к пакетам, связанным с потоком побочных данных, указывающим вспомогательную звуковую информацию, указывает медиаданные, связанные со вспомогательной звуковой информацией.a packet type value related to packets associated with a side data stream indicating auxiliary audio information indicates media data associated with the auxiliary audio information.

EEE38. Способ согласно пункту EEE30, в которомEEE38. A method according to EEE30, wherein

EEE39. Устройство для обработки звукового сигнала, содержащее:EEE39. An audio signal processing device, comprising:

приемник, приспособленный для приема объединенного пакетированного битового потока медиаданных, который содержит пакеты, связанные с основным потоком, указывающим основную звуковую информацию, и пакеты, связанные с потоком побочных данных, указывающим вспомогательную звуковую информацию; иa receiver adapted to receive a combined packetized media bitstream that contains packets associated with a main stream indicating main audio information and packets associated with a side data stream indicating ancillary audio information; and

модуль разделения, приспособленный для разделения объединенного пакетированного битового потока медиаданных на основе идентификации значения типа пакета в информации заголовка пакетов объединенного пакетированного битового потока медиаданных на основной поток, указывающий основную звуковую информацию, и поток побочных данных, указывающий вспомогательную звуковую информацию.a splitter adapted to split the combined packetized media bitstream based on identifying a packet type value in the packet header information of the combined packetized media bitstream into a main stream indicating main audio information and a side data stream indicating auxiliary audio information.

EEE40. Устройство согласно пункту EEE39, дополнительно содержащее:EEE40. An EEE39 device further comprising:

микшер, приспособленный для микширования звукового выходного сигнала, основанного на выходном сигнале, полученном из основной звуковой информации основного потока, и выходного сигнала, полученного из вспомогательной звуковой информации потока побочных данных.a mixer adapted to mix an audio output signal based on an output signal obtained from the main audio information of the main stream and an output signal obtained from the auxiliary audio information of the side data stream.

EEE41. Устройство согласно пункту EEE39, дополнительно содержащее:EEE41. An EEE39 device further comprising:

первичный модуль декодирования, приспособленный для декодирования основного потока.a primary decoding module adapted to decode the main stream.

EEE42. Устройство согласно пункту EEE39, дополнительно содержащее:EEE42. An EEE39 device further comprising:

вторичный модуль декодирования, приспособленный для декодирования, когда поток побочных данных относится к сжатой вспомогательной звуковой информации, потока побочных данных.a secondary decoding unit adapted to decode, when the side data stream is related to compressed auxiliary audio information, of the side data stream.

EEE43. Устройство согласно пункту EEE39, дополнительно содержащее:EEE43. An EEE39 device further comprising:

модуль конвертирования, приспособленный для конвертирования, когда поток побочных данных относится к сжатой вспомогательной звуковой информации, медиаданных, содержащихся в пакетах потока побочных данных.a converting module adapted to convert when the side data stream refers to compressed auxiliary audio information, the media data contained in the packets of the side data stream.

EEE44. Устройство согласно пункту EEE42 или пункту EEE43, в которомEEE44. A device according to item EEE42 or item EEE43, in which

EEE45. Устройство согласно пункту EEE39, в которомEEE45. A device according to EEE39, in which

EEE46. Устройство согласно пункту EEE45, в которомEEE46. A device according to EEE45, in which

EEE47. Устройство согласно пункту EEE39, в которомEEE47. A device according to EEE39, in which

EEE48. Устройство согласно пункту EEE39, дополнительно содержащее:EEE48. An EEE39 device further comprising:

блок регулировки коэффициента усиления, приспособленный для выполнения регулировки коэффициента усиления применительно к потоку побочных данных.a gain adjustment unit adapted to perform gain adjustment with respect to the side data stream.

EEE49. Устройство согласно пункту EEE39, дополнительно содержащее:EEE49. An EEE39 device further comprising:

блок выравнивания во времени, приспособленный для выполнения выравнивания во времени применительно к потоку побочных данных.a time alignment unit adapted to perform time alignment on the side data stream.

EEE50. Устройство согласно пункту EEE39, дополнительно содержащее:EEE50. An EEE39 device further comprising:

модуль рендеринга объекта, приспособленный для выполнения рендеринга объекта применительно к потоку побочных данных.an object rendering module adapted to render an object in relation to the side data stream.

EEE51. Устройство согласно пункту EEE50, в которомEEE51. A device according to EEE50, in which

модуль рендеринга объекта содержится в первичном модуле декодирования.the object renderer is contained in the primary decoder.

EEE52. Устройство согласно пункту EEE39, дополнительно содержащее:EEE52. An EEE39 device further comprising:

блок конвертирования формата, приспособленный для выполнения конвертирования формата применительно к потоку побочных данных.a format converting unit adapted to perform format converting on the side data stream.

EEE53. Устройство согласно пункту EEE39, дополнительно содержащее:EEE53. An EEE39 device further comprising:

стандартизованный модуль декодирования MPEG-H 3D audio для декодирования основного потока.standardized MPEG-H 3D audio decoding module for main stream decoding.

EEE54. Устройство согласно пункту EEE39, в которомEEE54. A device according to EEE39, in which

EEE55. Устройство для обработки звукового сигнала, содержащее:EEE55. An audio signal processing device, comprising:

приемник, приспособленный для приема основного потока, указывающего основную звуковую информацию;a receiver adapted to receive the main stream indicating the main audio information;

локальный механизм, приспособленный для генерирования на основе вспомогательной звуковой информации потока побочных данных, указывающего вспомогательную звуковую информацию, и/или приемник, приспособленный для приема потока побочных данных; иa local mechanism adapted to generate, based on the auxiliary audio information, a side data stream indicating the auxiliary audio information, and/or a receiver adapted to receive the side data stream; and

модуль объединения, приспособленный для объединения основного потока и потока побочных данных для генерирования объединенного пакетированного битового потока медиаданных, который содержит пакеты, связанные с основным потоком, указывающим основную звуковую информацию, и пакеты, связанные с потоком побочных данных, указывающим вспомогательную звуковую информацию.a combining module adapted to combine the main stream and the side data stream to generate a combined packetized media bitstream that contains packets associated with the main stream indicating main audio information and packets associated with the side data stream indicating auxiliary audio information.

EEE56. Устройство согласно пункту EEE55, дополнительно содержащее:EEE56. An EEE55 device further comprising:

модуль пакетирования, приспособленный для пакетирования медиаданных, указывающих вспомогательную звуковую информацию, с получением пакетов формата объединенного пакетированного битового потока медиаданных.a packetization module adapted to packetize the media data indicative of the auxiliary audio information to obtain packets of the combined packetized media bitstream format.

EEE57. Система, содержащая устройство согласно пункту EEE55 и устройство согласно пункту EEE39.EEE57. A system containing an EEE55 device and an EEE39 device.

Claims

1. A method for processing a combined packetized media bitstream, the method comprising:

extracting from the combined packetized bitstream the media data of the main stream, which contains MPEG-H 3D audio data packed in the MHAS format;

extraction from the combined packetized media bitstream of an auxiliary stream, which contains additional audio data, packed as packets in the MHAS format,

wherein the packets are of a new MHAS packet type, wherein the packet payload format related to the packets is different from the MPEG-H 3D MPEG-H 3D audio data format, and the new MHAS packet type indicates an internal raw format;

identifying time offset signal information that indicates the presence of a time offset of the sub stream relative to the main stream, wherein the time offset signal information indicates that the sub stream signals must be offset to arrive at the mixer aligned with the main stream; and

temporally aligning the additional audio data with the MPEG-H 3D audio data based on the time offset signaling information.

2. The method of claim 1, further comprising decoding the base stream based on the MPEG-H 3D format.

3. The method according to claim 1, characterized in that the packets contain a subheader identifying the format of the packet's payload.

4. The method of claim 1, further comprising decoding the auxiliary stream based on the packet payload format related to the packets.

5. The method according to claim. 1, characterized in that it further includes issuing at least an output signal obtained from the main stream and the auxiliary stream.

6. The method according to claim 1, characterized in that the MHAS format is compatible with the ISO/IEC 23008-3 standard.

7. A non-volatile computer-readable storage medium with instructions stored on it, which, when executed by one or more processors, ensure that one or more processors execute the method according to claim 1.

8. An audio decoding device for processing a combined packetized bitstream of media data, the device comprising:

a splitter adapted to extract media data from the combined packetized bitstream of the main stream, the main stream containing MPEG-H 3D audio data packed in MHAS format, and the auxiliary stream, the auxiliary stream containing additional audio data packed in the form of packets in .mhas format,

an identification unit adapted to identify the time offset signal information that indicates the presence of a time offset of the auxiliary stream relative to the main stream, while the time offset signal information indicates that the signals of the auxiliary stream must be offset to arrive at the mixer aligned with the main stream; and

a time alignment unit for temporally aligning the additional audio data with the MPEG-H 3D audio data based on the time offset signaling information.

9. The apparatus of claim 8, further comprising an audio decoder for decoding the main stream based on the MPEG-H 3D format.

10. The device according to claim 8, characterized in that the packets contain a subheader identifying the payload format of the packet.

11. The apparatus of claim 8, further comprising an audio decoder for decoding the sub-stream based on the packet payload format related to the packets.

12. The device according to claim. 8, characterized in that it further comprises an output unit for issuing at least an output signal obtained from the main stream and the auxiliary stream.

13. The device according to claim 8, characterized in that the MHAS format is compatible with the ISO/IEC 23008-3 standard.