RU2023121109A

RU2023121109A - Способы и устройства для формирования или декодирования битового потока, содержащего иммерсивные аудиосигналы

Info

Publication number: RU2023121109A
Application number: RU2023121109A
Authority: RU
Inventors: Стефан БРУН; Хуан Феликс ТОРРЕС
Original assignee: Долби Лэборетериз Лайсенсинг Корпорейшн; Долби Интернэшнл Аб
Priority date: 2018-07-02
Filing date: 2019-07-02
Publication date: 2023-08-21

Claims

1. Способ (500) формирования битового потока (101), в котором битовый поток (101) содержит последовательность суперкадров (400) для последовательности кадров иммерсивного аудиосигнала (111), причем способ (500) содержит этапы, на которых, повторяющимся образом для последовательности суперкадров (400):

- вставляют (501) закодированные аудиоданные (206) для двух или более кадров одного или более сигналов (203) каналов понижающего микширования, полученных из иммерсивного аудиосигнала (111), в поля (411, 421, 412, 422) данных суперкадра (400), причем закодированные аудиоданные (206) кадра канала (203) понижающего микширования сформированы с использованием многорежимного и/или многоскоростного речевого кодека или аудиокодека; и

- вставляют (502) метаданные (202, 205) для воссоздания двух или более кадров иммерсивного аудиосигнала (111) из закодированных аудиоданных (206) в поле (403) метаданных суперкадра (400).

2. Способ (500) по п. 1, причем

- способ (500) содержит этап, на котором вставляют поле (401) заголовка в суперкадр (400); и

- поле (401) заголовка указывает размер поля (403) метаданных суперкадра (400),

причем опционально:

- поле (403) метаданных представляет максимальный возможный размер;

- поле (401) заголовка указывает значение корректировки; и

- размер поля (403) метаданных суперкадра (400) соответствует максимальному возможному размеру минус значение корректировки.

3. Способ (500) по п. 2, в котором

- поле (401) заголовка содержит индикатор размера для размера поля (403) метаданных; и

- индикатор размера представляет разное разрешение для разных диапазонов размера для размера поля (403) метаданных,

причем опционально:

- метаданные (202, 205) для восстановления одного или более кадров иммерсивного аудиосигнала (111) представляют статистическое распределение размера для размера метаданных (202, 205); и

- разрешение индикатора размера зависит от распределения размера метаданных (202, 205).

4. Способ (500) по любому из предыдущих пунктов, причем

- поле (401) заголовка указывает на то, содержит ли суперкадр (400) поле (402) информации конфигурации, и/или

- поле (401) заголовка указывает наличие поля (402) информации конфигурации, и/или

- поле (401) заголовка указывает на то, содержит ли суперкадр (400) дополнительное поле (404) для дополнительной информации относительно иммерсивного аудиосигнала (111).

5. Способ (500) по любому из предыдущих пунктов, причем

- способ (500) содержит этап, на котором вставляют поле (402) информации конфигурации в суперкадр (400); и

- поле (402) информации конфигурации указывает количество сигналов (203) каналов понижающего микширования, представленных полями (411, 421, 412, 422) данных суперкадра (400), и/или

- поле (402) информации конфигурации указывает максимальный возможный размера поля (403) метаданных, и/или

- поле (402) информации конфигурации указывает порядок сигнала представления звукового поля, содержащегося в иммерсивном аудиосигнале (111), и/или

- поле (402) информации конфигурации указывает тип кадра и/или режим кодирования, используемые для кодирования каждого из упомянутого одного или более сигналов (203) каналов понижающего микширования.

6. Способ (500) по любому из предыдущих пунктов, в котором закодированные аудиоданные (206) кадра сигнала (203) канала понижающего микширования закодированы с использованием кодера улучшенных речевых услуг.

7. Способ (500) по любому из предыдущих пунктов, в котором суперкадр (400) составляет по меньшей мере часть элемента данных, переданного с использованием протокола передачи, в частности стандартов DASH, RTSP или RTP, или сохранен в файле в соответствии с форматом хранения, в частности ISOBMFF.

8. Способ (500) по любому из предыдущих пунктов, причем

- поле (401) заголовка указывает отсутствие поля (402) информации конфигурации; и

- способ (500) содержит этап, на котором передают информацию конфигурации в предыдущем суперкадре (400) из последовательности суперкадров (400) или используют внеполосную схему сигнализации.

9. Способ (500) по любому из предыдущих пунктов, причем способ (500) содержит этапы, на которых

- вставляют закодированные аудиоданные (206) для одного или более кадров первого сигнала (203) канала понижающего микширования и второго сигнала (203) канала понижающего микширования, полученных из иммерсивного аудиосигнала (111), в одно или более первых полей (411, 421) данных и одно или более вторых полей (412, 422) данных суперкадра (400), соответственно; причем первый сигнал (203) канала понижающего микширования закодирован с использованием первого кодера, и причем второй сигнал (203) канала понижающего микширования закодирован с использованием второго кодера; и

- обеспечивают информацию конфигурации относительно первого кодера и второго кодера в данном суперкадре (400), в предыдущем суперкадре (400) из последовательности суперкадров (400) или с использованием внеполосной схемы сигнализации.

10. Способ (500) по любому из предыдущих пунктов, причем способ (500) содержит этапы, на которых

- извлекают один или более аудиообъектов из иммерсивного аудиосигнала (111) IA; причем аудиообъект содержит сигнал объекта и метаданные (202) объекта, указывающие позицию аудиообъекта;

- определяют разностный сигнал (201) на основе сигнала (111) IA и на основе упомянутого одного или более аудиообъектов;

- обеспечивают микшированный с понижением сигнал на основе сигнала (111) IA, в частности, таким образом, что количество сигналов (230) каналов понижающего микширования микшированного с понижением сигнала меньше, чем количество сигналов каналов сигнала (111) IA;

- определяют метаданные (205) совместного кодирования для обеспечения возможности повышающего микширования микшированного с понижением сигнала в один или более воссозданных сигналов аудиообъекта, соответствующих упомянутому одному или более аудиообъектам и/или в воссозданный разностный сигнал (311), соответствующий разностному сигналу (201);

- выполняют кодирование формы сигнала микшированного с понижением сигнала, чтобы обеспечить закодированные аудиоданные (206) для последовательности кадров упомянутого одного или более сигналов (203) каналов понижающего микширования; и

- выполняют статистическое кодирование метаданных (205) совместного кодирования и метаданных (202) объектов упомянутого одного или более аудиообъектов, чтобы обеспечить метаданные (202, 205) для вставки в поля (403) метаданных последовательности суперкадров (400).

11. Суперкадр (400) битового потока (101), причем битовый поток (101) содержит последовательность суперкадров (400) для последовательности кадров иммерсивного аудиосигнала (111), причем суперкадр (400) содержит:

- поля (411, 421, 412, 422) данных для закодированных аудиоданных (206) для двух или более кадров одного или более сигналов (203) каналов понижающего микширования, полученных из иммерсивного аудиосигнала (111), причем закодированные аудиоданные (206) кадра канала (203) понижающего микширования сформированы с использованием многорежимного и/или многоскоростного речевого кодека или аудиокодека; и

- одно поле (403) метаданных для метаданных (202, 205), выполненное с возможностью воссоздавать два или более кадров иммерсивного аудиосигнала (111) из закодированных аудиоданных (206).

12. Устройство (110) кодирования, выполненное с возможностью формировать битовый поток (101), причем битовый поток (101) содержит последовательность суперкадров (400) для последовательности кадров иммерсивного аудиосигнала (111), причем устройство (110) кодирования выполнено с возможностью, повторяющимся образом для последовательности суперкадров (400):

- вставлять закодированные аудиоданные (206) для двух или более кадров одного или более сигналов (203) каналов понижающего микширования, полученных из иммерсивного аудиосигнала (111), в поля (411, 421, 412, 422) данных суперкадра (400), причем закодированные аудиоданные (206) кадра канала (203) понижающего микширования сформированы с использованием многорежимного и/или многоскоростного речевого кодека или аудиокодека; и

- вставлять метаданные (202, 205) для восстановления двух или более кадров иммерсивного аудиосигнала (111) из закодированных аудиоданных (206) в поле (403) метаданных суперкадра (400).