RU2821284C1

RU2821284C1 - Distribution of bit rates in immersive voice and audio services

Info

Publication number: RU2821284C1
Application number: RU2022112673A
Authority: RU
Inventors: Ришабх ТИЯГИ; Хуан Феликс ТОРРЕС; Стефани БРАУН
Original assignee: Долби Лэборетериз Лайсенсинг Корпорейшн
Priority date: 2019-10-30
Filing date: 2020-10-28
Publication date: 2024-06-19

Abstract

FIELD: physics.

SUBSTANCE: invention relates to computer engineering for processing bit streams of audio data. Technical result is achieved by determining, using one or more processors, a combination of one or more bit rates for downmix channels; determining, using one or more processors, a metadata quantization level from a set of metadata quantization levels; quantizing and encoding, using one or more processors, spatial metadata using a metadata quantization layer; generating, using one or more processors and a combination of one or more bit rates, a downmix bit stream for one or more downmix channels; combining, using one or more processors, a downmix bit stream, quantized and encoded spatial metadata and a set of quantization levels into an IVAS bit stream.

EFFECT: reducing spatial metadata, mono codec overhead and minimizing bit loss to zero.

12 cl, 11 dwg, 4 tbl

Description

Перекрестная ссылка на родственные заявкиCross reference to related applications

[0001] По данной заявке испрашивается приоритет на основании предварительной заявки на патент США № 62/927,772, поданной 30 октября 2019 г.; и предварительной заявки на патент США № 63/092,830, поданной 16 октября 2020 г., которые включены в данный документ путём ссылки.[0001] This application claims priority to U.S. Provisional Patent Application No. 62/927,772, filed October 30, 2019; and U.S. Provisional Patent Application No. 63/092,830, filed October 16, 2020, which are incorporated herein by reference.

Область техники, к которой относится изобретениеField of technology to which the invention relates

[0002] Данное изобретение относится в общем к кодированию и декодированию битовых потоков аудиоданных.[0002] This invention relates generally to encoding and decoding audio bitstreams.

Уровень техникиState of the art

[0003] Разработка стандартов для голосовых и аудиокодеров/декодеров («кодеков») в последнее время акцентирует внимание на разработке кодека для иммерсивных голосовых и аудиослужб (IVAS). IVAS предположительно должен поддерживать диапазон характеристик служб передачи аудио, включающих в себя, не ограничиваясь, повышающее микширование из моно в стерео и кодирование, декодирование и рендеринг полностью иммерсивного аудио. IVAS имеет намерение поддерживаться посредством широкого диапазона устройств, конечных точек и сетевых узлов, включающих в себя, не ограничиваясь: мобильные телефоны и смартфоны, электронные планшетные компьютеры, персональные компьютеры, конференц-телефоны, конференц-залы, устройства в стиле виртуальной реальности (VR) и дополненной реальности (AR), устройства-домашние кинотеатры и другие подходящие устройства. Эти устройства, конечные точки и сетевые узлы могут иметь различные акустические интерфейсы для захвата и рендеринга звука.[0003] Standards development for voice and audio encoders/decoders (“codecs”) has recently focused on codec development for immersive voice and audio services (IVAS). IVAS is expected to support a range of audio delivery service characteristics including, but not limited to, mono to stereo upmixing and encoding, decoding and rendering of fully immersive audio. IVAS intends to be supported through a wide range of devices, endpoints and network nodes, including but not limited to: mobile phones and smartphones, electronic tablets, personal computers, conference phones, meeting rooms, virtual reality (VR) style devices and augmented reality (AR), home theater devices and other suitable devices. These devices, endpoints, and network nodes may have different acoustic interfaces for capturing and rendering audio.

Раскрытие изобретенияDisclosure of the Invention

[0004] Раскрыты реализации для распределения скоростей передачи битов в иммерсивных голосовых и аудиослужбах.[0004] Implementations for distributing bit rates in immersive voice and audio services are disclosed.

[0005] В варианте осуществления, способ кодирования битового потока с поддержкой иммерсивных голосовых и аудиослужб (IVAS), при этом способ содержит: прием, с использованием одного или более процессоров, входного аудиосигнала; понижающее микширование, с использованием одного или более процессоров, входного аудиосигнала в один или более каналов понижающего микширования и пространственные метаданные, ассоциированные с одним или более каналов входного аудиосигнала; считывание, с использованием одного или более процессоров, набора из одной или более скоростей передачи битов для каналов понижающего микширования и набора уровней квантования для пространственных метаданных из таблицы управления распределением скоростей передачи битов; определение, с использованием одного или более процессоров, сочетания одной или более скоростей передачи битов для каналов понижающего микширования; определение, с использованием одного или более процессоров, уровня квантования метаданных из набора уровней квантования метаданных с использованием процесса распределения скоростей передачи битов; квантование и кодирование, с использованием одного или более процессоров, пространственных метаданных с использованием уровня квантования метаданных; формирование, с использованием одного или более процессоров и сочетания одной или более скоростей передачи битов, битового потока понижающего микширования для одного или более каналов понижающего микширования; объединение, с использованием одного или более процессоров, битового потока понижающего микширования, квантованных и кодированных пространственных метаданных и набора уровней квантования в битовый поток IVAS; и потоковую передачу или сохранение битовый поток IVAS для воспроизведения на устройстве с поддержкой IVAS.[0005] In an embodiment, a method for encoding a bitstream in support of immersive voice and audio services (IVAS), the method comprising: receiving, using one or more processors, an input audio signal; downmixing, using one or more processors, the input audio signal into one or more downmix channels and spatial metadata associated with the one or more input audio signal channels; reading, using one or more processors, a set of one or more bit rates for the downmix channels and a set of quantization levels for spatial metadata from the bit rate distribution control table; determining, using one or more processors, a combination of one or more bit rates for the downmix channels; determining, using one or more processors, a metadata quantization level from a set of metadata quantization levels using a bit rate distribution process; quantizing and encoding, using one or more processors, spatial metadata using a metadata quantization layer; generating, using one or more processors and a combination of one or more bit rates, a downmix bit stream for one or more downmix channels; combining, using one or more processors, the downmix bitstream, the quantized and encoded spatial metadata, and a set of quantization levels into an IVAS bitstream; and streaming or storing the IVAS bitstream for playback on an IVAS-enabled device.

[0006] В варианте осуществления, входной аудиосигнал представляет собой четырехканальный аудиосигнал амбиофонии первого порядка (FoA), трехканальный плоский сигнал FoA или двухканальный стереоаудиосигнал.[0006] In an embodiment, the input audio signal is a four-channel first-order ambiophony (FoA) audio signal, a three-channel flat FoA signal, or a two-channel stereo audio signal.

[0007] В варианте осуществления, одна или более скоростей передачи битов представляют собой скорости передачи битов одного или более каналов скоростей передачи битов моноаудиокодера/декодера (кодека).[0007] In an embodiment, the one or more bit rates represent the bit rates of one or more mono audio encoder/decoder (codec) bit rate channels.

[0008] В варианте осуществления, моноаудиокодек представляет собой кодек с поддержкой улучшенных голосовых служб (EVS), и битовый поток понижающего микширования представляет собой битовый поток EVS.[0008] In an embodiment, the mono audio codec is an enhanced voice services (EVS) codec, and the downmix bitstream is an EVS bitstream.

[0009] В варианте осуществления, получение, с использованием одного или более процессоров, одной или более скоростей передачи битов для каналов понижающего микширования и пространственных метаданных с использованием таблицы управления распределением скоростей передачи битов дополнительно содержит: идентификацию строки в таблице управления распределением скоростей передачи битов с использованием табличного индекса, который включает в себя формат входного аудиосигнала, полосу пропускания входного аудиосигнала, разрешенное инструментальное средство пространственного кодирования, переходный режим и обратно совместимый режим для понижающего мономикширования; извлечение, из идентифицированной строки таблицы управления распределением скоростей передачи битов, целевой скорости передачи битов, отношения скоростей передачи битов, минимальной скорости передачи битов и шагов отклонения скорости передачи битов, при этом отношение скоростей передачи битов указывает отношение, с которым полная скорость передачи битов должна распределяться между каналами передачи аудиосигналов понижающего микширования, минимальная скорость передачи битов представляет собой значение, ниже которого не разрешается снижение полной скорости передачи битов, и шаги отклонения скорости передачи битов представляют собой шаги уменьшения целевой скорости передачи битов, когда первый приоритет для сигналов понижающего микширования выше или равен либо ниже второго приоритета пространственных метаданных; и определение одной или более скоростей передачи битов для каналов понижающего микширования и пространственных метаданных на основе целевой скорости передачи битов, отношения скоростей передачи битов, минимальной скорости передачи битов и шагов отклонения скорости передачи битов.[0009] In an embodiment, obtaining, using one or more processors, one or more bit rates for the downmix channels and spatial metadata using the bit rate distribution control table further comprises: identifying a row in the bit rate distribution control table with using a table index that includes the input audio signal format, the input audio signal bandwidth, the enabled spatial encoding tool, the transient mode, and the backward compatible mode for mono downmixing; retrieving, from an identified bit rate allocation control table row, a target bit rate, a bit rate ratio, a minimum bit rate, and bit rate deviation steps, wherein the bit rate ratio indicates the ratio with which the total bit rate should be allocated between transmission channels of downmix audio signals, the minimum bit rate is a value below which the full bit rate is not permitted to be reduced, and the bit rate deviation steps are steps to reduce the target bit rate when the first priority for downmix signals is greater than or equal to or below the second priority of spatial metadata; and determining one or more bit rates for the downmix channels and spatial metadata based on the target bit rate, bit rate ratio, minimum bit rate, and bit rate deviation steps.

[0010] В варианте осуществления, квантование пространственных метаданных для одного или более каналов входного аудиосигнала с использованием набора квантования уровней квантования выполняется в контуре квантования, который применяет стратегии все более приблизительного квантования на основе разности между целевой скоростью передачи в битах метаданных и фактической скоростью передачи в битах метаданных.[0010] In an embodiment, quantization of spatial metadata for one or more channels of an input audio signal using a set of quantization levels is performed in a quantization loop that applies increasingly coarse quantization strategies based on the difference between the target metadata bit rate and the actual bit rate in bits of metadata.

[0011] В варианте осуществления, квантование определяется в соответствии с приоритетом монокодека и приоритетом пространственных метаданных на основе свойств, извлеченных из входного аудиосигнала, и ковариационных значений в полосе частот канала.[0011] In an embodiment, quantization is determined according to mono codec priority and spatial metadata priority based on properties extracted from the input audio signal and covariance values in the channel bandwidth.

[0012] В варианте осуществления, входной аудиосигнал представляет собой стереосигнал, и сигналы понижающего микширования включают в себя представление среднего сигнала, остатки из стереосигнала и пространственные метаданные.[0012] In an embodiment, the input audio signal is a stereo signal, and the downmix signals include an average signal representation, residuals from the stereo signal, and spatial metadata.

[0013] В варианте осуществления, пространственные метаданные включают в себя коэффициенты прогнозирования (PR), коэффициенты кросс-прогнозирования (C) и коэффициенты декорреляции (P) для формата для модуля пространственного восстановления (SPAR) и коэффициенты прогнозирования (P) и коэффициенты декорреляции (PR) для формата улучшенной сложной связи (CACPL).[0013] In an embodiment, the spatial metadata includes prediction coefficients (PR), cross-prediction coefficients (C) and decorrelation coefficients (P) for the format for spatial reconstruction module (SPAR) and prediction coefficients (P) and decorrelation coefficients ( PR) for Advanced Complex Communications (CACPL) format.

[0014] В варианте осуществления, способ кодирования битового потока с поддержкой иммерсивных голосовых и аудиослужб (IVAS), при этом способ содержит: прием, с использованием одного или более процессоров, входного аудиосигнала; извлечение, с использованием одного или более процессоров, свойств входного аудиосигнала; вычисление, с использованием одного или более процессоров, пространственных метаданных для каналов входного аудиосигнала; считывание, с использованием одного или более процессоров, набора из одной или более скоростей передачи битов для каналов понижающего микширования и набора уровней квантования для пространственных метаданных из таблицы управления распределением скоростей передачи битов; определение, с использованием одного или более процессоров, сочетания одной или более скоростей передачи битов для каналов понижающего микширования; определение, с использованием одного или более процессоров, уровня квантования метаданных из набора уровней квантования метаданных с использованием процесса распределения скоростей передачи битов; квантование и кодирование, с использованием одного или более процессоров, пространственных метаданных с использованием уровня квантования метаданных; формирование, с использованием одного или более процессоров и сочетания одной или более скоростей передачи битов, битового потока понижающего микширования для одного или более каналов понижающего микширования с использованием одной или более скоростей передачи битов; объединение, с использованием одного или более процессоров, битового потока понижающего микширования, квантованных и кодированных пространственных метаданных и набора уровней квантования в битовый поток IVAS; и потоковую передачу или сохранение битового потока IVAS для воспроизведения на устройстве с поддержкой IVAS.[0014] In an embodiment, a method for encoding a bitstream in support of immersive voice and audio services (IVAS), the method comprising: receiving, using one or more processors, an input audio signal; extracting, using one or more processors, properties of the input audio signal; calculating, using one or more processors, spatial metadata for the input audio signal channels; reading, using one or more processors, a set of one or more bit rates for the downmix channels and a set of quantization levels for spatial metadata from the bit rate distribution control table; determining, using one or more processors, a combination of one or more bit rates for the downmix channels; determining, using one or more processors, a metadata quantization level from a set of metadata quantization levels using a bit rate distribution process; quantizing and encoding, using one or more processors, spatial metadata using a metadata quantization layer; generating, using one or more processors and a combination of one or more bit rates, a downmix bit stream for one or more downmix channels using one or more bit rates; combining, using one or more processors, the downmix bitstream, the quantized and encoded spatial metadata, and a set of quantization levels into an IVAS bitstream; and streaming or storing the IVAS bitstream for playback on an IVAS-enabled device.

[0015] В варианте осуществления, свойства входного аудиосигнала включают в себя одно или более из полосы пропускания, данных классификации речи/музыки и данных обнаружения голосовой активности (VAD).[0015] In an embodiment, the properties of the input audio signal include one or more of bandwidth, speech/music classification data, and voice activity detection (VAD) data.

[0016] В варианте осуществления, число каналов понижающего микширования, которые должны кодироваться в битовый поток IVAS, выбирается на основе индикатора остаточного уровня в пространственных метаданных.[0016] In an embodiment, the number of downmix channels to be encoded into the IVAS bitstream is selected based on the residual level indicator in the spatial metadata.

[0017] В варианте осуществления, способ кодирования битового потока с поддержкой иммерсивных голосовых и аудиослужб (IVAS) дополнительно содержит: прием, с использованием одного или более процессоров, входного аудиосигнала амбиофонии первого порядка (FoA); извлечение, с использованием одного или более процессоров и скорости передачи битов IVAS, свойств входного аудиосигнала FoA, при этом одно из свойств представляет собой полосу пропускания входного аудиосигнала FoA; формирование, с использованием одного или более процессоров, пространственных метаданных для входного аудиосигнала FoA с использованием свойств сигналов FoA; выбор, с использованием одного или более процессоров, числа остаточных каналов, которые следует отправлять, на основе индикатора остаточного уровня и коэффициентов декорреляции в пространственных метаданных; получение, с использованием одного или более процессоров, табличного индекса управления распределением скоростей передачи битов на основе скорости передачи битов IVAS, полосы пропускания и числа каналов понижающего микширования; считывание, с использованием одного или более процессоров, конфигурации модуля пространственного восстановления (SPAR) из строки в таблице управления распределением скоростей передачи битов, на которую указывает табличный индекс управления распределением скоростей передачи битов; определение, с использованием одного или более процессоров, целевой скорости передачи в битах метаданных из скорости передачи битов IVAS, суммы целевых скоростей передачи битов EVS и длины заголовка IVAS; определение, с использованием одного или более процессоров, максимальной скорости передачи в битах метаданных из скорости передачи битов IVAS, суммы минимальных скоростей передачи битов EVS и длины заголовка IVAS; квантование, с использованием одного или более процессоров и контура квантования, пространственных метаданных недифференциальным во времени способом согласно первой стратегии квантования; энтропийное кодирование, с использованием одного или более процессоров, квантованных пространственных метаданных; вычисление, с использованием одного или более процессоров, первой фактической скорости передачи в битах метаданных; определение, с использованием одного или более процессоров, того, является ли первая фактическая скорость передачи в битах метаданных меньшей или равной целевой скорости передачи в битах метаданных; и в соответствии с первой фактической скоростью передачи в битах метаданных, меньшей или равной целевой скорости передачи в битах метаданных: выход из контура квантования.[0017] In an embodiment, a method for encoding a bitstream supporting immersive voice and audio services (IVAS) further comprises: receiving, using one or more processors, a first-order ambiophonic audio (FoA) input signal; extracting, using one or more processors and the IVAS bit rate, properties of the input FoA audio signal, wherein one of the properties is the bandwidth of the input FoA audio signal; generating, using one or more processors, spatial metadata for the input FoA audio signal using properties of the FoA signals; selecting, using one or more processors, the number of residual channels to be sent based on the residual level indicator and decorrelation coefficients in the spatial metadata; obtaining, using one or more processors, a bit rate distribution control table index based on the IVAS bit rate, bandwidth, and number of downmix channels; reading, using one or more processors, a spatial recovery module (SPAR) configuration from a row in the bit rate distribution control table pointed to by the bit rate distribution control table index; determining, using one or more processors, a target metadata bit rate from the IVAS bit rate, a sum of the target EVS bit rates, and an IVAS header length; determining, using one or more processors, a maximum metadata bit rate from the IVAS bit rate, a sum of the minimum EVS bit rates, and an IVAS header length; quantizing, using one or more processors and a quantization loop, the spatial metadata in a time-nondifferential manner according to a first quantization strategy; entropy encoding, using one or more processors, of quantized spatial metadata; calculating, using one or more processors, a first actual transmission rate in metadata bits; determining, using one or more processors, whether the first actual metadata bit rate is less than or equal to the target metadata bit rate; and according to the first actual metadata bit rate less than or equal to the target metadata bit rate: leaving the quantization loop.

[0018] В варианте осуществления, способ дополнительно содержит: определение, с использованием одного или более процессоров, первой полной фактической скорости передачи битов EVS посредством суммирования первого количества битов, равного разности между целевой скоростью передачи в битах метаданных и первой фактической скоростью передачи в битах метаданных, с полной целевой скоростью передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока EVS с использованием первой полной фактической скорости передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока IVAS, включающего в себя битовый поток EVS, табличный индекс управления распределением скоростей передачи битов и квантованные и энтропийно кодированные пространственные метаданные; в соответствии с первой фактической скоростью передачи в битах метаданных, большей целевой скорости передачи в битах метаданных: квантование, с использованием одного или более процессоров, пространственных метаданных дифференциальным во времени способом согласно первой стратегии квантования; энтропийное кодирование, с использованием одного или более процессоров, квантованных пространственных метаданных; вычисление, с использованием одного или более процессоров, второй фактической скорости передачи в битах метаданных; определение, с использованием одного или более процессоров, того, является ли вторая фактическая скорость передачи в битах метаданных меньшей или равной целевой скорости передачи в битах метаданных; и в соответствии со второй фактической скоростью передачи в битах метаданных, меньшей или равной целевой скорости передачи в битах метаданных: выход из контура квантования.[0018] In an embodiment, the method further comprises: determining, using one or more processors, a first overall actual EVS bit rate by adding a first number of bits equal to the difference between the target metadata bit rate and the first actual metadata bit rate , with the full EVS target bit rate; generating, using one or more processors, an EVS bit stream using the first full actual EVS bit rate; generating, using one or more processors, an IVAS bitstream including an EVS bitstream, a bit rate distribution control table index, and quantized and entropy encoded spatial metadata; according to the first actual metadata bit rate greater than the target metadata bit rate: quantizing, using one or more processors, the spatial metadata in a time differential manner according to the first quantization strategy; entropy encoding, using one or more processors, of quantized spatial metadata; calculating, using one or more processors, a second actual transmission rate in metadata bits; determining, using one or more processors, whether the second actual metadata bit rate is less than or equal to the target metadata bit rate; and according to a second actual metadata bit rate less than or equal to the target metadata bit rate: leaving the quantization loop.

[0019] В варианте осуществления, способ дополнительно содержит: определение, с использованием одного или более процессоров, второй полной фактической скорости передачи битов EVS посредством суммирования второго количества битов, равного разности между целевой скоростью передачи в битах метаданных и второй фактической скоростью передачи в битах метаданных, с полной целевой скоростью передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока EVS с использованием второй полной фактической скорости передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока IVAS, включающего в себя битовый поток EVS, табличный индекс управления распределением скоростей передачи битов и квантованные и энтропийно кодированные пространственные метаданные; в соответствии со второй фактической скоростью передачи в битах метаданных, большей целевой скорости передачи в битах метаданных: квантование, с использованием одного или более процессоров, пространственных метаданных недифференциальным во времени способом согласно первой стратегии квантования; кодирование, с использованием одного или более процессоров и кодера по основанию 2, квантованных пространственных метаданных; вычисление, с использованием одного или более процессоров, третьей фактической скорости передачи в битах метаданных; и в соответствии с третьей фактической скоростью передачи в битах метаданных, меньшей или равной целевой скорости передачи в битах метаданных: выход из контура квантования.[0019] In an embodiment, the method further comprises: determining, using one or more processors, a second overall actual EVS bit rate by adding a second number of bits equal to the difference between the target metadata bit rate and the second actual metadata bit rate , with the full EVS target bit rate; generating, using one or more processors, an EVS bitstream using the second full actual EVS bitrate; generating, using one or more processors, an IVAS bitstream including an EVS bitstream, a bit rate distribution control table index, and quantized and entropy encoded spatial metadata; according to a second actual metadata bit rate greater than the target metadata bit rate: quantizing, using one or more processors, the spatial metadata in a time-nondifferential manner according to a first quantization strategy; encoding, using one or more processors and a radix 2 encoder, the quantized spatial metadata; calculating, using one or more processors, a third actual bit rate of metadata; and according to a third actual metadata bit rate less than or equal to the target metadata bit rate: leaving the quantization loop.

[0020] В варианте осуществления, способ дополнительно содержит: определение, с использованием одного или более процессоров, третьей полной фактической скорости передачи битов EVS посредством суммирования третьего количества битов, равного разности между целевой скоростью передачи в битах метаданных и третьей фактической скоростью передачи в битах метаданных, с полной целевой скоростью передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока EVS с использованием третьей полной фактической скорости передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока IVAS, включающего в себя битовый поток EVS, табличный индекс управления распределением скоростей передачи битов и квантованные и энтропийно кодированные пространственные метаданные; в соответствии с третьей фактической скоростью передачи в битах метаданных, большей целевой скорости передачи в битах метаданных: задание, с использованием одного или более процессоров, четвертой фактической скорости передачи в битах метаданных в качестве минимума из первой, второй и третьей фактических скоростей передачи в битах метаданных; определение, с использованием одного или более процессоров, того, является ли четвертая фактическая скорость передачи в битах метаданных меньшей или равной максимальной скорости передачи в битах метаданных; в соответствии с четвертой фактической скоростью передачи в битах метаданных, меньшей или равной максимальной скорости передачи в битах метаданных: определение, с использованием одного или более процессоров, того, является ли четвертая фактическая скорость передачи в битах метаданных меньшей или равной целевой скорости передачи в битах метаданных; и в соответствии с четвертой фактической скоростью передачи в битах метаданных, меньшей или равной целевой скорости передачи в битах метаданных: выход из контура квантования.[0020] In an embodiment, the method further comprises: determining, using one or more processors, a third overall actual EVS bit rate by summing a third number of bits equal to the difference between the target metadata bit rate and the third actual metadata bit rate , with the full EVS target bit rate; generating, using one or more processors, an EVS bitstream using a third full actual EVS bit rate; generating, using one or more processors, an IVAS bitstream including an EVS bitstream, a bit rate distribution control table index, and quantized and entropy encoded spatial metadata; according to a third actual metadata bit rate greater than the target metadata bit rate: setting, using one or more processors, a fourth actual metadata bit rate as the minimum of the first, second and third actual metadata bit rates ; determining, using one or more processors, whether the fourth actual metadata bit rate is less than or equal to the maximum metadata bit rate; according to a fourth actual metadata bit rate less than or equal to a maximum metadata bit rate: determining, using one or more processors, whether the fourth actual metadata bit rate is less than or equal to a target metadata bit rate ; and according to a fourth actual metadata bit rate less than or equal to the target metadata bit rate: leaving the quantization loop.

[0021] В варианте осуществления, способ дополнительно содержит: определение, с использованием одного или более процессоров, четвертой полной фактической скорости передачи битов EVS посредством суммирования четвертого количества битов, равного разности между целевой скоростью передачи в битах метаданных и четвертой фактической скоростью передачи в битах метаданных, с полной целевой скоростью передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока EVS с использованием четвертой полной фактической скорости передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока IVAS, включающего в себя битовый поток EVS, табличный индекс управления распределением скоростей передачи битов и квантованные и энтропийно кодированные пространственные метаданные; и в соответствии с четвертой фактической скоростью передачи в битах метаданных, большей целевой скорости передачи в битах метаданных и меньшей или равной максимальной скорости передачи в битах метаданных: выход из контура квантования.[0021] In an embodiment, the method further comprises: determining, using one or more processors, a fourth overall actual EVS bit rate by adding a fourth number of bits equal to the difference between the target metadata bit rate and the fourth actual metadata bit rate , with the full EVS target bit rate; generating, using one or more processors, an EVS bitstream using a fourth of the full actual EVS bitrate; generating, using one or more processors, an IVAS bitstream including an EVS bitstream, a bit rate distribution control table index, and quantized and entropy encoded spatial metadata; and according to the fourth actual metadata bit rate, greater than the target metadata bit rate and less than or equal to the maximum metadata bit rate: leaving the quantization loop.

[0022] В варианте осуществления, способ дополнительно содержит: определение, с использованием одного или более процессоров, пятой полной фактической скорости передачи битов EVS посредством вычитания количества битов, равного разности между четвертой фактической скоростью передачи в битах метаданных и целевой скоростью передачи в битах метаданных, из полной целевой скорости передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока EVS с использованием пятой фактической скорости передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока IVAS, включающего в себя битовый поток EVS, табличный индекс управления распределением скоростей передачи битов и квантованные и энтропийно кодированные пространственные метаданные; в соответствии с четвертой фактической скоростью передачи в битах метаданных, большей максимальной скорости передачи в битах метаданных: изменение первой стратегии квантования на вторую стратегию квантования и вход в контур квантования снова с использованием второй стратегии квантования, причем вторая стратегия квантования является более приблизительной, чем первая стратегия квантования. В варианте осуществления, может использоваться третья стратегия квантования, которая гарантированно обеспечивает фактическую скорость передачи битов MD, меньшую, чем максимальная скорость передачи битов MD.[0022] In an embodiment, the method further comprises: determining, using one or more processors, a fifth overall actual EVS bit rate by subtracting a number of bits equal to the difference between the fourth actual metadata bit rate and the target metadata bit rate, from the full EVS target bit rate; generating, using one or more processors, an EVS bitstream using a fifth of the actual EVS bitrate; generating, using one or more processors, an IVAS bitstream including an EVS bitstream, a bit rate distribution control table index, and quantized and entropy encoded spatial metadata; according to a fourth actual metadata bit rate greater than the maximum metadata bit rate: changing the first quantization strategy to a second quantization strategy and entering the quantization loop again using the second quantization strategy, the second quantization strategy being more approximate than the first strategy quantization. In an embodiment, a third quantization strategy may be used that is guaranteed to provide an actual MD bit rate that is less than the maximum MD bit rate.

[0023] В варианте осуществления, конфигурация SPAR задается посредством строки понижающего микширования, активного флага W, флага комплексных пространственных метаданных, стратегий квантования пространственных метаданных, минимальной, максимальной и целевой скоростей передачи битов для одного или более экземпляров монокодера/декодера (кодека) с поддержкой улучшенных голосовых служб (EVS) и флага приглушения декоррелятора во временной области.[0023] In an embodiment, the SPAR configuration is specified by a downmix string, an active W flag, a complex spatial metadata flag, spatial metadata quantization strategies, minimum, maximum, and target bit rates for one or more enabled monocoder/decoder (codec) instances. enhanced voice services (EVS) and a time domain decorrelator muting flag.

[0024] В варианте осуществления, общее фактическое число битов EVS равно числу битов IVAS минус число битов заголовка минус фактическая скорость передачи в битах метаданных, и при этом если общее число фактических битов EVS меньше общего числа целевых битов EVS, то биты извлекаются из каналов EVS в следующем порядке: Z, X, Y и W, и при этом максимальное число битов, которые могут извлекаться из любого канала, равно числу целевых битов EVS для канала минус минимальное число битов EVS для канала, и при этом если число фактических битов EVS больше числа целевых EVS-битов, то все дополнительные биты назначаются каналам понижающего микширования в следующем порядке: W, Y, X и Z, и максимальное число дополнительных битов, которые могут добавляться в любой канал, равно максимальному числу битов EVS минус число целевых битов EVS.[0024] In an embodiment, the total actual number of EVS bits is equal to the number of IVAS bits minus the number of header bits minus the actual metadata bit rate, and wherein if the total number of actual EVS bits is less than the total number of EVS target bits, then the bits are extracted from the EVS channels in the following order: Z, X, Y and W, and the maximum number of bits that can be extracted from any channel is equal to the number of target EVS bits for the channel minus the minimum number of EVS bits for the channel, and if the number of actual EVS bits is greater number of target EVS bits, then all additional bits are assigned to the downmix channels in the following order: W, Y, X and Z, and the maximum number of additional bits that can be added to any channel is equal to the maximum number of EVS bits minus the number of target EVS bits.

[0025] В варианте осуществления, способ декодирования битового потока с поддержкой иммерсивных голосовых и аудиослужб (IVAS) содержит: прием, с использованием одного или более процессоров, битового потока IVAS; получение, с использованием одного или более процессоров, скорости передачи битов IVAS из длины в битах битового потока IVAS; получение, с использованием одного или более процессоров, табличного индекса управления распределением скоростей передачи битов из битового потока IVAS; синтаксический анализ, с использованием одного или более процессоров, стратегии квантования метаданных из заголовка битового потока IVAS; синтаксический анализ и деквантование, с использованием одного или более процессоров, битов квантованных пространственных метаданных на основе стратегии квантования метаданных; задание, с использованием одного или более процессоров, фактического числа битов с поддержкой улучшенных голосовых служб (EVS), равного оставшейся длине в битах битового потока IVAS; считывание, с использованием одного или более процессоров и табличного индекса управления распределением скоростей передачи битов, записей таблицы для таблицы управления распределением скоростей передачи битов, которые содержат целевую и минимальную скорость передачи битов EVS и максимальную скорость передачи битов EVS для одного или более экземпляров EVS; получение, с использованием одного или более процессоров, фактической скорости передачи битов EVS для каждого канала понижающего микширования; и декодирование, с использованием одного или более процессоров, каждого канала EVS с использованием фактической скорости передачи битов EVS для канала; и повышающее микширование, с использованием одного или более процессоров, каналов EVS в каналы амбиофонии первого порядка (FoA).[0025] In an embodiment, a method for decoding a bitstream supporting immersive voice and audio services (IVAS) comprises: receiving, using one or more processors, an IVAS bitstream; obtaining, using one or more processors, the IVAS bit rate from the bit length of the IVAS bit stream; obtaining, using one or more processors, a bit rate distribution control table index from the IVAS bit stream; parsing, using one or more processors, a strategy for quantizing metadata from the IVAS bitstream header; parsing and dequantizing, using one or more processors, bits of quantized spatial metadata based on a metadata quantization strategy; setting, using one or more processors, an actual number of enhanced voice services (EVS) enabled bits equal to the remaining bit length of the IVAS bit stream; reading, using one or more processors and the bit rate distribution control table index, table entries for the bit rate distribution control table that contain a target and minimum EVS bit rate and a maximum EVS bit rate for one or more EVS instances; obtaining, using one or more processors, the actual EVS bit rate for each downmix channel; and decoding, using one or more processors, each EVS channel using the actual EVS bit rate for the channel; and upmixing, using one or more processors, the EVS channels into first order ambiophonic (FoA) channels.

[0026] В варианте осуществления, система содержит: один или более процессоров; и постоянный машиночитаемый носитель, сохраняющий инструкции, которые, при выполнении посредством одного или более процессоров, предписывают одному или более процессорам выполнять операции любого из способов, описанных выше.[0026] In an embodiment, the system includes: one or more processors; and a non-transitory computer-readable medium storing instructions that, when executed by one or more processors, cause one or more processors to perform operations in any of the methods described above.

[0027] В варианте осуществления, постоянный машиночитаемый носитель, сохраняющий инструкции, которые, при выполнении посредством одного или более процессоров, предписывают одному или более процессорам выполнять операции любого из способов, описанных выше.[0027] In an embodiment, a non-transitory computer-readable medium storing instructions that, when executed by one or more processors, cause one or more processors to perform operations in any of the methods described above.

[0028] Другие реализации, раскрытые в данном документе, относятся к системе, устройству и машиночитаемому носителю. Подробности раскрытых реализаций представлены на сопровождающих чертежах и в нижеприведенном описании. Другие признаки, задачи и преимущества должны стать очевидными из описания, чертежей и формулы изобретения.[0028] Other implementations disclosed herein relate to a system, device, and computer-readable medium. Details of the disclosed implementations are set forth in the accompanying drawings and in the description below. Other features, objects and advantages will become apparent from the description, drawings and claims.

[0029] Конкретные реализации, раскрытые в данном документе, обеспечивают одно или более из следующих преимуществ. Скорость передачи битов кодека IVAS распределяется между монокодеком и пространственными метаданными (MD) и между множеством экземпляров монокодека. Для определённого аудиокадра, кодек IVAS определяет режим пространственного кодирования аудио (параметрическое или остаточное кодирование). Битовый поток IVAS оптимизируется таким образом, чтобы уменьшить пространственные MD, уменьшить объем служебной информации монокодека и минимизировать потери битов до нуля.[0029] Specific implementations disclosed herein provide one or more of the following advantages. The IVAS codec bit rate is shared between the mono codec and spatial metadata (MD) and among multiple mono codec instances. For a given audio frame, the IVAS codec determines the spatial audio coding mode (parametric or residual coding). The IVAS bitstream is optimized to reduce spatial MD, reduce mono codec overhead, and minimize bit loss to zero.

Краткое описание чертежейBrief description of drawings

[0030] На чертежах, конкретные компоновки или упорядочения схематичных элементов, к примеру, элементов, которые представляют устройства, модули, блоки обработки инструкций и элементы данных, показаны для простоты описания. Тем не менее, специалисты в данной области техники должны понимать, что конкретное упорядочение или компоновка схематичных элементов на чертежах не имеют намерение подразумевать то, что требуется конкретный порядок или последовательность обработки или разделение процессов. Кроме того, включение схематичного элемента на чертеже не имеет намерение подразумевать то, что такой элемент требуется во всех вариантах осуществления, или то, что в некоторых реализациях признаки, представленные таким элементом, могут не быть включены или могут быть объединены с другими элементами.[0030] In the drawings, specific arrangements or arrangements of schematic elements, for example, elements that represent devices, modules, instruction processing units, and data elements, are shown for ease of description. However, those skilled in the art will understand that the particular ordering or arrangement of the schematic elements in the drawings is not intended to imply that a particular order or sequence of processing or division of processes is required. Moreover, the inclusion of a schematic element in the drawing is not intended to imply that such element is required in all embodiments, or that in some implementations the features represented by such element may not be included or may be combined with other elements.

[0031] Кроме того, на чертежах, на которых соединительные элементы, такие как сплошные или пунктирные линии либо стрелки, используются для иллюстрации соединения, взаимосвязи или ассоциации между двумя или более других схематичных элементов, отсутствие таких соединительных элементов не имеет намерение подразумевать то, что соединение, взаимосвязь или ассоциирование не может существовать. Другими словами, некоторые соединения, взаимосвязи или ассоциирования между элементами не показаны на чертежах с тем, чтобы не затруднять понимание изобретения. Помимо этого, для простоты иллюстрации, для представления множества соединений, взаимосвязей или ассоциаций между элементами используется один соединительный элемент. Например, если соединительный элемент представляет обмен сигналами, данными или инструкциями, специалисты в данной области техники должны понимать, что такой элемент представляет один или более трактов передачи сигналов, в зависимости от необходимости для осуществления связи.[0031] Additionally, in drawings in which connecting elements, such as solid or dotted lines or arrows, are used to illustrate a connection, relationship, or association between two or more other schematic elements, the absence of such connecting elements is not intended to imply that connection, relationship or association cannot exist. In other words, certain connections, relationships or associations between elements are not shown in the drawings so as not to obscure the invention. In addition, for ease of illustration, a single connecting element is used to represent multiple connections, relationships, or associations between elements. For example, if a connecting element represents the exchange of signals, data, or instructions, those skilled in the art will understand that such element represents one or more signal paths, depending on the need for communication.

[0032] Фиг. 1 иллюстрирует варианты использования для кодека IVAS, согласно варианту осуществления.[0032] FIG. 1 illustrates use cases for the IVAS codec, according to an embodiment.

[0033] Фиг. 2 является блок-схемой системы для кодирования и декодирования битовых потоков IVAS согласно варианту осуществления.[0033] FIG. 2 is a block diagram of a system for encoding and decoding IVAS bitstreams according to an embodiment.

[0034] Фиг. 3 является блок-схемой кодера/декодера («кодека») на основе амбиофонии первого порядка (FoA) для модуля пространственного восстановления (SPAR) для кодирования и декодирования битовых потоков IVAS в формате FoA согласно варианту осуществления.[0034] FIG. 3 is a block diagram of a first-order ambiophony (FoA) encoder/decoder (“codec”) for a spatial reconstruction module (SPAR) for encoding and decoding IVAS bitstreams in FoA format according to an embodiment.

[0035] Фиг. 4A является блок-схемой сигнальной цепочки IVAS для входных сигналов FoA и стереосигналов, согласно варианту осуществления.[0035] FIG. 4A is a block diagram of an IVAS signal chain for FoA input signals and stereo signals, according to an embodiment.

[0036] Фиг. 4B является блок-схемой альтернативной сигнальной цепочки IVAS для входных сигналов FoA и стереосигналов, согласно варианту осуществления.[0036] FIG. 4B is a block diagram of an alternative IVAS signal chain for FoA input signals and stereo signals, according to an embodiment.

[0037] Фиг. 5A является блок-схемой процесса распределения скоростей передачи битов для входных стереосигналов, плоских FoA и сигналов FoA согласно варианту осуществления.[0037] FIG. 5A is a flowchart of a process for allocating bit rates for input stereo signals, flat FoA and FoA signals according to an embodiment.

[0038] Фиг. 5B и 5C являются блок-схемой процесса распределения скоростей передачи битов для входных сигналов FoA для модуля пространственного восстановления (SPAR), согласно варианту осуществления.[0038] FIG. 5B and 5C are a flow diagram of a process for allocating bit rates for FoA input signals for a spatial recovery module (SPAR), according to an embodiment.

[0039] Фиг. 6 является блок-схемой процесса распределения скоростей передачи битов для входных стереосигналов, плоских FoA и сигналов FoA, согласно варианту осуществления.[0039] FIG. 6 is a flow chart of a process for allocating bit rates for input stereo signals, flat FoA and FoA signals, according to an embodiment.

[0040] Фиг. 7 является блок-схемой для процесса распределения скоростей передачи битов для входного сигнала FoA SPAR, согласно варианту осуществления. [0040] FIG. 7 is a flowchart for a bit rate allocation process for an input FoA SPAR signal, according to an embodiment.

[0041] Фиг. 8 является блок-схемой примерной архитектуры устройства, согласно варианту осуществления.[0041] FIG. 8 is a block diagram of an exemplary device architecture, according to an embodiment.

[0042] Одинаковые ссылочные позиции, используемые на различных чертежах, указывают на аналогичные элементы.[0042] Like reference numerals used in different drawings indicate like elements.

Осуществление изобретенияCarrying out the invention

[0043] В нижеприведенном подробном описании приведено множество конкретных подробностей для обеспечения полного понимания различных описанных вариантов осуществления. Специалистам в данной области техники должно быть очевидным, что различные описанные реализации могут осуществляться на практике без этих конкретных подробностей. В других случаях, хорошо известные способы, процедуры, компоненты и схемы не описаны подробно с тем, чтобы не затруднять понимание аспектов вариантов осуществления. Ниже описано множество признаков, которые могут использоваться независимо друг от друга либо с любым сочетанием других признаков.[0043] In the following detailed description, numerous specific details are set forth in order to provide a thorough understanding of the various embodiments described. It will be apparent to those skilled in the art that the various implementations described may be practiced without these specific details. In other cases, well-known methods, procedures, components and circuits are not described in detail so as not to obscure aspects of the embodiments. A variety of features are described below that can be used independently of each other or with any combination of other features.

ТерминологияTerminology

[0044] При использовании в данном документе термин «включает в себя» и его разновидности следует читать как неисключающие термины, которые означают «включает в себя, не ограничиваясь». Термин «или» следует читать как «и/или», если контекст явным образом не указывает иное. Термин «на основе» следует трактовать как «по меньшей мере частично на основе». Термин «одна примерная реализация» и «примерная реализация» следует читать как «по меньшей мере одна примерная реализация». Термин «другая реализация» следует читать как «по меньшей мере одна другая реализация». Термины «определенный», «определяет» или «определение» следует читать как получение, прием, расчет, вычисление, оценка, прогнозирование или извлечение. Помимо этого, в нижеприведенном описании и в формуле изобретения, если не указано иное, все технические и научные термины, используемые в данном документе, имеют тот же смысл, в котором их обычно понимают специалисты в той области техники, к которой относится данное изобретение.[0044] When used herein, the term “includes” and its variations should be read as non-exclusive terms that mean “includes but is not limited to.” The term “or” should be read as “and/or” unless the context clearly indicates otherwise. The term “based on” should be interpreted as “at least partially based on.” The terms “one example implementation” and “example implementation” should be read as “at least one example implementation”. The term "other implementation" should be read as "at least one other implementation". The terms “determined,” “determines,” or “determining” should be read as receiving, receiving, calculating, calculating, estimating, predicting, or extracting. In addition, in the following description and claims, unless otherwise indicated, all technical and scientific terms used herein have the same meaning as commonly understood by those skilled in the art to which this invention relates.

Примеры вариантов использования IVASExamples of IVAS use cases

[0045] Фиг. 1 иллюстрирует варианты 100 использования для кодека 100 IVAS согласно одной или более реализациям. В некоторых реализациях, различные устройства обмениваются данными через сервер 102 вызовов, который выполнен с возможностью приёма аудиосигналов, например, из коммутируемой телефонной сети общего пользования (PSTN) или наземной сети мобильной связи общего пользования (PLMN), проиллюстрированной посредством PSTN/другой PLMN 104. Варианты 100 использования поддерживают ранее созданные устройства 106, которые выполняют рендеринг и захватывают только аудио в моно, включающие в себя, не ограничиваясь: устройства, которые поддерживают улучшенные голосовые службы (EVS), стандарт широкополосного адаптивного многоскоростного кодирования (AMR-WB) и стандарт узкополосного адаптивного многоскоростного кодирования (AMR-NB). Варианты 100 использования также поддерживают абонентское устройство 108, 114 (UE), которое захватывает и выполняет рендеринг стереоаудиосигналов, или UE 110, которое захватывает и выполняет бинауральный рендеринг моносигналов в многоканальные сигналы. Варианты 100 использования также поддерживают иммерсивные и стереосигналы, захваченные и подготовленные посредством рендеринга посредством систем 116, 118 в видеоконференц-залах, соответственно. Варианты 100 использования также поддерживают стереозахват и иммерсивный рендеринг стереоаудиосигналов для систем 120 домашнего кинотеатра и компьютера 112 и монозахват и иммерсивный рендеринг аудиосигналов для гарнитуры 122 системы виртуальной реальности (VR) и модуля 124 поглощения иммерсивного содержимого.[0045] FIG. 1 illustrates use cases 100 for IVAS codec 100 according to one or more implementations. In some implementations, various devices communicate through a call server 102, which is configured to receive audio signals from, for example, a public switched telephone network (PSTN) or a public land mobile network (PLMN), illustrated by PSTN/other PLMN 104. Use cases 100 support previously created devices 106 that render and capture only audio in mono, including, but not limited to: devices that support enhanced voice services (EVS), the adaptive multi-rate wideband (AMR-WB) standard, and the narrowband standard. adaptive multi-rate coding (AMR-NB). Use cases 100 also support a user equipment (UE) 108, 114 that captures and renders stereo audio signals, or a UE 110 that captures and binaurally renders mono signals to multi-channel signals. Use cases 100 also support immersive and stereo signals captured and rendered by video conference room systems 116, 118, respectively. Use cases 100 also support stereo capture and immersive rendering of stereo audio signals for home theater systems 120 and computer 112 and mono capture and immersive rendering of audio signals for virtual reality (VR) system headset 122 and immersive content absorption module 124 .

Примерные системы кодирования/декодирования IVASExample IVAS encoding/decoding systems

[0046] Фиг. 2 является блок-схемой системы 200 для кодирования и декодирования битовых потоков IVAS согласно одной или более реализациям. Для кодирования, кодер IVAS включает в себя модуль 202 пространственного анализа и понижающего микширования, который принимает аудиоданные 201, включающие в себя, не ограничиваясь: моносигналы, стереосигналы, бинауральные сигналы, пространственные аудиосигналы (например, многоканальные пространственные аудиообъекты), FoA, амбиофонию высшего порядка (HoA) и любые другие аудиоданные. В некоторых реализациях, модуль 202 пространственного анализа и понижающего микширования реализует улучшенную сложную связь (CACPL) для анализа/понижающего микширования аудиосигналов стерео/FoA- и/или SPAR для анализа/понижающего микширования аудиосигналов FoA. В других реализациях, модуль 202 пространственного анализа и понижающего микширования реализует другие форматы.[0046] FIG. 2 is a block diagram of a system 200 for encoding and decoding IVAS bitstreams according to one or more implementations. For encoding, the IVAS encoder includes a spatial analysis and downmix module 202 that receives audio data 201 including, but not limited to: mono signals, stereo signals, binaural signals, spatial audio signals (eg, multi-channel spatial audio objects), FoA, higher order ambiophony (HoA) and any other audio data. In some implementations, spatial analysis and downmixing module 202 implements advanced complex communication (CACPL) for analyzing/downmixing stereo/FoA and/or SPAR audio signals to analyze/downmixing FoA audio signals. In other implementations, spatial analysis and downmixing module 202 implements other formats.

[0047] Вывод модуля 202 пространственного анализа и понижающего микширования включает в себя пространственные метаданные и 1-N каналов понижающего микширования аудио, где N является числом входных каналов. Пространственные метаданные вводятся в модуль 203 квантования и энтропийного кодирования, который квантует и выполняет энтропийное кодирование пространственных данных. В некоторых реализациях, квантование может включать в себя несколько уровней все более приблизительного квантования, таких как, например, стратегии точного, среднего, приблизительного и сверхприблизительного квантования, и энтропийное кодирование может включать в себя кодирование кодом Хаффмана или арифметическое кодирование. Модуль 206 кодирования с поддержкой улучшенных голосовых служб (EVS) кодирует 1-N каналов аудио в один или более битовых потоков EVS.[0047] The output of spatial analysis and downmix module 202 includes spatial metadata and 1-N audio downmix channels, where N is the number of input channels. The spatial metadata is input to a quantization and entropy encoding module 203, which quantizes and entropy encodes the spatial data. In some implementations, quantization may include multiple levels of increasingly coarse quantization, such as, for example, fine, average, approximate, and supercoarse quantization strategies, and entropy encoding may include Huffman encoding or arithmetic encoding. Enhanced Voice Services (EVS) encoding module 206 encodes 1-N audio channels into one or more EVS bitstreams.

[0048] В некоторых реализациях, модуль 206 кодирования EVS соответствует 3GPP TS 26.445 и обеспечивает широкий диапазон функциональностей, к примеру, повышенное качество и эффективность кодирования для узкополосных (EVS-NB) и широкополосных (EVS-WB) речевых служб, повышенное качество с использованием сверхширокополосной (EVS-SWB) речи, повышенное качество для микшированного содержимого и музыки в разговорных вариантах применения, устойчивость к потерям пакетов и дрожанию времени задержки и обратную совместимость с кодеком AMR-WB. В некоторых реализациях, модуль 206 кодирования EVS включает в себя модуль предварительной обработки и выбора режима, который выбирает между речевым кодером для кодирования речевых сигналов и перцепционным кодером для кодирования аудиосигналов на указанной скорости передачи битов на основе управления 207 режимом/скоростью передачи битов. В некоторых реализациях, речевой кодер представляет собой улучшенный вариант линейного прогнозирования с возбуждением по алгебраическому коду (ACELP), расширенного со специализированными режимами на основе линейного прогнозирования (LP) для различных речевых классов. В некоторых реализациях, аудиокодер представляет собой кодер на основе модифицированного дискретного косинусного преобразования (MDCT) с повышенной эффективностью при низкой задержке/на низких скоростях передачи битов и проектируется с возможностью выполнения прозрачного и надежного переключения между речевыми и аудиокодерами.[0048] In some implementations, EVS encoding module 206 complies with 3GPP TS 26.445 and provides a wide range of functionality, for example, improved quality and coding efficiency for narrowband (EVS-NB) and wideband (EVS-WB) voice services, improved quality using ultra-wideband (EVS-SWB) speech, enhanced quality for mixed content and music in conversational applications, robust to packet loss and latency jitter, and backwards compatible with the AMR-WB codec. In some implementations, EVS encoding module 206 includes a preprocessing and mode selection module that selects between a speech encoder for encoding speech signals and a perceptual encoder for encoding audio signals at a specified bit rate based on mode/bit rate control 207. In some implementations, the speech encoder is an improved variant of algebraically code-excited linear prediction (ACELP), extended with specialized linear prediction (LP)-based modes for various speech classes. In some implementations, the audio encoder is a modified discrete cosine transform (MDCT) encoder with improved performance at low latency/low bit rates and is designed to perform transparent and reliable switching between speech and audio encoders.

[0049] В некоторых реализациях, декодер IVAS включает в себя модуль 204 квантования и энтропийного декодирования, выполненный с возможностью восстановления пространственных метаданных, и декодер(ы) 208 EVS, выполненный(е) с возможностью восстанавливать 1-N канальных аудиосигналов. Восстановленные пространственные метаданные и аудиосигналы вводятся в модуль 209 пространственного синтеза/рендеринга, который синтезирует/выполняет рендеринг аудиосигналов с использованием пространственных метаданных для воспроизведения на различных аудиосистемах 210.[0049] In some implementations, the IVAS decoder includes a quantization and entropy decoding module 204, configured to recover spatial metadata, and EVS decoder(s) 208, configured to recover 1-N channel audio signals. The recovered spatial metadata and audio signals are input to a spatial synthesis/rendering module 209, which synthesizes/renders the audio signals using the spatial metadata for playback on various audio systems 210.

Примерный кодек IVAS/SPARSample codec IVAS/SPAR

[0050] Фиг. 3 является блок-схемой кодека 300 FoA для кодирования и декодирования FoA в формате SPAR, согласно некоторым реализациям. Кодек 300 FoA включает в себя кодер 301 FoA SPAR, кодер 305 EVS, декодер 306 FoA SPAR и декодер 307 EVS. Кодер 301 FoA SPAR преобразует входной сигнал FoA в набор каналов понижающего микширования и параметры, используемые для повторного формирования входного сигнала в декодере 306 FoA SPAR. Сигналы понижающего микширования могут варьироваться от 1 до 4 каналов, и параметры включают в себя коэффициенты прогнозирования (PR), коэффициенты кросс-прогнозирования (C) и коэффициенты декорреляции (P). Следует отметить, что SPAR представляет собой процесс, используемый для восстановления аудиосигнала из микшированной с понижением версии аудиосигнала с использованием параметров PR, C и P, как подробнее описано ниже.[0050] FIG. 3 is a block diagram of a FoA codec 300 for encoding and decoding FoA in the SPAR format, according to some implementations. The FoA codec 300 includes a FoA SPAR encoder 301, an EVS encoder 305, a FoA SPAR decoder 306, and an EVS decoder 307. The FoA SPAR encoder 301 converts the FoA input signal into a set of downmix channels and parameters used to regenerate the input signal in the FoA SPAR decoder 306. Downmix signals can range from 1 to 4 channels, and parameters include prediction coefficients (PR), cross-prediction coefficients (C), and decorrelation coefficients (P). It should be noted that SPAR is a process used to reconstruct an audio signal from a downmixed version of an audio signal using the PR, C and P parameters, as described in more detail below.

[0051] Следует отметить, что примерная реализация, показанная на фиг. 3, иллюстрирует номинальное двухканальное понижающее микширование, при котором канал W (пассивный прогнозный) или W' (активный прогнозный) отправляется с одним прогнозированным каналом Y' в декодер 306. В некоторых реализациях, W может представлять собой активный канал. Активный канал W обеспечивает возможность некоторого микширования каналов X, Y, Z в канал W следующим образом:[0051] It should be noted that the exemplary implementation shown in FIG. 3 illustrates a nominal two-channel downmix in which a W (passive predictive) or W' (active predictive) channel is sent with one predictive channel Y' to decoder 306. In some implementations, W may be an active channel. The active W channel allows some mixing of the X, Y, Z channels into the W channel as follows:

W'=W+f*pr_y*Y+f*pr_z*Z+f*pr_x*X,W'=W+f*pr _y* Y+f*pr _z* Z+f*pr _x* X,

где f является константой (например, 0,5), которая обеспечивает возможность микширования некоторых каналов X, Y, Z в канал W, и pr_y, pr_x и pr_z являются коэффициентами прогнозирования (PR). В пассивном W, f=0, так что отсутствует микширование каналов X, Y, Z в канал W.where f is a constant (eg 0.5) that allows some channels X, Y, Z to be mixed into channel W, and pr _y , pr _x and pr _z are prediction coefficients (PR). In passive W, f=0, so there is no mixing of the X, Y, Z channels into the W channel.

[0052] Коэффициенты кросс-прогнозирования (C) обеспечивают возможность восстановления некоторой части параметрических каналов из остаточных каналов, в случаях, если по меньшей мере один канал отправляется в качестве остатка, и по меньшей мере один отправляется параметрически, т. е. для двух- или трехканальных понижающих микширований. Для двухканальных понижающих микширований (как подробнее описано ниже), коэффициенты C обеспечивают возможность восстановления некоторых каналов X и Z из Y', и оставшиеся каналы восстанавливаются посредством декоррелированных версий канала W, как подробнее описано ниже. В случае трехканального понижающего микширования, Y' и X' используются для восстановления только Z.[0052] Cross-prediction coefficients (C) provide the ability to recover some portion of the parametric channels from the residual channels in cases where at least one channel is sent as a residual and at least one is sent parametrically, i.e., for two or three-channel downmixes. For two-channel downmixes (as described in more detail below), the C coefficients allow some of the X and Z channels to be recovered from Y', and the remaining channels are recovered through decorrelated versions of the W channel, as described in more detail below. In the case of a three-channel downmix, Y' and X' are used to restore only Z.

[0053] В некоторых реализациях, кодер 301 FoA SPAR включает в себя модуль 302 пассивного/активного прогнозирования, модуль 303 повторного микширования и модуль 304 извлечения/выбора понижающего микширования. Модуль пассивного/активного прогнозирования принимает каналы FoA в 4-канальном формате B (W, Y, Z, X) и вычисляет каналы понижающего микширования (представление W, Y', Z', X').[0053] In some implementations, FoA SPAR encoder 301 includes a passive/active prediction module 302, a remix module 303, and a downmix extract/select module 304. The passive/active prediction module receives FoA channels in 4-channel B format (W, Y, Z, X) and calculates the downmix channels (W, Y', Z', X' representation).

[0054] Модуль 304 извлечения/выбора понижающего микширования извлекает SPAR метаданные FoA из секции рабочих данных метаданных битового потока IVAS, как подробнее описано ниже. Модуль 302 пассивного/активного прогнозирования и модуль 303 повторного микширования используют SPAR метаданные FoA для формирования повторно микшированных каналов FoA (W или W' и A'), которые вводятся в кодер 305 EVS для кодирования в битовый поток EVS, который инкапсулирован в битовом потоке IVAS, отправленном в декодер 306. В этом примере следует отметить, что амбиофонические каналы в формате B компонуются согласно условному обозначению AmbiX. Тем не менее, также могут использоваться другие условные обозначения, к примеру, условное обозначение Фурса-Малхама (FuMa) (W, X, Y, Z).[0054] The downmix extract/select module 304 extracts the SPAR FoA metadata from the working data section of the IVAS bitstream metadata, as described in more detail below. Passive/active prediction module 302 and remix module 303 use SPAR FoA metadata to generate remixed FoA channels (W or W' and A'), which are input to EVS encoder 305 for encoding into an EVS bitstream that is encapsulated in an IVAS bitstream. sent to decoder 306. In this example, it should be noted that the ambiophonic channels in format B are arranged according to the AmbiX convention. However, other notations can also be used, for example the Furs-Malham (FuMa) notation (W, X, Y, Z).

[0055] Что касается SPAR -декодера 306 FoA, битовый поток EVS декодируется посредством декодера 307 EVS, приводя к N_dmx (например, N_dmx=2) каналов понижающего микширования. В некоторых реализациях, декодер 306 FoA SPAR выполняет в обратном порядке операции, выполняемые посредством кодера 301 SPAR. Например, в примере по фиг. 3 повторно микшированные каналы FoA (представление W', A', B', C') восстанавливаются из 2 каналов понижающего микширования с использованием пространственных метаданных FoA SPAR. Повторно микшированные каналы FoA SPAR вводятся в обратный микшер 311 для восстановления каналов FoA SPAR понижающего микширования (представление W', Y', Z', X'). Прогнозированные каналы FoA SPAR затем вводятся в модуль 312 обратного прогнозирования, чтобы восстанавливать исходные немикшированные каналы FoA SPAR (W, Y, Z, X).[0055] With respect to the SPAR FoA decoder 306, the EVS bitstream is decoded by the EVS decoder 307, resulting in N_dmx (eg, N_dmx=2) downmix channels. In some implementations, the FoA SPAR decoder 306 performs in reverse order the operations performed by the SPAR encoder 301. For example, in the example of FIG. The 3 remixed FoA channels (W', A', B', C' representation) are reconstructed from the 2 downmix channels using FoA SPAR spatial metadata. The remixed FoA SPAR channels are input to the downmixer 311 to restore the downmix FoA SPAR channels (W', Y', Z', X' representation). The predicted FoA SPAR channels are then input to the inverse prediction module 312 to reconstruct the original unmixed FoA SPAR channels (W, Y, Z, X).

Следует отметить, что в этом двухканальном примере, блоки 309A (dec1) и 309B (dec2) декоррелятора используются для формирования декоррелированных версий канала W с использованием декоррелятора во временной области или в частотной области. Каналы понижающего микширования и декоррелированные каналы используются в сочетании с -метаданными FoA SPAR для восстановления каналов X и Z полностью или параметрически. Блок 308 C означает умножение остаточного канала на матрицу коэффициентов C 2×1, с созданием двух кросс-прогнозных сигналов, которые суммируются в параметрически восстановленные каналы, как показано на фиг. 3. Блок 310A P1 и блок 310B P2 означают умножение выводов декоррелятора на столбцы матрицы коэффициентов P 2×2, с созданием четырех выводов, которые суммируются в параметрически восстановленные каналы, как показано на фиг. 3.It should be noted that in this two-channel example, decorrelator blocks 309A (dec1) and 309B (dec2) are used to generate decorrelated versions of channel W using a time domain or frequency domain decorrelator. Downmix channels and decorrelated channels are used in combination with FoA SPAR metadata to reconstruct the X and Z channels either completely or parametrically. Block 308 C means multiplying the residual channel by a 2×1 coefficient matrix C, creating two cross-prediction signals that are summed into parametrically reconstructed channels, as shown in FIG. 3. P1 block 310A and P2 block 310B mean multiplying the decorrelator outputs by the columns of the coefficient matrix P 2×2, creating four outputs that are summed into parametrically reconstructed channels, as shown in FIG. 3.

[0056] В некоторых реализациях, в зависимости от числа каналов понижающего микширования, один из вводов FoA отправляется в декодер 306 FoA SPAR нетронутым (канал W), и один-три других канала (Y, Z и X) отправляются в качестве остатков или полностью параметрически в декодер 306 FoA SPAR. Коэффициенты PR, которые остаются одинаковыми независимо от числа N каналов понижающего микширования, используются для минимизации прогнозируемой энергии в каналах остаточного понижающего микширования. Коэффициенты C используются для дополнительной помощи при повторном формировании полностью параметрических каналов из остатков. В связи с этим, коэффициенты C не требуются в случаях одно- и четырехканального понижающего микширования, в которых отсутствуют остаточные каналы или параметризованные каналы для прогнозирования. Коэффициенты P используются для заполнения оставшейся энергии, не учитываемой коэффициентами PR и C. Число коэффициентов P зависит от числа N каналов понижающего микширования в каждой полосе частот. В некоторых реализациях, коэффициенты PR SPAR (только пассивный W) вычисляются следующим образом.[0056] In some implementations, depending on the number of downmix channels, one of the FoA inputs is sent to FoA SPAR decoder 306 intact (W channel), and one to three other channels (Y, Z, and X) are sent as residuals or completely parametrically to the 306 FoA SPAR decoder. PR coefficients, which remain the same regardless of the number N of downmix channels, are used to minimize the predicted energy in the residual downmix channels. The C coefficients are used to further assist in regenerating fully parametric channels from the residuals. Therefore, C coefficients are not required in single- and quad-channel downmix cases where there are no residual channels or parameterized channels to predict. The P coefficients are used to fill the remaining energy not accounted for by the PR and C coefficients. The number of P coefficients depends on the number N of downmix channels in each frequency band. In some implementations, PR SPAR coefficients (passive W only) are calculated as follows.

[0057] Этап 1. Прогнозирование всех боковых сигналов (Y, Z, X) из основного сигнала W с использованием уравнения [1].[0057] Step 1: Predict all side signals (Y, Z, X) from the main signal W using equation [1].

, [1] , [1]

где, в качестве примера, параметр прогнозирования для прогнозированного канала Y' вычисляется с использованием уравнения [2].where, as an example, the prediction parameter for the predicted channel Y' is calculated using equation [2].

, [2] , [2]

где являются элементами входной ковариационной матрицы, соответствующими сигналам A и B, и могут вычисляться в расчете на полосу частот. Аналогично, остаточные Z'- и X'-каналы имеют соответствующие параметры прогнозирования, prz и prx. PR является вектором коэффициентов прогнозирования.Where are the elements of the input covariance matrix corresponding to signals A and B, and can be calculated on a per-bandwidth basis. Likewise, the residual Z' and X' channels have corresponding prediction parameters, prz and prx. PR is the vector of coefficients forecasting.

[0058] Этап 2. Повторное микширование сигнала W и прогнозированных сигналов (Y', Z', X') от наиболее к наименее акустически релевантным, при этом «повторное микширование» означает переупорядочение или повторное объединение сигналов на основе некоторой технологии,[0058] Step 2: Remixing the W signal and the predicted signals (Y', Z', X') from most to least acoustically relevant, where "remixing" means reordering or recombining the signals based on some technology,

. [3] . [3]

[0059] Одна реализация повторного микширования представляет собой переупорядочение входных сигналов в W, Y', X', Z', при таком допущении, что сигнальные аудиометки слева и справа являются более акустически релевантными, чем спереди назад, и сигнальные метки спереди назад являются более акустически релевантными, чем сигнальные метки сверху вниз.[0059] One implementation of remixing is to reorder the input signals in W, Y', X', Z', with the assumption that audio cues left and right are more acoustically relevant than front to back, and audio cues from front to back are more acoustically relevant than top-down cues.

[0060] Этап 3. Вычисление ковариации четырехканального постпрогнозирования и понижающего микширования с повторным микшированием, как показано в уравнениях [4] и [5].[0060] Step 3: Calculate the covariance of the four-channel post-prediction and remix downmix as shown in equations [4] and [5].

[4] [4]

. [5] . [5]

где d представляет остаточные каналы (т. е. второй - N_dmx-ый каналы), и u представляет параметрические каналы, которые должны полностью повторно формироваться (т. е. (N_dmx+1)-ый - четвертый каналы).where d represents the residual channels (ie the second - N_dmxth channels) and u represents the parametric channels that must be completely reconfigured (ie the (N_dmx+1)th - fourth channels).

[0061] Для примера понижающего микширования WABC с 1-4 каналами, d и u представляют следующие каналы, показанные в таблице I:[0061] For an example of WABC downmix with 1-4 channels, d and u represent the following channels shown in Table I:

Таблица I. Представления d- и u-каналовTable I. Representations of d- and u-channels

NN d-каналыd-channels u-каналыu-channels 11 ---- A', B', C'A', B', C' 22 A'A' B', C'B', C' 33 A', B'A', B' C'C' 44 A', B', C'A', B', C' ----

[0062] Основной интерес при вычислении метаданных FoA SPAR представляют величины R_dd, R_ud и R_uu. Из величин R_dd, R_ud и R_uu, кодек 300 определяет, можно ли кросс-прогнозировать какую-либо оставшуюся часть полнопараметрических каналов из остаточных каналов, отправляемых в декодер. В некоторых реализациях, требуемые дополнительные коэффициенты C задаются следующим образом:[0062] Of primary interest in computing FoA SPAR metadata are the values of R_dd, R_ud and R_uu. From the values of R_dd, R_ud and R_uu, codec 300 determines whether any remaining portion of the full parameter channels can be cross-predicted from the residual channels sent to the decoder. In some implementations, the required additional coefficients C are specified as follows:

[6] [6]

[0063] Следовательно, параметр C имеет форму (1×2) для трехканального понижающего микширования и (2×1) для двухканального понижающего микширования.[0063] Therefore, parameter C is of the form (1×2) for three-channel downmix and (2×1) for two-channel downmix.

[0064] Этап 4. Вычисление оставшейся энергии в параметризованных каналах, которые должны восстанавливаться посредством декорреляторов 309A, 309B. Остаточная энергия в каналах Res_uu повышающего микширования представляет собой разность между фактической энергией R_uu (постпрогнозирования) и повторно сформированной энергией Reg_uu кросс-прогнозирования.[0064] Step 4: Calculate the remaining energy in the parameterized channels to be reconstructed by decorrelators 309A, 309B. The residual energy in the upmix channels Res_uu is the difference between the actual (post-prediction) energy R_uu and the regenerated cross-prediction energy Reg_uu.

, [7] , [7]

[8] [8]

. [9] . [9]

В варианте осуществления, квадратный корень матрицы извлекается после того, как нормализованная матрица Res_uu имеет внедиагональные элементы, заданные равными нулю. P также представляет собой ковариационную матрицу, в силу чего является эрмитово-симметричной, и в силу этого только параметры из верхнего или нижнего треугольника должны отправляться в декодер 306. Диагональные записи являются действительными, в то время как внедиагональные элементы могут быть комплексными. В варианте осуществления, коэффициенты P дополнительно могут разделяться на диагональные и внедиагональные элементы P_d и P_o. In an embodiment, the square root of the matrix is taken after the normalized matrix Res _uu has off-diagonal elements set to zero. P is also a covariance matrix, thereby being Hermitian symmetric, and as such, only parameters from the upper or lower triangle need to be sent to decoder 306. Diagonal entries are real, while off-diagonal entries may be complex. In an embodiment, the coefficients P may be further divided into diagonal and off-diagonal elements P_d and P_o.

Примерная сигнальная цепочка IVAS (FoA или стереоввод)Example IVAS signal chain (FoA or stereo input)

[0065] Фиг. 4A является блок-схемой сигнальной цепочки 400 IVAS для входных аудиосигналов FoA и стерео согласно варианту осуществления. В этой примерной конфигурации, аудиоввод в сигнальную цепочку 400 может представлять собой четырехканальный аудиосигнал FoA или двухканальный стереоаудиосигнал. Модуль 401 понижающего микширования формирует аудиоканалы понижающего микширования (dmx_ch) и пространственные MD. Каналы понижающего микширования вводятся в модуль 402 распределения скоростей передачи битов (BR), который выполнен с возможностью квантования пространственных MD и обеспечения скоростей передачи битов монокодека для аудиоканалов понижающего микширования с использованием таблицы управления BR-распределением и скорости передачи битов IVAS, как подробно поясняется ниже. Вывод модуля 402 распределения BR вводится в модуль 403 EVS, который кодирует аудиоканалы понижающего микширования в битовый поток EVS. Битовый поток EVS и квантованные и кодированные пространственные MD вводятся в модуль 405 пакетирования битовых потоков IVAS для формирования битового потока IVAS, который передается в декодер IVAS и/или сохраняется для последующей обработки или воспроизведения на одном или более устройствах IVAS.[0065] FIG. 4A is a block diagram of an IVAS signal chain 400 for FoA and stereo audio input signals according to an embodiment. In this example configuration, the audio input to signal chain 400 may be a four-channel FoA audio signal or a two-channel stereo audio signal. The downmixer 401 generates downmix audio channels (dmx_ch) and spatial MDs. The downmix channels are input to a bit rate (BR) allocation module 402, which is configured to quantize spatial MDs and provide mono codec bit rates for the audio downmix channels using a BR allocation control table and the IVAS bit rate, as explained in detail below. The output of the BR distribution module 402 is input to the EVS module 403, which encodes the downmix audio channels into the EVS bitstream. The EVS bitstream and quantized and encoded spatial MDs are input to an IVAS bitstream packetizer 405 to form an IVAS bitstream that is transferred to an IVAS decoder and/or stored for subsequent processing or playback on one or more IVAS devices.

[0066] Для входных стереосигналов модуль 401 понижающего микширования выполнен с возможностью формирования представления среднего сигнала (M'), остатки (Re) из стереосигнала и пространственные MD. Пространственные MD включают в себя коэффициенты PR, C и P для SPAR и коэффициенты PR и P для CACPL, как подробнее описано ниже. Сигнал M', Re, пространственные MD и таблица управления распределением BR вводятся в модуль 402 распределения BR (скоростей передачи битов), который выполнен с возможностью квантования пространственных метаданных и обеспечения скоростей передачи битов монокодека для каналов понижающего микширования с использованием характеристик сигналов сигнала M' и таблицы управления распределением BR. Сигнал M', Re и BR монокодека вводятся в модуль 403 EVS, который кодирует сигнал M' и Re в битовый поток EVS. Битовый поток EVS и квантованные и кодированные пространственные MD вводятся в модуль 405 пакетирования битовых потоков IVAS для формирования битового потока IVAS, который передается в декодер IVAS и/или сохраняется для последующей обработки или воспроизведения на одном или более устройствах IVAS.[0066] For stereo input signals, the downmixer 401 is configured to generate a representation of the average signal (M'), residuals (Re) from the stereo signal, and spatial MDs. Spatial MDs include the PR, C, and P coefficients for SPAR and the PR and P coefficients for CACPL, as described in more detail below. The M' signal, Re, spatial MD, and BR allocation control table are input to a BR (bit rate) allocation module 402, which is configured to quantize the spatial metadata and provide mono codec bit rates for the downmix channels using the signal characteristics of the M' and signal BR distribution control tables. The mono codec signal M', Re and BR are input to the EVS module 403, which encodes the M' and Re signal into the EVS bitstream. The EVS bitstream and quantized and encoded spatial MDs are input to an IVAS bitstream packetizer 405 to form an IVAS bitstream that is transferred to an IVAS decoder and/or stored for subsequent processing or playback on one or more IVAS devices.

[0067] Для входных сигналов FoA модуль 401 понижающего микширования выполнен с возможностью формирования 1-4 канала W', Y', X' и Z' понижающего микширования FoA и пространственные MD. Пространственные MD включают в себя коэффициенты PR, C и P для SPAR и коэффициенты PR и P для CACPL, как подробнее описано ниже. 1-4 канала (W', Y', X', Z') понижающего микширования FoA вводятся в модуль 402 распределения BR, который выполнен с возможностью квантования пространственных MD и обеспечения скоростей передачи битов монокодека для канала(ов) понижающего микширования FoA с использованием характеристик сигналов канала(ов) понижающего микширования FoA и таблицы управления BR-распределением. Канал(ы) понижающего микширования FoA вводится(ятся) в модуль 403 EVS, который кодирует канал(ы) понижающего микширования FoA в битовый поток EVS. Битовый поток EVS и квантованные и кодированные пространственные MD вводятся в модуль 405 пакетирования битовых потоков IVAS для формирования битового потока IVAS, который передается в декодер IVAS и/или сохраняется для последующей обработки или воспроизведения на одном или более устройствах IVAS. Декодер IVAS может выполнять в обратном порядке операции, выполняемые кодером IVAS, для восстановления входных аудиосигналов для воспроизведения на устройстве IVAS.[0067] For FoA input signals, the downmixer 401 is configured to generate 1-4 FoA downmix channels W', Y', X' and Z' and spatial MDs. Spatial MDs include the PR, C, and P coefficients for SPAR and the PR and P coefficients for CACPL, as described in more detail below. 1-4 channels (W', Y', X', Z') of the FoA downmix are input to a BR allocation module 402, which is configured to quantize spatial MDs and provide mono codec bit rates for the FoA downmix channel(s) using characteristics of the FoA downmix channel(s) signals and the BR distribution control table. The FoA downmix channel(s) are input to the EVS module 403, which encodes the FoA downmix channel(s) into the EVS bitstream. The EVS bitstream and quantized and encoded spatial MDs are input to an IVAS bitstream packetizer 405 to form an IVAS bitstream that is transferred to an IVAS decoder and/or stored for subsequent processing or playback on one or more IVAS devices. The IVAS decoder can reverse the operations performed by the IVAS encoder to recover input audio signals for playback on the IVAS device.

[0068] Фиг. 4B является блок-схемой альтернативной сигнальной цепочки 405 IVAS для входных аудиосигналов FoA и стерео согласно варианту осуществления. В этой примерной конфигурации аудиоввод в сигнальную цепочку 405 может представлять собой четырехканальный аудиосигнал FoA или двухканальный стереоаудиосигнал. В этом варианте осуществления, препроцессор 406 извлекает свойства сигналов из входных аудиосигналов, такие как полоса пропускания (BW), данные классификации речи/музыки, данные обнаружения голосовой активности (VAD) и т. д.[0068] FIG. 4B is a block diagram of an alternative IVAS signal chain 405 for FoA and stereo audio input signals according to an embodiment. In this exemplary configuration, the audio input to signal chain 405 may be a four-channel FoA audio signal or a two-channel stereo audio signal. In this embodiment, preprocessor 406 extracts signal properties from the input audio signals, such as bandwidth (BW), speech/music classification data, voice activity detection (VAD) data, etc.

[0069] Модуль 407 обработки пространственных MD формирует пространственные MD из входного аудиосигнала с использованием извлеченных свойств сигналов. Входной аудиосигнал, свойства сигналов и пространственные MD вводятся в модуль 408 BR-распределения, который выполнен с возможностью квантования пространственных MD и обеспечения скоростей передачи битов монокодека для аудиоканалов понижающего микширования с использованием таблицы управления BR-распределением и скорости передачи битов IVAS, подробно описанных ниже.[0069] Spatial MD processing module 407 generates spatial MDs from the input audio signal using the extracted signal properties. The input audio signal, signal properties, and spatial MDs are input to a BR allocation module 408, which is configured to quantize the spatial MDs and provide mono codec bit rates for the audio downmix channels using the BR allocation control table and IVAS bit rates described in detail below.

[0070] Входные аудиосигналы, квантованные пространственные MD и число каналов (d_dmx) понижающего микширования, выводимые посредством модуля 408 BR-распределения, вводятся в модуль 409 понижающего микширования, который формирует канал(ы) понижающего микширования. Например, для сигналов FoA, каналы понижающего микширования могут включать в себя W' и N_dmx-1 остатков (Re).[0070] The input audio signals, quantized spatial MDs, and number of downmix channels (d_dmx) output by the BR distribution unit 408 are input to the downmixer 409, which generates the downmix channel(s). For example, for FoA signals, the downmix channels may include W' and N_dmx-1 residues (Re).

[0071] Скорости передачи битов EVS, выводимые посредством модуля 408 BR-распределения, и канал(ы) понижающего микширования вводятся в модуль 410 EVS, который кодирует канал(ы) понижающего микширования в битовый поток EVS. Битовый поток EVS и квантованные кодированные пространственные MD вводятся в модуль 411 пакетирования битовых потоков IVAS для формирования битового потока IVAS, который передается в декодер IVAS и/или сохраняется для последующей обработки или воспроизведения на одном или более устройств IVAS. Декодер IVAS может выполнять в обратном порядке операции, выполняемые кодером IVAS, для восстановления входных аудиосигналов для воспроизведения на устройстве IVAS.[0071] The EVS bit rates output by the BR distribution module 408 and the downmix channel(s) are input to the EVS module 410, which encodes the downmix channel(s) into the EVS bitstream. The EVS bitstream and quantized encoded spatial MDs are input to an IVAS bitstream packetizer 411 to form an IVAS bitstream that is transferred to an IVAS decoder and/or stored for subsequent processing or playback on one or more IVAS devices. The IVAS decoder can reverse the operations performed by the IVAS encoder to recover input audio signals for playback on the IVAS device.

Примерная стратегия управления распределением скоростей передачи битовExemplary Bit Rate Allocation Control Strategy

[0072] В варианте осуществления, стратегия управления распределением скоростей передачи битов IVAS включает в себя два компонента. Первый компонент представляет собой таблицу управления распределением BR, которая обеспечивает начальные условия для процесса управления распределением BR. Индекс в таблицу управления распределением BR определяется посредством конфигурационных параметров кодека. Конфигурационные параметры кодека могут включать в себя скорость передачи битов IVAS, входной формат, такой как стереоформат, FoA, плоский FoA или любой другой формат, полосу пропускания аудиосигнала (BW), режим пространственного кодирования (или число N_re остаточных каналов), приоритет монокодека и пространственных MD. Для стереокодирования, N_re=0 соответствует полнопараметрическому (FP) режиму, и N_re=1 соответствует средне-остаточному (MR) режиму. В варианте осуществления, табличный индекс управления распределением BR указывает на целевую, минимальную и максимальную скорости передачи битов монокодека для каждого из каналов понижающего микширования и множество стратегий квантования (например, точное, среднеприблизительное, приблизительное) для кодирования пространственных MD. В другом варианте осуществления, табличный индекс управления распределением BR указывает на полную целевую и минимальную скорость передачи битов для всех экземпляров монокодека, отношение, с которым доступная скорость передачи битов должна разделяться между всеми каналами понижающего микширования, и несколько стратегий квантования, чтобы кодировать пространственные MD. Второй компонент стратегии управления распределением скоростей передачи битов IVAS представляет собой процесс, который использует выводы таблицы управления распределением BR и свойства входных аудиосигналов для определения уровней квантования и скорости передачи в битах пространственных метаданных, а также скорости передачи битов каждого канала понижающего микширования, как описано в отношении фиг. 5A и 5B.[0072] In an embodiment, the IVAS bit rate allocation control strategy includes two components. The first component is the BR allocation control table, which provides the initial conditions for the BR allocation control process. The index into the BR distribution control table is determined through the codec configuration parameters. Codec configuration parameters may include IVAS bit rate, input format such as stereo, FoA, flat FoA or any other format, audio bandwidth (BW), spatial encoding mode (or number N _re of residual channels), mono codec priority, and spatial MD. For stereo encoding, N _re =0 corresponds to the full parameter (FP) mode, and N _re =1 corresponds to the mean residual (MR) mode. In an embodiment, the allocation control table index BR indicates the target, minimum and maximum mono codec bit rates for each of the downmix channels and a plurality of quantization strategies (eg, fine, average, approximate) for encoding spatial MDs. In another embodiment, the allocation control table index BR indicates the overall target and minimum bit rate for all mono codec instances, the ratio with which the available bit rate should be divided among all downmix channels, and several quantization strategies to encode spatial MDs. The second component of the IVAS bitrate control strategy is a process that uses the outputs of the BR allocation control table and the properties of the input audio signals to determine the quantization levels and bitrates of the spatial metadata, as well as the bitrate of each downmix channel, as described in Ref. fig. 5A and 5B.

Процесс распределения скоростей передачи битов: общее представлениеBit rate distribution process: overview

[0073] Основные компоненты обработки процессов распределения скоростей передачи битов, раскрытых в данном документе, включают в себя:[0073] The main processing components of the bit rate distribution processes disclosed herein include:

- обнаружение полосы пропускания аудиосигнала (BW) (например, узкая полоса частот (NB), широкая полоса частот (WB), сверхширокая полоса частот (SWB), полная полоса частот (FB)). На этом этапе обнаруживается BW среднего или сигнала W, и метаданные квантуются соответствующим образом. EVS затем обрабатывает IVAS BW в качестве верхнего предела и кодирует каналы понижающего микширования соответствующим образом;- audio bandwidth (BW) detection (e.g., narrow band (NB), wide band (WB), ultra wide band (SWB), full band (FB)). At this stage, the BW of the average or signal W is detected and the metadata is quantized accordingly. The EVS then treats the IVAS BW as an upper limit and encodes the downmix channels accordingly;

- извлечение свойств входных аудиосигналов (например, речь или музыка);- extracting properties of input audio signals (for example, speech or music);

- выбор режима пространственного кодирования (например, полнопараметрический (FP), средне-остаточный (MR)) или числа остаточных каналов, N_re, при этом для стереокодирования выбирается режим FP, если N_re=0, и выбирается режим MR, если N_re=1;- selection of spatial coding mode (for example, full-parameter (FP), average-residual (MR)) or the number of residual channels, N_re, while for stereo coding the FP mode is selected if N_re=0, and the MR mode is selected if N_re=1;

- решение по приоритету монокодека и пространственных MD: целевая скорость передачи битов, минимальная и максимальная скорости передачи битов для каждого канала понижающего микширования или отношения, с которыми полная скорость передачи битов монокодека должна разделяться между каналами понижающего микширования.- mono codec and spatial MD priority decision: target bit rate, minimum and maximum bit rates for each downmix channel, or the ratios at which the total mono codec bit rate should be shared between downmix channels.

Обнаружение BW аудиосигналаDetection of BW audio signal

[0074] Этот компонент обнаруживает BW среднего или сигнала W. В варианте осуществления, кодек IVAS использует детектор EVS BW, описанный в EVS TS 26.445.[0074] This component detects the BW of the average or W signal. In an embodiment, the IVAS codec uses the EVS BW detector described in EVS TS 26.445.

Извлечение свойств входных сигналовExtracting properties of input signals

[0075] Этот компонент классифицирует каждый кадр входного аудиосигнала в качестве речи или музыки. В варианте осуществления, кодек IVAS использует классификатор EVS речи/музыки, как описано в EVS TS 26.445.[0075] This component classifies each frame of the input audio signal as speech or music. In an embodiment, the IVAS codec uses the EVS speech/music classifier as described in EVS TS 26.445.

Решение по приоритету монокодека относительно пространственных MDDecision on mono codec priority relative to spatial MDs

[0076] Этот компонент определяет приоритет монокодека по сравнению с пространственными MD на основе свойств сигналов понижающего микширования. Примеры свойств сигналов понижающего микширования включают в себя речь или музыку, как определено посредством данных классификатора речи/музыки, и ковариационные оценки в полосе средних (M-S) частот для стерео- и ковариационные оцени в полосе частот W-Y, W-X, W-Z-канала для FoA. Данные классификатора речи/музыки могут использоваться для обеспечения более высокого приоритета монокодеку, если входной аудиосигнал представляет собой музыку, и ковариационные оценки могут использоваться для обеспечения большего приоритета пространственным MD, когда входной аудиосигнал жестко панорамируется.[0076] This component determines the priority of the mono codec over spatial MDs based on the properties of the downmix signals. Examples of downmix signal properties include speech or music as determined by speech/music classifier data, and midband (M-S) band covariance estimates for stereo and W-Y, W-X, W-Z channel band covariance estimates for FoA. The speech/music classifier data can be used to give higher priority to the mono codec when the input audio signal is music, and covariance estimates can be used to give higher priority to spatial MD when the input audio signal is hard panned.

[0077] В варианте осуществления, решение по приоритету вычисляется для каждого кадра входного аудиосигнала. Для данной скорости передачи битов IVAS, BW среднего или сигнала W и входной конфигурации, распределение скоростей передачи битов начинается с целевыми или требуемыми скоростями передачи битов для каналов понижающего микширования (например, скорость передачи битов монокодека определяется согласно субъективной или объективной оценки), присутствующих в таблице управления BR-распределением, и стратегии самого точного квантования для метаданных. Если начальное условие не вписывается в данный бюджет по скорости передачи битов IVAS, то скорость передачи битов монокодека или уровень квантования пространственных MD либо оба из означенного уменьшаются итеративно в контуре квантования на основе их соответствующих приоритетов до тех пор, пока они оба не вписываются в бюджет по скорости передачи битов IVAS.[0077] In an embodiment, a priority decision is calculated for each frame of the input audio signal. For a given IVAS bit rate, BW average or W signal and input configuration, the bit rate distribution starts with the target or required bit rates for the downmix channels (for example, the mono codec bit rate is determined according to the subjective or objective assessment) present in the table BR distribution control, and the most accurate quantization strategies for metadata. If the initial condition is not within the given IVAS bit rate budget, then the mono codec bit rate or the spatial MD quantization level, or both, is reduced iteratively in the quantization loop based on their respective priorities until they are both within the budget by IVAS bit rates.

Распределение скоростей передачи битов между каналами понижающего микшированияDistribution of bit rates between downmix channels

Полнопараметрический по сравнению со средне-остаточнымFull-parametric versus mean-residual

[0078] В режиме FP, только -канал M' или W' кодируется посредством монокодека, и дополнительные параметры кодируются в пространственных MD, указывающих уровень остаточного канала или уровень декорреляции, которая должна добавляться посредством декодера. Для скоростей передачи битов, при которых FP и MR являются целесообразными, процесс распределения BR IVAS динамически выбирает число остаточных каналов, которые должны кодироваться посредством монокодека и передаваться/передаваться в потоковом режиме в декодер, на основе пространственных MD на покадровой основе. Если уровень любого остаточного канала выше порогового значения, то этот остаточный канал кодируется посредством монокодека; в противном случае, процесс выполняется в FP-режиме. Обработка переходных кадров выполняется для сброса буферов состояния кодека, когда число остаточных каналов, которые должны кодироваться посредством монокодека, изменяется.[0078] In FP mode, only the -channel M' or W' is encoded by a mono codec, and additional parameters are encoded in spatial MDs indicating the level of the residual channel or the level of decorrelation to be added by the decoder. For bit rates at which FP and MR are practical, the IVAS BR allocation process dynamically selects the number of residual channels to be encoded by a mono codec and transmitted/streamed to the decoder, based on spatial MDs on a frame-by-frame basis. If the level of any residual channel is above the threshold, then that residual channel is encoded using a mono codec; otherwise, the process runs in FP mode. Transient frame processing is performed to reset codec state buffers when the number of residual channels to be encoded by the mono codec changes.

Распределение скоростей передачи битов при понижающем MR-микшированииBit rate distribution for MR downmixing

[0079] Оценка с помощью прослушивания проведена с различными входными сигналами и распределениями скоростей передачи битов между средним каналом и остаточным каналом. На основе сфокусированных тестов на основе прослушивания, наиболее эффективное отношение скоростей передачи битов среднего и остаточного канала составляет 3:2. Тем не менее, другие отношения могут использоваться на основе требований варианта применения. В варианте осуществления, распределение скоростей передачи битов использует фиксированное отношение, которое настраивается дополнительно на фазе настройки. Во время итеративного процесса выбора стратегии квантования и BR для каналов понижающего микширования, BR для каждого канала понижающего микширования модифицируется согласно данному отношению.[0079] Eavesdropping evaluation is performed with different input signals and bit rate distributions between the middle channel and the residual channel. Based on focused listening tests, the most efficient mid-to-residual bit rate ratio is 3:2. However, other relationships may be used based on the application case requirements. In an embodiment, the bit rate distribution uses a fixed ratio that is further adjusted during the setup phase. During the iterative process of selecting a quantization strategy and BR for downmix channels, the BR for each downmix channel is modified according to this ratio.

[0080] В варианте осуществления, вместо поддержания фиксированного отношения между скоростями передачи битов канала понижающего микширования, целевая скорость передачи битов и минимальная и максимальная скорости передачи битов для каждого канала понижающего микширования отдельно перечисляются в таблице управления BR-распределением. Эти скорости передачи битов выбираются на основе тщательных субъективных и объективных оценок. Во время итеративного процесса выбора стратегии квантования и BR для каналов понижающего микширования, биты добавляются или извлекаются из каналов понижающего микширования на основе приоритета всех каналов понижающего микширования. Приоритет каналов понижающего микширования может быть фиксированным или динамическим на покадровой основе. В варианте осуществления, приоритет каналов понижающего микширования является фиксированным.[0080] In an embodiment, instead of maintaining a fixed ratio between the bit rates of the downmix channel, the target bit rate and the minimum and maximum bit rates for each downmix channel are separately listed in the BR allocation control table. These bit rates are selected based on careful subjective and objective evaluations. During the iterative process of selecting the quantization strategy and BR for the downmix channels, bits are added to or extracted from the downmix channels based on the priority of all the downmix channels. The priority of downmix channels can be fixed or dynamic on a frame-by-frame basis. In an embodiment, the priority of the downmix channels is fixed.

Процесс распределения скоростей передачи битов: последовательность операций процессаBit Rate Allocation Process: Process Flow

[0081] Фиг. 5A является блок-схемой процесса 500 распределения скоростей передачи битов для входных стереосигналов и сигналов FoA, согласно варианту осуществления. Вводы в процесс 500 представляют собой скорость передачи битов IVAS, константы (например, таблицу управления распределением скоростей передачи битов, скорость передачи битов IVAS), каналы понижающего микширования, пространственные MD, входной формат (например, стерео, FoA, плоский FoA) и принудительные параметры командной строки (например, максимальную полосу пропускания, режим кодирования, обратно совместимый режим EVS для понижающего мономикширования). Выводы процесса 500 представляют собой скорость передачи битов EVS для каждого канала понижающего микширования, уровни квантования метаданных и биты кодированных метаданных. Следующие этапы выполняются в качестве части процесса 500.[0081] FIG. 5A is a flow diagram of a process 500 for allocating bit rates for input stereo and FoA signals, according to an embodiment. Inputs to process 500 are IVAS bitrate, constants (eg, bitrate distribution control table, IVAS bitrate), downmix channels, spatial MDs, input format (eg, stereo, FoA, flat FoA), and force parameters command line (eg maximum bandwidth, encoding mode, EVS backwards compatible mode for mono downmix). The outputs of process 500 are the EVS bit rate for each downmix channel, metadata quantization levels, and encoded metadata bits. The following steps are performed as part of process 500.

Извлечение аудиопризнаков понижающего микшированияExtracting Audio Downmix Features

[0082] На этапе 501, следующие свойства сигналов извлекаются из входного аудиосигнала: полоса пропускания (например, узкая полоса частот, широкая полоса частот, сверхширокая полоса частот, полная полоса частот) и данные классификации речи/музыки, данные обнаружения голосовой активности (VAD). Полоса пропускания (BW) представляет собой минимум фактической полосы пропускания входного аудиосигнала и максимальной полосы пропускания для командной строки, указываемый пользователем. В варианте осуществления, аудиосигнал понижающего микширования может иметь формат с импульсно-кодовой модуляцией (PCM).[0082] At step 501, the following signal properties are extracted from the input audio signal: bandwidth (e.g., narrowband, wideband, ultra-wideband, fullband) and speech/music classification data, voice activity detection (VAD) data. . Bandwidth (BW) is the user-specified minimum of the actual input audio bandwidth and the maximum command-line bandwidth. In an embodiment, the downmix audio signal may be in a pulse code modulation (PCM) format.

Определение табличного индексаDefining a table index

[0083] На этапе 502, процесс 500 извлекает табличные индексы управления распределением скоростей передачи битов IVAS из таблицы управления распределением скоростей передачи битов IVAS с использованием скорости передачи битов IVAS. На этапе 503, процесс 500 определяет табличные индексы входных форматов на основе параметров сигналов, извлеченных на этапе 501 (т.е. BW и классификации речи/музыки), формата входных аудиосигналов, табличных индексов управления распределением скоростей передачи битов IVAS, извлеченных на этапе 502, и режима EVS обратной совместимости для понижающего мономикширования. На этапе 504, процесс 500 выбирает режим пространственного кодирования (т. е. FP или MR) или число остаточных каналов (т. е. N_re=0-3) на основе табличных индексов управления распределением скоростей передачи битов, переходного режима кодирования аудио и пространственных MD. На этапе 505, процесс 500 определяет конечный точный табличный индекс на основе шести параметров, описанных выше. В варианте осуществления, выбор режима пространственного кодирования аудио на этапе 504 основан на индикаторе остаточного канального уровня в пространственных MD. Режим пространственного кодирования аудио указывает либо MR-режим кодирования, в котором представление среднего или канала W (M' или W') сопровождается одним или более остаточными каналами в микшированном с понижением аудиосигнале, либо режим кодирования FP, в котором только представление среднего или канала W (M' или W') присутствует в микшированном с понижением аудиосигнале. В варианте осуществления, переходный режим кодирования аудио задается равным 1, если режим пространственного кодирования аудио в предыдущем кадре включает в себя кодирование остаточных каналов, в то время как текущий кадр требует только канального M'- или W'-кодирования. В противном случае, переходный режим кодирования аудио задается равным 0. Если число остаточных каналов, которые должны кодироваться, отличается между текущим кадром и предыдущим кадром, переходный режим кодирования аудио задается равным 1.[0083] At step 502, process 500 retrieves the IVAS bit rate distribution control table indexes from the IVAS bit rate distribution control table using the IVAS bit rate. At step 503, process 500 determines the input format table indexes based on the signal parameters extracted at step 501 (i.e., BW and speech/music classification), the format of the input audio signals, the IVAS bit rate distribution control table indexes extracted at step 502 , and EVS backwards compatible mode for mono downmixing. At step 504, process 500 selects a spatial encoding mode (i.e., FP or MR) or number of residual channels (i.e., N_re=0-3) based on bitrate control table indices, transient audio encoding mode, and spatial M.D. At step 505, process 500 determines the final fine table index based on the six parameters described above. In an embodiment, the audio spatial encoding mode selection at step 504 is based on the residual channel level indicator in the spatial MD. The spatial audio encoding mode indicates either an MR encoding mode, in which the middle or W channel representation (M' or W') is accompanied by one or more residual channels in the downmixed audio signal, or an FP encoding mode, in which only the average or W channel representation (M' or W') is present in the downmixed audio signal. In an embodiment, the transient audio encoding mode is set to 1 if the spatial audio encoding mode in the previous frame includes residual channel encoding while the current frame requires only M' or W' channel encoding. Otherwise, the transient audio encoding mode is set to 0. If the number of residual channels to be encoded differs between the current frame and the previous frame, the transient audio encoding mode is set to 1.

Вычисление приоритета монокодека и пространственных MDMono codec priority and spatial MD calculations

[0084] На этапе 506, процесс 500 определяет приоритет монокодека/пространственных MD на основе свойств входных аудиосигналов, извлеченных на этапе 1, и ковариационных оценок в полосе средних частот или в полосе частот W-Y, W-X, W-Z-канала, или в полосе частот W-Y, W-X, W-Z-канала. В варианте осуществления, предусмотрено четыре возможных результата в отношении приоритета: высокий приоритет монокодека и низкий приоритет пространственных MD, низкий приоритет монокодека и высокий приоритет пространственных MD, высокий приоритет монокодека и высокий приоритет пространственных MD; и низкий приоритет монокодека и низкий приоритет пространственных MD.[0084] At step 506, process 500 determines mono codec/spatial MD priority based on properties of the input audio signals extracted in step 1 and covariance estimates in the midband or W-Y, W-X, W-Z channel, or W-Y frequency bands , W-X, W-Z channel. In an embodiment, there are four possible priority outcomes: high mono codec priority and low priority spatial MDs, low mono codec priority and high priority spatial MDs, high mono codec priority and high priority spatial MDs; and low priority mono codec and low priority spatial MD.

Извлечение связанных со скоростью передачи битов монокодека переменных из таблицыRetrieving Mono Codec Bit Rate Related Variables from a Table

[0085] На этапе 507, следующие параметры считываются из записи таблицы, на которую указывает конечный табличный индекс, вычисленный на этапе 505: целевая скорость передачи битов монокодека (EVS), отношение скоростей передачи битов, минимальная скорость передачи битов EVS и шаги отклонения скорости передачи битов EVS. Фактическая скорость передачи битов монокодека (EVS) может быть выше или ниже целевой скорости передачи битов монокодека (EVS), указываемой в таблице управления BR-распределением, в зависимости от приоритета монокодека/пространственных MD, определенного на этапе 506, и скорости передачи битов пространственных MD с различными уровнями квантования. Отношение скоростей передачи битов указывает отношение, с которым полная скорость передачи битов EVS должна распределяться между каналами передачи входных аудиосигналов. Минимальная скорость передачи битов EVS представляет собой значение, ниже которого не разрешается снижение полной скорости передачи битов EVS. Шаги отклонения скорости передачи битов EVS представляют собой шаги уменьшения целевой скорости передачи битов EVS, когда приоритет EVS выше или равен либо ниже приоритета пространственных MD.[0085] At step 507, the following parameters are read from the table entry pointed to by the final table index calculated at step 505: target mono codec bit rate (EVS), bit rate ratio, minimum EVS bit rate, and bit rate deviation steps EVS bits. The actual mono codec bit rate (EVS) may be higher or lower than the target mono codec bit rate (EVS) indicated in the BR allocation control table, depending on the mono codec/spatial MD priority determined at step 506 and the spatial MD bit rate with different quantization levels. The bit rate ratio indicates the ratio with which the full EVS bit rate should be distributed among the input audio signal transmission channels. The minimum EVS bit rate is a value below which the full EVS bit rate is not permitted to be reduced. EVS bit rate deviation steps are steps to reduce the target EVS bit rate when the EVS priority is higher than or equal to or lower than the priority of the spatial MDs.

Вычисление наилучшей скорости передачи битов EVS и уровня квантования метаданных на основе входных параметровCalculate the best EVS bit rate and metadata quantization level based on input parameters

[0086] На этапе 508, оптимальная скорость передачи битов EVS и стратегия квантования метаданных вычисляется на основе входных параметров, полученных на этапах 501-503, согласно следующим подэтапам. Высокая скорость передачи битов для каналов понижающего микширования и стратегия приблизительного квантования могут приводить к пространственным проблемам, в то время как стратегия точного квантования и низкая скорость передачи битов аудиоканала понижающего микширования могут приводить к артефактам кодирования монокодека. «Оптимальный» при использовании в данном документе представляет собой наиболее сбалансированное распределение скорости передачи битов IVAS между скоростью передачи битов EVS и уровнем квантования метаданных при использовании всех доступных битов в бюджете по скорости передачи битов IVAS или по меньшей мере значительном уменьшении потерь битов.[0086] At step 508, the optimal EVS bit rate and metadata quantization strategy is calculated based on the input parameters obtained in steps 501-503, according to the following sub-steps. The high bit rate of the downmix channels and coarse quantization strategy can lead to spatial problems, while the fine quantization strategy and low bit rate of the downmix audio channel can lead to mono codec encoding artifacts. "Optimal" as used herein represents the most balanced allocation of IVAS bitrate between the EVS bitrate and the metadata quantization level while using all available bits in the IVAS bitrate budget or at least significantly reducing bit loss.

[0087] Этап 508.1: Квантование метаданных с самым точным уровнем квантования и проверка условия 508.a (показано ниже). Если условие 508.a является истинным, то выполнение этапа 508.b (показано ниже). В противном случае, переход к этапу 508.2 или 508.3, или 508.4, на основе приоритетов, вычисленных на этапе 503.[0087] Step 508.1: Quantize the metadata to the finest quantization level and test condition 508.a (shown below). If condition 508.a is true, then execute step 508.b (shown below). Otherwise, proceed to step 508.2 or 508.3 or 508.4 based on the priorities calculated in step 503.

[0088] Этап 508.2: Если приоритет EVS является высоким, и приоритет пространственных MD является низким, то уменьшение уровня квантования пространственных MD и проверка условия 508.a. Если условие 508.a является истинным, то выполнение этапа 508.b. В противном случае, уменьшение целевой скорости передачи битов EVS на основе этапа 507 (шагов отклонения скорости передачи битов EVS) и проверка условия 508.a. Если условие 508.a является истинным, то выполнение этапа 508.b, иначе повторение этапа 508.2.[0088] Step 508.2: If the EVS priority is high and the spatial MD priority is low, then reduce the spatial MD quantization level and check condition 508.a. If condition 508.a is true, then execute step 508.b. Otherwise, reducing the target EVS bit rate based on step 507 (EVS bit rate deviation steps) and checking condition 508.a. If condition 508.a is true, then execute step 508.b, otherwise repeat step 508.2.

[0089] Этап 508.3: Если приоритет EVS является низким, и приоритет пространственных MD является высоким, то уменьшение целевой скорости передачи битов EVS на основе этапа 507 (шагов отклонения скорости передачи битов EVS) и проверка условия 508.a. Если условие 508.a является истинным, то выполнение этапа 508.b. В противном случае, уменьшение уровня квантования пространственных MD и проверка условия 508.a. Если условие 508.a является истинным, то выполнение этапа 508.b. В противном случае, повторение этапа 508.3.[0089] Step 508.3: If the EVS priority is low and the spatial MD priority is high, then reduce the target EVS bitrate based on step 507 (EVS bitrate rejection steps) and check condition 508.a. If condition 508.a is true, then execute step 508.b. Otherwise, reduce the spatial MD quantization level and check condition 508.a. If condition 508.a is true, then execute step 508.b. Otherwise, repeat step 508.3.

[0090] Этап 508.4: Если приоритет EVS равен приоритету пространственных MD, то уменьшение целевой скорости передачи битов EVS на основе этапа 507 (шагов отклонения скорости передачи битов EVS) и проверка условия 508.a. Если условие 508.a является истинным, то выполнение этапа 508.b. В противном случае, уменьшение уровня квантования пространственных метаданных и проверка условия 508.a. Если условие 508.a является истинным, то выполнение этапа 508.b, иначе повторение этапа 5.4.[0090] Step 508.4: If the EVS priority is equal to the priority of the spatial MDs, then reduce the target EVS bitrate based on step 507 (EVS bitrate rejection steps) and check condition 508.a. If condition 508.a is true, then execute step 508.b. Otherwise, reduce the spatial metadata quantization level and check condition 508.a. If condition 508.a is true, then execute step 508.b, otherwise repeat step 5.4.

[0091] Условие 508.a, упомянутое выше, проверяет, является ли сумма скорости передачи в битах метаданных, целевой скорости передачи битов EVS и служебных битов меньшей или равной скорости передачи битов IVAS.[0091] Condition 508.a mentioned above checks whether the sum of the metadata bit rate, the target EVS bit rate, and overhead bits is less than or equal to the IVAS bit rate.

[0092] Этап 508.b, упомянутый выше, вычисляет скорость передачи битов EVS как равную скорости передачи битов IVAS минус скорость передачи в битах метаданных минус служебные биты. Скорость передачи битов EVS затем распределяется между аудиоканалами понижающего микширования согласно отношению скоростей передачи битов, упомянутому на этапе 507.[0092] Step 508.b mentioned above calculates the EVS bit rate as equal to the IVAS bit rate minus the metadata bit rate minus overhead bits. The EVS bit rate is then distributed among the downmix audio channels according to the bit rate ratio mentioned in step 507.

[0093] Если минимальная целевая скорость передачи битов EVS и самый приблизительный уровень квантования не вписываются в бюджет по скорости передачи битов IVAS, то процесс 500 распределения скоростей передачи битов выполняется с более низкой полосой пропускания.[0093] If the minimum target EVS bitrate and the most approximate quantization level do not fit into the IVAS bitrate budget, then the bitrate allocation process 500 is performed at a lower bandwidth.

[0094] В варианте осуществления, табличный индекс и информация уровня квантования метаданных включаются в служебные биты битового потока IVAS, отправленного в декодер IVAS. Декодер IVAS считывает табличный индекс и уровень квантования метаданных из служебных битов в битовом потоке IVAS и декодирует пространственные MD. Это оставляет для декодера IVAS только обработку битов EVS в битовом потоке IVS. Биты EVS разделяются между каналами передачи входных аудиосигналов согласно отношению, указываемому табличным индексом (этап 508.b). Затем каждый экземпляр декодера EVS вызывается с соответствующими битами, что приводит к восстановлению аудиоканалов понижающего микширования.[0094] In an embodiment, table index and metadata quantization level information are included in the overhead bits of the IVAS bitstream sent to the IVAS decoder. The IVAS decoder reads the table index and metadata quantization level from the overhead bits in the IVAS bitstream and decodes the spatial MD. This leaves the IVAS decoder to only process the EVS bits in the IVS bitstream. The EVS bits are divided among the input audio transmission channels according to the ratio indicated by the table index (step 508.b). Each instance of the EVS decoder is then called with the appropriate bits, resulting in the reconstruction of the downmix audio channels.

Примерная таблица управления распределением скоростей передачи битов IVASExample IVAS Bit Rate Allocation Control Table

[0095] Ниже приводится примерная таблица управления распределением скоростей передачи битов IVAS (таблица II). Следующие параметры, показанные в таблице II, имеют значения, указанные ниже:[0095] The following is an example IVAS bit rate distribution control table (Table II). The following parameters shown in Table II have the meanings given below:

[0096] Входной формат: стерео - 1, плоский FoA - 2, FoA - 3[0096] Input Format: Stereo - 1, Flat FoA - 2, FoA - 3

[0097] BW: NB - 0, WB - 1, SWB - 2, FB - 3[0097] BW: NB - 0, WB - 1, SWB - 2, FB - 3

[0098] Разрешенное инструментальное средство пространственного кодирования: FP - 1, MR - 2[0098] Enabled spatial coding tool: FP - 1, MR - 2

[0099] Переходный режим: 1 → MR/FP-переход, 0 → иначе[0099] Transition mode: 1 → MR/FP transition, 0 → otherwise

[00100] Обратно совместимый режим для понижающего мономикширования: 1 → если средний канал должен быть совместимым с 3GPP EVS, 0 → иначе.[00100] Backward compatible mode for mono downmix: 1 → if the middle channel should be 3GPP EVS compliant, 0 → otherwise.

Таблица II. Примерная таблица распределения скоростей передачи битов IVASTable II. Sample IVAS bit rate distribution table

IVAS BR (Кбит/с)IVAS BR (Kbit/s) Входной форматInput Format BWB.W. Режим пространственного кодирования аудиоAudio Spatial Mode Переходный режимTransitional mode Обратно совместимый режим для понижающего мономикшированияBackward compatible mode for mono downmixing Целевая EVS BR (бит/
с)Target EVS BR (bits/
With) Отношение BRBR ratio Минимальная EVS BR (бит/
с)Minimum EVS BR (bits/
With) Шаги отклонения EVS BR (бит/
с)EVS BR deviation steps (bits/
With) 16.416.4 11 11 11 00 00 1140011400 (1, 0)(10) 90009000 (200, 400, 800)(200, 400, 800) 16.416.4 11 22 11 00 00 1140011400 (1, 0)(10) 90009000 (200, 400, 800)(200, 400, 800) 16.416.4 11 22 11 00 11 96009600 (1, 0)(10) 96009600 (0, 0, 0)(0, 0, 0) 24.424.4 11 11 11 00 00 1920019200 (1, 0)(10) 1640016400 (200, 400, 800)(200, 400, 800) 24.424.4 11 11 22 00 00 1920019200 (3, 2)(3, 2) 1640016400 (50, 100, 200)(50, 100, 200) 24.424.4 11 11 11 11 00 1920019200 (3, 2)(3, 2) 1640016400 (50, 100, 200)(50, 100, 200) 24.424.4 22 11 11 00 00 1640016400 (1, 0, 0)(100) 1320013200 (200, 400, 800)(200, 400, 800) 24.424.4 11 22 11 00 00 1920019200 (1, 0)(10) 1640016400 (200, 400, 800)(200, 400, 800) 24.424.4 11 22 22 00 00 1920019200 (3, 2)(3, 2) 1640016400 (50, 100, 200)(50, 100, 200) 24.424.4 11 22 11 11 00 1920019200 (3, 2)(3, 2) 1640016400 (50, 100, 200)(50, 100, 200) 24.424.4 11 22 22 00 11 1920019200 (1, 1)(eleven) 1920019200 (0, 0, 0)(0, 0, 0) 24.424.4 22 22 11 00 00 1640016400 (1, 0, 0)(100) 1320013200 (200, 400, 800)(200, 400, 800) 24.424.4 22 22 11 00 11 1320013200 (1, 0, 0)(100) 1320013200 (0, 0, 0)(0, 0, 0) 24.424.4 11 33 11 00 00 1920019200 (1, 0)(10) 1640016400 (200, 400, 800)(200, 400, 800) 3232 11 11 22 00 00 2800028000 (3, 2)(3, 2) 2440024400 (50, 100, 200)(50, 100, 200) 3232 22 11 11 00 00 2320023200 (1, 0, 0)(100) 1920019200 (400, 800, 1200)(400, 800, 1200) 3232 33 11 11 00 00 2080020800 (1, 0, 0, 0)(1, 0, 0, 0) 1640016400 (400, 800, 1200)(400, 800, 1200) 3232 11 22 11 00 00 2800028000 (1, 0)(10) 2440024400 (400, 800, 1200)(400, 800, 1200) 3232 11 22 22 00 00 2800028000 (3, 2)(3, 2) 2440024400 (50, 100, 200)(50, 100, 200) 3232 11 22 22 00 11 2600026000 (41, 24)(41, 24) 2600026000 (0, 0, 0)(0, 0, 0) 3232 11 22 11 11 00 2800028000 (3, 2)(3, 2) 2440024400 (50, 100, 200)(50, 100, 200) 3232 22 22 11 00 00 2660026600 (1, 0, 0)(100) 2520025200 (400, 800, 1200)(400, 800, 1200) 3232 22 22 22 00 00 2660026600 (3, 2, 2)(3, 2, 2) 2520025200 (50, 100, 200)(50, 100, 200) 3232 22 22 11 00 11 1640016400 (1, 0, 0)(100) 1640016400 (0, 0, 0)(0, 0, 0) 3232 22 22 11 11 00 2660026600 (3, 2, 2)(3, 2, 2) 2520025200 (50, 100, 200)(50, 100, 200) 3232 33 22 11 00 00 2080020800 (1, 0, 0, 0)(1, 0, 0, 0) 1640016400 (400, 800, 1200)(400, 800, 1200) 3232 11 33 11 00 00 2600026000 (1, 0)(10) 2320023200 (400, 800, 1200)(400, 800, 1200) 3232 22 33 11 00 00 2640026400 (1, 0, 0)(100) 2320023200 (400, 800, 1200)(400, 800, 1200) 4848 11 11 22 00 00 4400044000 (3, 2)(3, 2) 4000040000 (100, 200, 400)(100, 200, 400) 4848 22 11 22 00 00 4000040000 (3, 2, 2)(3, 2, 2) 3600036000 (100, 200, 400)(100, 200, 400) 4848 33 11 22 00 00 3960039600 (3, 2, 2, 2)(3, 2, 2, 2) 3420034200 (100, 200, 300)(100, 200, 300) 4848 11 22 22 00 00 4400044000 (3, 2)(3, 2) 4000040000 (100, 200, 400)(100, 200, 400) 4848 11 22 22 00 11 4080040800 (61, 41)(61, 41) 4080040800 (0, 0, 0)(0, 0, 0) 4848 22 22 22 00 00 4000040000 (3, 2, 2)(3, 2, 2) 3600036000 (100, 200, 400)(100, 200, 400) 4848 22 22 22 00 11 3560035600 (41, 24, 24)(41, 24, 24) 3560035600 (0, 0, 0)(0, 0, 0) 4848 33 22 11 00 00 3400034000 (1, 0, 0, 0)(1, 0, 0, 0) 3000030000 (600, 1000, 1600)(600, 1000, 1600) 4848 33 22 11 00 11 2440024400 (1, 0, 0, 0)(1, 0, 0, 0) 2440024400 (0, 0, 0)(0, 0, 0) 4848 11 33 11 00 00 4400044000 (1, 0)(10) 4000040000 (600, 1000, 1600)(600, 1000, 1600) 4848 11 33 22 00 00 4400044000 (3, 2)(3, 2) 4000040000 (100, 200, 400)(100, 200, 400) 4848 11 33 11 11 00 4400044000 (3, 2)(3, 2) 4000040000 (100, 200, 400)(100, 200, 400) 4848 22 33 11 00 00 3920039200 (1, 0, 0)(100) 3520035200 (600, 1000, 1600)(600, 1000, 1600) 4848 33 33 11 00 00 3400034000 (1, 0, 0, 0)(1, 0, 0, 0) 3000030000 (600, 1000, 1600)(600, 1000, 1600) 6464 11 11 22 00 00 6000060000 (3, 2)(3, 2) 5600056000 (100, 200, 400)(100, 200, 400) 6464 22 11 22 00 00 5740057400 (3, 2, 2)(3, 2, 2) 5250052500 (100, 200, 400)(100, 200, 400) 6464 33 11 22 00 00 5200052000 (3, 2, 2, 2)(3, 2, 2, 2) 4500045000 (100, 200, 300)(100, 200, 300) 6464 11 22 22 00 00 6000060000 (3, 2)(3, 2) 5600056000 (100, 200, 400)(100, 200, 400) 6464 11 22 22 00 11 4880048800 (1, 1)(eleven) 4880048800 (0, 0, 0)(0, 0, 0) 6464 22 22 22 00 00 5740057400 (3, 2, 2)(3, 2, 2) 5220052200 (100, 200, 400)(100, 200, 400) 6464 22 22 22 00 11 5080050800 (61, 33, 33)(61, 33, 33) 5080050800 (0, 0, 0)(0, 0, 0) 6464 33 22 22 00 00 5200052000 (3, 2, 2, 2)(3, 2, 2, 2) 4500045000 (100, 200, 300)(100, 200, 300) 6464 33 22 22 00 11 4520045200 (41, 24, 24, 24)(41, 24, 24, 24) 4520045200 (0, 0, 0)(0, 0, 0) 6464 11 33 22 00 00 6000060000 (3, 2)(3, 2) 5600056000 (100, 200, 400)(100, 200, 400) 6464 22 33 11 00 00 5740057400 (1, 0, 0)(100) 5250052500 (800, 1200, 2000)(800, 1200, 2000) 6464 22 33 22 00 00 5740057400 (3, 2, 2)(3, 2, 2) 5250052500 (100, 200, 400)(100, 200, 400) 6464 22 33 11 11 00 5740057400 (3, 2, 2)(3, 2, 2) 5250052500 (100, 200, 400)(100, 200, 400) 6464 33 33 11 00 00 4800048000 (1, 0, 0, 0)(1, 0, 0, 0) 4000040000 (800, 1200, 2000)(800, 1200, 2000) 9696 11 11 22 00 00 9000090000 (3, 2)(3, 2) 8600086000 (200, 400, 600)(200, 400, 600) 9696 22 11 22 00 00 8600086000 (3, 2, 2)(3, 2, 2) 7800078000 (200, 300, 400)(200, 300, 400) 9696 33 11 22 00 00 8400084000 (3, 2, 2, 2)(3, 2, 2, 2) 7600076000 (100, 200, 300)(100, 200, 300) 9696 11 22 22 00 00 9000090000 (3, 2)(3, 2) 8600086000 (200, 400, 600)(200, 400, 600) 9696 11 22 22 00 11 8800088000 (6, 5)(6, 5) 8800088000 (0, 0, 0)(0, 0, 0) 9696 22 22 22 00 00 8600086000 (3, 2, 2)(3, 2, 2) 7800078000 (200, 300, 400)(200, 300, 400) 9696 22 22 22 00 11 8080080800 (80, 61, 61)(80, 61, 61) 8080080800 (0, 0, 0)(0, 0, 0) 9696 33 22 22 00 00 8400084000 (3, 2, 2, 2)(3, 2, 2, 2) 7600076000 (100, 200, 300)(100, 200, 300) 9696 33 22 22 00 11 8120081200 (80, 41, 41, 41)(80, 41, 41, 41) 8120081200 (0, 0, 0)(0, 0, 0) 9696 11 33 22 00 00 9000090000 (3, 2)(3, 2) 8600086000 (200, 400, 600)(200, 400, 600) 9696 22 33 22 00 00 8600086000 (3, 2, 2)(3, 2, 2) 7800078000 (200, 300, 400)(200, 300, 400) 9696 33 33 11 00 00 8400084000 (1, 0, 0, 0)(1, 0, 0, 0) 7600076000 (1000, 2000, 3000)(1000, 2000, 3000) 9696 33 33 22 00 00 8400084000 (3, 2, 2, 2)(3, 2, 2, 2) 7600076000 (100, 200, 300)(100, 200, 300) 9696 33 33 11 11 00 8400084000 (3, 2, 2, 2)(3, 2, 2, 2) 7600076000 (100, 200, 300)(100, 200, 300) 128128 11 11 22 00 00 122000122000 (3, 2)(3, 2) 118000118000 (200, 400, 600)(200, 400, 600) 128128 22 11 22 00 00 118000118000 (3, 2, 2)(3, 2, 2) 110000110000 (200, 300, 400)(200, 300, 400) 128128 33 11 22 00 00 116000116000 (3, 2, 2, 2)(3, 2, 2, 2) 108000108000 (100, 200, 300)(100, 200, 300) 128128 11 22 22 00 00 122000122000 (3, 2)(3, 2) 118000118000 (200, 400, 600)(200, 400, 600) 128128 22 22 22 00 00 118000118000 (3, 2, 2)(3, 2, 2) 110000110000 (200, 300, 400)(200, 300, 400) 128128 33 22 22 00 00 116000116000 (3, 2, 2, 2)(3, 2, 2, 2) 108000108000 (100, 200, 300)(100, 200, 300) 128128 11 33 22 00 00 122000122000 (3, 2)(3, 2) 118000118000 (200, 400, 600)(200, 400, 600) 128128 22 33 22 00 00 118000118000 (3, 2, 2)(3, 2, 2) 110000110000 (200, 300, 400)(200, 300, 400) 128128 33 33 22 00 00 116000116000 (3, 2, 2, 2)(3, 2, 2, 2) 108000108000 (100, 200, 300)(100, 200, 300) 256256 11 11 22 00 00 248000248000 (3, 2)(3, 2) 244000244000 (400, 800, 1000)(400, 800, 1000) 256256 22 11 22 00 00 244000244000 (3, 2, 2)(3, 2, 2) 236000236000 (300, 500, 800)(300, 500, 800) 256256 33 11 22 00 00 240000240000 (3, 2, 2, 2)(3, 2, 2, 2) 232000232000 (300, 400, 600)(300, 400, 600) 256256 11 22 22 00 00 248000248000 (3, 2)(3, 2) 244000244000 (400, 800, 1000)(400, 800, 1000) 256256 22 22 22 00 00 244000244000 (3, 2, 2)(3, 2, 2) 236000236000 (300, 500, 800)(300, 500, 800) 256256 33 22 22 00 00 240000240000 (3, 2, 2, 2)(3, 2, 2, 2) 232000232000 (300, 400, 600)(300, 400, 600) 256256 11 33 22 00 00 248000248000 (3, 2)(3, 2) 244000244000 (400, 800, 1000)(400, 800, 1000) 256256 22 33 22 00 00 244000244000 (3, 2, 2)(3, 2, 2) 236000236000 (300, 500, 800)(300, 500, 800) 256256 33 33 22 00 00 240000240000 (3, 2, 2, 2)(3, 2, 2, 2) 232000232000 (300, 400, 600)(300, 400, 600)

[00101] Также на фиг. 5A показан битовый поток IVAS. В варианте осуществления, битовый поток IVAS включает в себя общий заголовок (CH) 509 IVAS фиксированной длины и общий заголовок 510 инструментального средства (CTH) переменной длины. В варианте осуществления, длина в битах секции CTH вычисляется на основе числа записей, соответствующего данной скорости передачи битов IVAS в таблице управления распределением скоростей передачи битов IVAS. Относительный табличный индекс (смещение от первого индекса для этой скорости передачи битов IVAS в таблице) сохраняется в секции CTH. При работе в обратно совместимом режиме для понижающего мономикширования, после CTH 510 следуют рабочие данные 511 EVS, после которых следуют рабочие данные 513 пространственных MD. При работе в режиме IVAS, после CTH 510 следуют рабочие данные 512 пространственных MD, после которых следуют рабочие данные 514 EVS. В других вариантах осуществления порядок может быть другим.[00101] Also in FIG. 5A shows the IVAS bitstream. In an embodiment, the IVAS bitstream includes a fixed length IVAS common header (CH) 509 and a variable length common tool header (CTH) 510. In an embodiment, the bit length of the CTH section is calculated based on the number of entries corresponding to a given IVAS bit rate in the IVAS bit rate allocation control table. The relative table index (the offset from the first index for that IVAS bit rate in the table) is stored in the CTH section. When operating in backward compatible mode for mono downmixing, CTH 510 is followed by EVS work data 511, followed by spatial MD work data 513. When operating in IVAS mode, CTH 510 is followed by spatial MD operating data 512, followed by EVS operating data 514. In other embodiments, the order may be different.

Примерные процессыSample Processes

[00102] Примерный процесс распределения скоростей передачи битов может выполняться кодеком IVAS либо системы кодирования/декодирования, включающей в себя один или более процессоров, выполняющих инструкции, сохраненные на постоянном машиночитаемом носителе данных.[00102] An exemplary bit rate distribution process may be performed by an IVAS codec or an encoding/decoding system including one or more processors executing instructions stored on a non-transitory computer readable storage medium.

[00103] В варианте осуществления, система кодирования аудио принимает аудиоввод и метаданные. Система определяет, на основе аудиоввода, метаданных и параметров кодека IVAS, используемого при кодировании аудиоввода, один или более индексов таблицы управления распределением скоростей передачи битов, причем параметры включают в себя скорость передачи битов IVAS, входной формат и монорежим обратной совместимости, причем один или более индексов включают в себя режим пространственного кодирования аудио и полосу пропускания аудиоввода.[00103] In an embodiment, the audio encoding system receives audio input and metadata. The system determines, based on the audio input, metadata, and parameters of the IVAS codec used in encoding the audio input, one or more bitrate distribution control table indexes, the parameters including an IVAS bitrate, an input format, and a backwards compatibility mono mode, wherein one or more The indices include the audio spatial encoding mode and the audio input bandwidth.

[00104] Система выполняет поиск в таблице управления распределением скоростей передачи битов на основе скорости передачи битов IVAS, входного формата, режима пространственного кодирования аудио и одного или более индексов, причем поиск идентифицирует запись в таблице управления распределением скоростей передачи битов, причем запись включает в себя целевую скорость передачи битов EVS, отношение скоростей передачи битов, минимальную скорость передачи битов EVS и представление шагов отклонения скорости передачи битов EVS.[00104] The system searches the bit rate distribution control table based on the IVAS bit rate, the input format, the audio spatial coding mode, and one or more indexes, the search identifying an entry in the bit rate distribution control table, the entry including target EVS bit rate, bit rate ratio, minimum EVS bit rate, and representation of EVS bit rate deviation steps.

[00105] Система передаёт идентифицированную запись в процесс вычисления скорости передачи битов, который программируется с возможностью определения скоростей передачи битов аудиовводов (например, каналов понижающего микширования), скорость передачи битов метаданных и уровни квантования метаданных. Система обеспечивает скорости передачи битов каналов понижающего микширования и по меньшей мере одно из скорости передачи битов метаданных или уровней квантования метаданных в нисходящее устройство IVAS.[00105] The system passes the identified recording to a bit rate calculation process, which is programmed to determine the bit rates of audio inputs (eg, downmix channels), metadata bit rates, and metadata quantization levels. The system provides downmix channel bit rates and at least one of metadata bit rates or metadata quantization levels to the downstream IVAS device.

[00106] В некоторых реализациях, система может извлекать свойства из аудиоввода, причем свойства включают в себя индикатор того, является ли аудиоввод речью или музыкой, и полосу пропускания аудиоввода. Система определяет, на основе свойств, приоритет между скоростью передачи битов каналов понижающего микширования и скоростью передачи битов метаданных. Система обеспечивает приоритет в процесс вычисления скорости передачи битов.[00106] In some implementations, the system may extract properties from the audio input, where the properties include an indicator of whether the audio input is speech or music and the bandwidth of the audio input. The system determines, based on properties, the priority between the bit rate of the downmix channels and the metadata bit rate. The system provides priority to the bit rate calculation process.

[00107] В некоторых реализациях, система извлекает один или более параметров, включающих в себя остаточный уровень (ошибки прогнозирования боковых каналов), из пространственных MD. Система определяет, на основе параметров, режим пространственного кодирования аудио, который указывает необходимость одного или более остаточных каналов в битовом потоке IVAS. Система обеспечивает режим пространственного кодирования аудио в процесс вычисления скорости передачи битов.[00107] In some implementations, the system extracts one or more parameters including the residual level (side channel prediction errors) from the spatial MDs. The system determines, based on the parameters, an audio spatial coding mode that indicates the need for one or more residual channels in the IVAS bitstream. The system provides a spatial audio encoding mode into the bit rate calculation process.

[00108] В некоторых реализациях, табличный индекс управления распределением скоростей передачи битов сохраняется в общем заголовке инструментального средства (CTH) битового потока IVAS.[00108] In some implementations, the bit rate distribution control table index is stored in the common tool header (CTH) of the IVAS bitstream.

[00109] Система для декодирования аудио выполнена с возможностью приёма битового потока IVAS. Система определяет, на основе битового потока IVAS, скорость передачи битов IVAS и табличные индексы управления распределением скоростей передачи битов. Система выполняет поиск в таблице управления распределением скоростей передачи битов на основе табличных индексов и извлекает входной формат, режим пространственного кодирования, монорежим обратной совместимости и один или более индексов, целевую скорость передачи битов EVS и отношение скоростей передачи битов. Система извлекает и декодирует аудиобиты понижающего микширования в расчете на канал понижающего микширования и биты пространственных MD. Система передаёт извлеченные биты сигнала понижающего микширования и биты пространственных MD в нисходящее устройство IVAS. Нисходящее устройство IVAS может представлять собой устройство аудиообработки или устройство хранения данных.[00109] The audio decoding system is configured to receive the IVAS bitstream. The system determines, based on the IVAS bit stream, the IVAS bit rate and the bit rate distribution control table indexes. The system searches the bit rate distribution control table based on the table indexes and retrieves the input format, spatial encoding mode, backward compatibility mono mode and one or more indexes, the target EVS bit rate and the bit rate ratio. The system extracts and decodes downmix audio bits per downmix channel and spatial MD bits. The system transmits the extracted downmix signal bits and spatial MD bits to the downstream IVAS device. The downstream IVAS device may be an audio processing device or a data storage device.

Процесс распределения скоростей передачи битов FoA SPARFoA SPAR Bit Rate Allocation Process

[00110] В варианте осуществления, процесс распределения скоростей передачи битов, описанный выше для входных стереосигналов, также может модифицироваться и применяться к распределению скоростей передачи битов FoA SPAR с использованием таблицы управления распределением скоростей передачи битов FoA SPAR, показанной ниже. Определения для терминов, включенных в таблицу, приведены ниже, чтобы помочь читателям, в соответствии с таблицей управления распределением скоростей передачи битов FoA SPAR.[00110] In an embodiment, the bit rate distribution process described above for stereo input signals can also be modified and applied to the FoA SPAR bit rate distribution using the FoA SPAR bit rate distribution control table shown below. Definitions for the terms included in the table are provided below to assist readers, in accordance with the FoA SPAR Bit Rate Allocation Control table.

- Целевое число битов метаданных (MDtar)=IVAS_bits-header_bits-evs_target_bits (EVStar)- Target number of metadata bits (MDtar)=IVAS_bits-header_bits-evs_target_bits (EVStar)

- Максимальное число битов метаданных (MDmax)=IVAS_bits-header_bits-evs_minimum_bits (EVSmin)- Maximum number of metadata bits (MDmax)=IVAS_bits-header_bits-evs_minimum_bits (EVSmin)

- Целевое число битов метаданных всегда должно быть меньше "MDmax".- The target number of metadata bits should always be less than "MDmax".

Таблица III. Примерная таблица управления распределением скоростей передачи битов FoA SPARTable III. Example FoA SPAR Bit Rate Allocation Control Table

IVAS BR (Кбит/с)IVAS BR (Kbit/s) BW B.W. N_dmxN_dmx Строка повторного микшированияRemix line Активный WActive W Комплексный флагComplex flag переходный режим с dmx-переключением (заполнитель)transient mode with dmx switching (filler) (Целевая, минимальная, максимальная) EVS BR (Кбит/с) (Target, Min, Max) EVS BR (Kbps) Уровни квантования MD
Целевой
Восстановление 1 после сбоя
Восстановление 2 после сбоя
(Обозначение: [PR, C, P_d, P_o])MD Quantization Levels
Target
Recovery 1 after a failure
Recovery 2 after a failure
(Notation: [PR, C, P_d, P_o]) Приглушение TD-декоррелятораMuting the TD Decorrelator (Целевая, максимальная) MD BR (Кбит/с)(Target, maximum) MD BR (Kbps) MD BR (Кбит/с) по принципу наихудшего случая для восстановления 2 после сбоя с кодированием по основанию 2; кодирование для действительных коэффициентов, включающих в себя заголовок в 0,4 Кбит/сMD BR (Kbit/s) worst case for recovery 2 with radix 2 encoding; encoding for real coefficients including 0.4 Kbps header 3232 33 11 WYXZWYXZ 11 00 00 W':
(24, 20.45, 31.95)W':
(24, 20.45, 31.95) T: [21,1,5,1]
F1: [15,1,5,1]
F2: [15,1,3,1]T: [21,1,5,1]
F1: [15,1,5,1]
F2: [15,1,3,1] 00 (8, 11.55)(8, 11.55) 11.211.2 6464 33 22 WYXZWYXZ 00 00 00 W:(38, 34.05, 56)
Y': (16, 15.60, 20.40)W:(38, 34.05, 56)
Y': (16, 15.60, 20.40) T: [21,7,5,1]
F1: [15,7,5,1]
F2: [15,7,3,1]T: [21,7,5,1]
F1: [15,7,5,1]
F2: [15,7,3,1] 11 (10, 14.35)(10, 14.35) 13.613.6 9696 33 33 WYXZWYXZ 00 00 00 W: (47, 42.60, 56)
Y': (23, 22.6, 31.95;
X': (16, 15.60, 20.4)W: (47, 42.60, 56)
Y': (23, 22.6, 31.95;
X': (16, 15.60, 20.4) T: [21,9,9,1]
F1: [21,7,5,1]
F2: [21,7,5,1]T: [21,9,9,1]
F1: [21,7,5,1]
F2: [21,7,5,1] 11 (10, 15.2)(10, 15.2) 14.814.8 160160 33 33 WYXZWYXZ 00 00 00 W: (74, 70.9, 112)
Y': (41, 40.05, 56)
X': (35, 34.05, 56)W: (74, 70.9, 112)
Y': (41, 40.05, 56)
X': (35, 34.05, 56) T: [21,11,11,1]
F1: [21,9,9,1]
F2: [21,7,7,1]T: [21,11,11,1]
F1: [21,9,9,1]
F2: [21,7,7,1] 11 (10, 15)(10, 15) 14.814.8 256256 33 44 WYXZWYXZ 00 00 00 W: (90, 90, 112)
Y': (70, 70, 112)
X': (50, 50, 56)
Z': (36.6, 36.6, 56)W: (90, 90, 112)
Y': (70, 70, 112)
X': (50, 50, 56)
Z': (36.6, 36.6, 56) T: [31,1,1,1]
F1: [31,1,1,1]
F2: [31,1,1,1]T: [31,1,1,1]
F1: [31,1,1,1]
F2: [31,1,1,1] 11 (9.0, 9.4)(9.0, 9.4) 9.49.4

[00111] Некоторые примерные вычисления максимальных скоростей передачи битов MD (действительные коэффициенты) показаны в нижеприведенной таблице IV.[00111] Some example calculations of maximum MD bit rates (actual coefficients) are shown in Table IV below.

Таблица IV. Вычисления максимальных скоростей передачи битов MD (действительные коэффициенты)Table IV. Calculations of maximum MD bit rates (real coefficients)

N_dmxN_dmx Число пространственных параметровNumber of spatial parameters Уровни квантования → битыQuantization levels → bits Вычисление: Число параметров*биты*50Calculation: Number of parameters*bits*50 Максимальная BR (бит/с)Maximum BR (bit/s) PRPR CC P_dP_d P_oP_o 11 3636 00 3636 3636 [15,1,3,1] → (4,0,2,0)[15,1,3,1] → (4,0,2,0) (4*36+0+2*36+0)*50(4*36+0+2*36+0)*50 1080010800 22 3636 2424 2424 1212 [15,7,3,1] → (4,3,2,0)[15,7,3,1] → (4,3,2,0) (4*36+3*24+2*24+0)*50(4*36+3*24+2*24+0)*50 1320013200 33 3636 2424 1212 00 [21,7,7,1] → (5,3,3,0)[21,7,7,1] → (5,3,3,0) (5*36+3*24+3*12+0)*50(5*36+3*24+3*12+0)*50 1440014400 44 3636 00 00 00 [31,1,1,1] → (5,0,0,0)[31,1,1,1] → (5,0,0,0) 5*36*505*36*50 90009000

Примерный контур квантования метаданныхApproximate metadata quantization outline

[00112] В варианте осуществления, контур квантования метаданных реализуется так, как описано ниже. Контур квантования метаданных включает в себя два пороговых значения (заданы выше): MDtar и MDmax.[00112] In an embodiment, the metadata quantization loop is implemented as described below. The metadata quantization loop includes two threshold values (defined above): MDtar and MDmax.

[00113] Этап 1: Для каждого кадра входного аудиосигнала, параметры MD квантуются недифференциальным во времени способом и кодируются с помощью арифметического кодера. Фактическая скорость передачи в битах метаданных (MDact) вычисляется на основе кодированных битов MD. Если MDact ниже MDtar, то этот этап рассматривается как проход, и процесс выходит из контура квантования, и биты MDact интегрируются в битовый поток IVAS. Дополнительные доступные биты (MDtar-MDact) подаются в кодер с поддержкой монокодека (EVS), чтобы увеличивать существенную скорость передачи битов аудиоканалов понижающего микширования. Большая скорость передачи битов обеспечивает возможность кодирования большего объема информации посредством монокодека, и декодированный аудиовывод должен иметь сравнительно меньшие потери.[00113] Step 1: For each frame of the input audio signal, the MD parameters are quantized in a non-differential time manner and encoded using an arithmetic encoder. The actual metadata bit rate (MDact) is calculated based on the encoded MD bits. If MDact is lower than MDtar, then this step is treated as a pass and the process exits the quantization loop and the MDact bits are integrated into the IVAS bitstream. Additional available bits (MDtar-MDact) are supplied to the encoder with mono codec support (EVS) to increase the significant bit rate of the downmix audio channels. The higher bit rate allows more information to be encoded through a mono codec, and the decoded audio output should have comparatively less loss.

[00114] Этап 2: Если этап 1 завершается неудачно, то поднабор значений параметров MD в кадре квантуется и затем вычитается из квантованных значений параметров MD в предыдущем кадре, и дифференциальное квантованное значение параметра кодируется с помощью арифметического кодера (т.е. дифференциального во времени кодирования). MDact вычисляется на основе кодированных битов MD. Если MDact ниже MDtar, то этот этап рассматривается как проход, и процесс выходит из контура квантования, и биты MDact интегрируются в битовый поток IVAS. Дополнительные доступные биты (MDtar-MDact) подаются в кодер с поддержкой монокодека (EVS), чтобы увеличивать существенную скорость передачи битов аудиоканалов понижающего микширования.[00114] Step 2: If Step 1 fails, then a subset of MD parameter values in the frame is quantized and then subtracted from the quantized MD parameter values in the previous frame, and the differential quantized parameter value is encoded using an arithmetic (i.e., time differential) encoder coding). MDact is calculated based on the encoded MD bits. If MDact is lower than MDtar, then this step is treated as a pass and the process exits the quantization loop and the MDact bits are integrated into the IVAS bitstream. Additional available bits (MDtar-MDact) are supplied to the encoder with mono codec support (EVS) to increase the significant bit rate of the downmix audio channels.

[00115] Этап 3: Если этап 2 завершается неудачно, то скорость передачи битов (MDact) квантованных параметров MD вычисляется без энтропии.[00115] Step 3: If Step 2 fails, then the bit rate (MDact) of the quantized MD parameters is calculated without entropy.

[00116] Этап 4: Значения скорости передачи битов MDact, вычисленные на этапах 1-3, сравниваются с MDmax. Если минимум скоростей передачи битов MDact, вычисленных на этапе 1, этапе 2 и этапе 3, находится в пределах MDmax, то этот этап рассматривается как проход, и процесс выходит из контура квантования, и битовый поток MD с минимальным MDact интегрируется в битовый поток IVAS. Если MDact выше MDtar, то биты (MDact-MDtar) извлекаются из кодера с поддержкой монокодека (EVS).[00116] Step 4: The MDact bit rate values calculated in steps 1-3 are compared with MDmax. If the minimum MDact bit rates calculated in stage 1, stage 2 and stage 3 are within MDmax, then this stage is treated as a pass and the process exits the quantization loop and the MD bitstream with the minimum MDact is integrated into the IVAS bitstream. If MDact is higher than MDtar, then the bits (MDact-MDtar) are extracted from the encoder with mono codec support (EVS).

[00117] Этап 5: Если этап 4 завершается неудачно, параметры квантуются более приблизительно, и вышеприведенные этапы повторяются в качестве первой стратегии восстановления после сбоя (восстановление 1 после сбоя).[00117] Step 5: If step 4 fails, the parameters are quantized more approximately and the above steps are repeated as the first failover strategy (failover 1).

[00118] Этап 6: Если этап 5 завершается неудачно, параметры квантуются с помощью схемы квантования, которая гарантированно вписывается в пределы MDmax, в качестве второй стратегии восстановления после сбоя (восстановление 2 после сбоя).[00118] Step 6: If Step 5 fails, the parameters are quantized using a quantization scheme that is guaranteed to fit within the MDmax limits as a second failover strategy (failover 2).

[00119] После всех итераций, упомянутых выше, гарантируется, что скорость передачи в битах метаданных должна вписываться в пределы MDmax, и кодер должен формировать фактические биты метаданных или MDact.[00119] After all the iterations mentioned above, it is guaranteed that the metadata bit rate must fit within the MDmax limits, and the encoder must generate the actual metadata bits or MDact.

Распределение скоростей передачи битов EVS для каналов понижающего микширования (EVSbd)EVS bit rate distribution for downmix channels (EVSbd)

[00120] В варианте осуществления, фактические биты EVS (EVSact)=IVAS_bits-header_bits-MDact. Если "EVSact" меньше "EVStar", то биты извлекаются из каналов EVS в следующем порядке: (Z, X, Y, W). Максимальное число битов, которые могут быть извлекаться из любого канала, составляет EVStar(ch) минус EVSmin(ch). Если "EVSact" больше "EVStar", то все дополнительные биты назначаются каналам понижающего микширования в следующем порядке: W, Y, X и Z. Максимальное число дополнительных битов, которые могут добавляться в любой канал, составляет EVSmax(ch)-EVStar(ch).[00120] In an embodiment, actual EVS bits (EVSact)=IVAS_bits-header_bits-MDact. If "EVSact" is less than "EVStar", then bits are extracted from the EVS channels in the following order: (Z, X, Y, W). The maximum number of bits that can be extracted from any channel is EVStar(ch) minus EVSmin(ch). If "EVSact" is greater than "EVStar", then all extra bits are assigned to the downmix channels in the following order: W, Y, X and Z. The maximum number of extra bits that can be added to any channel is EVSmax(ch)-EVStar(ch ).

Распаковка посредством декодера SPARUnpacking via SPAR decoder

[00121] В варианте осуществления, декодер SPAR распаковывает битовый поток IVAS следующим образом:[00121] In an embodiment, the SPAR decoder decompresses the IVAS bitstream as follows:

1. Получение скорости передачи битов IVAS из длины в битах и получение табличного индекса из заголовка инструментального средства (CTH) в битовом потоке IVAS.1. Obtain the IVAS bit rate from the bit length and obtain the table index from the tool header (CTH) in the IVAS bitstream.

2. Синтаксический анализ битов заголовка/метаданных в битовом потоке IVAS.2. Parse the header/metadata bits in the IVAS bitstream.

3. Синтаксический анализ и деквантование битов метаданных.3. Parsing and dequantization of metadata bits.

4. Задание "EVSact"=оставшаяся длина в битах.4. Setting "EVSact"=remaining length in bits.

5. Считывание записей таблицы, связанных с целевыми, минимальными и максимальными скоростями передачи битов EVS, и повторение этапа "EVSbd" в декодере, чтобы получать фактическую скорость передачи битов EVS для каждого канала.5. Read the table entries associated with the target, minimum and maximum EVS bit rates and repeat the "EVSbd" step in the decoder to obtain the actual EVS bit rate for each channel.

6. Декодирование каналов EVS и повышающее микширование в каналы FoA.6. Decoding EVS channels and upmixing into FoA channels.

Процесс BR-распределения для входных аудиосигналов FoA SPARBR Allocation Process for FoA SPAR Audio Inputs

[00122] Фиг. 5B и 5C являются блок-схемой процесса 515 распределения скоростей передачи битов для входных сигналов FoA SPAR, согласно варианту осуществления. Процесс 515 начинается посредством предварительной обработки 517 ввода 516 FoA (W, Y, Z, X), с тем чтобы извлекать свойства сигналов с использованием скорости передачи битов IVAS, такие как BW, данные классификации речи/музыки, VAD-данные и т.д. Процесс 515 продолжается посредством формирования пространственных MD 518 (например, коэффициентов PR, C, P) и выбора числа остаточных каналов, которые следует отправлять в декодер IVAS, на основе индикатора остаточного уровня в пространственных MD (520), и получения табличного индекса управления BR-распределением на основе скорости передачи битов IVAS, BW и числа каналов понижающего микширования (N_dmx) (521). В некоторых вариантах осуществления, коэффициенты P в пространственных MD могут служить в качестве индикатора остаточного уровня. Табличный индекс управления BR-распределением отправляется в модуль пакетирования битов IVAS (см. фиг. 4A, 4B) для включения в битовый поток IVAS, который может сохраняться и/или отправляться в декодер IVAS.[00122] FIG. 5B and 5C are a flow diagram of a process 515 for allocating bit rates for FoA SPAR input signals, according to an embodiment. Process 515 begins by preprocessing 517 the FoA (W, Y, Z, X) input 516 to extract signal properties using the IVAS bit rate, such as BW, speech/music classification data, VAD data, etc. . Process 515 continues by generating spatial MDs 518 (eg, coefficients PR, C, P) and selecting the number of residual channels to be sent to the IVAS decoder based on the residual level indicator in the spatial MDs (520), and obtaining a control table index BR- distribution based on the IVAS bit rate, BW and the number of downmix channels (N_dmx) (521). In some embodiments, P coefficients in spatial MDs may serve as an indicator of the residual level. The BR allocation control table index is sent to the IVAS bit packetizer (see FIGS. 4A, 4B) for inclusion in the IVAS bitstream, which can be stored and/or sent to the IVAS decoder.

[00123] Процесс 515 продолжается посредством считывания конфигурации SPAR из строки в таблице управления BR-распределением, на которую указывает табличный индекс (521). Как показано в вышеприведенной таблице III, конфигурация SPAR задается посредством одного или более признаков, включающих в себя, не ограничиваясь: строку понижающего микширования (повторное микширование), активный флаг W, комплексный флаг пространственных MD, стратегии квантования пространственных MD, минимальные/целевые/максимальные скорости передачи битов EVS и флаг приглушения декоррелятора во временной области.[00123] Process 515 continues by reading the SPAR configuration from the row in the BR allocation control table pointed to by the table index (521). As shown in Table III above, the SPAR configuration is specified by one or more features including, but not limited to: downmix line (remix), active W flag, complex spatial MD flag, spatial MD quantization strategies, min/target/max EVS bit rates and time domain decorrelator mute flag.

[00124] Процесс 515 продолжается посредством определения скоростей передачи битов MDmax, MDtar из скорости передачи битов IVAS, значений скорости передачи EVSmin и битов EVStar (522), как описано выше, и входа в контур квантования, который включает в себя квантование пространственных MD недифференциальным во времени способом с использованием стратегии квантования, кодирование квантованных пространственных MD с помощью энтропийного кодера (например, арифметического кодера) и вычисление MDact (523). В варианте осуществления, первая итерация контура квантования использует стратегию точного квантования.[00124] Process 515 continues by determining the bit rates MDmax, MDtar from the IVAS bit rate, EVSmin bit rate values, and EVStar bits (522) as described above, and entering a quantization loop that includes quantizing the spatial MDs non-differentially time in a manner using a quantization strategy, encoding the quantized spatial MDs using an entropy encoder (eg, an arithmetic encoder), and calculating MDact (523). In an embodiment, the first iteration of the quantization loop uses an exact quantization strategy.

[00125] Процесс 515 продолжается посредством проверки, является ли MDact меньшим или равным MDtar (524). Если MDact меньше или равен MDtar, то биты MD отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, и (MDtar-MDact) битов суммируются со скоростями передачи EVStar-битов (532) в следующем порядке: W, Y, X, Z; формируются N_dmx битовых потоков (каналов) EVS, и биты EVS отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, как описано выше. Если MDact не меньше или равен MDtar, то процесс 515 квантует пространственные MD дифференциальным во времени способом с помощью стратегии точного квантования, кодирует квантованные пространственные MD с помощью энтропийного кодера и вычисляет MDact снова (525). Если MDact меньше или равен MDtar, то биты MD отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, и (MDtar-MDact) битов суммируются со скоростями передачи битов EVStar (532) в следующем порядке: W, Y, X, Z; формируются N_dmx битовых потоков (каналов) EVS, и биты EVS отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, как описано выше. Если MDact больше MDtar, пространственные MD квантуются недифференциальным во времени способом с использованием стратегии точного квантования и энтропийно кодируются и кодируются по основанию 2, и новое значение для MDact вычисляется (527). Следует отметить, что максимальное число битов, которые могут суммироваться с любым экземпляром EVS, равно EVSmax-EVStar.[00125] Process 515 continues by checking whether MDact is less than or equal to MDtar (524). If MDact is less than or equal to MDtar, then the MD bits are sent to the IVAS bit packetizer for inclusion in the IVAS bitstream, and the (MDtar-MDact) bits are summed with the EVStar bit rates (532) in the following order: W, Y, X, Z; N_dmx EVS bitstreams (channels) are generated, and the EVS bits are sent to the IVAS bit packetizer for inclusion in the IVAS bitstream as described above. If MDact is not less than or equal to MDtar, then process 515 quantizes the spatial MDs in a time-differential manner using an exact quantization strategy, encodes the quantized spatial MDs using an entropy encoder, and computes the MDact again (525). If MDact is less than or equal to MDtar, then the MD bits are sent to the IVAS bit packetizer for inclusion in the IVAS bitstream, and the (MDtar-MDact) bits are summed with the EVStar bit rates (532) in the following order: W, Y, X, Z ; N_dmx EVS bitstreams (channels) are generated, and the EVS bits are sent to the IVAS bit packetizer for inclusion in the IVAS bitstream as described above. If MDact is greater than MDtar, the spatial MDs are quantized in a non-time-differential manner using an exact quantization strategy and are entropy encoded and base 2 encoded, and a new value for MDact is computed (527). It should be noted that the maximum number of bits that can be summed with any EVS instance is EVSmax-EVStar.

[00126] Процесс 515 снова определяет, является ли MDact меньшим или равным MDtar (528). Если MDact меньше или равен MDtar, то биты MD отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, и (MDtar-MDact) битов суммируются со скоростями передачи битов EVStar (532) в следующем порядке: W, Y, X, Z; формируются N_dmx битовых потоков (каналов) EVS, и биты EVS отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, как описано выше. Если MDact больше в MDtar, то процесс 515 задает MDact в качества минимума из трех скоростей передачи битов MDact, вычисленных на (523), (525), (527), и сравнивает MDact с MDmax (529). Если MDact больше MDmax (530), контур квантования (этапы 523-530) повторяется с использованием стратегии приблизительного квантования, как описано выше.[00126] Process 515 again determines whether MDact is less than or equal to MDtar (528). If MDact is less than or equal to MDtar, then the MD bits are sent to the IVAS bit packetizer for inclusion in the IVAS bitstream, and the (MDtar-MDact) bits are summed with the EVStar bit rates (532) in the following order: W, Y, X, Z ; N_dmx EVS bitstreams (channels) are generated, and the EVS bits are sent to the IVAS bit packetizer for inclusion in the IVAS bitstream as described above. If MDact is greater in MDtar, then process 515 sets MDact as the minimum of the three MDact bit rates calculated at (523), (525), (527), and compares MDact with MDmax (529). If MDact is greater than MDmax (530), the quantization loop (steps 523-530) is repeated using the coarse quantization strategy as described above.

[00127] Если MDact меньше или равен MDmax, то биты MD отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, и процесс 515 снова определяет, является ли MDact меньшим или равным MDtar (531). Если MDact меньше или равен MDtar, то (MDtar-MDact) битов суммируются со скоростями передачи битов EVStar (532) в следующем порядке: W, Y, X, Z; формируются N_dmx битовых потоков (каналов) EVS, и биты EVS отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, как описано выше. Если MDact больше MDtar, то (MDtar-MDact) битов вычитаются из скоростей передачи битов EVStar (532) в следующем порядке: Z, X, Y, W; формируются N_dmx битовых потоков (каналов) EVS, и биты EVS отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, как описано выше. Следует отметить, что максимальное число битов, которые могут вычитаться из любого экземпляра EVS, равно EVStar-EVSmin.[00127] If MDact is less than or equal to MDmax, then the MD bits are sent to the IVAS bit packetizer for inclusion in the IVAS bitstream, and process 515 again determines whether MDact is less than or equal to MDtar (531). If MDact is less than or equal to MDtar, then the (MDtar-MDact) bits are summed with the EVStar bit rates (532) in the following order: W, Y, X, Z; N_dmx EVS bitstreams (channels) are generated, and the EVS bits are sent to the IVAS bit packetizer for inclusion in the IVAS bitstream as described above. If MDact is greater than MDtar, then (MDtar-MDact) bits are subtracted from the EVStar bit rates (532) in the following order: Z, X, Y, W; N_dmx EVS bitstreams (channels) are generated, and the EVS bits are sent to the IVAS bit packetizer for inclusion in the IVAS bitstream as described above. It should be noted that the maximum number of bits that can be subtracted from any EVS instance is EVStar-EVSmin.

Примерные процессыSample Processes

[00128] Фиг. 6 является блок-схемой процесса 600 кодирования IVAS, согласно варианту осуществления. Процесс 600 может быть реализован с использованием архитектуры устройства, как описано в отношении фиг. 8.[00128] FIG. 6 is a flow diagram of an IVAS encoding process 600, according to an embodiment. Process 600 may be implemented using a device architecture as described with respect to FIG. 8.

[00129] Процесс 600 включает в себя прием входного аудиосигнала (601), понижающее микширование входного аудиосигнала в один или более каналов понижающего микширования и пространственные метаданные, ассоциированные с одним или более каналов входного аудиосигнала (602); считывание набора из одной или более скоростей передачи битов для каналов понижающего микширования и набора уровней квантования для пространственных метаданных из таблицы управления распределением скоростей передачи битов (603); определение сочетания одной или более скоростей передачи битов для каналов понижающего микширования (604); определение уровня квантования метаданных из набора уровней квантования метаданных с использованием процесса распределения скоростей передачи битов (605); квантование и кодирование пространственных метаданных с использованием уровня квантования метаданных (606); формирование, с использованием сочетания одной или более скоростей передачи битов, битового потока понижающего микширования для одного или более каналов понижающего микширования (607); объединение битового потока понижающего микширования, квантованных и кодированных пространственных метаданных и набора уровней квантования в битовый поток IVAS (608); и потоковую передачу или сохранение битового потока IVAS для воспроизведения на устройстве с поддержкой IVAS (609).[00129] Process 600 includes receiving an input audio signal (601), downmixing the input audio signal into one or more downmix channels, and spatial metadata associated with one or more channels of the input audio signal (602); reading a set of one or more bit rates for the downmix channels and a set of quantization levels for spatial metadata from the bit rate distribution control table (603); determining a combination of one or more bit rates for the downmix channels (604); determining a metadata quantization level from a set of metadata quantization levels using a bit rate distribution process (605); quantizing and encoding spatial metadata using a metadata quantization layer (606); generating, using a combination of one or more bit rates, a downmix bitstream for one or more downmix channels (607); combining the downmix bitstream, quantized and encoded spatial metadata, and a set of quantization levels into an IVAS bitstream (608); and streaming or storing the IVAS bitstream for playback on an IVAS-enabled device (609).

[00130] Фиг. 7 является блок-схемой альтернативного процесса 700 кодирования IVAS, согласно варианту осуществления. Процесс 700 может быть реализован с использованием архитектуры устройства, как описано в отношении фиг. 8.[00130] FIG. 7 is a flow diagram of an alternative IVAS encoding process 700, according to an embodiment. Process 700 may be implemented using a device architecture as described with respect to FIG. 8.

[00131] Процесс 700 включает в себя прием входного аудиосигнала (701); извлечение свойств входного аудиосигнала (702); вычисление пространственных метаданных для каналов входного аудиосигнала (703); считывание набора из одной или более скоростей передачи битов для каналов понижающего микширования и набора уровней квантования для пространственных метаданных из таблицы управления распределением скоростей передачи битов (704); определение сочетания одной или более скоростей передачи битов для каналов понижающего микширования (705); определение уровня квантования метаданных из набора уровней квантования метаданных с использованием процесса распределения скоростей передачи битов (706); квантование и кодирование пространственных метаданных с использованием уровня квантования метаданных (707); формирование, с использованием сочетания одной или более скоростей передачи битов, битового потока понижающего микширования для одного или более каналов понижающего микширования с использованием одной или более скоростей передачи битов (708); объединение битового потока понижающего микширования, квантованных и кодированных пространственных метаданных и набора уровней квантования в битовый поток IVAS (709); и потоковую передачу или сохранение битового потока IVAS для воспроизведения на устройстве с поддержкой IVAS (710).[00131] Process 700 includes receiving an input audio signal (701); extracting properties of the input audio signal (702); calculating spatial metadata for the input audio signal channels (703); reading a set of one or more bit rates for the downmix channels and a set of quantization levels for spatial metadata from the bit rate distribution control table (704); determining a combination of one or more bit rates for the downmix channels (705); determining a metadata quantization level from a set of metadata quantization levels using a bit rate distribution process (706); quantizing and encoding spatial metadata using a metadata quantization layer (707); generating, using a combination of one or more bit rates, a downmix bit stream for one or more downmix channels using one or more bit rates (708); combining the downmix bitstream, quantized and encoded spatial metadata, and a set of quantization levels into an IVAS bitstream (709); and streaming or storing the IVAS bitstream for playback on an IVAS-enabled device (710).

Примерная архитектура системыApproximate system architecture

[00132] Фиг. 8 показывает блок-схему примерной системы 800, подходящей для реализации примерных вариантов осуществления настоящего изобретения. Система 800 включает в себя один или более серверных компьютеров либо любое клиентское устройство, включающее в себя, не ограничиваясь, любые из устройств, показанных на фиг. 1, таких как сервер 102 вызовов, ранее созданные устройства 106, абонентское устройство 108, 114, системы 116, 118 в конференц-залах, системы домашнего кинотеатра, гарнитура 122 VR и модуль 124 поглощения иммерсивного содержимого. Система 800 включает в себя любые бытовые устройства, включающие в себя, не ограничиваясь: смартфоны, планшетные компьютеры, носимые компьютеры, компьютеры в транспортных средствах, игровые консоли, системы объемного звучания, киоски.[00132] FIG. 8 shows a block diagram of an example system 800 suitable for implementing example embodiments of the present invention. System 800 includes one or more server computers or any client device, including, but not limited to, any of the devices shown in FIG. 1, such as call server 102, previously created devices 106, subscriber device 108, 114, conference room systems 116, 118, home theater systems, VR headset 122, and immersive content absorption module 124. System 800 includes any consumer devices including, but not limited to: smartphones, tablet computers, wearable computers, in-vehicle computers, game consoles, surround sound systems, kiosks.

[00133] Как показано, система 800 включает в себя центральный процессор 801 (CPU), который допускает выполнение различных процессов в соответствии с программой, сохраненной, например, в постоянном запоминающем устройстве 802 (ROM), или с программой, загружаемой, например, из модуля 808 хранения в оперативное запоминающее устройство 803 (RAM). В RAM 803, также сохраняются данные, требуемые, когда CPU 801 выполняет различные процессы, по мере необходимости. CPU 801, ROM 802 и RAM 803 соединяются между собой через шину 804. Интерфейс 805 ввода-вывода также соединяется с шиной 804.[00133] As shown, the system 800 includes a central processing unit (CPU) 801 that is capable of executing various processes in accordance with a program stored, for example, in a read-only memory (ROM) 802, or a program loaded, for example, from storage module 808 to random access memory (RAM) 803. The RAM 803 also stores data required when the CPU 801 executes various processes as needed. The CPU 801, ROM 802, and RAM 803 are connected to each other via bus 804. An I/O interface 805 is also connected to bus 804.

[00134] Следующие компоненты соединяются с интерфейсом 805 ввода-вывода: модуль 806 ввода, который может включать в себя клавиатуру, мышь и т. п.; модуль 807 вывода, который может включать в себя дисплей, такой как жидкокристаллический дисплей (ЖК-дисплей) и один или более динамиков; модуль 808 хранения, включающий в себя жесткий диск или другое подходящее устройство хранения данных; и модуль 809 связи, включающий в себя сетевую интерфейсную плату, к примеру, сетевую плату (например, проводную или беспроводную).[00134] The following components connect to the I/O interface 805: an input module 806, which may include a keyboard, mouse, etc.; an output module 807, which may include a display such as a liquid crystal display (LCD) and one or more speakers; a storage module 808 including a hard disk or other suitable storage device; and a communication module 809 including a network interface card, such as a network card (eg, wired or wireless).

[00135] В некоторых реализациях, модуль 806 ввода включает в себя один или более микрофонов в различных позициях (в зависимости от хост-устройства), обеспечивающих захват аудиосигналов в различных форматах (например, в моно-, стерео-, пространственном, иммерсивном и других подходящих форматах).[00135] In some implementations, input module 806 includes one or more microphones in various positions (depending on the host device) to capture audio signals in various formats (e.g., mono, stereo, spatial, immersive, and other suitable formats).

[00136] В некоторых реализациях, модуль 807 вывода включает в себя системы с различным числом динамиков. Как проиллюстрировано на фиг. 1, модуль 807 вывода (в зависимости от характеристик хост-устройства) может выполнять рендеринг аудиосигналов в различных форматах (например, в моно-, стерео-, иммерсивном, бинауральном и других подходящих форматах).[00136] In some implementations, output module 807 includes systems with varying numbers of speakers. As illustrated in FIG. 1, output module 807 (depending on the characteristics of the host device) can render audio signals in various formats (eg, mono, stereo, immersive, binaural, and other suitable formats).

Модуль 809 связи выполнен с возможностью обмена данными с другими устройствами (например, через сеть). Накопитель 810 также соединяется с интерфейсом 805 ввода-вывода по мере необходимости. Съемный носитель 811, такой как магнитный диск, оптический диск, магнитооптический диск, флеш-накопитель или другой подходящий съемный носитель, монтируется на накопителе 810 таким образом, что компьютерная программа, считываемая с него, устанавливается в модуль 808 хранения по мере необходимости. Специалисты в данной области техники должны понимать, что, хотя система 800 описана как включающая в себя вышеописанные компоненты, в реальных вариантах применения, можно добавлять, удалять и/или заменять некоторые из этих компонентов, и все эти модификации или изменения попадают в пределы объема настоящего изобретения.The communication module 809 is configured to exchange data with other devices (eg, over a network). Drive 810 also connects to I/O interface 805 as needed. Removable media 811, such as a magnetic disk, optical disk, magneto-optical disk, flash drive, or other suitable removable media, is mounted on the drive 810 such that a computer program read from it is installed on the storage module 808 as needed. Those skilled in the art will understand that although the system 800 is described as including the components described above, in actual applications, some of these components may be added, removed, and/or replaced, and all such modifications or changes fall within the scope of this inventions.

[00137] В соответствии с примерными вариантами осуществления настоящего изобретения, процессы, описанные выше, могут быть реализованы в виде программ, реализованных в форме компьютерного программного обеспечения, либо на машиночитаемом носителе данных. Например, варианты осуществления настоящего изобретения включают в себя компьютерный программный продукт, включающий в себя компьютерную программу, материально реализованную на машиночитаемом носителе, причем компьютерная программа включает в себя программный код для осуществления способов. В таких вариантах осуществления, компьютерная программа может загружаться и монтироваться из сети через модуль 809 связи и/или устанавливаться со съемного носителя 811, как показано на фиг. 8.[00137] In accordance with exemplary embodiments of the present invention, the processes described above may be implemented as programs implemented in the form of computer software or on a computer-readable storage medium. For example, embodiments of the present invention include a computer program product including a computer program tangibly embodied on a computer readable medium, the computer program including program code for implementing the methods. In such embodiments, a computer program may be downloaded and mounted from a network via communications module 809 and/or installed from removable media 811, as shown in FIG. 8.

[00138] В общем случае, различные примерные варианты осуществления настоящего изобретения могут быть реализованы в аппаратных средствах или специализированных схемах (например, в схеме управления), в программном обеспечении, в логике либо в любом их сочетании. Например, модули, поясненные выше, могут выполняться посредством схемы управления (например, CPU в комбинации с другими компонентами по фиг. 8) таким образом, что схема управления может выполнять действия, описанные в данном описании. Некоторые аспекты могут быть реализованы в аппаратных средствах, тогда как другие аспекты могут быть реализованы в микропрограммном обеспечении или программном обеспечении, которое может выполняться посредством контроллера, микропроцессора или другого вычислительного устройства (например, схемы управления). Хотя различные аспекты примерных вариантов осуществления настоящего изобретения проиллюстрированы и описаны в виде блок-схем, блок-схем способов или с использованием некоторого другого графического представления, следует учитывать, что блоки, устройства, системы, технологии или способы, описанные в данном документе, могут быть реализованы, в качестве неограничивающих примеров, в аппаратных средствах, в программном обеспечении, в микропрограммном обеспечении, в специализированных схемах или в логике, в аппаратных средствах общего назначения или в контроллере, или в других вычислительных устройствах, или в некотором их сочетании.[00138] In general, various exemplary embodiments of the present invention may be implemented in hardware or specialized circuitry (eg, control circuitry), software, logic, or any combination thereof. For example, the modules explained above may be implemented by a control circuit (eg, a CPU in combination with other components of FIG. 8) such that the control circuit may perform the actions described herein. Some aspects may be implemented in hardware, while other aspects may be implemented in firmware or software that may be executed by a controller, microprocessor, or other computing device (eg, control circuitry). Although various aspects of exemplary embodiments of the present invention are illustrated and described in the form of block diagrams, method flow diagrams, or some other graphical representation, it should be appreciated that the blocks, devices, systems, technologies, or methods described herein may be embodied, by way of non-limiting examples, in hardware, software, firmware, application-specific circuits or logic, general purpose hardware or a controller, or other computing devices, or some combination thereof.

[00139] Кроме того, различные блоки, показанные на блок-схемах, могут рассматриваться в качестве этапов способа и/или в качестве операций, которые получаются в результате операции компьютерного программного кода, и/или в качестве множества соединенных логических схемных элементов, сконструированных с возможностью выполнения ассоциированной функции. Например, варианты осуществления настоящего изобретения включают в себя компьютерный программный продукт, включающий в себя компьютерную программу, материально реализованную на машиночитаемом носителе, причем компьютерная программа содержит программные коды, выполненные с возможностью осуществления способов, описанных выше.[00139] In addition, the various blocks shown in the block diagrams may be considered as method steps and/or as operations that result from an operation of computer program code, and/or as a plurality of interconnected logical circuit elements designed with the ability to perform an associated function. For example, embodiments of the present invention include a computer program product including a computer program tangibly embodied on a computer readable medium, wherein the computer program includes program codes configured to implement the methods described above.

[00140] В контексте изобретения, машиночитаемый носитель может представлять собой любой материальный носитель, который может содержать или сохранять программу для использования посредством или в связи с системой, устройством или устройством выполнения инструкций. Машиночитаемый носитель может представлять собой машиночитаемую среду передачи сигналов или машиночитаемый носитель данных. Машиночитаемый носитель может быть постоянным и может включать в себя, не ограничиваясь, электронную, магнитную, оптическую, электромагнитную, инфракрасную или полупроводниковую систему, устройство или устройство либо любое подходящее их сочетание. Более конкретные примеры машиночитаемого носителя данных должны включать в себя электрическое соединение, имеющее один или более проводов, портативную компьютерную дискету, жесткий диск, оперативное запоминающее устройство (RAM), постоянное запоминающее устройство (ROM), стираемое программируемое постоянное запоминающее устройство (EPROM или флэш-память), оптоволокно, портативное постоянное запоминающее устройство на компакт-дисках (CD-ROM), оптическое устройство хранения данных, магнитное устройство хранения данных либо любое подходящее их сочетание.[00140] In the context of the invention, a computer-readable medium can be any tangible medium that can contain or store a program for use by or in connection with an instruction execution system, apparatus, or apparatus. The computer-readable medium may be a computer-readable signaling medium or a computer-readable storage medium. A computer-readable medium may be non-transitory and may include, but is not limited to, an electronic, magnetic, optical, electromagnetic, infrared or semiconductor system, device or device, or any suitable combination thereof. More specific examples of a computer readable storage medium would include an electrical connection having one or more wires, a portable computer diskette, a hard disk, random access memory (RAM), read only memory (ROM), erasable programmable read only memory (EPROM or flash). memory), fiber optic, portable compact disc read-only memory (CD-ROM), optical storage device, magnetic storage device, or any suitable combination thereof.

[00141] Компьютерный программный код для осуществления способов настоящего изобретения может быть написан на любом сочетании одного или более языков программирования. Эти компьютерные программные коды могут передаваться в процессор компьютера общего назначения, компьютер специального назначения или другое программируемое устройство обработки данных, которое имеет схему управления, таким образом, что программные коды, при выполнении посредством процессора компьютера или другого программируемого устройства обработки данных, предписывают реализацию функций/операций, указываемых на блок-схемах способов и/или на блок-схемах. Программный код может выполняться полностью на компьютере, частично на компьютере, в качестве автономного программного пакета, частично на компьютере и частично на удаленном компьютере или полностью на удаленном компьютере или сервере, либо может быть распределён по одному или более удаленным компьютерам и/или серверам.[00141] The computer program code for implementing the methods of the present invention may be written in any combination of one or more programming languages. These computer program codes may be transmitted to a general purpose computer processor, special purpose computer, or other programmable data processing device that has control circuitry such that the program codes, when executed by the computer processor or other programmable data processing device, cause the implementation of functions/ operations indicated on the method flowcharts and/or flowcharts. The software code may run entirely on a computer, partially on a computer, as a stand-alone software package, partially on a computer and partially on a remote computer, or entirely on a remote computer or server, or may be distributed across one or more remote computers and/or servers.

[00142] Хотя данный документ содержит множество конкретных сведений по реализации, они должны истолковываться не в качестве ограничений на объем того, что может быть заявлено в качестве формулы изобретения, а напротив - в качестве описания признаков, которые могут относиться к конкретным вариантам осуществления. Определенные признаки, которые поясняются в этом подробном описании в контексте отдельных вариантов осуществления, также могут быть реализованы объединённо в одном варианте осуществления. Наоборот, различные признаки, которые описан в контексте одного варианта осуществления, также могут быть реализованы во множестве вариантах осуществления по отдельности либо в любом подходящем подсочетании. Кроме того, хотя признаки могут быть описаны выше как работающие в определенных сочетаниях и даже первоначально определяться в формуле изобретения как таковые, один или более признаков из заявленного сочетания в некоторых случаях могут быть исключены из сочетания, и заявленное сочетание может относиться к подсочетанию или вариантам подсочетания. Логические последовательности операций, проиллюстрированные на чертежах, не требуют конкретного показанного порядка или последовательного порядка для достижения требуемых результатов. Помимо этого, могут быть предусмотрены другие этапы , или этапы могут исключаться из описанных процессов, и другие компоненты могут добавляться или удаляться из описанных систем. Соответственно, другие реализации находятся в пределах объема прилагаемой формулы изобретения.[00142] Although this document contains many specific implementation details, they should not be construed as limitations on the scope of what may be claimed, but rather as descriptions of features that may be relevant to specific embodiments. Certain features that are explained in this detailed description in the context of individual embodiments may also be implemented combined in a single embodiment. Conversely, various features that are described in the context of one embodiment may also be implemented in multiple embodiments individually or in any suitable sub-combination. In addition, although features may be described above as operating in certain combinations and even initially defined as such in the claims, one or more features of a claimed combination may in some cases be excluded from the combination, and the claimed combination may refer to a sub-combination or variants of a sub-combination . The logical sequences of operations illustrated in the drawings do not require a particular order shown or sequential order to achieve the desired results. In addition, other steps may be provided or steps may be omitted from the processes described, and other components may be added or removed from the systems described. Accordingly, other implementations are within the scope of the appended claims.

Claims

1. A method for encoding a bitstream with support for immersive voice and audio services (IVAS), the method comprising the steps of:

- receive, using one or more processors, an input audio signal;

- downmixing, using one or more processors, the input audio signal into one or more downmix channels and spatial metadata associated with the one or more input audio signal channels;

- obtaining, using one or more processors, a set of one or more bit rates for the downmix channels and a set of quantization levels for spatial metadata from the bit rate distribution control table;

- determining, using one or more processors, a combination of one or more bit rates for the downmix channels;

- determining, using one or more processors, a metadata quantization level from a set of metadata quantization levels;

- quantize and encode, using one or more processors, spatial metadata using a metadata quantization layer;

- generating, using one or more processors and a combination of one or more bit rates, a downmix bit stream for one or more downmix channels;

- combine, using one or more processors, the downmix bitstream, quantized and encoded spatial metadata, and a set of quantization levels into an IVAS bitstream.

2. The method of claim 1, wherein the input audio signal is a four-channel first-order ambiophony (FoA) audio signal, a three-channel flat FoA signal, or a two-channel stereo audio signal.

3. The method of claim 1 or 2, wherein the one or more bit rates are bit rates of one or more instances of a mono audio encoder/decoder (codec).

4. The method of claim 1 or 2, wherein the mono audio codec is an enhanced voice services (EVS) codec and the downmix bitstream is an EVS bitstream.

5. The method of claim 1 or 2, wherein obtaining, using one or more processors, one or more bit rates for the downmix channels and spatial metadata using the bit rate distribution control table further comprises the steps of:

- identifying a row in the bit rate distribution control table using a table index that includes one or more of an input audio signal format, an input audio signal bandwidth, an enabled spatial encoding tool, a transition mode, and a backwards compatible mode for down-mono mixing; And

- extracting from an identified row of the bit rate distribution control table one or more of a target bit rate, a bit rate ratio, a minimum bit rate, and bit rate deviation steps, wherein the bit rate ratio indicates the ratio with which the overall bit rate bits must be distributed among the transmission channels of the downmix audio signals, the minimum bit rate is the value below which the full bit rate is not allowed to be reduced, and the bit rate rejection steps are the steps to reduce the target bit rate when the first priority is for the downmix signals higher than or equal to or lower than the second spatial metadata priority; And

wherein the determination of a combination of one or more bit rates for the downmix channels and spatial metadata is based on one or more of a target bit rate, a bit rate ratio, a minimum bit rate, and bit rate deviation steps.

6. The method of claim 1 or 2, wherein quantization and encoding of spatial metadata for one or more channels of the input audio signal using a set of metadata quantization levels is performed in a quantization loop that applies increasingly coarse quantization strategies based on the difference between the target bit rate in metadata bits and the actual transmission rate in metadata bits.

7. The method of claim 1 or 2, wherein the quantization is determined according to mono codec priority and spatial metadata priority based on properties extracted from the input audio signal and covariance values in the channel bandwidth.

8. The method of claim 1 or 2, wherein the input audio signal is a stereo signal and the downmix signals include an average signal representation, residuals from the stereo signal, and spatial metadata.

9. The method of claim 1 or 2, wherein the spatial metadata includes prediction coefficients (PR), cross-prediction coefficients (C) and decorrelation coefficients (P) for a format for spatial reconstruction module (SPAR) and coefficients (P) prediction and decorrelation coefficients (PR) for the advanced complex linkage (CACPL) format.

10. The method of claim 1 or 2, further comprising storing, streaming, or outputting the IVAS bitstream.

11. A system for bitstream encoding supporting immersive voice and audio services (IVAS), comprising:

- one or more processors; And

- a non-transitory computer-readable medium storing instructions that, when executed by one or more processors, direct one or more processors to perform the operations of any one of claims. 1-10 per method.

12. A non-transitory computer-readable medium storing instructions that, when executed by one or more processors, direct one or more processors to perform the operations of any one of claims. 1-10 per method.