RU2821284C1 - Distribution of bit rates in immersive voice and audio services - Google Patents
Distribution of bit rates in immersive voice and audio services Download PDFInfo
- Publication number
- RU2821284C1 RU2821284C1 RU2022112673A RU2022112673A RU2821284C1 RU 2821284 C1 RU2821284 C1 RU 2821284C1 RU 2022112673 A RU2022112673 A RU 2022112673A RU 2022112673 A RU2022112673 A RU 2022112673A RU 2821284 C1 RU2821284 C1 RU 2821284C1
- Authority
- RU
- Russia
- Prior art keywords
- bit rate
- metadata
- ivas
- processors
- spatial
- Prior art date
Links
- 238000009826 distribution Methods 0.000 title claims description 58
- 238000013139 quantization Methods 0.000 claims abstract description 104
- 238000000034 method Methods 0.000 claims description 96
- 230000005236 sound signal Effects 0.000 claims description 77
- 230000005540 biological transmission Effects 0.000 claims description 7
- 230000007704 transition Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 14
- 230000000694 effects Effects 0.000 abstract description 4
- 239000000126 substance Substances 0.000 abstract 1
- 230000008569 process Effects 0.000 description 61
- 238000010586 diagram Methods 0.000 description 18
- 238000004590 computer program Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 7
- 239000000284 extract Substances 0.000 description 7
- 230000001052 transient effect Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000011084 recovery Methods 0.000 description 5
- 238000009877 rendering Methods 0.000 description 5
- 238000012732 spatial analysis Methods 0.000 description 4
- 238000011217 control strategy Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000010521 absorption reaction Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 239000000872 buffer Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 101150047356 dec-1 gene Proteins 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000000945 filler Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Abstract
Description
Перекрестная ссылка на родственные заявкиCross reference to related applications
[0001] По данной заявке испрашивается приоритет на основании предварительной заявки на патент США № 62/927,772, поданной 30 октября 2019 г.; и предварительной заявки на патент США № 63/092,830, поданной 16 октября 2020 г., которые включены в данный документ путём ссылки.[0001] This application claims priority to U.S. Provisional Patent Application No. 62/927,772, filed October 30, 2019; and U.S. Provisional Patent Application No. 63/092,830, filed October 16, 2020, which are incorporated herein by reference.
Область техники, к которой относится изобретениеField of technology to which the invention relates
[0002] Данное изобретение относится в общем к кодированию и декодированию битовых потоков аудиоданных.[0002] This invention relates generally to encoding and decoding audio bitstreams.
Уровень техникиState of the art
[0003] Разработка стандартов для голосовых и аудиокодеров/декодеров («кодеков») в последнее время акцентирует внимание на разработке кодека для иммерсивных голосовых и аудиослужб (IVAS). IVAS предположительно должен поддерживать диапазон характеристик служб передачи аудио, включающих в себя, не ограничиваясь, повышающее микширование из моно в стерео и кодирование, декодирование и рендеринг полностью иммерсивного аудио. IVAS имеет намерение поддерживаться посредством широкого диапазона устройств, конечных точек и сетевых узлов, включающих в себя, не ограничиваясь: мобильные телефоны и смартфоны, электронные планшетные компьютеры, персональные компьютеры, конференц-телефоны, конференц-залы, устройства в стиле виртуальной реальности (VR) и дополненной реальности (AR), устройства-домашние кинотеатры и другие подходящие устройства. Эти устройства, конечные точки и сетевые узлы могут иметь различные акустические интерфейсы для захвата и рендеринга звука.[0003] Standards development for voice and audio encoders/decoders (“codecs”) has recently focused on codec development for immersive voice and audio services (IVAS). IVAS is expected to support a range of audio delivery service characteristics including, but not limited to, mono to stereo upmixing and encoding, decoding and rendering of fully immersive audio. IVAS intends to be supported through a wide range of devices, endpoints and network nodes, including but not limited to: mobile phones and smartphones, electronic tablets, personal computers, conference phones, meeting rooms, virtual reality (VR) style devices and augmented reality (AR), home theater devices and other suitable devices. These devices, endpoints, and network nodes may have different acoustic interfaces for capturing and rendering audio.
Раскрытие изобретенияDisclosure of the Invention
[0004] Раскрыты реализации для распределения скоростей передачи битов в иммерсивных голосовых и аудиослужбах.[0004] Implementations for distributing bit rates in immersive voice and audio services are disclosed.
[0005] В варианте осуществления, способ кодирования битового потока с поддержкой иммерсивных голосовых и аудиослужб (IVAS), при этом способ содержит: прием, с использованием одного или более процессоров, входного аудиосигнала; понижающее микширование, с использованием одного или более процессоров, входного аудиосигнала в один или более каналов понижающего микширования и пространственные метаданные, ассоциированные с одним или более каналов входного аудиосигнала; считывание, с использованием одного или более процессоров, набора из одной или более скоростей передачи битов для каналов понижающего микширования и набора уровней квантования для пространственных метаданных из таблицы управления распределением скоростей передачи битов; определение, с использованием одного или более процессоров, сочетания одной или более скоростей передачи битов для каналов понижающего микширования; определение, с использованием одного или более процессоров, уровня квантования метаданных из набора уровней квантования метаданных с использованием процесса распределения скоростей передачи битов; квантование и кодирование, с использованием одного или более процессоров, пространственных метаданных с использованием уровня квантования метаданных; формирование, с использованием одного или более процессоров и сочетания одной или более скоростей передачи битов, битового потока понижающего микширования для одного или более каналов понижающего микширования; объединение, с использованием одного или более процессоров, битового потока понижающего микширования, квантованных и кодированных пространственных метаданных и набора уровней квантования в битовый поток IVAS; и потоковую передачу или сохранение битовый поток IVAS для воспроизведения на устройстве с поддержкой IVAS.[0005] In an embodiment, a method for encoding a bitstream in support of immersive voice and audio services (IVAS), the method comprising: receiving, using one or more processors, an input audio signal; downmixing, using one or more processors, the input audio signal into one or more downmix channels and spatial metadata associated with the one or more input audio signal channels; reading, using one or more processors, a set of one or more bit rates for the downmix channels and a set of quantization levels for spatial metadata from the bit rate distribution control table; determining, using one or more processors, a combination of one or more bit rates for the downmix channels; determining, using one or more processors, a metadata quantization level from a set of metadata quantization levels using a bit rate distribution process; quantizing and encoding, using one or more processors, spatial metadata using a metadata quantization layer; generating, using one or more processors and a combination of one or more bit rates, a downmix bit stream for one or more downmix channels; combining, using one or more processors, the downmix bitstream, the quantized and encoded spatial metadata, and a set of quantization levels into an IVAS bitstream; and streaming or storing the IVAS bitstream for playback on an IVAS-enabled device.
[0006] В варианте осуществления, входной аудиосигнал представляет собой четырехканальный аудиосигнал амбиофонии первого порядка (FoA), трехканальный плоский сигнал FoA или двухканальный стереоаудиосигнал.[0006] In an embodiment, the input audio signal is a four-channel first-order ambiophony (FoA) audio signal, a three-channel flat FoA signal, or a two-channel stereo audio signal.
[0007] В варианте осуществления, одна или более скоростей передачи битов представляют собой скорости передачи битов одного или более каналов скоростей передачи битов моноаудиокодера/декодера (кодека).[0007] In an embodiment, the one or more bit rates represent the bit rates of one or more mono audio encoder/decoder (codec) bit rate channels.
[0008] В варианте осуществления, моноаудиокодек представляет собой кодек с поддержкой улучшенных голосовых служб (EVS), и битовый поток понижающего микширования представляет собой битовый поток EVS.[0008] In an embodiment, the mono audio codec is an enhanced voice services (EVS) codec, and the downmix bitstream is an EVS bitstream.
[0009] В варианте осуществления, получение, с использованием одного или более процессоров, одной или более скоростей передачи битов для каналов понижающего микширования и пространственных метаданных с использованием таблицы управления распределением скоростей передачи битов дополнительно содержит: идентификацию строки в таблице управления распределением скоростей передачи битов с использованием табличного индекса, который включает в себя формат входного аудиосигнала, полосу пропускания входного аудиосигнала, разрешенное инструментальное средство пространственного кодирования, переходный режим и обратно совместимый режим для понижающего мономикширования; извлечение, из идентифицированной строки таблицы управления распределением скоростей передачи битов, целевой скорости передачи битов, отношения скоростей передачи битов, минимальной скорости передачи битов и шагов отклонения скорости передачи битов, при этом отношение скоростей передачи битов указывает отношение, с которым полная скорость передачи битов должна распределяться между каналами передачи аудиосигналов понижающего микширования, минимальная скорость передачи битов представляет собой значение, ниже которого не разрешается снижение полной скорости передачи битов, и шаги отклонения скорости передачи битов представляют собой шаги уменьшения целевой скорости передачи битов, когда первый приоритет для сигналов понижающего микширования выше или равен либо ниже второго приоритета пространственных метаданных; и определение одной или более скоростей передачи битов для каналов понижающего микширования и пространственных метаданных на основе целевой скорости передачи битов, отношения скоростей передачи битов, минимальной скорости передачи битов и шагов отклонения скорости передачи битов.[0009] In an embodiment, obtaining, using one or more processors, one or more bit rates for the downmix channels and spatial metadata using the bit rate distribution control table further comprises: identifying a row in the bit rate distribution control table with using a table index that includes the input audio signal format, the input audio signal bandwidth, the enabled spatial encoding tool, the transient mode, and the backward compatible mode for mono downmixing; retrieving, from an identified bit rate allocation control table row, a target bit rate, a bit rate ratio, a minimum bit rate, and bit rate deviation steps, wherein the bit rate ratio indicates the ratio with which the total bit rate should be allocated between transmission channels of downmix audio signals, the minimum bit rate is a value below which the full bit rate is not permitted to be reduced, and the bit rate deviation steps are steps to reduce the target bit rate when the first priority for downmix signals is greater than or equal to or below the second priority of spatial metadata; and determining one or more bit rates for the downmix channels and spatial metadata based on the target bit rate, bit rate ratio, minimum bit rate, and bit rate deviation steps.
[0010] В варианте осуществления, квантование пространственных метаданных для одного или более каналов входного аудиосигнала с использованием набора квантования уровней квантования выполняется в контуре квантования, который применяет стратегии все более приблизительного квантования на основе разности между целевой скоростью передачи в битах метаданных и фактической скоростью передачи в битах метаданных.[0010] In an embodiment, quantization of spatial metadata for one or more channels of an input audio signal using a set of quantization levels is performed in a quantization loop that applies increasingly coarse quantization strategies based on the difference between the target metadata bit rate and the actual bit rate in bits of metadata.
[0011] В варианте осуществления, квантование определяется в соответствии с приоритетом монокодека и приоритетом пространственных метаданных на основе свойств, извлеченных из входного аудиосигнала, и ковариационных значений в полосе частот канала.[0011] In an embodiment, quantization is determined according to mono codec priority and spatial metadata priority based on properties extracted from the input audio signal and covariance values in the channel bandwidth.
[0012] В варианте осуществления, входной аудиосигнал представляет собой стереосигнал, и сигналы понижающего микширования включают в себя представление среднего сигнала, остатки из стереосигнала и пространственные метаданные.[0012] In an embodiment, the input audio signal is a stereo signal, and the downmix signals include an average signal representation, residuals from the stereo signal, and spatial metadata.
[0013] В варианте осуществления, пространственные метаданные включают в себя коэффициенты прогнозирования (PR), коэффициенты кросс-прогнозирования (C) и коэффициенты декорреляции (P) для формата для модуля пространственного восстановления (SPAR) и коэффициенты прогнозирования (P) и коэффициенты декорреляции (PR) для формата улучшенной сложной связи (CACPL).[0013] In an embodiment, the spatial metadata includes prediction coefficients (PR), cross-prediction coefficients (C) and decorrelation coefficients (P) for the format for spatial reconstruction module (SPAR) and prediction coefficients (P) and decorrelation coefficients ( PR) for Advanced Complex Communications (CACPL) format.
[0014] В варианте осуществления, способ кодирования битового потока с поддержкой иммерсивных голосовых и аудиослужб (IVAS), при этом способ содержит: прием, с использованием одного или более процессоров, входного аудиосигнала; извлечение, с использованием одного или более процессоров, свойств входного аудиосигнала; вычисление, с использованием одного или более процессоров, пространственных метаданных для каналов входного аудиосигнала; считывание, с использованием одного или более процессоров, набора из одной или более скоростей передачи битов для каналов понижающего микширования и набора уровней квантования для пространственных метаданных из таблицы управления распределением скоростей передачи битов; определение, с использованием одного или более процессоров, сочетания одной или более скоростей передачи битов для каналов понижающего микширования; определение, с использованием одного или более процессоров, уровня квантования метаданных из набора уровней квантования метаданных с использованием процесса распределения скоростей передачи битов; квантование и кодирование, с использованием одного или более процессоров, пространственных метаданных с использованием уровня квантования метаданных; формирование, с использованием одного или более процессоров и сочетания одной или более скоростей передачи битов, битового потока понижающего микширования для одного или более каналов понижающего микширования с использованием одной или более скоростей передачи битов; объединение, с использованием одного или более процессоров, битового потока понижающего микширования, квантованных и кодированных пространственных метаданных и набора уровней квантования в битовый поток IVAS; и потоковую передачу или сохранение битового потока IVAS для воспроизведения на устройстве с поддержкой IVAS.[0014] In an embodiment, a method for encoding a bitstream in support of immersive voice and audio services (IVAS), the method comprising: receiving, using one or more processors, an input audio signal; extracting, using one or more processors, properties of the input audio signal; calculating, using one or more processors, spatial metadata for the input audio signal channels; reading, using one or more processors, a set of one or more bit rates for the downmix channels and a set of quantization levels for spatial metadata from the bit rate distribution control table; determining, using one or more processors, a combination of one or more bit rates for the downmix channels; determining, using one or more processors, a metadata quantization level from a set of metadata quantization levels using a bit rate distribution process; quantizing and encoding, using one or more processors, spatial metadata using a metadata quantization layer; generating, using one or more processors and a combination of one or more bit rates, a downmix bit stream for one or more downmix channels using one or more bit rates; combining, using one or more processors, the downmix bitstream, the quantized and encoded spatial metadata, and a set of quantization levels into an IVAS bitstream; and streaming or storing the IVAS bitstream for playback on an IVAS-enabled device.
[0015] В варианте осуществления, свойства входного аудиосигнала включают в себя одно или более из полосы пропускания, данных классификации речи/музыки и данных обнаружения голосовой активности (VAD).[0015] In an embodiment, the properties of the input audio signal include one or more of bandwidth, speech/music classification data, and voice activity detection (VAD) data.
[0016] В варианте осуществления, число каналов понижающего микширования, которые должны кодироваться в битовый поток IVAS, выбирается на основе индикатора остаточного уровня в пространственных метаданных.[0016] In an embodiment, the number of downmix channels to be encoded into the IVAS bitstream is selected based on the residual level indicator in the spatial metadata.
[0017] В варианте осуществления, способ кодирования битового потока с поддержкой иммерсивных голосовых и аудиослужб (IVAS) дополнительно содержит: прием, с использованием одного или более процессоров, входного аудиосигнала амбиофонии первого порядка (FoA); извлечение, с использованием одного или более процессоров и скорости передачи битов IVAS, свойств входного аудиосигнала FoA, при этом одно из свойств представляет собой полосу пропускания входного аудиосигнала FoA; формирование, с использованием одного или более процессоров, пространственных метаданных для входного аудиосигнала FoA с использованием свойств сигналов FoA; выбор, с использованием одного или более процессоров, числа остаточных каналов, которые следует отправлять, на основе индикатора остаточного уровня и коэффициентов декорреляции в пространственных метаданных; получение, с использованием одного или более процессоров, табличного индекса управления распределением скоростей передачи битов на основе скорости передачи битов IVAS, полосы пропускания и числа каналов понижающего микширования; считывание, с использованием одного или более процессоров, конфигурации модуля пространственного восстановления (SPAR) из строки в таблице управления распределением скоростей передачи битов, на которую указывает табличный индекс управления распределением скоростей передачи битов; определение, с использованием одного или более процессоров, целевой скорости передачи в битах метаданных из скорости передачи битов IVAS, суммы целевых скоростей передачи битов EVS и длины заголовка IVAS; определение, с использованием одного или более процессоров, максимальной скорости передачи в битах метаданных из скорости передачи битов IVAS, суммы минимальных скоростей передачи битов EVS и длины заголовка IVAS; квантование, с использованием одного или более процессоров и контура квантования, пространственных метаданных недифференциальным во времени способом согласно первой стратегии квантования; энтропийное кодирование, с использованием одного или более процессоров, квантованных пространственных метаданных; вычисление, с использованием одного или более процессоров, первой фактической скорости передачи в битах метаданных; определение, с использованием одного или более процессоров, того, является ли первая фактическая скорость передачи в битах метаданных меньшей или равной целевой скорости передачи в битах метаданных; и в соответствии с первой фактической скоростью передачи в битах метаданных, меньшей или равной целевой скорости передачи в битах метаданных: выход из контура квантования.[0017] In an embodiment, a method for encoding a bitstream supporting immersive voice and audio services (IVAS) further comprises: receiving, using one or more processors, a first-order ambiophonic audio (FoA) input signal; extracting, using one or more processors and the IVAS bit rate, properties of the input FoA audio signal, wherein one of the properties is the bandwidth of the input FoA audio signal; generating, using one or more processors, spatial metadata for the input FoA audio signal using properties of the FoA signals; selecting, using one or more processors, the number of residual channels to be sent based on the residual level indicator and decorrelation coefficients in the spatial metadata; obtaining, using one or more processors, a bit rate distribution control table index based on the IVAS bit rate, bandwidth, and number of downmix channels; reading, using one or more processors, a spatial recovery module (SPAR) configuration from a row in the bit rate distribution control table pointed to by the bit rate distribution control table index; determining, using one or more processors, a target metadata bit rate from the IVAS bit rate, a sum of the target EVS bit rates, and an IVAS header length; determining, using one or more processors, a maximum metadata bit rate from the IVAS bit rate, a sum of the minimum EVS bit rates, and an IVAS header length; quantizing, using one or more processors and a quantization loop, the spatial metadata in a time-nondifferential manner according to a first quantization strategy; entropy encoding, using one or more processors, of quantized spatial metadata; calculating, using one or more processors, a first actual transmission rate in metadata bits; determining, using one or more processors, whether the first actual metadata bit rate is less than or equal to the target metadata bit rate; and according to the first actual metadata bit rate less than or equal to the target metadata bit rate: leaving the quantization loop.
[0018] В варианте осуществления, способ дополнительно содержит: определение, с использованием одного или более процессоров, первой полной фактической скорости передачи битов EVS посредством суммирования первого количества битов, равного разности между целевой скоростью передачи в битах метаданных и первой фактической скоростью передачи в битах метаданных, с полной целевой скоростью передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока EVS с использованием первой полной фактической скорости передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока IVAS, включающего в себя битовый поток EVS, табличный индекс управления распределением скоростей передачи битов и квантованные и энтропийно кодированные пространственные метаданные; в соответствии с первой фактической скоростью передачи в битах метаданных, большей целевой скорости передачи в битах метаданных: квантование, с использованием одного или более процессоров, пространственных метаданных дифференциальным во времени способом согласно первой стратегии квантования; энтропийное кодирование, с использованием одного или более процессоров, квантованных пространственных метаданных; вычисление, с использованием одного или более процессоров, второй фактической скорости передачи в битах метаданных; определение, с использованием одного или более процессоров, того, является ли вторая фактическая скорость передачи в битах метаданных меньшей или равной целевой скорости передачи в битах метаданных; и в соответствии со второй фактической скоростью передачи в битах метаданных, меньшей или равной целевой скорости передачи в битах метаданных: выход из контура квантования.[0018] In an embodiment, the method further comprises: determining, using one or more processors, a first overall actual EVS bit rate by adding a first number of bits equal to the difference between the target metadata bit rate and the first actual metadata bit rate , with the full EVS target bit rate; generating, using one or more processors, an EVS bit stream using the first full actual EVS bit rate; generating, using one or more processors, an IVAS bitstream including an EVS bitstream, a bit rate distribution control table index, and quantized and entropy encoded spatial metadata; according to the first actual metadata bit rate greater than the target metadata bit rate: quantizing, using one or more processors, the spatial metadata in a time differential manner according to the first quantization strategy; entropy encoding, using one or more processors, of quantized spatial metadata; calculating, using one or more processors, a second actual transmission rate in metadata bits; determining, using one or more processors, whether the second actual metadata bit rate is less than or equal to the target metadata bit rate; and according to a second actual metadata bit rate less than or equal to the target metadata bit rate: leaving the quantization loop.
[0019] В варианте осуществления, способ дополнительно содержит: определение, с использованием одного или более процессоров, второй полной фактической скорости передачи битов EVS посредством суммирования второго количества битов, равного разности между целевой скоростью передачи в битах метаданных и второй фактической скоростью передачи в битах метаданных, с полной целевой скоростью передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока EVS с использованием второй полной фактической скорости передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока IVAS, включающего в себя битовый поток EVS, табличный индекс управления распределением скоростей передачи битов и квантованные и энтропийно кодированные пространственные метаданные; в соответствии со второй фактической скоростью передачи в битах метаданных, большей целевой скорости передачи в битах метаданных: квантование, с использованием одного или более процессоров, пространственных метаданных недифференциальным во времени способом согласно первой стратегии квантования; кодирование, с использованием одного или более процессоров и кодера по основанию 2, квантованных пространственных метаданных; вычисление, с использованием одного или более процессоров, третьей фактической скорости передачи в битах метаданных; и в соответствии с третьей фактической скоростью передачи в битах метаданных, меньшей или равной целевой скорости передачи в битах метаданных: выход из контура квантования.[0019] In an embodiment, the method further comprises: determining, using one or more processors, a second overall actual EVS bit rate by adding a second number of bits equal to the difference between the target metadata bit rate and the second actual metadata bit rate , with the full EVS target bit rate; generating, using one or more processors, an EVS bitstream using the second full actual EVS bitrate; generating, using one or more processors, an IVAS bitstream including an EVS bitstream, a bit rate distribution control table index, and quantized and entropy encoded spatial metadata; according to a second actual metadata bit rate greater than the target metadata bit rate: quantizing, using one or more processors, the spatial metadata in a time-nondifferential manner according to a first quantization strategy; encoding, using one or more processors and a
[0020] В варианте осуществления, способ дополнительно содержит: определение, с использованием одного или более процессоров, третьей полной фактической скорости передачи битов EVS посредством суммирования третьего количества битов, равного разности между целевой скоростью передачи в битах метаданных и третьей фактической скоростью передачи в битах метаданных, с полной целевой скоростью передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока EVS с использованием третьей полной фактической скорости передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока IVAS, включающего в себя битовый поток EVS, табличный индекс управления распределением скоростей передачи битов и квантованные и энтропийно кодированные пространственные метаданные; в соответствии с третьей фактической скоростью передачи в битах метаданных, большей целевой скорости передачи в битах метаданных: задание, с использованием одного или более процессоров, четвертой фактической скорости передачи в битах метаданных в качестве минимума из первой, второй и третьей фактических скоростей передачи в битах метаданных; определение, с использованием одного или более процессоров, того, является ли четвертая фактическая скорость передачи в битах метаданных меньшей или равной максимальной скорости передачи в битах метаданных; в соответствии с четвертой фактической скоростью передачи в битах метаданных, меньшей или равной максимальной скорости передачи в битах метаданных: определение, с использованием одного или более процессоров, того, является ли четвертая фактическая скорость передачи в битах метаданных меньшей или равной целевой скорости передачи в битах метаданных; и в соответствии с четвертой фактической скоростью передачи в битах метаданных, меньшей или равной целевой скорости передачи в битах метаданных: выход из контура квантования.[0020] In an embodiment, the method further comprises: determining, using one or more processors, a third overall actual EVS bit rate by summing a third number of bits equal to the difference between the target metadata bit rate and the third actual metadata bit rate , with the full EVS target bit rate; generating, using one or more processors, an EVS bitstream using a third full actual EVS bit rate; generating, using one or more processors, an IVAS bitstream including an EVS bitstream, a bit rate distribution control table index, and quantized and entropy encoded spatial metadata; according to a third actual metadata bit rate greater than the target metadata bit rate: setting, using one or more processors, a fourth actual metadata bit rate as the minimum of the first, second and third actual metadata bit rates ; determining, using one or more processors, whether the fourth actual metadata bit rate is less than or equal to the maximum metadata bit rate; according to a fourth actual metadata bit rate less than or equal to a maximum metadata bit rate: determining, using one or more processors, whether the fourth actual metadata bit rate is less than or equal to a target metadata bit rate ; and according to a fourth actual metadata bit rate less than or equal to the target metadata bit rate: leaving the quantization loop.
[0021] В варианте осуществления, способ дополнительно содержит: определение, с использованием одного или более процессоров, четвертой полной фактической скорости передачи битов EVS посредством суммирования четвертого количества битов, равного разности между целевой скоростью передачи в битах метаданных и четвертой фактической скоростью передачи в битах метаданных, с полной целевой скоростью передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока EVS с использованием четвертой полной фактической скорости передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока IVAS, включающего в себя битовый поток EVS, табличный индекс управления распределением скоростей передачи битов и квантованные и энтропийно кодированные пространственные метаданные; и в соответствии с четвертой фактической скоростью передачи в битах метаданных, большей целевой скорости передачи в битах метаданных и меньшей или равной максимальной скорости передачи в битах метаданных: выход из контура квантования.[0021] In an embodiment, the method further comprises: determining, using one or more processors, a fourth overall actual EVS bit rate by adding a fourth number of bits equal to the difference between the target metadata bit rate and the fourth actual metadata bit rate , with the full EVS target bit rate; generating, using one or more processors, an EVS bitstream using a fourth of the full actual EVS bitrate; generating, using one or more processors, an IVAS bitstream including an EVS bitstream, a bit rate distribution control table index, and quantized and entropy encoded spatial metadata; and according to the fourth actual metadata bit rate, greater than the target metadata bit rate and less than or equal to the maximum metadata bit rate: leaving the quantization loop.
[0022] В варианте осуществления, способ дополнительно содержит: определение, с использованием одного или более процессоров, пятой полной фактической скорости передачи битов EVS посредством вычитания количества битов, равного разности между четвертой фактической скоростью передачи в битах метаданных и целевой скоростью передачи в битах метаданных, из полной целевой скорости передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока EVS с использованием пятой фактической скорости передачи битов EVS; формирование, с использованием одного или более процессоров, битового потока IVAS, включающего в себя битовый поток EVS, табличный индекс управления распределением скоростей передачи битов и квантованные и энтропийно кодированные пространственные метаданные; в соответствии с четвертой фактической скоростью передачи в битах метаданных, большей максимальной скорости передачи в битах метаданных: изменение первой стратегии квантования на вторую стратегию квантования и вход в контур квантования снова с использованием второй стратегии квантования, причем вторая стратегия квантования является более приблизительной, чем первая стратегия квантования. В варианте осуществления, может использоваться третья стратегия квантования, которая гарантированно обеспечивает фактическую скорость передачи битов MD, меньшую, чем максимальная скорость передачи битов MD.[0022] In an embodiment, the method further comprises: determining, using one or more processors, a fifth overall actual EVS bit rate by subtracting a number of bits equal to the difference between the fourth actual metadata bit rate and the target metadata bit rate, from the full EVS target bit rate; generating, using one or more processors, an EVS bitstream using a fifth of the actual EVS bitrate; generating, using one or more processors, an IVAS bitstream including an EVS bitstream, a bit rate distribution control table index, and quantized and entropy encoded spatial metadata; according to a fourth actual metadata bit rate greater than the maximum metadata bit rate: changing the first quantization strategy to a second quantization strategy and entering the quantization loop again using the second quantization strategy, the second quantization strategy being more approximate than the first strategy quantization. In an embodiment, a third quantization strategy may be used that is guaranteed to provide an actual MD bit rate that is less than the maximum MD bit rate.
[0023] В варианте осуществления, конфигурация SPAR задается посредством строки понижающего микширования, активного флага W, флага комплексных пространственных метаданных, стратегий квантования пространственных метаданных, минимальной, максимальной и целевой скоростей передачи битов для одного или более экземпляров монокодера/декодера (кодека) с поддержкой улучшенных голосовых служб (EVS) и флага приглушения декоррелятора во временной области.[0023] In an embodiment, the SPAR configuration is specified by a downmix string, an active W flag, a complex spatial metadata flag, spatial metadata quantization strategies, minimum, maximum, and target bit rates for one or more enabled monocoder/decoder (codec) instances. enhanced voice services (EVS) and a time domain decorrelator muting flag.
[0024] В варианте осуществления, общее фактическое число битов EVS равно числу битов IVAS минус число битов заголовка минус фактическая скорость передачи в битах метаданных, и при этом если общее число фактических битов EVS меньше общего числа целевых битов EVS, то биты извлекаются из каналов EVS в следующем порядке: Z, X, Y и W, и при этом максимальное число битов, которые могут извлекаться из любого канала, равно числу целевых битов EVS для канала минус минимальное число битов EVS для канала, и при этом если число фактических битов EVS больше числа целевых EVS-битов, то все дополнительные биты назначаются каналам понижающего микширования в следующем порядке: W, Y, X и Z, и максимальное число дополнительных битов, которые могут добавляться в любой канал, равно максимальному числу битов EVS минус число целевых битов EVS.[0024] In an embodiment, the total actual number of EVS bits is equal to the number of IVAS bits minus the number of header bits minus the actual metadata bit rate, and wherein if the total number of actual EVS bits is less than the total number of EVS target bits, then the bits are extracted from the EVS channels in the following order: Z, X, Y and W, and the maximum number of bits that can be extracted from any channel is equal to the number of target EVS bits for the channel minus the minimum number of EVS bits for the channel, and if the number of actual EVS bits is greater number of target EVS bits, then all additional bits are assigned to the downmix channels in the following order: W, Y, X and Z, and the maximum number of additional bits that can be added to any channel is equal to the maximum number of EVS bits minus the number of target EVS bits.
[0025] В варианте осуществления, способ декодирования битового потока с поддержкой иммерсивных голосовых и аудиослужб (IVAS) содержит: прием, с использованием одного или более процессоров, битового потока IVAS; получение, с использованием одного или более процессоров, скорости передачи битов IVAS из длины в битах битового потока IVAS; получение, с использованием одного или более процессоров, табличного индекса управления распределением скоростей передачи битов из битового потока IVAS; синтаксический анализ, с использованием одного или более процессоров, стратегии квантования метаданных из заголовка битового потока IVAS; синтаксический анализ и деквантование, с использованием одного или более процессоров, битов квантованных пространственных метаданных на основе стратегии квантования метаданных; задание, с использованием одного или более процессоров, фактического числа битов с поддержкой улучшенных голосовых служб (EVS), равного оставшейся длине в битах битового потока IVAS; считывание, с использованием одного или более процессоров и табличного индекса управления распределением скоростей передачи битов, записей таблицы для таблицы управления распределением скоростей передачи битов, которые содержат целевую и минимальную скорость передачи битов EVS и максимальную скорость передачи битов EVS для одного или более экземпляров EVS; получение, с использованием одного или более процессоров, фактической скорости передачи битов EVS для каждого канала понижающего микширования; и декодирование, с использованием одного или более процессоров, каждого канала EVS с использованием фактической скорости передачи битов EVS для канала; и повышающее микширование, с использованием одного или более процессоров, каналов EVS в каналы амбиофонии первого порядка (FoA).[0025] In an embodiment, a method for decoding a bitstream supporting immersive voice and audio services (IVAS) comprises: receiving, using one or more processors, an IVAS bitstream; obtaining, using one or more processors, the IVAS bit rate from the bit length of the IVAS bit stream; obtaining, using one or more processors, a bit rate distribution control table index from the IVAS bit stream; parsing, using one or more processors, a strategy for quantizing metadata from the IVAS bitstream header; parsing and dequantizing, using one or more processors, bits of quantized spatial metadata based on a metadata quantization strategy; setting, using one or more processors, an actual number of enhanced voice services (EVS) enabled bits equal to the remaining bit length of the IVAS bit stream; reading, using one or more processors and the bit rate distribution control table index, table entries for the bit rate distribution control table that contain a target and minimum EVS bit rate and a maximum EVS bit rate for one or more EVS instances; obtaining, using one or more processors, the actual EVS bit rate for each downmix channel; and decoding, using one or more processors, each EVS channel using the actual EVS bit rate for the channel; and upmixing, using one or more processors, the EVS channels into first order ambiophonic (FoA) channels.
[0026] В варианте осуществления, система содержит: один или более процессоров; и постоянный машиночитаемый носитель, сохраняющий инструкции, которые, при выполнении посредством одного или более процессоров, предписывают одному или более процессорам выполнять операции любого из способов, описанных выше.[0026] In an embodiment, the system includes: one or more processors; and a non-transitory computer-readable medium storing instructions that, when executed by one or more processors, cause one or more processors to perform operations in any of the methods described above.
[0027] В варианте осуществления, постоянный машиночитаемый носитель, сохраняющий инструкции, которые, при выполнении посредством одного или более процессоров, предписывают одному или более процессорам выполнять операции любого из способов, описанных выше.[0027] In an embodiment, a non-transitory computer-readable medium storing instructions that, when executed by one or more processors, cause one or more processors to perform operations in any of the methods described above.
[0028] Другие реализации, раскрытые в данном документе, относятся к системе, устройству и машиночитаемому носителю. Подробности раскрытых реализаций представлены на сопровождающих чертежах и в нижеприведенном описании. Другие признаки, задачи и преимущества должны стать очевидными из описания, чертежей и формулы изобретения.[0028] Other implementations disclosed herein relate to a system, device, and computer-readable medium. Details of the disclosed implementations are set forth in the accompanying drawings and in the description below. Other features, objects and advantages will become apparent from the description, drawings and claims.
[0029] Конкретные реализации, раскрытые в данном документе, обеспечивают одно или более из следующих преимуществ. Скорость передачи битов кодека IVAS распределяется между монокодеком и пространственными метаданными (MD) и между множеством экземпляров монокодека. Для определённого аудиокадра, кодек IVAS определяет режим пространственного кодирования аудио (параметрическое или остаточное кодирование). Битовый поток IVAS оптимизируется таким образом, чтобы уменьшить пространственные MD, уменьшить объем служебной информации монокодека и минимизировать потери битов до нуля.[0029] Specific implementations disclosed herein provide one or more of the following advantages. The IVAS codec bit rate is shared between the mono codec and spatial metadata (MD) and among multiple mono codec instances. For a given audio frame, the IVAS codec determines the spatial audio coding mode (parametric or residual coding). The IVAS bitstream is optimized to reduce spatial MD, reduce mono codec overhead, and minimize bit loss to zero.
Краткое описание чертежейBrief description of drawings
[0030] На чертежах, конкретные компоновки или упорядочения схематичных элементов, к примеру, элементов, которые представляют устройства, модули, блоки обработки инструкций и элементы данных, показаны для простоты описания. Тем не менее, специалисты в данной области техники должны понимать, что конкретное упорядочение или компоновка схематичных элементов на чертежах не имеют намерение подразумевать то, что требуется конкретный порядок или последовательность обработки или разделение процессов. Кроме того, включение схематичного элемента на чертеже не имеет намерение подразумевать то, что такой элемент требуется во всех вариантах осуществления, или то, что в некоторых реализациях признаки, представленные таким элементом, могут не быть включены или могут быть объединены с другими элементами.[0030] In the drawings, specific arrangements or arrangements of schematic elements, for example, elements that represent devices, modules, instruction processing units, and data elements, are shown for ease of description. However, those skilled in the art will understand that the particular ordering or arrangement of the schematic elements in the drawings is not intended to imply that a particular order or sequence of processing or division of processes is required. Moreover, the inclusion of a schematic element in the drawing is not intended to imply that such element is required in all embodiments, or that in some implementations the features represented by such element may not be included or may be combined with other elements.
[0031] Кроме того, на чертежах, на которых соединительные элементы, такие как сплошные или пунктирные линии либо стрелки, используются для иллюстрации соединения, взаимосвязи или ассоциации между двумя или более других схематичных элементов, отсутствие таких соединительных элементов не имеет намерение подразумевать то, что соединение, взаимосвязь или ассоциирование не может существовать. Другими словами, некоторые соединения, взаимосвязи или ассоциирования между элементами не показаны на чертежах с тем, чтобы не затруднять понимание изобретения. Помимо этого, для простоты иллюстрации, для представления множества соединений, взаимосвязей или ассоциаций между элементами используется один соединительный элемент. Например, если соединительный элемент представляет обмен сигналами, данными или инструкциями, специалисты в данной области техники должны понимать, что такой элемент представляет один или более трактов передачи сигналов, в зависимости от необходимости для осуществления связи.[0031] Additionally, in drawings in which connecting elements, such as solid or dotted lines or arrows, are used to illustrate a connection, relationship, or association between two or more other schematic elements, the absence of such connecting elements is not intended to imply that connection, relationship or association cannot exist. In other words, certain connections, relationships or associations between elements are not shown in the drawings so as not to obscure the invention. In addition, for ease of illustration, a single connecting element is used to represent multiple connections, relationships, or associations between elements. For example, if a connecting element represents the exchange of signals, data, or instructions, those skilled in the art will understand that such element represents one or more signal paths, depending on the need for communication.
[0032] Фиг. 1 иллюстрирует варианты использования для кодека IVAS, согласно варианту осуществления.[0032] FIG. 1 illustrates use cases for the IVAS codec, according to an embodiment.
[0033] Фиг. 2 является блок-схемой системы для кодирования и декодирования битовых потоков IVAS согласно варианту осуществления.[0033] FIG. 2 is a block diagram of a system for encoding and decoding IVAS bitstreams according to an embodiment.
[0034] Фиг. 3 является блок-схемой кодера/декодера («кодека») на основе амбиофонии первого порядка (FoA) для модуля пространственного восстановления (SPAR) для кодирования и декодирования битовых потоков IVAS в формате FoA согласно варианту осуществления.[0034] FIG. 3 is a block diagram of a first-order ambiophony (FoA) encoder/decoder (“codec”) for a spatial reconstruction module (SPAR) for encoding and decoding IVAS bitstreams in FoA format according to an embodiment.
[0035] Фиг. 4A является блок-схемой сигнальной цепочки IVAS для входных сигналов FoA и стереосигналов, согласно варианту осуществления.[0035] FIG. 4A is a block diagram of an IVAS signal chain for FoA input signals and stereo signals, according to an embodiment.
[0036] Фиг. 4B является блок-схемой альтернативной сигнальной цепочки IVAS для входных сигналов FoA и стереосигналов, согласно варианту осуществления.[0036] FIG. 4B is a block diagram of an alternative IVAS signal chain for FoA input signals and stereo signals, according to an embodiment.
[0037] Фиг. 5A является блок-схемой процесса распределения скоростей передачи битов для входных стереосигналов, плоских FoA и сигналов FoA согласно варианту осуществления.[0037] FIG. 5A is a flowchart of a process for allocating bit rates for input stereo signals, flat FoA and FoA signals according to an embodiment.
[0038] Фиг. 5B и 5C являются блок-схемой процесса распределения скоростей передачи битов для входных сигналов FoA для модуля пространственного восстановления (SPAR), согласно варианту осуществления.[0038] FIG. 5B and 5C are a flow diagram of a process for allocating bit rates for FoA input signals for a spatial recovery module (SPAR), according to an embodiment.
[0039] Фиг. 6 является блок-схемой процесса распределения скоростей передачи битов для входных стереосигналов, плоских FoA и сигналов FoA, согласно варианту осуществления.[0039] FIG. 6 is a flow chart of a process for allocating bit rates for input stereo signals, flat FoA and FoA signals, according to an embodiment.
[0040] Фиг. 7 является блок-схемой для процесса распределения скоростей передачи битов для входного сигнала FoA SPAR, согласно варианту осуществления. [0040] FIG. 7 is a flowchart for a bit rate allocation process for an input FoA SPAR signal, according to an embodiment.
[0041] Фиг. 8 является блок-схемой примерной архитектуры устройства, согласно варианту осуществления.[0041] FIG. 8 is a block diagram of an exemplary device architecture, according to an embodiment.
[0042] Одинаковые ссылочные позиции, используемые на различных чертежах, указывают на аналогичные элементы.[0042] Like reference numerals used in different drawings indicate like elements.
Осуществление изобретенияCarrying out the invention
[0043] В нижеприведенном подробном описании приведено множество конкретных подробностей для обеспечения полного понимания различных описанных вариантов осуществления. Специалистам в данной области техники должно быть очевидным, что различные описанные реализации могут осуществляться на практике без этих конкретных подробностей. В других случаях, хорошо известные способы, процедуры, компоненты и схемы не описаны подробно с тем, чтобы не затруднять понимание аспектов вариантов осуществления. Ниже описано множество признаков, которые могут использоваться независимо друг от друга либо с любым сочетанием других признаков.[0043] In the following detailed description, numerous specific details are set forth in order to provide a thorough understanding of the various embodiments described. It will be apparent to those skilled in the art that the various implementations described may be practiced without these specific details. In other cases, well-known methods, procedures, components and circuits are not described in detail so as not to obscure aspects of the embodiments. A variety of features are described below that can be used independently of each other or with any combination of other features.
ТерминологияTerminology
[0044] При использовании в данном документе термин «включает в себя» и его разновидности следует читать как неисключающие термины, которые означают «включает в себя, не ограничиваясь». Термин «или» следует читать как «и/или», если контекст явным образом не указывает иное. Термин «на основе» следует трактовать как «по меньшей мере частично на основе». Термин «одна примерная реализация» и «примерная реализация» следует читать как «по меньшей мере одна примерная реализация». Термин «другая реализация» следует читать как «по меньшей мере одна другая реализация». Термины «определенный», «определяет» или «определение» следует читать как получение, прием, расчет, вычисление, оценка, прогнозирование или извлечение. Помимо этого, в нижеприведенном описании и в формуле изобретения, если не указано иное, все технические и научные термины, используемые в данном документе, имеют тот же смысл, в котором их обычно понимают специалисты в той области техники, к которой относится данное изобретение.[0044] When used herein, the term “includes” and its variations should be read as non-exclusive terms that mean “includes but is not limited to.” The term “or” should be read as “and/or” unless the context clearly indicates otherwise. The term “based on” should be interpreted as “at least partially based on.” The terms “one example implementation” and “example implementation” should be read as “at least one example implementation”. The term "other implementation" should be read as "at least one other implementation". The terms “determined,” “determines,” or “determining” should be read as receiving, receiving, calculating, calculating, estimating, predicting, or extracting. In addition, in the following description and claims, unless otherwise indicated, all technical and scientific terms used herein have the same meaning as commonly understood by those skilled in the art to which this invention relates.
Примеры вариантов использования IVASExamples of IVAS use cases
[0045] Фиг. 1 иллюстрирует варианты 100 использования для кодека 100 IVAS согласно одной или более реализациям. В некоторых реализациях, различные устройства обмениваются данными через сервер 102 вызовов, который выполнен с возможностью приёма аудиосигналов, например, из коммутируемой телефонной сети общего пользования (PSTN) или наземной сети мобильной связи общего пользования (PLMN), проиллюстрированной посредством PSTN/другой PLMN 104. Варианты 100 использования поддерживают ранее созданные устройства 106, которые выполняют рендеринг и захватывают только аудио в моно, включающие в себя, не ограничиваясь: устройства, которые поддерживают улучшенные голосовые службы (EVS), стандарт широкополосного адаптивного многоскоростного кодирования (AMR-WB) и стандарт узкополосного адаптивного многоскоростного кодирования (AMR-NB). Варианты 100 использования также поддерживают абонентское устройство 108, 114 (UE), которое захватывает и выполняет рендеринг стереоаудиосигналов, или UE 110, которое захватывает и выполняет бинауральный рендеринг моносигналов в многоканальные сигналы. Варианты 100 использования также поддерживают иммерсивные и стереосигналы, захваченные и подготовленные посредством рендеринга посредством систем 116, 118 в видеоконференц-залах, соответственно. Варианты 100 использования также поддерживают стереозахват и иммерсивный рендеринг стереоаудиосигналов для систем 120 домашнего кинотеатра и компьютера 112 и монозахват и иммерсивный рендеринг аудиосигналов для гарнитуры 122 системы виртуальной реальности (VR) и модуля 124 поглощения иммерсивного содержимого.[0045] FIG. 1 illustrates
Примерные системы кодирования/декодирования IVASExample IVAS encoding/decoding systems
[0046] Фиг. 2 является блок-схемой системы 200 для кодирования и декодирования битовых потоков IVAS согласно одной или более реализациям. Для кодирования, кодер IVAS включает в себя модуль 202 пространственного анализа и понижающего микширования, который принимает аудиоданные 201, включающие в себя, не ограничиваясь: моносигналы, стереосигналы, бинауральные сигналы, пространственные аудиосигналы (например, многоканальные пространственные аудиообъекты), FoA, амбиофонию высшего порядка (HoA) и любые другие аудиоданные. В некоторых реализациях, модуль 202 пространственного анализа и понижающего микширования реализует улучшенную сложную связь (CACPL) для анализа/понижающего микширования аудиосигналов стерео/FoA- и/или SPAR для анализа/понижающего микширования аудиосигналов FoA. В других реализациях, модуль 202 пространственного анализа и понижающего микширования реализует другие форматы.[0046] FIG. 2 is a block diagram of a
[0047] Вывод модуля 202 пространственного анализа и понижающего микширования включает в себя пространственные метаданные и 1-N каналов понижающего микширования аудио, где N является числом входных каналов. Пространственные метаданные вводятся в модуль 203 квантования и энтропийного кодирования, который квантует и выполняет энтропийное кодирование пространственных данных. В некоторых реализациях, квантование может включать в себя несколько уровней все более приблизительного квантования, таких как, например, стратегии точного, среднего, приблизительного и сверхприблизительного квантования, и энтропийное кодирование может включать в себя кодирование кодом Хаффмана или арифметическое кодирование. Модуль 206 кодирования с поддержкой улучшенных голосовых служб (EVS) кодирует 1-N каналов аудио в один или более битовых потоков EVS.[0047] The output of spatial analysis and
[0048] В некоторых реализациях, модуль 206 кодирования EVS соответствует 3GPP TS 26.445 и обеспечивает широкий диапазон функциональностей, к примеру, повышенное качество и эффективность кодирования для узкополосных (EVS-NB) и широкополосных (EVS-WB) речевых служб, повышенное качество с использованием сверхширокополосной (EVS-SWB) речи, повышенное качество для микшированного содержимого и музыки в разговорных вариантах применения, устойчивость к потерям пакетов и дрожанию времени задержки и обратную совместимость с кодеком AMR-WB. В некоторых реализациях, модуль 206 кодирования EVS включает в себя модуль предварительной обработки и выбора режима, который выбирает между речевым кодером для кодирования речевых сигналов и перцепционным кодером для кодирования аудиосигналов на указанной скорости передачи битов на основе управления 207 режимом/скоростью передачи битов. В некоторых реализациях, речевой кодер представляет собой улучшенный вариант линейного прогнозирования с возбуждением по алгебраическому коду (ACELP), расширенного со специализированными режимами на основе линейного прогнозирования (LP) для различных речевых классов. В некоторых реализациях, аудиокодер представляет собой кодер на основе модифицированного дискретного косинусного преобразования (MDCT) с повышенной эффективностью при низкой задержке/на низких скоростях передачи битов и проектируется с возможностью выполнения прозрачного и надежного переключения между речевыми и аудиокодерами.[0048] In some implementations,
[0049] В некоторых реализациях, декодер IVAS включает в себя модуль 204 квантования и энтропийного декодирования, выполненный с возможностью восстановления пространственных метаданных, и декодер(ы) 208 EVS, выполненный(е) с возможностью восстанавливать 1-N канальных аудиосигналов. Восстановленные пространственные метаданные и аудиосигналы вводятся в модуль 209 пространственного синтеза/рендеринга, который синтезирует/выполняет рендеринг аудиосигналов с использованием пространственных метаданных для воспроизведения на различных аудиосистемах 210.[0049] In some implementations, the IVAS decoder includes a quantization and
Примерный кодек IVAS/SPARSample codec IVAS/SPAR
[0050] Фиг. 3 является блок-схемой кодека 300 FoA для кодирования и декодирования FoA в формате SPAR, согласно некоторым реализациям. Кодек 300 FoA включает в себя кодер 301 FoA SPAR, кодер 305 EVS, декодер 306 FoA SPAR и декодер 307 EVS. Кодер 301 FoA SPAR преобразует входной сигнал FoA в набор каналов понижающего микширования и параметры, используемые для повторного формирования входного сигнала в декодере 306 FoA SPAR. Сигналы понижающего микширования могут варьироваться от 1 до 4 каналов, и параметры включают в себя коэффициенты прогнозирования (PR), коэффициенты кросс-прогнозирования (C) и коэффициенты декорреляции (P). Следует отметить, что SPAR представляет собой процесс, используемый для восстановления аудиосигнала из микшированной с понижением версии аудиосигнала с использованием параметров PR, C и P, как подробнее описано ниже.[0050] FIG. 3 is a block diagram of a
[0051] Следует отметить, что примерная реализация, показанная на фиг. 3, иллюстрирует номинальное двухканальное понижающее микширование, при котором канал W (пассивный прогнозный) или W' (активный прогнозный) отправляется с одним прогнозированным каналом Y' в декодер 306. В некоторых реализациях, W может представлять собой активный канал. Активный канал W обеспечивает возможность некоторого микширования каналов X, Y, Z в канал W следующим образом:[0051] It should be noted that the exemplary implementation shown in FIG. 3 illustrates a nominal two-channel downmix in which a W (passive predictive) or W' (active predictive) channel is sent with one predictive channel Y' to
W'=W+f*pry*Y+f*prz*Z+f*prx*X,W'=W+f*pr y* Y+f*pr z* Z+f*pr x* X,
где f является константой (например, 0,5), которая обеспечивает возможность микширования некоторых каналов X, Y, Z в канал W, и pry, prx и prz являются коэффициентами прогнозирования (PR). В пассивном W, f=0, так что отсутствует микширование каналов X, Y, Z в канал W.where f is a constant (eg 0.5) that allows some channels X, Y, Z to be mixed into channel W, and pr y , pr x and pr z are prediction coefficients (PR). In passive W, f=0, so there is no mixing of the X, Y, Z channels into the W channel.
[0052] Коэффициенты кросс-прогнозирования (C) обеспечивают возможность восстановления некоторой части параметрических каналов из остаточных каналов, в случаях, если по меньшей мере один канал отправляется в качестве остатка, и по меньшей мере один отправляется параметрически, т. е. для двух- или трехканальных понижающих микширований. Для двухканальных понижающих микширований (как подробнее описано ниже), коэффициенты C обеспечивают возможность восстановления некоторых каналов X и Z из Y', и оставшиеся каналы восстанавливаются посредством декоррелированных версий канала W, как подробнее описано ниже. В случае трехканального понижающего микширования, Y' и X' используются для восстановления только Z.[0052] Cross-prediction coefficients (C) provide the ability to recover some portion of the parametric channels from the residual channels in cases where at least one channel is sent as a residual and at least one is sent parametrically, i.e., for two or three-channel downmixes. For two-channel downmixes (as described in more detail below), the C coefficients allow some of the X and Z channels to be recovered from Y', and the remaining channels are recovered through decorrelated versions of the W channel, as described in more detail below. In the case of a three-channel downmix, Y' and X' are used to restore only Z.
[0053] В некоторых реализациях, кодер 301 FoA SPAR включает в себя модуль 302 пассивного/активного прогнозирования, модуль 303 повторного микширования и модуль 304 извлечения/выбора понижающего микширования. Модуль пассивного/активного прогнозирования принимает каналы FoA в 4-канальном формате B (W, Y, Z, X) и вычисляет каналы понижающего микширования (представление W, Y', Z', X').[0053] In some implementations,
[0054] Модуль 304 извлечения/выбора понижающего микширования извлекает SPAR метаданные FoA из секции рабочих данных метаданных битового потока IVAS, как подробнее описано ниже. Модуль 302 пассивного/активного прогнозирования и модуль 303 повторного микширования используют SPAR метаданные FoA для формирования повторно микшированных каналов FoA (W или W' и A'), которые вводятся в кодер 305 EVS для кодирования в битовый поток EVS, который инкапсулирован в битовом потоке IVAS, отправленном в декодер 306. В этом примере следует отметить, что амбиофонические каналы в формате B компонуются согласно условному обозначению AmbiX. Тем не менее, также могут использоваться другие условные обозначения, к примеру, условное обозначение Фурса-Малхама (FuMa) (W, X, Y, Z).[0054] The downmix extract/
[0055] Что касается SPAR -декодера 306 FoA, битовый поток EVS декодируется посредством декодера 307 EVS, приводя к N_dmx (например, N_dmx=2) каналов понижающего микширования. В некоторых реализациях, декодер 306 FoA SPAR выполняет в обратном порядке операции, выполняемые посредством кодера 301 SPAR. Например, в примере по фиг. 3 повторно микшированные каналы FoA (представление W', A', B', C') восстанавливаются из 2 каналов понижающего микширования с использованием пространственных метаданных FoA SPAR. Повторно микшированные каналы FoA SPAR вводятся в обратный микшер 311 для восстановления каналов FoA SPAR понижающего микширования (представление W', Y', Z', X'). Прогнозированные каналы FoA SPAR затем вводятся в модуль 312 обратного прогнозирования, чтобы восстанавливать исходные немикшированные каналы FoA SPAR (W, Y, Z, X).[0055] With respect to the
Следует отметить, что в этом двухканальном примере, блоки 309A (dec1) и 309B (dec2) декоррелятора используются для формирования декоррелированных версий канала W с использованием декоррелятора во временной области или в частотной области. Каналы понижающего микширования и декоррелированные каналы используются в сочетании с -метаданными FoA SPAR для восстановления каналов X и Z полностью или параметрически. Блок 308 C означает умножение остаточного канала на матрицу коэффициентов C 2×1, с созданием двух кросс-прогнозных сигналов, которые суммируются в параметрически восстановленные каналы, как показано на фиг. 3. Блок 310A P1 и блок 310B P2 означают умножение выводов декоррелятора на столбцы матрицы коэффициентов P 2×2, с созданием четырех выводов, которые суммируются в параметрически восстановленные каналы, как показано на фиг. 3.It should be noted that in this two-channel example, decorrelator blocks 309A (dec1) and 309B (dec2) are used to generate decorrelated versions of channel W using a time domain or frequency domain decorrelator. Downmix channels and decorrelated channels are used in combination with FoA SPAR metadata to reconstruct the X and Z channels either completely or parametrically. Block 308 C means multiplying the residual channel by a 2×1 coefficient matrix C, creating two cross-prediction signals that are summed into parametrically reconstructed channels, as shown in FIG. 3.
[0056] В некоторых реализациях, в зависимости от числа каналов понижающего микширования, один из вводов FoA отправляется в декодер 306 FoA SPAR нетронутым (канал W), и один-три других канала (Y, Z и X) отправляются в качестве остатков или полностью параметрически в декодер 306 FoA SPAR. Коэффициенты PR, которые остаются одинаковыми независимо от числа N каналов понижающего микширования, используются для минимизации прогнозируемой энергии в каналах остаточного понижающего микширования. Коэффициенты C используются для дополнительной помощи при повторном формировании полностью параметрических каналов из остатков. В связи с этим, коэффициенты C не требуются в случаях одно- и четырехканального понижающего микширования, в которых отсутствуют остаточные каналы или параметризованные каналы для прогнозирования. Коэффициенты P используются для заполнения оставшейся энергии, не учитываемой коэффициентами PR и C. Число коэффициентов P зависит от числа N каналов понижающего микширования в каждой полосе частот. В некоторых реализациях, коэффициенты PR SPAR (только пассивный W) вычисляются следующим образом.[0056] In some implementations, depending on the number of downmix channels, one of the FoA inputs is sent to
[0057] Этап 1. Прогнозирование всех боковых сигналов (Y, Z, X) из основного сигнала W с использованием уравнения [1].[0057] Step 1: Predict all side signals (Y, Z, X) from the main signal W using equation [1].
, [1] , [1]
где, в качестве примера, параметр прогнозирования для прогнозированного канала Y' вычисляется с использованием уравнения [2].where, as an example, the prediction parameter for the predicted channel Y' is calculated using equation [2].
, [2] , [2]
где являются элементами входной ковариационной матрицы, соответствующими сигналам A и B, и могут вычисляться в расчете на полосу частот. Аналогично, остаточные Z'- и X'-каналы имеют соответствующие параметры прогнозирования, prz и prx. PR является вектором коэффициентов прогнозирования.Where are the elements of the input covariance matrix corresponding to signals A and B, and can be calculated on a per-bandwidth basis. Likewise, the residual Z' and X' channels have corresponding prediction parameters, prz and prx. PR is the vector of coefficients forecasting.
[0058] Этап 2. Повторное микширование сигнала W и прогнозированных сигналов (Y', Z', X') от наиболее к наименее акустически релевантным, при этом «повторное микширование» означает переупорядочение или повторное объединение сигналов на основе некоторой технологии,[0058] Step 2: Remixing the W signal and the predicted signals (Y', Z', X') from most to least acoustically relevant, where "remixing" means reordering or recombining the signals based on some technology,
. [3] . [3]
[0059] Одна реализация повторного микширования представляет собой переупорядочение входных сигналов в W, Y', X', Z', при таком допущении, что сигнальные аудиометки слева и справа являются более акустически релевантными, чем спереди назад, и сигнальные метки спереди назад являются более акустически релевантными, чем сигнальные метки сверху вниз.[0059] One implementation of remixing is to reorder the input signals in W, Y', X', Z', with the assumption that audio cues left and right are more acoustically relevant than front to back, and audio cues from front to back are more acoustically relevant than top-down cues.
[0060] Этап 3. Вычисление ковариации четырехканального постпрогнозирования и понижающего микширования с повторным микшированием, как показано в уравнениях [4] и [5].[0060] Step 3: Calculate the covariance of the four-channel post-prediction and remix downmix as shown in equations [4] and [5].
[4] [4]
. [5] . [5]
где d представляет остаточные каналы (т. е. второй - N_dmx-ый каналы), и u представляет параметрические каналы, которые должны полностью повторно формироваться (т. е. (N_dmx+1)-ый - четвертый каналы).where d represents the residual channels (ie the second - N_dmxth channels) and u represents the parametric channels that must be completely reconfigured (ie the (N_dmx+1)th - fourth channels).
[0061] Для примера понижающего микширования WABC с 1-4 каналами, d и u представляют следующие каналы, показанные в таблице I:[0061] For an example of WABC downmix with 1-4 channels, d and u represent the following channels shown in Table I:
Таблица I. Представления d- и u-каналовTable I. Representations of d- and u-channels
[0062] Основной интерес при вычислении метаданных FoA SPAR представляют величины R_dd, R_ud и R_uu. Из величин R_dd, R_ud и R_uu, кодек 300 определяет, можно ли кросс-прогнозировать какую-либо оставшуюся часть полнопараметрических каналов из остаточных каналов, отправляемых в декодер. В некоторых реализациях, требуемые дополнительные коэффициенты C задаются следующим образом:[0062] Of primary interest in computing FoA SPAR metadata are the values of R_dd, R_ud and R_uu. From the values of R_dd, R_ud and R_uu,
[6] [6]
[0063] Следовательно, параметр C имеет форму (1×2) для трехканального понижающего микширования и (2×1) для двухканального понижающего микширования.[0063] Therefore, parameter C is of the form (1×2) for three-channel downmix and (2×1) for two-channel downmix.
[0064] Этап 4. Вычисление оставшейся энергии в параметризованных каналах, которые должны восстанавливаться посредством декорреляторов 309A, 309B. Остаточная энергия в каналах Res_uu повышающего микширования представляет собой разность между фактической энергией R_uu (постпрогнозирования) и повторно сформированной энергией Reg_uu кросс-прогнозирования.[0064] Step 4: Calculate the remaining energy in the parameterized channels to be reconstructed by
, [7] , [7]
[8] [8]
. [9] . [9]
В варианте осуществления, квадратный корень матрицы извлекается после того, как нормализованная матрица Resuu имеет внедиагональные элементы, заданные равными нулю. P также представляет собой ковариационную матрицу, в силу чего является эрмитово-симметричной, и в силу этого только параметры из верхнего или нижнего треугольника должны отправляться в декодер 306. Диагональные записи являются действительными, в то время как внедиагональные элементы могут быть комплексными. В варианте осуществления, коэффициенты P дополнительно могут разделяться на диагональные и внедиагональные элементы P_d и P_o. In an embodiment, the square root of the matrix is taken after the normalized matrix Res uu has off-diagonal elements set to zero. P is also a covariance matrix, thereby being Hermitian symmetric, and as such, only parameters from the upper or lower triangle need to be sent to
Примерная сигнальная цепочка IVAS (FoA или стереоввод)Example IVAS signal chain (FoA or stereo input)
[0065] Фиг. 4A является блок-схемой сигнальной цепочки 400 IVAS для входных аудиосигналов FoA и стерео согласно варианту осуществления. В этой примерной конфигурации, аудиоввод в сигнальную цепочку 400 может представлять собой четырехканальный аудиосигнал FoA или двухканальный стереоаудиосигнал. Модуль 401 понижающего микширования формирует аудиоканалы понижающего микширования (dmx_ch) и пространственные MD. Каналы понижающего микширования вводятся в модуль 402 распределения скоростей передачи битов (BR), который выполнен с возможностью квантования пространственных MD и обеспечения скоростей передачи битов монокодека для аудиоканалов понижающего микширования с использованием таблицы управления BR-распределением и скорости передачи битов IVAS, как подробно поясняется ниже. Вывод модуля 402 распределения BR вводится в модуль 403 EVS, который кодирует аудиоканалы понижающего микширования в битовый поток EVS. Битовый поток EVS и квантованные и кодированные пространственные MD вводятся в модуль 405 пакетирования битовых потоков IVAS для формирования битового потока IVAS, который передается в декодер IVAS и/или сохраняется для последующей обработки или воспроизведения на одном или более устройствах IVAS.[0065] FIG. 4A is a block diagram of an
[0066] Для входных стереосигналов модуль 401 понижающего микширования выполнен с возможностью формирования представления среднего сигнала (M'), остатки (Re) из стереосигнала и пространственные MD. Пространственные MD включают в себя коэффициенты PR, C и P для SPAR и коэффициенты PR и P для CACPL, как подробнее описано ниже. Сигнал M', Re, пространственные MD и таблица управления распределением BR вводятся в модуль 402 распределения BR (скоростей передачи битов), который выполнен с возможностью квантования пространственных метаданных и обеспечения скоростей передачи битов монокодека для каналов понижающего микширования с использованием характеристик сигналов сигнала M' и таблицы управления распределением BR. Сигнал M', Re и BR монокодека вводятся в модуль 403 EVS, который кодирует сигнал M' и Re в битовый поток EVS. Битовый поток EVS и квантованные и кодированные пространственные MD вводятся в модуль 405 пакетирования битовых потоков IVAS для формирования битового потока IVAS, который передается в декодер IVAS и/или сохраняется для последующей обработки или воспроизведения на одном или более устройствах IVAS.[0066] For stereo input signals, the
[0067] Для входных сигналов FoA модуль 401 понижающего микширования выполнен с возможностью формирования 1-4 канала W', Y', X' и Z' понижающего микширования FoA и пространственные MD. Пространственные MD включают в себя коэффициенты PR, C и P для SPAR и коэффициенты PR и P для CACPL, как подробнее описано ниже. 1-4 канала (W', Y', X', Z') понижающего микширования FoA вводятся в модуль 402 распределения BR, который выполнен с возможностью квантования пространственных MD и обеспечения скоростей передачи битов монокодека для канала(ов) понижающего микширования FoA с использованием характеристик сигналов канала(ов) понижающего микширования FoA и таблицы управления BR-распределением. Канал(ы) понижающего микширования FoA вводится(ятся) в модуль 403 EVS, который кодирует канал(ы) понижающего микширования FoA в битовый поток EVS. Битовый поток EVS и квантованные и кодированные пространственные MD вводятся в модуль 405 пакетирования битовых потоков IVAS для формирования битового потока IVAS, который передается в декодер IVAS и/или сохраняется для последующей обработки или воспроизведения на одном или более устройствах IVAS. Декодер IVAS может выполнять в обратном порядке операции, выполняемые кодером IVAS, для восстановления входных аудиосигналов для воспроизведения на устройстве IVAS.[0067] For FoA input signals, the
[0068] Фиг. 4B является блок-схемой альтернативной сигнальной цепочки 405 IVAS для входных аудиосигналов FoA и стерео согласно варианту осуществления. В этой примерной конфигурации аудиоввод в сигнальную цепочку 405 может представлять собой четырехканальный аудиосигнал FoA или двухканальный стереоаудиосигнал. В этом варианте осуществления, препроцессор 406 извлекает свойства сигналов из входных аудиосигналов, такие как полоса пропускания (BW), данные классификации речи/музыки, данные обнаружения голосовой активности (VAD) и т. д.[0068] FIG. 4B is a block diagram of an alternative
[0069] Модуль 407 обработки пространственных MD формирует пространственные MD из входного аудиосигнала с использованием извлеченных свойств сигналов. Входной аудиосигнал, свойства сигналов и пространственные MD вводятся в модуль 408 BR-распределения, который выполнен с возможностью квантования пространственных MD и обеспечения скоростей передачи битов монокодека для аудиоканалов понижающего микширования с использованием таблицы управления BR-распределением и скорости передачи битов IVAS, подробно описанных ниже.[0069] Spatial
[0070] Входные аудиосигналы, квантованные пространственные MD и число каналов (d_dmx) понижающего микширования, выводимые посредством модуля 408 BR-распределения, вводятся в модуль 409 понижающего микширования, который формирует канал(ы) понижающего микширования. Например, для сигналов FoA, каналы понижающего микширования могут включать в себя W' и N_dmx-1 остатков (Re).[0070] The input audio signals, quantized spatial MDs, and number of downmix channels (d_dmx) output by the
[0071] Скорости передачи битов EVS, выводимые посредством модуля 408 BR-распределения, и канал(ы) понижающего микширования вводятся в модуль 410 EVS, который кодирует канал(ы) понижающего микширования в битовый поток EVS. Битовый поток EVS и квантованные кодированные пространственные MD вводятся в модуль 411 пакетирования битовых потоков IVAS для формирования битового потока IVAS, который передается в декодер IVAS и/или сохраняется для последующей обработки или воспроизведения на одном или более устройств IVAS. Декодер IVAS может выполнять в обратном порядке операции, выполняемые кодером IVAS, для восстановления входных аудиосигналов для воспроизведения на устройстве IVAS.[0071] The EVS bit rates output by the
Примерная стратегия управления распределением скоростей передачи битовExemplary Bit Rate Allocation Control Strategy
[0072] В варианте осуществления, стратегия управления распределением скоростей передачи битов IVAS включает в себя два компонента. Первый компонент представляет собой таблицу управления распределением BR, которая обеспечивает начальные условия для процесса управления распределением BR. Индекс в таблицу управления распределением BR определяется посредством конфигурационных параметров кодека. Конфигурационные параметры кодека могут включать в себя скорость передачи битов IVAS, входной формат, такой как стереоформат, FoA, плоский FoA или любой другой формат, полосу пропускания аудиосигнала (BW), режим пространственного кодирования (или число Nre остаточных каналов), приоритет монокодека и пространственных MD. Для стереокодирования, Nre=0 соответствует полнопараметрическому (FP) режиму, и Nre=1 соответствует средне-остаточному (MR) режиму. В варианте осуществления, табличный индекс управления распределением BR указывает на целевую, минимальную и максимальную скорости передачи битов монокодека для каждого из каналов понижающего микширования и множество стратегий квантования (например, точное, среднеприблизительное, приблизительное) для кодирования пространственных MD. В другом варианте осуществления, табличный индекс управления распределением BR указывает на полную целевую и минимальную скорость передачи битов для всех экземпляров монокодека, отношение, с которым доступная скорость передачи битов должна разделяться между всеми каналами понижающего микширования, и несколько стратегий квантования, чтобы кодировать пространственные MD. Второй компонент стратегии управления распределением скоростей передачи битов IVAS представляет собой процесс, который использует выводы таблицы управления распределением BR и свойства входных аудиосигналов для определения уровней квантования и скорости передачи в битах пространственных метаданных, а также скорости передачи битов каждого канала понижающего микширования, как описано в отношении фиг. 5A и 5B.[0072] In an embodiment, the IVAS bit rate allocation control strategy includes two components. The first component is the BR allocation control table, which provides the initial conditions for the BR allocation control process. The index into the BR distribution control table is determined through the codec configuration parameters. Codec configuration parameters may include IVAS bit rate, input format such as stereo, FoA, flat FoA or any other format, audio bandwidth (BW), spatial encoding mode (or number N re of residual channels), mono codec priority, and spatial MD. For stereo encoding, N re =0 corresponds to the full parameter (FP) mode, and N re =1 corresponds to the mean residual (MR) mode. In an embodiment, the allocation control table index BR indicates the target, minimum and maximum mono codec bit rates for each of the downmix channels and a plurality of quantization strategies (eg, fine, average, approximate) for encoding spatial MDs. In another embodiment, the allocation control table index BR indicates the overall target and minimum bit rate for all mono codec instances, the ratio with which the available bit rate should be divided among all downmix channels, and several quantization strategies to encode spatial MDs. The second component of the IVAS bitrate control strategy is a process that uses the outputs of the BR allocation control table and the properties of the input audio signals to determine the quantization levels and bitrates of the spatial metadata, as well as the bitrate of each downmix channel, as described in Ref. fig. 5A and 5B.
Процесс распределения скоростей передачи битов: общее представлениеBit rate distribution process: overview
[0073] Основные компоненты обработки процессов распределения скоростей передачи битов, раскрытых в данном документе, включают в себя:[0073] The main processing components of the bit rate distribution processes disclosed herein include:
- обнаружение полосы пропускания аудиосигнала (BW) (например, узкая полоса частот (NB), широкая полоса частот (WB), сверхширокая полоса частот (SWB), полная полоса частот (FB)). На этом этапе обнаруживается BW среднего или сигнала W, и метаданные квантуются соответствующим образом. EVS затем обрабатывает IVAS BW в качестве верхнего предела и кодирует каналы понижающего микширования соответствующим образом;- audio bandwidth (BW) detection (e.g., narrow band (NB), wide band (WB), ultra wide band (SWB), full band (FB)). At this stage, the BW of the average or signal W is detected and the metadata is quantized accordingly. The EVS then treats the IVAS BW as an upper limit and encodes the downmix channels accordingly;
- извлечение свойств входных аудиосигналов (например, речь или музыка);- extracting properties of input audio signals (for example, speech or music);
- выбор режима пространственного кодирования (например, полнопараметрический (FP), средне-остаточный (MR)) или числа остаточных каналов, N_re, при этом для стереокодирования выбирается режим FP, если N_re=0, и выбирается режим MR, если N_re=1;- selection of spatial coding mode (for example, full-parameter (FP), average-residual (MR)) or the number of residual channels, N_re, while for stereo coding the FP mode is selected if N_re=0, and the MR mode is selected if N_re=1;
- решение по приоритету монокодека и пространственных MD: целевая скорость передачи битов, минимальная и максимальная скорости передачи битов для каждого канала понижающего микширования или отношения, с которыми полная скорость передачи битов монокодека должна разделяться между каналами понижающего микширования.- mono codec and spatial MD priority decision: target bit rate, minimum and maximum bit rates for each downmix channel, or the ratios at which the total mono codec bit rate should be shared between downmix channels.
Обнаружение BW аудиосигналаDetection of BW audio signal
[0074] Этот компонент обнаруживает BW среднего или сигнала W. В варианте осуществления, кодек IVAS использует детектор EVS BW, описанный в EVS TS 26.445.[0074] This component detects the BW of the average or W signal. In an embodiment, the IVAS codec uses the EVS BW detector described in EVS TS 26.445.
Извлечение свойств входных сигналовExtracting properties of input signals
[0075] Этот компонент классифицирует каждый кадр входного аудиосигнала в качестве речи или музыки. В варианте осуществления, кодек IVAS использует классификатор EVS речи/музыки, как описано в EVS TS 26.445.[0075] This component classifies each frame of the input audio signal as speech or music. In an embodiment, the IVAS codec uses the EVS speech/music classifier as described in EVS TS 26.445.
Решение по приоритету монокодека относительно пространственных MDDecision on mono codec priority relative to spatial MDs
[0076] Этот компонент определяет приоритет монокодека по сравнению с пространственными MD на основе свойств сигналов понижающего микширования. Примеры свойств сигналов понижающего микширования включают в себя речь или музыку, как определено посредством данных классификатора речи/музыки, и ковариационные оценки в полосе средних (M-S) частот для стерео- и ковариационные оцени в полосе частот W-Y, W-X, W-Z-канала для FoA. Данные классификатора речи/музыки могут использоваться для обеспечения более высокого приоритета монокодеку, если входной аудиосигнал представляет собой музыку, и ковариационные оценки могут использоваться для обеспечения большего приоритета пространственным MD, когда входной аудиосигнал жестко панорамируется.[0076] This component determines the priority of the mono codec over spatial MDs based on the properties of the downmix signals. Examples of downmix signal properties include speech or music as determined by speech/music classifier data, and midband (M-S) band covariance estimates for stereo and W-Y, W-X, W-Z channel band covariance estimates for FoA. The speech/music classifier data can be used to give higher priority to the mono codec when the input audio signal is music, and covariance estimates can be used to give higher priority to spatial MD when the input audio signal is hard panned.
[0077] В варианте осуществления, решение по приоритету вычисляется для каждого кадра входного аудиосигнала. Для данной скорости передачи битов IVAS, BW среднего или сигнала W и входной конфигурации, распределение скоростей передачи битов начинается с целевыми или требуемыми скоростями передачи битов для каналов понижающего микширования (например, скорость передачи битов монокодека определяется согласно субъективной или объективной оценки), присутствующих в таблице управления BR-распределением, и стратегии самого точного квантования для метаданных. Если начальное условие не вписывается в данный бюджет по скорости передачи битов IVAS, то скорость передачи битов монокодека или уровень квантования пространственных MD либо оба из означенного уменьшаются итеративно в контуре квантования на основе их соответствующих приоритетов до тех пор, пока они оба не вписываются в бюджет по скорости передачи битов IVAS.[0077] In an embodiment, a priority decision is calculated for each frame of the input audio signal. For a given IVAS bit rate, BW average or W signal and input configuration, the bit rate distribution starts with the target or required bit rates for the downmix channels (for example, the mono codec bit rate is determined according to the subjective or objective assessment) present in the table BR distribution control, and the most accurate quantization strategies for metadata. If the initial condition is not within the given IVAS bit rate budget, then the mono codec bit rate or the spatial MD quantization level, or both, is reduced iteratively in the quantization loop based on their respective priorities until they are both within the budget by IVAS bit rates.
Распределение скоростей передачи битов между каналами понижающего микшированияDistribution of bit rates between downmix channels
Полнопараметрический по сравнению со средне-остаточнымFull-parametric versus mean-residual
[0078] В режиме FP, только -канал M' или W' кодируется посредством монокодека, и дополнительные параметры кодируются в пространственных MD, указывающих уровень остаточного канала или уровень декорреляции, которая должна добавляться посредством декодера. Для скоростей передачи битов, при которых FP и MR являются целесообразными, процесс распределения BR IVAS динамически выбирает число остаточных каналов, которые должны кодироваться посредством монокодека и передаваться/передаваться в потоковом режиме в декодер, на основе пространственных MD на покадровой основе. Если уровень любого остаточного канала выше порогового значения, то этот остаточный канал кодируется посредством монокодека; в противном случае, процесс выполняется в FP-режиме. Обработка переходных кадров выполняется для сброса буферов состояния кодека, когда число остаточных каналов, которые должны кодироваться посредством монокодека, изменяется.[0078] In FP mode, only the -channel M' or W' is encoded by a mono codec, and additional parameters are encoded in spatial MDs indicating the level of the residual channel or the level of decorrelation to be added by the decoder. For bit rates at which FP and MR are practical, the IVAS BR allocation process dynamically selects the number of residual channels to be encoded by a mono codec and transmitted/streamed to the decoder, based on spatial MDs on a frame-by-frame basis. If the level of any residual channel is above the threshold, then that residual channel is encoded using a mono codec; otherwise, the process runs in FP mode. Transient frame processing is performed to reset codec state buffers when the number of residual channels to be encoded by the mono codec changes.
Распределение скоростей передачи битов при понижающем MR-микшированииBit rate distribution for MR downmixing
[0079] Оценка с помощью прослушивания проведена с различными входными сигналами и распределениями скоростей передачи битов между средним каналом и остаточным каналом. На основе сфокусированных тестов на основе прослушивания, наиболее эффективное отношение скоростей передачи битов среднего и остаточного канала составляет 3:2. Тем не менее, другие отношения могут использоваться на основе требований варианта применения. В варианте осуществления, распределение скоростей передачи битов использует фиксированное отношение, которое настраивается дополнительно на фазе настройки. Во время итеративного процесса выбора стратегии квантования и BR для каналов понижающего микширования, BR для каждого канала понижающего микширования модифицируется согласно данному отношению.[0079] Eavesdropping evaluation is performed with different input signals and bit rate distributions between the middle channel and the residual channel. Based on focused listening tests, the most efficient mid-to-residual bit rate ratio is 3:2. However, other relationships may be used based on the application case requirements. In an embodiment, the bit rate distribution uses a fixed ratio that is further adjusted during the setup phase. During the iterative process of selecting a quantization strategy and BR for downmix channels, the BR for each downmix channel is modified according to this ratio.
[0080] В варианте осуществления, вместо поддержания фиксированного отношения между скоростями передачи битов канала понижающего микширования, целевая скорость передачи битов и минимальная и максимальная скорости передачи битов для каждого канала понижающего микширования отдельно перечисляются в таблице управления BR-распределением. Эти скорости передачи битов выбираются на основе тщательных субъективных и объективных оценок. Во время итеративного процесса выбора стратегии квантования и BR для каналов понижающего микширования, биты добавляются или извлекаются из каналов понижающего микширования на основе приоритета всех каналов понижающего микширования. Приоритет каналов понижающего микширования может быть фиксированным или динамическим на покадровой основе. В варианте осуществления, приоритет каналов понижающего микширования является фиксированным.[0080] In an embodiment, instead of maintaining a fixed ratio between the bit rates of the downmix channel, the target bit rate and the minimum and maximum bit rates for each downmix channel are separately listed in the BR allocation control table. These bit rates are selected based on careful subjective and objective evaluations. During the iterative process of selecting the quantization strategy and BR for the downmix channels, bits are added to or extracted from the downmix channels based on the priority of all the downmix channels. The priority of downmix channels can be fixed or dynamic on a frame-by-frame basis. In an embodiment, the priority of the downmix channels is fixed.
Процесс распределения скоростей передачи битов: последовательность операций процессаBit Rate Allocation Process: Process Flow
[0081] Фиг. 5A является блок-схемой процесса 500 распределения скоростей передачи битов для входных стереосигналов и сигналов FoA, согласно варианту осуществления. Вводы в процесс 500 представляют собой скорость передачи битов IVAS, константы (например, таблицу управления распределением скоростей передачи битов, скорость передачи битов IVAS), каналы понижающего микширования, пространственные MD, входной формат (например, стерео, FoA, плоский FoA) и принудительные параметры командной строки (например, максимальную полосу пропускания, режим кодирования, обратно совместимый режим EVS для понижающего мономикширования). Выводы процесса 500 представляют собой скорость передачи битов EVS для каждого канала понижающего микширования, уровни квантования метаданных и биты кодированных метаданных. Следующие этапы выполняются в качестве части процесса 500.[0081] FIG. 5A is a flow diagram of a
Извлечение аудиопризнаков понижающего микшированияExtracting Audio Downmix Features
[0082] На этапе 501, следующие свойства сигналов извлекаются из входного аудиосигнала: полоса пропускания (например, узкая полоса частот, широкая полоса частот, сверхширокая полоса частот, полная полоса частот) и данные классификации речи/музыки, данные обнаружения голосовой активности (VAD). Полоса пропускания (BW) представляет собой минимум фактической полосы пропускания входного аудиосигнала и максимальной полосы пропускания для командной строки, указываемый пользователем. В варианте осуществления, аудиосигнал понижающего микширования может иметь формат с импульсно-кодовой модуляцией (PCM).[0082] At
Определение табличного индексаDefining a table index
[0083] На этапе 502, процесс 500 извлекает табличные индексы управления распределением скоростей передачи битов IVAS из таблицы управления распределением скоростей передачи битов IVAS с использованием скорости передачи битов IVAS. На этапе 503, процесс 500 определяет табличные индексы входных форматов на основе параметров сигналов, извлеченных на этапе 501 (т.е. BW и классификации речи/музыки), формата входных аудиосигналов, табличных индексов управления распределением скоростей передачи битов IVAS, извлеченных на этапе 502, и режима EVS обратной совместимости для понижающего мономикширования. На этапе 504, процесс 500 выбирает режим пространственного кодирования (т. е. FP или MR) или число остаточных каналов (т. е. N_re=0-3) на основе табличных индексов управления распределением скоростей передачи битов, переходного режима кодирования аудио и пространственных MD. На этапе 505, процесс 500 определяет конечный точный табличный индекс на основе шести параметров, описанных выше. В варианте осуществления, выбор режима пространственного кодирования аудио на этапе 504 основан на индикаторе остаточного канального уровня в пространственных MD. Режим пространственного кодирования аудио указывает либо MR-режим кодирования, в котором представление среднего или канала W (M' или W') сопровождается одним или более остаточными каналами в микшированном с понижением аудиосигнале, либо режим кодирования FP, в котором только представление среднего или канала W (M' или W') присутствует в микшированном с понижением аудиосигнале. В варианте осуществления, переходный режим кодирования аудио задается равным 1, если режим пространственного кодирования аудио в предыдущем кадре включает в себя кодирование остаточных каналов, в то время как текущий кадр требует только канального M'- или W'-кодирования. В противном случае, переходный режим кодирования аудио задается равным 0. Если число остаточных каналов, которые должны кодироваться, отличается между текущим кадром и предыдущим кадром, переходный режим кодирования аудио задается равным 1.[0083] At
Вычисление приоритета монокодека и пространственных MDMono codec priority and spatial MD calculations
[0084] На этапе 506, процесс 500 определяет приоритет монокодека/пространственных MD на основе свойств входных аудиосигналов, извлеченных на этапе 1, и ковариационных оценок в полосе средних частот или в полосе частот W-Y, W-X, W-Z-канала, или в полосе частот W-Y, W-X, W-Z-канала. В варианте осуществления, предусмотрено четыре возможных результата в отношении приоритета: высокий приоритет монокодека и низкий приоритет пространственных MD, низкий приоритет монокодека и высокий приоритет пространственных MD, высокий приоритет монокодека и высокий приоритет пространственных MD; и низкий приоритет монокодека и низкий приоритет пространственных MD.[0084] At
Извлечение связанных со скоростью передачи битов монокодека переменных из таблицыRetrieving Mono Codec Bit Rate Related Variables from a Table
[0085] На этапе 507, следующие параметры считываются из записи таблицы, на которую указывает конечный табличный индекс, вычисленный на этапе 505: целевая скорость передачи битов монокодека (EVS), отношение скоростей передачи битов, минимальная скорость передачи битов EVS и шаги отклонения скорости передачи битов EVS. Фактическая скорость передачи битов монокодека (EVS) может быть выше или ниже целевой скорости передачи битов монокодека (EVS), указываемой в таблице управления BR-распределением, в зависимости от приоритета монокодека/пространственных MD, определенного на этапе 506, и скорости передачи битов пространственных MD с различными уровнями квантования. Отношение скоростей передачи битов указывает отношение, с которым полная скорость передачи битов EVS должна распределяться между каналами передачи входных аудиосигналов. Минимальная скорость передачи битов EVS представляет собой значение, ниже которого не разрешается снижение полной скорости передачи битов EVS. Шаги отклонения скорости передачи битов EVS представляют собой шаги уменьшения целевой скорости передачи битов EVS, когда приоритет EVS выше или равен либо ниже приоритета пространственных MD.[0085] At
Вычисление наилучшей скорости передачи битов EVS и уровня квантования метаданных на основе входных параметровCalculate the best EVS bit rate and metadata quantization level based on input parameters
[0086] На этапе 508, оптимальная скорость передачи битов EVS и стратегия квантования метаданных вычисляется на основе входных параметров, полученных на этапах 501-503, согласно следующим подэтапам. Высокая скорость передачи битов для каналов понижающего микширования и стратегия приблизительного квантования могут приводить к пространственным проблемам, в то время как стратегия точного квантования и низкая скорость передачи битов аудиоканала понижающего микширования могут приводить к артефактам кодирования монокодека. «Оптимальный» при использовании в данном документе представляет собой наиболее сбалансированное распределение скорости передачи битов IVAS между скоростью передачи битов EVS и уровнем квантования метаданных при использовании всех доступных битов в бюджете по скорости передачи битов IVAS или по меньшей мере значительном уменьшении потерь битов.[0086] At
[0087] Этап 508.1: Квантование метаданных с самым точным уровнем квантования и проверка условия 508.a (показано ниже). Если условие 508.a является истинным, то выполнение этапа 508.b (показано ниже). В противном случае, переход к этапу 508.2 или 508.3, или 508.4, на основе приоритетов, вычисленных на этапе 503.[0087] Step 508.1: Quantize the metadata to the finest quantization level and test condition 508.a (shown below). If condition 508.a is true, then execute step 508.b (shown below). Otherwise, proceed to step 508.2 or 508.3 or 508.4 based on the priorities calculated in
[0088] Этап 508.2: Если приоритет EVS является высоким, и приоритет пространственных MD является низким, то уменьшение уровня квантования пространственных MD и проверка условия 508.a. Если условие 508.a является истинным, то выполнение этапа 508.b. В противном случае, уменьшение целевой скорости передачи битов EVS на основе этапа 507 (шагов отклонения скорости передачи битов EVS) и проверка условия 508.a. Если условие 508.a является истинным, то выполнение этапа 508.b, иначе повторение этапа 508.2.[0088] Step 508.2: If the EVS priority is high and the spatial MD priority is low, then reduce the spatial MD quantization level and check condition 508.a. If condition 508.a is true, then execute step 508.b. Otherwise, reducing the target EVS bit rate based on step 507 (EVS bit rate deviation steps) and checking condition 508.a. If condition 508.a is true, then execute step 508.b, otherwise repeat step 508.2.
[0089] Этап 508.3: Если приоритет EVS является низким, и приоритет пространственных MD является высоким, то уменьшение целевой скорости передачи битов EVS на основе этапа 507 (шагов отклонения скорости передачи битов EVS) и проверка условия 508.a. Если условие 508.a является истинным, то выполнение этапа 508.b. В противном случае, уменьшение уровня квантования пространственных MD и проверка условия 508.a. Если условие 508.a является истинным, то выполнение этапа 508.b. В противном случае, повторение этапа 508.3.[0089] Step 508.3: If the EVS priority is low and the spatial MD priority is high, then reduce the target EVS bitrate based on step 507 (EVS bitrate rejection steps) and check condition 508.a. If condition 508.a is true, then execute step 508.b. Otherwise, reduce the spatial MD quantization level and check condition 508.a. If condition 508.a is true, then execute step 508.b. Otherwise, repeat step 508.3.
[0090] Этап 508.4: Если приоритет EVS равен приоритету пространственных MD, то уменьшение целевой скорости передачи битов EVS на основе этапа 507 (шагов отклонения скорости передачи битов EVS) и проверка условия 508.a. Если условие 508.a является истинным, то выполнение этапа 508.b. В противном случае, уменьшение уровня квантования пространственных метаданных и проверка условия 508.a. Если условие 508.a является истинным, то выполнение этапа 508.b, иначе повторение этапа 5.4.[0090] Step 508.4: If the EVS priority is equal to the priority of the spatial MDs, then reduce the target EVS bitrate based on step 507 (EVS bitrate rejection steps) and check condition 508.a. If condition 508.a is true, then execute step 508.b. Otherwise, reduce the spatial metadata quantization level and check condition 508.a. If condition 508.a is true, then execute step 508.b, otherwise repeat step 5.4.
[0091] Условие 508.a, упомянутое выше, проверяет, является ли сумма скорости передачи в битах метаданных, целевой скорости передачи битов EVS и служебных битов меньшей или равной скорости передачи битов IVAS.[0091] Condition 508.a mentioned above checks whether the sum of the metadata bit rate, the target EVS bit rate, and overhead bits is less than or equal to the IVAS bit rate.
[0092] Этап 508.b, упомянутый выше, вычисляет скорость передачи битов EVS как равную скорости передачи битов IVAS минус скорость передачи в битах метаданных минус служебные биты. Скорость передачи битов EVS затем распределяется между аудиоканалами понижающего микширования согласно отношению скоростей передачи битов, упомянутому на этапе 507.[0092] Step 508.b mentioned above calculates the EVS bit rate as equal to the IVAS bit rate minus the metadata bit rate minus overhead bits. The EVS bit rate is then distributed among the downmix audio channels according to the bit rate ratio mentioned in
[0093] Если минимальная целевая скорость передачи битов EVS и самый приблизительный уровень квантования не вписываются в бюджет по скорости передачи битов IVAS, то процесс 500 распределения скоростей передачи битов выполняется с более низкой полосой пропускания.[0093] If the minimum target EVS bitrate and the most approximate quantization level do not fit into the IVAS bitrate budget, then the
[0094] В варианте осуществления, табличный индекс и информация уровня квантования метаданных включаются в служебные биты битового потока IVAS, отправленного в декодер IVAS. Декодер IVAS считывает табличный индекс и уровень квантования метаданных из служебных битов в битовом потоке IVAS и декодирует пространственные MD. Это оставляет для декодера IVAS только обработку битов EVS в битовом потоке IVS. Биты EVS разделяются между каналами передачи входных аудиосигналов согласно отношению, указываемому табличным индексом (этап 508.b). Затем каждый экземпляр декодера EVS вызывается с соответствующими битами, что приводит к восстановлению аудиоканалов понижающего микширования.[0094] In an embodiment, table index and metadata quantization level information are included in the overhead bits of the IVAS bitstream sent to the IVAS decoder. The IVAS decoder reads the table index and metadata quantization level from the overhead bits in the IVAS bitstream and decodes the spatial MD. This leaves the IVAS decoder to only process the EVS bits in the IVS bitstream. The EVS bits are divided among the input audio transmission channels according to the ratio indicated by the table index (step 508.b). Each instance of the EVS decoder is then called with the appropriate bits, resulting in the reconstruction of the downmix audio channels.
Примерная таблица управления распределением скоростей передачи битов IVASExample IVAS Bit Rate Allocation Control Table
[0095] Ниже приводится примерная таблица управления распределением скоростей передачи битов IVAS (таблица II). Следующие параметры, показанные в таблице II, имеют значения, указанные ниже:[0095] The following is an example IVAS bit rate distribution control table (Table II). The following parameters shown in Table II have the meanings given below:
[0096] Входной формат: стерео - 1, плоский FoA - 2, FoA - 3[0096] Input Format: Stereo - 1, Flat FoA - 2, FoA - 3
[0097] BW: NB - 0, WB - 1, SWB - 2, FB - 3[0097] BW: NB - 0, WB - 1, SWB - 2, FB - 3
[0098] Разрешенное инструментальное средство пространственного кодирования: FP - 1, MR - 2[0098] Enabled spatial coding tool: FP - 1, MR - 2
[0099] Переходный режим: 1 → MR/FP-переход, 0 → иначе[0099] Transition mode: 1 → MR/FP transition, 0 → otherwise
[00100] Обратно совместимый режим для понижающего мономикширования: 1 → если средний канал должен быть совместимым с 3GPP EVS, 0 → иначе.[00100] Backward compatible mode for mono downmix: 1 → if the middle channel should be 3GPP EVS compliant, 0 → otherwise.
Таблица II. Примерная таблица распределения скоростей передачи битов IVASTable II. Sample IVAS bit rate distribution table
с)Target EVS BR (bits/
With)
с)Minimum EVS BR (bits/
With)
с)EVS BR deviation steps (bits/
With)
[00101] Также на фиг. 5A показан битовый поток IVAS. В варианте осуществления, битовый поток IVAS включает в себя общий заголовок (CH) 509 IVAS фиксированной длины и общий заголовок 510 инструментального средства (CTH) переменной длины. В варианте осуществления, длина в битах секции CTH вычисляется на основе числа записей, соответствующего данной скорости передачи битов IVAS в таблице управления распределением скоростей передачи битов IVAS. Относительный табличный индекс (смещение от первого индекса для этой скорости передачи битов IVAS в таблице) сохраняется в секции CTH. При работе в обратно совместимом режиме для понижающего мономикширования, после CTH 510 следуют рабочие данные 511 EVS, после которых следуют рабочие данные 513 пространственных MD. При работе в режиме IVAS, после CTH 510 следуют рабочие данные 512 пространственных MD, после которых следуют рабочие данные 514 EVS. В других вариантах осуществления порядок может быть другим.[00101] Also in FIG. 5A shows the IVAS bitstream. In an embodiment, the IVAS bitstream includes a fixed length IVAS common header (CH) 509 and a variable length common tool header (CTH) 510. In an embodiment, the bit length of the CTH section is calculated based on the number of entries corresponding to a given IVAS bit rate in the IVAS bit rate allocation control table. The relative table index (the offset from the first index for that IVAS bit rate in the table) is stored in the CTH section. When operating in backward compatible mode for mono downmixing,
Примерные процессыSample Processes
[00102] Примерный процесс распределения скоростей передачи битов может выполняться кодеком IVAS либо системы кодирования/декодирования, включающей в себя один или более процессоров, выполняющих инструкции, сохраненные на постоянном машиночитаемом носителе данных.[00102] An exemplary bit rate distribution process may be performed by an IVAS codec or an encoding/decoding system including one or more processors executing instructions stored on a non-transitory computer readable storage medium.
[00103] В варианте осуществления, система кодирования аудио принимает аудиоввод и метаданные. Система определяет, на основе аудиоввода, метаданных и параметров кодека IVAS, используемого при кодировании аудиоввода, один или более индексов таблицы управления распределением скоростей передачи битов, причем параметры включают в себя скорость передачи битов IVAS, входной формат и монорежим обратной совместимости, причем один или более индексов включают в себя режим пространственного кодирования аудио и полосу пропускания аудиоввода.[00103] In an embodiment, the audio encoding system receives audio input and metadata. The system determines, based on the audio input, metadata, and parameters of the IVAS codec used in encoding the audio input, one or more bitrate distribution control table indexes, the parameters including an IVAS bitrate, an input format, and a backwards compatibility mono mode, wherein one or more The indices include the audio spatial encoding mode and the audio input bandwidth.
[00104] Система выполняет поиск в таблице управления распределением скоростей передачи битов на основе скорости передачи битов IVAS, входного формата, режима пространственного кодирования аудио и одного или более индексов, причем поиск идентифицирует запись в таблице управления распределением скоростей передачи битов, причем запись включает в себя целевую скорость передачи битов EVS, отношение скоростей передачи битов, минимальную скорость передачи битов EVS и представление шагов отклонения скорости передачи битов EVS.[00104] The system searches the bit rate distribution control table based on the IVAS bit rate, the input format, the audio spatial coding mode, and one or more indexes, the search identifying an entry in the bit rate distribution control table, the entry including target EVS bit rate, bit rate ratio, minimum EVS bit rate, and representation of EVS bit rate deviation steps.
[00105] Система передаёт идентифицированную запись в процесс вычисления скорости передачи битов, который программируется с возможностью определения скоростей передачи битов аудиовводов (например, каналов понижающего микширования), скорость передачи битов метаданных и уровни квантования метаданных. Система обеспечивает скорости передачи битов каналов понижающего микширования и по меньшей мере одно из скорости передачи битов метаданных или уровней квантования метаданных в нисходящее устройство IVAS.[00105] The system passes the identified recording to a bit rate calculation process, which is programmed to determine the bit rates of audio inputs (eg, downmix channels), metadata bit rates, and metadata quantization levels. The system provides downmix channel bit rates and at least one of metadata bit rates or metadata quantization levels to the downstream IVAS device.
[00106] В некоторых реализациях, система может извлекать свойства из аудиоввода, причем свойства включают в себя индикатор того, является ли аудиоввод речью или музыкой, и полосу пропускания аудиоввода. Система определяет, на основе свойств, приоритет между скоростью передачи битов каналов понижающего микширования и скоростью передачи битов метаданных. Система обеспечивает приоритет в процесс вычисления скорости передачи битов.[00106] In some implementations, the system may extract properties from the audio input, where the properties include an indicator of whether the audio input is speech or music and the bandwidth of the audio input. The system determines, based on properties, the priority between the bit rate of the downmix channels and the metadata bit rate. The system provides priority to the bit rate calculation process.
[00107] В некоторых реализациях, система извлекает один или более параметров, включающих в себя остаточный уровень (ошибки прогнозирования боковых каналов), из пространственных MD. Система определяет, на основе параметров, режим пространственного кодирования аудио, который указывает необходимость одного или более остаточных каналов в битовом потоке IVAS. Система обеспечивает режим пространственного кодирования аудио в процесс вычисления скорости передачи битов.[00107] In some implementations, the system extracts one or more parameters including the residual level (side channel prediction errors) from the spatial MDs. The system determines, based on the parameters, an audio spatial coding mode that indicates the need for one or more residual channels in the IVAS bitstream. The system provides a spatial audio encoding mode into the bit rate calculation process.
[00108] В некоторых реализациях, табличный индекс управления распределением скоростей передачи битов сохраняется в общем заголовке инструментального средства (CTH) битового потока IVAS.[00108] In some implementations, the bit rate distribution control table index is stored in the common tool header (CTH) of the IVAS bitstream.
[00109] Система для декодирования аудио выполнена с возможностью приёма битового потока IVAS. Система определяет, на основе битового потока IVAS, скорость передачи битов IVAS и табличные индексы управления распределением скоростей передачи битов. Система выполняет поиск в таблице управления распределением скоростей передачи битов на основе табличных индексов и извлекает входной формат, режим пространственного кодирования, монорежим обратной совместимости и один или более индексов, целевую скорость передачи битов EVS и отношение скоростей передачи битов. Система извлекает и декодирует аудиобиты понижающего микширования в расчете на канал понижающего микширования и биты пространственных MD. Система передаёт извлеченные биты сигнала понижающего микширования и биты пространственных MD в нисходящее устройство IVAS. Нисходящее устройство IVAS может представлять собой устройство аудиообработки или устройство хранения данных.[00109] The audio decoding system is configured to receive the IVAS bitstream. The system determines, based on the IVAS bit stream, the IVAS bit rate and the bit rate distribution control table indexes. The system searches the bit rate distribution control table based on the table indexes and retrieves the input format, spatial encoding mode, backward compatibility mono mode and one or more indexes, the target EVS bit rate and the bit rate ratio. The system extracts and decodes downmix audio bits per downmix channel and spatial MD bits. The system transmits the extracted downmix signal bits and spatial MD bits to the downstream IVAS device. The downstream IVAS device may be an audio processing device or a data storage device.
Процесс распределения скоростей передачи битов FoA SPARFoA SPAR Bit Rate Allocation Process
[00110] В варианте осуществления, процесс распределения скоростей передачи битов, описанный выше для входных стереосигналов, также может модифицироваться и применяться к распределению скоростей передачи битов FoA SPAR с использованием таблицы управления распределением скоростей передачи битов FoA SPAR, показанной ниже. Определения для терминов, включенных в таблицу, приведены ниже, чтобы помочь читателям, в соответствии с таблицей управления распределением скоростей передачи битов FoA SPAR.[00110] In an embodiment, the bit rate distribution process described above for stereo input signals can also be modified and applied to the FoA SPAR bit rate distribution using the FoA SPAR bit rate distribution control table shown below. Definitions for the terms included in the table are provided below to assist readers, in accordance with the FoA SPAR Bit Rate Allocation Control table.
- Целевое число битов метаданных (MDtar)=IVAS_bits-header_bits-evs_target_bits (EVStar)- Target number of metadata bits (MDtar)=IVAS_bits-header_bits-evs_target_bits (EVStar)
- Максимальное число битов метаданных (MDmax)=IVAS_bits-header_bits-evs_minimum_bits (EVSmin)- Maximum number of metadata bits (MDmax)=IVAS_bits-header_bits-evs_minimum_bits (EVSmin)
- Целевое число битов метаданных всегда должно быть меньше "MDmax".- The target number of metadata bits should always be less than "MDmax".
Таблица III. Примерная таблица управления распределением скоростей передачи битов FoA SPARTable III. Example FoA SPAR Bit Rate Allocation Control Table
Целевой
Восстановление 1 после сбоя
Восстановление 2 после сбоя
(Обозначение: [PR, C, P_d, P_o])MD Quantization Levels
Target
(Notation: [PR, C, P_d, P_o])
(24, 20.45, 31.95)W':
(24, 20.45, 31.95)
F1: [15,1,5,1]
F2: [15,1,3,1]T: [21,1,5,1]
F1: [15,1,5,1]
F2: [15,1,3,1]
Y': (16, 15.60, 20.40)W:(38, 34.05, 56)
Y': (16, 15.60, 20.40)
F1: [15,7,5,1]
F2: [15,7,3,1]T: [21,7,5,1]
F1: [15,7,5,1]
F2: [15,7,3,1]
Y': (23, 22.6, 31.95;
X': (16, 15.60, 20.4)W: (47, 42.60, 56)
Y': (23, 22.6, 31.95;
X': (16, 15.60, 20.4)
F1: [21,7,5,1]
F2: [21,7,5,1]T: [21,9,9,1]
F1: [21,7,5,1]
F2: [21,7,5,1]
Y': (41, 40.05, 56)
X': (35, 34.05, 56)W: (74, 70.9, 112)
Y': (41, 40.05, 56)
X': (35, 34.05, 56)
F1: [21,9,9,1]
F2: [21,7,7,1]T: [21,11,11,1]
F1: [21,9,9,1]
F2: [21,7,7,1]
Y': (70, 70, 112)
X': (50, 50, 56)
Z': (36.6, 36.6, 56)W: (90, 90, 112)
Y': (70, 70, 112)
X': (50, 50, 56)
Z': (36.6, 36.6, 56)
F1: [31,1,1,1]
F2: [31,1,1,1]T: [31,1,1,1]
F1: [31,1,1,1]
F2: [31,1,1,1]
[00111] Некоторые примерные вычисления максимальных скоростей передачи битов MD (действительные коэффициенты) показаны в нижеприведенной таблице IV.[00111] Some example calculations of maximum MD bit rates (actual coefficients) are shown in Table IV below.
Таблица IV. Вычисления максимальных скоростей передачи битов MD (действительные коэффициенты)Table IV. Calculations of maximum MD bit rates (real coefficients)
Примерный контур квантования метаданныхApproximate metadata quantization outline
[00112] В варианте осуществления, контур квантования метаданных реализуется так, как описано ниже. Контур квантования метаданных включает в себя два пороговых значения (заданы выше): MDtar и MDmax.[00112] In an embodiment, the metadata quantization loop is implemented as described below. The metadata quantization loop includes two threshold values (defined above): MDtar and MDmax.
[00113] Этап 1: Для каждого кадра входного аудиосигнала, параметры MD квантуются недифференциальным во времени способом и кодируются с помощью арифметического кодера. Фактическая скорость передачи в битах метаданных (MDact) вычисляется на основе кодированных битов MD. Если MDact ниже MDtar, то этот этап рассматривается как проход, и процесс выходит из контура квантования, и биты MDact интегрируются в битовый поток IVAS. Дополнительные доступные биты (MDtar-MDact) подаются в кодер с поддержкой монокодека (EVS), чтобы увеличивать существенную скорость передачи битов аудиоканалов понижающего микширования. Большая скорость передачи битов обеспечивает возможность кодирования большего объема информации посредством монокодека, и декодированный аудиовывод должен иметь сравнительно меньшие потери.[00113] Step 1: For each frame of the input audio signal, the MD parameters are quantized in a non-differential time manner and encoded using an arithmetic encoder. The actual metadata bit rate (MDact) is calculated based on the encoded MD bits. If MDact is lower than MDtar, then this step is treated as a pass and the process exits the quantization loop and the MDact bits are integrated into the IVAS bitstream. Additional available bits (MDtar-MDact) are supplied to the encoder with mono codec support (EVS) to increase the significant bit rate of the downmix audio channels. The higher bit rate allows more information to be encoded through a mono codec, and the decoded audio output should have comparatively less loss.
[00114] Этап 2: Если этап 1 завершается неудачно, то поднабор значений параметров MD в кадре квантуется и затем вычитается из квантованных значений параметров MD в предыдущем кадре, и дифференциальное квантованное значение параметра кодируется с помощью арифметического кодера (т.е. дифференциального во времени кодирования). MDact вычисляется на основе кодированных битов MD. Если MDact ниже MDtar, то этот этап рассматривается как проход, и процесс выходит из контура квантования, и биты MDact интегрируются в битовый поток IVAS. Дополнительные доступные биты (MDtar-MDact) подаются в кодер с поддержкой монокодека (EVS), чтобы увеличивать существенную скорость передачи битов аудиоканалов понижающего микширования.[00114] Step 2: If
[00115] Этап 3: Если этап 2 завершается неудачно, то скорость передачи битов (MDact) квантованных параметров MD вычисляется без энтропии.[00115] Step 3: If
[00116] Этап 4: Значения скорости передачи битов MDact, вычисленные на этапах 1-3, сравниваются с MDmax. Если минимум скоростей передачи битов MDact, вычисленных на этапе 1, этапе 2 и этапе 3, находится в пределах MDmax, то этот этап рассматривается как проход, и процесс выходит из контура квантования, и битовый поток MD с минимальным MDact интегрируется в битовый поток IVAS. Если MDact выше MDtar, то биты (MDact-MDtar) извлекаются из кодера с поддержкой монокодека (EVS).[00116] Step 4: The MDact bit rate values calculated in steps 1-3 are compared with MDmax. If the minimum MDact bit rates calculated in
[00117] Этап 5: Если этап 4 завершается неудачно, параметры квантуются более приблизительно, и вышеприведенные этапы повторяются в качестве первой стратегии восстановления после сбоя (восстановление 1 после сбоя).[00117] Step 5: If step 4 fails, the parameters are quantized more approximately and the above steps are repeated as the first failover strategy (failover 1).
[00118] Этап 6: Если этап 5 завершается неудачно, параметры квантуются с помощью схемы квантования, которая гарантированно вписывается в пределы MDmax, в качестве второй стратегии восстановления после сбоя (восстановление 2 после сбоя).[00118] Step 6: If Step 5 fails, the parameters are quantized using a quantization scheme that is guaranteed to fit within the MDmax limits as a second failover strategy (failover 2).
[00119] После всех итераций, упомянутых выше, гарантируется, что скорость передачи в битах метаданных должна вписываться в пределы MDmax, и кодер должен формировать фактические биты метаданных или MDact.[00119] After all the iterations mentioned above, it is guaranteed that the metadata bit rate must fit within the MDmax limits, and the encoder must generate the actual metadata bits or MDact.
Распределение скоростей передачи битов EVS для каналов понижающего микширования (EVSbd)EVS bit rate distribution for downmix channels (EVSbd)
[00120] В варианте осуществления, фактические биты EVS (EVSact)=IVAS_bits-header_bits-MDact. Если "EVSact" меньше "EVStar", то биты извлекаются из каналов EVS в следующем порядке: (Z, X, Y, W). Максимальное число битов, которые могут быть извлекаться из любого канала, составляет EVStar(ch) минус EVSmin(ch). Если "EVSact" больше "EVStar", то все дополнительные биты назначаются каналам понижающего микширования в следующем порядке: W, Y, X и Z. Максимальное число дополнительных битов, которые могут добавляться в любой канал, составляет EVSmax(ch)-EVStar(ch).[00120] In an embodiment, actual EVS bits (EVSact)=IVAS_bits-header_bits-MDact. If "EVSact" is less than "EVStar", then bits are extracted from the EVS channels in the following order: (Z, X, Y, W). The maximum number of bits that can be extracted from any channel is EVStar(ch) minus EVSmin(ch). If "EVSact" is greater than "EVStar", then all extra bits are assigned to the downmix channels in the following order: W, Y, X and Z. The maximum number of extra bits that can be added to any channel is EVSmax(ch)-EVStar(ch ).
Распаковка посредством декодера SPARUnpacking via SPAR decoder
[00121] В варианте осуществления, декодер SPAR распаковывает битовый поток IVAS следующим образом:[00121] In an embodiment, the SPAR decoder decompresses the IVAS bitstream as follows:
1. Получение скорости передачи битов IVAS из длины в битах и получение табличного индекса из заголовка инструментального средства (CTH) в битовом потоке IVAS.1. Obtain the IVAS bit rate from the bit length and obtain the table index from the tool header (CTH) in the IVAS bitstream.
2. Синтаксический анализ битов заголовка/метаданных в битовом потоке IVAS.2. Parse the header/metadata bits in the IVAS bitstream.
3. Синтаксический анализ и деквантование битов метаданных.3. Parsing and dequantization of metadata bits.
4. Задание "EVSact"=оставшаяся длина в битах.4. Setting "EVSact"=remaining length in bits.
5. Считывание записей таблицы, связанных с целевыми, минимальными и максимальными скоростями передачи битов EVS, и повторение этапа "EVSbd" в декодере, чтобы получать фактическую скорость передачи битов EVS для каждого канала.5. Read the table entries associated with the target, minimum and maximum EVS bit rates and repeat the "EVSbd" step in the decoder to obtain the actual EVS bit rate for each channel.
6. Декодирование каналов EVS и повышающее микширование в каналы FoA.6. Decoding EVS channels and upmixing into FoA channels.
Процесс BR-распределения для входных аудиосигналов FoA SPARBR Allocation Process for FoA SPAR Audio Inputs
[00122] Фиг. 5B и 5C являются блок-схемой процесса 515 распределения скоростей передачи битов для входных сигналов FoA SPAR, согласно варианту осуществления. Процесс 515 начинается посредством предварительной обработки 517 ввода 516 FoA (W, Y, Z, X), с тем чтобы извлекать свойства сигналов с использованием скорости передачи битов IVAS, такие как BW, данные классификации речи/музыки, VAD-данные и т.д. Процесс 515 продолжается посредством формирования пространственных MD 518 (например, коэффициентов PR, C, P) и выбора числа остаточных каналов, которые следует отправлять в декодер IVAS, на основе индикатора остаточного уровня в пространственных MD (520), и получения табличного индекса управления BR-распределением на основе скорости передачи битов IVAS, BW и числа каналов понижающего микширования (N_dmx) (521). В некоторых вариантах осуществления, коэффициенты P в пространственных MD могут служить в качестве индикатора остаточного уровня. Табличный индекс управления BR-распределением отправляется в модуль пакетирования битов IVAS (см. фиг. 4A, 4B) для включения в битовый поток IVAS, который может сохраняться и/или отправляться в декодер IVAS.[00122] FIG. 5B and 5C are a flow diagram of a
[00123] Процесс 515 продолжается посредством считывания конфигурации SPAR из строки в таблице управления BR-распределением, на которую указывает табличный индекс (521). Как показано в вышеприведенной таблице III, конфигурация SPAR задается посредством одного или более признаков, включающих в себя, не ограничиваясь: строку понижающего микширования (повторное микширование), активный флаг W, комплексный флаг пространственных MD, стратегии квантования пространственных MD, минимальные/целевые/максимальные скорости передачи битов EVS и флаг приглушения декоррелятора во временной области.[00123]
[00124] Процесс 515 продолжается посредством определения скоростей передачи битов MDmax, MDtar из скорости передачи битов IVAS, значений скорости передачи EVSmin и битов EVStar (522), как описано выше, и входа в контур квантования, который включает в себя квантование пространственных MD недифференциальным во времени способом с использованием стратегии квантования, кодирование квантованных пространственных MD с помощью энтропийного кодера (например, арифметического кодера) и вычисление MDact (523). В варианте осуществления, первая итерация контура квантования использует стратегию точного квантования.[00124]
[00125] Процесс 515 продолжается посредством проверки, является ли MDact меньшим или равным MDtar (524). Если MDact меньше или равен MDtar, то биты MD отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, и (MDtar-MDact) битов суммируются со скоростями передачи EVStar-битов (532) в следующем порядке: W, Y, X, Z; формируются N_dmx битовых потоков (каналов) EVS, и биты EVS отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, как описано выше. Если MDact не меньше или равен MDtar, то процесс 515 квантует пространственные MD дифференциальным во времени способом с помощью стратегии точного квантования, кодирует квантованные пространственные MD с помощью энтропийного кодера и вычисляет MDact снова (525). Если MDact меньше или равен MDtar, то биты MD отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, и (MDtar-MDact) битов суммируются со скоростями передачи битов EVStar (532) в следующем порядке: W, Y, X, Z; формируются N_dmx битовых потоков (каналов) EVS, и биты EVS отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, как описано выше. Если MDact больше MDtar, пространственные MD квантуются недифференциальным во времени способом с использованием стратегии точного квантования и энтропийно кодируются и кодируются по основанию 2, и новое значение для MDact вычисляется (527). Следует отметить, что максимальное число битов, которые могут суммироваться с любым экземпляром EVS, равно EVSmax-EVStar.[00125]
[00126] Процесс 515 снова определяет, является ли MDact меньшим или равным MDtar (528). Если MDact меньше или равен MDtar, то биты MD отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, и (MDtar-MDact) битов суммируются со скоростями передачи битов EVStar (532) в следующем порядке: W, Y, X, Z; формируются N_dmx битовых потоков (каналов) EVS, и биты EVS отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, как описано выше. Если MDact больше в MDtar, то процесс 515 задает MDact в качества минимума из трех скоростей передачи битов MDact, вычисленных на (523), (525), (527), и сравнивает MDact с MDmax (529). Если MDact больше MDmax (530), контур квантования (этапы 523-530) повторяется с использованием стратегии приблизительного квантования, как описано выше.[00126]
[00127] Если MDact меньше или равен MDmax, то биты MD отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, и процесс 515 снова определяет, является ли MDact меньшим или равным MDtar (531). Если MDact меньше или равен MDtar, то (MDtar-MDact) битов суммируются со скоростями передачи битов EVStar (532) в следующем порядке: W, Y, X, Z; формируются N_dmx битовых потоков (каналов) EVS, и биты EVS отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, как описано выше. Если MDact больше MDtar, то (MDtar-MDact) битов вычитаются из скоростей передачи битов EVStar (532) в следующем порядке: Z, X, Y, W; формируются N_dmx битовых потоков (каналов) EVS, и биты EVS отправляются в модуль пакетирования битов IVAS для включения в битовый поток IVAS, как описано выше. Следует отметить, что максимальное число битов, которые могут вычитаться из любого экземпляра EVS, равно EVStar-EVSmin.[00127] If MDact is less than or equal to MDmax, then the MD bits are sent to the IVAS bit packetizer for inclusion in the IVAS bitstream, and
Примерные процессыSample Processes
[00128] Фиг. 6 является блок-схемой процесса 600 кодирования IVAS, согласно варианту осуществления. Процесс 600 может быть реализован с использованием архитектуры устройства, как описано в отношении фиг. 8.[00128] FIG. 6 is a flow diagram of an
[00129] Процесс 600 включает в себя прием входного аудиосигнала (601), понижающее микширование входного аудиосигнала в один или более каналов понижающего микширования и пространственные метаданные, ассоциированные с одним или более каналов входного аудиосигнала (602); считывание набора из одной или более скоростей передачи битов для каналов понижающего микширования и набора уровней квантования для пространственных метаданных из таблицы управления распределением скоростей передачи битов (603); определение сочетания одной или более скоростей передачи битов для каналов понижающего микширования (604); определение уровня квантования метаданных из набора уровней квантования метаданных с использованием процесса распределения скоростей передачи битов (605); квантование и кодирование пространственных метаданных с использованием уровня квантования метаданных (606); формирование, с использованием сочетания одной или более скоростей передачи битов, битового потока понижающего микширования для одного или более каналов понижающего микширования (607); объединение битового потока понижающего микширования, квантованных и кодированных пространственных метаданных и набора уровней квантования в битовый поток IVAS (608); и потоковую передачу или сохранение битового потока IVAS для воспроизведения на устройстве с поддержкой IVAS (609).[00129]
[00130] Фиг. 7 является блок-схемой альтернативного процесса 700 кодирования IVAS, согласно варианту осуществления. Процесс 700 может быть реализован с использованием архитектуры устройства, как описано в отношении фиг. 8.[00130] FIG. 7 is a flow diagram of an alternative
[00131] Процесс 700 включает в себя прием входного аудиосигнала (701); извлечение свойств входного аудиосигнала (702); вычисление пространственных метаданных для каналов входного аудиосигнала (703); считывание набора из одной или более скоростей передачи битов для каналов понижающего микширования и набора уровней квантования для пространственных метаданных из таблицы управления распределением скоростей передачи битов (704); определение сочетания одной или более скоростей передачи битов для каналов понижающего микширования (705); определение уровня квантования метаданных из набора уровней квантования метаданных с использованием процесса распределения скоростей передачи битов (706); квантование и кодирование пространственных метаданных с использованием уровня квантования метаданных (707); формирование, с использованием сочетания одной или более скоростей передачи битов, битового потока понижающего микширования для одного или более каналов понижающего микширования с использованием одной или более скоростей передачи битов (708); объединение битового потока понижающего микширования, квантованных и кодированных пространственных метаданных и набора уровней квантования в битовый поток IVAS (709); и потоковую передачу или сохранение битового потока IVAS для воспроизведения на устройстве с поддержкой IVAS (710).[00131]
Примерная архитектура системыApproximate system architecture
[00132] Фиг. 8 показывает блок-схему примерной системы 800, подходящей для реализации примерных вариантов осуществления настоящего изобретения. Система 800 включает в себя один или более серверных компьютеров либо любое клиентское устройство, включающее в себя, не ограничиваясь, любые из устройств, показанных на фиг. 1, таких как сервер 102 вызовов, ранее созданные устройства 106, абонентское устройство 108, 114, системы 116, 118 в конференц-залах, системы домашнего кинотеатра, гарнитура 122 VR и модуль 124 поглощения иммерсивного содержимого. Система 800 включает в себя любые бытовые устройства, включающие в себя, не ограничиваясь: смартфоны, планшетные компьютеры, носимые компьютеры, компьютеры в транспортных средствах, игровые консоли, системы объемного звучания, киоски.[00132] FIG. 8 shows a block diagram of an
[00133] Как показано, система 800 включает в себя центральный процессор 801 (CPU), который допускает выполнение различных процессов в соответствии с программой, сохраненной, например, в постоянном запоминающем устройстве 802 (ROM), или с программой, загружаемой, например, из модуля 808 хранения в оперативное запоминающее устройство 803 (RAM). В RAM 803, также сохраняются данные, требуемые, когда CPU 801 выполняет различные процессы, по мере необходимости. CPU 801, ROM 802 и RAM 803 соединяются между собой через шину 804. Интерфейс 805 ввода-вывода также соединяется с шиной 804.[00133] As shown, the
[00134] Следующие компоненты соединяются с интерфейсом 805 ввода-вывода: модуль 806 ввода, который может включать в себя клавиатуру, мышь и т. п.; модуль 807 вывода, который может включать в себя дисплей, такой как жидкокристаллический дисплей (ЖК-дисплей) и один или более динамиков; модуль 808 хранения, включающий в себя жесткий диск или другое подходящее устройство хранения данных; и модуль 809 связи, включающий в себя сетевую интерфейсную плату, к примеру, сетевую плату (например, проводную или беспроводную).[00134] The following components connect to the I/O interface 805: an
[00135] В некоторых реализациях, модуль 806 ввода включает в себя один или более микрофонов в различных позициях (в зависимости от хост-устройства), обеспечивающих захват аудиосигналов в различных форматах (например, в моно-, стерео-, пространственном, иммерсивном и других подходящих форматах).[00135] In some implementations,
[00136] В некоторых реализациях, модуль 807 вывода включает в себя системы с различным числом динамиков. Как проиллюстрировано на фиг. 1, модуль 807 вывода (в зависимости от характеристик хост-устройства) может выполнять рендеринг аудиосигналов в различных форматах (например, в моно-, стерео-, иммерсивном, бинауральном и других подходящих форматах).[00136] In some implementations,
Модуль 809 связи выполнен с возможностью обмена данными с другими устройствами (например, через сеть). Накопитель 810 также соединяется с интерфейсом 805 ввода-вывода по мере необходимости. Съемный носитель 811, такой как магнитный диск, оптический диск, магнитооптический диск, флеш-накопитель или другой подходящий съемный носитель, монтируется на накопителе 810 таким образом, что компьютерная программа, считываемая с него, устанавливается в модуль 808 хранения по мере необходимости. Специалисты в данной области техники должны понимать, что, хотя система 800 описана как включающая в себя вышеописанные компоненты, в реальных вариантах применения, можно добавлять, удалять и/или заменять некоторые из этих компонентов, и все эти модификации или изменения попадают в пределы объема настоящего изобретения.The
[00137] В соответствии с примерными вариантами осуществления настоящего изобретения, процессы, описанные выше, могут быть реализованы в виде программ, реализованных в форме компьютерного программного обеспечения, либо на машиночитаемом носителе данных. Например, варианты осуществления настоящего изобретения включают в себя компьютерный программный продукт, включающий в себя компьютерную программу, материально реализованную на машиночитаемом носителе, причем компьютерная программа включает в себя программный код для осуществления способов. В таких вариантах осуществления, компьютерная программа может загружаться и монтироваться из сети через модуль 809 связи и/или устанавливаться со съемного носителя 811, как показано на фиг. 8.[00137] In accordance with exemplary embodiments of the present invention, the processes described above may be implemented as programs implemented in the form of computer software or on a computer-readable storage medium. For example, embodiments of the present invention include a computer program product including a computer program tangibly embodied on a computer readable medium, the computer program including program code for implementing the methods. In such embodiments, a computer program may be downloaded and mounted from a network via
[00138] В общем случае, различные примерные варианты осуществления настоящего изобретения могут быть реализованы в аппаратных средствах или специализированных схемах (например, в схеме управления), в программном обеспечении, в логике либо в любом их сочетании. Например, модули, поясненные выше, могут выполняться посредством схемы управления (например, CPU в комбинации с другими компонентами по фиг. 8) таким образом, что схема управления может выполнять действия, описанные в данном описании. Некоторые аспекты могут быть реализованы в аппаратных средствах, тогда как другие аспекты могут быть реализованы в микропрограммном обеспечении или программном обеспечении, которое может выполняться посредством контроллера, микропроцессора или другого вычислительного устройства (например, схемы управления). Хотя различные аспекты примерных вариантов осуществления настоящего изобретения проиллюстрированы и описаны в виде блок-схем, блок-схем способов или с использованием некоторого другого графического представления, следует учитывать, что блоки, устройства, системы, технологии или способы, описанные в данном документе, могут быть реализованы, в качестве неограничивающих примеров, в аппаратных средствах, в программном обеспечении, в микропрограммном обеспечении, в специализированных схемах или в логике, в аппаратных средствах общего назначения или в контроллере, или в других вычислительных устройствах, или в некотором их сочетании.[00138] In general, various exemplary embodiments of the present invention may be implemented in hardware or specialized circuitry (eg, control circuitry), software, logic, or any combination thereof. For example, the modules explained above may be implemented by a control circuit (eg, a CPU in combination with other components of FIG. 8) such that the control circuit may perform the actions described herein. Some aspects may be implemented in hardware, while other aspects may be implemented in firmware or software that may be executed by a controller, microprocessor, or other computing device (eg, control circuitry). Although various aspects of exemplary embodiments of the present invention are illustrated and described in the form of block diagrams, method flow diagrams, or some other graphical representation, it should be appreciated that the blocks, devices, systems, technologies, or methods described herein may be embodied, by way of non-limiting examples, in hardware, software, firmware, application-specific circuits or logic, general purpose hardware or a controller, or other computing devices, or some combination thereof.
[00139] Кроме того, различные блоки, показанные на блок-схемах, могут рассматриваться в качестве этапов способа и/или в качестве операций, которые получаются в результате операции компьютерного программного кода, и/или в качестве множества соединенных логических схемных элементов, сконструированных с возможностью выполнения ассоциированной функции. Например, варианты осуществления настоящего изобретения включают в себя компьютерный программный продукт, включающий в себя компьютерную программу, материально реализованную на машиночитаемом носителе, причем компьютерная программа содержит программные коды, выполненные с возможностью осуществления способов, описанных выше.[00139] In addition, the various blocks shown in the block diagrams may be considered as method steps and/or as operations that result from an operation of computer program code, and/or as a plurality of interconnected logical circuit elements designed with the ability to perform an associated function. For example, embodiments of the present invention include a computer program product including a computer program tangibly embodied on a computer readable medium, wherein the computer program includes program codes configured to implement the methods described above.
[00140] В контексте изобретения, машиночитаемый носитель может представлять собой любой материальный носитель, который может содержать или сохранять программу для использования посредством или в связи с системой, устройством или устройством выполнения инструкций. Машиночитаемый носитель может представлять собой машиночитаемую среду передачи сигналов или машиночитаемый носитель данных. Машиночитаемый носитель может быть постоянным и может включать в себя, не ограничиваясь, электронную, магнитную, оптическую, электромагнитную, инфракрасную или полупроводниковую систему, устройство или устройство либо любое подходящее их сочетание. Более конкретные примеры машиночитаемого носителя данных должны включать в себя электрическое соединение, имеющее один или более проводов, портативную компьютерную дискету, жесткий диск, оперативное запоминающее устройство (RAM), постоянное запоминающее устройство (ROM), стираемое программируемое постоянное запоминающее устройство (EPROM или флэш-память), оптоволокно, портативное постоянное запоминающее устройство на компакт-дисках (CD-ROM), оптическое устройство хранения данных, магнитное устройство хранения данных либо любое подходящее их сочетание.[00140] In the context of the invention, a computer-readable medium can be any tangible medium that can contain or store a program for use by or in connection with an instruction execution system, apparatus, or apparatus. The computer-readable medium may be a computer-readable signaling medium or a computer-readable storage medium. A computer-readable medium may be non-transitory and may include, but is not limited to, an electronic, magnetic, optical, electromagnetic, infrared or semiconductor system, device or device, or any suitable combination thereof. More specific examples of a computer readable storage medium would include an electrical connection having one or more wires, a portable computer diskette, a hard disk, random access memory (RAM), read only memory (ROM), erasable programmable read only memory (EPROM or flash). memory), fiber optic, portable compact disc read-only memory (CD-ROM), optical storage device, magnetic storage device, or any suitable combination thereof.
[00141] Компьютерный программный код для осуществления способов настоящего изобретения может быть написан на любом сочетании одного или более языков программирования. Эти компьютерные программные коды могут передаваться в процессор компьютера общего назначения, компьютер специального назначения или другое программируемое устройство обработки данных, которое имеет схему управления, таким образом, что программные коды, при выполнении посредством процессора компьютера или другого программируемого устройства обработки данных, предписывают реализацию функций/операций, указываемых на блок-схемах способов и/или на блок-схемах. Программный код может выполняться полностью на компьютере, частично на компьютере, в качестве автономного программного пакета, частично на компьютере и частично на удаленном компьютере или полностью на удаленном компьютере или сервере, либо может быть распределён по одному или более удаленным компьютерам и/или серверам.[00141] The computer program code for implementing the methods of the present invention may be written in any combination of one or more programming languages. These computer program codes may be transmitted to a general purpose computer processor, special purpose computer, or other programmable data processing device that has control circuitry such that the program codes, when executed by the computer processor or other programmable data processing device, cause the implementation of functions/ operations indicated on the method flowcharts and/or flowcharts. The software code may run entirely on a computer, partially on a computer, as a stand-alone software package, partially on a computer and partially on a remote computer, or entirely on a remote computer or server, or may be distributed across one or more remote computers and/or servers.
[00142] Хотя данный документ содержит множество конкретных сведений по реализации, они должны истолковываться не в качестве ограничений на объем того, что может быть заявлено в качестве формулы изобретения, а напротив - в качестве описания признаков, которые могут относиться к конкретным вариантам осуществления. Определенные признаки, которые поясняются в этом подробном описании в контексте отдельных вариантов осуществления, также могут быть реализованы объединённо в одном варианте осуществления. Наоборот, различные признаки, которые описан в контексте одного варианта осуществления, также могут быть реализованы во множестве вариантах осуществления по отдельности либо в любом подходящем подсочетании. Кроме того, хотя признаки могут быть описаны выше как работающие в определенных сочетаниях и даже первоначально определяться в формуле изобретения как таковые, один или более признаков из заявленного сочетания в некоторых случаях могут быть исключены из сочетания, и заявленное сочетание может относиться к подсочетанию или вариантам подсочетания. Логические последовательности операций, проиллюстрированные на чертежах, не требуют конкретного показанного порядка или последовательного порядка для достижения требуемых результатов. Помимо этого, могут быть предусмотрены другие этапы , или этапы могут исключаться из описанных процессов, и другие компоненты могут добавляться или удаляться из описанных систем. Соответственно, другие реализации находятся в пределах объема прилагаемой формулы изобретения.[00142] Although this document contains many specific implementation details, they should not be construed as limitations on the scope of what may be claimed, but rather as descriptions of features that may be relevant to specific embodiments. Certain features that are explained in this detailed description in the context of individual embodiments may also be implemented combined in a single embodiment. Conversely, various features that are described in the context of one embodiment may also be implemented in multiple embodiments individually or in any suitable sub-combination. In addition, although features may be described above as operating in certain combinations and even initially defined as such in the claims, one or more features of a claimed combination may in some cases be excluded from the combination, and the claimed combination may refer to a sub-combination or variants of a sub-combination . The logical sequences of operations illustrated in the drawings do not require a particular order shown or sequential order to achieve the desired results. In addition, other steps may be provided or steps may be omitted from the processes described, and other components may be added or removed from the systems described. Accordingly, other implementations are within the scope of the appended claims.
Claims (25)
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US62/927,772 | 2019-10-30 | ||
US63/092,830 | 2020-10-16 |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2821284C1 true RU2821284C1 (en) | 2024-06-19 |
Family
ID=
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150340044A1 (en) * | 2014-05-16 | 2015-11-26 | Qualcomm Incorporated | Higher order ambisonics signal compression |
RU2616774C1 (en) * | 2010-07-02 | 2017-04-18 | Долби Интернешнл Аб | Audiodecoder for decoding bit audio performance, audiocoder for encoding sound signal and method of decoding frame of encoded sound signal |
US20170236521A1 (en) * | 2016-02-12 | 2017-08-17 | Qualcomm Incorporated | Encoding of multiple audio signals |
US20190013028A1 (en) * | 2017-07-07 | 2019-01-10 | Qualcomm Incorporated | Multi-stream audio coding |
US20190295559A1 (en) * | 2017-01-19 | 2019-09-26 | Qualcomm Incorporated | Inter-channel phase difference parameter modification |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2616774C1 (en) * | 2010-07-02 | 2017-04-18 | Долби Интернешнл Аб | Audiodecoder for decoding bit audio performance, audiocoder for encoding sound signal and method of decoding frame of encoded sound signal |
US20150340044A1 (en) * | 2014-05-16 | 2015-11-26 | Qualcomm Incorporated | Higher order ambisonics signal compression |
US20170236521A1 (en) * | 2016-02-12 | 2017-08-17 | Qualcomm Incorporated | Encoding of multiple audio signals |
US20190295559A1 (en) * | 2017-01-19 | 2019-09-26 | Qualcomm Incorporated | Inter-channel phase difference parameter modification |
US20190013028A1 (en) * | 2017-07-07 | 2019-01-10 | Qualcomm Incorporated | Multi-stream audio coding |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2763374C2 (en) | Method and system using the difference of long-term correlations between the left and right channels for downmixing in the time domain of a stereophonic audio signal into a primary channel and a secondary channel | |
RU2641481C2 (en) | Principle for audio coding and decoding for audio channels and audio objects | |
TWI821966B (en) | Method, system and non-transitory computer-readable medium of encoding and decoding immersive voice and audio services bitstreams | |
RU2576476C2 (en) | Audio signal decoder, audio signal encoder, method of generating upmix signal representation, method of generating downmix signal representation, computer programme and bitstream using common inter-object correlation parameter value | |
US9489962B2 (en) | Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method | |
US20220284910A1 (en) | Encoding and decoding ivas bitstreams | |
WO2022120093A1 (en) | Immersive voice and audio services (ivas) with adaptive downmix strategies | |
RU2821284C1 (en) | Distribution of bit rates in immersive voice and audio services | |
US20240153512A1 (en) | Audio codec with adaptive gain control of downmixed signals | |
US20240105192A1 (en) | Spatial noise filling in multi-channel codec | |
BR122023022314A2 (en) | BIT RATE DISTRIBUTION IN IMMERSIVE VOICE AND AUDIO SERVICES | |
BR122023022316A2 (en) | BIT RATE DISTRIBUTION IN IMMERSIVE VOICE AND AUDIO SERVICES | |
RU2821064C1 (en) | Immersive voice and audio services (ivas) with adaptive downmixing strategies | |
CN116547748A (en) | Spatial noise filling in multi-channel codecs | |
WO2023172865A1 (en) | Methods, apparatus and systems for directional audio coding-spatial reconstruction audio processing | |
BR122023022313A2 (en) | BIT RATE DISTRIBUTION IN IMMERSIVE VOICE AND AUDIO SERVICES | |
TW202411984A (en) | Encoder and encoding method for discontinuous transmission of parametrically coded independent streams with metadata | |
WO2024097485A1 (en) | Low bitrate scene-based audio coding |