RU2797457C1 - Determining the coding and decoding of the spatial audio parameters - Google Patents

Determining the coding and decoding of the spatial audio parameters Download PDF

Info

Publication number
RU2797457C1
RU2797457C1 RU2022106706A RU2022106706A RU2797457C1 RU 2797457 C1 RU2797457 C1 RU 2797457C1 RU 2022106706 A RU2022106706 A RU 2022106706A RU 2022106706 A RU2022106706 A RU 2022106706A RU 2797457 C1 RU2797457 C1 RU 2797457C1
Authority
RU
Russia
Prior art keywords
spatial audio
bits
quantization resolution
parameters
audio direction
Prior art date
Application number
RU2022106706A
Other languages
Russian (ru)
Inventor
Адриана ВАСИЛАКЕ
Original Assignee
Нокиа Текнолоджиз Ой
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Нокиа Текнолоджиз Ой filed Critical Нокиа Текнолоджиз Ой
Application granted granted Critical
Publication of RU2797457C1 publication Critical patent/RU2797457C1/en

Links

Images

Abstract

FIELD: audio coding.
SUBSTANCE: present invention relates to an apparatus and methods for coding parameters associated with a sound field. The apparatus comprises means configured to generate spatial audio direction metadata parameters for a time-frequency block; generating coded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution; comparing the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution with a given number of bits; outputting or storing coded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution, when the number of bits used for coded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is less than a predetermined number of bits; generating encoded spatial audio direction metadata parameters for the time-frequency block based on the second quantization resolution, when the number of bits used for coded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than a predetermined number of bits and the difference between the predetermined the number of bits and the number of bits used for coded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is less than a predetermined number of bits and is within a predetermined threshold; generating encoded spatial audio direction metadata parameters for the time-frequency block based on the third quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than a predetermined number of bits and the difference between the predetermined the number of bits and the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution are greater than a predetermined threshold.
EFFECT: possibility of obtaining the most efficient quantization resolution for encoding spatial audio parameters.
17 cl, 11 dwg

Description

ОБЛАСТЬ ТЕХНИКИFIELD OF TECHNOLOGY

Настоящее изобретение относится к устройству и способам кодирования параметров, связанных со звуковым полем, не ограничиваясь этим, для кодирования параметров частотно-временной области, связанных с направлением, для кодера и декодера звукового сигнала.The present invention relates to, but is not limited to, apparatus and methods for encoding direction-related parameters of a sound field for encoding direction-related time-frequency domain parameters for an audio encoder and decoder.

ПРЕДПОСЫЛКИ СОЗДАНИЯ ИЗОБРЕТЕНИЯBACKGROUND OF THE INVENTION

Параметрическая обработка пространственного звука - это обработка звукового сигнала, в которой пространственный аспект звука описывается с помощью набора параметров. Например, при параметрическом захвате пространственного звука с микрофонных решеток типичным и эффективным выбором является оценка, на основе сигналов с микрофонных решеток, набора параметров, таких как направления звука в частотных диапазонах и соотношения между направленной и ненаправленной частями захваченного звука в частотных диапазонах. Известно, что эти параметры хорошо описывают воспринимаемые пространственные свойства захваченного звука в месте расположения микрофонной решетки. Эти параметры можно соответственно использовать при синтезе пространственного звука, для стереофонических наушников, для громкоговорителей или для других форматов, таких как амбисоника.Parametric spatial audio processing is audio signal processing in which the spatial aspect of a sound is described using a set of parameters. For example, in parametric spatial audio capture from microphone arrays, a typical and effective choice is to estimate, based on microphone array signals, a set of parameters such as sound directions in frequency bands and the ratio between the directional and non-directional parts of the captured sound in frequency bands. These parameters are known to describe well the perceived spatial properties of the captured sound at the location of the microphone array. These parameters can be appropriately used for surround sound synthesis, for stereo headphones, for loudspeakers, or for other formats such as ambisonics.

Направления и отношения направленной энергии к полной в частотных диапазонах, таким образом, представляют параметризацию, которая особенно эффективна для захвата пространственного звука.Directions and ratios of directed to total energy in frequency bands thus represent a parameterization that is particularly effective for capturing spatial audio.

Набор параметров, состоящий из параметра направления в частотных диапазонах и параметра отношения энергии в частотных диапазонах (указывающего направленность звука), также может использоваться в качестве пространственных метаданных (которые также могут включать другие параметры, такие как когерентность, когерентность распространения, количество направлений, расстояние и т.д.) для аудиокодека. Например, эти параметры могут быть оценены из звуковых сигналов, захваченных микрофонной решеткой, и, например, может быть сгенерирован стереофонический сигнал из сигналов микрофонной решетки для передачи с пространственными метаданными. Стереофонический сигнал может быть закодирован, например, кодером ААС. Декодер может декодировать звуковые сигналы в сигналы РСМ и обрабатывать звук в частотных диапазонах (используя пространственные метаданные) для получения пространственного вывода, например бинаурального вывода.A set of parameters consisting of a direction parameter in frequency bands and an energy ratio parameter in frequency bands (indicating the directionality of sound) can also be used as spatial metadata (which can also include other parameters such as coherence, propagation coherence, number of directions, distance, and etc.) for the audio codec. For example, these parameters can be estimated from the audio signals captured by the microphone array, and, for example, a stereo signal can be generated from the microphone array signals for transmission with spatial metadata. The stereo signal may be encoded with, for example, an AAC encoder. The decoder may decode the audio signals into PCM signals and process the audio in frequency bands (using spatial metadata) to obtain a spatial output such as binaural output.

Описанное выше решение особенно подходит для кодирования захваченного пространственного звука с массивов микрофонов (например, в мобильных телефонах, камерах виртуальной реальности, автономных массивах микрофонов). Однако может быть желательным, чтобы такой кодер имел также другие типы входных сигналов, отличные от сигналов, захваченных массивом микрофонов, например, сигналы громкоговорителей, сигналы аудиообъектов или амбисонические сигналы.The solution described above is particularly suitable for encoding captured spatial audio from microphone arrays (eg, in mobile phones, virtual reality cameras, standalone microphone arrays). However, it may be desirable for such an encoder to also have other types of input signals than those captured by the microphone array, such as speaker signals, audio object signals, or ambisonic signals.

Анализ входных данных амбисоники первого порядка (FOA, first-order Ambisonics) для извлечения пространственных метаданных был подробно описан в научной литературе, связанной с кодированием направленных звуковых сигналов (DirAC, Directional Audio Coding) и расширением гармонической плоской волны (Harpex, Harmonic planewave expansion). Это связано с тем, что существуют микрофонные решетки, непосредственно передающие сигнал FOA (точнее, его вариант, сигнал формата В), поэтому анализ такого входа был предметом исследования в этой области.First-order Ambisonics (FOA) input analysis to extract spatial metadata has been described in detail in scientific literature related to Directional Audio Coding (DirAC) and Harpex (Harmonic planewave expansion) . This is due to the fact that there are microphone arrays that directly transmit the FOA signal (more precisely, its variant, the format B signal), so the analysis of such an input has been the subject of research in this area.

Дополнительным входом для кодера также является многоканальный вход громкоговорителя, например, 5.1- или 7.1-канальные входы объемного звучания.An additional input for the encoder is also a multi-channel speaker input, such as 5.1 or 7.1 surround inputs.

Однако в отношении направленных компонентов метаданных, которые могут включать угловую высоту, азимут (и отношение энергии, представляющее собой 1-диффузность) результирующего направления для каждого рассматриваемого временного/частотного поддиапазона, квантование этих направленных компонентов является актуальной темой исследований.However, with respect to the directional components of the metadata, which may include the angular height, azimuth (and energy ratio, which is 1-diffusion) of the resulting direction for each time/frequency subband considered, the quantization of these directional components is a hot topic of research.

СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

В соответствии с первым аспектом предлагается устройство, содержащее средства, сконфигурированные для: генерирования параметров метаданных направления пространственного звукового сигнала для частотно-временного блока; генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования; сравнения количества битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, с заданным количеством битов; вывода или сохранения кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, меньше заданного количества битов; генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе второго разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного количества битов и разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, меньше заданного количества битов и находится в пределах заданного порога; генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного количества битов и разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного порога, при этом третье разрешение квантования определяется таким образом, что количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, всегда равно или меньше заданного количества битов.According to a first aspect, an apparatus is provided, comprising means configured to: generate spatial audio direction metadata parameters for a time-frequency block; generating encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution; comparing the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution with a given number of bits; outputting or storing encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is less than a predetermined number of bits; generating encoded spatial audio direction metadata parameters for the time-frequency block based on the second quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than a predetermined number of bits and the difference between the predetermined the number of bits and the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is less than a predetermined number of bits and is within a predetermined threshold; generating encoded spatial audio direction metadata parameters for the time-frequency block based on the third quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than a predetermined number of bits and the difference between the predetermined the number of bits and the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than a predetermined threshold, while the third quantization resolution is determined such that the number of bits used for the encoded spatial audio direction parameters for a time-frequency block based on the third quantization resolution, always equal to or less than the specified number of bits.

Средство, сконфигурированное для генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, может быть сконфигурировано для: определения первого разрешения квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса; генерирования индексов, связанных с параметрами метаданных направления пространственного звукового сигнала, на основе отображения с использованием первого разрешения квантования; кодирования, по выбору, индексов с использованием кодирования с фиксированной скоростью или энтропийного кодирования на основе того, использует ли кодирование с фиксированной скоростью или энтропийное кодирование меньшее количество битов.Means configured to generate encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution may be configured to: determine a first quantization resolution to map between the spatial audio direction metadata parameter values and the index value; generating indices associated with spatial audio direction metadata parameters based on the mapping using the first quantization resolution; encoding, optionally, indexes using fixed rate coding or entropy coding based on whether fixed rate coding or entropy coding uses fewer bits.

Средство, сконфигурированное для определения первого разрешения квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса, может быть сконфигурировано для определения первого разрешения квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса на основе значения отношения энергии, связанного с параметром метаданных направления пространственного звукового сигнала.Means configured to determine a first quantization resolution for mapping between spatial audio direction metadata parameter values and an index value may be configured to determine a first quantization resolution for mapping between spatial audio direction metadata parameter values and an index value based on an energy ratio value associated with the spatial audio direction metadata parameter.

Средство, сконфигурированное для генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе второго разрешения квантования, когда разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, находится в пределах заданного порога, может быть сконфигурировано для: определения второго разрешения квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса; генерирования индексов, связанных с параметрами метаданных направления пространственного звукового сигнала, на основе отображения с использованием второго разрешения квантования для параметров метаданных направления пространственного звукового сигнала, которые были закодированы с фиксированной скоростью с использованием первого разрешения квантования.Means configured to generate encoded spatial audio direction metadata parameters for the time-frequency block based on the second quantization resolution when the difference between the specified number of bits and the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the first resolution quantization is within a predetermined threshold, may be configured to: determine a second quantization resolution to map between spatial audio direction metadata parameter values and an index value; generating indices associated with the spatial audio direction metadata parameters based on the mapping using the second quantization resolution for the spatial audio direction metadata parameters that have been encoded at a fixed rate using the first quantization resolution.

Средство может быть также сконфигурировано для вывода или сохранения: энтропийно-кодированных индексов, связанных с параметрами метаданных направления пространственного звукового сигнала, на основе отображения с использованием первого разрешения квантования для параметров метаданных направления пространственного звукового сигнала; и кодированных с фиксированной скоростью индексов, связанных с параметрами метаданных направления пространственного звукового сигнала, на основе отображения с использованием второго разрешения квантования для параметров метаданных направления пространственного звукового сигнала.The means may also be configured to output or store: entropy-coded indices associated with the spatial audio direction metadata parameters based on a mapping using a first quantization resolution for the spatial audio direction metadata parameters; and fixed rate encoded indices associated with the spatial audio direction metadata parameters based on a mapping using a second quantization resolution for the spatial audio direction metadata parameters.

Средство может быть также сконфигурировано для упорядочения кодированных индексов таким образом, чтобы энтропийно-кодированные индексы предшествовали индексам, кодированным с фиксированной скоростью.The means may also be configured to order the encoded indices such that the entropy encoded indices precede the fixed rate encoded indices.

Средство может быть также сконфигурировано для генерирования индикатора, когда используется первое или второе разрешение квантования.The means may also be configured to generate an indicator when the first or second quantization resolution is used.

Средство, сконфигурированное для генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, может быть сконфигурировано для: определения третьего разрешения квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса на основе того, что количество битов, используемых для кодирования с фиксированной скоростью с использованием третьего разрешения квантования, всегда равно или меньше заданного количества битов; генерирования индексов, связанных с параметрами метаданных направления пространственного звукового сигнала, на основе отображения с использованием третьего разрешения квантования; и кодирования, по выбору, индексов с использованием кодирования с фиксированной скоростью или энтропийного кодирования на основе того, использует ли кодирование с фиксированной скоростью или энтропийное кодирование меньшее количество битов.Means configured to generate encoded spatial audio direction metadata parameters for a time-frequency block based on the third quantization resolution may be configured to: determine a third quantization resolution to map between the spatial audio direction metadata parameter values and the index value based on that the number of bits used for fixed rate coding using the third quantization resolution is always equal to or less than the specified number of bits; generating indices associated with spatial audio direction metadata parameters based on the mapping using the third quantization resolution; and encoding, optionally, the indices using fixed rate coding or entropy coding based on whether the fixed rate coding or entropy coding uses fewer bits.

Средство может быть также сконфигурировано для вывода кодированных по выбору индексов с использованием кодирования с фиксированной скоростью или энтропийного кодирования на основе того, использует ли кодирование с фиксированной скоростью или энтропийное кодирование меньшее количество битов.The means may also be configured to output selectively encoded indices using fixed rate coding or entropy coding based on whether the fixed rate coding or entropy coding uses fewer bits.

Средство может быть также сконфигурировано для генерирования индикатора, когда определено третье разрешение квантования.The means may also be configured to generate an indicator when a third quantization resolution is determined.

Согласно второму аспекту предлагается устройство, содержащее средства, сконфигурированные для: приема кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока; приема индикатора, сконфигурированного для идентификации того, были ли закодированы кодированные параметры метаданных направления пространственного звукового сигнала на основе разрешения квантования, которое всегда равно или меньше заданного количества битов; декодирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе разрешения квантования, которое всегда равно или меньше заданного количества битов, когда индикатор идентифицирует, что кодированные параметры метаданных направления пространственного звукового сигнала были закодированы на основе разрешения квантования, которое всегда равно или меньше заданного количества битов; и, когда индикатор идентифицирует, что кодированные параметры метаданных направления пространственного звукового сигнала не были закодированы на основе разрешения квантования, которое всегда равно или меньше заданного количества битов, средство сконфигурировано для: декодирования первой части кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе другого разрешения квантования, причем первая часть содержит энтропийно-кодированные параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования; декодирования, когда разность между заданным количеством битов и количеством битов, используемых для кодирования первой части, меньше количества битов, необходимых для кодирования второй части кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования, второй части, содержащей кодированные с фиксированной скоростью параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе уменьшенного разрешения квантования битов, в противном случае декодирования второй части, содержащей кодированные с фиксированной скоростью параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования.According to a second aspect, an apparatus is provided, comprising means configured to: receive encoded spatial audio direction metadata parameters for a time-frequency block; receiving an indicator configured to identify whether encoded spatial audio direction metadata parameters have been encoded based on a quantization resolution that is always equal to or less than a predetermined number of bits; decoding the encoded spatial audio direction metadata parameters for a time-frequency block based on a quantization resolution that is always equal to or less than a specified number of bits, when the indicator identifies that the encoded spatial audio direction metadata parameters have been encoded based on a quantization resolution that is always equal to or less than the specified number of bits; and, when the indicator identifies that the encoded spatial audio direction metadata parameters have not been encoded based on a quantization resolution that is always equal to or less than a predetermined number of bits, the means is configured to: decode a first part of the encoded spatial audio direction metadata parameters for the time-frequency block based on another quantization resolution, wherein the first part contains entropy-encoded spatial audio direction metadata parameters for the time-frequency block based on said other quantization resolution; decoding, when the difference between the given number of bits and the number of bits used to encode the first part is less than the number of bits needed to encode the second part of the encoded parameters of the spatial audio direction metadata for the time-frequency block based on said different quantization resolution, the second part containing fixed-rate encoded spatial audio direction metadata parameters for the time-frequency block based on reduced bit quantization resolution, otherwise decoding the second part containing fixed-rate encoded spatial audio direction metadata parameters for the time-frequency block based on said other resolution quantization.

Средство может быть также сконфигурировано для определения упомянутого другого разрешения квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса.The means may also be configured to determine said different quantization resolution to map between the spatial audio direction metadata parameter values and the index value.

Средство, сконфигурированное для определения упомянутого другого разрешения квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса, может быть сконфигурировано для определения упомянутого другого разрешения квантования на основе значения отношения энергии, связанного с параметром метаданных направления пространственного звукового сигнала.Means configured to determine said different quantization resolution to map between the spatial audio direction metadata parameter values and the index value may be configured to determine said different quantization resolution based on the energy ratio value associated with the spatial audio direction metadata parameter.

Средство может быть также сконфигурировано для определения уменьшенного разрешения квантования битов для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса.The means may also be configured to determine the reduced bit quantization resolution to map between the spatial audio direction metadata parameter values and the index value.

Средство может быть также сконфигурировано для генерирования отображения из индексов, связанных с параметрами метаданных направления пространственного звукового сигнала, в значение угловой высоты и/или значение азимута на основе разрешения квантования.The means may also be configured to generate a mapping from the indices associated with the spatial audio direction metadata parameters to an angular height value and/or an azimuth value based on the quantization resolution.

В соответствии с третьим аспектом предлагается способ, включающий: генерирование параметров метаданных направления пространственного звукового сигнала для частотно-временного блока; генерирование кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования; сравнение количества битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, с заданным количеством битов; вывод или сохранение кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, меньше заданного количества битов; генерирование кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе второго разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного количества битов и разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, меньше заданного количества битов и находится в пределах заданного порога; генерирование кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного количества битов и разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного порога, при этом третье разрешение квантования определяют таким образом, что количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, всегда равно или меньше заданного количества битов.According to a third aspect, a method is provided, including: generating spatial audio direction metadata parameters for a time-frequency block; generating encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution; comparing the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution with a given number of bits; deriving or storing encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is less than a predetermined number of bits; generating encoded spatial audio direction metadata parameters for the time-frequency block based on the second quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than the specified number of bits and the difference between the specified the number of bits and the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is less than a predetermined number of bits and is within a predetermined threshold; generating encoded spatial audio direction metadata parameters for the time-frequency block based on the third quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than the specified number of bits and the difference between the specified the number of bits and the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than a predetermined threshold, wherein the third quantization resolution is determined such that the number of bits used for the encoded spatial audio direction parameters for a time-frequency block based on the third quantization resolution, always equal to or less than the specified number of bits.

Генерирование кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования может включать: определение первого разрешения квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса; генерирование индексов, связанных с параметрами метаданных направления пространственного звукового сигнала, на основе отображения с использованием первого разрешения квантования; кодирование, по выбору, индексов с использованием кодирования с фиксированной скоростью или энтропийного кодирования на основе того, использует ли кодирование с фиксированной скоростью или энтропийное кодирование меньшее количество битов.Generating encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution may include: determining a first quantization resolution to map between spatial audio direction metadata parameter values and an index value; generating indices associated with spatial audio direction metadata parameters based on the mapping using the first quantization resolution; encoding, optionally, the indexes using fixed rate coding or entropy coding based on whether the fixed rate coding or entropy coding uses fewer bits.

Определение первого разрешения квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса может включать определение первого разрешения квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса на основе значения отношения энергии, связанного с параметром метаданных направления пространственного звукового сигнала.Determining a first quantization resolution for mapping between spatial audio direction metadata parameter values and an index value may include determining a first quantization resolution for mapping between spatial audio direction metadata parameter values and an index value based on an energy ratio value associated with the spatial audio direction metadata parameter .

Генерирование кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе второго разрешения квантования, когда разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, находится в пределах заданного порога, может включать: определение второго разрешения квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса; генерирование индексов, связанных с параметрами метаданных направления пространственного звукового сигнала, на основе отображения с использованием второго разрешения квантования для параметров метаданных направления пространственного звукового сигнала, которые были закодированы с фиксированной скоростью с использованием первого разрешения квантования.Generating encoded spatial audio direction metadata parameters for the time-frequency block based on the second quantization resolution, when the difference between the specified number of bits and the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is in within a given threshold, may include: determining a second quantization resolution to map between spatial audio direction metadata parameter values and an index value; generating indices associated with the spatial audio direction metadata parameters based on the mapping using the second quantization resolution for the spatial audio direction metadata parameters that have been encoded at a fixed rate using the first quantization resolution.

Способ может также включать вывод или сохранение энтропийно-кодированных индексов, связанных с параметрами метаданных направления пространственного звукового сигнала, на основе отображения с использованием первого разрешения квантования для параметров метаданных направления пространственного звукового сигнала; и кодированных с фиксированной скоростью индексов, связанных с параметрами метаданных направления пространственного звукового сигнала, на основе отображения с использованием второго разрешения квантования для параметров метаданных направления пространственного звукового сигнала.The method may also include deriving or storing entropy-coded indices associated with the spatial audio direction metadata parameters based on a mapping using a first quantization resolution for the spatial audio direction metadata parameters; and fixed rate encoded indices associated with the spatial audio direction metadata parameters based on a mapping using a second quantization resolution for the spatial audio direction metadata parameters.

Способ может также включать упорядочение кодированных индексов таким образом, чтобы энтропийно-кодированные индексы предшествовали индексам, кодированным с фиксированной скоростью.The method may also include ordering the encoded indices such that the entropy-encoded indices precede the fixed-rate-encoded indices.

Способ может также включать генерирование индикатора, когда используется первое или второе разрешение квантования.The method may also include generating an indicator when the first or second quantization resolution is used.

Генерирование кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования может включать: определение третьего разрешения квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса на основе того, что количество битов, используемых для кодирования с фиксированной скоростью с использованием третьего разрешения квантования, всегда равно или меньше заданного количества битов; генерирование индексов, связанных с параметрами метаданных направления пространственного звукового сигнала, на основе отображения с использованием третьего разрешения квантования; и кодирование, по выбору, индексов с использованием кодирования с фиксированной скоростью или энтропийного кодирования на основе того, использует ли кодирование с фиксированной скоростью или энтропийное кодирование меньшее количество битов.Generating encoded spatial audio direction metadata parameters for a time-frequency block based on a third quantization resolution may include: determining a third quantization resolution to map between the spatial audio direction metadata parameter values and an index value based on that the number of bits used to encode with fixed rate using the third quantization resolution, always equal to or less than the specified number of bits; generating indices associated with spatial audio direction metadata parameters based on the mapping using the third quantization resolution; and encoding, optionally, the indexes using fixed rate coding or entropy coding based on whether the fixed rate coding or entropy coding uses fewer bits.

Кроме того, способ может включать вывод кодированных по выбору индексов с использованием кодирования с фиксированной скоростью или энтропийного кодирования на основе того, использует ли фиксированное кодирование или энтропийное кодирование меньшее количество битов.Further, the method may include deriving selectively encoded indices using fixed rate coding or entropy coding based on whether the fixed coding or entropy coding uses fewer bits.

Способ может также включать генерирование индикатора, когда определено третье разрешение квантования.The method may also include generating an indicator when the third quantization resolution is determined.

В соответствии с четвертым аспектом предлагается способ, включающий: прием кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока; прием индикатора, сконфигурированного для идентификации того, были ли закодированы кодированные параметры метаданных направления пространственного звукового сигнала на основе разрешения квантования, которое всегда равно или меньше заданного количества битов; декодирование кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе разрешения квантования, которое всегда равно или меньше заданного количества битов, когда индикатор идентифицирует, что кодированные параметры метаданных направления пространственного звукового сигнала были закодированы на основе разрешения квантования, которое всегда равно или меньше заданного количества битов; и, когда индикатор идентифицирует, что кодированные параметры метаданных направления пространственного звукового сигнала не были закодированы на основе разрешения квантования, которое всегда равно или меньше заданного количества битов, способ включает: декодирование первой части кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе другого разрешения квантования, причем первая часть содержит энтропийно-кодированные параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования; декодирование, когда разность между заданным количеством битов и количеством битов, используемых для кодирования первой части, меньше количества битов, необходимых для кодирования второй части кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования, второй части, содержащей кодированные с фиксированной скоростью параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе уменьшенного разрешения квантования битов, в противном случае декодирование второй части, содержащей кодированные с фиксированной скоростью параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования.According to a fourth aspect, a method is provided, including: receiving encoded spatial audio direction metadata parameters for a time-frequency block; receiving an indicator configured to identify whether encoded spatial audio direction metadata parameters have been encoded based on a quantization resolution that is always equal to or less than a predetermined number of bits; decoding the encoded parameters of the spatial audio direction metadata for the time-frequency block based on the quantization resolution, which is always equal to or less than the specified number of bits, when the indicator identifies that the encoded parameters of the spatial audio direction metadata were encoded based on the quantization resolution, which is always equal to or less than the specified number of bits; and, when the indicator identifies that the encoded spatial audio direction metadata parameters have not been encoded based on a quantization resolution that is always equal to or less than a predetermined number of bits, the method includes: decoding a first part of the encoded spatial audio direction metadata parameters for the time-frequency block on based on another quantization resolution, the first part containing entropy-encoded spatial audio direction metadata parameters for the time-frequency block based on said other quantization resolution; decoding when the difference between the given number of bits and the number of bits used to encode the first part is less than the number of bits needed to encode the second part of the encoded spatial audio direction metadata parameters for the time-frequency block based on said different quantization resolution, the second part containing fixed-rate encoded spatial audio direction metadata parameters for the time-frequency block based on reduced bit quantization resolution, otherwise decoding the second part containing fixed-rate encoded spatial audio direction metadata parameters for the time-frequency block based on said other resolution quantization.

Способ может также включать определение упомянутого другого разрешения квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса.The method may also include determining said different quantization resolution to map between the spatial audio direction metadata parameter values and the index value.

Определение упомянутого другого разрешения квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса может включать определение упомянутого другого разрешения квантования на основе значения отношения энергии, связанного с параметром метаданных направления пространственного звукового сигнала.Determining said different quantization resolution to map between the spatial audio direction metadata parameter values and the index value may include determining said different quantization resolution based on the energy ratio value associated with the spatial audio direction metadata parameter.

Способ может включать определение уменьшенного разрешения квантования битов для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса.The method may include determining a reduced bit quantization resolution to map between spatial audio direction metadata parameter values and an index value.

Способ может включать генерирование отображения из индексов, связанных с параметрами метаданных направления пространственного звукового сигнала, в значение угловой высоты и/или значение азимута на основе разрешения квантования.The method may include generating a mapping from indices associated with spatial audio direction metadata parameters to an angular height value and/or an azimuth value based on a quantization resolution.

В соответствии с пятым аспектом предлагается устройство, содержащее по меньшей мере один процессор и по меньшей мере одно запоминающее устройство, включающее код компьютерной программы, причем по меньшей мере одно запоминающее устройство и код компьютерной программы сконфигурированы так, чтобы с помощью по меньшей мере одного процессора заставлять устройство выполнять по меньшей мере: генерирование параметров метаданных направления пространственного звукового сигнала для частотно-временного блока; генерирование кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования; сравнение количества битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, с заданным количеством битов; вывод или сохранение кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, меньше заданного количества битов; генерирование кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе второго разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного количества битов и разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, меньше заданного количества битов и находится в пределах заданного порога; генерирование кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного количества битов и разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного порога, при этом третье разрешение квантования определяется таким образом, что количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, всегда равно или меньше заданного количества битов.According to a fifth aspect, there is provided an apparatus comprising at least one processor and at least one memory including computer program code, the at least one memory and the computer program code being configured to, by means of the at least one processor, cause the device to perform at least: generating metadata parameters of the direction of the spatial audio signal for the time-frequency block; generating encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution; comparing the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution with a given number of bits; deriving or storing encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is less than a predetermined number of bits; generating encoded spatial audio direction metadata parameters for the time-frequency block based on the second quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than the specified number of bits and the difference between the specified the number of bits and the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is less than a predetermined number of bits and is within a predetermined threshold; generating encoded spatial audio direction metadata parameters for the time-frequency block based on the third quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than the specified number of bits and the difference between the specified the number of bits and the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than a predetermined threshold, while the third quantization resolution is determined such that the number of bits used for the encoded spatial audio direction parameters for a time-frequency block based on the third quantization resolution, always equal to or less than the specified number of bits.

Устройство, которое генерирует кодированные параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, может: определять первое разрешение квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса; генерировать индексы, связанные с параметрами метаданных направления пространственного звукового сигнала, на основе отображения с использованием первого разрешения квантования; кодировать по выбору индексы с использованием кодирования с фиксированной скоростью или энтропийного кодирования в зависимости от того, использует ли фиксированное кодирование или энтропийное кодирование меньшее количество битов.An apparatus that generates encoded spatial audio direction metadata parameters for a time-frequency block based on the first quantization resolution may: determine a first quantization resolution to map between the spatial audio direction metadata parameter values and the index value; generate indexes associated with spatial audio direction metadata parameters based on the mapping using the first quantization resolution; selectively encode the indexes using fixed rate coding or entropy coding depending on whether the fixed coding or entropy coding uses fewer bits.

Устройство, которое определяет первое разрешение квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса, может: определять первое разрешение квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса на основе значения отношения энергии, связанного с параметром метаданных направления пространственного звукового сигнала.The device that determines the first quantization resolution for mapping between the spatial audio direction metadata parameter values and the index value can: determine the first quantization resolution for mapping between the spatial audio direction metadata parameter values and the index value based on the energy ratio value associated with the metadata parameter direction of the spatial audio signal.

Устройство, которое генерирует кодированные параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе второго разрешения квантования, когда разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, находится в пределах заданного порога, может: определять второе разрешение квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса; генерировать индексы, связанные с параметрами метаданных направления пространственного звукового сигнала, на основе отображения с использованием второго разрешения квантования для параметров метаданных направления пространственного звукового сигнала, которые были закодированы с фиксированной скоростью с использованием первого разрешения квантования.An apparatus that generates encoded spatial audio direction metadata parameters for the time-frequency block based on the second quantization resolution when the difference between the specified number of bits and the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution , is within a predetermined threshold, may: determine a second quantization resolution for mapping between spatial audio direction metadata parameter values and an index value; generate indexes associated with the spatial audio direction metadata parameters based on the mapping using the second quantization resolution for the spatial audio direction metadata parameters that have been encoded at a fixed rate using the first quantization resolution.

Устройство может выводить или сохранять: энтропийно-кодированные индексы, связанные с параметрами метаданных направления пространственного звукового сигнала, на основе отображения с использованием первого разрешения квантования для параметров метаданных направления пространственного звукового сигнала; и кодированных с фиксированной скоростью индексов, связанных с параметрами метаданных направления пространственного звукового сигнала, на основе отображения с использованием второго разрешения квантования для параметров метаданных направления пространственного звукового сигнала.The device may output or store: entropy-coded indices associated with the spatial audio direction metadata parameters based on a mapping using a first quantization resolution for the spatial audio direction metadata parameters; and fixed rate encoded indices associated with the spatial audio direction metadata parameters based on a mapping using a second quantization resolution for the spatial audio direction metadata parameters.

Устройство может упорядочивать кодированные индексы таким образом, чтобы энтропийно-кодированные индексы предшествовали индексам, кодированным с фиксированной скоростью.The device may order the encoded indices such that the entropy-encoded indices precede the fixed-rate-encoded indices.

Устройство может генерировать индикатор, когда используется первое или второе разрешение квантования.The device may generate an indicator when the first or second quantization resolution is used.

Устройство, которое генерирует кодированные параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, может: определять третье разрешение квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса на основе того, что количество битов, используемых для кодирования с фиксированной скоростью с использованием третьего разрешения квантования, всегда равно или меньше заданного количества битов; генерировать индексы, связанные с параметрами метаданных направления пространственного звукового сигнала, на основе отображения с использованием третьего разрешения квантования; и кодировать по выбору индексы с использованием кодирования с фиксированной скоростью или энтропийного кодирования на основе того, использует ли кодирование с фиксированной скоростью или энтропийное кодирование меньшее количество битов.A device that generates encoded spatial audio direction metadata parameters for a time-frequency block based on the third quantization resolution may: determine a third quantization resolution to map between the spatial audio direction metadata parameter values and the index value based on that the number of bits used for fixed rate coding using the third quantization resolution, always equal to or less than the specified number of bits; generate indexes associated with the spatial audio direction metadata parameters based on the mapping using the third quantization resolution; and selectively encode the indexes using fixed rate coding or entropy coding based on whether the fixed rate coding or entropy coding uses fewer bits.

Устройство может выводить кодированные по выбору индексы с использованием кодирования с фиксированной скоростью или энтропийного кодирования на основе того, использует ли фиксированное кодирование или энтропийное кодирование меньшее количество битов.The apparatus can output selectively encoded indices using fixed rate coding or entropy coding based on whether the fixed coding or entropy coding uses fewer bits.

Устройство может генерировать индикатор, когда определено третье разрешение квантования.The device may generate an indicator when the third quantization resolution is determined.

В соответствии с шестым аспектом предлагается устройство, содержащее по меньшей мере один процессор и по меньшей мере одно запоминающее устройство, включающее код компьютерной программы, причем по меньшей мере одно запоминающее устройство и код компьютерной программы сконфигурированы так, чтобы с помощью по меньшей мере одного процессора заставлять устройство выполнять по меньшей мере: прием кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока; прием индикатора, сконфигурированного для идентификации того, были ли закодированы кодированные параметры метаданных направления пространственного звукового сигнала на основе разрешения квантования, которое всегда равно или меньше заданного количества битов; декодировать кодированные параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе разрешения квантования, которое всегда равно или меньше заданного количества битов, когда индикатор идентифицирует, что кодированные параметры метаданных направления пространственного звукового сигнала были закодированы на основе разрешения квантования, которое всегда равно или меньше заданного количества битов; и, когда индикатор идентифицирует, что кодированные параметры метаданных направления пространственного звукового сигнала не были закодированы на основе разрешения квантования, которое всегда равно или меньше заданного количества битов, устройство декодирует первую часть кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе другого разрешения квантования, при этом первая часть содержит энтропийно-кодированные параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования; декодирует, когда разность между заданным количеством битов и количеством битов, используемых для кодирования первой части, меньше количества битов, необходимых для кодирования второй части кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования, вторую часть, содержащую кодированные с фиксированной скоростью параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе уменьшенного разрешения квантования битов, в противном случае декодирует вторую часть, содержащую кодированные с фиксированной скоростью параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования.According to a sixth aspect, there is provided an apparatus comprising at least one processor and at least one storage device including computer program code, the at least one storage device and the computer program code being configured to, by means of at least one processor, cause the device to perform at least: receiving the encoded parameters of the spatial audio direction metadata for the time-frequency block; receiving an indicator configured to identify whether encoded spatial audio direction metadata parameters have been encoded based on a quantization resolution that is always equal to or less than a predetermined number of bits; decode the encoded spatial audio direction metadata parameters for the time-frequency block based on a quantization resolution that is always equal to or less than a specified number of bits, when the indicator identifies that the encoded spatial audio direction metadata parameters have been encoded based on a quantization resolution that is always equal to or less than the specified number of bits; and, when the indicator identifies that the encoded spatial audio direction metadata parameters have not been encoded based on a quantization resolution that is always equal to or less than a predetermined number of bits, the device decodes the first part of the encoded spatial audio direction metadata parameters for the time-frequency block based on the other quantization resolution, wherein the first part contains entropy-encoded spatial audio direction metadata parameters for the time-frequency block based on said other quantization resolution; decodes, when the difference between the given number of bits and the number of bits used to encode the first part, is less than the number of bits needed to encode the second part of the encoded spatial audio direction metadata parameters for the time-frequency block based on said different quantization resolution, the second part comprising fixed-rate encoded spatial audio direction metadata parameters for the time-frequency block based on reduced bit quantization resolution, otherwise decodes the second part containing fixed-rate encoded spatial audio direction metadata parameters for the time-frequency block based on said other resolution quantization.

Устройство может также определять упомянутое другое разрешение квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса.The device may also determine said other quantization resolution to map between the spatial audio direction metadata parameter values and the index value.

Устройство, которое определяет упомянутое другое разрешение квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса, может определять упомянутое другое разрешение квантования на основе значения отношения энергии, связанного с параметром метаданных направления пространственного звукового сигнала.A device that determines said different quantization resolution for mapping between the spatial audio direction metadata parameter values and the index value can determine said different quantization resolution based on the energy ratio value associated with the spatial audio direction metadata parameter.

Устройство может также определять уменьшенное разрешение квантования битов для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса.The device may also determine the reduced bit quantization resolution to map between the spatial audio direction metadata parameter values and the index value.

Кроме того, устройство может генерировать отображение из индексов, связанных с параметрами метаданных направления пространственного звукового сигнала, в значение угловой высоты и/или значение азимута на основе разрешения квантования.In addition, the device may generate a mapping from indices associated with the spatial audio direction metadata parameters to an angular height value and/or an azimuth value based on the quantization resolution.

В соответствии с седьмым аспектом предлагается устройство, содержащее: схему генерирования, сконфигурированную для генерирования параметров метаданных направления пространственного звукового сигнала для частотно-временного блока; схему генерирования, сконфигурированную для генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования; схему сравнения, сконфигурированную для сравнения количества битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, с заданным количеством битов; схему вывода или сохранения, сконфигурированную для вывода или сохранения кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, меньше заданного количества битов; схему генерирования, сконфигурированную для генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе второго разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного количества битов и разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, меньше заданного количества битов и находится в пределах заданного порога; схему генерирования, сконфигурированную для генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного количества битов и разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного порога, при этом третье разрешение квантования определяется таким образом, что количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, всегда равно или меньше заданного количества битов.According to a seventh aspect, an apparatus is provided, comprising: a generating circuit configured to generate spatial audio direction metadata parameters for a time-frequency block; a generating circuit configured to generate encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution; a comparison circuit configured to compare the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution with a predetermined number of bits; an output or storage circuit configured to output or store the encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution, when the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution , less than the specified number of bits; a generating circuit configured to generate encoded spatial audio direction metadata parameters for the time-frequency block based on the second quantization resolution when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than a predetermined number bits, and the difference between the predetermined number of bits and the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is less than the predetermined number of bits and is within the predetermined threshold; a generating circuit configured to generate encoded spatial audio direction metadata parameters for the time-frequency block based on the third quantization resolution when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than a predetermined number bits and the difference between the predetermined number of bits and the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than the predetermined threshold, the third quantization resolution being determined such that the number of bits used for the encoded the spatial audio direction parameters for the time-frequency block based on the third quantization resolution is always equal to or less than the specified number of bits.

В соответствии с восьмым аспектом предлагается устройство, содержащее: схему приема, сконфигурированную для приема кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока; схему приема, сконфигурированную для приема индикатора, сконфигурированного для идентификации того, были ли закодированы кодированные параметры метаданных направления пространственного звукового сигнала на основе разрешения квантования, которое всегда равно или меньше заданного количества битов; схему декодирования, сконфигурированную для декодирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе разрешения квантования, которое всегда равно или меньше заданного количества битов, когда индикатор идентифицирует, что кодированные параметры метаданных направления пространственного звукового сигнала были закодированы на основе разрешения квантования, которое всегда равно или меньше заданного количества битов; и, когда индикатор идентифицирует, что кодированные параметры метаданных направления пространственного звукового сигнала не были закодированы на основе разрешения квантования, которое всегда равно или меньше заданного количества битов, устройство содержит: схему декодирования, сконфигурированную для декодирования первой части кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе другого разрешения квантования, причем первая часть содержит энтропийно-кодированные параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования; схему декодирования, сконфигурированную для декодирования, когда разность между заданным количеством битов и количеством битов, используемых для кодирования первой части, меньше количества битов, необходимых для кодирования второй части кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования, второй части, содержащей кодированные с фиксированной скоростью параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе уменьшенного разрешения квантования битов, в противном случае для декодирования второй части, содержащей кодированные с фиксированной скоростью параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования.According to an eighth aspect, an apparatus is provided, comprising: a receiving circuit configured to receive encoded spatial audio direction metadata parameters for a time-frequency block; a receiving circuit configured to receive an indicator configured to identify whether encoded spatial audio direction metadata parameters have been encoded based on a quantization resolution that is always equal to or less than a predetermined number of bits; a decoding circuit configured to decode encoded spatial audio direction metadata parameters for a time-frequency block based on a quantization resolution that is always equal to or less than a predetermined number of bits when the indicator identifies that the encoded spatial audio direction metadata parameters have been encoded based on the quantization resolution , which is always equal to or less than the specified number of bits; and, when the indicator identifies that the encoded spatial audio direction metadata parameters have not been encoded based on a quantization resolution that is always equal to or less than a predetermined number of bits, the device comprises: a decoding circuit configured to decode a first part of the encoded spatial audio direction metadata parameters for a time-frequency block based on another quantization resolution, the first part containing entropy-encoded spatial audio direction metadata parameters for the time-frequency block based on said other quantization resolution; a decoding circuit configured to decode when the difference between the given number of bits and the number of bits used to encode the first part is less than the number of bits needed to encode the second part of the encoded spatial audio direction metadata parameters for the time-frequency block based on said different quantization resolution , the second part containing the fixed rate encoded spatial audio direction metadata parameters for the time-frequency block based on the reduced bit quantization resolution, otherwise to decode the second part containing the fixed rate encoded spatial audio direction metadata parameters for the time-frequency block based on said other quantization resolution.

В соответствии с девятым аспектом предлагается компьютерная программа, содержащая инструкции [или машиночитаемый носитель, содержащий программные инструкции] для обеспечения выполнения устройством по меньшей мере следующего: генерирования параметров метаданных направления пространственного звукового сигнала для частотно-временного блока; генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования; сравнения количества битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, с заданным количеством битов; вывода или сохранения кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, меньше заданного количества битов; генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе второго разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного количества битов и разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, меньше заданного количества битов и находится в пределах заданного порога; схему генерирования, сконфигурированную для генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного количества битов и разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного порога, при этом третье разрешение квантования определяется таким образом, что количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, всегда равно или меньше заданного количества битов.According to a ninth aspect, a computer program is provided, containing instructions [or a computer-readable medium containing program instructions] for causing a device to perform at least the following: generating spatial audio direction metadata parameters for a time-frequency block; generating encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution; comparing the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution with a given number of bits; outputting or storing encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is less than a predetermined number of bits; generating encoded spatial audio direction metadata parameters for the time-frequency block based on the second quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than a predetermined number of bits and the difference between the predetermined the number of bits and the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is less than a predetermined number of bits and is within a predetermined threshold; a generating circuit configured to generate encoded spatial audio direction metadata parameters for the time-frequency block based on the third quantization resolution when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than a predetermined number bits and the difference between the predetermined number of bits and the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than the predetermined threshold, the third quantization resolution being determined such that the number of bits used for the encoded the spatial audio direction parameters for the time-frequency block based on the third quantization resolution is always equal to or less than the specified number of bits.

В соответствии с десятым аспектом предлагается компьютерная программа, содержащая инструкции [или машиночитаемый носитель, содержащий программные инструкции] для обеспечения выполнения устройством по меньшей мере следующего: приема кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока; приема индикатора, сконфигурированного для идентификации того, были ли закодированы кодированные параметры метаданных направления пространственного звукового сигнала на основе разрешения квантования, которое всегда равно или меньше заданного количества битов; декодирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе разрешения квантования, которое всегда равно или меньше заданного количества битов, когда индикатор идентифицирует, что кодированные параметры метаданных направления пространственного звукового сигнала были закодированы на основе разрешения квантования, которое всегда равно или меньше заданного количества битов; и, когда индикатор идентифицирует, что кодированные параметры метаданных направления пространственного звукового сигнала не были закодированы на основе разрешения квантования, которое всегда равно или меньше заданного количества битов, выполнение: декодирования первой части кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе другого разрешения квантования, при этом первая часть содержит энтропийно-кодированные параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования; декодирования, когда разность между заданным количеством битов и количеством битов, используемых для кодирования первой части, меньше количества битов, необходимых для кодирования второй части кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования, второй части, содержащей кодированные с фиксированной скоростью параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе уменьшенного разрешения квантования битов, в противном случае декодирования второй части, содержащей кодированные с фиксированной скоростью параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования.According to a tenth aspect, a computer program is provided, comprising instructions [or a computer-readable medium containing program instructions] for causing a device to at least: receive encoded spatial audio direction metadata parameters for a time-frequency block; receiving an indicator configured to identify whether encoded spatial audio direction metadata parameters have been encoded based on a quantization resolution that is always equal to or less than a predetermined number of bits; decoding the encoded spatial audio direction metadata parameters for a time-frequency block based on a quantization resolution that is always equal to or less than a specified number of bits, when the indicator identifies that the encoded spatial audio direction metadata parameters have been encoded based on a quantization resolution that is always equal to or less than the specified number of bits; and, when the indicator identifies that the encoded spatial audio direction metadata parameters have not been encoded based on a quantization resolution that is always equal to or less than the specified number of bits, performing: decoding the first part of the encoded spatial audio direction metadata parameters for the time-frequency block based on another quantization resolution, wherein the first part contains entropy-encoded spatial audio direction metadata parameters for the time-frequency block based on said other quantization resolution; decoding, when the difference between the given number of bits and the number of bits used to encode the first part is less than the number of bits needed to encode the second part of the encoded parameters of the spatial audio direction metadata for the time-frequency block based on said different quantization resolution, the second part containing fixed-rate encoded spatial audio direction metadata parameters for the time-frequency block based on reduced bit quantization resolution, otherwise decoding the second part containing fixed-rate encoded spatial audio direction metadata parameters for the time-frequency block based on said other resolution quantization.

В соответствии с одиннадцатым аспектом предлагается машиночитаемый носитель для хранения данных, содержащий программные инструкции, заставляющие устройство выполнять по меньшей мере: генерирование параметров метаданных направления пространственного звукового сигнала для частотно-временного блока; генерирование кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования; сравнение количества битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, с заданным количеством битов; вывод или сохранение кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, меньше заданного количества битов; генерирование кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе второго разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного количества битов и разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, меньше заданного количества битов и находится в пределах заданного порога; схему генерирования, сконфигурированную для генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного количества битов и разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного порога, при этом третье разрешение квантования определяется таким образом, что количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, всегда равно или меньше заданного количества битов.According to an eleventh aspect, a computer-readable storage medium is provided, comprising program instructions causing a device to perform at least: generating spatial audio direction metadata parameters for a time-frequency block; generating encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution; comparing the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution with a given number of bits; deriving or storing encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is less than a predetermined number of bits; generating encoded spatial audio direction metadata parameters for the time-frequency block based on the second quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than the specified number of bits and the difference between the specified the number of bits and the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is less than a predetermined number of bits and is within a predetermined threshold; a generating circuit configured to generate encoded spatial audio direction metadata parameters for the time-frequency block based on the third quantization resolution when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than a predetermined number bits and the difference between the predetermined number of bits and the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than the predetermined threshold, the third quantization resolution being determined such that the number of bits used for the encoded the spatial audio direction parameters for the time-frequency block based on the third quantization resolution is always equal to or less than the specified number of bits.

Согласно двенадцатому аспекту предлагается машиночитаемый носитель для хранения данных, содержащий программные инструкции, заставляющие устройство выполнять по меньшей мере: прием кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока; прием индикатора, сконфигурированного для идентификации того, были ли закодированы кодированные параметры метаданных направления пространственного звукового сигнала на основе разрешения квантования, которое всегда равно или меньше заданного количества битов; декодирование кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе разрешения квантования, которое всегда равно или меньше заданного количества битов, когда индикатор идентифицирует, что кодированные параметры метаданных направления пространственного звукового сигнала были закодированы на основе разрешения квантования, которое всегда равно или меньше заданного количества битов; и, когда индикатор идентифицирует, что кодированные параметры метаданных направления пространственного звукового сигнала не были закодированы на основе разрешения квантования, которое всегда равно или меньше заданного количества битов, выполнение: декодирования первой части кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе другого разрешения квантования, при этом первая часть содержит энтропийно-кодированные параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования; декодирования, когда разность между заданным количеством битов и количеством битов, используемых для кодирования первой части, меньше количества битов, необходимых для кодирования второй части кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования, второй части, содержащей кодированные с фиксированной скоростью параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе уменьшенного разрешения квантования битов, в противном случае декодирования второй части, содержащей кодированные с фиксированной скоростью параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования.According to a twelfth aspect, a computer-readable storage medium is provided, comprising program instructions causing a device to perform at least: receiving encoded spatial audio direction metadata parameters for a time-frequency block; receiving an indicator configured to identify whether encoded spatial audio direction metadata parameters have been encoded based on a quantization resolution that is always equal to or less than a predetermined number of bits; decoding the encoded parameters of the spatial audio direction metadata for the time-frequency block based on the quantization resolution, which is always equal to or less than the specified number of bits, when the indicator identifies that the encoded parameters of the spatial audio direction metadata were encoded based on the quantization resolution, which is always equal to or less than the specified number of bits; and, when the indicator identifies that the encoded spatial audio direction metadata parameters have not been encoded based on a quantization resolution that is always equal to or less than a predetermined number of bits, performing: decoding the first part of the encoded spatial audio direction metadata parameters for the time-frequency block based on another quantization resolution, wherein the first part contains entropy-encoded spatial audio direction metadata parameters for the time-frequency block based on said other quantization resolution; decoding, when the difference between the given number of bits and the number of bits used to encode the first part is less than the number of bits needed to encode the second part of the encoded parameters of the spatial audio direction metadata for the time-frequency block based on the other quantization resolution, the second part containing fixed-rate encoded spatial audio direction metadata parameters for the time-frequency block based on reduced bit quantization resolution, otherwise decoding the second part containing fixed-rate encoded spatial audio direction metadata parameters for the time-frequency block based on said other resolution quantization.

В соответствии с тринадцатым аспектом предлагается устройство, содержащее: средства для генерирования параметров метаданных направления пространственного звукового сигнала для частотно-временного блока; генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования; средства для сравнения количества битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, с заданным количеством битов; средства для вывода или сохранения кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, меньше заданного количества битов; средства для генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе второго разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного количества битов, а разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, меньше заданного количества битов и находится в пределах заданного порога; средства для схемы генерирования, сконфигурированные для генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного количества битов и разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного порога, при этом третье разрешение квантования определяется таким образом, что количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, всегда равно или меньше заданного количества битов.According to a thirteenth aspect, an apparatus is provided, comprising: means for generating spatial audio direction metadata parameters for a time-frequency block; generating encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution; means for comparing the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution with a predetermined number of bits; means for outputting or storing the encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution, when the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is less than a predetermined number of bits ; means for generating encoded spatial audio direction metadata parameters for the time-frequency block based on the second quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than a predetermined number of bits, and the difference between the predetermined number of bits and the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is less than the predetermined number of bits and is within the predetermined threshold; generating circuit means configured to generate encoded spatial audio direction metadata parameters for the time-frequency block based on the third quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than of the specified number of bits and the difference between the specified number of bits and the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than the predetermined threshold, while the third quantization resolution is determined such that the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the third quantization resolution, always equal to or less than the specified number of bits.

Согласно четырнадцатому аспекту предлагается устройство, содержащее: средства для приема кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока; средства для приема индикатора, сконфигурированного для идентификации того, были ли кодированы кодированные параметры метаданных направления пространственного звукового сигнала на основе разрешения квантования, которое всегда равно или меньше заданного количества битов; средства для декодирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе разрешения квантования, которое всегда равно или меньше заданного количества битов, когда индикатор идентифицирует, что кодированные параметры метаданных направления пространственного звукового сигнала были закодированы на основе разрешения квантования, которое всегда равно или меньше заданного количества битов; и, когда индикатор идентифицирует, что кодированные параметры метаданных направления пространственного звукового сигнала не были закодированы на основе разрешения квантования, которое всегда равно или меньше заданного количества битов, средства для: декодирования первой части кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе другого разрешения квантования, при этом первая часть содержит энтропийно-кодированные параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования; средства для декодирования, когда разность между заданным количеством битов и количеством битов, используемых для кодирования первой части, меньше количества битов, необходимых для кодирования второй части кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования, второй части, содержащей кодированные с фиксированной скоростью параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе уменьшенного разрешения квантования битов, в противном случае средства для декодирования второй части, содержащей кодированные с фиксированной скоростью параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования.According to a fourteenth aspect, an apparatus is provided, comprising: means for receiving encoded spatial audio direction metadata parameters for a time-frequency block; means for receiving an indicator configured to identify whether encoded spatial audio direction metadata parameters have been encoded based on a quantization resolution that is always equal to or less than a predetermined number of bits; means for decoding the encoded spatial audio direction metadata parameters for the time-frequency block based on a quantization resolution that is always equal to or less than a predetermined number of bits, when the indicator identifies that the encoded spatial audio direction metadata parameters have been encoded based on a quantization resolution that is always equal to or less than the specified number of bits; and, when the indicator identifies that the encoded spatial audio direction metadata parameters have not been encoded based on a quantization resolution that is always equal to or less than a predetermined number of bits, means for: decoding a first portion of the encoded spatial audio direction metadata parameters for the time-frequency block at based on another quantization resolution, wherein the first part contains entropy-encoded spatial audio direction metadata parameters for the time-frequency block based on said other quantization resolution; means for decoding, when the difference between the predetermined number of bits and the number of bits used to encode the first part is less than the number of bits needed to encode the second part of the encoded spatial audio direction metadata parameters for the time-frequency block based on said other quantization resolution, the second part , containing the fixed rate encoded parameters of the spatial audio direction metadata for the time-frequency block based on the reduced bit quantization resolution, otherwise means for decoding the second part containing the fixed-rate encoded parameters of the spatial audio direction metadata for the time-frequency block on based on the other quantization resolution mentioned.

В соответствии с пятнадцатым аспектом предлагается машиночитаемый носитель, содержащий программные инструкции, заставляющие устройство выполнять по меньшей мере: генерирование параметров метаданных направления пространственного звукового сигнала для частотно-временного блока; генерирование кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования; сравнение количества битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, с заданным количеством битов; вывод или сохранение кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, меньше заданного количества битов; генерирование кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе второго разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного количества битов и разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, меньше заданного количества битов и находится в пределах заданного порога; схему генерирования, сконфигурированную для генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного количества битов и разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного порога, при этом третье разрешение квантования определяется таким образом, что количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, всегда равно или меньше заданного количества битов.According to a fifteenth aspect, a computer-readable medium is provided, comprising program instructions causing a device to perform at least: generating spatial audio direction metadata parameters for a time-frequency block; generating encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution; comparing the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution with a given number of bits; deriving or storing encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is less than a predetermined number of bits; generating encoded spatial audio direction metadata parameters for the time-frequency block based on the second quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than the specified number of bits and the difference between the specified the number of bits and the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is less than a predetermined number of bits and is within a predetermined threshold; a generating circuit configured to generate encoded spatial audio direction metadata parameters for the time-frequency block based on the third quantization resolution when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than a predetermined number bits and the difference between the predetermined number of bits and the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than the predetermined threshold, the third quantization resolution being determined such that the number of bits used for the encoded the spatial audio direction parameters for the time-frequency block based on the third quantization resolution is always equal to or less than the specified number of bits.

В соответствии с шестнадцатым аспектом предлагается машиночитаемый носитель, содержащий программные инструкции, заставляющие устройство выполнять по меньшей мере: прием кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока; прием индикатора, сконфигурированного для идентификации того, были ли закодированы кодированные параметры метаданных направления пространственного звукового сигнала на основе разрешения квантования, которое всегда равно или меньше заданного количества битов; декодирование кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе разрешения квантования, которое всегда равно или меньше заданного количества битов, когда индикатор идентифицирует, что кодированные параметры метаданных направления пространственного звукового сигнала были закодированы на основе разрешения квантования, которое всегда равно или меньше заданного количества битов; и, когда индикатор идентифицирует, что кодированные параметры метаданных направления пространственного звукового сигнала не были закодированы на основе разрешения квантования, которое всегда равно или меньше заданного количества битов, выполнение: декодирования первой части кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе другого разрешения квантования, при этом первая часть содержит энтропийно-кодированные параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования; декодирования, когда разность между заданным количеством битов и количеством битов, используемых для кодирования первой части, меньше количества битов, необходимых для кодирования второй части кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования, второй части, содержащей кодированные с фиксированной скоростью параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе уменьшенного разрешения квантования битов, в противном случае декодирования второй части, содержащей кодированные с фиксированной скоростью параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования.According to a sixteenth aspect, a computer-readable medium is provided, comprising program instructions causing a device to perform at least: receiving encoded spatial audio direction metadata parameters for a time-frequency block; receiving an indicator configured to identify whether encoded spatial audio direction metadata parameters have been encoded based on a quantization resolution that is always equal to or less than a predetermined number of bits; decoding the encoded parameters of the spatial audio direction metadata for the time-frequency block based on the quantization resolution, which is always equal to or less than the specified number of bits, when the indicator identifies that the encoded parameters of the spatial audio direction metadata were encoded based on the quantization resolution, which is always equal to or less than the specified number of bits; and, when the indicator identifies that the encoded spatial audio direction metadata parameters have not been encoded based on a quantization resolution that is always equal to or less than the specified number of bits, performing: decoding the first part of the encoded spatial audio direction metadata parameters for the time-frequency block based on another quantization resolution, wherein the first part contains entropy-encoded spatial audio direction metadata parameters for the time-frequency block based on said other quantization resolution; decoding, when the difference between the given number of bits and the number of bits used to encode the first part is less than the number of bits needed to encode the second part of the encoded parameters of the spatial audio direction metadata for the time-frequency block based on said different quantization resolution, the second part containing fixed-rate encoded spatial audio direction metadata parameters for the time-frequency block based on reduced bit quantization resolution, otherwise decoding the second part containing fixed-rate encoded spatial audio direction metadata parameters for the time-frequency block based on said other resolution quantization.

Устройство, содержащее средства для выполнения операций описанного выше способа.A device containing means for performing the operations of the method described above.

Устройство, сконфигурированное для выполнения операций способа, как описано выше.A device configured to perform the operations of the method as described above.

Компьютерная программа, содержащая программные инструкции, заставляющие компьютер выполнять описанный выше способ.A computer program containing program instructions that cause the computer to carry out the method described above.

Компьютерный программный продукт, хранящийся на носителе, может заставить устройство выполнять описанный здесь способ.The computer program product stored on the medium can cause the device to perform the method described here.

Электронное устройство может содержать устройство, описанное здесь.The electronic device may include the device described here.

Набор микросхем может содержать устройство, описанное здесь.The chipset may contain the device described here.

Варианты осуществления настоящего изобретения направлены на решение проблем известного уровня техники.Embodiments of the present invention are directed to solving the problems of the prior art.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

Для лучшего понимания настоящего изобретения теперь в качестве примера будет сделана ссылка на прилагаемые чертежи.For a better understanding of the present invention, reference will now be made to the accompanying drawings by way of example.

На фиг. 1 схематически показана система устройств, подходящая для реализации некоторых вариантов осуществления изобретения.In FIG. 1 schematically shows a device system suitable for implementing some embodiments of the invention.

На фиг. 2 схематично показан кодер метаданных в соответствии с некоторыми вариантами осуществления изобретения.In FIG. 2 schematically shows a metadata encoder in accordance with some embodiments of the invention.

На фиг. 3 показана блок-схема операций кодирования отношения энергии и определения разрешения квантования, как показано на фиг. 2, в соответствии с некоторыми вариантами осуществления изобретения.In FIG. 3 shows a flowchart of energy ratio encoding and quantization resolution determination as shown in FIG. 2, in accordance with some embodiments of the invention.

На фиг. 4а-4с показаны блок-схемы операций генерирования индекса направления и кодирования индекса направления, как показано на фиг. 2, в соответствии с некоторыми вариантами осуществления изобретения.In FIG. 4a-4c show flowcharts for generating a direction index and encoding a direction index as shown in FIG. 2, in accordance with some embodiments of the invention.

На фиг. 5 показана блок-схема энтропийного кодирования индексов направления, как показано на фиг. 4а-4с, в соответствии с некоторыми вариантами осуществления изобретения.In FIG. 5 shows a block diagram of the entropy encoding of direction indices as shown in FIG. 4a-4c, in accordance with some embodiments of the invention.

На фиг. 6 показана другая блок-схема энтропийного кодирования индексов направления, как показано на фиг. 4а-4с, согласно некоторым вариантам осуществления изобретения.In FIG. 6 shows another block diagram of the direction index entropy coding as shown in FIG. 4a-4c, in accordance with some embodiments of the invention.

На фиг. 7 схематично показан декодер метаданных согласно некоторым вариантам осуществления изобретения.In FIG. 7 schematically shows a metadata decoder according to some embodiments of the invention.

На фиг. 8 показана блок-схема операций декодера метаданных, показанного на фиг. 7, в соответствии с некоторыми вариантами осуществления изобретения.In FIG. 8 is a block diagram of the operations of the metadata decoder shown in FIG. 7, in accordance with some embodiments of the invention.

На фиг. 9 схематично показан пример устройства, подходящего для реализации показанного устройства.In FIG. 9 schematically shows an example of a device suitable for implementing the device shown.

ВАРИАНТЫ ОСУЩЕСТВЛЕНИЯ ИЗОБРЕТЕНИЯEMBODIMENTS FOR CARRYING OUT THE INVENTION

Далее более подробно описано подходящее устройство и возможные механизмы для предоставления эффективных параметров метаданных, полученных из пространственного анализа. В последующих обсуждениях описана многоканальная система в отношении реализации многоканального микрофона. Однако, как обсуждалось выше, входной формат может быть любым подходящим входным форматом, таким как многоканальный громкоговоритель, амбисоника (FOA/HOA) и т.д. Понятно, что в некоторых вариантах осуществления изобретения местоположение канала основано на местоположении микрофона или представляет собой виртуальное местоположение или направление. Кроме того, в примере выходом системы является многоканальное устройство громкоговорителей. Однако понятно, что вывод может быть воспроизведен для пользователя с помощью средств, отличных от громкоговорителей. Кроме того, сигналы многоканального громкоговорителя могут быть обобщены как два или более звуковых сигнала воспроизведения.The following describes in more detail a suitable apparatus and possible mechanisms for providing efficient metadata parameters derived from spatial analysis. The following discussions describe the multi-channel system with respect to the implementation of a multi-channel microphone. However, as discussed above, the input format can be any suitable input format such as multi-channel loudspeaker, ambisonic (FOA/HOA), etc. It is understood that in some embodiments of the invention, the location of the channel is based on the location of the microphone or is a virtual location or direction. In addition, in the example, the output of the system is a multi-channel loudspeaker device. However, it is understood that the output may be reproduced to the user by means other than speakers. Furthermore, the multi-channel speaker signals may be summarized as two or more playback audio signals.

Метаданные включают по меньшей мере угловую высоту, азимут и отношение энергии результирующего направления для каждого рассматриваемого временного/частотного поддиапазона. Компоненты параметра направления, азимут и угловая высота извлекаются из аудиоданных, а затем квантуются до заданного разрешения квантования. Полученные в результате индексы должны быть также сжаты для эффективной передачи. Для высокой скорости передачи битов требуется высококачественное кодирование метаданных без потерь.The metadata includes at least the angular height, azimuth, and energy ratio of the resulting direction for each considered time/frequency subband. The direction parameter components, azimuth and angular height are extracted from the audio data and then quantized to the specified quantization resolution. The resulting indexes must also be compressed for efficient transmission. High bit rates require high quality, lossless metadata coding.

Концепция, обсуждаемая далее, заключается в улучшении качества кодированного и квантованного представления метаданных в ситуациях, когда после начального квантования и кодирования полученная скорость передачи битов превышает скорость передачи битов, разрешенную кодеком. В таких вариантах предлагается способ получения промежуточного разрешения квантования без какой-либо повторной оценки битов энтропийного кодирования или какой-либо дополнительной сигнализации изменения. Поэтому уменьшение осуществляют только для тех поддиапазонов, которые используют кодирование с фиксированной скоростью, а неявная сигнализация реализуется путем переупорядочения поддиапазонов при записи битового потока, который должен быть выведен.The concept discussed below is to improve the quality of the encoded and quantized metadata representation in situations where, after initial quantization and encoding, the resulting bit rate exceeds the bit rate allowed by the codec. In such embodiments, a method is provided for obtaining an intermediate quantization resolution without any re-evaluation of the entropy coding bits or any additional change signaling. Therefore, reduction is performed only for those subbands that use fixed rate coding, and implicit signaling is implemented by reordering the subbands when recording the bitstream to be output.

В некоторых вариантах осуществления изобретения это может быть также реализовано с помощью способов, которые уменьшают значения переменных, подлежащих кодированию. Уменьшение может быть реализовано в некоторых вариантах осуществления изобретения для случая, когда имеется большее количество символов. Изменение может быть выполнено путем вычитания индекса, подлежащего кодированию, из числа доступных символов и кодирования полученной разности. В некоторых вариантах осуществления изобретения для представления азимута это соответствует наличию источников звука, расположенных со смещением назад. Кроме того, изменение также может быть реализовано в некоторых вариантах осуществления изобретения путем проверки, являются ли все индексы четными или нечетными, и кодирования значений, деленных на два. Для представления угловой высоты в некоторых вариантах осуществления изобретения это соответствует расположению источников звука в основном в верхней или нижней части звуковой сцены.In some embodiments of the invention, this can also be implemented using methods that reduce the values of the variables to be encoded. The reduction may be implemented in some embodiments of the invention for the case where there are more symbols. The change can be made by subtracting the index to be encoded from the number of available symbols and encoding the resulting difference. In some embodiments of the invention, to represent the azimuth, this corresponds to the presence of sound sources located with a shift back. In addition, the change can also be implemented in some embodiments of the invention by checking if all indices are even or odd, and encoding the values divided by two. To represent angular height, in some embodiments of the invention, this corresponds to the location of sound sources mainly at the top or bottom of the sound stage.

В некоторых вариантах осуществления изобретения кодирование метаданных MASA, например, в кодеке IVAS сконфигурировано так, чтобы сначала оценить количество битов для данных направления на основе значений квантованных отношений энергии для каждого частотно-временного тайла (tile). Кроме того, проверяется энтропийное кодирование исходного разрешения квантования. Если полученная в результате сумма больше, чем количество доступных битов, количество битов может быть пропорционально уменьшено для каждого частотно-временного тайла, чтобы оно соответствовало количеству доступных битов, однако разрешение квантования не корректируется без необходимости, когда это позволяет скорость передачи битов (например, для более высоких скоростей передачи битов).In some embodiments of the invention, the MASA metadata encoding, for example in the IVAS codec, is configured to first estimate the number of bits for the direction data based on the values of the quantized energy ratios for each time-frequency tile (tile). In addition, the entropy encoding of the original quantization resolution is checked. If the resulting sum is greater than the number of available bits, the number of bits may be proportionally reduced for each time-frequency tile to match the number of available bits, however, the quantization resolution is not unnecessarily adjusted when the bit rate allows (for example, for higher bit rates).

На фиг. 1 показан пример устройства и системы для реализации вариантов осуществления изобретения. Система 100 показана с частью 121 «анализа» и частью 131 «синтеза». Часть 121 «анализа» представляет собой часть от приема сигналов многоканального громкоговорителя до кодирования метаданных и сигнала понижающего микширования, а часть 131 «синтеза» представляет собой часть от декодирования кодированных метаданных и сигнала понижающего микширования до представления повторно сгенерированного сигнала (например, в форме сигнала многоканального громкоговорителя).In FIG. 1 shows an example apparatus and system for implementing embodiments of the invention. The system 100 is shown with an "analysis" part 121 and a "synthesis" part 131. The “analysis” part 121 is the part from receiving the multi-channel speaker signals to encoding the metadata and the downmix signal, and the “synthesis” part 131 is the part from decoding the encoded metadata and the downmix signal to presenting the re-generated signal (for example, in the form of a multi-channel signal). loudspeaker).

Входными данными для системы 100 и части 121 «анализа» являются многоканальные сигналы 102. В следующих примерах описывается входной сигнал микрофонного канала, однако любой подходящий входной (или синтетический многоканальный) формат может быть реализован в других вариантах осуществления изобретения. Например, в некоторых вариантах осуществления изобретения пространственный анализатор и пространственный анализ могут быть реализованы вне кодера. Например, в некоторых вариантах осуществления изобретения пространственные метаданные, связанные со звукового сигналами, могут предоставляться кодеру в виде отдельного битового потока. В некоторых вариантах осуществления изобретения пространственные метаданные могут предоставляться в виде набора значений пространственного индекса (направления).The inputs to system 100 and "analysis" portion 121 are multi-channel signals 102. The following examples describe microphone channel input, however any suitable input (or synthetic multi-channel) format may be implemented in other embodiments of the invention. For example, in some embodiments of the invention, the spatial analyzer and spatial analysis may be implemented outside of the encoder. For example, in some embodiments of the invention, spatial metadata associated with audio signals may be provided to the encoder as a separate bitstream. In some embodiments of the invention, spatial metadata may be provided as a set of spatial index (direction) values.

Многоканальные сигналы передаются в модуль 103 понижающего микширования и в процессор 105 анализа.The multi-channel signals are transmitted to the downmixer 103 and to the analysis processor 105 .

В некоторых вариантах осуществления изобретения модуль 103 понижающего микширования выполнен с возможностью приема многоканальных сигналов и микширования сигналов с уменьшением количества каналов до заданного количества каналов и вывода сигналов 104 понижающего микширования. Например, модуль 103 понижающего микширования может быть сконфигурирован для генерирования понижающего микширования двух аудиоканалов многоканальных сигналов. Заданное количество каналов может быть любым подходящим количеством каналов. В некоторых вариантах осуществления изобретения модуль 103 понижающего микширования является необязательным, и многоканальные сигналы передаются необработанными в кодер 107 таким же образом, как сигнал понижающего микширования в этом примере.In some embodiments of the invention, the downmix module 103 is configured to receive multi-channel signals and downmix the signals to a predetermined number of channels and output the downmix signals 104 . For example, the downmix module 103 may be configured to generate a downmix of two audio channels of multi-channel signals. The given number of channels may be any suitable number of channels. In some embodiments of the invention, the downmix module 103 is optional and the multi-channel signals are passed unprocessed to the encoder 107 in the same manner as the downmix signal in this example.

В некоторых вариантах осуществления изобретения процессор 105 анализа также сконфигурирован для приема многоканальных сигналов и анализа сигналов для создания метаданных 106, связанных с многоканальными сигналами и, таким образом, связанных с сигналами 104 понижающего микширования. Процессор 105 анализа может быть сконфигурирован для генерирования метаданных, которые могут содержать для каждого интервала частотно-временного анализа параметр 108 направления и параметр 110 отношения энергии (и в некоторых вариантах осуществления изобретения параметр когерентности и параметр диффузности).In some embodiments, the analysis processor 105 is also configured to receive multi-channel signals and analyze the signals to create metadata 106 associated with the multi-channel signals and thus associated with the downmix signals 104. The analysis processor 105 may be configured to generate metadata that may comprise, for each time-frequency analysis interval, a direction parameter 108 and an energy ratio parameter 110 (and in some embodiments, a coherence parameter and a diffuseness parameter).

Направление и отношение энергии могут в некоторых вариантах осуществления изобретения рассматриваться как параметры пространственного звука. Другими словами, параметры пространственного звука содержат параметры, предназначенные для описания звукового поля, создаваемого многоканальными сигналами (или двумя или более воспроизводимыми звуковыми сигналами в целом).The direction and ratio of the energy may, in some embodiments of the invention, be considered as spatial sound parameters. In other words, the surround sound parameters contain parameters intended to describe the sound field created by multi-channel signals (or two or more reproduced audio signals in general).

В некоторых вариантах осуществления изобретения сгенерированные параметры могут отличаться от одного частотного диапазона к другому. Так, например, в диапазоне X генерируются и передаются все параметры, тогда как в диапазоне Y генерируется и передается только один из параметров, а в диапазоне Z никакие параметры не генерируются и не передаются. Практическим примером этого может быть то, что для некоторых частотных диапазонов, таких как самый высокий диапазон, некоторые параметры не требуются по причинам, связанным с восприятием. Сигналы 104 понижающего микширования и метаданные 106 могут быть переданы в кодер 107.In some embodiments of the invention, the generated parameters may differ from one frequency range to another. So, for example, in range X, all parameters are generated and passed, while in range Y, only one of the parameters is generated and passed, and in range Z, no parameters are generated or passed. A practical example of this would be that for some frequency bands, such as the highest band, some parameters are not required for perceptual reasons. Downmix signals 104 and metadata 106 may be passed to an encoder 107.

Кодер 107 может содержать ядро 109 аудиокодера, которое сконфигурировано для приема сигналов 104 понижающего микширования (или иных сигналов) и генерирования подходящего кодирования этих звуковых сигналов. Кодер 107 в некоторых вариантах осуществления изобретения может быть компьютером (с работающим подходящим программным обеспечением, хранящимся в памяти и по меньшей мере в одном процессоре) или, альтернативно, конкретным устройством, использующим, например, FPGA или ASIC. Кодирование может быть реализовано с использованием любой подходящей схемы. Кроме того, кодер 107 может содержать кодер/квантователь 111 метаданных, который сконфигурирован для приема метаданных и вывода информации в кодированной или сжатой форме. В некоторых вариантах осуществления изобретения кодер 107 может также чередовать, мультиплексировать в один поток данных или встраивать метаданные в кодированные сигналы понижающего микширования перед передачей или сохранением, как показано на фиг. 1 пунктирной линией. Мультиплексирование может быть реализовано с использованием любой подходящей схемы.Encoder 107 may include an audio encoder core 109 that is configured to receive downmix signals 104 (or other signals) and generate a suitable encoding of those audio signals. Encoder 107 in some embodiments of the invention may be a computer (running suitable software stored in memory and at least one processor) or, alternatively, a specific device using, for example, an FPGA or ASIC. Encoding may be implemented using any suitable scheme. In addition, encoder 107 may include a metadata encoder/quantizer 111 that is configured to receive metadata and output information in an encoded or compressed form. In some embodiments, the encoder 107 may also interleave, multiplex into a single data stream, or embed metadata into encoded downmix signals prior to transmission or storage, as shown in FIG. 1 dotted line. The multiplexing may be implemented using any suitable scheme.

На стороне декодера принятые или извлеченные данные (поток) могут быть получены декодером/демультиплексором 133. Декодер/демультиплексор 133 может демультиплексировать кодированные потоки и передавать кодированный аудиопоток в модуль 135 извлечения понижающего микширования, который сконфигурирован для декодирования звуковых сигналов для получения сигналов понижающего микширования. Аналогичным образом декодер/демультиплексор 133 может содержать модуль 137 извлечения метаданных, который сконфигурирован для приема кодированных метаданных и генерирования метаданных. Декодер/демультиплексор 133 в некоторых вариантах осуществления изобретения может быть компьютером (с подходящим программным обеспечением, хранящимся в памяти и по меньшей мере в одном процессоре) или, альтернативно, конкретным устройством, использующим, например, FPGA или ASIC.On the decoder side, the received or extracted data (stream) may be obtained by the decoder/demultiplexer 133. The decoder/demultiplexer 133 may demultiplex the encoded streams and pass the encoded audio stream to the downmix extractor 135, which is configured to decode audio signals to obtain downmix signals. Similarly, decoder/demultiplexer 133 may include a metadata extractor 137 that is configured to receive encoded metadata and generate metadata. Decoder/demultiplexer 133 in some embodiments of the invention may be a computer (with suitable software stored in memory and at least one processor) or, alternatively, a specific device using, for example, an FPGA or ASIC.

Декодированные метаданные и звуковые сигналы понижающего микширования могут быть переданы в процессор 139 синтеза.The decoded metadata and downmix audio signals may be passed to the synthesis processor 139 .

Часть 131 «синтеза» системы 100 также показывает процессор 139 синтеза, сконфигурированный для приема понижающего микширования и метаданных и воссоздания в любом подходящем формате синтезированного пространственного звука в форме многоканальных сигналов 110 (это может быть формат многоканального громкоговорителя или в некоторых вариантах осуществления изобретения любой подходящий выходной формат, такой как стереофонические сигналы или амбисонические сигналы, в зависимости от варианта использования) на основе сигналов понижающего микширования и метаданных.The "synthesis" portion 131 of system 100 also shows a synthesis processor 139 configured to receive the downmix and metadata and recreate in any suitable format the synthesized spatial audio in the form of multi-channel signals 110 (this may be a multi-channel loudspeaker format, or in some embodiments, any suitable output format such as stereo signals or ambisonic signals, depending on the use case) based on downmix signals and metadata.

Таким образом, сначала система (часть анализа) конфигурируется для приема многоканальных звуковых сигналов. Затем система (часть анализа) конфигурируется для генерирования понижающего микширования или иным образом для генерирования подходящего транспортного звукового сигнала (например, путем выбора некоторых каналов звукового сигнала). Затем система конфигурируется для кодирования для сохранения/передачи сигнала понижающего микширования (или, в более общем случае, транспортного сигнала). После этого система может сохранять/передавать кодированный сигнал микширования и метаданные. Система может извлекать/принимать кодированный сигнал понижающего микширования и метаданные. Затем система конфигурируется для извлечения понижающего микширования и метаданных из кодированных параметров понижающего микширования и метаданных, например, демультиплексирования и декодирования кодированных параметров понижающего микширования и метаданных.Thus, first the system (part of the analysis) is configured to receive multi-channel audio signals. The system (part of the analysis) is then configured to generate a downmix or otherwise to generate a suitable transport audio signal (eg by selecting some audio channels). The system is then configured to encode for storing/transmitting the downmix signal (or, more generally, the transport signal). Thereafter, the system can store/transmit the encoded mixing signal and metadata. The system can extract/receive the encoded downmix signal and metadata. The system is then configured to extract the downmix and metadata from the encoded downmix parameters and metadata, such as demultiplexing and decoding the encoded downmix parameters and metadata.

Система (часть синтеза) сконфигурирована для синтеза выходного многоканального звукового сигнала на основе извлеченного понижающего микширования многоканальных звуковых сигналов и метаданных.The system (synthesis part) is configured to synthesize an output multi-channel audio signal based on the extracted multi-channel audio downmix and metadata.

Что касается фиг. 2, более подробно описаны пример процессора 105 анализа и кодер/квантователь 111 метаданных (как показано на фиг. 1) в соответствии с некоторыми вариантами осуществления изобретения.With regard to FIG. 2, an example analysis processor 105 and metadata encoder/quantizer 111 (as shown in FIG. 1) are described in more detail, in accordance with some embodiments of the invention.

Процессор 105 анализа в некоторых вариантах осуществления изобретения содержит преобразователь 201 временной области в частотную.The analysis processor 105 in some embodiments of the invention comprises a time-to-frequency domain converter 201.

В некоторых вариантах осуществления изобретения преобразователь 201 временной области в частотную сконфигурирован для приема многоканальных сигналов 102 и применения подходящего преобразования из временной области в частотную, такого как оконное временное преобразование Фурье (STFT, Short Time Fourier Transform), для преобразования входных сигналов во временной области в подходящие частотно-временные сигналы. Эти частотно-временные сигналы могут быть переданы в пространственный анализатор 203 и в анализатор 205 сигналов.In some embodiments, the time-to-frequency domain converter 201 is configured to receive multi-channel signals 102 and apply a suitable time-to-frequency domain transform, such as a Short Time Fourier Transform (STFT), to convert the time domain input signals into suitable time-frequency signals. These time-frequency signals may be transmitted to a spatial analyzer 203 and to a signal analyzer 205 .

Таким образом, например, частотно-временные сигналы 202 могут быть представлены в представлении в частотно-временной области с помощьюThus, for example, time-frequency signals 202 can be represented in a time-frequency domain representation using

si(b,n),s i (b,n),

где b - индекс частотного бина, n - индекс частотно-временного блока (кадра), a i - индекс канала. В другом выражении n можно рассматривать как временной индекс с более низкой частотой дискретизации, чем у исходных сигналов во временной области. Эти частотные бины могут быть сгруппированы в поддиапазоны, которые группируют один или более бинов в поддиапазон с индексом диапазона k=0, …, K-1. Каждый поддиапазон к имеет самый низкий бин bk,low и самый высокий бин bk,high, и поддиапазон содержит все бины от bk,low до bk,high. Ширина поддиапазонов может аппроксимироваться любым подходящим распределением. Например, используется шкала эквивалентной прямоугольной полосы частот (ERB, Equivalent rectangular bandwidth) или шкала Барка.where b is the frequency bin index, n is the frequency-time block (frame) index, ai is the channel index. In another expression, n can be thought of as a time index with a lower sampling rate than the original signals in the time domain. These frequency bins may be grouped into subbands, which group one or more bins into a subband with band index k=0,...,K-1. Each subrange k has the lowest bin b k,low and the highest bin b k,high , and the subrange contains all bins b k,low to b k,high . The width of the subbands may be approximated by any suitable distribution. For example, the Equivalent Rectangular Bandwidth (ERB) scale or the Bark scale is used.

В некоторых вариантах осуществления изобретения процессор 105 анализа содержит пространственный анализатор 203. Пространственный анализатор 203 может быть сконфигурирован для приема частотно-временных сигналов 202 и оценки параметров 108 направления на основе этих сигналов. Параметры направления могут быть определены на основе любого звука на основе определения «направления».In some embodiments, analysis processor 105 includes a spatial analyzer 203. Spatial analyzer 203 may be configured to receive time-frequency signals 202 and estimate direction parameters 108 based on those signals. Direction parameters can be determined based on any sound based on the definition of "direction".

Например, в некоторых вариантах осуществления изобретения пространственный анализатор 203 сконфигурирован для оценки направления с двумя или более входными сигналами. Это самая простая конфигурация для оценки «направления», более сложная обработка может выполняться с еще большим количеством сигналов.For example, in some embodiments of the invention, the spatial analyzer 203 is configured to estimate the direction with two or more input signals. This is the simplest configuration for "direction" estimation, more complex processing can be done with even more signals.

Таким образом, пространственный анализатор 203 может быть сконфигурирован для предоставления азимута и/или угловой высоты для каждого частотного диапазона и временного частотно-временного блока в кадре звукового сигнала, обозначенных как азимут ϕ(k,n) и угловая высота θ(k,n). Параметры 108 направления также могут быть переданы в анализатор направления/генератор индекса 215.Thus, the spatial analyzer 203 can be configured to provide the azimuth and/or angular height for each frequency band and temporal time-frequency block in the audio frame, denoted as azimuth ϕ(k,n) and angular height θ(k,n) . The direction parameters 108 may also be passed to the direction parser/index generator 215.

Пространственный анализатор 203 также может быть сконфигурирован для определения параметра 110 отношения энергии. Отношение энергии может представлять собой энергию звукового сигнала, который считается поступающим с заданного направления. Отношение направленной энергии к полной энергии r(k,n) может быть оценено, например, с использованием меры стабильности оценки направления, или с использованием любой меры корреляции, или любого другого подходящего способа для получения параметра отношения. Отношение энергии может быть передано генератору среднего отношения энергии / модулю определения разрешения квантования 211.The spatial analyzer 203 can also be configured to determine the energy ratio parameter 110. The energy ratio may represent the energy of the audio signal, which is considered to be coming from a given direction. The ratio of directional energy to total energy r(k,n) can be estimated, for example, using a measure of direction estimation stability, or using any measure of correlation, or any other suitable method to obtain a ratio parameter. The energy ratio can be passed to the average energy ratio generator/quantization resolution determination module 211.

Таким образом, процессор анализа сконфигурирован для приема многоканального сигнала во временной области или другого формата, такого как микрофонные или амбисонические звуковые сигналы.Thus, the analysis processor is configured to receive a multi-channel time domain signal or other format such as microphone or ambisonic audio signals.

После этого процессор анализа может применить преобразование временной области в частотную область (например, STFT) для генерирования подходящих сигналов частотно-временной области для анализа, а затем применить анализ направления для определения параметров направления и отношения энергии.Thereafter, the analysis processor may apply a time-to-frequency domain transformation (eg, STFT) to generate suitable time-frequency domain signals for analysis, and then apply direction analysis to determine direction and energy ratio parameters.

Затем процессор анализа может быть сконфигурирован для вывода заданных параметров.The analysis processor can then be configured to output the specified parameters.

Хотя направления и отношения здесь выражены для каждого временного индекса n, в некоторых вариантах осуществления изобретения параметры могут быть объединены по нескольким временным индексам. То же самое относится и к частотной оси, как было показано, направление нескольких частотных бинов b может быть выражено одним параметром направления в диапазоне к, включающем несколько частотных бинов b. То же самое относится ко всем обсуждаемым здесь пространственным параметрам.Although directions and relationships are expressed here for each time index n, in some embodiments of the invention, the parameters can be combined over several time indexes. The same applies to the frequency axis, as it has been shown that the direction of several frequency bins b can be expressed by a single direction parameter in the range k, which includes several frequency bins b. The same applies to all the spatial parameters discussed here.

Как также показано на фиг. 2, в соответствии с некоторыми вариантами осуществления изобретения показан пример кодера/квантователя 111 метаданных.As also shown in FIG. 2, in accordance with some embodiments of the invention, an example of a metadata encoder/quantizer 111 is shown.

Как обсуждалось выше, звуковые пространственные метаданные включают данные азимута, угловой высоты и отношения энергии для каждого поддиапазона. В формате MASA данные направления представлены 16 битами, так что азимут приблизительно представлен 9 битами, а угловая высота - 7 битами. Отношение энергии представлено 8 битами. Для каждого кадра имеется N=5 поддиапазонов и М=4 временных блоков, что делает необходимым (16+8)xMxN битов для хранения несжатых метаданных для каждого кадра. В версии с более высоким частотным разрешением может быть 20 или 24 частотных поддиапазона. Хотя в следующих примерах используются выделения битов в формате MASA, понятно, что другие варианты осуществления изобретения могут быть реализованы с другим выделением битов или выбором поддиапазона или временного блока, и это только типичные примеры.As discussed above, the audio spatial metadata includes azimuth, angular height, and energy ratio data for each subband. In the MASA format, direction data is represented by 16 bits, so azimuth is approximately represented by 9 bits and angular height by 7 bits. The energy ratio is represented by 8 bits. For each frame, there are N=5 subbands and M=4 time blocks, making it necessary to store (16+8)xMxN bits to store uncompressed metadata for each frame. The version with higher frequency resolution may have 20 or 24 frequency subbands. Although the following examples use MASA bit allocations, it is understood that other embodiments of the invention may be implemented with different bit allocation or subband or time block selections, and these are only typical examples.

Кодер/квантователь 111 метаданных может содержать генератор среднего отношения энергии/модуль определения разрешения квантования 211. Генератор среднего отношения энергии/модуль определения разрешения квантования 211 может быть сконфигурирован для приема отношений энергии и из анализа для генерирования на их основе подходящего кодирования отношений. Например, чтобы получить заданные отношения энергии (например, отношения направленной энергии к полной энергии, а также отношения диффузной энергии к полной энергии и отношения остаточной энергии к полной энергии) и кодировать/квантовать их. Эти кодированные формы могут быть переданы в кодер 217.The metadata encoder/quantizer 111 may comprise an average energy ratio generator/quantization resolution determination module 211. The average energy ratio generator/quantization resolution determination unit 211 may be configured to receive energy ratios and from analysis to generate a suitable ratio encoding based on them. For example, to obtain given energy ratios (eg, directed energy to total energy ratios, as well as diffuse energy to total energy ratios and residual energy to total energy ratios) and encode/quantize them. These encoded forms may be passed to encoder 217.

В некоторых вариантах осуществления изобретения генератор среднего значения отношения энергии/модуль определения разрешения квантования 211 сконфигурирован для кодирования каждого значения отношения энергии с использованием заданного количества битов. Например, в приведенном выше случае, когда имеется N=5 поддиапазонов, 3 бита используются для кодирования каждого значения отношения энергии. Таким образом, генератор среднего отношения энергии/модуль определения разрешения квантования 211 может быть сконфигурирован для применения скалярного неравномерного квантования с использованием 3 битов для каждого поддиапазона.In some embodiments, the energy ratio average generator/quantization resolution determination module 211 is configured to encode each energy ratio value using a predetermined number of bits. For example, in the above case where there are N=5 subbands, 3 bits are used to encode each energy ratio value. Thus, the average energy ratio generator/quantization resolution determination module 211 can be configured to apply scalar non-uniform quantization using 3 bits for each subband.

Кроме того, генератор среднего значения отношения энергии/модуль определения разрешения квантования 211 выполнен с возможностью вместо управления передачей/сохранением всех значений отношения энергии для всех блоков TF генерировать только одно средневзвешенное значение для каждого поддиапазона, которое передается в кодер для передачи/сохранения.In addition, the energy ratio average generator/quantization resolution determining unit 211 is configured to generate only one weighted average value for each subband, which is transmitted to the encoder for transmission/storage, instead of controlling the transmission/storage of all energy ratio values for all TF blocks.

В некоторых вариантах осуществления изобретения это среднее значение вычисляется с учетом общей энергии каждого частотно-временного блока и взвешивания, применяемого на основе поддиапазонов, имеющих большую энергию.In some embodiments of the invention, this average value is calculated taking into account the total energy of each time-frequency block and the weighting applied on the basis of subbands having more energy.

Кроме того, генератор среднего отношения энергии/модуль определения разрешения квантования 211 сконфигурирован для определения разрешения квантования для параметров направления (другими словами, разрешения квантования для значений угловой высоты и азимута) для всех частотно-временных блоков в кадре. Это выделение битов, например, может быть определено как bits_dir0[0:N-1][0:M-1] и может быть передано в анализатор направления / генератор индекса 215.In addition, the average energy ratio generator/quantization resolution determining unit 211 is configured to determine the quantization resolution for the direction parameters (in other words, the quantization resolution for the angular height and azimuth values) for all time-frequency blocks in the frame. This bit allocation, for example, can be defined as bits_dir0[0:N-1][0:M-1] and can be passed to the direction parser/index generator 215.

Как показано на фиг. 3, можно обобщить действия генератора среднего отношения энергии/модуля определения разрешения квантования 211. Первым этапом является получение значений отношения, как показано на фиг. 3 на этапе 301. Затем цикл поддиапазона запускается на фиг. 3 на этапе 303. Цикл поддиапазона содержит первое действие использования заданного количества битов (например, 3) для представления значения отношения энергии на основе средневзвешенного значения отношения энергии для всех значений во временном блоке (где взвешивание определяется значением энергии звукового сигнала), как показано на фиг. 3 на этапе 305. Затем вторым действием является определение разрешения квантования для азимута и угловой высоты для всего временного блока текущего поддиапазона на основе значения отношения энергии, как показано на фиг. 3 на этапе 307.As shown in FIG. 3, the operations of the average energy ratio generator/quantization resolution determination unit 211 can be summarized. The first step is to obtain the ratio values as shown in FIG. 3 at step 301. The subband loop is then started in FIG. 3 at step 303. The subband loop comprises a first act of using a given number of bits (eg, 3) to represent an energy ratio value based on a weighted average of the energy ratio for all values in the time block (where the weighting is determined by the audio energy value), as shown in FIG. . 3 at step 305. Then, the second step is to determine the quantization resolution for the azimuth and angular height for the entire time block of the current subband based on the energy ratio value, as shown in FIG. 3 at step 307.

Кроме того, это может быть представлено в псевдокоде следующим образом:Alternatively, this can be represented in pseudocode as follows:

1. Для каждого поддиапазона i=1:N1. For each subrange i=1:N

a. Использовать 3 бита для кодирования соответствующего значения отношения энергииa. Use 3 bits to encode the corresponding energy ratio value

b. Установить разрешение квантования для азимута и угловой высоты для всего временного блока текущего поддиапазона. Разрешение квантования устанавливается путем предоставления заранее заданного количества битов, заданного значением отношения энергии, bits_dir0[0:N-1][0:М-1]b. Set the quantization resolution for azimuth and angular height for the entire time block of the current subband. The quantization resolution is set by providing a predetermined number of bits given by the energy ratio value, bits_dir0[0:N-1][0:M-1]

2. Конец цикла.2. End of cycle.

Кодер/квантователь 111 метаданных может содержать анализатор направления/генератор индекса 215. Генератор 215 индекса направления сконфигурирован для приема параметров 108 направления (таких как азимут ϕ(k,n) и угловая высота θ(k,n)) и выделения битов квантования и на его основе генерирования квантованных выходных данных. В некоторых вариантах осуществления изобретения квантование основано на расположении сфер, образующих сферическую сетку, расположенную в виде колец на «поверхностной» сфере, которые определяются справочной таблицей, определяемой заданным разрешением квантования. Другими словами, сферическая сетка использует идею покрытия сферы меньшими сферами и рассмотрения центров меньших сфер как точек, определяющих сетку почти равноудаленных направлений. Таким образом, меньшие сферы определяют конусы или телесные углы вокруг центральной точки, которые могут быть проиндексированы в соответствии с любым подходящим алгоритмом индексирования. Хотя здесь описывается сферическое квантование, можно использовать любое подходящее квантование, линейное или нелинейное.The metadata encoder/quantizer 111 may include a direction analyzer/index generator 215. The direction index generator 215 is configured to receive direction parameters 108 (such as azimuth ϕ(k,n) and angular height θ(k,n)) and extract quantization bits and on its basis generating quantized output data. In some embodiments of the invention, the quantization is based on the arrangement of spheres forming a spherical grid arranged in rings on the "surface" sphere, which are determined by a look-up table determined by a given quantization resolution. In other words, the spherical grid uses the idea of covering the sphere with smaller spheres and treating the centers of the smaller spheres as points defining a grid of nearly equidistant directions. Thus, the smaller spheres define cones or solid angles around the central point, which can be indexed according to any suitable indexing algorithm. Although spherical quantization is described here, any suitable quantization, linear or non-linear, may be used.

Например, в некоторых вариантах осуществления изобретения биты для параметров направления (азимут и угловая высота) выделяются в соответствии с таблицей bits_direction[]; если отношение энергии имеет индекс i, количество битов для направления равно bits_direction[i].For example, in some embodiments of the invention, bits for the direction parameters (azimuth and angular height) are allocated in accordance with the bits_direction[] table; if the energy ratio has index i, the number of bits for the direction is bits_direction[i].

Figure 00000001
Figure 00000001

Структура квантователей направления для различных битовых разрешений задается следующими переменными:The structure of the direction quantizers for different bit resolutions is given by the following variables:

Figure 00000002
Figure 00000002

Figure 00000003
Figure 00000003

«no_theta» соответствует количеству значений угловой высоты в «Северном полушарии» сферы направлений, включая экватор. «no_phi» соответствует количеству значений азимута на каждой угловой высоте для каждого квантователя."no_theta" corresponds to the number of angular height values in the "Northern Hemisphere" of the sphere of directions, including the equator. "no_phi" corresponds to the number of azimuth values at each angular height for each quantizer.

Например, для 5 битов имеется 4 значения угловой высоты, соответствующие [0, 30, 60, 90], и 4-1=3 отрицательных значения угловой высоты [-30, -60, -90]. Для первого значения угловой высоты, 0, имеется 12 равноудаленных значений азимута, для значений угловой высоты 30 и -30 имеется 7 равноудаленных значений азимута и т.д.For example, for 5 bits, there are 4 angular heights corresponding to [0, 30, 60, 90], and 4-1=3 negative angular heights [-30, -60, -90]. For the first angular height value, 0, there are 12 equidistant azimuths, for angular heights of 30 and -30 there are 7 equidistant azimuths, and so on.

Все структуры квантования, за исключением структуры, соответствующей 4 битам, имеют разность между последовательными значениями угловой высоты, заданными 90 градусами, деленными на количество значений угловой высоты «no_theta». Это пример, и может быть реализовано любое другое подходящее распределение. Например, в некоторых вариантах осуществления изобретения может быть реализована сферическая сетка для 4 битов, которая может не иметь точек под экватором. Точно так же 3-битное распределение может быть распределено по сфере или ограничено только экватором. Таким образом, индексы можно рассматривать как кодирование параметров направления с фиксированной скоростью.All quantization structures, except for the structure corresponding to 4 bits, have the difference between successive angular height values specified by 90 degrees divided by the number of "no_theta" angular height values. This is an example, and any other suitable allocation may be implemented. For example, in some embodiments of the invention, a 4-bit sphere grid may be implemented, which may not have points below the equator. Similarly, a 3-bit distribution can be distributed over a sphere, or limited to just the equator. In this way, the indices can be thought of as encoding the direction parameters at a fixed rate.

Определив индексы направления, анализатор направления/генератор индекса 215 может затем быть сконфигурирован для энтропийного кодирования индексов азимута и угловой высоты. Энтропийное кодирование реализуется для одного частотного поддиапазона за раз, путем кодирования всех временных подкадров для этого поддиапазона. Это означает, что, например, лучший порядок GR определяется для 4 значений, соответствующих временным подкадрам текущего поддиапазона. Кроме того, как обсуждалось в данном документе, когда имеется несколько способов кодирования значений для одного поддиапазона, выбирается один из способов, как описано ниже. Энтропийное кодирование индексов азимута и угловой высоты в некоторых вариантах осуществления изобретения может быть реализовано с использованием способа кодирования Голомба-Райса с двумя возможными значениями параметра Голомба-Райса. В некоторых вариантах осуществления изобретения энтропийное кодирование также может быть реализовано с использованием любой подходящей техники энтропийного кодирования (например, Хаффмана, арифметического кодирования…).Having determined the direction indices, the direction parser/index generator 215 can then be configured to entropy encode the azimuth and angular height indices. Entropy coding is implemented for one frequency subband at a time, by encoding all temporal subframes for that subband. This means that, for example, the best GR order is determined for 4 values corresponding to the temporal subframes of the current subband. In addition, as discussed herein, when there are multiple ways to encode values for the same subrange, one of the ways is selected as described below. Entropy encoding of the azimuth and angular height indices in some embodiments of the invention can be implemented using the Golomb-Rice encoding method with two possible values of the Golomb-Rice parameter. In some embodiments of the invention, entropy coding may also be implemented using any suitable entropy coding technique (eg, Huffman, arithmetic coding...).

Имея кодированные с фиксированной скоростью и энтропийно-кодированные индексы направления (индексы угловой высоты и азимута в этом примере), анализатор направления/генератор индекса 215 может быть сконфигурирован для сравнения для каждого из поддиапазонов количества битов, используемых в способе энтропийного кодирования (ЕС, entropy coding), с количеством битов, используемых в способе кодирования с фиксированной скоростью, и для каждого поддиапазона выбора способа кодирования, который использует меньшее количество битов. Таким образом, bits_ЕС представляет собой сумму битов, используемых в каждом поддиапазоне, независимо от того, используется ли кодирование с фиксированной или переменной скоростью. Для поддиапазонов, где используется кодирование с фиксированной скоростью, количество битов, используемых для каждого направления, определяется как bits_dir0[i][j], где «i» - индекс поддиапазона, a «j» - индекс временного подкадра.Having fixed-rate and entropy-coded direction indices (the angular height and azimuth indices in this example), the direction analyzer/index generator 215 can be configured to compare, for each of the subbands, the number of bits used in the entropy coding (EC) method. ), with the number of bits used in the fixed rate coding method, and for each coding method selection sub-band that uses fewer bits. Thus, bits_EC is the sum of the bits used in each subband, regardless of whether fixed or variable rate coding is used. For subbands where fixed rate coding is used, the number of bits used for each direction is defined as bits_dir0[i][j], where "i" is the subband index and "j" is the temporal subframe index.

Предположим, что биты для каждого поддиапазона после энтропийного кодирования следующие:Assume that the bits for each subband after entropy encoding are as follows:

Figure 00000004
Figure 00000004

Затем количество битов, используемых для кодирования временного блока или кадра, сравнивается с количеством доступных битов. Например, в некоторых вариантах осуществления изобретения можно вычислить значение Delta, которое представляет собой разность между количеством битов, используемых для кодирования временного блока или кадра (bits_EC), и количеством доступных битов.The number of bits used to encode the time block or frame is then compared to the number of available bits. For example, in some embodiments of the invention, a Delta value can be calculated, which is the difference between the number of bits used to encode a temporary block or frame (bits_EC) and the number of available bits.

В некоторых вариантах осуществления изобретения анализатор направления/генератор индекса 215 сконфигурирован для определения того, является ли значение разности (Delta) отрицательным. Другими словами, превышает ли количество битов для кодированных индексов направления (с использованием поддиапазонов с кодированием с фиксированной скоростью и энтропийным кодированием) количество доступных битов.In some embodiments of the invention, the direction analyzer/index generator 215 is configured to determine whether the delta value (Delta) is negative. In other words, whether the number of bits for encoded direction indices (using fixed-rate and entropy-coded subbands) exceeds the number of available bits.

Если количество используемых битов не больше, чем количество доступных битов (или значение Delta положительно или неотрицательно), тогда кодер 217 конфигурируется для использования кодированных индексов направления (bits_ЕС) и сигнализирует, какие подкадры кодируются энтропийным кодированием, а какие кодируются с фиксированной скоростью. Например, в некоторых вариантах осуществления изобретения кодер сконфигурирован для передачи 1 бита, чтобы указать, что используется способ энтропийного кодирования и кодирования с фиксированной скоростью, а также 1 бит на поддиапазон, который затем используется для указания, является ли поддиапазон кодированным с фиксированной скоростью или энтропийно-кодированным. Затем кодированные поддиапазоны группируются. Например, группируются энтропийно-кодированные поддиапазоны, а затем следуют поддиапазоны, кодированные с фиксированной скоростью.If the number of bits used is not greater than the number of available bits (or the Delta value is positive or non-negative), then encoder 217 is configured to use coded direction indices (bits_EC) and signals which subframes are entropy coded and which are fixed rate coded. For example, in some embodiments of the invention, the encoder is configured to transmit 1 bit to indicate that an entropy coding method and fixed rate coding are being used, as well as 1 bit per subband, which is then used to indicate whether the subband is fixed rate or entropy encoded. -coded. The coded subbands are then grouped. For example, entropy-coded subbands are grouped, followed by fixed-rate-coded subbands.

Это, например, показано на фиг. 4а, где начальная операция, следующая за этапом 309, представляет собой операцию определения индексов направления (азимута и угловой высоты) на основе разрешения квантования, установленного bits_dir0[0:N-1][0:М-1], другими словами, выполнение кодирования с фиксированной скоростью, как показано на фиг. 4а на этапе 400.This is shown, for example, in FIG. 4a, where the initial operation following step 309 is an operation of determining direction indices (azimuth and angular height) based on the quantization resolution set by bits_dir0[0:N-1][0:M-1], in other words, performing encoding at a fixed speed, as shown in Fig. 4a at step 400.

После генерирования индексов следующей операцией является энтропийное кодирование индексов направления, как показано на фиг. 4а на этапе 401.After generating the indices, the next operation is to entropy-code the direction indices, as shown in FIG. 4a at step 401.

Сгенерировав для всех поддиапазонов энтропийно-кодированную и кодированную с фиксированной скоростью форму, затем для каждого поддиапазона выбирают вариант, который использует меньшее количество битов, и определяют используемые биты для временного блока или кадра (как bits_EC), как показано на фиг. 4а на этапе 403.Having generated an entropy-coded and fixed-rate-coded form for all subbands, then for each subband, the option that uses fewer bits is selected, and the bits used for the time block or frame (as bits_EC) are determined, as shown in FIG. 4a at step 403.

Затем определяют разность между используемыми битами и доступными битами (Delta=bits_ЕС-bits_available), как показано на фиг. 4а на этапе 405.Then, the difference between the used bits and the available bits (Delta=bits_EC-bits_available) is determined, as shown in FIG. 4a at step 405.

Следующей операцией может быть определение того, превышает ли количество битов для кодированных индексов направления количество доступных битов (другими словами, является ли значение Delta отрицательным?), как показано на фиг. 4а на этапе 407.The next operation may be to determine if the number of bits for the encoded direction indices exceeds the number of available bits (in other words, is the Delta value negative?), as shown in FIG. 4a at step 407.

Если определение приводит к ответу, что количество битов для кодированных индексов направления не превышает количества доступных битов (другими словами, значение Delta не является отрицательным или положительным), тогда используют кодированные индексы направления и, кроме того, сигнализируют выборы (другими словами, генерируют индикаторы для сигнализации о том, какие подкадры энтропийно кодируются, а какие кодируются с фиксированной скоростью), как показано на фиг. 4а на этапе 408. В некоторых вариантах осуществления изобретения используют 1 бит для каждого поддиапазона для указания на то, что используется способ выбора энтропийного кодирования, используют 1 бит для каждого поддиапазона для указания того, какие из них являются кодированными с фиксированной скоростью или энтропийно-кодированными, а затем группируют кодированные метаданные таким образом, что сначала в битовый поток упаковываются все энтропийно-кодированные поддиапазоны, а затем упаковываются поддиапазоны, кодированные с фиксированной скоростью.If the determination results in the answer that the number of bits for the coded direction indices does not exceed the number of available bits (in other words, the Delta value is not negative or positive), then the coded direction indices are used and, in addition, the selections are signaled (in other words, indicators are generated for signaling which subframes are entropy coded and which are fixed rate coded), as shown in FIG. 4a at step 408. In some embodiments, 1 bit per subband is used to indicate that an entropy coding selection method is used, 1 bit is used per subband to indicate which of them are fixed rate coded or entropy coded. , and then grouping the encoded metadata such that first all the entropy-coded subbands are packed into the bitstream, and then the fixed-rate-encoded subbands are packed.

В некоторых вариантах осуществления изобретения, где количество битов для кодированных индексов направления больше, чем количество доступных битов (или Delta имеет отрицательное значение), тогда анализатор направления/генератор индекса 215 сконфигурирован для определения того, превышает ли количество битов, используемых для кодированных индексов направления, количество доступных битов, на пороговое значение уменьшения разрешения квантования. Пороговое значение уменьшения разрешения квантования может в некоторых вариантах осуществления изобретения вычисляться на основе количества кодированных с фиксированной скоростью поддиапазонов, количества битов, которое может быть уменьшено на основе каждого частотно-временного тайла (или частотно-временного блока) до того, как качество при квантовании значительно ухудшится, и количества субкадров в блоке. Например, в некоторых вариантах осуществления изобретения минимальное количество битов, которое можно использовать, равно 3 (хотя можно использовать любое другое подходящее минимальное количество битов). Это может быть представлено как Delta>=FRB*BM*M, где FRB=количество поддиапазонов с фиксированной скоростью в подкадре, ВМ=максимальное количество битов, которое может быть уменьшено из каждого тайла TF, а М=количество временных блоков или временных подкадров.In some embodiments of the invention, where the number of bits for encoded direction indices is greater than the number of available bits (or Delta is negative), then the direction parser/index generator 215 is configured to determine if the number of bits used for encoded direction indices, the number of bits available, by the quantization resolution reduction threshold. The quantization resolution reduction threshold may, in some embodiments, be computed based on the number of fixed rate coded subbands, the number of bits that can be reduced on a per time-frequency tile (or time-frequency block) basis, before the quantization quality is significantly degrade, and the number of subframes in the block. For example, in some embodiments of the invention, the minimum number of bits that can be used is 3 (although any other suitable minimum number of bits can be used). This can be represented as Delta>=FRB*BM*M where FRB=number of fixed rate subbands per subframe, BM=maximum number of bits that can be reduced from each TF tile, and M=number of time blocks or time subframes.

Когда определение приводит к ответу, что разность меньше, чем пороговое значение уменьшения разрешения квантования, тогда анализатор направления/генератор индекса 215 сконфигурирован для повторного вычисления количества битов, используемых для кодирования с фиксированной скоростью, путем изменения разрешения квантования. В некоторых вариантах осуществления изобретения разрешение квантования уменьшается для каждого тайла TF поддиапазонов, кодированных с фиксированной скоростью, вплоть до максимального уменьшения битов ВМ (другими словами, до тех пор, пока не будет достигнуто минимальное количество используемых битов) и до тех пор, пока количество битов для кадра не уменьшится до количества доступных битов. В некоторых вариантах осуществления изобретения уменьшение выполняется по 1 биту на TF за раз, так что разрешение квантования в TF меняется равномерно. Кроме того, в некоторых вариантах осуществления изобретения уменьшение применяется от нижних поддиапазонов к более высоким поддиапазонам. Уменьшение таково, что в конце уменьшения разрешения квантования число используемых битов для временного блока равно bits_ЕС1, а не bits_ЕС. Другими словами, уменьшение таково, что «bits_ЕС1» должно соответствовать «bits_available ».When the determination results in a response that the difference is less than the quantization resolution reduction threshold, then the direction analyzer/index generator 215 is configured to recalculate the number of bits used for fixed rate coding by changing the quantization resolution. In some embodiments of the invention, the quantization resolution is reduced for each TF tile of subbands encoded at a fixed rate, up to the maximum reduction of BM bits (in other words, until the minimum number of bits used is reached) and until the number of bits for a frame is not reduced to the number of available bits. In some embodiments of the invention, the reduction is performed 1 bit per TF at a time so that the quantization resolution in the TF changes uniformly. In addition, in some embodiments, the reduction is applied from lower subbands to higher subbands. The reduction is such that at the end of the quantization resolution reduction, the number of bits used for the time block is bits_EC1, not bits_EC. In other words, the decrease is such that "bits_EC1" must match "bits_available".

После применения разрешения квантования для подкадров с фиксированной скоростью кодер 217 конфигурируется для использования кодированных индексов направления (bits_ЕС1) и сигнализирует, какие подкадры кодируются энтропийно, а какие кодируются с фиксированной скоростью. Например, в некоторых вариантах осуществления изобретения кодер сконфигурирован для передачи 1 бита, чтобы указать, что используется способ энтропийного кодирования и кодирования с фиксированной скоростью, а также 1 бит для каждого поддиапазона, который затем используется для указания, является ли поддиапазон кодированным с фиксированной скоростью или энтропийно-кодированным. Затем кодированные поддиапазоны группируются. Например, группируются энтропийно-кодированные поддиапазоны, а затем следуют поддиапазоны, кодированные с фиксированной скоростью.After applying the quantization grant for fixed rate subframes, encoder 217 is configured to use encoded direction indices (bits_EC1) and signals which subframes are entropy encoded and which are fixed rate encoded. For example, in some embodiments of the invention, the encoder is configured to transmit 1 bit to indicate that the entropy coding method and fixed rate coding are being used, as well as 1 bit for each subband, which is then used to indicate whether the subband is fixed rate encoded or entropy coded. The coded subbands are then grouped. For example, entropy-coded subbands are grouped, followed by fixed-rate-coded subbands.

Когда определение приводит к ответу, что разность больше или равна пороговому значению уменьшения разрешения квантования, тогда анализатор направления/генератор индекса 215 сконфигурирован для уменьшения количества выделяемых битов для квантования bits_dir1[0:N-1][0:M-1] так, чтобы сумма выделенных битов была равна количеству доступных битов, оставшихся после кодирования отношений энергии.When the determination results in a response that the difference is greater than or equal to the quantization resolution reduction threshold, then the direction analyzer/index generator 215 is configured to reduce the number of allocated bits for quantization bits_dir1[0:N-1][0:M-1] so that the sum of the allocated bits was equal to the number of available bits remaining after encoding the energy ratios.

Кроме того, анализатор направления/генератор индекса 215 может быть сконфигурирован для запуска кодирования поддиапазона с использованием уменьшенного количества доступных битов после кодирования отношений энергии. Это отличается от уменьшения разрешения квантования, описанного выше, тем, что формы, кодированные как с фиксированной скоростью, так и с переменной скоростью (энтропийно-кодированные формы), кодируются снова.In addition, direction analyzer/index generator 215 can be configured to start subband encoding using the reduced number of available bits after energy ratio encoding. This differs from the quantization resolution reduction described above in that both fixed-rate and variable-rate encoded forms (entropy-coded forms) are encoded again.

Индексы направления, кодированные с уменьшенной скоростью, и сигнализированное использование поддиапазонов, кодированных с фиксированной скоростью, затем могут кодироваться в кодере 217. Другими словами, бит может использоваться для сигнализации того, был ли кодирован поддиапазон с использованием способа энтропийного кодирования или кодирования с фиксированной скоростью, и затем биты для кодированных поддиапазонов передаются.The reduced rate coded direction indices and the signaled usage of the fixed rate coded subbands can then be encoded at encoder 217. In other words, a bit can be used to signal whether the subband has been coded using an entropy coding method or a fixed rate coding method, and then the bits for the coded subbands are transmitted.

Это показано, например, на фиг. 4b, где после этапа 407 следует операция определения того, превышает ли разность количество доступных битов на пороговое значение уменьшения разрешения квантования, как показано на фиг. 4b на этапе 409.This is shown, for example, in Fig. 4b, where step 407 is followed by an operation of determining whether the difference exceeds the number of available bits by a quantization resolution reduction threshold, as shown in FIG. 4b at step 409.

Если разность меньше, чем пороговое значение уменьшения разрешения квантования, то способ конфигурируется для пересчета количества битов для кодирования поддиапазонов с фиксированной скоростью путем изменения разрешения квантования для поддиапазонов, кодированных с фиксированной скоростью (другими словами, без изменения энтропийно-кодированных поддиапазонов), как показано на фиг. 4b на этапе 410.If the difference is less than the quantization resolution reduction threshold, then the method is configured to recalculate the number of bits for fixed-rate subband coding by changing the quantization resolution for the fixed-rate-coded subbands (in other words, without changing the entropy-coded subbands), as shown in fig. 4b at 410.

После пересчета количества битов для кодирования поддиапазонов с фиксированной скоростью выводят биты, в которых используются кодированные индексы направления (с подкадрами с фиксированной скоростью с измененным разрешением квантования) и, кроме того, сигнализируют выборы (другими словами, сгенерированные индикаторы, чтобы сигнализировать о том, какие подкадры кодированы энтропийным кодированием, а какие кодированы с фиксированной скоростью), как показано на фиг. 4b на этапе 412. В некоторых вариантах осуществления изобретения используют 1 бит для сигнализации того, что используется способ выбора энтропийного кодирования, используют 1 бит для каждого поддиапазона для указания того, какие из них являются кодированными с фиксированной скоростью или энтропийно-кодированными, а затем группируют кодированные метаданные таким образом, что сначала в битовый поток упаковываются все энтропийно-кодированные поддиапазоны, а затем упаковываются поддиапазоны, кодированные с измененным разрешением и фиксированной скоростью.After recalculating the number of bits for fixed rate subband coding, bits using encoded direction indices (with fixed rate subframes with changed quantization resolution) are output and, in addition, selections are signaled (in other words, generated indicators to signal which subframes are entropy coded and which are fixed rate coded), as shown in FIG. 4b at step 412. In some embodiments, use 1 bit to signal that an entropy coding selection method is used, use 1 bit for each subband to indicate which are fixed rate or entropy coded, and then group encoded metadata such that first all entropy-coded subbands are packed into the bitstream, and then the resolution-changed, fixed-rate encoded subbands are packed.

В некоторых вариантах осуществления изобретения кодирование с уменьшенной скоростью передачи битов может быть реализовано путем запуска цикла для каждого поддиапазона вплоть до предпоследнего поддиапазона N-1. В этом цикле определяют разрешенное количество битов для текущего поддиапазона bits_allowed=sum(bits_dir1[i][0:M-1]). Затем, определив разрешенное количество битов для текущего поддиапазона, анализатор направления/генератор индекса 215 может быть сконфигурирован для кодирования индексов с использованием кодирования с фиксированной скоростью с уменьшенным выделенным количеством битов bits_fixed=bits_allowed.In some embodiments of the invention, reduced bit rate coding may be implemented by running a loop for each subband up to the penultimate subband N-1. This loop determines the allowed number of bits for the current subband bits_allowed=sum(bits_dir1[i][0:M-1]). Then, having determined the allowed number of bits for the current subband, the direction parser/index generator 215 can be configured to encode the indices using fixed rate coding with a reduced bit allocation bits_fixed=bits_allowed.

Затем анализатор направления/генератор индекса 215 может быть сконфигурирован для выбора либо кодирования с фиксированной скоростью, либо использования энтропийного кодирования на основе способа, который использует меньшее количество битов, то есть выбирает наименьшее значение из bits_fixed или bits_ec. Кроме того, анализатор направления/генератор индекса 215 может быть сконфигурирован для использования одного бита для указания того, какой из двух способов кодирования был выбран. Следовательно, количество битов, используемых для кодирования поддиапазона, равно nb=min(bits_fixed, bits_ес)+1.The direction analyzer/index generator 215 can then be configured to either select fixed rate encoding or use entropy encoding based on a method that uses fewer bits, i.e. chooses the smallest of bits_fixed or bits_ec. In addition, the direction parser/index generator 215 can be configured to use one bit to indicate which of the two encoding methods has been selected. Therefore, the number of bits used to encode a subband is nb=min(bits_fixed, bits_ec)+1.

Затем анализатор направления/генератор индекса 215 может быть сконфигурирован для определения того, имеются ли доступные биты в отношении разрешенных битов, другими словами, diff=allow_bits-nb>0. Там, где имеется разность между количеством доступных битов и количеством битов, используемых в поддиапазоне, разность может быть распределена на более поздние поддиапазоны, например, путем обновления bits_dir1[i+1:N-1][0_М-1], в противном случае анализатор направления/генератор индекса 215 может быть сконфигурирован для вычитания бита из выделения следующего поддиапазона bits_dir1[i+1][0].The direction analyzer/index generator 215 can then be configured to determine if there are available bits in relation to the allowed bits, in other words, diff=allow_bits-nb>0. Where there is a difference between the number of bits available and the number of bits used in a subband, the difference can be distributed to later subbands, e.g. by updating bits_dir1[i+1:N-1][0_M-1], otherwise the parser direction/index generator 215 may be configured to subtract a bit from the next subband allocation bits_dir1[i+1][0].

Для конечного поддиапазона N анализатор направления / генератор индекса 215 может быть сконфигурирован для кодирования индексов направления с использованием способа кодирования с фиксированной скоростью и с использованием битов bits_dir1[N-1][0:M-1].For the final subband N, the direction parser/index generator 215 can be configured to encode direction indices using a fixed rate encoding method and using bits_dir1[N-1][0:M-1].

Как показано на фиг. 4с, эти операции с уменьшенной скоростью передачи битов (другими словами, этап 413 на фиг. 4b) могут быть показаны в качестве примера блок-схемы. Первым этапом является запуск цикла для поддиапазонов от 1 до предпоследнего (N-1) поддиапазона, как показано на фиг. 4с на этапе 421.As shown in FIG. 4c, these reduced bit rate operations (in other words, step 413 in FIG. 4b) can be shown as an example of a flowchart. The first step is to run a loop for subbands 1 to the penultimate (N-1) subband as shown in FIG. 4c at step 421.

В цикле для текущего поддиапазона количество разрешенных битов для кодирования определяют, как показано на фиг. 4с на этапе 423.In the loop for the current subband, the number of allowed bits for encoding is determined as shown in FIG. 4c at step 423.

Затем используют способ кодирования с фиксированной скоростью для кодирования индексов с использованием уменьшенного количества битов, как показано на фиг. 4с на этапе 425.Then, a fixed rate encoding method is used to encode the indices using the reduced number of bits, as shown in FIG. 4c at step 425.

Затем выбирают либо кодирование с фиксированной скоростью, либо энтропийное кодирование на основе того, какой способ использует меньше битов, и выбор, кроме того, может быть указан одним битом, как показано на фиг. 4с на этапе 427.Then, either fixed rate coding or entropy coding is selected based on which method uses fewer bits, and the selection can furthermore be indicated by one bit, as shown in FIG. 4c at step 427.

Определение того, имеются ли какие-либо оставшиеся доступные биты на основе разности между количеством разрешенных битов и количеством битов, используемых выбранным кодированием, и перераспределение оставшихся битов для более поздних выделений поддиапазонов показано на фиг. 4с с помощью этапа 429.Determining whether there are any remaining bits available based on the difference between the number of allowed bits and the number of bits used by the selected coding, and reallocating the remaining bits to later subband assignments is shown in FIG. 4c with step 429.

Затем цикл завершается, и он может повториться для следующего поддиапазона, как показано на фиг. 4с на этапе 431.The cycle is then completed and it may repeat for the next subband, as shown in FIG. 4c at step 431.

Наконец, последний поддиапазон кодируют с использованием способа с фиксированной скоростью с использованием оставшегося выделения битов, как показано на фиг. 4с на этапе 433.Finally, the last subband is encoded using a fixed rate method using the remaining bit allocation as shown in FIG. 4c at step 433.

Таким образом, способ может быть кратко изложен следующим образом:Thus, the method can be summarized as follows:

1. Для каждого поддиапазона i=1:N1. For each subrange i=1:N

a. кодировать значение отношения энергииa. encode the value of the energy ratio

b. определить индексы направления на основе разрешения квантования (для всего временного блока текущего поддиапазона) на основе кодированного значения отношения энергииb. determine the direction indices based on the quantization resolution (for the entire time block of the current subband) based on the encoded value of the energy ratio

3. Конец цикла3. End of cycle

4. Энтропийное кодирование индексов направления4. Entropy coding of direction indices

5. Выбор для каждого поддиапазона, использует ли кодирование (индексов) с фиксированной скоростью или энтропийное кодирование меньшее количество битов, определение используемых битов блока5. Selecting for each subband whether fixed rate (index) coding or entropy coding uses fewer bits, determining block bits used

6. Если используемых битов блока больше, чем доступных битов6. If there are more block bits used than available bits

а. Если разность между используемыми битами блока и доступными битами меньше порога изменения разрешения квантованияA. If the difference between the used block bits and the available bits is less than the quantization resolution change threshold

i. Пересчет битов, используемых путем изменения разрешения квантования поддиапазонов, кодированных с фиксированной скоростью.i. Recalculation of bits used by changing the quantization resolution of fixed rate coded subbands.

ii. Генерирование выходных данных на основе сигнализированного способа, сигнализированных выборов, а затем сгруппированных поддиапазонов в зависимости от того, были ли они закодированы с использованием фиксированной скорости (с измененным разрешением квантования) или энтропийного способа.ii. Generating output based on the signaled method, the signaled choices, and then the grouped subbands depending on whether they were encoded using a fixed rate (changed quantization resolution) or an entropy method.

b. В противном случаеb. Otherwise

i. Уменьшение выделенного количества битов, bits_dir1[0:N-1][0:М-1], чтобы сумма выделенных битов была равна количеству доступных битов, оставшихся после кодирования отношений энергии.i. Decreasing the allocated number of bits, bits_dir1[0:N-1][0:M-1], so that the sum of the allocated bits is equal to the number of available bits left after encoding the energy ratios.

ii. Перекодирование для каждого поддиапазона i=1:N-1ii. Recoding for each subband i=1:N-1

1. Вычисление разрешенных битов для текущего поддиапазона: bits_allowed=sum(bits_dir1[i][0:M-1])1. Calculate the allowed bits for the current subrange: bits_allowed=sum(bits_dir1[i][0:M-1])

2. Кодирование индексов параметров направления путем использования кодирования с фиксированной скоростью с уменьшенным выделенным количеством битов, bits_fixed=bits_allowed, или использования энтропийного кодирования, bits_ec; выбор кодирования, который использует меньше битов, и использование одного бита, чтобы указать способ: nb=min(bits_fixed, bits_ес)+1;2. Encoding direction parameter indices by using fixed rate coding with reduced allocated bits, bits_fixed=bits_allowed, or using entropy coding, bits_ec; choosing an encoding that uses fewer bits and using one bit to indicate the method: nb=min(bits_fixed, bits_ec)+1;

3. Если есть доступные биты относительно разрешенных битов: (если diff=allowed_bits-nb>0)3. If there are available bits relative to allowed bits: (if diff=allowed_bits-nb>0)

а. Перераспределение разности, diff, на следующие поддиапазоны, путем обновления bits_dir1[i+1:N-1][0 M-1]A. Redistributing the difference, diff, to the next subranges by updating bits_dir1[i+1:N-1][0 M-1]

4. В противном случае4. Otherwise

а. Вычитание одного бита из bits_dir1[i+1][0]A. Subtract one bit from bits_dir1[i+1][0]

5. Конец условного оператора5. End of the conditional statement

iii. Конец циклаiii. End of cycle

iv. Кодирование индексов параметров направления для последнего поддиапазона с подходом с фиксированной скоростью с использованием битов bits_dir1[N-1][0:M-1].iv. Coding of direction parameter indexes for the last subband with fixed rate approach using bits_dir1[N-1][0:M-1].

c. Конец условного оператораc. End of conditional statement

7. В противном случае7. Otherwise

8. Генерирование выходных данных на основе сигнализированного способа, сигнализированных выборов, а затем сгруппированных поддиапазонов в зависимости от того, были ли они закодированы с использованием способа кодирования с фиксированной скоростью или способа энтропийного кодирования.8. Generating output based on the signaled method, the signaled choices, and then the grouped subbands depending on whether they were encoded using a fixed rate coding method or an entropy coding method.

9. Конец9. End

В некоторых реализациях оптимизация энтропийного кодирования значений угловой высоты и азимута может выполняться отдельно и более подробно описана ниже со ссылкой на фиг. 5 и 6.In some implementations, the optimization of the entropy encoding of the angular height and azimuth values may be performed separately and is described in more detail below with reference to FIG. 5 and 6.

Например, на фиг. 5 показан пример, в котором в некоторых вариантах осуществления изобретения применяется ряд проверок индексов и оптимизаций, чтобы попытаться уменьшить количество битов, необходимых для энтропийного кодирования индексов направления.For example, in FIG. 5 shows an example in which some embodiments of the invention apply a series of index checks and optimizations to attempt to reduce the number of bits needed to entropy encode direction indexes.

В некоторых вариантах осуществления изобретения определение индексов направления начинается, как показано на фиг. 5, с этапа 501. В этом примере биты, необходимые для энтропийного кодирования показанного определения индексов, представляют собой определение индекса угловой высоты. Однако, как описано ниже, аналогичный подход может быть применен к определению индекса азимута.In some embodiments of the invention, the determination of direction indices begins as shown in FIG. 5 from step 501. In this example, the bits needed to entropy encode the index definition shown is the angular height index definition. However, as described below, a similar approach can be applied to the determination of the azimuth index.

В некоторых вариантах осуществления изобретения отображение генерируют таким образом, что значение угловой высоты (или азимута), равное 0, имеет индекс 0, а возрастающие значения индекса назначаются возрастающим положительным и отрицательным значениям угловой высоты (азимута), как показано на фиг. 5 на этапе 503.In some embodiments, the display is generated such that an elevation (or azimuth) value of 0 has an index of 0, and incremental index values are assigned to incremental positive and negative elevation (azimuth) values, as shown in FIG. 5 at step 503.

После генерирования отображения это отображение применяют к источникам звука (например, в форме генерирования вывода кодового слова на основе справочной таблицы), как показано на фиг. 5 на этапе 505.After mapping is generated, the mapping is applied to audio sources (eg, in the form of codeword output generation based on a look-up table) as shown in FIG. 5 at step 505.

После генерирования индексов в некоторых вариантах осуществления изобретения выполняют проверку, чтобы определить, все ли индексы расположены в пределах одной и той же полусферы, как показано на фиг. 5 на этапе 507.After the indices are generated, in some embodiments of the invention, a check is made to determine if all the indices are located within the same hemisphere, as shown in FIG. 5 at step 507.

Если все индексы расположены в пределах одной и той же полусферы, то значения индекса можно разделить на два (с округлением в большую сторону) и сгенерировать индикатор, указывающий, в пределах какой полусферы все индексы расположены, а затем энтропийно кодировать эти значения, как показано на фиг. 5 на этапе 509.If all indices are located within the same hemisphere, then the index values can be divided by two (rounded up) and an indicator can be generated indicating which hemisphere all indices are located within, and then these values can be entropy encoded, as shown in fig. 5 at step 509.

Если все индексы не расположены в пределах одной и той же полусферы, то к индексам можно применить энтропийное кодирование с удаленным средним. Энтропийное кодирование с удаленным средним может быть сконфигурировано так, чтобы сначала удалить среднее значение индекса для кодируемых подкадров, затем преобразовать индексы в положительные, а затем кодировать их с помощью подходящего энтропийного кодирования, такого как кодирование Голомба-Райса, как показано на фиг. 5 на этапе 510.If all indices are not located within the same hemisphere, then de-mean entropy coding can be applied to the indices. De-averaged entropy coding may be configured to first remove the average index value for the subframes to be coded, then convert the indices to positive ones, and then encode them with a suitable entropy coding, such as Golomb-Rice coding, as shown in FIG. 5 at step 510.

После применения энтропийного кодирования в некоторых вариантах осуществления изобретения можно применить проверку, чтобы определить, имеют ли все временные подкадры одно и то же значение или индекс угловой высоты (азимута), как показано на фиг. 5 на этапе 511.After applying entropy coding, in some embodiments of the invention, a check can be applied to determine if all time subframes have the same value or angular height (azimuth) index, as shown in FIG. 5 at step 511.

Если все временные подкадры имеют одно и то же значение или индекс угловой высоты (азимута), то генерируют индикатор, указывающий множество значений или индексов угловой высоты (азимута), как показано на фиг. 5 на этапе 513, в противном случае способ переходит непосредственно к этапу 517.If all temporal subframes have the same azimuth (azimuth) value or index, then an indicator is generated indicating a plurality of azimuth (azimuth) values or indices, as shown in FIG. 5 at step 513, otherwise the method proceeds directly to step 517.

Следующей операцией является предоставление количества битов, необходимых для энтропийно-кодированных индексов и любых битов индикатора, как показано на фиг. 5 на этапе 517.The next operation is to provide the number of bits needed for the entropy-coded indices and any indicator bits, as shown in FIG. 5 at step 517.

Например, в отношении значений угловой высоты индекс угловой высоты может быть определен из кодовой книги в области [-90; 90], который формируется таким образом, что угловая высота со значением 0 возвращает кодовое слово с нулевым индексом и альтернативно назначает возрастающие индексы положительным и отрицательным кодовым словам, отстоящим от нулевого значения угловой высоты.For example, with respect to angular height values, the angular height index may be determined from the codebook in the region [-90; 90], which is formed such that an angular height value of 0 returns a zero-index codeword and alternatively assigns increasing indices to positive and negative codewords spaced from the zero angular height value.

Так, например, в некоторых вариантах осуществления изобретения реализована кодовая книга с кодовыми словами {-90, -60, -30, 0, 30, 60, 90}, которая создает индексы {6, 4, 2, 0, 1, 3, 5}. Эта индексация дает индексы с меньшим значением для направлений, которые более вероятны в общем смысле (в практических примерах направления находятся вблизи экватора). Другое наблюдение заключается в том, что если источники звука находятся дальше от экватора, что соответствует индексам с более высокими значениями, они, как правило, все выше или все ниже экватора. В некоторых вариантах осуществления изобретения кодер может быть сконфигурирован для проверки того, находятся ли все источники звука выше (или все источники звука ниже) экватора, и если это так для всех временных подкадров для поддиапазона, то индексы делят на 2 для создания индексов с меньшим значением, которые могут быть более эффективно закодированы.For example, in some embodiments of the invention, a codebook with codewords {-90, -60, -30, 0, 30, 60, 90} is implemented, which creates indexes {6, 4, 2, 0, 1, 3, 5}. This indexing gives indexes with a smaller value for directions that are more likely in a general sense (in practical examples, directions are near the equator). Another observation is that if the sound sources are farther from the equator, which corresponds to higher index values, they tend to be either above or below the equator. In some embodiments of the invention, the encoder may be configured to check if all sound sources are above (or all sound sources below) the equator, and if so for all temporal subframes for the subband, then the indices are divided by 2 to create indices with a lower value , which can be encoded more efficiently.

В некоторых вариантах осуществления изобретения оценка количества битов для индексов угловой высоты может быть реализована на языке С следующим образом:In some embodiments of the invention, the estimation of the number of bits for the angular height indices can be implemented in the C language as follows:

Figure 00000005
Figure 00000005

Figure 00000006
Figure 00000006

Также проверяют и сигнализируют особый случай одинаковых значений угловой высоты для всех временных подкадров.The special case of the same angular height values for all time subframes is also checked and signaled.

Функция mean_removed_GR() в приведенном выше примере сконфигурирована так, чтобы сначала удалить среднее значение индекса для кодируемых подкадров, затем преобразовать индексы в положительные, а затем кодировать их с помощью кодирования Голомба-Райса.The mean_removed_GR() function in the above example is configured to first remove the average index value for the encoded subframes, then convert the indices to positive ones, and then encode them using Golomb-Rice coding.

Это может быть реализовано, например, на языке С следующим образом:This can be implemented, for example, in C language as follows:

Figure 00000007
Figure 00000007

Figure 00000008
Figure 00000008

Функция odd_even_mean_removed_GR() сконфигурирована так, чтобы сначала проверять, все ли индексы нечетные или все ли они четные, сигнализировать об их появлении и указывать тип (нечетный или четный), после чего кодировать деленные на 2 индексы.The odd_even_mean_removed_GR() function is configured to first check if all indices are odd or all even, signal their occurrence and indicate the type (odd or even), and then encode the indices divided by 2.

Figure 00000009
Figure 00000009

Figure 00000010
Figure 00000010

В некоторых вариантах осуществления изобретения выполняют ряд операций оптимизации энтропийного кодирования, а затем выбирают наименьшее значение. Это, например, может быть проиллюстрировано в отношении кодирования значений азимута, как показано на фиг. 6. В некоторых вариантах осуществления изобретения определение индексов направления начинается, как показано на фиг. 6, на этапе 601.In some embodiments of the invention, a number of entropy encoding optimizations are performed and then the smallest value is selected. This, for example, can be illustrated in relation to the coding of azimuth values, as shown in FIG. 6. In some embodiments of the invention, the determination of direction indices begins as shown in FIG. 6, at step 601.

В некоторых вариантах осуществления изобретения отображение генерируют таким образом, что значение азимута, равное 0, имеет индекс 0, а возрастающие значения индекса назначаются возрастающим положительным и отрицательным значениям азимута, как показано на фиг. 6 на этапе 503.In some embodiments, the display is generated such that an azimuth value of 0 has an index of 0, and increasing index values are assigned to increasing positive and negative azimuth values, as shown in FIG. 6 at step 503.

После генерирования отображения это отображение применяют к источникам звука (например, в форме генерирования вывода кодового слова на основе справочной таблицы), как показано на фиг. 6 на этапе 605.After mapping is generated, the mapping is applied to audio sources (eg, in the form of codeword output generation based on a look-up table) as shown in FIG. 6 at step 605.

В этом примере индекс азимута может быть определен из дополнительной кодовой книги. В этом примере нулевое значение азимута соответствует опорному направлению, которое может быть направлением вперед, положительные значения слева, а отрицательные значения справа. В этом примере индекс значения азимута назначается таким образом, что значениям (-150, -120, -90, -60, -30, 0, 30, 60, 90, 120, 150, 180) назначены следующие индексы (10, 8, 6, 4, 2, 0, 1, 3, 5, 7, 9, 11). В некоторых вариантах осуществления изобретения нечетный/четный подход может быть проверен для азимута (соответствующего левому/правому позиционированию).In this example, the azimuth index can be determined from an additional codebook. In this example, a zero azimuth value corresponds to a reference direction, which can be forward, positive values to the left, and negative values to the right. In this example, the azimuth value index is assigned such that the values (-150, -120, -90, -60, -30, 0, 30, 60, 90, 120, 150, 180) are assigned the following indices (10, 8, 6, 4, 2, 0, 1, 3, 5, 7, 9, 11). In some embodiments, the odd/even approach may be checked for azimuth (corresponding to left/right positioning).

В этом примере более высокие значения индекса назначаются значениям из задней стороны или задней части «среды захвата».In this example, higher index values are assigned to values from the back side or back of the "capturing environment".

Кодирование индексов азимута подкадра в некоторых вариантах осуществления изобретения может выполняться на основе следующего:The encoding of subframe azimuth indices in some embodiments of the invention may be performed based on the following:

1. Определение количества индексов азимута, которые должны быть закодированы для текущего поддиапазона (как показано на фиг. 6 на этапе 607).1. Determining the number of azimuth indices to be encoded for the current subband (as shown in FIG. 6 at step 607).

2. Нахождение максимального количества символов для тайлов текущего поддиапазона (как показано на фиг. 6 на этапе 609).2. Finding the maximum number of symbols for the tiles of the current subband (as shown in FIG. 6 at step 609).

3. Если символов больше, чем пороговое значение (как показано на фиг. 6, этап 611)3. If there are more symbols than the threshold (as shown in FIG. 6, step 611)

а. Кодирование (как показано на фиг. 6 на этапе 613) значений азимута путем проверки кодирования значений, заданных комплементарными значениями: no_symb-index_azimuth.A. Encoding (as shown in FIG. 6 at step 613) the azimuth values by checking the encoding of the values given by the complementary values: no_symb-index_azimuth.

i. Оценка количества битов при кодировании индексов таким образом, как если бы они были впереди. Использование кодирования Голомба-Райса, селективного по порядку с удаленным средним. Порядок GR может быть 2 или 3. Порядок GR также может быть установлен на разные значения, в зависимости от диапазона по умолчанию для количества символов.i. Estimating the number of bits when encoding indices as if they were ahead. Use of Golomb-Rice coding, order selective, with removed mean. The GR order can be 2 or 3. The GR order can also be set to different values, depending on the default range for the number of characters.

ii. Оценка количества битов при кодировании комплементарных индексов с использованием кодирования GR, селективного по порядку с удаленным средним.ii. Estimation of the number of bits when encoding complementary indices using GR encoding, order-selective, de-averaged.

iii. Использование способа кодирования, который использует меньшее количество битов, и использование бита, чтобы указать, какой способ используется.iii. Using an encoding method that uses fewer bits, and using a bit to indicate which method is used.

4. В противном случае4. Otherwise

а. Кодирование индексов азимута путем использования кодирования GR с удаленным средним с порядком 1 или 2 (как показано на фиг. 6 на этапе 615).A. Azimuth index coding by using GR coding with order 1 or 2 removed mean (as shown in FIG. 6 at step 615).

5. Конец5. End

6. Проверка, дает ли кодирование GR с удаленным минимумом лучший результат, и лучше ли использовать его (как показано на фиг. 6 на этапе 617). На языке С код выглядит следующим образом:6. Checking if GR encoding with the removed minimum gives the best result, and whether it is better to use it (as shown in Fig. 6 at step 617). In C language, the code looks like this:

Figure 00000011
Figure 00000011

Figure 00000012
Figure 00000012

Figure 00000013
Figure 00000013

Figure 00000014
Figure 00000014

Figure 00000015
Figure 00000015

На фиг. 7 показан пример модуля 137 извлечения метаданных, подходящего для декодирования кодированных метаданных, кодированных кодером, как показано на фиг. 2.In FIG. 7 shows an example of a metadata extractor 137 suitable for decoding coded metadata encoded by an encoder as shown in FIG. 2.

Модуль 137 извлечения метаданных в некоторых вариантах осуществления изобретения содержит демультиплексор 701, сконфигурированный для приема кодированных сигналов и вывода кодированных значений отношения энергии в декодер 703 отношения энергии, а также вывода битов сигнализации в детектор 705 режима энтропийного кодирования и в детектор 707 поддиапазона, и кодированных индексов в декодер 709 индексов.The metadata extraction module 137 in some embodiments of the invention includes a demultiplexer 701 configured to receive encoded signals and output encoded energy ratio values to energy ratio decoder 703, as well as output signaling bits to entropy encoding mode detector 705 and subband detector 707, and encoded indices to the decoder 709 indexes.

Модуль 137 извлечения метаданных, кроме того, может содержать декодер 703 отношения энергии, сконфигурированный для приема и декодирования кодированных отношений энергии, чтобы генерировать декодированные отношения энергии. Декодированные отношения 704 энергии могут быть выведены. Кроме того, декодер 703 отношения энергии может генерировать значение 708 разрешения квантования на основе отношения энергии на основе кодированного значения отношения энергии и передавать его в декодер индекса и преобразователь 711 значения индекса направления в значение направления (AZ/EL).The metadata extractor 137 may further comprise an energy ratio decoder 703 configured to receive and decode encoded energy ratios to generate decoded energy ratios. The decoded energy relationships 704 can be output. In addition, the energy ratio decoder 703 can generate an energy ratio quantization resolution value 708 based on the encoded energy ratio value and transmit it to the index decoder and the direction index value to direction value (AZ/EL) converter 711 .

Модуль 137 извлечения метаданных, кроме того, может содержать детектор 705 режима энтропийного кодирования (ЕС). Детектор режима ЕС может считывать первый бит в блоке, который указывает, был ли весь блок закодирован в режиме с фиксированной скоростью (другими словами, содержит ли блок кодированные значения индекса, и, следовательно, нет необходимости в энтропийном декодировании) или было ли для этого блока реализовано гибридное энтропийное кодирование с фиксированной скоростью.The metadata extractor 137 may further comprise an Entropy Coding (EC) mode detector 705 . The EC mode detector may read the first bit in the block, which indicates whether the entire block has been encoded in fixed rate mode (in other words, whether the block contains encoded index values and thus no need for entropy decoding) or whether the block has fixed-rate hybrid entropy coding is implemented.

Таким образом, детектор 705 режима энтропийного кодирования может быть сконфигурирован для управления декодером 709 индекса на основе первого бита (индикатора режима).Thus, the entropy encoding mode detector 705 may be configured to control the index decoder 709 based on the first bit (mode indicator).

Модуль 137 извлечения метаданных, кроме того, может содержать детектор 707 поддиапазона. Детектор 707 поддиапазона может считывать следующие биты (например, если имеется 5 поддиапазонов, имеется 5 битов) в блоке, который указывает для блока, какие поддиапазоны были закодированы согласно способу кодирования с фиксированной скоростью, а какие поддиапазоны были закодированы согласно способу энтропийного кодирования.The metadata extractor 137 may further comprise a subband detector 707 . Subband detector 707 may read the following bits (eg, if there are 5 subbands, there are 5 bits) in a block that indicates to the block which subbands were encoded according to the fixed rate coding method and which subbands were encoded according to the entropy coding method.

Таким образом, детектор 707 поддиапазона может быть сконфигурирован для управления декодером 709 индекса на основе считанных битов (индикаторов поддиапазона).Thus, the subband detector 707 may be configured to control the index decoder 709 based on the read bits (subband indicators).

Модуль 137 извлечения метаданных, кроме того, может содержать декодер 709 индекса. Декодер 709 индекса, получивший кодированные значения метаданных для поддиапазонов, может управляться детектором 707 поддиапазона и детектором 705 энтропийного режима.Module 137 extraction of metadata, in addition, may contain the decoder 709 index. An index decoder 709 having received encoded metadata values for the subbands may be controlled by a subband detector 707 and an entropy mode detector 705.

Таким образом, например, декодер 709 индекса может быть сконфигурирован для декодирования кодированных с фиксированной скоростью значений метаданных, когда индикатор режима указывает, что гибридный режим отключен.Thus, for example, index decoder 709 may be configured to decode fixed rate encoded metadata values when the mode indicator indicates that hybrid mode is disabled.

Кроме того, декодер 709 индекса может быть сконфигурирован для декодирования энтропийно-кодированных поддиапазонов на основе индикаторов поддиапазонов. После считывания и декодирования значений энтропии определяется разность между доступными битами и считанными битами (битами индикатора и битами энтропийно-кодированного индекса направления). Декодер 709 индекса также сконфигурирован для определения того, меньше ли разность, чем количество битов, требуемых для кодирования с фиксированной скоростью оставшихся кодированных поддиапазонов, на основе значения 708 разрешения квантования на основе отношения энергии (bits_available-bits_read)<sum(bits_dir0[i][j]), где i=индекс поддиапазона, кодированного с фиксированной скоростью, и j=0:M-1.In addition, index decoder 709 may be configured to decode the entropy-coded subbands based on the subband indicators. After reading and decoding the entropy values, the difference between the available bits and the read bits (indicator bits and entropy-coded direction index bits) is determined. The index decoder 709 is also configured to determine whether the difference is less than the number of bits required for fixed rate encoding of the remaining encoded subbands based on the energy ratio quantization resolution value 708 (bits_available-bits_read)<sum(bits_dir0[i][ j]), where i=fixed rate coded subband index and j=0:M-1.

Если разность меньше количества битов, назначенных на основе значения 708 разрешения квантования на основе отношения энергии, то декодер индекса сконфигурирован для определения того, было ли кодирование реализовано с использованием изменения разрешения квантования для поддиапазонов с фиксированной скоростью, и декодирование выполняется в поддиапазонах с фиксированной скоростью на основе уменьшенных разрешений квантования, определенных таким же образом, как реализовано в кодере. Если разность корректна, то для декодирования поддиапазонов с фиксированной скоростью используется исходное разрешение.If the difference is less than the number of bits assigned based on the energy ratio quantization resolution value 708, then the index decoder is configured to determine whether coding has been implemented using a fixed rate subband quantization resolution change, and decoding is performed on the fixed rate subbands by based on reduced quantization resolutions defined in the same way as implemented in the encoder. If the difference is correct, then the original resolution is used to decode the subbands at a fixed rate.

Затем могут быть выведены декодированные параметры 712 направления. Таким образом, в некоторых вариантах осуществления изобретения может быть два уровня уменьшения.The decoded direction parameters 712 may then be output. Thus, in some embodiments of the invention, there may be two levels of reduction.

Более точный уровень уменьшения (когда разность достаточно мала), который сигнализируется следующим образом:A more precise reduction level (when the difference is small enough), which is signaled as follows:

Исходное количество битов для каждого частотно-временного блока определяется коэффициентом квантования энергии. Во-первых, сигнализируется, использует ли поддиапазон ЕС или кодирование с фиксированной скоростью. Поддиапазоны, которые закодированы ЕС, были записаны первыми, поэтому при их чтении известно, сколько битов они использовали. Также известно количество доступных битов и заранее заданное количество битов для поддиапазонов, кодируемых с фиксированной скоростью. Если заранее заданное количество битов + биты энтропийно-кодированных поддиапазонов укладываются в доступные биты, все хорошо, уменьшения нет; в противном случае есть небольшое уменьшение.The initial number of bits for each time-frequency block is determined by the energy quantization factor. First, it is signaled whether the EU subband or fixed rate coding is used. The subbands that are EC encoded were written first, so when they are read, it is known how many bits they used. Also known is the number of available bits and a predetermined number of bits for subbands encoded at a fixed rate. If the predetermined number of bits + entropy-coded subband bits fit within the available bits, all is well, there is no reduction; otherwise there is a slight decrease.

Более грубое или «жесткое» уменьшение, при котором один бит в начале передается для указания декодеру на то, уменьшается ли выделение битов до количества доступного предела битов или нет (соответствует этапу 411).A coarser or "harder" reduction in which one bit at the beginning is transmitted to indicate to the decoder whether the bit allocation is reduced to the number of bits available or not (corresponding to block 411).

На фиг. 8, например, показана работа модуля извлечения метаданных, как показано на фиг. 7, в виде блок-схемы.In FIG. 8, for example, shows the operation of the metadata extractor as shown in FIG. 7 in block diagram form.

Таким образом, способ включает прием кодированных данных, как показано на фиг. 8 на этапе 801.Thus, the method includes receiving encoded data as shown in FIG. 8 at step 801.

Кодированные данные демультиплексируют, как показано на фиг. 8, на этапе 803.The encoded data is demultiplexed as shown in FIG. 8, at step 803.

Затем считывают бит сигнализации режима ЕС, чтобы определить, применялся ли способ гибридного энтропийного кодирования, и определить, применялось ли кодирование в точном режиме ЕС (или в грубом режиме ЕС), как показано на фиг. 8, на этапе 805.Then, the EC mode signaling bit is read to determine whether a hybrid entropy coding method has been applied, and to determine whether EC fine mode coding (or EC coarse mode) has been applied, as shown in FIG. 8, at step 805.

Там, где бит сигнализации режима ЕС указывает, что было применено грубое уменьшение скорости, декодирование выполняют только на основе декодирования, основанного на уменьшении скорости (в некоторых вариантах осуществления изобретения реализуют разрешение квантования отношения энергии с грубым уменьшением скорости), как показано на фиг. 8 на этапе 806.Where the EC mode signaling bit indicates that a coarse rate reduction has been applied, decoding is performed based on rate reduction based decoding only (coarse rate reduction energy ratio quantization enabled in some embodiments), as shown in FIG. 8 at step 806.

Если бит сигнализации режима ЕС указывает на то, что использовалось гибридное энтропийное кодирование и кодирование с фиксированной скоростью и что требовалось точное уменьшение скорости (изменение только разрешения квантования) или уменьшение скорости не требовалось, то следующая операция - это операция считывания битов сигнализации поддиапазона для определения, какие поддиапазоны были закодированы энтропийным кодированием, а какие поддиапазоны были закодированы с фиксированной скоростью, как показано на фиг. 8 на этапе 807.If the EC mode signaling bit indicates that hybrid entropy coding and fixed rate coding were used and that exact rate reduction was required (changing only the quantization resolution) or no rate reduction was required, then the next operation is to read the subband signaling bits to determine whether which subbands were entropy encoded and which subbands were fixed rate encoded as shown in FIG. 8 at step 807.

Биты сгруппированного энтропийно-кодированного поддиапазона считывают и декодируют, генерируя индексы направления, которые могут быть преобразованы в направления на основе исходного разрешения квантования отношения энергии, как показано на фиг. 8 на этапе 809.The bits of the grouped entropy-coded subband are read and decoded to generate direction indices that can be converted to directions based on the original energy ratio quantization resolution, as shown in FIG. 8 at step 809.

Следующая операция заключается в определении того, меньше ли разность между битами, доступными для блока, и считанными битами (битами сигнализации и энтропийно-кодированными битами), чем количество битов, необходимых для кодирования оставшихся битов с фиксированной скоростью в соответствии с исходным разрешением квантования отношения энергии, как показано на фиг. 8 на этапе 811.The next operation is to determine whether the difference between the bits available for the block and the bits read (signaling bits and entropy-coded bits) is less than the number of bits needed to encode the remaining bits at a fixed rate according to the original energy ratio quantization resolution. , as shown in FIG. 8 at step 811.

Если разность меньше требуемого количества битов, то декодирование может быть выполнено при кодировании с «точным» уменьшением скорости на основе способа измененного разрешения квантования, как показано на фиг. 8 на этапе 813.If the difference is less than the required number of bits, then decoding can be performed in "fine" rate reduction coding based on the modified quantization resolution method as shown in FIG. 8 at step 813.

Если разность не меньше (или равна) требуемому количеству битов, то декодирование может быть выполнено на основе кодирования, основанного на исходном способе разрешения квантования, как показано на фиг. 8 на этапе 812.If the difference is not less than (or equal to) the required number of bits, then decoding can be performed based on coding based on the original quantization resolution method, as shown in FIG. 8 at step 812.

На фиг. 9 показан пример электронного устройства, которое можно использовать в качестве устройства для анализа или синтеза. Устройство может быть любым подходящим электронным устройством или оборудованием. Например, в некоторых вариантах осуществления изобретения устройство 1400 представляет собой мобильное устройство, пользовательское оборудование, планшетный компьютер, компьютер, устройство воспроизведения звука и т.д.In FIG. 9 shows an example of an electronic device that can be used as an analysis or synthesis device. The device may be any suitable electronic device or equipment. For example, in some embodiments, device 1400 is a mobile device, user equipment, tablet computer, computer, audio device, and so on.

В некоторых вариантах осуществления изобретения устройство 1400 содержит по меньшей мере один процессор или центральный процессор 1407. Процессор 1407 может быть сконфигурирован для выполнения различных программных кодов, например, способов, описанных в данном документе.In some embodiments, the device 1400 includes at least one processor or central processing unit 1407. The processor 1407 may be configured to execute various program codes, such as the methods described herein.

В некоторых вариантах осуществления изобретения устройство 1400 содержит память 1411. В некоторых вариантах осуществления изобретения по меньшей мере один процессор 1407 соединен с памятью 1411. Память 1411 может быть любым подходящим средством хранения. В некоторых вариантах осуществления изобретения память 1411 содержит секцию программного кода для хранения программных кодов, реализуемых процессором 1407. Кроме того, в некоторых вариантах осуществления изобретения память 1411 может также содержать секцию хранимых данных для хранения данных, например данных, которые были обработаны или должны быть обработаны в соответствии с вариантами осуществления изобретения, как описано здесь. Реализованный программный код, хранящийся в секции программного кода, и данные, хранящиеся в секции сохраненных данных, могут быть извлечены процессором 1407 всякий раз, когда это необходимо, через соединение память-процессор.In some embodiments, device 1400 includes memory 1411. In some embodiments, at least one processor 1407 is coupled to memory 1411. Memory 1411 may be any suitable storage medium. In some embodiments, memory 1411 includes a program code section for storing program codes implemented by processor 1407. In addition, in some embodiments, memory 1411 may also include a stored data section for storing data, such as data that has been processed or is about to be processed. in accordance with embodiments of the invention as described here. The implemented program code stored in the program code section and the data stored in the stored data section can be retrieved by the processor 1407 whenever necessary via a memory-to-processor connection.

В некоторых вариантах осуществления изобретения устройство 1400 содержит пользовательский интерфейс 1405. В некоторых вариантах осуществления изобретения пользовательский интерфейс 1405 может быть связан с процессором 1407. В некоторых вариантах осуществления изобретения процессор 1407 может управлять работой пользовательского интерфейса 1405 и принимать входные данные от пользовательского интерфейса 1405. В некоторых вариантах осуществления изобретения пользовательский интерфейс 1405 может позволять пользователю вводить команды в устройство 1400, например, с помощью клавиатуры. В некоторых вариантах осуществления изобретения пользовательский интерфейс 1405 может позволить пользователю получать информацию от устройства 1400. Например, пользовательский интерфейс 1405 может содержать дисплей, сконфигурированный для отображения информации от устройства 1400 пользователю. Пользовательский интерфейс 1405 может в некоторых вариантах осуществления изобретения содержать сенсорный экран или сенсорный интерфейс, способный как обеспечивать возможность ввода информации в устройство 1400, так и отображать информацию для пользователя устройства 1400. В некоторых вариантах осуществления изобретения пользовательский интерфейс 1405 может быть пользовательским интерфейсом для связи с модулем определения положения, как описано здесь.In some embodiments, the device 1400 includes a user interface 1405. In some embodiments, the user interface 1405 may be coupled to a processor 1407. In some embodiments, the processor 1407 may control the operation of the user interface 1405 and receive input from the user interface 1405. In In some embodiments, the user interface 1405 may allow a user to enter commands into the device 1400, such as using a keyboard. In some embodiments, the user interface 1405 may allow a user to receive information from the device 1400. For example, the user interface 1405 may include a display configured to display information from the device 1400 to the user. User interface 1405 may, in some embodiments, comprise a touch screen or touch interface capable of both allowing information to be entered into device 1400 and displaying information to a user of device 1400. In some embodiments, user interface 1405 may be a user interface for communicating with positioning module as described here.

В некоторых вариантах осуществления изобретения устройство 1400 содержит порт 1409 ввода/вывода. Порт 1409 ввода/вывода в некоторых вариантах осуществления изобретения содержит приемопередатчик. Приемопередатчик в таких вариантах осуществления изобретения может быть соединен с процессором 1407 и сконфигурирован для обеспечения связи с другим устройством или электронными устройствами, например, через сеть беспроводной связи. Приемопередатчик или любой подходящий приемопередатчик или передатчик и/или средство приема в некоторых вариантах осуществления изобретения могут быть сконфигурированы для связи с другими электронными устройствами или оборудованием через проводное соединение или проводную связь.In some embodiments of the invention, the device 1400 contains an input/output port 1409. Port 1409 input/output in some embodiments of the invention contains a transceiver. The transceiver in such embodiments may be coupled to the processor 1407 and configured to communicate with another device or electronic devices, such as through a wireless communication network. The transceiver or any suitable transceiver or transmitter and/or receiving means, in some embodiments of the invention, may be configured to communicate with other electronic devices or equipment via a wired connection or wired connection.

Приемопередатчик может обмениваться данными с другими устройствами по любому подходящему известному протоколу связи. Например, в некоторых вариантах осуществления изобретения приемопередатчик может использовать подходящий протокол универсальной системы мобильной связи (UMTS, universal mobile telecommunications system), протокол беспроводной локальной сети (WLAN, wireless local area network), такой как, например, IEEE 802.X, подходящий протокол радиочастотной связи ближнего действия, такой как Bluetooth, или инфракрасный канал передачи данных (IRDA, infrared data communication pathway).The transceiver may communicate with other devices over any suitable known communication protocol. For example, in some embodiments, the transceiver may use a suitable universal mobile telecommunications system (UMTS) protocol, a wireless local area network (WLAN) protocol such as, for example, IEEE 802.X, a suitable short-range radio frequency communication, such as Bluetooth, or infrared data communication channel (IRDA, infrared data communication pathway).

Порт 1409 ввода/вывода приемопередатчика может быть сконфигурирован для приема сигналов и, в некоторых вариантах осуществления изобретения, для определения параметров, как описано здесь, с использованием процессора 1407, исполняющего подходящий код.Port 1409 input/output of the transceiver can be configured to receive signals and, in some embodiments of the invention, to determine the parameters, as described here, using the processor 1407, executing the appropriate code.

В общем, различные варианты осуществления изобретения могут быть реализованы в аппаратном обеспечении или схемах специального назначения, программном обеспечении, логических схемах или любой их комбинации. Например, некоторые аспекты могут быть реализованы в аппаратном обеспечении, в то время как другие аспекты могут быть реализованы во встроенном программном обеспечении или программном обеспечении, которое может выполняться контроллером, микропроцессором или другим вычислительным устройством, хотя изобретение этим не ограничивается. Хотя различные аспекты изобретения могут быть проиллюстрированы и описаны в виде структурных схем, блок-схем или с использованием какого-либо другого графического представления, понятно, что эти блоки, устройства, системы, приемы или способы, описанные в настоящем документе, могут быть реализованы, в качестве неограничивающих примеров, в аппаратном обеспечении, в программном обеспечении, во встроенном программном обеспечении, в схемах специального назначения или логических схемах, в аппаратном обеспечении общего назначения или контроллере или других вычислительных устройствах, или их комбинации.In general, various embodiments of the invention may be implemented in special purpose hardware or circuits, software, logic circuits, or any combination thereof. For example, some aspects may be implemented in hardware, while other aspects may be implemented in firmware or software that may be executed by a controller, microprocessor, or other computing device, although the invention is not limited to this. While various aspects of the invention may be illustrated and described in the form of block diagrams, block diagrams, or using some other graphical representation, it is understood that the blocks, devices, systems, techniques, or methods described herein may be implemented, as non-limiting examples, in hardware, software, firmware, special purpose circuits or logic circuits, general purpose hardware or controller or other computing devices, or combinations thereof.

Варианты осуществления настоящего изобретения могут быть реализованы компьютерным программным обеспечением, исполняемым процессором данных мобильного устройства, таким как процессор, или аппаратным обеспечением, или комбинацией программного и аппаратного обеспечения. Далее в этом отношении следует отметить, что любые блоки логического потока, как показано на чертежах, могут представлять собой шаги программы, или взаимосвязанные логические схемы, блоки и функции, или комбинацию шагов программы и логических схем, блоков и функций. Программное обеспечение может храниться на таких физических носителях, как микросхемы памяти или блоки памяти, встроенные в процессор, на магнитных носителях, таких как жесткий диск или дискеты, и на оптических носителях, таких как, например, DVD и его варианты, CD.Embodiments of the present invention may be implemented by computer software executable by a mobile device data processor, such as a processor, or by hardware, or a combination of software and hardware. Further in this regard, it should be noted that any logic flow blocks, as shown in the drawings, may represent program steps, or interrelated logic circuits, blocks and functions, or a combination of program steps and logic circuits, blocks and functions. The software may be stored on physical media such as memory chips or memory blocks built into a processor, on magnetic media such as a hard disk drive or floppy disks, and on optical media such as, for example, DVDs and CDs.

Память может быть любого типа, подходящего для местной технической среды, и может быть реализована с использованием любой подходящей технологии хранения данных, например, посредством устройств памяти на основе полупроводников, устройств и систем магнитной памяти, устройств и систем оптической памяти, стационарной памяти и съемной памяти. Процессоры данных могут быть любого типа, подходящего для местной технической среды, и могут включать один или более компьютеров общего назначения, компьютеров специального назначения, микропроцессоров, цифровых сигнальных процессоров (DSP, digital signal processor), специализированных интегральных схем (ASIC, application specific integrated circuit), схем уровня вентиля и процессоров, основанных на архитектуре многоядерных процессоров, в качестве неограничивающих примеров.The memory may be of any type suitable for the local technical environment and may be implemented using any suitable storage technology, for example, through semiconductor-based memory devices, magnetic memory devices and systems, optical memory devices and systems, fixed memory and removable memory. . Data processors may be of any type suitable for the local technical environment and may include one or more general purpose computers, special purpose computers, microprocessors, digital signal processors (DSPs, digital signal processors), application specific integrated circuits (ASICs). ), gate-level circuits, and processors based on multi-core processor architectures, as non-limiting examples.

Варианты осуществления изобретения могут быть реализованы в различных компонентах, таких как модули интегральных схем. Проектирование интегральных схем в целом представляет собой высокоавтоматизированный процесс. Доступны сложные и мощные программные инструменты для преобразования схемы логического уровня в разводку полупроводниковой схемы, готовую для травления и формирования на полупроводниковой подложке.Embodiments of the invention may be implemented in various components such as integrated circuit modules. The design of integrated circuits in general is a highly automated process. Sophisticated and powerful software tools are available to convert a logic level circuit into a semiconductor circuit layout ready to be etched and formed on a semiconductor substrate.

Программы, например, предоставленные компаниями Synopsys, Inc. из Маунтин-Вью, Калифорния, и Cadence Design, из Сан-Хосе, Калифорния, автоматически прокладывают проводники и размещают компоненты на полупроводниковом кристалле, используя общепринятые правила проектирования, а также библиотеки заранее сохраненных модулей проектирования. Как только разработка полупроводниковой схемы завершена, результирующая конструкция в стандартизированном электронном формате (например, Opus, GDSII и т.п.) может быть передана на предприятие по производству полупроводников или «фабрику» для изготовления.Programs such as those provided by Synopsys, Inc. of Mountain View, Calif., and Cadence Design of San Jose, Calif., automatically route conductors and place components on a semiconductor chip using commonly accepted design rules as well as libraries of pre-stored design modules. Once the design of a semiconductor circuit is complete, the resulting design in a standardized electronic format (eg Opus, GDSII, etc.) can be submitted to a semiconductor manufacturing facility or "factory" for fabrication.

Выше посредством иллюстративных и неограничивающих примеров было представлено полное описание иллюстративного варианта осуществления настоящего изобретения. Однако специалистам в соответствующих областях техники могут быть очевидны различные модификации и приспособления с учетом приведенного выше описания, после его прочтения вместе с прилагаемыми чертежами и формулой изобретения. Тем не менее, все такие модификации принципов настоящего изобретения находятся в пределах объема изобретения, определенного прилагаемой формулой изобретения.Above, by means of illustrative and non-limiting examples, a complete description of an illustrative embodiment of the present invention has been presented. However, various modifications and adaptations may be apparent to those skilled in the relevant arts from the foregoing description when read in conjunction with the accompanying drawings and claims. However, all such modifications of the principles of the present invention are within the scope of the invention as defined by the appended claims.

Claims (51)

1. Устройство для кодирования параметров пространственного звука, содержащее средства, сконфигурированные для:1. A device for encoding parameters of spatial sound, containing means configured for: генерирования параметров метаданных направления пространственного звукового сигнала для частотно-временного блока;generating spatial audio direction metadata parameters for the time-frequency block; генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования;generating encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution; сравнения количества битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, с заданным количеством битов;comparing the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution with a given number of bits; вывода или сохранения кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, меньше заданного количества битов;outputting or storing encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is less than a predetermined number of bits; генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе второго разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного количества битов и разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, находится в пределах заданного порога;generating encoded spatial audio direction metadata parameters for the time-frequency block based on the second quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than a predetermined number of bits and the difference between the predetermined the number of bits and the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is within a predetermined threshold; генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного количества битов и разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного порога, при этом третье разрешение квантования определяется таким образом, что количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, всегда равно или меньше заданного количества битов.generating encoded spatial audio direction metadata parameters for the time-frequency block based on the third quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than a predetermined number of bits and the difference between the predetermined the number of bits and the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than a predetermined threshold, while the third quantization resolution is determined such that the number of bits used for the encoded spatial audio direction parameters for a time-frequency block based on the third quantization resolution, always equal to or less than the specified number of bits. 2. Устройство по п. 1, в котором средство, сконфигурированное для генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, сконфигурировано для:2. The apparatus of claim 1, wherein the means configured to generate encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution is configured to: определения первого разрешения квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса;determining a first quantization resolution to map between spatial audio direction metadata parameter values and an index value; генерирования индексов, связанных с параметрами метаданных направления пространственного звукового сигнала, на основе упомянутого отображения с использованием первого разрешения квантования;generating indices associated with spatial audio direction metadata parameters based on said mapping using a first quantization resolution; кодирования, по выбору, индексов с использованием кодирования с фиксированной скоростью или энтропийного кодирования на основе того, использует ли кодирование с фиксированной скоростью или энтропийное кодирование меньшее количество битов.encoding, optionally, the indexes using fixed rate coding or entropy coding based on whether fixed rate coding or entropy coding uses fewer bits. 3. Устройство по п. 2, в котором средство, сконфигурированное для определения первого разрешения квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса, сконфигурировано для определения первого разрешения квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса на основе значения отношения энергии, связанного с параметром метаданных направления пространственного звукового сигнала.3. The apparatus of claim 2, wherein means configured to determine a first quantization resolution for mapping between spatial audio direction metadata parameter values and an index value is configured to determine a first quantization resolution for mapping between spatial audio direction metadata parameter values and a value an index based on the energy ratio value associated with the spatial audio direction metadata parameter. 4. Устройство по любому из пп. 2, 3, в котором средство, сконфигурированное для генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе второго разрешения квантования, когда разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, находится в пределах заданного порога, сконфигурировано для:4. The device according to any one of paragraphs. 2, 3, wherein means configured to generate encoded spatial audio direction metadata parameters for the time-frequency block based on the second quantization resolution, when the difference between the specified number of bits and the number of bits used for the encoded spatial audio direction parameters for the frequency-time block time block based on the first quantization resolution, is within the specified threshold, configured to: определения второго разрешения квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса;determining a second quantization resolution to map between spatial audio direction metadata parameter values and an index value; генерирования индексов, связанных с параметрами метаданных направления пространственного звукового сигнала, на основе отображения с использованием второго разрешения квантования для параметров метаданных направления пространственного звукового сигнала, которые были закодированы с фиксированной скоростью с использованием первого разрешения квантования.generating indices associated with the spatial audio direction metadata parameters based on a mapping using the second quantization resolution for the spatial audio direction metadata parameters that have been encoded at a fixed rate using the first quantization resolution. 5. Устройство по п. 4, в котором средство также сконфигурировано для вывода или сохранения:5. The apparatus of claim 4, wherein the means is also configured to output or store: энтропийно-кодированных индексов, связанных с параметрами метаданных направления пространственного звукового сигнала, на основе отображения с использованием первого разрешения квантования для параметров метаданных направления пространственного звукового сигнала; иentropy-coded indices associated with the spatial audio direction metadata parameters based on a mapping using a first quantization resolution for the spatial audio direction metadata parameters; And кодированных с фиксированной скоростью индексов, связанных с параметрами метаданных направления пространственного звукового сигнала, на основе отображения с использованием второго разрешения квантования для параметров метаданных направления пространственного звукового сигнала.fixed rate encoded indices associated with the spatial audio direction metadata parameters based on a mapping using a second quantization resolution for the spatial audio direction metadata parameters. 6. Устройство по п. 5, в котором средство также сконфигурировано для упорядочения кодированных индексов таким образом, что энтропийно-кодированные индексы предшествуют индексам, кодированным с фиксированной скоростью.6. The apparatus of claim 5, wherein the means is also configured to order the encoded indices such that the entropy encoded indices precede the fixed rate encoded indices. 7. Устройство по любому из пп. 1-6, в котором средство также сконфигурировано для генерирования индикатора, когда используется первое или второе разрешение квантования.7. The device according to any one of paragraphs. 1-6, wherein the means is also configured to generate an indicator when the first or second quantization resolution is used. 8. Устройство по любому из пп. 1-7, в котором средство, сконфигурированное для генерирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, сконфигурировано для:8. The device according to any one of paragraphs. 1-7, wherein means configured to generate encoded spatial audio direction metadata parameters for a time-frequency block based on a third quantization resolution is configured to: определения третьего разрешения квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса на основе того, что количество битов, используемых для кодирования с фиксированной скоростью с использованием третьего разрешения квантования, всегда равно или меньше заданного количества битов;determining a third quantization resolution to map between the spatial audio direction metadata parameter values and the index value based on that the number of bits used for fixed rate coding using the third quantization resolution is always equal to or less than the specified number of bits; генерирования индексов, связанных с параметрами метаданных направления пространственного звукового сигнала, на основе отображения с использованием третьего разрешения квантования; иgenerating indices associated with spatial audio direction metadata parameters based on the mapping using the third quantization resolution; And кодирования, по выбору, индексов с использованием кодирования с фиксированной скоростью или энтропийного кодирования на основе того, использует ли кодирование с фиксированной скоростью или энтропийное кодирование меньшее количество битов.encoding, optionally, the indexes using fixed rate coding or entropy coding based on whether fixed rate coding or entropy coding uses fewer bits. 9. Устройство по п. 8, в котором средство также сконфигурировано для вывода кодированных по выбору индексов с использованием кодирования с фиксированной скоростью или энтропийного кодирования на основе того, использует ли кодирование с фиксированной скоростью или энтропийное кодирование меньшее количество битов.9. The apparatus of claim 8, wherein the means is also configured to output selectively encoded indices using fixed rate coding or entropy coding based on whether the fixed rate coding or entropy coding uses fewer bits. 10. Устройство по любому из пп. 1-9, в котором средство также сконфигурировано для генерирования индикатора, когда определено третье разрешение квантования.10. The device according to any one of paragraphs. 1-9, wherein the means is also configured to generate an indicator when the third quantization resolution is determined. 11. Устройство для декодирования параметров пространственного звука, содержащее средства, сконфигурированные для:11. An apparatus for decoding spatial audio parameters, comprising means configured to: приема кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока;receiving encoded spatial audio direction metadata parameters for the time-frequency block; приема индикатора, сконфигурированного для идентификации того, были ли закодированы кодированные параметры метаданных направления пространственного звукового сигнала на основе разрешения квантования, которое всегда равно или меньше заданного количества битов;receiving an indicator configured to identify whether encoded spatial audio direction metadata parameters have been encoded based on a quantization resolution that is always equal to or less than a predetermined number of bits; декодирования кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе разрешения квантования, которое всегда равно или меньше заданного количества битов, когда индикатор идентифицирует, что кодированные параметры метаданных направления пространственного звукового сигнала были закодированы на основе разрешения квантования, которое всегда равно или меньше заданного количества битов; и,decoding the encoded spatial audio direction metadata parameters for a time-frequency block based on a quantization resolution that is always equal to or less than a specified number of bits, when the indicator identifies that the encoded spatial audio direction metadata parameters have been encoded based on a quantization resolution that is always equal to or less than the specified number of bits; And, когда индикатор идентифицирует, что кодированные параметры метаданных направления пространственного звукового сигнала не были закодированы на основе разрешения квантования, которое всегда равно или меньше заданного количества битов, средство сконфигурировано для:when the indicator identifies that the encoded spatial audio direction metadata parameters have not been encoded based on a quantization resolution that is always equal to or less than a specified number of bits, the means is configured to: декодирования первой части кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе другого разрешения квантования, причем первая часть содержит энтропийно-кодированные параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования;decoding a first part of encoded spatial audio direction metadata parameters for the time-frequency block based on a different quantization resolution, the first part containing entropy-encoded spatial audio direction metadata parameters for the time-frequency block based on said different quantization resolution; декодирования, когда разность между заданным количеством битов и количеством битов, используемых для кодирования первой части, меньше количества битов, необходимых для кодирования второй части кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования, второй части, содержащей кодированные с фиксированной скоростью параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе уменьшенного разрешения квантования битов, в противном случае декодирования второй части, содержащей кодированные с фиксированной скоростью параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования.decoding, when the difference between the given number of bits and the number of bits used to encode the first part is less than the number of bits needed to encode the second part of the encoded parameters of the spatial audio direction metadata for the time-frequency block based on said different quantization resolution, the second part containing fixed-rate encoded spatial audio direction metadata parameters for the time-frequency block based on reduced bit quantization resolution, otherwise decoding the second part containing fixed-rate encoded spatial audio direction metadata parameters for the time-frequency block based on said other resolution quantization. 12. Устройство по п. 11, в котором средство также сконфигурировано для определения упомянутого другого разрешения квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса.12. The apparatus of claim 11, wherein the means is also configured to determine said different quantization resolution to map between the spatial audio direction metadata parameter values and the index value. 13. Устройство по п. 12, в котором средство, сконфигурированное для определения упомянутого другого разрешения квантования для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса, сконфигурировано для определения упомянутого другого разрешения квантования на основе значения отношения энергии, связанного с параметром метаданных направления пространственного звукового сигнала.13. The apparatus of claim 12, wherein the means configured to determine said different quantization resolution for mapping between spatial audio direction metadata parameter values and the index value is configured to determine said different quantization resolution based on an energy ratio value associated with the metadata parameter direction of the spatial audio signal. 14. Устройство по любому из пп. 11-13, в котором средство также сконфигурировано для определения уменьшенного разрешения квантования битов для отображения между значениями параметра метаданных направления пространственного звукового сигнала и значением индекса.14. The device according to any one of paragraphs. 11-13, wherein the means is also configured to determine a reduced bit quantization resolution to map between spatial audio direction metadata parameter values and an index value. 15. Устройство по любому из пп. 11-14, в котором средство сконфигурировано для генерирования отображения из индексов, связанных с параметрами метаданных направления пространственного звукового сигнала, в значение угловой высоты и/или значение азимута на основе разрешения квантования.15. The device according to any one of paragraphs. 11-14, wherein the means is configured to generate a mapping from indices associated with spatial audio direction metadata parameters to an angular height value and/or an azimuth value based on the quantization resolution. 16. Способ кодирования параметров пространственного звука, включающий:16. A method for encoding parameters of spatial sound, including: генерирование параметров метаданных направления пространственного звукового сигнала для частотно-временного блока;generating spatial audio direction metadata parameters for the time-frequency block; генерирование кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования;generating encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution; сравнение количества битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, с заданным количеством битов;comparing the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution with a given number of bits; вывод или сохранение кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, меньше заданного количества битов;deriving or storing encoded spatial audio direction metadata parameters for the time-frequency block based on the first quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is less than a predetermined number of bits; генерирование кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе второго разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного количества битов и разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, меньше заданного количества битов и находится в пределах заданного порога;generating encoded spatial audio direction metadata parameters for the time-frequency block based on the second quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than the specified number of bits and the difference between the specified the number of bits and the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is less than a predetermined number of bits and is within a predetermined threshold; генерирование кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, когда количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного количества битов и разность между заданным количеством битов и количеством битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе первого разрешения квантования, больше заданного порога, при этом третье разрешение квантования определяют таким образом, что количество битов, используемых для кодированных параметров направления пространственного звукового сигнала для частотно-временного блока на основе третьего разрешения квантования, всегда равно или меньше заданного количества битов.generating encoded spatial audio direction metadata parameters for the time-frequency block based on the third quantization resolution, when the number of bits used for encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than the specified number of bits and the difference between the specified the number of bits and the number of bits used for the encoded spatial audio direction parameters for the time-frequency block based on the first quantization resolution is greater than a predetermined threshold, wherein the third quantization resolution is determined such that the number of bits used for the encoded spatial audio direction parameters for a time-frequency block based on the third quantization resolution, always equal to or less than the specified number of bits. 17. Способ декодирования параметров пространственного звука, включающий:17. A method for decoding spatial audio parameters, including: прием кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока;receiving encoded spatial audio direction metadata parameters for the time-frequency block; прием индикатора, сконфигурированного для идентификации того, были ли закодированы кодированные параметры метаданных направления пространственного звукового сигнала на основе разрешения квантования, которое всегда равно или меньше заданного количества битов;receiving an indicator configured to identify whether encoded spatial audio direction metadata parameters have been encoded based on a quantization resolution that is always equal to or less than a predetermined number of bits; декодирование кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе разрешения квантования, которое всегда равно или меньше заданного количества битов, когда индикатор идентифицирует, что кодированные параметры метаданных направления пространственного звукового сигнала были закодированы на основе разрешения квантования, которое всегда равно или меньше заданного количества битов; и,decoding the encoded parameters of the spatial audio direction metadata for the time-frequency block based on the quantization resolution, which is always equal to or less than the specified number of bits, when the indicator identifies that the encoded parameters of the spatial audio direction metadata were encoded based on the quantization resolution, which is always equal to or less than the specified number of bits; And, когда индикатор идентифицирует, что кодированные параметры метаданных направления пространственного звукового сигнала не были закодированы на основе разрешения квантования, которое всегда равно или меньше заданного количества битов, способ включает:when the indicator identifies that the encoded spatial audio direction metadata parameters have not been encoded based on a quantization resolution that is always equal to or less than a predetermined number of bits, the method includes: декодирование первой части кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе другого разрешения квантования, причем первая часть содержит энтропийно-кодированные параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования;decoding a first part of encoded spatial audio direction metadata parameters for the time-frequency block based on a different quantization resolution, the first part containing entropy-encoded spatial audio direction metadata parameters for the time-frequency block based on said different quantization resolution; декодирование, когда разность между заданным количеством битов и количеством битов, используемых для кодирования первой части, меньше количества битов, необходимых для кодирования второй части кодированных параметров метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования, второй части, содержащей кодированные с фиксированной скоростью параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе уменьшенного разрешения квантования битов, в противном случае декодирование второй части, содержащей кодированные с фиксированной скоростью параметры метаданных направления пространственного звукового сигнала для частотно-временного блока на основе упомянутого другого разрешения квантования.decoding when the difference between the given number of bits and the number of bits used to encode the first part is less than the number of bits needed to encode the second part of the encoded spatial audio direction metadata parameters for the time-frequency block based on said different quantization resolution, the second part containing fixed-rate encoded spatial audio direction metadata parameters for the time-frequency block based on reduced bit quantization resolution, otherwise decoding the second part containing fixed-rate encoded spatial audio direction metadata parameters for the time-frequency block based on said other resolution quantization.
RU2022106706A 2019-09-13 2020-09-09 Determining the coding and decoding of the spatial audio parameters RU2797457C1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
GB1913274.5 2019-09-13

Publications (1)

Publication Number Publication Date
RU2797457C1 true RU2797457C1 (en) 2023-06-06

Family

ID=

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009077152A1 (en) * 2007-12-17 2009-06-25 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung_E.V. Signal pickup with a variable directivity characteristic
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
WO2019097017A1 (en) * 2017-11-17 2019-05-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009077152A1 (en) * 2007-12-17 2009-06-25 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung_E.V. Signal pickup with a variable directivity characteristic
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
WO2019097017A1 (en) * 2017-11-17 2019-05-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding directional audio coding parameters using different time/frequency resolutions

Similar Documents

Publication Publication Date Title
US11676612B2 (en) Determination of spatial audio parameter encoding and associated decoding
EP3707706B1 (en) Determination of spatial audio parameter encoding and associated decoding
JP7405962B2 (en) Spatial audio parameter encoding and related decoding decisions
EP3874492B1 (en) Determination of spatial audio parameter encoding and associated decoding
WO2020070377A1 (en) Selection of quantisation schemes for spatial audio parameter encoding
EP2353160A1 (en) An apparatus
WO2020016479A1 (en) Sparse quantization of spatial audio parameters
CN114945982A (en) Spatial audio parametric coding and associated decoding
WO2020260756A1 (en) Determination of spatial audio parameter encoding and associated decoding
US11475904B2 (en) Quantization of spatial audio parameters
RU2797457C1 (en) Determining the coding and decoding of the spatial audio parameters
WO2019243670A1 (en) Determination of spatial audio parameter encoding and associated decoding
US20240127828A1 (en) Determination of spatial audio parameter encoding and associated decoding
KR20230069173A (en) Quantizing Spatial Audio Parameters
KR20230158590A (en) Combine spatial audio streams
WO2022223133A1 (en) Spatial audio parameter encoding and associated decoding
KR20230084232A (en) Quantization of audio parameters