RU2782511C1 - Apparatus, method, and computer program for encoding, decoding, processing a scene, and for other procedures associated with dirac-based spatial audio coding using direct component compensation - Google Patents

Apparatus, method, and computer program for encoding, decoding, processing a scene, and for other procedures associated with dirac-based spatial audio coding using direct component compensation Download PDF

Info

Publication number
RU2782511C1
RU2782511C1 RU2021118698A RU2021118698A RU2782511C1 RU 2782511 C1 RU2782511 C1 RU 2782511C1 RU 2021118698 A RU2021118698 A RU 2021118698A RU 2021118698 A RU2021118698 A RU 2021118698A RU 2782511 C1 RU2782511 C1 RU 2782511C1
Authority
RU
Russia
Prior art keywords
sound field
component
energy
order
input signal
Prior art date
Application number
RU2021118698A
Other languages
Russian (ru)
Inventor
Гийом ФУКС
Оливер ТИРГАРТ
Срикантх КОРСЕ
Штефан ДЁЛА
Маркус МУЛЬТРУС
Фабиан КЮХ
Александр БУТЕОН
Андреа АЙХЕНЗЕР
Штефан БАЙЕР
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Application granted granted Critical
Publication of RU2782511C1 publication Critical patent/RU2782511C1/en

Links

Images

Abstract

FIELD: audio data processing.
SUBSTANCE: invention relates to methods and apparatus for audio encoding. The technical result is achieved by executing the following stages of the method: obtaining direction data and diffusivity data from the input signal; estimating a first energy- or amplitude-related factor for the omnidirectional component derived from the input signal, and estimating a second energy- or amplitude-related factor for the directional component derived from the input signal; and generating the acoustic field components, wherein the acoustic component generator is configured to compensate for the energy of the directional component using the first energy- or amplitude-related factor, the second energy- or amplitude-related factor, the direction data, and the diffusivity data.
EFFECT: reduced quantisation error in encoding an audio signal.
22 cl, 15 dwg

Description

Настоящее изобретение направлено на аудиокодирование и, в частности, на генерирование описания звукового поля из входного сигнала с использованием одного или более генераторов звуковых компонент.The present invention is directed to audio coding and, in particular, to generating a sound field description from an input signal using one or more audio component generators.

Методика [1] направленного аудиокодирования (DirAC) представляет собой эффективный подход к анализу и воспроизведению пространственного звука. DirAC использует перцептивно-мотивированное представление звукового поля на основе направления прихода (DOA) и диффузности, измеряемых для каждой полосы частот. Оно основано на предположении, что в один момент времени и в одном критическом диапазоне пространственное разрешение слуховой системы ограничивается декодированием одного указателя для направления и другого - для межуральной согласованности. Затем пространственный звук представляется в частотной области посредством плавного микширования двух потоков: ненаправленного диффузного потока и направленного недиффузного потока.The Directional Audio Coding (DirAC) technique [1] is an efficient approach to spatial audio analysis and reproduction. DirAC uses a perceptually motivated sound field representation based on direction of arrival (DOA) and diffuseness measured for each frequency band. It is based on the assumption that at one point in time and in one critical range the spatial resolution of the auditory system is limited by decoding one pointer for direction and another pointer for interural consistency. Spatial audio is then represented in the frequency domain by smoothly mixing two streams: a non-directional diffuse stream and a directional non-diffuse stream.

DirAC изначально предназначалось для записанного звука в B-формате, но его также можно расширить для сигналов микрофона, соответствующих некоторой конкретной схеме громкоговорителей, такой как 5.1 [2], или любой конфигурации микрофонных решеток [5]. В последнем случае можно достичь большей гибкости, записывая сигналы не для некоторой конкретной схемы громкоговорителей, а вместо этого записывая сигналы промежуточного формата.DirAC was originally intended for B-format recorded audio, but it can also be extended to microphone signals conforming to some particular speaker layout such as 5.1 [2] or any configuration of microphone arrays [5]. In the latter case, more flexibility can be achieved by not recording signals for some particular speaker circuit, but instead recording intermediate format signals.

Такой промежуточный формат, хорошо зарекомендовавший себя на практике, представлен Амбисоникой/Ambisonics (более высокого порядка) [3]. Из амбисонического сигнала можно генерировать сигналы любой желаемой схемы громкоговорителей, в том числе бинауральные сигналы для воспроизведения через наушники. Для этого требуется специальный рендерер, который применяется к амбисоническому сигналу, используя либо линейный амбисонический рендерер [3], либо параметрический рендерер, такой как направленное аудиокодирование (DirAC).Such an intermediate format, which has proven itself in practice, is represented by Ambisonics / Ambisonics (higher order) [3]. From the ambisonic signal it is possible to generate signals of any desired loudspeaker scheme, including binaural signals for playback through headphones. This requires a special renderer that is applied to the ambisonic signal using either a linear ambisonic renderer [3] or a parametric renderer such as directional audio coding (DirAC).

Амбисонический сигнал может быть представлен как многоканальный сигнал, в котором каждый канал (именуемый амбисонической компонентой) эквивалентен коэффициенту так называемой пространственной базисной функции. С помощью взвешенной суммы этих пространственных базисных функций (с весами, соответствующими коэффициентам) можно воссоздать исходное звуковое поле в месте записи [3]. Следовательно, коэффициенты пространственной базисной функции (т.е. амбисонические компоненты) представляют собой компактное описание звукового поля в месте записи. Существуют различные типы пространственных базисных функций, например сферические гармоники (SH) [3] или цилиндрические гармоники (CH) [3]. CH могут быть использованы при описании звукового поля в 2D-пространстве (например, для воспроизведения 2D-звука), тогда как SH могут быть использованы для описания звукового поля в 2D- и 3D-пространстве (например, для воспроизведения 2D- и 3D-звука).An ambisonic signal can be represented as a multi-channel signal in which each channel (referred to as the ambisonic component) is equivalent to a coefficient of the so-called spatial basis function. Using the weighted sum of these spatial basis functions (with weights corresponding to the coefficients), it is possible to recreate the original sound field at the recording location [3]. Therefore, the coefficients of the spatial basis function (ie, the ambisonic components) are a compact description of the sound field at the recording location. There are different types of spatial basis functions, such as spherical harmonics (SH) [3] or cylindrical harmonics (CH) [3]. CH can be used to describe the sound field in 2D space (for example, to reproduce 2D sound), while SH can be used to describe the sound field in 2D and 3D space (for example, to reproduce 2D and 3D sound). ).

Например, аудиосигнал

Figure 00000001
, который приходит с определенного направления
Figure 00000002
, приводит в результате к пространственному аудиосигналу
Figure 00000003
, который может быть представлен в амбисоническом формате путем расширения сферических гармоник вплоть до порядка отсечения H:For example, an audio signal
Figure 00000001
that comes from a certain direction
Figure 00000002
, results in a spatial audio signal
Figure 00000003
, which can be represented in ambisonic format by extending the spherical harmonics up to the cutoff order H :

Figure 00000004
Figure 00000004

где

Figure 00000005
представляет собой сферические гармоники порядка l и моды (mode) m, а
Figure 00000006
представляют собой коэффициенты расширения. С увеличением порядка отсечения H такое расширение приводит к более точному пространственному представлению. Сферические гармоники вплоть до порядка H=4 с индексом нумерации амбисонических каналов (ACN) проиллюстрированы на Фиг. 1a для порядка n и моды m.where
Figure 00000005
are spherical harmonics of order l and mode (mode) m , and
Figure 00000006
are the expansion coefficients. As the cutoff order H increases, this extension leads to a more accurate spatial representation. Spherical harmonics up to order H=4 with ambisonic channel numbering index (ACN) are illustrated in FIG. 1a for order n and mode m .

DirAC уже было расширено для доставки амбисонических сигналов более высокого порядка из амбисонического сигнала первого порядка (FOA, также именуемого как B-формат) или из различных микрофонных решеток [5]. Этот документ фокусируется на более эффективном способе синтеза амбисонических сигналов более высокого порядка из параметров DirAC и опорного сигнала. В этом документе опорный сигнал, также именуемый сигналом понижающего микширования, считается подмножеством амбисонического сигнала более высокого порядка или линейной комбинацией подмножества амбисонических компонент.DirAC has already been extended to deliver higher order ambisonic signals from a first order ambisonic signal (FOA, also referred to as B-format) or from various microphone arrays [5]. This paper focuses on a more efficient way to synthesize higher order ambisonic signals from DirAC parameters and a reference signal. In this document, a reference signal, also referred to as a downmix signal, is considered to be a subset of a higher order ambisonic signal, or a linear combination of a subset of the ambisonic components.

Кроме того, в настоящем изобретении рассматривается случай, в котором DirAC используется для передачи в параметрической форме аудиосцены. В этом случае сигнал понижающего микширования кодируется обычным базовым аудиокодером, в то время как параметры DirAC передаются в сжатом виде как вспомогательная информация. Преимущество настоящего способа состоит в учете ошибки квантования, возникающей при аудиокодировании.In addition, the present invention considers a case in which DirAC is used to parametrically transmit an audio scene. In this case, the downmix signal is encoded with a conventional basic audio encoder while the DirAC parameters are transmitted in compressed form as ancillary information. The advantage of the present method is that it takes into account the quantization error that occurs during audio coding.

Далее представлен обзор системы пространственного аудиокодирования на основе DirAC, разработанной для иммерсивных голосовых и аудиосервисов (IVAS). Это представляет один из различных контекстов, например обзор системы пространственного аудиокодера DirAC. Задача такой системы заключается в том, чтобы иметь возможность обрабатывать различные пространственные аудиоформаты, представляющие аудиосцену, и кодировать их с низкими битрейтами, а также воспроизводить исходную аудиосцену после передачи настолько верно, насколько это возможно.The following is an overview of a DirAC-based spatial audio coding system developed for immersive voice and audio services (IVAS). This represents one of various contexts, such as an overview of the DirAC spatial audio encoder system. The goal of such a system is to be able to process various spatial audio formats representing an audio scene and encode them at low bit rates, and to reproduce the original audio scene after transmission as faithfully as possible.

Система может принимать в качестве входных данных различные представления аудиосцен. Входная аудиосцена может быть захвачена многоканальными сигналами, предназначенными для воспроизведения в различных положениях громкоговорителей, слышимыми объектами вместе с метаданными, описывающими положения этих объектов с течением времени, или амбисоническим форматом первого порядка или более высокого порядка, представляющим звуковое поле в положении слушателя или опорном положении.The system can take various representations of audio scenes as input. The input audio scene may be captured by multi-channel signals designed to be reproduced at various speaker positions, by audible objects along with metadata describing the positions of those objects over time, or by a first order or higher order ambisonic format representing the sound field at the listening position or reference position.

Предпочтительно данная система основана на расширенных голосовых сервисах (EVS) 3GPP, поскольку ожидается, что такое решение будет работать с малой задержкой для обеспечения возможности разговорных сервисов в сетях мобильной связи.Preferably, this system is based on 3GPP Enhanced Voice Services (EVS), as such a solution is expected to operate with low latency to enable conversational services in mobile communication networks.

Как показано на Фиг. 1b, кодер (кодер IVAS) может поддерживать различные аудиоформаты, передаваемые в систему по отдельности или в одно и то же время. Аудиосигналы могут быть акустическими по своей природе, воспринимаемыми микрофонами, или электрическими по своей природе, которые подлежат передачи на громкоговорители. Поддерживаемые аудиоформаты могут быть многоканальным сигналом, амбисоническими компонентами первого порядка и более высокого порядка, а также аудиообъектами. Сложная аудиосцена также может быть описана посредством объединения различных входных форматов. Затем все аудиоформаты передаются в анализатор DirAC, который извлекает параметрическое представление всей аудиосцены. Направление прихода и диффузность, измеряемые для каждой частотно-временной единицы, формируют параметры. За анализатором DirAC следует кодер пространственных метаданных, который квантует и кодирует параметры DirAC для получения параметрического представления низкого битрейта.As shown in FIG. 1b, an encoder (IVAS encoder) may support various audio formats transmitted to the system separately or at the same time. Audio signals may be acoustic in nature, picked up by microphones, or electrical in nature, to be transmitted to loudspeakers. Supported audio formats can be multi-channel signal, first order and higher order ambisonic components, and audio objects. A complex audio scene can also be described by combining different input formats. All audio formats are then passed to the DirAC parser, which extracts a parametric representation of the entire audio scene. The direction of arrival and the diffuseness measured for each time-frequency unit form the parameters. The DirAC parser is followed by a spatial metadata encoder that quantizes and encodes the DirAC parameters to obtain a low bit rate parametric representation.

Наряду с этими параметрами сигнал понижающего микширования, выводимый из различных источников или входных аудиосигналов, кодируется для передачи с помощью обычного базового аудиокодера. В этом случае основанный на EVS аудиокодер применяется для кодирования сигнала понижающего микширования. Сигнал понижающего микширования состоит из разных каналов, именуемых транспортными каналами: сигнал может представлять собой, например, четыре сигнала коэффициентов, составляющие сигнал B-формата, стереопару или монофоническое понижающее микширование в зависимости от целевого битрейта. Кодированные пространственные параметры и кодированный битовый аудиопоток мультиплексируются перед передачей по каналу связи.Along with these parameters, the downmix signal output from various audio sources or input signals is encoded for transmission using a conventional basic audio encoder. In this case, an EVS-based audio encoder is applied to encode the downmix signal. The downmix signal consists of different channels, called transport channels: the signal can be, for example, four coefficient signals constituting a B-format signal, a stereo pair, or a mono downmix, depending on the target bitrate. The encoded spatial parameters and the encoded audio bitstream are multiplexed before transmission over the communication channel.

Сторона кодера пространственного аудиокодирования на основе DirAC, поддерживающего различные аудиоформаты, проиллюстрирована на Фиг. 1b. Акустический/электрический ввод (входные данные) 1000 вводится в интерфейс 1010 кодера, причем интерфейс кодера обладает определенной функциональностью для амбисоники первого порядка (FOA) или амбисоники высокого порядка (HOA), проиллюстрированной в 1013. Кроме того, интерфейс кодера обладает функциональностью для многоканальных (MC) данных, таких как стереоданные, данные 5.1 или данные, имеющие более двух или пяти каналов. Кроме того, интерфейс 1010 кодера обладает функциональностью для кодирования объектов, как, например, SAOC (пространственное кодирование аудиообъектов), проиллюстрированное 1011. Кодер IVAS содержит каскад 1020 DirAC с блоком 1021 анализа DirAC и блоком 1022 понижающего микширования (DMX). Сигнал, выводимый блоком 1022, кодируется базовым кодером 1040 IVAS, таким как кодер AAC или EVS, а метаданные, сгенерированные блоком 1021, кодируются с использованием кодера 1030 метаданных DirAC.A DirAC-based spatial audio encoder side supporting various audio formats is illustrated in FIG. 1b. Acoustic/electrical input (input data) 1000 is input to the encoder interface 1010, where the encoder interface has specific functionality for the first order ambisonic (FOA) or high order ambisonic (HOA) illustrated at 1013. In addition, the encoder interface has functionality for multichannel ( MC) data such as stereo data, 5.1 data, or data having more than two or five channels. In addition, the encoder interface 1010 has functionality for object encoding, such as SAOC (Spatial Audio Object Coding) illustrated 1011. The IVAS encoder comprises a DirAC stage 1020 with a DirAC analysis unit 1021 and a downmix (DMX) unit 1022. The signal output by block 1022 is encoded by an IVAS core encoder 1040, such as an AAC or EVS encoder, and the metadata generated by block 1021 is encoded using a DirAC metadata encoder 1030.

В декодере, показанном на Фиг. 2, транспортные каналы декодируются базовым декодером, тогда как метаданные DirAC сначала декодируются перед их передачей с декодированными транспортными каналами в блок синтеза DirAC. На данной стадии могут быть рассмотрены различные варианты. Может потребоваться воспроизвести определенную аудиосцену непосредственно на конфигурациях каких-либо громкоговорителей или наушников, как это обычно возможно в традиционной системе DirAC (MC на Фиг. 2).In the decoder shown in FIG. 2, the transport channels are decoded by the core decoder, while the DirAC metadata is first decoded before being transmitted with the decoded transport channels to the DirAC synthesis block. At this stage, various options may be considered. It may be desirable to play a certain audio scene directly on some speaker or headphone configurations, as is usually possible in a traditional DirAC system (MC in Fig. 2).

Декодер также может доставлять отдельные объекты в том виде, в котором они были представлены на стороне кодера (Объекты на Фиг. 2).The decoder may also deliver individual objects as they were presented at the encoder side (Objects in FIG. 2).

В качестве альтернативы, также может потребоваться выполнить рендеринг сцены в амбисонический формат для других дальнейших манипуляций, таких как вращение, отражение или движение сцены (FOA/HOA на Фиг. 2) или для использования внешнего рендерера, не определенного в исходной системе.Alternatively, it may also be necessary to render the scene to ambisonic format for other further manipulations such as rotating, flipping or moving the scene (FOA/HOA in Fig. 2) or to use an external renderer not defined in the source system.

Декодер пространственного аудиокодирования DirAC, доставляющий различные аудиоформаты, проиллюстрирован на Фиг. 2 и содержит декодер 1045 IVAS и подключенный далее интерфейс 1046 декодера. Декодер 1045 IVAS содержит базовый декодер 1060 IVAS, который сконфигурирован для того, чтобы выполнять операцию декодирования содержимого, закодированного базовым кодером 1040 IVAS с Фиг. 1b. Кроме того, предоставляется декодер 1050 метаданных DirAC, который обеспечивает функциональность декодирования для декодирования содержимого, закодированного кодером 1030 метаданных DirAC. Блок 1070 синтеза принимает данные из блока 1050 и 1060 и с помощью некоторой пользовательской интерактивности или без нее, вывод (выходные данные) вводится в интерфейс 1046 декодера, который генерирует данные FOA/HOA, как проиллюстрировано в 1083, многоканальные данные (данные MC), как проиллюстрировано в блоке 1082, или данные объектов, как проиллюстрировано в блоке 1081.A DirAC spatial audio coding decoder delivering various audio formats is illustrated in FIG. 2 and contains an IVAS decoder 1045 and a further connected decoder interface 1046. The IVAS decoder 1045 includes a base IVAS decoder 1060 that is configured to perform an operation of decoding the content encoded by the base IVAS encoder 1040 of FIG. 1b. In addition, a DirAC metadata decoder 1050 is provided that provides decoding functionality for decoding content encoded by the DirAC metadata encoder 1030. Synthesizer 1070 receives data from block 1050 and 1060 and with or without some user interactivity, output (output data) is input to decoder interface 1046 which generates FOA/HOA data, as illustrated in 1083, multi-channel data (MC data), as illustrated at block 1082, or object data, as illustrated at block 1081.

Традиционный синтез HOA с использованием парадигмы DirAC изображен на Фиг. 3. Входной сигнал, именуемый сигналом понижающего микширования, является частотно-временной единицей, анализируемой блоком частотных фильтров. Блок 2000 частотных фильтров может быть блоком комплекснозначных фильтров, таким как комплекснозначный QMF, или блочным преобразованием типа STFT. Синтез HOA генерирует на выходе амбисонический сигнал порядка H, содержащий

Figure 00000007
компонент. Опционально он также может выводить амбисонический сигнал, рендеринг которого выполняется с конкретной схемой громкоговорителей. Далее мы подробно рассмотрим, как получить
Figure 00000007
компонент из сигнала понижающего микширования, сопровождаемого в некоторых случаях входными пространственными параметрами.Conventional HOA synthesis using the DirAC paradigm is depicted in FIG. 3. An input signal, referred to as a downmix signal, is a time-frequency unit analyzed by a frequency filter bank. The frequency filter bank 2000 may be a complex valued filter bank such as a complex QMF, or a block transform such as an STFT. Synthesizing HOA generates an output ambisonic signal of the order H containing
Figure 00000007
component. Optionally, it can also output an ambisonic signal, which is rendered with a particular loudspeaker layout. Next, we'll take a closer look at how to get
Figure 00000007
component from the downmix signal, followed in some cases by input spatial parameters.

Сигнал понижающего микширования может представлять собой исходные микрофонные сигналы или смесь исходных сигналов, представляющих исходную аудиосцену. Например, если аудиосцена захватывается микрофоном звукового поля, сигнал понижающего микширования может представлять собой всенаправленную компоненту сцены (W), стереофоническое понижающее микширование (L/R) или амбисонический сигнал первого порядка (FOA).The downmix signal may be the original microphone signals or a mixture of the original signals representing the original audio scene. For example, if an audio scene is captured by a sound field microphone, the downmix signal can be an omnidirectional stage component (W), a stereo downmix (L/R), or a first order ambisonic signal (FOA).

Для каждого частотно-временного фрагмента, направление звука, также именуемое направлением прихода (DOA), и коэффициент диффузности оцениваются, соответственно, блоком 2020 оценки направления и блоком 2010 оценки диффузности, если сигнал понижающего микширования содержит достаточную информацию для определения таких параметров DirAC. Это так, например, если сигналом понижающего микширования является амбисонический сигнал первого порядка (FOA). В качестве альтернативы или если сигнала понижающего микширования недостаточно для определения таких параметров, параметры могут быть переданы непосредственно в синтез DirAC через входной битовый поток, содержащий эти пространственные параметры. Битовый поток может состоять, например, из квантованных и закодированных параметров, принимаемых в качестве вспомогательной информации в случае приложений передачи аудиоданных. В этом случае параметры выводятся вне модуля синтеза DirAC из исходных микрофонных сигналов или входных аудиоформатов, передаваемых модулю анализа DirAC на стороне кодера, как проиллюстрировано переключателем 2030 или 2040.For each time-frequency slice, the direction of sound, also referred to as the direction of arrival (DOA), and the diffuseness coefficient are estimated by the direction estimator 2020 and diffuseness estimator 2010, respectively, if the downmix signal contains sufficient information to determine such DirAC parameters. This is the case, for example, if the downmix signal is a first order ambisonic (FOA) signal. Alternatively, or if the downmix signal is not sufficient to determine such parameters, the parameters may be passed directly to the DirAC synthesis via an input bitstream containing these spatial parameters. The bitstream may consist, for example, of quantized and encoded parameters taken as ancillary information in the case of audio data transmission applications. In this case, the parameters are derived outside the DirAC synthesis module from the original microphone signals or input audio formats passed to the encoder side DirAC analysis module, as illustrated by switch 2030 or 2040.

Направления звука используются блоком 2050 оценки направленных усилений для оценки, для каждого частотно-временного фрагмента из множества частотно-временных фрагментов, одного или более наборов из

Figure 00000007
направленных усилений
Figure 00000008
, где H представляет порядок синтезируемого амбисонического сигнала.The sound directions are used by the directional gain estimator 2050 to estimate, for each time-frequency tile from a plurality of time-frequency tiles, one or more sets of
Figure 00000007
directional gains
Figure 00000008
, where H represents the order of the synthesized ambisonic signal.

Направленные усиления могут быть получены посредством оценки пространственной базисной функции для каждого оцениваемого направления звука с желаемым порядком (уровнем) l и модой m амбисонического сигнала для синтеза. Направление звука может быть выражено, например, через вектор

Figure 00000009
единичной нормы или через азимутальный угол
Figure 00000010
и/или угол
Figure 00000011
возвышения, которые связаны, например, как:Directional gains can be obtained by evaluating the spatial basis function for each estimated sound direction with the desired order (level) l and mode m of the ambisonic signal for synthesis. The direction of the sound can be expressed, for example, in terms of the vector
Figure 00000009
unit norm or through the azimuth angle
Figure 00000010
and/or angle
Figure 00000011
elevations that are related, for example, as:

Figure 00000012
Figure 00000012

После оценки или получения направления звука ответ пространственной базисной функции желаемого порядка (уровня) l и моды m может быть определен, например, посредством рассмотрения действительнозначных сферических гармоник с SN3D нормализацией в качестве пространственной базисной функции:After estimating or obtaining the sound direction, the response of the spatial basis function of the desired order (level) l and mode m can be determined, for example, by considering real-valued spherical harmonics with SN3D normalization as the spatial basis function:

Figure 00000013
Figure 00000013

с диапазонами 0≤l≤H и −l≤m≤l.

Figure 00000014
представляют собой функции Лежандра, а
Figure 00000015
представляет собой член нормализации как для функций Лежандра, так и для тригонометрических функций, который принимает следующую форму для SN3D:with ranges 0≤l≤H and −l≤m≤l .
Figure 00000014
are the Legendre functions, and
Figure 00000015
is a normalization term for both Legendre and trigonometric functions, which takes the following form for SN3D:

Figure 00000016
Figure 00000016

где дельта Кронекера

Figure 00000017
равна единице для m=0 и нулю в ином случае. Затем направленные усиления выводятся непосредственно для каждого частотно-временного фрагмента с индексами (k, n) как:where is the Kronecker delta
Figure 00000017
equals one for m=0 and zero otherwise. The directional gains are then derived directly for each time-frequency slice with indices (k, n) as:

Figure 00000018
Figure 00000018

Амбисонические компоненты

Figure 00000019
прямого звука вычисляются путем выведения опорного сигнала
Figure 00000020
из сигнала понижающего микширования и умножаются на направленные усиления и коэффициентную функцию диффузности
Figure 00000021
:Ambisonic components
Figure 00000019
direct sound are calculated by deriving the reference signal
Figure 00000020
from the downmix signal and multiplied by the directional gains and diffuseness coefficient function
Figure 00000021
:

Figure 00000022
Figure 00000022

Например, опорный сигнал

Figure 00000020
может быть всенаправленной компонентой сигнала понижающего микширования или линейной комбинацией K каналов сигнала понижающего микширования.For example, the reference signal
Figure 00000020
may be an omnidirectional component of the downmix signal or a linear combination of the K channels of the downmix signal.

Амбисоническая компонента диффузного звука может быть смоделирована посредством использования ответа пространственной базисной функции для звуков, приходящих со всех возможных направлений. Одним из примеров является определение среднего ответа

Figure 00000023
посредством рассмотрения интеграла квадрата абсолютной величины пространственной базисной функции
Figure 00000024
по всем возможным углам
Figure 00000025
и
Figure 00000026
:The ambisonic component of a diffuse sound can be modeled by using the spatial basis function response for sounds coming from all possible directions. One example is the definition of the mean response
Figure 00000023
by considering the integral of the square of the absolute value of the spatial basis function
Figure 00000024
in all possible angles
Figure 00000025
and
Figure 00000026
:

Figure 00000027
Figure 00000027

Амбисонические компоненты

Figure 00000028
диффузного звука вычисляются из сигнала
Figure 00000029
умноженного на средний ответ и коэффициентную функцию диффузности
Figure 00000021
:Ambisonic components
Figure 00000028
diffuse sound calculated from signal
Figure 00000029
multiplied by the mean response and diffuseness coefficient function
Figure 00000021
:

Figure 00000030
Figure 00000030

Сигнал

Figure 00000031
может быть получен с помощью различных декорреляторов, применяемых к опорному сигналу
Figure 00000020
.Signal
Figure 00000031
can be obtained with various decorrelators applied to the reference signal
Figure 00000020
.

Наконец, амбисоническая компонента прямого звука и амбисоническая компонента диффузного звука объединяются 2060, например, посредством операции суммирования, чтобы получить окончательную амбисоническую компоненту

Figure 00000032
желаемого порядка (уровня) l и моды m для частотно-временного фрагмента (k, n), т.е.Finally, the ambisonic component of the direct sound and the ambisonic component of the diffuse sound are combined 2060, for example, through a summation operation, to obtain the final ambisonic component
Figure 00000032
desired order (level) l and mode m for the time-frequency fragment (k, n) , i.e.

Figure 00000033
Figure 00000033

Полученные амбисонические компоненты могут быть преобразованы обратно во временную область с использованием блока 2080 обратных фильтров или обратного STFT, сохранены, переданы или использованы, например, для приложений пространственного воспроизведения звука. В качестве альтернативы, линейный амбисонический рендерер 2070 может быть применен для каждой полосы частот для получения сигналов, которые подлежат воспроизведению с конкретной схемой громкоговорителей или через наушники, перед преобразованием сигналов громкоговорителей или бинауральных сигналов во временную область.The resulting ambisonic components can be converted back to the time domain using the inverse filter block 2080 or inverse STFT, stored, transmitted, or used, for example, for spatial audio applications. Alternatively, a linear ambisonic renderer 2070 may be applied per frequency band to obtain signals to be reproduced with a particular speaker circuit or via headphones before converting the speaker or binaural signals to the time domain.

Следует отметить, что [5] также указывает на возможность того, что компоненты

Figure 00000034
диффузного звука могут быть синтезированы только вплоть до порядка L, где L<H. Это снижает вычислительную сложность, одновременно с этим избегая синтетических артефактов из-за интенсивного использования декорреляторов.It should be noted that [5] also indicates the possibility that the components
Figure 00000034
diffuse sound can only be synthesized up to the order of L , where L<H . This reduces computational complexity while avoiding synthetic artifacts due to heavy use of decorrelators.

Целью настоящего изобретения является предоставление улучшенной схемы генерирования описания звукового поля из входного сигнала.The purpose of the present invention is to provide an improved circuit for generating a sound field description from an input signal.

Эта цель достигается устройством для генерирования описания звукового поля по пункту 1, способом для генерирования описания звукового поля по пункту 20 или компьютерной программой по пункту 21.This object is achieved by the device for generating a sound field description of item 1, the method for generating a sound field description of item 20, or the computer program of item 21.

Настоящее изобретение в соответствии с первым аспектом основано на обнаружении того, что нет необходимости выполнять синтез компонент звукового поля, в том числе вычисление диффузной части, для всех генерируемых компонент. Достаточно выполнить синтез диффузных компонент только до определенного порядка. Тем не менее, чтобы не было флуктуаций энергии или ошибок энергии, компенсация энергии выполняется при генерировании компонент звукового поля первой группы компонент звукового поля, которые имеют диффузную и прямую компоненту, при этом такая компенсация энергии зависит от данных о диффузности и по меньшей мере одного из числа компонент звукового поля во второй группе, максимального порядка компонент звукового поля первой группы и максимального порядка компонент звукового поля второй группы. В частности, в соответствии с первым аспектом настоящего изобретения устройство для генерирования описания звукового поля из входного сигнала, содержащего один или более каналов, содержит анализатор входного сигнала для получения данных о диффузности из входного сигнала и генератор звуковых компонент для генерирования из входного сигнала одной или более компонент звукового поля первой группы компонент звукового поля, имеющих для каждой компоненты звукового поля прямую компоненту и диффузную компоненту, и для генерирования из входного сигнала второй группы компонент звукового поля, имеющих только прямую компоненту. В частности, генератор звуковых компонент выполняет компенсацию энергии при генерировании первой группы компонент звукового поля, причем компенсация энергии зависит от данных о диффузности и по меньшей мере одного из числа компонент звукового поля во второй группе, числа диффузных компонент в первой группе, максимального порядка компонент звукового поля первой группы и максимального порядка компонент звукового поля второй группы.The present invention according to the first aspect is based on the discovery that it is not necessary to perform the synthesis of the sound field components, including the calculation of the diffuse part, for all generated components. It is sufficient to perform the synthesis of diffuse components only up to a certain order. However, in order to avoid energy fluctuations or energy errors, energy compensation is performed by generating the sound field components of the first group of sound field components that have a diffuse and a direct component, such energy compensation being dependent on the diffuseness data and at least one of the number of sound field components in the second group, the maximum order of the first group sound field components, and the maximum order of the second group sound field components. In particular, according to the first aspect of the present invention, an apparatus for generating a sound field description from an input signal containing one or more channels comprises an input signal analyzer for obtaining diffuseness data from the input signal and an audio component generator for generating one or more audio components from the input signal. a sound field component of a first group of sound field components having a direct component and a diffuse component for each sound field component, and for generating from the input signal a second group of sound field components having only a direct component. In particular, the sound component generator performs energy compensation when generating the first group of sound field components, wherein the energy compensation depends on the diffuseness data and at least one of the number of sound field components in the second group, the number of diffuse components in the first group, the maximum order of the sound field components. fields of the first group and the maximum order of the sound field components of the second group.

Первая группа компонент звукового поля может содержать компоненты звукового поля низкого порядка и компоненты звукового поля среднего порядка, а вторая группа содержит компоненты звукового поля высокого порядка.The first group of sound field components may contain low order sound field components and medium order sound field components, and the second group contains high order sound field components.

Устройство для генерирования описания звукового поля из входного сигнала, содержащего по меньшей мере два канала, в соответствии со вторым аспектом изобретения, содержит анализатор входного сигнала для получения данных о направлении и данных о диффузности из входного сигнала. Устройство, кроме того, содержит блок оценки для оценки первого связанного с энергией или амплитудой показателя для всенаправленной компоненты, выведенной из входного сигнала, и для оценки второго связанного с энергией или амплитудой показателя для направленной компоненты, выведенной из входного сигнала. Кроме того, устройство содержит генератор звуковых компонент для генерирования компонент звукового поля для звукового поля, причем генератор звуковых компонент выполнен с возможностью выполнения компенсации энергии направленной компоненты с использованием первого связанного с энергией или амплитудой показателя, второго связанного с энергией или амплитудой показателя, данных о направлении и данных о диффузности.An apparatus for generating a sound field description from an input signal containing at least two channels, according to the second aspect of the invention, comprises an input signal analyzer for obtaining direction data and diffuseness data from the input signal. The apparatus further comprises an estimator for estimating a first energy or amplitude related metric for the omnidirectional component derived from the input signal and for estimating a second energy or amplitude related metric for the directional component derived from the input signal. In addition, the apparatus comprises an audio component generator for generating sound field components for the sound field, the audio component generator being configured to perform directional component energy compensation using a first energy or amplitude related metric, a second energy or amplitude related metric, direction data. and diffuseness data.

В частности, второй аспект настоящего изобретения основан на обнаружении того факта, что в ситуации, когда направленная компонента принимается устройством для генерирования описания звукового поля и в то же время также принимаются данные о направлении и данные о диффузности, данные о направлении и диффузности могут быть использованы для компенсации любых ошибок, вероятно, внесенных из-за квантования или любой другой обработки направленной или всенаправленной компоненты в кодере. Таким образом, данные о направлении и диффузности применяются не просто с целью генерирования описания звукового поля как таковые, но эти данные используются «второй раз» для корректировки направленной компоненты для того, чтобы устранить или по меньшей мере частично устранить и, следовательно, скомпенсировать потерю энергии направленной компоненты.In particular, the second aspect of the present invention is based on the discovery of the fact that in a situation where a directional component is received by a device for generating a sound field description and at the same time direction data and diffuseness data are also received, the direction and diffuseness data can be used to compensate for any errors likely introduced due to quantization or any other processing of the directional or omnidirectional component in the encoder. Thus, the direction and diffuseness data are not simply used to generate the description of the sound field as such, but these data are used "second time" to correct the directional component in order to eliminate or at least partially eliminate and therefore compensate for energy loss. directed component.

Предпочтительно, эта компенсация энергии выполняется для компонент низкого порядка, которые принимаются в интерфейсе декодера или которые генерируются из данных, принимаемых от аудиокодера, генерирующего входной сигнал.Preferably, this energy compensation is performed on low order components that are received at the interface of the decoder or that are generated from data received from the audio encoder generating the input signal.

В соответствии с третьим аспектом настоящего изобретения устройство для генерирования описания звукового поля с использованием входного сигнала, содержащего моносигнал или многоканальный сигнал, содержит анализатор входного сигнала, генератор низких аудиокомпонент, генератор компонент среднего порядка и генератор компонент высокого порядка. В частности, разные «суб»-генераторы выполнены с возможностью генерирования компонент звукового поля в соответствующем порядке на основе конкретной процедуры обработки, которая отличается для каждого из генератора компонент низкого, среднего или высокого порядка. Это гарантирует, что поддерживается оптимальный компромисс между требованиями к обработке, с одной стороны, требованиями к качеству аудио, с другой стороны, и практичностью процедур, с еще одной другой стороны. Посредством этой процедуры использование декорреляторов, например, ограничивается только генерированием компонент среднего порядка, но для генерирования компонент низкого порядка и генерирования компонент высокого порядка избегают любых декорреляторов, склонных к артефактам. С другой стороны, компенсация энергии предпочтительно выполняется для потери энергии диффузных компонент, и эта компенсация энергии выполняется только в пределах компонент звукового поля низкого порядка или только в пределах компонент звукового поля среднего порядка, или как в компонентах звукового поля низкого порядка, так и в компонентах звукового поля среднего порядка. Предпочтительно, чтобы компенсация энергии для направленной компоненты, формируемой в генераторе компонент низкого порядка, также выполнялась с использованием передаваемых данных направленной диффузности.According to a third aspect of the present invention, an apparatus for generating a sound field description using an input signal comprising a mono signal or a multi-channel signal comprises an input signal analyzer, a low audio component generator, a medium order component generator, and a high order component generator. In particular, the different "sub" generators are configured to generate the sound field components in an appropriate order based on a specific processing procedure that is different for each of the low, medium, or high order component generators. This ensures that an optimal compromise is maintained between processing requirements on the one hand, audio quality requirements on the other hand, and procedural usability on the other hand. Through this procedure, the use of decorrelators, for example, is limited to only generating medium-order components, but for generating low-order components and generating high-order components, any artifact-prone decorrelators are avoided. On the other hand, energy compensation is preferably performed for the energy loss of the diffuse components, and this energy compensation is performed only within the low order sound field components, or only within the medium order sound field components, or both in the low order sound field components and in the sound field of medium order. Preferably, the energy compensation for the directional component generated in the low order component generator is also performed using the transmitted directional diffuseness data.

Предпочтительные варианты осуществления относятся к устройству, способу или компьютерной программе для синтеза амбисонического сигнала (более высокого порядка) с использованием парадигмы направленного аудиокодирования (DirAC), перцептивно-мотивированной методики для пространственной аудиообработки.Preferred embodiments relate to an apparatus, method or computer program for synthesizing an ambisonic signal (higher order) using the Directional Audio Coding (DirAC) paradigm, a perceptually motivated technique for spatial audio processing.

Варианты осуществления относятся к эффективному способу для синтезирования амбисонического представления аудиосцены из пространственных параметров и сигнала понижающего микширования. При применении способа, но не ограничиваясь этим, аудиосцена передается и, следовательно, кодируется для уменьшения объема передаваемых данных. Сигнал понижающего микширования после этого сильно ограничен в числе каналов и качестве битрейтом, который доступен для передачи. Варианты осуществления относятся к эффективному способу использования информации, содержащейся в передаваемом сигнале понижающего микширования, для уменьшения сложности синтезирования при одновременном повышении качества.Embodiments refer to an efficient method for synthesizing an ambisonic representation of an audio scene from spatial parameters and a downmix signal. Using the method, but not limited to, the audio scene is transmitted and therefore encoded to reduce the amount of data transmitted. The downmix signal is then severely limited in the number of channels and quality by the bit rate that is available for transmission. The embodiments relate to an efficient way of using the information contained in the transmitted downmix signal to reduce synthesis complexity while improving quality.

Другой вариант осуществления изобретения касается диффузной компоненты звукового поля, которая может быть ограничена только моделированием вплоть до предопределенного порядка синтезируемых компонент, чтобы избежать артефактов синтезирования. Вариант осуществления обеспечивает способ компенсации результирующей потери энергии путем усиления сигнала понижающего микширования.Another embodiment of the invention relates to the diffuse component of the sound field, which can be limited to simulation only up to a predetermined order of synthesized components to avoid synthesizing artifacts. An embodiment provides a method for compensating for the resulting energy loss by amplifying the downmix signal.

Другой вариант осуществления касается направленной компоненты звукового поля, характеристики которой могут быть изменены в пределах сигнала понижающего микширования. Сигнал понижающего микширования может быть дополнительно нормализован по энергии, чтобы сохранить соотношение энергии, продиктованное переданным параметром направления, но нарушенное во время передачи из-за квантования или других введенных ошибок.Another embodiment concerns a directional sound field component whose characteristics can be changed within the downmix signal. The downmix signal may be further normalized in energy to keep the energy relationship dictated by the transmitted direction parameter but corrupted during transmission due to quantization or other introduced errors.

Далее предпочтительные варианты осуществления настоящего изобретения описаны со ссылкой на прилагаемые чертежи, на которых:Further preferred embodiments of the present invention are described with reference to the accompanying drawings, in which:

Фиг. 1a иллюстрирует сферические гармоники с нумерацией амбисонических каналов/компонент;Fig. 1a illustrates spherical harmonics with ambisonic channel/component numbering;

Фиг. 1b иллюстрирует сторону кодера процессора пространственного аудиокодирования на основе DirAC;Fig. 1b illustrates the encoder side of a DirAC-based spatial audio coding processor;

Фиг. 2 иллюстрирует декодер процессора пространственного аудиокодирования на основе DirAC;Fig. 2 illustrates a DirAC-based spatial audio coding processor decoder;

Фиг. 3 иллюстрирует процессор синтеза амбисоники высокого порядка, известный из уровня техники;Fig. 3 illustrates a high order ambisonic synthesis processor known in the art;

Фиг. 4 иллюстрирует предпочтительный вариант осуществления настоящего изобретения с применением первого аспекта, второго аспекта и третьего аспекта;Fig. 4 illustrates a preferred embodiment of the present invention using the first aspect, the second aspect and the third aspect;

Фиг. 5 иллюстрирует общую схему обработки для компенсации энергии;Fig. 5 illustrates a general processing scheme for energy compensation;

Фиг. 6 иллюстрирует устройство для генерирования описания звукового поля в соответствии с первым аспектом настоящего изобретения;Fig. 6 illustrates an apparatus for generating a sound field description in accordance with the first aspect of the present invention;

Фиг. 7 иллюстрирует устройство для генерирования описания звукового поля в соответствии со вторым аспектом настоящего изобретения;Fig. 7 illustrates an apparatus for generating a sound field description in accordance with a second aspect of the present invention;

Фиг. 8 иллюстрирует устройство для генерирования описания звукового поля в соответствии с третьим аспектом настоящего изобретения;Fig. 8 illustrates an apparatus for generating a sound field description in accordance with a third aspect of the present invention;

Фиг. 9 иллюстрирует предпочтительную реализацию генератора компонент низкого порядка с Фиг. 8;Fig. 9 illustrates a preferred implementation of the low order component generator of FIG. eight;

Фиг. 10 иллюстрирует предпочтительную реализацию генератора компонент среднего порядка с Фиг. 8;Fig. 10 illustrates a preferred implementation of the mean order component generator of FIG. eight;

Фиг. 11 иллюстрирует предпочтительную реализацию генератора компонент высокого порядка с Фиг. 8;Fig. 11 illustrates a preferred implementation of the high-order component generator of FIG. eight;

Фиг. 12а иллюстрирует предпочтительную реализацию вычисления компенсационного усиления в соответствии с первым аспектом;Fig. 12a illustrates a preferred implementation of the compensation gain calculation according to the first aspect;

Фиг. 12b иллюстрирует реализацию вычисления компенсационного усиления в соответствии со вторым аспектом; иFig. 12b illustrates an implementation of the compensation gain calculation according to the second aspect; and

Фиг. 12c иллюстрирует предпочтительную реализацию компенсации энергии, объединяющую первый аспект и второй аспект.Fig. 12c illustrates a preferred implementation of energy compensation combining the first aspect and the second aspect.

Фиг. 6 иллюстрирует устройство для генерирования описания звукового поля в соответствии с первым аспектом изобретения. Устройство содержит анализатор 600 входного сигнала для получения данных о диффузности из входного сигнала, проиллюстрированного слева на Фиг. 6. Кроме того, устройство содержит генератор 650 звуковых компонент для генерирования из входного сигнала одной или более компонент звукового поля первой группы компонент звукового поля, имеющих для каждой компоненты звукового поля прямую компоненту и диффузную компоненту. Кроме того, генератор звуковых компонент генерирует из входного сигнала вторую группу компонент звукового поля, имеющую только прямую компоненту.Fig. 6 illustrates an apparatus for generating a sound field description in accordance with the first aspect of the invention. The device includes an input signal analyzer 600 for obtaining diffuseness data from the input signal illustrated on the left side of FIG. 6. In addition, the apparatus includes a sound component generator 650 for generating from an input signal one or more sound field components of a first group of sound field components having a direct component and a diffuse component for each sound field component. In addition, the audio component generator generates from the input signal a second group of sound field components having only a direct component.

В частности, генератор 650 звуковых компонент выполнен с возможностью выполнять компенсацию энергии при генерировании первой группы компонент звукового поля. Компенсация энергии зависит от данных о диффузности и числа компонент звукового поля во второй группе или от максимального порядка компонент звукового поля первой группы или максимального порядка компонент звукового поля второй группы. В частности, в соответствии с первым аспектом изобретения, компенсация энергии выполняется для компенсации потери энергии из-за того, что для второй группы компонент звукового поля генерируются только прямые компоненты, а какие-либо диффузные компоненты не генерируются.In particular, the sound component generator 650 is configured to perform energy compensation when generating the first group of sound field components. The energy compensation depends on the diffuseness data and the number of sound field components in the second group, or on the maximum order of the first group sound field components or the maximum order of the second group sound field components. In particular, according to the first aspect of the invention, energy compensation is performed to compensate for energy loss due to the fact that only direct components are generated for the second group of sound field components and no diffuse components are generated.

В противоположность этому, в первой группе компонент звукового поля прямая и диффузная части включаются в компоненты звукового поля. Таким образом, генератор 650 звуковых компонент генерирует, как проиллюстрировано верхней решеткой, компоненты звукового поля, которые имеют только прямую часть, а не диффузную часть, как проиллюстрировано, на других фигурах, посредством ссылочной позиции 830, и генератор звуковых компонент генерирует компоненты звукового поля, которые имеют прямую часть и диффузную часть, как проиллюстрировано ссылочными позициями 810, 820, которые поясняются ниже со ссылкой на другие фигуры.In contrast, in the first group of sound field components, the direct and diffuse parts are included in the sound field components. Thus, the sound component generator 650 generates, as illustrated by the upper grating, sound field components that have only a direct part and not a diffuse part, as illustrated in other figures, by reference 830, and the sound component generator generates sound field components, which have a straight part and a diffuse part, as illustrated by numerals 810, 820, which are explained below with reference to other figures.

Фиг. 7 иллюстрирует устройство для генерирования описания звукового поля из входного сигнала, содержащего по меньшей мере два канала, в соответствии со вторым аспектом изобретения. Устройство содержит анализатор 600 входного сигнала для получения данных о направлении и данных о диффузности из входного сигнала. Кроме того, обеспечен блок 720 оценки для оценки первого связанного с энергией или амплитудой показателя для всенаправленной компоненты, выведенной из входного сигнала, и для оценки второго связанного с энергией или амплитудой показателя для направленной компоненты, выведенной из входного сигнала.Fig. 7 illustrates an apparatus for generating a sound field description from an input signal containing at least two channels, in accordance with a second aspect of the invention. The apparatus includes an input signal analyzer 600 for obtaining direction data and diffuseness data from an input signal. In addition, an estimator 720 is provided for estimating a first energy or amplitude related metric for the omnidirectional component derived from the input signal and for estimating a second energy or amplitude related metric for the directional component derived from the input signal.

Кроме того, устройство для генерирования описания звукового поля содержит генератор 750 звуковых компонент для генерирования компонент звукового поля для звукового поля, причем генератор 750 звуковых компонент выполнен с возможностью выполнения компенсации энергии направленной компоненты с использованием первого связанного с амплитудой показателя, второго связанного с энергией или амплитудой показателя, данных о направлении и данных о диффузности. Таким образом, генератор звуковых компонент генерирует, в соответствии со вторым аспектом настоящего изобретения, скорректированные/скомпенсированные направленные (прямые) компоненты и, если реализуются соответствующим образом, другие компоненты того же порядка, что и входной сигнал, такие как всенаправленные компоненты, которые предпочтительно не подвергаются компенсации энергии или подвергаются компенсации энергии только с целью компенсации диффузной энергии, как обсуждается в контексте Фиг. 6. Следует отметить, что связанный с амплитудой показатель также может быть нормой или величиной или абсолютным значением направленной или всенаправленной компоненты, такой как B0 и B1. Предпочтительно мощность или энергия, выводимая с помощью степени 2, является предпочтительной, как указано в уравнении, но другие мощности, применяемые к норме или величине или абсолютному значению, также могут быть использованы для получения связанного с энергией или амплитудой показателя.Further, the sound field description generating apparatus comprises a sound component generator 750 for generating sound field components for the sound field, wherein the sound component generator 750 is configured to perform directional component energy compensation using a first amplitude related metric, a second energy or amplitude related metric. indicator, direction data, and diffuseness data. Thus, the audio component generator generates, in accordance with the second aspect of the present invention, corrected/compensated directional (direct) components and, if appropriately implemented, other components of the same order as the input signal, such as omnidirectional components, which are preferably not undergo energy compensation or undergo energy compensation only for the purpose of compensating for diffuse energy, as discussed in the context of FIG. 6. It should be noted that the amplitude-related index can also be the norm or magnitude or absolute value of a directional or omnidirectional component such as B 0 and B 1 . Preferably, the power or energy output by a power of 2 is preferred as indicated in the equation, but other powers applied to a rate or magnitude or absolute value can also be used to obtain an energy or amplitude related metric.

В реализации устройство для генерирования описания звукового поля в соответствии со вторым аспектом выполняет компенсацию энергии направленной компоненты сигнала, включенной во входной сигнал, содержащий по меньшей мере два канала, так что направленная компонента включается во входной сигнал или может быть вычислена из входного сигнала, например, путем вычисления разности между двумя каналами. Это устройство может выполнять лишь корректировку без генерирования каких-либо данных более высокого порядка или подобного. Однако в других вариантах осуществления генератор звуковых компонент выполнен с возможностью также генерировать другие компоненты звукового поля из других порядков, как проиллюстрировано ссылочными позициями 820, 830, описанными ниже, но для этих (имеющих более высокий порядок) звуковых компонент, для которых в сигнал не было включено каких-либо дополняющих частей, компенсация энергии направленной компоненты не является обязательной к выполнению.In an implementation, an apparatus for generating a sound field description according to the second aspect performs energy compensation of a directional component of a signal included in an input signal comprising at least two channels, such that the directional component is included in the input signal or can be calculated from the input signal, for example, by calculating the difference between the two channels. This device can only perform correction without generating any higher order data or the like. However, in other embodiments, the audio component generator is configured to also generate other sound field components from other orders, as illustrated at 820, 830, described below, but for these (higher order) audio components for which there was no If any add-on parts are included, directional component energy compensation is optional.

Фиг. 8 иллюстрирует предпочтительную реализацию устройства для генерирования описания звукового поля с использованием входного сигнала, содержащего моносигнал или многоканальный сигнал, в соответствии с третьим аспектом настоящего изобретения. Устройство содержит анализатор 600 входного сигнала для анализа входного сигнала для выведения данных о направлении и данных о диффузности. Кроме того, устройство содержит генератор 810 компонент низкого порядка для генерирования описания звукового поля низкого порядка из входного сигнала вплоть до предопределенного порядка и предопределенной моды, при этом генератор 810 компонент низкого порядка выполнен с возможностью выведения описания звукового поля низкого порядка посредством копирования или взятия входного сигнала или части входного сигнала как есть или посредством выполнения взвешенной комбинации каналов входного сигнала, когда входной сигнал является многоканальным сигналом. Кроме того, устройство содержит генератор 820 компонент среднего порядка для генерирования описания звукового поля среднего порядка выше упомянутого предопределенного порядка или с упомянутым предопределенным порядком и выше предопределенной моды и ниже или с первым порядком отсечения, используя синтез по меньшей мере одной прямой части и по меньшей мере одной диффузной части, с использованием данных о направлении и данных о диффузности, так что описание звукового поля среднего порядка содержит прямой вклад и диффузный вклад.Fig. 8 illustrates a preferred implementation of an apparatus for generating a sound field description using an input signal containing a mono signal or a multi-channel signal, in accordance with a third aspect of the present invention. The apparatus includes an input signal analyzer 600 for analyzing the input signal to derive direction data and diffuseness data. In addition, the apparatus includes a low order component generator 810 for generating a low order sound field description from an input signal up to a predetermined order and a predetermined mode, wherein the low order component generator 810 is configured to derive a low order sound field description by copying or taking the input signal. or part of the input signal as is, or by performing a weighted combination of channels of the input signal when the input signal is a multi-channel signal. In addition, the apparatus comprises a mean order component generator 820 for generating a mean order sound field description above said predetermined order or with said predetermined order and above a predetermined mode and below or with a first cutoff order using synthesis of at least one direct part and at least one diffuse part, using direction data and diffuseness data, so that the average order sound field description contains a direct contribution and a diffuse contribution.

Устройство для генерирования описания звукового поля дополнительно содержит генератор 830 компонент высокого порядка для генерирования описания звукового поля высокого порядка, имеющего компоненту выше упомянутого первого порядка отсечения, используя синтез по меньшей мере одной прямой части, при этом описание звукового поля высокого порядка содержит только прямой вклад. Таким образом, в варианте осуществления синтез по меньшей мере одной прямой части выполняется без синтезирования каких-либо диффузных компонент, так что описание звукового поля высокого порядка содержит только прямой вклад.The device for generating a sound field description further comprises a high order component generator 830 for generating a high order sound field description having a component of the above mentioned first cutoff order using synthesis of at least one direct part, wherein the high order sound field description contains only a direct contribution. Thus, in an embodiment, the synthesis of at least one direct part is performed without synthesizing any diffuse components, so that the high-order sound field description contains only the direct contribution.

Таким образом, генератор 810 компонент низкого порядка генерирует описание звукового поля низкого порядка, генератор 820 компонент среднего порядка генерирует описание звукового поля среднего порядка, а генератор компонент высокого порядка генерирует описание звукового поля высокого порядка. Описание звукового поля низкого порядка расширяется вплоть до определенного порядка и моды, как, например, в контексте амбисонических сферических компонент высокого порядка, как проиллюстрировано на Фиг. 1. Однако любое другое описание звукового поля, например описание звукового поля с цилиндрическими функциями или описание звукового поля с любыми другими компонентами, отличными от какого-либо амбисонического представления, также может быть сгенерировано в соответствии с первым, вторым и/или третьим аспектом настоящего изобретения.Thus, low order component generator 810 generates a low order sound field description, medium order component generator 820 generates a medium order sound field description, and high order component generator generates a high order sound field description. The description of the low order sound field is extended up to a specific order and mode, such as in the context of high order ambisonic spherical components, as illustrated in FIG. 1. However, any other sound field description, such as a sound field description with cylindrical features or a sound field description with any other components other than any ambisonic representation, can also be generated in accordance with the first, second and/or third aspect of the present invention. .

Генератор 820 компонент среднего порядка генерирует компоненты звукового поля выше упомянутого предопределенного порядка или моды и вплоть до определенного порядка отсечения, который также обозначается как L в нижеследующем описании. Наконец, генератор 830 компонент высокого порядка выполнен с возможностью применения генерирования компонент звукового поля от порядка L отсечения вплоть до максимального порядка, обозначаемого как H в нижеследующем описании.The mean order component generator 820 generates sound field components above the aforementioned predetermined order or mode and up to a certain cutoff order, which is also referred to as L in the following description. Finally, the high order component generator 830 is configured to apply generation of sound field components from the cutoff order L up to the maximum order, referred to as H in the following description.

В зависимости от реализации, компенсация энергии, обеспечиваемая генератором 650 звуковых компонент с Фиг. 6, не может быть применена в генераторе 810 компонент низкого порядка или генераторе 820 компонент среднего порядка, как проиллюстрировано соответствующими ссылочными позициями на Фиг. 6, для компоненты прямого/диффузного звука. Кроме того, вторая группа компонент звукового поля, генерируемых компонентой звукового поля, генерируемых генератором 650 компонент звукового поля, соответствует выводу генератора 830 компонент высокого порядка с Фиг. 8, проиллюстрированному ссылочным номером 830 под надписью прямой/не диффузный на Фиг. 6.Depending on the implementation, the energy compensation provided by the audio component generator 650 of FIG. 6 cannot be applied to a low order component generator 810 or a medium order component generator 820 as illustrated by the respective reference numerals in FIG. 6, for the direct/diffuse sound component. In addition, the second group of sound field components generated by the sound field component generated by the sound field component generator 650 corresponds to the output of the high-order component generator 830 of FIG. 8 illustrated at 830 under direct/non-diffuse in FIG. 6.

Со ссылкой на Фиг. 7, показано, что компенсация энергии направленной компоненты предпочтительно выполняется в генераторе 810 компонент низкого порядка, проиллюстрированном на Фиг. 8, т.е. выполняется для некоторых или всех компонент звукового поля вплоть до предопределенного порядка и предопределенной моды, как проиллюстрировано ссылочной позицией 810 над верхней стрелкой, выходящей из блока 750. Генерирование компонент среднего порядка и компонент высокого порядка проиллюстрировано относительно верхней заштрихованной стрелки, выходящей из блока 750 на Фиг. 7, как проиллюстрировано ссылочными позициями 820, 830, указанными под этой верхней стрелкой. Таким образом, генератор 810 компонент низкого порядка с Фиг. 8 может применять компенсацию диффузной энергии в соответствии с первым аспектом и компенсацию направленного (прямого) сигнала в соответствии со вторым аспектом, тогда как генератор 820 компонент среднего порядка может выполнять только компенсацию диффузных компонент, поскольку этот генератор компонент среднего порядка генерирует выходные данные, имеющие диффузные части, которые могут быть улучшены относительно своей энергии, чтобы иметь более высокий бюджет энергии диффузных компонент в выходном сигнале.With reference to FIG. 7, it is shown that the directional component energy compensation is preferably performed in the low order component generator 810 illustrated in FIG. 8, i.e. is performed for some or all of the sound field components up to a predetermined order and a predetermined mode, as illustrated at 810 above the top arrow exiting block 750. . 7 as illustrated by reference numerals 820, 830 indicated below this upper arrow. Thus, the low order component generator 810 of FIG. 8 can apply diffuse energy compensation according to the first aspect and directional (direct) signal compensation according to the second aspect, while the mean order component generator 820 can only perform diffuse component compensation because this mean order component generator generates output data having diffuse parts that can be improved in terms of their energy to have a higher energy budget for the diffuse components in the output signal.

Далее приводится ссылка на Фиг. 4, иллюстрирующую реализацию первого аспекта, второго аспекта и третьего аспекта настоящего изобретения в одном устройстве для генерирования описания звукового поля.The following is a reference to FIG. 4 illustrating the implementation of the first aspect, the second aspect and the third aspect of the present invention in one apparatus for generating a sound field description.

Фиг. 4 иллюстрирует входной анализатор 600. Входной анализатор 600 содержит блок 610 оценки направления, блок 620 оценки диффузности и переключатели 630, 640. Анализатор 600 входного сигнала выполнен с возможностью анализа входного сигнала, обычно следующего за блоком 400 фильтров анализа, чтобы искать для каждого фрагмента время/частота информацию о направлении, указываемую как DOA, и/или информацию о диффузности. Информация о направлении, DOA, и/или информация о диффузности также может происходить из битового потока. Таким образом, в ситуациях, когда эти данные не могут быть извлечены из входного сигнала, т.е. когда входной сигнал имеет только всенаправленную компоненту W, тогда анализатор входного сигнала извлекает данные о направлении и/или данные о диффузности из битового потока. Когда, например, входной сигнал является двухканальным сигналом, имеющим левый канал L и правый канал R, тогда может быть выполнен анализ, чтобы получить данные о направлении и/или диффузности. Когда входным сигналом является амбисонический сигнал первого порядка (FOA) или любой другой сигнал с более чем двумя каналами, такой как сигнал A-формата или сигнал B-формата, тогда может быть выполнен фактический анализ сигнала, выполняемый блоком 610 или 620. Однако, когда битовый поток анализируется для извлечения из битового потока данных о направлении и/или данных о диффузности, это также представляет собой анализ, выполняемый анализатором 600 входного сигнала, но без фактического анализа сигнала, как в другом случае. В последнем случае анализ выполняется над битовым потоком, а входной сигнал состоит как из сигнала понижающего микширования, так и из данных битового потока.Fig. 4 illustrates an input analyzer 600. The input analyzer 600 includes a direction estimator 610, a diffuseness estimator 620, and switches 630, 640. The input signal analyzer 600 is configured to analyze the input signal, typically following the analysis filter bank 400, to look for time for each fragment. /frequency direction information, referred to as DOA, and/or diffuseness information. Direction information, DOA, and/or diffuseness information may also originate from the bitstream. Thus, in situations where this data cannot be extracted from the input signal, i.e. when the input signal has only an omnidirectional W component, then the input signal analyzer extracts direction data and/or diffuseness data from the bitstream. When, for example, the input signal is a two-channel signal having a left channel L and a right channel R, then analysis can be performed to obtain direction and/or diffuseness data. When the input signal is a first order ambisonic (FOA) signal or any other signal with more than two channels, such as an A-format signal or a B-format signal, then the actual signal analysis performed by block 610 or 620 can be performed. However, when the bitstream is parsed to extract direction data and/or diffuseness data from the bitstream, this is also the analysis performed by the input signal analyzer 600, but without actually analyzing the signal as otherwise. In the latter case, the analysis is performed on the bitstream and the input signal consists of both the downmix signal and the bitstream data.

Кроме того, устройство для генерирования описания звукового поля, проиллюстрированное на Фиг. 4, содержит блок 410 вычисления направленных усилений, разделитель 420, объединитель 430, декодер 440 и блок 450 синтезирующих фильтров. Блок 450 синтезирующих фильтров принимает данные для амбисонического представления высокого порядка или сигнала, который подлежит воспроизведению наушниками, т.е. бинаурального сигнала, или сигнала, который подлежит воспроизведению громкоговорителями, расположенными в определенной конфигурации громкоговорителей, представляющей многоканальный сигнал, адаптированный под эту конкретную конфигурацию громкоговорителей, из описания звукового поля, которое обычно не зависит от конкретной конфигурации громкоговорителей.In addition, the device for generating the sound field description illustrated in FIG. 4 includes a directional gain calculator 410, a splitter 420, a combiner 430, a decoder 440, and a synthesis filter bank 450. Synthesizing filter bank 450 receives data for a high-order ambisonic representation or signal to be reproduced by headphones, i.e. a binaural signal, or a signal to be reproduced by loudspeakers located in a specific loudspeaker configuration representing a multi-channel signal adapted to that particular loudspeaker configuration, from a sound field description that is usually independent of the specific loudspeaker configuration.

Кроме того, устройство для генерирования описания звукового поля содержит генератор звуковых компонент, обычно состоящий из генератора 810 компонент низкого порядка, содержащего блок «генерирование компонент низкого порядка» и блок «микширование компонент низкого порядка». Кроме того, обеспечен генератор 820 компонент среднего порядка, состоящий из блока 821 генерируемого опорного сигнала, декорреляторов 823, 824 и блока 825 микширования компонент среднего порядка. И генератор 830 компонент высокого порядка также обеспечен и представлен на Фиг. 4, содержащий блок 822 микширования компонент высокого порядка. Кроме того, обеспечен блок вычисления (диффузных) компенсационных усилений, проиллюстрированный ссылочными позициями 910, 920, 930, 940. Ссылочные позиции с 910 по 940 дополнительно поясняются со ссылкой на Фиг. с 12a по 12c.In addition, the device for generating the sound field description includes an audio component generator, typically consisting of a low order component generator 810, comprising a "low order component generation" block and a "low order component mixing" block. In addition, a medium order component generator 820 is provided, consisting of a generated reference signal block 821, decorrelators 823, 824, and a medium order component mixing block 825. And a high-order component generator 830 is also provided and represented in FIG. 4 containing a high order mixing unit 822. In addition, a (diffuse) compensation gain calculation block is provided, illustrated by numerals 910, 920, 930, 940. Reference numerals 910 to 940 are further explained with reference to FIG. from 12a to 12c.

Хотя это не проиллюстрировано на Фиг. 4, по меньшей мере компенсация энергии диффузного сигнала выполняется не только в генераторе звуковых компонент для низкого порядка, что явно проиллюстрировано на Фиг. 4, но эта компенсация энергии также может быть выполнена в микшере 825 компонент среднего порядка.Although not illustrated in FIG. 4, at least the diffuse signal energy compensation is performed not only in the low order audio component generator, which is clearly illustrated in FIG. 4, but this energy compensation can also be performed in the middle order component mixer 825.

Кроме того, Фиг. 4 иллюстрирует ситуацию, когда вся обработка выполняется для отдельных фрагментов время/частота, генерируемых блоком 400 фильтров анализа. Таким образом, определенное значение DOA, определенное значение диффузности и определенная обработка для применения этих значений, а также для применения различных компенсаций обеспечивается для каждого фрагмента время/частота. Кроме того, компоненты звукового поля также генерируются/синтезируются для отдельных фрагментов времени/частоты, и объединение, выполняемое объединителем 430, также происходит в области времени/частоты для каждого отдельного фрагмента времени/частоты, и, дополнительно, процедура декодера 440 HOA выполняется в области времени/частоты, и блок 450 синтезирующих фильтров затем генерирует сигналы временной области для полной полосы частот с компонентами HOA полного диапазона частот, с бинауральными сигналами полного диапазона частот для наушников или с сигналами громкоговорителей полного диапазона частот для громкоговорителей определенной конфигурации громкоговорителей.In addition, FIG. 4 illustrates the situation where all processing is performed on the individual time/frequency slices generated by the analysis filter bank 400. Thus, a certain DOA value, a certain diffuseness value, and a certain processing for applying these values, as well as for applying different compensations, is provided for each time/frequency tile. In addition, the sound field components are also generated/synthesized for the individual time/frequency chunks, and the combining performed by the combiner 430 also occurs in the time/frequency domain for each individual time/frequency chunk, and additionally, the procedure of the HOA decoder 440 is performed in the domain time/frequency, and synthesis filter bank 450 then generates full band time domain signals with full range HOA components, full range binaural headphone signals, or full range speaker signals for specific speaker configurations.

В вариантах осуществления настоящего изобретения используются два основных принципа:Embodiments of the present invention use two basic principles:

Амбисонические компоненты

Figure 00000034
диффузного звука могут быть синтезированы с ограничением только для компонент низкого порядка синтезируемого амбисонического сигнала вплоть до порядка L<H. Ambisonic components
Figure 00000034
diffuse sound can be synthesized with a limitation only for the low-order components of the synthesized ambisonic signal up to the order of L<H .

Из сигнала понижающего микширования обычно могут быть извлечены K амбисонических компонент низкого порядка, для которых полный синтез не требуется.From the downmix signal, K low-order ambisonic components can usually be extracted, for which full synthesis is not required.

В случае монофонического понижающего микширования, понижающее микширование обычно представляет собой всенаправленную компоненту W амбисонического сигнала.In the case of a mono downmix, the downmix is typically the omnidirectional W component of the ambisonic signal.

В случае стереофонического понижающего микширования левый (L) и правый (R) каналы могут быть легко преобразованы в амбисонические компоненты W и Y.In the case of stereo downmixing, the left (L) and right (R) channels can easily be converted to ambisonic W and Y components.

Figure 00000035
Figure 00000035

В случае понижающего микширования FOA амбисонические компоненты порядка 1 уже являются доступными. В качестве альтернативы, FOA может быть восстановлен из линейной комбинации 4-канального сигнала понижающего микширования, DMX, который, например, имеет A-формат:In the case of FOA downmix, order 1 ambisonic components are already available. Alternatively, FOA can be recovered from a linear combination of a 4-channel downmix signal, DMX, which is, for example, A-format:

Figure 00000036
Figure 00000036

гдеwhere

Figure 00000037
Figure 00000037

иand

Figure 00000038
Figure 00000038

К этим двум принципам также можно применить два улучшения:Two improvements can also be applied to these two principles:

Потеря энергии из-за отсутствия моделирования амбисонических компонент диффузного звука до порядка H может быть компенсирована путем усиления K амбисонических компонент низкого порядка, извлекаемых из сигнала понижающего микширования.The energy loss due to the lack of modeling of the ambisonic components of the diffuse sound up to the order of H can be compensated for by amplifying the K low order ambisonic components extracted from the downmix signal.

В применениях передачи, в которых сигнал понижающего микширования кодируется с потерями, передаваемый сигнал понижающего микширования искажается ошибками квантования, которые могут быть устранены путем ограничения соотношения энергии K амбисонических компонент низкого порядка, извлекаемых из сигнала понижающего микширования.In transmission applications in which the downmix signal is lossy encoded, the transmitted downmix signal is corrupted by quantization errors, which can be eliminated by limiting the energy ratio K of the low order ambisonic components extracted from the downmix signal.

Фиг. 4 иллюстрирует вариант осуществления нового способа. Одним из отличий от состояния, изображенного на Фиг. 3, является дифференциация процесса микширования, который различается в зависимости от порядка амбисонической компоненты, которая подлежит синтезированию. Компоненты низких порядков в основном определяются из компонент низкого порядка, извлекаемых непосредственно из сигнала понижающего микширования. Микширование компонент низкого порядка может быть таким же простым, как непосредственное копирование извлеченных компонент в вывод.Fig. 4 illustrates an embodiment of the new method. One of the differences from the state depicted in FIG. 3 is the differentiation of the mixing process, which differs depending on the order of the ambisonic component to be synthesized. The low order components are mainly determined from the low order components extracted directly from the downmix signal. Mixing low-order components can be as simple as directly copying the extracted components to the output.

Однако в предпочтительном варианте извлеченные компоненты дополнительно обрабатываются посредством применения компенсации энергии, функции диффузности и порядков L и H отсечения, или посредством применения нормализации энергии, функции диффузности и направлений звука, или посредством применения обоих из них.However, in the preferred embodiment, the extracted components are further processed by applying energy compensation, diffuse function, and L and H cutoff orders, or by applying energy normalization, diffuse function, and sound directions, or both.

Микширование компонент среднего порядка фактически аналогично современному способу (за исключением опциональной компенсации диффузности) и генерирует и объединяет амбисонические компоненты как прямых, так и диффузных звуков вплоть до порядка L отсечения, но игнорируя K компонент низкого порядка, уже синтезированных путем микширования компонент низкого порядка. Микширование компонент высокого порядка состоит из генерирования оставшихся

Figure 00000039
амбисонических компонент вплоть до порядка
Figure 00000040
отсечения, но только для прямого звука, игнорируя диффузный звук. Далее подробно описывается микширование или генерирование компонент низкого порядка.Mixing the mid-order components is effectively the same as the modern way (except for the optional diffuseness compensation) and generates and combines the ambisonic components of both direct and diffuse sounds up to the L clipping order, but ignoring the K low-order components already synthesized by mixing the low-order components. Mixing the high-order components consists of generating the remaining
Figure 00000039
ambisonic components up to order
Figure 00000040
clipping, but only for direct sound, ignoring diffuse sound. The following describes in detail the mixing or generation of low-order components.

Первый аспект относится к компенсации энергии, в целом проиллюстрированной на Фиг. 6, представляющей общую схему по первому аспекту. Принцип поясняется для конкретного случая для

Figure 00000041
без потери общности.The first aspect relates to energy compensation, generally illustrated in FIG. 6 showing the outline of the first aspect. The principle is explained for a specific case for
Figure 00000041
without loss of generality.

Фиг. 5 показывает общую схему обработки. Входной вектор

Figure 00000042
представляет собой физически корректный амбисонический сигнал с порядком
Figure 00000043
отсечения. Он содержит
Figure 00000044
коэффициентов, обозначенных
Figure 00000045
, где
Figure 00000046
представляет собой порядок коэффициента, а
Figure 00000047
представляет собой моду. Обычно амбисонический сигнал
Figure 00000042
представляется в частотно-временной области.Fig. 5 shows a general processing scheme. Input vector
Figure 00000042
is a physically correct ambisonic signal with order
Figure 00000043
clipping. He contains
Figure 00000044
coefficients indicated
Figure 00000045
, where
Figure 00000046
is the order of the coefficient, and
Figure 00000047
represents fashion. Usually ambisonic signal
Figure 00000042
represented in the time-frequency domain.

В блоке 820, 830 синтезирования HOA амбисонические коэффициенты синтезируются от

Figure 00000042
вплоть до максимального порядка
Figure 00000040
, где
Figure 00000048
. Результирующий вектор
Figure 00000049
содержит синтезированные коэффициенты порядка
Figure 00000050
, обозначаемые
Figure 00000051
. Синтезирование HOA обычно зависит от диффузности
Figure 00000052
(или аналогичного показателя), которая описывает, насколько диффузным является звуковое поле для текущей частотно-временной точки. Обычно коэффициенты в
Figure 00000049
синтезируются только в том случае, если звуковое поле становится недиффузным, тогда как в диффузных ситуациях коэффициенты становятся равными нулю. Это предотвращает появление артефактов в диффузных ситуациях, но также приводит к потере энергии. Подробности синтезирования HOA поясняются ниже.In the HOA synthesis block 820, 830, the ambisonic coefficients are synthesized from
Figure 00000042
up to the maximum order
Figure 00000040
, where
Figure 00000048
. Result vector
Figure 00000049
contains synthesized order coefficients
Figure 00000050
, denoted
Figure 00000051
. Synthesis of HOA usually depends on diffuseness
Figure 00000052
(or similar) that describes how diffuse the sound field is for the current time-frequency point. Usually the coefficients in
Figure 00000049
synthesized only if the sound field becomes non-diffuse, while in diffuse situations the coefficients become zero. This prevents artifacts in diffuse situations, but also results in wasted energy. Details of the synthesis of HOA are explained below.

Чтобы компенсировать потерю энергии в упомянутых выше диффузных ситуациях, мы применяем компенсацию энергии к

Figure 00000042
в блоке 650, 750 компенсации энергии. Результирующий сигнал обозначается как
Figure 00000053
и имеет тот же максимальный порядок
Figure 00000043
, что и
Figure 00000042
. Компенсация энергии зависит от диффузности (или аналогичного показателя) и увеличивает энергию коэффициентов в диффузных ситуациях, так что потеря энергии коэффициентов в
Figure 00000049
компенсируется. Подробности поясняются далее.To compensate for energy loss in the diffuse situations mentioned above, we apply energy compensation to
Figure 00000042
in block 650, 750 energy compensation. The resulting signal is denoted as
Figure 00000053
and has the same maximum order
Figure 00000043
, which is
Figure 00000042
. Energy compensation depends on diffuseness (or similar) and increases the energy of the coefficients in diffuse situations, so that the energy loss of the coefficients in
Figure 00000049
compensated. Details are explained below.

В блоке объединения коэффициенты с компенсированной энергией в

Figure 00000053
объединяются 430 с синтезированными коэффициентами в
Figure 00000049
для получения выходного амбисонического сигнала
Figure 00000054
содержащего все
Figure 00000055
коэффициенты, т.е.In the combining block, the coefficients with compensated energy in
Figure 00000053
combined 430 with the synthesized coefficients in
Figure 00000049
to get the output ambisonic signal
Figure 00000054
containing everything
Figure 00000055
coefficients, i.e.

Figure 00000056
Figure 00000056

Далее синтезирование HOA объясняется как вариант осуществления. Существует несколько современных подходов к синтезированию коэффициентов HOA в

Figure 00000049
, например, рендеринг на основе ковариации или прямой рендеринг с использованием направленного аудиокодирования (DirAC). В простейшем случае коэффициенты в
Figure 00000049
синтезируются из всенаправленной компоненты
Figure 00000057
в
Figure 00000042
с использованиемNext, the synthesis of HOA is explained as an embodiment. There are several modern approaches to synthesizing HOA coefficients in
Figure 00000049
, such as covariance based rendering or direct rendering using Directional Audio Coding (DirAC). In the simplest case, the coefficients in
Figure 00000049
synthesized from an omnidirectional component
Figure 00000057
in
Figure 00000042
using

Figure 00000058
.
Figure 00000058
.

Здесь

Figure 00000059
является направлением прихода (DOA) звука, а
Figure 00000060
представляет собой соответствующее усиление амбисонического коэффициента порядка l и моды m. Обычно
Figure 00000060
соответствует действительнозначной диаграмме направленности хорошо известной сферической гармонической функции порядка l и моды m, оцениваемой в DOA
Figure 00000059
. Диффузность Ψ становится 0, если звуковое поле является недиффузным, и 1, если звуковое поле является диффузным. Следовательно, коэффициенты
Figure 00000061
, вычисленные выше порядка L, становятся равными нулю в ситуациях диффузной записи. Обратите внимание, что параметры
Figure 00000025
,
Figure 00000026
и
Figure 00000052
могут быть оценены из амбисонического сигнала
Figure 00000062
первого порядка на основе вектора активной интенсивности звука, как поясняется в исходных документах DirAC.Here
Figure 00000059
is the direction of arrival (DOA) of the sound, and
Figure 00000060
is the corresponding gain of the ambisonic coefficient of order l and mode m . Usually
Figure 00000060
corresponds to the real-valued radiation pattern of the well-known spherical harmonic function of order l and mode m , estimated in DOA
Figure 00000059
. The diffuseness Ψ becomes 0 if the sound field is non-diffuse and 1 if the sound field is diffuse. Therefore, the coefficients
Figure 00000061
, computed above the order of L , become zero in diffuse write situations. Please note that the parameters
Figure 00000025
,
Figure 00000026
and
Figure 00000052
can be estimated from the ambisonic signal
Figure 00000062
first order based on the active sound intensity vector as explained in the original DirAC documents.

Далее обсуждается компенсация энергии компонентов диффузного звука. Чтобы получить компенсацию энергии, мы рассматриваем типичную модель звукового поля, в которой звуковое поле состоит из компоненты прямого звука и компоненты диффузного звука, т.е. всенаправленный сигнал может быть записан какThe energy compensation of the diffuse sound components is discussed next. To obtain energy compensation, we consider a typical sound field model in which the sound field consists of a direct sound component and a diffuse sound component, i.e. omnidirectional signal can be written as

Figure 00000063
Figure 00000063

где

Figure 00000064
является прямым звуком (например, плоской волной), а
Figure 00000065
является диффузным звуком. Предполагая эту модель звукового поля и SN3D нормализацию амбисонических коэффициентов, ожидаемая мощность физически корректных коэффициентов
Figure 00000045
определяется какwhere
Figure 00000064
is a direct sound (for example, a plane wave), and
Figure 00000065
is a diffuse sound. Assuming this sound field model and SN3D normalization of the ambisonic coefficients, the expected power of the physically correct coefficients is
Figure 00000045
defined as

Figure 00000066
Figure 00000066

Здесь,

Figure 00000067
представляет собой мощность прямого звука, а
Figure 00000068
представляет собой мощность диффузного звука. Кроме того,
Figure 00000069
представляет собой фактор направленности коэффициентов l-го порядка, который определяется как
Figure 00000070
, где
Figure 00000071
представляет собой число коэффициентов на порядок l. Чтобы вычислить компенсацию энергии, мы можем либо рассмотреть DOA
Figure 00000059
(более точная компенсация энергии), либо предположить, что
Figure 00000059
является равномерно распределенной случайной величиной (более практичный подход). В последнем случае ожидаемая мощность
Figure 00000072
равнаHere,
Figure 00000067
is the direct sound power, and
Figure 00000068
is the diffuse sound power. Besides,
Figure 00000069
is the directivity factor of the coefficients of the lth order, which is defined as
Figure 00000070
, where
Figure 00000071
is the number of coefficients per order of l . To calculate energy compensation, we can either consider DOA
Figure 00000059
(more accurate energy compensation), or assume that
Figure 00000059
is a uniformly distributed random variable (a more practical approach). In the latter case, the expected power
Figure 00000072
is equal to

Figure 00000073
Figure 00000073

Далее пусть

Figure 00000074
обозначает физически корректный амбисонический сигнал максимального порядка
Figure 00000040
. Используя приведенные выше уравнения, общая ожидаемая мощность
Figure 00000074
определяется какFurther let
Figure 00000074
denotes a physically correct ambisonic signal of maximum order
Figure 00000040
. Using the equations above, the total expected power
Figure 00000074
defined as

Figure 00000075
Figure 00000075

Аналогично, при использовании общего определения диффузности

Figure 00000076
полная ожидаемая мощность синтезируемого амбисонического сигнала
Figure 00000049
определяется какSimilarly, using the general definition of diffuseness
Figure 00000076
total expected power of the synthesized ambisonic signal
Figure 00000049
defined as

Figure 00000077
Figure 00000077

Компенсация энергии осуществляется путем умножения коэффициента

Figure 00000078
на
Figure 00000042
, т.е.Energy compensation is carried out by multiplying the coefficient
Figure 00000078
on the
Figure 00000042
, i.e.

Figure 00000079
Figure 00000079

Общая ожидаемая мощность выходного амбисонического сигнала

Figure 00000054
теперь определяется какTotal expected ambisonic output power
Figure 00000054
is now defined as

Figure 00000080
Figure 00000080

Общая ожидаемая мощность

Figure 00000054
должна соответствовать общей ожидаемой мощности
Figure 00000074
. Следовательно, квадрат коэффициента компенсации вычисляется какTotal Expected Power
Figure 00000054
must match the total expected power
Figure 00000074
. Therefore, the square of the compensation factor is calculated as

Figure 00000081
Figure 00000081

Это можно упростить доThis can be simplified to

Figure 00000082
Figure 00000082

где

Figure 00000083
представляет собой диффузность,
Figure 00000043
представляет собой максимальный порядок входного амбисонического сигнала, а
Figure 00000040
представляет собой максимальный порядок выходного амбисонического сигнала.where
Figure 00000083
is diffuse,
Figure 00000043
represents the maximum order of the input ambisonic signal, and
Figure 00000040
represents the maximum order of the output ambisonic signal.

Можно применить тот же принцип и для

Figure 00000084
, где
Figure 00000085
амбисонических компонент диффузного звука синтезируются с использованием декорреляторов и среднего диффузного ответа.The same principle can be applied to
Figure 00000084
, where
Figure 00000085
The ambisonic components of a diffuse sound are synthesized using decorrelators and an average diffuse response.

В определенных случаях

Figure 00000086
и никакие компоненты диффузного звука не синтезируются. Это особенно верно для высоких частот, где абсолютные фазы не слышны, а использование декорреляторов неуместно. Затем компоненты диффузного звука могут быть смоделированы с помощью компенсации энергии путем вычисления порядка Lk и числа мод mk, соответствующих K компонентам низкого порядка, при этом K представляет число диффузных компонент в первой группе:In certain cases
Figure 00000086
and no diffuse sound components are synthesized. This is especially true at high frequencies, where absolute phases are not audible and the use of decorrelators is inappropriate. The diffuse sound components can then be modeled with energy compensation by calculating the order Lk and the number of modes mk corresponding to the K low order components, with K representing the number of diffuse components in the first group:

Figure 00000087
Figure 00000087

Компенсирующим усилением тогда становится:The compensating gain then becomes:

Figure 00000088
Figure 00000088

Далее представляются варианты осуществления нормализации энергии компонент прямого звука, соответствующие второму аспекту, в общем проиллюстрированному на Фиг. 7. Выше предполагалось, что входной вектор

Figure 00000042
являлся физически корректным амбисоническим сигналом максимального порядка L. Однако на входной сигнал понижающего микширования могут оказывать влияние ошибки квантования, которые могут нарушать соотношение энергии. Это соотношение может быть восстановлено путем нормализации входного сигнала понижающего микширования:Next, embodiments of energy normalization of the direct sound components corresponding to the second aspect generally illustrated in FIG. 7. It was assumed above that the input vector
Figure 00000042
was a physically correct ambisonic signal of maximum order L . However, the downmix input signal may be affected by quantization errors, which may disturb the energy relationship. This relationship can be restored by normalizing the downmix input signal:

Figure 00000089
Figure 00000089

Учитывая направление звука и параметры диффузности, прямые и диффузные компоненты могут быть выражены как:Given the direction of the sound and the diffuseness parameters, the direct and diffuse components can be expressed as:

Figure 00000090
Figure 00000090

Figure 00000091
Figure 00000091

Ожидаемая мощность в соответствии с моделью затем может быть выражена для каждой из компонент

Figure 00000053
как:The expected power according to the model can then be expressed for each of the components
Figure 00000053
how:

Figure 00000092
Figure 00000092

Компенсирующим усилением тогда становится:The compensating gain then becomes:

Figure 00000093
Figure 00000093

где 0

Figure 00000094
и
Figure 00000095
where 0
Figure 00000094
and
Figure 00000095

В качестве альтернативы, ожидаемая мощность в соответствии с моделью затем может быть выражена для каждой из компонент

Figure 00000096
как:Alternatively, the expected power according to the model can then be expressed for each of the components
Figure 00000096
how:

Figure 00000097
Figure 00000097

Компенсирующим усилением тогда становится:The compensating gain then becomes:

Figure 00000098
Figure 00000098

где 0

Figure 00000094
и
Figure 00000095
where 0
Figure 00000094
and
Figure 00000095

Figure 00000057
и
Figure 00000072
являются комплексными значениями, и для вычисления
Figure 00000099
берется норма или величина или абсолютное значение или представление комплексного значения в полярных координатах и возводится в квадрат, чтобы получить ожидаемую мощность или энергию в качестве связанного с энергией или амплитудой показателя.
Figure 00000057
and
Figure 00000072
are complex values, and to calculate
Figure 00000099
a norm or magnitude or an absolute value or a polar coordinate representation of a complex value is taken and squared to give the expected power or energy as an energy or amplitude related metric.

Компенсация энергии компонент диффузного звука и нормализация энергии компонент прямого звука могут быть достигнуты совместно, применяя усиление следующей формы:Compensating the energy of the diffuse sound components and normalizing the energy of the direct sound components can be achieved jointly by applying amplification of the following form:

Figure 00000100
Figure 00000100

В реальной реализации полученное усиление нормализации, компенсационное усиление или их комбинация могут быть ограничены, чтобы избежать больших коэффициентов усиления, приводящих к серьезному выравниванию частотной характеристики, которое может привести к звуковым артефактам. Например, усиления могут быть ограничены диапазоном от -6 до +6 дБ. Кроме того, усиления можно сглаживать во времени и/или по частоте (с помощью скользящей средней или рекурсивной средней) для предотвращения резких изменений и для последующего процесса стабилизации.In a real implementation, the resulting normalization gain, compensation gain, or a combination thereof may be limited to avoid large gains resulting in severe flattening of the frequency response, which can lead to audio artifacts. For example, gains can be limited to -6 to +6 dB. In addition, the gains can be smoothed in time and/or frequency (using a moving average or recursive average) to prevent abrupt changes and for the subsequent stabilization process.

Далее будут резюмированы некоторые выгоды и преимущества предпочтительных вариантов осуществления по сравнению с существующим уровнем техники.The following will summarize some of the benefits and advantages of the preferred embodiments over the prior art.

Упрощенное (менее сложное) синтезирование HOA в DirAC.Simplified (less complex) synthesis of HOA in DirAC.

Более прямое синтезирование без полного синтезирования всех амбисонических компонент.More direct synthesis without full synthesis of all ambisonic components.

Уменьшение количества требуемых декорреляторов и их влияния на финальное качество.Reducing the number of required decorrelators and their impact on the final quality.

Уменьшение артефактов кодирования, вносимых в сигнал понижающего микширования во время передачи.Reduce coding artifacts introduced into the downmix signal during transmission.

Разделение обработки на три разных порядка для достижения оптимального компромисса между качеством и эффективностью обработки.Separation of processing into three different orders to achieve the optimal compromise between quality and processing efficiency.

Далее резюмируются некоторые аспекты изобретения, частично или полностью включенные в вышеприведенное описание, которые могут использоваться независимо друг от друга или в комбинации друг с другом, или только в определенной комбинации, объединяющей только два произвольно выбранных аспекта из упомянутых трех аспектов.The following summarizes some aspects of the invention, partly or wholly included in the above description, which can be used independently of each other or in combination with each other, or only in a certain combination, combining only two arbitrarily selected aspects from the three mentioned aspects.

Первый аспект: Компенсация энергии для компонент диффузного звукаFirst Aspect: Energy Compensation for Diffuse Sound Components

Настоящее изобретение исходит из того факта, что, когда описание звукового поля генерируется из входного сигнала, содержащего одну или более компонент сигнала, входной сигнал может быть проанализирован для получения, по меньшей мере, данных о диффузности для звукового поля, представленного входным сигналом. Анализ входного сигнала может представлять собой извлечение данных о диффузности, ассоциированных как метаданные с одной или более компонентами сигнала, или анализ входного сигнала может представлять собой анализ реального сигнала, когда, например, входной сигнал имеет две, три или даже более компонент сигнала, например полное представление первого порядка, такое как представление в B-формате или представление в A-формате.The present invention is based on the fact that when a sound field description is generated from an input signal containing one or more signal components, the input signal can be analyzed to obtain at least diffuseness data for the sound field represented by the input signal. The analysis of the input signal may be the extraction of diffuseness data associated as metadata with one or more signal components, or the analysis of the input signal may be the analysis of a real signal when, for example, the input signal has two, three, or even more signal components, such as a complete a first-order representation, such as a B-format representation or an A-format representation.

Теперь имеется генератор звуковых компонент, который генерирует одну или более компонент звукового поля первой группы, которые имеют прямую компоненту и диффузную компоненту. И, дополнительно, генерируется одна или более компонент звукового поля второй группы, при этом для такой второй группы компонента звукового поля имеет только прямые компоненты.There is now a sound component generator that generates one or more first group sound field components that have a direct component and a diffuse component. And, additionally, one or more second group sound field components are generated, wherein for such a second group, the sound field component has only direct components.

В отличие от генерирования полного звукового поля, это приведет к ошибке в энергии при условии, что значение диффузности для текущего кадра или текущего рассматриваемого фрагмента времени/частоты имеет значение, отличное от нуля.Unlike generating a full sound field, this will result in an error in energy provided that the diffuseness value for the current frame or current time/frequency slice under consideration has a value other than zero.

Чтобы компенсировать эту ошибку энергии, компенсация энергии выполняется при генерировании первой группы компонент звукового поля. Эта компенсация энергии зависит от данных о диффузности и числа компонент звукового поля во второй группе, представляющей потерю энергии из-за отсутствия синтезирования диффузных компонент для этой второй группы.To compensate for this energy error, energy compensation is performed when generating the first group of sound field components. This energy compensation depends on the diffuseness data and the number of sound field components in the second group, representing the energy loss due to the lack of synthesis of diffuse components for this second group.

В одном варианте осуществления генератор звуковых компонент для первой группы может быть ветвью низкого порядка с Фиг. 4, которая извлекает компоненты звукового поля первой группы посредством копирования или выполнения взвешенного сложения, т.е. без выполнения оценки сложной пространственной базисной функции. Таким образом, компонента звукового поля первой группы не является доступной отдельно как прямая часть и диффузная часть. Однако увеличение всей компоненты звукового поля первой группы по отношению к ее энергии автоматически увеличивает энергию диффузной части.In one embodiment, the audio component generator for the first group may be the low order branch of FIG. 4 which extracts the sound field components of the first group by copying or performing a weighted addition, i. e. without estimating the complex spatial basis function. Thus, the sound field component of the first group is not available separately as a direct part and a diffuse part. However, an increase in the entire sound field component of the first group with respect to its energy automatically increases the energy of the diffuse part.

В качестве альтернативы, генератор звуковых компонент для одной или более компонент звукового поля первой группы также может быть ветвью среднего порядка на Фиг. 4, полагающейся на раздельное синтезирование прямой части и синтезирование диффузной части. Здесь мы имеет отдельно доступную диффузную часть, и в одном варианте осуществления диффузная часть компоненты звукового поля увеличивается, но не прямая часть, чтобы компенсировать потерю энергии из-за второй группы. В качестве альтернативы, однако, в этом случае можно было бы увеличить энергию результирующей компоненты звукового поля после объединения прямой части и диффузной части.Alternatively, the sound component generator for one or more first group sound field components may also be a medium order branch of FIG. 4, relying on separate synthesis of the direct part and synthesis of the diffuse part. Here we have the diffuse part separately available, and in one embodiment the diffuse part of the sound field component is increased, but not the direct part, to compensate for the energy loss due to the second group. Alternatively, however, in this case it would be possible to increase the energy of the resulting sound field component after combining the direct part and the diffuse part.

В качестве альтернативы, генератор звуковых компонент для одной или более компонент звукового поля первой группы также может представлять собой ветви компонент низкого и среднего порядка на Фиг. 4. Тогда компенсация энергии может применяться только к компонентам низкого порядка или к компонентам как низкого, так и среднего порядка.Alternatively, the audio component generator for one or more first group sound field components can also be branches of the low and medium order components of FIG. 4. Energy compensation can then only be applied to low order components or to both low and medium order components.

Второй аспект: Нормализация энергии компонент прямого звукаSecond aspect: Energy normalization of the direct sound component

В этом изобретении исходят из предположения, что генерирование входного сигнала, который имеет две или более звуковых компонент, сопровождалось некоторым видом квантования. Как правило, при рассмотрении двух или более звуковых компонент, одна звуковая компонента входного сигнала может представлять собой всенаправленный сигнал, например всенаправленные микрофонные сигналы W в представлении B-формата, а другие звуковые компоненты могут представлять собой отдельные направленные сигналы, такие как сигналы X, Y, Z микрофона в форме восьмерки в представлении B-формата, то есть в амбисоническом представлении первого порядка.This invention is based on the assumption that the generation of an input signal that has two or more audio components was accompanied by some kind of quantization. Typically, when considering two or more audio components, one audio component of the input signal may be an omnidirectional signal, such as omnidirectional microphone signals W in B-format representation, and other audio components may be separate directional signals, such as X, Y signals , Z of a figure-eight microphone in B-format representation, i.e. in first-order ambisonic representation.

Когда кодер сигнала попадает в ситуацию, когда требования к битрейту слишком высоки для идеальной операции кодирования, то типичная процедура состоит в том, что кодер кодирует всенаправленный сигнал как можно точнее, но кодер только тратит меньшее количество битов на направленные компоненты, которое может быть даже настолько низкими, что одна или более направленных компонент полностью сводятся к нулю. Это представляет собой такую потерю или несоответствие энергии в информации о направлении.When a signal encoder is in a situation where the bitrate requirements are too high for an ideal encoding operation, then the typical procedure is that the encoder encodes the omnidirectional signal as accurately as possible, but the encoder only spends fewer bits on the directional components, which may even be as low as low that one or more directional components are completely nullified. It represents such a loss or mismatch of energy in direction information.

Теперь тем не менее может иметь место требование, которое, например, получают за счет наличия явной параметрической вспомогательной информации, указывающей, что определенный кадр или элемент разрешения по времени/частоте имеет определенную диффузность, меньшую единицы, и направление звука. Таким образом, может возникнуть ситуация, когда в соответствии с параметрическими данными имеется некоторая определенная недиффузная компонента с некоторым определенным направлением, в то время как, с другой стороны, передаваемый всенаправленный сигнал и направленные сигналы это направление не отражают. Например, всенаправленный сигнал мог бы передаваться без какой-либо существенной потери информации, в то время как направленный сигнал, Y, отвечающий за левое и правое направление, мог бы быть установлен равным нулю по причине отсутствия битов. В этом сценарии, даже если в исходной аудиосцене компонента прямого звука исходит слева, передаваемые сигналы будут отражать аудиосцену без какой-либо характеристики направленности лево-право.Now, however, there may be a requirement, which, for example, is obtained by having explicit parametric ancillary information indicating that a certain frame or time/frequency bin has a certain diffuseness less than one, and the direction of the sound. Thus, a situation may arise where, according to the parametric data, there is some certain non-diffuse component with some certain direction, while, on the other hand, the transmitted omnidirectional signal and the directional signals do not reflect this direction. For example, an omnidirectional signal could be transmitted without any significant loss of information, while a directional signal, Y, responsible for the left and right directions, could be set to zero due to missing bits. In this scenario, even if the direct audio component originates from the left in the original audio scene, the transmitted signals will reflect the audio scene without any left-right directional characteristic.

Таким образом, в соответствии со вторым изобретением выполняется нормализация энергии для компонент прямого звука, чтобы компенсировать нарушение соотношения энергии с помощью данных о направлении/диффузности, которые либо явно включаются во входной сигнал, либо выводятся из самого входного сигнала.Thus, in accordance with the second invention, energy normalization is performed for the direct sound components to compensate for energy imbalance with direction/diffusion data that is either explicitly included in the input signal or derived from the input signal itself.

Эта нормализация энергии может быть применена в контексте всех отдельных ветвей обработки с Фиг. 4 либо полностью, либо только по отдельности.This energy normalization can be applied in the context of all individual processing branches of FIG. 4 either completely or only individually.

Это изобретение позволяет использовать дополнительные параметрические данные, либо принимаемые из входного сигнала, либо выводимые из ненарушенных частей входного сигнала, и, следовательно, ошибки кодирования, включенные во входной сигнал по какой-либо причине, могут быть уменьшены с использованием дополнительных данных о направлении и данных о диффузности, выводимых из входного сигнала.This invention allows the use of additional parametric data, either taken from the input signal or derived from the undisturbed portions of the input signal, and hence coding errors included in the input signal for whatever reason can be reduced using the additional direction data and data about diffuseness derived from the input signal.

В этом изобретении связанный с энергией или амплитудой показатель для всенаправленной компоненты, выводимой из входного сигнала, и дополнительный связанный с энергией или амплитудой показатель для направленной компоненты, выводимой из входного сигнала, оцениваются и используются для компенсации энергии вместе с данными о направлении и данными о диффузности. Таким связанным с энергией или амплитудой показателем может быть сама амплитуда или мощность, т.е. возведенные в квадрат и просуммированные амплитуды, или может быть энергия, например мощность, умноженная на определенный период времени, или может быть любой другой показатель, выводимый из амплитуды с показателем степени для амплитуды, отличным от единицы, и последующим суммированием. Таким образом, дополнительным связанным с энергией или амплитудой показателем также может быть громкость с показателем степени три по сравнению с мощностью с показателем степени два.In this invention, an energy or amplitude related metric for the omnidirectional component output from the input signal and an additional energy or amplitude related metric for the directional component output from the input signal are estimated and used for energy compensation along with direction data and diffuseness data. . Such an energy- or amplitude-related metric could be the amplitude or power itself, i. e. squared and summed amplitudes, or may be energy, such as power multiplied by a certain period of time, or may be any other exponent derived from the amplitude with an exponent for the amplitude other than one, and then summed. Thus, an additional energy or amplitude related metric could also be loudness with a power of three versus power with a power of two.

Третий аспект: Реализация системы с различными процедурами обработки для разных порядковThird aspect: System implementation with different processing procedures for different orders

В третьем изобретении, которое проиллюстрировано на Фиг. 4, звуковое поле генерируется с использованием входного сигнала, содержащего моносигнал или многокомпонентный сигнал, имеющий две или более компоненты сигнала. Анализатор сигналов выводит данные о направлении и данные о диффузности из входного сигнала либо посредством явного анализа сигнала в случае, если входной сигнал имеет две или более компоненты сигнала, либо посредством анализа входного сигнала для извлечения данных о направлении и данных о диффузности, включенных во входной сигнал в качестве метаданных.In the third invention, which is illustrated in FIG. 4, the sound field is generated using an input signal containing a mono signal or a multi-component signal having two or more signal components. The signal analyzer derives direction data and diffuseness data from the input signal, either by explicitly analyzing the signal in case the input signal has two or more signal components, or by analyzing the input signal to extract the direction data and diffuseness data included in the input signal as metadata.

Генератор компонент низкого порядка генерирует звуковое описание низкого порядка из входного сигнала вплоть до предопределенного порядка и выполняет эту задачу для доступных мод, которые могут быть извлечены из входного сигнала, посредством копирования компоненты сигнала из входного сигнала или посредством выполнения взвешенной комбинации компонент во входном сигнале.The low order component generator generates a low order audio description from the input signal up to a predefined order and performs this task for the available modes that can be extracted from the input signal by copying the signal component from the input signal or by performing a weighted combination of the components in the input signal.

Генератор компонент среднего порядка генерирует звуковое описание среднего порядка, имеющее компоненты с порядком выше предопределенного порядка или с предопределенным порядком и выше предопределенной моды и ниже или с первым порядком отсечения, используя синтез по меньшей мере одной прямой компоненты и синтез по меньшей мере одной диффузной компоненты, с использованием данных о направлении и данных о диффузности, получаемых из анализатора, так что звуковое описание среднего порядка содержит прямой вклад и диффузный вклад.The medium order component generator generates a medium order audio description having components with an order above a predefined order or with a predefined order and above a predefined mode and below or with a first cutoff order using at least one direct component synthesis and at least one diffuse component synthesis, using direction data and diffuseness data obtained from the analyzer, so that the sound description of the average order contains a direct contribution and a diffuse contribution.

Кроме того, генератор компонент высокого порядка генерирует звуковое описание высокого порядка, имеющее компоненты с порядками выше первого отсечения и ниже или равными второму порядку отсечения, используя синтез по меньшей мере одной прямой компоненты без синтеза какой-либо диффузной компоненты, так что звуковое описание высокого порядка имеет только прямой вклад.In addition, the high order component generator generates a high order audio description having components with orders above the first cutoff and below or equal to the second cutoff order using the synthesis of at least one direct component without synthesizing any diffuse component, so that the high order audio description has only a direct contribution.

Изобретение этой системы имеет значительные преимущества в том, что генерирование максимально точного звукового поля низкого порядка посредством использования информации, включенной во входной сигнал, выполняется как можно лучше, в то же время операции обработки для выполнения звукового описания низкого порядка требуют небольших затрат из-за того, что требуются только операции копирования или операции взвешенной комбинации, такие как взвешенные сложения. Таким образом, высококачественное звуковое описание низкого порядка выполняется с минимальным объемом требуемой мощности обработки.The invention of this system has significant advantages in that the generation of the most accurate low order sound field by using the information included in the input signal is performed as best as possible, while the processing operations for performing the low order sound description are low cost due to that only copy operations or weighted combination operations such as weighted additions are required. Thus, high-quality, low-order audio description is performed with a minimum amount of processing power required.

Звуковое описание среднего порядка требует большей мощности обработки, но позволяет сгенерировать очень точное звуковое описание среднего порядка с прямым и диффузным вкладами с использованием анализируемых данных о направлении и данных о диффузности, как правило, вплоть до некоторого порядка, т.е. высокого порядка, ниже которого диффузный вклад в описание звукового поля все еще требуется с точки зрения восприятия.The mean order audio description requires more processing power, but allows a very accurate mean order audio description with direct and diffuse contributions to be generated using the analyzed direction data and diffuseness data, typically up to some order, i.e. high order, below which the diffuse contribution to the sound field description is still required from a perceptual point of view.

Наконец, генератор компонент высокого порядка генерирует звуковое описание высокого порядка только путем выполнения прямого синтеза без выполнения диффузного синтеза. Это, опять же, снижает объем требуемой мощности обработки из-за того, что генерируются только прямые компоненты, тогда как в то же самое время исключение диффузного синтеза не является таким уж проблематичным с точки зрения восприятия.Finally, the high order component generator generates a high order audio description only by performing direct synthesis without performing diffuse synthesis. This, again, reduces the amount of processing power required due to the fact that only direct components are generated, while at the same time eliminating diffuse synthesis is not so perceptually problematic.

Естественно, третье изобретение может быть объединено с первым и/или вторым изобретением, но даже когда по некоторым причинам компенсация за невыполнение диффузного синтеза генератором компонент высокого порядка не применяется, процедура, тем не менее приводит в результате к оптимальному компромиссу между мощностью обработки, с одной стороны, и качеством звука, с другой. То же самое верно и для выполнения нормализации энергии низкого порядка, компенсирующей кодирование, используемое для генерирования входного сигнала. В варианте осуществления эта компенсация выполняется дополнительно, но даже без этой компенсации получаются значительные нетривиальные преимущества.Naturally, the third invention can be combined with the first and/or second invention, but even when for some reason compensation for not performing diffuse synthesis by the high-order component generator is not applied, the procedure still results in an optimal compromise between processing power, with one hand, and sound quality, on the other. The same is true for performing low order energy normalization compensating for the coding used to generate the input signal. In an embodiment, this compensation is performed additionally, but even without this compensation, significant non-trivial advantages are obtained.

Фиг. 4 в качестве символической иллюстрации параллельной передачи показывает число компонент, обрабатываемых каждым генератором компонент. Генератор 810 компонент низкого порядка, проиллюстрированный на Фиг. 4, генерирует описание звукового поля низкого порядка из входного сигнала вплоть до предопределенного порядка и предопределенной моды, при этом генератор 810 компонент низкого порядка выполнен с возможностью выведения описания звукового поля низкого порядка посредством копирования или взятия входного сигнала как есть или посредством выполнения взвешенной комбинации каналов входного сигнала. Как проиллюстрировано между блоком генератора компонент низкого порядка и блоком микширования компонент низкого порядка, K отдельных компонент обрабатываются этим генератором 810 компонент низкого порядка. Генератор 820 компонент среднего порядка генерирует опорный сигнал, и в качестве примерной ситуации указывается, что используется всенаправленный сигнал, включенный в сигнал понижающего микширования на входе или выходе блока 400 фильтров. Однако, когда входной сигнал имеет левый канал и правый канал, то моносигнал, получаемый путем сложения левого и правого каналов, вычисляется генератором 821 опорного сигнала. Кроме того, число (L+1)2 - K компонент генерируются генератором компонент среднего порядка. Кроме того, генератор компонент высокого порядка генерирует число (H+1)2 - (L+1)2 компонент, так что в конце, на выходе объединителя, находятся (H+1)2 компонент из одной или нескольких (небольшое число) компонент на входе в блок 400 фильтров. Разделитель выполнен с возможностью обеспечения раздельных данных о направлении/диффузности в соответствующие генераторы 810, 820, 830 компонент. Таким образом, генератор компонент низкого порядка принимает K элементов данных. На это указывает линия, соединяющая разделитель 420 и блок микширования компонент низкого порядка.Fig. 4, as a symbolic illustration of parallel transmission, shows the number of components processed by each component generator. The low order component generator 810 illustrated in FIG. 4 generates a low order sound field description from an input signal up to a predetermined order and a predetermined mode, wherein the low order component generator 810 is configured to derive the low order sound field description by copying or taking the input signal as is or by performing a weighted combination of input channels. signal. As illustrated between the low order component generator block and the low order component mixing block, the K individual components are processed by this low order component generator 810 . The average order component generator 820 generates a reference signal, and as an exemplary situation it is indicated that an omnidirectional signal is used included in the downmix signal at the input or output of the filter bank 400. However, when the input signal has a left channel and a right channel, the mono signal obtained by adding the left and right channels is calculated by the reference signal generator 821 . In addition, the number of (L+1) 2 - K components are generated by the average order component generator. In addition, the high-order component generator generates a number of (H+1) 2 - (L+1) 2 components, so that at the end, at the output of the combiner, there are (H+1) 2 components from one or more (small number) components at the entrance to the block 400 filters. The splitter is configured to provide separate direction/diffusion data to the respective component generators 810, 820, 830. Thus, the low order component generator takes in K data elements. This is indicated by a line connecting separator 420 and the low order mixing unit.

Кроме того, блок 825 микширования компонент среднего порядка принимает (L+1)2 - K элементов данных, а блок микширования компонент высокого порядка принимает (H+1)2 - (L+1)2 элементов данных. Соответственно, отдельные блоки микширования компонент предоставляют определенное число компонент звукового поля в объединитель 430.In addition, the middle order component mixer 825 receives (L+1) 2 - K data elements, and the high order component mixer receives (H+1) 2 - (L+1) 2 data elements. Accordingly, the individual component mixers provide a certain number of sound field components to the combiner 430.

Далее предпочтительная реализация генератора 810 компонент низкого порядка с Фиг. 4 иллюстрируется со ссылкой на Фиг. 9. Входной сигнал вводится в блок 811 исследования входного сигнала, и этот блок 811 исследования входного сигнала передает полученную информацию в блок 812 выбора режима обработки. Блок 812 выбора режима обработки выполнен с возможностью выбора множества различных режимов обработки, которые схематично проиллюстрированы как блок 813 копирования, обозначенный цифрой 1, блок 814 взятия (как есть), обозначенный цифрой 2, блок линейной комбинации (первый режим), обозначенный цифрой 3 и ссылочной позицией 815, и блок 816 линейной комбинации (второй режим), обозначенный цифрой 4. Например, когда блок 811 исследования входного сигнала определяет определенный вид входного сигнала, тогда блок 812 выбора режима обработки выбирает один из упомянутого множества различных режимов обработки, как показано в таблице на Фиг. 9. Например, когда входным сигналом является всенаправленный сигнал W или моносигнал, тогда выбирается копирование 813 или взятие 814. Однако, когда входным сигналом является стереосигнал с левым каналом или правым каналом, или многоканальный сигнал с 5.1 или 7.1 каналами, тогда блок 815 линейной комбинации выбирается для того, чтобы выводить из входного сигнала всенаправленный сигнал W посредством сложения левого и правого и посредством вычисления направленной компоненты посредством вычисления разности между левым и правым.Further, a preferred implementation of the low order component generator 810 of FIG. 4 is illustrated with reference to FIG. 9. An input signal is input to an input signal examining block 811, and this input signal examining block 811 passes the received information to a processing mode selection block 812. The processing mode selection block 812 is configured to select a plurality of different processing modes, which are schematically illustrated as a copy block 813, indicated by 1, a take (as is) block 814, indicated by 2, a linear combination (first mode) block, indicated by 3, and 815, and a linear combination (second mode) block 816, denoted by 4. For example, when the input signal examining block 811 determines a certain kind of input signal, then the processing mode selection block 812 selects one of the aforementioned plurality of different processing modes, as shown in table in Fig. 9. For example, when the input signal is an omnidirectional signal W or a mono signal, then copy 813 or take 814 is selected. However, when the input signal is a stereo signal with a left channel or a right channel, or a multi-channel signal with 5.1 or 7.1 channels, then the linear combination block 815 is selected to output an omnidirectional signal W from the input signal by adding the left and right, and by calculating the directional component by calculating the difference between left and right.

Однако, когда входным сигналом является объединенный стереосигнал, то есть срединное/боковое ("mid/side") представление, тогда выбирается либо блок 813, либо блок 814, поскольку срединный сигнал уже представляет всенаправленный сигнал, а боковой сигнал уже представляет направленную компоненту.However, when the input signal is a combined stereo signal, i.e., a mid/side ("mid/side") representation, then either block 813 or block 814 is selected, since the middle signal already represents the omnidirectional signal, and the side signal already represents the directional component.

Аналогичным образом, когда определяется, что входной сигнал является амбисоническим сигналом первого порядка (FOA), то блок 812 выбора режима выбирает либо блок 813, либо блок 814. Однако, когда определено, что входной сигнал является сигналом A-формата, тогда блок 816 линейной комбинации (второй режим) выбирается для того, чтобы выполнить линейное преобразование над сигналом A-формата, чтобы получить амбисонический сигнал первого порядка, имеющий всенаправленную компоненту и компоненты трех направлений, представляющие блоки K компонент низкого порядка, сгенерированных блоком 810 на Фиг. 8 или Фиг. 6. Кроме того, на Фиг. 9 проиллюстрирован компенсатор 900 энергии, который выполнен с возможностью выполнения компенсации энергии для вывода из одного из блоков с 813 по 816, чтобы выполнить диффузную компенсацию и/или прямую компенсацию с соответствующими значениями g и gs усиления.Similarly, when it is determined that the input signal is a first order ambisonic (FOA) signal, then the mode select block 812 selects either block 813 or block 814. However, when it is determined that the input signal is an A-format signal, then linear block 816 combination (second mode) is selected to perform a linear transform on the A-format signal to obtain a first-order ambisonic signal having an omnidirectional component and tri-directional components representing the low-order K component blocks generated by block 810 in FIG. 8 or Fig. 6. In addition, in FIG. 9 illustrates an energy compensator 900 that is configured to perform energy compensation for output from one of blocks 813 to 816 to perform diffuse compensation and/or direct compensation with appropriate gain values g and g s .

Следовательно, реализация компенсатора 900 энергии соответствует процедуре генератора 650 звуковых компонент или генератора 750 звуковых компонент с Фиг. 6 и Фиг. 7, соответственно.Therefore, the implementation of the energy compensator 900 corresponds to the procedure of the audio component generator 650 or the audio component generator 750 of FIG. 6 and FIG. 7, respectively.

Фиг. 10 иллюстрирует предпочтительную реализацию генератора 820 компонент среднего порядка с Фиг. 8 или части генератора 650 звуковых компонент для нижней стрелки с прямыми/диффузными (компонентами) из блока 650, относящимися к первой группе. В частности, генератор 820 компонент среднего порядка содержит генератор 821 опорного сигнала, который принимает входной сигнал и генерирует опорный сигнал посредством копирования или взятия его как есть, когда входным сигналом является моносигнал, или посредством выведения опорного сигнала из входного сигнала, выполняя вычисление согласно вышеописанному или тому, что представлено в заявке WO 2017/157803 A1, содержимое которой включено в настоящий документ по этой ссылке во всей своей полноте.Fig. 10 illustrates a preferred implementation of the midrange component generator 820 of FIG. 8 or parts of the generator 650 sound components for the down arrow with direct/diffuse (components) from block 650 belonging to the first group. Specifically, the mid-range component generator 820 includes a reference signal generator 821 that receives an input signal and generates a reference signal by copying or taking it as is when the input signal is a mono signal, or by deriving the reference signal from the input signal by performing the calculation as described above, or to that presented in the application WO 2017/157803 A1, the contents of which are incorporated herein by this link in their entirety.

Кроме того, Фиг. 10 иллюстрирует вычислитель 410 направленного усиления, который выполнен с возможностью вычисления направленного усиления Gl m из определенной информации DOA (Φ,θ) и из определенного номера m моды и определенного номера l порядка. В предпочтительном варианте осуществления, когда обработка выполняется в области времени/частоты для каждого отдельного фрагмента, который обозначается с помощью k, n, направленное усиление вычисляется для каждого такого фрагмента времени/частоты. Блок 820 весовой обработки принимает опорный сигнал и данные о диффузности для определенного фрагмента времени/частоты и результатом обработки блоком 820 весовой обработки является прямая часть. Диффузная часть генерируется обработкой, выполняемой фильтром 823 декорреляции и последующим блоком 824 весовой обработки, принимающим значение Ψ диффузности для определенного временного кадра и элемента разрешения по частоте и, в частности, принимающим средний ответ на определенную моду m и порядок l, указываемый как Dl и генерируемый блоком 826 обеспечения среднего ответа, который принимает в качестве ввода требуемую моду m и требуемый порядок l.In addition, FIG. 10 illustrates a directional gain calculator 410 that is configured to calculate a directional gain G l m from certain DOA information (Φ,θ) and from a certain mode number m and a certain order number l . In the preferred embodiment, when processing is performed in the time/frequency domain for each individual chunk, which is denoted by k, n, a directional gain is computed for each such time/frequency chunk. The weight processor 820 receives a reference signal and diffuseness data for a specific time/frequency slice, and the result of the weight processor 820 is a forward portion. The diffuse part is generated by the processing performed by the decorrelation filter 823 and the subsequent weight processing block 824 taking the diffuseness value Ψ for a certain time frame and frequency bin and specifically taking the average response for a certain mode m and order l indicated as D l and generated by block 826 to provide an average answer, which takes as input the desired mode m and the required order l .

Результатом обработки блоком 824 весовой обработки является диффузная часть, и эта диффузная часть прибавляется к прямой части сумматором 825 для того, чтобы получить определенную компоненту звукового поля среднего порядка для определенной моды m и определенного порядка l. Предпочтительно применять диффузное компенсационное усиление, описанное со ссылкой на Фиг. 6, только к диффузной части, генерируемой блоком 823. Это может быть выгодно сделано в рамках процедуры, выполняемой блоком весовой обработки (диффузных компонент). Таким образом, в сигнале усиливается только диффузная часть, чтобы компенсировать потерю диффузной энергии, понесенную более высокими компонентами, которые не принимают полного синтеза, как проиллюстрировано на Фиг. 10.The result of weight processing 824 is a diffuse part, and this diffuse part is added to the direct part by adder 825 in order to obtain a certain average order sound field component for a certain mode m and a certain order l . Preferably, the diffuse compensation gain described with reference to FIG. 6, only to the diffuse part generated by block 823. This can advantageously be done within the procedure performed by the weight processing (diffuse components) block. Thus, only the diffuse portion in the signal is boosted to compensate for the loss of diffuse energy incurred by higher components that do not receive full synthesis, as illustrated in FIG. ten.

Генерирование только прямой части проиллюстрировано на Фиг. 11 для генератора компонент высокого порядка. В своей основе, генератор компонент высокого порядка реализован таким же образом, что и генератор компонент среднего порядка по отношению к прямой ветви, но не содержит блоков 823, 824, 825 и 826. Таким образом, генератор компонент высокого порядка содержит только блок 822 весовой обработки (прямых компонент), принимающий входные данные от вычислителя 410 направленного усиления и принимающий опорный сигнал от генератора 821 опорного сигнала. Предпочтительно, чтобы для генератора компонент высокого порядка и генератора компонент среднего порядка генерировался только один опорный сигнал. Однако оба блока также могут иметь индивидуальные генераторы опорных сигналов, в зависимости от обстоятельств. Тем не менее предпочтительно иметь только один генератор опорного сигнала. Таким образом, обработка, выполняемая генератором компонент высокого порядка, является чрезвычайно эффективной, поскольку для фрагмента времени/частоты должна выполняться только одна операция взвешивания с определенным направленным усилением Gl m с определенной информацией Ψ о диффузности. Таким образом, компоненты звукового поля высокого порядка могут быть сгенерированы чрезвычайно эффективно и быстро, а любая ошибка, связанная с отсутствием генерирования диффузных компонент или неиспользованием диффузных компонент в выходном сигнале, легко компенсируется за счет усиления компонент звукового поля низкого порядка или предпочтительно только диффузной части компонент звукового поля среднего порядка.The generation of only the straight part is illustrated in FIG. 11 for the high order component generator. Basically, the high order component generator is implemented in the same way as the medium order component generator with respect to the direct branch, but does not contain blocks 823, 824, 825, and 826. Thus, the high order component generator contains only a weight processing block 822 (direct component) receiving input from the directional gain calculator 410 and receiving a reference signal from the reference signal generator 821. Preferably, only one reference signal is generated for the high order component generator and the medium order component generator. However, both units can also have individual reference generators, depending on the circumstances. However, it is preferable to have only one reference signal generator. Thus, the processing performed by the high-order component generator is extremely efficient, since only one weighting operation with a specific directional gain G l m with specific diffuseness information Ψ needs to be performed for a time/frequency slice. In this way, high order sound field components can be generated extremely efficiently and quickly, and any error associated with not generating diffuse components or not using diffuse components in the output signal is easily compensated for by amplifying the low order sound field components, or preferably only the diffuse part of the components. sound field of medium order.

Обычно диффузная часть не будет доступна отдельно в компонентах звукового поля низкого порядка, генерируемых копированием или выполнением (взвешенной) линейной комбинации. Однако увеличение энергии таких компонент автоматически увеличивает энергию диффузной части. Как выяснили изобретатели, одновременное повышение энергии прямой части проблемой не является.Normally the diffuse part will not be available separately in the low order sound field components generated by copying or performing a (weighted) linear combination. However, an increase in the energy of such components automatically increases the energy of the diffuse part. As the inventors found out, the simultaneous increase in the energy of the direct part is not a problem.

Далее делается ссылка на Фиг. с 12a по 12c для того, чтобы дополнительно проиллюстрировать вычисление отдельных компенсационных усилений.Next, reference is made to FIG. 12a to 12c to further illustrate the calculation of individual compensation gains.

Фиг. 12a иллюстрирует предпочтительную реализацию генератора 650 звуковых компонент с Фиг. 6. Компенсационное усиление (диффузное) вычисляется в одном варианте осуществления с использованием значения диффузности, максимального порядка H и порядка L отсечения. В другом варианте осуществления диффузное компенсационное усиление вычисляется с использованием параметра Lk, выводимого из числа компонент в ветви 810 обработки низкого порядка. Кроме того, параметр mk используется в зависимости от параметра lk и числа K компонент, фактически генерируемых генератором компонент низкого порядка. Кроме того, также используется значение N, зависящее от Lk. Оба значения H, L в первом варианте осуществления или H, Lk, mk обычно представляют число компонент звукового поля во второй группе (связанное с числом звуковых компонент в первой группе). Таким образом, чем больше компонент, для которых диффузная компонента не синтезируется, тем выше будет компенсационное усиление энергии. С другой стороны, чем больше число компонент звукового поля низкого порядка, которые могут быть компенсированы, т.е. умножены на коэффициент усиления, тем этот коэффициент усиления может быть ниже. Как правило, коэффициент g усиления всегда будет больше 1.Fig. 12a illustrates a preferred implementation of the audio component generator 650 of FIG. 6. Compensation gain (diffuse) is calculated in one embodiment using diffuseness value, maximum order H, and cutoff order L. In another embodiment, the diffuse compensation gain is calculated using the parameter L k derived from the number of components in the low order processing branch 810. In addition, the parameter mk is used depending on the parameter lk and the number K of components actually generated by the low-order component generator. In addition, the value of N, depending on L k , is also used. Both H, L in the first embodiment or H, Lk, mk generally represent the number of sound field components in the second group (related to the number of sound components in the first group). Thus, the more components for which the diffuse component is not synthesized, the higher the compensatory energy gain will be. On the other hand, the greater the number of low-order sound field components that can be compensated, i.e. multiplied by the gain, the lower this gain may be. Typically, the gain g will always be greater than 1.

Фиг. 12a иллюстрирует вычисление коэффициента g усиления вычислителем 910 (диффузного) компенсационного усиления и последующее применение этого коэффициента усиления к компоненте (низкого порядка), которая подлежит «корректировке», как это делается блоком 900 применения компенсационного усиления. В случае линейных чисел блок применения компенсационного усиления будет умножителем, а в случае логарифмических чисел блок применения компенсационного усиления будет сумматором. Однако другие реализации применения компенсационного усиления могут быть реализованы в зависимости от конкретной природы и способа вычисления компенсационного усиления блоком 910. Таким образом, усиление не обязательно должно быть мультипликативным, но также может быть любым другим усилением.Fig. 12a illustrates the calculation of the gain factor g by the (diffuse) equalization gain calculator 910 and then applying this gain to the (low order) component to be "adjusted", as done by the equalization gain application block 900. In the case of linear numbers, the compensation gain block will be a multiplier, and in the case of logarithmic numbers, the compensation gain block will be an adder. However, other implementations of applying the compensation gain may be implemented depending on the specific nature and manner in which the compensation gain is calculated by block 910. Thus, the gain need not be a multiplicative gain, but may also be any other gain.

Фиг. 12b иллюстрирует третью реализацию обработки (прямого) компенсационного усиления. Вычислитель 920 (прямого) компенсационного усиления принимает в качестве ввода связанный с энергией или амплитудой показатель для всенаправленной компоненты, указанный как «всенаправленная мощность» на Фиг. 12b. Кроме того, второй связанный с энергией или амплитудой показатель для направленной компоненты также вводится в блок 920 в качестве «направленной мощности». Кроме того, вычислитель 920 прямого компенсационного усиления дополнительно принимает информацию QL или, в качестве альтернативы, информацию N. N равно (2l+1), что является числом коэффициентов на порядок l, а Ql равно 1/N. Кроме того, направленное усиление Gl m для некоторого фрагмента времени/частоты (k, n) также требуется для вычисления (прямого) компенсационного усиления. Направленное усиление представляет собой те же данные, которые, например, были выведены вычислителем 410 направленного усиления с Фиг. 4. (Прямое) компенсационное усиление gs пересылается из блока 920 в блок 900 применения компенсационного усиления, который может быть реализован аналогично блоку 900, т.е. принимает компоненту(ы), которая подлежит «корректировке», и выводит скорректированную компоненту(ы).Fig. 12b illustrates a third implementation of (direct) equalization gain processing. The (forward) compensation gain calculator 920 takes as input an energy or amplitude related metric for the omnidirectional component, referred to as "omnidirectional power" in FIG. 12b. In addition, a second energy or amplitude related metric for the directional component is also entered in block 920 as "directional power". In addition, direct gain compensation calculator 920 further receives QL information, or alternatively N information. N is (2l+1), which is the number of coefficients per order of l , and Ql is 1/N. In addition, a directional gain G l m for some time/frequency slice (k, n) is also required to calculate the (direct) compensation gain. The directional gain is the same data that was output by the directional gain calculator 410 in FIG. 4. The (direct) equalization gain g s is passed from block 920 to the equalization gain application block 900, which can be implemented similarly to block 900, i. takes the component(s) to be "corrected" and outputs the corrected component(s).

Фиг. 12c иллюстрирует предпочтительную реализацию комбинации компенсации энергии компонент диффузного звука и нормализации энергии компенсации компонент прямого звука, которые должны быть выполнены совместно. С этой целью (диффузное) компенсационное усиление g и (прямое) компенсационное усиление gs вводятся в объединитель 930 усилений. Результат объединителя усилений (т.е. объединенное усиление) вводится в блок 940 манипулирования усилением, который реализован как постпроцессор и выполняет ограничение минимальным или максимальным значением, или который применяет функцию сжатия для выполнения некоторого в своем роде более мягкого ограничения, или выполняет сглаживание временных или частотных фрагментов. Подвергнутое манипуляции усиление, которое ограничено, сжато, или сглажено или обработано другими способами постобработки, затем применяется блоком применения усиления к компоненте(ам) низкого порядка для получения скорректированной компоненты(компонент) низкого порядка.Fig. 12c illustrates a preferred implementation of a combination of diffuse sound component energy compensation and direct sound component compensation energy normalization to be performed together. To this end, a (diffuse) equalization gain g and a (direct) equalization gain g s are introduced into a gain combiner 930 . The result of the gain combiner (i.e., the combined gain) is input to a gain keyer 940, which is implemented as a post-processor and performs a minimum or maximum limit, or which applies a compression function to perform some sort of softer clipping, or performs temporal smoothing or smoothing. frequency fragments. The manipulated gain, which is clipped, compressed, or smoothed or processed in other post-processing techniques, is then applied by the gain applicator to the low order component(s) to obtain the corrected low order component(s).

В случае линейных усилений g, gs, объединитель 930 усилений реализуется как умножитель. В случае логарифмических усилений, объединитель усилений реализуется как сумматор. Кроме того, что касается реализации блока оценки с Фиг. 7, указанного ссылочной позицией 620, показано, что блок 620 оценки может обеспечивать любые связанные с энергией или амплитудой показатели для всенаправленной и направленной компонент до тех пор, пока степень, применяемая к амплитуде, больше 1. В случае мощности в качестве связанного с энергией или амплитудой показателя, показатель степени равняется 2. Однако также могут быть полезны показатели степени от 1,5 до 2,5. Кроме того, полезны даже более высокие показатели степени или степени, такие как степень 3, применяемая к амплитуде, соответствующей значению громкости, а не значению мощности. Таким образом, как правило, степени 2 или 3 являются предпочтительными для обеспечения связанных с энергией или амплитудой показателей, но также обычно предпочтительны степени от 1,5 до 4.In the case of linear gains g, g s , the gain combiner 930 is implemented as a multiplier. In the case of logarithmic gains, the gain combiner is implemented as an adder. In addition, with regard to the implementation of the estimator of FIG. 7 indicated by numeral 620, it is shown that estimator 620 can provide any energy or amplitude related metrics for the omnidirectional and directional components as long as the power applied to the amplitude is greater than 1. In the case of power as energy related or amplitude of the exponent, the exponent is 2. However, exponents of 1.5 to 2.5 can also be useful. In addition, even higher exponents or exponents are useful, such as a power of 3 applied to the amplitude corresponding to the loudness value rather than the power value. Thus, powers of 2 or 3 are generally preferred for energy or amplitude related performance, but powers of 1.5 to 4 are also generally preferred.

Далее кратко излагаются несколько примеров аспектов изобретения.The following is a summary of several examples of aspects of the invention.

Основной пример 1a для первого аспекта (компенсация энергии для компонент диффузного звука)Basic example 1a for the first aspect (energy compensation for diffuse sound components)

1a. Устройство для генерирования описания звукового поля из входного сигнала, содержащего один или более каналов, причем устройство содержит:1a. A device for generating a sound field description from an input signal containing one or more channels, the device comprising:

анализатор входного сигнала для получения данных о диффузности из входного сигнала;an input signal analyzer for obtaining diffuseness data from the input signal;

генератор звуковых компонент для генерирования из входного сигнала одной или более компонент звукового поля первой группы компонент звукового поля, имеющей для каждой компоненты звукового поля прямую компоненту и диффузную компоненту, и для генерирования из входного сигнала второй группы компонент звукового поля, имеющих только прямую компоненту,an audio component generator for generating from the input signal one or more sound field components of the first group of sound field components having a direct component and a diffuse component for each sound field component, and for generating from the input signal of the second group of sound field components having only a direct component,

при этом генератор звуковых компонент выполнен с возможностью выполнять компенсацию энергии при генерировании первой группы компонент звукового поля, причем компенсация энергии зависит от данных о диффузности и числа компонент звукового поля во второй группе.wherein the sound component generator is configured to perform energy compensation when generating the first group of sound field components, wherein the energy compensation depends on diffuseness data and the number of sound field components in the second group.

Основной пример 1b для второго аспекта (нормализация энергии для прямых компонент сигнала)Basic example 1b for the second aspect (energy normalization for direct signal components)

1b. Устройство для генерирования описания звукового поля из входного сигнала, содержащего по меньшей мере два канала, причем устройство содержит:1b. A device for generating a sound field description from an input signal containing at least two channels, the device comprising:

анализатор входного сигнала для получения данных о направлении и данных о диффузности из входного сигнала;an input signal analyzer for obtaining direction data and diffuseness data from the input signal;

блок оценки для оценки первого связанного с амплитудой показателя для всенаправленной компоненты, выведенной из входного сигнала, и для оценки второго связанного с амплитудой показателя для направленной компоненты, выведенной из входного сигнала, иan estimator for estimating a first amplitude-related metric for the omnidirectional component derived from the input signal and for estimating a second amplitude-related metric for the directional component derived from the input signal, and

генератор звуковых компонент для генерирования компонент звукового поля для звукового поля, причем генератор звуковых компонент выполнен с возможностью выполнения компенсации энергии направленной компоненты с использованием первого связанного с амплитудой показателя, второго связанного с амплитудой показателя, данных о направлении и данных о диффузности.an audio component generator for generating sound field components for the sound field, the audio component generator being configured to perform directional component energy compensation using the first amplitude related metric, the second amplitude related metric, direction data, and diffuseness data.

Основной пример 1c для третьего аспекта: Реализация системы с ветвями разных генераторовBasic example 1c for the third aspect: Implementation of a system with branches of different generators

1c. Устройство для генерирования описания звукового поля с использованием входного сигнала, содержащего моносигнал или многоканальный сигнал, причем устройство содержит:1c. A device for generating a sound field description using an input signal containing a mono signal or a multi-channel signal, the device comprising:

анализатор входного сигнала для анализа входного сигнала для выведения данных о направлении и данных о диффузности;an input signal analyzer for analyzing the input signal for deriving direction data and diffuseness data;

генератор компонент низкого порядка для генерирования звукового описания низкого порядка из входного сигнала вплоть до предопределенного порядка и моды, при этом генератор компонент низкого порядка выполнен с возможностью выведения звукового описания низкого порядка посредством копирования входного сигнала или посредством выполнения взвешенной комбинации каналов входного сигнала;a low order component generator for generating a low order audio description from the input signal up to a predetermined order and mode, the low order component generator being configured to derive the low order audio description by copying the input signal or by performing a weighted channel combination of the input signal;

генератор компонент среднего порядка для генерирования звукового описания среднего порядка, которое выше предопределенного порядок или с предопределенным порядком и выше предопределенной моды и ниже или с первым порядком отсечения, используя синтез по меньшей мере одной прямой компоненты и по меньшей мере одной диффузной компоненты, с использованием данных о направлении и данных о диффузности, так что звуковое описание среднего порядка содержит прямой вклад и диффузный вклад; иa mean order component generator for generating a mean order audio description that is above a predetermined order or with a predetermined order and above a predetermined mode and below or with a first cutoff order using synthesis of at least one direct component and at least one diffuse component using data about the direction and diffuseness data, so that the sound description of the average order contains a direct contribution and a diffuse contribution; and

генератор компонент высокого порядка для генерирования звукового описания высокого порядка, имеющего компоненту, которая выше первого порядка отсечения, используя синтез по меньшей мере одной прямой компоненты без синтеза какой-либо диффузной компоненты, так что звуковое описание высокого порядка имеет только прямой вклад.a high order component generator for generating a high order audio description having a component that is above the first cutoff order using synthesis of at least one direct component without synthesizing any diffuse component such that the high order audio description has only a direct contribution.

2. Устройство по примерам 1a, 1b, 1c,2. Device according to examples 1a, 1b, 1c,

в котором звуковое описание низкого порядка, звуковое описание среднего порядка или звуковое описание высокого порядка содержат компоненты звукового поля выходного звукового поля, которые являются ортогональными, так что любые два звуковых описания не содержат одни и те же компоненты звукового поля, илиin which the low order audio description, the medium order audio description, or the high order audio description contain sound field components of the output sound field that are orthogonal such that any two audio descriptions do not contain the same sound field components, or

при этом генератор компонент среднего порядка генерирует компоненты ниже или с первым порядком отсечения, не используемым генератором компонент низкого порядка.wherein the medium order component generator generates components below or with a first cutoff order not used by the low order component generator.

3. Устройство по одному из предшествующих примеров, содержащее:3. The device according to one of the previous examples, containing:

прием входного сигнала понижающего микширования, имеющего один или более аудиоканалов, которые представляют звуковое полеreceiving a downmix input signal having one or more audio channels that represent the sound field

прием или определение одного или более направлений звука, которые представляют звуковое поле;receiving or determining one or more sound directions that represent the sound field;

оценку одной или более пространственных базисных функций с использованием одного или более направлений звука;evaluating one or more spatial basis functions using one or more sound directions;

выведение первого набора одной или более компонент звукового поля из первой взвешенной комбинации каналов входного сигнала понижающего микширования.deriving a first set of one or more sound field components from the first weighted channel combination of the downmix input signal.

выведение второго набора одной или более прямых компонент звукового поля из второй взвешенной комбинации каналов входного сигнала понижающего микширования и одной или более оцененных пространственных базисных функций.deriving a second set of one or more direct sound field components from a second weighted combination of downmix input signal channels and one or more estimated spatial basis functions.

объединение первого набора одной или более компонент звукового поля и второго набора одной или более компонент звукового поля.combining the first set of one or more sound field components and the second set of one or more sound field components.

4. Устройство по одному из предшествующих примеров, при этом первый и второй наборы компонент звукового поля ортогональны.4. The device according to one of the preceding examples, wherein the first and second sets of sound field components are orthogonal.

5. Устройство по одному из предшествующих примеров, при этом компоненты звукового поля являются коэффициентами ортогональных базисных функций.5. The device according to one of the preceding examples, wherein the sound field components are coefficients of orthogonal basis functions.

6. Устройство по одному из предшествующих примеров, при этом компоненты звукового поля являются коэффициентами пространственных базисных функций.6. The device according to one of the preceding examples, wherein the sound field components are the coefficients of the spatial basis functions.

7. Устройство по одному из предшествующих примеров, при этом компоненты звукового поля являются коэффициентами сферических или круговых гармоник.7. An arrangement according to one of the preceding examples, wherein the sound field components are spherical or circular harmonic coefficients.

8. Устройство по одному из предшествующих примеров, при этом компоненты звукового поля являются амбисоническими коэффициентами.8. The device according to one of the preceding examples, wherein the sound field components are ambisonic coefficients.

9. Устройство по одному из предшествующих примеров, при этом входной сигнал понижающего микширования имеет менее трех аудиоканалов.9. Apparatus as in one of the preceding examples, wherein the downmix input signal has less than three audio channels.

10. Устройство по одному из предшествующих примеров, дополнительно содержащее:10. The device according to one of the preceding examples, further comprising:

прием или определение значения диффузности;receiving or determining the value of diffuseness;

генерирование одной или более компонент диффузного звука в зависимости от значения диффузности; иgenerating one or more diffuse sound components depending on the diffuse value; and

объединение одной или более компонент диффузного звука со вторым набором одной или более прямых компонент звукового поля;combining one or more diffuse sound components with a second set of one or more direct sound field components;

11. Устройство по одному из предшествующих примеров, в котором генератор диффузных компонент дополнительно содержит декоррелятор для декорреляции информации о диффузном звуке.11. The apparatus of one of the preceding examples, wherein the diffuse component generator further comprises a decorrelator for decorrelating diffuse sound information.

12. Устройство по одному из предшествующих примеров, при этом первый набор одной или более компонент звукового поля выводятся из значения диффузности.12. The apparatus of one of the preceding examples, wherein a first set of one or more sound field components are derived from a diffuseness value.

13. Устройство по одному из предшествующих примеров, при этом первый набор одной или более компонент звукового поля выводятся из одного или более направлений звука.13. The apparatus of one of the preceding examples, wherein a first set of one or more sound field components are output from one or more directions of sound.

14. Устройство по одному из предшествующих примеров, которое осуществляет выведение зависимых от частоты и времени направлений звука.14. An apparatus according to one of the preceding examples, which derives frequency and time dependent sound directions.

15. Устройство по одному из предшествующих примеров, которое осуществляет выведение зависимых от частоты и времени значений диффузности.15. An apparatus according to one of the preceding examples which derives frequency and time dependent diffuseness values.

16. Устройство по одному из предшествующих примеров, дополнительно содержащее: разложение множества каналов сигнала понижающего микширования во временной области в частотное представление, имеющее множество частотно-временных фрагментов.16. The apparatus of one of the preceding examples, further comprising: decomposing a plurality of time domain downmix signal channels into a frequency representation having a plurality of time-frequency slices.

17. Способ для генерирования описания звукового поля из входного сигнала, содержащего один или более каналов, содержащий:17. A method for generating a sound field description from an input signal containing one or more channels, comprising:

получение данных о диффузности из входного сигнала;obtaining diffuseness data from the input signal;

генерирование из входного сигнала одной или более компонент звукового поля первой группы компонент звукового поля, имеющей для каждой компоненты звукового поля прямую компоненту и диффузную компоненту, и генерирование из входного сигнала второй группы компонент звукового поля, имеющих только прямую компоненту,generating from the input signal one or more sound field components of a first group of sound field components having a direct component and a diffuse component for each sound field component, and generating from the input signal of a second group of sound field components having only a direct component,

при этом генерирование содержит выполнение компенсации энергии при генерировании первой группы компонент звукового поля, причем компенсация энергии зависит от данных о диффузности и числа компонент звукового поля во второй группе.wherein the generation comprises performing an energy compensation when generating the first group of sound field components, wherein the energy compensation depends on the diffuseness data and the number of sound field components in the second group.

18. Способ для генерирования описания звукового поля из входного сигнала, содержащего по меньшей мере два канала, содержащий:18. A method for generating a sound field description from an input signal containing at least two channels, comprising:

получение данных о направлении и данных о диффузности из входного сигнала;obtaining direction data and diffuseness data from the input signal;

оценку первого связанного с амплитудой показателя для всенаправленной компоненты, выведенной из входного сигнала, и оценку второго связанного с амплитудой показателя для направленной компоненты, выведенной из входного сигнала, иestimating a first amplitude-related metric for the omnidirectional component derived from the input signal and estimating a second amplitude-related metric for the directional component derived from the input signal, and

генерирование компонент звукового поля для звукового поля, при этом генератор звуковых компонент выполнен с возможностью выполнения компенсации энергии направленной компоненты с использованием первого связанного с амплитудой показателя, второго связанного с амплитудой показателя, данных о направлении и данных о диффузности.generating sound field components for the sound field, wherein the sound component generator is configured to perform directional component energy compensation using the first amplitude related metric, the second amplitude related metric, direction data, and diffuseness data.

19. Способ для генерирования описания звукового поля с использованием входного сигнала, содержащего моносигнал или многоканальный сигнал, причем способ содержит:19. A method for generating a sound field description using an input signal containing a mono signal or a multi-channel signal, the method comprising:

анализ входного сигнала для выведения данных о направлении и данных о диффузности;analyzing the input signal to derive direction data and diffuseness data;

генерирование звукового описания низкого порядка из входного сигнала вплоть до предопределенного порядка и моды, при этом генератор низкого порядка выполнен с возможностью выведения звукового описания низкого порядка посредством копирования входного сигнала или выполнения взвешенной комбинации каналов входного сигнала;generating a low order audio description from the input signal up to a predetermined order and mode, wherein the low order generator is configured to derive the low order audio description by copying the input signal or performing a weighted channel combination of the input signal;

генерирование звукового описания среднего порядка, которое выше предопределенного порядка или с предопределенным порядком и выше предопределенной моды и ниже высокого порядка, используя синтез по меньшей мере одной прямой части и по меньшей мере одной диффузной части, с использованием данных о направлении и данных о диффузности, так что звуковое описание среднего порядка содержит прямой вклад и диффузный вклад; иgenerating a medium order audio description that is above a predetermined order or with a predetermined order and above a predetermined mode and below a high order using synthesis of at least one direct part and at least one diffuse part using direction data and diffuseness data, so that the sound description of the mean order contains a direct contribution and a diffuse contribution; and

генерирование звукового описания высокого порядка, имеющего компоненту, которая имеет или выше высокого порядка, используя синтез по меньшей мере одной прямой части без синтеза какой-либо диффузной компоненты, так что звуковое описание высокого порядка содержит только прямой вклад.generating a high order audio description having a component that is at or above a high order using synthesis of at least one direct part without synthesizing any diffuse component such that the high order audio description contains only the direct contribution.

20. Компьютерная программа для выполнения при работе на компьютере или процессоре способа по одному из примеров 17, 18 или 19.20. Computer program for execution when running on a computer or processor of the method according to one of examples 17, 18 or 19.

Здесь следует упомянуть, что все альтернативы или аспекты, которые описаны выше, а также все аспекты, определенные независимыми пунктами в нижеследующей формуле изобретения, могут использоваться индивидуально, то есть без какой-либо другой альтернативы или объекта, кроме предполагаемой альтернативы, объекта или независимого пункта. Однако в других вариантах осуществления две или более альтернатив или аспектов или независимых пунктов формулы изобретения могут быть объединены друг с другом, а в других вариантах осуществления все аспекты или альтернативы и все независимые пункты формулы изобретения могут быть объединены друг с другом.It should be mentioned here that all alternatives or aspects that are described above, as well as all aspects defined by independent claims in the following claims, can be used individually, that is, without any other alternative or subject, except for the intended alternative, subject or independent claim. . However, in other embodiments, two or more alternatives or aspects or independent claims may be combined with each other, and in other embodiments, all aspects or alternatives and all independent claims may be combined with each other.

Кодированный согласно изобретению аудиосигнал может быть сохранен на цифровом носителе данных или энергонезависимом носителе данных или может быть передан в среде передачи, такой как беспроводная среда передачи, или проводная среда передачи, такая как Интернет.The audio signal encoded according to the invention may be stored on a digital storage medium or a non-volatile storage medium, or may be transmitted over a transmission medium such as a wireless transmission medium or a wired transmission medium such as the Internet.

Хотя некоторые аспекты были описаны в контексте устройства, ясно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствуют этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют собой описание соответствующего блока, элемента или признака соответствующего устройства.Although some aspects have been described in the context of a device, it is clear that these aspects also represent a description of the corresponding method, with the block or device corresponding to a method step or a feature of a method step. Likewise, aspects described in the context of a method step are also descriptions of the respective block, element, or feature of the respective device.

В зависимости от определенных требований к реализации варианты осуществления изобретения могут быть реализованы аппаратно или программно. Реализация может быть выполнена с использованием цифрового носителя данных, например дискеты, DVD, CD, ROM, PROM, EPROM, EEPROM или FLASH-памяти, на которых хранятся электронно-читаемые управляющие сигналы, которые взаимодействуют между собой (или способны взаимодействовать) с программируемой компьютерной системой, чтобы выполнялся соответствующий способ.Depending on certain implementation requirements, embodiments of the invention may be implemented in hardware or software. The implementation may be carried out using a digital storage medium, such as a floppy disk, DVD, CD, ROM, PROM, EPROM, EEPROM, or FLASH memory, which stores electronically readable control signals that interact (or are capable of interacting) with a programmable computer. system to execute the appropriate method.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронно-читаемые управляющие сигналы, которые способны взаимодействовать с программируемой компьютерной системой, так что выполняется один из описанных в данном документе способов.Some embodiments of the invention comprise a storage medium having electronically readable control signals that are capable of interfacing with a programmable computer system such that one of the methods described herein is performed.

Как правило, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программный код действует для выполнения одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может, например, храниться на машиночитаемом носителе.Typically, embodiments of the present invention may be implemented as a computer program product with program code, the program code being operable to perform one of the methods when the computer program product is running on the computer. The program code may, for example, be stored on a computer-readable medium.

Другие варианты осуществления содержат компьютерную программу для выполнения одного из описанных в данном документе способов, хранящуюся на машиночитаемом носителе или энергонезависимом запоминающем носителе.Other embodiments include a computer program for performing one of the methods described herein, stored on a computer-readable medium or non-volatile storage medium.

Другими словами, вариант осуществления способа по настоящему изобретению представляет собой компьютерную программу, имеющую программный код для выполнения одного из описанных здесь способов, когда компьютерная программа выполняется на компьютере.In other words, an embodiment of the method of the present invention is a computer program having program code for performing one of the methods described herein when the computer program is executed on a computer.

Следовательно, дополнительным вариантом осуществления способов согласно изобретению является носитель данных (или цифровой носитель данных, или считываемый компьютером носитель), содержащий записанную на нем компьютерную программу для выполнения одного из способов, описанных в данном документе.Therefore, a further embodiment of the methods of the invention is a storage medium (either a digital storage medium or a computer-readable medium) containing a computer program recorded thereon for performing one of the methods described herein.

Таким образом, дополнительный вариант осуществления способа по настоящему изобретению представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в данном документе. Поток данных или последовательность сигналов могут, например, быть сконфигурированы для передачи через соединение для передачи данных, например, через Интернет.Thus, a further embodiment of the method of the present invention is a data stream or sequence of signals representing a computer program for performing one of the methods described herein. The data stream or sequence of signals may, for example, be configured to be transmitted over a data connection, such as the Internet.

Дополнительный вариант осуществления содержит средство обработки, например компьютер, или программируемое логическое устройство, выполненное с возможностью или адаптированное для выполнения одного из способов, описанных в данном документе.An additional embodiment comprises a processing means, such as a computer or a programmable logic device, configured or adapted to perform one of the methods described herein.

Еще один вариант осуществления включает в себя компьютер, на котором установлена компьютерная программа для выполнения одного из описанных в данном документе способов.Yet another embodiment includes a computer on which a computer program is installed to perform one of the methods described herein.

В некоторых вариантах осуществления можно использовать программируемое логическое устройство (например, программируемую пользователем вентильную матрицу) для выполнения некоторых или всех функциональных возможностей, описанных в данном документе способов. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для выполнения одного из описанных в данном документе способов. Обычно способы предпочтительно выполняются с помощью любого аппаратного устройства.In some embodiments, a programmable logic device (eg, a field programmable gate array) may be used to perform some or all of the functionality of the methods described herein. In some embodiments, a user-programmable gate array may communicate with a microprocessor to perform one of the methods described herein. In general, the methods are preferably performed using any hardware device.

Вышеописанные варианты осуществления являются просто иллюстрацией принципов настоящего изобретения. Понятно, что модификации и изменения компоновок и деталей, описанных в данном документе, будут очевидны другим специалистам в данной области техники. Таким образом, имеется намерение ограничиваться только объемом прилагаемой формулы изобретения, а не конкретными деталями, представленными в качестве описания и пояснения вариантов осуществления в данном описании.The above embodiments are merely illustrative of the principles of the present invention. It is understood that modifications and changes to the arrangements and details described herein will be apparent to others skilled in the art. Thus, it is intended to be limited only by the scope of the appended claims, and not by the specific details provided as a description and explanation of the embodiments herein.

Источники информацииSources of information

[1] V. Pulkki, M-V Laitinen, J Vilkamo, J Ahonen, T Lokki and T Pihlajamäki, “Directional audio coding - perception-based reproduction of spatial sound”, International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japan.[1] V. Pulkki, M-V Laitinen, J Vilkamo, J Ahonen, T Lokki and T Pihlajamäki, “Directional audio coding - perception-based reproduction of spatial sound”, International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi Japan.

[2] M. V. Laitinen and V. Pulkki, "Converting 5.1 audio recordings to B-format for directional audio coding reproduction," 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, 2011, pp. 61-64.[2] M. V. Laitinen and V. Pulkki, "Converting 5.1 audio recordings to B-format for directional audio coding reproduction," 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, 2011, pp. 61-64.

[3] R. K. Furness, "Ambisonics - An overview," in AES 8th International Conference, April 1990, pp. 181-189.[3] R. K. Furness, "Ambisonics - An overview," in AES 8th International Conference, April 1990, pp. 181-189.

[4] C. Nachbar, F. Zotter, E. Deleflie, and A. Sontacchi, "AMBIX - A Suggested Ambisonics Format", Proceedings of the Ambisonics Symposium 2011.[4] C. Nachbar, F. Zotter, E. Deleflie, and A. Sontacchi, "AMBIX - A Suggested Ambisonics Format", Proceedings of the Ambisonics Symposium 2011.

[5] "APPARATUS, METHOD OR COMPUTER PROGRAM FOR GENERATING A SOUND FIELD DESCRIPTION" (соответствующая документу WO 2017/157803 A1). [5] "APPARATUS, METHOD OR COMPUTER PROGRAM FOR GENERATING A SOUND FIELD DESCRIPTION" (corresponding to WO 2017/157803 A1).

Claims (47)

1. Устройство для генерирования описания звукового поля из входного сигнала, содержащего по меньшей мере два канала, причем устройство содержит:1. A device for generating a sound field description from an input signal containing at least two channels, the device comprising: анализатор (600) входного сигнала для получения данных о направлении и данных о диффузности из входного сигнала;an input signal analyzer (600) for obtaining direction data and diffuseness data from the input signal; блок (620) оценки для оценки первого связанного с энергией или энергией или амплитудой показателя для всенаправленной компоненты, выводимой из входного сигнала, и для оценки второго связанного с энергией или амплитудой показателя для направленной компоненты, выводимой из входного сигнала, иan estimator (620) for estimating a first energy or energy or amplitude related metric for the omnidirectional component output from the input signal and for estimating a second energy or amplitude related metric for the directional component output from the input signal, and генератор (750) звуковых компонент для генерирования компонент звукового поля для звукового поля, при этом генератор звуковых компонент выполнен с возможностью выполнения компенсации энергии направленной компоненты с использованием первого связанного с энергией или амплитудой показателя, второго связанного с энергией или амплитудой показателя, данных о направлении и данных о диффузности.a sound component generator (750) for generating sound field components for the sound field, wherein the sound component generator is configured to perform directional component energy compensation using a first energy or amplitude related metric, a second energy or amplitude related metric, direction data, and diffusion data. 2. Устройство по п. 1, в котором входной сигнал содержит по меньшей мере два канала, при этом блок (620) оценки выполнен с возможностью вычисления всенаправленной компоненты с использованием сложения по меньшей мере двух каналов, и вычисления направленной компоненты с использованием вычитания по меньшей мере двух каналов (815).2. The apparatus of claim 1, wherein the input signal comprises at least two channels, wherein the estimator (620) is configured to calculate an omnidirectional component using the addition of at least two channels, and calculate the directional component using a subtraction of at least least two channels (815). 3. Устройство по п. 1, в котором входной сигнал содержит всенаправленную компоненту и одну или более направленных компонент, и в котором блок (620) оценки выполнен с возможностью вычисления первого связанного с амплитудой показателя для всенаправленной компоненты с использованием входного сигнала и вычисления второго связанного с энергией или амплитудой показателя для каждой из одной или более направленных компонент из входного сигнала. 3. The apparatus of claim 1, wherein the input signal comprises an omnidirectional component and one or more directional components, and wherein the estimator (620) is configured to compute a first amplitude-related metric for the omnidirectional component using the input signal and compute a second associated with the energy or magnitude of the exponent for each of the one or more directional components from the input signal. 4. Устройство по п. 1, в котором входной сигнал содержит представление A-формата или B-формата с по меньшей мере двумя каналами, и в котором блок (620) оценки выполнен с возможностью выведения (816) всенаправленной компоненты и направленных компонент с использованием взвешенного линейного комбинирования по меньшей мере двух каналов.4. The apparatus of claim 1, wherein the input signal comprises an A-format or B-format representation with at least two channels, and wherein the estimator (620) is configured to derive (816) an omnidirectional component and directional components using weighted linear combination of at least two channels. 5. Устройство по п. 1, в котором анализатор (600) входного сигнала выполнен с возможностью извлечения данных о диффузности из метаданных, ассоциированных с входным сигналом, или с возможностью извлечения данных о диффузности из входного сигнала посредством анализа (610, 620) сигнала собственно входного сигнала, имеющего по меньшей мере два (две) канала или компоненты.5. The apparatus of claim 1, wherein the input signal analyzer (600) is configured to extract diffuseness data from metadata associated with the input signal or to extract diffuseness data from the input signal by analyzing (610, 620) the signal itself. an input signal having at least two (two) channels or components. 6. Устройство по п. 1, в котором блок (620) оценки выполнен с возможностью вычисления первого связанного с энергией или амплитудой показателя или второго связанного с энергией или амплитудой показателя из абсолютного значения комплексной амплитуды или величины, возведенной в степень, которая больше 1 и меньше 5 или равна 2 или 3.6. The apparatus of claim 1, wherein the estimator (620) is configured to calculate the first energy or amplitude related metric or the second energy or amplitude related metric from the absolute value of the complex amplitude or power raised to a power greater than 1 and less than 5 or equal to 2 or 3. 7. Устройство по п. 1,7. The device according to claim 1, при этом генератор (750) звуковых компонент содержит компенсатор (900-940) энергии для выполнения компенсации энергии, причем компенсатор энергии содержит вычислитель (910, 920, 930, 940) компенсационного усиления для вычисления компенсационного усиления с использованием первого связанного с энергией или амплитудой показателя, второго связанного с энергией или амплитудой показателя, данных о направлении и данных о диффузности.wherein the audio component generator (750) comprises an energy compensator (900-940) for performing energy compensation, wherein the energy compensator comprises a compensation gain calculator (910, 920, 930, 940) for calculating the compensation gain using the first energy or amplitude-related indicator , a second energy- or amplitude-related metric, direction data, and diffuseness data. 8. Устройство по п. 1, в котором генератор (750) звуковых компонент выполнен с возможностью вычисления (410) из данных о направлении направленного усиления и объединения (920) направленного усиления и данных о диффузности для выполнения компенсации энергии.8. The apparatus of claim 1, wherein the audio component generator (750) is configured to compute (410) from the directional gain data and combine (920) the directional gain and diffuseness data to perform energy compensation. 9. Устройство по п. 1, в котором блок (620) оценки выполнен с возможностью оценивать второй связанный с энергией или амплитудой показатель для первой направленной компоненты и третий связанный с энергией или амплитудой показатель для второй направленной компоненты, вычислять первое компенсационное усиление для первой направленной компоненты с использованием первого и второго связанных с энергией или амплитудой показателей, и вычислять второе компенсационное усиление для второй направленной компоненты с использованием первого и третьего связанных с энергией или амплитудой показателей. 9. The apparatus of claim 1, wherein the estimator (620) is configured to evaluate the second energy or amplitude related metric for the first directional component and the third energy or amplitude related metric for the second directional component, calculate the first compensation gain for the first directional component. components using the first and second energy or amplitude related metrics, and calculate a second compensation gain for the second directional component using the first and third energy or amplitude related metrics. 10. Устройство по п. 9,10. The device according to claim 9, в котором вычислитель (910, 920) компенсационного усиления выполнен с возможностью вычисления (910) первого коэффициента усиления в зависимости от данных о диффузности и по меньшей мере одного из числа компонент звукового поля во второй группе, максимального порядка компонент звукового поля первой группы и максимального числа компонент звукового поля второй группы, вычисления (920) второго коэффициента усиления в зависимости от первого связанного с энергией или амплитудой показателя для всенаправленной компоненты, второго связанного с энергией или амплитудой показателя для направленной компоненты, данных о направлении и данных о диффузности, и вычисления (930) компенсационного усиления с использованием первого коэффициента усиления и второго коэффициента усиления,in which the compensation gain calculator (910, 920) is configured to calculate (910) the first gain factor depending on the diffuseness data and at least one of the number of sound field components in the second group, the maximum order of the sound field components of the first group and the maximum number sound field components of the second group, calculating (920) a second gain as a function of the first energy or amplitude related metric for the omnidirectional component, the second energy or amplitude related metric for the directional component, direction data and diffuseness data, and calculating (930 ) compensation gain using the first gain and the second gain, при этом генератор (750) звуковых компонент выполнен с возможностью использования тех же самых данных о направлении и данных о диффузности для вычисления первого компенсационного усиления и второго компенсационного усиления.wherein the audio component generator (750) is configured to use the same direction data and diffuseness data to calculate the first compensation gain and the second compensation gain. 11. Устройство по п. 7,11. The device according to claim 7, в котором вычислитель (910) компенсационного усиления выполнен с возможностью вычисления коэффициента усиления на основе следующего уравненияwherein the compensation gain calculator (910) is configured to calculate the gain based on the following equation
Figure 00000101
или
Figure 00000101
or
Figure 00000102
Figure 00000102
где Ψ представляет данные о диффузности,
Figure 00000103
представляет первый связанный с энергией или амплитудой показатель,
Figure 00000104
представляет второй связанный с энергией или амплитудой показатель,
Figure 00000105
представляет собой всенаправленную компоненту,
Figure 00000106
представляет собой направленную компоненту,
Figure 00000107
представляет собой усиление направления, выводимое из данных о направлении
Figure 00000108
,
Figure 00000109
представляет собой азимутальный угол,
Figure 00000110
представляет собой угол возвышения,
Figure 00000111
представляет собой коэффициент направленности порядка l, а gs представляет собой коэффициент усиления.
where Ψ represents diffuseness data,
Figure 00000103
represents the first energy or amplitude related metric,
Figure 00000104
represents the second energy- or amplitude-related metric,
Figure 00000105
is an omnidirectional component,
Figure 00000106
is a directional component,
Figure 00000107
is the direction gain inferred from the direction data
Figure 00000108
,
Figure 00000109
is the azimuth angle,
Figure 00000110
represents the angle of elevation,
Figure 00000111
is the directivity of the order of l, and g s is the gain.
12. Устройство по п. 7, в котором вычислитель (910) компенсационного усиления выполнен с возможностью12. The apparatus of claim 7, wherein the compensation gain calculator (910) is configured to увеличения компенсационного усиления при увеличении первого связанного с энергией или амплитудой показателя, илиincreasing the compensation gain by increasing the first energy- or amplitude-related metric, or уменьшения компенсационного усиления при увеличении второго связанного с энергией или амплитудой показателя, илиreducing the compensation gain while increasing the second energy- or amplitude-related metric, or увеличения компенсационного усиления с увеличением усиления направления, илиincreasing compensation gain with increasing directional gain, or увеличения компенсационного усиления при уменьшении числа направленных компонент.increase in compensation gain with a decrease in the number of directional components. 13. Устройство по п. 7,13. The device according to claim 7, в котором генератор (650) звуковых компонент предназначен для генерирования из входного сигнала одной или более компонент звукового поля первой группы компонент звукового поля, имеющей для каждой компоненты звукового поля прямую компоненту и диффузную компоненту, и для генерирования из входного сигнала второй группы компонент звукового поля, имеющих только прямую компоненту,wherein the audio component generator (650) is designed to generate from the input signal one or more sound field components of the first group of sound field components having a direct component and a diffuse component for each sound field component, and to generate from the input signal of the second group of sound field components, having only a direct component, при этом вычислитель (910) компенсационного усиления выполнен с возможностью вычисления компенсационного усиления с использованием данных о диффузности и по меньшей мере одного из числа компонент звукового поля во второй группе, числа диффузных компонент в первой группе, максимального порядка компонент звукового поля первой группы и максимального порядка компонент звукового поля второй группы. wherein the compensation gain calculator (910) is configured to calculate the compensation gain using diffuseness data and at least one of the number of sound field components in the second group, the number of diffuse components in the first group, the maximum order of the first group sound field components, and the maximum order sound field component of the second group. 14. Устройство по п. 7, в котором вычислитель (910, 920, 930, 940) компенсационного усиления выполнен с возможностью выполнения манипулирования (940) коэффициентом усиления с использованием ограничения с фиксированным максимальным порогом или фиксированным минимальным порогом, или с использованием функции сжатия для сжатия низких или высоких коэффициентов усиления до средних коэффициентов усиления, чтобы получить компенсационное усиление. 14. The apparatus of claim 7, wherein the compensation gain calculator (910, 920, 930, 940) is configured to perform gain manipulation (940) using a fixed maximum threshold or a fixed minimum threshold constraint, or using a compression function for compression of low or high gains to medium gains in order to obtain compensation gain. 15. Устройство по п. 1,15. The device according to claim 1, при этом генератор (750) звуковых компонент выполнен с возможностью генерирования других компонент звукового поля других порядков, при этом объединитель (430) выполнен с возможностью объединения компонент звукового поля определенного звукового поля и других компонент звукового поля других порядков для получения описания звукового поля, имеющего порядок выше, чем порядок входного сигнала.wherein the sound component generator (750) is configured to generate other sound field components of other orders, while the combiner (430) is configured to combine the sound field components of a certain sound field and other sound field components of other orders to obtain a description of the sound field having the order higher than the order of the input signal. 16. Устройство по п. 7, в котором компенсатор (910, 920, 930, 940) энергии содержит блок (900) применения компенсационного усиления для применения компенсационного усиления к по меньшей мере одной компоненте звукового поля.16. The apparatus of claim 7, wherein the energy compensator (910, 920, 930, 940) comprises a compensation gain application unit (900) for applying compensation gain to at least one sound field component. 17. Устройство по п. 1, в котором генератор (750) звуковых компонент содержит генератор (810) компонент низкого порядка для генерирования описания звукового поля низкого порядка из входного сигнала вплоть до предопределенного порядка и предопределенной моды, при этом генератор (810) компонент низкого порядка выполнен с возможностью выведения описания звукового поля низкого порядка посредством копирования или взятия входного сигнала или формирования взвешенной комбинации каналов входного сигнала, 17. The apparatus of claim 1, wherein the audio component generator (750) comprises a low order component generator (810) for generating a low order sound field description from an input signal up to a predetermined order and a predetermined mode, wherein the low order component generator (810) order is configured to derive a description of the low-order sound field by copying or taking the input signal or forming a weighted combination of channels of the input signal, при этом описание звукового поля низкого порядка содержит всенаправленную компоненту и направленную компоненту, генерируемую копированием, или взятием, или линейной комбинацией.wherein the description of the low order sound field contains an omnidirectional component and a directional component generated by copying or taking or linear combination. 18. Устройство по п. 17, в котором генератор (750) звуковых компонент дополнительно содержит:18. The apparatus of claim 17, wherein the audio component generator (750) further comprises: генератор (820) компонент среднего порядка для генерирования описания звукового поля среднего порядка выше упомянутого предопределенного порядка или с упомянутым предопределенным порядком и выше предопределенной моды и ниже или с первым порядком отсечения, используя синтез по меньшей мере одной прямой части и по меньшей мере одной диффузной части, с использованием данных о направлении и данных о диффузности, так что описание звукового поля среднего порядка содержит прямой вклад и диффузный вклад; иa mean order component generator (820) for generating a mean order sound field description above said predetermined order or with said predetermined order and above a predetermined mode and below or with a first cutoff order using synthesis of at least one direct part and at least one diffuse part , using direction data and diffuseness data, so that the mean-order sound field description contains a direct contribution and a diffuse contribution; and генератор (830) компонент высокого порядка для генерирования описания звукового поля высокого порядка, имеющего компоненту выше упомянутого первого порядка отсечения, используя синтез по меньшей мере одной прямой части, при этом описание звукового поля высокого порядка содержит только прямой вклад.a high order component generator (830) for generating a high order sound field description having a component of the above mentioned first cutoff order using synthesis of at least one direct part, wherein the high order sound field description contains only the direct contribution. 19. Устройство по п. 1,19. Device according to claim 1, в котором первая группа компонент звукового поля вплоть до порядка l коэффициентов и вторая группа компонент звукового поля выше этого порядка l коэффициентов ортогональны друг другу, или в котором компоненты звукового поля являются по меньшей мере одними из коэффициентов ортогональных базисных функций, коэффициентов пространственных базисных функций, коэффициентов сферических или круговых гармоник и амбисонических коэффициентов. in which the first group of sound field components up to the order of l coefficients and the second group of sound field components above this order of l coefficients are orthogonal to each other, or in which the sound field components are at least one of orthogonal basis function coefficients, spatial basis function coefficients, coefficients spherical or circular harmonics and ambisonic coefficients. 20. Устройство по п. 1,20. Device according to claim 1, блок (400) фильтров анализа для генерирования одной или более компонент звукового поля для множества различных частотно-временных фрагментов, при этом анализатор (600) входного сигнала выполнен с возможностью получения элемента данных о диффузности для каждого частотно-временного фрагмента, и при этом генератор (750) звуковых компонент выполнен с возможностью выполнения компенсации энергии отдельно для каждого частотно-временного фрагмента.an analysis filter block (400) for generating one or more sound field components for a plurality of different time-frequency fragments, while the input signal analyzer (600) is configured to obtain a diffuseness data element for each time-frequency fragment, and the generator ( 750) of the audio component is configured to perform energy compensation separately for each time-frequency chunk. 21. Способ для генерирования описания звукового поля из входного сигнала, содержащего по меньшей мере два канала, содержащий:21. A method for generating a sound field description from an input signal containing at least two channels, comprising: получение данных о направлении и данных о диффузности из входного сигнала;obtaining direction data and diffuseness data from the input signal; оценку первого связанного с энергией или амплитудой показателя для всенаправленной компоненты, выводимой из входного сигнала, и оценку второго связанного с энергией или амплитудой показателя для направленной компоненты, выводимой из входного сигнала, иestimating a first energy or amplitude related metric for the omnidirectional component output from the input signal and estimating a second energy or amplitude related metric for the directional component output from the input signal, and генерирование компонент звукового поля для звукового поля, при этом генератор звуковых компонент выполнен с возможностью выполнения компенсации энергии направленной компоненты с использованием первого связанного с энергией или амплитудой показателя, второго связанного с энергией или амплитудой показателя, данных о направлении и данных о диффузности.generating sound field components for the sound field, wherein the sound component generator is configured to perform directional component energy compensation using a first energy or amplitude related metric, a second energy or amplitude related metric, direction data, and diffuseness data. 22. Физический считываемый компьютером носитель данных, имеющий хранящуюся на нем компьютерную программу для выполнения при исполнении на компьютере или процессоре способа по п. 21.22. A physical computer-readable storage medium having a computer program stored thereon for execution when executed on a computer or processor of the method of claim 21.
RU2021118698A 2018-12-07 2019-12-06 Apparatus, method, and computer program for encoding, decoding, processing a scene, and for other procedures associated with dirac-based spatial audio coding using direct component compensation RU2782511C1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP18211064.3 2018-12-07

Publications (1)

Publication Number Publication Date
RU2782511C1 true RU2782511C1 (en) 2022-10-28

Family

ID=

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2497204C2 (en) * 2008-05-23 2013-10-27 Конинклейке Филипс Электроникс Н.В. Parametric stereophonic upmix apparatus, parametric stereophonic decoder, parametric stereophonic downmix apparatus, parametric stereophonic encoder
US8891797B2 (en) * 2009-05-08 2014-11-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio format transcoder
WO2015116666A1 (en) * 2014-01-30 2015-08-06 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US9691406B2 (en) * 2013-06-05 2017-06-27 Dolby Laboratories Licensing Corporation Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals
RU2663345C2 (en) * 2013-04-12 2018-08-03 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Apparatus and method for centre signal scaling and stereophonic enhancement based on signal-to-downmix ratio
US20180315432A1 (en) * 2015-11-17 2018-11-01 Dolby International Ab Method and apparatus for converting a channel-based 3d audio signal to an hoa audio signal

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2497204C2 (en) * 2008-05-23 2013-10-27 Конинклейке Филипс Электроникс Н.В. Parametric stereophonic upmix apparatus, parametric stereophonic decoder, parametric stereophonic downmix apparatus, parametric stereophonic encoder
US8891797B2 (en) * 2009-05-08 2014-11-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio format transcoder
RU2663345C2 (en) * 2013-04-12 2018-08-03 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Apparatus and method for centre signal scaling and stereophonic enhancement based on signal-to-downmix ratio
US9691406B2 (en) * 2013-06-05 2017-06-27 Dolby Laboratories Licensing Corporation Method for encoding audio signals, apparatus for encoding audio signals, method for decoding audio signals and apparatus for decoding audio signals
WO2015116666A1 (en) * 2014-01-30 2015-08-06 Qualcomm Incorporated Transitioning of ambient higher-order ambisonic coefficients
US20180315432A1 (en) * 2015-11-17 2018-11-01 Dolby International Ab Method and apparatus for converting a channel-based 3d audio signal to an hoa audio signal

Similar Documents

Publication Publication Date Title
US11838743B2 (en) Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to DirAC based spatial audio coding using diffuse compensation
RU2782511C1 (en) Apparatus, method, and computer program for encoding, decoding, processing a scene, and for other procedures associated with dirac-based spatial audio coding using direct component compensation
RU2779415C1 (en) Apparatus, method, and computer program for encoding, decoding, processing a scene, and for other procedures associated with dirac-based spatial audio coding using diffuse compensation
RU2772423C1 (en) Device, method and computer program for encoding, decoding, scene processing and other procedures related to spatial audio coding based on dirac using low-order, medium-order and high-order component generators