RU2772423C1 - Device, method and computer program for encoding, decoding, scene processing and other procedures related to spatial audio coding based on dirac using low-order, medium-order and high-order component generators - Google Patents
Device, method and computer program for encoding, decoding, scene processing and other procedures related to spatial audio coding based on dirac using low-order, medium-order and high-order component generators Download PDFInfo
- Publication number
- RU2772423C1 RU2772423C1 RU2021118694A RU2021118694A RU2772423C1 RU 2772423 C1 RU2772423 C1 RU 2772423C1 RU 2021118694 A RU2021118694 A RU 2021118694A RU 2021118694 A RU2021118694 A RU 2021118694A RU 2772423 C1 RU2772423 C1 RU 2772423C1
- Authority
- RU
- Russia
- Prior art keywords
- order
- sound field
- component
- signal
- input signal
- Prior art date
Links
- 238000004590 computer program Methods 0.000 title claims description 13
- 238000000034 method Methods 0.000 title description 15
- 230000002194 synthesizing Effects 0.000 claims abstract description 55
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 44
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 44
- 238000004458 analytical method Methods 0.000 claims description 13
- 238000002156 mixing Methods 0.000 claims description 13
- 238000010295 mobile communication Methods 0.000 abstract description 2
- 238000005516 engineering process Methods 0.000 abstract 2
- 230000000694 effects Effects 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 239000000203 mixture Substances 0.000 description 21
- 230000005540 biological transmission Effects 0.000 description 12
- 238000010606 normalization Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 7
- 230000000875 corresponding Effects 0.000 description 7
- 230000004044 response Effects 0.000 description 7
- 230000005236 sound signal Effects 0.000 description 4
- 241001442055 Vipera berus Species 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000009792 diffusion process Methods 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000036962 time dependent Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001447 compensatory Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000001419 dependent Effects 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006011 modification reaction Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000011105 stabilization Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001131 transforming Effects 0.000 description 1
Images
Abstract
Description
Настоящее изобретение направлено на аудиокодирование и, в частности, на генерирование описания звукового поля из входного сигнала с использованием одного или более генераторов звуковых компонент.The present invention is directed to audio coding and, in particular, to generating a sound field description from an input signal using one or more audio component generators.
Методика [1] направленного аудиокодирования (DirAC) представляет собой эффективный подход к анализу и воспроизведению пространственного звука. DirAC использует перцептивно-мотивированное представление звукового поля на основе направления прихода (DOA) и диффузности, измеряемых для каждой полосы частот. Оно основано на предположении, что в один момент времени и в одном критическом диапазоне пространственное разрешение слуховой системы ограничивается декодированием одного указателя для направления и другого - для межуральной согласованности. Затем пространственный звук представляется в частотной области посредством плавного микширования двух потоков: ненаправленного диффузного потока и направленного недиффузного потока.The Directional Audio Coding (DirAC) technique [1] is an efficient approach to spatial audio analysis and reproduction. DirAC uses a perceptually motivated sound field representation based on direction of arrival (DOA) and diffuseness measured for each frequency band. It is based on the assumption that at one point in time and in one critical range the spatial resolution of the auditory system is limited by decoding one pointer for direction and another pointer for interural consistency. Spatial audio is then represented in the frequency domain by smoothly mixing two streams: a non-directional diffuse stream and a directional non-diffuse stream.
DirAC изначально предназначалось для записанного звука в B-формате, но его также можно расширить для сигналов микрофона, соответствующих некоторой конкретной схеме громкоговорителей, такой как 5.1 [2], или любой конфигурации микрофонных решеток [5]. В последнем случае можно достичь большей гибкости, записывая сигналы не для некоторой конкретной схемы громкоговорителей, а вместо этого записывая сигналы промежуточного формата.DirAC was originally intended for B-format recorded audio, but it can also be extended to microphone signals conforming to some particular speaker layout such as 5.1 [2] or any configuration of microphone arrays [5]. In the latter case, more flexibility can be achieved by not recording signals for some particular speaker circuit, but instead recording intermediate format signals.
Такой промежуточный формат, хорошо зарекомендовавший себя на практике, представлен Амбисоникой/Ambisonics (более высокого порядка) [3]. Из амбисонического сигнала можно генерировать сигналы любой желаемой схемы громкоговорителей, в том числе бинауральные сигналы для воспроизведения через наушники. Для этого требуется специальный рендерер, который применяется к амбисоническому сигналу, используя либо линейный амбисонический рендерер [3], либо параметрический рендерер, такой как направленное аудиокодирование (DirAC).Such an intermediate format, which has proven itself in practice, is represented by Ambisonics / Ambisonics (higher order) [3]. From the ambisonic signal it is possible to generate signals of any desired loudspeaker scheme, including binaural signals for playback through headphones. This requires a special renderer that is applied to the ambisonic signal using either a linear ambisonic renderer [3] or a parametric renderer such as directional audio coding (DirAC).
Амбисонический сигнал может быть представлен как многоканальный сигнал, в котором каждый канал (именуемый амбисонической компонентой) эквивалентен коэффициенту так называемой пространственной базисной функции. С помощью взвешенной суммы этих пространственных базисных функций (с весами, соответствующими коэффициентам) можно воссоздать исходное звуковое поле в месте записи [3]. Следовательно, коэффициенты пространственной базисной функции (т.е. амбисонические компоненты) представляют собой компактное описание звукового поля в месте записи. Существуют различные типы пространственных базисных функций, например сферические гармоники (SH) [3] или цилиндрические гармоники (CH) [3]. CH могут быть использованы при описании звукового поля в 2D-пространстве (например, для воспроизведения 2D-звука), тогда как SH могут быть использованы для описания звукового поля в 2D- и 3D-пространстве (например, для воспроизведения 2D- и 3D-звука).An ambisonic signal can be represented as a multi-channel signal in which each channel (referred to as the ambisonic component) is equivalent to a coefficient of the so-called spatial basis function. Using the weighted sum of these spatial basis functions (with weights corresponding to the coefficients), it is possible to recreate the original sound field at the recording location [3]. Therefore, the coefficients of the spatial basis function (ie, the ambisonic components) are a compact description of the sound field at the recording location. There are different types of spatial basis functions, such as spherical harmonics (SH) [3] or cylindrical harmonics (CH) [3]. CH can be used to describe the sound field in 2D space (for example, to reproduce 2D sound), while SH can be used to describe the sound field in 2D and 3D space (for example, to reproduce 2D and 3D sound). ).
Например, аудиосигнал , который приходит с определенного направления , приводит в результате к пространственному аудиосигналу , который может быть представлен в амбисоническом формате путем расширения сферических гармоник вплоть до порядка отсечения H:For example, an audio signal that comes from a certain direction , results in a spatial audio signal , which can be represented in ambisonic format by extending the spherical harmonics up to the cutoff order H :
где представляет собой сферические гармоники порядка l и моды (mode) m, а представляют собой коэффициенты расширения. С увеличением порядка отсечения H такое расширение приводит к более точному пространственному представлению. Сферические гармоники вплоть до порядка H=4 с индексом нумерации амбисонических каналов (ACN) проиллюстрированы на Фиг. 1a для порядка n и моды m.where are spherical harmonics of order l and mode (mode) m , and are the expansion coefficients. As the cutoff order H increases, this extension leads to a more accurate spatial representation. Spherical harmonics up to order H=4 with ambisonic channel numbering index (ACN) are illustrated in FIG. 1a for order n and mode m .
DirAC уже было расширено для доставки амбисонических сигналов более высокого порядка из амбисонического сигнала первого порядка (FOA, также именуемого как B-формат) или из различных микрофонных решеток [5]. Этот документ фокусируется на более эффективном способе синтеза амбисонических сигналов более высокого порядка из параметров DirAC и опорного сигнала. В этом документе опорный сигнал, также именуемый сигналом понижающего микширования, считается подмножеством амбисонического сигнала более высокого порядка или линейной комбинацией подмножества амбисонических компонент.DirAC has already been extended to deliver higher order ambisonic signals from a first order ambisonic signal (FOA, also referred to as B-format) or from various microphone arrays [5]. This document focuses on a more efficient way to synthesize higher order ambisonic signals from DirAC parameters and a reference signal. In this document, a reference signal, also referred to as a downmix signal, is considered to be a subset of a higher order ambisonic signal, or a linear combination of a subset of the ambisonic components.
Кроме того, в настоящем изобретении рассматривается случай, в котором DirAC используется для передачи в параметрической форме аудиосцены. В этом случае сигнал понижающего микширования кодируется обычным базовым аудиокодером, в то время как параметры DirAC передаются в сжатом виде как вспомогательная информация. Преимущество настоящего способа состоит в учете ошибки квантования, возникающей при аудиокодировании.In addition, the present invention considers a case in which DirAC is used to parametrically transmit an audio scene. In this case, the downmix signal is encoded with a conventional basic audio encoder while the DirAC parameters are transmitted in compressed form as ancillary information. The advantage of the present method is that it takes into account the quantization error that occurs during audio coding.
Далее представлен обзор системы пространственного аудиокодирования на основе DirAC, разработанной для иммерсивных голосовых и аудиосервисов (IVAS). Это представляет один из различных контекстов, например обзор системы пространственного аудиокодера DirAC. Задача такой системы заключается в том, чтобы иметь возможность обрабатывать различные пространственные аудиоформаты, представляющие аудиосцену, и кодировать их с низкими битрейтами, а также воспроизводить исходную аудиосцену после передачи настолько верно, насколько это возможно.The following is an overview of a DirAC-based spatial audio coding system developed for immersive voice and audio services (IVAS). This represents one of various contexts, such as an overview of the DirAC spatial audio encoder system. The goal of such a system is to be able to process various spatial audio formats representing an audio scene and encode them at low bit rates, and to reproduce the original audio scene after transmission as faithfully as possible.
Система может принимать в качестве входных данных различные представления аудиосцен. Входная аудиосцена может быть захвачена многоканальными сигналами, предназначенными для воспроизведения в различных положениях громкоговорителей, слышимыми объектами вместе с метаданными, описывающими положения этих объектов с течением времени, или амбисоническим форматом первого порядка или более высокого порядка, представляющим звуковое поле в положении слушателя или опорном положении.The system can take various representations of audio scenes as input. The input audio scene may be captured by multi-channel signals designed to be reproduced at various speaker positions, by audible objects along with metadata describing the positions of those objects over time, or by a first order or higher order ambisonic format representing the sound field at the listening position or reference position.
Предпочтительно данная система основана на расширенных голосовых сервисах (EVS) 3GPP, поскольку ожидается, что такое решение будет работать с малой задержкой для обеспечения возможности разговорных сервисов в сетях мобильной связи.Preferably, this system is based on 3GPP Enhanced Voice Services (EVS), as such a solution is expected to operate with low latency to enable conversational services in mobile communication networks.
Как показано на Фиг. 1b, кодер (кодер IVAS) может поддерживать различные аудиоформаты, передаваемые в систему по отдельности или в одно и то же время. Аудиосигналы могут быть акустическими по своей природе, воспринимаемыми микрофонами, или электрическими по своей природе, которые подлежат передачи на громкоговорители. Поддерживаемые аудиоформаты могут быть многоканальным сигналом, амбисоническими компонентами первого порядка и более высокого порядка, а также аудиообъектами. Сложная аудиосцена также может быть описана посредством объединения различных входных форматов. Затем все аудиоформаты передаются в анализатор DirAC, который извлекает параметрическое представление всей аудиосцены. Направление прихода и диффузность, измеряемые для каждой частотно-временной единицы, формируют параметры. За анализатором DirAC следует кодер пространственных метаданных, который квантует и кодирует параметры DirAC для получения параметрического представления низкого битрейта.As shown in FIG. 1b, an encoder (IVAS encoder) may support various audio formats transmitted to the system separately or at the same time. Audio signals may be acoustic in nature, picked up by microphones, or electrical in nature, to be transmitted to loudspeakers. Supported audio formats can be multi-channel signal, first order and higher order ambisonic components, and audio objects. A complex audio scene can also be described by combining different input formats. All audio formats are then passed to the DirAC parser, which extracts a parametric representation of the entire audio scene. The direction of arrival and the diffuseness measured for each time-frequency unit form the parameters. The DirAC parser is followed by a spatial metadata encoder that quantizes and encodes the DirAC parameters to obtain a low bit rate parametric representation.
Наряду с этими параметрами сигнал понижающего микширования, выводимый из различных источников или входных аудиосигналов, кодируется для передачи с помощью обычного базового аудиокодера. В этом случае основанный на EVS аудиокодер применяется для кодирования сигнала понижающего микширования. Сигнал понижающего микширования состоит из разных каналов, именуемых транспортными каналами: сигнал может представлять собой, например, четыре сигнала коэффициентов, составляющие сигнал B-формата, стереопару или монофоническое понижающее микширование в зависимости от целевого битрейта. Кодированные пространственные параметры и кодированный битовый аудиопоток мультиплексируются перед передачей по каналу связи.Along with these parameters, the downmix signal output from various audio sources or input signals is encoded for transmission using a conventional basic audio encoder. In this case, an EVS-based audio encoder is applied to encode the downmix signal. The downmix signal consists of different channels, called transport channels: the signal can be, for example, four coefficient signals constituting a B-format signal, a stereo pair, or a mono downmix, depending on the target bitrate. The encoded spatial parameters and the encoded audio bitstream are multiplexed before transmission over the communication channel.
Сторона кодера пространственного аудиокодирования на основе DirAC, поддерживающего различные аудиоформаты, проиллюстрирована на Фиг. 1b. Акустический/электрический ввод (входные данные) 1000 вводится в интерфейс 1010 кодера, причем интерфейс кодера обладает определенной функциональностью для амбисоники первого порядка (FOA) или амбисоники высокого порядка (HOA), проиллюстрированной в 1013. Кроме того, интерфейс кодера обладает функциональностью для многоканальных (MC) данных, таких как стереоданные, данные 5.1 или данные, имеющие более двух или пяти каналов. Кроме того, интерфейс 1010 кодера обладает функциональностью для кодирования объектов, как, например, SAOC (пространственное кодирование аудиообъектов), проиллюстрированное 1011. Кодер IVAS содержит каскад 1020 DirAC с блоком 1021 анализа DirAC и блоком 1022 понижающего микширования (DMX). Сигнал, выводимый блоком 1022, кодируется базовым кодером 1040 IVAS, таким как кодер AAC или EVS, а метаданные, сгенерированные блоком 1021, кодируются с использованием кодера 1030 метаданных DirAC.A DirAC-based spatial audio encoder side supporting various audio formats is illustrated in FIG. 1b. Acoustic/electrical input (input data) 1000 is input to the
В декодере, показанном на Фиг. 2, транспортные каналы декодируются базовым декодером, тогда как метаданные DirAC сначала декодируются перед их передачей с декодированными транспортными каналами в блок синтеза DirAC. На данной стадии могут быть рассмотрены различные варианты. Может потребоваться воспроизвести определенную аудиосцену непосредственно на конфигурациях каких-либо громкоговорителей или наушников, как это обычно возможно в традиционной системе DirAC (MC на Фиг. 2).In the decoder shown in FIG. 2, the transport channels are decoded by the core decoder, while the DirAC metadata is first decoded before being transmitted with the decoded transport channels to the DirAC synthesis block. At this stage, various options may be considered. It may be desirable to play a certain audio scene directly on some speaker or headphone configurations, as is usually possible in a traditional DirAC system (MC in Fig. 2).
Декодер также может доставлять отдельные объекты в том виде, в котором они были представлены на стороне кодера (Объекты на Фиг. 2).The decoder may also deliver individual objects as they were presented at the encoder side (Objects in FIG. 2).
В качестве альтернативы, также может потребоваться выполнить рендеринг сцены в амбисонический формат для других дальнейших манипуляций, таких как вращение, отражение или движение сцены (FOA/HOA на Фиг. 2) или для использования внешнего рендерера, не определенного в исходной системе.Alternatively, it may also be necessary to render the scene to ambisonic format for other further manipulations such as rotating, flipping or moving the scene (FOA/HOA in Fig. 2) or to use an external renderer not defined in the source system.
Декодер пространственного аудиокодирования DirAC, доставляющий различные аудиоформаты, проиллюстрирован на Фиг. 2 и содержит декодер 1045 IVAS и подключенный далее интерфейс 1046 декодера. Декодер 1045 IVAS содержит базовый декодер 1060 IVAS, который сконфигурирован для того, чтобы выполнять операцию декодирования содержимого, закодированного базовым кодером 1040 IVAS с Фиг. 1b. Кроме того, предоставляется декодер 1050 метаданных DirAC, который обеспечивает функциональность декодирования для декодирования содержимого, закодированного кодером 1030 метаданных DirAC. Блок 1070 синтеза принимает данные из блока 1050 и 1060 и с помощью некоторой пользовательской интерактивности или без нее, вывод (выходные данные) вводится в интерфейс 1046 декодера, который генерирует данные FOA/HOA, как проиллюстрировано в 1083, многоканальные данные (данные MC), как проиллюстрировано в блоке 1082, или данные объектов, как проиллюстрировано в блоке 1081.A DirAC spatial audio coding decoder delivering various audio formats is illustrated in FIG. 2 and contains an
Традиционный синтез HOA с использованием парадигмы DirAC изображен на Фиг. 3. Входной сигнал, именуемый сигналом понижающего микширования, является частотно-временной единицей, анализируемой блоком частотных фильтров. Блок 2000 частотных фильтров может быть блоком комплекснозначных фильтров, таким как комплекснозначный QMF, или блочным преобразованием типа STFT. Синтез HOA генерирует на выходе амбисонический сигнал порядка H, содержащий компонент. Опционально он также может выводить амбисонический сигнал, рендеринг которого выполняется с конкретной схемой громкоговорителей. Далее мы подробно рассмотрим, как получить компонент из сигнала понижающего микширования, сопровождаемого в некоторых случаях входными пространственными параметрами.Conventional HOA synthesis using the DirAC paradigm is depicted in FIG. 3. An input signal, referred to as a downmix signal, is a time-frequency unit analyzed by a frequency filter bank. The
Сигнал понижающего микширования может представлять собой исходные микрофонные сигналы или смесь исходных сигналов, представляющих исходную аудиосцену. Например, если аудиосцена захватывается микрофоном звукового поля, сигнал понижающего микширования может представлять собой всенаправленную компоненту сцены (W), стереофоническое понижающее микширование (L/R) или амбисонический сигнал первого порядка (FOA).The downmix signal may be the original microphone signals or a mixture of the original signals representing the original audio scene. For example, if an audio scene is captured by a sound field microphone, the downmix signal can be an omnidirectional stage component (W), a stereo downmix (L/R), or a first order ambisonic signal (FOA).
Для каждого частотно-временного фрагмента, направление звука, также именуемое направлением прихода (DOA), и коэффициент диффузности оцениваются, соответственно, блоком 2020 оценки направления и блоком 2010 оценки диффузности, если сигнал понижающего микширования содержит достаточную информацию для определения таких параметров DirAC. Это так, например, если сигналом понижающего микширования является амбисонический сигнал первого порядка (FOA). В качестве альтернативы или если сигнала понижающего микширования недостаточно для определения таких параметров, параметры могут быть переданы непосредственно в синтез DirAC через входной битовый поток, содержащий эти пространственные параметры. Битовый поток может состоять, например, из квантованных и закодированных параметров, принимаемых в качестве вспомогательной информации в случае приложений передачи аудиоданных. В этом случае параметры выводятся вне модуля синтеза DirAC из исходных микрофонных сигналов или входных аудиоформатов, передаваемых модулю анализа DirAC на стороне кодера, как проиллюстрировано переключателем 2030 или 2040.For each time-frequency slice, the direction of sound, also referred to as the direction of arrival (DOA), and the diffuseness coefficient are estimated by the
Направления звука используются блоком 2050 оценки направленных усилений для оценки, для каждого частотно-временного фрагмента из множества частотно-временных фрагментов, одного или более наборов из направленных усилений где H представляет порядок синтезируемого амбисонического сигнала.The sound directions are used by the
Направленные усиления могут быть получены посредством оценки пространственной базисной функции для каждого оцениваемого направления звука с желаемым порядком (уровнем) l и модой m амбисонического сигнала для синтеза. Направление звука может быть выражено, например, через вектор единичной нормы или через азимутальный угол и/или угол возвышения, которые связаны, например, как:Directional gains can be obtained by evaluating the spatial basis function for each estimated sound direction with the desired order (level) l and mode m of the ambisonic signal for synthesis. The direction of the sound can be expressed, for example, in terms of the vector unit norm or through the azimuth angle and/or angle elevations that are related, for example, as:
После оценки или получения направления звука ответ пространственной базисной функции желаемого порядка (уровня) l и моды m может быть определен, например, посредством рассмотрения действительнозначных сферических гармоник с SN3D нормализацией в качестве пространственной базисной функции:After estimating or obtaining the sound direction, the response of the spatial basis function of the desired order (level) l and mode m can be determined, for example, by considering real-valued spherical harmonics with SN3D normalization as the spatial basis function:
с диапазонами 0≤l≤H и -l≤m≤l. представляют собой функции Лежандра, а представляет собой член нормализации как для функций Лежандра, так и для тригонометрических функций, который принимает следующую форму для SN3D:with
где дельта Кронекера равна единице для m=0 и нулю в ином случае. Затем направленные усиления выводятся непосредственно для каждого частотно-временного фрагмента с индексами (k, n) как:where is the Kronecker delta equals one for m=0 and zero otherwise. The directional gains are then derived directly for each time-frequency slice with indices (k, n) as:
Амбисонические компоненты прямого звука вычисляются путем выведения опорного сигнала из сигнала понижающего микширования и умножаются на направленные усиления и коэффициентную функцию диффузности :Ambisonic components direct sound are calculated by deriving the reference signal from the downmix signal and multiplied by the directional gains and diffuseness coefficient function :
Например, опорный сигнал может быть всенаправленной компонентой сигнала понижающего микширования или линейной комбинацией K каналов сигнала понижающего микширования.For example, the reference signal may be an omnidirectional component of the downmix signal or a linear combination of the K channels of the downmix signal.
Амбисоническая компонента диффузного звука может быть смоделирована посредством использования ответа пространственной базисной функции для звуков, приходящих со всех возможных направлений. Одним из примеров является определение среднего ответа посредством рассмотрения интеграла квадрата абсолютной величины пространственной базисной функции по всем возможным углам и :The ambisonic component of a diffuse sound can be modeled by using the spatial basis function response for sounds coming from all possible directions. One example is the definition of the mean response by considering the integral of the square of the absolute value of the spatial basis function in all possible angles and :
Амбисонические компоненты диффузного звука вычисляются из сигнала умноженного на средний ответ и коэффициентную функцию диффузности :Ambisonic components diffuse sound calculated from signal multiplied by the mean response and diffuseness coefficient function :
Сигнал может быть получен с помощью различных декорреляторов, применяемых к опорному сигналу .Signal can be obtained with various decorrelators applied to the reference signal .
Наконец, амбисоническая компонента прямого звука и амбисоническая компонента диффузного звука объединяются 2060, например, посредством операции суммирования, чтобы получить окончательную амбисоническую компоненту желаемого порядка (уровня) l и моды m для частотно-временного фрагмента (k, n), т.е.Finally, the ambisonic component of the direct sound and the ambisonic component of the diffuse sound are combined 2060, for example, through a summation operation, to obtain the final ambisonic component desired order (level) l and mode m for the time-frequency fragment (k, n) , i.e.
Полученные амбисонические компоненты могут быть преобразованы обратно во временную область с использованием блока 2080 обратных фильтров или обратного STFT, сохранены, переданы или использованы, например, для приложений пространственного воспроизведения звука. В качестве альтернативы, линейный амбисонический рендерер 2070 может быть применен для каждой полосы частот для получения сигналов, которые подлежат воспроизведению с конкретной схемой громкоговорителей или через наушники, перед преобразованием сигналов громкоговорителей или бинауральных сигналов во временную область.The resulting ambisonic components can be converted back to the time domain using the
Следует отметить, что [5] также указывает на возможность того, что компоненты диффузного звука могут быть синтезированы только вплоть до порядка L, где L<H. Это снижает вычислительную сложность, одновременно с этим избегая синтетических артефактов из-за интенсивного использования декорреляторов.It should be noted that [5] also indicates the possibility that the components diffuse sound can only be synthesized up to the order of L , where L<H . This reduces computational complexity while avoiding synthetic artifacts due to heavy use of decorrelators.
Целью настоящего изобретения является предоставление улучшенной схемы генерирования описания звукового поля из входного сигнала.The purpose of the present invention is to provide an improved circuit for generating a sound field description from an input signal.
Эта цель достигается устройством для генерирования описания звукового поля по пункту 1, способом для генерирования описания звукового поля по пункту 20 или компьютерной программой по пункту 21.This object is achieved by the device for generating a sound field description of
Настоящее изобретение в соответствии с первым аспектом основано на обнаружении того, что нет необходимости выполнять синтез компонент звукового поля, в том числе вычисление диффузной части, для всех генерируемых компонент. Достаточно выполнить синтез диффузных компонент только до определенного порядка. Тем не менее, чтобы не было флуктуаций энергии или ошибок энергии, компенсация энергии выполняется при генерировании компонент звукового поля первой группы компонент звукового поля, которые имеют диффузную и прямую компоненту, при этом такая компенсация энергии зависит от данных о диффузности и по меньшей мере одного из числа компонент звукового поля во второй группе, максимального порядка компонент звукового поля первой группы и максимального порядка компонент звукового поля второй группы. В частности, в соответствии с первым аспектом настоящего изобретения устройство для генерирования описания звукового поля из входного сигнала, содержащего один или более каналов, содержит анализатор входного сигнала для получения данных о диффузности из входного сигнала и генератор звуковых компонент для генерирования из входного сигнала одной или более компонент звукового поля первой группы компонент звукового поля, имеющих для каждой компоненты звукового поля прямую компоненту и диффузную компоненту, и для генерирования из входного сигнала второй группы компонент звукового поля, имеющих только прямую компоненту. В частности, генератор звуковых компонент выполняет компенсацию энергии при генерировании первой группы компонент звукового поля, причем компенсация энергии зависит от данных о диффузности и по меньшей мере одного из числа компонент звукового поля во второй группе, числа диффузных компонент в первой группе, максимального порядка компонент звукового поля первой группы и максимального порядка компонент звукового поля второй группы.The present invention according to the first aspect is based on the discovery that it is not necessary to perform the synthesis of the sound field components, including the calculation of the diffuse part, for all generated components. It is sufficient to perform the synthesis of diffuse components only up to a certain order. However, in order to avoid energy fluctuations or energy errors, energy compensation is performed by generating the sound field components of the first group of sound field components that have a diffuse and a direct component, such energy compensation being dependent on the diffuseness data and at least one of the number of sound field components in the second group, the maximum order of the first group sound field components, and the maximum order of the second group sound field components. In particular, according to the first aspect of the present invention, an apparatus for generating a sound field description from an input signal containing one or more channels comprises an input signal analyzer for obtaining diffuseness data from the input signal and an audio component generator for generating one or more audio components from the input signal. a sound field component of a first group of sound field components having a direct component and a diffuse component for each sound field component, and for generating from the input signal a second group of sound field components having only a direct component. In particular, the sound component generator performs energy compensation when generating the first group of sound field components, wherein the energy compensation depends on the diffuseness data and at least one of the number of sound field components in the second group, the number of diffuse components in the first group, the maximum order of the sound field components. fields of the first group and the maximum order of the sound field components of the second group.
Первая группа компонент звукового поля может содержать компоненты звукового поля низкого порядка и компоненты звукового поля среднего порядка, а вторая группа содержит компоненты звукового поля высокого порядка.The first group of sound field components may contain low order sound field components and medium order sound field components, and the second group contains high order sound field components.
Устройство для генерирования описания звукового поля из входного сигнала, содержащего по меньшей мере два канала, в соответствии со вторым аспектом изобретения, содержит анализатор входного сигнала для получения данных о направлении и данных о диффузности из входного сигнала. Устройство, кроме того, содержит блок оценки для оценки первого связанного с энергией или амплитудой показателя для всенаправленной компоненты, выведенной из входного сигнала, и для оценки второго связанного с энергией или амплитудой показателя для направленной компоненты, выведенной из входного сигнала. Кроме того, устройство содержит генератор звуковых компонент для генерирования компонент звукового поля для звукового поля, причем генератор звуковых компонент выполнен с возможностью выполнения компенсации энергии направленной компоненты с использованием первого связанного с энергией или амплитудой показателя, второго связанного с энергией или амплитудой показателя, данных о направлении и данных о диффузности.An apparatus for generating a sound field description from an input signal containing at least two channels, according to the second aspect of the invention, comprises an input signal analyzer for obtaining direction data and diffuseness data from the input signal. The apparatus further comprises an estimator for estimating a first energy or amplitude related metric for the omnidirectional component derived from the input signal and for estimating a second energy or amplitude related metric for the directional component derived from the input signal. In addition, the apparatus comprises an audio component generator for generating sound field components for the sound field, the audio component generator being configured to perform directional component energy compensation using a first energy or amplitude related metric, a second energy or amplitude related metric, direction data. and diffuseness data.
В частности, второй аспект настоящего изобретения основан на обнаружении того факта, что в ситуации, когда направленная компонента принимается устройством для генерирования описания звукового поля и, в то же время, также принимаются данные о направлении и данные о диффузности, данные о направлении и диффузности могут быть использованы для компенсации любых ошибок, вероятно, внесенных из-за квантования или любой другой обработки направленной или всенаправленной компоненты в кодере. Таким образом, данные о направлении и диффузности применяются не просто с целью генерирования описания звукового поля как таковые, но эти данные используются «второй раз» для корректировки направленной компоненты для того, чтобы устранить или по меньшей мере частично устранить и, следовательно, скомпенсировать потерю энергии направленной компоненты.In particular, the second aspect of the present invention is based on the discovery of the fact that in a situation where a directional component is received by a device for generating a sound field description and at the same time direction data and diffuseness data are also received, the direction and diffuseness data may be used to compensate for any errors likely introduced due to quantization or any other processing of the directional or omnidirectional component in the encoder. Thus, the direction and diffuseness data are not simply used to generate the description of the sound field as such, but these data are used "second time" to correct the directional component in order to eliminate or at least partially eliminate and therefore compensate for energy loss. directed component.
Предпочтительно, эта компенсация энергии выполняется для компонент низкого порядка, которые принимаются в интерфейсе декодера или которые генерируются из данных, принимаемых от аудиокодера, генерирующего входной сигнал.Preferably, this energy compensation is performed on low order components that are received at the interface of the decoder or that are generated from data received from the audio encoder generating the input signal.
В соответствии с третьим аспектом настоящего изобретения устройство для генерирования описания звукового поля с использованием входного сигнала, содержащего моносигнал или многоканальный сигнал, содержит анализатор входного сигнала, генератор низких аудиокомпонент, генератор компонент среднего порядка и генератор компонент высокого порядка. В частности, разные «суб»-генераторы выполнены с возможностью генерирования компонент звукового поля в соответствующем порядке на основе конкретной процедуры обработки, которая отличается для каждого из генератора компонент низкого, среднего или высокого порядка. Это гарантирует, что поддерживается оптимальный компромисс между требованиями к обработке, с одной стороны, требованиями к качеству аудио, с другой стороны, и практичностью процедур, с еще одной другой стороны. Посредством этой процедуры использование декорреляторов, например, ограничивается только генерированием компонент среднего порядка, но для генерирования компонент низкого порядка и генерирования компонент высокого порядка избегают любых декорреляторов, склонных к артефактам. С другой стороны, компенсация энергии предпочтительно выполняется для потери энергии диффузных компонент, и эта компенсация энергии выполняется только в пределах компонент звукового поля низкого порядка или только в пределах компонент звукового поля среднего порядка, или как в компонентах звукового поля низкого порядка, так и в компонентах звукового поля среднего порядка. Предпочтительно, чтобы компенсация энергии для направленной компоненты, формируемой в генераторе компонент низкого порядка, также выполнялась с использованием передаваемых данных направленной диффузности.According to a third aspect of the present invention, an apparatus for generating a sound field description using an input signal comprising a mono signal or a multi-channel signal comprises an input signal analyzer, a low audio component generator, a medium order component generator, and a high order component generator. In particular, the different "sub" generators are configured to generate the sound field components in an appropriate order based on a specific processing procedure that is different for each of the low, medium, or high order component generators. This ensures that an optimal compromise is maintained between processing requirements on the one hand, audio quality requirements on the other hand, and procedural usability on the other hand. Through this procedure, the use of decorrelators, for example, is limited to only generating medium-order components, but for generating low-order components and generating high-order components, any artifact-prone decorrelators are avoided. On the other hand, energy compensation is preferably performed for the energy loss of the diffuse components, and this energy compensation is performed only within the low order sound field components, or only within the medium order sound field components, or both in the low order sound field components and in the sound field of medium order. Preferably, the energy compensation for the directional component generated in the low order component generator is also performed using the transmitted directional diffuseness data.
Предпочтительные варианты осуществления относятся к устройству, способу или компьютерной программе для синтеза амбисонического сигнала (более высокого порядка) с использованием парадигмы направленного аудиокодирования (DirAC), перцептивно-мотивированной методики для пространственной аудиообработки.Preferred embodiments relate to an apparatus, method or computer program for synthesizing an ambisonic signal (higher order) using the Directional Audio Coding (DirAC) paradigm, a perceptually motivated technique for spatial audio processing.
Варианты осуществления относятся к эффективному способу для синтезирования амбисонического представления аудиосцены из пространственных параметров и сигнала понижающего микширования. При применении способа, но не ограничиваясь этим, аудиосцена передается и, следовательно, кодируется для уменьшения объема передаваемых данных. Сигнал понижающего микширования после этого сильно ограничен в числе каналов и качестве битрейтом, который доступен для передачи. Варианты осуществления относятся к эффективному способу использования информации, содержащейся в передаваемом сигнале понижающего микширования, для уменьшения сложности синтезирования при одновременном повышении качества.Embodiments refer to an efficient method for synthesizing an ambisonic representation of an audio scene from spatial parameters and a downmix signal. Using the method, but not limited to, the audio scene is transmitted and therefore encoded to reduce the amount of data transmitted. The downmix signal is then severely limited in the number of channels and quality by the bit rate that is available for transmission. The embodiments relate to an efficient way of using the information contained in the transmitted downmix signal to reduce synthesis complexity while improving quality.
Другой вариант осуществления изобретения касается диффузной компоненты звукового поля, которая может быть ограничена только моделированием вплоть до предопределенного порядка синтезируемых компонент, чтобы избежать артефактов синтезирования. Вариант осуществления обеспечивает способ компенсации результирующей потери энергии путем усиления сигнала понижающего микширования.Another embodiment of the invention relates to the diffuse component of the sound field, which can be limited to simulation only up to a predetermined order of synthesized components to avoid synthesizing artifacts. An embodiment provides a method for compensating for the resulting energy loss by amplifying the downmix signal.
Другой вариант осуществления касается направленной компоненты звукового поля, характеристики которой могут быть изменены в пределах сигнала понижающего микширования. Сигнал понижающего микширования может быть дополнительно нормализован по энергии, чтобы сохранить соотношение энергии, продиктованное переданным параметром направления, но нарушенное во время передачи из-за квантования или других введенных ошибок.Another embodiment concerns a directional sound field component whose characteristics can be changed within the downmix signal. The downmix signal may be further normalized in energy to keep the energy relationship dictated by the transmitted direction parameter but corrupted during transmission due to quantization or other introduced errors.
Далее предпочтительные варианты осуществления настоящего изобретения описаны со ссылкой на прилагаемые чертежи, на которых:Further preferred embodiments of the present invention are described with reference to the accompanying drawings, in which:
Фиг. 1a иллюстрирует сферические гармоники с нумерацией амбисонических каналов/компонент;Fig. 1a illustrates spherical harmonics with ambisonic channel/component numbering;
Фиг. 1b иллюстрирует сторону кодера процессора пространственного аудиокодирования на основе DirAC;Fig. 1b illustrates the encoder side of a DirAC-based spatial audio coding processor;
Фиг. 2 иллюстрирует декодер процессора пространственного аудиокодирования на основе DirAC;Fig. 2 illustrates a DirAC-based spatial audio coding processor decoder;
Фиг. 3 иллюстрирует процессор синтеза амбисоники высокого порядка, известный из уровня техники;Fig. 3 illustrates a high order ambisonic synthesis processor known in the art;
Фиг. 4 иллюстрирует предпочтительный вариант осуществления настоящего изобретения с применением первого аспекта, второго аспекта и третьего аспекта;Fig. 4 illustrates a preferred embodiment of the present invention using the first aspect, the second aspect and the third aspect;
Фиг. 5 иллюстрирует общую схему обработки для компенсации энергии;Fig. 5 illustrates a general processing scheme for energy compensation;
Фиг. 6 иллюстрирует устройство для генерирования описания звукового поля в соответствии с первым аспектом настоящего изобретения;Fig. 6 illustrates an apparatus for generating a sound field description in accordance with the first aspect of the present invention;
Фиг. 7 иллюстрирует устройство для генерирования описания звукового поля в соответствии со вторым аспектом настоящего изобретения;Fig. 7 illustrates an apparatus for generating a sound field description in accordance with a second aspect of the present invention;
Фиг. 8 иллюстрирует устройство для генерирования описания звукового поля в соответствии с третьим аспектом настоящего изобретения;Fig. 8 illustrates an apparatus for generating a sound field description in accordance with a third aspect of the present invention;
Фиг. 9 иллюстрирует предпочтительную реализацию генератора компонент низкого порядка с Фиг. 8;Fig. 9 illustrates a preferred implementation of the low order component generator of FIG. eight;
Фиг. 10 иллюстрирует предпочтительную реализацию генератора компонент среднего порядка с Фиг. 8;Fig. 10 illustrates a preferred implementation of the mean order component generator of FIG. eight;
Фиг. 11 иллюстрирует предпочтительную реализацию генератора компонент высокого порядка с Фиг. 8;Fig. 11 illustrates a preferred implementation of the high-order component generator of FIG. eight;
Фиг. 12а иллюстрирует предпочтительную реализацию вычисления компенсационного усиления в соответствии с первым аспектом;Fig. 12a illustrates a preferred implementation of the compensation gain calculation according to the first aspect;
Фиг. 12b иллюстрирует реализацию вычисления компенсационного усиления в соответствии со вторым аспектом; иFig. 12b illustrates an implementation of the compensation gain calculation according to the second aspect; and
Фиг. 12c иллюстрирует предпочтительную реализацию компенсации энергии, объединяющую первый аспект и второй аспект.Fig. 12c illustrates a preferred implementation of energy compensation combining the first aspect and the second aspect.
Фиг. 6 иллюстрирует устройство для генерирования описания звукового поля в соответствии с первым аспектом изобретения. Устройство содержит анализатор 600 входного сигнала для получения данных о диффузности из входного сигнала, проиллюстрированного слева на Фиг. 6. Кроме того, устройство содержит генератор 650 звуковых компонент для генерирования из входного сигнала одной или более компонент звукового поля первой группы компонент звукового поля, имеющих для каждой компоненты звукового поля прямую компоненту и диффузную компоненту. Кроме того, генератор звуковых компонент генерирует из входного сигнала вторую группу компонент звукового поля, имеющую только прямую компоненту.Fig. 6 illustrates an apparatus for generating a sound field description in accordance with the first aspect of the invention. The device includes an
В частности, генератор 650 звуковых компонент выполнен с возможностью выполнять компенсацию энергии при генерировании первой группы компонент звукового поля. Компенсация энергии зависит от данных о диффузности и числа компонент звукового поля во второй группе или от максимального порядка компонент звукового поля первой группы или максимального порядка компонент звукового поля второй группы. В частности, в соответствии с первым аспектом изобретения, компенсация энергии выполняется для компенсации потери энергии из-за того, что для второй группы компонент звукового поля генерируются только прямые компоненты, а какие-либо диффузные компоненты не генерируются.In particular, the
В противоположность этому, в первой группе компонент звукового поля прямая и диффузная части включаются в компоненты звукового поля. Таким образом, генератор 650 звуковых компонент генерирует, как проиллюстрировано верхней решеткой, компоненты звукового поля, которые имеют только прямую часть, а не диффузную часть, как проиллюстрировано, на других фигурах, посредством ссылочной позиции 830, и генератор звуковых компонент генерирует компоненты звукового поля, которые имеют прямую часть и диффузную часть, как проиллюстрировано ссылочными позициями 810, 820, которые поясняются ниже со ссылкой на другие фигуры.In contrast, in the first group of sound field components, the direct and diffuse parts are included in the sound field components. Thus, the
Фиг. 7 иллюстрирует устройство для генерирования описания звукового поля из входного сигнала, содержащего по меньшей мере два канала, в соответствии со вторым аспектом изобретения. Устройство содержит анализатор 600 входного сигнала для получения данных о направлении и данных о диффузности из входного сигнала. Кроме того, обеспечен блок 720 оценки для оценки первого связанного с энергией или амплитудой показателя для всенаправленной компоненты, выведенной из входного сигнала, и для оценки второго связанного с энергией или амплитудой показателя для направленной компоненты, выведенной из входного сигнала.Fig. 7 illustrates an apparatus for generating a sound field description from an input signal containing at least two channels, in accordance with a second aspect of the invention. The apparatus includes an
Кроме того, устройство для генерирования описания звукового поля содержит генератор 750 звуковых компонент для генерирования компонент звукового поля для звукового поля, причем генератор 750 звуковых компонент выполнен с возможностью выполнения компенсации энергии направленной компоненты с использованием первого связанного с амплитудой показателя, второго связанного с энергией или амплитудой показателя, данных о направлении и данных о диффузности. Таким образом, генератор звуковых компонент генерирует, в соответствии со вторым аспектом настоящего изобретения, скорректированные/скомпенсированные направленные (прямые) компоненты и, если реализуются соответствующим образом, другие компоненты того же порядка, что и входной сигнал, такие как всенаправленные компоненты, которые предпочтительно не подвергаются компенсации энергии или подвергаются компенсации энергии только с целью компенсации диффузной энергии, как обсуждается в контексте Фиг. 6. Следует отметить, что связанный с амплитудой показатель также может быть нормой или величиной или абсолютным значением направленной или всенаправленной компоненты, такой как B0 и B1. Предпочтительно мощность или энергия, выводимая с помощью степени 2, является предпочтительной, как указано в уравнении, но другие мощности, применяемые к норме или величине или абсолютному значению, также могут быть использованы для получения связанного с энергией или амплитудой показателя.In addition, the sound field description generating apparatus comprises a
В реализации устройство для генерирования описания звукового поля в соответствии со вторым аспектом выполняет компенсацию энергии направленной компоненты сигнала, включенной во входной сигнал, содержащий по меньшей мере два канала, так что направленная компонента включается во входной сигнал или может быть вычислена из входного сигнала, например, путем вычисления разности между двумя каналами. Это устройство может выполнять лишь корректировку без генерирования каких-либо данных более высокого порядка или подобного. Однако в других вариантах осуществления генератор звуковых компонент выполнен с возможностью также генерировать другие компоненты звукового поля из других порядков, как проиллюстрировано ссылочными позициями 820, 830, описанными ниже, но для этих (имеющих более высокий порядок) звуковых компонент, для которых в сигнал не было включено каких-либо дополняющих частей, компенсация энергии направленной компоненты не является обязательной к выполнению.In an implementation, an apparatus for generating a sound field description according to the second aspect performs energy compensation of a directional component of a signal included in an input signal comprising at least two channels, such that the directional component is included in the input signal or can be calculated from the input signal, for example, by calculating the difference between the two channels. This device can only perform correction without generating any higher order data or the like. However, in other embodiments, the audio component generator is configured to also generate other sound field components from other orders, as illustrated at 820, 830, described below, but for these (higher order) audio components for which there was no If any add-on parts are included, directional component energy compensation is optional.
Фиг. 8 иллюстрирует предпочтительную реализацию устройства для генерирования описания звукового поля с использованием входного сигнала, содержащего моносигнал или многоканальный сигнал, в соответствии с третьим аспектом настоящего изобретения. Устройство содержит анализатор 600 входного сигнала для анализа входного сигнала для выведения данных о направлении и данных о диффузности. Кроме того, устройство содержит генератор 810 компонент низкого порядка для генерирования описания звукового поля низкого порядка из входного сигнала вплоть до предопределенного порядка и предопределенной моды, при этом генератор 810 компонент низкого порядка выполнен с возможностью выведения описания звукового поля низкого порядка посредством копирования или взятия входного сигнала или части входного сигнала как есть или посредством выполнения взвешенной комбинации каналов входного сигнала, когда входной сигнал является многоканальным сигналом. Кроме того, устройство содержит генератор 820 компонент среднего порядка для генерирования описания звукового поля среднего порядка выше упомянутого предопределенного порядка или с упомянутым предопределенным порядком и выше предопределенной моды и ниже или с первым порядком отсечения, используя синтез по меньшей мере одной прямой части и по меньшей мере одной диффузной части, с использованием данных о направлении и данных о диффузности, так что описание звукового поля среднего порядка содержит прямой вклад и диффузный вклад.Fig. 8 illustrates a preferred implementation of an apparatus for generating a sound field description using an input signal containing a mono signal or a multi-channel signal, in accordance with a third aspect of the present invention. The apparatus includes an
Устройство для генерирования описания звукового поля дополнительно содержит генератор 830 компонент высокого порядка для генерирования описания звукового поля высокого порядка, имеющего компоненту выше упомянутого первого порядка отсечения, используя синтез по меньшей мере одной прямой части, при этом описание звукового поля высокого порядка содержит только прямой вклад. Таким образом, в варианте осуществления синтез по меньшей мере одной прямой части выполняется без синтезирования каких-либо диффузных компонент, так что описание звукового поля высокого порядка содержит только прямой вклад.The apparatus for generating a sound field description further comprises a high
Таким образом, генератор 810 компонент низкого порядка генерирует описание звукового поля низкого порядка, генератор 820 компонент среднего порядка генерирует описание звукового поля среднего порядка, а генератор компонент высокого порядка генерирует описание звукового поля высокого порядка. Описание звукового поля низкого порядка расширяется вплоть до определенного порядка и моды, как, например, в контексте амбисонических сферических компонент высокого порядка, как проиллюстрировано на Фиг. 1. Однако любое другое описание звукового поля, например описание звукового поля с цилиндрическими функциями или описание звукового поля с любыми другими компонентами, отличными от какого-либо амбисонического представления, также может быть сгенерировано в соответствии с первым, вторым и/или третьим аспектом настоящего изобретения.Thus, low
Генератор 820 компонент среднего порядка генерирует компоненты звукового поля выше упомянутого предопределенного порядка или моды и вплоть до определенного порядка отсечения, который также обозначается как L в нижеследующем описании. Наконец, генератор 830 компонент высокого порядка выполнен с возможностью применения генерирования компонент звукового поля от порядка L отсечения вплоть до максимального порядка, обозначаемого как H в нижеследующем описании.The mean
В зависимости от реализации, компенсация энергии, обеспечиваемая генератором 650 звуковых компонент с Фиг. 6, не может быть применена в генераторе 810 компонент низкого порядка или генераторе 820 компонент среднего порядка, как проиллюстрировано соответствующими ссылочными позициями на Фиг. 6, для компоненты прямого/диффузного звука. Кроме того, вторая группа компонент звукового поля, генерируемых компонентой звукового поля, генерируемых генератором 650 компонент звукового поля, соответствует выводу генератора 830 компонент высокого порядка с Фиг. 8, проиллюстрированному ссылочным номером 830 под надписью прямой/не диффузный на Фиг. 6.Depending on the implementation, the energy compensation provided by the
Со ссылкой на Фиг. 7, показано, что компенсация энергии направленной компоненты предпочтительно выполняется в генераторе 810 компонент низкого порядка, проиллюстрированном на Фиг. 8, т.е. выполняется для некоторых или всех компонент звукового поля вплоть до предопределенного порядка и предопределенной моды, как проиллюстрировано ссылочной позицией 810 над верхней стрелкой, выходящей из блока 750. Генерирование компонент среднего порядка и компонент высокого порядка проиллюстрировано относительно верхней заштрихованной стрелки, выходящей из блока 750 на Фиг. 7, как проиллюстрировано ссылочными позициями 820, 830, указанными под этой верхней стрелкой. Таким образом, генератор 810 компонент низкого порядка с Фиг. 8 может применять компенсацию диффузной энергии в соответствии с первым аспектом и компенсацию направленного (прямого) сигнала в соответствии со вторым аспектом, тогда как генератор 820 компонент среднего порядка может выполнять только компенсацию диффузных компонент, поскольку этот генератор компонент среднего порядка генерирует выходные данные, имеющие диффузные части, которые могут быть улучшены относительно своей энергии, чтобы иметь более высокий бюджет энергии диффузных компонент в выходном сигнале.With reference to FIG. 7, it is shown that the directional component energy compensation is preferably performed in the low
Далее приводится ссылка на Фиг. 4, иллюстрирующую реализацию первого аспекта, второго аспекта и третьего аспекта настоящего изобретения в одном устройстве для генерирования описания звукового поля.The following is a reference to FIG. 4 illustrating the implementation of the first aspect, the second aspect and the third aspect of the present invention in one apparatus for generating a sound field description.
Фиг. 4 иллюстрирует входной анализатор 600. Входной анализатор 600 содержит блок 610 оценки направления, блок 620 оценки диффузности и переключатели 630, 640. Анализатор 600 входного сигнала выполнен с возможностью анализа входного сигнала, обычно следующего за блоком 400 фильтров анализа, чтобы искать для каждого фрагмента время/частота информацию о направлении, указываемую как DOA, и/или информацию о диффузности. Информация о направлении, DOA, и/или информация о диффузности также может происходить из битового потока. Таким образом, в ситуациях, когда эти данные не могут быть извлечены из входного сигнала, т.е. когда входной сигнал имеет только всенаправленную компоненту W, тогда анализатор входного сигнала извлекает данные о направлении и/или данные о диффузности из битового потока. Когда, например, входной сигнал является двухканальным сигналом, имеющим левый канал L и правый канал R, тогда может быть выполнен анализ, чтобы получить данные о направлении и/или диффузности. Когда входным сигналом является амбисонический сигнал первого порядка (FOA) или любой другой сигнал с более чем двумя каналами, такой как сигнал A-формата или сигнал B-формата, тогда может быть выполнен фактический анализ сигнала, выполняемый блоком 610 или 620. Однако, когда битовый поток анализируется для извлечения из битового потока данных о направлении и/или данных о диффузности, это также представляет собой анализ, выполняемый анализатором 600 входного сигнала, но без фактического анализа сигнала, как в другом случае. В последнем случае анализ выполняется над битовым потоком, а входной сигнал состоит как из сигнала понижающего микширования, так и из данных битового потока.Fig. 4 illustrates an
Кроме того, устройство для генерирования описания звукового поля, проиллюстрированное на Фиг. 4, содержит блок 410 вычисления направленных усилений, разделитель 420, объединитель 430, декодер 440 и блок 450 синтезирующих фильтров. Блок 450 синтезирующих фильтров принимает данные для амбисонического представления высокого порядка или сигнала, который подлежит воспроизведению наушниками, т.е. бинаурального сигнала, или сигнала, который подлежит воспроизведению громкоговорителями, расположенными в определенной конфигурации громкоговорителей, представляющей многоканальный сигнал, адаптированный под эту конкретную конфигурацию громкоговорителей, из описания звукового поля, которое обычно не зависит от конкретной конфигурации громкоговорителей.In addition, the device for generating the sound field description illustrated in FIG. 4 includes a
Кроме того, устройство для генерирования описания звукового поля содержит генератор звуковых компонент, обычно состоящий из генератора 810 компонент низкого порядка, содержащего блок «генерирование компонент низкого порядка» и блок «микширование компонент низкого порядка». Кроме того, обеспечен генератор 820 компонент среднего порядка, состоящий из блока 821 генерируемого опорного сигнала, декорреляторов 823, 824 и блока 825 микширования компонент среднего порядка. И генератор 830 компонент высокого порядка также обеспечен и представлен на Фиг. 4, содержащий блок 822 микширования компонент высокого порядка. Кроме того, обеспечен блок вычисления (диффузных) компенсационных усилений, проиллюстрированный ссылочными позициями 910, 920, 930, 940. Ссылочные позиции с 910 по 940 дополнительно поясняются со ссылкой на Фигуры с 12a по 12c.In addition, the device for generating the sound field description includes an audio component generator, typically consisting of a low
Хотя это не проиллюстрировано на Фиг. 4, по меньшей мере компенсация энергии диффузного сигнала выполняется не только в генераторе звуковых компонент для низкого порядка, что явно проиллюстрировано на Фиг. 4, но эта компенсация энергии также может быть выполнена в микшере 825 компонент среднего порядка.Although not illustrated in FIG. 4, at least the diffuse signal energy compensation is performed not only in the low order audio component generator, which is clearly illustrated in FIG. 4, but this energy compensation can also be performed in the middle
Кроме того, Фиг. 4 иллюстрирует ситуацию, когда вся обработка выполняется для отдельных фрагментов время/частота, генерируемых блоком 400 фильтров анализа. Таким образом, определенное значение DOA, определенное значение диффузности и определенная обработка для применения этих значений, а также для применения различных компенсаций обеспечивается для каждого фрагмента время/частота. Кроме того, компоненты звукового поля также генерируются/синтезируются для отдельных фрагментов времени/частоты, и объединение, выполняемое объединителем 430, также происходит в области времени/частоты для каждого отдельного фрагмента времени/частоты, и, дополнительно, процедура декодера 440 HOA выполняется в области времени/частоты, и блок 450 синтезирующих фильтров затем генерирует сигналы временной области для полной полосы частот с компонентами HOA полного диапазона частот, с бинауральными сигналами полного диапазона частот для наушников или с сигналами громкоговорителей полного диапазона частот для громкоговорителей определенной конфигурации громкоговорителей.In addition, FIG. 4 illustrates the situation where all processing is performed on the individual time/frequency slices generated by the
В вариантах осуществления настоящего изобретения используются два основных принципа:Embodiments of the present invention use two basic principles:
Амбисонические компоненты диффузного звука могут быть синтезированы с ограничением только для компонент низкого порядка синтезируемого амбисонического сигнала вплоть до порядка L<H.Ambisonic components diffuse sound can be synthesized with a limitation only for the low-order components of the synthesized ambisonic signal up to the order of L<H .
Из сигнала понижающего микширования обычно могут быть извлечены K амбисонических компонент низкого порядка, для которых полный синтез не требуется.From the downmix signal, K low-order ambisonic components can usually be extracted, for which full synthesis is not required.
В случае монофонического понижающего микширования, понижающее микширование обычно представляет собой всенаправленную компоненту W амбисонического сигнала.In the case of a mono downmix, the downmix is typically the omnidirectional W component of the ambisonic signal.
В случае стереофонического понижающего микширования левый (L) и правый (R) каналы могут быть легко преобразованы в амбисонические компоненты W и Y.In the case of stereo downmixing, the left (L) and right (R) channels can easily be converted to ambisonic W and Y components.
В случае понижающего микширования FOA амбисонические компоненты порядка 1 уже являются доступными. В качестве альтернативы, FOA может быть восстановлен из линейной комбинации 4-х канального сигнала понижающего микширования, DMX, который, например, имеет A-формат:In the case of FOA downmix,
гдеwhere
иand
К этим двум принципам также можно применить два улучшения.Two improvements can also be applied to these two principles.
Потеря энергии из-за отсутствия моделирования амбисонических компонент диффузного звука до порядка H может быть компенсирована путем усиления K амбисонических компонент низкого порядка, извлекаемых из сигнала понижающего микширования.The energy loss due to the lack of modeling of the ambisonic components of the diffuse sound up to the order of H can be compensated by amplifying the K low order ambisonic components extracted from the downmix signal.
В применениях передачи, в которых сигнал понижающего микширования кодируется с потерями, передаваемый сигнал понижающего микширования искажается ошибками квантования, которые могут быть устранены путем ограничения соотношения энергии K амбисонических компонент низкого порядка, извлекаемых из сигнала понижающего микширования.In transmission applications in which the downmix signal is lossy encoded, the transmitted downmix signal is corrupted by quantization errors, which can be eliminated by limiting the energy ratio K of the low order ambisonic components extracted from the downmix signal.
Фиг. 4 иллюстрирует вариант осуществления нового способа. Одним из отличий от состояния, изображенного на Фиг. 3, является дифференциация процесса микширования, который различается в зависимости от порядка амбисонической компоненты, которая подлежит синтезированию. Компоненты низких порядков в основном определяются из компонент низкого порядка, извлекаемых непосредственно из сигнала понижающего микширования. Микширование компонент низкого порядка может быть таким же простым, как непосредственное копирование извлеченных компонент в вывод.Fig. 4 illustrates an embodiment of the new method. One of the differences from the state depicted in FIG. 3 is the differentiation of the mixing process, which differs depending on the order of the ambisonic component to be synthesized. The low order components are mainly determined from the low order components extracted directly from the downmix signal. Mixing low-order components can be as simple as directly copying the extracted components to the output.
Однако в предпочтительном варианте извлеченные компоненты дополнительно обрабатываются посредством применения компенсации энергии, функции диффузности и порядков L и H отсечения, или посредством применения нормализации энергии, функции диффузности и направлений звука, или посредством применения обоих из них.However, in the preferred embodiment, the extracted components are further processed by applying energy compensation, diffuse function and L and H cutoff orders, or by applying energy normalization, diffuse function and sound directions, or both.
Микширование компонент среднего порядка фактически аналогично современному способу (за исключением опциональной компенсации диффузности) и генерирует и объединяет амбисонические компоненты как прямых, так и диффузных звуков вплоть до порядка L отсечения, но игнорируя K компонент низкого порядка, уже синтезированных путем микширования компонент низкого порядка. Микширование компонент высокого порядка состоит из генерирования оставшихся амбисонических компонент вплоть до порядка отсечения, но только для прямого звука, игнорируя диффузный звук. Далее подробно описывается микширование или генерирование компонент низкого порядка.Mixing the mid-order components is effectively the same as the modern method (except for the optional diffuseness compensation) and generates and combines the ambisonic components of both direct and diffuse sounds up to the L clipping order, but ignoring the K low-order components already synthesized by mixing the low-order components. Mixing the high-order components consists of generating the remaining ambisonic components up to order clipping, but only for direct sound, ignoring diffuse sound. The following describes in detail the mixing or generation of low-order components.
Первый аспект относится к компенсации энергии, в целом проиллюстрированной на Фиг. 6, представляющей общую схему по первому аспекту. Принцип поясняется для конкретного случая для без потери общности.The first aspect relates to energy compensation, generally illustrated in FIG. 6 showing the outline of the first aspect. The principle is explained for a specific case for without loss of generality.
Фиг. 5 показывает общую схему обработки. Входной вектор представляет собой физически корректный амбисонический сигнал с порядком отсечения. Он содержит коэффициентов, обозначенных где представляет собой порядок коэффициента, а представляет собой моду. Обычно амбисонический сигнал представляется в частотно-временной области.Fig. 5 shows a general processing scheme. Input vector is a physically correct ambisonic signal with order clipping. He contains coefficients indicated where is the order of the coefficient, and represents fashion. Usually ambisonic signal represented in the time-frequency domain.
В блоке 820, 830 синтезирования HOA амбисонические коэффициенты синтезируются от вплоть до максимального порядка , где . Результирующий вектор содержит синтезированные коэффициенты порядка , обозначаемые . Синтезирование HOA обычно зависит от диффузности (или аналогичного показателя), которая описывает, насколько диффузным является звуковое поле для текущей частотно-временной точки. Обычно коэффициенты в синтезируются только в том случае, если звуковое поле становится недиффузным, тогда как в диффузных ситуациях коэффициенты становятся равными нулю. Это предотвращает появление артефактов в диффузных ситуациях, но также приводит к потере энергии. Подробности синтезирования HOA поясняются ниже.In the
Чтобы компенсировать потерю энергии в упомянутых выше диффузных ситуациях, мы применяем компенсацию энергии к в блоке 650, 750 компенсации энергии. Результирующий сигнал обозначается как и имеет тот же максимальный порядок , что и . Компенсация энергии зависит от диффузности (или аналогичного показателя) и увеличивает энергию коэффициентов в диффузных ситуациях, так что потеря энергии коэффициентов в компенсируется. Подробности поясняются далее.To compensate for energy loss in the diffuse situations mentioned above, we apply energy compensation to in
В блоке объединения коэффициенты с компенсированной энергией в объединяются 430 с синтезированными коэффициентами в для получения выходного амбисонического сигнала содержащего все коэффициенты, т.е.In the combining block, the coefficients with compensated energy in combined 430 with the synthesized coefficients in to get the output ambisonic signal containing everything coefficients, i.e.
Далее синтезирование HOA объясняется как вариант осуществления. Существует несколько современных подходов к синтезированию коэффициентов HOA в , например, рендеринг на основе ковариации или прямой рендеринг с использованием направленного аудиокодирования (DirAC). В простейшем случае коэффициенты в синтезируются из всенаправленной компоненты в с использованиемNext, the synthesis of HOA is explained as an embodiment. There are several modern approaches to synthesizing HOA coefficients in , such as covariance based rendering or direct rendering using Directional Audio Coding (DirAC). In the simplest case, the coefficients in synthesized from an omnidirectional component in using
. .
Здесь является направлением прихода (DOA) звука, а представляет собой соответствующее усиление амбисонического коэффициента порядка l и моды m. Обычно соответствует действительнозначной диаграмме направленности хорошо известной сферической гармонической функции порядка l и моды m, оцениваемой в DOA . Диффузность Ψ становится 0, если звуковое поле является недиффузным, и 1, если звуковое поле является диффузным. Следовательно, коэффициенты , вычисленные выше порядка L, становятся равными нулю в ситуациях диффузной записи. Обратите внимание, что параметры , и могут быть оценены из амбисонического сигнала первого порядка на основе вектора активной интенсивности звука, как поясняется в исходных документах DirAC.Here is the direction of arrival (DOA) of the sound, and is the corresponding gain of the ambisonic coefficient of order l and mode m . Usually corresponds to the real-valued radiation pattern of the well-known spherical harmonic function of order l and mode m , estimated in DOA . The diffuseness Ψ becomes 0 if the sound field is non-diffuse and 1 if the sound field is diffuse. Therefore, the coefficients , computed above the order of L , become zero in diffuse write situations. Please note that the parameters , and can be estimated from the ambisonic signal first order based on the active sound intensity vector as explained in the original DirAC documents.
Далее обсуждается компенсация энергии компонентов диффузного звука. Чтобы получить компенсацию энергии, мы рассматриваем типичную модель звукового поля, в которой звуковое поле состоит из компоненты прямого звука и компоненты диффузного звука, т.е. всенаправленный сигнал может быть записан какThe energy compensation of the diffuse sound components is discussed next. To obtain energy compensation, we consider a typical sound field model in which the sound field consists of a direct sound component and a diffuse sound component, i.e. omnidirectional signal can be written as
где является прямым звуком (например, плоской волной), а является диффузным звуком. Предполагая эту модель звукового поля и SN3D нормализацию амбисонических коэффициентов, ожидаемая мощность физически корректных коэффициентов определяется какwhere is a direct sound (for example, a plane wave), and is a diffuse sound. Assuming this sound field model and SN3D normalization of the ambisonic coefficients, the expected power of the physically correct coefficients is defined as
Здесь, представляет собой мощность прямого звука, а представляет собой мощность диффузного звука. Кроме того, представляет собой фактор направленности коэффициентов го порядка, который определяется как , где представляет собой число коэффициентов на порядок l. Чтобы вычислить компенсацию энергии, мы можем либо рассмотреть DOA (более точная компенсация энергии), либо предположить, что является равномерно распределенной случайной величиной (более практичный подход). В последнем случае ожидаемая мощность равнаHere, is the direct sound power, and is the diffuse sound power. Besides, is the direction factor of the coefficients th order, which is defined as , where is the number of coefficients per order of l . To calculate energy compensation, we can either consider DOA (more accurate energy compensation), or assume that is a uniformly distributed random variable (a more practical approach). In the latter case, the expected power is equal to
Далее пусть обозначает физически корректный амбисонический сигнал максимального порядка . Используя приведенные выше уравнения, общая ожидаемая мощность определяется какFurther let denotes a physically correct ambisonic signal of maximum order . Using the equations above, the total expected power defined as
Аналогично, при использовании общего определения диффузности полная ожидаемая мощность синтезируемого амбисонического сигнала определяется какSimilarly, using the general definition of diffuseness total expected power of the synthesized ambisonic signal defined as
Компенсация энергии осуществляется путем умножения коэффициента на т.е.Energy compensation is carried out by multiplying the coefficient on the those.
Общая ожидаемая мощность выходного амбисонического сигнала теперь определяется какTotal expected ambisonic output power is now defined as
Общая ожидаемая мощность должна соответствовать общей ожидаемой мощности . Следовательно, квадрат коэффициента компенсации вычисляется какTotal Expected Power must match the total expected power . Therefore, the square of the compensation factor is calculated as
Это можно упростить доThis can be simplified to
где представляет собой диффузность, представляет собой максимальный порядок входного амбисонического сигнала, а представляет собой максимальный порядок выходного амбисонического сигнала.where is diffuse, represents the maximum order of the input ambisonic signal, and represents the maximum order of the output ambisonic signal.
Можно применить тот же принцип и для , где амбисонических компонент диффузного звука синтезируются с использованием декорреляторов и среднего диффузного ответа.The same principle can be applied to , where The ambisonic components of a diffuse sound are synthesized using decorrelators and an average diffuse response.
В определенных случаях и никакие компоненты диффузного звука не синтезируются. Это особенно верно для высоких частот, где абсолютные фазы не слышны, а использование декорреляторов неуместно. Затем компоненты диффузного звука могут быть смоделированы с помощью компенсации энергии путем вычисления порядка Lk и числа мод mk, соответствующих K компонентам низкого порядка, при этом K представляет число диффузных компонент в первой группе:In certain cases and no diffuse sound components are synthesized. This is especially true at high frequencies, where absolute phases are not audible and the use of decorrelators is inappropriate. The diffuse sound components can then be modeled with energy compensation by calculating the order Lk and the number of modes mk corresponding to the K low order components, with K representing the number of diffuse components in the first group:
Компенсирующим усилением тогда становится:The compensating gain then becomes:
Далее представляются варианты осуществления нормализации энергии компонент прямого звука, соответствующие второму аспекту, в общем проиллюстрированному на Фиг. 7. Выше предполагалось, что входной вектор являлся физически корректным амбисоническим сигналом максимального порядка L. Однако на входной сигнал понижающего микширования могут оказывать влияние ошибки квантования, которые могут нарушать соотношение энергии. Это соотношение может быть восстановлено путем нормализации входного сигнала понижающего микширования:Next, embodiments of energy normalization of the direct sound components corresponding to the second aspect generally illustrated in FIG. 7. It was assumed above that the input vector was a physically correct ambisonic signal of maximum order L . However, the downmix input signal may be affected by quantization errors, which may disturb the energy relationship. This relationship can be restored by normalizing the downmix input signal:
Учитывая направление звука и параметры диффузности, прямые и диффузные компоненты могут быть выражены как:Given the direction of the sound and the diffuseness parameters, the direct and diffuse components can be expressed as:
Ожидаемая мощность в соответствии с моделью затем может быть выражена для каждой из компонент как:The expected power according to the model can then be expressed for each of the components as:
Компенсирующим усилением тогда становится:The compensating gain then becomes:
где 0 и where 0 and
В качестве альтернативы, ожидаемая мощность в соответствии с моделью затем может быть выражена для каждой из компонент как:Alternatively, the expected power according to the model can then be expressed for each of the components as:
Компенсирующим усилением тогда становится:The compensating gain then becomes:
где 0 и where 0 and
и являются комплексными значениями, и для вычисления берется норма или величина или абсолютное значение или представление комплексного значения в полярных координатах и возводится в квадрат, чтобы получить ожидаемую мощность или энергию в качестве связанного с энергией или амплитудой показателя. and are complex values, and to calculate a norm or magnitude or an absolute value or a complex value representation in polar coordinates is taken and squared to obtain the expected power or energy as an energy or amplitude related metric.
Компенсация энергии компонент диффузного звука и нормализация энергии компонент прямого звука могут быть достигнуты совместно, применяя усиление следующей формы:Compensating the energy of the diffuse sound components and normalizing the energy of the direct sound components can be achieved jointly by applying amplification of the following form:
В реальной реализации полученное усиление нормализации, компенсационное усиление или их комбинация могут быть ограничены, чтобы избежать больших коэффициентов усиления, приводящих к серьезному выравниванию частотной характеристики, которое может привести к звуковым артефактам. Например, усиления могут быть ограничены диапазоном от -6 до +6 дБ. Кроме того, усиления можно сглаживать во времени и/или по частоте (с помощью скользящей средней или рекурсивной средней) для предотвращения резких изменений и для последующего процесса стабилизации.In a real implementation, the resulting normalization gain, compensation gain, or a combination thereof may be limited to avoid large gains resulting in severe flattening of the frequency response, which can lead to audio artifacts. For example, gains can be limited to -6 to +6 dB. In addition, the gains can be smoothed in time and/or frequency (using a moving average or recursive average) to prevent abrupt changes and for the subsequent stabilization process.
Далее будут резюмированы некоторые выгоды и преимущества предпочтительных вариантов осуществления по сравнению с существующим уровнем техники.The following will summarize some of the benefits and advantages of the preferred embodiments over the prior art.
Упрощенное (менее сложное) синтезирование HOA в DirAC.Simplified (less complex) synthesis of HOA in DirAC.
Более прямое синтезирование без полного синтезирования всех амбисонических компонент.More direct synthesis without full synthesis of all ambisonic components.
Уменьшение количества требуемых декорреляторов и их влияния на финальное качество.Reducing the number of required decorrelators and their impact on the final quality.
Уменьшение артефактов кодирования, вносимых в сигнал понижающего микширования во время передачи.Reduce coding artifacts introduced into the downmix signal during transmission.
Разделение обработки на три разных порядка для достижения оптимального компромисса между качеством и эффективностью обработки.Separation of processing into three different orders to achieve the optimal compromise between quality and processing efficiency.
Далее резюмируются некоторые аспекты изобретения, частично или полностью включенные в вышеприведенное описание, которые могут использоваться независимо друг от друга или в комбинации друг с другом, или только в определенной комбинации, объединяющей только два произвольно выбранных аспекта из упомянутых трех аспектов.The following summarizes some aspects of the invention, partly or wholly included in the above description, which can be used independently of each other or in combination with each other, or only in a certain combination, combining only two arbitrarily selected aspects from the three mentioned aspects.
Первый аспект: Компенсация энергии для компонент диффузного звукаFirst Aspect: Energy Compensation for Diffuse Sound Components
Настоящее изобретение исходит из того факта, что, когда описание звукового поля генерируется из входного сигнала, содержащего одну или более компонент сигнала, входной сигнал может быть проанализирован для получения, по меньшей мере, данных о диффузности для звукового поля, представленного входным сигналом. Анализ входного сигнала может представлять собой извлечение данных о диффузности, ассоциированных как метаданные с одной или более компонентами сигнала, или анализ входного сигнала может представлять собой анализ реального сигнала, когда, например, входной сигнал имеет две, три или даже более компонент сигнала, например полное представление первого порядка, такое как представление в B-формате или представление в A-формате.The present invention is based on the fact that when a sound field description is generated from an input signal containing one or more signal components, the input signal can be analyzed to obtain at least diffuseness data for the sound field represented by the input signal. The analysis of the input signal may be the extraction of diffuseness data associated as metadata with one or more signal components, or the analysis of the input signal may be the analysis of a real signal when, for example, the input signal has two, three, or even more signal components, such as a complete a first-order representation, such as a B-format representation or an A-format representation.
Теперь имеется генератор звуковых компонент, который генерирует одну или более компонент звукового поля первой группы, которые имеют прямую компоненту и диффузную компоненту. И, дополнительно, генерируется одна или более компонент звукового поля второй группы, при этом для такой второй группы компонента звукового поля имеет только прямые компоненты.There is now a sound component generator that generates one or more first group sound field components that have a direct component and a diffuse component. And, additionally, one or more second group sound field components are generated, wherein for such a second group, the sound field component has only direct components.
В отличие от генерирования полного звукового поля, это приведет к ошибке в энергии при условии, что значение диффузности для текущего кадра или текущего рассматриваемого фрагмента времени/частоты имеет значение, отличное от нуля.Unlike generating a full sound field, this will result in an error in energy provided that the diffuseness value for the current frame or current time/frequency slice under consideration has a value other than zero.
Чтобы компенсировать эту ошибку энергии, компенсация энергии выполняется при генерировании первой группы компонент звукового поля. Эта компенсация энергии зависит от данных о диффузности и числа компонент звукового поля во второй группе, представляющей потерю энергии из-за отсутствия синтезирования диффузных компонент для этой второй группы.To compensate for this energy error, energy compensation is performed when generating the first group of sound field components. This energy compensation depends on the diffuseness data and the number of sound field components in the second group, representing the energy loss due to the lack of synthesis of diffuse components for this second group.
В одном варианте осуществления генератор звуковых компонент для первой группы может быть ветвью низкого порядка с Фиг. 4, которая извлекает компоненты звукового поля первой группы посредством копирования или выполнения взвешенного сложения, т.е. без выполнения оценки сложной пространственной базисной функции. Таким образом, компонента звукового поля первой группы не является доступной отдельно как прямая часть и диффузная часть. Однако увеличение всей компоненты звукового поля первой группы по отношению к ее энергии автоматически увеличивает энергию диффузной части.In one embodiment, the audio component generator for the first group may be the low order branch of FIG. 4 which extracts the sound field components of the first group by copying or performing a weighted addition, i. e. without estimating the complex spatial basis function. Thus, the sound field component of the first group is not available separately as a direct part and a diffuse part. However, an increase in the entire sound field component of the first group with respect to its energy automatically increases the energy of the diffuse part.
В качестве альтернативы, генератор звуковых компонент для одной или более компонент звукового поля первой группы также может быть ветвью среднего порядка на Фиг. 4, полагающейся на раздельное синтезирование прямой части и синтезирование диффузной части. Здесь мы имеем отдельно доступную диффузную часть, и в одном варианте осуществления диффузная часть компоненты звукового поля увеличивается, но не прямая часть, чтобы компенсировать потерю энергии из-за второй группы. В качестве альтернативы, однако, в этом случае можно было бы увеличить энергию результирующей компоненты звукового поля после объединения прямой части и диффузной части.Alternatively, the sound component generator for one or more first group sound field components may also be a medium order branch of FIG. 4, relying on separate synthesis of the direct part and synthesis of the diffuse part. Here we have the diffuse portion separately available, and in one embodiment the diffuse portion of the sound field component is increased, but not the direct portion, to compensate for the energy loss due to the second group. Alternatively, however, in this case it would be possible to increase the energy of the resulting sound field component after combining the direct part and the diffuse part.
В качестве альтернативы, генератор звуковых компонент для одной или более компонент звукового поля первой группы также может представлять собой ветви компонент низкого и среднего порядка на Фиг. 4. Тогда компенсация энергии может применяться только к компонентам низкого порядка или к компонентам как низкого, так и среднего порядка.Alternatively, the audio component generator for one or more first group sound field components can also be branches of the low and medium order components of FIG. 4. Energy compensation can then only be applied to low order components or to both low and medium order components.
Второй аспект: Нормализация энергии компонент прямого звукаSecond aspect: Energy normalization of the direct sound component
В этом изобретении исходят из предположения, что генерирование входного сигнала, который имеет две или более звуковых компонент, сопровождалось некоторым видом квантования. Как правило, при рассмотрении двух или более звуковых компонент, одна звуковая компонента входного сигнала может представлять собой всенаправленный сигнал, например, всенаправленные микрофонные сигналы W в представлении B-формата, а другие звуковые компоненты могут представлять собой отдельные направленные сигналы, такие как сигналы X, Y, Z микрофона в форме восьмерки в представлении B-формата, то есть в амбисоническом представлении первого порядка.This invention is based on the assumption that the generation of an input signal that has two or more audio components was accompanied by some kind of quantization. Typically, when considering two or more audio components, one audio component of the input signal may be an omnidirectional signal, such as omnidirectional microphone signals W in B-format representation, and other audio components may be separate directional signals, such as X signals, Y, Z of a figure-eight microphone in B-format representation, that is, in first-order ambisonic representation.
Когда кодер сигнала попадает в ситуацию, когда требования к битрейту слишком высоки для идеальной операции кодирования, то типичная процедура состоит в том, что кодер кодирует всенаправленный сигнал как можно точнее, но кодер только тратит меньшее количество битов на направленные компоненты, которое может быть даже настолько низкими, что одна или более направленных компонент полностью сводятся к нулю. Это представляет собой такую потерю или несоответствие энергии в информации о направлении.When a signal encoder is in a situation where the bitrate requirements are too high for an ideal encoding operation, then the typical procedure is that the encoder encodes the omnidirectional signal as accurately as possible, but the encoder only spends fewer bits on the directional components, which may even be as low as low that one or more directional components are completely nullified. It represents such a loss or mismatch of energy in direction information.
Теперь, тем не менее, может иметь место требование, которое, например, получают за счет наличия явной параметрической вспомогательной информации, указывающей, что определенный кадр или элемент разрешения по времени/частоте имеет определенную диффузность, меньшую единицы, и направление звука. Таким образом, может возникнуть ситуация, когда в соответствии с параметрическими данными имеется некоторая определенная недиффузная компонента с некоторым определенным направлением, в то время как, с другой стороны, передаваемый всенаправленный сигнал и направленные сигналы это направление не отражают. Например, всенаправленный сигнал мог бы передаваться без какой-либо существенной потери информации, в то время как направленный сигнал, Y, отвечающий за левое и правое направление, мог бы быть установлен равным нулю по причине отсутствия битов. В этом сценарии, даже если в исходной аудиосцене компонента прямого звука исходит слева, передаваемые сигналы будут отражать аудиосцену без какой-либо характеристики направленности лево-право.Now, however, there may be a requirement, which, for example, is obtained by having explicit parametric ancillary information indicating that a certain frame or time/frequency bin has a certain diffuseness less than one and sound direction. Thus, a situation may arise where, according to the parametric data, there is some certain non-diffuse component with some certain direction, while, on the other hand, the transmitted omnidirectional signal and the directional signals do not reflect this direction. For example, an omnidirectional signal could be transmitted without any significant loss of information, while a directional signal, Y, responsible for the left and right directions, could be set to zero due to missing bits. In this scenario, even if the direct audio component originates from the left in the original audio scene, the transmitted signals will reflect the audio scene without any left-right directional characteristic.
Таким образом, в соответствии со вторым изобретением выполняется нормализация энергии для компонент прямого звука, чтобы компенсировать нарушение соотношения энергии с помощью данных о направлении/диффузности, которые либо явно включаются во входной сигнал, либо выводятся из самого входного сигнала.Thus, in accordance with the second invention, energy normalization is performed for the direct sound components to compensate for energy imbalance with direction/diffusion data that is either explicitly included in the input signal or derived from the input signal itself.
Эта нормализация энергии может быть применена в контексте всех отдельных ветвей обработки с Фиг. 4 либо полностью, либо только по отдельности.This energy normalization can be applied in the context of all individual processing branches of FIG. 4 either completely or only individually.
Это изобретение позволяет использовать дополнительные параметрические данные, либо принимаемые из входного сигнала, либо выводимые из ненарушенных частей входного сигнала, и, следовательно, ошибки кодирования, включенные во входной сигнал по какой-либо причине, могут быть уменьшены с использованием дополнительных данных о направлении и данных о диффузности, выводимых из входного сигнала.This invention allows the use of additional parametric data, either received from the input signal or derived from the undisturbed portions of the input signal, and therefore coding errors included in the input signal for whatever reason can be reduced using the additional direction data and data about diffuseness derived from the input signal.
В этом изобретении связанный с энергией или амплитудой показатель для всенаправленной компоненты, выводимой из входного сигнала, и дополнительный связанный с энергией или амплитудой показатель для направленной компоненты, выводимой из входного сигнала, оцениваются и используются для компенсации энергии вместе с данными о направлении и данными о диффузности. Таким связанным с энергией или амплитудой показателем может быть сама амплитуда или мощность, т.е. возведенные в квадрат и просуммированные амплитуды, или может быть энергия, например, мощность, умноженная на определенный период времени, или может быть любой другой показатель, выводимый из амплитуды с показателем степени для амплитуды, отличным от единицы, и последующим суммированием. Таким образом, дополнительным связанным с энергией или амплитудой показателем также может быть громкость с показателем степени три по сравнению с мощностью с показателем степени два.In this invention, an energy or amplitude related metric for the omnidirectional component output from the input signal and an additional energy or amplitude related metric for the directional component output from the input signal are estimated and used for energy compensation along with direction data and diffuseness data. . Such an energy- or amplitude-related metric could be the amplitude or power itself, i. e. squared and summed amplitudes, or may be energy, such as power multiplied by a certain period of time, or may be any other exponent derived from the amplitude with an exponent for the amplitude other than one, and then summed. Thus, an additional energy or amplitude related metric could also be loudness with a power of three versus power with a power of two.
Третий аспект: Реализация системы с различными процедурами обработки для разных порядковThird aspect: System implementation with different processing procedures for different orders
В третьем изобретении, которое проиллюстрировано на Фиг. 4, звуковое поле генерируется с использованием входного сигнала, содержащего моносигнал или многокомпонентный сигнал, имеющий две или более компоненты сигнала. Анализатор сигналов выводит данные о направлении и данные о диффузности из входного сигнала либо посредством явного анализа сигнала в случае, если входной сигнал имеет две или более компоненты сигнала, либо посредством анализа входного сигнала для извлечения данных о направлении и данных о диффузности, включенных во входной сигнал в качестве метаданных.In the third invention, which is illustrated in FIG. 4, the sound field is generated using an input signal containing a mono signal or a multi-component signal having two or more signal components. The signal analyzer derives direction data and diffuseness data from the input signal, either by explicitly analyzing the signal in case the input signal has two or more signal components, or by analyzing the input signal to extract the direction data and diffuseness data included in the input signal as metadata.
Генератор компонент низкого порядка генерирует звуковое описание низкого порядка из входного сигнала вплоть до предопределенного порядка и выполняет эту задачу для доступных мод, которые могут быть извлечены из входного сигнала, посредством копирования компоненты сигнала из входного сигнала или посредством выполнения взвешенной комбинации компонент во входном сигнале.The low order component generator generates a low order audio description from the input signal up to a predefined order and performs this task for the available modes that can be extracted from the input signal by copying the signal component from the input signal or by performing a weighted combination of the components in the input signal.
Генератор компонент среднего порядка генерирует звуковое описание среднего порядка, имеющее компоненты с порядком выше предопределенного порядка или с предопределенным порядком и выше предопределенной моды и ниже или с первым порядком отсечения, используя синтез по меньшей мере одной прямой компоненты и синтез по меньшей мере одной диффузной компоненты, с использованием данных о направлении и данных о диффузности, получаемых из анализатора, так что звуковое описание среднего порядка содержит прямой вклад и диффузный вклад.The medium order component generator generates a medium order audio description having components with an order above a predefined order or with a predefined order and above a predefined mode and below or with a first cutoff order using at least one direct component synthesis and at least one diffuse component synthesis, using the direction data and the diffuseness data obtained from the analyzer, so that the sound description of the average order contains a direct contribution and a diffuse contribution.
Кроме того, генератор компонент высокого порядка генерирует звуковое описание высокого порядка, имеющее компоненты с порядками выше первого отсечения и ниже или равными второму порядку отсечения, используя синтез по меньшей мере одной прямой компоненты без синтеза какой-либо диффузной компоненты, так что звуковое описание высокого порядка имеет только прямой вклад.In addition, the high order component generator generates a high order audio description having components with orders above the first cutoff and below or equal to the second cutoff order using the synthesis of at least one direct component without synthesizing any diffuse component, so that the high order audio description has only a direct contribution.
Изобретение этой системы имеет значительные преимущества в том, что генерирование максимально точного звукового поля низкого порядка посредством использования информации, включенной во входной сигнал, выполняется как можно лучше, в то же время операции обработки для выполнения звукового описания низкого порядка требуют небольших затрат из-за того, что требуются только операции копирования или операции взвешенной комбинации, такие как взвешенные сложения. Таким образом, высококачественное звуковое описание низкого порядка выполняется с минимальным объемом требуемой мощности обработки.The invention of this system has significant advantages in that the generation of the most accurate low order sound field by using the information included in the input signal is performed as best as possible, while the processing operations for performing the low order sound description are low cost due to that only copy operations or weighted combination operations such as weighted additions are required. Thus, high-quality, low-order audio description is performed with a minimum amount of processing power required.
Звуковое описание среднего порядка требует большей мощности обработки, но позволяет сгенерировать очень точное звуковое описание среднего порядка с прямым и диффузным вкладами с использованием анализируемых данных о направлении и данных о диффузности, как правило, вплоть до некоторого порядка, т.е. высокого порядка, ниже которого диффузный вклад в описание звукового поля все еще требуется с точки зрения восприятия.The mean order audio description requires more processing power, but allows a very accurate mean order audio description with direct and diffuse contributions to be generated using the analyzed direction data and diffuseness data, typically up to some order, i.e. high order, below which the diffuse contribution to the sound field description is still required from a perceptual point of view.
Наконец, генератор компонент высокого порядка генерирует звуковое описание высокого порядка только путем выполнения прямого синтеза без выполнения диффузного синтеза. Это, опять же, снижает объем требуемой мощности обработки из-за того, что генерируются только прямые компоненты, тогда как, в то же самое время, исключение диффузного синтеза не является таким уж проблематичным с точки зрения восприятия.Finally, the high order component generator generates a high order audio description only by performing direct synthesis without performing diffuse synthesis. This, again, reduces the amount of processing power required due to the fact that only direct components are generated, while at the same time eliminating diffuse synthesis is not so perceptually problematic.
Естественно, третье изобретение может быть объединено с первым и/или вторым изобретением, но даже когда по некоторым причинам компенсация за невыполнение диффузного синтеза генератором компонент высокого порядка не применяется, процедура, тем не менее, приводит в результате к оптимальному компромиссу между мощностью обработки, с одной стороны, и качеством звука, с другой. То же самое верно и для выполнения нормализации энергии низкого порядка, компенсирующей кодирование, используемое для генерирования входного сигнала. В варианте осуществления эта компенсация выполняется дополнительно, но даже без этой компенсации получаются значительные нетривиальные преимущества.Naturally, the third invention can be combined with the first and/or the second invention, but even when for some reason compensation for not performing diffuse synthesis by the high-order component generator is not applied, the procedure nevertheless results in an optimal compromise between processing power, with on the one hand, and sound quality on the other. The same is true for performing low order energy normalization compensating for the coding used to generate the input signal. In an embodiment, this compensation is performed additionally, but even without this compensation, significant non-trivial advantages are obtained.
Фиг. 4 в качестве символической иллюстрации параллельной передачи показывает число компонент, обрабатываемых каждым генератором компонент. Генератор 810 компонент низкого порядка, проиллюстрированный на Фиг. 4, генерирует описание звукового поля низкого порядка из входного сигнала вплоть до предопределенного порядка и предопределенной моды, при этом генератор 810 компонент низкого порядка выполнен с возможностью выведения описания звукового поля низкого порядка посредством копирования или взятия входного сигнала как есть или посредством выполнения взвешенной комбинации каналов входного сигнала. Как проиллюстрировано между блоком генератора компонент низкого порядка и блоком микширования компонент низкого порядка, K отдельных компонент обрабатываются этим генератором 810 компонент низкого порядка. Генератор 820 компонент среднего порядка генерирует опорный сигнал, и в качестве примерной ситуации указывается, что используется всенаправленный сигнал, включенный в сигнал понижающего микширования на входе или выходе блока 400 фильтров. Однако, когда входной сигнал имеет левый канал и правый канал, то моносигнал, получаемый путем сложения левого и правого каналов, вычисляется генератором 821 опорного сигнала. Кроме того, число (L+1)2 - K компонент генерируются генератором компонент среднего порядка. Кроме того, генератор компонент высокого порядка генерирует число (H+1)2 - (L+1)2 компонент, так что в конце, на выходе объединителя, находятся (H+1)2 компонент из одной или нескольких (небольшое число) компонент на входе в блок 400 фильтров. Разделитель выполнен с возможностью обеспечения раздельных данных о направлении/диффузности в соответствующие генераторы 810, 820, 830 компонент. Таким образом, генератор компонент низкого порядка принимает K элементов данных. На это указывает линия, соединяющая разделитель 420 и блок микширования компонент низкого порядка.Fig. 4, as a symbolic illustration of parallel transmission, shows the number of components processed by each component generator. The low
Кроме того, блок 825 микширования компонент среднего порядка принимает (L+1)2 - K элементов данных, а блок микширования компонент высокого порядка принимает (H+1)2 - (L+1)2 элементов данных. Соответственно, отдельные блоки микширования компонент предоставляют определенное число компонент звукового поля в объединитель 430.In addition, the middle
Далее предпочтительная реализация генератора 810 компонент низкого порядка с Фиг. 4 иллюстрируется со ссылкой на Фиг. 9. Входной сигнал вводится в блок 811 исследования входного сигнала, и этот блок 811 исследования входного сигнала передает полученную информацию в блок 812 выбора режима обработки. Блок 812 выбора режима обработки выполнен с возможностью выбора множества различных режимов обработки, которые схематично проиллюстрированы как блок 813 копирования, обозначенный цифрой 1, блок 814 взятия (как есть), обозначенный цифрой 2, блок линейной комбинации (первый режим), обозначенный цифрой 3 и ссылочной позицией 815, и блок 816 линейной комбинации (второй режим), обозначенный цифрой 4. Например, когда блок 811 исследования входного сигнала определяет определенный вид входного сигнала, тогда блок 812 выбора режима обработки выбирает один из упомянутого множества различных режимов обработки, как показано в таблице на Фиг. 9. Например, когда входным сигналом является всенаправленный сигнал W или моносигнал, тогда выбирается копирование 813 или взятие 814. Однако, когда входным сигналом является стереосигнал с левым каналом или правым каналом, или многоканальный сигнал с 5.1 или 7.1 каналами, тогда блок 815 линейной комбинации выбирается для того, чтобы выводить из входного сигнала всенаправленный сигнал W посредством сложения левого и правого и посредством вычисления направленной компоненты посредством вычисления разности между левым и правым.Further, a preferred implementation of the low
Однако, когда входным сигналом является объединенный стереосигнал, то есть срединное/боковое ("mid/side") представление, тогда выбирается либо блок 813, либо блок 814, поскольку срединный сигнал уже представляет всенаправленный сигнал, а боковой сигнал уже представляет направленную компоненту.However, when the input signal is a combined stereo signal, i.e., a mid/side ("mid/side") representation, then either block 813 or block 814 is selected, since the middle signal already represents the omnidirectional signal, and the side signal already represents the directional component.
Аналогичным образом, когда определяется, что входной сигнал является амбисоническим сигналом первого порядка (FOA), то блок 812 выбора режима выбирает либо блок 813, либо блок 814. Однако, когда определено, что входной сигнал является сигналом A-формата, тогда блок 816 линейной комбинации (второй режим) выбирается для того, чтобы выполнить линейное преобразование над сигналом A-формата, чтобы получить амбисонический сигнал первого порядка, имеющий всенаправленную компоненту и компоненты трех направлений, представляющие блоки K компонент низкого порядка, сгенерированных блоком 810 на Фиг. 8 или Фиг. 6. Кроме того, на Фиг. 9 проиллюстрирован компенсатор 900 энергии, который выполнен с возможностью выполнения компенсации энергии для вывода из одного из блоков с 813 по 816, чтобы выполнить диффузную компенсацию и/или прямую компенсацию с соответствующими значениями g и gs усиления.Similarly, when it is determined that the input signal is a first order ambisonic (FOA) signal, then the mode
Следовательно, реализация компенсатора 900 энергии соответствует процедуре генератора 650 звуковых компонент или генератора 750 звуковых компонент с Фиг. 6 и Фиг. 7, соответственно.Therefore, the implementation of the
Фиг. 10 иллюстрирует предпочтительную реализацию генератора 820 компонент среднего порядка с Фиг. 8 или части генератора 650 звуковых компонент для нижней стрелки с прямыми/диффузными (компонентами) из блока 650, относящимися к первой группе. В частности, генератор 820 компонент среднего порядка содержит генератор 821 опорного сигнала, который принимает входной сигнал и генерирует опорный сигнал посредством копирования или взятия его как есть, когда входным сигналом является моносигнал, или посредством выведения опорного сигнала из входного сигнала, выполняя вычисление согласно вышеописанному или тому, что представлено в заявке WO 2017/157803 A1, содержимое которой включено в настоящий документ по этой ссылке во всей своей полноте.Fig. 10 illustrates a preferred implementation of the
Кроме того, Фиг. 10 иллюстрирует вычислитель 410 направленного усиления, который выполнен с возможностью вычисления направленного усиления Gl m из определенной информации DOA (Φ,θ) и из определенного номера m моды и определенного номера l порядка. В предпочтительном варианте осуществления, когда обработка выполняется во области времени/частоты для каждого отдельного фрагмента, который обозначается с помощью k, n, направленное усиление вычисляется для каждого такого фрагмента времени/частоты. Блок 820 весовой обработки принимает опорный сигнал и данные о диффузности для определенного фрагмента времени/частоты и результатом обработки блоком 820 весовой обработки является прямая часть. Диффузная часть генерируется обработкой, выполняемой фильтром 823 декорреляции и последующим блоком 824 весовой обработки, принимающим значение Ψ диффузности для определенного временного кадра и элемента разрешения по частоте и, в частности, принимающим средний ответ на определенную моду m и порядок l, указываемый как Dl и генерируемый блоком 826 обеспечения среднего ответа, который принимает в качестве ввода требуемую моду m и требуемый порядок l.In addition, FIG. 10 illustrates a
Результатом обработки блоком 824 весовой обработки является диффузная часть, и эта диффузная часть прибавляется к прямой части сумматором 825 для того, чтобы получить определенную компоненту звукового поля среднего порядка для определенной моды m и определенного порядка l. Предпочтительно применять диффузное компенсационное усиление, описанное со ссылкой на Фиг. 6, только к диффузной части, генерируемой блоком 823. Это может быть выгодно сделано в рамках процедуры, выполняемой блоком весовой обработки (диффузных компонент). Таким образом, в сигнале усиливается только диффузная часть, чтобы компенсировать потерю диффузной энергии, понесенную более высокими компонентами, которые не принимают полного синтеза, как проиллюстрировано на Фиг. 10.The result of
Генерирование только прямой части проиллюстрировано на Фиг. 11 для генератора компонент высокого порядка. В своей основе, генератор компонент высокого порядка реализован таким же образом, что и генератор компонент среднего порядка по отношению к прямой ветви, но не содержит блоков 823, 824, 825 и 826. Таким образом, генератор компонент высокого порядка содержит только блок 822 весовой обработки (прямых компонент), принимающий входные данные от вычислителя 410 направленного усиления и принимающий опорный сигнал от генератора 821 опорного сигнала. Предпочтительно, чтобы для генератора компонент высокого порядка и генератора компонент среднего порядка генерировался только один опорный сигнал. Однако оба блока также могут иметь индивидуальные генераторы опорных сигналов, в зависимости от обстоятельств. Тем не менее, предпочтительно иметь только один генератор опорного сигнала. Таким образом, обработка, выполняемая генератором компонент высокого порядка, является чрезвычайно эффективной, поскольку для фрагмента времени/частоты должна выполняться только одна операция взвешивания с определенным направленным усилением Gl m с определенной информацией Ψ о диффузности. Таким образом, компоненты звукового поля высокого порядка могут быть сгенерированы чрезвычайно эффективно и быстро, а любая ошибка, связанная с отсутствием генерирования диффузных компонент или неиспользованием диффузных компонент в выходном сигнале, легко компенсируется за счет усиления компонент звукового поля низкого порядка или предпочтительно только диффузной части компонент звукового поля среднего порядка.The generation of only the straight part is illustrated in FIG. 11 for the high order component generator. Basically, the high order component generator is implemented in the same way as the medium order component generator with respect to the direct branch, but does not contain
Обычно диффузная часть не будет доступна отдельно в компонентах звукового поля низкого порядка, генерируемых копированием или выполнением (взвешенной) линейной комбинации. Однако увеличение энергии таких компонент автоматически увеличивает энергию диффузной части. Как выяснили изобретатели, одновременное повышение энергии прямой части проблемой не является.Normally the diffuse part will not be available separately in the low order sound field components generated by copying or performing a (weighted) linear combination. However, an increase in the energy of such components automatically increases the energy of the diffuse part. As the inventors found out, the simultaneous increase in the energy of the direct part is not a problem.
Далее делается ссылка на Фигуры с 12a по 12c для того, чтобы дополнительно проиллюстрировать вычисление отдельных компенсационных усилений.Further reference is made to Figures 12a to 12c in order to further illustrate the calculation of individual compensation gains.
Фиг. 12a иллюстрирует предпочтительную реализацию генератора 650 звуковых компонент с Фиг. 6. Компенсационное усиление (диффузное) вычисляется в одном варианте осуществления с использованием значения диффузности, максимального порядка H и порядка L отсечения. В другом варианте осуществления диффузное компенсационное усиление вычисляется с использованием параметра Lk, выводимого из числа компонент в ветви 810 обработки низкого порядка. Кроме того, параметр mk используется в зависимости от параметра lk и числа K компонент, фактически генерируемых генератором компонент низкого порядка. Кроме того, также используется значение N, зависящее от Lk. Оба значения H, L в первом варианте осуществления или H, Lk, mk обычно представляют число компонент звукового поля во второй группе (связанное с числом звуковых компонент в первой группе). Таким образом, чем больше компонент, для которых диффузная компонента не синтезируется, тем выше будет компенсационное усиление энергии. С другой стороны, чем больше число компонент звукового поля низкого порядка, которые могут быть компенсированы, т.е. умножены на коэффициент усиления, тем этот коэффициент усиления может быть ниже. Как правило, коэффициент g усиления всегда будет больше 1.Fig. 12a illustrates a preferred implementation of the
Фиг. 12a иллюстрирует вычисление коэффициента g усиления вычислителем 910 (диффузного) компенсационного усиления и последующее применение этого коэффициента усиления к компоненте (низкого порядка), которая подлежит «корректировке», как это делается блоком 900 применения компенсационного усиления. В случае линейных чисел блок применения компенсационного усиления будет умножителем, а в случае логарифмических чисел блок применения компенсационного усиления будет сумматором. Однако другие реализации применения компенсационного усиления могут быть реализованы в зависимости от конкретной природы и способа вычисления компенсационного усиления блоком 910. Таким образом, усиление не обязательно должно быть мультипликативным, но также может быть любым другим усилением.Fig. 12a illustrates the calculation of the gain factor g by the (diffuse)
Фиг. 12b иллюстрирует третью реализацию обработки (прямого) компенсационного усиления. Вычислитель 920 (прямого) компенсационного усиления принимает в качестве ввода связанный с энергией или амплитудой показатель для всенаправленной компоненты, указанный как «всенаправленная мощность» на Фиг. 12b. Кроме того, второй связанный с энергией или амплитудой показатель для направленной компоненты также вводится в блок 920 в качестве «направленной мощности». Кроме того, вычислитель 920 прямого компенсационного усиления дополнительно принимает информацию QL или, в качестве альтернативы, информацию N. N равно (2l+1), что является числом коэффициентов на порядок l, а Ql равно 1/N. Кроме того, направленное усиление Gl m для некоторого фрагмента времени/частоты (k, n) также требуется для вычисления (прямого) компенсационного усиления. Направленное усиление представляет собой те же данные, которые, например, были выведены вычислителем 410 направленного усиления с Фиг. 4. (Прямое) компенсационное усиление gs пересылается из блока 920 в блок 900 применения компенсационного усиления, который может быть реализован аналогично блоку 900, т.е. принимает компоненту(ы), которая подлежит «корректировке», и выводит скорректированную компоненту(ы).Fig. 12b illustrates a third implementation of (direct) equalization gain processing. The (forward)
Фиг. 12c иллюстрирует предпочтительную реализацию комбинации компенсации энергии компонент диффузного звука и нормализации энергии компенсации компонент прямого звука, которые должны быть выполнены совместно. С этой целью (диффузное) компенсационное усиление g и (прямое) компенсационное усиление gs вводятся в объединитель 930 усилений. Результат объединителя усилений (т.е. объединенное усиление) вводится в блок 940 манипулирования усилением, который реализован как постпроцессор и выполняет ограничение минимальным или максимальным значением, или который применяет функцию сжатия для выполнения некоторого в своем роде более мягкого ограничения, или выполняет сглаживание временных или частотных фрагментов. Подвергнутое манипуляции усиление, которое ограничено, сжато, или сглажено или обработано другими способами постобработки, затем применяется блоком применения усиления к компоненте(ам) низкого порядка для получения скорректированной компоненты(компонент) низкого порядка.Fig. 12c illustrates a preferred implementation of a combination of diffuse sound component energy compensation and direct sound component compensation energy normalization to be performed together. To this end, a (diffuse) equalization gain g and a (direct) equalization gain g s are introduced into a
В случае линейных усилений g, gs, объединитель 930 усилений реализуется как умножитель. В случае логарифмических усилений, объединитель усилений реализуется как сумматор. Кроме того, что касается реализации блока оценки с Фиг. 7, указанного ссылочной позицией 620, показано, что блок 620 оценки может обеспечивать любые связанные с энергией или амплитудой показатели для всенаправленной и направленной компонент до тех пор, пока степень, применяемая к амплитуде, больше 1. В случае мощности в качестве связанного с энергией или амплитудой показателя, показатель степени равняется 2. Однако также могут быть полезны показатели степени от 1,5 до 2,5. Кроме того, полезны даже более высокие показатели степени или степени, такие как степень 3, применяемая к амплитуде, соответствующей значению громкости, а не значению мощности. Таким образом, как правило, степени 2 или 3 являются предпочтительными для обеспечения связанных с энергией или амплитудой показателей, но также обычно предпочтительны степени от 1,5 до 4.In the case of linear gains g, g s , the
Далее кратко излагаются несколько примеров аспектов изобретения.The following is a summary of several examples of aspects of the invention.
Основной пример 1a для первого аспекта (компенсация энергии для компонент диффузного звука)Basic example 1a for the first aspect (energy compensation for diffuse sound components)
1a. Устройство для генерирования описания звукового поля из входного сигнала, содержащего один или более каналов, причем устройство содержит:1a. A device for generating a sound field description from an input signal containing one or more channels, the device comprising:
анализатор входного сигнала для получения данных о диффузности из входного сигнала;an input signal analyzer for obtaining diffuseness data from the input signal;
генератор звуковых компонент для генерирования из входного сигнала одной или более компонент звукового поля первой группы компонент звукового поля, имеющей для каждой компоненты звукового поля прямую компоненту и диффузную компоненту, и для генерирования из входного сигнала второй группы компонент звукового поля, имеющих только прямую компоненту,an audio component generator for generating from the input signal one or more sound field components of the first group of sound field components having a direct component and a diffuse component for each sound field component, and for generating from the input signal of the second group of sound field components having only a direct component,
при этом генератор звуковых компонент выполнен с возможностью выполнять компенсацию энергии при генерировании первой группы компонент звукового поля, причем компенсация энергии зависит от данных о диффузности и числа компонент звукового поля во второй группе.wherein the sound component generator is configured to perform energy compensation when generating the first group of sound field components, wherein the energy compensation depends on diffuseness data and the number of sound field components in the second group.
Основной пример 1b для второго аспекта (нормализация энергии для прямых компонент сигнала)Basic example 1b for the second aspect (energy normalization for direct signal components)
1b. Устройство для генерирования описания звукового поля из входного сигнала, содержащего по меньшей мере два канала, причем устройство содержит:1b. A device for generating a sound field description from an input signal containing at least two channels, the device comprising:
анализатор входного сигнала для получения данных о направлении и данных о диффузности из входного сигнала;an input signal analyzer for obtaining direction data and diffuseness data from the input signal;
блок оценки для оценки первого связанного с амплитудой показателя для всенаправленной компоненты, выведенной из входного сигнала, и для оценки второго связанного с амплитудой показателя для направленной компоненты, выведенной из входного сигнала, иan estimator for estimating a first amplitude-related metric for the omnidirectional component derived from the input signal and for estimating a second amplitude-related metric for the directional component derived from the input signal, and
генератор звуковых компонент для генерирования компонент звукового поля для звукового поля, причем генератор звуковых компонент выполнен с возможностью выполнения компенсации энергии направленной компоненты с использованием первого связанного с амплитудой показателя, второго связанного с амплитудой показателя, данных о направлении и данных о диффузности.an audio component generator for generating sound field components for the sound field, the audio component generator being configured to perform directional component energy compensation using the first amplitude related metric, the second amplitude related metric, direction data, and diffuseness data.
Основной пример 1c для третьего аспекта: Реализация системы с ветвями разных генераторовBasic example 1c for the third aspect: Implementation of a system with branches of different generators
1c. Устройство для генерирования описания звукового поля с использованием входного сигнала, содержащего моносигнал или многоканальный сигнал, причем устройство содержит:1c. A device for generating a sound field description using an input signal containing a mono signal or a multi-channel signal, the device comprising:
анализатор входного сигнала для анализа входного сигнала для выведения данных о направлении и данных о диффузности;an input signal analyzer for analyzing the input signal for deriving direction data and diffuseness data;
генератор компонент низкого порядка для генерирования звукового описания низкого порядка из входного сигнала вплоть до предопределенного порядка и моды, при этом генератор компонент низкого порядка выполнен с возможностью выведения звукового описания низкого порядка посредством копирования входного сигнала или посредством выполнения взвешенной комбинации каналов входного сигнала;a low order component generator for generating a low order audio description from the input signal up to a predetermined order and mode, the low order component generator being configured to derive the low order audio description by copying the input signal or by performing a weighted channel combination of the input signal;
генератор компонент среднего порядка для генерирования звукового описания среднего порядка, которое выше предопределенного порядок или с предопределенным порядком и выше предопределенной моды и ниже или с первым порядком отсечения, используя синтез по меньшей мере одной прямой компоненты и по меньшей мере одной диффузной компоненты, с использованием данных о направлении и данных о диффузности, так что звуковое описание среднего порядка содержит прямой вклад и диффузный вклад; иa mean order component generator for generating a mean order audio description that is above a predetermined order or with a predetermined order and above a predetermined mode and below or with a first cutoff order using synthesis of at least one direct component and at least one diffuse component using data about the direction and diffuseness data, so that the sound description of the average order contains a direct contribution and a diffuse contribution; and
генератор компонент высокого порядка для генерирования звукового описания высокого порядка, имеющего компоненту, которая выше первого порядка отсечения, используя синтез по меньшей мере одной прямой компоненты без синтеза какой-либо диффузной компоненты, так что звуковое описание высокого порядка имеет только прямой вклад.a high order component generator for generating a high order audio description having a component that is above the first cutoff order using synthesis of at least one direct component without synthesizing any diffuse component such that the high order audio description has only a direct contribution.
2. Устройство по примерам 1a, 1b, 1c,2. Device according to examples 1a, 1b, 1c,
в котором звуковое описание низкого порядка, звуковое описание среднего порядка или звуковое описание высокого порядка содержат компоненты звукового поля выходного звукового поля, которые являются ортогональными, так что любые два звуковых описания не содержат одни и те же компоненты звукового поля, илиin which the low order audio description, the medium order audio description, or the high order audio description contain sound field components of the output sound field that are orthogonal such that any two audio descriptions do not contain the same sound field components, or
при этом генератор компонент среднего порядка генерирует компоненты ниже или с первым порядком отсечения, не используемым генератором компонент низкого порядка.wherein the medium order component generator generates components below or with a first cutoff order not used by the low order component generator.
3. Устройство по одному из предшествующих примеров, содержащее:3. The device according to one of the previous examples, containing:
прием входного сигнала понижающего микширования, имеющего один или более аудиоканалов, которые представляют звуковое полеreceiving a downmix input signal having one or more audio channels that represent the sound field
прием или определение одного или более направлений звука, которые представляют звуковое поле;receiving or determining one or more sound directions that represent the sound field;
оценку одной или более пространственных базисных функций с использованием одного или более направлений звука;evaluating one or more spatial basis functions using one or more sound directions;
выведение первого набора одной или более компонент звукового поля из первой взвешенной комбинации каналов входного сигнала понижающего микширования.deriving a first set of one or more sound field components from the first weighted channel combination of the downmix input signal.
выведение второго набора одной или более прямых компонент звукового поля из второй взвешенной комбинации каналов входного сигнала понижающего микширования и одной или более оцененных пространственных базисных функций.deriving a second set of one or more direct sound field components from a second weighted combination of downmix input signal channels and one or more estimated spatial basis functions.
объединение первого набора одной или более компонент звукового поля и второго набора одной или более компонент звукового поля.combining the first set of one or more sound field components and the second set of one or more sound field components.
4. Устройство по одному из предшествующих примеров, при этом первый и второй наборы компонент звукового поля ортогональны.4. The device according to one of the preceding examples, wherein the first and second sets of sound field components are orthogonal.
5. Устройство по одному из предшествующих примеров, при этом компоненты звукового поля являются коэффициентами ортогональных базисных функций.5. The device according to one of the preceding examples, wherein the sound field components are coefficients of orthogonal basis functions.
6. Устройство по одному из предшествующих примеров, при этом компоненты звукового поля являются коэффициентами пространственных базисных функций.6. The device according to one of the preceding examples, wherein the sound field components are the coefficients of the spatial basis functions.
7. Устройство по одному из предшествующих примеров, при этом компоненты звукового поля являются коэффициентами сферических или круговых гармоник.7. An arrangement according to one of the preceding examples, wherein the sound field components are spherical or circular harmonic coefficients.
8. Устройство по одному из предшествующих примеров, при этом компоненты звукового поля являются амбисоническими коэффициентами.8. The device according to one of the preceding examples, wherein the sound field components are ambisonic coefficients.
9. Устройство по одному из предшествующих примеров, при этом входной сигнал понижающего микширования имеет менее трех аудиоканалов.9. Apparatus as in one of the preceding examples, wherein the downmix input signal has less than three audio channels.
10. Устройство по одному из предшествующих примеров, дополнительно содержащее:10. The device according to one of the preceding examples, further comprising:
прием или определение значения диффузности;receiving or determining the value of diffuseness;
генерирование одной или более компонент диффузного звука в зависимости от значения диффузности; иgenerating one or more diffuse sound components depending on the diffuse value; and
объединение одной или более компонент диффузного звука со вторым набором одной или более прямых компонент звукового поля;combining one or more diffuse sound components with a second set of one or more direct sound field components;
11. Устройство по одному из предшествующих примеров, в котором генератор диффузных компонент дополнительно содержит декоррелятор для декорреляции информации о диффузном звуке.11. The apparatus of one of the preceding examples, wherein the diffuse component generator further comprises a decorrelator for decorrelating diffuse sound information.
12. Устройство по одному из предшествующих примеров, при этом первый набор одной или более компонент звукового поля выводятся из значения диффузности.12. The apparatus of one of the preceding examples, wherein a first set of one or more sound field components are derived from a diffuseness value.
13. Устройство по одному из предшествующих примеров, при этом первый набор одной или более компонент звукового поля выводятся из одного или более направлений звука.13. The apparatus of one of the preceding examples, wherein a first set of one or more sound field components are output from one or more directions of sound.
14. Устройство по одному из предшествующих примеров, которое осуществляет выведение зависимых от частоты и времени направлений звука.14. An apparatus according to one of the preceding examples, which derives frequency and time dependent sound directions.
15. Устройство по одному из предшествующих примеров, которое осуществляет выведение зависимых от частоты и времени значений диффузности.15. An apparatus according to one of the preceding examples which derives frequency and time dependent diffuseness values.
16. Устройство по одному из предшествующих примеров, дополнительно содержащее: разложение множества каналов сигнала понижающего микширования во временной области в частотное представление, имеющее множество частотно-временных фрагментов.16. The apparatus of one of the preceding examples, further comprising: decomposing a plurality of time domain downmix signal channels into a frequency representation having a plurality of time-frequency slices.
17. Способ для генерирования описания звукового поля из входного сигнала, содержащего один или более каналов, содержащий:17. A method for generating a sound field description from an input signal containing one or more channels, comprising:
получение данных о диффузности из входного сигнала;obtaining diffuseness data from the input signal;
генерирование из входного сигнала одной или более компонент звукового поля первой группы компонент звукового поля, имеющей для каждой компоненты звукового поля прямую компоненту и диффузную компоненту, и генерирование из входного сигнала второй группы компонент звукового поля, имеющих только прямую компоненту,generating from the input signal one or more sound field components of the first group of sound field components having for each sound field component a direct component and a diffuse component, and generating from the input signal a second group of sound field components having only a direct component,
при этом генерирование содержит выполнение компенсации энергии при генерировании первой группы компонент звукового поля, причем компенсация энергии зависит от данных о диффузности и числа компонент звукового поля во второй группе.wherein the generation comprises performing an energy compensation when generating the first group of sound field components, wherein the energy compensation depends on the diffuseness data and the number of sound field components in the second group.
18. Способ для генерирования описания звукового поля из входного сигнала, содержащего по меньшей мере два канала, содержащий:18. A method for generating a sound field description from an input signal containing at least two channels, comprising:
получение данных о направлении и данных о диффузности из входного сигнала;obtaining direction data and diffuseness data from the input signal;
оценку первого связанного с амплитудой показателя для всенаправленной компоненты, выведенной из входного сигнала, и оценку второго связанного с амплитудой показателя для направленной компоненты, выведенной из входного сигнала, иestimating a first amplitude-related metric for the omnidirectional component derived from the input signal and estimating a second amplitude-related metric for the directional component derived from the input signal, and
генерирование компонент звукового поля для звукового поля, при этом генератор звуковых компонент выполнен с возможностью выполнения компенсации энергии направленной компоненты с использованием первого связанного с амплитудой показателя, второго связанного с амплитудой показателя, данных о направлении и данных о диффузности.generating sound field components for the sound field, wherein the sound component generator is configured to perform directional component energy compensation using the first amplitude related metric, the second amplitude related metric, direction data, and diffuseness data.
19. Способ для генерирования описания звукового поля с использованием входного сигнала, содержащего моносигнал или многоканальный сигнал, причем способ содержит:19. A method for generating a sound field description using an input signal containing a mono signal or a multi-channel signal, the method comprising:
анализ входного сигнала для выведения данных о направлении и данных о диффузности;analyzing the input signal to derive direction data and diffuseness data;
генерирование звукового описания низкого порядка из входного сигнала вплоть до предопределенного порядка и моды, при этом генератор низкого порядка выполнен с возможностью выведения звукового описания низкого порядка посредством копирования входного сигнала или выполнения взвешенной комбинации каналов входного сигнала;generating a low order audio description from the input signal up to a predetermined order and mode, wherein the low order generator is configured to derive the low order audio description by copying the input signal or performing a weighted channel combination of the input signal;
генерирование звукового описания среднего порядка, которое выше предопределенного порядка или с предопределенным порядком и выше предопределенной моды и ниже высокого порядка, используя синтез по меньшей мере одной прямой части и по меньшей мере одной диффузной части, с использованием данных о направлении и данных о диффузности, так что звуковое описание среднего порядка содержит прямой вклад и диффузный вклад; иgenerating a medium order audio description that is above a predetermined order or with a predetermined order and above a predetermined mode and below a high order using synthesis of at least one direct part and at least one diffuse part using direction data and diffuseness data, so that the sound description of the mean order contains a direct contribution and a diffuse contribution; and
генерирование звукового описания высокого порядка, имеющего компоненту, которая имеет или выше высокого порядка, используя синтез по меньшей мере одной прямой части без синтеза какой-либо диффузной компоненты, так что звуковое описание высокого порядка содержит только прямой вклад.generating a high order audio description having a component that is at or above a high order using synthesis of at least one direct part without synthesizing any diffuse component such that the high order audio description contains only the direct contribution.
20. Компьютерная программа для выполнения при работе на компьютере или процессоре способа по одному из примеров 17, 18 или 19.20. Computer program for execution when running on a computer or processor of the method according to one of examples 17, 18 or 19.
Здесь следует упомянуть, что все альтернативы или аспекты, которые описаны выше, а также все аспекты, определенные независимыми пунктами в нижеследующей формуле изобретения, могут использоваться индивидуально, то есть без какой-либо другой альтернативы или объекта, кроме предполагаемой альтернативы, объекта или независимого пункта. Однако в других вариантах осуществления две или более альтернатив или аспектов или независимых пунктов формулы изобретения могут быть объединены друг с другом, а в других вариантах осуществления все аспекты или альтернативы и все независимые пункты формулы изобретения могут быть объединены друг с другом.It should be mentioned here that all alternatives or aspects that are described above, as well as all aspects defined by independent claims in the following claims, can be used individually, that is, without any other alternative or subject, other than the intended alternative, subject or independent claim . However, in other embodiments, two or more alternatives or aspects or independent claims may be combined with each other, and in other embodiments, all aspects or alternatives and all independent claims may be combined with each other.
Кодированный согласно изобретению аудиосигнал может быть сохранен на цифровом носителе данных или энергонезависимом носителе данных или может быть передан в среде передачи, такой как беспроводная среда передачи, или проводная среда передачи, такая как Интернет.The audio signal encoded according to the invention may be stored on a digital storage medium or a non-volatile storage medium, or may be transmitted over a transmission medium such as a wireless transmission medium or a wired transmission medium such as the Internet.
Хотя некоторые аспекты были описаны в контексте устройства, ясно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствуют этапу способа или признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют собой описание соответствующего блока, элемента или признака соответствующего устройства.Although some aspects have been described in the context of a device, it is clear that these aspects also represent a description of the corresponding method, with the block or device corresponding to a method step or a feature of a method step. Likewise, aspects described in the context of a method step are also descriptions of the respective block, element, or feature of the respective device.
В зависимости от определенных требований к реализации варианты осуществления изобретения могут быть реализованы аппаратно или программно. Реализация может быть выполнена с использованием цифрового носителя данных, например дискеты, DVD, CD, ROM, PROM, EPROM, EEPROM или FLASH-памяти, на которых хранятся электронно-читаемые управляющие сигналы, которые взаимодействуют между собой (или способны взаимодействовать) с программируемой компьютерной системой, чтобы выполнялся соответствующий способ.Depending on certain implementation requirements, embodiments of the invention may be implemented in hardware or software. The implementation may be carried out using a digital storage medium, such as a floppy disk, DVD, CD, ROM, PROM, EPROM, EEPROM, or FLASH memory, which stores electronically readable control signals that interact with (or are capable of interacting with) a programmable computer. system to execute the appropriate method.
Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронно-читаемые управляющие сигналы, которые способны взаимодействовать с программируемой компьютерной системой, так что выполняется один из описанных в данном документе способов.Some embodiments of the invention comprise a storage medium having electronically readable control signals that are capable of interfacing with a programmable computer system such that one of the methods described herein is performed.
Как правило, варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программный код действует для выполнения одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код может, например, храниться на машиночитаемом носителе.Typically, embodiments of the present invention may be implemented as a computer program product with program code, the program code being operable to perform one of the methods when the computer program product is running on the computer. The program code may, for example, be stored on a computer-readable medium.
Другие варианты осуществления содержат компьютерную программу для выполнения одного из описанных в данном документе способов, хранящуюся на машиночитаемом носителе или энергонезависимом запоминающем носителе.Other embodiments include a computer program for performing one of the methods described herein, stored on a computer-readable medium or non-volatile storage medium.
Другими словами, вариант осуществления способа по настоящему изобретению представляет собой компьютерную программу, имеющую программный код для выполнения одного из описанных здесь способов, когда компьютерная программа выполняется на компьютере.In other words, an embodiment of the method of the present invention is a computer program having program code for performing one of the methods described herein when the computer program is executed on a computer.
Следовательно, дополнительным вариантом осуществления способов согласно изобретению является носитель данных (или цифровой носитель данных, или считываемый компьютером носитель), содержащий записанную на нем компьютерную программу для выполнения одного из способов, описанных в данном документе.Therefore, a further embodiment of the methods of the invention is a storage medium (either a digital storage medium or a computer-readable medium) containing a computer program recorded thereon for performing one of the methods described herein.
Таким образом, дополнительный вариант осуществления способа по настоящему изобретению представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в данном документе. Поток данных или последовательность сигналов могут, например, быть сконфигурированы для передачи через соединение для передачи данных, например, через Интернет.Thus, a further embodiment of the method of the present invention is a data stream or sequence of signals representing a computer program for performing one of the methods described herein. The data stream or sequence of signals may, for example, be configured to be transmitted over a data connection, such as the Internet.
Дополнительный вариант осуществления содержит средство обработки, например компьютер, или программируемое логическое устройство, выполненное с возможностью или адаптированное для выполнения одного из способов, описанных в данном документе.An additional embodiment comprises a processing means, such as a computer or a programmable logic device, configured or adapted to perform one of the methods described herein.
Еще один вариант осуществления включает в себя компьютер, на котором установлена компьютерная программа для выполнения одного из описанных в данном документе способов.Yet another embodiment includes a computer on which a computer program is installed to perform one of the methods described herein.
В некоторых вариантах осуществления можно использовать программируемое логическое устройство (например, программируемую пользователем вентильную матрицу) для выполнения некоторых или всех функциональных возможностей, описанных в данном документе способов. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для выполнения одного из описанных в данном документе способов. Обычно способы предпочтительно выполняются с помощью любого аппаратного устройства.In some embodiments, a programmable logic device (eg, a field programmable gate array) may be used to perform some or all of the functionality of the methods described herein. In some embodiments, a user-programmable gate array may communicate with a microprocessor to perform one of the methods described herein. In general, the methods are preferably performed using any hardware device.
Вышеописанные варианты осуществления являются просто иллюстрацией принципов настоящего изобретения. Понятно, что модификации и изменения компоновок и деталей, описанных в данном документе, будут очевидны другим специалистам в данной области техники. Таким образом, имеется намерение ограничиваться только объемом прилагаемой формулы изобретения, а не конкретными деталями, представленными в качестве описания и пояснения вариантов осуществления в данном описании.The above embodiments are merely illustrative of the principles of the present invention. It is understood that modifications and changes to the arrangements and details described herein will be apparent to others skilled in the art. Thus, it is intended to be limited only by the scope of the appended claims, and not by the specific details provided as a description and explanation of the embodiments herein.
Источники информацииInformation sources
[1] V. Pulkki, M-V Laitinen, J Vilkamo, J Ahonen, T Lokki and T Pihlajamäki, Directional audio coding - perception-based reproduction of spatial sound, International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi, Japan.[1] V. Pulkki, M-V Laitinen, J Vilkamo, J Ahonen, T Lokki and T Pihlajamäki, Directional audio coding - perception-based reproduction of spatial sound, International Workshop on the Principles and Application on Spatial Hearing, Nov. 2009, Zao; Miyagi Japan.
[2] M.V. Laitinen and V. Pulkki, Converting 5.1 audio recordings to B-format for directional audio coding reproduction, 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, 2011, pp. 61-64.[2] M.V. Laitinen and V. Pulkki, Converting 5.1 audio recordings to B-format for directional audio coding reproduction, 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Prague, 2011, pp. 61-64.
[3] R.K. Furness, Ambisonics - An overview, in AES 8th International Conference, April 1990, pp. 181-189.[3] R.K. Furness, Ambisonics - An overview, in AES 8th International Conference, April 1990, pp. 181-189.
[4] C. Nachbar, F. Zotter, E. Deleflie, and A. Sontacchi, AMBIX - A Suggested Ambisonics Format, Proceedings of the Ambisonics Symposium 2011.[4] C. Nachbar, F. Zotter, E. Deleflie, and A. Sontacchi, AMBIX - A Suggested Ambisonics Format, Proceedings of the Ambisonics Symposium 2011.
[5] APPARATUS, METHOD OR COMPUTER PROGRAM FOR GENERATING A SOUND FIELD DESCRIPTION (соответствующая документу WO 2017/157803 A1). Как и в случае компенсации диффузности.[5] APPARATUS, METHOD OR COMPUTER PROGRAM FOR GENERATING A SOUND FIELD DESCRIPTION (corresponding to WO 2017/157803 A1). As in the case of diffuse compensation.
Claims (54)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18211064.3 | 2018-12-07 |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2772423C1 true RU2772423C1 (en) | 2022-05-19 |
Family
ID=
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150154965A1 (en) * | 2012-07-19 | 2015-06-04 | Thomson Licensing | Method and device for improving the rendering of multi-channel audio signals |
US20150221313A1 (en) * | 2012-09-21 | 2015-08-06 | Dolby International Ab | Coding of a sound field signal |
RU2558612C2 (en) * | 2009-06-24 | 2015-08-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Audio signal decoder, method of decoding audio signal and computer program using cascaded audio object processing stages |
WO2017157803A1 (en) * | 2016-03-15 | 2017-09-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method or computer program for generating a sound field description |
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2558612C2 (en) * | 2009-06-24 | 2015-08-10 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Audio signal decoder, method of decoding audio signal and computer program using cascaded audio object processing stages |
US20150154965A1 (en) * | 2012-07-19 | 2015-06-04 | Thomson Licensing | Method and device for improving the rendering of multi-channel audio signals |
US20150221313A1 (en) * | 2012-09-21 | 2015-08-06 | Dolby International Ab | Coding of a sound field signal |
US20150248889A1 (en) * | 2012-09-21 | 2015-09-03 | Dolby International Ab | Layered approach to spatial audio coding |
WO2017157803A1 (en) * | 2016-03-15 | 2017-09-21 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method or computer program for generating a sound field description |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113424257B (en) | Apparatus, method for generating sound field description from signal comprising at least two channels | |
RU2772423C1 (en) | Device, method and computer program for encoding, decoding, scene processing and other procedures related to spatial audio coding based on dirac using low-order, medium-order and high-order component generators | |
RU2782511C1 (en) | Apparatus, method, and computer program for encoding, decoding, processing a scene, and for other procedures associated with dirac-based spatial audio coding using direct component compensation | |
RU2779415C1 (en) | Apparatus, method, and computer program for encoding, decoding, processing a scene, and for other procedures associated with dirac-based spatial audio coding using diffuse compensation |