RU2809609C2 - Representation of spatial sound as sound signal and metadata associated with it - Google Patents

Representation of spatial sound as sound signal and metadata associated with it Download PDF

Info

Publication number
RU2809609C2
RU2809609C2 RU2020130054A RU2020130054A RU2809609C2 RU 2809609 C2 RU2809609 C2 RU 2809609C2 RU 2020130054 A RU2020130054 A RU 2020130054A RU 2020130054 A RU2020130054 A RU 2020130054A RU 2809609 C2 RU2809609 C2 RU 2809609C2
Authority
RU
Russia
Prior art keywords
audio
downmix
channel
metadata
audio signal
Prior art date
Application number
RU2020130054A
Other languages
Russian (ru)
Other versions
RU2020130054A (en
Inventor
Стефан БРУН
Original Assignee
Долби Лэборетериз Лайсенсинг Корпорейшн
Долби Интернэшнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Лэборетериз Лайсенсинг Корпорейшн, Долби Интернэшнл Аб filed Critical Долби Лэборетериз Лайсенсинг Корпорейшн
Priority claimed from PCT/US2019/060862 external-priority patent/WO2020102156A1/en
Publication of RU2020130054A publication Critical patent/RU2020130054A/en
Application granted granted Critical
Publication of RU2809609C2 publication Critical patent/RU2809609C2/en

Links

Images

Abstract

FIELD: acoustics.
SUBSTANCE: method for representing spatial audio, wherein the spatial audio is a combination of directional audio and diffuse audio, is provided, the method includes: creating a single-channel or multi-channel downmix audio signal by downmixing input audio signals from a plurality of microphones (m1, m2, m3) in an audio capture unit capturing spatial audio, wherein downmixing to create a single-channel or multi-channel audio signal x downmixing is described as follows: x = D·m, where D is a downmix matrix containing downmix coefficients defining weights for each input audio signal from the plurality of microphones, and m is a matrix representing the input audio signals from the plurality of microphones; determining first metadata parameters associated with the downmix audio signal, wherein the first metadata parameters indicate one or more of: a relative time delay value, a gain value, and a phase value associated with each input audio signal; and combining the generated downmix audio signal and the first metadata parameters into a spatial audio representation.
EFFECT: improvement of presentation of spatial sound.
35 cl, 9 dwg

Description

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИCROSS REFERENCE TO RELATED APPLICATIONS

[0001] По настоящей заявке испрашивается приоритет предварительной заявки на патент США № 62/760262, поданной 13 ноября 2018; предварительной заявки на патент США № 62/795248, поданной 22 января 2019; предварительной заявки на патент США № 62/828038, поданной 2 апреля 2019; и предварительной заявки на патент США № 62/926719, поданной 28 октября 2019, содержание которых включено в настоящей описание посредством ссылки.[0001] This application claims priority to US Provisional Patent Application No. 62/760262, filed November 13, 2018; US Provisional Patent Application No. 62/795248, filed January 22, 2019; US Provisional Patent Application No. 62/828038, filed April 2, 2019; and US Provisional Patent Application No. 62/926,719, filed October 28, 2019, the contents of which are incorporated herein by reference.

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕFIELD OF TECHNOLOGY TO WHICH THE INVENTION RELATES

[0002] Настоящее раскрытие в целом относится к кодированию звуковой сцены, содержащей звуковые объекты. В частности, оно относится к способам, системам, компьютерным программным продуктам и форматам данных для представления пространственного звука и ассоциированным с ними кодировщику, декодировщику и средству рендеринга для кодирования, декодирования и представления пространственного звука. [0002] The present disclosure generally relates to encoding an audio scene containing audio objects. In particular, it relates to methods, systems, computer program products and data formats for presenting spatial audio and associated encoder, decoder and renderer for encoding, decoding and presenting spatial audio.

УРОВЕНЬ ТЕХНИКИBACKGROUND OF THE ART

[0003] Внедрение высокоскоростного беспроводного доступа к телекоммуникационным сетям 4G/5G в сочетании с доступностью все более мощных аппаратных платформ обеспечило основу для более быстрого и простого развертывания передовых услуг связи и мультимедиа, чем когда-либо прежде. [0003] The introduction of high-speed wireless access to 4G/5G telecommunications networks, coupled with the availability of increasingly powerful hardware platforms, has provided the basis for faster and easier deployment of advanced communications and multimedia services than ever before.

[0004] Кодек расширенных голосовых услуг (EVS) в рамках проекта партнерства третьего поколения (3GPP) обеспечил весьма значительное улучшение пользовательского опыта благодаря введению сверхширокополосного (SWB) и полнополосного (FB) кодирования речи и звука вместе с повышенной устойчивостью к потере пакетов. Тем не менее, расширенная полоса пропускания звука является лишь одним из параметров, необходимых для действительно полного эффекта погружения. Поддержка, выходящая за рамки моно и мульти-моно, которые в настоящее время предлагает EVS, в идеале необходима для погружения пользователя в убедительный виртуальный мир эффективным в отношении использования ресурсов способом. [0004] The 3rd Generation Partnership Project (3GPP) Enhanced Voice Services (EVS) codec has provided very significant improvements in user experience by introducing ultra-wideband (SWB) and full-bandwidth (FB) speech and audio coding along with improved packet loss tolerance. However, increased audio bandwidth is only one of the parameters needed for a truly immersive experience. Support beyond the mono and multi-mono that EVS currently offers is ideally needed to immerse the user in a compelling virtual world in a resource-efficient manner.

[0005] Кроме того, определенные в настоящее время аудиокодеки в 3GPP обеспечивают подходящее качество и сжатие для стереоконтента, но не имеют диалоговых функций (например, достаточно низкой задержки), необходимых для разговорной речи и телеконференций. Этим кодировщикам также не хватает многоканальной функциональности, необходимой для иммерсивных сервисов, таких как потоковое вещание, виртуальная реальность (VR) и иммерсивная телеконференция. [0005] Additionally, currently defined audio codecs in 3GPP provide suitable quality and compression for stereo content, but do not have the conversational features (eg, low enough latency) needed for spoken language and teleconferencing. These encoders also lack the multi-channel functionality required for immersive services such as streaming, virtual reality (VR), and immersive teleconferencing.

[0006] Расширение кодека EVS было предложено для иммерсивных голосовых и аудиосервисов (IVAS), чтобы заполнить этот технологический пробел и удовлетворить растущий спрос на многофункциональные мультимедийные услуги. Кроме того, приложения для телеконференций через 4G/5G выиграют от использования кодека IVAS в качестве улучшенного диалогового кодировщика, поддерживающего многопоточное кодирование (например, звука на основе каналов, объектов и сцен). Сценарии использования этого кодека следующего поколения включают, помимо прочего, голос при разговоре, многопоточную телеконференцию, диалоговую виртуальную реальность и создаваемую пользователями потоковую передачу контента в реальном времени и не в реальном времени. [0006] An extension to the EVS codec has been proposed for immersive voice and audio services (IVAS) to fill this technology gap and meet the growing demand for feature-rich multimedia services. Additionally, 4G/5G teleconferencing applications will benefit from using the IVAS codec as an enhanced conversational encoder that supports multi-stream encoding (e.g., channel-, object-, and scene-based audio). Use cases for this next-generation codec include, but are not limited to, voice-over-conversation, multi-stream teleconferencing, conversational virtual reality, and user-generated real-time and non-real-time content streaming.

[0007] Хотя цель состоит в разработке единого кодека с привлекательными функциями и производительностью (например, отличное качество звука, низкая задержка, поддержка пространственного кодирования звука, подходящий диапазон скоростей передачи данных, высококачественная устойчивость к ошибкам, сложность практической реализации), в настоящее время отсутствует окончательное соглашение о формате звукового входа кодека IVAS. Формат пространственного звука с поддержкой метаданных (MASA) был предложен в качестве одного из возможных форматов звукового входа. Однако обычные параметры MASA делают определенные идеалистические предположения, например, что захват звука выполняется в одной точке. Однако в реальном сценарии, когда мобильный телефон или планшет используется в качестве устройства для захвата звука, такое предположение о захвате звука в одной точке может не выполняться. Скорее, в зависимости от форм-фактора конкретного устройства, различные микрофоны устройства могут быть расположены на некотором расстоянии друг от друга, и разные захваченные сигналы микрофонов могут не быть полностью синхронизированы по времени. Это особенно верно, когда также учитывается, каким образом источник звука может перемещаться в пространстве. [0007] Although the goal is to develop a single codec with attractive features and performance (e.g., excellent audio quality, low latency, support for spatial audio encoding, suitable range of bit rates, high-quality error tolerance, practical implementation complexity), there is currently no final agreement on the audio input format of the IVAS codec. Metadata-Aware Spatial Audio (MASA) has been proposed as one possible audio input format. However, conventional MASA parameters make certain idealistic assumptions, such as that the audio is captured at a single point. However, in a real-life scenario where a mobile phone or tablet is used as an audio capture device, this assumption of capturing audio at a single point may not hold. Rather, depending on the form factor of a particular device, the various microphones of the device may be located some distance apart, and the different captured signals of the microphones may not be completely synchronized in time. This is especially true when one also considers how the sound source may move through space.

[0008] Другое предположение, лежащее в основе формата MASA, состоит в том, что все каналы микрофонов предоставлены на одинаковом уровне и что между ними нет различий в частотной и фазовой характеристиках. Опять же, в реальном сценарии каналы микрофонов могут иметь разные частотные и фазовые характеристики, зависящие от направления, и которые также могут зависеть от времени. Можно предположить, например, что устройство захвата звука временно удерживается таким образом, что один из микрофонов закрыт или что поблизости от телефона находится какой-то объект, который вызывает отражения или дифракции приходящих звуковых волн. Таким образом, существует множество дополнительных факторов, которые необходимо учитывать при определении того, какой формат звука подходит для использования с кодеком, таким как кодек IVAS. [0008] Another assumption underlying the MASA format is that all microphone channels are provided at the same level and that there are no differences in frequency and phase response between them. Again, in a real-life scenario, microphone channels may have different frequency and phase characteristics depending on direction, which may also depend on time. It may be assumed, for example, that the audio capture device is temporarily held in such a way that one of the microphones is covered, or that there is some object in the vicinity of the telephone that causes reflections or diffractions of the incoming sound waves. As such, there are many additional factors that need to be considered when determining which audio format is suitable for use with a codec such as the IVAS codec.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

[0009] Типовые варианты осуществления теперь будут описаны со ссылкой на прилагаемые чертежи, на которых: [0009] Exemplary embodiments will now be described with reference to the accompanying drawings, in which:

[0010] Фиг. 1 представляет собой блок-схему способа представления пространственного звука согласно типовым вариантам осуществления; [0010] FIG. 1 is a flowchart of a method for presenting spatial audio according to exemplary embodiments;

[0011] Фиг. 2 представляет собой схематичную иллюстрацию устройства захвата звука и направленных и диффузных источников звука, соответственно, согласно типовым вариантам осуществления; [0011] FIG. 2 is a schematic illustration of an audio capture apparatus and directional and diffuse audio sources, respectively, according to exemplary embodiments;

[0012] На фиг. 3A показана таблица (таблица 1A) с описанием того, каким образом значение параметра канального бита указывает, сколько каналов используется для формата MASA, согласно типовым вариантам осуществления. [0012] In FIG. 3A shows a table (Table 1A) describing how the value of the channel bit parameter indicates how many channels are used for the MASA format, according to exemplary embodiments.

[0013] На фиг. 3B показана таблица (таблица 1B) структуры метаданных, которая может использоваться для представления плоскостного FOA и захвата FOA с понижающим микшированием в два канала MASA согласно типовым вариантам осуществления; [0013] In FIG. 3B shows a table (Table 1B) of a metadata structure that can be used to represent a planar FOA and capture FOA downmixed into two MASA channels according to exemplary embodiments;

[0014] На фиг. 4 показана таблица (таблица 2) значений компенсации задержки для каждого микрофона и для каждой TF ячейки согласно типовым вариантам осуществления; [0014] In FIG. 4 shows a table (Table 2) of delay compensation values for each microphone and for each TF cell according to exemplary embodiments;

[0015] На фиг. 5 показана таблица (таблица 3) структуры метаданных, которая может использоваться для указания, какой набор значений компенсации применяется к какой TF ячейке, согласно типовым вариантам осуществления; [0015] In FIG. 5 shows a table (Table 3) of a metadata structure that can be used to indicate which set of compensation values is applied to which TF cell, according to exemplary embodiments;

[0016] На фиг. 6 показана таблица (таблица 4) структуры метаданных, которая может использоваться для представления настройки усиления для каждого микрофона согласно типовым вариантам осуществления; [0016] In FIG. 6 shows a table (Table 4) of a metadata structure that can be used to represent the gain setting for each microphone according to exemplary embodiments;

[0017] На фиг. 7 показана система, которая включает в себя устройство захвата звука, кодировщик, декодировщик и средство рендеринга, согласно типовым вариантам осуществления. [0017] In FIG. 7 shows a system that includes an audio capture device, an encoder, a decoder, and a renderer, according to exemplary embodiments.

[0018] На фиг. 8 показано устройство захвата звука согласно типовым вариантам осуществления. [0018] In FIG. 8 shows an audio capture device according to exemplary embodiments.

[0019] На фиг. 9 показаны декодировщик и средство рендеринга согласно типовым вариантам осуществления. [0019] In FIG. 9 shows a decoder and renderer according to exemplary embodiments.

[0020] Все фигуры являются схематичными и обычно показывают только те части, которые необходимы для пояснения раскрытия, тогда как другие части могут быть опущены или их наличие может просто предполагаться. Если не указано иное, одинаковые цифровые обозначения относятся к одинаковым частям на разных фигурах. [0020] All figures are schematic and generally show only those parts necessary to illustrate the disclosure, while other parts may be omitted or merely implied. Unless otherwise indicated, like numerals refer to like parts in different figures.

ПОДРОБНОЕ ОПИСАНИЕDETAILED DESCRIPTION

[0021] Ввиду вышеизложенного, целью является предоставление способов, систем и компьютерных программных продуктов и формата данных для улучшенного представления пространственного звука. Также предоставляются кодировщик, декодировщик и средство рендеринга для пространственного звука. [0021] In view of the above, it is an object to provide methods, systems, and computer program products and data formats for improved spatial audio presentation. An encoder, decoder, and renderer for spatial audio are also provided.

I. Обзор - пространственное представление звукаI. Overview - spatial representation of sound

[0022] Согласно первому аспекту предоставлены способ, система, компьютерный программный продукт и формат данных для представления пространственного звука.[0022] According to a first aspect, a method, system, computer program product, and data format for representing spatial audio are provided.

[0023] Согласно типовым вариантам осуществления предоставлен способ представления пространственного звука, при этом пространственный звук является комбинацией направленного звука и рассеянного звука, включающий в себя: [0023] According to exemplary embodiments, a method for representing spatial sound, wherein the spatial sound is a combination of directional sound and diffuse sound, is provided, including:

- создание одноканального или многоканального звукового сигнала понижающего микширования посредством понижающего микширования входных звуковых сигналов от множества микрофонов в блоке захвата звука, захватывающем пространственный звук; - creating a single-channel or multi-channel downmix audio signal by downmixing input audio signals from a plurality of microphones in an audio capture unit capturing spatial audio;

- определение параметров первых метаданных, ассоциированных со звуковым сигналом понижающего микширования, при этом параметры первых метаданных указывают одно или более из: значения относительной временной задержки, значения усиления и значения фазы, ассоциированных с каждым входным звуковым сигналом; и - defining first metadata parameters associated with the downmix audio signal, the first metadata parameters indicating one or more of: a relative time delay value, a gain value, and a phase value associated with each input audio signal; And

- объединение созданного звукового сигнала понижающего микширования и параметров первых метаданных в представление пространственного звука.- combining the generated downmix audio signal and the first metadata parameters into a spatial audio representation.

[0024] С помощью вышеупомянутой схемы может быть достигнуто улучшенное представление пространственного звука с учетом различных свойств и/или пространственного положения множества микрофонов. Более того, использование метаданных на последующих этапах обработки кодирования, декодирования или рендеринга может способствовать достоверному представлению и восстановлению захваченного звука при представлении звука в эффективной относительно скорости передачи данных кодированной форме. [0024] Using the above scheme, improved spatial audio representation can be achieved by taking into account the different properties and/or spatial positions of multiple microphones. Moreover, the use of metadata in subsequent stages of encoding, decoding or rendering processing can facilitate the faithful representation and reconstruction of captured audio by presenting the audio in a data rate efficient encoded form.

[0025] Согласно типовым вариантам осуществления, объединение созданного звукового сигнала понижающего микширования и параметров первых метаданных в представление пространственного звука может дополнительно включать в себя включение параметров вторых метаданных в представление пространственного звука, при этом параметры вторых метаданных указывают на конфигурацию понижающего микширования для входных звуковых сигналов. [0025] According to exemplary embodiments, combining the generated downmix audio signal and first metadata parameters into a spatial audio representation may further include including second metadata parameters into the spatial audio representation, wherein the second metadata parameters indicate a downmix configuration for the input audio signals .

[0026] Преимущество указанного заключается в том, что оно позволяет восстановить (например, посредством операции повышающего микширования) входные звуковые сигналы в декодировщике. Кроме того, в результате предоставления вторых метаданных дополнительное понижающее микширование может выполняться отдельным блоком перед кодированием представления пространственного звука в битовый поток. [0026] The advantage of this is that it allows the input audio signals to be reconstructed (eg, through an upmix operation) in the decoder. Additionally, by providing the second metadata, additional downmixing may be performed in a separate block before encoding the spatial audio representation into the bitstream.

[0027] Согласно типовым вариантам осуществления, параметры первых метаданных могут быть определены для одной или более полос частот входных звуковых сигналов микрофона. [0027] According to exemplary embodiments, first metadata parameters may be defined for one or more frequency bands of microphone audio input signals.

[0028] Преимущество указанного заключается в том, что оно позволяет индивидуально настраивать задержку, коэффициент усиления и/или параметры настройки фазы, например, с учетом различных частотных характеристик для различных диапазонов частот сигналов микрофона. [0028] The advantage of this is that it allows delay, gain and/or phase adjustment parameters to be individually adjusted, for example to accommodate different frequency characteristics for different frequency ranges of microphone signals.

[0029] Согласно типовым вариантам осуществления понижающее микширование для создания одноканального или многоканального звукового сигнала понижающего микширования x может быть описано следующим образом: [0029] According to exemplary embodiments, downmixing to create a single-channel or multi-channel downmix audio signal x can be described as follows:

где:Where:

D представляет собой матрицу понижающего микширования, содержащую коэффициенты понижающего микширования, задающие веса для каждого входного звукового сигнала от множества микрофонов, и D is a downmix matrix containing downmix coefficients defining weights for each input audio signal from the plurality of microphones, and

M представляет собой матрицу, представляющую входные звуковые сигналы от множества микрофонов. M is a matrix representing the input audio signals from multiple microphones.

[0030] Согласно типовым вариантам осуществления, коэффициенты понижающего микширования могут быть выбраны для выбора входного звукового сигнала микрофона, имеющего в текущий момент наилучшее отношение сигнал/шум по отношению к направленному звуку, и для отбрасывания входных звуковых сигналов от любых других микрофонов. [0030] According to exemplary embodiments, downmix factors can be selected to select the microphone audio input signal currently having the best signal-to-noise ratio relative to the directional audio, and to discard audio input signals from any other microphones.

[0031] Преимущество указанного заключается в том, что оно позволяет достичь хорошего качества представления пространственного звука при сниженной сложности вычислений в блоке захвата звука. В этом варианте осуществления выбирается только один входной звуковой сигнал для представления пространственного звука в конкретном аудиокадре и/или частотно-временной ячейке. Следовательно, снижается вычислительная сложность операции понижающего микширования. [0031] The advantage of this is that it allows achieving good quality spatial audio representation with reduced computational complexity in the audio capture unit. In this embodiment, only one input audio signal is selected to represent spatial audio at a particular audio frame and/or time-frequency bin. Consequently, the computational complexity of the downmixing operation is reduced.

[0032] Согласно типовым вариантам осуществления выбор может быть определен на основе частотно-временных (TF) ячеек. [0032] According to exemplary embodiments, the selection may be determined based on time-frequency (TF) cells.

[0033] Преимущество указанного заключается в том, что оно позволяет улучшить операцию понижающего микширования, например, с учетом разных частотных характеристик для разных полос частот микрофонных сигналов. [0033] The advantage of this is that it allows the downmix operation to be improved, for example by taking into account different frequency characteristics for different frequency bands of microphone signals.

[0034] Согласно типовым вариантам осуществления, выбор может быть сделан для конкретного аудиокадра. [0034] According to exemplary embodiments, a selection may be made for a specific audio frame.

[0035] Преимущество указанного заключается в том, что оно обеспечивает возможность настройки в отношении изменяющихся во времени сигналов захвата микрофона и, в свою очередь, в отношении улучшения качества звука. [0035] The advantage of this is that it allows for tuning with respect to time-varying microphone acquisition signals and, in turn, with respect to improving audio quality.

[0036] Согласно типовым вариантам осуществления, коэффициенты понижающего микширования могут быть выбраны для максимизации отношения сигнал/шум по отношению к направленному звуку при объединении входных звуковых сигналов от разных микрофонов. [0036] According to exemplary embodiments, downmix factors can be selected to maximize the signal-to-noise ratio with respect to directional audio when combining audio input signals from different microphones.

[0037] Преимущество указанного заключается в том, что оно позволяет повысить качество понижающего микширования за счет ослабления нежелательных компонентов сигнала, которые не исходят от направленных источников. [0037] The advantage of this is that it improves the quality of the downmix by attenuating unwanted signal components that do not originate from directional sources.

[0038] Согласно типовым вариантам осуществления, максимизация может выполняться для конкретной полосы частот. [0038] According to exemplary embodiments, maximization may be performed for a specific frequency band.

[0039] Согласно типовым вариантам осуществления, максимизация может выполняться для конкретного аудиокадра. [0039] According to exemplary embodiments, maximization may be performed for a specific audio frame.

[0040] Согласно типовым вариантам осуществления, определение параметров первых метаданных может включать в себя анализ одного или более из следующего: характеристик задержки, усиления и фазы входных звуковых сигналов от множества микрофонов. [0040] According to exemplary embodiments, determining the first metadata parameters may include analyzing one or more of the following: delay, gain, and phase characteristics of input audio signals from a plurality of microphones.

[0041] Согласно типовым вариантам осуществления, параметры первых метаданных могут быть определены на основе частотно-временной (TF) ячейки. [0041] According to exemplary embodiments, first metadata parameters may be determined based on a time-frequency (TF) cell.

[0042] Согласно типовым вариантам осуществления по меньшей мере часть понижающего микширования может происходить в блоке захвата звука. [0042] According to exemplary embodiments, at least a portion of the downmixing may occur in an audio capture unit.

[0043] Согласно типовым вариантам осуществления по меньшей мере часть понижающего микширования может происходить в кодировщике. [0043] According to exemplary embodiments, at least a portion of the downmixing may occur in the encoder.

[0044] Согласно типовым вариантам осуществления, при обнаружении более одного источника направленного звука первые метаданные могут быть определены для каждого источника. [0044] According to exemplary embodiments, when more than one directional sound source is detected, first metadata may be determined for each source.

[0045] Согласно типовым вариантам осуществления, представление пространственного звука может включать в себя по меньшей мере один из следующих параметров: индекс направления, отношение прямой энергии к общей; когерентность распространения; время прихода, усиление и фаза для каждого микрофона; отношение рассеянной энергии к общей; объемная когерентность; отношение остатка к общей энергии; и расстояние. [0045] According to exemplary embodiments, the spatial audio representation may include at least one of the following parameters: a directional index, a ratio of direct to total energy; propagation coherence; arrival time, gain and phase for each microphone; ratio of dissipated energy to total energy; volumetric coherence; ratio of remainder to total energy; and distance.

[0046] Согласно типовым вариантам осуществления параметр метаданных параметров вторых или первых метаданных может указывать, генерируется ли созданный звуковой сигнал понижающего микширования из: левых и правых стереосигналов, плоскостных амбиофонических сигналов первого порядка (FOA) или компонентных сигналов FOA. [0046] In exemplary embodiments, the metadata parameter of the second or first metadata parameters may indicate whether the generated downmix audio signal is generated from: left and right stereo signals, first order planar ambiophonic (FOA) signals, or FOA component signals.

[0047] Согласно типовым вариантам осуществления, представление пространственного звука может содержать параметры метаданных, организованные в поле определения и поле селектора, при этом в поле определения задан по меньшей мере один набор параметров компенсации задержки, ассоциированный с множеством микрофонов, и в поле селектора задан выбор набора параметров компенсации задержки. [0047] According to exemplary embodiments, the spatial audio representation may comprise metadata parameters organized in a definition field and a selector field, wherein the definition field is defined as at least one set of delay compensation parameters associated with a plurality of microphones, and the selector field is defined as a selection. set of delay compensation parameters.

[0048] Согласно типовым вариантам осуществления, в поле селектора может быть указано, какой набор параметров компенсации задержки применяется к произвольной заданной частотно-временной ячейке. [0048] According to exemplary embodiments, the selector field may indicate which set of delay compensation parameters are applied to any given time-frequency cell.

[0049] Согласно типовым вариантам осуществления, значение относительной временной задержки может находиться в приблизительном интервале [-2,0 мс, 2,0 мс]. [0049] According to exemplary embodiments, the relative time delay value may be in the approximate range of [-2.0 ms, 2.0 ms].

[0050] Согласно типовым вариантам осуществления, параметры метаданных в представлении пространственного звука могут дополнительно включать в себя поле, задающее применяемую настройку усиления, и поле, задающее настройку фазы. [0050] According to exemplary embodiments, the metadata parameters in the spatial audio view may further include a field specifying the gain setting to be applied and a field specifying the phase setting.

[0051] Согласно типовым вариантам осуществления, настройка усиления может находиться в приблизительном интервале [+10 дБ, -30 дБ]. [0051] According to exemplary embodiments, the gain setting may be in the approximate range of [+10 dB, -30 dB].

[0052] Согласно типовым вариантам осуществления по меньшей мере части элементов первых и/или вторых метаданных определяют в устройстве захвата звука с использованием сохраненных справочных таблиц. [0052] According to exemplary embodiments, at least portions of the first and/or second metadata elements are determined in the audio capture device using stored lookup tables.

[0053] Согласно типовым вариантам осуществления по меньшей мере части элементов первых и/или вторых метаданных определяют в удаленном устройстве, подключенном к устройству захвата звука. [0053] According to exemplary embodiments, at least portions of the first and/or second metadata elements are determined in a remote device connected to the audio capture device.

II. Обзор - системаII. Review - system

[0054] Согласно второму аспекту, предоставлена система для представления пространственного звука. [0054] According to a second aspect, a system for presenting spatial audio is provided.

[0055] Согласно типовым вариантам осуществления, предоставлена система для представления пространственного звука, содержащая:[0055] According to exemplary embodiments, a system for presenting spatial audio is provided, comprising:

компонент приема, сконфигурированный для приема входных звуковых сигналов от множества микрофонов в блоке захвата звука, захватывающем пространственный звук;a receiving component configured to receive input audio signals from a plurality of microphones in the audio capturing unit capturing spatial audio;

компонент понижающего микширования, сконфигурированный для создания одноканального или многоканального звукового сигнала понижающего микширования посредством понижающего микширования принятых звуковых сигналов;a downmix component configured to create a single-channel or multi-channel downmix audio signal by downmixing the received audio signals;

компонент определения метаданных, сконфигурированный для определения параметров первых метаданных, ассоциированных со звуковым сигналом понижающего микширования, при этом параметры первых метаданных указывают на одно или более из: значения относительной временной задержки, значения усиления и значения фазы, ассоциированных с каждым входным звуковым сигналом; иa metadata determining component configured to determine first metadata parameters associated with the downmix audio signal, the first metadata parameters indicating one or more of: a relative time delay value, a gain value, and a phase value associated with each input audio signal; And

компонент объединения, сконфигурированный для объединения созданного звукового сигнала понижающего микширования и параметров первых метаданных в представление пространственного звука.a combining component configured to combine the generated downmix audio signal and the first metadata parameters into a spatial audio representation.

III. Обзор - формат данныхIII. Overview - Data Format

[0056] Согласно третьему аспекту, предоставлен формат данных для представления пространственного звука. Формат данных может с выгодой использоваться в сочетании с физическими компонентами, относящимися к пространственному звуку, такими как устройства захвата звука, кодировщики, декодировщики, средства рендеринга и т.д., а также с различными типами компьютерных программных продуктов и другого оборудования, которое используется для передачи пространственного звука между устройствами и/или местоположениями.[0056] According to a third aspect, a data format for representing spatial audio is provided. The data format can be used advantageously in combination with physical components related to spatial audio, such as audio capture devices, encoders, decoders, renderers, etc., as well as with various types of computer software products and other equipment that are used to transmitting spatial audio between devices and/or locations.

[0057] Согласно типовым вариантам осуществления, формат данных содержит:[0057] According to exemplary embodiments, the data format comprises:

звуковой сигнал понижающего микширования, полученный в результате понижающего микширования входных звуковых сигналов от множества микрофонов в блоке захвата звука, захватывающем пространственный звук; иa downmix audio signal obtained by downmixing input audio signals from a plurality of microphones in an audio capture unit capturing spatial audio; And

параметры первых метаданных, указывающие одно или более из: конфигурации понижающего микширования для входных звуковых сигналов, значения относительной временной задержки, значения усиления и значения фазы, ассоциированных с каждым входным звуковым сигналом.first metadata parameters indicating one or more of: a downmix configuration for the input audio signals, a relative time delay value, a gain value, and a phase value associated with each input audio signal.

[0058] Согласно одному из примеров, формат данных хранится в энергонезависимой памяти.[0058] According to one example, the data format is stored in non-volatile memory.

IV. Обзор - кодировщикIV. Review - Encoder

[0059] Согласно четвертому аспекту, предоставлен кодировщик для кодирования представления пространственного звука. [0059] According to a fourth aspect, an encoder for encoding a spatial audio representation is provided.

[0060] Согласно типовым вариантам осуществления, предоставлен кодировщик, сконфигурированный для: [0060] According to exemplary embodiments, an encoder is provided configured to:

приема представления пространственного звука, при этом представление содержит: receiving a representation of spatial sound, wherein the representation contains:

одноканальный или многоканальный звуковой сигнал понижающего микширования, созданный посредством понижающего микширования входных звуковых сигналов от множества микрофонов в блоке захвата звука, захватывающем пространственный звук, иa single-channel or multi-channel downmix audio signal created by downmixing input audio signals from a plurality of microphones in an audio capture unit capturing spatial audio, and

параметры первых метаданных, ассоциированные со звуковым сигналом понижающего микширования, при этом параметры первых метаданных указывают одно или более из: значения относительной временной задержки, значения усиления и значения фазы, ассоциированных с каждым входным звуковым сигналом; и first metadata parameters associated with the downmix audio signal, wherein the first metadata parameters indicate one or more of: a relative time delay value, a gain value, and a phase value associated with each input audio signal; And

кодирования одноканального или многоканального звукового сигнала понижающего микширования в битовый поток с использованием первых метаданных, илиencoding the single-channel or multi-channel downmix audio signal into a bitstream using the first metadata, or

кодирования одноканального или многоканального звукового сигнала понижающего микширования и первых метаданных в битовый поток.encoding the single-channel or multi-channel downmix audio signal and the first metadata into a bitstream.

V. Обзор - декодировщикV. Review - decoder

[0061] Согласно пятому аспекту, предоставлен декодировщик для декодирования представления пространственного звука. [0061] According to a fifth aspect, a decoder for decoding a spatial audio representation is provided.

[0062] Согласно типовым вариантам осуществления, предоставлен декодировщик, сконфигурированный для: [0062] According to exemplary embodiments, a decoder is provided configured to:

приема битового потока, указывающего кодированное представление пространственного звука, при этом представление содержит: receiving a bitstream indicating an encoded spatial audio representation, the representation comprising:

одноканальный или многоканальный звуковой сигнал понижающего микширования, созданный посредством понижающего микширования входных звуковых сигналов от множества микрофонов в блоке захвата звука, захватывающем пространственный звук, иa single-channel or multi-channel downmix audio signal created by downmixing input audio signals from a plurality of microphones in an audio capture unit capturing spatial audio, and

параметры первых метаданных, ассоциированные со звуковым сигналом понижающего микширования, при этом параметры первых метаданных указывают одно или более из: значения относительной временной задержки, значения усиления и значения фазы, ассоциированных с каждым входным звуковым сигналом; иfirst metadata parameters associated with the downmix audio signal, wherein the first metadata parameters indicate one or more of: a relative time delay value, a gain value, and a phase value associated with each input audio signal; And

декодирования битового потока в аппроксимацию пространственного звука посредством использования параметров первых метаданных.decoding the bitstream into a spatial audio approximation by using the first metadata parameters.

VI. Обзор - средство рендерингаVI. Review - Renderer

[0063] Согласно шестому аспекту, предоставлено средство рендеринга для выполнения рендеринга представления пространственного звука. [0063] According to a sixth aspect, a renderer is provided for rendering a spatial audio representation.

[0064] Согласно типовым вариантам осуществления, предоставлено средство рендеринга, сконфигурированное для: [0064] According to exemplary embodiments, a renderer configured to:

приема представления пространственного звука, при этом представление содержит: receiving a representation of spatial sound, wherein the representation contains:

одноканальный или многоканальный звуковой сигнал понижающего микширования, созданный посредством понижающего микширования входных звуковых сигналов от множества микрофонов в блоке захвата звука, захватывающем пространственный звук, иa single-channel or multi-channel downmix audio signal created by downmixing input audio signals from a plurality of microphones in an audio capture unit capturing spatial audio, and

параметры первых метаданных, ассоциированные со звуковым сигналом понижающего микширования, при этом параметры первых метаданных указывают одно или более из: значения относительной временной задержки, значения усиления и значения фазы, ассоциированных с каждым входным звуковым сигналом; иfirst metadata parameters associated with the downmix audio signal, wherein the first metadata parameters indicate one or more of: a relative time delay value, a gain value, and a phase value associated with each input audio signal; And

рендеринга пространственного звука с использованием первых метаданных.rendering spatial audio using first metadata.

VII. Обзор - общее описаниеVII. Review - general description

[0065] Аспекты со второго по шестой могут в целом обладать теми же характеристиками и преимуществами, что и первый аспект. [0065] Aspects two through six may have generally the same characteristics and advantages as the first aspect.

[0066] Другие цели, характеристики и преимущества настоящего изобретения станут очевидными из приведенного ниже подробного описания, из прилагаемых зависимых пунктов формулы изобретения, а также из чертежей. [0066] Other objects, characteristics and advantages of the present invention will become apparent from the following detailed description, the appended dependent claims, and the drawings.

[0067] Этапы любого раскрытого в настоящем описании способа не обязательно должны выполняться точно в раскрытом порядке, если явно не указано иное. [0067] The steps of any method disclosed herein do not necessarily have to be performed in the exact order disclosed unless explicitly stated otherwise.

VIII. Примеры вариантов осуществленияVIII. Example Embodiments

[0068] Как описано выше, захват и представление пространственного звука имеют определенный набор проблем относительного того, чтобы захваченный звук мог быть точно воспроизведен на принимающей стороне. Различные варианты осуществления настоящего изобретения, описанные в настоящем раскрытии, решают различные аспекты этих проблем путем включения различных параметров метаданных вместе со звуковым сигналом понижающего микширования при передаче звукового сигнала понижающего микширования. [0068] As described above, capturing and presenting spatial audio has a distinct set of challenges with respect to ensuring that the captured audio can be accurately reproduced at the receiving end. Various embodiments of the present invention described in the present disclosure solve various aspects of these problems by including various metadata parameters along with the downmix audio signal when transmitting the downmix audio signal.

[0069] Изобретение будет описано посредством примера и со ссылкой на аудиоформат MASA. Однако важно понимать, что общие принципы изобретения применимы к широкому диапазону форматов, которые могут использоваться для представления звука, и приведенное в настоящем раскрытии описание не ограничивается MASA. [0069] The invention will be described by way of example and with reference to the MASA audio format. However, it is important to understand that the general principles of the invention apply to a wide range of formats that can be used to represent audio, and the description given in this disclosure is not limited to MASA.

[0070] Кроме того, следует понимать, что параметры метаданных, которые описаны ниже, не являются полным списком параметров метаданных, но могут иметься дополнительные параметры метаданных (или меньшее подмножество параметров метаданных), которые могут использоваться для передачи данных о звуковом сигнале понижающего микширования на различные устройства, применяемые при кодировании, декодировании и рендеринге звука. [0070] In addition, it should be understood that the metadata parameters that are described below are not a complete list of metadata parameters, but there may be additional metadata parameters (or a smaller subset of metadata parameters) that can be used to convey data about the downmix audio signal to various devices used in audio encoding, decoding and rendering.

[0071] Кроме того, хотя примеры в настоящем раскрытии будут описаны в контексте кодировщика IVAS, следует отметить, что он является только одним из типов кодировщиков, в котором могут применяться общие принципы изобретения, и что может существовать множество других типов кодировщиков, декодировщиков и средств рендеринга, которые могут применяться вместе с различными вариантами осуществления, описанными в настоящем раскрытии. [0071] In addition, although the examples in the present disclosure will be described in the context of an IVAS encoder, it should be noted that this is only one type of encoder to which the general principles of the invention may be applied, and that there may be many other types of encoders, decoders and means rendering, which can be used in conjunction with various embodiments described in this disclosure.

[0072] Наконец, следует отметить, что хотя термины «повышающее микширование» и «понижающее микширование» используются в настоящем раскрытии, они не обязательно могут означать увеличение и уменьшение, соответственно, количества каналов. Хотя это часто может иметь место, следует понимать, что любой термин может относиться либо к уменьшению, либо к увеличению количества каналов. Таким образом, оба термина подпадают под более общее понятие «микширование». Точно так же, термин «звуковой сигнал понижающего микширования» будет использоваться везде в описании, но следует понимать, что иногда могут использоваться другие термины, такие как «канал MASA», «транспортный канал» или «канал понижающего микширования», все из которых имеют по существу то же значение, что и «звуковой сигнал понижающего микширования». [0072] Finally, it should be noted that although the terms “upmixing” and “downmixing” are used in the present disclosure, they may not necessarily mean increasing and decreasing, respectively, the number of channels. While this may often be the case, it should be understood that either term can refer to either a reduction or an increase in the number of channels. Thus, both terms fall under the more general concept of "mixing". Likewise, the term "downmix audio signal" will be used throughout the description, but it should be understood that other terms such as "MASA channel", "transport channel" or "downmix channel" may sometimes be used, all of which have essentially the same meaning as "downmix audio signal".

[0073] Обратимся теперь к фиг. 1; описан способ 100 представления пространственного звука в соответствии с одним из вариантов осуществления. Как видно на фиг. 1, способ начинается с захвата пространственного звука с применением устройства захвата звука, этап 102. На фиг. 2 показан схематический вид звуковой среды 200, в которой устройство 202 захвата звука, такое как сотовый телефон или планшетный компьютер, например, захватывает звук от диффузного источника 204 окружающей среды и направленного источника 206, такого как говорящий. В проиллюстрированном варианте осуществления устройство 202 захвата звука имеет три микрофона m1, m2 и m3, соответственно.[0073] Referring now to FIG. 1; a method 100 for presenting spatial audio in accordance with one embodiment is described. As can be seen in FIG. 1, the method begins with capturing spatial audio using an audio capture device, step 102. Referring to FIG. 2 shows a schematic view of an audio environment 200 in which an audio capture device 202, such as a cell phone or tablet computer, for example, captures audio from a diffuse ambient source 204 and a directional source 206, such as a speaker. In the illustrated embodiment, audio capture device 202 has three microphones m1, m2 and m3, respectively.

[0074] Направленный звук исходит из направления прихода (DOA), представленного углами азимута и подъема. Предполагается, что диффузный звук окружающей среды является всенаправленным, то есть, пространственно инвариантным или пространственно однородным. В последующем обсуждении также рассматривается возможность появления второго источника направленного звука, который не показан на фиг. 2. [0074] Directional sound comes from the direction of arrival (DOA), represented by azimuth and elevation angles. The diffuse ambient sound is assumed to be omnidirectional, that is, spatially invariant or spatially homogeneous. The following discussion also addresses the possibility of a second directional sound source, which is not shown in FIG. 2.

[0075] Затем сигналы от микрофонов подвергаются понижающему микшированию с целью создания одноканального или многоканального звукового сигнала с понижающим микшированием, этап 104. Существует множество причин для распространения только монофонического звукового сигнала с понижающим микшированием. Например, могут присутствовать ограничения скорости передачи данных или намерение сделать высококачественный монофонический звуковой сигнал с понижающим микшированием, доступный после внесения определенных патентованных улучшений, таких как формирование пучка и коррекция или подавление шума. В других вариантах осуществления понижающее микширование дает многоканальный звуковой сигнал понижающего микширования. Как правило, количество каналов в звуковом сигнале понижающего микширования меньше, чем количество входных звуковых сигналов, однако в некоторых случаях количество каналов в звуковом сигнале понижающего микширования может быть равно количеству входных звуковых сигналов, а цель понижающего микширования состоит скорее в том, чтобы добиться повышенного отношения сигнал/шум или уменьшить объем данных в результирующем звуковом сигнале понижающего микширования по сравнению с входными звуковыми сигналами. Это более подробно рассматривается ниже. [0075] The signals from the microphones are then downmixed to create a single-channel or multi-channel downmixed audio signal, step 104. There are many reasons for distributing only a monaural downmixed audio signal. For example, there may be data rate limitations or an intention to make a high-quality, down-mixed monaural audio signal available after making certain proprietary enhancements such as beam shaping and noise correction or suppression. In other embodiments, the downmix produces a multi-channel downmix audio signal. Typically, the number of channels in a downmix audio signal is less than the number of input audio signals, however in some cases the number of channels in a downmix audio signal may be equal to the number of input audio signals, and the purpose of the downmix is rather to achieve an increased ratio signal to noise or reduce the amount of data in the resulting downmix audio signal compared to the input audio signals. This is discussed in more detail below.

[0076] Распространение соответствующих параметров, используемых во время понижающего микширования, на кодек IVAS как часть метаданных MASA может дать возможность восстановить стереосигнал и/или пространственный звуковой сигнал понижающего микширования с наилучшей возможной точностью.[0076] Propagating the appropriate parameters used during the downmix to the IVAS codec as part of the MASA metadata may enable the stereo and/or spatial audio signal of the downmix to be reconstructed with the best possible accuracy.

[0077] В этом сценарии единственный канал MASA получают с помощью следующей операции понижающего микширования:[0077] In this scenario, a single MASA channel is obtained using the following downmix operation:

, где , Where

и And

[0078] Сигналы m и x могут во время различных этапов обработки не обязательно быть представлены как полнополосные временные сигналы, но, возможно, также как компонентные сигналы различных поддиапазонов во временной или частотной области (TF ячейки). В этом случае они в конечном итоге будут перекомпонованы и, потенциально, преобразованы во временную область, прежде чем будут распространены на кодек IVAS. [0078] The m and x signals may, during various processing steps, not necessarily be represented as full-bandwidth time signals, but possibly also as component signals of various subbands in the time or frequency domain (TF cells). In this case, they will end up being re-arranged and potentially converted to the time domain before being propagated to the IVAS codec.

[0079] Системы кодирования/декодирования звука обычно разделяют частотно-временное пространство на частотные/временные ячейки, например, посредством применения подходящих блоков фильтров к входным звуковым сигналам. Под частотной/временной ячейкой обычно подразумевается часть частотно-временного пространства, соответствующая полосе частот и временному интервалу. Временной интервал обычно может соответствовать продолжительности временного кадра, используемого в системе кодирования/декодирования звука. Полоса частот представляет собой часть всего диапазона частот звукового сигнала/объекта, который кодируется или декодируется. Полоса частот обычно может соответствовать одной или более смежным полосам частот, задаваемым блоком фильтров, используемым в системе кодирования/декодирования. В случае, если полоса частот соответствует нескольким смежным полосам частот, заданным посредством блока фильтров, это позволяет иметь неоднородные полосы частот в процессе декодирования звукового сигнала понижающего микширования, например, более широкие полосы частот для более высоких частот звукового сигнала понижающего микширования.[0079] Audio encoding/decoding systems typically partition time-frequency space into frequency/time bins, for example, by applying suitable filter banks to the input audio signals. A frequency/time cell usually refers to a part of the time-frequency space corresponding to a frequency band and a time interval. The time interval may typically correspond to the duration of a time frame used in the audio encoding/decoding system. A frequency band is a portion of the entire frequency range of the audio signal/object that is being encoded or decoded. The frequency band may typically correspond to one or more contiguous frequency bands defined by a filter bank used in the encoding/decoding system. In case the frequency band corresponds to several contiguous frequency bands defined by the filter bank, this allows for non-uniform frequency bands in the process of decoding the downmix audio signal, for example, wider frequency bands for higher frequencies of the downmix audio signal.

[0080] В реализации, использующей один канал MASA, есть по меньшей мере два варианта того, как может быть определена матрица понижающего микширования. Один из вариантов состоит в выборе сигнала микрофона, который имеет наилучшее соотношение сигнал/шум (SNR) в отношении направленного звука. В конфигурации, показанной на фиг. 2, вполне вероятно, что микрофон m1 захватывает наилучший сигнал, поскольку он направлен на направленный источник звука. Тогда сигналы от других микрофонов можно было бы отбросить. В этом случае матрица понижающего микширования может быть следующей:[0080] In an implementation using a single MASA channel, there are at least two options for how the downmix matrix can be determined. One option is to select a microphone signal that has the best signal-to-noise ratio (SNR) for directional sound. In the configuration shown in FIG. 2, it is likely that microphone m1 captures the best signal since it is aimed at a directional sound source. Then signals from other microphones could be discarded. In this case, the downmix matrix could be as follows:

D = (1 0 0)D = (1 0 0)

[0081] Пока источник звука перемещается относительно устройства захвата звука, можно выбрать другой более подходящий микрофон, чтобы в качестве результирующего канала MASA использовался либо сигнал m2, либо сигнал m3.[0081] While the audio source is moving relative to the audio capture device, another more suitable microphone can be selected so that either the m 2 signal or the m 3 signal is used as the resulting MASA channel.

[0082] При переключении сигналов микрофонов важно убедиться, что сигнал канала MASA не страдает от каких-либо потенциальных разрывов. Разрывы могут возникать из-за разного времени прихода направленного источника звука на разные микрофоны или из-за разного усиления или фазовых характеристик акустического тракта от источника до микрофонов. Следовательно, отдельные характеристики задержки, усиления и фазы различных микрофонных входов должны быть проанализированы и скомпенсированы. Таким образом, фактические сигналы микрофона могут подвергаться определенной настройке задержки и фильтрации перед понижающим микшированием MASA.[0082] When switching microphone signals, it is important to ensure that the MASA channel signal does not suffer from any potential discontinuities. Discontinuities can occur due to different arrival times of a directional sound source at different microphones or due to different gain or phase characteristics of the acoustic path from the source to the microphones. Therefore, the individual delay, gain, and phase characteristics of the various microphone inputs must be analyzed and compensated for. Thus, the actual microphone signals may undergo some delay adjustment and filtering before being downmixed by MASA.

[0083] В другом варианте осуществления коэффициенты матрицы понижающего микширования устанавливают таким образом, чтобы SNR канала MASA по отношению к направленному источнику являлся максимальным. Это может быть достигнуто, например, путем добавления различных сигналов микрофона с правильно отрегулированными весами κ1,1, κ1,2, κ1,3. Для того, чтобы выполнить эту работу эффективным образом, необходимо снова проанализировать и компенсировать индивидуальные характеристики задержки, усиления и фазы различных микрофонных входов, что также можно понимать как формирование акустического пучка в направлении направленного источника.[0083] In another embodiment, the coefficients of the downmix matrix are set such that the SNR of the MASA channel with respect to the directional source is maximized. This can be achieved, for example, by adding different microphone signals with correctly adjusted weights κ 1.1 , κ 1.2 , κ 1.3 . In order to do this job efficiently, the individual delay, gain and phase characteristics of the various microphone inputs must again be analyzed and compensated for, which can also be understood as shaping the acoustic beam in the direction of a directional source.

[0084] Регулировки усиления/фазы можно понимать как операцию частотно-избирательной фильтрации. По существу, соответствующие настройки также могут быть оптимизированы для достижения сокращения акустического шума или усиления направленных звуковых сигналов, например, в соответствии с подходом Винера. [0084] Gain/phase adjustments can be understood as a frequency selective filtering operation. As such, the corresponding settings can also be optimized to achieve reduction in acoustic noise or enhancement of directional audio signals, for example according to Wiener's approach.

[0085] В качестве дополнительной вариации можно привести пример с тремя каналами MASA. В этом случае матрица понижающего микширования может быть определена следующей матрицей 3 на 3: [0085] As an additional variation, an example with three MASA channels can be given. In this case, the downmix matrix can be defined by the following 3 by 3 matrix:

[0086] Следовательно, теперь существует три сигнала x1, x2, x3 (вместо одного в первом примере), которые могут быть закодированы с помощью кодека IVAS.[0086] Therefore, there are now three signals x 1 , x 2 , x 3 (instead of one in the first example) that can be encoded using the IVAS codec.

[0087] Первый канал MASA может быть сгенерирован в соответствии с описанным в первом примере. Второй канал MASA может использоваться для передачи второго направленного звука, если он присутствует. Коэффициенты матрицы понижающего микширования затем могут быть выбраны в соответствии с принципами, аналогичными принципам для первого канала MASA, однако, таким образом, чтобы SNR второго направленного звука было максимальным. Коэффициенты матрицы понижающего микширования κ3,1, κ3,2, κ3,3 для третьего канала MASA могут быть настроены для извлечения компонента диффузного звука при минимизации направленных звуков. [0087] The first MASA channel may be generated as described in the first example. A second MASA channel can be used to carry a second directional audio if present. The downmix matrix coefficients can then be selected according to principles similar to those for the first MASA channel, however, such that the SNR of the second directional audio is maximized. The downmix matrix coefficients κ 3.1 , κ 3.2 , κ 3.3 for the third MASA channel can be adjusted to extract the diffuse audio component while minimizing directional sounds.

[0088] Обычно может выполняться стереозахват доминирующих направленных источников в присутствии некоторого фонового окружающего звука, как показано на фиг. 2 и описано выше. Это может часто происходить в определенных вариантах применения, например, в телефонии. В соответствии с различными вариантами осуществления, описанными в настоящем раскрытии, параметры метаданных также определяют в связи с понижающим микшированием, этап 104, и они впоследствии будут добавляться и распространяться вместе с единичным монофоническим звуковым сигналом понижающего микширования. [0088] Typically, stereo capture of dominant directional sources in the presence of some background ambient sound may be performed, as shown in FIG. 2 and described above. This can often happen in certain applications, such as telephony. In accordance with various embodiments described in the present disclosure, metadata parameters are also determined in connection with the downmix, step 104, and will subsequently be added and distributed along with the single mono audio downmix signal.

[0089] В одном из вариантов осуществления три основных параметра метаданных ассоциированы с каждым захваченным звуковым сигналом: значение относительной временной задержки, значение усиления и значение фазы. В соответствии с общим подходом MASA-канал получают в результате следующих операций: [0089] In one embodiment, three basic metadata parameters are associated with each captured audio signal: a relative time delay value, a gain value, and a phase value. In accordance with the general approach, the MASA channel is obtained as a result of the following operations:

настройка задержки каждого сигнала микрофона m i (i=1,2) на величину τ i = Δτ i +τref.setting the delay of each microphone signal m i ( i =1.2) to the value τ i = Δτ i + τ ref .

настройка усиления и фазы каждого частотно-временного (TF) компонента/ячейки каждого микрофонного сигнала с регулируемой задержкой с помощью параметра регулировки усиления и фазы, α и φ, соответственно. adjusting the gain and phase of each time-frequency (TF) component/cell of each microphone signal with adjustable delay using the gain and phase control parameter, α and φ, respectively.

[0090] Элемент настройки задержки τ i в приведенном выше выражении можно интерпретировать как время прихода плоской звуковой волны со стороны направленного источника, и, таким образом, его также удобно выразить как время прихода относительно времени прихода звуковой волны в контрольной точке τref, например, в геометрическом центре звукового устройства захвата 202, хотя может быть использована любая контрольная точка. Например, при использовании двух микрофонов настройку задержки можно сформулировать как разницу между τ1 и τ2, что эквивалентно перемещению контрольной точки в положение второго микрофона. В одном из вариантов осуществления параметр времени прихода позволяет моделировать относительное время прихода в интервале [-2,0 мс, 2,0 мс], что соответствует максимальному смещению микрофона относительно исходной точки, составляющему около 68 см. [0090] The delay setting element τ i in the above expression can be interpreted as the arrival time of a plane sound wave from the directional source, and thus it is also convenient to express it as the arrival time relative to the arrival time of the sound wave at the reference point τ ref , for example, at the geometric center of audio capture device 202, although any reference point may be used. For example, when using two microphones, the delay setting can be formulated as the difference between τ 1 and τ 2 , which is equivalent to moving the control point to the position of the second microphone. In one embodiment, the arrival time parameter allows the relative arrival time to be modeled in the interval [-2.0 ms, 2.0 ms], which corresponds to a maximum microphone offset from the origin of about 68 cm.

[0091] Что касается регулировок усиления и фазы, в одном из вариантов осуществления они параметризуются для каждой ячейки TF, так что изменения усиления можно моделировать в диапазоне [+10 дБ, -30 дБ], а изменения фазы могут быть представлены в диапазоне [-Pi, +Pi]. [0091] Regarding the gain and phase adjustments, in one embodiment these are parameterized for each TF cell such that gain changes can be modeled in the range [+10 dB, -30 dB] and phase changes can be represented in the range [- Pi, +Pi].

[0092] В базовом случае только с одним доминирующим направленным источником, таким как источник 206, показанный на фиг. 2, настройка задержки обычно постоянна по всему частотному спектру. Поскольку положение направленного источника 206 может изменяться, два параметра настройки задержки (по одному для каждого микрофона) будут меняться со временем. Таким образом, параметры настройки задержки зависят от сигнала. [0092] In a base case with only one dominant directional source, such as source 206 shown in FIG. 2, the delay setting is usually constant across the entire frequency spectrum. Since the position of the directional source 206 may change, the two delay settings (one for each microphone) will change over time. Thus, the delay settings depend on the signal.

[0093] В более сложном случае, когда может присутствовать несколько источников 206 направленного звука, один источник из первого направления может быть доминирующим в определенной полосе частот, в то время как другой источник из другого направления может доминировать в другой полосе частот. В таком сценарии настройка задержки вместо этого предпочтительно выполняется для каждой полосы частот. [0093] In a more complex case where multiple directional sound sources 206 may be present, one source from a first direction may be dominant in a certain frequency band, while another source from a different direction may be dominant in another frequency band. In such a scenario, delay adjustment is preferably performed on a per-band basis instead.

[0094] В одном из вариантов осуществления это может быть сделано путем компенсации задержки сигналов микрофона в заданной частотно-временной (TF) ячейке относительно направления звука, которое оказывается доминирующим. Если в TF ячейке не обнаружено доминирующего направления звука, компенсация задержки не выполняется. [0094] In one embodiment, this can be done by compensating for the delay of the microphone signals in a given time-frequency (TF) cell relative to the sound direction that happens to be dominant. If no dominant sound direction is detected in the TF cell, no delay compensation is performed.

[0095] В другом варианте осуществления сигналы микрофона в заданной TF ячейке могут быть скомпенсированы по задержке с целью максимизации отношения сигнал/шум (SNR) по отношению к направленному звуку, захваченному всеми микрофонами. [0095] In another embodiment, microphone signals in a given TF cell may be delay compensated to maximize the signal-to-noise ratio (SNR) with respect to directional audio captured by all microphones.

[0096] В одном из вариантов осуществления подходящее ограничение числа различных источников, для которых может выполняться компенсация задержки, составляет три. Это дает возможность выполнить компенсацию задержки в TF ячейке либо по отношению к одному из трех доминирующих источников, либо вообще ее не выполнять. Соответствующий набор значений компенсации задержки (набор применяется ко всем микрофонным сигналам), таким образом, может сигнализироваться только двумя битами на TF ячейку. Это охватывает наиболее актуальные на практике сценарии захвата и имеет преимущество, заключающееся в том, что объем метаданных или их скорость передачи остаются низкими. [0096] In one embodiment, a suitable limit on the number of different sources for which delay compensation can be performed is three. This makes it possible to perform delay compensation in the TF cell either in relation to one of the three dominant sources, or not to perform it at all. The corresponding set of delay compensation values (the set applies to all microphone signals) can thus only be signaled by two bits per TF cell. This covers the most practical capture scenarios and has the advantage that the volume of metadata or its transfer rate remains low.

[0097] Другой возможный сценарий заключается в захвате и микшировании, например, в один канал MASA амбиофонических сигналов первого порядка (FOA), а не стереосигналов. Концепция FOA хорошо известна специалистам в данной области техники, но может быть кратко описана как способ записи, микширования и воспроизведения трехмерного звука на 360 градусов. Основной подход амбиофонии состоит в том, чтобы рассматривать звуковую сцену как полную 360-градусную сферу звука, исходящего с разных направлений вокруг центральной точки, где размещается микрофон во время записи или где находится «зона наилучшего восприятия» слушателя во время воспроизведения. [0097] Another possible scenario is to capture and mix, for example, first order ambiophonic (FOA) signals rather than stereo signals into a single MASA channel. The concept of FOA is well known to those skilled in the art, but can be briefly described as a method for recording, mixing and playing back 3D audio in 360 degrees. The basic approach of ambiophony is to treat the soundstage as a complete 360-degree sphere of sound coming from different directions around a central point where the microphone is placed during recording or where the listener's "sweet spot" is located during playback.

[0098] Захват плоскостного FOA и FOA с понижающим микшированием в один канал MASA являются относительно простыми расширениями случая стереозахвата, описанного выше. Случай плоскостного FOA характеризуется тремя микрофонами, как показано на фиг. 2, выполняющими захват до понижающего микширования. В последнем случае захват FOA осуществляется четырьмя микрофонами, расположение или направленность которых распространяется на все три пространственных измерения. [0098] Planar FOA capture and MASA downmix FOA are relatively simple extensions of the stereo capture case described above. The planar FOA case is characterized by three microphones, as shown in FIG. 2 performing capture before downmixing. In the latter case, the FOA is captured by four microphones whose placement or directivity extends across all three spatial dimensions.

[0099] Параметры компенсации задержки, настройки амплитуды и фазы могут использоваться для восстановления трех или, соответственно, четырех исходных сигналов захвата и для обеспечения более точного пространственного рендеринга с использованием метаданных MASA, чем было бы возможно только на основе монофонического сигнала понижающего микширования. В качестве альтернативы, параметры компенсации задержки, настройки амплитуды и фазы могут использоваться для создания более точного (плоскостного) представления FOA, которое приближается к тому, которое было бы получено с помощью регулярной микрофонной сетки. [0099] Delay compensation, amplitude and phase adjustment parameters can be used to recover three or four original capture signals, respectively, and provide more accurate spatial rendering using MASA metadata than would be possible based on a mono downmix signal alone. Alternatively, delay compensation parameters, amplitude and phase adjustments can be used to create a more accurate (planar) FOA representation that approaches that which would be obtained using a regular microphone array.

[00100] В еще одном сценарии плоскостной FOA или FOA может быть захвачен и подвергнут понижающему микшированию в два или более каналов MASA. Этот случай является расширением предыдущего случая с той разницей, что захваченные три или четыре микрофонных сигнала микшируются с понижением до двух, а не только до одного канала MASA. Те же принципы применяются, когда целью обеспечения компенсации задержки, параметров настройки амплитуды и фазы является обеспечение наилучшего восстановления исходных сигналов перед понижающим микшированием. [00100] In yet another scenario, a planar FOA or FOA may be captured and downmixed into two or more MASA channels. This case is an extension of the previous case with the difference that the captured three or four microphone signals are downmixed to two rather than just one MASA channel. The same principles apply when the purpose of providing delay compensation, amplitude and phase settings is to ensure the best possible restoration of the original signals before downmixing.

[00101] Как будет понятно специалисту, для того, чтобы приспособиться ко всем этим сценариям использования, представление пространственного звука должно включать метаданные не только о задержке, усилении и фазе, но также и о параметрах, которые указывают конфигурацию понижающего микширования для звукового сигнала понижающего микширования.[00101] As one skilled in the art will appreciate, in order to accommodate all of these use cases, the spatial audio representation must include metadata not only about delay, gain and phase, but also about parameters that indicate the downmix configuration for the downmix audio signal .

[00102] Возвратимся теперь к фиг. 1; определенные параметры метаданных объединяют со звуковым сигналом понижающего микширования в представление пространственного звука, этап 108, который завершает процесс 100. Ниже приведено описание того, как эти параметры метаданных могут быть представлены в соответствии с одним из вариантов осуществления изобретения. [00102] Returning now to FIG. 1; certain metadata parameters are combined with the downmix audio signal into a spatial audio representation, step 108, which completes process 100. The following is a description of how these metadata parameters may be represented in accordance with one embodiment of the invention.

[00103] Для поддержки описанных выше вариантов применения с понижающим микшированием в один или множество каналов MASA используются два элемента метаданных. Один из элементов метаданных представляет собой метаданные конфигурации, не зависящие от сигнала, которые указывают понижающее микширование. Этот элемент метаданных описывается ниже в связи с фиг. 3A-3B. Другой элемент метаданных связан с понижающим микшированием. Этот элемент метаданных описан ниже в связи с фиг. 4-6 и может быть определен в соответствии с описанным выше в связи с фиг. 1. Этот элемент требуется при передаче сигнала понижающего микширования. [00103] To support the downmix applications described above into one or multiple MASA channels, two metadata elements are used. One of the metadata elements is signal-independent configuration metadata that indicates downmixing. This metadata element is described below in connection with FIG. 3A-3B. Another metadata element is related to downmixing. This metadata element is described below in connection with FIG. 4-6 and may be determined as described above in connection with FIGS. 1. This element is required when transmitting a downmix signal.

[00104] В таблице 1A, показанной на фиг. 3A, представлена структура метаданных, которая может использоваться для указания количества каналов MASA, от одного (моно) канала MASA, и двух (стерео) каналов MASA до максимум четырех каналов MASA, представленных значениями битов канала 00, 01, 10 и 11, соответственно. [00104] In Table 1A shown in FIG. 3A, a metadata structure is presented that can be used to indicate the number of MASA channels, from one (mono) MASA channel, and two (stereo) MASA channels, to a maximum of four MASA channels, represented by channel bit values 00, 01, 10 and 11, respectively.

[00105] Таблица 1B, показанная на фиг. 3B содержит значения битов канала из таблицы 1A (в данном конкретном случае для иллюстративных целей показаны только значения канала «00» и «01») и показывает, как может быть представлена конфигурация захвата микрофона. Например, как можно увидеть в таблице 1B для одиночного (моно) канала MASA, в сигнале может передаваться информация о том, являются ли конфигурации захвата моно, стерео, плоскостным FOA или FOA. Как можно также видеть в таблице 1B, конфигурация захвата микрофона кодируется как 2-битное поле (в столбце с названием «битовое значение»). Таблица 1B также включает дополнительное описание метаданных. Дополнительная независимая от сигнала конфигурация может, например, представлять, что звук исходит из микрофонной сетки смартфона или аналогичного устройства. [00105] Table 1B shown in FIG. 3B contains the channel bit values from Table 1A (in this particular case, only channel values "00" and "01" are shown for illustrative purposes) and shows how a microphone capture configuration may be represented. For example, as can be seen in Table 1B for a single (mono) MASA channel, the signal may carry information about whether the acquisition configurations are mono, stereo, planar FOA, or FOA. As can also be seen in Table 1B, the microphone capture configuration is encoded as a 2-bit field (in the column called "bit value"). Table 1B also includes additional description of the metadata. An additional signal-independent configuration could, for example, represent that the sound is coming from the microphone array of a smartphone or similar device.

[00106] В случае, когда метаданные понижающего микширования зависят от сигнала, необходимы некоторые дополнительные детали, как будет описано ниже. Как указано в таблице 1B для конкретного случая, когда транспортный сигнал представляет собой монофонический сигнал, полученный посредством понижающего микширования сигналов с нескольких микрофонов, эти детали предоставляются в поле метаданных, зависящих от сигнала. Информация, представленная в этом поле метаданных, описывает примененную настройку задержки (с возможной целью формирования акустического пучка в направлении направленных источников) и фильтрацию сигналов микрофона (с возможной целью выравнивания/подавления шума) перед понижающим микшированием. В результате предлагается дополнительная информация, которая может помочь при кодировании, декодировании и/или рендеринге. [00106] In the case where the downmix metadata is signal dependent, some additional details are necessary, as will be described below. As indicated in Table 1B for the specific case where the transport signal is a mono signal obtained by downmixing signals from multiple microphones, these details are provided in the signal-specific metadata field. The information provided in this metadata field describes the applied delay adjustment (for the possible purpose of shaping the acoustic beam towards directional sources) and filtering of the microphone signals (for the possible purpose of equalization/noise reduction) before downmixing. The result offers additional information that can help with encoding, decoding, and/or rendering.

[00107] В одном из вариантов осуществления метаданные понижающего микширования содержат четыре поля, поле определения и селектора для сигнализации о применяемой компенсации задержки, за которыми следуют два поля, сигнализирующие о применяемых настройках усиления и фазы, соответственно. [00107] In one embodiment, the downmix metadata includes four fields, a definition field, and selectors for signaling the applied delay compensation, followed by two fields signaling the applied gain and phase settings, respectively.

[00108] Количество микрофонных сигналов n, подвергнутых понижающему микшированию, указывается в поле «битовое значение» в таблице 1В, то есть n=2 для стереофонического понижающего микширования ('битовое значение=01'), n=3 для плоскостного понижающего микширования FOA ('битовое значение=10') и n=4 для понижающего микширования FOA ('битовое значение=11'). [00108] The number of microphone signals n that are downmixed is indicated in the "bit value" field in Table 1B, i.e. n=2 for stereo downmix ('bit value=01'), n=3 for in-plane FOA downmix ( 'bit value=10') and n=4 for FOA downmix ('bit value=11').

[00109] До трех различных наборов значений компенсации задержки для максимум n микрофонных сигналов могут быть определены и сигнализированы для каждой TF ячейки. Каждый набор соответствует направлению направленного источника. Определение наборов значений компенсации задержки и сигнализация, какой набор применяется к какой TF ячейке, выполняется с помощью двух отдельных полей (определение и селектор). [00109] Up to three different sets of delay compensation values for up to n microphone signals can be defined and signaled for each TF cell. Each set corresponds to the direction of the directional source. Defining delay compensation value sets and signaling which set applies to which TF cell is done using two separate fields (definition and selector).

[00110] В одном из вариантов осуществления поле определения представляет собой матрицу nx3 с 8-битовыми элементами Bi, j, кодирующими применяемую компенсацию задержки. Эти параметры соответствуют тому набору, к которому они принадлежат, то есть, соответствуют направлению направленного источника (j=1…3). Кроме того, элементы Bi, j соответствуют микрофону захвата (или соответствующему сигналу захвата) (i=1…n, n≤4). Это схематически проиллюстрировано в таблице 2, показанной на фиг. 4.[00110] In one embodiment, the definition field is an nx3 matrix with 8-bit elements B i, j encoding the applied delay compensation. These parameters correspond to the set to which they belong, that is, they correspond to the direction of the directed source ( j =1...3). In addition, the elements B i, j correspond to the capture microphone (or the corresponding capture signal) ( i =1… n , n ≤4). This is illustrated schematically in Table 2 shown in FIG. 4.

[00111] Фиг. 4 в сочетании с фиг. 3, таким образом, показывает вариант осуществления, в котором представление пространственного звука содержит параметры метаданных, которые организованы в поле определения и поле селектора. Поле определения задает по меньшей мере один набор параметров компенсации задержки, ассоциированный с множеством микрофонов, а поле селектора определяет выбор набора параметров компенсации задержки. Преимущество такого представления значения относительной временной задержки между микрофонами заключается в том, что оно является компактным и, таким образом, требует меньшей скорости передачи данных при передаче на следующий кодировщик или тому подобное.[00111] FIG. 4 in combination with FIG. 3 thus shows an embodiment in which the spatial audio representation contains metadata parameters that are organized into a definition field and a selector field. The definition field specifies at least one set of delay compensation parameters associated with the plurality of microphones, and the selector field specifies a selection of a set of delay compensation parameters. The advantage of this representation of the relative time delay value between microphones is that it is compact and thus requires a lower data rate when transmitted to the next encoder or the like.

[00112] Параметр компенсации задержки представляет относительное время прихода предполагаемой плоской звуковой волны со стороны источника по сравнению с приходом волны в (произвольную) геометрическую центральную точку устройства 202 захвата звука. Кодирование этого параметра с помощью 8-битного целочисленного кодового слова B выполняется в соответствии со следующим уравнением: [00112] The delay compensation parameter represents the relative time of arrival of the assumed plane sound wave from the source side compared to the arrival of the wave at the (arbitrary) geometric center point of the audio capture device 202 . The encoding of this parameter using an 8-bit integer codeword B is done according to the following equation:

. Уравнение № (1) . Equation No. (1)

[00113] В результате получают линейную квантификацию относительной задержки в интервале [-2,0 мс, 2,0 мс], что соответствует максимальному смещению микрофона относительно исходной точки около 68 см. Это, конечно, является всего лишь одним примером, и другие характеристики квантования и разрешения также могут быть рассмотрены. [00113] The result is a linear quantification of the relative delay in the interval [-2.0 ms, 2.0 ms], which corresponds to a maximum microphone offset from the reference point of about 68 cm. This is, of course, just one example, and other characteristics quantization and resolution may also be considered.

[00114] Сигнализация того, какой набор значений компенсации задержки применяется к какой TF ячейке, выполняется с использованием поля селектора, представляющего 4*24 TF ячеек в кадре 20 мс, что предполагает наличие 4 подкадров в кадре 20 мс и 24 полосы частот. Каждый элемент поля содержит 2-битный набор кодировок 1…3 значений компенсации задержки с соответствующими кодами «01», «10» и «11». Запись «00» используется, если для TF ячейки не применяется компенсация задержки. Это схематично проиллюстрировано в таблице 3, показанной на фиг. 5. [00114] Signaling which set of delay compensation values is applied to which TF cell is done using a selector field representing 4*24 TF cells in a 20 ms frame, which assumes 4 subframes in a 20 ms frame and 24 bandwidths. Each field element contains a 2-bit set of encodings of 1...3 delay compensation values with the corresponding codes “01”, “10” and “11”. The "00" entry is used if no delay compensation is applied to the TF cell. This is illustrated schematically in Table 3 shown in FIG. 5.

[00115] Настройка усиления сигнализируется в 2-4 полях метаданных, по одному для каждого микрофона. Каждое поле представляет собой матрицу 8-битных кодов B α настройки усиления, соответствующих 4*24 TF ячейкам в кадре 20 мс. Кодирование параметров настройки усиления с помощью целочисленного кодового слова выполняется в соответствии со следующим уравнением:[00115] The gain setting is signaled in 2-4 metadata fields, one for each microphone. Each field is a matrix of 8-bit gain adjustment B α codes corresponding to 4*24 TF cells in a 20 ms frame. Encoding the gain settings using an integer codeword is done according to the following equation:

. Уравнение № (2) . Equation No. (2)

[00116] 2-4 поля метаданных для каждого микрофона организованы, как показано в таблице 4, показанной на фиг. 6. [00116] 2-4 metadata fields for each microphone are organized as shown in Table 4 shown in FIG. 6.

[00117] Настройка фазы передается аналогично настройке усиления в 2-4 полях метаданных, по одному для каждого микрофона. Каждое поле представляет собой матрицу 8-битных кодов настройки фазы B φ , соответствующих 4*24 TF ячейкам в кадре 20 мс. Кодирование параметров настройки фазы с помощью целочисленного кодового слова B φ выполняется в соответствии со следующим уравнением:[00117] The phase setting is conveyed similarly to the gain setting in 2-4 metadata fields, one for each microphone. Each field is a matrix of 8-bit phase adjustment codes B φ corresponding to 4*24 TF cells in a 20 ms frame. The encoding of phase adjustment parameters using an integer codeword B φ is performed according to the following equation:

. Уравнение № (3) . Equation No. (3)

[00118] 2-4 поля метаданных для каждого микрофона организованы, как показано в таблице 4, с той лишь разницей, что элементы поля являются кодовыми словами настройки фазы B φ .[00118] The 2-4 metadata fields for each microphone are organized as shown in Table 4, with the only difference being that the field elements are B φ phase adjustment codewords.

[00119] Такое представление сигналов MASA, которые включают в себя связанные метаданные, затем может использоваться кодировщиками, декодировщиками, средствами рендеринга и другими типами звукового оборудования, которое будет применяться для передачи, приема и достоверного восстановления записанной пространственной звуковой среды. Методики выполнения указанного хорошо известны специалистам в данной области техники и могут быть легко адаптированы для соответствия описанному в настоящем раскрытии представлению пространственного звука. Следовательно, в данном контексте нет необходимости в дальнейшем обсуждении этих конкретных устройств. [00119] This representation of MASA signals, which include associated metadata, can then be used by encoders, decoders, renderers, and other types of audio equipment that will be used to transmit, receive, and faithfully reconstruct the recorded spatial audio environment. Techniques for doing this are well known to those skilled in the art and can be easily adapted to suit the spatial audio presentation described in the present disclosure. Therefore, no further discussion of these specific devices is necessary in this context.

[00120] Как понятно специалисту, элементы метаданных, описанные выше, могут постоянно хранить или определять различными способами. Например, метаданные могут быть определены локально на устройстве (таком как устройство захвата звука, устройство кодирования и т.д.), могут быть получены иным образом из других данных (например, из облака или другой удаленной службы) или могут храниться в таблице предварительно заданных значений. Например, на основе настройки задержки между микрофонами значение компенсации задержки (фиг. 4) для микрофона может быть определено с помощью справочной таблицы, хранящейся в устройстве захвата звука, или принято от удаленного устройства на основе вычисления настройки задержки, сделанного в устройстве захвата звука, или принято от такого удаленного устройства на основе вычисления настройки задержки, выполняемого в этом удаленном устройстве (то есть, на основе входных сигналов). [00120] As one skilled in the art will appreciate, the metadata elements described above may be persistently stored or determined in various ways. For example, metadata may be defined locally on a device (such as an audio capture device, encoder, etc.), may otherwise be obtained from other data (such as from the cloud or other remote service), or may be stored in a predefined table values. For example, based on the delay setting between microphones, the delay compensation value (FIG. 4) for the microphone may be determined using a lookup table stored in the audio capture device, or received from a remote device based on a delay setting calculation made in the audio capture device, or received from such a remote device based on a delay setting calculation performed at the remote device (ie, based on the input signals).

[00121] На фиг. 7 показана система 700 в соответствии с типовым вариантом осуществления, в которой могут быть реализованы описанные выше характеристики изобретения. Система 700 включает в себя устройство 202 захвата звука, кодировщик 704, декодировщик 706 и средство 708 рендеринга. Различные компоненты системы 700 могут обмениваться данными друг с другом через проводное или беспроводное соединение, или любую их комбинацию, и данные обычно пересылаются между блоками в форме битового потока. Устройство 202 захвата звука было описано выше и со ссылкой на фиг. 2, и сконфигурировано для захвата пространственного звука, который представляет собой комбинацию направленного звука и рассеянного звука. Устройство 202 захвата звука создает одноканальный или многоканальный звуковой сигнал понижающего микширования посредством понижающего микширования входных звуковых сигналов от множества микрофонов в блоке захвата звука, захватывающем пространственный звук. Затем устройство 202 захвата звука определяет параметры первых метаданных, ассоциированные со звуковым сигналом понижающего микширования. Это будет дополнительно проиллюстрировано ниже в связи с фиг. 8. Параметры первых метаданных указывают значение относительной временной задержки, значение усиления и/или значение фазы, ассоциированные с каждым входным звуковым сигналом. Устройство 202 захвата звука, наконец, объединяет звуковой сигнал понижающего микширования и параметры первых метаданных в представление пространственного звука. Следует отметить, что хотя в текущем варианте осуществления весь захват и объединение звука выполняется в устройстве 202 захвата звука, также могут иметься альтернативные варианты осуществления, в которых определенные части операций создания, определения и объединения выполняются в кодировщике 704. [00121] In FIG. 7 illustrates a system 700 in accordance with an exemplary embodiment in which the features of the invention described above can be implemented. System 700 includes an audio capture device 202, an encoder 704, a decoder 706, and a renderer 708. The various components of system 700 may communicate with each other through a wired or wireless connection, or any combination thereof, and data is typically sent between units in the form of a bit stream. The audio capture device 202 has been described above and with reference to FIG. 2, and is configured to capture spatial sound, which is a combination of directional sound and diffuse sound. Audio capture device 202 creates a single-channel or multi-channel downmix audio signal by downmixing input audio signals from a plurality of microphones in an audio capture unit capturing spatial audio. Audio capture device 202 then determines first metadata parameters associated with the downmix audio signal. This will be further illustrated below in connection with FIG. 8. The first metadata parameters indicate a relative time delay value, a gain value, and/or a phase value associated with each input audio signal. The audio capture device 202 finally combines the downmix audio signal and the first metadata parameters into a spatial audio representation. It should be noted that while in the current embodiment all audio capture and merging is performed in audio capture device 202, there may also be alternative embodiments in which certain portions of the creation, determination, and merging operations are performed in encoder 704.

[00122] Кодировщик 704 принимает представление пространственного звука от устройства 202 захвата звука. То есть, кодировщик 704 принимает формат данных, содержащий одноканальный или многоканальный звуковой сигнал понижающего микширования, полученный в результате понижающего микширования входных звуковых сигналов от множества микрофонов в блоке захвата звука, захватывающем пространственный звук, и параметры первых метаданных, указывающие конфигурацию понижающего микширования для входных звуковых сигналов, значение относительной временной задержки, значение усиления и/или значение фазы, ассоциированные с каждым входным звуковым сигналом. Следует отметить, что формат данных может храниться в энергонезависимой памяти до/после того, как он будет принят кодировщиком. Кодировщик 704 затем кодирует одноканальный или многоканальный звуковой сигнал понижающего микширования в поток битов, используя первые метаданные. В некоторых вариантах осуществления кодировщик 704 может являться кодировщиком IVAS, как описано выше, но, как будет понятно квалифицированному специалисту, другие типы кодировщиков 704 могут иметь аналогичные возможности и также могут быть использованы. [00122] Encoder 704 receives the spatial audio representation from audio capture device 202. That is, encoder 704 receives a data format comprising a single-channel or multi-channel downmix audio signal resulting from downmixing input audio signals from a plurality of microphones in an audio capture unit capturing spatial audio, and first metadata parameters indicating a downmix configuration for the input audio signals. signals, a relative time delay value, a gain value, and/or a phase value associated with each input audio signal. It should be noted that the data format may be stored in non-volatile memory before/after it is received by the encoder. Encoder 704 then encodes the single-channel or multi-channel downmix audio signal into a bitstream using the first metadata. In some embodiments, encoder 704 may be an IVAS encoder as described above, but as one skilled in the art will appreciate, other types of encoders 704 may have similar capabilities and may also be used.

[00123] Закодированный битовый поток, который указывает на кодированное представление пространственного звука, затем принимается декодировщиком 706. Декодировщик 706 декодирует битовый поток в аппроксимацию пространственного звука, используя параметры метаданных, которые включены в битовый поток от кодировщика 704. Наконец, средство рендеринга 708 принимает декодированное представление пространственного звука и осуществляет рендеринг пространственного звука с использованием метаданных, чтобы создать точное воспроизведение пространственного звука на принимающей стороне, например, с помощью одного или более громкоговорителей. [00123] The encoded bitstream, which indicates the encoded representation of spatial audio, is then received by decoder 706. Decoder 706 decodes the bitstream into a spatial audio approximation using metadata parameters that are included in the bitstream from encoder 704. Finally, renderer 708 receives the decoded representation of the spatial audio and renders the spatial audio using the metadata to create an accurate reproduction of the spatial audio at the receiving end, for example, using one or more speakers.

[00124] На фиг. 8 показано устройство 202 захвата звука согласно некоторым вариантам осуществления. Устройство 202 захвата звука может в некоторых вариантах осуществления содержать память 802 с хранящимися в ней справочными таблицами для определения первых и/или вторых метаданных. Устройство 202 захвата звука в некоторых вариантах осуществления может быть подключено к удаленному устройству 804 (которое может быть размещено в облаке или являться физическим устройством, подключенным к устройству 202 захвата звука), которое может содержать память 806 с хранящимися в ней справочными таблицами для определения первых и/или вторых метаданных. Устройство захвата звука может в некоторых вариантах осуществления выполнять необходимые вычисления/обработку (например, с использованием процессора 803), например, для определения значения относительной временной задержки, значения усиления и значения фазы, ассоциированных с каждым входным звуковым сигналом, и передавать такие параметры на удаленное устройство для получения первых и/или вторых метаданных от этого устройства. В других вариантах осуществления устройство 202 захвата звука передает входные сигналы на удаленное устройство 804, которое выполняет необходимые вычисления/обработку (например, с использованием процессора 805) и определяет первые и/вторые метаданные для передачи обратно на устройство захвата звука 202. В еще одном варианте осуществления удаленное устройство 804, которое выполняет необходимые вычисления/обработку, передает параметры обратно в устройство 202 захвата звука, которое определяет первые и/или вторые метаданные локально на основе принятых параметров (например, с использованием памяти 806 с хранящимися в ней справочными таблицами). [00124] In FIG. 8 shows an audio capture device 202 according to some embodiments. The audio capture device 202 may, in some embodiments, include a memory 802 with lookup tables stored therein for defining first and/or second metadata. The audio capture device 202 may, in some embodiments, be connected to a remote device 804 (which may be hosted in the cloud or be a physical device connected to the audio capture device 202), which may include a memory 806 with lookup tables stored therein for determining the first and /or second metadata. The audio capture device may, in some embodiments, perform the necessary calculations/processing (e.g., using processor 803), for example, to determine the relative time delay value, gain value, and phase value associated with each input audio signal, and transmit such parameters to the remote a device for receiving first and/or second metadata from the device. In other embodiments, audio capture device 202 transmits input signals to remote device 804, which performs the necessary calculations/processing (eg, using processor 805) and determines first and/or second metadata for transmission back to audio capture device 202. In yet another embodiment implementation, the remote device 804, which performs the necessary calculations/processing, passes the parameters back to the audio capture device 202, which determines the first and/or second metadata locally based on the received parameters (eg, using memory 806 with lookup tables stored therein).

[00125] На фиг. 9 показан декодировщик 706 и средство рендеринга 708 (каждое из них содержит процессор 910, 912 для выполнения различной обработки, например, декодирования, рендеринга и т.д.) согласно вариантам осуществления. Декодировщик и средство рендеринга могут являться отдельными устройствами или одним и тем же устройством. Процессор(-ы) 910, 912 может(-гут) совместно использоваться декодировщиком и средством рендеринга, или могут являться отдельными процессорами. Аналогично описанному со ссылкой на фиг. 8, интерпретация первых и/или вторых метаданных может быть выполнена с использованием справочной таблицы, хранящейся либо в памяти 902 в декодировщике 706, либо в памяти 904 в средстве рендеринга 708, либо в памяти 906 на удаленном устройстве 905 (содержащем процессор 908), подключенном либо к декодировщику, либо к средству рендеринга. [00125] In FIG. 9 shows a decoder 706 and a renderer 708 (each including a processor 910, 912 for performing various processing, such as decoding, rendering, etc.) according to embodiments. The decoder and renderer can be separate devices or the same device. Processor(s) 910, 912 may be shared between the decoder and renderer, or may be separate processors. As described with reference to FIG. 8, interpretation of the first and/or second metadata may be performed using a lookup table stored in either memory 902 in decoder 706, memory 904 in renderer 708, or memory 906 on remote device 905 (containing processor 908) connected either to the decoder or to the renderer.

Эквиваленты, расширения, альтернативы и прочееEquivalents, extensions, alternatives and more

[00126] Дополнительные варианты осуществления настоящего раскрытия станут очевидными для специалиста в данной области техники после изучения приведенного выше описания. Несмотря на то, что настоящее описание и чертежи раскрывают варианты осуществления и примеры, раскрытие не ограничивается этими конкретными примерами. Могут быть выполнены многочисленные модификации и изменения, не выходящие за пределы объема настоящего раскрытия, который определяется в прилагаемой формуле изобретения. Любые цифровые обозначения, фигурирующие в пунктах формулы изобретения, не следует понимать, как ограничивающие их объем. [00126] Additional embodiments of the present disclosure will become apparent to one skilled in the art upon examination of the above description. Although the present description and drawings disclose embodiments and examples, the disclosure is not limited to these specific examples. Numerous modifications and changes may be made without departing from the scope of the present disclosure as defined by the appended claims. Any numerical designations appearing in the claims should not be understood as limiting their scope.

[00127] Кроме того, изменения раскрытых вариантов осуществления могут быть поняты и осуществлены квалифицированным специалистом, применяющим раскрытие на практике, на основе изучения чертежей, раскрытия и прилагаемой формулы изобретения. В формуле изобретения слово «содержащий» не исключает других элементов или этапов, а единственное число не исключает множественности. Тот факт, что определенные меры изложены во взаимно различных зависимых пунктах формулы изобретения, не означает, что комбинация этих мер не может быть использована с выгодой. [00127] Moreover, modifications to the disclosed embodiments can be understood and implemented by one skilled in the art of the disclosure based on examination of the drawings, the disclosure, and the accompanying claims. In the claims, the word “comprising” does not exclude other elements or steps, and the singular number does not exclude the plurality. The fact that certain measures are set forth in mutually different dependent claims does not mean that a combination of these measures cannot be used to advantage.

[00128] Системы и способы, раскрытые выше, могут быть реализованы как программное обеспечение, встроенное программное обеспечение, аппаратное обеспечение, или комбинация указанного. В аппаратной реализации разделение задач между функциональными блоками, упомянутыми в приведенном выше описании, не обязательно соответствует разделению на физические блоки; напротив, один физический компонент может иметь несколько функций, а одна задача может выполняться несколькими физическими компонентами совместно. Некоторые компоненты или все компоненты могут быть реализованы как программное обеспечение, выполняемое процессором цифровых сигналов или микропроцессором, или реализованы как аппаратные средства или как специализированная интегральная схема. Такое программное обеспечение может распространяться на машиночитаемых носителях, которые могут включать в себя компьютерные носители данных (или энергонезависимые носители) и средства связи (или энергозависимые носители). Как хорошо известно специалистам в данной области техники, термин «компьютерные носители данных» включает в себя как энергозависимые, так и энергонезависимые, съемные и несъемные носители, реализованные посредством любых способов или технологий для хранения информации, такие как машиночитаемые инструкции, структуры данных, программные модули или другие данные. Компьютерные носители данных включают, помимо прочего, RAM, ROM, EEPROM, флэш-память или другую технологию памяти, CD-ROM, универсальные цифровые диски (DVD) или другое хранилище оптических дисков, магнитные кассеты, магнитную ленту, хранилище на магнитных дисках или другие магнитные запоминающие устройства, или любой другой носитель, который можно использовать для хранения желаемой информации и к которому может получить доступ компьютер. Кроме того, специалисту в данной области хорошо известно, что среда связи обычно воплощает машиночитаемые инструкции, структуры данных, программные модули или другие данные в модулированном сигнале данных, таком как несущая волна или другой транспортный механизм, и включает в себя любые среды доставки информации. [00128] The systems and methods disclosed above may be implemented as software, firmware, hardware, or a combination thereof. In a hardware implementation, the division of tasks among the functional blocks mentioned in the above description does not necessarily correspond to the division into physical blocks; in contrast, a single physical component can have multiple functions, and a single task can be performed jointly by multiple physical components. Some or all of the components may be implemented as software, executed by a digital signal processor or microprocessor, or implemented as hardware or an application specific integrated circuit. Such software may be distributed on computer-readable media, which may include computer storage media (or nonvolatile media) and communications media (or volatile media). As is well known to those skilled in the art, the term "computer storage media" includes both volatile and non-volatile, removable and non-removable media implemented by any methods or technologies for storing information, such as machine-readable instructions, data structures, program modules or other data. Computer storage media includes, but is not limited to, RAM, ROM, EEPROM, flash memory or other memory technology, CD-ROM, digital versatile disks (DVDs) or other optical disk storage, magnetic cassettes, magnetic tape, magnetic disk storage or others magnetic storage devices, or any other medium that can be used to store desired information and that can be accessed by a computer. In addition, one of ordinary skill in the art is well aware that communication media typically embody machine-readable instructions, data structures, program modules, or other data in a modulated data signal, such as a carrier wave or other transport mechanism, and includes any information delivery media.

Все фигуры являются схематичными и обычно показывают только те части, которые необходимы для пояснения раскрытия, тогда как другие части могут быть опущены или их наличие может просто предполагаться. Если не указано иное, одинаковые цифровые обозначения относятся к одинаковым частям на разных фигурах.All figures are schematic and generally show only those parts necessary to illustrate the disclosure, while other parts may be omitted or merely implied. Unless otherwise indicated, like numerals refer to like parts in different figures.

Claims (81)

1. Способ представления пространственного звука, при этом пространственный звук представляет собой комбинацию направленного звука и рассеянного звука, при этом упомянутый способ включает в себя: 1. A method of presenting spatial sound, wherein the spatial sound is a combination of directional sound and diffuse sound, wherein said method includes: создание одноканального или многоканального звукового сигнала понижающего микширования посредством понижающего микширования входных звуковых сигналов от множества микрофонов (m1, m2, m3) в блоке захвата звука, захватывающем пространственный звук, при этом понижающее микширование для создания одноканального или многоканального звукового сигнала x понижающего микширования описывается следующим образом:creating a single-channel or multi-channel downmix audio signal by downmixing input audio signals from a plurality of microphones (m1, m2, m3) in an audio capture unit capturing spatial audio, wherein the downmixing to create a single-channel or multi-channel downmix audio signal x is described as follows : , , где D представляет собой матрицу понижающего микширования, содержащую коэффициенты понижающего микширования, задающие веса для каждого входного звукового сигнала от множества микрофонов, иwhere D is a downmix matrix containing downmix coefficients defining weights for each input audio signal from the plurality of microphones, and m представляет собой матрицу, представляющую входные звуковые сигналы от множества микрофонов; m is a matrix representing input audio signals from a plurality of microphones; определение параметров первых метаданных, ассоциированных со звуковым сигналом понижающего микширования, при этом параметры первых метаданных указывают одно или более из: значения относительной временной задержки, значения усиления и значения фазы, ассоциированных с каждым входным звуковым сигналом; иdetermining first metadata parameters associated with the downmix audio signal, wherein the first metadata parameters indicate one or more of: a relative time delay value, a gain value, and a phase value associated with each input audio signal; And объединение созданного звукового сигнала понижающего микширования и параметров первых метаданных в представление пространственного звука.combining the generated downmix audio signal and the first metadata parameters into a spatial audio representation. 2. Способ по п. 1, в котором объединение созданного звукового сигнала понижающего микширования и параметров первых метаданных в представление пространственного звука дополнительно включает в себя:2. The method of claim 1, wherein combining the generated downmix audio signal and the first metadata parameters into a spatial audio representation further comprises: включение параметров вторых метаданных в представление пространственного звука, при этом параметры вторых метаданных указывают конфигурацию понижающего микширования для входных звуковых сигналов.including second metadata parameters in the spatial audio representation, wherein the second metadata parameters indicate a downmix configuration for the input audio signals. 3. Способ по п. 1 или 2, в котором параметры первых метаданных определяют для одной или более полос частот входных звуковых сигналов микрофона.3. The method of claim 1 or 2, wherein the first metadata parameters are determined for one or more frequency bands of the microphone audio input signals. 4. Способ по п. 3, в котором коэффициенты понижающего микширования выбирают для выбора входного звукового сигнала микрофона, имеющего в настоящее время наилучшее отношение сигнал/шум по отношению к направленному звуку, и для отбрасывания входных звуковых сигналов от любых других микрофонов.4. The method of claim 3, wherein the downmix coefficients are selected to select the microphone audio input signal currently having the best signal-to-noise ratio with respect to the directional audio, and to discard audio input signals from any other microphones. 5. Способ по п. 4, в котором выбор выполняют для каждой частотно-временной (TF) ячейки. 5. The method of claim 4, wherein the selection is performed for each time-frequency (TF) cell. 6. Способ по п. 4, в котором выбор выполняют для всех полос частот конкретного аудиокадра. 6. The method of claim 4, wherein the selection is performed for all frequency bands of a particular audio frame. 7. Способ по п. 3, в котором коэффициенты понижающего микширования выбирают таким образом, чтобы максимизировать отношение сигнал/шум по отношению к направленному звуку при объединении входных звуковых сигналов от различных микрофонов. 7. The method of claim 3, wherein the downmix coefficients are selected to maximize the signal-to-noise ratio with respect to directional audio when combining input audio signals from different microphones. 8. Способ по п. 7, в котором максимизацию выполняют для конкретной полосы частот.8. The method of claim 7, wherein the maximization is performed for a specific frequency band. 9. Способ по п. 7, в котором максимизацию выполняют для конкретного аудиокадра. 9. The method of claim 7, wherein the maximization is performed for a specific audio frame. 10. Способ по любому из пп. 1-9, в котором определение параметров первых метаданных включает в себя анализ одного или более из следующего: характеристик задержки, усиления и фазы входных звуковых сигналов от множества микрофонов. 10. Method according to any one of paragraphs. 1-9, wherein determining the first metadata parameters includes analyzing one or more of the following: delay, gain, and phase characteristics of input audio signals from a plurality of microphones. 11. Способ по любому из пп. 1-10, в котором параметры первых метаданных определяют для каждой частотно-временной (TF) ячейки. 11. Method according to any one of paragraphs. 1-10, in which the first metadata parameters are determined for each time-frequency (TF) cell. 12. Способ по любому из пп. 1-11, в котором по меньшей мере часть понижающего микширования происходит в блоке захвата звука. 12. Method according to any one of paragraphs. 1-11, wherein at least a portion of the downmixing occurs in an audio capture unit. 13. Способ по любому из пп. 1-11, в котором по меньшей мере часть понижающего микширования происходит в кодировщике. 13. Method according to any one of paragraphs. 1-11, in which at least a portion of the downmixing occurs in the encoder. 14. Способ по любому из пп. 1-13, дополнительно включающий в себя: 14. Method according to any one of paragraphs. 1-13, further including: в ответ на обнаружение более одного источника направленного звука определение первых метаданных для каждого источника.in response to detection of more than one directional sound source, determining first metadata for each source. 15. Способ по любому из пп. 1-14, в котором представление пространственного звука включает в себя по меньшей мере один из следующих параметров: индекс направления, отношение прямой энергии к общей; когерентность распространения; время прихода, усиление и фаза для каждого микрофона; отношение рассеянной энергии к общей; объемная когерентность; отношение остатка к общей энергии; и расстояние. 15. Method according to any one of paragraphs. 1-14, in which the spatial sound representation includes at least one of the following parameters: a direction index, a ratio of direct to total energy; propagation coherence; arrival time, gain and phase for each microphone; ratio of dissipated energy to total energy; volumetric coherence; ratio of remainder to total energy; and distance. 16. Способ по любому из пп. 1-15, в котором параметр метаданных параметров вторых или первых метаданных указывает, генерируется ли созданный звуковой сигнал понижающего микширования из: левых и правых стереофонических сигналов, плоскостных амбиофонических сигналов первого порядка (FOA) или компонентных амбиофонических сигналов первого порядка. 16. Method according to any one of paragraphs. 1-15, wherein the second or first metadata parameter metadata parameter indicates whether the generated downmix audio signal is generated from: left and right stereo signals, first order planar ambiophonic (FOA) signals, or first order component ambiophonic signals. 17. Способ по любому из пп. 1-16, в котором представление пространственного звука содержит параметры метаданных, организованные в поле определения и поле селектора, при этом поле определения задает по меньшей мере один набор параметров компенсации задержки, ассоциированный с множеством микрофонов, и поле селектора задает выбор набора параметров компенсации задержки. 17. Method according to any one of paragraphs. 1-16, wherein the spatial audio representation comprises metadata parameters organized in a definition field and a selector field, wherein the definition field specifies at least one set of delay compensation parameters associated with a plurality of microphones, and the selector field specifies a selection of a set of delay compensation parameters. 18. Способ по п. 17, в котором поле селектора задает, какой набор параметров компенсации задержки применяется к любой заданной частотно-временной ячейке. 18. The method of claim 17, wherein the selector field specifies which set of delay compensation parameters are applied to any given time-frequency cell. 19. Способ по любому из пп. 1-18, в котором значение относительной временной задержки находится приблизительно в интервале [-2,0 мс, 2,0 мс]. 19. Method according to any one of paragraphs. 1-18, in which the value of the relative time delay is approximately in the interval [-2.0 ms, 2.0 ms]. 20. Способ по п. 17, в котором параметры метаданных в представлении пространственного звука дополнительно содержат поле, задающее применяемую настройку усиления, и поле, задающее настройку фазы. 20. The method of claim 17, wherein the metadata parameters in the surround sound view further comprise a field specifying an applied gain setting and a field specifying a phase setting. 21. Способ по п. 20, в котором настройка усиления находится приблизительно в интервале [+ 10 дБ, -30 дБ]. 21. The method of claim 20, wherein the gain setting is approximately in the range [+10 dB, -30 dB]. 22. Способ по любому из пп. 1-21, в котором по меньшей мере части элементов первых и/или вторых метаданных определяют в устройстве захвата звука с использованием справочных таблиц, хранящихся в памяти. 22. Method according to any one of paragraphs. 1-21, wherein at least portions of the first and/or second metadata elements are determined in the audio capture device using lookup tables stored in memory. 23. Способ по любому из пп. 1-21, в котором по меньшей мере части элементов первых и/или вторых метаданных определяют на удаленном устройстве, подключенном к устройству захвата звука. 23. Method according to any one of paragraphs. 1-21, wherein at least portions of the first and/or second metadata elements are determined on a remote device connected to the audio capture device. 24. Система для представления пространственного звука, содержащая: 24. A system for presenting spatial sound, comprising: компонент приема, сконфигурированный для приема входных звуковых сигналов от множества микрофонов (m1, m2, m3) в блоке захвата звука, захватывающем пространственный звук;a receiving component configured to receive input audio signals from a plurality of microphones (m1, m2, m3) in the audio capturing unit capturing spatial audio; компонент понижающего микширования, сконфигурированный для создания одноканального или многоканального звукового сигнала понижающего микширования посредством понижающего микширования принятых звуковых сигналов, при этом понижающее микширование для создания одноканального или многоканального звукового сигнала x понижающего микширования описывается следующим образом:a downmix component configured to create a single-channel or multi-channel downmix audio signal by downmixing received audio signals, wherein the downmixing to create a single-channel or multi-channel downmix audio signal x is described as follows: , , где D представляет собой матрицу понижающего микширования, содержащую коэффициенты понижающего микширования, задающие веса для каждого входного звукового сигнала от множества микрофонов, иwhere D is a downmix matrix containing downmix coefficients defining weights for each input audio signal from the plurality of microphones, and m представляет собой матрицу, представляющую входные звуковые сигналы от множества микрофонов; m is a matrix representing input audio signals from a plurality of microphones; компонент определения метаданных, сконфигурированный для определения параметров первых метаданных, ассоциированных со звуковым сигналом понижающего микширования, при этом параметры первых метаданных указывают одно или более из: значения относительной временной задержки, значения усиления и значения фазы, ассоциированных с каждым входным звуковым сигналом; иa metadata determining component configured to determine first metadata parameters associated with the downmix audio signal, the first metadata parameters indicating one or more of: a relative time delay value, a gain value, and a phase value associated with each input audio signal; And компонент объединения, сконфигурированный для объединения созданного звукового сигнала понижающего микширования и параметров первых метаданных в представление пространственного звука.a combining component configured to combine the generated downmix audio signal and the first metadata parameters into a spatial audio representation. 25. Система по п. 24, в которой компонент объединения дополнительно сконфигурирован для включения параметров вторых метаданных в представление пространственного звука, при этом параметры вторых метаданных указывают конфигурацию понижающего микширования для входных звуковых сигналов. 25. The system of claim 24, wherein the combining component is further configured to include second metadata parameters in the spatial audio representation, wherein the second metadata parameters indicate a downmix configuration for the input audio signals. 26. Машиночитаемый носитель, на котором хранятся инструкции, которые заставляют процессор выполнять способ по любому из пп. 1-23. 26. A computer-readable medium on which instructions are stored that cause the processor to execute the method of any one of claims. 1-23. 27. Кодировщик пространственного звука, сконфигурированный для: 27. Spatial audio encoder configured for: приема представления пространственного звука, содержащего: receiving a spatial sound representation containing: одноканальный или многоканальный звуковой сигнал понижающего микширования, созданный посредством понижающего микширования входных звуковых сигналов от множества микрофонов (m1, m2, m3) в блоке захвата звука, захватывающем пространственный звук, при этом понижающее микширование для создания одноканального или многоканального звукового сигнала x понижающего микширования описывается следующим образом:a single-channel or multi-channel down-mix audio signal created by down-mixing input audio signals from a plurality of microphones (m1, m2, m3) in an audio capture unit capturing spatial audio, wherein the down-mixing to create a single-channel or multi-channel down-mix audio signal is described as follows way: , , где D представляет собой матрицу понижающего микширования, содержащую коэффициенты понижающего микширования, задающие веса для каждого входного звукового сигнала от множества микрофонов, иwhere D is a downmix matrix containing downmix coefficients defining weights for each input audio signal from the plurality of microphones, and m представляет собой матрицу, представляющую входные звуковые сигналы от множества микрофонов, и m is a matrix representing the input audio signals from a plurality of microphones, and параметры первых метаданных, ассоциированные со звуковым сигналом понижающего микширования, при этом параметры первых метаданных указывают одно или более из: значения относительной временной задержки, значения усиления и значения фазы, ассоциированных с каждым входным звуковым сигналом; иfirst metadata parameters associated with the downmix audio signal, wherein the first metadata parameters indicate one or more of: a relative time delay value, a gain value, and a phase value associated with each input audio signal; And выполнения одного из:doing one of: кодирования одноканального или многоканального звукового сигнала понижающего микширования в битовый поток с использованием первых метаданных, иencoding the single-channel or multi-channel downmix audio signal into a bitstream using the first metadata, and кодирования одноканального или многоканального звукового сигнала понижающего микширования и первых метаданных в битовый поток.encoding the single-channel or multi-channel downmix audio signal and the first metadata into a bit stream. 28. Кодировщик по п. 27, в котором: 28. Encoder according to clause 27, in which: представление пространственного звука дополнительно включает в себя параметры вторых метаданных, указывающие конфигурацию понижающего микширования для входных звуковых сигналов; иthe spatial audio representation further includes second metadata parameters indicating a downmix configuration for the input audio signals; And кодировщик сконфигурирован для кодирования одноканального или многоканального звукового сигнала понижающего микширования в битовый поток с использованием параметров первых и вторых метаданных.the encoder is configured to encode the single-channel or multi-channel downmix audio signal into a bitstream using the first and second metadata parameters. 29. Кодировщик по п. 27, в котором часть понижающего микширования происходит в блоке захвата звука, и часть понижающего микширования происходит в кодировщике. 29. The encoder of claim 27, wherein the downmixing portion occurs in the audio capture unit, and the downmixing portion occurs in the encoder. 30. Декодировщик пространственного звука, сконфигурированный для: 30. Spatial audio decoder configured for: приема битового потока, указывающего кодированное представление пространственного звука, при этом упомянутое представление включает в себя: receiving a bitstream indicating an encoded spatial audio representation, said representation including: одноканальный или многоканальный звуковой сигнал понижающего микширования, созданный посредством понижающего микширования входных звуковых сигналов от множества микрофонов (m1, m2, m3) в блоке захвата звука (202), захватывающего пространственный звук, при этом понижающее микширование для создания одноканального или многоканального звукового сигнала x понижающего микширования описывается следующим образом:a single-channel or multi-channel down-mix audio signal created by down-mixing input audio signals from a plurality of microphones (m1, m2, m3) in an audio capture unit (202) capturing spatial audio, down-mixing to create a single-channel or multi-channel down-mix audio signal mixing is described as follows: , , где D представляет собой матрицу понижающего микширования, содержащую коэффициенты понижающего микширования, задающие веса для каждого входного звукового сигнала от множества микрофонов, иwhere D is a downmix matrix containing downmix coefficients defining weights for each input audio signal from the plurality of microphones, and m представляет собой матрицу, представляющую входные звуковые сигналы от множества микрофонов, и m is a matrix representing the input audio signals from a plurality of microphones, and параметры первых метаданных, ассоциированные со звуковым сигналом понижающего микширования, при этом параметры первых метаданных указывают одно или более из: значения относительной временной задержки, значения усиления и значения фазы, ассоциированных с каждым входным звуковым сигналом; иfirst metadata parameters associated with the downmix audio signal, wherein the first metadata parameters indicate one or more of: a relative time delay value, a gain value, and a phase value associated with each input audio signal; And декодирования битового потока в аппроксимацию пространственного звука с использованием параметров первых метаданных.decoding the bitstream into a spatial audio approximation using the first metadata parameters. 31. Декодировщик по п. 30, в котором: 31. The decoder according to claim 30, in which: представление пространственного звука дополнительно включает в себя параметры вторых метаданных, указывающие конфигурацию понижающего микширования для входных звуковых сигналов; иthe spatial audio representation further includes second metadata parameters indicating a downmix configuration for the input audio signals; And декодировщик сконфигурирован для декодирования битового потока в аппроксимацию пространственного звука с использованием параметров первых и вторых метаданных.the decoder is configured to decode the bitstream into a spatial audio approximation using the first and second metadata parameters. 32. Декодировщик по п. 30 или 31, дополнительно включающий: 32. The decoder according to claim 30 or 31, additionally including: использование параметра первых метаданных для восстановления межканальной разницы во времени или для настройки величины или фазы декодированного выходного звука.using the first metadata parameter to recover inter-channel time differences or to adjust the magnitude or phase of the decoded audio output. 33. Декодировщик по п. 31, дополнительно включающий: 33. The decoder according to claim 31, additionally including: использование параметра вторых метаданных для определения матрицы повышающего микширования для восстановления сигнала направленного источника или восстановления сигнала окружающего звука.using a second metadata parameter to define an upmix matrix for directional source signal recovery or surround sound signal recovery. 34. Средство рендеринга пространственного звука, сконфигурированное для: 34. Spatial audio renderer configured for: приема представления пространственного звука, причем упомянутое представление включает в себя: receiving a spatial sound representation, said representation including: одноканальный или многоканальный звуковой сигнал понижающего микширования, созданный посредством понижающего микширования входных звуковых сигналов от множества микрофонов (m1, m2, m3) в блоке захвата звука, захватывающем пространственный звук, при этом понижающее микширование для создания одноканального или многоканального звукового сигнала x понижающего микширования описывается следующим образом:a single-channel or multi-channel downmix audio signal created by downmixing input audio signals from a plurality of microphones (m1, m2, m3) in an audio capture unit capturing spatial audio, wherein the downmixing to create a single-channel or multi-channel downmix audio signal is described as follows way: , , где D представляет собой матрицу понижающего микширования, содержащую коэффициенты понижающего микширования, задающие веса для каждого входного звукового сигнала от множества микрофонов, иwhere D is a downmix matrix containing downmix coefficients defining weights for each input audio signal from the plurality of microphones, and m представляет собой матрицу, представляющую входные звуковые сигналы от множества микрофонов, и m is a matrix representing the input audio signals from a plurality of microphones, and параметры первых метаданных, ассоциированные со звуковым сигналом понижающего микширования, при этом параметры первых метаданных указывают одно или более из: значения относительной временной задержки, значения усиления и значения фазы, ассоциированных с каждым входным звуковым сигналом; иfirst metadata parameters associated with the downmix audio signal, the first metadata parameters indicating one or more of: a relative time delay value, a gain value, and a phase value associated with each input audio signal; And рендеринга пространственного звука с использованием первых метаданных.rendering spatial audio using first metadata. 35. Средство рендеринга по п. 34, в котором: 35. The rendering tool according to claim 34, in which: представление пространственного звука дополнительно включает в себя параметры вторых метаданных, указывающие конфигурацию понижающего микширования для входных звуковых сигналов; иthe spatial audio representation further includes second metadata parameters indicating a downmix configuration for the input audio signals; And средство рендеринга сконфигурировано для рендеринга пространственного звука с использованием параметров первых и вторых метаданных. the renderer is configured to render spatial audio using the first and second metadata parameters.
RU2020130054A 2018-11-13 2019-11-12 Representation of spatial sound as sound signal and metadata associated with it RU2809609C2 (en)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201862760262P 2018-11-13 2018-11-13
US62/760,262 2018-11-13
US201962795248P 2019-01-22 2019-01-22
US62/795,248 2019-01-22
US201962828038P 2019-04-02 2019-04-02
US62/828,038 2019-04-02
US201962926719P 2019-10-28 2019-10-28
US62/926,719 2019-10-28
PCT/US2019/060862 WO2020102156A1 (en) 2018-11-13 2019-11-12 Representing spatial audio by means of an audio signal and associated metadata

Related Child Applications (1)

Application Number Title Priority Date Filing Date
RU2023128837A Division RU2023128837A (en) 2018-11-13 2019-11-12 REPRESENTATION OF SPATIAL SOUND THROUGH SOUND SIGNAL AND ASSOCIATED METADATA WITH IT

Publications (2)

Publication Number Publication Date
RU2020130054A RU2020130054A (en) 2022-03-14
RU2809609C2 true RU2809609C2 (en) 2023-12-13

Family

ID=

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017182714A1 (en) * 2016-04-22 2017-10-26 Nokia Technologies Oy Merging audio signals with spatial metadata

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017182714A1 (en) * 2016-04-22 2017-10-26 Nokia Technologies Oy Merging audio signals with spatial metadata

Similar Documents

Publication Publication Date Title
CN111316354B (en) Determination of target spatial audio parameters and associated spatial audio playback
TWI834760B (en) Apparatus, method and computer program for encoding, decoding, scene processing and other procedures related to dirac based spatial audio coding
US11765536B2 (en) Representing spatial audio by means of an audio signal and associated metadata
KR101759005B1 (en) Loudspeaker position compensation with 3d-audio hierarchical coding
US9479886B2 (en) Scalable downmix design with feedback for object-based surround codec
KR101685408B1 (en) Apparatus and method for providing enhanced guided downmix capabilities for 3d audio
AU2018204427C1 (en) Method and apparatus for rendering acoustic signal, and computer-readable recording medium
JP2015525897A (en) System, method, apparatus and computer readable medium for backward compatible audio encoding
JP2022518744A (en) Devices and methods for encoding spatial audio representations, or devices and methods for decoding audio signals encoded using transport metadata, and related computer programs.
CN107077861B (en) Audio encoder and decoder
CN116193320A (en) Apparatus, method and computer program for audio signal processing
JP2022553913A (en) Spatial audio representation and rendering
GB2576769A (en) Spatial parameter signalling
US20230199417A1 (en) Spatial Audio Representation and Rendering
CN113646836A (en) Sound field dependent rendering
RU2809609C2 (en) Representation of spatial sound as sound signal and metadata associated with it
KR20230153402A (en) Audio codec with adaptive gain control of downmix signals
JP2022536676A (en) Packet loss concealment for DirAC-based spatial audio coding
WO2022258876A1 (en) Parametric spatial audio rendering
EP4320615A1 (en) Encoding of envelope information of an audio downmix signal