RU2810920C2

RU2810920C2 - Audio processing in audio services with effect of presence

Info

Publication number: RU2810920C2
Application number: RU2021113309A
Authority: RU
Inventors: Стефан БРУН; Хуан Феликс ТОРРЕС; Дэвид С. МАКГРАТ; Брайан ЛИ
Original assignee: Долби Лабораторис Лайсэнзин Корпорейшн; Долби Интернешнл Аб
Priority date: 2018-11-13
Filing date: 2019-11-12
Publication date: 2023-12-29

Abstract

FIELD: acoustics.

SUBSTANCE: immersive audio processing apparatus comprising or connected to a microphone system (302) comprising one or more microphones for capturing audio, the apparatus comprising: a receiving unit (304) configured to: receive (S13) directional audio (320) captured by the microphone system; receiving (S14) metadata (322) associated with the microphone system, wherein the metadata comprises spatial data of the microphone system, wherein the spatial data characterizes the spatial orientation and/or spatial position of the microphone system and comprises at least one of a list including: angle (angles) of azimuth, pitch, roll and spatial coordinates of the microphone system; a computing unit (306) configured to: modify at least some portion of the directional sound to produce a modified directional sound, wherein the directionality of the sound is modified based on the spatial orientation and/or spatial position of the microphone system; downmixing the modified directional audio based on the spatial orientation of the microphone system using a downmix matrix; encoding the modified directional audio and downmix matrix into digital audio data (328); a transmission unit (308) configured to transmit digital audio data.

EFFECT: obtaining audio signals with the effect of presence.

28 cl, 7 dwg

Description

P16835370RUP16835370RU

ОБРАБОТКА ЗВУКА В ЗВУКОВЫХ УСЛУГАХ С ЭФФЕКТОМ ПРИСУТСТВИЯAUDIO PROCESSING IN INVENTIVE AUDIO SERVICES

Область техникиTechnical field

Раскрытое в этом документе изобретение в целом относится к захвату, звуковой предварительной обработке, кодированию, декодированию и воспроизведению направленного звука звуковой сцены. В частности, оно относится к устройству, выполненному с возможностью модификации направленности захваченного направленного звука на основании пространственных данных микрофонной системы, захватывающей направленный звук. Изобретение также относится к воспроизводящему устройству, выполненному с возможностью модификации направленности принятого направленного звука на основании принятых пространственных данных.The invention disclosed herein generally relates to the capture, audio pre-processing, encoding, decoding and reproduction of directional sound from a sound stage. In particular, it relates to a device configured to modify the directivity of captured directional sound based on spatial data of the microphone system capturing the directional sound. The invention also relates to a reproducing device configured to modify the directionality of received directional sound based on received spatial data.

Предпосылки изобретенияBACKGROUND OF THE INVENTION

Внедрение высокоскоростного беспроводного доступа 4G/5G в телекоммуникационные сети вместе с доступностью аппаратных платформ, которые становятся все более мощными, обеспечило основание для более быстрого и простого внедрения усовершенствованных коммуникационных и мультимедийных услуг, чем когда-либо прежде.The introduction of high-speed 4G/5G wireless access into telecommunications networks, coupled with the availability of increasingly powerful hardware platforms, has provided the foundation for faster and easier adoption of advanced communications and multimedia services than ever before.

Кодек улучшенных голосовых услуг (EVS) проекта партнерства третьего поколения (3GPP) обеспечил в высшей степени значительное улучшение в отношении впечатлений пользователя с внедрением сверхширокополосного (SWB) и полнодиапазонного (FB) кодирования речи и звука, наряду с улучшенной устойчивостью к потере пакетов. Тем не менее, расширенная полоса пропускания звуковых частот является всего лишь одной из характеристик, необходимых для настоящего эффекта присутствия. Для эффективного относительно ресурсов погружения пользователя в правдоподобный виртуальный мир теоретически требуется поддержка за пределами одноканальной и многоканальной записи, обеспечиваемая на текущий момент посредством EVS.The 3rd Generation Partnership Project (3GPP) Enhanced Voice Services (EVS) codec has provided highly significant improvements in user experience with the introduction of ultra-wideband (SWB) and full-band (FB) speech and audio coding, along with improved packet loss resiliency. However, increased audio bandwidth is just one of the characteristics required for true presence. Resource-efficient immersion of the user into a believable virtual world theoretically requires support beyond the single- and multi-channel recording currently provided by EVS.

Кроме того, утвержденные сегодня аудиокодеки в 3GPP обеспечивают подходящее качество и сжатие в отношении стереофонического содержимого, но в них нет речевых элементов (например достаточно малой временной задержки), необходимых для передачи голоса при разговоре и проведения телеконференций. В этих кодеках также отсутствуют многоканальные функциональные возможности, которые необходимы для услуг с эффектом присутствия, таких как потоковая передача содержимого в реальном времени или инициируемая пользователем, виртуальная реальность (VR) и телеконференции с эффектом присутствия.In addition, the currently approved audio codecs in 3GPP provide suitable quality and compression for stereo content, but do not have the speech elements (eg low enough latency) required for voice and teleconferencing. These codecs also lack the multi-channel functionality that is required for immersive services such as real-time or user-initiated content streaming, virtual reality (VR), and immersive teleconferencing.

Разработка расширения для кодека EVS была предложена для голосовых и звуковых услуг с эффектом присутствия (IVAS), чтобы заполнить этот технологический разрыв и удовлетворить увеличивающийся спрос на мультимедийные услуги с широкими функциональными возможностями. Кроме того, кодек IVAS, используемый как улучшенный речевой кодек, поддерживающий многопотоковое кодирование (например, основанный на канале, объекте и сцене звук), будет предпочтительным для применений в телеконференциях посредством 4G/5G. Случаи применения этого кодека следующего поколения включают, но этим не ограничиваются, передачу голоса при разговоре, многопотоковые телеконференции, потоковую передачу содержимого при разговоре в VR и инициируемую пользователем в реальном времени и не в реальном времени.The development of an extension to the EVS codec has been proposed for immersive voice and audio services (IVAS) to fill this technology gap and meet the increasing demand for feature-rich multimedia services. In addition, the IVAS codec, used as an enhanced speech codec that supports multi-stream coding (eg, channel-based, object-based and scene-based audio), will be preferred for teleconferencing applications over 4G/5G. Use cases for this next-generation codec include, but are not limited to, voice-to-conversation, multi-stream teleconferencing, content streaming to VR conversations, and user-initiated real-time and non-real-time.

Таким образом, ожидается, что IVAS обеспечит пользователям впечатления VR, AR и/или XR с эффектом присутствия. Во многих из этих применений устройство (например мобильный телефон), захватывающее направленный (с эффектом присутствия) звук, может во многих случаях перемещаться во время сеанса относительно акустической сцены, что вызывает поворот и/или поступательное перемещение в пространстве захваченной звуковой сцены. Такое поведение может требоваться или быть нежелательным в зависимости от типа обеспечиваемого впечатления, например с эффектом присутствия, VR, AR или XR, и в зависимости от конкретного случая применения. Например, слушатель может чувствовать себя некомфортно, если воспроизводимая сцена поворачивается всякий раз, когда поворачивается захватывающее устройство. В худшем случае может быть вызван эффект укачивания.Thus, IVAS is expected to provide users with immersive VR, AR and/or XR experiences. In many of these applications, the device (eg, a mobile phone) capturing directional (immersive) sound may, in many cases, move during the session relative to the acoustic stage, causing rotation and/or translational movement in the space of the captured sound stage. This behavior may or may not be required depending on the type of experience being provided, such as immersive, VR, AR or XR, and depending on the specific use case. For example, the listener may feel uncomfortable if the scene being played rotates whenever the gripper is rotated. In the worst case, it can cause motion sickness.

Таким образом, в пределах этого контекста существует необходимость в улучшениях.Therefore, there is a need for improvement within this context.

Краткое описание графических материаловBrief description of graphic materials

Далее приводится описание представленных в качестве примера вариантов осуществления со ссылками на прилагаемые графические материалы, на которых:The following is a description of the exemplary embodiments with reference to the accompanying drawings, in which:

на фиг. 1 представлен способ кодирования направленного звука согласно вариантам осуществления;in fig. 1 illustrates a method for encoding directional audio according to embodiments;

на фиг. 2 представлен способ воспроизведения направленного звука согласно вариантам осуществления;in fig. 2 illustrates a method for reproducing directional sound according to embodiments;

на фиг. 3 представлено кодирующее устройство, выполненное с возможностью осуществления способа по фиг. 1, согласно вариантам осуществления;in fig. 3 shows an encoding device configured to implement the method of FIG. 1, according to embodiments;

на фиг. 4 представлено воспроизводящее устройство, выполненное с возможностью осуществления способа по фиг. 2, согласно вариантам осуществления;in fig. 4 shows a reproducing device configured to implement the method of FIG. 2, according to embodiments;

на фиг. 5 представлена система, содержащая устройства по фиг. 3 и фиг. 4, согласно вариантам осуществления;in fig. 5 shows a system containing the devices of FIG. 3 and fig. 4, according to embodiments;

на фиг. 6 представлен сценарий физической конференции VR согласно вариантам осуществления;in fig. 6 illustrates a VR physical conference scenario according to embodiments;

на фиг. 7 представлено пространство для виртуальной конференции согласно вариантам осуществления.in fig. 7 illustrates a virtual conference space according to embodiments.

Все фигуры являются схематическими и, как правило, показывают лишь те части, которые необходимы для объяснения изобретения, тогда как другие части могут быть опущены или просто подразумеваться. Если не указано иное, то на разных фигурах подобные части обозначены подобными ссылочными позициями.All figures are schematic and generally show only those parts necessary to explain the invention, while other parts may be omitted or simply implied. Unless otherwise indicated, in different figures, like parts are designated by like reference numerals.

Подробное описаниеDetailed description

Таким образом, с учетом вышеприведенного целью является предоставление устройств и связанных с ними способов захвата, звуковой предварительной обработки и/или кодирования для компенсации нежелательных перемещений сцены пространственного звучания, которые могут быть вызваны непреднамеренными перемещениями микрофонной системы, захватывающей направленный звук. Еще одной целью является предоставление соответствующего декодера и/или воспроизводящего устройства и связанных с ними способов декодирования и воспроизведения направленного звука. Также предусмотрены системы, содержащие, например, кодирующее устройство и воспроизводящее устройство.Thus, with the foregoing in mind, it is an object to provide devices and associated capture, audio pre-processing and/or encoding techniques for compensating for unwanted surround sound stage movements that may be caused by unintentional movements of a microphone system capturing directional sound. It is yet another object to provide a corresponding decoder and/or playback device and associated methods for decoding and reproducing directional audio. Systems are also provided, comprising, for example, an encoder and a reproducing device.

I. Обзор – сторона отправкиI. Review – sending side

Согласно первому аспекту предложено устройство, содержащее микрофонную систему, содержащую один или более микрофонов для захвата звука, или соединенное с ней. Устройство (также называемое в данном документе стороной отправки или захватывающим устройством) содержит блок приема, выполненный с возможностью:According to a first aspect, there is provided a device comprising or connected to a microphone system comprising one or more microphones for capturing sound. The device (also referred to herein as a sending side or a capture device) includes a receiving unit configured to:

приема направленного звука, захваченного микрофонной системой;receiving directional sound captured by the microphone system;

приема метаданных, связанных с микрофонной системой, при этом метаданные содержат пространственные данные микрофонной системы, при этом пространственные данные характеризуют пространственную ориентацию и/или пространственное положение микрофонной системы и содержат по меньшей мере одно из списка, включающего: угол (углы) азимута, тангажа, крена и пространственные координаты микрофонной системы.receiving metadata associated with the microphone system, wherein the metadata comprises spatial data of the microphone system, wherein the spatial data characterizes the spatial orientation and/or spatial position of the microphone system and contains at least one of a list including: azimuth, pitch, roll and spatial coordinates of the microphone system.

В данном документе термин «направленное аудио» (направленный звук) в целом относится к звуку с эффектом присутствия, то есть к звуку, захваченному направленными микрофонными системами, которые могут захватывать звуки, в том числе направления, откуда они исходят. Проигрывание направленного звука обеспечивает естественное трехмерное восприятие звука (бинауральное воспроизведение). Звук, который может содержать звуковые объекты и/или каналы (например представляющий основанный на сцене звук в формате «Ambisonics B» или основанный на каналах звук), таким образом, связан с направлениями, откуда он принимается. Другими словами, направленный звук исходит из направленных источников и падает из направления прихода (DOA), представленного, например, углами азимута и подъема. В то же время предполагается, что рассеянный окружающий звук является всенаправленным, то есть пространственно постоянным или пространственно однородным. Другие выражения, которые могут быть использованы в отношении такого признака, как «направленный звук», включают «пространственное аудио», «пространственный звук», «аудио с эффектом присутствия», «звук с эффектом присутствия», «стерео» и «объемный звук».As used herein, the term "directional audio" generally refers to immersive audio, that is, audio captured by directional microphone systems that can capture sounds, including the directions from which they originate. Playing directional sound provides a natural three-dimensional sound experience (binaural playback). Audio, which may contain audio objects and/or channels (eg representing scene-based audio in the "Ambisonics B" format or channel-based audio), is thus associated with the directions from which it is received. In other words, directional sound originates from directional sources and is incident from a direction of arrival (DOA), represented by azimuth and elevation angles, for example. At the same time, it is assumed that the diffuse ambient sound is omnidirectional, that is, spatially constant or spatially uniform. Other expressions that may be used in relation to the feature "directional audio" include "spatial audio", "spatial audio", "immersive audio", "immersive audio", "stereo" and "surround audio" "

В данном документе термин «пространственные координаты» в целом относится к пространственному положению микрофонной системы или захватывающего устройства в пространстве. Декартовы координаты представляют собой одну реализацию пространственных координат. К другим примерам относятся цилиндрические или сферические координаты. Следует отметить, что положение в пространстве может быть относительным (например, координаты в помещении или относительно другого устройства/блока и т. п.) или абсолютным (например, координаты GPS или тому подобное).As used herein, the term “spatial coordinates” generally refers to the spatial position of a microphone system or pickup device in space. Cartesian coordinates are one implementation of spatial coordinates. Other examples include cylindrical or spherical coordinates. It should be noted that position in space can be relative (for example, coordinates in a room or relative to another device/unit, etc.) or absolute (for example, GPS coordinates or the like).

В данном документе термин «пространственные данные» в целом характеризует либо текущие угловую ориентацию и/или пространственное положение микрофонной системы, либо изменение угловой ориентации и/или пространственного положения по сравнению с предыдущими ориентацией/положением микрофонной системы.As used herein, the term “spatial data” generally describes either the current angular orientation and/or spatial position of the microphone system, or a change in angular orientation and/or spatial position from a previous orientation/position of the microphone system.

Таким образом, устройство принимает метаданные, содержащие пространственные данные, характеризующие пространственную ориентацию и/или пространственное положение микрофонной системы, захватывающей направленный звук.Thus, the device receives metadata containing spatial data characterizing the spatial orientation and/or spatial position of the microphone system capturing directional sound.

Устройство дополнительно содержит вычислительный блок, выполненный с возможностью модификации по меньшей мере некоторой части направленного звука для получения модифицированного направленного звука, при этом направленность звука модифицируется на основании пространственной ориентации и/или пространственного положения микрофонной системы.The device further comprises a computing unit configured to modify at least some portion of the directional sound to produce a modified directional sound, wherein the directionality of the sound is modified based on the spatial orientation and/or spatial position of the microphone system.

Модификация может быть выполнена с помощью любых подходящих средств, например путем определения матрицы поворота/перехода, основанной на пространственных данных, и умножения направленного звука на эту матрицу для получения модифицированного направленного звука. Матричное умножение подходит для непараметрического пространственного звука. Параметрический пространственный звук может быть модифицирован путем корректировки пространственных метаданных, как, например, параметров направления звукового объекта (звуковых объектов).The modification may be accomplished by any suitable means, for example, by determining a rotation/transition matrix based on the spatial data and multiplying the directional audio by this matrix to obtain the modified directional audio. Matrix multiplication is suitable for non-parametric spatial audio. Parametric spatial audio can be modified by adjusting spatial metadata, such as the directional parameters of the audio object(s).

Модифицированный направленный звук тогда кодируется в цифровые аудиоданные, и эти данные передаются посредством блока передачи устройства.The modified directional audio is then encoded into digital audio data, and this data is transmitted via the device's transmission unit.

Авторы пришли к заключению о том, что поворотные/поступательные перемещения захватывающего звук устройства (микрофонной системы) лучше всего компенсируются на конце отправки, то есть на конце, захватывающем звук. Можно ожидать, что это обеспечит наилучшую из возможных стабилизацию захваченной звуковой сцены в отношении, например, случайных перемещений. Такая компенсация может быть частью процесса захвата, то есть происходить во время звуковой предварительной обработки, или частью этапа кодирования IVAS. Более того, благодаря выполнению компенсации на конце отправки уменьшается необходимость в передаче пространственных данных с конца отправки на принимающий конец. В случае, если компенсацию поворотных/поступательных перемещений захватывающего звук устройства необходимо было выполнить в приемнике звука, то все пространственные данные должны были быть переданы на принимающий конец. Если предположить, что все координаты поворота на всех трех осях представлены 8 битами, а также оценены и переданы с частотой 50 Гц, то полученная битовая скорость составит 1,2 кбит/с. Аналогичное предположение может быть сделано для пространственных координат микрофонной системы.The authors concluded that the rotational/translational movements of the sound-capturing device (microphone system) are best compensated at the sending end, that is, at the sound-capturing end. This can be expected to provide the best possible stabilization of the captured soundstage with respect to, for example, random movements. Such compensation may be part of the capture process, i.e. occurring during audio pre-processing, or part of the IVAS encoding stage. Moreover, by performing compensation at the sending end, the need to transfer spatial data from the sending end to the receiving end is reduced. In the event that compensation for the rotational/translational movements of the sound-capturing device had to be performed at the sound receiver, then all spatial data had to be transmitted to the receiving end. Assuming that all rotation coordinates on all three axes are represented by 8 bits and estimated and transmitted at 50 Hz, the resulting bit rate is 1.2 kbps. A similar assumption can be made for the spatial coordinates of the microphone system.

Согласно некоторым вариантам осуществления пространственная ориентация микрофонной системы представлена параметрами, описывающими поворотное движение/ориентацию с помощью одной степени свободы, DoF, в пространственных данных. Например, может быть достаточно рассматривать лишь угол азимута для телефонной конференции.In some embodiments, the spatial orientation of the microphone system is represented by parameters describing the rotational motion/orientation using one degree of freedom, DoF, in the spatial data. For example, it may be sufficient to consider only the azimuth angle for a conference call.

Согласно некоторым вариантам осуществления пространственная ориентация микрофонной системы представлена параметрами, описывающими угловую ориентацию/движение с помощью трех степеней свободы, DoF, в пространственных данных.In some embodiments, the spatial orientation of the microphone system is represented by parameters describing the angular orientation/motion using three degrees of freedom, DoF, in the spatial data.

Согласно некоторым вариантам осуществления пространственные данные микрофонной системы представлены в шести DoF. В этом варианте осуществления пространственные данные микрофонной системы захватывают измененное положение (в данном документе называемое пространственными координатами) микрофонной системы как поступательное перемещение по трем перпендикулярным осям вперед/назад (продольное), вверх/вниз (вертикальное), влево/вправо (поперечное) вместе с изменениями ориентации (или текущей угловой ориентации) микрофонной системы за счет поворота относительно трех перпендикулярных осей, часто называемого рысканием или азимутом (нормальная/вертикальная ось), тангажем (поперечная ось) и креном (продольная ось).In some embodiments, the spatial data of the microphone system is represented in six DoFs. In this embodiment, the spatial data of the microphone system captures the changed position (herein referred to as spatial coordinates) of the microphone system as translational movement along three perpendicular axes forward/backward (longitudinal), up/down (vertical), left/right (transverse), along with changes in the orientation (or current angular orientation) of a microphone system due to rotation about three perpendicular axes, often called yaw or azimuth (normal/vertical axis), pitch (transverse axis), and roll (longitudinal axis).

Согласно некоторым вариантам осуществления принятый направленный звук содержит звук, содержащий направленные метаданные. Например, такой звук может содержать звуковые объекты, то есть основанный на объекте звук (OBA). OBA представляет собой параметрическую форму пространственного/направленного звука с пространственными метаданными. Особой формой параметрического пространственного звука является сопровождаемый метаданными пространственный звук (MASA).In some embodiments, the received directional audio comprises audio containing the directional metadata. For example, such sound may contain audio objects, that is, object-based audio (OBA). OBA is a parametric form of spatial/directional audio with spatial metadata. A special form of parametric spatial audio is metadata-assisted spatial audio (MASA).

Согласно некоторым вариантам осуществления вычислительный блок дополнительно выполнен с возможностью кодирования по меньшей мере частей метаданных, содержащих пространственные данные микрофонной системы, в указанные цифровые аудиоданные. Предпочтительно это обеспечивает возможность компенсации корректировки направления, выполненной в отношении захваченного звука на принимающем конце. В соответствии с определением подходящей поворотной системы координат, например, у которой ось z соответствует вертикальному направлению, во многих случаях может быть необходимо передать только угол азимута (на скорости, например, 400 бит/с). Углы тангажа и крена захватывающего устройства в поворотной системе координат могут быть необходимы только в определенных случаях применения VR. Благодаря компенсации пространственных данных микрофонной системы на стороне отправки и включению при определенных условиях по меньшей мере частей пространственных данных в кодированные цифровые аудиоданные предпочтительно поддерживаются случай, в котором воспроизведенная звуковая сцена не должна изменяться из-за положения захватывающего устройства, и остальные случаи, в которых воспроизведенная звуковая сцена должна поворачиваться при соответствующих перемещениях захватывающего устройства.In some embodiments, the computing unit is further configured to encode at least portions of the metadata comprising spatial data of the microphone system into said digital audio data. Preferably, this allows compensation for directional corrections made to the captured audio at the receiving end. In accordance with the definition of a suitable rotational coordinate system, for example, where the z-axis corresponds to the vertical direction, in many cases it may be necessary to transmit only the azimuth angle (at a speed of, for example, 400 bps). The pitch and roll angles of the gripper in a rotary coordinate system may only be necessary in certain VR applications. By compensating for the spatial data of the microphone system on the sending side and including, under certain conditions, at least portions of the spatial data in the encoded digital audio data, the case in which the reproduced sound stage should not change due to the position of the capture device, and other cases in which the reproduced The sound stage should rotate with corresponding movements of the gripping device.

Согласно некоторым вариантам осуществления блок приема дополнительно выполнен с возможностью приема первых команд, указывающих вычислительному блоку, включать ли по меньшей мере части метаданных, содержащих пространственные данные микрофонной системы, в указанные цифровые аудиоданные, за счет чего вычислительный блок действует соответственно. Следовательно, сторона отправки при определенных условиях включает части пространственных данных в цифровые аудиоданные, чтобы по возможности сохранялась битовая скорость. Команда может быть принята больше одного раза во время сеанса, так что то, следует включать пространственные данные (их части) в цифровые аудиоданные или нет, изменяется со временем. Другими словами, могут быть предусмотрены адаптации во время сеанса, когда первые команды могут приниматься устройством как постоянно, так и периодически. Постоянно означает, например, один раз на каждый кадр. Периодически может быть только один раз, когда необходимо дать новую команду. Также является возможным прием первой команды только один раз при установлении сеанса.According to some embodiments, the receiving unit is further configured to receive first commands instructing the computing unit whether to include at least portions of metadata comprising spatial data of the microphone system in said digital audio data, causing the computing unit to act accordingly. Therefore, the sending side under certain conditions includes parts of the spatial data in the digital audio data so that the bit rate is preserved as much as possible. The command may be received more than once during a session, so whether spatial data (parts thereof) should be included in the digital audio data or not changes over time. In other words, adaptations may be provided during the session, where the first commands may be received by the device either continuously or periodically. Constantly means, for example, once every frame. Periodically there may be only one time when a new command needs to be issued. It is also possible to receive the first command only once when establishing a session.

Согласно некоторым вариантам осуществления блок приема дополнительно выполнен с возможностью приема вторых команд, указывающих вычислительному блоку, какой параметр или параметры пространственных данных микрофонной системы включать в цифровые аудиоданные, за счет чего вычислительный блок действует соответственно. Как и в приведенном выше примере, стороне отправки может быть отправлена команда включать только азимут или включать все данные, определяющие пространственную ориентацию микрофонной системы. Команда может быть принята больше одного раза во время сеанса, так что число параметров, включенных в цифровые аудиоданные, изменяется со временем. Другими словами, могут быть предусмотрены адаптации во время сеанса, когда вторые команды могут приниматься устройством как постоянно, так и периодически. Постоянно означает, например, один раз на каждый кадр. Периодически может быть только один раз, когда необходимо дать новую команду. Также является возможным прием второй команды только один раз при установлении сеанса.In some embodiments, the receiving unit is further configured to receive second commands instructing the computing unit which spatial data parameter or parameters of the microphone system to include in the digital audio data, causing the computing unit to act accordingly. As in the example above, the sending side can be commanded to include only the azimuth or to include all data defining the spatial orientation of the microphone system. A command may be received more than once during a session, so the number of parameters included in the digital audio data changes over time. In other words, adaptations may be provided during a session where second commands may be received by the device either continuously or periodically. Constantly means, for example, once every frame. Periodically there may be only one time when a new command needs to be issued. It is also possible to receive the second command only once when establishing a session.

Согласно некоторым вариантам осуществления блок передачи выполнен с возможностью передачи цифровых аудиоданных в дополнительное устройство, при этом указания относительно первых и/или вторых команд принимаются с указанного дополнительного устройства. Другими словами, сторона приема (содержащая устройство воспроизведения для воспроизведения принятого декодированного звука), в зависимости от контекста, может отправлять команды стороне отправки о том, включать часть пространственных данных в цифровые аудиоданные или нет и/или какие параметры включать. В других вариантах осуществления указания относительно первых и/или вторых команд могут быть приняты, например, от координирующего блока (сервера вызовов) для многопользовательской аудио-/видеоконференции с эффектом погружения или любого другого блока, который непосредственно не задействован в воспроизведении направленного звука.In some embodiments, the transmission unit is configured to transmit digital audio data to an additional device, wherein instructions regarding first and/or second commands are received from said additional device. In other words, the receiving side (containing a playback device for reproducing the received decoded audio), depending on the context, can send commands to the sending side about whether or not to include a portion of the spatial data in the digital audio data and/or what parameters to include. In other embodiments, instructions regarding the first and/or second commands may be received, for example, from a coordinating unit (call server) for an immersive multi-user audio/video conference or any other unit that is not directly involved in the reproduction of directed audio.

Согласно некоторым вариантам осуществления блок приема дополнительно выполнен с возможностью приема метаданных, содержащих временную отметку, указывающую время захвата направленного звука, при этом вычислительный блок выполнен с возможностью кодирования указанной временной отметки в указанные цифровые аудиоданные. Предпочтительно эта временная отметка может быть использована для синхронизации на стороне приема, например для синхронизации устройства воспроизведения звука с устройством воспроизведения видео или для синхронизации множества цифровых аудиоданных, принятых от разных захватывающих устройств.According to some embodiments, the receiving unit is further configured to receive metadata comprising a timestamp indicating the time of capture of the directional audio, wherein the computing unit is configured to encode said time stamp into said digital audio data. Preferably, this timestamp may be used for synchronization at the receiving end, for example to synchronize an audio playback device with a video playback device or to synchronize multiple digital audio data received from different capture devices.

Согласно некоторым вариантам осуществления кодирование модифицированных звуковых сигналов включает понижающее микширование модифицированного направленного звука, при этом понижающее микширование выполняется с учетом пространственной ориентации микрофонной системы, и кодирование результата понижающего микширования и матрицы понижающего микширования, использованной в понижающем микшировании, в указанные цифровые аудиоданные. Например, формирование звукового луча в направлении конкретного направленного источника направленного звука предпочтительно применяется на основании направленной модификации, выполненной по отношению к направленному звуку.In some embodiments, encoding the modified audio signals includes downmixing the modified directional audio, wherein the downmixing is performed taking into account the spatial orientation of the microphone system, and encoding the result of the downmix and the downmix matrix used in the downmix into said digital audio data. For example, shaping a sound beam towards a particular directional directional sound source is preferably applied based on the directional modification made to the directional sound.

Согласно некоторым вариантам осуществления устройство реализовано в оборудовании виртуальной реальности, VR, или оборудовании дополненной реальности, AR, содержащем микрофонную систему и устройство отслеживания положения головы, выполненное с возможностью определения пространственных данных устройства в 3–6 DoF. В других вариантах осуществления устройство реализовано в мобильном телефоне, содержащем микрофонную систему.In some embodiments, the device is implemented in virtual reality, VR, or augmented reality, AR hardware, comprising a microphone system and a head tracking device configured to detect 3-6 DoF spatial data of the device. In other embodiments, the device is implemented in a mobile phone comprising a microphone system.

II. Обзор – сторона приемаII. Overview - receiving side

Согласно второму аспекту предложено устройство для воспроизведения звуковых сигналов. Устройство (также называемое в данном документе стороной приема или воспроизводящим устройством) содержит блок приема, выполненный с возможностью приема цифровых аудиоданных. Устройство дополнительно содержит блок декодирования, выполненный с возможностью декодирования принятых цифровых аудиоданных в направленный звук и в метаданные, при этом метаданные содержат пространственные данные, содержащие по меньшей мере одно из списка, включающего: угол (углы) азимута, тангажа, крена и пространственные координаты. Пространственные данные могут быть приняты, например, в виде параметров, например углов 3 DoF. В других вариантах осуществления пространственные данные могут быть приняты в виде матрицы поворота/перехода.According to a second aspect, a device for reproducing audio signals is provided. The device (also referred to herein as a receiving end or reproducing device) includes a receiving unit configured to receive digital audio data. The device further comprises a decoding unit configured to decode the received digital audio data into directional audio and into metadata, wherein the metadata comprises spatial data comprising at least one of a list including: azimuth, pitch, roll angle(s), and spatial coordinates. The spatial data may be received, for example, in the form of parameters such as 3 DoF angles. In other embodiments, the spatial data may be received in the form of a rotation/transition matrix.

Устройство дополнительно содержит блок воспроизведения, выполненный с возможностью:The device additionally contains a playback unit configured to:

модификации направленности направленного звука с применением пространственных данных поворота; иmodifying the directionality of directional sound using spatial rotation data; And

воспроизведения модифицированного направленного звука.reproduction of modified directional sound.

Предпочтительно устройство согласно этому аспекту может модифицировать направленный звук, как указано в метаданных. Например, при воспроизведении могут учитываться перемещения устройства, захватывающего звук.Preferably, the device according to this aspect can modify the directional audio as indicated in the metadata. For example, playback may take into account the movements of the device capturing the sound.

Согласно некоторым вариантам осуществления пространственные данные указывают пространственную ориентацию и/или пространственное положение микрофонной системы, содержащей один или более микрофонов, захватывающих направленный звук, при этом блок воспроизведения модифицирует направленность направленного звука с по меньшей мере частичным воспроизведением звуковой среды микрофонной системы. В этом варианте осуществления в устройстве применяется поворот звуковой сцены путем повторного применения по меньшей мере частей поворота звуковой сцены (относительного, то есть поворот сцены происходит относительно перемещения микрофонной системы), который был компенсирован в захватывающем устройстве.In some embodiments, the spatial data indicates the spatial orientation and/or spatial position of a microphone system comprising one or more directional sound pickup microphones, wherein the rendering unit modifies the directionality of the directional sound to at least partially reproduce the audio environment of the microphone system. In this embodiment, the device applies sound stage rotation by reapplying at least portions of the sound stage rotation (relative, that is, the stage rotation occurs relative to the movement of the microphone system) that was compensated in the gripping device.

Согласно некоторым вариантам осуществления пространственные данные содержат параметры, описывающие поворотное движение/ориентацию с помощью одной степени свободы, DoF.In some embodiments, the spatial data includes parameters describing rotational motion/orientation using one degree of freedom, DoF.

Согласно некоторым вариантам осуществления пространственные данные содержат параметры, описывающие поворотное движение/ориентацию с помощью трех степеней свободы, DoF.In some embodiments, the spatial data includes parameters describing rotational motion/orientation using three degrees of freedom, DoF.

Согласно некоторым вариантам осуществления декодированный направленный звук содержит звук, содержащий направленные метаданные. Например, декодированный направленный звук может содержать звуковые объекты, то есть основанный на объекте звук (OBA). В других вариантах осуществления декодированный направленный звук может быть основанным на каналах и представлять собой, например, основанный на сцене звук в формате «Ambisonics B» или основанный на каналах звук.In some embodiments, the decoded directional audio comprises audio containing directional metadata. For example, the decoded directional audio may contain audio objects, that is, object-based audio (OBA). In other embodiments, the decoded directional audio may be channel-based and be, for example, Ambisonics B-format stage-based audio or channel-based audio.

Согласно некоторым вариантам осуществления устройство содержит блок передачи, выполненный с возможностью передачи команд в дополнительное устройство, с которого принимают оцифрованный звук, при этом команды указывают дополнительному устройству, какой (если какой-либо вообще) параметр или параметры данные поворота должны содержать. Следовательно, воспроизводящее устройство может отправлять захватывающему устройству команды на передачу, например, только параметров поворота, только параметра азимута или всех параметров 6 DoF, в зависимости от случая применения и/или доступной полосы пропускания. Более того, воспроизводящее устройство может принимать такое решение на основании доступных вычислительных ресурсов в устройстве воспроизведения для применения поворота звуковой сцены или уровня сложности блока воспроизведения. Команды могут быть переданы больше одного раза во время сеанса, и, таким образом, они изменяются со временем, то есть на основании вышеизложенного. Другими словами, могут быть предусмотрены адаптации во время сеанса, когда устройство может передавать команды как постоянно, так и периодически. Постоянно означает, например, один раз на каждый кадр. Периодически может быть только один раз, когда необходимо дать новую команду. Также является возможной передача команды только один раз при установлении сеанса.In some embodiments, the device includes a transmission unit configured to transmit commands to an additional device from which the digitized audio is received, wherein the commands indicate to the additional device what (if any) parameter or parameters the rotation data should contain. Therefore, the rendering device may send commands to the capture device to transmit, for example, only the rotation parameters, only the azimuth parameter, or all 6 DoF parameters, depending on the application and/or available bandwidth. Moreover, the playback device may make such a decision based on the available computing resources in the playback device to apply the sound stage rotation or complexity level of the playback block. Commands can be issued more than once during a session, and thus they change over time, that is, based on the above. In other words, adaptations may be made during a session where the device may transmit commands either continuously or periodically. Constantly means, for example, once every frame. Periodically there may be only one time when a new command needs to be issued. It is also possible to send the command only once when establishing a session.

Согласно некоторым вариантам осуществления блок декодирования дополнительно выполнен с возможностью извлечения временной отметки, указывающей время захвата направленного звука, из цифровых аудиоданных. Эта временная отметка может быть использована для целей синхронизации, как было рассмотрено выше.According to some embodiments, the decoding unit is further configured to extract a timestamp indicating the time of directional audio capture from the digital audio data. This timestamp can be used for synchronization purposes, as discussed above.

Согласно некоторым вариантам осуществления декодирование принятых цифровых аудиоданных в направленный звук блоком декодирования включает:According to some embodiments, decoding the received digital audio data into directional audio by the decoding unit includes:

декодирование принятых цифровых аудиоданных в подвергнутый понижающему микшированию звук;decoding the received digital audio data into downmixed audio;

повышающее микширование посредством блока декодирования подвергнутого понижающему микшированию звука в направленный звук с применением матрицы понижающего микширования, включенной в принятые цифровые аудиоданные.upmixing by a unit for decoding the downmixed audio into directional audio using a downmix matrix included in the received digital audio data.

Согласно некоторым вариантам осуществления пространственные данные содержат пространственные координаты, и при этом блок воспроизведения дополнительно выполнен с возможностью регулирования громкости воспроизведенного звука на основании пространственных координат. В этом варианте осуществления громкость звука, принятого «издалека», может быть уменьшена по сравнению с громкостью звука, принятого из места, расположенного ближе. Следует отметить, что относительная близость принятого звука может быть определена на основании виртуального пространства, при этом положение захватывающего устройства в этом пространстве относительно принимающего устройства определено на основании пространственных координат устройств с применением подходящей метрики расстояния, например евклидовой метрики. Еще один этап может включать применение некоторой произвольной схемы отображения для определения на основании метрики расстояния параметров воспроизведения звука, например уровня звука. Предпочтительно в этом варианте осуществления может быть улучшен эффект присутствия от воспроизведенного звука.In some embodiments, the spatial data comprises spatial coordinates, and wherein the playback unit is further configured to adjust the volume of the reproduced audio based on the spatial coordinates. In this embodiment, the volume of sound received "from afar" may be reduced compared to the volume of sound received from a location closer. It should be noted that the relative proximity of the received sound can be determined based on virtual space, with the position of the capturing device in that space relative to the receiving device determined based on the spatial coordinates of the devices using a suitable distance metric, such as the Euclidean metric. Another step may include using some arbitrary mapping scheme to determine audio reproduction parameters, such as audio level, based on the distance metric. Preferably, in this embodiment, the presence effect of the reproduced sound can be improved.

Согласно некоторым вариантам осуществления устройство реализовано в оборудовании виртуальной реальности, VR, или оборудовании дополненной реальности, AR, содержащих устройство отслеживания положения головы, выполненное с возможностью измерения пространственной ориентации и пространственного положения устройства в шести DoF. В этом варианте осуществления также пространственные данные воспроизводящего устройства могут быть использованы при модификации направленности направленного звука. Например, принятая матрица поворота/перехода может быть умножена на подобную матрицу, определяющую, например, состояние поворота воспроизводящего устройства, и затем полученная матрица может быть использована для модификации направленности направленного звука. Предпочтительно в этом варианте осуществления может быть улучшен эффект присутствия от воспроизведенного звука. В других вариантах осуществления устройство реализовано в устройстве для телефонных конференций или т. п., которое, как предполагается, должно быть стационарным, и при этом любым состоянием поворота устройства пренебрегают.In some embodiments, the device is implemented in virtual reality, VR, or augmented reality, AR hardware, comprising a head tracking device configured to measure the spatial orientation and spatial position of the device in six DoF. In this embodiment, also the spatial data of the playback device can be used when modifying the directivity of the directional sound. For example, the received rotation/transition matrix can be multiplied by a similar matrix defining, for example, the rotation state of the playback device, and the resulting matrix can then be used to modify the directivity of the directional sound. Preferably, in this embodiment, the presence effect of the reproduced sound can be improved. In other embodiments, the device is implemented in a device for telephone conferencing or the like, which is intended to be stationary, and any rotation state of the device is neglected.

Согласно некоторым вариантам осуществления блок воспроизведения выполнен для бинаурального воспроизведения звука.In some embodiments, the playback unit is configured for binaural audio playback.

III. Обзор – системаIII. Overview – system

Согласно третьему аспекту предложена система, содержащая:According to the third aspect, a system is proposed comprising:

первое устройство согласно первому аспекту, выполненное с возможностью передачи цифровых аудиоданных во второе устройство согласно второму аспекту, при этом система выполнена с возможностью проведения аудио- и/или видеоконференций.a first device according to a first aspect, configured to transmit digital audio data to a second device according to a second aspect, wherein the system is configured to conduct audio and/or video conferencing.

Согласно некоторым вариантам осуществления первое устройство дополнительно содержит блок записи видео, при этом оно выполнено с возможностью кодирования записанного видео в цифровые видеоданные и передачи цифровых видеоданных во второе устройство, при этом второе устройство дополнительно содержит дисплей для отображения декодированных цифровых видеоданных.In some embodiments, the first device further comprises a video recording unit, wherein the first device is configured to encode the recorded video into digital video data and transmit the digital video data to the second device, wherein the second device further includes a display for displaying the decoded digital video data.

Согласно четвертому аспекту предложена система, содержащая:According to the fourth aspect, a system is proposed comprising:

первое устройство согласно первому аспекту, выполненное с возможностью передачи цифровых аудиоданных во второе устройство, при этом второе устройство содержит:a first device according to the first aspect, configured to transmit digital audio data to a second device, wherein the second device comprises:

блок приема, выполненный с возможностью приема цифровых аудиоданных,a receiving unit configured to receive digital audio data,

блок декодирования, выполненный с возможностью:a decoding unit configured to:

декодирования принятых цифровых аудиоданных в направленный звук и в метаданные, при этом метаданные содержат пространственные данные, содержащие по меньшей мере одно из списка, включающего: угол (углы) азимута, тангажа, крена и пространственные координаты;decoding the received digital audio data into directional audio and metadata, the metadata comprising spatial data comprising at least one of a list including: azimuth, pitch, roll angle(s), and spatial coordinates;

блок воспроизведения для воспроизведения звука;a playback unit for playing sound;

при этом блок воспроизведения выполнен с возможностью при последующем получении вторым устройством кодированных видеоданных от первого устройства:wherein the playback unit is configured to, upon subsequent receipt by the second device of encoded video data from the first device:

модификации направленности направленного звука с применением пространственных данных, иmodifying the directivity of directional sound using spatial data, and

воспроизведения модифицированного направленного звука;reproduction of modified directional sound;

при этом блок воспроизведения выполнен с возможностью при неполучении вторым устройством кодированных видеоданных от первого устройства:wherein the playback unit is configured to: if the second device does not receive encoded video data from the first device:

воспроизведения направленного звука.directional sound reproduction.

Предпочтительно решение, воспроизводить ли звуковую среду микрофонной системы путем компенсации пространственной ориентации и/или пространственного положения микрофонной системы, принимается на основании того, передано видео или нет. В этом варианте осуществления отправляющему устройству может не всегда быть известно, когда необходима или требуется компенсация ее перемещения. Рассмотрим, например, ситуацию, когда звук воспроизводится вместе с видео. В этом случае, по меньшей мере когда захват видео выполняется тем же устройством, что захватывает звук, предпочтительно может быть возможным либо поворот звуковой сцены вместе с движущейся визуальной сценой, либо сохранение звуковой сцены неподвижной. Сохранение звуковой сцены неподвижной путем компенсации перемещений захватывающего устройства может быть предпочтительным выбором, если не использовано видео.Preferably, the decision whether to reproduce the sound environment of the microphone system by compensating for the spatial orientation and/or spatial position of the microphone system is made based on whether video is transmitted or not. In this embodiment, the sending device may not always know when compensation for its movement is needed or required. Consider, for example, a situation where audio is played along with video. In this case, at least when video capture is performed by the same device that captures audio, it may preferably be possible to either rotate the sound stage along with the moving visual scene, or keep the sound stage stationary. Keeping the sound stage static by compensating for the movement of the gripper may be a preferable choice if video is not used.

Согласно пятому аспекту предложен постоянный машиночитаемый носитель, на котором сохранены команды, которые при выполнении одним или более процессорами приводят к выполнению одним или более процессорами операций согласно любому из аспектов с первого по четвертый.According to a fifth aspect, there is provided a non-transitory computer-readable medium on which instructions are stored that, when executed by one or more processors, cause the one or more processors to perform operations according to any of the first to fourth aspects.

IV. Обзор в целомIV. Overall overview

Аспекты со второго по пятый могут в целом характеризоваться такими же или соответствующими признаками и преимуществами, что и в первом аспекте.Aspects two through five may have generally the same or similar features and benefits as the first aspect.

Другие цели, признаки и преимущества настоящего изобретения станут понятны из следующего подробного описания, из зависимых пунктов прилагаемой формулы изобретения, а также из графических материалов.Other objects, features and advantages of the present invention will become apparent from the following detailed description, the dependent claims of the appended claims, and the drawings.

Этапы любого способа или устройство, реализующее ряд этапов, которые раскрыты в данном документе, не обязательно должны быть выполнены точно в приведенном порядке, если явным образом не указано иное.The steps of any method or device implementing a number of steps that are disclosed herein do not necessarily have to be performed in the exact order given, unless explicitly stated otherwise.

V. Приведенные в качестве примера варианты осуществленияV. Exemplary Embodiments

Ожидается, что голосовые и звуковые услуги с эффектом присутствия предложат пользователям впечатления виртуальной реальности (VR) с эффектом присутствия. Также могут быть предложены впечатления дополненной реальности (AR) и расширенной реальности (XR). Это изобретение касается того, что мобильные устройства, такие как портативное UE, которые захватывают сцену с эффектом присутствия или сцену AR/VR/XR, во многих случаях могут перемещаться во время сеанса относительно звуковой сцены. Здесь выделяются случаи, когда необходимо избегать воспроизведения поворотных движений захватывающего устройства как соответствующего поворота воспроизводимой сцены посредством принимающего устройства. Это изобретение направлено на то, как можно эффективно решить указанные выше проблемы с обеспечением соответствия требованиям пользователя к звуку с эффектом присутствия в зависимости от контекста.Immersive voice and audio services are expected to offer immersive virtual reality (VR) experiences to users. Augmented reality (AR) and extended reality (XR) experiences may also be offered. This invention relates to the fact that mobile devices, such as a portable UE, that capture an immersive scene or an AR/VR/XR scene can, in many cases, move during the session relative to the sound stage. Here, cases are highlighted where it is necessary to avoid reproducing the rotational movements of the gripping device as a corresponding rotation of the reproduced scene by the receiving device. This invention is directed to how the above problems can be effectively solved while meeting user requirements for context-sensitive immersive audio.

Следует отметить, что, несмотря на то, что некоторые примеры в данном документе будут описаны в контексте кодера, декодера и/или устройства воспроизведения IVAS, следует понимать, что это только один тип кодера/декодера/устройства воспроизведения, в котором могут быть применены общие принципы изобретения, и что может быть много других типов кодеров, декодеров и устройств воспроизведения, которые могут быть использованы в сочетании с различными вариантами осуществления, описанными в данном документе.It should be noted that while some examples herein will be described in the context of an IVAS encoder, decoder and/or playback device, it should be understood that this is only one type of encoder/decoder/playback device in which the general principles of the invention, and that there may be many other types of encoders, decoders and playback devices that may be used in combination with the various embodiments described herein.

Также следует отметить, что, хотя термины «повышающее микширование» и «понижающее микширование» встречаются по всему этому документу, они не обязательно могут подразумевать соответственно увеличение и уменьшение числа каналов. Хотя это часто может соответствовать действительности, следует понимать, что любой из терминов может относиться либо к уменьшению, либо к увеличению числа каналов. Таким образом, оба термина входят в более общее понятие «микширование».It should also be noted that although the terms “upmixing” and “downmixing” appear throughout this document, they may not necessarily imply increasing and decreasing the number of channels, respectively. While this may often be true, it should be understood that either term can refer to either a decrease or an increase in the number of channels. Thus, both terms are included in the more general concept of "mixing".

Далее со ссылкой на фиг. 1 описан способ 1 кодирования и передачи представления направленного звука согласно одному варианту осуществления. Устройство 300, выполненное с возможностью осуществления способа 1, показано на фиг. 3.Next, with reference to FIG. 1 describes a method 1 for encoding and transmitting a directional audio representation according to one embodiment. An apparatus 300 configured to implement method 1 is shown in FIG. 3.

Устройство 300 в целом может быть мобильным телефоном (смартфоном), тем не менее, устройство может также быть частью оборудования VR/AR/XR или устройством любого другого типа, содержащим микрофонную систему 302, содержащую один или более микрофонов для захвата направленного звука, или соединенным с ней. Таким образом, устройство 300 может содержать микрофонную систему 302 или быть соединено (с помощью проводного или беспроводного соединения) с микрофонной системой 302, расположенной на расстоянии от него. В некоторых вариантах осуществления устройство 300 реализовано в оборудовании VR или оборудовании AR, содержащем микрофонную систему 302 и устройство отслеживания положения головы, выполненное с возможностью определения пространственных данных устройства в 1–6 DoF.The device 300 may generally be a mobile phone (smartphone), however, the device may also be a piece of VR/AR/XR equipment or any other type of device comprising a microphone system 302 containing one or more microphones for capturing directional audio, or connected with her. Thus, device 300 may include a microphone system 302 or be connected (via a wired or wireless connection) to a microphone system 302 located remotely therefrom. In some embodiments, device 300 is implemented in VR hardware or AR hardware comprising a microphone system 302 and a head tracker configured to detect 1-6 DoF spatial data of the device.

В некоторых сценариях захвата звука положение и/или пространственная ориентация микрофонной системы 302 могут изменяться во время захвата направленного звука.In some audio capture scenarios, the position and/or spatial orientation of the microphone system 302 may change during directional audio capture.

Далее будут описаны два сценария, представленные в качестве примера.Next, two scenarios will be described as examples.

Изменение положения и/или пространственной ориентации микрофонной системы 302 во время захвата звука может вызывать поворот/переход в пространстве воспроизводимой сцены в принимающем устройстве. Такое поведение может требоваться или быть нежелательным в зависимости от типа обеспечиваемого впечатления, например с эффектом присутствия, VR, AR или XR, и в зависимости от конкретного случая применения. Одним примером того, когда это может требоваться, является ситуация, в которой услуга дополнительно обеспечивает визуальный компонент и в которой захватывающая камера (например с захватом видео в 360 градусов, на фиг. 1 не показана) и микрофоны 302 интегрированы в одно и то же устройство. В этом случае следует ожидать, что поворот захватывающего устройства должен привести к соответствующему повороту воспроизведенной аудиовизуальной сцены.Changing the position and/or spatial orientation of the microphone system 302 during audio capture may cause a rotation/transition in the space of the rendered scene at the receiving device. This behavior may or may not be required depending on the type of experience being provided, such as immersive, VR, AR or XR, and depending on the specific use case. One example of where this may be required is a situation in which the service additionally provides a visual component and in which the capture camera (eg, 360-degree video capture, not shown in FIG. 1) and microphones 302 are integrated into the same device. . In this case, it is expected that rotation of the gripping device should result in a corresponding rotation of the reproduced audiovisual scene.

С другой стороны, если захват звука и видео не выполняется одним и тем же физическим устройством или если нет видеокомпонента, слушатель может чувствовать себя некомфортно, если воспроизводимая сцена будет поворачиваться всякий раз, когда поворачивается захватывающее устройство. В худшем случае может быть вызван эффект укачивания. Таким образом, необходимо компенсировать изменения положения (перехода и/или поворота) захватывающего устройства. К примерам относятся применения для телефонной связи с эффектом присутствия и проведения конференций с эффектом присутствия с помощью смартфона в качестве захватывающего устройства (то есть содержащего комплект микрофонов 302). В этих случаях применения часто может случаться так, что комплект микрофонов непреднамеренно перемещается либо потому, что он является портативным, либо потому, что пользователь прикасается к нему во время работы. Пользователь захватывающего устройства может не знать о том, что перемещение устройства может вызывать нестабильность воспроизведенного пространственного звука в принимающих устройствах. В целом, нельзя ожидать того, что во время разговора пользователь будет держать телефон неподвижно.On the other hand, if audio and video are not captured by the same physical device, or if there is no video component, the listener may feel uncomfortable if the playing scene rotates every time the capture device is rotated. In the worst case, it can cause motion sickness. Thus, it is necessary to compensate for changes in position (transition and/or rotation) of the gripping device. Examples include applications for immersive telephony and immersive conferencing using a smartphone as a capture device (ie, containing a set of microphones 302). In these applications, it can often happen that the microphone array is unintentionally moved, either because it is portable or because the user touches it during operation. The user of the gripping device may not be aware that moving the device may cause instability in the reproduced spatial audio in the receiving devices. In general, the user cannot be expected to hold the phone still during a call.

Способы и устройство, описанные ниже, определены некоторыми или всеми из вышеописанных сценариев.The methods and apparatus described below are defined by some or all of the above scenarios.

Таким образом, устройство 300 содержит микрофонную систему 302, содержащую один или более микрофонов для захвата звука, или соединено с ней. Таким образом, микрофонная система может содержать 1, 2, 3, 5, 10 и т. д. микрофонов. В некоторых вариантах осуществления микрофонная система содержит множество микрофонов. Устройство 300 содержит множество функциональных блоков. Блоки могут быть реализованы в аппаратном обеспечении и/или программном обеспечении и могут содержать один или более процессоров для выполнения функций блоков.Thus, device 300 contains or is connected to a microphone system 302 containing one or more microphones for capturing audio. Thus, a microphone system can contain 1, 2, 3, 5, 10, etc. microphones. In some embodiments, the microphone system includes a plurality of microphones. The device 300 contains a plurality of functional blocks. Blocks may be implemented in hardware and/or software and may contain one or more processors to perform the functions of the blocks.

Устройство 300 содержит блок 304 приема, который выполнен с возможностью приема S13 направленного звука 320, захваченного микрофонной системой 302. Направленный звук 320 предпочтительно представляет собой представление звука, которое легко обеспечивает возможность поворота и/или перехода звуковой сцены. Направленный звук 320 может содержать, например, звуковые объекты и/или каналы, которые обеспечивают возможность поворота и/или перехода звуковой сцены. Направленный звук может содержать:The device 300 includes a receiving unit 304 that is configured to receive S13 directional audio 320 captured by the microphone system 302. The directional audio 320 is preferably a representation of audio that readily allows for rotation and/or transition of the sound stage. Directional audio 320 may include, for example, audio objects and/or channels that provide the ability to rotate and/or transition the sound stage. Directional sound may contain:

- основанный на каналах звук (CBA), такой как стереозвук, многоканальный/объемный звук, 5.1, 7.1 и т. п.;- channel-based audio (CBA), such as stereo, multi-channel/surround, 5.1, 7.1, etc.;

- основанный на сцене звук (SBA), такой как амбиофония первого порядка и высшего порядка;- scene-based sound (SBA), such as first-order and higher-order ambiophony;

- основанный на объекте звук (OBA).- object based audio (OBA).

CBA и SBA являются непараметрическими формами пространственного/направленного звука, тогда как OBA является параметрическим с пространственными метаданными. Особой формой параметрического пространственного звука является сопровождаемый метаданными пространственный звук (MASA).CBA and SBA are non-parametric forms of spatial/directional audio, while OBA is parametric with spatial metadata. A special form of parametric spatial audio is metadata-assisted spatial audio (MASA).

Блок 304 приема дополнительно выполнен с возможностью приема S14 метаданных 322, связанных с микрофонной системой 302. Метаданные 322 содержат пространственные данные микрофонной системы 302. Пространственные данные характеризуют пространственную ориентацию и/или пространственное положение микрофонной системы 302. Пространственные данные микрофонной системы содержат по меньшей мере одно из списка, включающего: угол (углы) азимута, тангажа, крена и пространственные координаты микрофонной системы. Пространственные данные могут быть представлены одной степенью свободы, DoF (например, только угол азимута микрофонной системы), тремя DoF (например, пространственная ориентация микрофонной системы в 3 DoF) или шестью DoF (как пространственная ориентация в 3 DoF, так и пространственное положение в 3 DoF). Разумеется, пространственные данные могут быть представлены любым количеством DoF от одной до шести.The receiving unit 304 is further configured to receive S14 metadata 322 associated with the microphone system 302. The metadata 322 includes spatial data of the microphone system 302. The spatial data characterizes the spatial orientation and/or spatial position of the microphone system 302. The spatial data of the microphone system includes at least one from a list including: azimuth, pitch, roll angle(s) and spatial coordinates of the microphone system. Spatial data can be represented by one degree of freedom, DoF (for example, only the azimuth angle of the microphone system), three DoF (for example, the spatial orientation of the microphone system in 3 DoF), or six DoF (both the spatial orientation in 3 DoF and the spatial position in 3 DoF). DoF). Of course, spatial data can be represented by any number of DoFs from one to six.

Устройство 300 дополнительно содержит вычислительный блок 306, который принимает направленный звук 320 и метаданные 322 из блока 304 приема и модифицирует S15 по меньшей мере некоторую часть направленного звука 320 (например, по меньшей мере несколько из звуковых объектов направленного звука) для получения модифицированного направленного звука. Такая модификация приводит к тому, что направленность звука модифицируется на основании пространственной ориентации и/или пространственного положения микрофонной системы.The device 300 further includes a computing unit 306 that receives the directional audio 320 and metadata 322 from the receiving unit 304 and modifies S15 at least some of the directional audio 320 (eg, at least some of the directional audio objects) to produce the modified directional audio. Such modification causes the directionality of sound to be modified based on the spatial orientation and/or spatial position of the microphone system.

Затем вычислительный блок 306 кодирует S16 цифровые данные путем кодирования S17 модифицированного направленного звука в цифровые аудиоданные 328. Устройство 300 дополнительно содержит блок 310 передачи, выполненный с возможностью передачи (с помощью проводного или беспроводного соединения) цифровых аудиоданных 328, например как битовый поток.The computing unit 306 then encodes the digital data S16 by encoding the modified directional audio S17 into the digital audio data 328. The device 300 further includes a transmission unit 310 configured to transmit (via a wired or wireless connection) the digital audio data 328, such as a bitstream.

Благодаря компенсации поворотных и/или поступательных перемещений микрофонной системы 302 еще в кодирующем устройстве 300 (также может быть отнесено к отправляющему устройству, захватывающему устройству, передающему устройству, стороне отправки), требования относительно передачи пространственных данных микрофонной системы 302 становятся менее строгими. Если бы такая компенсация должна была быть выполнена устройством, принимающим кодированный направленный звук (например, устройством воспроизведения звука с эффектом присутствия), то в цифровые аудиоданные 328 было бы необходимо всегда включать все требуемые метаданные. Если предположить, что все координаты поворота микрофонной системы 302 на всех трех осях представлены 8 битами, а также оценены и переданы с частотой 50 Гц, то возникающее при этом увеличение битовой скорости сигнала 332 составляет 1,2 кбит/с. Кроме того, вполне вероятно, что вариации слуховой сцены в случае отсутствия компенсации движения на стороне захвата могут сделать кодирование пространственного звука более сложным и, возможно, менее эффективным.By compensating for rotational and/or translational movements of the microphone system 302 as early as the encoder 300 (can also be referred to as the sending device, the capturing device, the transmitting device, the sending side), the requirements for transmitting spatial data of the microphone system 302 become less stringent. If such compensation were to be performed by a device receiving encoded directional audio (eg, an immersive audio device), then all required metadata would need to be included in the digital audio data 328 at all times. Assuming that all rotation coordinates of microphone system 302 on all three axes are represented by 8 bits and estimated and transmitted at 50 Hz, the resulting increase in the bit rate of signal 332 is 1.2 kbps. In addition, it is likely that variations in the auditory scene in the absence of motion compensation on the acquisition side may make spatial audio encoding more difficult and possibly less efficient.

Более того, поскольку информация, на которой основано решение о модификации, в устройстве 300 легкодоступна, она уже подходит для компенсации поворотных/поступательных перемещений микрофонной системы 302, которая, таким образом, может быть выполнена эффективно. Таким образом, максимальная алгоритмическая задержка для этой операции может быть сокращена.Moreover, since the information on which the modification decision is based is readily available in the device 300, it is already suitable for compensating for rotational/translational movements of the microphone system 302, which can thus be performed efficiently. In this way, the maximum algorithmic latency for this operation can be reduced.

Еще одно преимущество заключается в том, что при постоянной компенсации (а не при определенных условиях, при запросе) поворотных/поступательных перемещений в захватывающем устройстве 300 и при условии обеспечения принимающих концов данными о пространственной ориентации системы захвата исключаются возможные конфликты при обслуживании нескольких оконечных устройств с разными требованиями к воспроизведению, как, например, в случаях применения в многосторонних конференциях.Another advantage is that by constantly compensating (rather than conditionally on demand) for rotational/translational movements in the gripper 300 and providing the receiving ends with knowledge of the spatial orientation of the gripper system, possible conflicts are eliminated when servicing multiple endpoints with different playback requirements, such as in multi-party conference applications.

Вышеприведенное охватывает все случаи, в которых воспроизведенная звуковая сцена не должна изменяться в зависимости от положения и поворота микрофонной системы 302, захватывающей направленный звук. Что касается остальных случаев, в которых воспроизведенная звуковая сцена должна поворачиваться при соответствующих перемещениях микрофонной системы 302, то вычислительный блок 306 может необязательно быть выполнен с возможностью кодирования S18 по меньшей мере частей метаданных 322, содержащих пространственные данные микрофонной системы, в указанные цифровые аудиоданные 328. Например, в соответствии с определением подходящей поворотной системы координат, например у которой ось z соответствует вертикальному направлению, во многих случаях может быть необходимо передать только угол азимута (на скорости, например, 400 бит/с). Углы тангажа и крена микрофонной системы 302 в поворотной системе координат могут быть необходимы только в определенных случаях применения VR.The above covers all cases in which the reproduced sound stage should not change depending on the position and rotation of the microphone system 302 capturing directional sound. For other cases in which the reproduced sound stage must be rotated by corresponding movements of the microphone system 302, the computing unit 306 may optionally be configured to encode S18 at least portions of the metadata 322 containing the spatial data of the microphone system into said digital audio data 328. For example, in accordance with the determination of a suitable rotational coordinate system, for example one in which the z-axis corresponds to the vertical direction, in many cases it may be necessary to transmit only the azimuth angle (at a speed of, for example, 400 bps). The pitch and roll angles of the microphone system 302 in a rotary coordinate system may only be necessary in certain VR applications.

Предоставляемые при определенных условиях параметры поворота/перехода обычно могут быть переданы как один условный элемент формата полезной нагрузки RTP IVAS. Таким образом, для этих параметров понадобится небольшая часть выделенной полосы пропускания.Provided under certain conditions, turn/transition parameters can typically be conveyed as a single conditional element of the IVAS RTP payload format. Thus, these parameters will require a small portion of the allocated bandwidth.

Для обеспечения соответствия разным сценариям блок 304 приема может необязательно быть выполнен с возможностью приема S10 команд относительно того, как работать с метаданными 322, когда вычислительный блок 306 кодирует цифровые аудиоданные 328. Команды могут быть приняты S10 от воспроизводящего устройства (например другая сторона в аудиоконференции) или от координирующего устройства, такого как сервер вызовов или тому подобное.To accommodate different scenarios, the receiving unit 304 may optionally be configured to receive commands S10 regarding how to operate on the metadata 322 when the computing unit 306 encodes the digital audio data 328. The commands may be received by S10 from a playback device (such as the other party in an audio conference) or from a coordination device such as a call server or the like.

В некоторых вариантах осуществления блок 304 приема дополнительно выполнен с возможностью приема S11 первых команд, указывающих вычислительному блоку 306, включать ли по меньшей мере части метаданных 322, содержащих пространственные данные микрофонной системы, в указанные цифровые аудиоданные. Другими словами, первые команды сообщают устройству 300 о том, необходимо ли включать какие-либо метаданные в цифровые аудиоданные 328 или не включать их вовсе. Например, если устройство 300 передает цифровые аудиоданные 328 как часть аудиоконференции, то первые команды могут определять, что не нужно включать никакую часть метаданных 322.In some embodiments, the receiving unit 304 is further configured to receive S11 first commands instructing the computing unit 306 whether to include at least portions of the metadata 322 containing microphone system spatial data in said digital audio data. In other words, the first instructions tell the device 300 whether to include any metadata in the digital audio data 328 or not at all. For example, if device 300 transmits digital audio data 328 as part of an audio conference, then the first commands may determine that no portion of the metadata 322 needs to be included.

В качестве альтернативы или в дополнение, в некоторых вариантах осуществления блок 304 приема дополнительно выполнен с возможностью приема вторых команд, указывающих вычислительному блоку, какой параметр или параметры пространственных данных микрофонной системы включать в цифровые аудиоданные, за счет чего вычислительный блок действует соответственно. Например, из-за полосы пропускания или по другим причинам вторые команды могут указывать вычислительному блоку 306 на то, чтобы включать в цифровые аудиоданные 328 только угол азимута.Alternatively or in addition, in some embodiments, the receiving unit 304 is further configured to receive second instructions instructing the computing unit which microphone system spatial data parameter or parameters to include in the digital audio data, causing the computing unit to act accordingly. For example, due to bandwidth or other reasons, the second instructions may direct the computing unit 306 to include only the azimuth angle in the digital audio data 328.

Первые и/или вторые команды обычно могут подлежать согласованию при установлении сеанса. Таким образом, ни одна из этих команд не требует передач во время сеанса и не будет требовать какой-либо выделенной полосы пропускания, например, для аудио-/видеоконференции с эффектом присутствия.The first and/or second commands may typically be negotiated upon session establishment. Thus, none of these commands require transmissions during the session and will not require any dedicated bandwidth, for example, for immersive audio/video conferencing.

Как было указано выше, устройство 300 может быть частью видеоконференции. Поэтому блок 304 приема также может быть выполнен с возможностью приема метаданных (на фиг. 1 не показано), содержащих временную отметку, указывающую время захвата направленного звука, при этом вычислительный блок 306 выполнен с возможностью кодирования указанной временной отметки в указанные цифровые аудиоданные. Предпочтительно модифицированный направленный звук затем может быть синхронизирован с захваченным видео на стороне воспроизведения.As noted above, device 300 may be part of a video conference. Therefore, the receiving unit 304 may also be configured to receive metadata (not shown in FIG. 1) containing a timestamp indicating the time the directional audio was captured, wherein the computing unit 306 is configured to encode said time stamp into said digital audio data. Preferably, the modified directional audio can then be synchronized with the captured video on the playback side.

В некоторых вариантах осуществления кодирование S17 модифицированного направленного звука включает понижающее микширование модифицированного направленного звука, при этом понижающее микширование выполняют с учетом пространственной ориентации микрофонной системы 302, и кодирование результата понижающего микширования и матрицы понижающего микширования, использованной в понижающем микшировании, в указанные цифровые аудиоданные 328. Понижающее микширование может, например, включать регулирование операции формирования луча направленного звука 320 на основании пространственных данных микрофонной системы 302.In some embodiments, encoding S17 of the modified directional audio includes downmixing the modified directional audio, wherein the downmixing is performed taking into account the spatial orientation of the microphone system 302, and encoding the result of the downmix and the downmix matrix used in the downmix into said digital audio data 328. The downmixing may, for example, include adjusting the directional sound beamforming operation 320 based on the spatial data of the microphone system 302.

Таким образом, цифровые аудиоданные передают S19 от устройства 300 как часть передачи, например, сценария аудио-/видеоконференции с эффектом присутствия. Затем цифровые аудиоданные принимаются устройством с воспроизведением звуковых сигналов, например части приема сценария аудио-/видеоконференции с эффектом присутствия. Воспроизводящее устройство 400 далее будет описано со ссылкой на фиг. 2 и 4.Thus, digital audio data is transmitted to S19 from device 300 as part of a transmission of, for example, an immersive audio/video conference scenario. The digital audio data is then received by the device to reproduce audio signals, such as the reception portion of an immersive audio/video conference scenario. The playback device 400 will now be described with reference to FIG. 2 and 4.

Устройство 400, воспроизводящее звуковые сигналы, содержит блок 402 приема, выполненный с возможностью приема S21 (с помощью проводного или беспроводного соединения) цифровых аудиоданных 328.The device 400 reproducing audio signals includes a receiving unit 402 configured to receive S21 (via a wired or wireless connection) digital audio data 328.

Устройство 400 дополнительно содержит блок 404 декодирования, выполненный с возможностью декодирования S22 принятых цифровых аудиоданных 328 в направленный звук 420 и в метаданные 422, при этом метаданные 422 содержат пространственные данные, содержащие по меньшей мере одно из списка, включающего: угол (углы) азимута, тангажа, крена и пространственные координаты.Device 400 further includes a decoding unit 404 configured to decode S22 the received digital audio data 328 into directional audio 420 and metadata 422, wherein the metadata 422 includes spatial data comprising at least one of a list including: azimuth angle(s), pitch, roll and spatial coordinates.

В некоторых вариантах осуществления блок 404 декодирования выполняет повышающее микширование. В этих вариантах осуществления декодирование принятых цифровых аудиоданных 328 в направленный звук 420 блоком 404 декодирования включает: декодирование принятых цифровых аудиоданных 328 в подвергнутый понижающему микшированию звук и повышающее микширование блоком 404 декодирования подвергнутого понижающему микшированию звука в направленный звук 420 с применением матрицы понижающего микширования, включенной в принятые цифровые аудиоданные 328.In some embodiments, decoding block 404 performs upmixing. In these embodiments, decoding the received digital audio data 328 into directional audio 420 by decoding unit 404 includes: decoding the received digital audio data 328 into downmixed audio and upmixing by decoding unit 404 of the downmixed audio into directional audio 420 using the downmix matrix included in received digital audio data 328.

Устройство дополнительно содержит блок 406 воспроизведения, выполненный с возможностью модификации S23 направленности направленного звука с применением пространственных данных; и воспроизведения S24 модифицированного направленного звука 424 посредством динамиков или наушников.The device further includes a playback unit 406 configured to modify S23 the directivity of the directional sound using spatial data; and reproducing S24 the modified directional sound 424 through speakers or headphones.

Таким образом, устройство 400 (его блок 406 воспроизведения) выполнено с возможностью применения поворота/перехода звуковой сцены на основании принятых пространственных данных.Thus, the device 400 (its playback unit 406) is configured to apply sound stage rotation/transition based on the received spatial data.

В некоторых вариантах осуществления пространственные данные указывают пространственную ориентацию и/или пространственное положение микрофонной системы, содержащей один или более микрофонов, захватывающих направленный звук, при этом блок воспроизведения модифицирует S23 направленность направленного звука с по меньшей мере частичным воспроизведением звуковой среды микрофонной системы. В этом варианте осуществления устройство 400 повторно применяет по меньшей мере части поворота звуковой сцены, который был компенсирован на захватывающем конце устройством 300 по фиг. 3.In some embodiments, the spatial data indicates the spatial orientation and/or spatial position of a microphone system comprising one or more directional sound pickup microphones, wherein the rendering unit modifies S23 the directionality of the directional sound to at least partially reproduce the audio environment of the microphone system. In this embodiment, device 400 reapplies at least part of the soundstage rotation that was compensated at the capture end by device 300 of FIG. 3.

Пространственные данные могут содержать пространственные данные, содержащие данные поворота, представляющие движение с тремя степенями свободы, DoF. В качестве альтернативы или в дополнение, пространственные данные могут содержать пространственные координаты.The spatial data may comprise spatial data containing rotation data representing three degrees of freedom, DoF, motion. Alternatively or in addition, the spatial data may include spatial coordinates.

Декодированный направленный звук может в некоторых вариантах осуществления содержать звуковые объекты или, в общем случае, звук, связанный с пространственными метаданными, как описано выше.The decoded directional audio may, in some embodiments, comprise audio objects or, more generally, audio associated with spatial metadata, as described above.

Декодирование S22 принятых цифровых аудиоданных в направленный звук блоком 404 декодирования может в некоторых вариантах осуществления включать декодирование принятых цифровых аудиоданных в подвергнутый понижающему микшированию звук и повышающее микширование блоком 404 декодирования подвергнутого понижающему микшированию звука в направленный звук с применением матрицы понижающего микширования, включенной в принятые цифровые аудиоданные 328.Decoding S22 of received digital audio data into directional audio by decoding unit 404 may, in some embodiments, include decoding the received digital audio data into downmixed audio and upmixing by decoding unit 404 of downmixed audio into directional audio using a downmix matrix included in the received digital audio data. 328.

Для обеспечения увеличенной гибкости и/или соответствия требованиям относительно полосы пропускания устройство 400 может содержать блок 306 передачи, выполненный с возможностью передачи S20 команд в дополнительное устройство, с которого принимают цифровые аудиоданные 328, при этом команды указывают дополнительному устройству, какой (если какой-либо вообще) параметр или параметры данные поворота или перехода должны содержать. Таким образом, этот признак может способствовать удовлетворению возможных пользовательских предпочтений или предпочтений, связанных с воспроизведением и/или типом использованной услуги.To provide increased flexibility and/or meet bandwidth requirements, device 400 may include a transmitter 306 configured to send commands S20 to an additional device from which digital audio data 328 is received, wherein the commands indicate to the additional device which (if any) in general) the parameter or parameters must contain rotation or transition data. Thus, this feature may help satisfy possible user preferences or preferences related to playback and/or type of service used.

В некоторых вариантах осуществления устройство 400 может также быть выполнено с возможностью передачи команд, указывающих дополнительному устройству, включать метаданные, содержащие пространственные данные, в цифровые аудиоданные 328 или нет. В этих вариантах осуществления, если принятые S21 цифровые аудиоданные 328 не содержат каких-либо подобных метаданных, то блок воспроизведения будет воспроизводить декодированный направленный звук как он был принят (возможно подвергнутый повышающему микшированию, как описано выше) без какой-либо модификации направленности направленного звука ввиду компенсаций, выполненных в захватывающем устройстве 300. Тем не менее, в некоторых вариантах осуществления принятый направленный звук модифицирован на основании информации об отслеживании положения головы от устройства воспроизведения (как дополнительно описано ниже).In some embodiments, device 400 may also be configured to transmit commands instructing the additional device to include metadata containing spatial data in digital audio data 328 or not. In these embodiments, if the digital audio data 328 received by S21 does not contain any such metadata, then the rendering unit will reproduce the decoded directional audio as received (possibly upmixed as described above) without any modification of the directionality of the directional audio due to compensations made in the gripping device 300. However, in some embodiments, the received directional audio is modified based on head tracking information from the playback device (as further described below).

Устройство 400 в некоторых вариантах осуществления может быть реализовано в оборудовании VR или оборудовании AR, содержащем устройство отслеживания положения головы, выполненное с возможностью измерения пространственной ориентации устройства в шести DoF. Блок 406 воспроизведения может быть выполнен для бинаурального воспроизведения звука.The device 400, in some embodiments, may be implemented in VR hardware or AR hardware comprising a head tracking device configured to measure the spatial orientation of the device in six DoF. The playback unit 406 may be configured for binaural audio playback.

В некоторых вариантах осуществления блок 406 воспроизведения выполнен с возможностью регулирования S25 громкости воспроизведенного звука на основании пространственных координат, принятых в метаданных. Этот признак будет дополнительно описан ниже со ссылкой на фиг. 6–7.In some embodiments, the playback unit 406 is configured to adjust S25 the volume of the reproduced audio based on the spatial coordinates received in the metadata. This feature will be further described below with reference to FIG. 6–7.

На фиг. 5 показана система, содержащая захватывающее устройство 300 (описанное со ссылкой на фиг. 3) и воспроизводящее устройство 400 (описанное со ссылкой на фиг. 4). Захватывающее устройство 300 может в некоторых вариантах осуществления принимать S10 команды 334, переданные S20 от воспроизводящего устройства 400 и указывающие, должно ли захватывающее устройство 300 включать пространственные данные микрофонной системы захватывающего устройства в цифровые аудиоданные 328 и в какой степени.In fig. 5 shows a system comprising a capturing device 300 (described with reference to FIG. 3) and a rendering device 400 (described with reference to FIG. 4). Capture device 300 may, in some embodiments, receive S10 commands 334 transmitted to S20 from playback device 400 indicating whether and to what extent capture device 300 should include spatial data from the capture device's microphone system in digital audio data 328.

В некоторых вариантах осуществления захватывающее устройство 300 дополнительно содержит блок записи видео и выполнено с возможностью кодирования записанного видео в цифровые видеоданные 502 и передачи цифровых видеоданных в воспроизводящее устройство 400, при этом воспроизводящее устройство 400 дополнительно содержит дисплей для отображения декодированных цифровых видеоданных.In some embodiments, the capture device 300 further includes a video recording unit and is configured to encode the recorded video into digital video data 502 and transmit the digital video data to the playback device 400, wherein the playback device 400 further includes a display for displaying the decoded digital video data.

Как описано выше, изменение положения и/или пространственной ориентации микрофонной системы захватывающего устройства 300 во время захвата звука может вызывать поворот/переход в пространстве воспроизводимой сцены в воспроизводящем устройстве 400. Такое поведение может требоваться или быть нежелательным в зависимости от типа обеспечиваемого впечатления, например с эффектом присутствия, VR, AR или XR, и в зависимости от конкретного случая применения. Одним примером того, когда это может требоваться, является ситуация, в которой услуга дополнительно обеспечивает визуальный компонент 502 и в которой захватывающая камера и один или более микрофонов 302 интегрированы в одно и то же устройство. В этом случае следует ожидать, что поворот захватывающего устройства 300 должен привести к соответствующему повороту воспроизведенной аудиовизуальной сцены в воспроизводящем устройстве 400.As described above, changing the position and/or spatial orientation of the microphone system of the capturing device 300 during audio capture may cause a rotation/transition in the space of the rendered scene in the rendering device 400. Such behavior may be required or undesirable depending on the type of experience being provided, e.g. immersive, VR, AR or XR, and depending on the specific application. One example of where this may be required is a situation in which the service additionally provides a visual component 502 and in which the capture camera and one or more microphones 302 are integrated into the same device. In this case, it is expected that rotation of the gripping device 300 should result in a corresponding rotation of the rendered audiovisual scene in the playback device 400.

С другой стороны, если захват звука и видео не выполняется одним и тем же физическим устройством или если нет видеокомпонента, слушатель может чувствовать себя некомфортно, если воспроизводимая сцена будет поворачиваться всякий раз, когда поворачивается захватывающее устройство 300. В худшем случае может быть вызван эффект укачивания.On the other hand, if audio and video are not captured by the same physical device, or if there is no video component, the listener may feel uncomfortable if the playback scene rotates whenever the capture device 300 is rotated. In the worst case, motion sickness may be caused. .

Поэтому согласно некоторым вариантам осуществления блок воспроизведения воспроизводящего устройства 400 может быть выполнен с возможностью, при последующем получении воспроизводящим устройством 400 кодированных видеоданных 502 от захватывающего устройства 300, модификации направленности направленного звука (принятого в цифровых аудиоданных 328) с применением пространственных данных и воспроизведения модифицированного направленного звука.Therefore, in some embodiments, the playback unit of the playback device 400 may be configured, when the playback device 400 subsequently receives encoded video data 502 from the capture device 300, to modify the directionality of the directional audio (received in the digital audio data 328) using the spatial data and playback the modified directional audio. .

Тем не менее, при неполучении воспроизводящим устройством 400 кодированных видеоданных от захватывающего устройства 300 блок воспроизведения воспроизводящего устройства 400 может быть выполнен с возможностью воспроизведения направленного звука без какой-либо направленной модификации.However, if the playback device 400 does not receive encoded video data from the capture device 300, the playback unit of the playback device 400 can be configured to play directional audio without any directional modification.

В других вариантах осуществления воспроизводящее устройство 400 перед конференцией получает информацию о том, что в данные, принятые от захватывающего устройства 300, не будет включен видеокомпонент. В этом случае воспроизводящее устройство 400 может указывать в командах 334 о том, что в цифровые аудиоданные 328 вообще не должны быть включены какие-либо пространственные данные микрофонной системы захватывающего устройства 300, при этом блок воспроизведения воспроизводящего устройства 400 выполнен с возможностью воспроизведения направленного звука, принятого в цифровых аудиоданных 328, без какой-либо направленной модификации.In other embodiments, the playback device 400 receives information before the conference that a video component will not be included in the data received from the capture device 300. In this case, the playback device 400 may indicate in commands 334 that the digital audio data 328 should not include any spatial data of the microphone system of the capture device 300 at all, and the playback unit of the playback device 400 is configured to reproduce the directional audio received in digital audio data 328, without any directional modification.

Выше было кратко описано понижающее микширование и/или кодирование направленного звука в захватывающем устройстве. Далее это будет дополнительно рассмотрено подробно.Downmixing and/or encoding of directional audio in a capture device has been briefly described above. This will be further discussed in detail below.

Во многих случаях захватывающее устройство 300 не содержит информации о том, будет декодированное представление (в воспроизводящем устройстве) выведено в один монофонический динамик, стереофонические динамики или наушники. Фактический сценарий воспроизведения может также изменяться во время сеанса обслуживания, например вместе с подключенным проигрывающим оборудованием, которое может меняться, как в случае подсоединения наушников к мобильному телефону или их отсоединения от него. Еще одним сценарием, в котором возможности воспроизводящего устройства не известны, является ситуация, когда одно захватывающее устройство 300 должно поддерживать несколько оконечных устройств (воспроизводящих устройств 400). Например, в случае применения в конференции IVAS или при распределении содержимого VR одно оконечное устройство может использовать гарнитуру, а другое может осуществлять воспроизведение посредством стереофонических динамиков, однако было бы предпочтительно, если бы можно было отправлять один результат кодирования в оба оконечных устройства, поскольку это снизило бы сложность на стороне кодирования и также могло бы уменьшить требуемую суммарную пропускную способность сети.In many cases, the capture device 300 does not contain information about whether the decoded representation (at the playback device) will be output to a single mono speaker, stereo speakers, or headphones. The actual playback scenario may also change during a service session, for example, as the connected playback equipment may change, such as when headphones are connected to or disconnected from a mobile phone. Another scenario in which the capabilities of the rendering device are not known is when a single capture device 300 must support multiple endpoints (playing devices 400). For example, in an IVAS conference or VR content distribution application, one endpoint could use a headset and the other could play through stereo speakers, but it would be preferable if the same encoding result could be sent to both endpoints as this would reduce would be more complex on the encoding side and could also reduce the total network throughput required.

Наиболее простой, но менее желательный способ обеспечения поддержки в этих случаях заключается в том, чтобы всегда исходить из наименьшей возможности приемного устройства, то есть моно, и выбирать соответствующий режим работы со звуком. Тем не менее, более целесообразной является необходимость, чтобы применяемый кодек (например кодек IVAS), даже при использовании в режиме представления, поддерживающем пространственный, бинауральный или стереофонический звук, всегда мог генерировать декодированный звуковой сигнал, который может быть представлен на устройстве 400 с относительно более низкой возможностью воспроизведения звука. В некоторых вариантах осуществления сигнал, кодированный как пространственный звуковой сигнал, может также быть декодируемым для бинаурального, стереофонического и/или монофонического воспроизведения. Аналогично сигнал, кодированный как бинауральный, может быть декодируемым как стереофонический и/или монофонический, и сигнал, кодированный как стереофонический, может быть декодируемым для монофонического представления. В качестве иллюстрации, захватывающее устройство 300 должно быть способно предоставить только один результат кодирования (цифровые аудиоданные 328) и отправить этот же результат кодирования в несколько оконечных устройств 400, некоторые из которых могут поддерживать бинауральное представление, а некоторые из которых могут поддерживать только стереофоническое представление.The simplest, but less desirable, way to provide support in these cases is to always assume the lowest capability of the receiving device, which is mono, and select the appropriate audio mode. However, it is more practical that the codec used (eg the IVAS codec), even when used in a presentation mode supporting spatial, binaural or stereo audio, can always generate a decoded audio signal that can be presented on the device 400 with relatively more low sound reproduction capability. In some embodiments, the signal encoded as a spatial audio signal may also be decodable for binaural, stereo, and/or monaural playback. Likewise, a signal encoded as binaural may be decoded as stereo and/or monaural, and a signal encoded as stereo may be decoded as mono. By way of illustration, capture device 300 should be able to provide only one encoding result (digital audio data 328) and send that same encoding result to multiple end devices 400, some of which may support binaural presentation and some of which may only support stereo presentation.

Следует отметить, что кодек, рассмотренный выше, может быть реализован в захватывающем устройстве или в сервере вызовов. В случае сервера вызовов, сервер вызовов будет получать цифровые аудиоданные 328 от захватывающего устройства и выполнять транскодирование цифровых аудиоданных для приведения их в соответствие с вышеуказанными требованиями перед отправкой транскодированных цифровых аудиоданных в одно или более воспроизводящих устройств 400. Такой сценарий будет рассмотрен в качестве примера ниже со ссылкой на фиг. 6.It should be noted that the codec discussed above may be implemented in a capture device or a call server. In the case of a call server, the call server will receive digital audio data 328 from the capturing device and transcode the digital audio data to conform to the above requirements before sending the transcoded digital audio data to one or more playback devices 400. Such a scenario will be discussed as an example below with with reference to FIG. 6.

Физический сценарий 600 конференции VR представлен на фиг. 6. Пять пользователей 602a–e конференции VR/AR из разных мест виртуально проводят собрание. Пользователям 602a–e конференции VR/AR может быть обеспечена возможность использования IVAS. Каждый из них использует оборудование VR/AR, в котором предусмотрено, например, бинауральное проигрывание и проигрывание видео посредством наголовного дисплея (HMD). У всех пользователей оборудование поддерживает перемещения в 6DOF с соответствующим отслеживанием положения головы. Пользовательское оборудование, UE, 602 пользователей обменивается кодированным звуком выше и ниже по потоку с сервером 604 конференц-вызовов. Визуально пользователи могут быть представлены посредством соответствующих аватаров, которые могут быть воспроизведены на основании информации, связанной с параметрами относительного положения и их угловой ориентацией.A physical VR conference scenario 600 is shown in FIG. 6. Five VR/AR conference users 602a–e from different locations virtually hold a meeting. VR/AR conference users 602a-e may be provided with the ability to use IVAS. Each of them uses VR/AR equipment, which provides, for example, binaural playback and video playback via a head-mounted display (HMD). For all users, the equipment supports movements in 6DOF with corresponding head position tracking. The user equipment, UE, 602 exchanges upstream and downstream encoded audio with the conference call server 604. Visually, users can be represented by corresponding avatars, which can be rendered based on information associated with relative position parameters and their angular orientation.

Чтобы еще больше улучшить эффект присутствия пользователя, при воспроизведении аудиоданных, принятых от другого участника (других участников) в сценарии конференции, также учитывается поворот и/или поступательное головы слушателя. Следовательно, отслеживание положения головы предоставляет в блок воспроизведения воспроизводящего устройства пользователя (номер ссылочной позиции 400 на фиг. 4–5) информацию о текущих пространственных данных (6DOF) оборудования VR/AR пользователя. Эти пространственные данные комбинируются (например путем матричного умножения или модификации метаданных, связанных с направленным звуком) с пространственными данными, принятыми в цифровых аудиоданных, принятых от другого пользователя 602, при этом блок воспроизведения модифицирует направленность направленного звука, принятого от указанного другого пользователя 602, на основании комбинации пространственных данных. Затем модифицированный направленный звук воспроизводится пользователю.To further enhance the user's presence, the rotation and/or translation of the listener's head is also taken into account when playing audio received from the other participant(s) in a conference scenario. Therefore, head position tracking provides the rendering unit of the user's playback device (reference number 400 in FIGS. 4-5) with information about the current spatial data (6DOF) of the user's VR/AR equipment. This spatial data is combined (eg, by matrix multiplication or modification of metadata associated with the directional audio) with the spatial data received in the digital audio data received from the other user 602, wherein the rendering unit modifies the directionality of the directional audio received from said other user 602 to based on a combination of spatial data. The modified directional sound is then played back to the user.

Кроме того, громкость воспроизведенного звука, принятого от конкретного пользователя, может регулироваться на основании пространственных координат, принятых в цифровых аудиоданных. Громкость может быть увеличена или уменьшена на основании виртуального (или реального) расстояния между двумя пользователями (рассчитанного воспроизводящим устройством или сервером 604 вызовов), чтобы еще больше улучшить эффект присутствия пользователя.In addition, the volume of reproduced audio received from a particular user can be adjusted based on spatial coordinates received in the digital audio data. The volume may be increased or decreased based on the virtual (or real) distance between two users (calculated by the playback device or call server 604) to further enhance the user's presence.

На фиг. 7 в качестве примера представлено пространство 700 для виртуальной конференции, созданное посредством сервера конференц-вызовов. Сначала сервер размещает пользователей Ui, i=1…5 конференции (также обозначенных как 702a–e) на основании координат Ki = (xi, yi, zi) виртуального положения. Пространство для виртуальной конференции используется пользователями совместно. Соответственно, в таком пространстве для каждого пользователя осуществляется воспроизведение аудио- и видеоданных. Например, по отношению к пользователю U5 (соответствующему пользователю 602d на фиг. 6) при воспроизведении другие участники конференции будут виртуально размещены в относительных положениях Ki – K5, i≠5. Например, пользователь U5 будет воспринимать пользователя U2 на расстоянии |Ki – K5| и в направлении вектора (Ki – K5)/|Ki – K5|, при этом направленное воспроизведение выполняется относительно углового положения пользователя U5. На фиг. 2 также показано перемещение пользователя U5 в направлении пользователя U4. Это перемещение повлияет на положение пользователя U5 относительно других пользователей, что будет учтено при воспроизведении. В то же время UE пользователя U5 отправляет данные об изменении своего положения на сервер 604 конференций, который обновляет пространство для виртуальной конференции с новыми координатами пользователя U5. Поскольку пространство для виртуальной конференции совместно используется пользователями U1–U4, им становится известно о перемещении пользователя U5 и они могут соответственно настроить свои соответствующие устройства воспроизведения. Одновременное перемещение пользователя U2 основано на соответствующих принципах. Сервер 604 вызовов выполнен с возможностью сохранения данных о положении участников 702a–e в совместно используемом пространстве для проведения встреч.In fig. 7 illustrates as an example a virtual conference space 700 created by a conference call server. First, the server places users Ui, i=1...5 of the conference (also denoted as 702a–e) based on the coordinates Ki = (xi, yi, zi) of the virtual position. The virtual conference space is shared between users. Accordingly, in such a space, audio and video data are reproduced for each user. For example, with respect to user U5 (corresponding to user 602d in FIG. 6), during playback, other conference participants will be virtually placed at relative positions Ki - K5, i≠5. For example, user U5 will perceive user U2 at a distance |Ki – K5| and in the direction of the vector (Ki – K5)/|Ki – K5|, with directional playback performed relative to the angular position of the user U5. In fig. 2 also shows user U5 moving towards user U4. This movement will affect the position of user U5 relative to other users, which will be taken into account during playback. At the same time, U5's UE sends its position change data to the conference server 604, which updates the virtual conference space with U5's new coordinates. Since the virtual conference space is shared by users U1 to U4, they become aware of the movement of user U5 and can adjust their respective playback devices accordingly. The simultaneous movement of the user U2 is based on the corresponding principles. The call server 604 is configured to store data about the position of participants 702a-e in the shared meeting space.

В сценарии по фиг. 6–7 в отношении звука к среде кодирования может применяться одно или более из следующих требований 6DOF.In the scenario of FIG. 6-7, with respect to audio, one or more of the following 6DOF requirements may apply to the encoding medium.

предоставление среды метаданных для представления и передачи в восходящем направлении информации о положении приемного оконечного устройства, в том числе пространственных координат и/или координат поворота (как описано выше со ссылкой на фиг. 1–4);providing a metadata environment for representing and transmitting upstream position information of a receiving terminal device, including spatial coordinates and/or rotation coordinates (as described above with reference to FIGS. 1-4);

возможность связывать входные звуковые элементы (например объекты) с атрибутами 6DOF, включая пространственные координаты, координаты поворота, направленность;the ability to associate input audio elements (such as objects) with 6DOF attributes, including spatial coordinates, rotation coordinates, directionality;

возможность одновременного пространственного воспроизведения нескольких принятых звуковых элементов в соответствии со связанными с ними атрибутами 6DOF;the ability to simultaneously spatially reproduce multiple received audio elements in accordance with their associated 6DOF attributes;

соответствующие корректировки воспроизводимой сцены при поворотах и/или поступательных движениях головы слушателя.appropriate adjustments to the reproduced scene during rotations and/or translational movements of the listener’s head.

Следует отметить, что представленное выше также применимо к встречам в XR, которые представляют собой сочетание физической и виртуальной встречи. Физические участники видят и слышат аватары, представляющие удаленных участников, посредством своих очков дополненной реальности и наушников. Они взаимодействуют с аватарами при обсуждении, как если бы это были физически присутствующие участники. Для них взаимодействия с другими физическими и виртуальными участниками происходят в смешанной реальности. Положения реальных и виртуальных участников сливаются в комбинированное, совместно используемое виртуальное пространство для проведения встреч (например посредством сервера 604 вызовов), которое соответствует положениями реальных участников в пространстве для проведения физических встреч и отображается в пространстве для проведения виртуальных встреч с применением данных об абсолютных и относительных физических/реальных положениях.It should be noted that the above also applies to XR meetings, which are a combination of a physical and virtual meeting. Physical participants see and hear avatars representing remote participants through their AR glasses and headphones. They interact with avatars in discussions as if they were physically present participants. For them, interactions with other physical and virtual participants take place in mixed reality. The positions of real and virtual participants are merged into a combined, shared virtual meeting space (eg, via call server 604) that corresponds to the positions of real participants in the physical meeting space and is mapped to the virtual meeting space using absolute and relative data. physical/real positions.

В сценарии VR/AR/XR могут быть созданы подгруппы виртуальной конференции. Эти подгруппы могут быть использованы для информирования сервера 604 вызовов о том, для каких пользователей, например, качество услуги, QoS, должно быть высоким, а для каких пользователей QoS может быть ниже. В некоторых вариантах осуществления только участники в одной и той же подгруппе включены в виртуальную среду, предоставленную для этих подгрупп посредством оборудования VR/AR/XR. Например, сценарий, в котором могут быть созданы подгруппы, представляет собой заседание со стендовым докладом, в котором предлагается удаленно принять виртуальное участие. Удаленные участники снабжены HMD и наушниками. Они виртуально присутствуют и могут ходить от стенда к стенду. Они могут слушать текущие представления стендов и подходить ближе к представлению, если они считают тему или происходящее обсуждение интересным. Для улучшения возможности взаимодействий с эффектом присутствия между виртуальными и физическими участниками могут быть созданы подгруппы на основании, например, того стенда из множества стендов, в котором участники заинтересованы на текущий момент.In a VR/AR/XR scenario, virtual conference subgroups can be created. These subgroups can be used to inform the call server 604 about which users, for example, the quality of service, QoS, should be high, and for which users the QoS can be lower. In some embodiments, only participants in the same subgroup are included in the virtual environment provided to those subgroups through the VR/AR/XR equipment. An example scenario in which subgroups can be created is a poster session that invites remote virtual participation. Remote participants are equipped with an HMD and headphones. They are virtually present and can walk from booth to booth. They can listen to ongoing booth presentations and move closer to the presentation if they find the topic or discussion going on interesting. To improve the possibility of immersive interactions between virtual and physical participants, subgroups can be created based on, for example, the booth of the set of booths in which participants are currently interested.

Варианты осуществления этого сценария включают:Options for this scenario include:

прием посредством системы для телеконференций тем от участников виртуальной конференции;receiving topics from virtual conference participants via the teleconference system;

группирование посредством системы для телеконференций участников в подгруппы виртуальной конференции на основании тем;grouping participants into virtual conference subgroups based on topics through the teleconferencing system;

прием посредством системы для телеконференций запроса от устройства нового участника на присоединение к виртуальной конференции, при этом запрос связан с указателем, которым указана предпочтительная тема;receiving, by the teleconferencing system, a request from a new participant's device to join the virtual conference, the request being associated with an indicator indicating a preferred topic;

выбор посредством системы для телеконференций подгруппы из подгрупп на основании предпочтительной темы и тем подгрупп;selecting, through the teleconferencing system, a subgroup of the subgroups based on the preferred topic and topics of the subgroups;

предоставление посредством системы для телеконференций на устройство нового участника виртуальной среды для виртуальной конференции, при этом виртуальная среда указывает по меньшей мере одно из визуальной виртуальной близости или звуковой виртуальной близости нового участника относительно одного или более участников выбранной подгруппы.providing, through the teleconferencing system, to the new participant's device a virtual environment for the virtual conference, wherein the virtual environment indicates at least one of a visual virtual proximity or an audio virtual proximity of the new participant relative to one or more participants of the selected subgroup.

В некоторых вариантах осуществления виртуальная среда указывает визуальную виртуальную близость или звуковую виртуальную близость по меньшей мере путем обеспечения визуального отображения виртуальной реальности или звукового поля виртуальной реальности, где аватар нового участника и один или более аватаров участников выбранной подгруппы находятся рядом друг с другом.In some embodiments, the virtual environment indicates a visual virtual proximity or an audio virtual proximity by at least providing a visual display of a virtual reality or an audio virtual reality field where the new member's avatar and one or more avatars of the selected subgroup members are adjacent to each other.

В некоторых вариантах осуществления каждый участник подключен посредством открытых наушников и очков дополненной реальности.In some embodiments, each participant is connected via open-back headphones and augmented reality glasses.

VI. Эквиваленты, дополнения, альтернативы и прочееVI. Equivalents, additions, alternatives, etc.

Дополнительные варианты осуществления настоящего изобретения будут очевидны специалисту в данной области техники после изучения описания, приведенного выше. Несмотря на то, что настоящее описание и графические материалы раскрывают варианты осуществления и примеры, изобретение не ограничивается этими конкретными примерами. В пределах объема настоящего изобретения, определенного прилагаемой формулой изобретения, возможны многочисленные модификации и изменения. Любые ссылочные позиции, встречающиеся в пунктах формулы изобретения, не должны рассматриваться как ограничивающие ее объем.Additional embodiments of the present invention will become apparent to one skilled in the art upon examination of the description above. Although the present description and drawings disclose embodiments and examples, the invention is not limited to these specific examples. Numerous modifications and changes are possible within the scope of the present invention as defined by the appended claims. Any reference numerals appearing in the claims should not be construed as limiting its scope.

Кроме того, после изучения графических материалов, описания и прилагаемой формулы изобретения специалисту могут быть очевидны изменения раскрытых вариантов осуществления, которые могут быть использованы им при практической реализации изобретения. В формуле изобретения слово «содержащий» не исключает другие элементы или этапы, и единственное число не исключает множественное. Сам факт того, что некоторые признаки упоминаются во взаимно отличных зависимых пунктах формулы изобретения, не говорит о том, что комбинация этих признаков не может быть использована с выгодой.In addition, upon examination of the drawings, description, and accompanying claims, modifications to the disclosed embodiments may be apparent to those skilled in the art that may be useful to those skilled in the art in the practice of the invention. In the claims, the word “comprising” does not exclude other elements or steps, and the singular does not exclude the plural. The mere fact that certain features are mentioned in mutually distinct dependent claims does not mean that a combination of these features cannot be used to advantage.

Системы и способы, раскрытые выше, могут быть реализованы в программном обеспечении, программно-аппаратном обеспечении, аппаратном обеспечении или их комбинации. При реализации в аппаратном обеспечении разделение задач между функциональными блоками, о которых говорилось в вышеприведенном описании, не обязательно соответствует разделению на физические блоки; наоборот, один физический компонент может выполнять несколько функций и одно задание может быть выполнено несколькими физическими компонентами во взаимодействии. Некоторые компоненты или все компоненты могут быть реализованы как программное обеспечение, выполняемое процессором цифровой обработки сигналов или микропроцессором, либо быть реализованы как аппаратное обеспечение или как специализированная интегральная схема. Такое программное обеспечение может распространяться на машиночитаемых носителях, которые могут содержать компьютерные носители информации (или постоянные носители) и средства коммуникации (или временные носители). Как хорошо известно специалисту в данной области техники, термин «компьютерные носители информации» включает энергозависимые и энергонезависимые, съемные и несъемные носители, реализованные любым способом или технологией для хранения информации, такой как машиночитаемые команды, структуры данных, программные модули или другие данные. Компьютерные носители информации включают, но не ограничиваются этим, RAM, ROM, EEPROM, флеш-память или другую технологию памяти, CD-ROM, универсальные цифровые диски (DVD) или другие оптические диски для хранения информации, магнитные кассеты, магнитную ленту, магнитный диск для хранения информации или другие магнитные устройства для хранения информации, или любой другой носитель, который может быть использован для хранения желаемой информации и который может быть доступным с помощью компьютера. Как также хорошо известно специалистам в данной области, средства связи, как правило, включают машиночитаемые команды, структуры данных, программные модули или другие данные в модулированном сигнале данных, таком как несущая волна или другой механизм передачи, и включают любые средства доставки информации.The systems and methods disclosed above may be implemented in software, firmware, hardware, or combinations thereof. When implemented in hardware, the division of tasks between functional blocks discussed in the above description does not necessarily correspond to the division into physical blocks; on the contrary, one physical component can perform multiple functions and one task can be performed by multiple physical components in cooperation. Some or all of the components may be implemented as software, executed by a digital signal processor or microprocessor, or implemented as hardware or an application specific integrated circuit. Such software may be distributed on machine-readable media, which may contain computer storage media (or permanent media) and communications media (or transient media). As is well known to one skilled in the art, the term "computer storage media" includes volatile and non-volatile, removable and non-removable media implemented in any method or technology for storing information such as computer-readable instructions, data structures, program modules or other data. Computer storage media includes, but is not limited to, RAM, ROM, EEPROM, flash memory or other memory technology, CD-ROM, digital versatile disks (DVDs) or other optical storage disks, magnetic cassettes, magnetic tape, magnetic disk information storage devices or other magnetic information storage devices, or any other medium that can be used to store desired information and that can be accessed by a computer. As is also well known to those skilled in the art, communications media typically include machine-readable instructions, data structures, program modules, or other data in a modulated data signal, such as a carrier wave or other transmission mechanism, and include any means of delivering information.

Claims

1. An immersive audio processing device, comprising or coupled to a microphone system (302) comprising one or more microphones for capturing audio, the device comprising:

receiving unit (304), configured to:

receiving (S13) directional sound (320) captured by the microphone system;

receiving (S14) metadata (322) associated with the microphone system, wherein the metadata comprises spatial data of the microphone system, wherein the spatial data characterizes the spatial orientation and/or spatial position of the microphone system and comprises at least one of a list including: angle ( angles) of azimuth, pitch, roll and spatial coordinates of the microphone system;

computing unit (306) configured to:

modifying at least some portion of the directional sound to produce a modified directional sound, wherein the directionality of the sound is modified based on the spatial orientation and/or spatial position of the microphone system;

downmixing the modified directional audio based on the spatial orientation of the microphone system using a downmix matrix;

encoding the modified directional audio and downmix matrix into digital audio data (328);

a transmission unit (308) configured to transmit digital audio data.

2. The device according to claim 1, characterized in that the spatial orientation of the microphone system is represented by parameters describing the rotational movement/orientation using one degree of freedom, DoF, in spatial data.

3. The device according to claim 1, characterized in that the spatial orientation of the microphone system is represented by parameters describing the rotational movement/orientation using three DoFs in spatial data.

4. The device according to any of claim 1 or claim 3, characterized in that the spatial data of the microphone system is presented in six DoF.

5. Device according to any one of paragraphs. 1-4, characterized in that the received directional audio contains audio containing directional metadata.

6. Device according to any one of paragraphs. 1-5, characterized in that the computing unit is further configured to encode at least portions of metadata containing spatial data of the microphone system into said digital audio data.

7. The apparatus of claim 6, wherein the receiving unit is further configured to receive (S11) first commands (334) instructing the computing unit whether to include at least portions of metadata containing spatial data of the microphone system in said digital audio data. , due to which the computing unit acts accordingly.

8. Device according to any one of paragraphs. 6-7, wherein the receiving unit is further configured to receive (S12) second instructions (334) instructing the computing unit which spatial data parameter or parameters of the microphone system to include in the digital audio data, causing the computing unit to act accordingly.

9. Device according to any one of paragraphs. 7-8, characterized in that the transmission unit is configured to transmit digital audio data to an additional device (400), while instructions regarding the first and/or second commands are received from the specified additional device.

10. Device according to any one of paragraphs. 1-9, characterized in that the receiving unit is further configured to receive metadata containing a time stamp indicating the time of capture of the directional audio, wherein the computing unit is configured to encode said time stamp into said digital audio data.

11. The device according to claim 1, characterized in that the downmixing includes beamforming.

12. Device according to any one of paragraphs. 1-11, characterized in that it is implemented in equipment (602a-e) of virtual reality, VR, or equipment (602a-e) of augmented reality, AR, containing a microphone system and a head position tracking device, configured to determine the spatial data of the device at 3-6 DoF.

13. A device (400) for reproducing sound signals, the device comprising:

a receiving unit (402) configured to receive (S21) digital audio data (328);

decoding block (404), configured to:

decoding (S22) the received digital audio data into downmixed audio, a downmix matrix, and metadata (422) associated with the microphone system, wherein the metadata comprises spatial data of the microphone system, wherein the spatial data characterizes the spatial orientation and/or spatial position of the microphone system , and contain at least one of the list, including: the angle (angles) of azimuth, pitch, roll and spatial coordinates of the microphone system; And

upmixing the downmixed audio into directional audio (420) using a downmix matrix;

playback unit (406) configured to:

modifying (S23) the directivity of the directional sound using spatial data; And

playback (S24) of the modified directional sound (424).

14. The device according to claim 13, characterized in that the spatial data indicates the spatial orientation and/or spatial position of a microphone system (302) containing one or more microphones capturing directional sound, wherein the playback unit modifies the directivity of the directional sound with at least partial reproduction of the sound environment of the microphone system.

15. Device according to any one of paragraphs. 13-14, characterized in that the spatial data contains parameters describing the rotational motion/orientation using one degree of freedom, DoF.

16. Device according to any one of paragraphs. 13-14, characterized in that the spatial data contains parameters describing the rotational movement/orientation using three DoFs.

17. Device according to any one of paragraphs. 13-16, characterized in that the decoded directional audio contains audio containing directional metadata.

18. Device according to any one of paragraphs. 13-17, characterized in that it additionally contains a transmission block (306) configured to transmit commands (334) to an additional device (300) from which the digitized sound is received, wherein the commands indicate to the additional device which parameter or parameters the rotation data must contain.

19. The device according to any one of paragraphs. 13-18, characterized in that the decoding unit is further configured to extract a time stamp indicating the time of directional audio capture from the digital audio data.

20. The device according to any one of paragraphs. 13-19, wherein the spatial data comprises spatial coordinates, and wherein the playback unit is further configured to adjust the volume of the reproduced sound based on the spatial coordinates.

21. The device according to any one of paragraphs. 13-20, characterized in that it is implemented in virtual reality, VR equipment (602a-e), or augmented reality, AR equipment (602a-e), containing a head position tracking device, configured to measure the spatial orientation and spatial position of the device in six DoF.

22. The device according to any one of paragraphs. 13-21, characterized in that the playback unit is designed for binaural sound playback.

23. A system for processing immersive audio, comprising:

the first device (300) according to any one of claims. 1-12, configured to transmit digital audio data to the second device (400) according to any one of claims. 13-22, wherein the system is configured to conduct audio and/or video conferences.

24. The system of claim 23, wherein the first device further comprises a video recording unit and is configured to encode the recorded video into digital video data and transmit the digital video data to the second device, wherein the second device further comprises a display for displaying the decoded digital video data.

25. A system for processing immersive audio, comprising a first device (300) according to any one of claims. 1-12, configured to transmit digital audio data to a second device, the second device comprising:

a receiving unit configured to receive digital audio data; a decoding unit configured to:

decoding the received digital audio data into directional audio and metadata, the metadata comprising spatial data comprising at least one of a list including: azimuth, pitch, roll angle(s), and spatial coordinates;

a playback unit for playing sound;

wherein the playback unit is configured to, upon subsequent receipt by the second device of encoded video data from the first device:

modifying the directivity of directional sound using spatial data, and

reproduction of modified directional sound;

wherein the playback unit is configured to: if the second device does not receive encoded video data from the first device:

directional sound reproduction.

26. A non-transitory computer-readable medium on which instructions are stored that, when executed by one or more processors, cause one or more processors to perform the operations of any of the preceding paragraphs.