RU2780536C1

RU2780536C1 - Equipment and method for reproducing a spatially extended sound source or equipment and method for forming a bitstream from a spatially extended sound source

Info

Publication number: RU2780536C1
Application number: RU2021119443A
Authority: RU
Inventors: Юрген ХЕРРЕ; Эмануэль ХАБЕТС; Зебастьян ШЛЕХТ; Александер АДАМИ
Original assignee: Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date: 2018-12-19
Filing date: 2019-12-17
Publication date: 2022-09-27

Abstract

FIELD: acoustics.

SUBSTANCE: invention relates to tools for reproducing a spatially extended sound source. The projection of a two or three-dimensional shell associated with a spatially extended sound source on the projection plane is calculated using the position of the listener, information relating to the geometry of the spatially extended sound source, and information relating to the position of the spatially extended sound source. The positions of at least two sound sources for the spatially extended sound source are calculated using the projection plane. At least two sound sources are rendered in the positions to obtain the reproduction of the spatially extended sound source with two or more output signals. Said rendering includes a stage of using different sound signals for different positions, wherein different sound signals are associated with the spatially extended sound source.

EFFECT: increase in the effectiveness of reproducing a spatially extended sound source. The position of a listener is assumed.

41 cl, 11 dwg

Description

СпецификацияSpecification

Настоящее изобретение относится к обработке аудиосигналов и, в частности, к кодированию или декодированию либо воспроизведению пространственно протяженного источника звука.The present invention relates to the processing of audio signals and, in particular, to the encoding or decoding or reproduction of a spatially extended sound source.

В течение длительного времени исследуется воспроизведение источников звука по нескольким громкоговорителям или наушникам. Простейший способ воспроизведения источников звука в таких компоновках состоит в том, чтобы сделать их точечными источниками, то есть очень (в идеале: бесконечно) маленькими источниками звука.. Тем не менее, эта теоретическая концепция практически не позволяет моделировать существующие физические источники звука реалистичным способом. Например, рояль имеет большую вибрирующую деревянную крышку с множеством пространственно распределенных струн внутри и в силу этого кажется гораздо большим при слуховом восприятии, чем точечный источник (в частности, когда слушатель (и микрофоны) находятся близко к роялю). Множество источников звука реального мира имеют значительный размер ("пространственную протяженность"), к примеру, музыкальные инструменты, машины, оркестр или хор либо окружающие звуки (звук водопада).For a long time, the reproduction of sound sources through several loudspeakers or headphones has been studied. The simplest way to reproduce sound sources in such arrangements is to make them point sources, i.e. very (ideally: infinitely) small sound sources. However, this theoretical concept makes it almost impossible to model existing physical sound sources in a realistic way. For example, a piano has a large vibrating wooden top with many spatially distributed strings inside and therefore appears much larger to the ear than a point source (particularly when the listener (and microphones) are close to the piano). Many real-world sound sources are of significant size ("spatial extent"), such as musical instruments, cars, an orchestra or choir, or ambient sounds (the sound of a waterfall).

Корректное/реалистичное воспроизведение таких источников звука становится целью множества способов воспроизведения звука, независимо от того, являются они бинауральными (т.е. с использованием так называемых передаточных функций слухового аппарата человека (HRTF) или бинауральных импульсных откликов в помещении (BRIR)) с использованием наушников, либо традиционными с использованием установок громкоговорителей в пределах от 2 динамиков ("стерео") до множества динамиков, скомпонованных в горизонтальной плоскости ("объемный звук"), и множества динамиков, окружающих слушателя во всех трех измерениях ("трехмерное аудио").Correct/realistic reproduction of such sound sources becomes the goal of many sound reproduction techniques, whether they are binaural (i.e. using so-called human hearing aid transfer functions (HRTF) or binaural room impulse responses (BRIR)) using headphones, or traditionally using speaker setups ranging from 2 speakers ("stereo") to multiple speakers arranged in a horizontal plane ("surround sound") and multiple speakers surrounding the listener in all three dimensions ("3D audio").

Цель настоящего изобретения заключается в том, чтобы предоставлять концепцию для кодирования или воспроизведения пространственно протяженных источников звука с возможно сложной геометрической формой.The purpose of the present invention is to provide a concept for encoding or reproducing spatially extended sound sources with possibly complex geometric shapes.

Ширина двумерного источника2D Source Width

В этом разделе описываются способы, которые относятся к рендерингу () протяженных источников звука на двумерной поверхности, обращенной с точки зрения слушателя, например, в некотором диапазоне изменения азимута при подъеме в ноль градусов (как имеет место в традиционном стерео-/объемном звуке), или в некоторых диапазонах изменения азимута и подъема (как имеет место в трехмерном аудио или виртуальной реальности с 3 степенями свободы ("3DoF") перемещения пользователя, т.е. вращения головы в осях поперечной/вертикальной/продольной).This section describes techniques that relate to rendering () extended sound sources on a 2D surface facing the listener's perspective, for example, over a range of azimuth changes at zero degrees elevation (as is the case in traditional stereo/surround sound), or in some ranges of azimuth and elevation (as is the case in 3D audio or virtual reality with 3 degrees of freedom ("3DoF") of user movement, i.e. head rotation in the lateral/vertical/longitudinal axes).

Увеличение кажущейся ширины аудиообъекта, который панорамируется между двумя или более громкоговорителями (формирование так называемого фантомного изображения или фантомного источника) может достигаться посредством снижения корреляции участвующих канальных сигналов. Со снижением корреляции, разброс фантомных источников увеличивается до тех пор, пока, для корреляционных значений, близких к нулю (и не слишком широких углах раскрытия), он не охватывает весь диапазон между громкоговорителями.Increasing the apparent width of an audio object that is being panned between two or more speakers (forming a so-called phantom image or phantom source) can be achieved by reducing the correlation of the channel signals involved. As the correlation decreases, the dispersion of phantom sources increases until, for correlation values close to zero (and not too wide opening angles), it covers the entire range between loudspeakers.

Декоррелированные версии сигнала источника получаются посредством извлечения и применения подходящих декорреляционных фильтров. В работе автора Lauridsen предложено суммировать/вычитать масштабированную версию с временной задержкой сигнала источника относительно себя, чтобы получать две декоррелированных версии сигнала. Более сложные подходы, например, предложены в работе автора Kendall. Он итеративно извлекает спаренные декорреляционные всечастотные фильтры на основе комбинаций последовательностей случайных чисел. Работа авторов Faller и др. предлагает подходящие декорреляционные фильтры ("рассеиватели") в. Также в работе Zotter и др. извлекаются пары фильтров, в которых частотно-зависимые разности фаз или амплитуд использованы для того, чтобы достигать расширения фантомного источника. Кроме того, предложены декорреляционные фильтры на основе бархатного шума, которые дополнительно оптимизированы.Decorrelated versions of the source signal are obtained by extracting and applying the appropriate decorrelation filters. In the work of the author Lauridsen, it is proposed to add/subtract the scaled version of the source signal with a time delay relative to itself in order to obtain two decorrelated versions of the signal. More complex approaches, for example, are proposed in the work of the author Kendall. It iteratively extracts paired decorrelation all-pass filters based on combinations of random number sequences. The work of Faller et al. suggests suitable decorrelation filters ("scatterers") c. Also in the work of Zotter et al., filter pairs are extracted in which frequency dependent phase or amplitude differences are used to achieve phantom source expansion. In addition, decorrelation filters based on velvet noise are proposed, which are further optimized.

Помимо уменьшения корреляции соответствующих канальных сигналов фантомного источника, ширина источника также может увеличиваться посредством увеличения числа фантомных источников, приписанных аудиообъекту. В, ширина источника управляется посредством панорамирования такого же сигнала источника в (немного) различных направлениях. Первоначально предложен способ для того, чтобы стабилизировать воспринимаемый разброс фантомных источников сигналов VBAP-панорамированных источников, когда они перемещаются в звуковой сцене. Это является преимущественным, поскольку в зависимости от направления источника, подготовленный посредством рендеринга источник воспроизводится посредством двух или более динамиков, что может приводить к нежелательным изменениям воспринимаемой ширины источника.In addition to reducing the correlation of the respective phantom source channel signals, the source width can also be increased by increasing the number of phantom sources assigned to the audio object. B, the source width is controlled by panning the same source signal in (slightly) different directions. Initially, a method was proposed for stabilizing the perceived phantom spread of VBAP-panned sources as they move around in the soundstage. This is advantageous because, depending on the direction of the source, the rendered source is played back through two or more speakers, which can lead to undesirable changes in the perceived width of the source.

DirAC в виртуальном мире представляет собой расширение традиционного подхода на основе направленного кодирования аудио (DirAC) для синтеза звука в виртуальных мирах. Для рендеринга пространственной протяженности, направленные звуковые компоненты источника случайно панорамируются в пределах некоторого диапазона вокруг исходного направления источника, причем направления панорамирования варьируются во времени и по частоте.DirAC in the Virtual World is an extension of the traditional Directional Audio Coding (DirAC) approach for audio synthesis in virtual worlds. To render spatial extent, the directional audio components of a source are randomly panned within a certain range around the source's original direction, with the panning directions varying in time and frequency.

Аналогичный подход задействуется в, при котором пространственная протяженность достигается посредством случайного распределения полос частот сигнала источника для различных пространственных направлений. Он представляет собой способ, направленный на формирование пространственно распределенного и огибающего звука, поступающего одинаково из всех направлений, вместо управления точной степенью протяженности.A similar approach is employed in which spatial extent is achieved by randomly distributing source signal bandwidths for different spatial directions. It is a method for creating a spatially distributed and enveloped sound that comes in the same way from all directions, instead of controlling the exact degree of extension.

В работе авторов Verron и др. пространственная протяженность источника достигается не посредством использования панорамированных коррелированных сигналов, а посредством синтезирования нескольких некогерентных версий сигнала источника, их равномерного распределения по окружности вокруг слушателя и смешения между собой. Число и усиление одновременно активных источников определяют интенсивность эффекта расширения. Этот способ реализован как пространственное протягивание для синтезатора для звуков окружающей среды.In the work of Verron et al., spatial extent of the source is achieved not by using panned correlated signals, but by synthesizing several incoherent versions of the source signal, distributing them evenly around the listener, and mixing them together. The number and amplification of simultaneously active sources determine the intensity of the expansion effect. This method is implemented as a spatial sweep for the synthesizer for ambient sounds.

Ширина трехмерного источника3D Source Width

В этом разделе описываются способы, которые относятся к рендерингу протяженных источников звука в трехмерном пространстве, т.е. объемным способом, что требуется для виртуальной реальности с 6 степенями свободы ("6DoF"). Это означает 6 степеней свободы перемещения пользователя, т.е. вращения головы по поперечной, вертикальной и продольной осям) плюс 3 направления x/y/z поступательного перемещения в пространстве.This section describes techniques that relate to rendering extended sound sources in 3D space, i.e. in a three-dimensional way, which is required for virtual reality with 6 degrees of freedom ("6DoF"). This means 6 degrees of freedom for user movement, i.e. rotation of the head along the transverse, vertical and longitudinal axes) plus 3 directions x / y / z of translational movement in space.

Работа авторов Potard и др. расширяет понятие протяженности источника в качестве одномерного параметра источника (т.е. его ширины между двумя громкоговорителями) посредством изучения восприятия форм источников. В ней формируются несколько некогерентных точечных источников посредством применения (варьирующихся во времени) технологий декорреляции к первоначальному сигналу источника и затем помещения некогерентных источников в различные пространственные местоположения и за счет этого предоставления им трехмерной протяженности.The work of Potard et al. extends the concept of source extent as a one-dimensional source parameter (ie, its width between two speakers) by examining the perception of source shapes. It generates multiple non-coherent point sources by applying (time-varying) decorrelation techniques to the original source signal and then placing the non-coherent sources at different spatial locations and thereby giving them a three-dimensional extent.

В усовершенствованном MPEG-4 AudioBIFS-стандарте, объемные объекты/формы (раковина, коробка, эллипсоид и цилиндр) могут быть заполнены несколькими одинаково распределенными и декоррелированными источниками звука для того, чтобы вызывать трехмерную протяженность источника.In the advanced MPEG-4 AudioBIFS standard, 3D objects/shapes (shell, box, ellipsoid and cylinder) can be filled with multiple equally spaced and decorrelated sound sources in order to evoke a 3D source extension.

Чтобы увеличивать и управлять протяженностью источника с использованием амбиофонии, в работе авторов Schmele и др. предложено смешение уменьшения порядка амбиофонии входного сигнала, что внутренне увеличивает кажущуюся ширину источника и распределение декоррелированных копий сигнала источника вокруг пространства для прослушивания.In order to increase and control the extent of the source using ambiophony, Schmele et al. proposed a blending decrease in the order of ambiphony of the input signal, which internally increases the apparent width of the source and the distribution of decorrelated copies of the source signal around the listening space.

Другой подход введен в работе авторов Zotter и др., в которой приспосабливается принцип, предложенный в (т.е. извлечение пар фильтров, которые вводят частотно-зависимые разности фаз и абсолютных величин, чтобы достигать протяженности источника в компоновках для стереовоспроизведения) для амбиофонии.Another approach is introduced by Zotter et al., which adapts the principle proposed in (i.e., extracting filter pairs that introduce frequency dependent phase and magnitude differences to achieve source extent in stereo playback arrangements) for ambiophony.

Общий недостаток подходов на основе панорамирования (например) заключается в их зависимости от позиции слушателя. Даже небольшое отклонение от зоны наилучшего восприятия приводит к тому, что пространственное изображение сворачивается до громкоговорителя, ближайшего к слушателю. Это радикально ограничивает их применение в контексте виртуальной реальности и дополненной реальности с 6 степенями свободы (6DoF), когда предполагается, что слушатель свободно перемещается. Дополнительно, распределение частотно-временных элементов разрешения в подходах на основе DirAC (например) не всегда гарантирует надлежащий рендеринг пространственной протяженности фантомных источников. Кроме того, оно типично значительно ухудшает тембр сигнала источника.A common drawback of pan-based approaches (for example) is their dependence on the listener's position. Even a small deviation from the sweet spot causes the spatial image to collapse to the loudspeaker closest to the listener. This drastically limits their application in the context of virtual reality and augmented reality with 6 degrees of freedom (6DoF), when the listener is supposed to move freely. Additionally, the distribution of time-frequency bins in DirAC-based approaches (for example) does not always guarantee proper rendering of the spatial extent of phantom sources. In addition, it typically significantly degrades the timbre of the source signal.

Декорреляция сигналов источников обычно достигается посредством одного из следующих способов: i) извлечение пар фильтров с комплементарной абсолютной величиной (например), ii) использование всечастотных фильтров с постоянной абсолютной величиной, но (случайно) скремблированной фазой (например), или iii) пространственно случайное распределение частотно-временных элементов разрешения сигнала источника (например).Decorrelation of source signals is usually achieved by one of the following methods: i) extracting filter pairs with complementary absolute value (for example), ii) using all-pass filters with constant absolute value but (randomly) scrambled phase (for example), or iii) spatially random distribution time-frequency bins of the source signal (for example).

Все подходы влекут за собой собственные последствия: Комплементарная фильтрация сигнала источника согласно i) типично приводит к измененному воспринимаемому тембру декоррелированных сигналов. Хотя всечастотная фильтрация, как указано в ii), сохраняет тембр сигнала источника, скремблированная фаза нарушает исходные соотношения фаз и, в частности, для переходных сигналов, вызывает серьезную временную дисперсию и артефакты размывания. Пространственное распределение частотно-временных элементов разрешения оказывается эффективным для некоторых сигналов, но также и изменяет воспринимаемый тембр сигнала. Кроме того, оно демонстрирует сильную зависимость от сигнала и вводит серьезные артефакты для импульсных сигналов.All approaches have their own consequences: Complementary filtering of the source signal according to i) typically results in an altered perceived timbre of the decorrelated signals. Although all-pass filtering as noted in ii) preserves the timbre of the source signal, the scrambled phase violates the original phase relationships and, in particular for transient signals, causes severe temporal dispersion and blurring artifacts. Spatial distribution of time-frequency bins is effective for some signals, but also changes the perceived timbre of the signal. In addition, it exhibits strong signal dependence and introduces severe artifacts for pulsed signals.

Заполнение объемных форм несколькими декоррелированными версиями сигнала источника, предложенное в усовершенствованном AudioBIFS-стандарте, предполагает доступность большого числа фильтров, которые формируют взаимно декоррелированные выходные сигналы (типично, более десяти точечных источников в расчете на объемную форму используются). Тем не менее, нахождение таких фильтров не представляет собой тривиальную задачу и становится тем более сложным, чем больше таких фильтров требуется. Кроме того, если сигналы источников не полностью декоррелируются, и слушатель перемещает такую форму, например, в сценарии (виртуальной реальности), отдельные расстояния от источника до слушателя соответствуют различным задержкам сигналов источников, и их наложение в ушах слушателя приводит к позиционно-зависимой гребенчатой фильтрации, потенциально вводящей раздражающее неустановившееся окрашивание сигнала источника.Filling volumetric shapes with multiple decorrelated versions of a source signal proposed in the enhanced AudioBIFS standard implies the availability of a large number of filters that produce mutually decorrelated outputs (typically more than ten point sources per volumetric shape are used). However, finding such filters is not a trivial task and becomes more difficult the more such filters are required. Also, if the source signals are not fully decorrelated and the listener is moving such a shape, for example in a (virtual reality) scenario, the individual source-to-listener distances correspond to different source signal delays, and their overlap in the listener's ears results in position-dependent comb filtering. , potentially introducing annoying transient coloration of the source signal.

Управление шириной источника с помощью технологию на основе амбиофонии в посредством понижения порядка амбиофонии демонстрирует слышимый эффект только для переходов от второго к первому или к нулевому порядку. Кроме того, эти переходы воспринимаются не только в качестве расширения источника, но также и часто в качестве перемещения фантомного источника. Притом, что суммирование декоррелированных версий сигнала источника может помогать в стабилизации восприятия кажущейся ширины источника, оно также вводит эффекты гребенчатой фильтрации, которые изменяют тембр фантомного источника.Controlling the source width with ambiphony-based technology by lowering the ambiphony order exhibits an audible effect only for transitions from second to first or zero order. In addition, these transitions are perceived not only as an extension of the source, but also, and often, as a movement of the phantom source. While summing decorrelated versions of a source signal can help stabilize the perception of the source's apparent width, it also introduces comb filtering effects that change the timbre of the phantom source.

Цель настоящего изобретения заключается в том, чтобы предоставлять усовершенствованную концепцию воспроизведения пространственно протяженного источника звука или формирования потока битов из пространственно протяженного источника звука.The purpose of the present invention is to provide an improved concept for reproducing a spatially extended sound source or generating a bit stream from a spatially extended sound source.

Это цель достигается посредством оборудования для воспроизведения пространственно протяженного источника звука по п. 1, оборудования для формирования потока битов по п. 27, способа для воспроизведения пространственно протяженного источника звука по п. 35, способа для формирования потока битов по п. 36, потока битов по п. 41 или компьютерной программы по п. 47.This object is achieved by the equipment for reproducing a spatially extended sound source according to claim 1, the equipment for generating a bit stream according to claim 27, the method for reproducing a spatially extended sound source according to claim 35, the method for generating a bit stream according to claim 36, the bit stream according to paragraph 41 or a computer program according to paragraph 47.

Настоящее изобретение основано на таких выявленных сведениях, что воспроизведение пространственно протяженного источника звука может достигаться и, в частности, даже становится возможным посредством вычисления проекции двумерного или трехмерной оболочки, ассоциированной с пространственно протяженным источником звука, на плоскость проекции с использованием позиции слушателя. Эта проекция используется для вычисления позиций по меньшей мере двух источников звука для пространственно протяженного источника звука, и по меньшей мере два источника звука подготавливаются посредством рендеринга позициях, чтобы получать воспроизведение пространственно протяженного источника звука, при котором результаты рендеринга в двух или более выходных сигналов, и при котором различные звуковые сигналы для различных позиций используются, но различные звуковые сигналы ассоциируются с таким же пространственно протяженным источником звука.The present invention is based on such findings that the reproduction of a spatially extended sound source can be achieved and, in particular, even becomes possible by calculating the projection of a two-dimensional or three-dimensional shell associated with a spatially extended sound source onto the projection plane using the listening position. This projection is used to calculate the positions of at least two sound sources for a spatially extended sound source, and the at least two sound sources are prepared by rendering positions to obtain a reproduction of a spatially extended sound source, in which the rendering results in two or more output signals, and in which different sound signals for different positions are used, but different sound signals are associated with the same spatially extended sound source.

Высококачественное двумерное или трехмерное воспроизведение аудио получается, поскольку, с одной стороны, учитывается варьирующаяся во времени относительная позиция между пространственно протяженным источником звука и (виртуальной) позицией слушателя. С другой стороны, пространственно протяженный источник звука эффективно представляется посредством геометрической информации относительно воспринимаемой протяженности источника звука и посредством числа, по меньшей мере, из двух источников звука, таких как периферийные точечные источники, которые могут легко обрабатываться посредством модулей рендеринга, известных в данной области техники. В частности, простые модули рендеринга в данной области техники всегда находятся в позиции, чтобы осуществлять рендеринг источников звука в некоторых позициях относительно некоторого выходного формата или компоновки громкоговорителей. Например, два источника звука, вычисленные посредством модуля вычисления позиций звука в некоторых позициях, могут подготавливаться посредством рендеринга в этих позициях, например, посредством амплитудного панорамирования.A high-quality two-dimensional or three-dimensional audio reproduction is obtained because, on the one hand, the time-varying relative position between the spatially extended sound source and the (virtual) listener position is taken into account. On the other hand, a spatially extended sound source is effectively represented by geometric information regarding the perceived extent of the sound source and by a number of at least two sound sources, such as peripheral point sources, which can be easily processed by renderers known in the art. . In particular, simple renderers in the art are always in position to render sound sources at some position relative to some output format or speaker layout. For example, two sound sources calculated by the sound position calculation module at some positions may be prepared by rendering at those positions, such as by amplitude panning.

Когда, например, позиции звука находятся между левым и левым объемным звучанием в 5.1-формате вывода, и когда другие источники звука находятся между правым и правым объемным звучанием в формате вывода, процедура амплитудного панорамирования, выполняемая посредством модуля рендеринга, должна приводить к достаточно похожим сигналам для левого и левого канала объемного звучания для одного источника звука и, соответственно, к достаточно похожим сигналам для правого и правого объемного звучания для другого источника звука таким образом, что пользователь воспринимает источники звука как исходящие из позиций, вычисленных посредством модуля вычисления позиций звука. Тем не менее вследствие того факта, что все четыре сигнала, в конечном счете, ассоциированы и связаны с пространственно протяженным источником звука, пользователь просто не воспринимает два фантомных источника, ассоциированные с позициями, вычисленными посредством модуля вычисления позиций звука, а слушатель воспринимает один пространственно протяженный источник звука.When, for example, sound positions are between left and left surround in 5.1 output format, and when other sound sources are between right and right surround in output format, the amplitude pan procedure performed by the renderer should result in sufficiently similar signals. for the left and left surround channels for one sound source and, respectively, to sufficiently similar signals for the right and right surround sound for another sound source in such a way that the user perceives the sound sources as coming from the positions calculated by the sound position calculation module. However, due to the fact that all four signals are ultimately associated and associated with a spatially extended sound source, the user simply does not perceive two phantom sources associated with the positions calculated by the sound position calculation module, and the listener perceives one spatially extended sound source.

Оборудование для воспроизведения пространственно протяженного источника звука, имеющего заданную позицию в геометрии в пространстве, содержит интерфейс, проектор, модуль вычисления позиций звука и модуль рендеринга. Настоящее изобретение обеспечивает возможность учитывать улучшенную звуковую ситуацию, которая возникает, например, в фортепьяно. Фортепьяно представляет собой крупное устройство, и к настоящему моменту, звук фортепьяно может подготавливаться посредством рендеринга как исходящий из одноточечного источника. Тем не менее, это не полностью представляет истинные характеристики звука фортепьяно. В соответствии с настоящим изобретением, фортепьяно в качестве примера для пространственно протяженного источника звука отражается, по меньшей мере, посредством двух звуковых сигналов, причем один звуковой сигнал может записываться посредством микрофона, позиционированного близко к левой части фортепьяно, т.е. близко к басовым струнам, в то время как другой источник звука может записываться посредством другого второго микрофона, позиционированного близко к правой части фортепьяно, т.е. около верхних звуковых частотных струн, формирующих высокие тона. Естественно, оба микрофона должны записывать звуки, которые отличаются друг от друга вследствие отражательной ситуации в фортепьяно и, конечно, также вследствие того факта, что басовая струна находится ближе к левому микрофону, чем к правому микрофону, и наоборот. Тем не менее, с другой стороны, оба сигнала микрофонов должны иметь значительное количество аналогичных звуковых компонентов, которые, в конечном счете, составляют уникальный звук фортепьяно.The equipment for reproducing a spatially extended sound source having a given position in the geometry in space contains an interface, a projector, a sound position calculation module and a rendering module. The present invention makes it possible to take into account the improved sound situation that occurs, for example, in a piano. The piano is a large device, and by now, the piano sound can be rendered as coming from a single point source. However, this does not fully represent the true characteristics of the piano's sound. In accordance with the present invention, an exemplary piano for a spatially extended sound source is reflected by at least two audio signals, where one audio signal can be recorded by a microphone positioned close to the left side of the piano, i. close to the bass strings, while another sound source can be recorded with another second microphone positioned close to the right side of the piano, i.e. near the upper sound frequency strings that form high tones. Naturally, both microphones must record sounds that differ from each other due to the reflective situation in the piano and of course also due to the fact that the bass string is closer to the left microphone than to the right microphone and vice versa. However, on the other hand, both microphone signals must have a significant amount of similar sonic components that ultimately make up the unique sound of a piano.

В соответствии с настоящим изобретением, поток битов, представляющий пространственно протяженный источник звука, такой как фортепьяно, формируется посредством записи сигналов посредством записи также геометрической информации пространственно протяженного источника звука и, необязательно, посредством также либо записи информации местоположения, связанной с различными позициями микрофона (или, в общем, с двумя различными позициями, ассоциированными с двумя различными источниками звука), либо предоставления описания воспринимаемой геометрической формы звука (фортепьяно). Чтобы отражать позицию слушателя относительно источников звука, т.е. того, что слушатель может "проходить вокруг" в виртуальной реальности или дополненной реальности или в любой другой звуковой сцене, проекция оболочки, ассоциированная с пространственно протяженным источником звука, таким как фортепьяно, вычисляется с использованием позиции слушателя, и, позиции по меньшей мере двух источников звука вычисляются с использованием плоскости проекции, при этом, в частности, предпочтительные варианты осуществления относятся к позиционированию источников звука в периферийных точках плоскости проекции.In accordance with the present invention, a bit stream representing a spatially extended sound source such as a piano is generated by recording signals by recording also the geometric information of the spatially extended sound source, and optionally also by either recording location information associated with various microphone positions (or , in general, with two different positions associated with two different sound sources), or providing a description of the perceived geometric shape of the sound (piano). To reflect the position of the listener in relation to sound sources, i.e. that a listener can "walk around" in virtual reality or augmented reality, or any other soundstage, the shell projection associated with a spatially extended sound source, such as a piano, is computed using the position of the listener, and, the positions of at least two sources sound are computed using the projection plane, with particular preferred embodiments referring to the positioning of sound sources at peripheral points of the projection plane.

Появляется возможность, при уменьшенном объеме служебной информации при вычислениях и уменьшенном объеме служебной информации при рендеринге, фактически представлять примерный звук фортепьяно в двумерной или трехмерной ситуации, так что когда слушатель, например, находится ближе к левой части источника звука, такого как фортепьяно, звук, который воспринимает слушатель, отличается от звука, возникающего, когда пользователь расположен близко к правой части источника звука, такого как фортепьяно, или даже позади источника звука, такого как фортепьяно.It is possible, with reduced computational overhead and reduced rendering overhead, to actually represent an exemplary piano sound in a 2D or 3D situation such that when the listener is, for example, closer to the left side of a sound source such as a piano, the sound which the listener perceives is different from the sound produced when the user is close to the right side of a sound source such as a piano, or even behind a sound source such as a piano.

С учетом вышеизложенного, идея изобретения является уникальной в том, что, на стороне кодера, предоставляется способ охарактеризования пространственно протяженного источника звука, который обеспечивает возможность использования пространственно протяженного источника звука в ситуации воспроизведения звука для истинной двумерной или трехмерной компоновки. Кроме того, использование позиции слушателя в пределах очень гибкого описания пространственно протяженного источника звука становится возможным эффективным способом за счет вычисления проекции двумерной или трехмерной оболочки на плоскость проекции с использованием позиции слушателя. Позиции звука, по меньшей мере, для двух источников звука для пространственно протяженного источника звука вычисляются с использованием плоскости проекции, и по меньшей мере два источника звука подготавливаются посредством рендеринга в позициях, вычисленных посредством модуля вычисления позиций звука для того, чтобы получать воспроизведение пространственно протяженного источника звука, имеющего два или более выходных сигнала для сигналов наушников или многоканальные выходные сигналы для двух или более каналов в компоновке для стереовоспроизведения или компоновке для воспроизведения, имеющей более двух каналов, к примеру, пять, семь или еще большее число каналов.In view of the foregoing, the idea of the invention is unique in that, on the encoder side, a method for characterizing a spatially extended sound source is provided that allows the use of a spatially extended sound source in a sound reproduction situation for a true two-dimensional or three-dimensional layout. In addition, the use of a listener's position within a very flexible description of a spatially extended sound source is made possible in an efficient manner by calculating the projection of a two-dimensional or three-dimensional shell onto the projection plane using the listener's position. The sound positions of at least two sound sources for a spatially extended sound source are calculated using the projection plane, and at least two sound sources are prepared by rendering at the positions calculated by the sound position calculation module in order to obtain a reproduction of the spatially extended source audio having two or more headphone outputs or multi-channel outputs for two or more channels in a stereo playback layout or a playback layout having more than two channels, such as five, seven or more channels.

По сравнению со способом предшествующего уровня техники для заполнения трехмерной громкости звуком посредством размещения множества различных точечных источников во всех частях громкости, которая должна заполняться, проекция исключает необходимость моделировать большое количество источников звука и резко сокращает число используемых точечных источников в силу необходимости заполнять только проекцию оболочки, т.е. двумерное пространство. Кроме того, число требуемых точечных источников уменьшается еще больше посредством моделирования предпочтительно только источников на оболочке проекции, которая, в крайних случаях, может представлять собой просто один источник звука на левой границе пространственно протяженного источника звука и один источник звука на правой границе пространственно протяженного источника звука. Оба этапа уменьшения основаны на двух психоакустических наблюдениях:Compared to the prior art method for filling three-dimensional volume with sound by placing many different point sources in all parts of the volume to be filled, the projection eliminates the need to model a large number of sound sources and drastically reduces the number of point sources used due to the need to fill only the shell projection, those. two-dimensional space. In addition, the number of point sources required is further reduced by modeling preferably only the sources on the projection shell, which, in extreme cases, can be simply one sound source at the left boundary of the spatially extended sound source and one sound source at the right boundary of the spatially extended sound source. . Both stages of reduction are based on two psychoacoustic observations:

В отличие от азимута (и подъема) источника звука, его расстояние не может восприниматься очень надежно. Таким образом, проекция исходной громкости на плоскость, перпендикулярную слушателю, значительно не изменяет восприятие (но может помогать сокращать число точечных источников, необходимых для рендеринга).Unlike the azimuth (and elevation) of a sound source, its distance cannot be perceived very reliably. Thus, projecting the original loudness onto a plane perpendicular to the listener does not significantly change the perception (but may help to reduce the number of point sources needed for rendering).

Два декоррелированных звука, которые распределяются в качестве точечных источников влево и вправо, соответственно, имеют тенденцию перцепционно заполнять пространство между собой звуком.Two decorrelated sounds that are distributed as point sources to the left and right, respectively, tend to perceptually fill the space between them with sound.

Кроме того, сторона кодера не только обеспечивает возможность определения характеристик одного пространственно протяженного источника звука, но и является гибкой в том, что поток битов, сформированный в качестве представления, может включать в себя все данные для двух или более пространственно протяженных источников звука, которые предпочтительно связаны, относительно своей геометрической информации и местоположения, с одной системой координат. На стороне декодера, воспроизведение не может осуществляться только для одного пространственно протяженного источника звука, а может осуществляться для нескольких пространственно протяженных источников звука, при этом проектор вычисляет проекцию для каждого источника звука с использованием (виртуальной) позиции слушателя. Дополнительно, модуль вычисления позиций звука вычисляет позиции по меньшей мере двух источников звука для каждого пространственно протяженного источника звука, и модуль рендеринга подготавливает посредством рендеринга все вычисленные источники звука для каждого пространственно протяженного источника звука, например, посредством суммирования двух или более выходных сигналов из каждого пространственно протяженного источника звука посигнально или поканально и посредством предоставления суммированных каналов в соответствующие наушники для бинаурального воспроизведения либо в соответствующие громкоговорители в связанной с громкоговорителями компоновке для воспроизведения либо, альтернативно, в устройство хранения данных для сохранения (комбинированных) двух или более выходных сигналов для последующего использования или передачи.In addition, the encoder side not only allows characterization of one spatially extended sound source, but is also flexible in that the bitstream generated as a representation can include all data for two or more spatially extended sound sources, which is preferably associated, with respect to their geometric information and location, to the same coordinate system. On the decoder side, playback cannot be performed for only one spatially extended sound source, but may be performed for several spatially extended sound sources, with the projector calculating the projection for each sound source using the (virtual) listening position. Additionally, the sound position calculation module calculates the positions of at least two sound sources for each spatially extended sound source, and the rendering module renders all calculated sound sources for each spatially extended sound source, for example, by summing two or more outputs from each spatially extended sound source signal-by-signal or channel-by-channel and by providing the summed channels to appropriate headphones for binaural playback, or to appropriate loudspeakers in a speaker-related arrangement for playback, or alternatively to a storage device to store (combined) two or more output signals for later use, or transmission.

На стороне генератора или кодера, поток битов формируется с использованием оборудования для формирования потока битов, представляющего сжатое описание для пространственно протяженного источника звука, при этом оборудование содержит поставщик звука для предоставления одного или более различных звуковых сигналов для пространственно протяженного источника звука, и формирователь выходных данных формирует поток битов, представляющий сжатую звуковую сцену, причем поток битов содержит один или более различных звуковых сигналов предпочтительно сжатым способом, к примеру, сжатым посредством кодера для сжатия по скорости передачи битов, например, MP3-, AAC-, USAC- или MPEG-H-кодера. Кроме того, формирователь выходных данных выполнен с возможностью вводить в поток битов, в случае двух или более различных звуковых сигналов, необязательную информацию отдельного местоположения для каждого звукового сигнала из двух или более различных звуковых сигналов, указывающую местоположение соответствующего звукового сигнала предпочтительно относительно информации относительно геометрии пространственно протяженного источника звука, т.е. то, что первый сигнал представляет собой сигнал, записанный в левой части фортепьяно в вышеприведенном примере, и сигнал, записанный в правой стороне фортепьяно.On the generator or encoder side, a bitstream is generated using equipment for generating a bitstream representing a compressed description for a spatially extended sound source, the equipment comprising an audio provider for providing one or more different audio signals for a spatially extended sound source, and an output data generator generates a bitstream representing a compressed soundstage, the bitstream containing one or more different audio signals, preferably in a compressed manner, e.g. compressed by a bitrate compression encoder, e.g. MP3-, AAC-, USAC- or MPEG-H -encoder. In addition, the output data generator is configured to introduce into the bit stream, in the case of two or more different audio signals, optional separate location information for each audio signal from two or more different audio signals, indicating the location of the corresponding audio signal, preferably with respect to spatial geometry information. extended sound source, i.e. that the first signal is the signal recorded on the left side of the piano in the above example and the signal recorded on the right side of the piano.

Тем не менее, альтернативно, информация местоположения не должна обязательно быть связана с геометрией пространственно протяженного источника звука, но также может быть связана с общим началом координат, хотя взаимосвязь с геометрией пространственно протяженного источника звука является предпочтительной.However, alternatively, the location information need not necessarily be associated with the geometry of the spatially extended sound source, but may also be associated with a common origin, although a relationship with the geometry of the spatially extended sound source is preferred.

Кроме того, оборудование для формирования сжатого потока битов также содержит поставщик геометрии для вычисления информации относительно геометрии пространственно протяженного источника звука, и формирователь выходных данных выполнен с возможностью введения, в поток битов, информации относительно геометрии, информации относительно информации отдельного местоположения для каждого звукового сигнала, в дополнение, по меньшей мере, к двум звуковым сигналам, таким как звуковые сигналы, записанные посредством микрофонов. Тем не менее, поставщик звука не должен обязательно фактически снимать сигналы микрофонов, но звуковые сигналы также могут формироваться, на стороне кодера, с использованием обработки декорреляции в зависимости от обстоятельств. Одновременно, только небольшое число звуковых сигналов или даже один звуковой сигнал могут передаваться для пространственно протяженного звукового сигнала, и оставшиеся звуковые сигналы формируются на стороне воспроизведения с использованием обработки декорреляции. Это предпочтительно передается в служебных сигналах посредством элемента потока битов в потоке битов таким образом, что модуль воспроизведения звука всегда знает то, сколько звуковых сигналов включаются в расчете на пространственно протяженный источник звука таким образом, что модуль воспроизведения может определять, в частности, в модуле вычисления позиций звука, то, сколько звуковых сигналов доступно, и то, сколько звуковых сигналов должно извлекаться на стороне декодера, к примеру, посредством обработки корреляции или синтеза сигналов.In addition, the equipment for generating the compressed bitstream also includes a geometry provider for calculating information about the geometry of the spatially extended sound source, and the output data generator is configured to introduce, into the bitstream, information about the geometry, information about the individual location information for each audio signal, in addition to at least two audio signals, such as audio signals recorded by microphones. However, the audio provider need not necessarily actually pick up the microphone signals, but the audio signals can also be generated, at the encoder side, using decorrelation processing as appropriate. At the same time, only a small number of audio signals or even one audio signal may be transmitted for a spatially extended audio signal, and the remaining audio signals are generated on the playback side using decorrelation processing. This is preferably signaled by a bitstream element in the bitstream in such a way that the audio playback module always knows how many audio signals are included per spatially extended sound source, so that the playback module can determine, in particular in the calculation module audio positions, how many audio signals are available, and how many audio signals are to be extracted on the decoder side, for example, through correlation processing or signal synthesis.

В этом варианте осуществления, модуль повторного формирования записывает элемент потока битов в поток битов, указывающий число звуковых сигналов, включенных для пространственно протяженного источника звука, и, на стороне декодера, модуль воспроизведения звука приводит элемент потока битов из потока битов, считывает элемент потока битов и определяет, на основе элемента потока битов, то, сколько сигналов для предпочтительно периферийных точечных источников или вспомогательных источников, размещенных между периферийными источниками звука, должны вычисляться на основе, по меньшей мере, одного принимаемого звукового сигнала в потоке битов.In this embodiment, the regenerator module writes a bitstream element to a bitstream indicating the number of audio signals included for a spatially extended audio source, and, on the decoder side, the audio playback module decodes the bitstream element from the bitstream, reads the bitstream element, and determines, based on the bitstream element, how many signals for preferably peripheral point sources or auxiliary sources placed between peripheral audio sources should be calculated based on at least one received audio signal in the bitstream.

Далее поясняются предпочтительные варианты осуществления настоящего изобретения со ссылками на прилагаемые чертежи, на которых:The preferred embodiments of the present invention will now be explained with reference to the accompanying drawings, in which:

Фиг. 1 является общим представлением блок-схемы предпочтительного варианта осуществления стороны воспроизведения;Fig. 1 is a general block diagram representation of a preferred embodiment of the playback side;

Фиг. 2 иллюстрирует сферический пространственно протяженный источник звука с различным числом периферийных точечных источников;Fig. 2 illustrates a spherical spatially extended sound source with a different number of peripheral point sources;

Фиг. 3 иллюстрирует эллипсоидный пространственно протяженный источник звука с несколькими периферийными точечными источниками;Fig. 3 illustrates an ellipsoid spatially extended sound source with multiple peripheral point sources;

Фиг. 4 иллюстрирует линейный пространственно протяженный источник звука с различными способами для того, чтобы распределять местоположение периферийных точечных источников;Fig. 4 illustrates a linear spatially extended sound source with various methods for distributing the location of peripheral point sources;

Фиг. 5 иллюстрирует кубоидный пространственно протяженный источник звука с различными процедурами для того, чтобы распределять периферийные точечные источники;Fig. 5 illustrates a cuboid spatially extended sound source with various procedures for distributing peripheral point sources;

Фиг. 6 иллюстрирует сферический пространственно протяженный источник звука на различных расстояниях;Fig. 6 illustrates a spherical spatially extended sound source at various distances;

Фиг. 7 иллюстрирует пространственно протяженный источник звука в форме фортепьяно приблизительно в параметрической эллипсоидной форме;Fig. 7 illustrates a spatially extended piano-shaped sound source in approximately parametric ellipsoidal form;

Фиг. 8 иллюстрирует пространственно протяженный источник звука в форме фортепьяно с тремя периферийными точечными источниками, распределенными по экстремальным точкам проецируемой выпуклой оболочки;Fig. 8 illustrates a spatially extended piano-shaped sound source with three peripheral point sources distributed over the extreme points of the projected convex hull;

Фиг. 9 иллюстрирует предпочтительную реализацию оборудования или способа для воспроизведения пространственно протяженного источника звука;Fig. 9 illustrates a preferred implementation of equipment or method for reproducing a spatially extended sound source;

Фиг. 10 иллюстрирует предпочтительную реализацию оборудования или способа для формирования потока битов, представляющего сжатое описание для пространственно протяженного источника звука; иFig. 10 illustrates a preferred implementation of equipment or method for generating a bit stream representing a compressed description for a spatially extended sound source; and

Фиг. 11 иллюстрирует предпочтительную реализацию потока битов, сформированного посредством оборудования или способа, проиллюстрированного на фиг. 10.Fig. 11 illustrates a preferred implementation of a bitstream generated by the equipment or method illustrated in FIG. ten.

Фиг. 9 иллюстрирует предпочтительную реализацию оборудования для воспроизведения пространственно протяженного источника звука, имеющего заданную позицию и геометрию в пространстве. Оборудование содержит интерфейс 100, проектор 120, модуль 140 вычисления позиций звука и модуль 160 рендеринга. Интерфейс выполнен с возможностью приема позиции слушателя. Кроме того, проектор 120 выполнен с возможностью вычисления проекции двумерной или трехмерной оболочки, ассоциированной с пространственно протяженным источником звука, на плоскость проекции с использованием позиции слушателя, принимаемой посредством интерфейса 100 и использования, дополнительно, информации относительно геометрии пространственно протяженного источника звука, и дополнительно, использования информации относительно позиции пространственно протяженного источника звука в пространстве. Предпочтительно, заданная позиция пространственно протяженного источника звука в пространстве и, дополнительно, геометрия пространственно протяженного источника звука в пространстве принимается для воспроизведения пространственно протяженного источника звука через поток битов, поступающий в демультиплексор 180 потоков битов или синтаксический анализатор сцен. Демультиплексор 180 потоков битов извлекает, из потока битов, информацию геометрии пространственно протяженного источника звука и предоставляет эту информацию в проектор. Кроме того, демультиплексор потоков битов также извлекает позицию пространственно протяженного источника звука из потока битов и перенаправляет эту информацию в проектор. Предпочтительно, поток битов также содержит информацию местоположения, по меньшей мере, для двух различных источников звука, и, предпочтительно, демультиплексор потоков битов также извлекает, из потока битов, сжатое представление по меньшей мере двух источников звука, и по меньшей мере два источника звука распаковываются/декодируются посредством декодера в качестве аудиодекодера 190. Декодированные по меньшей мере два источника звука в завершение перенаправляются в модуль 160 рендеринга, и модуль рендеринга подготавливает посредством рендеринга по меньшей мере два источника звука в позициях, предоставленных посредством модуля 140 вычисления позиций звука в модуль 160 рендеринга.Fig. 9 illustrates a preferred implementation of equipment for reproducing a spatially extended sound source having a given position and geometry in space. The equipment includes an interface 100, a projector 120, a sound position calculation module 140, and a rendering module 160. The interface is configured to receive the position of the listener. In addition, the projector 120 is configured to calculate a projection of a two-dimensional or three-dimensional shell associated with a spatially extended sound source onto the projection plane using the listener position received through the interface 100 and use, additionally, information regarding the geometry of the spatially extended sound source, and additionally, using information regarding the position of a spatially extended sound source in space. Preferably, a given position of the spatially extended sound source in space, and additionally, the geometry of the spatially extended sound source in space, is received to reproduce the spatially extended sound source via the bit stream input to the bit stream demultiplexer 180 or scene parser. The bitstream demultiplexer 180 extracts, from the bitstream, geometry information of the spatially extended sound source and provides this information to the projector. In addition, the bitstream demultiplexer also extracts the position of the spatially extended sound source from the bitstream and forwards this information to the projector. Preferably, the bitstream also contains location information for at least two different audio sources, and preferably, the bitstream demultiplexer also extracts, from the bitstream, a compressed representation of the at least two audio sources, and the at least two audio sources are decompressed. /decoded by the decoder as an audio decoder 190. The decoded at least two sound sources are finally redirected to the renderer 160, and the renderer prepares by rendering at least two sound sources at the positions provided by the sound position calculation module 140 to the renderer 160 .

Хотя фиг. 9 иллюстрирует связанное с потоком битов оборудование воспроизведения, имеющее демультиплексор 180 потоков битов и аудиодекодер 190, воспроизведение также может осуществляться в ситуации, отличающейся от сценария кодера/декодера. Например, заданная позиция и геометрия в пространстве может уже существовать в оборудовании воспроизведения, к примеру, в сцене в стиле виртуальной реальности или дополненной реальности, в которой данные формируются на площадке и потребляются на этой площадке. Демультиплексор 180 потоков битов и аудиодекодер 190 фактически не требуются, и информация геометрии пространственно протяженного источника звука и позиции пространственно протяженного источника звука доступна вообще без извлечения из потока битов. Кроме того, информация местоположения, связывающая местоположение по меньшей мере двух источников звука с геометрической информацией пространственно протяженного источника звука, также может фиксированно согласовываться заранее и в силу этого не должна передаваться из кодера в декодер, либо, альтернативно, эти данные формируются, снова, на площадке.Although FIG. 9 illustrates bitstream related playback equipment having a bitstream demultiplexer 180 and an audio decoder 190, playback can also be performed in a situation different from the encoder/decoder scenario. For example, the given position and geometry in space may already exist in the playback hardware, such as a virtual reality or augmented reality style scene in which data is generated at a site and consumed at that site. The bitstream demultiplexer 180 and audio decoder 190 are not actually required, and spatially extended sound source geometry and spatially extended sound source position information is available without being extracted from the bitstream at all. In addition, location information relating the location of at least two sound sources to the geometric information of the spatially extended sound source may also be fixed in advance and thus does not need to be transmitted from the encoder to the decoder, or, alternatively, this data is generated, again, on site.

Следовательно, следует отметить, что информация местоположения предоставляется только в вариантах осуществления, и нет необходимости передавать эту информацию даже в случае двух или более сигналов источников звука. Декодер или модуль воспроизведения, например, может всегда принимать первый сигнал источника звука в потоке битов в качестве источника звука на проекции, размещенной больше влево. Аналогично, второй сигнал источника звука в потоке битов может приниматься в качестве источника звука на проекции, размещенной больше вправо.Therefore, it should be noted that location information is only provided in the embodiments, and it is not necessary to transmit this information even in the case of two or more sound source signals. The decoder or playback module, for example, may always receive the first sound source signal in the bitstream as the sound source on the projection placed more to the left. Likewise, the second sound source signal in the bit stream may be received as the sound source in the projection placed more to the right.

Кроме того, хотя модуль вычисления позиций звука вычисляет позиции по меньшей мере двух источников звука для пространственно протяженного источника звука с использованием плоскости проекции по меньшей мере два источника звука должны не обязательно приниматься из потока битов. Вместо этого, только один источник звука, по меньшей мере, из двух источников звука может приниматься через поток битов и другой источник звука, и в силу этого также другая информация позиции или местоположения может фактически формироваться только на стороне воспроизведения без необходимости передачи этой информации из генератора потоков битов в модуль воспроизведения. Тем не менее, в других вариантах осуществления, вся эта информация может передаваться, и дополнительно, более высокое число, чем один или два звуковых сигнала, могут передаваться в потоке битов, когда требования по скорости передачи битов не являются жесткими, и аудиодекодер 190 должен декодировать два, три или еще большее число звуковых сигналов, представляющих по меньшей мере два источника звука, позиции которых вычисляются посредством модуля 140 вычисления позиций звука.In addition, although the sound position calculation module calculates the positions of at least two sound sources for a spatially extended sound source using a projection plane, the at least two sound sources need not be received from the bitstream. Instead, only one audio source from at least two audio sources can be received via the bit stream and the other audio source, and because of this, also other position or location information can actually be generated only on the reproduction side without the need to transmit this information from the generator. bit streams to the playback module. However, in other embodiments, all of this information may be transmitted, and additionally, a higher number than one or two audio signals may be transmitted in the bitstream when the bitrate requirements are not stringent and the audio decoder 190 must decode two, three or more sound signals representing at least two sound sources, the positions of which are calculated by the sound position calculation module 140 .

Фиг. 10 иллюстрирует сторону кодера этого сценария, когда воспроизведение применяется в приложении кодера/декодера. Фиг. 10 иллюстрирует оборудование для формирования потока битов, представляющего сжатое описание для пространственно протяженного источника звука. В частности, предоставляются поставщик 200 звука и формирователь 240 выходных данных. В этой реализации, пространственно протяженный источник звука представляется посредством сжатого описания, имеющего один или более различных звуковых сигналов, и формирователь выходных данных формирует поток битов, представляющий сжатую звуковую сцену, при этом поток битов содержит, по меньшей мере, один или более различных звуковых сигналов и геометрическую информацию, связанную с пространственно протяженным источником звука. Это представляет ситуацию, проиллюстрированную относительно фиг. 9, в которой вся остальная информация, такая как позиция пространственно протяженного источника звука (см. пунктирную стрелку в блоке 120 по фиг. 9), может свободно выбираться пользователем на стороне воспроизведения. Таким образом, предоставляется уникальное описание пространственно протяженного источника звука, по меньшей мере, с одним или более различных звуковых сигналов для этого пространственно протяженного источника звука, причем эти звуковые сигналы представляют собой просто сигналы точечных источников.Fig. 10 illustrates the encoder side of this scenario when playback is applied in an encoder/decoder application. Fig. 10 illustrates equipment for generating a bit stream representing a compressed description for a spatially extended sound source. In particular, a sound provider 200 and an output generator 240 are provided. In this implementation, a spatially extended sound source is represented by a compressed description having one or more different audio signals, and the output generator generates a bitstream representing the compressed sound stage, the bitstream containing at least one or more different audio signals. and geometric information associated with the spatially extended sound source. This represents the situation illustrated with respect to FIG. 9, in which all other information, such as the position of the spatially extended sound source (see the dotted arrow in block 120 of FIG. 9), can be freely selected by the user on the playback side. Thus, a unique description of a spatially extended sound source is provided with at least one or more different audio signals for that spatially extended sound source, these audio signals being simply point source signals.

Оборудование для формирования дополнительно содержит поставщик 220 геометрии для предоставления, к примеру, вычисления информации относительно геометрии для пространственно протяженного источника звука. Другие способы предоставления геометрической информации, отличающееся от вычисления, содержат прием пользовательского ввода, к примеру, чертежа, вручную нарисованного пользователем, либо любой другой информации, предоставляемой пользователем, например, посредством речи, тонов, жестов или любого другого пользовательского действия. В дополнение к одному или более различных звуковых сигналов, также информация относительно геометрии вводится в поток битов.The shaping hardware further comprises a geometry provider 220 for providing, for example, computation of geometry information for a spatially extended sound source. Other methods of providing geometric information other than computation include receiving user input, such as a user-drawn drawing, or any other information provided by the user, such as through speech, tones, gestures, or any other user action. In addition to one or more different audio signals, also geometry information is input to the bit stream.

Необязательно, информация относительно информации отдельного местоположения для каждого звукового сигнала из одного или более различных звуковых сигналов также вводится в поток битов, и/или информация позиции для пространственно протяженного источника звука также вводится в поток битов. Информация позиции для источника звука может быть отдельной от геометрической информации или может включаться в геометрическую информацию. В первом случае, геометрическая информация может выдаваться относительно информации позиции. Во втором случае, геометрическая информация может содержать, например, для сферы, центральную точку в координатах и радиус или диаметр. Для коробчатого пространственно протяженного источника звука, восемь или, по меньшей мере, одна из угловых точек могут выдаваться в абсолютных координатах.Optionally, information regarding individual location information for each audio signal from one or more different audio signals is also input to the bitstream, and/or position information for a spatially extended audio source is also input to the bitstream. The position information for the sound source may be separate from the geometry information, or may be included in the geometry information. In the first case, the geometry information may be output regarding the position information. In the second case, the geometric information may contain, for example, for a sphere, a center point in coordinates and a radius or diameter. For a box-shaped spatially extended sound source, eight or at least one of the corner points may be output in absolute coordinates.

Информация местоположения для каждого из одного или более различных звуковых сигналов предпочтительно связана с геометрической информацией пространственно протяженного источника звука. Тем не менее, альтернативно, также полезной является информация абсолютного местоположения, связанная с такой же системой координат, в которой выдается информация позиции или геометрическая информация пространственно протяженного источника звука, и альтернативно, геометрическая информация также может выдаваться в абсолютной системе координат с абсолютными координатами, а не относительным способом. Тем не менее, предоставление этих данных относительным способом, не связанным с общей системой координат, позволяет пользователю самому позиционировать пространственно протяженный источник звука в компоновке для воспроизведения, как указано посредством пунктирной линии, направленной в проектор 120 по фиг. 9.The location information for each of the one or more different audio signals is preferably associated with geometric information of the spatially extended sound source. However, alternatively, the absolute location information associated with the same coordinate system as the position information or geometric information of the spatially extended sound source is also useful, and alternatively, the geometric information can also be output in the absolute coordinate system with absolute coordinates, and not in a relative way. However, providing this data in a relative manner not related to a common coordinate system allows the user to position the spatially extended sound source in the playback arrangement as indicated by the dashed line directed to the projector 120 of FIG. 9.

В дополнительном варианте осуществления, поставщик 200 звука по фиг. 10 выполнен с возможностью предоставления по меньшей мере двух различных звуковых сигналов для пространственно протяженного источника звука, и формирователь выходных данных выполнен с возможностью формирования потока битов таким образом, что поток битов содержит по меньшей мере два различных звуковых сигнала предпочтительно в кодированном формате и необязательно информацию отдельного местоположения для каждого звукового сигнала, по меньшей мере, из двух различных звуковых сигналов либо в абсолютных координатах, либо относительно геометрии пространственно протяженного источника звука.In a further embodiment, the audio provider 200 of FIG. 10 is configured to provide at least two different audio signals for a spatially extended audio source, and the output data generator is configured to generate a bit stream such that the bit stream contains at least two different audio signals, preferably in an encoded format and optionally, information of a separate locations for each sound signal from at least two different sound signals, either in absolute coordinates or relative to the geometry of a spatially extended sound source.

В варианте осуществления, поставщик звука выполнен с возможностью выполнять запись естественного источника звука в нескольких отдельных позициях или ориентациях микрофона либо: выполнять извлечение звукового сигнала из одного базисного сигнала или нескольких базисных сигналов посредством одного или более декорреляционных фильтров, например, как поясняется относительно фиг. 1, пункт 164 и 166. Базисные сигналы, используемые в генераторе, могут быть одинаковыми или отличающимися от базисных сигналов, предоставленных на площадке для воспроизведения или передаваемых из генератора в модуль воспроизведения.In an embodiment, the audio provider is configured to record a natural sound source at multiple distinct microphone positions or orientations, either: to extract an audio signal from a single base signal or multiple base signals via one or more decorrelation filters, such as as explained with respect to FIG. 1, paragraphs 164 and 166. The basic signals used in the generator may be the same or different from the basic signals provided at the playback site or transmitted from the generator to the playback module.

В дополнительном варианте осуществления, поставщик 220 геометрии выполнен с возможностью извлекать, из геометрии пространственно протяженного источника звука, параметрическое описание или многоугольное описание, и формирователь выходных данных выполнен с возможностью вводить, в поток битов, это параметрическое описание или многоугольное описание.In a further embodiment, the geometry provider 220 is configured to extract, from the geometry of the spatially extended sound source, a parametric description or polygonal description, and the output generator is configured to inject, into the bitstream, this parametric description or polygonal description.

Кроме того, формирователь выходных данных выполнен с возможностью вводить, в поток битов, элемент потока битов, в предпочтительном варианте осуществления, при этом данный элемент потока битов указывает число, по меньшей мере, одного другого звукового сигнала для пространственно протяженного источника звука, включенного в поток битов или включенного в кодированный аудиосигнал, ассоциированный с потоком битов, причем число равно 1 или больше 1. Поток битов, сформированный посредством формирователя выходных данных, не должен обязательно представлять собой полный поток битов с данными формы аудиосигнала, с одной стороны, и метаданными, с другой стороны. Вместо этого, поток битов также может только представлять собой отдельный потока битов метаданных, содержащий, например, поле потоков битов для числа звуковых сигналов для каждого пространственно протяженного источника звука, геометрическую информацию для пространственно протяженного источника звука и, в варианте осуществления, также информацию позиции для пространственно протяженного источника звука и необязательно информацию местоположения для каждого звукового сигнала и для каждого пространственно протяженного источника звука, геометрическую информацию для пространственно протяженного источника звука и, в варианте осуществления, также информацию позиции для пространственно протяженного источника звука. Формы аудиосигналов, типично доступные в сжатой форме, передаются посредством отдельного потока данных или отдельного канала передачи в модуль воспроизведения таким образом, что модуль воспроизведения принимает, из одного источника, кодированные метаданные и из другого источника (кодированные) формы сигналов.In addition, the output data generator is configured to introduce, into the bitstream, a bitstream element, in the preferred embodiment, this bitstream element indicating the number of at least one other audio signal for a spatially extended audio source included in the stream. bitstream or included in the encoded audio signal associated with the bitstream, wherein the number is 1 or greater than 1. The bitstream generated by the output data generator need not necessarily be a complete bitstream with audio waveform data on the one hand and metadata on the other hand. the other side. Instead, the bitstream may also only be a single metadata bitstream containing, for example, a bitstream field for the number of audio signals for each spatially extended audio source, geometric information for the spatially extended audio source, and, in an embodiment, also position information for a spatially extended sound source, and optionally location information for each sound signal and for each spatially extended sound source, geometric information for a spatially extended sound source, and, in an embodiment, also position information for a spatially extended sound source. The audio waveforms, typically available in compressed form, are transmitted via a separate data stream or a separate transmission channel to the playback module such that the playback module receives, from one source, the encoded metadata and from another source (encoded) waveforms.

Кроме того, вариант осуществления генератора потоков битов содержит контроллер 250. Контроллер 250 выполнен с возможностью управлять поставщиком 200 звука относительно числа звуковых сигналов, которые должны предоставляться посредством поставщика звука. В соответствии с этой процедурой, контроллер 250 также предоставляет информацию элементов потока битов в формирователь 240 выходных данных, указываемый посредством заштрихованной линии, обозначающей необязательный признак. Формирователь выходных данных вводит, в элемент потока битов, конкретную информацию относительно числа звуковых сигналов, управляемых посредством контроллера 250 и предоставленных посредством поставщика 200 звука. Предпочтительно, число звуковых сигналов управляется таким образом, что выходной поток битов, содержащий кодированные звуковые аудиосигналы, удовлетворяет внешним требованиям по скорости передачи битов. Когда разрешенная скорость передачи битов является высокой, поставщик звука должен предоставлять большее число звуковых сигналов по сравнению с ситуацией, когда разрешенная скорость передачи битов является небольшой. В крайнем случае, поставщик звука должен предоставлять только один звуковой сигнал для пространственно протяженного источника звука, когда требования по скорости передачи битов являются жесткими.In addition, an embodiment of the bit stream generator includes a controller 250. The controller 250 is configured to control the audio provider 200 regarding the number of audio signals to be provided by the audio provider. In accordance with this procedure, the controller 250 also provides bitstream element information to the output generator 240, indicated by a dashed line indicating an optional feature. The output data generator inputs, in the bitstream element, specific information regarding the number of audio signals controlled by the controller 250 and provided by the audio provider 200 . Preferably, the number of audio signals is controlled such that the output bit stream containing the encoded audio audio signals satisfies the external bit rate requirements. When the allowed bit rate is high, the audio provider must provide more audio signals than when the allowed bit rate is low. As a last resort, the audio provider must provide only one audio signal for a spatially extended audio source when bit rate requirements are stringent.

Модуль воспроизведения должен считывать соответствующий заданный элемент потока битов и должен продолжать, в модуле 160 рендеринга, синтезировать, на стороне декодера и с использованием передаваемого сигнала звуков, соответствующее число дополнительных звуковых сигналов, так что, в конечном счете, формируется требуемое число периферийных точечных источников и, необязательно, вспомогательных источников.The playback module must read the corresponding given element of the bitstream and must continue, in the rendering module 160, to synthesize, on the decoder side and using the transmitted sounds signal, the appropriate number of additional audio signals, so that, ultimately, the required number of peripheral point sources and , optionally, auxiliary sources.

Тем не менее, когда требования по скорости передачи битов не являются очень жесткими, контроллер 250 должен управлять поставщиком звука таким образом, чтобы предоставлять высокое число различных звуковых сигналов, например, записанных посредством соответствующего числа ориентаций микрофона или микрофонов. После этого, на стороне воспроизведения, обработка декорреляции вообще не требуется либо требуется только в небольшой степени, так что, в конечном счете, лучшее качество воспроизведения получается посредством модуля воспроизведения вследствие сокращенной или необязательной обработки декорреляции на стороне воспроизведения. Компромисс между скоростью передачи битов, с одной стороны, и качеством, с другой стороны, предпочтительно получается через функциональность элемента потока битов, указывающего число сигналов звуков в расчете на пространственно протяженный источник звука.However, when the bitrate requirements are not very stringent, the controller 250 should control the audio provider to provide a high number of different audio signals, such as those recorded by an appropriate number of microphone or microphone orientations. Thereafter, on the playback side, decorrelation processing is not required at all or only to a small extent, so that ultimately a better playback quality is obtained by the playback module due to reduced or optional decorrelation processing on the playback side. The trade-off between bit rate on the one hand and quality on the other hand is preferably obtained through the functionality of the bitstream element indicating the number of sound signals per spatially extended sound source.

Фиг. 11 иллюстрирует предпочтительный вариант осуществления потока битов, сформированного посредством оборудования формирования потока битов, проиллюстрированного на фиг. 10. Поток битов содержит, например, второй пространственно протяженный источник 401 звука, указываемый в качестве SESS₂ с соответствующими данными.Fig. 11 illustrates a preferred embodiment of a bit stream generated by the bit stream generating equipment illustrated in FIG. 10. The bit stream contains, for example, the second spatially extended sound source 401, indicated as SESS ₂ with the corresponding data.

Кроме того, фиг. 11 иллюстрирует подробные данные для каждого пространственно протяженного источника звука относительно пространственно протяженного источника звука номер 1. В примере на фиг. 11, два звуковых сигнала служат для пространственно протяженного источника звука, которые сформированы в генераторе потоков битов, например, из выходных данных микрофонов, снимаемых с микрофонов, размещенных в двух различных местах пространственно протяженного источника звука. Первый звуковой сигнал представляет собой звуковой сигнал 1, указываемый как 301, и второй звуковой сигнал представляет собой звуковой сигнал 2, указываемый как 302, и оба звуковых сигнала предпочтительно кодируются через аудиокодер для сжатия по скорости передачи битов. Кроме того, пункт 311 представляет элемент потока битов, указывающий число звуковых сигналов для пространственно протяженного источника 1 звука, например, управляемого посредством контроллера 250 по фиг. 10.In addition, FIG. 11 illustrates the details for each spatially extended sound source with respect to spatially extended sound source number 1. In the example of FIG. 11, two audio signals serve for a spatially extended sound source, which are generated in a bitstream generator, for example, from the output of microphones taken from microphones placed at two different locations in a spatially extended sound source. The first audio signal is audio signal 1, indicated as 301, and the second audio signal is audio signal 2, indicated as 302, and both audio signals are preferably encoded via an audio encoder for bit rate compression. In addition, item 311 represents a bitstream element indicating the number of audio signals for a spatially extended sound source 1, such as controlled by the controller 250 of FIG. ten.

Геометрическая информация для пространственно протяженного источника звука вводится, как показано в блоке 331. Пункт 301 указывает необязательную информацию местоположения для звуковых сигналов предпочтительно относительно геометрической информации, к примеру, относительно примера фортепьяно, указывающей "близко к басовым струнам" для звукового сигнала 1 и "близко к верхним звуковым частотным струнам" для звукового сигнала 2, указываемого как 302. Геометрическая информация, например, может представлять собой параметрическое представление или многоугольное представление модели на основе фортепьяно, и эта модель на основе фортепьяно должна отличаться, например, для рояля или (небольшого) фортепьяно. Пункт 341 дополнительно иллюстрирует необязательные данные относительно информации позиции для пространственно протяженного источника звука в пространстве. Как указано, эта информация 341 позиции не является обязательной, когда пользователь предоставляет информацию позиции, как указано посредством пунктирной линии на фиг. 9, направленной в проектор. Тем не менее, даже когда информация 341 позиции включается в поток битов, пользователь, несмотря на это, может заменять или модифицировать информацию позиции посредством пользовательского взаимодействия.Geometric information for a spatially extended sound source is entered as shown in block 331. Item 301 indicates optional location information for audio signals, preferably relative to geometric information, for example, relative to a piano example, indicating "close to bass strings" for audio signal 1 and "close to the upper audio frequency strings" for audio signal 2, indicated as 302. Geometric information, for example, can be a parametric representation or a polygonal representation of a piano-based model, and this piano-based model should be different, for example, for a grand piano or (small) piano. Item 341 further illustrates optional data regarding position information for a spatially extended sound source in space. As indicated, this position information 341 is optional when the user provides position information as indicated by the dotted line in FIG. 9 towards the projector. However, even when the position information 341 is included in the bitstream, the user can still replace or modify the position information through user interaction.

Далее поясняются предпочтительные варианты осуществления настоящего изобретения. Варианты осуществления относятся к рендерингу пространственно протяженных источников звука в 6DoF VR/AR (виртуальной реальности/дополненной реальности).The following explains the preferred embodiments of the present invention. Embodiments relate to rendering spatially extended sound sources in 6DoF VR/AR (virtual reality/augmented reality).

Предпочтительные варианты осуществления изобретения направлены на способ, оборудование или компьютерную программу, разработанные с возможностью улучшать воспроизведение пространственно протяженных источников звука (SESS). В частности, варианты осуществления изобретаемого способа или оборудования рассматривают варьирующуюся во времени относительную позицию между пространственно протяженным источником звука и виртуальной позицией слушателя. Другими словами, варианты осуществления изобретаемого способа или оборудования обеспечивают возможность слуховой ширине источника совпадать с пространственной протяженностью представленного звукового объекта в любой относительной позиции к слушателю. В связи с этим, вариант осуществления изобретаемого способа или оборудования применяется, в частности, к вариантам применения в стиле виртуальной, смешанной и дополненной реальности с 6 степенями свободы (6DoF), в которых пространственно протяженный источник звука дополняет традиционно используемые точечные источники.Preferred embodiments of the invention are directed to a method, equipment or computer program designed to improve the reproduction of spatially extended sound sources (SESS). In particular, embodiments of the inventive method or equipment consider a time-varying relative position between a spatially extended sound source and the listener's virtual position. In other words, embodiments of the inventive method or equipment allow the auditory width of the source to match the spatial extent of the presented sound object at any relative position to the listener. In this regard, an embodiment of the inventive method or equipment applies in particular to 6 DoF (6 DoF) virtual, mixed and augmented reality style applications in which a spatially extended sound source complements traditionally used point sources.

Вариант осуществления изобретаемого способа или оборудования подготавливает посредством рендеринга пространственно протяженный источник звука посредством использования нескольких периферийных точечных источников, в которые подаются (предпочтительно значительно) декоррелированные сигналы. В отличие от других способов, местоположения этих периферийных точечных источников зависят от позиции слушателя относительно пространственно протяженного источника звука. Фиг. 1 иллюстрирует блок-схему общего представления модуля рендеринга пространственно протяженного источника звука согласно варианту осуществления изобретаемого способа или оборудования.An embodiment of the inventive method or equipment renders a spatially extended sound source by using a plurality of peripheral point sources fed with (preferably significantly) decorrelated signals. Unlike other methods, the locations of these peripheral point sources depend on the listener's position relative to the spatially extended sound source. Fig. 1 illustrates a block diagram of a general representation of a spatially extended sound source rendering module according to an embodiment of the inventive method or equipment.

Ключевые компоненты блок-схемы являются следующими:The key components of the flowchart are as follows:

Позиция слушателя: Этот блок предоставляет мгновенную позицию слушателя, например, измеренную посредством системы отслеживания в стиле виртуальной реальности. Блок может реализовываться как детектор 100 для обнаружения или интерфейс 100 для приема позиции слушателя.Listener Position: This block provides the instantaneous position of the listener, such as measured by a virtual reality-style tracking system. The block may be implemented as a detector 100 for discovery or an interface 100 for receiving a listener position.

Позиция и геометрия пространственно протяженного источника звука: Этот блок предоставляет данные позиции и геометрии пространственно протяженного источника звука, который должен подготавливаться посредством рендеринга, например, в качестве части представления сцены в стиле виртуальной реальности.Spatial Sound Source Position and Geometry: This block provides position and geometry data for a spatially extended sound source to be rendered, for example, as part of a VR-style scene representation.

Проекция и вычисление выпуклой оболочки: Этот блок 120 вычисляет выпуклую оболочку геометрии пространственно протяженных источников звука и затем проецирует ее в направлении к позиции слушателя (например, к "плоскости изображений", см. нижеприведенную информацию). Альтернативно, такая же функция может достигаться посредством проецирования сначала геометрии к позиции слушателя и затем вычисления ее выпуклой оболочки.Projection and Convex Hull Computation: This block 120 computes the convex hull of the geometry of spatially extended sound sources and then projects it towards the listener's position (eg, the "image plane", see below). Alternatively, the same function can be achieved by first projecting the geometry to the listener's position and then computing its convex hull.

Местоположение периферийных точечных источников: Этот блок 140 вычисляет местоположения используемых периферийных точечных источников из данных проекции выпуклой оболочки, вычисленных посредством предыдущего блока. В этом вычислении, он также может рассматривать позицию слушателя и в силу этого близость/расстояние слушателя (см. нижеприведенную информацию). Вывод представляет собой n местоположений периферийных точечных источников.Location of peripheral point sources: This block 140 calculates the locations of used peripheral point sources from the convex hull projection data computed by the previous block. In this calculation, it can also consider the position of the listener and therefore the proximity/distance of the listener (see information below). The output is n locations of peripheral point sources.

Ядро модуля рендеринга: Ядро 162 модуля рендеринга аурализирует n периферийных точечных источников посредством их позиционирования в указанных целевых местоположениях. Он, например, может представлять собой модули бинаурального рендеринга с использованием передаточных функций слухового аппарата человека или модули рендеринга для воспроизведения через громкоговорители (например, для векторного амплитудного панорамирования). Ядро модуля рендеринга формирует l выходных сигналов громкоговорителей или наушников из k входных базисных аудиосигналов (например, декоррелированных сигналов записи инструментов) и m ≥ (n-k) дополнительных декоррелированных аудиосигналов.Renderer core: The renderer core 162 auralizes n peripheral point sources by positioning them at specified target locations. It may, for example, be binaural renderers using human hearing aid transfer functions, or renderers for playback through loudspeakers (eg, for vector amplitude panning). The renderer core generates l speaker or headphone outputs from k input basic audio signals (eg, decorrelated instrument recording signals) and m ≥ (n-k) additional decorrelated audio signals.

Базисные сигналы источников: Этот блок 164 представляет собой ввод для k базисных аудиосигналов, которые (достаточно) декоррелируются друг от друга и представляют источник звука, который долен подготавливаться посредством рендеринга (например, моно- (k=1) или стерео- (k=2) запись музыкального инструмента). K базисных аудиосигналов, например, извлекаются из потока битов (см., например, элементы 301, 302 по фиг. 11), принимаемого из генератора на стороне декодера, либо могут предоставляться на площадке для воспроизведения из внешнего источника.Basic Source Signals: This block 164 is an input for k basic audio signals that are (sufficiently) decorrelated from each other and represent the audio source to be rendered (e.g., mono (k=1) or stereo (k=2 ) recording of a musical instrument). The K basic audio signals are, for example, extracted from a bitstream (see, for example, elements 301, 302 of FIG. 11) received from a generator at the decoder side, or may be provided at the site for playback from an external source.

Декорреляторы: Этот необязательный блок 166 формирует дополнительные декоррелированные аудиосигналы, требуемые для рендеринга n периферийных точечных источников.Decorrelators: This optional block 166 generates the additional decorrelated audio signals required to render the n peripheral point sources.

Вывод сигналов: Модуль рендеринга предоставляет выходные сигналы l для рендеринга в громкоговорителях (например, n=5.1) или бинаурального рендеринга (типично n=2).Signal output: The renderer provides output signals l for loudspeaker rendering (eg n=5.1) or binaural rendering (typically n=2).

Фиг. 1 иллюстрирует общее представление блок-схемы варианта осуществления изобретаемого способа или оборудования. Пунктирные линии указывают передачу метаданных, таких как геометрия и позиции. Сплошные линии указывают передачу аудио, где k, l и m указывают множество аудиоканалов. Ядро 162 модуля рендеринга принимает возможно k+m аудиосигналов и n (<=k+m) позиционных данных. Блоки 162, 164, 166 вместе формируют вариант осуществления общего модуля 160 рендеринга.Fig. 1 illustrates a general block diagram representation of an embodiment of an inventive method or equipment. Dashed lines indicate the transfer of metadata such as geometry and positions. Solid lines indicate audio transmission, where k, l and m indicate the set of audio channels. The renderer core 162 receives possibly k+m audio signals and n (<=k+m) positional data. Blocks 162, 164, 166 together form an embodiment of the overall module 160 renderer.

Местоположения периферийных точечных источников зависят от геометрии, в частности, пространственной протяженности, пространственно протяженного источника звука и относительной позиции слушателя относительно пространственно протяженного источника звука. В частности, периферийные точечные источники могут быть расположены на проекции выпуклой оболочки пространственно протяженного источника звука на плоскость проекции. Плоскость проекции может представлять собой либо плоскость картинки, т.е. плоскость, перпендикулярную линии зрения от слушателя к пространственно протяженному источника звуку, либо сферическую поверхность вокруг головы слушателя. Плоскость проекции расположена на произвольном небольшом расстоянии от центра головы слушателя. Альтернативно, выпуклая оболочка проекции пространственно протяженного источника звука может вычисляться из углов азимута и подъема, которые представляют собой поднабор сферических координат относительно перспективы головы слушателя. В иллюстративных нижеприведенных примерах, плоскость проекции является предпочтительной вследствие своего более интуитивного характера. В реализации с вычислением проецируемой выпуклой оболочки, угловое представление является предпочтительным вследствие более простой формализации и более низкой вычислительной сложности. Следует обратить внимание на то, что проекция выпуклой оболочки пространственно протяженного источника звука является такой же выпуклой оболочкой геометрии проецируемых пространственно протяженных источников звука, т.е. вычисление выпуклой оболочки и проекция на плоскость картинки могут использоваться в любом порядке.The locations of the peripheral point sources depend on the geometry, in particular the spatial extent, the spatial extent of the sound source, and the relative position of the listener relative to the spatial extent of the sound source. In particular, peripheral point sources can be located on the projection of the convex shell of a spatially extended sound source onto the projection plane. The projection plane can be either the picture plane, i.e. a plane perpendicular to the line of sight from the listener to a spatially extended sound source, or a spherical surface around the listener's head. The projection plane is located at an arbitrary small distance from the center of the listener's head. Alternatively, the convex hull of a projection of a spatially extended sound source may be calculated from azimuth and elevation angles, which are a subset of spherical coordinates relative to the perspective of the listener's head. In the illustrative examples below, the projection plane is preferred due to its more intuitive nature. In a projected convex hull implementation, the angular representation is preferred due to simpler formalization and lower computational complexity. It should be noted that the projection of the convex hull of a spatially extended sound source is the same convex hull of the geometry of the projected spatially extended sound sources, i.e. the calculation of the convex hull and the projection onto the plane of the picture can be used in any order.

Местоположения периферийных точечных источников могут распределяться по проекции выпуклой оболочки пространственно протяженного источника звука различными способами, что включает в себя следующее:Locations of peripheral point sources can be distributed over the projection of the convex hull of a spatially extended sound source in a variety of ways, which include the following:

- Они могут возмущаться равномерно вокруг проекции оболочки- They can perturb uniformly around the shell projection

- Они могут распределяться в точках экстремума проекции оболочки- They can be distributed at the extremum points of the shell projection

- Они могут быть расположены в горизонтальных и/или вертикальных точках экстремума проекции оболочки (см. фиг. в разделе "Практические примеры").- They can be located at the horizontal and/or vertical extremum points of the shell projection (see Fig. in the "Practical examples" section).

В дополнение к периферийным точечным источникам, другие вспомогательные точечные источники также могут использоваться для того, чтобы формировать улучшенное ощущение акустического заполнения за счет дополнительной вычислительной сложности. Дополнительно, проецируемая выпуклая оболочка может модифицироваться до позиционирования периферийных точечных источников. Например, проецируемая выпуклая оболочка может сжиматься к центру тяжести проецируемой выпуклой оболочки. Такая сжатая проецируемая выпуклая оболочка может учитывать дополнительный пространственный разброс отдельных периферийных точечных источников, введенных посредством способа рендеринга. Модификация выпуклой оболочки дополнительно может различаться между масштабированием горизонтальных и вертикальных направлений.In addition to peripheral point sources, other auxiliary point sources can also be used to generate an improved sense of acoustic filling at the expense of additional computational complexity. Additionally, the projected convex hull can be modified to position peripheral point sources. For example, the projected convex hull may contract towards the center of gravity of the projected convex hull. Such a compressed projected convex hull can take into account the additional spatial dispersion of individual peripheral point sources introduced by the rendering method. The modification of the convex hull can further differ between scaling the horizontal and vertical directions.

Когда позиция слушателя относительно пространственно протяженного источника звука изменяется, далее проекция пространственно протяженного источника звука на плоскость проекции изменяется соответствующим образом. В свою очередь, местоположения периферийных точечных источников изменяются соответствующим образом. Местоположения периферийных точечных источников должны предпочтительно выбираться таким образом, что они изменяются плавно для непрерывного перемещения пространственно протяженного источника звука и слушателя. Дополнительно, проецируемая выпуклая оболочка изменяется, когда геометрия пространственно протяженного источника звука изменяется. Это включает в себя вращение геометрии пространственно протяженных источников звука в трехмерном пространстве, которое изменяет проецируемую выпуклую оболочку. Вращение геометрии равно угловому смещению позиции слушателя относительно пространственно протяженного источника звука и, к примеру, называется включающим способом "относительной позицией слушателя и пространственно протяженного источника звука". Например, круговое движение слушателя вокруг сферического пространственно протяженного источника звука представляется посредством вращения периферийных точечных источников вокруг центра тяжести. Аналогичным образом, вращение пространственно протяженного источника звука со стационарным слушателем приводит к одинаковому изменению местоположений периферийных точечных источников.When the position of the listener relative to the spatially extended sound source changes, then the projection of the spatially extended sound source onto the projection plane changes accordingly. In turn, the locations of peripheral point sources change accordingly. The locations of the peripheral point sources should preferably be chosen such that they change smoothly to continuously move the spatially extended sound source and listener. Additionally, the projected convex hull changes as the geometry of the spatially extended sound source changes. This involves rotating the geometry of spatially extended sound sources in 3D space, which changes the projected convex hull. The rotation of the geometry is equal to the angular displacement of the position of the listener relative to the spatially extended sound source and is, for example, referred to in an inclusive manner as "the relative position of the listener and the spatially extended sound source". For example, the circular motion of the listener around a spherical spatially extended sound source is represented by the rotation of peripheral point sources around the center of gravity. Similarly, rotation of a spatially extended sound source with a stationary listener results in the same change in the locations of peripheral point sources.

Пространственная протяженность, которая формируется посредством варианта осуществления изобретаемого способа или оборудования, внутренне воспроизводится корректно для любого расстояния между пространственно протяженным источником звука и слушателем. Естественно, когда пользователь приближается к пространственно протяженному источнику звука, угол раскрытия между периферийным точечным источником увеличивается так, как является целесообразным для моделирования физической реальности.The spatial extent that is generated by an embodiment of the inventive method or equipment is internally reproduced correctly for any distance between the spatially extended sound source and the listener. Naturally, as the user approaches the spatially extended sound source, the opening angle between the peripheral point source increases in a way that is appropriate for simulating physical reality.

Исходя из того, что угловое размещение периферийных точечных источников уникально определяется посредством местоположения на проецируемой выпуклой оболочке на плоскость проекции, расстояния периферийных точечных источников дополнительно могут выбираться различными способами, в том числе:Since the angular placement of peripheral point sources is uniquely determined by location on the projected convex hull onto the projection plane, the distances of peripheral point sources can further be selected in a variety of ways, including:

Все периферийные точечные источники имеют одинаковое расстояние, равное расстоянию всего пространственно протяженного источника звука, например, заданного через центр тяжести пространственно протяженного источника звука относительно головы слушателя.All peripheral point sources have the same distance, equal to the distance of the entire spatially extended sound source, for example, a spatially extended sound source specified through the center of gravity relative to the listener's head.

Расстояние каждого периферийного точечного источника определяется посредством задней проекции местоположений на проецируемой выпуклой оболочке на геометрию пространственно протяженного источника звука, так что проекция периферийных точечных источников на плоскость проекции приводит к такой же точке. Задняя проекция периферийных точечных источников из проецируемой выпуклой оболочки на пространственно протяженный источник звука не всегда может уникально определяться, так что должны применяться дополнительные правила проекции (см. раздел "Практические примеры").The distance of each peripheral point source is determined by rear projection of the locations on the projected convex hull onto the geometry of the spatially extended sound source such that the projection of the peripheral point sources onto the projection plane results in the same point. The rear projection of peripheral point sources from a projected convex hull onto a spatially extended sound source may not always be uniquely determined, so additional projection rules must apply (see the Practical Examples section).

Расстояние периферийных точечных источников может не определяться вообще, если рендеринг периферийных точечных источников не требует свойства расстояния, а требует только относительного углового размещения в азимуте и подъеме.Distance of peripheral point sources may not be specified at all if the rendering of peripheral point sources does not require a distance property, but only requires relative angular placement in azimuth and elevation.

Чтобы указывать геометрическую форму/выпуклую оболочку пространственно протяженного источника звука, используется (и, возможно, передается в модуль рендеринга или ядро модуля рендеринга) аппроксимация, включающая в себя упрощенную одномерную, например, линейную, кривую; двумерную, например, эллипс, прямоугольник, многоугольники; или трехмерную форму, например, эллипсоид, кубоид и многогранники. Геометрия пространственно протяженного источника звука или соответствующая приблизительная форма, соответственно, может описываться различными способами, включающими в себя:To indicate the geometric shape/convex hull of a spatially extended sound source, an approximation is used (and possibly passed to a renderer or renderer core) that includes a simplified one-dimensional, eg, linear, curve; two-dimensional, for example, an ellipse, a rectangle, polygons; or a three-dimensional shape such as ellipsoid, cuboid, and polyhedrons. The geometry of a spatially extended sound source, or the corresponding approximate shape, respectively, can be described in a variety of ways, including:

Параметрическое описание, т.е. формализация геометрии через математическое выражение, которое разрешает дополнительные параметры. Например, эллипсоидная форма в трехмерном может описываться посредством неявной функции на декартовой системе координат, и дополнительные параметры представляют собой протяженность главных осей во всех трех направлениях. Дополнительные параметры могут включать в себя функции трехмерного вращения, деформации эллипсоидной поверхности.Parametric description, i.e. the formalization of the geometry through a mathematical expression that allows additional parameters. For example, an ellipsoid shape in 3D can be described by an implicit function on a Cartesian coordinate system, and the additional parameters are the extent of the principal axes in all three directions. Additional parameters may include functions of three-dimensional rotation, deformation of the ellipsoidal surface.

Многоугольное описание, т.е. совокупность примитивных геометрических форм, таких как линии, треугольники, квадрат, четырехгранник и кубоиды. Приматные многоугольники и многогранник могут конкатенироваться в более крупные более сложные геометрии.Polygonal description, i.e. a collection of primitive geometric shapes such as lines, triangles, squares, tetrahedrons, and cuboids. Primate polygons and polyhedron can be concatenated into larger more complex geometries.

Сигналы периферийных точечных источников извлекаются из базисных сигналов пространственно протяженного источника звука. Базисные сигналы могут получаться различными способами, такими как: 1) Запись естественного источника звука в одной или нескольких позициях и ориентациях микрофона (пример: запись звука фортепьяно, как показано в практических примерах); 2) Синтез искусственного источника звука (пример: синтез звука с варьирующимися параметрами); 3) Комбинация любых аудиосигналов (пример: различные механические звуки автомобиля, к примеру, двигателя, шин, двери и т.д.). Дополнительно, дополнительные сигналы периферийных точечных источников могут формироваться искусственно из базисных сигналов посредством нескольких декорреляционных фильтров (см. предшествующий раздел).The signals of peripheral point sources are extracted from the basic signals of a spatially extended sound source. Basic signals can be obtained in various ways, such as: 1) Recording a natural sound source in one or more microphone positions and orientations (example: recording a piano sound, as shown in practical examples); 2) Synthesis of an artificial sound source (example: sound synthesis with varying parameters); 3) A combination of any audio signals (example: various mechanical sounds of a car, for example, engine, tires, doors, etc.). Additionally, additional peripheral point source signals can be generated artificially from the basic signals by means of several decorrelation filters (see the previous section).

В некоторых сценариях применения, внимание акцентируется на компактном и функционально совместимом хранении/передаче 6DoF VR/AR-контента. В этом случае, вся цепочка состоит из трех этапов:In some application scenarios, attention is focused on compact and interoperable storage/transmission of 6DoF VR/AR content. In this case, the whole chain consists of three stages:

Авторская разработка/кодирование требуемых пространственно протяженных источников звука в поток битовAuthoring/encoding the required spatially extended sound sources into a bitstream

Передача/хранение сформированного потока битов. В соответствии с представленным изобретением, поток битов содержит, помимо других элементов, описание геометрий пространственно протяженных источников звука (параметрических или в виде многоугольников) и ассоциированного базисного сигнала(ов) источника, такого как монофоническая или стереофоническая запись фортепьяно. Формы сигналов могут сжиматься (см. пункт 260 на фиг. 10) с использованием алгоритмов перцепционного кодирования аудио, таких как MP3 или усовершенствованное кодирование аудио (AAC) по стандарту MPEG-2/4.Transmission/storage of the generated bit stream. In accordance with the present invention, the bit stream contains, among other elements, a description of the geometries of spatially extended sound sources (parametric or polygonal) and associated basic source signal(s), such as a monophonic or stereophonic piano recording. The waveforms may be compressed (see item 260 in FIG. 10) using perceptual audio coding algorithms such as MP3 or MPEG-2/4 Advanced Audio Coding (AAC).

Декодирование/рендеринг пространственно протяженных источников звука на основе передаваемого потока битов, как описано выше.Decoding/rendering of spatially extended audio sources based on the transmitted bitstream as described above.

В дополнение к базовому способу, описанному ранее, существует несколько вариантов для последующей обработки:In addition to the basic method described earlier, there are several options for further processing:

Вариант 1. Динамический выбор числа и местоположения периферийных точечных источниковOption 1. Dynamic selection of the number and location of peripheral point sources

В зависимости от расстояния слушателя до пространственно протяженного источника звука, число периферийных точечных источников может варьироваться. В качестве примера, когда пространственно протяженный источник звука и слушатель находятся на большом расстоянии друг от друга, угол раскрытия (апертура) проецируемой выпуклой оболочки становится небольшим, и в силу этого меньшее число периферийных точечных источников может выбираться преимущественно, за счет этого снижая вычислительную сложность и сложность запоминающего устройства. В крайнем случае, все периферийные точечные источники уменьшаются до одного оставшегося точечного источника. Соответствующие технологии понижающего сведения могут применяться, чтобы обеспечивать то, что помехи между базисными и извлеченными сигналами не ухудшают качество звучания результирующих сигналов периферийных точечных источников. Аналогичные технологии могут применяться также на небольшом расстоянии пространственно протяженного источника звука до позиции слушателя, если геометрия пространственно протяженного источника звука является очень нерегулярной в зависимости от относительной точки обзора слушателя. Например, геометрия пространственно протяженных источников звука, которая представляет собой линию конечных длин, может ухудшаться на плоскости проекции к одной точке. В общем, если угловая протяженность периферийных точечных источников на проецируемой выпуклой оболочке является низкой, пространственно протяженный источник звука может представляться посредством меньшего количества периферийных точечных источников. В крайнем случае, все периферийные точечные источники уменьшаются до одного оставшегося точечного источника.Depending on the distance of the listener to the spatially extended sound source, the number of peripheral point sources may vary. As an example, when the spatially extended sound source and the listener are at a large distance from each other, the opening angle (aperture) of the projected convex hull becomes small, and thus a smaller number of peripheral point sources can be advantageously selected, thereby reducing computational complexity and storage complexity. In the extreme case, all peripheral point sources are reduced to one remaining point source. Appropriate downmix techniques can be applied to ensure that interference between the base and extracted signals does not degrade the sound quality of the resulting peripheral point source signals. Similar techniques can also be applied at a short distance of the spatially extended sound source from the position of the listener, if the geometry of the spatially extended sound source is very irregular depending on the relative viewpoint of the listener. For example, the geometry of spatially extended sound sources, which is a line of finite lengths, may deteriorate on the projection plane to one point. In general, if the angular extent of the peripheral point sources on the projected convex hull is low, the spatially extended sound source can be represented by fewer peripheral point sources. In the extreme case, all peripheral point sources are reduced to one remaining point source.

Вариант 2. Компенсация разбросаOption 2: Spread compensation

Поскольку каждый периферийный точечный источник также демонстрирует пространственный разброс за пределы проекции выпуклой оболочки, воспринимаемая слуховая ширина изображения подготовленного посредством рендеринга пространственно протяженного источника звука в определенной степени больше выпуклой оболочки, используемой для рендеринга. Чтобы совмещать ее с требуемой целевой геометрией, имеется два варианта:Because each peripheral point source also exhibits spatial spread beyond the projection of the convex hull, the perceived auditory image width of the rendered spatially extended sound source is somewhat larger than the convex hull used for rendering. To match it with the desired target geometry, there are two options:

Компенсация во время авторской разработки: Дополнительный разброс процедуры рендеринга рассматривается во время авторской разработки контента. В частности, в определенной степени меньшая геометрия пространственно протяженных источников звука выбирается во время авторской разработки контента, так что фактически подготовленный посредством рендеринга размер является желательным. Это может проверяться посредством мониторинга эффекта модуля рендеринга или ядра модуля рендеринга в среде авторской разработки (например, в производственной студии). В этом случае, передаваемый поток битов и модуль рендеринга или ядро модуля рендеринга используют уменьшенную целевую геометрию по сравнению с целевым размером.Compensation during authoring: Additional variation in the rendering procedure is considered during content authoring. In particular, to a certain extent, the smaller geometry of the spatially extended sound sources is chosen during authoring of the content, so that the actual rendered size is desirable. This can be checked by monitoring the effect of a renderer or renderer core in an authoring environment (eg, in a production studio). In this case, the transmitted bitstream and the renderer or renderer core use a reduced target geometry compared to the target size.

Компенсация во время рендеринга: Модуль рендеринга или ядро модуля рендеринга пространственно протяженного источника звука может уведомляться относительно дополнительного перцепционного разброса посредством процедуры рендеринга и в силу этого может иметь возможность компенсировать этот эффект. В качестве простого примера, геометрия, используемая для рендеринга, может:Compensation during rendering: The renderer or renderer core of the spatially extended sound source renderer may be notified of the additional perceptual spread by the rendering procedure and thus may be able to compensate for this effect. As a simple example, the geometry used for rendering might be:

- уменьшаться на постоянный множитель < 1,0 (например, a=0,9), или- decrease by a constant factor < 1.0 (e.g. a=0.9), or

- уменьшаться на постоянный угол раскрытия альфа=5 градусов- decrease by a constant opening angle alpha=5 degrees

- до того, как она применяется для того, чтобы размещать периферийные точечные источники. В этом случае, передаваемый поток битов содержит конечный целевой размер геометрии пространственно протяженных источников звука.- before it is used to locate peripheral point sources. In this case, the transmitted bit stream contains a finite target size of the geometry of the spatially extended sound sources.

Кроме того, комбинация этих подходов является целесообразной.In addition, a combination of these approaches is useful.

Вариант 3. Формирование форм сигналов периферийных точечных источниковOption 3. Formation of signal forms of peripheral point sources

Дополнительно, фактические сигналы для подачи в периферийные точечные источники могут формироваться из записанных аудиосигналов посредством рассмотрения позиции пользователя относительно пространственно протяженного источника звука для того, чтобы моделировать пространственно протяженные источники звука с зависимыми от геометрии звуковыми долями, такие как фортепьяно со звуками низких нот с левой стороны и наоборот.Additionally, the actual signals to be fed to the peripheral point sources can be generated from the recorded audio signals by considering the user's position relative to the spatially extended sound source in order to model spatially extended sound sources with geometry-dependent sound fractions, such as a piano with low note sounds on the left side. and vice versa.

Пример: Звук пианино отличается посредством своего акустического поведения. Оно моделируется посредством (по меньшей мере) двух базисных аудиосигналов, одного около нижнего конца клавиатуры в виде фортепьяно ("низкие ноты") и одного около верхнего конца клавиатуры ("высокие ноты"). Эти базисные сигналы могут получаться посредством соответствующего использования микрофона при записи звука фортепьяно и передаваться в модуль 6DoF-рендеринга или ядро модуля 6DoF-рендеринга, обеспечивая то, что между ними имеется достаточная декорреляция.Example: The sound of a piano is distinguished by its acoustic behavior. It is modeled by (at least) two basic audio signals, one near the bottom end of the piano-like keyboard ("low notes") and one near the top end of the keyboard ("high notes"). These basic signals can be obtained by appropriate use of a microphone when recording piano sound and passed to the 6DoF renderer or 6DoF renderer core, ensuring that there is sufficient decorrelation between them.

Сигналы периферийных точечных источников затем извлекаются из этих базисных сигналов посредством рассмотрения позиции пользователя относительно пространственно протяженного источника звука:Peripheral point source signals are then extracted from these basic signals by considering the user's position relative to the spatially extended sound source:

Когда пользователь обращен к фортепьяно с передней стороны (клавиатура), два периферийных точечных источника имеют достаточно большое разнесение друг от друга по ширине около левого и правого конца клавиатуры в виде фортепьяно, соответственно. В этом случае, базисный сигнал для низких клавиш может непосредственно подаваться в левый периферийный точечный источник, и базисный сигнал для высоких клавиш может непосредственно использоваться для того, чтобы возбуждать правый периферийный точечный источник.When the user faces the piano from the front side (keyboard), the two peripheral spot sources have a sufficiently large width separation from each other near the left and right ends of the piano keyboard, respectively. In this case, the base signal for low keys can be directly supplied to the left peripheral point source, and the base signal for high keys can be directly used to drive the right peripheral point source.

По мере того, как слушатель проходит вокруг фортепьяно приблизительно на 90 градусов вправо, два периферийных точечных источника панорамируются очень близко друг к другу, поскольку проекция модели на основе громкости фортепьяно (например, эллипс) является небольшой при ее просмотре сбоку. Если базисные сигналы продолжают использоваться для того, чтобы непосредственно возбуждать сигналы периферийных точечных источников, один из периферийных точечных источников должен содержать преимущественно высокие ноты, тогда как другой должен переносить главным образом низкие ноты. Поскольку это является нежелательным с физической точки зрения, рендеринг может улучшаться посредством вращения двух базисных сигналов таким образом, чтобы формировать сигналы периферийных точечных источников посредством вращения Гивенса на такой же угол в качестве перемещения пользователя относительно центра тяжести фортепьяно. Таким образом, оба сигнала содержат сигналы аналогичного спектрального контента при одновременной декорреляции (при условии, что базисные сигналы декоррелированы).As the listener walks around the piano approximately 90 degrees to the right, the two peripheral spot sources are panned very close to each other because the projection of the piano loudness model (eg, ellipse) is small when viewed from the side. If the basic signals continue to be used to directly drive peripheral point source signals, one of the peripheral point sources should contain predominantly high notes, while the other should carry mainly low notes. Since this is undesirable from a physical point of view, rendering can be improved by rotating the two basic signals so as to form the peripheral point source signals by rotating Givens by the same angle as the user moves relative to the center of gravity of the piano. Thus, both signals contain signals of similar spectral content while being decorrelated (assuming the underlying signals are decorrelated).

Вариант 4. Постобработка подготовленного посредством рендеринга пространственно протяженного источника звукаOption 4. Post-processing of a spatially extended sound source prepared by rendering

Фактические сигналы могут предварительно или постобрабатываться, чтобы учитывать зависимый от позиции и направления эффект, например, диаграмму направленности пространственно протяженного источника звука. Другими словами, целый звук, испускаемый из пространственно протяженного источника звука, как описано выше, может модифицироваться таким образом, что он демонстрирует, например, зависимую от направления диаграмму звукового излучения. В случае сигнала фортепьяно, это может означать то, что излучение к задней стороне фортепьяно имеет менее высокочастотный контент, чем к его передней стороне. Дополнительно, предварительная и постобработка сигналов периферийных точечных источников может регулироваться отдельно для каждого из периферийных точечных источников. Например, диаграмма направленности может выбираться по-разному для каждого из периферийных точечных источников. В данном примере пространственно протяженного источника звука, представляющего фортепьяно, диаграммы направленности диапазона низких и высоких клавиш могут быть аналогичными тому, что описано выше; тем не менее, дополнительные сигналы, такие как шумы от нажатия педалей, имеют более всенаправленную диаграмму направленности.The actual signals may be pre- or post-processed to account for position and direction dependent effects, such as the radiation pattern of a spatially extended sound source. In other words, the whole sound emitted from a spatially extended sound source as described above can be modified such that it exhibits, for example, a direction-dependent sound emission pattern. In the case of a piano signal, this may mean that the radiation towards the rear of the piano has less high frequency content than towards the front. Additionally, pre- and post-processing of peripheral point source signals can be adjusted separately for each of the peripheral point sources. For example, the radiation pattern may be chosen differently for each of the peripheral point sources. In this example of a spatially extended sound source representing a piano, the low and high key range patterns may be similar to those described above; however, additional cues, such as pedaling noise, have a more omnidirectional pattern.

Далее обобщаются несколько преимуществ предпочтительных вариантов осуществления:Several advantages of the preferred embodiments are summarized below:

- Более низкая вычислительная сложность по сравнению с полным заполнением внутренней части пространственно протяженного источника звука точечными источниками (например, используемыми в усовершенствованном AudioBIFS-стандарте)- Lower computational complexity compared to completely filling the inside of a spatially extended sound source with point sources (for example, used in the advanced AudioBIFS standard)

- Меньший потенциал для деструктивных помех между сигналами точечных источников- Less potential for destructive interference between point source signals

- Компактный размер информации потока битов (аппроксимаций геометрической формы, одной или более форм сигналов)- Compact size of bitstream information (approximations of geometry, one or more waveforms)

- Обеспечивает возможность использования унаследованных записей (например, стереозаписей фортепьяно), которые сформированы для потребления музыки, для целей VR/AR-рендеринга- Provides the ability to use legacy recordings (such as stereo piano recordings) that are shaped for music consumption for VR/AR rendering purposes

Далее представляются различные практические примеры реализации:The following are various practical implementation examples:

- Сферический пространственно протяженный источник звука- Spherical spatially extended sound source

- Эллипсоидный пространственно протяженный источник звука- Ellipsoidal spatially extended sound source

- Линейный пространственно протяженный источник звука- Linear spatially extended sound source

- Кубоидный пространственно протяженный источник звука- Cuboid spatially extended sound source

- Зависимые от расстояния периферийные точечные источники- Distance dependent peripheral point sources

- Пространственно протяженный источник звука в форме фортепьяно- Spatially extended sound source in the form of a piano

Как описано в вариантах осуществления изобретаемого способа или оборудования выше, могут применяться различные способы для определения местоположения периферийных точечных источников. Следующие практические примеры демонстрируют некоторые изолированные способы в конкретных случаях. В полной реализации варианта осуществления изобретаемого способа или оборудования, различные способы могут комбинироваться надлежащим образом с учетом вычислительной сложности, назначения применения, качества звучания и простоты реализации.As described in the embodiments of the inventive method or equipment above, various methods can be used to determine the location of peripheral point sources. The following practical examples demonstrate some isolated methods in specific cases. In a complete implementation of an embodiment of an inventive method or equipment, the various methods can be combined appropriately in view of computational complexity, intended use, audio quality, and ease of implementation.

Геометрия пространственно протяженных источников звука указывается в качестве зеленой поверхностной ячеистой сетки. Следует отметить, что визуализация ячеистой сетки не подразумевает, что геометрия пространственно протяженных источников звука описывается посредством многоугольного способа, поскольку фактически геометрия пространственно протяженных источников звука может формироваться из параметрической спецификации. Позиция слушателя указывается посредством синего треугольника. В нижеприведенных примерах, плоскость картинки выбирается в качестве плоскости проекции и иллюстрируется в качестве прозрачной серой плоскости, которая указывает конечный поднабор плоскости проекции. Проецируемая геометрия пространственно протяженного источника звука на плоскость проекции проиллюстрирована с такой же поверхностной ячеистой сеткой в зеленом цвете. Периферийные точечные источники на проецируемой выпуклой оболочке проиллюстрированы как красные кресты на плоскости проекции. Задние проецируемые периферийные точечные источники на геометрию пространственно протяженных источников звука проиллюстрированы как красные точки. Соответствующие периферийные точечные источники на проецируемой выпуклой оболочке и задние проецируемые периферийные точечные источники на геометрии пространственно протяженных источников звука соединяются посредством красных линий, чтобы помогать идентифицировать визуальное соответствие. Позиции всех предусмотренных объектов проиллюстрированы в декартовой системе координат с единицами в метрах. Выбор проиллюстрированной системы координат не подразумевает то, что предусмотренные вычисления выполняются с декартовыми координатами.The geometry of spatially extended sound sources is indicated as a green surface mesh. It should be noted that the mesh visualization does not imply that the geometry of spatially extended sound sources is described in a polygonal manner, since in fact the geometry of spatially extended sound sources may be generated from a parametric specification. The listener position is indicated by a blue triangle. In the examples below, the picture plane is chosen as the projection plane and illustrated as a transparent gray plane that indicates the final subset of the projection plane. The projected geometry of a spatially extended sound source onto the projection plane is illustrated with the same surface mesh in green. Peripheral point sources on the projected convex hull are illustrated as red crosses on the projection plane. Rear projected peripheral point sources onto the geometry of spatially extended sound sources are illustrated as red dots. Corresponding peripheral point sources on the projected convex hull and rear projected peripheral point sources on the spatially extended sound source geometry are connected by red lines to help identify the visual match. The positions of all envisaged objects are illustrated in the Cartesian coordinate system with units in meters. The choice of the illustrated coordinate system does not imply that the calculations provided are performed with Cartesian coordinates.

Первый пример на фиг. 2 рассматривает сферический пространственно протяженный источник звука. Сферический пространственно протяженный источник звука имеет фиксированный размер и фиксированную позицию относительно слушателя. Три других набора по три, пять и восемь периферийных точечных источников выбираются на проецируемой выпуклой оболочке. Все три набора периферийных точечных источников выбираются с равномерным расстоянием на кривой выпуклой оболочки. Смещенные позиции периферийных точечных источников на кривой выпуклой оболочки намеренно выбираются таким образом, что горизонтальная протяженность геометрии пространственно протяженных источников звука хорошо представляется.The first example in Fig. 2 considers a spherical spatially extended sound source. A spherical spatially extended sound source has a fixed size and a fixed position relative to the listener. Three other sets of three, five, and eight peripheral point sources are selected on the projected convex hull. All three sets of peripheral point sources are chosen with uniform spacing on the convex hull curve. The offset positions of the peripheral point sources on the curve of the convex hull are deliberately chosen such that the horizontal extent of the geometry of the spatially extended sound sources is well represented.

Фиг. 2 иллюстрирует сферический пространственно протяженный источник звука с различными числами (т.е. 3 (верхний), 5 (средний) и 8 (нижний)) периферийных точечных источников, равномерно распределенных на выпуклой оболочке.Fig. 2 illustrates a spherical spatially extended sound source with various numbers (ie 3 (upper), 5 (middle) and 8 (lower)) of peripheral point sources uniformly distributed on a convex hull.

Следующий пример на фиг. 3 рассматривает эллипсоидный пространственно протяженный источник звука. Эллипсоидный пространственно протяженный источник звука имеет фиксированную форму, позицию и вращение в трехмерном пространстве. Четыре периферийных точечных источника выбираются в этом примере. Три различных способа определения местоположения периферийных точечных источников примерно иллюстрируются:The next example in Fig. 3 considers an ellipsoidal spatially extended sound source. An ellipsoidal spatially extended sound source has a fixed shape, position and rotation in three-dimensional space. Four peripheral point sources are selected in this example. The three different ways of locating peripheral point sources are roughly illustrated:

a) два периферийных точечных источника размещаются в двух горизонтальных точках экстремума, и два периферийных точечных источника размещаются в двух вертикальных точках экстремума. При этом позиционирование точек экстремума является простым и зачастую надлежащим. Этот пример показывает то, что этот способ может давать в результате местоположения периферийных точечных источников, которые находятся относительно близко друг к другу.a) two peripheral point sources are placed at two horizontal extreme points and two peripheral point sources are placed at two vertical extreme points. At the same time, the positioning of extremum points is simple and often appropriate. This example shows what this method can produce as a result of the location of peripheral point sources that are relatively close to each other.

b) Все четыре периферийных точечных источника распределяются равномерно на проецируемой выпуклой оболочке. Смещение местоположения периферийных точечных источников выбирается таким образом, что местоположение самого верхнего периферийного точечного источника совпадает с местоположением самого верхнего периферийного точечного источника в a). Можно видеть, что вариант выбора смещения местоположения периферийного точечного источника имеет значительное влияние на представление геометрической формы через периферийные точечные источники.b) All four peripheral point sources are distributed evenly on the projected convex hull. The position offset of the peripheral point sources is chosen such that the position of the uppermost peripheral point source is the same as the position of the uppermost peripheral point source in a). It can be seen that the selection of the offset location of the peripheral point source has a significant impact on the representation of the geometry through the peripheral point sources.

c) Все четыре периферийных точечных источника распределяются равномерно на сжатой проецируемой выпуклой оболочке. Местоположение смещения местоположений периферийных точечных источников равно местоположению смещения, выбранному в b). Операция сжатия проецируемой выпуклой оболочки выполняется к центру тяжести проецируемой выпуклой оболочки с независимым от направления коэффициентом растягивания.c) All four peripheral point sources are distributed uniformly on the compressed projected convex hull. The offset location of the peripheral point source locations is equal to the offset location selected in b). The operation of shrinking the projected convex hull is performed towards the center of gravity of the projected convex hull with a direction-independent stretch factor.

Фиг. 3 иллюстрирует эллипсоидный пространственно протяженный источник звука с четырьмя периферийными точечными источниками согласно трем различным способам определения местоположения периферийных точечных источников: a/верхний) горизонтальные и вертикальные точки экстремума, b/средний) равномерно распределенные точки на выпуклой оболочке, c/нижний) равномерно распределенные точки на сжатой выпуклой оболочке.Fig. 3 illustrates an ellipsoid spatially extended sound source with four peripheral point sources according to three different ways of locating peripheral point sources: a/upper) horizontal and vertical extremum points, b/middle) evenly spaced points on a convex hull, c/lower) evenly spaced points on a compressed convex hull.

Следующий пример на фиг. 4 рассматривает линейный пространственно протяженный источник звука. Исходя из того, что предыдущие примеры рассматривают объемную геометрию пространственно протяженных источников звука, этот пример демонстрирует то, что геометрия пространственно протяженных источников звука может выбираться в качестве одномерного объекта в трехмерном пространстве. Вложенный чертеж a) иллюстрирует два периферийных точечных источника, размещенные на точках экстремума геометрии конечных линейных пространственно протяженных источников звука. b) Два периферийных точечных источника размещаются в точках экстремума геометрии конечных линейных пространственно протяженных источников звука, и один дополнительный точечный источник размещается в середине линии. Как описано в вариантах осуществления изобретаемого способа или оборудования, размещение дополнительных точечных источников в пределах геометрии пространственно протяженных источников звука может помогать заполнять большие зазоры в больших геометриях пространственно протяженных источников звука. c) Одинаковая геометрия линейных пространственно протяженных источников звука с тем, что указано в a) и b) рассматривается; тем не менее, относительный угол к слушателю изменен таким образом, что проецируемая длина линейной геометрии значительно меньше. Как описано в вариантах осуществления изобретаемого способа или оборудования выше, уменьшенный размер проецируемой выпуклой оболочки может представляться посредством сокращенного числа периферийных точечных источников, в этом конкретном примере, посредством одного периферийного точечного источника, расположенного в центре линейной геометрии.The next example in Fig. 4 considers a linear spatially extended sound source. Based on the fact that the previous examples consider the volumetric geometry of spatially extended sound sources, this example demonstrates that the geometry of spatially extended sound sources can be selected as a one-dimensional object in three-dimensional space. Attached drawing a) illustrates two peripheral point sources placed at the extremum points of the geometry of finite linear spatially extended sound sources. b) Two peripheral point sources are placed at the extreme points of the geometry of the final linear spatially extended sound sources, and one additional point source is placed in the middle of the line. As described in embodiments of the inventive method or equipment, placing additional point sources within the geometry of spatially extended sound sources can help fill large gaps in large geometries of spatially extended sound sources. c) The same geometry of linear spatially extended sound sources as in a) and b) is considered; however, the relative angle to the listener has been changed in such a way that the projected length of the linear geometry is much shorter. As described in the inventive method or equipment embodiments above, the reduced size of the projected convex hull can be represented by a reduced number of peripheral point sources, in this particular example, by a single peripheral point source located at the center of the line geometry.

Фиг. 4 иллюстрирует линейный пространственно протяженный источник звука с тремя различными способами для того, чтобы распределять местоположение периферийных точечных источников: a/верхний) две точки экстремума на проецируемой выпуклой оболочке; b/средний) две точки экстремума на проецируемой выпуклой оболочке с дополнительным точечным источником в центре линии; c/нижний) по одному периферийному точечному источнику в центре выпуклости, поскольку проецируемая выпуклая оболочка вращаемой линии является слишком небольшой для того, чтобы разрешать более одного периферийного точечного источника.Fig. 4 illustrates a linear spatially extended sound source with three different ways to distribute the location of peripheral point sources: a/top) two extremum points on the projected convex hull; b/middle) two extremum points on a projected convex hull with an additional point source at the center of the line; c/lower) over one peripheral point source at the center of the bulge, because the projected convex hull of the rotating line is too small to resolve more than one peripheral point source.

Следующий пример на фиг. 5 рассматривает кубоидный пространственно протяженный источник звука. Кубоидный пространственно протяженный источник звука имеет фиксированный размер и фиксированное местоположение; тем не менее, относительная позиция слушателя изменяется. Вложенные чертежи a) и b) иллюстрируют отличающиеся способы размещения четырех периферийных точечных источников на проецируемой выпуклой оболочке. Заднепроецируемые местоположения периферийных точечных источников уникально определяются посредством выбора на проецируемой выпуклой оболочке. c) иллюстрирует четыре периферийных точечных источника, которые не имеют хорошо разделенные заднепроекционные местоположения. Вместо этого, расстояния местоположений периферийных точечных источников выбираются равными расстоянию центра тяжести геометрии пространственно протяженных источников звука.The next example in Fig. 5 considers a cuboid spatially extended sound source. A cuboid spatially extended sound source has a fixed size and a fixed location; however, the listener's relative position changes. Attached drawings a) and b) illustrate different ways of placing four peripheral point sources on a projected convex hull. Rear projected locations of peripheral point sources are uniquely determined by selection on the projected convex hull. c) illustrates four peripheral point sources that do not have well-separated rear projection locations. Instead, the distances of the locations of the peripheral point sources are chosen to be equal to the distance of the center of gravity of the geometry of the spatially extended sound sources.

Фиг. 5 иллюстрирует кубоидный пространственно протяженный источник звука с тремя различными способами для того, чтобы распределять периферийные точечные источники: a/верхний) два периферийных точечных источника на горизонтальной оси и два периферийных точечных источника на вертикальной оси; b/средний) два периферийных точечных источника на горизонтальных точках экстремума проецируемой выпуклой оболочки и два периферийных точечных источника на вертикальных точках экстремума проецируемой выпуклой оболочки; c/нижний) заднепроецируемые расстояния периферийного точечного источника выбираются таким образом, что они равны расстоянию центра тяжести геометрии пространственно протяженных источников звука.Fig. 5 illustrates a cuboid spatially extended sound source with three different ways to distribute peripheral point sources: a/upper) two peripheral point sources on the horizontal axis and two peripheral point sources on the vertical axis; b/middle) two peripheral point sources at the horizontal extremum points of the projected convex hull and two peripheral point sources at the vertical extremum points of the projected convex hull; c/bottom) the rear projection distances of the peripheral point source are chosen such that they are equal to the distance of the center of gravity of the geometry of the spatially extended sound sources.

Следующий пример на фиг. 6 рассматривает сферический пространственно протяженный источник звука фиксированного размера и формы, но на трех различных расстояниях относительно позиции слушателя. Периферийные точечные источники распределяются равномерно на кривой выпуклой оболочки. Число периферийных точечных источников динамически определяется из длины кривой выпуклой оболочки и минимального расстояния между возможными местоположениями периферийных точечных источников. a) Сферический пространственно протяженный источник звука находится на небольшом расстоянии таким образом, что четыре периферийных точечных источника выбираются на проецируемой выпуклой оболочке. b) Сферический пространственно протяженный источник звука находится на среднем расстоянии таким образом, что три периферийных точечных источника выбираются на проецируемой выпуклой оболочке. a) Сферический пространственно протяженный источник звука находится на большом расстоянии таким образом, что только два периферийных точечных источника выбираются на проецируемой выпуклой оболочке. Как описано в вариантах осуществления изобретаемого способа или оборудования выше, число периферийных точечных источников также может определяться из протяженности, представленной в сферических угловых координатах.The next example in Fig. 6 considers a spherical spatially extended sound source of a fixed size and shape, but at three different distances from the listener's position. Peripheral point sources are distributed evenly on the curve of the convex hull. The number of peripheral point sources is dynamically determined from the length of the curve of the convex hull and the minimum distance between possible locations of peripheral point sources. a) A spherical spatially extended sound source is located at a small distance such that four peripheral point sources are selected on the projected convex hull. b) A spherical spatially extended sound source is at an average distance such that three peripheral point sources are selected on the projected convex hull. a) A spherical spatially extended sound source is at a great distance such that only two peripheral point sources are selected on the projected convex hull. As described in the embodiments of the inventive method or equipment above, the number of peripheral point sources can also be determined from the extent represented in spherical angular coordinates.

Фиг. 6 иллюстрирует сферический пространственно протяженный источник звука равного размера, но на различных расстояниях: a/верхний) небольшое расстояние с четырьмя периферийными точечными источниками, распределенными равномерно на проецируемой выпуклой оболочке; b/средний) среднее расстояние с тремя периферийными точечными источниками, распределенными равномерно на проецируемой выпуклой оболочке; c/нижний) большое расстояние с двумя периферийными точечными источниками, распределенными равномерно на проецируемой выпуклой оболочке.Fig. 6 illustrates a spherical spatially extended sound source of equal size but at different distances: a/upper) a small distance with four peripheral point sources distributed evenly on the projected convex hull; b/medium) average distance with three peripheral point sources distributed evenly on the projected convex hull; c/bottom) long distance with two peripheral point sources distributed evenly on the projected convex hull.

Последний пример на фиг. 7 и 8 рассматривает пространственно протяженный источник звука в форме фортепьяно, размещенный в виртуальном мире. Пользователь носит наголовный дисплей (HMD) и наушники. Пользователю представляется сцена в стиле виртуальной реальности, состоящая из открытого мирового полотна и трехмерной модели на основе пианино, стоящей на полу в зоне свободного перемещения (см. фиг. 7). Открытое мировое полотно представляет собой сферической статическое изображение, проецируемое на сферу, окружающую пользователя. В данном случае, открытое мировое полотно иллюстрирует голубое небо с белыми облаками. Пользователь имеет возможность проходить вокруг и смотреть и слушать фортепьяно из различных углов. В этой сцене, фортепьяно подготавливается посредством рендеринга либо в качестве одноточечного источника, размещенного в центре тяжести, либо в качестве пространственно протяженного источника звука с тремя периферийными точечными источниками на проецируемой выпуклой оболочке (см. фиг. 8). Эксперименты с рендерингом показывают значительно превосходящий реализм способа рендеринга периферийного точечного источника по сравнению с рендерингом в качестве одноточечного источника.The last example in Fig. 7 and 8 considers a spatially extended piano-shaped sound source placed in a virtual world. The user wears a head-mounted display (HMD) and headphones. The user is presented with a virtual reality-style scene consisting of an open world canvas and a piano-based 3D model standing on the floor in a free-roaming zone (see FIG. 7). An open world canvas is a spherical static image projected onto a sphere surrounding the user. In this case, the open world canvas illustrates a blue sky with white clouds. The user is able to walk around and watch and listen to the piano from different angles. In this scene, the piano is rendered as either a single point source placed at the center of gravity or as a spatially extended sound source with three peripheral point sources on a projected convex hull (see Fig. 8). Rendering experiments show a far superior realism to the way a peripheral point source is rendered compared to rendering as a single point source.

Чтобы упрощать вычисление местоположений периферийных точечных источников, геометрия фортепьяно абстрагируется в эллипсоидную форму с аналогичными размерами, см. фиг. 7. Дополнительно, два сменных точечных источника размещаются в левой и правой точках экстремума на экваториальной линии, тогда как третья сменная точка остается в северном полюсе, см. фиг. 8. Эта компоновка гарантирует соответствующую горизонтальную ширину источника из всех углов при сильно сниженных вычислительных затратах.To simplify computing the locations of peripheral point sources, the piano geometry is abstracted into an ellipsoidal shape with similar dimensions, see FIG. 7. Additionally, two interchangeable point sources are placed at the left and right extremum points on the equatorial line, while the third interchangeable point remains at the north pole, see FIG. 8. This arrangement guarantees a consistent horizontal source width from all angles at a greatly reduced computational cost.

Фиг. 7 иллюстрирует пространственно протяженный источник звука в форме фортепьяно (проиллюстрирован зеленым цветом) с приблизительной параметрической эллипсоидной формой (указываемой в качестве красной ячеистой сетки).Fig. 7 illustrates a spatially extended piano-shaped sound source (illustrated in green) with an approximate parametric ellipsoidal shape (indicated as a red mesh).

Фиг. 8 иллюстрирует пространственно протяженный источник звука в форме фортепьяно с тремя периферийными точечными источниками, распределенными по вертикальным точкам экстремума проецируемой выпуклой оболочки и вертикальной верхней позиции проецируемой выпуклой оболочки. Следует отметить, что для лучшей визуализации, периферийные точечные источники размещаются на растянутой проецируемой выпуклой оболочке.Fig. 8 illustrates a spatially extended piano-shaped sound source with three peripheral point sources distributed over the vertical extremum points of the projected convex hull and the vertical top position of the projected convex hull. It should be noted that for better visualization, peripheral point sources are placed on a stretched projected convex hull.

Далее предоставляются конкретные признаки вариантов осуществления изобретения. Характеристики представленных вариантов осуществления являются следующими:The following provides specific features of the embodiments of the invention. The characteristics of the presented embodiments are as follows:

Чтобы заполнять воспринимаемое акустическое пространство пространственно протяженного источника звука, предпочтительно не вся его внутренняя часть заполняется декоррелированными точечными источниками (периферийными точечными источниками), а только его периферия, которая обращена к слушателю (например, "проекция выпуклой оболочки пространственно протяженного источника звука к слушателю"). В частности, это означает то, что местоположения периферийных точечных источников не присоединяются к геометрии пространственно протяженных источников звука, а вычисляются динамически с учетом относительной позиции пространственно протяженного источника звука относительно позиции слушателя.In order to fill the perceived acoustic space of a spatially extended sound source, preferably not all of its interior is filled with decorrelated point sources (peripheral point sources), but only its periphery, which faces the listener (for example, "projection of the convex shell of a spatially extended sound source towards the listener") . In particular, this means that the locations of peripheral point sources are not attached to the geometry of the spatially extended sound sources, but are calculated dynamically, taking into account the relative position of the spatially extended sound source relative to the position of the listener.

Динамическое вычисление периферийных точечных источников (число и местоположение)Dynamic calculation of peripheral point sources (number and location)

Аппроксимация формы пространственно протяженного источника звука используется (для сценария с использованием сжатого представления: передается в качестве части потока битов).An approximation of the shape of a spatially extended sound source is used (for a scenario using a compressed representation: transmitted as part of a bitstream).

Применение описанной технологии может задаваться в качестве части 6DoF VR/AR-аудиостандарта. В этом контексте, предусмотрен классический сценарий на основе кодирования/потока битов/декодера (+модуля рендеринга):The application of the described technology may be specified as part of the 6DoF VR/AR audio standard. In this context, a classic scenario based on encoding/bitstream/decoder (+renderer) is provided:

В кодере, форма пространственно протяженного источника звука должна кодироваться как вспомогательная информация вместе с "базисными" формами сигнала пространственно протяженного источника звука, которые могут представлять собой:At the encoder, the shape of the spatially extended sound source shall be encoded as ancillary information along with the "basic" waveforms of the spatially extended sound source, which may be:

- моносигнал, или- mono signal, or

- стереосигнал (предпочтительно декоррелированный в достаточной степени), или- a stereo signal (preferably sufficiently decorrelated), or

- еще больше записанных сигналов (также предпочтительно декоррелированных в достаточной степени),- even more recorded signals (also preferably sufficiently decorrelated),

- характеризующие пространственно протяженный источник звука. Эти формы сигналов могут кодироваться с низкой скоростью передачи битов.- characterizing a spatially extended sound source. These waveforms may be encoded at a low bit rate.

В декодере/модуле рендеринга, форма пространственно протяженного источника звука и соответствующие формы сигналов извлекаются из потока битов и используются для рендеринга пространственно протяженного источника звука, как описано выше.At the decoder/renderer, the shape of the spatially extended sound source and the corresponding waveforms are extracted from the bitstream and used to render the spatially extended sound source, as described above.

В зависимости от используемых вариантов осуществления и в качестве альтернатив описанным вариантам осуществления, следует отметить, что интерфейс может реализовываться как фактический модуль отслеживания или детектор для обнаружения позиции слушателя. Тем не менее, позиция прослушивания типично должна приниматься из внешнего устройства модуля отслеживания и подаваться в оборудование воспроизведения через интерфейс. Тем не менее, интерфейс может представлять просто ввод данных для выходных данных из внешнего модуля отслеживания либо также может представлять непосредственно модуль отслеживания.Depending on the embodiments used, and as alternatives to the embodiments described, it should be noted that the interface may be implemented as an actual tracker or listener position detector. However, the listening position would typically be received from an external tracker device and provided to the playback equipment via an interface. However, the interface may simply represent input to output from an external tracker, or it may also represent the tracker itself.

Кроме того, как указано, дополнительные вспомогательные аудиоисточники между периферийным источником звука могут требоваться.In addition, as indicated, additional auxiliary audio sources between the peripheral sound source may be required.

Кроме того, обнаружено, что левый/правый периферийные источники и необязательно горизонтально (относительно слушателя) разнесенные вспомогательные источники являются более важными для перцепционного ощущения, чем вертикально разнесенные периферийные источники звука, т.е. периферийный источник звука сверху и снизу от пространственно протяженного источника звука. Когда, например, ресурсы являются дефицитными, предпочтительно использовать, по меньшей мере, горизонтально разнесенные периферийные (и необязательно вспомогательные) источники звука, тогда как вертикально разнесенные периферийные источники звука могут опускаться в интересах экономии ресурсов обработки.In addition, it has been found that left/right peripheral sources and optionally horizontally (relative to the listener) spaced auxiliary sources are more important to the perceptual experience than vertically spaced peripheral sound sources, ie. a peripheral sound source above and below a spatially extended sound source. When, for example, resources are scarce, it is preferable to use at least horizontally spaced peripheral (and optionally auxiliary) sound sources, while vertically spaced peripheral sound sources may be omitted in the interest of saving processing resources.

Кроме того, как указано, генератор потоков битов может реализовываться, чтобы формировать поток битов только с одним звуковым сигналом для пространственно протяженного источника звука, и оставшиеся звуковые сигналы формируются на стороне декодера или на стороне воспроизведения посредством декорреляции. Когда только один сигнал существует, и когда все пространство должно быть заполнено одинаково этим одним сигналом, информация местоположения вообще не требуется. Тем не менее, может быть полезным иметь, в такой ситуации, по меньшей мере, дополнительную информацию относительно геометрии пространственно протяженного источника звука, вычисленную посредством модуля вычисления геометрической информации, такого как модуль, проиллюстрированный как 220 на фиг. 10.In addition, as indicated, the bitstream generator can be implemented to generate a bitstream with only one audio signal for a spatially extended audio source, and the remaining audio signals are generated on the decoder side or on the reproduction side by decorrelation. When only one signal exists, and when all space is to be filled equally by that one signal, no location information is needed at all. However, it may be useful to have, in such a situation, at least additional information regarding the geometry of the spatially extended sound source calculated by a geometric information calculation module, such as the module illustrated as 220 in FIG. ten.

Здесь следует отметить, что все альтернативы или аспекты, поясненные выше, и все аспекты, заданные посредством независимых пунктов в нижеприведенной формуле изобретения, могут использоваться отдельно, т.е. без альтернатив или целей, отличных от предполагаемой альтернативы, цели или независимого пункта формулы изобретения. Тем не менее, в других вариантах осуществления, две или более из альтернатив или аспектов или независимых пунктов формулы изобретения могут комбинироваться друг с другом, и, в других вариантах осуществления, все аспекты или альтернативы и все независимые пункты формулы изобретения могут комбинироваться друг с другом.It should be noted here that all alternatives or aspects explained above and all aspects defined by independent claims in the following claims may be used alone, i. without alternatives or purposes other than the intended alternative, purpose or independent claim. However, in other embodiments, two or more of the alternatives or aspects or independent claims may be combined with each other, and in other embodiments, all aspects or alternatives and all independent claims may be combined with each other.

Изобретаемое кодированное описание звукового поля может сохраняться на цифровом носителе хранения данных или энергонезависимом носителе хранения данных либо может передаваться по передающей среде, такой как беспроводная среда передачи или проводная среда передачи, к примеру, Интернет.The inventive encoded sound field description may be stored on a digital storage medium or a non-volatile storage medium, or may be transmitted over a transmission medium such as a wireless transmission medium or a wired transmission medium such as the Internet.

Хотя некоторые аспекты описаны в контексте оборудования, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего оборудования.Although some aspects are described in the context of equipment, it is obvious that these aspects also represent a description of the corresponding method, with the block or device corresponding to a method step or a feature of a method step. Likewise, aspects described in the context of a method step also provide a description of the associated block or element, or feature of the associated equipment.

В зависимости от некоторых требований к реализации, варианты осуществления изобретения могут реализовываться в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронночитаемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ.Depending on some implementation requirements, embodiments of the invention may be implemented in hardware or in software. The implementation may be performed using a digital storage medium, such as a floppy disk, DVD, CD, ROM, PROM, EPROM, EEPROM, or flash memory, having electronically readable control signals stored that interact (or are capable of interacting) with a programmable computer system in such a manner that the corresponding method is carried out.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.Some embodiments of the invention comprise a storage medium having electronically readable control signals that are capable of interacting with a programmable computer system such that one of the methods described herein is implemented.

В общем, варианты осуществления настоящего изобретения могут реализовываться как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может сохраняться на машиночитаемом носителе.In general, embodiments of the present invention may be implemented as a computer program product with program code, wherein the program code is configured to perform one of the methods when the computer program product is running on the computer. The program code may, for example, be stored on a computer-readable medium.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе или на энергонезависимом носителе хранения данных.Other embodiments comprise a computer program for carrying out one of the methods described herein stored on a computer-readable medium or non-volatile storage medium.

Другими словами, вариант осуществления изобретаемого способа в силу этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.In other words, an embodiment of the inventive method is therefore a computer program having program code for carrying out one of the methods described herein when the computer program is running on a computer.

Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе.Therefore, a further embodiment of the inventive methods is a storage medium (digital storage medium or computer-readable medium) containing a recorded computer program for carrying out one of the methods described herein.

Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.Therefore, an additional embodiment of the inventive method is a stream of data or a sequence of signals representing a computer program for implementing one of the methods described herein. The data stream or signal sequence, for example, may be configured to be transmitted over a data connection, such as the Internet.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.An additional embodiment comprises processing means, such as a computer or programmable logic device, configured to perform one of the methods described herein.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.An additional embodiment comprises a computer having a computer program installed to implement one of the methods described herein.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного оборудования.In some embodiments, a programmable logic device (eg, a field programmable gate array) may be used to perform some or all of the functionality of the methods described herein. In some embodiments, a user-programmable gate array may interface with a microprocessor to perform one of the methods described herein. In general, the methods are preferably carried out by any hardware.

Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения установок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.The above described embodiments are merely illustrative of the principles of the present invention. It should be understood that modifications and changes to the settings and details described herein should be apparent to those skilled in the art. Therefore, they are intended to be limited only by the scope of the following claims, and not by the specific details provided through the description and explanation of the embodiments herein.

БиблиографияBibliography

Alary, B., Politis, A. и Välimäki, V., 2017 год, "Velvet Noise Decorrelator".Alary, B., Politis, A. and Välimäki, V., 2017, "Velvet Noise Decorrelator".

Baumgarte, F. и Faller, C., 2003 год, "Binaural Cue Coding-Part I: Psychoacoustic Fundamentals and Design Principles", Speech and Audio Processing, IEEE Transactions on, 11(6), стр. 509-519.Baumgarte, F. and Faller, C., 2003, "Binaural Cue Coding-Part I: Psychoacoustic Fundamentals and Design Principles", Speech and Audio Processing, IEEE Transactions on, 11(6), pp. 509-519.

Blauert, J., 2001 год, Spatial hearing (3 Ausg.). Cambridge; Mass: MIT Press.Blauert, J., 2001, Spatial hearing (3 Ausg.). Cambridge; Mass: MIT Press.

Faller, C. и Baumgarte, F., 2003 год, "Binaural Cue Coding-Part II: Schemes and Applications", Speech and Audio Processing, IEEE Transactions on, 11(6), стр. 520-531.Faller, C. and Baumgarte, F., 2003, "Binaural Cue Coding-Part II: Schemes and Applications", Speech and Audio Processing, IEEE Transactions on, 11(6), pp. 520-531.

Kendall, G. S., 1995 год, "The Decorrelation of Audio Signals and Its Impact on Spatial Imagery", Computer Music Journal, 19(4), стр. 71-87.Kendall, G. S., 1995, "The Decorrelation of Audio Signals and Its Impact on Spatial Imagery", Computer Music Journal, 19(4), pp. 71-87.

Lauridsen, H., 1954 год, "Experiments Concerning Different Kinds of Room-Acoustics Recording", Ingenioren, 47.Lauridsen, H., 1954, "Experiments Concerning Different Kinds of Room-Acoustics Recording", Ingenioren, 47.

Pihlajamäki, T., Santala, O. и Pulkki, V., 2014 год, "Synthesis of Spatially Extended Virtual Source with Time-Frequency Decomposition of Mono Signals", Journal of the Audio Engineering Society, 62(7/8), стр. 467-484.Pihlajamäki, T., Santala, O. and Pulkki, V., 2014, "Synthesis of Spatially Extended Virtual Source with Time-Frequency Decomposition of Mono Signals", Journal of the Audio Engineering Society, 62(7/8), p. 467-484.

Potard, G., 2003 год, "The study on sound source apparent shape and wideness".Potard, G., 2003, "The study on sound source apparent shape and wideness".

Potard, G. и Burnett, I., 2004 год, "Decorrelation Techniques for the Rendering of Apparent Sound Source Width in 3D Audio Displays".Potard, G. and Burnett, I., 2004, "Decorrelation Techniques for the Rendering of Apparent Sound Source Width in 3D Audio Displays".

Pulkki, V., 1997 год, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", Journal of the Audio Engineering Society, 45(6), стр. 456-466.Pulkki, V., 1997, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", Journal of the Audio Engineering Society, 45(6), pp. 456-466.

Pulkki, V., 1999 год, "Uniform spreading of amplitude panned virtual sources".Pulkki, V., 1999, "Uniform spreading of amplitude panned virtual sources".

Pulkki, V., 2007 год, "Spatial Sound Reproduction with Directional Audio Coding", J. Audio Eng. Soc, 55(6), стр. 503-516.Pulkki, V., 2007, "Spatial Sound Reproduction with Directional Audio Coding", J. Audio Eng. Soc, 55(6), pp. 503-516.

Pulkki, V., Laitinen, M.-V. и Erkut, C., 2009 год, "Efficient Spatial Sound Synthesis for Virtual Worlds".Pulkki, V., Laitinen, M.-V. and Erkut, C., 2009, "Efficient Spatial Sound Synthesis for Virtual Worlds".

Schlecht, S. J., Alary, B., Välimäki, V. и Habets, E. A., 2018 год, "Optimized Velvet-Noise Decorrelator".Schlecht, S. J., Alary, B., Välimäki, V. and Habets, E. A., 2018, "Optimized Velvet-Noise Decorrelator".

Schmele, T. и Sayin, U., 2018 год, "Controlling the Apparent Source Size in Ambisonics Unisng Decorrelation Filters".Schmele, T. and Sayin, U., 2018, "Controlling the Apparent Source Size in Ambisonics Unisng Decorrelation Filters".

Schmidt, J. и Schröder, E. F., 2004 год, "New and Advanced Features for Audio Presentation in the MPEG-4 Standard".Schmidt, J. and Schröder, E. F., 2004, "New and Advanced Features for Audio Presentation in the MPEG-4 Standard".

Verron, C., Aramaki, M., Kronland-Martinet, R. и Pallone, G., 2010 год, "The 3-D Immersive Synthesizer for Environmental Sounds", Audio, Speech and Language Processing, IEEE Transactions on, title="A Backward-Compatible Multichannel Audio Codec", 18(6), стр. 1550-1561.Verron, C., Aramaki, M., Kronland-Martinet, R. and Pallone, G., 2010, "The 3-D Immersive Synthesizer for Environmental Sounds", Audio, Speech and Language Processing, IEEE Transactions on, title= "A Backward-Compatible Multichannel Audio Codec", 18(6), pp. 1550-1561.

Zotter, F. и Frank, M., 2013 год, "Efficient Phantom Source Widening", Archives of Acoustics, 38(1), стр. 27-37.Zotter, F. and Frank, M., 2013, "Efficient Phantom Source Widening", Archives of Acoustics, 38(1), pp. 27-37.

Zotter, F., Frank, M., Kronlachner, M. и Choi, J.-W., 2014 год, "Efficient Phantom Source Widening and Diffuseness in Ambisonics".Zotter, F., Frank, M., Kronlachner, M. and Choi, J.-W., 2014, "Efficient Phantom Source Widening and Diffuseness in Ambisonics".

Claims

1. Equipment for reproducing a spatially extended sound source having a given position and geometry in space, the equipment comprising:

- interface (100) for receiving the position of the listener;

a projector for calculating a projection of a two-dimensional or three-dimensional shell associated with a spatially extended sound source onto a projection plane using the position of the listener, information regarding the geometry of the spatially extended sound source, and information regarding the position of the spatially extended sound source;

a sound position calculation module for calculating the positions of at least two sound sources for a spatially extended sound source using a projection plane; and

- a rendering module for rendering at least two sound sources at said positions in order to obtain a reproduction of a spatially extended sound source having two or more output signals, while the rendering module is configured to use different audio signals for different positions, while different audio signals associated with a spatially extended sound source.

2. Equipment according to item 1,

- in which the detector is configured to detect the instantaneous position of the listener in space using a tracking system, or the interface (100) is configured to use positional data entered through the interface.

3. Equipment according to claim 1, configured to receive a scene description, wherein the scene description contains information regarding a given position and information regarding a given geometry of a spatially extended sound source and at least one sound signal associated with a spatially extended sound source,

- wherein the equipment further comprises a scene description parser (180) for parsing the scene description in order to extract information regarding a given position (341), information regarding a given geometry (331) and at least one signal (301, 302) of the sound source, or

- while the description of the scene contains for a spatially extended sound source at least two basic sound signals (301, 302) and location information (321) for each basic sound signal regarding information regarding the geometry (331) of a spatially extended sound source, and at the same time the module (140) calculation of sound positions is configured to use the location information for at least two basic signals when calculating the positions of at least two sound sources using the projection plane.

4. Equipment according to item 1,

- in which the projector (120) is configured to calculate the shell of the spatially extended sound source using information regarding the geometry (331) of the spatially extended sound source and project the shell towards the listener using the listener's position to obtain a projection of a two-dimensional or three-dimensional shell onto the projection plane , or

- at the same time, the projector (120) is configured to project the geometry of the spatially extended sound source, given by information regarding the geometry (331) of the spatially extended sound source, towards the position of the listener and calculate the shell of the projected geometry in order to obtain a projection of a two-dimensional or three-dimensional shell onto a plane projections.

5. Equipment according to item 1,

- in which the sound position calculation module (140) is configured to calculate the positions of sound sources in space from shell projection data and listener position.

6. Equipment according to item 1,

- in which the sound position calculation module (140) is configured to calculate the position in such a way that at least two sound sources are peripheral sound sources and are located on the projection plane, or

- at the same time, the sound position calculation module (140) is configured to calculate in such a way that the position of the peripheral sound source from the peripheral sound sources is located to the right of the projection plane relative to the listener, and / or to the left of the projection plane relative to the listener, and / or above the plane projection relative to the listener, and/or below the projection plane relative to the listener.

7. Equipment according to item 1,

- in which the rendering module (160) is configured to render at least two sound sources using:

- panning operations depending on the positions of the sound sources to receive speaker signals for a preset speaker setup, or

- binaural rendering operations using the transfer functions of the human hearing aid, depending on the positions of the sources, in order to receive headphone signals.

8. Equipment according to item 1,

- in which the first number of associated source signals is associated with a spatially extended sound source, and the first number is one or more than one, while the associated source signals are associated with the same spatially extended sound source,

- at the same time, the module (140) for calculating sound positions determines the second number of sound sources used for rendering a spatially extended sound source, and the second number is greater than one, and

- at the same time, the rendering module (160) contains one or more decorrelators (166) for generating a decorrelated signal from one or more signals (164) of the sources of the first number when the second number exceeds the first number.

9. Equipment according to item 1,

- in which the interface (100) is configured to take a time-varying position of the listener in space,

- while the projector (120) is configured to calculate a time-varying projection in space,

- at the same time, the sound position calculation module (140) is configured to calculate the time-varying number of sound sources or the time-varying positions of sound sources in space, and

- at the same time, the rendering module (160) is configured to render a time-varying number of sound sources or at least two sound sources at time-varying positions in space.

10. Equipment according to item 1,

- in which the interface (100) is configured to take the position of the listener with six degrees of freedom, and

- while the projector (120) is configured to calculate the projection depending on the six degrees of freedom.

11. Equipment according to claim 1, in which the projector (120) is configured to:

- calculate the projection as the plane of the picture, for example, a plane perpendicular to the listener's field of view, or

- calculate the projection as a spherical surface around the listener's head, or

- calculate the projection as a projection plane located at a predetermined distance from the center of the listener's head, or

- calculate the projection of the convex hull of a spatially extended sound source from the angle of azimuth and angle of elevation, extracted from spherical coordinates relative to the perspective of the listener's head.

12. Equipment according to item 1,

- in which the sound position calculation module (140) is configured to calculate the positions in such a way that the positions are evenly distributed around the shell projection, either in such a way that the positions are placed at the extreme or peripheral points of the shell projection, or in such a way that the positions are located in horizontal or vertical extreme or peripheral points of the shell projection.

13. Equipment according to item 1,

- in which the sound position calculation module (140) is configured to determine, in addition to the positions for peripheral sound sources, the positions for auxiliary sound sources located on or in front of, or behind, or within the projection of the shell relative to the listener.

14. Equipment according to item 1,

- in which the projector (120) is configured to additionally compress the projection of the shell, for example, to the center of gravity of the shell or projection by a variable or predetermined amount, or by various variables or predetermined values in different directions, for example, in a horizontal direction and in vertical direction.

15. Equipment according to claim. 1, in which the module (140) calculation of the positions of the sound is made with the ability to calculate in such a way that at least one additional auxiliary sound source is located on the projection plane between the left peripheral sound source and the right peripheral sound source relative to the position of the listener , or

- at the same time, the module (140) for calculating sound positions is configured to calculate in such a way that at least one additional auxiliary sound source is located on the projection plane between the left peripheral sound source and the right peripheral sound source relative to the listener's position, while one additional auxiliary source placed in the middle between the left peripheral sound source and the right peripheral sound source, or two or more additional auxiliary sources are placed at the same distance between the left peripheral sound source and the right peripheral sound source.

16. Equipment according to item 1,

- in which the sound position calculation module (140) is configured to rotate the sound positions of the spatially extended sound source, preferably around the center of gravity of the projection, in case of receiving a circular motion of the listener around the spatially extended sound source through the interface, or in the case of receiving rotation of the spatially extended sound source relative to the stationary listener through the interface.

17. Equipment according to item 1,

- in which the rendering module (160) is configured to receive, for each sound source, the opening angle depending on the distance between the listener and the sound source, and to render the sound source depending on the opening angle.

18. Equipment according to item 1,

- in which the rendering module (160) is configured to receive distance information for each sound source, and

- at the same time, the rendering module (160) is configured to render the sound source depending on the distance in such a way that the sound source placed closer to the listener is rendered with a higher volume compared to the sound source placed less close to the listener and having the same volume.

19. Equipment according to claim 1, wherein the sound position calculation module (140) is configured to:

- determine, for each sound source, a distance equal to the distance of the spatially extended sound source relative to the listener, or

- determine the distance of each sound source through the rear projection of the location of the sound source on the projection onto the geometry of the spatially extended sound source, and

- at the same time, the rendering module (160) is configured to generate sound sources using information regarding the distance.

20. Equipment according to item 1,

- in which the geometry information (331) is specified as a one-dimensional line or curve, a two-dimensional region such as an ellipse, rectangle or polygon or a group of polygons, or a three-dimensional body such as an ellipsoid, cuboid or polyhedron, and/or

- in this case, the information is specified as a parametric description or a polygonal description or a parametric representation of a polygonal description.

21. Equipment according to item 1,

- in which the sound position calculation module (140) is configured to determine the number of sound sources depending on the distance of the listener to the spatially extended sound source, while the number of sound sources is higher for a smaller distance compared to a lower number for a larger distance between the listener and spatially extended sound source.

22. Equipment according to claim. 1, configured to receive information regarding the spread introduced by a spatially extended sound source, and

wherein the projector (120) is configured to apply a compression operation to the shell or projection using the spread information to at least partially compensate for the spread.

23. Equipment according to item 1,

- in which the rendering module (160) is configured to render, in the case of positions of sound sources that are the same with each other within a given tolerance range, sound sources by combining basic signals associated with a spatially extended sound source, for example, using Givens rotation for in order to receive rotated basic signals and render rotated basic signals at positions.

24. Equipment according to item 1,

- in which the rendering module (160) is configured to perform pre-processing or post-processing when generating at least two sound sources in accordance with a position- or direction-dependent characteristic.

25. Equipment according to item 1,

- in which the spatially extended sound source has, as information regarding the geometry (331), the information that the spatially extended sound source is a spherical and ellipsoidal, linear, cuboid or piano-shaped spatially extended sound source.

26. Equipment according to claim 1, made with the ability to:

- receiving a bitstream representing a compressed description for a spatially extended sound source, wherein the bitstream contains a bitstream element (311) indicating a first number of different audio signals for a spatially extended sound source included in the bitstream or encoded audio signal received by said equipment , where the number is one or more than one,

- reading an element (311) of the bitstream and extracting a first number of different audio signals for a spatially extended audio source included in the bitstream or encoded audio signal, and

- at the same time, the rendering module (160) is configured to generate (164, 166), depending on the first number extracted from the bit stream, the third number of one or more decorrelated signals, the third number being extracted from the difference between the second number and the third number.

27. Equipment for generating a bit stream representing a compressed description for a spatially extended sound source, and the equipment contains:

- a sound provider (200) for providing at least two different sound signals (301, 302) for a spatially extended sound source;

- a geometry provider (220) for computing information (331, 341) regarding geometry for a spatially extended sound source; and

- an output generator (240) for generating a bit stream representing a compressed description, the bit stream containing at least two different audio signals (301, 302), geometry information (331, 341) and individual location information (321) for each an audio signal from at least two different audio signals, the individual location information (321) indicating the location of the corresponding audio signal relative to the information regarding the geometry (331) of the spatially extended sound source.

28. The equipment of claim 27, wherein the geometry information (331, 341) comprises position information (341) indicating the position of the spatially extended sound source in space.

29. The equipment of claim 27, wherein the sound provider (200) is configured to:

- record a natural sound source in one microphone position or orientation, or in multiple microphone positions or orientations, or

- extract an audio signal from one basic signal or from several basic signals by means of one or more decorrelation filters.

30. Equipment according to clause 27,

- in which the audio provider (200) is configured to compress at least two audio signals in terms of bit rate using an encoder (260) of audio signals, and

- in this case, the output data generator (240) is configured to use bit rate compressed at least two audio signals (301, 302) for a spatially extended sound source.

31. The equipment of claim 27, wherein the geometry provider (220) is configured to extract, from the geometry of a spatially extended sound source, a parametric description or a polygonal description or a parametric representation of a polygonal description, and wherein the output generator (240) is configured to input, in the bitstream, a parametric description or a polygonal description or a parametric representation of a polygonal description as geometry information (331, 341).

32. Equipment according to claim 27, wherein the output data generator (240) is configured to insert, into the bitstream, a bitstream element (311) indicating the number of at least two different audio signals (301, 302) for a spatially extended source audio included in the bitstream or included in the encoded audio signal associated with the bitstream, where the number is two or more than two.

33. A method for reproducing a spatially extended sound source having a given position and geometry in space, the method comprising the steps of:

- take the position of the listener;

- calculate the projection of a two-dimensional or three-dimensional shell associated with a spatially extended sound source onto the projection plane using the position of the listener, information regarding the geometry (331) of the spatially extended sound source and information regarding the position (341) of the spatially extended sound source;

- calculate the positions of at least two sound sources for a spatially extended sound source using the projection plane; and

- rendering at least two sound sources in positions to obtain a reproduction of a spatially extended sound source having two or more output signals, while the rendering contains a step in which different sound signals are used for different positions, while different sound signals are associated with spatially extended sound source.

34. A method for generating a bitstream representing a compressed description for a spatially extended sound source, the method comprising the steps of:

- provide at least two different audio signals for a spatially extended sound source;

- provide information (331, 341) regarding the geometry for a spatially extended sound source; and

- generating a bit stream representing a compressed description, the bit stream containing at least two different audio signals (301, 302), geometry information (331, 341) for a spatially extended sound source, and individual location information (321) for each audio signal of at least two different audio signals, the individual location information (321) indicating the location of the corresponding audio signal with respect to information regarding the geometry (331) of the spatially extended sound source.

35. The method of claim 34, wherein the geometry information (331, 341) for the spatially extended sound source comprises position information (341) of the spatially extended sound source in space.

36. The method of claim 34, wherein generating the bitstream comprises introducing, into the bitstream, a bitstream element (311) indicating the number of at least two different audio signals (301, 302) for a spatially extended sound source included in the bitstream or included in the encoded audio signal associated with the bitstream, and the number is two or more than two.

37. A physical storage medium having a compressed description stored on it for a spatially extended sound source, containing:

- at least two different sound signals (301, 302) for a spatially extended sound source;

- information (331, 341) regarding geometry for a spatially extended sound source,

first location information (321) for a first sound signal (301) of at least two different sound signals (301, 302) indicating a first location of the first sound signal (301) with respect to information regarding geometry (331, 341) of the spatially extended sound source; and

information (321) of the second location for the second sound signal (302) from at least two different sound signals (301, 302), indicating the second location of the second sound signal (302) with respect to information regarding the geometry (331 341) of the spatially extended sound source, and the second location information is different from the first location information.

38. The physical storage medium of claim 37, wherein the spatially extended sound source geometry information (331, 341) comprises position information (341) of the spatially extended sound source.

39. The physical storage medium of claim 37, further comprising a bitstream element (311) indicating the number of at least one other audio signal for a spatially extended audio source included in the bitstream or included in an encoded audio signal associated with the bitstream, wherein the number is one or more than one.

40. A physical storage medium having a computer program stored thereon for carrying out, when executed on a computer or processor, the method of claim 35.

41. A physical storage medium having a computer program stored thereon for carrying out, when executed on a computer or processor, the method of claim 36.