RU2780536C1 - Equipment and method for reproducing a spatially extended sound source or equipment and method for forming a bitstream from a spatially extended sound source - Google Patents
Equipment and method for reproducing a spatially extended sound source or equipment and method for forming a bitstream from a spatially extended sound source Download PDFInfo
- Publication number
- RU2780536C1 RU2780536C1 RU2021119443A RU2021119443A RU2780536C1 RU 2780536 C1 RU2780536 C1 RU 2780536C1 RU 2021119443 A RU2021119443 A RU 2021119443A RU 2021119443 A RU2021119443 A RU 2021119443A RU 2780536 C1 RU2780536 C1 RU 2780536C1
- Authority
- RU
- Russia
- Prior art keywords
- sound source
- spatially extended
- sound
- listener
- geometry
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 113
- 238000009877 rendering Methods 0.000 claims abstract description 50
- 230000002093 peripheral Effects 0.000 claims description 141
- 238000004364 calculation method Methods 0.000 claims description 27
- 238000003860 storage Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 12
- 230000000875 corresponding Effects 0.000 claims description 11
- 230000005484 gravity Effects 0.000 claims description 10
- 230000001419 dependent Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 5
- 238000004091 panning Methods 0.000 claims description 5
- 238000007906 compression Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 7
- 239000000126 substance Substances 0.000 abstract 1
- 238000000034 method Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 8
- 230000003190 augmentative Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000002194 synthesizing Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 238000011049 filling Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000003786 synthesis reaction Methods 0.000 description 4
- 230000000295 complement Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000006185 dispersion Substances 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 230000001427 coherent Effects 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002156 mixing Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006011 modification reaction Methods 0.000 description 2
- 230000001052 transient Effects 0.000 description 2
- 241001289753 Graphium sarpedon Species 0.000 description 1
- 241000288906 Primates Species 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 230000002596 correlated Effects 0.000 description 1
- 238000010192 crystallographic characterization Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 230000001066 destructive Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005755 formation reaction Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000007493 shaping process Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003595 spectral Effects 0.000 description 1
- 230000000087 stabilizing Effects 0.000 description 1
- 230000003068 static Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Abstract
Description
СпецификацияSpecification
Настоящее изобретение относится к обработке аудиосигналов и, в частности, к кодированию или декодированию либо воспроизведению пространственно протяженного источника звука.The present invention relates to the processing of audio signals and, in particular, to the encoding or decoding or reproduction of a spatially extended sound source.
В течение длительного времени исследуется воспроизведение источников звука по нескольким громкоговорителям или наушникам. Простейший способ воспроизведения источников звука в таких компоновках состоит в том, чтобы сделать их точечными источниками, то есть очень (в идеале: бесконечно) маленькими источниками звука.. Тем не менее, эта теоретическая концепция практически не позволяет моделировать существующие физические источники звука реалистичным способом. Например, рояль имеет большую вибрирующую деревянную крышку с множеством пространственно распределенных струн внутри и в силу этого кажется гораздо большим при слуховом восприятии, чем точечный источник (в частности, когда слушатель (и микрофоны) находятся близко к роялю). Множество источников звука реального мира имеют значительный размер ("пространственную протяженность"), к примеру, музыкальные инструменты, машины, оркестр или хор либо окружающие звуки (звук водопада).For a long time, the reproduction of sound sources through several loudspeakers or headphones has been studied. The simplest way to reproduce sound sources in such arrangements is to make them point sources, i.e. very (ideally: infinitely) small sound sources. However, this theoretical concept makes it almost impossible to model existing physical sound sources in a realistic way. For example, a piano has a large vibrating wooden top with many spatially distributed strings inside and therefore appears much larger to the ear than a point source (particularly when the listener (and microphones) are close to the piano). Many real-world sound sources are of significant size ("spatial extent"), such as musical instruments, cars, an orchestra or choir, or ambient sounds (the sound of a waterfall).
Корректное/реалистичное воспроизведение таких источников звука становится целью множества способов воспроизведения звука, независимо от того, являются они бинауральными (т.е. с использованием так называемых передаточных функций слухового аппарата человека (HRTF) или бинауральных импульсных откликов в помещении (BRIR)) с использованием наушников, либо традиционными с использованием установок громкоговорителей в пределах от 2 динамиков ("стерео") до множества динамиков, скомпонованных в горизонтальной плоскости ("объемный звук"), и множества динамиков, окружающих слушателя во всех трех измерениях ("трехмерное аудио").Correct/realistic reproduction of such sound sources becomes the goal of many sound reproduction techniques, whether they are binaural (i.e. using so-called human hearing aid transfer functions (HRTF) or binaural room impulse responses (BRIR)) using headphones, or traditionally using speaker setups ranging from 2 speakers ("stereo") to multiple speakers arranged in a horizontal plane ("surround sound") and multiple speakers surrounding the listener in all three dimensions ("3D audio").
Цель настоящего изобретения заключается в том, чтобы предоставлять концепцию для кодирования или воспроизведения пространственно протяженных источников звука с возможно сложной геометрической формой.The purpose of the present invention is to provide a concept for encoding or reproducing spatially extended sound sources with possibly complex geometric shapes.
Ширина двумерного источника2D Source Width
В этом разделе описываются способы, которые относятся к рендерингу () протяженных источников звука на двумерной поверхности, обращенной с точки зрения слушателя, например, в некотором диапазоне изменения азимута при подъеме в ноль градусов (как имеет место в традиционном стерео-/объемном звуке), или в некоторых диапазонах изменения азимута и подъема (как имеет место в трехмерном аудио или виртуальной реальности с 3 степенями свободы ("3DoF") перемещения пользователя, т.е. вращения головы в осях поперечной/вертикальной/продольной).This section describes techniques that relate to rendering () extended sound sources on a 2D surface facing the listener's perspective, for example, over a range of azimuth changes at zero degrees elevation (as is the case in traditional stereo/surround sound), or in some ranges of azimuth and elevation (as is the case in 3D audio or virtual reality with 3 degrees of freedom ("3DoF") of user movement, i.e. head rotation in the lateral/vertical/longitudinal axes).
Увеличение кажущейся ширины аудиообъекта, который панорамируется между двумя или более громкоговорителями (формирование так называемого фантомного изображения или фантомного источника) может достигаться посредством снижения корреляции участвующих канальных сигналов. Со снижением корреляции, разброс фантомных источников увеличивается до тех пор, пока, для корреляционных значений, близких к нулю (и не слишком широких углах раскрытия), он не охватывает весь диапазон между громкоговорителями.Increasing the apparent width of an audio object that is being panned between two or more speakers (forming a so-called phantom image or phantom source) can be achieved by reducing the correlation of the channel signals involved. As the correlation decreases, the dispersion of phantom sources increases until, for correlation values close to zero (and not too wide opening angles), it covers the entire range between loudspeakers.
Декоррелированные версии сигнала источника получаются посредством извлечения и применения подходящих декорреляционных фильтров. В работе автора Lauridsen предложено суммировать/вычитать масштабированную версию с временной задержкой сигнала источника относительно себя, чтобы получать две декоррелированных версии сигнала. Более сложные подходы, например, предложены в работе автора Kendall. Он итеративно извлекает спаренные декорреляционные всечастотные фильтры на основе комбинаций последовательностей случайных чисел. Работа авторов Faller и др. предлагает подходящие декорреляционные фильтры ("рассеиватели") в. Также в работе Zotter и др. извлекаются пары фильтров, в которых частотно-зависимые разности фаз или амплитуд использованы для того, чтобы достигать расширения фантомного источника. Кроме того, предложены декорреляционные фильтры на основе бархатного шума, которые дополнительно оптимизированы.Decorrelated versions of the source signal are obtained by extracting and applying the appropriate decorrelation filters. In the work of the author Lauridsen, it is proposed to add/subtract the scaled version of the source signal with a time delay relative to itself in order to obtain two decorrelated versions of the signal. More complex approaches, for example, are proposed in the work of the author Kendall. It iteratively extracts paired decorrelation all-pass filters based on combinations of random number sequences. The work of Faller et al. suggests suitable decorrelation filters ("scatterers") c. Also in the work of Zotter et al., filter pairs are extracted in which frequency dependent phase or amplitude differences are used to achieve phantom source expansion. In addition, decorrelation filters based on velvet noise are proposed, which are further optimized.
Помимо уменьшения корреляции соответствующих канальных сигналов фантомного источника, ширина источника также может увеличиваться посредством увеличения числа фантомных источников, приписанных аудиообъекту. В, ширина источника управляется посредством панорамирования такого же сигнала источника в (немного) различных направлениях. Первоначально предложен способ для того, чтобы стабилизировать воспринимаемый разброс фантомных источников сигналов VBAP-панорамированных источников, когда они перемещаются в звуковой сцене. Это является преимущественным, поскольку в зависимости от направления источника, подготовленный посредством рендеринга источник воспроизводится посредством двух или более динамиков, что может приводить к нежелательным изменениям воспринимаемой ширины источника.In addition to reducing the correlation of the respective phantom source channel signals, the source width can also be increased by increasing the number of phantom sources assigned to the audio object. B, the source width is controlled by panning the same source signal in (slightly) different directions. Initially, a method was proposed for stabilizing the perceived phantom spread of VBAP-panned sources as they move around in the soundstage. This is advantageous because, depending on the direction of the source, the rendered source is played back through two or more speakers, which can lead to undesirable changes in the perceived width of the source.
DirAC в виртуальном мире представляет собой расширение традиционного подхода на основе направленного кодирования аудио (DirAC) для синтеза звука в виртуальных мирах. Для рендеринга пространственной протяженности, направленные звуковые компоненты источника случайно панорамируются в пределах некоторого диапазона вокруг исходного направления источника, причем направления панорамирования варьируются во времени и по частоте.DirAC in the Virtual World is an extension of the traditional Directional Audio Coding (DirAC) approach for audio synthesis in virtual worlds. To render spatial extent, the directional audio components of a source are randomly panned within a certain range around the source's original direction, with the panning directions varying in time and frequency.
Аналогичный подход задействуется в, при котором пространственная протяженность достигается посредством случайного распределения полос частот сигнала источника для различных пространственных направлений. Он представляет собой способ, направленный на формирование пространственно распределенного и огибающего звука, поступающего одинаково из всех направлений, вместо управления точной степенью протяженности.A similar approach is employed in which spatial extent is achieved by randomly distributing source signal bandwidths for different spatial directions. It is a method for creating a spatially distributed and enveloped sound that comes in the same way from all directions, instead of controlling the exact degree of extension.
В работе авторов Verron и др. пространственная протяженность источника достигается не посредством использования панорамированных коррелированных сигналов, а посредством синтезирования нескольких некогерентных версий сигнала источника, их равномерного распределения по окружности вокруг слушателя и смешения между собой. Число и усиление одновременно активных источников определяют интенсивность эффекта расширения. Этот способ реализован как пространственное протягивание для синтезатора для звуков окружающей среды.In the work of Verron et al., spatial extent of the source is achieved not by using panned correlated signals, but by synthesizing several incoherent versions of the source signal, distributing them evenly around the listener, and mixing them together. The number and amplification of simultaneously active sources determine the intensity of the expansion effect. This method is implemented as a spatial sweep for the synthesizer for ambient sounds.
Ширина трехмерного источника3D Source Width
В этом разделе описываются способы, которые относятся к рендерингу протяженных источников звука в трехмерном пространстве, т.е. объемным способом, что требуется для виртуальной реальности с 6 степенями свободы ("6DoF"). Это означает 6 степеней свободы перемещения пользователя, т.е. вращения головы по поперечной, вертикальной и продольной осям) плюс 3 направления x/y/z поступательного перемещения в пространстве.This section describes techniques that relate to rendering extended sound sources in 3D space, i.e. in a three-dimensional way, which is required for virtual reality with 6 degrees of freedom ("6DoF"). This means 6 degrees of freedom for user movement, i.e. rotation of the head along the transverse, vertical and longitudinal axes) plus 3 directions x / y / z of translational movement in space.
Работа авторов Potard и др. расширяет понятие протяженности источника в качестве одномерного параметра источника (т.е. его ширины между двумя громкоговорителями) посредством изучения восприятия форм источников. В ней формируются несколько некогерентных точечных источников посредством применения (варьирующихся во времени) технологий декорреляции к первоначальному сигналу источника и затем помещения некогерентных источников в различные пространственные местоположения и за счет этого предоставления им трехмерной протяженности.The work of Potard et al. extends the concept of source extent as a one-dimensional source parameter (ie, its width between two speakers) by examining the perception of source shapes. It generates multiple non-coherent point sources by applying (time-varying) decorrelation techniques to the original source signal and then placing the non-coherent sources at different spatial locations and thereby giving them a three-dimensional extent.
В усовершенствованном MPEG-4 AudioBIFS-стандарте, объемные объекты/формы (раковина, коробка, эллипсоид и цилиндр) могут быть заполнены несколькими одинаково распределенными и декоррелированными источниками звука для того, чтобы вызывать трехмерную протяженность источника.In the advanced MPEG-4 AudioBIFS standard, 3D objects/shapes (shell, box, ellipsoid and cylinder) can be filled with multiple equally spaced and decorrelated sound sources in order to evoke a 3D source extension.
Чтобы увеличивать и управлять протяженностью источника с использованием амбиофонии, в работе авторов Schmele и др. предложено смешение уменьшения порядка амбиофонии входного сигнала, что внутренне увеличивает кажущуюся ширину источника и распределение декоррелированных копий сигнала источника вокруг пространства для прослушивания.In order to increase and control the extent of the source using ambiophony, Schmele et al. proposed a blending decrease in the order of ambiphony of the input signal, which internally increases the apparent width of the source and the distribution of decorrelated copies of the source signal around the listening space.
Другой подход введен в работе авторов Zotter и др., в которой приспосабливается принцип, предложенный в (т.е. извлечение пар фильтров, которые вводят частотно-зависимые разности фаз и абсолютных величин, чтобы достигать протяженности источника в компоновках для стереовоспроизведения) для амбиофонии.Another approach is introduced by Zotter et al., which adapts the principle proposed in (i.e., extracting filter pairs that introduce frequency dependent phase and magnitude differences to achieve source extent in stereo playback arrangements) for ambiophony.
Общий недостаток подходов на основе панорамирования (например) заключается в их зависимости от позиции слушателя. Даже небольшое отклонение от зоны наилучшего восприятия приводит к тому, что пространственное изображение сворачивается до громкоговорителя, ближайшего к слушателю. Это радикально ограничивает их применение в контексте виртуальной реальности и дополненной реальности с 6 степенями свободы (6DoF), когда предполагается, что слушатель свободно перемещается. Дополнительно, распределение частотно-временных элементов разрешения в подходах на основе DirAC (например) не всегда гарантирует надлежащий рендеринг пространственной протяженности фантомных источников. Кроме того, оно типично значительно ухудшает тембр сигнала источника.A common drawback of pan-based approaches (for example) is their dependence on the listener's position. Even a small deviation from the sweet spot causes the spatial image to collapse to the loudspeaker closest to the listener. This drastically limits their application in the context of virtual reality and augmented reality with 6 degrees of freedom (6DoF), when the listener is supposed to move freely. Additionally, the distribution of time-frequency bins in DirAC-based approaches (for example) does not always guarantee proper rendering of the spatial extent of phantom sources. In addition, it typically significantly degrades the timbre of the source signal.
Декорреляция сигналов источников обычно достигается посредством одного из следующих способов: i) извлечение пар фильтров с комплементарной абсолютной величиной (например), ii) использование всечастотных фильтров с постоянной абсолютной величиной, но (случайно) скремблированной фазой (например), или iii) пространственно случайное распределение частотно-временных элементов разрешения сигнала источника (например).Decorrelation of source signals is usually achieved by one of the following methods: i) extracting filter pairs with complementary absolute value (for example), ii) using all-pass filters with constant absolute value but (randomly) scrambled phase (for example), or iii) spatially random distribution time-frequency bins of the source signal (for example).
Все подходы влекут за собой собственные последствия: Комплементарная фильтрация сигнала источника согласно i) типично приводит к измененному воспринимаемому тембру декоррелированных сигналов. Хотя всечастотная фильтрация, как указано в ii), сохраняет тембр сигнала источника, скремблированная фаза нарушает исходные соотношения фаз и, в частности, для переходных сигналов, вызывает серьезную временную дисперсию и артефакты размывания. Пространственное распределение частотно-временных элементов разрешения оказывается эффективным для некоторых сигналов, но также и изменяет воспринимаемый тембр сигнала. Кроме того, оно демонстрирует сильную зависимость от сигнала и вводит серьезные артефакты для импульсных сигналов.All approaches have their own consequences: Complementary filtering of the source signal according to i) typically results in an altered perceived timbre of the decorrelated signals. Although all-pass filtering as noted in ii) preserves the timbre of the source signal, the scrambled phase violates the original phase relationships and, in particular for transient signals, causes severe temporal dispersion and blurring artifacts. Spatial distribution of time-frequency bins is effective for some signals, but also changes the perceived timbre of the signal. In addition, it exhibits strong signal dependence and introduces severe artifacts for pulsed signals.
Заполнение объемных форм несколькими декоррелированными версиями сигнала источника, предложенное в усовершенствованном AudioBIFS-стандарте, предполагает доступность большого числа фильтров, которые формируют взаимно декоррелированные выходные сигналы (типично, более десяти точечных источников в расчете на объемную форму используются). Тем не менее, нахождение таких фильтров не представляет собой тривиальную задачу и становится тем более сложным, чем больше таких фильтров требуется. Кроме того, если сигналы источников не полностью декоррелируются, и слушатель перемещает такую форму, например, в сценарии (виртуальной реальности), отдельные расстояния от источника до слушателя соответствуют различным задержкам сигналов источников, и их наложение в ушах слушателя приводит к позиционно-зависимой гребенчатой фильтрации, потенциально вводящей раздражающее неустановившееся окрашивание сигнала источника.Filling volumetric shapes with multiple decorrelated versions of a source signal proposed in the enhanced AudioBIFS standard implies the availability of a large number of filters that produce mutually decorrelated outputs (typically more than ten point sources per volumetric shape are used). However, finding such filters is not a trivial task and becomes more difficult the more such filters are required. Also, if the source signals are not fully decorrelated and the listener is moving such a shape, for example in a (virtual reality) scenario, the individual source-to-listener distances correspond to different source signal delays, and their overlap in the listener's ears results in position-dependent comb filtering. , potentially introducing annoying transient coloration of the source signal.
Управление шириной источника с помощью технологию на основе амбиофонии в посредством понижения порядка амбиофонии демонстрирует слышимый эффект только для переходов от второго к первому или к нулевому порядку. Кроме того, эти переходы воспринимаются не только в качестве расширения источника, но также и часто в качестве перемещения фантомного источника. Притом, что суммирование декоррелированных версий сигнала источника может помогать в стабилизации восприятия кажущейся ширины источника, оно также вводит эффекты гребенчатой фильтрации, которые изменяют тембр фантомного источника.Controlling the source width with ambiphony-based technology by lowering the ambiphony order exhibits an audible effect only for transitions from second to first or zero order. In addition, these transitions are perceived not only as an extension of the source, but also, and often, as a movement of the phantom source. While summing decorrelated versions of a source signal can help stabilize the perception of the source's apparent width, it also introduces comb filtering effects that change the timbre of the phantom source.
Цель настоящего изобретения заключается в том, чтобы предоставлять усовершенствованную концепцию воспроизведения пространственно протяженного источника звука или формирования потока битов из пространственно протяженного источника звука.The purpose of the present invention is to provide an improved concept for reproducing a spatially extended sound source or generating a bit stream from a spatially extended sound source.
Это цель достигается посредством оборудования для воспроизведения пространственно протяженного источника звука по п. 1, оборудования для формирования потока битов по п. 27, способа для воспроизведения пространственно протяженного источника звука по п. 35, способа для формирования потока битов по п. 36, потока битов по п. 41 или компьютерной программы по п. 47.This object is achieved by the equipment for reproducing a spatially extended sound source according to
Настоящее изобретение основано на таких выявленных сведениях, что воспроизведение пространственно протяженного источника звука может достигаться и, в частности, даже становится возможным посредством вычисления проекции двумерного или трехмерной оболочки, ассоциированной с пространственно протяженным источником звука, на плоскость проекции с использованием позиции слушателя. Эта проекция используется для вычисления позиций по меньшей мере двух источников звука для пространственно протяженного источника звука, и по меньшей мере два источника звука подготавливаются посредством рендеринга позициях, чтобы получать воспроизведение пространственно протяженного источника звука, при котором результаты рендеринга в двух или более выходных сигналов, и при котором различные звуковые сигналы для различных позиций используются, но различные звуковые сигналы ассоциируются с таким же пространственно протяженным источником звука.The present invention is based on such findings that the reproduction of a spatially extended sound source can be achieved and, in particular, even becomes possible by calculating the projection of a two-dimensional or three-dimensional shell associated with a spatially extended sound source onto the projection plane using the listening position. This projection is used to calculate the positions of at least two sound sources for a spatially extended sound source, and the at least two sound sources are prepared by rendering positions to obtain a reproduction of a spatially extended sound source, in which the rendering results in two or more output signals, and in which different sound signals for different positions are used, but different sound signals are associated with the same spatially extended sound source.
Высококачественное двумерное или трехмерное воспроизведение аудио получается, поскольку, с одной стороны, учитывается варьирующаяся во времени относительная позиция между пространственно протяженным источником звука и (виртуальной) позицией слушателя. С другой стороны, пространственно протяженный источник звука эффективно представляется посредством геометрической информации относительно воспринимаемой протяженности источника звука и посредством числа, по меньшей мере, из двух источников звука, таких как периферийные точечные источники, которые могут легко обрабатываться посредством модулей рендеринга, известных в данной области техники. В частности, простые модули рендеринга в данной области техники всегда находятся в позиции, чтобы осуществлять рендеринг источников звука в некоторых позициях относительно некоторого выходного формата или компоновки громкоговорителей. Например, два источника звука, вычисленные посредством модуля вычисления позиций звука в некоторых позициях, могут подготавливаться посредством рендеринга в этих позициях, например, посредством амплитудного панорамирования.A high-quality two-dimensional or three-dimensional audio reproduction is obtained because, on the one hand, the time-varying relative position between the spatially extended sound source and the (virtual) listener position is taken into account. On the other hand, a spatially extended sound source is effectively represented by geometric information regarding the perceived extent of the sound source and by a number of at least two sound sources, such as peripheral point sources, which can be easily processed by renderers known in the art. . In particular, simple renderers in the art are always in position to render sound sources at some position relative to some output format or speaker layout. For example, two sound sources calculated by the sound position calculation module at some positions may be prepared by rendering at those positions, such as by amplitude panning.
Когда, например, позиции звука находятся между левым и левым объемным звучанием в 5.1-формате вывода, и когда другие источники звука находятся между правым и правым объемным звучанием в формате вывода, процедура амплитудного панорамирования, выполняемая посредством модуля рендеринга, должна приводить к достаточно похожим сигналам для левого и левого канала объемного звучания для одного источника звука и, соответственно, к достаточно похожим сигналам для правого и правого объемного звучания для другого источника звука таким образом, что пользователь воспринимает источники звука как исходящие из позиций, вычисленных посредством модуля вычисления позиций звука. Тем не менее вследствие того факта, что все четыре сигнала, в конечном счете, ассоциированы и связаны с пространственно протяженным источником звука, пользователь просто не воспринимает два фантомных источника, ассоциированные с позициями, вычисленными посредством модуля вычисления позиций звука, а слушатель воспринимает один пространственно протяженный источник звука.When, for example, sound positions are between left and left surround in 5.1 output format, and when other sound sources are between right and right surround in output format, the amplitude pan procedure performed by the renderer should result in sufficiently similar signals. for the left and left surround channels for one sound source and, respectively, to sufficiently similar signals for the right and right surround sound for another sound source in such a way that the user perceives the sound sources as coming from the positions calculated by the sound position calculation module. However, due to the fact that all four signals are ultimately associated and associated with a spatially extended sound source, the user simply does not perceive two phantom sources associated with the positions calculated by the sound position calculation module, and the listener perceives one spatially extended sound source.
Оборудование для воспроизведения пространственно протяженного источника звука, имеющего заданную позицию в геометрии в пространстве, содержит интерфейс, проектор, модуль вычисления позиций звука и модуль рендеринга. Настоящее изобретение обеспечивает возможность учитывать улучшенную звуковую ситуацию, которая возникает, например, в фортепьяно. Фортепьяно представляет собой крупное устройство, и к настоящему моменту, звук фортепьяно может подготавливаться посредством рендеринга как исходящий из одноточечного источника. Тем не менее, это не полностью представляет истинные характеристики звука фортепьяно. В соответствии с настоящим изобретением, фортепьяно в качестве примера для пространственно протяженного источника звука отражается, по меньшей мере, посредством двух звуковых сигналов, причем один звуковой сигнал может записываться посредством микрофона, позиционированного близко к левой части фортепьяно, т.е. близко к басовым струнам, в то время как другой источник звука может записываться посредством другого второго микрофона, позиционированного близко к правой части фортепьяно, т.е. около верхних звуковых частотных струн, формирующих высокие тона. Естественно, оба микрофона должны записывать звуки, которые отличаются друг от друга вследствие отражательной ситуации в фортепьяно и, конечно, также вследствие того факта, что басовая струна находится ближе к левому микрофону, чем к правому микрофону, и наоборот. Тем не менее, с другой стороны, оба сигнала микрофонов должны иметь значительное количество аналогичных звуковых компонентов, которые, в конечном счете, составляют уникальный звук фортепьяно.The equipment for reproducing a spatially extended sound source having a given position in the geometry in space contains an interface, a projector, a sound position calculation module and a rendering module. The present invention makes it possible to take into account the improved sound situation that occurs, for example, in a piano. The piano is a large device, and by now, the piano sound can be rendered as coming from a single point source. However, this does not fully represent the true characteristics of the piano's sound. In accordance with the present invention, an exemplary piano for a spatially extended sound source is reflected by at least two audio signals, where one audio signal can be recorded by a microphone positioned close to the left side of the piano, i. close to the bass strings, while another sound source can be recorded with another second microphone positioned close to the right side of the piano, i.e. near the upper sound frequency strings that form high tones. Naturally, both microphones must record sounds that differ from each other due to the reflective situation in the piano and of course also due to the fact that the bass string is closer to the left microphone than to the right microphone and vice versa. However, on the other hand, both microphone signals must have a significant amount of similar sonic components that ultimately make up the unique sound of a piano.
В соответствии с настоящим изобретением, поток битов, представляющий пространственно протяженный источник звука, такой как фортепьяно, формируется посредством записи сигналов посредством записи также геометрической информации пространственно протяженного источника звука и, необязательно, посредством также либо записи информации местоположения, связанной с различными позициями микрофона (или, в общем, с двумя различными позициями, ассоциированными с двумя различными источниками звука), либо предоставления описания воспринимаемой геометрической формы звука (фортепьяно). Чтобы отражать позицию слушателя относительно источников звука, т.е. того, что слушатель может "проходить вокруг" в виртуальной реальности или дополненной реальности или в любой другой звуковой сцене, проекция оболочки, ассоциированная с пространственно протяженным источником звука, таким как фортепьяно, вычисляется с использованием позиции слушателя, и, позиции по меньшей мере двух источников звука вычисляются с использованием плоскости проекции, при этом, в частности, предпочтительные варианты осуществления относятся к позиционированию источников звука в периферийных точках плоскости проекции.In accordance with the present invention, a bit stream representing a spatially extended sound source such as a piano is generated by recording signals by recording also the geometric information of the spatially extended sound source, and optionally also by either recording location information associated with various microphone positions (or , in general, with two different positions associated with two different sound sources), or providing a description of the perceived geometric shape of the sound (piano). To reflect the position of the listener in relation to sound sources, i.e. that a listener can "walk around" in virtual reality or augmented reality, or any other soundstage, the shell projection associated with a spatially extended sound source, such as a piano, is computed using the position of the listener, and, the positions of at least two sources sound are computed using the projection plane, with particular preferred embodiments referring to the positioning of sound sources at peripheral points of the projection plane.
Появляется возможность, при уменьшенном объеме служебной информации при вычислениях и уменьшенном объеме служебной информации при рендеринге, фактически представлять примерный звук фортепьяно в двумерной или трехмерной ситуации, так что когда слушатель, например, находится ближе к левой части источника звука, такого как фортепьяно, звук, который воспринимает слушатель, отличается от звука, возникающего, когда пользователь расположен близко к правой части источника звука, такого как фортепьяно, или даже позади источника звука, такого как фортепьяно.It is possible, with reduced computational overhead and reduced rendering overhead, to actually represent an exemplary piano sound in a 2D or 3D situation such that when the listener is, for example, closer to the left side of a sound source such as a piano, the sound which the listener perceives is different from the sound produced when the user is close to the right side of a sound source such as a piano, or even behind a sound source such as a piano.
С учетом вышеизложенного, идея изобретения является уникальной в том, что, на стороне кодера, предоставляется способ охарактеризования пространственно протяженного источника звука, который обеспечивает возможность использования пространственно протяженного источника звука в ситуации воспроизведения звука для истинной двумерной или трехмерной компоновки. Кроме того, использование позиции слушателя в пределах очень гибкого описания пространственно протяженного источника звука становится возможным эффективным способом за счет вычисления проекции двумерной или трехмерной оболочки на плоскость проекции с использованием позиции слушателя. Позиции звука, по меньшей мере, для двух источников звука для пространственно протяженного источника звука вычисляются с использованием плоскости проекции, и по меньшей мере два источника звука подготавливаются посредством рендеринга в позициях, вычисленных посредством модуля вычисления позиций звука для того, чтобы получать воспроизведение пространственно протяженного источника звука, имеющего два или более выходных сигнала для сигналов наушников или многоканальные выходные сигналы для двух или более каналов в компоновке для стереовоспроизведения или компоновке для воспроизведения, имеющей более двух каналов, к примеру, пять, семь или еще большее число каналов.In view of the foregoing, the idea of the invention is unique in that, on the encoder side, a method for characterizing a spatially extended sound source is provided that allows the use of a spatially extended sound source in a sound reproduction situation for a true two-dimensional or three-dimensional layout. In addition, the use of a listener's position within a very flexible description of a spatially extended sound source is made possible in an efficient manner by calculating the projection of a two-dimensional or three-dimensional shell onto the projection plane using the listener's position. The sound positions of at least two sound sources for a spatially extended sound source are calculated using the projection plane, and at least two sound sources are prepared by rendering at the positions calculated by the sound position calculation module in order to obtain a reproduction of the spatially extended source audio having two or more headphone outputs or multi-channel outputs for two or more channels in a stereo playback layout or a playback layout having more than two channels, such as five, seven or more channels.
По сравнению со способом предшествующего уровня техники для заполнения трехмерной громкости звуком посредством размещения множества различных точечных источников во всех частях громкости, которая должна заполняться, проекция исключает необходимость моделировать большое количество источников звука и резко сокращает число используемых точечных источников в силу необходимости заполнять только проекцию оболочки, т.е. двумерное пространство. Кроме того, число требуемых точечных источников уменьшается еще больше посредством моделирования предпочтительно только источников на оболочке проекции, которая, в крайних случаях, может представлять собой просто один источник звука на левой границе пространственно протяженного источника звука и один источник звука на правой границе пространственно протяженного источника звука. Оба этапа уменьшения основаны на двух психоакустических наблюдениях:Compared to the prior art method for filling three-dimensional volume with sound by placing many different point sources in all parts of the volume to be filled, the projection eliminates the need to model a large number of sound sources and drastically reduces the number of point sources used due to the need to fill only the shell projection, those. two-dimensional space. In addition, the number of point sources required is further reduced by modeling preferably only the sources on the projection shell, which, in extreme cases, can be simply one sound source at the left boundary of the spatially extended sound source and one sound source at the right boundary of the spatially extended sound source. . Both stages of reduction are based on two psychoacoustic observations:
В отличие от азимута (и подъема) источника звука, его расстояние не может восприниматься очень надежно. Таким образом, проекция исходной громкости на плоскость, перпендикулярную слушателю, значительно не изменяет восприятие (но может помогать сокращать число точечных источников, необходимых для рендеринга).Unlike the azimuth (and elevation) of a sound source, its distance cannot be perceived very reliably. Thus, projecting the original loudness onto a plane perpendicular to the listener does not significantly change the perception (but may help to reduce the number of point sources needed for rendering).
Два декоррелированных звука, которые распределяются в качестве точечных источников влево и вправо, соответственно, имеют тенденцию перцепционно заполнять пространство между собой звуком.Two decorrelated sounds that are distributed as point sources to the left and right, respectively, tend to perceptually fill the space between them with sound.
Кроме того, сторона кодера не только обеспечивает возможность определения характеристик одного пространственно протяженного источника звука, но и является гибкой в том, что поток битов, сформированный в качестве представления, может включать в себя все данные для двух или более пространственно протяженных источников звука, которые предпочтительно связаны, относительно своей геометрической информации и местоположения, с одной системой координат. На стороне декодера, воспроизведение не может осуществляться только для одного пространственно протяженного источника звука, а может осуществляться для нескольких пространственно протяженных источников звука, при этом проектор вычисляет проекцию для каждого источника звука с использованием (виртуальной) позиции слушателя. Дополнительно, модуль вычисления позиций звука вычисляет позиции по меньшей мере двух источников звука для каждого пространственно протяженного источника звука, и модуль рендеринга подготавливает посредством рендеринга все вычисленные источники звука для каждого пространственно протяженного источника звука, например, посредством суммирования двух или более выходных сигналов из каждого пространственно протяженного источника звука посигнально или поканально и посредством предоставления суммированных каналов в соответствующие наушники для бинаурального воспроизведения либо в соответствующие громкоговорители в связанной с громкоговорителями компоновке для воспроизведения либо, альтернативно, в устройство хранения данных для сохранения (комбинированных) двух или более выходных сигналов для последующего использования или передачи.In addition, the encoder side not only allows characterization of one spatially extended sound source, but is also flexible in that the bitstream generated as a representation can include all data for two or more spatially extended sound sources, which is preferably associated, with respect to their geometric information and location, to the same coordinate system. On the decoder side, playback cannot be performed for only one spatially extended sound source, but may be performed for several spatially extended sound sources, with the projector calculating the projection for each sound source using the (virtual) listening position. Additionally, the sound position calculation module calculates the positions of at least two sound sources for each spatially extended sound source, and the rendering module renders all calculated sound sources for each spatially extended sound source, for example, by summing two or more outputs from each spatially extended sound source signal-by-signal or channel-by-channel and by providing the summed channels to appropriate headphones for binaural playback, or to appropriate loudspeakers in a speaker-related arrangement for playback, or alternatively to a storage device to store (combined) two or more output signals for later use, or transmission.
На стороне генератора или кодера, поток битов формируется с использованием оборудования для формирования потока битов, представляющего сжатое описание для пространственно протяженного источника звука, при этом оборудование содержит поставщик звука для предоставления одного или более различных звуковых сигналов для пространственно протяженного источника звука, и формирователь выходных данных формирует поток битов, представляющий сжатую звуковую сцену, причем поток битов содержит один или более различных звуковых сигналов предпочтительно сжатым способом, к примеру, сжатым посредством кодера для сжатия по скорости передачи битов, например, MP3-, AAC-, USAC- или MPEG-H-кодера. Кроме того, формирователь выходных данных выполнен с возможностью вводить в поток битов, в случае двух или более различных звуковых сигналов, необязательную информацию отдельного местоположения для каждого звукового сигнала из двух или более различных звуковых сигналов, указывающую местоположение соответствующего звукового сигнала предпочтительно относительно информации относительно геометрии пространственно протяженного источника звука, т.е. то, что первый сигнал представляет собой сигнал, записанный в левой части фортепьяно в вышеприведенном примере, и сигнал, записанный в правой стороне фортепьяно.On the generator or encoder side, a bitstream is generated using equipment for generating a bitstream representing a compressed description for a spatially extended sound source, the equipment comprising an audio provider for providing one or more different audio signals for a spatially extended sound source, and an output data generator generates a bitstream representing a compressed soundstage, the bitstream containing one or more different audio signals, preferably in a compressed manner, e.g. compressed by a bitrate compression encoder, e.g. MP3-, AAC-, USAC- or MPEG-H -encoder. In addition, the output data generator is configured to introduce into the bit stream, in the case of two or more different audio signals, optional separate location information for each audio signal from two or more different audio signals, indicating the location of the corresponding audio signal, preferably with respect to spatial geometry information. extended sound source, i.e. that the first signal is the signal recorded on the left side of the piano in the above example and the signal recorded on the right side of the piano.
Тем не менее, альтернативно, информация местоположения не должна обязательно быть связана с геометрией пространственно протяженного источника звука, но также может быть связана с общим началом координат, хотя взаимосвязь с геометрией пространственно протяженного источника звука является предпочтительной.However, alternatively, the location information need not necessarily be associated with the geometry of the spatially extended sound source, but may also be associated with a common origin, although a relationship with the geometry of the spatially extended sound source is preferred.
Кроме того, оборудование для формирования сжатого потока битов также содержит поставщик геометрии для вычисления информации относительно геометрии пространственно протяженного источника звука, и формирователь выходных данных выполнен с возможностью введения, в поток битов, информации относительно геометрии, информации относительно информации отдельного местоположения для каждого звукового сигнала, в дополнение, по меньшей мере, к двум звуковым сигналам, таким как звуковые сигналы, записанные посредством микрофонов. Тем не менее, поставщик звука не должен обязательно фактически снимать сигналы микрофонов, но звуковые сигналы также могут формироваться, на стороне кодера, с использованием обработки декорреляции в зависимости от обстоятельств. Одновременно, только небольшое число звуковых сигналов или даже один звуковой сигнал могут передаваться для пространственно протяженного звукового сигнала, и оставшиеся звуковые сигналы формируются на стороне воспроизведения с использованием обработки декорреляции. Это предпочтительно передается в служебных сигналах посредством элемента потока битов в потоке битов таким образом, что модуль воспроизведения звука всегда знает то, сколько звуковых сигналов включаются в расчете на пространственно протяженный источник звука таким образом, что модуль воспроизведения может определять, в частности, в модуле вычисления позиций звука, то, сколько звуковых сигналов доступно, и то, сколько звуковых сигналов должно извлекаться на стороне декодера, к примеру, посредством обработки корреляции или синтеза сигналов.In addition, the equipment for generating the compressed bitstream also includes a geometry provider for calculating information about the geometry of the spatially extended sound source, and the output data generator is configured to introduce, into the bitstream, information about the geometry, information about the individual location information for each audio signal, in addition to at least two audio signals, such as audio signals recorded by microphones. However, the audio provider need not necessarily actually pick up the microphone signals, but the audio signals can also be generated, at the encoder side, using decorrelation processing as appropriate. At the same time, only a small number of audio signals or even one audio signal may be transmitted for a spatially extended audio signal, and the remaining audio signals are generated on the playback side using decorrelation processing. This is preferably signaled by a bitstream element in the bitstream in such a way that the audio playback module always knows how many audio signals are included per spatially extended sound source, so that the playback module can determine, in particular in the calculation module audio positions, how many audio signals are available, and how many audio signals are to be extracted on the decoder side, for example, through correlation processing or signal synthesis.
В этом варианте осуществления, модуль повторного формирования записывает элемент потока битов в поток битов, указывающий число звуковых сигналов, включенных для пространственно протяженного источника звука, и, на стороне декодера, модуль воспроизведения звука приводит элемент потока битов из потока битов, считывает элемент потока битов и определяет, на основе элемента потока битов, то, сколько сигналов для предпочтительно периферийных точечных источников или вспомогательных источников, размещенных между периферийными источниками звука, должны вычисляться на основе, по меньшей мере, одного принимаемого звукового сигнала в потоке битов.In this embodiment, the regenerator module writes a bitstream element to a bitstream indicating the number of audio signals included for a spatially extended audio source, and, on the decoder side, the audio playback module decodes the bitstream element from the bitstream, reads the bitstream element, and determines, based on the bitstream element, how many signals for preferably peripheral point sources or auxiliary sources placed between peripheral audio sources should be calculated based on at least one received audio signal in the bitstream.
Далее поясняются предпочтительные варианты осуществления настоящего изобретения со ссылками на прилагаемые чертежи, на которых:The preferred embodiments of the present invention will now be explained with reference to the accompanying drawings, in which:
Фиг. 1 является общим представлением блок-схемы предпочтительного варианта осуществления стороны воспроизведения;Fig. 1 is a general block diagram representation of a preferred embodiment of the playback side;
Фиг. 2 иллюстрирует сферический пространственно протяженный источник звука с различным числом периферийных точечных источников;Fig. 2 illustrates a spherical spatially extended sound source with a different number of peripheral point sources;
Фиг. 3 иллюстрирует эллипсоидный пространственно протяженный источник звука с несколькими периферийными точечными источниками;Fig. 3 illustrates an ellipsoid spatially extended sound source with multiple peripheral point sources;
Фиг. 4 иллюстрирует линейный пространственно протяженный источник звука с различными способами для того, чтобы распределять местоположение периферийных точечных источников;Fig. 4 illustrates a linear spatially extended sound source with various methods for distributing the location of peripheral point sources;
Фиг. 5 иллюстрирует кубоидный пространственно протяженный источник звука с различными процедурами для того, чтобы распределять периферийные точечные источники;Fig. 5 illustrates a cuboid spatially extended sound source with various procedures for distributing peripheral point sources;
Фиг. 6 иллюстрирует сферический пространственно протяженный источник звука на различных расстояниях;Fig. 6 illustrates a spherical spatially extended sound source at various distances;
Фиг. 7 иллюстрирует пространственно протяженный источник звука в форме фортепьяно приблизительно в параметрической эллипсоидной форме;Fig. 7 illustrates a spatially extended piano-shaped sound source in approximately parametric ellipsoidal form;
Фиг. 8 иллюстрирует пространственно протяженный источник звука в форме фортепьяно с тремя периферийными точечными источниками, распределенными по экстремальным точкам проецируемой выпуклой оболочки;Fig. 8 illustrates a spatially extended piano-shaped sound source with three peripheral point sources distributed over the extreme points of the projected convex hull;
Фиг. 9 иллюстрирует предпочтительную реализацию оборудования или способа для воспроизведения пространственно протяженного источника звука;Fig. 9 illustrates a preferred implementation of equipment or method for reproducing a spatially extended sound source;
Фиг. 10 иллюстрирует предпочтительную реализацию оборудования или способа для формирования потока битов, представляющего сжатое описание для пространственно протяженного источника звука; иFig. 10 illustrates a preferred implementation of equipment or method for generating a bit stream representing a compressed description for a spatially extended sound source; and
Фиг. 11 иллюстрирует предпочтительную реализацию потока битов, сформированного посредством оборудования или способа, проиллюстрированного на фиг. 10.Fig. 11 illustrates a preferred implementation of a bitstream generated by the equipment or method illustrated in FIG. ten.
Фиг. 9 иллюстрирует предпочтительную реализацию оборудования для воспроизведения пространственно протяженного источника звука, имеющего заданную позицию и геометрию в пространстве. Оборудование содержит интерфейс 100, проектор 120, модуль 140 вычисления позиций звука и модуль 160 рендеринга. Интерфейс выполнен с возможностью приема позиции слушателя. Кроме того, проектор 120 выполнен с возможностью вычисления проекции двумерной или трехмерной оболочки, ассоциированной с пространственно протяженным источником звука, на плоскость проекции с использованием позиции слушателя, принимаемой посредством интерфейса 100 и использования, дополнительно, информации относительно геометрии пространственно протяженного источника звука, и дополнительно, использования информации относительно позиции пространственно протяженного источника звука в пространстве. Предпочтительно, заданная позиция пространственно протяженного источника звука в пространстве и, дополнительно, геометрия пространственно протяженного источника звука в пространстве принимается для воспроизведения пространственно протяженного источника звука через поток битов, поступающий в демультиплексор 180 потоков битов или синтаксический анализатор сцен. Демультиплексор 180 потоков битов извлекает, из потока битов, информацию геометрии пространственно протяженного источника звука и предоставляет эту информацию в проектор. Кроме того, демультиплексор потоков битов также извлекает позицию пространственно протяженного источника звука из потока битов и перенаправляет эту информацию в проектор. Предпочтительно, поток битов также содержит информацию местоположения, по меньшей мере, для двух различных источников звука, и, предпочтительно, демультиплексор потоков битов также извлекает, из потока битов, сжатое представление по меньшей мере двух источников звука, и по меньшей мере два источника звука распаковываются/декодируются посредством декодера в качестве аудиодекодера 190. Декодированные по меньшей мере два источника звука в завершение перенаправляются в модуль 160 рендеринга, и модуль рендеринга подготавливает посредством рендеринга по меньшей мере два источника звука в позициях, предоставленных посредством модуля 140 вычисления позиций звука в модуль 160 рендеринга.Fig. 9 illustrates a preferred implementation of equipment for reproducing a spatially extended sound source having a given position and geometry in space. The equipment includes an
Хотя фиг. 9 иллюстрирует связанное с потоком битов оборудование воспроизведения, имеющее демультиплексор 180 потоков битов и аудиодекодер 190, воспроизведение также может осуществляться в ситуации, отличающейся от сценария кодера/декодера. Например, заданная позиция и геометрия в пространстве может уже существовать в оборудовании воспроизведения, к примеру, в сцене в стиле виртуальной реальности или дополненной реальности, в которой данные формируются на площадке и потребляются на этой площадке. Демультиплексор 180 потоков битов и аудиодекодер 190 фактически не требуются, и информация геометрии пространственно протяженного источника звука и позиции пространственно протяженного источника звука доступна вообще без извлечения из потока битов. Кроме того, информация местоположения, связывающая местоположение по меньшей мере двух источников звука с геометрической информацией пространственно протяженного источника звука, также может фиксированно согласовываться заранее и в силу этого не должна передаваться из кодера в декодер, либо, альтернативно, эти данные формируются, снова, на площадке.Although FIG. 9 illustrates bitstream related playback equipment having a
Следовательно, следует отметить, что информация местоположения предоставляется только в вариантах осуществления, и нет необходимости передавать эту информацию даже в случае двух или более сигналов источников звука. Декодер или модуль воспроизведения, например, может всегда принимать первый сигнал источника звука в потоке битов в качестве источника звука на проекции, размещенной больше влево. Аналогично, второй сигнал источника звука в потоке битов может приниматься в качестве источника звука на проекции, размещенной больше вправо.Therefore, it should be noted that location information is only provided in the embodiments, and it is not necessary to transmit this information even in the case of two or more sound source signals. The decoder or playback module, for example, may always receive the first sound source signal in the bitstream as the sound source on the projection placed more to the left. Likewise, the second sound source signal in the bit stream may be received as the sound source in the projection placed more to the right.
Кроме того, хотя модуль вычисления позиций звука вычисляет позиции по меньшей мере двух источников звука для пространственно протяженного источника звука с использованием плоскости проекции по меньшей мере два источника звука должны не обязательно приниматься из потока битов. Вместо этого, только один источник звука, по меньшей мере, из двух источников звука может приниматься через поток битов и другой источник звука, и в силу этого также другая информация позиции или местоположения может фактически формироваться только на стороне воспроизведения без необходимости передачи этой информации из генератора потоков битов в модуль воспроизведения. Тем не менее, в других вариантах осуществления, вся эта информация может передаваться, и дополнительно, более высокое число, чем один или два звуковых сигнала, могут передаваться в потоке битов, когда требования по скорости передачи битов не являются жесткими, и аудиодекодер 190 должен декодировать два, три или еще большее число звуковых сигналов, представляющих по меньшей мере два источника звука, позиции которых вычисляются посредством модуля 140 вычисления позиций звука.In addition, although the sound position calculation module calculates the positions of at least two sound sources for a spatially extended sound source using a projection plane, the at least two sound sources need not be received from the bitstream. Instead, only one audio source from at least two audio sources can be received via the bit stream and the other audio source, and because of this, also other position or location information can actually be generated only on the reproduction side without the need to transmit this information from the generator. bit streams to the playback module. However, in other embodiments, all of this information may be transmitted, and additionally, a higher number than one or two audio signals may be transmitted in the bitstream when the bitrate requirements are not stringent and the
Фиг. 10 иллюстрирует сторону кодера этого сценария, когда воспроизведение применяется в приложении кодера/декодера. Фиг. 10 иллюстрирует оборудование для формирования потока битов, представляющего сжатое описание для пространственно протяженного источника звука. В частности, предоставляются поставщик 200 звука и формирователь 240 выходных данных. В этой реализации, пространственно протяженный источник звука представляется посредством сжатого описания, имеющего один или более различных звуковых сигналов, и формирователь выходных данных формирует поток битов, представляющий сжатую звуковую сцену, при этом поток битов содержит, по меньшей мере, один или более различных звуковых сигналов и геометрическую информацию, связанную с пространственно протяженным источником звука. Это представляет ситуацию, проиллюстрированную относительно фиг. 9, в которой вся остальная информация, такая как позиция пространственно протяженного источника звука (см. пунктирную стрелку в блоке 120 по фиг. 9), может свободно выбираться пользователем на стороне воспроизведения. Таким образом, предоставляется уникальное описание пространственно протяженного источника звука, по меньшей мере, с одним или более различных звуковых сигналов для этого пространственно протяженного источника звука, причем эти звуковые сигналы представляют собой просто сигналы точечных источников.Fig. 10 illustrates the encoder side of this scenario when playback is applied in an encoder/decoder application. Fig. 10 illustrates equipment for generating a bit stream representing a compressed description for a spatially extended sound source. In particular, a
Оборудование для формирования дополнительно содержит поставщик 220 геометрии для предоставления, к примеру, вычисления информации относительно геометрии для пространственно протяженного источника звука. Другие способы предоставления геометрической информации, отличающееся от вычисления, содержат прием пользовательского ввода, к примеру, чертежа, вручную нарисованного пользователем, либо любой другой информации, предоставляемой пользователем, например, посредством речи, тонов, жестов или любого другого пользовательского действия. В дополнение к одному или более различных звуковых сигналов, также информация относительно геометрии вводится в поток битов.The shaping hardware further comprises a
Необязательно, информация относительно информации отдельного местоположения для каждого звукового сигнала из одного или более различных звуковых сигналов также вводится в поток битов, и/или информация позиции для пространственно протяженного источника звука также вводится в поток битов. Информация позиции для источника звука может быть отдельной от геометрической информации или может включаться в геометрическую информацию. В первом случае, геометрическая информация может выдаваться относительно информации позиции. Во втором случае, геометрическая информация может содержать, например, для сферы, центральную точку в координатах и радиус или диаметр. Для коробчатого пространственно протяженного источника звука, восемь или, по меньшей мере, одна из угловых точек могут выдаваться в абсолютных координатах.Optionally, information regarding individual location information for each audio signal from one or more different audio signals is also input to the bitstream, and/or position information for a spatially extended audio source is also input to the bitstream. The position information for the sound source may be separate from the geometry information, or may be included in the geometry information. In the first case, the geometry information may be output regarding the position information. In the second case, the geometric information may contain, for example, for a sphere, a center point in coordinates and a radius or diameter. For a box-shaped spatially extended sound source, eight or at least one of the corner points may be output in absolute coordinates.
Информация местоположения для каждого из одного или более различных звуковых сигналов предпочтительно связана с геометрической информацией пространственно протяженного источника звука. Тем не менее, альтернативно, также полезной является информация абсолютного местоположения, связанная с такой же системой координат, в которой выдается информация позиции или геометрическая информация пространственно протяженного источника звука, и альтернативно, геометрическая информация также может выдаваться в абсолютной системе координат с абсолютными координатами, а не относительным способом. Тем не менее, предоставление этих данных относительным способом, не связанным с общей системой координат, позволяет пользователю самому позиционировать пространственно протяженный источник звука в компоновке для воспроизведения, как указано посредством пунктирной линии, направленной в проектор 120 по фиг. 9.The location information for each of the one or more different audio signals is preferably associated with geometric information of the spatially extended sound source. However, alternatively, the absolute location information associated with the same coordinate system as the position information or geometric information of the spatially extended sound source is also useful, and alternatively, the geometric information can also be output in the absolute coordinate system with absolute coordinates, and not in a relative way. However, providing this data in a relative manner not related to a common coordinate system allows the user to position the spatially extended sound source in the playback arrangement as indicated by the dashed line directed to the
В дополнительном варианте осуществления, поставщик 200 звука по фиг. 10 выполнен с возможностью предоставления по меньшей мере двух различных звуковых сигналов для пространственно протяженного источника звука, и формирователь выходных данных выполнен с возможностью формирования потока битов таким образом, что поток битов содержит по меньшей мере два различных звуковых сигнала предпочтительно в кодированном формате и необязательно информацию отдельного местоположения для каждого звукового сигнала, по меньшей мере, из двух различных звуковых сигналов либо в абсолютных координатах, либо относительно геометрии пространственно протяженного источника звука.In a further embodiment, the
В варианте осуществления, поставщик звука выполнен с возможностью выполнять запись естественного источника звука в нескольких отдельных позициях или ориентациях микрофона либо: выполнять извлечение звукового сигнала из одного базисного сигнала или нескольких базисных сигналов посредством одного или более декорреляционных фильтров, например, как поясняется относительно фиг. 1, пункт 164 и 166. Базисные сигналы, используемые в генераторе, могут быть одинаковыми или отличающимися от базисных сигналов, предоставленных на площадке для воспроизведения или передаваемых из генератора в модуль воспроизведения.In an embodiment, the audio provider is configured to record a natural sound source at multiple distinct microphone positions or orientations, either: to extract an audio signal from a single base signal or multiple base signals via one or more decorrelation filters, such as as explained with respect to FIG. 1,
В дополнительном варианте осуществления, поставщик 220 геометрии выполнен с возможностью извлекать, из геометрии пространственно протяженного источника звука, параметрическое описание или многоугольное описание, и формирователь выходных данных выполнен с возможностью вводить, в поток битов, это параметрическое описание или многоугольное описание.In a further embodiment, the
Кроме того, формирователь выходных данных выполнен с возможностью вводить, в поток битов, элемент потока битов, в предпочтительном варианте осуществления, при этом данный элемент потока битов указывает число, по меньшей мере, одного другого звукового сигнала для пространственно протяженного источника звука, включенного в поток битов или включенного в кодированный аудиосигнал, ассоциированный с потоком битов, причем число равно 1 или больше 1. Поток битов, сформированный посредством формирователя выходных данных, не должен обязательно представлять собой полный поток битов с данными формы аудиосигнала, с одной стороны, и метаданными, с другой стороны. Вместо этого, поток битов также может только представлять собой отдельный потока битов метаданных, содержащий, например, поле потоков битов для числа звуковых сигналов для каждого пространственно протяженного источника звука, геометрическую информацию для пространственно протяженного источника звука и, в варианте осуществления, также информацию позиции для пространственно протяженного источника звука и необязательно информацию местоположения для каждого звукового сигнала и для каждого пространственно протяженного источника звука, геометрическую информацию для пространственно протяженного источника звука и, в варианте осуществления, также информацию позиции для пространственно протяженного источника звука. Формы аудиосигналов, типично доступные в сжатой форме, передаются посредством отдельного потока данных или отдельного канала передачи в модуль воспроизведения таким образом, что модуль воспроизведения принимает, из одного источника, кодированные метаданные и из другого источника (кодированные) формы сигналов.In addition, the output data generator is configured to introduce, into the bitstream, a bitstream element, in the preferred embodiment, this bitstream element indicating the number of at least one other audio signal for a spatially extended audio source included in the stream. bitstream or included in the encoded audio signal associated with the bitstream, wherein the number is 1 or greater than 1. The bitstream generated by the output data generator need not necessarily be a complete bitstream with audio waveform data on the one hand and metadata on the other hand. the other side. Instead, the bitstream may also only be a single metadata bitstream containing, for example, a bitstream field for the number of audio signals for each spatially extended audio source, geometric information for the spatially extended audio source, and, in an embodiment, also position information for a spatially extended sound source, and optionally location information for each sound signal and for each spatially extended sound source, geometric information for a spatially extended sound source, and, in an embodiment, also position information for a spatially extended sound source. The audio waveforms, typically available in compressed form, are transmitted via a separate data stream or a separate transmission channel to the playback module such that the playback module receives, from one source, the encoded metadata and from another source (encoded) waveforms.
Кроме того, вариант осуществления генератора потоков битов содержит контроллер 250. Контроллер 250 выполнен с возможностью управлять поставщиком 200 звука относительно числа звуковых сигналов, которые должны предоставляться посредством поставщика звука. В соответствии с этой процедурой, контроллер 250 также предоставляет информацию элементов потока битов в формирователь 240 выходных данных, указываемый посредством заштрихованной линии, обозначающей необязательный признак. Формирователь выходных данных вводит, в элемент потока битов, конкретную информацию относительно числа звуковых сигналов, управляемых посредством контроллера 250 и предоставленных посредством поставщика 200 звука. Предпочтительно, число звуковых сигналов управляется таким образом, что выходной поток битов, содержащий кодированные звуковые аудиосигналы, удовлетворяет внешним требованиям по скорости передачи битов. Когда разрешенная скорость передачи битов является высокой, поставщик звука должен предоставлять большее число звуковых сигналов по сравнению с ситуацией, когда разрешенная скорость передачи битов является небольшой. В крайнем случае, поставщик звука должен предоставлять только один звуковой сигнал для пространственно протяженного источника звука, когда требования по скорости передачи битов являются жесткими.In addition, an embodiment of the bit stream generator includes a
Модуль воспроизведения должен считывать соответствующий заданный элемент потока битов и должен продолжать, в модуле 160 рендеринга, синтезировать, на стороне декодера и с использованием передаваемого сигнала звуков, соответствующее число дополнительных звуковых сигналов, так что, в конечном счете, формируется требуемое число периферийных точечных источников и, необязательно, вспомогательных источников.The playback module must read the corresponding given element of the bitstream and must continue, in the
Тем не менее, когда требования по скорости передачи битов не являются очень жесткими, контроллер 250 должен управлять поставщиком звука таким образом, чтобы предоставлять высокое число различных звуковых сигналов, например, записанных посредством соответствующего числа ориентаций микрофона или микрофонов. После этого, на стороне воспроизведения, обработка декорреляции вообще не требуется либо требуется только в небольшой степени, так что, в конечном счете, лучшее качество воспроизведения получается посредством модуля воспроизведения вследствие сокращенной или необязательной обработки декорреляции на стороне воспроизведения. Компромисс между скоростью передачи битов, с одной стороны, и качеством, с другой стороны, предпочтительно получается через функциональность элемента потока битов, указывающего число сигналов звуков в расчете на пространственно протяженный источник звука.However, when the bitrate requirements are not very stringent, the
Фиг. 11 иллюстрирует предпочтительный вариант осуществления потока битов, сформированного посредством оборудования формирования потока битов, проиллюстрированного на фиг. 10. Поток битов содержит, например, второй пространственно протяженный источник 401 звука, указываемый в качестве SESS2 с соответствующими данными.Fig. 11 illustrates a preferred embodiment of a bit stream generated by the bit stream generating equipment illustrated in FIG. 10. The bit stream contains, for example, the second spatially extended
Кроме того, фиг. 11 иллюстрирует подробные данные для каждого пространственно протяженного источника звука относительно пространственно протяженного источника звука номер 1. В примере на фиг. 11, два звуковых сигнала служат для пространственно протяженного источника звука, которые сформированы в генераторе потоков битов, например, из выходных данных микрофонов, снимаемых с микрофонов, размещенных в двух различных местах пространственно протяженного источника звука. Первый звуковой сигнал представляет собой звуковой сигнал 1, указываемый как 301, и второй звуковой сигнал представляет собой звуковой сигнал 2, указываемый как 302, и оба звуковых сигнала предпочтительно кодируются через аудиокодер для сжатия по скорости передачи битов. Кроме того, пункт 311 представляет элемент потока битов, указывающий число звуковых сигналов для пространственно протяженного источника 1 звука, например, управляемого посредством контроллера 250 по фиг. 10.In addition, FIG. 11 illustrates the details for each spatially extended sound source with respect to spatially extended
Геометрическая информация для пространственно протяженного источника звука вводится, как показано в блоке 331. Пункт 301 указывает необязательную информацию местоположения для звуковых сигналов предпочтительно относительно геометрической информации, к примеру, относительно примера фортепьяно, указывающей "близко к басовым струнам" для звукового сигнала 1 и "близко к верхним звуковым частотным струнам" для звукового сигнала 2, указываемого как 302. Геометрическая информация, например, может представлять собой параметрическое представление или многоугольное представление модели на основе фортепьяно, и эта модель на основе фортепьяно должна отличаться, например, для рояля или (небольшого) фортепьяно. Пункт 341 дополнительно иллюстрирует необязательные данные относительно информации позиции для пространственно протяженного источника звука в пространстве. Как указано, эта информация 341 позиции не является обязательной, когда пользователь предоставляет информацию позиции, как указано посредством пунктирной линии на фиг. 9, направленной в проектор. Тем не менее, даже когда информация 341 позиции включается в поток битов, пользователь, несмотря на это, может заменять или модифицировать информацию позиции посредством пользовательского взаимодействия.Geometric information for a spatially extended sound source is entered as shown in
Далее поясняются предпочтительные варианты осуществления настоящего изобретения. Варианты осуществления относятся к рендерингу пространственно протяженных источников звука в 6DoF VR/AR (виртуальной реальности/дополненной реальности).The following explains the preferred embodiments of the present invention. Embodiments relate to rendering spatially extended sound sources in 6DoF VR/AR (virtual reality/augmented reality).
Предпочтительные варианты осуществления изобретения направлены на способ, оборудование или компьютерную программу, разработанные с возможностью улучшать воспроизведение пространственно протяженных источников звука (SESS). В частности, варианты осуществления изобретаемого способа или оборудования рассматривают варьирующуюся во времени относительную позицию между пространственно протяженным источником звука и виртуальной позицией слушателя. Другими словами, варианты осуществления изобретаемого способа или оборудования обеспечивают возможность слуховой ширине источника совпадать с пространственной протяженностью представленного звукового объекта в любой относительной позиции к слушателю. В связи с этим, вариант осуществления изобретаемого способа или оборудования применяется, в частности, к вариантам применения в стиле виртуальной, смешанной и дополненной реальности с 6 степенями свободы (6DoF), в которых пространственно протяженный источник звука дополняет традиционно используемые точечные источники.Preferred embodiments of the invention are directed to a method, equipment or computer program designed to improve the reproduction of spatially extended sound sources (SESS). In particular, embodiments of the inventive method or equipment consider a time-varying relative position between a spatially extended sound source and the listener's virtual position. In other words, embodiments of the inventive method or equipment allow the auditory width of the source to match the spatial extent of the presented sound object at any relative position to the listener. In this regard, an embodiment of the inventive method or equipment applies in particular to 6 DoF (6 DoF) virtual, mixed and augmented reality style applications in which a spatially extended sound source complements traditionally used point sources.
Вариант осуществления изобретаемого способа или оборудования подготавливает посредством рендеринга пространственно протяженный источник звука посредством использования нескольких периферийных точечных источников, в которые подаются (предпочтительно значительно) декоррелированные сигналы. В отличие от других способов, местоположения этих периферийных точечных источников зависят от позиции слушателя относительно пространственно протяженного источника звука. Фиг. 1 иллюстрирует блок-схему общего представления модуля рендеринга пространственно протяженного источника звука согласно варианту осуществления изобретаемого способа или оборудования.An embodiment of the inventive method or equipment renders a spatially extended sound source by using a plurality of peripheral point sources fed with (preferably significantly) decorrelated signals. Unlike other methods, the locations of these peripheral point sources depend on the listener's position relative to the spatially extended sound source. Fig. 1 illustrates a block diagram of a general representation of a spatially extended sound source rendering module according to an embodiment of the inventive method or equipment.
Ключевые компоненты блок-схемы являются следующими:The key components of the flowchart are as follows:
Позиция слушателя: Этот блок предоставляет мгновенную позицию слушателя, например, измеренную посредством системы отслеживания в стиле виртуальной реальности. Блок может реализовываться как детектор 100 для обнаружения или интерфейс 100 для приема позиции слушателя.Listener Position: This block provides the instantaneous position of the listener, such as measured by a virtual reality-style tracking system. The block may be implemented as a
Позиция и геометрия пространственно протяженного источника звука: Этот блок предоставляет данные позиции и геометрии пространственно протяженного источника звука, который должен подготавливаться посредством рендеринга, например, в качестве части представления сцены в стиле виртуальной реальности.Spatial Sound Source Position and Geometry: This block provides position and geometry data for a spatially extended sound source to be rendered, for example, as part of a VR-style scene representation.
Проекция и вычисление выпуклой оболочки: Этот блок 120 вычисляет выпуклую оболочку геометрии пространственно протяженных источников звука и затем проецирует ее в направлении к позиции слушателя (например, к "плоскости изображений", см. нижеприведенную информацию). Альтернативно, такая же функция может достигаться посредством проецирования сначала геометрии к позиции слушателя и затем вычисления ее выпуклой оболочки.Projection and Convex Hull Computation: This
Местоположение периферийных точечных источников: Этот блок 140 вычисляет местоположения используемых периферийных точечных источников из данных проекции выпуклой оболочки, вычисленных посредством предыдущего блока. В этом вычислении, он также может рассматривать позицию слушателя и в силу этого близость/расстояние слушателя (см. нижеприведенную информацию). Вывод представляет собой n местоположений периферийных точечных источников.Location of peripheral point sources: This
Ядро модуля рендеринга: Ядро 162 модуля рендеринга аурализирует n периферийных точечных источников посредством их позиционирования в указанных целевых местоположениях. Он, например, может представлять собой модули бинаурального рендеринга с использованием передаточных функций слухового аппарата человека или модули рендеринга для воспроизведения через громкоговорители (например, для векторного амплитудного панорамирования). Ядро модуля рендеринга формирует l выходных сигналов громкоговорителей или наушников из k входных базисных аудиосигналов (например, декоррелированных сигналов записи инструментов) и m ≥ (n-k) дополнительных декоррелированных аудиосигналов.Renderer core: The
Базисные сигналы источников: Этот блок 164 представляет собой ввод для k базисных аудиосигналов, которые (достаточно) декоррелируются друг от друга и представляют источник звука, который долен подготавливаться посредством рендеринга (например, моно- (k=1) или стерео- (k=2) запись музыкального инструмента). K базисных аудиосигналов, например, извлекаются из потока битов (см., например, элементы 301, 302 по фиг. 11), принимаемого из генератора на стороне декодера, либо могут предоставляться на площадке для воспроизведения из внешнего источника.Basic Source Signals: This
Декорреляторы: Этот необязательный блок 166 формирует дополнительные декоррелированные аудиосигналы, требуемые для рендеринга n периферийных точечных источников.Decorrelators: This
Вывод сигналов: Модуль рендеринга предоставляет выходные сигналы l для рендеринга в громкоговорителях (например, n=5.1) или бинаурального рендеринга (типично n=2).Signal output: The renderer provides output signals l for loudspeaker rendering (eg n=5.1) or binaural rendering (typically n=2).
Фиг. 1 иллюстрирует общее представление блок-схемы варианта осуществления изобретаемого способа или оборудования. Пунктирные линии указывают передачу метаданных, таких как геометрия и позиции. Сплошные линии указывают передачу аудио, где k, l и m указывают множество аудиоканалов. Ядро 162 модуля рендеринга принимает возможно k+m аудиосигналов и n (<=k+m) позиционных данных. Блоки 162, 164, 166 вместе формируют вариант осуществления общего модуля 160 рендеринга.Fig. 1 illustrates a general block diagram representation of an embodiment of an inventive method or equipment. Dashed lines indicate the transfer of metadata such as geometry and positions. Solid lines indicate audio transmission, where k, l and m indicate the set of audio channels. The
Местоположения периферийных точечных источников зависят от геометрии, в частности, пространственной протяженности, пространственно протяженного источника звука и относительной позиции слушателя относительно пространственно протяженного источника звука. В частности, периферийные точечные источники могут быть расположены на проекции выпуклой оболочки пространственно протяженного источника звука на плоскость проекции. Плоскость проекции может представлять собой либо плоскость картинки, т.е. плоскость, перпендикулярную линии зрения от слушателя к пространственно протяженному источника звуку, либо сферическую поверхность вокруг головы слушателя. Плоскость проекции расположена на произвольном небольшом расстоянии от центра головы слушателя. Альтернативно, выпуклая оболочка проекции пространственно протяженного источника звука может вычисляться из углов азимута и подъема, которые представляют собой поднабор сферических координат относительно перспективы головы слушателя. В иллюстративных нижеприведенных примерах, плоскость проекции является предпочтительной вследствие своего более интуитивного характера. В реализации с вычислением проецируемой выпуклой оболочки, угловое представление является предпочтительным вследствие более простой формализации и более низкой вычислительной сложности. Следует обратить внимание на то, что проекция выпуклой оболочки пространственно протяженного источника звука является такой же выпуклой оболочкой геометрии проецируемых пространственно протяженных источников звука, т.е. вычисление выпуклой оболочки и проекция на плоскость картинки могут использоваться в любом порядке.The locations of the peripheral point sources depend on the geometry, in particular the spatial extent, the spatial extent of the sound source, and the relative position of the listener relative to the spatial extent of the sound source. In particular, peripheral point sources can be located on the projection of the convex shell of a spatially extended sound source onto the projection plane. The projection plane can be either the picture plane, i.e. a plane perpendicular to the line of sight from the listener to a spatially extended sound source, or a spherical surface around the listener's head. The projection plane is located at an arbitrary small distance from the center of the listener's head. Alternatively, the convex hull of a projection of a spatially extended sound source may be calculated from azimuth and elevation angles, which are a subset of spherical coordinates relative to the perspective of the listener's head. In the illustrative examples below, the projection plane is preferred due to its more intuitive nature. In a projected convex hull implementation, the angular representation is preferred due to simpler formalization and lower computational complexity. It should be noted that the projection of the convex hull of a spatially extended sound source is the same convex hull of the geometry of the projected spatially extended sound sources, i.e. the calculation of the convex hull and the projection onto the plane of the picture can be used in any order.
Местоположения периферийных точечных источников могут распределяться по проекции выпуклой оболочки пространственно протяженного источника звука различными способами, что включает в себя следующее:Locations of peripheral point sources can be distributed over the projection of the convex hull of a spatially extended sound source in a variety of ways, which include the following:
- Они могут возмущаться равномерно вокруг проекции оболочки- They can perturb uniformly around the shell projection
- Они могут распределяться в точках экстремума проекции оболочки- They can be distributed at the extremum points of the shell projection
- Они могут быть расположены в горизонтальных и/или вертикальных точках экстремума проекции оболочки (см. фиг. в разделе "Практические примеры").- They can be located at the horizontal and/or vertical extremum points of the shell projection (see Fig. in the "Practical examples" section).
В дополнение к периферийным точечным источникам, другие вспомогательные точечные источники также могут использоваться для того, чтобы формировать улучшенное ощущение акустического заполнения за счет дополнительной вычислительной сложности. Дополнительно, проецируемая выпуклая оболочка может модифицироваться до позиционирования периферийных точечных источников. Например, проецируемая выпуклая оболочка может сжиматься к центру тяжести проецируемой выпуклой оболочки. Такая сжатая проецируемая выпуклая оболочка может учитывать дополнительный пространственный разброс отдельных периферийных точечных источников, введенных посредством способа рендеринга. Модификация выпуклой оболочки дополнительно может различаться между масштабированием горизонтальных и вертикальных направлений.In addition to peripheral point sources, other auxiliary point sources can also be used to generate an improved sense of acoustic filling at the expense of additional computational complexity. Additionally, the projected convex hull can be modified to position peripheral point sources. For example, the projected convex hull may contract towards the center of gravity of the projected convex hull. Such a compressed projected convex hull can take into account the additional spatial dispersion of individual peripheral point sources introduced by the rendering method. The modification of the convex hull can further differ between scaling the horizontal and vertical directions.
Когда позиция слушателя относительно пространственно протяженного источника звука изменяется, далее проекция пространственно протяженного источника звука на плоскость проекции изменяется соответствующим образом. В свою очередь, местоположения периферийных точечных источников изменяются соответствующим образом. Местоположения периферийных точечных источников должны предпочтительно выбираться таким образом, что они изменяются плавно для непрерывного перемещения пространственно протяженного источника звука и слушателя. Дополнительно, проецируемая выпуклая оболочка изменяется, когда геометрия пространственно протяженного источника звука изменяется. Это включает в себя вращение геометрии пространственно протяженных источников звука в трехмерном пространстве, которое изменяет проецируемую выпуклую оболочку. Вращение геометрии равно угловому смещению позиции слушателя относительно пространственно протяженного источника звука и, к примеру, называется включающим способом "относительной позицией слушателя и пространственно протяженного источника звука". Например, круговое движение слушателя вокруг сферического пространственно протяженного источника звука представляется посредством вращения периферийных точечных источников вокруг центра тяжести. Аналогичным образом, вращение пространственно протяженного источника звука со стационарным слушателем приводит к одинаковому изменению местоположений периферийных точечных источников.When the position of the listener relative to the spatially extended sound source changes, then the projection of the spatially extended sound source onto the projection plane changes accordingly. In turn, the locations of peripheral point sources change accordingly. The locations of the peripheral point sources should preferably be chosen such that they change smoothly to continuously move the spatially extended sound source and listener. Additionally, the projected convex hull changes as the geometry of the spatially extended sound source changes. This involves rotating the geometry of spatially extended sound sources in 3D space, which changes the projected convex hull. The rotation of the geometry is equal to the angular displacement of the position of the listener relative to the spatially extended sound source and is, for example, referred to in an inclusive manner as "the relative position of the listener and the spatially extended sound source". For example, the circular motion of the listener around a spherical spatially extended sound source is represented by the rotation of peripheral point sources around the center of gravity. Similarly, rotation of a spatially extended sound source with a stationary listener results in the same change in the locations of peripheral point sources.
Пространственная протяженность, которая формируется посредством варианта осуществления изобретаемого способа или оборудования, внутренне воспроизводится корректно для любого расстояния между пространственно протяженным источником звука и слушателем. Естественно, когда пользователь приближается к пространственно протяженному источнику звука, угол раскрытия между периферийным точечным источником увеличивается так, как является целесообразным для моделирования физической реальности.The spatial extent that is generated by an embodiment of the inventive method or equipment is internally reproduced correctly for any distance between the spatially extended sound source and the listener. Naturally, as the user approaches the spatially extended sound source, the opening angle between the peripheral point source increases in a way that is appropriate for simulating physical reality.
Исходя из того, что угловое размещение периферийных точечных источников уникально определяется посредством местоположения на проецируемой выпуклой оболочке на плоскость проекции, расстояния периферийных точечных источников дополнительно могут выбираться различными способами, в том числе:Since the angular placement of peripheral point sources is uniquely determined by location on the projected convex hull onto the projection plane, the distances of peripheral point sources can further be selected in a variety of ways, including:
Все периферийные точечные источники имеют одинаковое расстояние, равное расстоянию всего пространственно протяженного источника звука, например, заданного через центр тяжести пространственно протяженного источника звука относительно головы слушателя.All peripheral point sources have the same distance, equal to the distance of the entire spatially extended sound source, for example, a spatially extended sound source specified through the center of gravity relative to the listener's head.
Расстояние каждого периферийного точечного источника определяется посредством задней проекции местоположений на проецируемой выпуклой оболочке на геометрию пространственно протяженного источника звука, так что проекция периферийных точечных источников на плоскость проекции приводит к такой же точке. Задняя проекция периферийных точечных источников из проецируемой выпуклой оболочки на пространственно протяженный источник звука не всегда может уникально определяться, так что должны применяться дополнительные правила проекции (см. раздел "Практические примеры").The distance of each peripheral point source is determined by rear projection of the locations on the projected convex hull onto the geometry of the spatially extended sound source such that the projection of the peripheral point sources onto the projection plane results in the same point. The rear projection of peripheral point sources from a projected convex hull onto a spatially extended sound source may not always be uniquely determined, so additional projection rules must apply (see the Practical Examples section).
Расстояние периферийных точечных источников может не определяться вообще, если рендеринг периферийных точечных источников не требует свойства расстояния, а требует только относительного углового размещения в азимуте и подъеме.Distance of peripheral point sources may not be specified at all if the rendering of peripheral point sources does not require a distance property, but only requires relative angular placement in azimuth and elevation.
Чтобы указывать геометрическую форму/выпуклую оболочку пространственно протяженного источника звука, используется (и, возможно, передается в модуль рендеринга или ядро модуля рендеринга) аппроксимация, включающая в себя упрощенную одномерную, например, линейную, кривую; двумерную, например, эллипс, прямоугольник, многоугольники; или трехмерную форму, например, эллипсоид, кубоид и многогранники. Геометрия пространственно протяженного источника звука или соответствующая приблизительная форма, соответственно, может описываться различными способами, включающими в себя:To indicate the geometric shape/convex hull of a spatially extended sound source, an approximation is used (and possibly passed to a renderer or renderer core) that includes a simplified one-dimensional, eg, linear, curve; two-dimensional, for example, an ellipse, a rectangle, polygons; or a three-dimensional shape such as ellipsoid, cuboid, and polyhedrons. The geometry of a spatially extended sound source, or the corresponding approximate shape, respectively, can be described in a variety of ways, including:
Параметрическое описание, т.е. формализация геометрии через математическое выражение, которое разрешает дополнительные параметры. Например, эллипсоидная форма в трехмерном может описываться посредством неявной функции на декартовой системе координат, и дополнительные параметры представляют собой протяженность главных осей во всех трех направлениях. Дополнительные параметры могут включать в себя функции трехмерного вращения, деформации эллипсоидной поверхности.Parametric description, i.e. the formalization of the geometry through a mathematical expression that allows additional parameters. For example, an ellipsoid shape in 3D can be described by an implicit function on a Cartesian coordinate system, and the additional parameters are the extent of the principal axes in all three directions. Additional parameters may include functions of three-dimensional rotation, deformation of the ellipsoidal surface.
Многоугольное описание, т.е. совокупность примитивных геометрических форм, таких как линии, треугольники, квадрат, четырехгранник и кубоиды. Приматные многоугольники и многогранник могут конкатенироваться в более крупные более сложные геометрии.Polygonal description, i.e. a collection of primitive geometric shapes such as lines, triangles, squares, tetrahedrons, and cuboids. Primate polygons and polyhedron can be concatenated into larger more complex geometries.
Сигналы периферийных точечных источников извлекаются из базисных сигналов пространственно протяженного источника звука. Базисные сигналы могут получаться различными способами, такими как: 1) Запись естественного источника звука в одной или нескольких позициях и ориентациях микрофона (пример: запись звука фортепьяно, как показано в практических примерах); 2) Синтез искусственного источника звука (пример: синтез звука с варьирующимися параметрами); 3) Комбинация любых аудиосигналов (пример: различные механические звуки автомобиля, к примеру, двигателя, шин, двери и т.д.). Дополнительно, дополнительные сигналы периферийных точечных источников могут формироваться искусственно из базисных сигналов посредством нескольких декорреляционных фильтров (см. предшествующий раздел).The signals of peripheral point sources are extracted from the basic signals of a spatially extended sound source. Basic signals can be obtained in various ways, such as: 1) Recording a natural sound source in one or more microphone positions and orientations (example: recording a piano sound, as shown in practical examples); 2) Synthesis of an artificial sound source (example: sound synthesis with varying parameters); 3) A combination of any audio signals (example: various mechanical sounds of a car, for example, engine, tires, doors, etc.). Additionally, additional peripheral point source signals can be generated artificially from the basic signals by means of several decorrelation filters (see the previous section).
В некоторых сценариях применения, внимание акцентируется на компактном и функционально совместимом хранении/передаче 6DoF VR/AR-контента. В этом случае, вся цепочка состоит из трех этапов:In some application scenarios, attention is focused on compact and interoperable storage/transmission of 6DoF VR/AR content. In this case, the whole chain consists of three stages:
Авторская разработка/кодирование требуемых пространственно протяженных источников звука в поток битовAuthoring/encoding the required spatially extended sound sources into a bitstream
Передача/хранение сформированного потока битов. В соответствии с представленным изобретением, поток битов содержит, помимо других элементов, описание геометрий пространственно протяженных источников звука (параметрических или в виде многоугольников) и ассоциированного базисного сигнала(ов) источника, такого как монофоническая или стереофоническая запись фортепьяно. Формы сигналов могут сжиматься (см. пункт 260 на фиг. 10) с использованием алгоритмов перцепционного кодирования аудио, таких как MP3 или усовершенствованное кодирование аудио (AAC) по стандарту MPEG-2/4.Transmission/storage of the generated bit stream. In accordance with the present invention, the bit stream contains, among other elements, a description of the geometries of spatially extended sound sources (parametric or polygonal) and associated basic source signal(s), such as a monophonic or stereophonic piano recording. The waveforms may be compressed (see
Декодирование/рендеринг пространственно протяженных источников звука на основе передаваемого потока битов, как описано выше.Decoding/rendering of spatially extended audio sources based on the transmitted bitstream as described above.
В дополнение к базовому способу, описанному ранее, существует несколько вариантов для последующей обработки:In addition to the basic method described earlier, there are several options for further processing:
Вариант 1. Динамический выбор числа и местоположения периферийных точечных источников
В зависимости от расстояния слушателя до пространственно протяженного источника звука, число периферийных точечных источников может варьироваться. В качестве примера, когда пространственно протяженный источник звука и слушатель находятся на большом расстоянии друг от друга, угол раскрытия (апертура) проецируемой выпуклой оболочки становится небольшим, и в силу этого меньшее число периферийных точечных источников может выбираться преимущественно, за счет этого снижая вычислительную сложность и сложность запоминающего устройства. В крайнем случае, все периферийные точечные источники уменьшаются до одного оставшегося точечного источника. Соответствующие технологии понижающего сведения могут применяться, чтобы обеспечивать то, что помехи между базисными и извлеченными сигналами не ухудшают качество звучания результирующих сигналов периферийных точечных источников. Аналогичные технологии могут применяться также на небольшом расстоянии пространственно протяженного источника звука до позиции слушателя, если геометрия пространственно протяженного источника звука является очень нерегулярной в зависимости от относительной точки обзора слушателя. Например, геометрия пространственно протяженных источников звука, которая представляет собой линию конечных длин, может ухудшаться на плоскости проекции к одной точке. В общем, если угловая протяженность периферийных точечных источников на проецируемой выпуклой оболочке является низкой, пространственно протяженный источник звука может представляться посредством меньшего количества периферийных точечных источников. В крайнем случае, все периферийные точечные источники уменьшаются до одного оставшегося точечного источника.Depending on the distance of the listener to the spatially extended sound source, the number of peripheral point sources may vary. As an example, when the spatially extended sound source and the listener are at a large distance from each other, the opening angle (aperture) of the projected convex hull becomes small, and thus a smaller number of peripheral point sources can be advantageously selected, thereby reducing computational complexity and storage complexity. In the extreme case, all peripheral point sources are reduced to one remaining point source. Appropriate downmix techniques can be applied to ensure that interference between the base and extracted signals does not degrade the sound quality of the resulting peripheral point source signals. Similar techniques can also be applied at a short distance of the spatially extended sound source from the position of the listener, if the geometry of the spatially extended sound source is very irregular depending on the relative viewpoint of the listener. For example, the geometry of spatially extended sound sources, which is a line of finite lengths, may deteriorate on the projection plane to one point. In general, if the angular extent of the peripheral point sources on the projected convex hull is low, the spatially extended sound source can be represented by fewer peripheral point sources. In the extreme case, all peripheral point sources are reduced to one remaining point source.
Вариант 2. Компенсация разбросаOption 2: Spread compensation
Поскольку каждый периферийный точечный источник также демонстрирует пространственный разброс за пределы проекции выпуклой оболочки, воспринимаемая слуховая ширина изображения подготовленного посредством рендеринга пространственно протяженного источника звука в определенной степени больше выпуклой оболочки, используемой для рендеринга. Чтобы совмещать ее с требуемой целевой геометрией, имеется два варианта:Because each peripheral point source also exhibits spatial spread beyond the projection of the convex hull, the perceived auditory image width of the rendered spatially extended sound source is somewhat larger than the convex hull used for rendering. To match it with the desired target geometry, there are two options:
Компенсация во время авторской разработки: Дополнительный разброс процедуры рендеринга рассматривается во время авторской разработки контента. В частности, в определенной степени меньшая геометрия пространственно протяженных источников звука выбирается во время авторской разработки контента, так что фактически подготовленный посредством рендеринга размер является желательным. Это может проверяться посредством мониторинга эффекта модуля рендеринга или ядра модуля рендеринга в среде авторской разработки (например, в производственной студии). В этом случае, передаваемый поток битов и модуль рендеринга или ядро модуля рендеринга используют уменьшенную целевую геометрию по сравнению с целевым размером.Compensation during authoring: Additional variation in the rendering procedure is considered during content authoring. In particular, to a certain extent, the smaller geometry of the spatially extended sound sources is chosen during authoring of the content, so that the actual rendered size is desirable. This can be checked by monitoring the effect of a renderer or renderer core in an authoring environment (eg, in a production studio). In this case, the transmitted bitstream and the renderer or renderer core use a reduced target geometry compared to the target size.
Компенсация во время рендеринга: Модуль рендеринга или ядро модуля рендеринга пространственно протяженного источника звука может уведомляться относительно дополнительного перцепционного разброса посредством процедуры рендеринга и в силу этого может иметь возможность компенсировать этот эффект. В качестве простого примера, геометрия, используемая для рендеринга, может:Compensation during rendering: The renderer or renderer core of the spatially extended sound source renderer may be notified of the additional perceptual spread by the rendering procedure and thus may be able to compensate for this effect. As a simple example, the geometry used for rendering might be:
- уменьшаться на постоянный множитель < 1,0 (например, a=0,9), или- decrease by a constant factor < 1.0 (e.g. a=0.9), or
- уменьшаться на постоянный угол раскрытия альфа=5 градусов- decrease by a constant opening angle alpha=5 degrees
- до того, как она применяется для того, чтобы размещать периферийные точечные источники. В этом случае, передаваемый поток битов содержит конечный целевой размер геометрии пространственно протяженных источников звука.- before it is used to locate peripheral point sources. In this case, the transmitted bit stream contains a finite target size of the geometry of the spatially extended sound sources.
Кроме того, комбинация этих подходов является целесообразной.In addition, a combination of these approaches is useful.
Вариант 3. Формирование форм сигналов периферийных точечных источников
Дополнительно, фактические сигналы для подачи в периферийные точечные источники могут формироваться из записанных аудиосигналов посредством рассмотрения позиции пользователя относительно пространственно протяженного источника звука для того, чтобы моделировать пространственно протяженные источники звука с зависимыми от геометрии звуковыми долями, такие как фортепьяно со звуками низких нот с левой стороны и наоборот.Additionally, the actual signals to be fed to the peripheral point sources can be generated from the recorded audio signals by considering the user's position relative to the spatially extended sound source in order to model spatially extended sound sources with geometry-dependent sound fractions, such as a piano with low note sounds on the left side. and vice versa.
Пример: Звук пианино отличается посредством своего акустического поведения. Оно моделируется посредством (по меньшей мере) двух базисных аудиосигналов, одного около нижнего конца клавиатуры в виде фортепьяно ("низкие ноты") и одного около верхнего конца клавиатуры ("высокие ноты"). Эти базисные сигналы могут получаться посредством соответствующего использования микрофона при записи звука фортепьяно и передаваться в модуль 6DoF-рендеринга или ядро модуля 6DoF-рендеринга, обеспечивая то, что между ними имеется достаточная декорреляция.Example: The sound of a piano is distinguished by its acoustic behavior. It is modeled by (at least) two basic audio signals, one near the bottom end of the piano-like keyboard ("low notes") and one near the top end of the keyboard ("high notes"). These basic signals can be obtained by appropriate use of a microphone when recording piano sound and passed to the 6DoF renderer or 6DoF renderer core, ensuring that there is sufficient decorrelation between them.
Сигналы периферийных точечных источников затем извлекаются из этих базисных сигналов посредством рассмотрения позиции пользователя относительно пространственно протяженного источника звука:Peripheral point source signals are then extracted from these basic signals by considering the user's position relative to the spatially extended sound source:
Когда пользователь обращен к фортепьяно с передней стороны (клавиатура), два периферийных точечных источника имеют достаточно большое разнесение друг от друга по ширине около левого и правого конца клавиатуры в виде фортепьяно, соответственно. В этом случае, базисный сигнал для низких клавиш может непосредственно подаваться в левый периферийный точечный источник, и базисный сигнал для высоких клавиш может непосредственно использоваться для того, чтобы возбуждать правый периферийный точечный источник.When the user faces the piano from the front side (keyboard), the two peripheral spot sources have a sufficiently large width separation from each other near the left and right ends of the piano keyboard, respectively. In this case, the base signal for low keys can be directly supplied to the left peripheral point source, and the base signal for high keys can be directly used to drive the right peripheral point source.
По мере того, как слушатель проходит вокруг фортепьяно приблизительно на 90 градусов вправо, два периферийных точечных источника панорамируются очень близко друг к другу, поскольку проекция модели на основе громкости фортепьяно (например, эллипс) является небольшой при ее просмотре сбоку. Если базисные сигналы продолжают использоваться для того, чтобы непосредственно возбуждать сигналы периферийных точечных источников, один из периферийных точечных источников должен содержать преимущественно высокие ноты, тогда как другой должен переносить главным образом низкие ноты. Поскольку это является нежелательным с физической точки зрения, рендеринг может улучшаться посредством вращения двух базисных сигналов таким образом, чтобы формировать сигналы периферийных точечных источников посредством вращения Гивенса на такой же угол в качестве перемещения пользователя относительно центра тяжести фортепьяно. Таким образом, оба сигнала содержат сигналы аналогичного спектрального контента при одновременной декорреляции (при условии, что базисные сигналы декоррелированы).As the listener walks around the piano approximately 90 degrees to the right, the two peripheral spot sources are panned very close to each other because the projection of the piano loudness model (eg, ellipse) is small when viewed from the side. If the basic signals continue to be used to directly drive peripheral point source signals, one of the peripheral point sources should contain predominantly high notes, while the other should carry mainly low notes. Since this is undesirable from a physical point of view, rendering can be improved by rotating the two basic signals so as to form the peripheral point source signals by rotating Givens by the same angle as the user moves relative to the center of gravity of the piano. Thus, both signals contain signals of similar spectral content while being decorrelated (assuming the underlying signals are decorrelated).
Вариант 4. Постобработка подготовленного посредством рендеринга пространственно протяженного источника звука
Фактические сигналы могут предварительно или постобрабатываться, чтобы учитывать зависимый от позиции и направления эффект, например, диаграмму направленности пространственно протяженного источника звука. Другими словами, целый звук, испускаемый из пространственно протяженного источника звука, как описано выше, может модифицироваться таким образом, что он демонстрирует, например, зависимую от направления диаграмму звукового излучения. В случае сигнала фортепьяно, это может означать то, что излучение к задней стороне фортепьяно имеет менее высокочастотный контент, чем к его передней стороне. Дополнительно, предварительная и постобработка сигналов периферийных точечных источников может регулироваться отдельно для каждого из периферийных точечных источников. Например, диаграмма направленности может выбираться по-разному для каждого из периферийных точечных источников. В данном примере пространственно протяженного источника звука, представляющего фортепьяно, диаграммы направленности диапазона низких и высоких клавиш могут быть аналогичными тому, что описано выше; тем не менее, дополнительные сигналы, такие как шумы от нажатия педалей, имеют более всенаправленную диаграмму направленности.The actual signals may be pre- or post-processed to account for position and direction dependent effects, such as the radiation pattern of a spatially extended sound source. In other words, the whole sound emitted from a spatially extended sound source as described above can be modified such that it exhibits, for example, a direction-dependent sound emission pattern. In the case of a piano signal, this may mean that the radiation towards the rear of the piano has less high frequency content than towards the front. Additionally, pre- and post-processing of peripheral point source signals can be adjusted separately for each of the peripheral point sources. For example, the radiation pattern may be chosen differently for each of the peripheral point sources. In this example of a spatially extended sound source representing a piano, the low and high key range patterns may be similar to those described above; however, additional cues, such as pedaling noise, have a more omnidirectional pattern.
Далее обобщаются несколько преимуществ предпочтительных вариантов осуществления:Several advantages of the preferred embodiments are summarized below:
- Более низкая вычислительная сложность по сравнению с полным заполнением внутренней части пространственно протяженного источника звука точечными источниками (например, используемыми в усовершенствованном AudioBIFS-стандарте)- Lower computational complexity compared to completely filling the inside of a spatially extended sound source with point sources (for example, used in the advanced AudioBIFS standard)
- Меньший потенциал для деструктивных помех между сигналами точечных источников- Less potential for destructive interference between point source signals
- Компактный размер информации потока битов (аппроксимаций геометрической формы, одной или более форм сигналов)- Compact size of bitstream information (approximations of geometry, one or more waveforms)
- Обеспечивает возможность использования унаследованных записей (например, стереозаписей фортепьяно), которые сформированы для потребления музыки, для целей VR/AR-рендеринга- Provides the ability to use legacy recordings (such as stereo piano recordings) that are shaped for music consumption for VR/AR rendering purposes
Далее представляются различные практические примеры реализации:The following are various practical implementation examples:
- Сферический пространственно протяженный источник звука- Spherical spatially extended sound source
- Эллипсоидный пространственно протяженный источник звука- Ellipsoidal spatially extended sound source
- Линейный пространственно протяженный источник звука- Linear spatially extended sound source
- Кубоидный пространственно протяженный источник звука- Cuboid spatially extended sound source
- Зависимые от расстояния периферийные точечные источники- Distance dependent peripheral point sources
- Пространственно протяженный источник звука в форме фортепьяно- Spatially extended sound source in the form of a piano
Как описано в вариантах осуществления изобретаемого способа или оборудования выше, могут применяться различные способы для определения местоположения периферийных точечных источников. Следующие практические примеры демонстрируют некоторые изолированные способы в конкретных случаях. В полной реализации варианта осуществления изобретаемого способа или оборудования, различные способы могут комбинироваться надлежащим образом с учетом вычислительной сложности, назначения применения, качества звучания и простоты реализации.As described in the embodiments of the inventive method or equipment above, various methods can be used to determine the location of peripheral point sources. The following practical examples demonstrate some isolated methods in specific cases. In a complete implementation of an embodiment of an inventive method or equipment, the various methods can be combined appropriately in view of computational complexity, intended use, audio quality, and ease of implementation.
Геометрия пространственно протяженных источников звука указывается в качестве зеленой поверхностной ячеистой сетки. Следует отметить, что визуализация ячеистой сетки не подразумевает, что геометрия пространственно протяженных источников звука описывается посредством многоугольного способа, поскольку фактически геометрия пространственно протяженных источников звука может формироваться из параметрической спецификации. Позиция слушателя указывается посредством синего треугольника. В нижеприведенных примерах, плоскость картинки выбирается в качестве плоскости проекции и иллюстрируется в качестве прозрачной серой плоскости, которая указывает конечный поднабор плоскости проекции. Проецируемая геометрия пространственно протяженного источника звука на плоскость проекции проиллюстрирована с такой же поверхностной ячеистой сеткой в зеленом цвете. Периферийные точечные источники на проецируемой выпуклой оболочке проиллюстрированы как красные кресты на плоскости проекции. Задние проецируемые периферийные точечные источники на геометрию пространственно протяженных источников звука проиллюстрированы как красные точки. Соответствующие периферийные точечные источники на проецируемой выпуклой оболочке и задние проецируемые периферийные точечные источники на геометрии пространственно протяженных источников звука соединяются посредством красных линий, чтобы помогать идентифицировать визуальное соответствие. Позиции всех предусмотренных объектов проиллюстрированы в декартовой системе координат с единицами в метрах. Выбор проиллюстрированной системы координат не подразумевает то, что предусмотренные вычисления выполняются с декартовыми координатами.The geometry of spatially extended sound sources is indicated as a green surface mesh. It should be noted that the mesh visualization does not imply that the geometry of spatially extended sound sources is described in a polygonal manner, since in fact the geometry of spatially extended sound sources may be generated from a parametric specification. The listener position is indicated by a blue triangle. In the examples below, the picture plane is chosen as the projection plane and illustrated as a transparent gray plane that indicates the final subset of the projection plane. The projected geometry of a spatially extended sound source onto the projection plane is illustrated with the same surface mesh in green. Peripheral point sources on the projected convex hull are illustrated as red crosses on the projection plane. Rear projected peripheral point sources onto the geometry of spatially extended sound sources are illustrated as red dots. Corresponding peripheral point sources on the projected convex hull and rear projected peripheral point sources on the spatially extended sound source geometry are connected by red lines to help identify the visual match. The positions of all envisaged objects are illustrated in the Cartesian coordinate system with units in meters. The choice of the illustrated coordinate system does not imply that the calculations provided are performed with Cartesian coordinates.
Первый пример на фиг. 2 рассматривает сферический пространственно протяженный источник звука. Сферический пространственно протяженный источник звука имеет фиксированный размер и фиксированную позицию относительно слушателя. Три других набора по три, пять и восемь периферийных точечных источников выбираются на проецируемой выпуклой оболочке. Все три набора периферийных точечных источников выбираются с равномерным расстоянием на кривой выпуклой оболочки. Смещенные позиции периферийных точечных источников на кривой выпуклой оболочки намеренно выбираются таким образом, что горизонтальная протяженность геометрии пространственно протяженных источников звука хорошо представляется.The first example in Fig. 2 considers a spherical spatially extended sound source. A spherical spatially extended sound source has a fixed size and a fixed position relative to the listener. Three other sets of three, five, and eight peripheral point sources are selected on the projected convex hull. All three sets of peripheral point sources are chosen with uniform spacing on the convex hull curve. The offset positions of the peripheral point sources on the curve of the convex hull are deliberately chosen such that the horizontal extent of the geometry of the spatially extended sound sources is well represented.
Фиг. 2 иллюстрирует сферический пространственно протяженный источник звука с различными числами (т.е. 3 (верхний), 5 (средний) и 8 (нижний)) периферийных точечных источников, равномерно распределенных на выпуклой оболочке.Fig. 2 illustrates a spherical spatially extended sound source with various numbers (ie 3 (upper), 5 (middle) and 8 (lower)) of peripheral point sources uniformly distributed on a convex hull.
Следующий пример на фиг. 3 рассматривает эллипсоидный пространственно протяженный источник звука. Эллипсоидный пространственно протяженный источник звука имеет фиксированную форму, позицию и вращение в трехмерном пространстве. Четыре периферийных точечных источника выбираются в этом примере. Три различных способа определения местоположения периферийных точечных источников примерно иллюстрируются:The next example in Fig. 3 considers an ellipsoidal spatially extended sound source. An ellipsoidal spatially extended sound source has a fixed shape, position and rotation in three-dimensional space. Four peripheral point sources are selected in this example. The three different ways of locating peripheral point sources are roughly illustrated:
a) два периферийных точечных источника размещаются в двух горизонтальных точках экстремума, и два периферийных точечных источника размещаются в двух вертикальных точках экстремума. При этом позиционирование точек экстремума является простым и зачастую надлежащим. Этот пример показывает то, что этот способ может давать в результате местоположения периферийных точечных источников, которые находятся относительно близко друг к другу.a) two peripheral point sources are placed at two horizontal extreme points and two peripheral point sources are placed at two vertical extreme points. At the same time, the positioning of extremum points is simple and often appropriate. This example shows what this method can produce as a result of the location of peripheral point sources that are relatively close to each other.
b) Все четыре периферийных точечных источника распределяются равномерно на проецируемой выпуклой оболочке. Смещение местоположения периферийных точечных источников выбирается таким образом, что местоположение самого верхнего периферийного точечного источника совпадает с местоположением самого верхнего периферийного точечного источника в a). Можно видеть, что вариант выбора смещения местоположения периферийного точечного источника имеет значительное влияние на представление геометрической формы через периферийные точечные источники.b) All four peripheral point sources are distributed evenly on the projected convex hull. The position offset of the peripheral point sources is chosen such that the position of the uppermost peripheral point source is the same as the position of the uppermost peripheral point source in a). It can be seen that the selection of the offset location of the peripheral point source has a significant impact on the representation of the geometry through the peripheral point sources.
c) Все четыре периферийных точечных источника распределяются равномерно на сжатой проецируемой выпуклой оболочке. Местоположение смещения местоположений периферийных точечных источников равно местоположению смещения, выбранному в b). Операция сжатия проецируемой выпуклой оболочки выполняется к центру тяжести проецируемой выпуклой оболочки с независимым от направления коэффициентом растягивания.c) All four peripheral point sources are distributed uniformly on the compressed projected convex hull. The offset location of the peripheral point source locations is equal to the offset location selected in b). The operation of shrinking the projected convex hull is performed towards the center of gravity of the projected convex hull with a direction-independent stretch factor.
Фиг. 3 иллюстрирует эллипсоидный пространственно протяженный источник звука с четырьмя периферийными точечными источниками согласно трем различным способам определения местоположения периферийных точечных источников: a/верхний) горизонтальные и вертикальные точки экстремума, b/средний) равномерно распределенные точки на выпуклой оболочке, c/нижний) равномерно распределенные точки на сжатой выпуклой оболочке.Fig. 3 illustrates an ellipsoid spatially extended sound source with four peripheral point sources according to three different ways of locating peripheral point sources: a/upper) horizontal and vertical extremum points, b/middle) evenly spaced points on a convex hull, c/lower) evenly spaced points on a compressed convex hull.
Следующий пример на фиг. 4 рассматривает линейный пространственно протяженный источник звука. Исходя из того, что предыдущие примеры рассматривают объемную геометрию пространственно протяженных источников звука, этот пример демонстрирует то, что геометрия пространственно протяженных источников звука может выбираться в качестве одномерного объекта в трехмерном пространстве. Вложенный чертеж a) иллюстрирует два периферийных точечных источника, размещенные на точках экстремума геометрии конечных линейных пространственно протяженных источников звука. b) Два периферийных точечных источника размещаются в точках экстремума геометрии конечных линейных пространственно протяженных источников звука, и один дополнительный точечный источник размещается в середине линии. Как описано в вариантах осуществления изобретаемого способа или оборудования, размещение дополнительных точечных источников в пределах геометрии пространственно протяженных источников звука может помогать заполнять большие зазоры в больших геометриях пространственно протяженных источников звука. c) Одинаковая геометрия линейных пространственно протяженных источников звука с тем, что указано в a) и b) рассматривается; тем не менее, относительный угол к слушателю изменен таким образом, что проецируемая длина линейной геометрии значительно меньше. Как описано в вариантах осуществления изобретаемого способа или оборудования выше, уменьшенный размер проецируемой выпуклой оболочки может представляться посредством сокращенного числа периферийных точечных источников, в этом конкретном примере, посредством одного периферийного точечного источника, расположенного в центре линейной геометрии.The next example in Fig. 4 considers a linear spatially extended sound source. Based on the fact that the previous examples consider the volumetric geometry of spatially extended sound sources, this example demonstrates that the geometry of spatially extended sound sources can be selected as a one-dimensional object in three-dimensional space. Attached drawing a) illustrates two peripheral point sources placed at the extremum points of the geometry of finite linear spatially extended sound sources. b) Two peripheral point sources are placed at the extreme points of the geometry of the final linear spatially extended sound sources, and one additional point source is placed in the middle of the line. As described in embodiments of the inventive method or equipment, placing additional point sources within the geometry of spatially extended sound sources can help fill large gaps in large geometries of spatially extended sound sources. c) The same geometry of linear spatially extended sound sources as in a) and b) is considered; however, the relative angle to the listener has been changed in such a way that the projected length of the linear geometry is much shorter. As described in the inventive method or equipment embodiments above, the reduced size of the projected convex hull can be represented by a reduced number of peripheral point sources, in this particular example, by a single peripheral point source located at the center of the line geometry.
Фиг. 4 иллюстрирует линейный пространственно протяженный источник звука с тремя различными способами для того, чтобы распределять местоположение периферийных точечных источников: a/верхний) две точки экстремума на проецируемой выпуклой оболочке; b/средний) две точки экстремума на проецируемой выпуклой оболочке с дополнительным точечным источником в центре линии; c/нижний) по одному периферийному точечному источнику в центре выпуклости, поскольку проецируемая выпуклая оболочка вращаемой линии является слишком небольшой для того, чтобы разрешать более одного периферийного точечного источника.Fig. 4 illustrates a linear spatially extended sound source with three different ways to distribute the location of peripheral point sources: a/top) two extremum points on the projected convex hull; b/middle) two extremum points on a projected convex hull with an additional point source at the center of the line; c/lower) over one peripheral point source at the center of the bulge, because the projected convex hull of the rotating line is too small to resolve more than one peripheral point source.
Следующий пример на фиг. 5 рассматривает кубоидный пространственно протяженный источник звука. Кубоидный пространственно протяженный источник звука имеет фиксированный размер и фиксированное местоположение; тем не менее, относительная позиция слушателя изменяется. Вложенные чертежи a) и b) иллюстрируют отличающиеся способы размещения четырех периферийных точечных источников на проецируемой выпуклой оболочке. Заднепроецируемые местоположения периферийных точечных источников уникально определяются посредством выбора на проецируемой выпуклой оболочке. c) иллюстрирует четыре периферийных точечных источника, которые не имеют хорошо разделенные заднепроекционные местоположения. Вместо этого, расстояния местоположений периферийных точечных источников выбираются равными расстоянию центра тяжести геометрии пространственно протяженных источников звука.The next example in Fig. 5 considers a cuboid spatially extended sound source. A cuboid spatially extended sound source has a fixed size and a fixed location; however, the listener's relative position changes. Attached drawings a) and b) illustrate different ways of placing four peripheral point sources on a projected convex hull. Rear projected locations of peripheral point sources are uniquely determined by selection on the projected convex hull. c) illustrates four peripheral point sources that do not have well-separated rear projection locations. Instead, the distances of the locations of the peripheral point sources are chosen to be equal to the distance of the center of gravity of the geometry of the spatially extended sound sources.
Фиг. 5 иллюстрирует кубоидный пространственно протяженный источник звука с тремя различными способами для того, чтобы распределять периферийные точечные источники: a/верхний) два периферийных точечных источника на горизонтальной оси и два периферийных точечных источника на вертикальной оси; b/средний) два периферийных точечных источника на горизонтальных точках экстремума проецируемой выпуклой оболочки и два периферийных точечных источника на вертикальных точках экстремума проецируемой выпуклой оболочки; c/нижний) заднепроецируемые расстояния периферийного точечного источника выбираются таким образом, что они равны расстоянию центра тяжести геометрии пространственно протяженных источников звука.Fig. 5 illustrates a cuboid spatially extended sound source with three different ways to distribute peripheral point sources: a/upper) two peripheral point sources on the horizontal axis and two peripheral point sources on the vertical axis; b/middle) two peripheral point sources at the horizontal extremum points of the projected convex hull and two peripheral point sources at the vertical extremum points of the projected convex hull; c/bottom) the rear projection distances of the peripheral point source are chosen such that they are equal to the distance of the center of gravity of the geometry of the spatially extended sound sources.
Следующий пример на фиг. 6 рассматривает сферический пространственно протяженный источник звука фиксированного размера и формы, но на трех различных расстояниях относительно позиции слушателя. Периферийные точечные источники распределяются равномерно на кривой выпуклой оболочки. Число периферийных точечных источников динамически определяется из длины кривой выпуклой оболочки и минимального расстояния между возможными местоположениями периферийных точечных источников. a) Сферический пространственно протяженный источник звука находится на небольшом расстоянии таким образом, что четыре периферийных точечных источника выбираются на проецируемой выпуклой оболочке. b) Сферический пространственно протяженный источник звука находится на среднем расстоянии таким образом, что три периферийных точечных источника выбираются на проецируемой выпуклой оболочке. a) Сферический пространственно протяженный источник звука находится на большом расстоянии таким образом, что только два периферийных точечных источника выбираются на проецируемой выпуклой оболочке. Как описано в вариантах осуществления изобретаемого способа или оборудования выше, число периферийных точечных источников также может определяться из протяженности, представленной в сферических угловых координатах.The next example in Fig. 6 considers a spherical spatially extended sound source of a fixed size and shape, but at three different distances from the listener's position. Peripheral point sources are distributed evenly on the curve of the convex hull. The number of peripheral point sources is dynamically determined from the length of the curve of the convex hull and the minimum distance between possible locations of peripheral point sources. a) A spherical spatially extended sound source is located at a small distance such that four peripheral point sources are selected on the projected convex hull. b) A spherical spatially extended sound source is at an average distance such that three peripheral point sources are selected on the projected convex hull. a) A spherical spatially extended sound source is at a great distance such that only two peripheral point sources are selected on the projected convex hull. As described in the embodiments of the inventive method or equipment above, the number of peripheral point sources can also be determined from the extent represented in spherical angular coordinates.
Фиг. 6 иллюстрирует сферический пространственно протяженный источник звука равного размера, но на различных расстояниях: a/верхний) небольшое расстояние с четырьмя периферийными точечными источниками, распределенными равномерно на проецируемой выпуклой оболочке; b/средний) среднее расстояние с тремя периферийными точечными источниками, распределенными равномерно на проецируемой выпуклой оболочке; c/нижний) большое расстояние с двумя периферийными точечными источниками, распределенными равномерно на проецируемой выпуклой оболочке.Fig. 6 illustrates a spherical spatially extended sound source of equal size but at different distances: a/upper) a small distance with four peripheral point sources distributed evenly on the projected convex hull; b/medium) average distance with three peripheral point sources distributed evenly on the projected convex hull; c/bottom) long distance with two peripheral point sources distributed evenly on the projected convex hull.
Последний пример на фиг. 7 и 8 рассматривает пространственно протяженный источник звука в форме фортепьяно, размещенный в виртуальном мире. Пользователь носит наголовный дисплей (HMD) и наушники. Пользователю представляется сцена в стиле виртуальной реальности, состоящая из открытого мирового полотна и трехмерной модели на основе пианино, стоящей на полу в зоне свободного перемещения (см. фиг. 7). Открытое мировое полотно представляет собой сферической статическое изображение, проецируемое на сферу, окружающую пользователя. В данном случае, открытое мировое полотно иллюстрирует голубое небо с белыми облаками. Пользователь имеет возможность проходить вокруг и смотреть и слушать фортепьяно из различных углов. В этой сцене, фортепьяно подготавливается посредством рендеринга либо в качестве одноточечного источника, размещенного в центре тяжести, либо в качестве пространственно протяженного источника звука с тремя периферийными точечными источниками на проецируемой выпуклой оболочке (см. фиг. 8). Эксперименты с рендерингом показывают значительно превосходящий реализм способа рендеринга периферийного точечного источника по сравнению с рендерингом в качестве одноточечного источника.The last example in Fig. 7 and 8 considers a spatially extended piano-shaped sound source placed in a virtual world. The user wears a head-mounted display (HMD) and headphones. The user is presented with a virtual reality-style scene consisting of an open world canvas and a piano-based 3D model standing on the floor in a free-roaming zone (see FIG. 7). An open world canvas is a spherical static image projected onto a sphere surrounding the user. In this case, the open world canvas illustrates a blue sky with white clouds. The user is able to walk around and watch and listen to the piano from different angles. In this scene, the piano is rendered as either a single point source placed at the center of gravity or as a spatially extended sound source with three peripheral point sources on a projected convex hull (see Fig. 8). Rendering experiments show a far superior realism to the way a peripheral point source is rendered compared to rendering as a single point source.
Чтобы упрощать вычисление местоположений периферийных точечных источников, геометрия фортепьяно абстрагируется в эллипсоидную форму с аналогичными размерами, см. фиг. 7. Дополнительно, два сменных точечных источника размещаются в левой и правой точках экстремума на экваториальной линии, тогда как третья сменная точка остается в северном полюсе, см. фиг. 8. Эта компоновка гарантирует соответствующую горизонтальную ширину источника из всех углов при сильно сниженных вычислительных затратах.To simplify computing the locations of peripheral point sources, the piano geometry is abstracted into an ellipsoidal shape with similar dimensions, see FIG. 7. Additionally, two interchangeable point sources are placed at the left and right extremum points on the equatorial line, while the third interchangeable point remains at the north pole, see FIG. 8. This arrangement guarantees a consistent horizontal source width from all angles at a greatly reduced computational cost.
Фиг. 7 иллюстрирует пространственно протяженный источник звука в форме фортепьяно (проиллюстрирован зеленым цветом) с приблизительной параметрической эллипсоидной формой (указываемой в качестве красной ячеистой сетки).Fig. 7 illustrates a spatially extended piano-shaped sound source (illustrated in green) with an approximate parametric ellipsoidal shape (indicated as a red mesh).
Фиг. 8 иллюстрирует пространственно протяженный источник звука в форме фортепьяно с тремя периферийными точечными источниками, распределенными по вертикальным точкам экстремума проецируемой выпуклой оболочки и вертикальной верхней позиции проецируемой выпуклой оболочки. Следует отметить, что для лучшей визуализации, периферийные точечные источники размещаются на растянутой проецируемой выпуклой оболочке.Fig. 8 illustrates a spatially extended piano-shaped sound source with three peripheral point sources distributed over the vertical extremum points of the projected convex hull and the vertical top position of the projected convex hull. It should be noted that for better visualization, peripheral point sources are placed on a stretched projected convex hull.
Далее предоставляются конкретные признаки вариантов осуществления изобретения. Характеристики представленных вариантов осуществления являются следующими:The following provides specific features of the embodiments of the invention. The characteristics of the presented embodiments are as follows:
Чтобы заполнять воспринимаемое акустическое пространство пространственно протяженного источника звука, предпочтительно не вся его внутренняя часть заполняется декоррелированными точечными источниками (периферийными точечными источниками), а только его периферия, которая обращена к слушателю (например, "проекция выпуклой оболочки пространственно протяженного источника звука к слушателю"). В частности, это означает то, что местоположения периферийных точечных источников не присоединяются к геометрии пространственно протяженных источников звука, а вычисляются динамически с учетом относительной позиции пространственно протяженного источника звука относительно позиции слушателя.In order to fill the perceived acoustic space of a spatially extended sound source, preferably not all of its interior is filled with decorrelated point sources (peripheral point sources), but only its periphery, which faces the listener (for example, "projection of the convex shell of a spatially extended sound source towards the listener") . In particular, this means that the locations of peripheral point sources are not attached to the geometry of the spatially extended sound sources, but are calculated dynamically, taking into account the relative position of the spatially extended sound source relative to the position of the listener.
Динамическое вычисление периферийных точечных источников (число и местоположение)Dynamic calculation of peripheral point sources (number and location)
Аппроксимация формы пространственно протяженного источника звука используется (для сценария с использованием сжатого представления: передается в качестве части потока битов).An approximation of the shape of a spatially extended sound source is used (for a scenario using a compressed representation: transmitted as part of a bitstream).
Применение описанной технологии может задаваться в качестве части 6DoF VR/AR-аудиостандарта. В этом контексте, предусмотрен классический сценарий на основе кодирования/потока битов/декодера (+модуля рендеринга):The application of the described technology may be specified as part of the 6DoF VR/AR audio standard. In this context, a classic scenario based on encoding/bitstream/decoder (+renderer) is provided:
В кодере, форма пространственно протяженного источника звука должна кодироваться как вспомогательная информация вместе с "базисными" формами сигнала пространственно протяженного источника звука, которые могут представлять собой:At the encoder, the shape of the spatially extended sound source shall be encoded as ancillary information along with the "basic" waveforms of the spatially extended sound source, which may be:
- моносигнал, или- mono signal, or
- стереосигнал (предпочтительно декоррелированный в достаточной степени), или- a stereo signal (preferably sufficiently decorrelated), or
- еще больше записанных сигналов (также предпочтительно декоррелированных в достаточной степени),- even more recorded signals (also preferably sufficiently decorrelated),
- характеризующие пространственно протяженный источник звука. Эти формы сигналов могут кодироваться с низкой скоростью передачи битов.- characterizing a spatially extended sound source. These waveforms may be encoded at a low bit rate.
В декодере/модуле рендеринга, форма пространственно протяженного источника звука и соответствующие формы сигналов извлекаются из потока битов и используются для рендеринга пространственно протяженного источника звука, как описано выше.At the decoder/renderer, the shape of the spatially extended sound source and the corresponding waveforms are extracted from the bitstream and used to render the spatially extended sound source, as described above.
В зависимости от используемых вариантов осуществления и в качестве альтернатив описанным вариантам осуществления, следует отметить, что интерфейс может реализовываться как фактический модуль отслеживания или детектор для обнаружения позиции слушателя. Тем не менее, позиция прослушивания типично должна приниматься из внешнего устройства модуля отслеживания и подаваться в оборудование воспроизведения через интерфейс. Тем не менее, интерфейс может представлять просто ввод данных для выходных данных из внешнего модуля отслеживания либо также может представлять непосредственно модуль отслеживания.Depending on the embodiments used, and as alternatives to the embodiments described, it should be noted that the interface may be implemented as an actual tracker or listener position detector. However, the listening position would typically be received from an external tracker device and provided to the playback equipment via an interface. However, the interface may simply represent input to output from an external tracker, or it may also represent the tracker itself.
Кроме того, как указано, дополнительные вспомогательные аудиоисточники между периферийным источником звука могут требоваться.In addition, as indicated, additional auxiliary audio sources between the peripheral sound source may be required.
Кроме того, обнаружено, что левый/правый периферийные источники и необязательно горизонтально (относительно слушателя) разнесенные вспомогательные источники являются более важными для перцепционного ощущения, чем вертикально разнесенные периферийные источники звука, т.е. периферийный источник звука сверху и снизу от пространственно протяженного источника звука. Когда, например, ресурсы являются дефицитными, предпочтительно использовать, по меньшей мере, горизонтально разнесенные периферийные (и необязательно вспомогательные) источники звука, тогда как вертикально разнесенные периферийные источники звука могут опускаться в интересах экономии ресурсов обработки.In addition, it has been found that left/right peripheral sources and optionally horizontally (relative to the listener) spaced auxiliary sources are more important to the perceptual experience than vertically spaced peripheral sound sources, ie. a peripheral sound source above and below a spatially extended sound source. When, for example, resources are scarce, it is preferable to use at least horizontally spaced peripheral (and optionally auxiliary) sound sources, while vertically spaced peripheral sound sources may be omitted in the interest of saving processing resources.
Кроме того, как указано, генератор потоков битов может реализовываться, чтобы формировать поток битов только с одним звуковым сигналом для пространственно протяженного источника звука, и оставшиеся звуковые сигналы формируются на стороне декодера или на стороне воспроизведения посредством декорреляции. Когда только один сигнал существует, и когда все пространство должно быть заполнено одинаково этим одним сигналом, информация местоположения вообще не требуется. Тем не менее, может быть полезным иметь, в такой ситуации, по меньшей мере, дополнительную информацию относительно геометрии пространственно протяженного источника звука, вычисленную посредством модуля вычисления геометрической информации, такого как модуль, проиллюстрированный как 220 на фиг. 10.In addition, as indicated, the bitstream generator can be implemented to generate a bitstream with only one audio signal for a spatially extended audio source, and the remaining audio signals are generated on the decoder side or on the reproduction side by decorrelation. When only one signal exists, and when all space is to be filled equally by that one signal, no location information is needed at all. However, it may be useful to have, in such a situation, at least additional information regarding the geometry of the spatially extended sound source calculated by a geometric information calculation module, such as the module illustrated as 220 in FIG. ten.
Здесь следует отметить, что все альтернативы или аспекты, поясненные выше, и все аспекты, заданные посредством независимых пунктов в нижеприведенной формуле изобретения, могут использоваться отдельно, т.е. без альтернатив или целей, отличных от предполагаемой альтернативы, цели или независимого пункта формулы изобретения. Тем не менее, в других вариантах осуществления, две или более из альтернатив или аспектов или независимых пунктов формулы изобретения могут комбинироваться друг с другом, и, в других вариантах осуществления, все аспекты или альтернативы и все независимые пункты формулы изобретения могут комбинироваться друг с другом.It should be noted here that all alternatives or aspects explained above and all aspects defined by independent claims in the following claims may be used alone, i. without alternatives or purposes other than the intended alternative, purpose or independent claim. However, in other embodiments, two or more of the alternatives or aspects or independent claims may be combined with each other, and in other embodiments, all aspects or alternatives and all independent claims may be combined with each other.
Изобретаемое кодированное описание звукового поля может сохраняться на цифровом носителе хранения данных или энергонезависимом носителе хранения данных либо может передаваться по передающей среде, такой как беспроводная среда передачи или проводная среда передачи, к примеру, Интернет.The inventive encoded sound field description may be stored on a digital storage medium or a non-volatile storage medium, or may be transmitted over a transmission medium such as a wireless transmission medium or a wired transmission medium such as the Internet.
Хотя некоторые аспекты описаны в контексте оборудования, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего оборудования.Although some aspects are described in the context of equipment, it is obvious that these aspects also represent a description of the corresponding method, with the block or device corresponding to a method step or a feature of a method step. Likewise, aspects described in the context of a method step also provide a description of the associated block or element, or feature of the associated equipment.
В зависимости от некоторых требований к реализации, варианты осуществления изобретения могут реализовываться в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронночитаемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ.Depending on some implementation requirements, embodiments of the invention may be implemented in hardware or in software. The implementation may be performed using a digital storage medium, such as a floppy disk, DVD, CD, ROM, PROM, EPROM, EEPROM, or flash memory, having electronically readable control signals stored that interact (or are capable of interacting) with a programmable computer system in such a manner that the corresponding method is carried out.
Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.Some embodiments of the invention comprise a storage medium having electronically readable control signals that are capable of interacting with a programmable computer system such that one of the methods described herein is implemented.
В общем, варианты осуществления настоящего изобретения могут реализовываться как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может сохраняться на машиночитаемом носителе.In general, embodiments of the present invention may be implemented as a computer program product with program code, wherein the program code is configured to perform one of the methods when the computer program product is running on the computer. The program code may, for example, be stored on a computer-readable medium.
Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе или на энергонезависимом носителе хранения данных.Other embodiments comprise a computer program for carrying out one of the methods described herein stored on a computer-readable medium or non-volatile storage medium.
Другими словами, вариант осуществления изобретаемого способа в силу этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.In other words, an embodiment of the inventive method is therefore a computer program having program code for carrying out one of the methods described herein when the computer program is running on a computer.
Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе.Therefore, a further embodiment of the inventive methods is a storage medium (digital storage medium or computer-readable medium) containing a recorded computer program for carrying out one of the methods described herein.
Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.Therefore, an additional embodiment of the inventive method is a stream of data or a sequence of signals representing a computer program for implementing one of the methods described herein. The data stream or signal sequence, for example, may be configured to be transmitted over a data connection, such as the Internet.
Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.An additional embodiment comprises processing means, such as a computer or programmable logic device, configured to perform one of the methods described herein.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.An additional embodiment comprises a computer having a computer program installed to implement one of the methods described herein.
В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного оборудования.In some embodiments, a programmable logic device (eg, a field programmable gate array) may be used to perform some or all of the functionality of the methods described herein. In some embodiments, a user-programmable gate array may interface with a microprocessor to perform one of the methods described herein. In general, the methods are preferably carried out by any hardware.
Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения установок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.The above described embodiments are merely illustrative of the principles of the present invention. It should be understood that modifications and changes to the settings and details described herein should be apparent to those skilled in the art. Therefore, they are intended to be limited only by the scope of the following claims, and not by the specific details provided through the description and explanation of the embodiments herein.
БиблиографияBibliography
Alary, B., Politis, A. и Välimäki, V., 2017 год, "Velvet Noise Decorrelator".Alary, B., Politis, A. and Välimäki, V., 2017, "Velvet Noise Decorrelator".
Baumgarte, F. и Faller, C., 2003 год, "Binaural Cue Coding-Part I: Psychoacoustic Fundamentals and Design Principles", Speech and Audio Processing, IEEE Transactions on, 11(6), стр. 509-519.Baumgarte, F. and Faller, C., 2003, "Binaural Cue Coding-Part I: Psychoacoustic Fundamentals and Design Principles", Speech and Audio Processing, IEEE Transactions on, 11(6), pp. 509-519.
Blauert, J., 2001 год, Spatial hearing (3 Ausg.). Cambridge; Mass: MIT Press.Blauert, J., 2001, Spatial hearing (3 Ausg.). Cambridge; Mass: MIT Press.
Faller, C. и Baumgarte, F., 2003 год, "Binaural Cue Coding-Part II: Schemes and Applications", Speech and Audio Processing, IEEE Transactions on, 11(6), стр. 520-531.Faller, C. and Baumgarte, F., 2003, "Binaural Cue Coding-Part II: Schemes and Applications", Speech and Audio Processing, IEEE Transactions on, 11(6), pp. 520-531.
Kendall, G. S., 1995 год, "The Decorrelation of Audio Signals and Its Impact on Spatial Imagery", Computer Music Journal, 19(4), стр. 71-87.Kendall, G. S., 1995, "The Decorrelation of Audio Signals and Its Impact on Spatial Imagery", Computer Music Journal, 19(4), pp. 71-87.
Lauridsen, H., 1954 год, "Experiments Concerning Different Kinds of Room-Acoustics Recording", Ingenioren, 47.Lauridsen, H., 1954, "Experiments Concerning Different Kinds of Room-Acoustics Recording", Ingenioren, 47.
Pihlajamäki, T., Santala, O. и Pulkki, V., 2014 год, "Synthesis of Spatially Extended Virtual Source with Time-Frequency Decomposition of Mono Signals", Journal of the Audio Engineering Society, 62(7/8), стр. 467-484.Pihlajamäki, T., Santala, O. and Pulkki, V., 2014, "Synthesis of Spatially Extended Virtual Source with Time-Frequency Decomposition of Mono Signals", Journal of the Audio Engineering Society, 62(7/8), p. 467-484.
Potard, G., 2003 год, "The study on sound source apparent shape and wideness".Potard, G., 2003, "The study on sound source apparent shape and wideness".
Potard, G. и Burnett, I., 2004 год, "Decorrelation Techniques for the Rendering of Apparent Sound Source Width in 3D Audio Displays".Potard, G. and Burnett, I., 2004, "Decorrelation Techniques for the Rendering of Apparent Sound Source Width in 3D Audio Displays".
Pulkki, V., 1997 год, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", Journal of the Audio Engineering Society, 45(6), стр. 456-466.Pulkki, V., 1997, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", Journal of the Audio Engineering Society, 45(6), pp. 456-466.
Pulkki, V., 1999 год, "Uniform spreading of amplitude panned virtual sources".Pulkki, V., 1999, "Uniform spreading of amplitude panned virtual sources".
Pulkki, V., 2007 год, "Spatial Sound Reproduction with Directional Audio Coding", J. Audio Eng. Soc, 55(6), стр. 503-516.Pulkki, V., 2007, "Spatial Sound Reproduction with Directional Audio Coding", J. Audio Eng. Soc, 55(6), pp. 503-516.
Pulkki, V., Laitinen, M.-V. и Erkut, C., 2009 год, "Efficient Spatial Sound Synthesis for Virtual Worlds".Pulkki, V., Laitinen, M.-V. and Erkut, C., 2009, "Efficient Spatial Sound Synthesis for Virtual Worlds".
Schlecht, S. J., Alary, B., Välimäki, V. и Habets, E. A., 2018 год, "Optimized Velvet-Noise Decorrelator".Schlecht, S. J., Alary, B., Välimäki, V. and Habets, E. A., 2018, "Optimized Velvet-Noise Decorrelator".
Schmele, T. и Sayin, U., 2018 год, "Controlling the Apparent Source Size in Ambisonics Unisng Decorrelation Filters".Schmele, T. and Sayin, U., 2018, "Controlling the Apparent Source Size in Ambisonics Unisng Decorrelation Filters".
Schmidt, J. и Schröder, E. F., 2004 год, "New and Advanced Features for Audio Presentation in the MPEG-4 Standard".Schmidt, J. and Schröder, E. F., 2004, "New and Advanced Features for Audio Presentation in the MPEG-4 Standard".
Verron, C., Aramaki, M., Kronland-Martinet, R. и Pallone, G., 2010 год, "The 3-D Immersive Synthesizer for Environmental Sounds", Audio, Speech and Language Processing, IEEE Transactions on, title="A Backward-Compatible Multichannel Audio Codec", 18(6), стр. 1550-1561.Verron, C., Aramaki, M., Kronland-Martinet, R. and Pallone, G., 2010, "The 3-D Immersive Synthesizer for Environmental Sounds", Audio, Speech and Language Processing, IEEE Transactions on, title= "A Backward-Compatible Multichannel Audio Codec", 18(6), pp. 1550-1561.
Zotter, F. и Frank, M., 2013 год, "Efficient Phantom Source Widening", Archives of Acoustics, 38(1), стр. 27-37.Zotter, F. and Frank, M., 2013, "Efficient Phantom Source Widening", Archives of Acoustics, 38(1), pp. 27-37.
Zotter, F., Frank, M., Kronlachner, M. и Choi, J.-W., 2014 год, "Efficient Phantom Source Widening and Diffuseness in Ambisonics".Zotter, F., Frank, M., Kronlachner, M. and Choi, J.-W., 2014, "Efficient Phantom Source Widening and Diffuseness in Ambisonics".
Claims (109)
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP18214182.0 | 2018-12-19 |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2780536C1 true RU2780536C1 (en) | 2022-09-27 |
Family
ID=
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130121515A1 (en) * | 2010-04-26 | 2013-05-16 | Cambridge Mechatronics Limited | Loudspeakers with position tracking |
US8494666B2 (en) * | 2002-10-15 | 2013-07-23 | Electronics And Telecommunications Research Institute | Method for generating and consuming 3-D audio scene with extended spatiality of sound source |
RU2505941C2 (en) * | 2008-07-31 | 2014-01-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Generation of binaural signals |
WO2017163940A1 (en) * | 2016-03-23 | 2017-09-28 | ヤマハ株式会社 | Sound processing method and sound processing device |
US20170325045A1 (en) * | 2016-05-04 | 2017-11-09 | Gaudio Lab, Inc. | Apparatus and method for processing audio signal to perform binaural rendering |
US20170366912A1 (en) * | 2016-06-17 | 2017-12-21 | Dts, Inc. | Ambisonic audio rendering with depth decoding |
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8494666B2 (en) * | 2002-10-15 | 2013-07-23 | Electronics And Telecommunications Research Institute | Method for generating and consuming 3-D audio scene with extended spatiality of sound source |
RU2505941C2 (en) * | 2008-07-31 | 2014-01-27 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Generation of binaural signals |
US20130121515A1 (en) * | 2010-04-26 | 2013-05-16 | Cambridge Mechatronics Limited | Loudspeakers with position tracking |
WO2017163940A1 (en) * | 2016-03-23 | 2017-09-28 | ヤマハ株式会社 | Sound processing method and sound processing device |
US20170325045A1 (en) * | 2016-05-04 | 2017-11-09 | Gaudio Lab, Inc. | Apparatus and method for processing audio signal to perform binaural rendering |
US20170366912A1 (en) * | 2016-06-17 | 2017-12-21 | Dts, Inc. | Ambisonic audio rendering with depth decoding |
Non-Patent Citations (1)
Title |
---|
"Information technology - Coding of audio-visual objects - Part 11: Scene description and application engine", 02.11.2015. Corteel Etienne et al, "An Open 3D Audio Production Chain Proposed by the Edison 3D Project", июнь 2016. * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI786356B (en) | Apparatus and method for reproducing a spatially extended sound source or apparatus and method for generating a bitstream from a spatially extended sound source | |
TWI818244B (en) | Apparatus and method for synthesizing a spatially extended sound source using cue information items | |
CA3069403C (en) | Concept for generating an enhanced sound-field description or a modified sound field description using a multi-layer description | |
US20220377489A1 (en) | Apparatus and Method for Reproducing a Spatially Extended Sound Source or Apparatus and Method for Generating a Description for a Spatially Extended Sound Source Using Anchoring Information | |
TW202332290A (en) | Renderers, decoders, encoders, methods and bitstreams using spatially extended sound sources | |
RU2780536C1 (en) | Equipment and method for reproducing a spatially extended sound source or equipment and method for forming a bitstream from a spatially extended sound source | |
KR102659722B1 (en) | Apparatus and method for playing a spatially expanded sound source or an apparatus and method for generating a bit stream from a spatially expanded sound source | |
RU2808102C1 (en) | Equipment and method for synthesis of spatially extended sound source using information elements of signal marks | |
KR20190060464A (en) | Audio signal processing method and apparatus | |
KR102119239B1 (en) | Method for creating binaural stereo audio and apparatus using the same | |
TW202337236A (en) | Apparatus, method and computer program for synthesizing a spatially extended sound source using elementary spatial sectors | |
TW202327379A (en) | Apparatus, method or computer program for synthesizing a spatially extended sound source using modification data on a potentially modifying object | |
TW202325047A (en) | Apparatus, method or computer program for synthesizing a spatially extended sound source using variance or covariance data |