RU2804014C2

RU2804014C2 - Аудиоустройство и способ для него

Info

Publication number: RU2804014C2
Application number: RU2021130294A
Authority: RU
Inventors: Йерун Герардус Хенрикус КОППЕНС
Original assignee: Конинклейке Филипс Н.В.
Priority date: 2019-03-19
Filing date: 2020-03-16
Publication date: 2023-09-26

Abstract

Изобретение относится к области вычислительной техники для обработки аудиоданных. Технический результат заключается в повышении точности согласования восприятия звука и визуальной сцены. Технический результат достигается за счет формирования данных для аудиосцены, где данные содержат данные входного аудиоисточника по меньшей мере для первого аудиоисточника и данные акустического объекта по меньшей мере для одного акустического объекта в аудиосцене, при этом данные акустического объекта содержат данные акустической связи и данные пространственного свойства для акустического объекта, причем данные акустической связи для акустического объекта указывают свойство преобразования энергии звука в вибрацию/механическую энергию и/или преобразования вибрации/механической энергии в энергию звука для акустического объекта. 4 н. и 12 з.п. ф-лы, 8 ил., 3 табл.

Description

ОБЛАСТЬ ТЕХНИКИ

Настоящее изобретение относится к аудиоустройству и способу для него и, в частности, но не исключительно, к обработке звука для приложения дополненной/виртуальной реальности.

УРОВЕНЬ ТЕХНИКИ

Благодаря непрерывному развитию и введению новых услуг и способов использования и потребления аудиовизуального контента в последние годы произошел значительный рост разнообразия и диапазона восприятия такого контента. В частности, разрабатываются множество пространственных и интерактивных услуг, приложений и подходов к восприятию, чтобы обеспечить пользователям восприятие с более сильным вовлечением и погружением.

Примерами таких приложений являются приложения виртуальной реальности (Virtual Reality, VR), дополненной реальности (Augmented Reality, AR) и смешанной реальности (Mixed Reality, MR), которые быстро становятся господствующими тенденциями, при этом ряд решений ориентирован на потребительский рынок. Кроме того, многими органами по стандартизации разрабатывается ряд стандартов. В рамках такой деятельности по стандартизации активно разрабатываются стандарты для различных аспектов систем VR/AR/MR, включая, например, потоковую передачу, широковещание, преобразование для воспроизведения и т.д.

Приложения VR, как правило, обеспечивают восприятия пользователем, соответствующие нахождению пользователя в другом мире/окружающей среде/сцене, тогда как приложения AR (включая смешанную реальность, Mixed Reality (MR)), обычно обеспечивают восприятия пользователем, соответствующие нахождению пользователя в текущей окружающей среде, но с добавлением дополнительной информации либо виртуальных объектов или информации. Таким образом, приложения VR, как правило, обеспечивают полностью погружающие синтетически формируемые мир/сцену, тогда как приложения AR обычно обеспечивают частично синтетические мир/сцену, накладываемые на реальную сцену, в которой пользователь присутствует физически. Однако это термины часто используются взаимозаменяемо и имеют высокую степень перекрытия. Далее термин виртуальная реальность/VR будет использоваться для обозначения как виртуальной реальности, так и дополненной реальности.

В качестве примера, быстро набирающая популярность услуга заключается в предоставлении изображений и звука таким образом, что пользователь в состоянии активно и динамически взаимодействовать с системой для изменения параметров преобразования для воспроизведения так, что изображения и звук будут адаптироваться к перемещению и изменениям положения и ориентации пользователя. Весьма привлекательной особенностью многих приложений является возможность изменения действующего положения обзора и направления обзора зрителя, чтобы, например, зритель мог перемещаться и «осматриваться вокруг» в представляемой сцене.

Такая функция может, в частности, давать пользователю ощущение виртуальной реальности. Благодаря этому пользователь может (относительно) свободно передвигаться в виртуальной среде и динамически изменять свое положение и направление, в котором он смотрит.Как правило, такие приложения виртуальной реальности основаны на трехмерной модели сцены, причем модель динамически оценивается для обеспечения конкретного запрошенного вида. Данный подход хорошо известен, например, из игровых приложений для компьютеров и консолей, например, из категории игр-стрелялок от первого лица.

Также желательно, в частности, для приложений виртуальной реальности, чтобы представляемое изображение было трехмерным изображением. Действительно, для оптимизации погружения зрителя, как правило, предпочтительно, чтобы пользователь ощущал представленную сцену как трехмерную сцену. Ведь ощущение виртуальной реальности предпочтительно должно позволять пользователю выбирать свое собственное положение, точку обзора камеры и момент времени относительно виртуального мира.

В добавление к визуальному преобразованию для воспроизведения большинство приложений VR/AR также обеспечивают соответствующее восприятие звука. Во многих приложениях звук предпочтительно обеспечивает пространственное восприятие звука, причем аудиоисточники воспринимаются как издающие звук из положений, которые соответствуют положениям соответствующих объектов в визуальной сцене. Таким образом, аудио- и видеосцены предпочтительно воспринимаются как согласованные, причем и те, и другие обеспечивают полное пространственное восприятие.

Например, многие восприятия с погружением обеспечиваются виртуальной аудиосценой, формируемой воспроизведением через наушники с использованием технологии бинаурального преобразования для воспроизведения звука. Во многих сценариях такое воспроизведение через наушники может быть основано на отслеживании головы так, что можно добиться реагирования преобразования для воспроизведения на движения головы пользователя, что значительно усиливает ощущение погружения.

Однако для обеспечения пользователю персонализированного и естественного восприятия с высокой степенью погружения важно, чтобы преобразование для воспроизведения аудиосцены было как можно более реалистичным, а при комбинированном аудиовизуальном восприятии, как во многих случаях восприятия виртуальной реальности, важно, чтобы восприятие звука близко соответствовало визуальному восприятию, т.е. чтобы преобразованные для воспроизведения аудиосцена и видеосцена полностью совпадали.

Во многих приложениях аудиовизуальные данные, представляющие сцену, формируют посредством одного, часто центрального, устройства и распределяют отдельным удаленным объектам, которые могут обрабатывать принимаемые аудиовизуальные данные для обеспечения локального преобразования для воспроизведения для конкретного пользователя. Как правило, это можно адаптировать к текущему движению пользователя, положению и ориентации в сцене или другим локализованным параметрам. Таким образом, во многих приложения локальные преобразование для воспроизведения и синтез аудиосцены выполняют на основе принятых аудиоданных.

Для поддержки таких приложений были разработаны ряд подходов и аудиостандартов для аудиопредставления и аудиоданных.В таких подходах и стандартах различные аудиокомпоненты часто могут быть представлены по отдельности вместе с пространственной информацией. В различных стандартах и подходах могут быть использованы разные подходы к представлению аудиокомпонентов и аудиоисточников.

Например, в разрабатываемом стандарте MPEG-I часть 4 (Moving Picture Experts Group Immersive Audio Coding - кодирование погружающего звука группы экспертов по движущимся изображениям), который будет использоваться для преобразования для воспроизведения аудиосцен, в которых пользователь имеет 6 степеней свободы (6DoF) Эти источники звука будут объектами, каналами или амбиофонией более высокого порядка (Higher Order Ambisonics, HOA).

Аудиообъекты являются представлениями источников звука и поэтому, как правило, связаны с положением источника звука. В отличие от этого аудиоканалы являются представлениями сигналов акустической системы. Обычно два или более аудиоканалов связаны друг с другом и преобразуются для воспроизведения в фиксированных положениях. Как правило, они совместно представляют один или более источников звука, причем источник звука представляют двумя или более аудиоканалами, так что амплитудное панорамирование приводит к воспринимаемой локализации между положениями двух или более аудиоканалов. В случае HOA аудиопредставление основывается на принципах микрофона, в которых каждый сигнал HOA представляет (виртуальный) микрофон с определенными характеристиками направленности. Характеристики направленности основаны на сферических гармониках, и, таким образом, различные сигналы представления HOA могут быть объединены для получения в результате аудиосигнала, соответствующего звуковым волнам, принимаемым из определенного направления. Следовательно, когда аудиообъекты и аудиоканалы представляют звуковое излучение, HOA представляет звук, принимаемый в определенной точке пространства.

Для аудиообъектов используют понятие протяженности для указания (3D) размера источника звука. Обычно объекты представляют как одиночные сигналы, которые преобразуют для воспроизведения в качестве точечного источника, например, посредством получения их свертки с парой одиночных передаточных функций головы (Head Related Transfer Function, HRTF) для выполнения бинауральной обработки. Параметр/признак протяженности делает возможным преобразование для воспроизведения с введением воспринимаемых ширины и высоты для пользователя.

В большинстве двоичных потоков HOA, скорее всего, будет содержать акустические и размытые звуки, но может также содержать компоненты источника сухого звука. Кроме того, каналы могут быть либо сухими источниками, либо содержать акустику (источник/сигнал сухого звука может относиться к источнику/сигналу, который не был обработан, т.е. временной интервал может соответствовать непосредственному необработанному исходному звуку, см., например, https://en.wikipedia.org/wiki/Audio_signal_processing). Для источников объектов и некоторых каналов декодер MPEG-I должен включать акустическую модель для имитирования акустики в зависимости от положения пользователя.

Однако, в то время как такие подходы могут обеспечить эффективные рабочие характеристики для многих приложений и многих сценариев, они оптимальны не во всех ситуациях и сценариях. В некоторых приложениях может восприниматься неоптимальное качество, а аудиосцена может восприниматься как не вполне естественная или реалистичная. В некоторых ситуациях звук может не полностью соответствовать предоставляемой видеосцене или может не полностью соответствовать тому, что воспринималось бы в соответствующей естественной обстановке.

Поэтому был бы полезен усовершенствованный подход к обработке звука, в частности, для применения восприятия/приложения виртуальной/дополненной/смешанной реальности. В частности, был бы полезен подход, позволяющий улучшить работу, повысить гибкость, уменьшить сложность, облегчить реализацию, улучшить восприятие звука, улучшить согласование восприятия звука и визуальной сцены, улучшить индивидуальную адаптацию, улучшить персонификацию, улучшить восприятие виртуальной реальности, улучшить качество звука и/или улучшить рабочие характеристики и/или работу.

РАСКРЫТИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ

Соответственно, настоящее изобретение направлено на предпочтительно ослабление, смягчение или устранение одного или более из вышеупомянутых недостатков по отдельности или в любой комбинации.

В соответствии с аспектом настоящего изобретения предложено аудиоустройство, содержащее: приемник для приема сигнала, содержащего данные для аудиосцены, причем данные содержат данные входного аудиоисточника по меньшей мере для первого аудиоисточника и данные акустического объекта по меньшей мере для одного акустического объекта в аудиосцене, при этом данные акустического объекта содержат данные акустической связи и данные пространственного свойства для акустического объекта; генератор для формирования данных аудиоисточника объекта для аудиоисточника объекта, представляющего звук, излучаемый в аудиосцене акустическим объектом за счет связи звука из первого аудиоисточника, причем генератор выполнен с возможностью формирования данных аудиоисточника объекта в ответ на данные акустической связи, данные пространственного свойства и данные входного аудиоисточника; преобразователь для воспроизведения для преобразования для воспроизведения аудиосцены, причем преобразование для воспроизведения включает в себя преобразование для воспроизведения данных аудиоисточника объекта.

Настоящее изобретение может обеспечить улучшенное преобразование для воспроизведения звука во многих вариантах реализации и может, в частности, обеспечить улучшенные представление и преобразование для воспроизведения аудиосцены. Во многих сценариях может быть достигнуто более реалистичное представление сцены и может быть достигнуто улучшенное и/или более естественное восприятие пользователем. Во многих вариантах реализации может быть достигнута эффективная обработка. Данный подход может быть совместим со многими другими подходами к обработке и преобразованию для воспроизведения звука и может обеспечить дополнительный и дополняющий вклад в звук, представляемый пользователю.

Связь может отражать преобразование звуковой энергии в вибрацию/механическую энергию и/или преобразование вибрации/механической энергии в звуковую энергию, а данные акустической связи для акустического объекта могут указывать свойство преобразования звуковой энергии в вибрацию/механическую энергию и/или преобразования вибрации/механической энергии в звуковую энергию для акустического объекта. Данные акустической связи могут содержать данные, указывающие механическое свойство акустического объекта, в том числе данные, указывающие материал (материалы), и/или конфигурацию и/или состав акустического объекта.

Данные входного аудиоисточника могут, в частности, содержать данные аудиосигнала и данные пространственного свойства для первого аудиоисточника. Данные аудиоисточника объекта могут содержать данные аудиосигнала и данные пространственного свойства для аудиоисточника объекта. Пространственные данные для аудиоисточника могут указывать положение и/или протяженность аудиоисточника.

Генератор выполнен с возможностью формирования данных аудиоисточника объекта так, чтобы они соответствовали аудиоисточнику, имеющему пространственную протяженность и/или положение, соответствующие пространственной протяженности и/или положению, указанным данными пространственного свойства для аудиокомпонента. Генератор выполнен с возможностью формирования данных аудиоисточника объекта так, чтобы они соответствовали уровню/частотной характеристике, определенным из данных акустической связи (и данных входного аудиосигнала), в частности, например, путем фильтрации входного аудиосигнала для первого аудиоисточника посредством передаточной функции, зависящей от данных акустической связи.

В соответствии с необязательным признаком настоящего изобретения генератор выполнен с возможностью формирования данных аудиоисточника объекта для представления аудиоисточника объекта, имеющего пространственную протяженность, определенную в ответ на данные пространственного свойства.

Это может обеспечить улучшенное преобразование для воспроизведения аудиосцены и часто может привести к более реалистичному восприятию аудиосцены. В частности, генератор может формировать данные аудиоисточника объекта так, чтобы они представляли аудиоисточник объекта, имеющий такую же пространственную протяженность, что и протяженность акустического объекта, которая указана данными пространственного свойства.

В соответствии с необязательным признаком настоящего изобретения генератор выполнен с возможностью определения по меньшей мере одного из уровня и частотной характеристики звука для звука данных аудиоисточника объекта в ответ на данные акустической связи.

Это может обеспечить улучшенное преобразование для воспроизведения аудиосцены и часто может привести к более реалистичному восприятию аудиосцены.

В соответствии с необязательным признаком настоящего изобретения данные акустической связи содержат первый набор коэффициентов связи для акустического объекта, причем набор коэффициентов связи указывает передаточную функцию связи для акустического объекта.

Это может обеспечить особенно эффективное и выгодное представление эффектов связи. Набор коэффициентов связи может описывать фильтр, соответствующий передаточной функции связи. В некоторых вариантах реализации набор коэффициентов связи может содержать только один коэффициент.

В соответствии с необязательным признаком настоящего изобретения передаточная функция связи является передаточной функцией из вибрации акустического объекта в звук, излучаемый из акустического объекта.

Это может обеспечить особенно выгодное и гибкое представление эффекта связи во многих вариантах реализации. Это может обеспечить высокую степень гибкости и позволить представлять и преобразовывать для воспроизведения множество различных эффектов.

В соответствии с необязательным признаком настоящего изобретения генератор выполнен с возможностью формирования данных аудиоисточника объекта, представляющих звук, излучаемый в аудиосцене акустическим объектом, на основе вибрации аудиообъекта и передаточной функции связи.

Это может обеспечить особенно выгодное и гибкое представление эффекта связи во многих вариантах реализации.

В соответствии с необязательным признаком настоящего изобретения генератор выполнен с возможностью определения вибрации в ответ на физическую модель акустического объекта.

Это может обеспечить улучшенное и часто более реалистичное преобразование для воспроизведения аудиосцены.

В соответствии с необязательным признаком настоящего изобретения генератор выполнен с возможностью определения вибрации в ответ на изменяющуюся во времени силу, применяемую к акустическому объекту.

Это может обеспечить улучшенное и часто более реалистичное преобразование для воспроизведения аудиосцены. Это может во многих вариантах реализации позволить преобразовывать для воспроизведения дополнительные эффекты и звук, которые, например, формируются в результате механического движения.

В соответствии с необязательным признаком настоящего изобретения передаточная функция связи является передаточной функцией из звука, падающего на акустический объект, в вибрацию акустического объекта.

В соответствии с необязательным признаком настоящего изобретения генератор выполнен с возможностью формирования данных аудиоисточника объекта для представления аудиоисточника объекта, имеющего пространственное положение, соответствующее положению акустического объекта, которое указано данными пространственного свойства.

Это может обеспечить улучшенное преобразование для воспроизведения аудиосцены и часто может привести к более реалистичному восприятию аудиосцены. В частности, генератор может формировать данные аудиоисточника объекта для представления аудиоисточника объекта, имеющего такое же пространственное положение, что и положение акустического объекта, которое указано данными пространственного свойства.

В соответствии с необязательным признаком настоящего изобретения генератор выполнен с возможностью формирования данных аудиоисточника объекта в ответ на положение первого аудиоисточника и положение акустического объекта, указанные данными пространственного свойства.

Это может обеспечить улучшенное преобразование для воспроизведения аудиосцены во многих вариантах реализации.

В соответствии с необязательным признаком настоящего изобретения генератор выполнен с возможностью формирования данных аудиоисточника объекта в ответ на положение прослушивания и положение акустического объекта, указанные данными пространственного свойства.

В соответствии с необязательным признаком настоящего изобретения сигнал содержит данные входного аудиоисточника для второго аудиоисточника, а генератор выполнен с возможностью формирования данных аудиоисточника объекта для представления звука, излучаемого в аудиосцене акустическим объектом за счет объединенной связи звука из первого аудиоисточника и второго аудиоисточника.

Во многих вариантах реализации формирование данных аудиоисточника объекта для представления звука, излучаемого в аудиосцене акустическим объектом за счет объединенной связи звука из первого аудиоисточника и второго аудиоисточника, может быть выполнено посредством наложения аудиоданных, формируемых в ответ на данные акустической связи, данные пространственного свойства и данные входного аудиоисточника для первого аудиоисточника, и аудиоданных, формируемых в ответ на данные акустической связи, данные пространственного свойства и данные аудиосигнала для второго аудиоисточника.

В соответствии с аспектом настоящего изобретения предложено аудиоустройство, содержащее: генератор данных для формирования данных для аудиосцены, причем данные содержат данные входного аудиоисточника по меньшей мере для первого аудиоисточника и данные акустического объекта по меньшей мере для одного акустического объекта в аудиосцене, при этом данные акустического объекта содержат данные акустической связи и данные пространственного свойства для акустического объекта; генератор сигнала для формирования сигнала данных, содержащего данные для аудиосцены; и передатчик для передачи сигнала данных.

В соответствии с аспектом настоящего изобретения предложен способ обработки звука, включающий: прием сигнала, содержащего данные для аудиосцены, причем данные содержат данные входного аудиоисточника по меньшей мере для первого аудиоисточника и данные акустического объекта по меньшей мере для одного акустического объекта в аудиосцене, при этом данные акустического объекта содержат данные акустической связи и данные пространственного свойства для акустического объекта; формирование данных аудиоисточника объекта для аудиоисточника объекта, представляющего звук, излучаемый в аудиосцене акустическим объектом за счет связи звука из первого аудиоисточника, причем генератор выполнен с возможностью формирования данных аудиоисточника объекта в ответ на данные акустической связи, данные пространственного свойства и данные входного аудиоисточника; и преобразование для воспроизведения аудиосцены, причем преобразование для воспроизведения включает в себя преобразование для воспроизведения данных аудиоисточника объекта.

В соответствии с аспектом настоящего изобретения предложен способ формирования сигнала аудиоданных, включающий: формирование данных для аудиосцены, причем данные содержат данные входного аудиоисточника по меньшей мере для первого аудиоисточника и данные акустического объекта по меньшей мере для одного акустического объекта в аудиосцене, при этом данные акустического объекта содержат данные акустической связи и данные пространственного свойства для акустического объекта; формирование сигнала аудиоданных, содержащего данные для аудиосцены; и передачу сигнала аудиоданных.

Эти и другие аспекты, признаки и/или преимущества настоящего изобретения станут очевидны из вариантов реализации, описанных далее в этом документе, и будут пояснены со ссылкой на варианты реализации.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Варианты реализации изобретения будут описаны только на примерах со ссылкой на чертежи, на которых:

на ФИГ. 1 показан пример системы виртуальной реальности на основе архитектуры клиент-сервер;

на ФИГ. 2 показан пример элементов аудиоустройства в соответствии с некоторыми вариантами реализации настоящего изобретения;

на ФИГ. 3 показан пример элементов аудиоустройства в соответствии с некоторыми вариантами реализации настоящего изобретения;

на ФИГ. 4 показан пример распространения звука в аудиосцене;

На ФИГ. 5 показан пример аудиоэффектов для акустического объекта;

на ФИГ. 6 показан пример элементов аудиоустройства в соответствии с некоторыми вариантами реализации настоящего изобретения;

на ФИГ. 7 показаны взаимосвязи между аудиоэффектами для акустического объекта; и

на ФИГ. 8 показан пример преобразования для воспроизведения пространственной протяженности акустического объекта в соответствии с некоторыми вариантами реализации настоящего изобретения.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

Восприятия виртуальной реальности (включая дополненную и смешанную реальность), позволяющие пользователю перемещаться в виртуальном или дополненном мире, становятся все более популярными, и для удовлетворения такого спроса разрабатывают услуги. Во многих таких подходах визуальные данные и аудиоданные могут быть сформированы динамически для отражения текущего положения пользователя (или владельца).

В данной области техники термины «расположение» и «поза» используются как общий термин для положения и/или направления/ориентации (см., например, https://en.wikipedia.org/wiki/Pose_(computer_vision)). Комбинация положения и направления/ориентации, например, физического объекта, камеры, головы или вида, может называться позой или расположением. Таким образом, указание расположения или позы может включать до шести значений/компонентов/степеней свободы, причем каждые значение/компонент/степень свободы описывают отдельное свойство положения/местоположения или ориентации/направления соответствующего физического объекта. Конечно, во многих ситуациях расположение или поза могут быть представлены с использованием меньшего числа компонентов, например, если один или более компонентов считают фиксированными или не относящимися к делу (например, если все физические объекты считают расположенными на одной и той же высоте и имеющими горизонтальную ориентацию, то полное представление позы физического объекта могут обеспечить четыре компонента). Далее термин «поза» используется для ссылки на положение и/или ориентацию, которые могут быть представлены от одного до шести значениями (соответствующими максимально возможным степеням свободы).

Многие приложения виртуальной реальности основаны на позе, имеющей максимум степеней свободы, т.е. по три степени свободы каждого из положений и ориентации, дающих в результате в общей сложности шесть степеней свободы. Таким образом, поза может быть представлена набором или вектором из шести значений, представляющих шесть степеней свободы и, следовательно, вектор позы может обеспечивать указание трехмерного положения и/или трехмерного направления. Однако понятно, что в других вариантах реализации поза может быть представлена меньшим количеством значений.

Систему или объект, основанные на обеспечении максимума степеней свободы для зрителя, обычно называют имеющими 6 степеней свободы. Многие системы и объекты обеспечивают только ориентацию или положение, и их обычно называют имеющими 3 степени свободы.

При 6 степенях свободы пользователь может перемещаться во всех трех измерениях 3-мерной декартовой системы координат.Или, если смотреть относительно слушателя, в направлении слева направо, спереди назад и сверху вниз. Остальные три степени свободы представляют собой повороты вдоль направлений трех осей декартовой системы координат (например, рысканье, тангаж, крен, как известно из маневрирования летательного аппарата, см., например, https://en.wikipedia.org/wiki/Aircraft_principal_axes).

Как правило, приложение виртуальной реальности формирует трехмерные выходные данные в виде отдельных изображений вида для левого и правого глаз. Затем они могу быть представлены пользователю с помощью подходящих средств, обычно таких, как отдельные дисплеи для левого и правого глаз гарнитуры виртуальной реальности. В других вариантах реализации одно или более изображений вида могут быть, например, представлены на автостереоскопическом дисплее или, в действительности, в некоторых вариантах реализации может быть сформировано только одно двумерное изображение (например, с использованием обычного двумерного дисплея).

Аналогичным образом для данной позы зрителя/пользователя/слушателя может быть обеспечено аудиопредставление сцены. Аудиосцену обычно преобразуют для воспроизведения для обеспечения пространственного восприятия, в котором аудиоисточники воспринимаются как происходящие из требуемых положений. Аудиосцена может во многих вариантах реализации меняться динамически с потенциальным перемещением аудиоисточников в пространстве сцены. Кроме того, изменения позы пользователя, как правило, приведут к изменению относительного положения аудиоисточника относительно позы пользователя. Соответственно, пространственное восприятие аудиоисточника следует изменять для отражения нового положения относительно пользователя. Преобразование для воспроизведения звука может быть, соответственно, адаптировано в зависимости от позы пользователя.

Входные данные позы зрителя или пользователя могут быть определены разными путями в разных приложениях. Во многих вариантах реализации физическое движение пользователя может быть отслежено непосредственно. Например, камера, производящая съемку области пользователя, может обнаруживать и отслеживать голову (или даже глаза (отслеживание глаз)) пользователя. Во многих вариантах реализации пользователь может носить гарнитуру виртуальной реальности, которая может быть отслежена внешними и/или внутренними средствами. Например, гарнитура может содержать акселерометры и гироскопы, обеспечивающие информацию о перемещении и повороте гарнитуры и, следовательно, головы. В некоторых примерах гарнитура виртуальной реальности может передавать сигналы или содержать (например, визуальные) идентификаторы, которые позволяют внешнему датчику определять положение гарнитуры виртуальной реальности.

В некоторых системах поза зрителя может быть предоставлена с помощью ручных средств, например, пользователем, вручную управляющим джойстиком или аналогичным устройством ввода вручную. Например, пользователь может вручную перемещать виртуального зрителя вокруг виртуальной сцены, управляя первым аналоговым джойстиком одной рукой, и управлять вручную направлением, в котором смотрит виртуальный зритель, двигая вручную второй аналоговый джойстик другой рукой.

В некоторых приложениях для формирования входной позы зрителя может быть использовано сочетание ручного и автоматизированного подходов. Например, гарнитура может отслеживать ориентацию головы, а перемещением/положением зрителя в сцене может управлять пользователь с помощью джойстика.

Во многих системах данные, описывающие сцену, передают из центрального источника локальному устройству для отдельного пользователя. Например, визуальные данные, представляющие вид сцены из ряда различных положений обзора, могут быть переданы с центрального сервера локальному клиенту. На основе этих визуальных данных локальный преобразователь для воспроизведения в локальном устройстве может после этого синтезировать конкретные виды для текущего положения зрителя. Таким образом, представление сцены из ряда положений захвата или привязочных положений (независимых от текущей позы зрителя) может быть передано локальному устройству в виде представления сцены, а локальное устройство может обработать его для динамического формирования видов для текущей позы зрителя.

Аналогичным образом удаленное устройство/сервер может формировать аудиосцену, отражающую виртуальную окружающую аудиосреду. Во многих вариантах реализации этом может быть сделано путем формирования аудиоэлементов, которые соответствуют относительному положению разных аудиоисточников в виртуальной окружающей аудиосреде, причем их преобразуют для воспроизведения так, чтобы они воспринимались в соответствующих положениях.

Например, удаленное устройство может формировать аудиоданные, представляющие аудиосцену, и может передавать аудиокомпоненты/аудиообъекты/аудиосигналы или другие аудиоэлементы, соответствующие разным аудиоисточниками в аудиосцене, вместе с информацией о положении, указывающей положение этих источников (которое может, например, динамически изменяться для движущихся физических объектов). В число аудиоэлементов могут входить аудиоэлементы, связанные с конкретными положениями, но могут также входить элементы для более распределенных или размытых аудиоисточников. Например, могут быть предусмотрены аудиоэлементы, представляющие общий (нелокализованный) фоновый звук, звук окружающей среды, размытую реверберацию и т.д.

Во многих вариантах реализации аудиоданные могут также содержать метаданные, описывающие акустические свойства сцены. Эти метаданные могут содержать информацию о (не звуковых) элементах, которые вызывают окклюзии и отражения звука.

В таком случае локальное устройство VR может преобразовать для воспроизведения аудиоэлементы соответствующим образом, например, путем применения надлежащей бинауральной обработки, отражающей относительное положение аудиоисточников для аудиокомпонентов. Акустические метаданные могут быть использованы для моделирования дополнительных эффектов сцены на звуке, достигающем пользователя. Они могут воздействовать непосредственно на аудиосигналы аудиоэлементов или вводить дополнительные аудиоэлементы, такие как реверберация.

Что касается звука в услуге VR, в некоторых вариантах реализации центральный сервер может соответствующим образом формировать аудиоданные, представляющие аудиосцену, и может, в частности, представлять эту аудиосцену при помощи ряда аудиоэлементов, которые могут быть преобразованы для воспроизведения локальным клиентом/устройством. Аудиоэлементы могут, в частности, включать один или более аудиообъектов, аудиоканалов, амбиофонию более высокого порядка.

На ФИГ. 1 показан пример такой системы VR, в которой центральный сервер 101 поддерживает связь с рядом удаленных клиентов 103, например, через сеть 105, такую как, например Интернет.Центральный сервер 101 может быть выполнен с возможностью одновременной поддержки потенциально большого количества удаленных клиентов 103.

Такой подход может обеспечивать улучшенный компромисс, например, между сложностью и потребностью в ресурсах для разных устройств, требованиями к связи и т.д., во многих сценариях.

На ФИГ. 2 показаны элементы аудиоустройства, далее называемого также преобразователем 200 для воспроизведения звука, которое может обеспечить улучшенное преобразование для воспроизведения звука во многих приложениях и сценариях. В частности, аудиоустройство может обеспечить улучшенное преобразование для воспроизведения для многих приложений VR, и аудиоустройство может быть, в частности, выполнено с возможностью выполнения обработки и преобразования для воспроизведения звука для удаленного клиента 103, приведенного на ФИГ. 1.

На ФИГ. 3 показаны элементы аудиоустройства, далее называемого также генератором 300 аудиосигнала, которое может формировать улучшенный сигнал аудиоданных во многих приложениях и сценариях. В частности, аудиоустройство может обеспечить улучшенный сигнал аудиоданных как часть улучшенного потока аудиовизуальных данных для многих приложений VR, и генератор 300 аудиосигнала может быть, в частности, выполнен с возможностью осуществления обработки и преобразования для воспроизведения звука для сервера 101 VR, приведенного на ФИГ. 1.

Генератор 300 аудиосигнала содержит генератор 301 аудиоданных, который выполнен с возможностью формирования данных, обеспечивающих представление аудиосцены. Данные могут включать данные для ряда аудиоисточников в сцене, причем эти данные содержат аудиоданные, которые описывают формируемое (формируемый) источниками аудио (сигнал), а также, как правило, пространственную информацию, обеспечивающую описание пространственных свойств для сцены. Обычно такие пространственные данные могут содержать данные, указывающие положение аудиоисточника в сцене и/или описание пространственного распределения/протяженности аудиоисточника. Пространственное распределение может, например, отражать, является ли источник данных размытым или пространственно распределенным (например, окружающий или фоновый шум), или является ли он четко определенным точечным источником. Пространственные данные для данного аудиоисточника могут, например, указывать размер аудиоисточника. Данные аудиоисточника для данного аудиоисточника в аудиосцене могут, в частности, содержать данные аудиосигнала и данные пространственного свойства для аудиоисточника.

Как правило, звук, формируемый аудиоисточником, может быть задан в виде кодированного аудиосигнала. Обычно аудиоисточники могут быть представлены как аудиообъекты, каналы или HOA.

Аудиоисточник может быть, в частности, одиночным аудиосигналом со связанными метаданными местоположения, предназначенным для преобразования для воспроизведения в виде точечного источника. Кроме того, пространственная протяженность (размер) может быть частью метаданных, указывающей, что источник звука следует преобразовывать для воспроизведения с конкретным размером. Кроме того, метаданные, такие как (частотно-зависимые) диаграммы направленности, могут быть частью определения источника звука.

В настоящем примере данные, характеризующие аудиосцену, не ограничиваются аудиоисточниками, а, скорее, могут также включать описание одного или более акустических объектов. Акустическим объектом может быть объект в сцене, который может влиять на акустическую среду, и, в частности, может быть объектом, который может влиять на звук, принимаемый по меньшей мере в одной точке в аудиосцене по меньшей мере из одного из аудиоисточников. Таким образом, акустический объект может быть любым объектом в сцене, который может влиять на распространение звука из аудиоисточников. Обычно акустический объект может представлять собой пассивный акустический объект (как будет описано позже, он может, как правило, формировать звук в ответ на падающий звук или механическое воздействие). Акустический объект может быть объектом, акустические свойства которого отличаются от акустических свойств воздуха.

Поэтому данные, формируемые для аудиосцены, включают аудиоисточники, которые формируют звук, а также акустические объекты, которые могут влиять на звук. В некоторых случаях аудиоисточник объекта может быть связан с конкретным акустическим объектом.

Как показано на ФИГ. 3, генератор 301 аудиоданных соединен с генератором 303 сигнала, который выполнен с возможностью формирования сигнала данных, содержащего данные для аудиосцены, которые были сформированы генератором 301 аудиоданных. Как правило, генератор 303 сигнала формирует поток аудиовизуальных данных, содержащий как данные, характеризующие аудиосцену, так и соответствующие видеоданные, которые характеризуют визуальную сцену. Таким образом, поток данных характеризует аудиовизуальную сцену. Генератор 303 сигнала может быть выполнен с возможностью кодирования видеоданных и аудиоданных с использованием любых подходящих алгоритмов и форматов кодирования.

Сформированный поток кодированных аудиовизуальных данных может быть подан в передатчик 305, который выполнен с возможностью передачи сигнала данных по любому подходящему каналу связи. В конкретном примере, приведенном на ФИГ. 1-3, передатчик 305 может содержать подходящий сетевой интерфейс, позволяющий ему передавать сигнал данных клиентскому устройству 101 по сети 105.

Как показано на ФИГ. 2, преобразователь 200 для воспроизведения звука содержит приемник 201, который принимает сигнал данных от генератора 300 аудиосигнала. Таким образом, приемник 201 принимает данные, представляющие аудиосцену, причем эти данные содержат данные входного аудиоисточника для одного, и обычно более, аудиоисточников, а также данные акустического объекта для одного, и обычно более, акустических объектов.

Данные входного аудиоисточника могут, в частности, описывать временные и/или частотные характеристики формируемого звука и могут, в частности, представлять один аудиосигнал (меняющийся во времени). Как правило, данные также содержат пространственные данные для аудиоисточника. Данные входного аудиоисточника для данного входного аудиоисточника, представленного в принимаемых данных, могут, в частности, содержать данные аудиосигнала и данные пространственного свойства для данного входного аудиоисточника.

Приемник 201 соединен с преобразователем 203 для воспроизведения, в который подают данные, характеризующие аудиоданные. Преобразователь 203 для воспроизведения может преобразовывать для воспроизведения аудиосцену, например, посредством преобразования для воспроизведения отдельных аудиоисточников по отдельности и объединения получающихся в результате сигналов. Преобразование для воспроизведения может включать пространственную обработку на основе пространственной информации, принятой для аудиоисточников, и положений прослушивания, для которых формируют звук, как известно специалисту в данной области. Например, для вывода через наушники может быть использована бинауральная обработка для формирования сигнала наушников, причем аудиоисточники воспринимаются как достигающие слушателя из надлежащих пространственных положений. Для вывода через акустическую систему может быть использован алгоритм преобразования для воспроизведения динамика (например, векторное амплитудное панорамирование - Vector Base Amplitude Panning, VBAP), чтобы формировать сигналы динамика из аудиоэлементов.

Преобразователь 203 для воспроизведения может быть также выполнен с возможностью обработки аудиоисточников для отражения свойств акустических объектов. Например, уровень сигнала для аудиоисточника может быть уменьшен для приведения в соответствие с затуханием, вызываемым акустическим объектом между аудиоисточником и положением прослушивания.

Преобразователь 203 для воспроизведения может быть, в частности элементом обработки, который преобразует аудиосигналы во входные/возбуждающие сигналы динамика (включая наушники). Например, при ношении наушников сигналы преобразуют для воспроизведения с использованием передаточных функций головы (Head Related Transfer Function, HRTF) или бинауральных импульсных переходных характеристик помещения (Binaural Room Impulse Responses, BRIR), в то время как для использования динамиком сигналы отображают в динамики в зависимости от относительных положений динамиков по отношению к (виртуальным) положениям источников звука и слушателя.

Понятно, что преобразователь 203 для воспроизведения может быть не ограничен формированием сигналов, которые подают непосредственно в динамики данного приложения, а формируемые сигналы, возможно, могут быть подвергнуты дальнейшей обработке. Например, сигналы могут быть подвергнуты выравниванию громкости, сжатию динамического диапазона (Dynamic Range Compression, DRC), ограничению (истинного) пикового значения или другим этапам обработки. Кроме того, за преобразованием для воспроизведения во входные сигналы акустической системы может последовать преобразование для воспроизведения во входные сигналы динамика наушников посредством бинаурального преобразования для воспроизведения.

Преобразователь 200 для воспроизведения звука также содержит генератор 205, который выполнен с возможностью введения дополнительного аудиоисточника в сцену. Генератор 205 может, в частности, формировать данные аудиоисточника объекта для аудиоисточника объекта, который представляет звук, излучаемый в аудиосцене акустическим объектом за счет связи звука по меньшей мере из первого аудиоисточника.

В этой системе сигнал данных содержит данные акустического объекта по меньшей мере для одного акустического объекта, причем данные акустического объекта, в частности, содержат как данные акустической связи, таки данные пространственного свойства для первого акустического объекта. Акустический объект может быть представлен пространственными метаданными, обеспечивающими пространственное описание на основе прямоугольника, сферы или многоугольника. Например, он может быть представлен двумя значениями размера, указывающими эффективные размеры ширины и высоты элемента, когда он обращен к слушателю.

На основе таких данных генератор 205 формирует новый аудиоисточник, далее называемый аудиоисточником объекта, который отражает звук, формируемый из акустического объекта за счет этой связи с другим звуком (т.е. звуком из входных аудиоисточников). Этот дополнительный аудиоисточник может быть затем включен в преобразование для воспроизведения сцены. В частности, данные аудиоисточника объекта могут представлять дополнительный аудиоисточник объекта посредством данных аудиосигнала и пространственных данных, которые соответствуют тому, как аудиоисточники представлены в принимаемом сигнале. В частности, аудиоисточник объекта может быть представлен данными аудиосигнала, описывающими формируемый звук, и пространственными данными, описывающими положение и/или протяженность формируемого звука.

Для моделирования распространения звука через среду и, в частности, для моделирования того, как объекты влияют на звук в среде, могут быть использованы акустические модели. Как правило, моделируемые звуковые волны взаимодействуют с различными твердотельными материалами. Типичные акустические модели включают отражение, поглощение и передачу (пропускание через объект) приходящих звуковых волн. Преобразователь 203 для воспроизведения может учитывать такие эффекты при преобразовании для воспроизведения аудиоисточников и оценке того, как на них влияет среда.

В частности, что касается окклюзии, модель может учитывать, где находятся заслоняющие сцену объекты, и каковы их акустические свойства. В частности, принимаемые данные могут, соответственно, содержать данные, описывающие акустические объекты, и, как правило, могут описывать (упрощенные) геометрические свойства объектов, которые в большинстве случаев также представлены визуально.

Окклюзия может считаться абсолютной, когда преграждающий объект не пропускает никакого звука через себя, но для многих объектов окклюзия не будет полной, а позволит пропускать некоторый звук. Это можно представить путем предоставления коэффициентов пропускания, которые обычно указывают (частотно-зависимую) часть энергии, которая проходит через материал, так что пользователь все же может принимать некоторую часть прямого пути, как показано на ФИГ. 4 и 5.

В некоторых случаях пользователь будет также принимать часть энергии источника звука за счет отражений и реверберации. Это может быть не так, если преграждающий элемент блокирует все (относительно короткие) пути через воздух.

Различные материалы обладают разными свойствами преграждения. Стенка преграждает сильнее, чем занавеска, и поэтому коэффициент передачи для стенки будет ниже, чем для занавески. Кроме того, частотные характеристики могут отличаться, и, как правило, кирпичная стена будет пропускать только очень низкие частоты. Возможны различные преграждающие материалы, которые имеют свойства в промежутке между описанными двумя крайними случаями.

Таким образом, преобразователь 203 для воспроизведения может выполнять преобразование для воспроизведения, направленное на формирование аудиоисточников для учета различных путей, будь то через акустический объект или посредством отражений и/или ревербераций.

ФИГ. 6 иллюстрирует пример элементов, которые показывают, как сигнал входного аудиоисточника может быть преобразован для воспроизведения путем преобразования для воспроизведения различных эффектов по отдельности. Этот пример может быть, например, применен к сигналу источника сухого звука, такого как аудиообъект.

В частности, первый путь 601 может обрабатывать аудиоисточник для учета реверберации в среде. Например, сигнал аудиоисточника может быть отфильтрован с использованием подходящего фильтра или модели реверберации. Второй путь 603 может обрабатывать аудиоисточник для учета первичных отражений, например, посредством фильтрации сигнала аудиоисточника фильтром, имеющим коэффициенты, соответствующие привязке во времени и уровню отдельных отражений. Третий путь 605 обрабатывает сигнал аудиоисточника для представления прямого пути, например, посредством применения ослабления к сигналу аудиоисточника в зависимости от прямого пути распространения. Понятно, что различные пути могут отличаться не только привязкой во времени, ослаблением и частотной характеристикой, но могут отличаться и пространственными эффектами. В частности, в случае реверберации звук можно рассматривать как размытый без пространственной определенности, прямой путь можно рассматривать как поступающий из направления аудиоисточника, а отражения можно рассматривать как поступающие из различных направлений в зависимости от конкретных характеристик аудиосреды и, как правило, можно также рассматривать как менее пространственно определенные, чем прямой путь. Прямой сигнал может быть преобразован для воспроизведения так, чтобы он поступал из положения аудиоисточника и, возможно, с относительно небольшим пространственным распространением.

Ослабление прямого пути акустическим объектом часто может быть смоделировано путем применения коэффициента передачи, ослабляющего сигнал от аудиоисточника. Однако автор изобретения понял, что во многих сценариях это может не обеспечить полного или идеального представления аудиоисточника и того, как на него влияет акустический объект.

Например, данный подход может быть реалистичной моделью для занавесок, но не для стен. Это можно объяснить сильным пропусканием низких частот стенами, но для других материалов в промежутке между этими крайними случаями, таких как тонкие гипсокартонные стены или деревянный двери, будет больше высокочастотной составляющей и, как правило, меньше ослабления. Если бы эти случаи моделировали с коэффициентами передачи, была бы возможна локализации, в то время как на практике это не так.

В описанной системе влияние акустического объекта на звук, формируемый аудиоисточниками, дополнительно представляют данными акустического объекта, которые содержат данные акустической связи и данные пространственного свойства для акустического объекта. Это может быть обработано в четвертом пути 607, который включает генератор 205 аудиоисточника, причем с помощью этого пути в сцену вводят новый аудиоисточник.

Связь представляет собой акустический эффект, который представляет, как звук и вибрация/(колебательное) движение объектов могут взаимодействовать и преобразовываться друг в друга. Звук, который падает на конструктивную реализацию, может вызвать вибрацию объекта, посредством чего энергия звука (часть энергии звука) может быть преобразована в механическую энергию объекта. Кроме того вибрация/(колебательное) движение объекта может формировать звук, тем самым преобразовывая вибрационную/механическую энергию в энергию звука. Действительно, эффект связи может во многих вариантах реализации обеспечить звуковой эффект, в котором звук, падающий на акустический объект, заставляет его вибрировать, а вибрация затем производит звук.

Источники звука излучают энергию, и в большинстве сред и сцен некоторая часть этой энергии будет попадать на один или более акустических объектов, прежде чем достигнет уха слушателя. Обычно акустические объекты могут представлять собой пространственные области, в которых свойства материала отличаются от свойств воздуха (и, как правило, могут соответствовать физическим объектам в сцене реального мира или виртуальным объектам, представляющим физические объекты для виртуальной сцены). На границах этих элементов акустический импеданс увеличивает количество акустических эффектов, как описано выше и показано, например на ФИГ. 5. Обычно такие акустические эффекты могут представлять собой отражение, передачу, дифракцию (рассеяние), а также поглощение.

Например, пористый или гибкий материал может поглощать и отражать энергию, но будет также пропускать через себя некоторую часть энергии в воздух позади себя. В противном случае было бы невозможно услышать, что происходит за занавеской.

Поглощение звука/энергии может быть вызвано различными эффектами преобразования. Некоторая часть звука может быть рассеяна и по сути преобразована в тепловую энергию в материале. Однако некоторая часть звуковой энергии может быть преобразована в движение материала и, таким образом, может быть преобразована в вибрации соответствующего объекта/поверхности. Однако, в то время как первый эффект преобразования в тепловую энергию по сути означает, что соответствующая звуковая энергия удаляется из звуковой области/среды, второй эффект может вызывать дополнительные звуковые эффекты.

В частности, вибрация акустического объекта может привести к перемещению воздуха акустическим объектом и, следовательно, к формированию звука, в том числе на дальней/заслоненной стороне акустического объекта. Таким образом, за преобразованием звука в вибрационное движение может последовать преобразование этого вибрационного движения в звук. Кроме того, характеристики этого звука, включая, например, пространственную протяженность и частотный диапазон, могут существенно зависеть от свойств акустического объекта и могут существенно отличаться от звука, получающегося в результате прямой передачи. Например, для распространения звука между смежными помещениями вся стена, дверь или другой объект могут вибрировать, значительно затрудняя локализацию, поскольку звук производит большая площадь, а не относительно небольшой источник звука.

На ФИГ. 7 показан пример взаимосвязи между различными эффектами, которые могут возникнуть. Эффект преобразования звуковой энергии и вибрационной/механической энергии известен как связь и главным образом учитывается при проектировании строительства зданий для улучшения звукоизоляции между различными частями здания. Степень, в которой возникают различные акустические эффекты для данного акустического объекта, зависит от конкретных свойств акустического объекта, включая конструкцию и материал или комбинацию материалов акустического объекта.

В системе по ФИГ. 1-3 сигнал данных формируют так, чтобы он содержал данные акустического объекта для одного или более акустических объектов, в том числе данные акустической связи и данные пространственного свойства для акустического объекта. Данные акустической связи содержат указание свойства преобразования энергии звука в энергию вибрации и/или преобразования энергии вибрации в энергию звука. Во многих ситуациях данные акустической связи могут в качестве альтернативы или дополнительно содержать указание вибрационных характеристик акустического объекта, и, в частности, того, как вибрационные эффекты распространяются и распределяются в акустическом объекте.

Кроме того, эти данные используются преобразователем 200 для воспроизведения звука для формирования нового аудиоисточника в аудиосцене. Таким образом, в дополнение к входным аудиоисточникам, которые описываются принимаемыми данными, генератор 205 аудиоисточника преобразователя 200 для воспроизведения звука выполнен с возможностью формирования данных аудиоисточника объекта для аудиоисточника объекта, который представляет звук, излучаемый в аудиосцене акустическим объектом за счет связи звука по меньшей мере из первого входного аудиоисточника. В частности, данные аудиоисточника объекта могут содержать данные аудиосигнала, описывающие формируемый звук, и пространственные данные, указывающие пространственный свойства излучаемого звука. В частности, пространственные данные могут представлять положение и протяженность (пространственное распределение) формируемого звука.

Генератор 205 аудиоисточника формирует данные аудиоисточника объекта на основе данных акустической связи и данных пространственного свойства, принимаемых для акустического объекта, а также на основе конкретного аудиоисточника и данных аудиосигнала по меньшей мере для первого аудиоисточника.

В качестве примера низкой сложности данные акустической связи могут содержать коэффициент связи, который указывает, насколько энергия аудиосигнала формируется посредством связи, и, таким образом, коэффициент связи может указывать потери на преобразование при преобразовании звуковой энергии из первого аудиоисточника в вибрационную энергию и при преобразовании этой вибрационной энергии в звуковую энергию. Таким образом, может быть сформирован новый источник с энергией/уровнем, соответствующими этой энергии, например, простым масштабированием сигнала первого аудиоисточника посредством коэффициента связи. Пространственные данные для этого аудиоисточника могут быть сформированы так, чтобы они отражали положение и/или протяженность нового источника, которые определяют на основе положения и/или пространственной протяженности акустического объекта. Положение и/или пространственная протяженность/распределение формируемого нового аудиоисточника отличаются от положения и/или пространственной протяженности/распределения, получающихся в результате прямой передачи, и зависят от пространственных свойств (и, как правило, механических свойств) акустического объекта. В частности, во многих вариантах реализации новый аудиоисточник может быть сформирован так, чтобы он имел положение, соответствующее акустическому объекту, и имел пространственную протяженность, которая соответствует размеру акустического объекта. Например, если акустический объект соответствует стене, новый источник может быть сформирован как происходящий из всей стены, т.е. протяженности формируемого нового аудиоисточника объекта.

Формируемый аудиоисточник объекта может быть преобразован для воспроизведения таким же образом, как и другие аудиоисточники. Данные аудиоисточника объекта могут быть поданы в преобразователь 203 для воспроизведения, который может преобразовать для воспроизведения аудиоисточник объекта так, чтобы он воспринимался с определенными характеристиками и, в частности, с определенными положением и протяженностью. Понятно, что для преобразования для воспроизведения аудиоисточников так, чтобы они имели воспринимаемые положение и протяженность, известны ряд различных алгоритмов, и что может быть использован любой подходящий подход и алгоритм.

В частности, существуют различные способы создания размера аудиоисточника. Это обычно достигается путем преобразования для воспроизведения версий сигнала источника звука более чем в одном положении. Например, по четвертой части энергии сигнала в четырех углах воспринимаемой пространственной площади акустического объекта из положения прослушивания. В некоторых вариантах реализации возможно преобразование для воспроизведения версий сигнала объекта в большем (или меньшем) количестве положений и/или в других местоположениях, отличных от четырех углов пространственной площади акустического объекта, которая воспринимается слушателем.

В качестве конкретного примера на ФИГ. 8 показано, как может выглядеть стена или барьер из положения прослушивания. Получающийся в результате звук от этой стены можно рассматривать как происходящий от всей поверхности стены, а не просто из одной точки. Например, такое восприятие может быть создано путем формирования подысточника звука в центре и каждом углу, например, как указано значками X на ФИГ. 8. Каждый из этих подысточников звука может быть преобразован для воспроизведения для излучения звука, определенного для акустического объекта, соответствующего стене. В данном конкретном примере уровень каждого подысточника звука может, например, составлять пятую часть от общего уровня, определенного для аудиоисточника. Кроме того, к преобразуемому для воспроизведения звуку могут быть применены некоторые эффекты пространственного распространения, или размытия (например, некоторые дополнительные фильтры реверберации или декорреляции (обычно фазовые фильтры со случайной фазовой характеристикой)). Таким образом, комбинированный эффект может привести к восприятию одного аудиоисточника, имеющего размер всего акустического объекта/стены 801.

В более продвинутых вариантах реализации энергию сигнала источника звука распределяют неравномерно по версиям сигнала источника звука, чтобы акцентировать внимание на определенной области акустического объекта в зависимости от того, где принимаемый источник звука ближе всего к акустическому объекту.

Соответственно, преобразователь 200 для воспроизведения звука может вводить один или более новых источников звука с пространственной протяженностью в соответствии с размером и положением акустического объекта. Новый источник звука представляет акустический объект, который производит звук из-за формируемой другим источником звука энергии звука, превращающейся в вибрации акустического объекта.

Во многих вариантах реализации может быть учтен звук из множества аудиоисточников. Действительно, может быть учтен звук, падающий на акустический объект из двух аудиоисточников. Например, сначала может быть определен звук, который падает на акустический объект из двух различных аудиоисточников, например, при помощи наложения или отслеживания луча или любого другого алгоритма. Затем может быть обработан объединенный звук, как если бы он представлял собой звук из одного источника, т.е. его можно преобразовать в вибрацию, смоделировать поведение вибрации и из него сформировать итоговый звук.

В других вариантах реализации отдельные аудиоисточники могут быть обработаны по отдельности, и получающийся в результате выходной звук может быть объединен. Таким образом, в некоторых вариантах реализации генератор 205 аудиоисточника может формировать данные аудиоисточника объекта для представления звука, излучаемого в аудиосцене акустическим объектом за счет объединенной связи звука из первого аудиоисточника и второго аудиоисточника.

В частности, генератор 205 аудиоисточника может делать это наложением данных аудио (сигнала), сформированных в ответ на данные акустической связи, данных пространственного свойства и данных аудиосигнала для первого аудиоисточника, и данных аудио (сигнала), сформированных в ответ на данные акустической связи, данные пространственного свойства и данные аудиосигнала для второго аудиоисточника.

Во многих вариантах реализации такие объединенные данные аудиоисточника объекта могут быть сформированы посредством данных сигнала аудиоисточника, формируемых в виде фильтрованного наложения одного или более сигналов аудиоисточника, причем фильтрацию определяют по меньшей мере посредством коэффициентов связи акустического объекта, обычно зависимых от частоты.

В описанной системе метаданные связи, связанные с акустическим объектом, включат в сигнал данных, представляющий аудиосцену. Во многих вариантах реализации данные акустической связи могут представлять уровень и/или частотную характеристику для связи с энергией вибрации и/или связи энергии вибрации. Во многих вариантах реализации метаданные связи могут быть в виде передаточной функции для связи. Передаточная функция может быть представлена одним или более коэффициентами связи, такими как, например, один или более коэффициентов, представляющих передаточную функцию фильтра для фильтра с конечной импульсной характеристикой (Finite Impulse Response, FIR) или с бесконечной импульсной характеристикой (Infinite Impulse Response, IIR). В простейшем варианте реализации передаточная функция может быть частотно-независимым масштабированием, а данные акустической связи могут, например, содержать только один коэффициент связи, указывающий ослабление энергии сигнала от энергии падающего звука до энергии формируемого звука посредством процесса связи.

Таким образом, в некоторых вариантах реализации данные акустической связи могут для данного акустического объекта содержать один коэффициент, указывающий, каким образом следует получать сигнал аудиоисточника объекта из сигналов аудиоисточника, принятых из генератора 300 аудиосигнала. Например:

где - формируемый сигнал аудиоисточника объекта для акустического объекта , - набор принимаемых сигналов аудиоисточника, - коэффициент связи объекта и - принимаемый сигнал источника звука, а - индекс времени (например, временная выборка). Таким образом, в данном примере эффект связи из множества аудиоисточников учитывают посредством наложения отдельных составляющих.

Коэффициент связи может соответствовать коэффициенту широкополосной связи, т.е. частотная характеристика может быть плоской для всей звуковой полосы, и учитываются только изменения уровня. Однако в большинстве случаев выгодно использовать частотно-зависимые коэффициенты, например, коэффициенты связи могут быть значительно выше при низких частотах. Другой пример состоит в том, что частотно-зависимые коэффициенты могут особенно подходить для учета резонансов в акустическом объекте или поверхностном компоненте акустического объекта.

Частотно-зависимый коэффициент связи может быть предоставлен в виде фильтра, например, посредством коэффициентов для фильтра FIR () или IIR (, ).

Вклад в формируемый сигнал аудиоисточника объекта может быть получен посредством фильтрации принимаемых сигналов аудиоисточника с помощью коэффициентов фильтра. Например, в частотной области:

или FIR во временной области:

где обозначает свертку.

В альтернативном варианте реализации для определенных частотных полос могут быть предусмотрены частотно-зависимые коэффициенты, причем каждую такую параметрическую полосу определяют на части частотного спектра. Параметрические полосы могут быть определены в элементах дискретизации при быстром преобразовании Фурье (Fast Fourier Transform, FFT), элементах дискретизации при модифицированном дискретном косинусном преобразовании (Modified Discrete Cosine Transform, MDCT) или индексах подполосы.

При таком подходе в большинстве вариантов реализации сигнал аудиоисточника объекта может быть сформирован умножением скалярного коэффициента связи каждой параметрической полосы на элементы дискретизации FFT или сигнал подполосы в соответствующей параметрической полосе. Например:

где обозначает элемент дискретизации кратковременного преобразования Фурье (Short-Term Fourier Transform, STFT) (или индекс подполосы), а представляет собой функцию, которая возвращает индекс параметрической полосы данного элемента дискретизации STFT (или индекса подполосы).

Значения коэффициентов связи обычно находятся между 0 и 1, причем 0 представляет ситуацию, в которой энергию не передается посредством связи через акустический объект, а 1 указывает, что весь падающий аудиосигнал передается в сигнал аудиоисточника объекта.

Сформированные данные аудиоисточника объекта могут также содержать пространственные данные, которые, как правило, могут быть представлены пространственным положением и/или протяженностью формируемого аудиоисточника объекта. Обычно эти данные могут отражать пространственные данные акустического объекта, т.е., в частности, положение и/или протяженность акустического объекта. Однако в некоторых вариантах реализации и сценариях они могут также зависеть от положения и/или протяженности первоначального аудиоисточника.

Во многих вариантах реализации аудиоисточник объекта формируют так, чтобы он имел пространственную протяженность, определенную из пространственной протяженности акустического объекта, и, в частности, она может быть определена такой же, как и у акустического объекта. Например, в случае стены звук соответствующего аудиоисточника объекта можно рассматривать как излучаемый всей стеной.

В некоторых вариантах реализации протяженность формируемого аудиоисточника объекта может быть определена протяженностью поверхности акустического объекта, которая меньше протяженности акустического объекта. Причина может быть в том, что эта поверхность более, чем другие поверхности акустического объекта, склонна к формированию звука в ответ на связь или вибрации в акустическом объекте.

Аналогичным образом во многих вариантах реализации аудиоисточник объекта формируют так, чтобы он имел пространственное положение, определенное из пространственного положения акустического объекта, и, в частности, оно может быть определено таким же, как и у акустического объекта. Например, в случае предмета мебели звук соответствующего аудиоисточника объекта можно рассматривать как излучаемый из положения предмета мебели, а не из положения первоначального аудиоисточника.

В качестве некоторых конкретных примеров акустический объект может быть представлен его центральным положением и протяженностью вокруг центрального положения. Три значения в векторе могут указывать три пространственных размера прямоугольной или эллипсоидной аппроксимации акустического объекта. Размеры могут указывать размеры непосредственно относительно осей координат или в сочетании с данными поворота, которые указывают последующие углы поворота рыскания, тангажа и крена на этих размерах.

В альтернативном варианте реализации вектор положения указывает начальное положение, относительно которого определяют протяженность или, точнее говоря, форму акустического объекта. Например, для определения формы акустического объекта могут быть использованы многоугольники в виде наборов многоугольников , каждый из которых состоит по меньшей мере из трех пар координат, определяющих края многоугольника. Пары координат могут быть выражены в абсолютных координатах или относительно вектора положения.

Пространственные свойства сформированного аудиоисточника объекта могут быть взяты непосредственно из пространственной протяженности акустического элемента. Например, центральное положение и пространственная протяженность, выраженная посредством и , или, в качестве альтернативы, описание многоугольника. В других вариантах реализации, в которых акустический объект описывают посредством многоугольников, размеры могут быть получены из определений многоугольников и переведены в различные представления, такие как вектор , в котором:

В некоторых вариантах реализации, в которых данные связи даны для каждого многоугольника, пространственная протяженность формируемого аудиоисточника может быть определена только многоугольниками, у которых описывающие передачу вибрации в звук коэффициенты связи больше 0.

В некоторых вариантах реализации пространственные свойства формируемого аудиоисточника объекта могут зависеть только от пространственных свойств акустического объекта. Однако в других вариантах реализации пространственные свойства могут также зависеть от положения аудиоисточника относительно акустического объекта и/или положения прослушивания, для которого преобразуют для воспроизведения звук.

Некоторые из числа таких примеров могут включать в себя положение, определяемое частью акустического объекта, ближайшей к аудиоисточнику, или поверхностью (например, многоугольной), обращенной к аудиоисточнику, которая наиболее эффективна при формировании связанного звука. Точнее говоря, многоугольником с самым высоким коэффициентом связи, описывающим передачу вибрации в звук. В альтернативном варианте реализации положение может быть определено взвешенным средним значением положений многоугольника с использованием в качестве весовых коэффициентов соответствующих коэффициентов связи вибрации со звуком.

В данном случае в качестве положений многоугольника можно рассматривать их среднее положение, например:

Пространственные свойства формируемого аудиоисточника могут зависеть от положения прослушивания. В качестве положения формируемого аудиоисточника объекта может быть выбрана точка акустического объекта, ближайшая к положению прослушивания. Пространственная протяженность формируемого аудиоисточника объекта может быть выражена не в абсолютных размерах объекта, а в двухмерной воспринимаемой протяженности, т.е. шириной и высотой акустического объекта, обращенного к положению прослушивания. Аналогичным образом эта воспринимаемая пространственная протяженность может быть выражена двумя углами, указывающими относительные высоту и ширину акустического объекта, если смотреть из положения прослушивания.

В альтернативном варианте реализации положение и пространственная протяженность могут быть определены площадью поверхности, которая самым непосредственным образом обращена к положению прослушивания. Например, средние положение и протяженность многоугольника , нормальный вектор которого () наиболее соответствует вектору (), определенному линией между средним положением многоугольника и положением прослушивания.

где является перекрестным произведением двух векторов.

В других вариантах реализации пространственные свойства формируемого аудиоисточника объекта зависят как от положения первоначального аудиоисточника, так и от положения прослушивания. Например, положение может быть определено точкой пересечения прямой линии между первоначальным аудиоисточником и положением прослушивания с акустическим объектом, ближайшим к положениям прослушивания. Тогда пространственная протяженность формируемого аудиоисточника может быть определена относительно этого положения.

В предыдущем описании основное внимание было уделено сценариям, в которых рассматривалась передаточная функция связи, относящаяся к связи формируемого аудиосигнала со звуком, падающим на акустический объект, т.е. учитывающая эффект звука, преобразуемого в вибрацию и затем обратно в звук.

Однако в других вариантах реализации может быть предусмотрена передаточная функция связи, которая относится к преобразованию звука в вибрационное движение акустического объекта. В качестве альтернативы или дополнительно может быть предусмотрена передаточная функция связи, которая относится к преобразованию вибрационного движения акустического объекта в звук.

Во многих вариантах реализации могут быть предусмотрены как входная передаточная функция связи, отражающая связь от звука к вибрации, так и выходная передаточная функция связи, отражающая связь от вибрации к звуку. Таким образом, могут быть предусмотрены метаданные связи, которые состоят из двух частей, где одна часть описывает преобразование поступающих аудиосигналов в сигналы вибрации, а вторая часть описывает преобразование сигналов вибрации в аудиосигналы. В таком случае общие эффект связи/передаточная функция могут быть определены как комбинация входной и выходной передаточных функций, например:

где обозначает свертку (во временной области), а и являются фильтрами временной области, представляющими входную передаточную функцию связи и выходную передаточную функцию связи.

Способ, предусматривающий отдельные частичные передаточные функции, может обеспечить ряд преимуществ. Генератор 205 аудиоисточника может быть выполнен с возможностью определения вибрации акустического объекта и последующего определения из нее звука, излучаемого из аудиоисточника объекта. Это может позволить учитывать боле сложные аспекты и с большей детализацией.

Например, во многих вариантах реализации генератор 205 аудиоисточника может быть выполнен с возможностью рассмотрения физической модели акустического объекта. Физическая модель может представлять собой модель механических рабочих характеристик и/или работы акустического объекта. Например, она может моделировать конструкцию и конфигурацию акустического объекта и то, как он реагирует на вибрации. Например, модель может быть выполнена с возможностью моделирования того, как вибрации распределяются и распространяются в акустическом объекте.

Модель может быть оценена для определения вибраций в акустических объектах, в том числе, например, того, как вибрации механически гасятся в системе. Затем с использованием выходной передаточной функции может быть сформирован получающийся в результате звук, чтобы определить излучаемый звук за счет определенной вибрации.В качестве еще одного примера модель может отражать резонантное поведение и, например, моделировать эффекты звона, когда вибрации могут продолжаться даже после прекращения действия источника вибрации.

Данный подход может быть, в частности, использован для определения пространственного распределения вибрации и получающегося в результате пространственного распределения излучаемого звука. Например, в одной небольшой области акустического объекта может быть вызвана конкретная вибрация, например, посредством остронаправленного аудиоисточника, фокусируемого на небольшой области акустического объекта (или, например, аудиоисточника, находящегося очень близко к одной части акустического объекта). Затем эффект вибрации может быть определен по всему акустическому объекту путем оценки физической модели. Акустический объект может быть разделен на более мелки части, и для каждой части может быть определена средняя вибрация, а соответствующий аудиосигнал может быть определен путем применения выходной передаточной функции связи к этой вибрации. Таким образом, этим способом может быть сформирован пространственно распределенный аудиоисточник, отражающий звук, формируемый за счет связи.

В данном примере вибрация, вызывающая формирование звука, является результатом звука, достигающего акустического объекта. Однако в других вариантах реализации вибрация может быть вызвана другими источниками. В частности, во многих сценариях вибрация может быть вибрацией, являющейся результатом изменяющейся во времени силы, прикладываемой к акустическому объекту.

Действительно, физические взаимодействия (например, стучание и т.д.) могут также превратить акустические объекты в источники звука за счет эффекта связи. Например, сверление в стене слышно, потому что большую часть шума производит стена, а не сама дрель. Аналогичным образом связь также имеет место между физически соединенными объектами сцены (например, в результате сверление слышно во всем здании),

Это можно смоделировать с помощью коэффициента связи, разделенного на коэффициент, который указывает, какая часть поступающей энергии преобразуется в энергию вибрации, и коэффициент, который описывает отношение между энергией вибрации и аудиосигналом.

Это моделирование вибрации акустических объектов может быть основано на дополнительных коэффициентах, описывающих передачу вибраций между (физически) соединенными акустическими объектами, и, следовательно, данный подход может быть также использован для оценки механического взаимодействия между разными акустическими объектами.

Таким образом, коэффициент связи может представлять передачу из входного звука в выходной звук (в том смысле, что он преобразует аудиосигналы, описывающие звуковые волны, непосредственно достигающие акустического объекта, в аудиосигнал, который излучается акустическим объектом), но он может быть также разделен на два компонента, где один компонент коэффициента преобразует аудиосигналы поступающих звуковых волн в сигналы вибрации в акустическом объекте, тогда как другой преобразует эти сигналы вибрации в аудиосигналы, излучаемые акустическим объектом.

Это может быть полезно в более продвинутых вариантах реализации, в которых акустические объекты могут соприкасаться друг с другом и, таким образом, передавать сигналы вибрации от элементов, которые захватывают ее, другому акустическому объекту, которые не подвергается непосредственно воздействию звуковых волн. Например, когда в одной комнате система громко воспроизводит музыку, она может быть слышна в соседней комнате через стену между двумя комнатами. Однако вибрации будут, как правило, передаваться в другие части конструкций здания, вынуждая слушателей в других комнатах тоже слышать басы музыки, даже если их стены и пол не соседствуют непосредственно с комнатой, где звучит музыка.

Еще одним примером является (виртуальная) переносная акустическая система или телефон, воспроизводящий звук в моделированной сцене. Как только акустическая система или телефон соприкасается со столешницей, связь между устройством и столешницей становится гораздо сильнее. Причина в сильной связи источника звука (громкоговорителя) с его корпусом. Однако вибрации самого корпуса вряд ли слышны, тогда как эти вибрации весьма эффективно передаются в столешницу посредством контакта. Таким образом, столешница действует как дека, которая преобразует свои вибрации в более громкий излучаемый звук.

Следовательно, использование этого промежуточного этапа позволяет моделировать сигналы вибрации между акустическими объектами для более реалистичной имитации аудиосреды.

Точные данные, которые предоставляют в сигнале данных, как и конкретный используемый синтаксис, могут отличаться в различных вариантах реализации.

Например, в случае данных параметрической полосы определения параметрической полосы могут быть заданы заранее или указаны в передаче. Одно из нескольких предварительно заданных определений полос может быть указано полем двоичного потока, или определения параметрических полос могут быть переданы в двоичном потоке в явном виде как границы полос или ширина полос в частотах, элементах дискретизации FFT или индексах подполос.

Ниже показан пример синтаксиса двоичного потока, который поддерживает как полосовые частотные коэффициенты, так и коэффициент фильтра:

Синтаксис	к-во битов
acousticElement()
{
posX;	8
posY;	8
posZ;	8

oriYaw;	6
oriPitch;	6
oriRoll;	6

sizeX;	6
sizeY;	6
sizeZ;	6

if (parBands)	1
{
bandDefIdx;	3

for b=0:nrBands(bandDefIdx)
{
couplingCoeff[b]	5
reflCoeff[b];	5
dissCoeff[b];	5
}
}
else /* Filter coefficients */
{
fltOrder;	2
for c=1:fltOrder+1
{
couplingCoeffB[c];	7
reflCoeffB[c];	7
dissCoeffB[c];	7
}
if (iirFilter)	1
{
for c=1:fltOrder+1
{
couplingCoeffA[c];	7
reflCoeffA[c];	7
dissCoeffA[c];	7
}
}
}
}

В альтернативном варианте реализации метаданные акустического объекта и, в частности, метаданные коэффициента связи и, необязательно, информация о разбиении на полосы могут быть описаны в текстовом файле. Например, в файле формата XML или JSON.

В качестве примера акустический элемент 3 может быть определен центральным положением , ориентацией oriYaw=0, oriPitch=0, oriRoll=0 и размерами . Соответствующее значение поля parBands двоичного потока может быть равно 1, а bandDefIdx может быть равно 0, что может быть ссылкой на определение разбиения на полосы, указанное в следующей таблице.

Индекс полосы	Начальная частота полосы (Гц)	Конечная частота полосы (Гц)
0	0	30
1	30	100
2	100	500
3	500	1000
4	1000	2500
5	2500	8000
6	8000	fs/2

Семь значений couplingCoeff в двоичном потоке могут быть такими, как указано в следующей таблице.

Индекс полосы (т.е. b)	couplingCoeff[b]	(дБ)
0	9	-9
1	18	-20
2	20	-25
3	25	-50
4	27	-Inf
5	27	-Inf
6	27	-Inf

Для деквантованных значений используют вектор деквантования из следующей таблицы.

Индекс квантования	Значение коэффициента связи (дБ)
0	0
1	-1
2	-2
3	-3
4	-4
5	-5
6	-6
7	-7
8	-8
9	-9
10	-10
11	-11
12	-12
13	-13
14	-14
15	-15
16	-16
17	-18
18	-20
19	-22.5
20	-25
21	-30
22	-35
23	-40
24	-45
25	-50
26	-60
27	-Inf
28-31	Зарезервировано

Пусть будет STFT-представлением сигнала только активного сигнала аудиоисточника, представляющего источник всенаправленного звука в положении , тогда как положением прослушивания является . Сигнал, формируемый аудиоисточником объекта, вычисляют для всех элементов k дискретизации STFT в параметрической полосе b по формуле:

Пространственными данными, связанными с формируемым аудиоисточником объекта, являются центральное положение и размер , взятые из акустического объекта. В вышеприведенном примере ослабление из-за расстояния между первоначальным аудиоисточником и акустическим объектом и ослабление из-за расстояния между формируемым аудиоисточником объекта и положением прослушивания игнорируют.На практике энергия сигнала будет рассеиваться по все большей и большей площади фронта волны, приводя к коэффициенту ослабления, который обычно пропорционален , где r является расстоянием от источника звука. Такие коэффициенты ослабления могут быть вычислены на основе положений и размеров источника звука, акустического объекта и положения прослушивания.

Наконец, в преобразователе для воспроизведения формируемый сигнал будет преобразован для воспроизведения с помощью HRTF частотной области (), например, получен путем применения FFT на фильтрах временной области для левого и правого уха.

Где и являются комплексными сигналами области STFT для левого и правого динамика наушников.

Данный подход может обеспечить улучшенные рабочие характеристики и улучшенные преобразование для воспроизведения и представление во многих сценариях. Например, улучшенные рабочие характеристики часто могут быть достигнуты в следующих конкретных сценариях:

- Прямой путь от первого аудиоисточника до зрителя прегражден акустическим объектом, однако имеются значительные непрямые пути через воздух, по которым значительная часть энергии первого аудиоисточника все же достигает слушателя.

o В этом случае акустический объект становится дополнительным аудиоисточником, который вместе с передаваемым звуком и отражениями создает более реалистичное преобразование для воспроизведения аудиосреды.

o Примером является комнатная перегородка с помещенным за ней источником, если смотреть со стороны слушателя.

- Первый аудиоисточник полностью заслонен от слушателя одним или более акустическими объектами в отсутствии значительных путей через воздух к слушателю.

o В этом случае акустический объект становится дополнительным аудиоисточником, который часто может заменить один или более аудиоисточников и тем самым создает более реалистичное преобразование для воспроизведения аудиосреды и уменьшает вычислительную сложность.

o Примером является сценарий, в котором имеются две соседние комнаты, разделенный стеной и закрытой дверью.

- Первый аудиоисточник находится в непосредственном контакте с акустическим объектом.

o В этом случае коэффициент связи отличается от связи со звуковыми волнами и может привести к усилению громкости, поскольку вибрации аудиоисточника более непосредственно принимаются акустическим объектом.

o Примером является сценарий, в котором динамик, вроде телефона, воспроизводящего звук, помещают на стол, где стол действует как дека.

- Первый аудиоисточник не заслонен от слушателя акустическим объектом, но действительно вносит дополнительную энергию в акустический объект.

o В этом случае акустический объект становится дополнительным аудиоисточником, который создает воспринимаемое расширение первого аудиоисточника.

Понятно, что в вышеприведенном описании варианты реализации настоящего изобретения изложены для ясности со ссылкой на разные функциональные схемы, блоки и процессоры. Однако понятно, что может быть использовано любое подходящее распределение функциональных возможностей между разными функциональными схемами, блоками или процессорами без ущерба для настоящего изобретения. Например, показанные функциональные возможности, подлежащие осуществлению отдельными процессорами или контроллерами, могут быть осуществлены одним и тем же процессором или контроллерами. Поэтому ссылки на конкретные функциональные блоки или схемы должны рассматриваться только как ссылки на подходящие средства для обеспечения описываемых функциональных возможностей, а не как указание на строгую логическую или физическую структуру или организацию.

Настоящее изобретение может быть реализовано в любой подходящей форме, включая оборудование, программное обеспечение, встроенное программное обеспечение или любую их комбинацию. Настоящее изобретение необязательно может быть реализовано, по меньшей мере частично, в виде компьютерного программного обеспечения, выполняемого на одном или более процессорах и/или цифровых процессорах сигналов. Элементы и компоненты варианта реализации настоящего изобретения могут быть физически, функционально и логически реализованы любым подходящим образом. В действительности функциональные возможности могут быть реализованы в одном блоке, в множестве блоков или как часть других функциональных блоков. В силу этого настоящее изобретение может быть реализовано в одном блоке или может быть физически или функционально распределено между разными блоками, схемами и процессорами.

Хотя настоящее изобретение было описано в связи с некоторыми вариантами реализации, это не следует рассматривать как ограничение конкретной формой, изложенной в настоящем документе. Скорее, объем настоящего изобретения ограничен только прилагаемой формулой изобретения. Кроме того, хотя может показаться, что признак описан в связи с конкретными вариантами реализации, специалисту в данной области понятно, что различные признаки описанных вариантов реализации могут быть объединены в соответствии с настоящим изобретением. В формуле изобретения термин «содержащий/включающий» не исключает присутствия других элементов или этапов.

Кроме того, хотя множество средств, элементов, схем или этапов способа перечислены по отдельности, они могут быть реализованы, например, с помощью одной схемы, блока или процессора. Далее, хотя отдельные признаки могут быть включены в разные пункты формулы изобретения, они, возможно, могут быть эффективно объединены, а включение в разные пункты формулы изобретения не означает, что комбинация признаков является неосуществимой и/или невыгодной. Кроме того, включение признака в одну категорию пунктов формулы изобретения не означает ограничения этой категорией, а, скорее, указывает на то, что данный признак в равной степени может быть применен к другим категориям пунктов изобретения, когда это уместно. Кроме того, порядок признаков в формуле изобретения не означает конкретного порядка, в котором эти признаки должны прорабатываться, и, в частности, порядок отдельных этапов в формуле изобретения на способ, не означает, что этапы должны выполняться в данном порядке. Наоборот, этапы могут выполняться в любом подходящем порядке. Кроме того, упоминания в единственном числе не исключают множества. Поэтому ссылки с использованием средств указания единственного числа, числительных в единственном числе «первый», «второй» и т.д. не исключают множества. Ссылочные позиции в формуле изобретения приведены исключительно в качестве уточняющего примера и не должны трактоваться как ограничивающие объем формулы изобретения каким-либо образом.

Claims

1. Аудиоустройство, содержащее:

приемник (201) для приема сигнала, содержащего данные для аудиосцены, причем данные содержат данные входного аудиоисточника по меньшей мере для первого аудиоисточника и данные акустического объекта по меньшей мере для одного акустического объекта в аудиосцене, при этом данные акустического объекта содержат данные акустической связи и данные пространственного свойства для акустического объекта, причем данные акустической связи для акустического объекта указывают свойство преобразования энергии звука в вибрацию/механическую энергию и/или преобразования вибрации/механической энергии в энергию звука для акустического объекта;

генератор (205) для формирования данных аудиоисточника объекта для аудиоисточника объекта, представляющего звук, испускаемый в аудиосцене акустическим объектом за счет связи звука из первого аудиоисточника, причем указанная связь отражает преобразование энергии звука в вибрацию/механическую энергию и/или преобразование вибрации/механической энергии в энергию звука, причем генератор (205) выполнен с возможностью формирования данных аудиоисточника объекта в ответ на данные акустической связи, данные пространственного свойства и данные входного аудиоисточника; и

преобразователь (203) для воспроизведения для преобразования для воспроизведения аудиосцены, причем преобразование для воспроизведения включает в себя преобразование для воспроизведения данных аудиоисточника объекта.

2. Аудиоустройство по п.1, в котором генератор (205) выполнен с возможностью формирования данных аудиоисточника объекта для представления аудиоисточника объекта, имеющего пространственную протяженность, определенную в ответ на данные пространственного свойства.

3. Аудиоустройство по п.1 или 2, в котором генератор (205) выполнен с возможностью определения по меньшей мере одного из уровня и частотной характеристики звука для звука данных аудиоисточника объекта в ответ на данные акустической связи.

4. Аудиоустройство по любому предыдущему пункту, в котором данные акустической связи содержат первый набор коэффициентов связи для акустического объекта, причем набор коэффициентов связи указывает передаточную функцию связи для акустического объекта.

5. Аудиоустройство по п.4, в котором передаточная функция связи является передаточной функцией из вибрации акустического объекта в звук, испускаемый из акустического объекта.

6. Аудиоустройство по п.5, в котором генератор (205) выполнен с возможностью формирования данных аудиоисточника объекта, представляющих звук, испускаемый в аудиосцене акустическим объектом, на основе вибрации аудиообъекта и передаточной функции связи.

7. Аудиоустройство по п.6, в котором генератор (205) выполнен с возможностью определения вибрации в ответ на физическую модель акустического объекта.

8. Аудиоустройство по п.6 или 7, в котором генератор (205) выполнен с возможностью определения вибрации в ответ на изменяющуюся во времени силу, применяемую к акустическому объекту.

9. Аудиоустройство по п.4, в котором передаточная функция связи является передаточной функцией из звука, падающего на акустический объект, в вибрацию акустического объекта.

10. Аудиоустройство по п.1, в котором генератор (205) выполнен с возможностью формирования данных аудиоисточника объекта для представления аудиоисточника объекта, имеющего пространственное положение, соответствующее положению акустического объекта, которое указано данными пространственного свойства.

11. Аудиоустройство по любому предыдущему пункту, в котором генератор (205) выполнен с возможностью формирования данных аудиоисточника объекта в ответ на положение первого аудиоисточника и положение акустического объекта, указанные данными пространственного свойства.

12. Аудиоустройство по любому предыдущему пункту, в котором генератор (205) выполнен с возможностью формирования данных аудиоисточника объекта в ответ на положение прослушивания и положение акустического объекта, указанные данными пространственного свойства.

13. Аудиоустройство по любому предыдущему пункту, в котором сигнал содержит данные входного аудиоисточника для второго аудиоисточника, а генератор (205) выполнен с возможностью формирования данных аудиоисточника объекта для представления звука, испускаемого в аудиосцене акустическим объектом за счет объединенной связи звука из первого аудиоисточника и второго аудиоисточника.

14. Аудиоустройство, содержащее:

генератор (301) данных для формирования данных для аудиосцены, причем данные содержат данные входного аудиоисточника по меньшей мере для первого аудиоисточника и данные акустического объекта по меньшей мере для одного акустического объекта в аудиосцене, при этом данные акустического объекта содержат данные акустической связи и данные пространственного свойства для акустического объекта, причем данные акустической связи для акустического объекта указывают свойство преобразования энергии звука в вибрацию/механическую энергию и/или преобразования вибрации/механической энергии в энергию звука для акустического объекта;

генератор (303) сигнала для формирования сигнала данных, содержащего данные для аудиосцены; и

передатчик (305) для передачи сигнала данных.

15. Способ обработки звука, включающий:

прием сигнала, содержащего данные для аудиосцены, причем данные содержат данные входного аудиоисточника по меньшей мере для первого аудиоисточника и данные акустического объекта по меньшей мере для одного акустического объекта в аудиосцене, при этом данные акустического объекта содержат данные акустической связи и данные пространственного свойства для акустического объекта, причем данные акустической связи для акустического объекта указывают свойство преобразования энергии звука в вибрацию/механическую энергию и/или преобразования вибрации/механической энергии в энергию звука для акустического объекта;

формирование данных аудиоисточника объекта для аудиоисточника объекта, представляющего звук, испускаемый в аудиосцене акустическим объектом за счет связи звука из первого аудиоисточника, причем указанная связь определяет преобразование энергии звука в вибрацию/механическую энергию и/или преобразование вибрации/механической энергии в энергию звука, причем генератор выполнен с возможностью формирования данных аудиоисточника объекта в ответ на данные акустической связи, данные пространственного свойства и данные входного аудиоисточника; и

преобразование для воспроизведения аудиосцены, причем преобразование для воспроизведения включает в себя преобразование для воспроизведения данных аудиоисточника объекта.

16. Способ формирования сигнала аудиоданных, включающий:

формирование данных для аудиосцены, причем данные содержат данные входного аудиоисточника по меньшей мере для первого аудиоисточника и данные акустического объекта по меньшей мере для одного акустического объекта в аудиосцене, при этом данные акустического объекта содержат данные акустической связи и данные пространственного свойства для акустического объекта, причем данные акустической связи для акустического объекта указывают свойство преобразования энергии звука в вибрацию/механическую энергию и/или преобразования вибрации/механической энергии в энергию звука для акустического объекта;

формирование сигнала аудиоданных, содержащего данные для аудиосцены; и

передачу сигнала аудиоданных.