RU2797362C2

RU2797362C2 - Аудиоустройство и способ его работы

Info

Publication number: RU2797362C2
Application number: RU2021103030A
Authority: RU
Inventors: Натан СУВИРА-ЛАБАСТЬЕ; Йерун Герардус Хенрикус КОППЕНС
Original assignee: Конинклейке Филипс Н.В.
Priority date: 2018-07-09
Filing date: 2019-07-09
Publication date: 2023-06-05

Abstract

Изобретение относится к средствам для аудиообработки. Технический результат заключается в повышении эффективности комбинирования акустически распространеняемого звука из реального мира и преобразованного для воспроизведения виртуального звука. Выполняют прием аудиоданных для аудиосцены, причем аудиоданные содержат аудиоданные для первого аудиокомпонента, представляющего аудиоисточник реального мира в аудиосреде, окружающей пользователя. Определяют первое свойство аудиокомпонента реального мира, достигающего пользователя из аудиоисточника реального мира посредством распространения звука. Определяют целевое свойство для комбинированного аудиокомпонента, принятого пользователем, в ответ на аудиоданные для первого аудиокомпонента. Определяют свойство преобразования для воспроизведения для первого аудиокомпонента путем изменения свойства первого аудиокомпонента, указанного аудиоданными для первого аудиокомпонента, в ответ на целевое свойство и первое свойство. Выполняют преобразование для воспроизведения первого аудиокомпонента в ответ на свойство преобразования для воспроизведения. 2 н. и 13 з.п. ф-лы, 2 ил.

Description

ОБЛАСТЬ ТЕХНИКИ

Настоящее изобретение относится к устройству и способу преобразования для воспроизведения аудио для сцены и, в частности, но не исключительно, преобразования для воспроизведения аудио для аудиосцены приложения дополненной/виртуальной реальности.

УРОВЕНЬ ТЕХНИКИ

Благодаря непрерывному развитию и введению новых услуг и способов использования и потребления аудиовизуального контента в последние годы произошел значительный рост разнообразия и диапазона восприятия такого контента. В частности, разрабатываются множество пространственных и интерактивных услуг, приложений и подходов к восприятию, чтобы обеспечить пользователям восприятие с более сильным вовлечением и погружением.

Примерами таких приложений являются приложения виртуальной реальности (Virtual Reality, VR) и дополненной реальности (Augmented Reality, AR), которые быстро становятся господствующими тенденциями, при этом ряд решений ориентирован на потребительский рынок. Кроме того, многими органами по стандартизации разрабатывается ряд стандартов. В рамках такой деятельности по стандартизации активно разрабатываются стандарты для различных аспектов систем VR/AR, включая, например, потоковую передачу, широковещание, преобразование для воспроизведения и т.д.

Приложения VR, как правило, обеспечивают восприятия пользователем, соответствующие нахождению пользователя в другом мире/окружающей среде/сцене, тогда как приложения AR обычно обеспечивают восприятия пользователем, соответствующие нахождению пользователя в текущей окружающей среде, но с добавлением дополнительной информации либо виртуальных объектов или информации. Таким образом, приложения VR, как правило, обеспечивают всеохватывающие синтетически формируемые мир/сцену, тогда как приложения AR обычно обеспечивают частично синтетические мир/сцену, накладываемые на реальную сцену, в которой пользователь присутствует физически. Однако это термины частот используются взаимозаменяемо и имеют высокую степень перекрытия. Далее термин виртуальная реальность/VR будет использоваться для обозначения как виртуальной реальности, так и дополненной реальности.

В качестве примера, быстро набирающая популярность услуга заключается в предоставлении изображений и аудио таким образом, что пользователь в состоянии активно и динамически взаимодействовать с системой для изменения параметров преобразования для воспроизведения так, что изображения и аудио будут адаптироваться к перемещению и изменениям положения и ориентации пользователя. Весьма привлекательной особенностью многих приложений является возможность изменения действующего положения обзора и направления обзора зрителя, чтобы, например, зритель мог перемещаться и «осматриваться вокруг» в представляемой сцене.

Такая функция может, в частности, давать пользователю ощущение виртуальной реальности. Благодаря этому пользователь может (относительно) свободно передвигаться в виртуальной среде и динамически изменять свое положение и направление, в котором он смотрит. Как правило, такие приложения виртуальной реальности основаны на трехмерной модели сцены, причем модель динамически оценивается для обеспечения конкретного запрошенного вида. Данный подход хорошо известен, например, из игровых приложений для компьютеров и консолей, например, из категории шутеров от первого лица.

Также желательно, в частности, для приложений виртуальной реальности, чтобы представляемое изображение было трехмерным изображением. Действительно, для оптимизации погружения зрителя, как правило, предпочтительно, чтобы пользователь ощущал представленную сцену как трехмерную сцену. Ведь ощущение виртуальной реальности предпочтительно должно позволять пользователю выбирать свое собственное положение, точку обзора камеры и момент времени относительно виртуального мира.

Как правило, приложения виртуальной реальности по своей природе ограничены тем, что они основаны на заранее определенной модели сцены и обычно на искусственной модели виртуального мира. В некоторых приложениях ощущение виртуальной реальности может быть обеспечено на основе захвата реального мира. Во многих случаях такой подход, как правило, основан на построении виртуальной модели реального мира из захватываемых данных реального мира. В таком случае ощущение виртуальной реальности формируется путем оценки этой модели.

Многие современные подходы, как правило, неоптимальные и часто имеют тенденцию предъявлять высокие требования к вычислительным и коммуникационным ресурсам и/или обеспечивать неоптимальное восприятие пользователем, например из-за пониженного качества или ограниченной свободы.

В качестве примера применения на рынке появились очки виртуальной реальности, которые позволяют зрителям воспринимать отснятое 360-градусное (панорамное) или 180-градусное видео. Такие 360-градусные видео часто предварительно снимают с использованием многокамерной установки, в которой отдельные изображения сшиваются вместе в одно сферическое отображение. Обычные форматы стерео для 180- или 360-градусного видео -сверху/снизу и слева/справа. Так же, как и в непанорамном стереоскопическом видео, изображения для левого глаза и правого глаза сжимают как часть одного видеопотока стандарта H.264. После декодирования одного кадра зритель поворачивает свою голову, чтобы увидеть мир вокруг себя.

В добавление к визуальному воспроизведению большинство приложений VR/AR также обеспечивают соответствующие восприятие аудио. Во многих приложениях аудио предпочтительно обеспечивает пространственное восприятие звука, причем аудиоисточники воспринимаются как издающие звук из положений, которые соответствуют положениям соответствующих объектов в визуальной сцене. Таким образом, аудио- и видеосцены предпочтительно воспринимаются как согласованные, причем и те, и другие обеспечивают полное пространственное восприятие.

Что касается аудио, то до настоящего времени основной упор делали на воспроизведение через наушники с использованием технологии преобразования для воспроизведения бинаурального аудио. Во многих случаях воспроизведение через наушники делает возможным персонализированное восприятие пользователем с высокой степенью погружения. С помощью отслеживания головы можно добиться реагирования преобразования для воспроизведения на движения головы пользователя, что значительно повышает ощущение погружения.

В последнее время, как на рынке, так и в ходе обсуждения стандартов, стали предлагать примеры использования, которые включают «социальный» или «общий» аспект VR (и AR), т.е. возможность обмена восприятием с другими людьми. Это могут быть люди в разных местах, но также люди в одном и том же месте (или сочетание и того, и другого). Например, у нескольких человек в одном и том же помещении может быть одно и то же общее восприятие с присутствием проекции (аудио или видео) каждого участника в контенте/сцене VR.

Для обеспечения оптимального восприятия желательно тесное согласование восприятия аудио и видео, и, в частности, для приложений AR желательно также согласование со сценой реального мира. Однако зачастую этого трудно достичь, поскольку могут возникнуть ряд проблем, которые могут повлиять на восприятие пользователя. Например, на практике пользователь будет, как правило, использовать устройство в месте, где невозможно гарантировать полную тишину или темноту. Хотя гарнитуры могут пытаться блокировать свет и звук, обычно это достигается лишь не полностью. Кроме того, в приложениях AR в рамках восприятия пользователь часто может воспринимать локальную окружающую среду, поэтому непрактично блокировать эту окружающую среду полностью.

Поэтому был бы полезен усовершенствованный подход к формированию аудио, в частности, для восприятия/применения виртуальной/дополненной реальности. В частности, был бы полезен подход, позволяющий улучшить работу, повысить гибкость, уменьшить сложность, облегчить реализацию, улучшить восприятие аудио, улучшить согласование восприятия аудио и визуальной сцены, уменьшить чувствительность к ошибкам в отношении источников в локальной окружающей среде, улучшить восприятие виртуальной реальности и/или улучшить рабочие характеристики и/или работу.

РАСКРЫТИЕ СУЩНОСТИ ИЗОБРЕТЕНИЯ

Соответственно, настоящее изобретение направлено на предпочтительно ослабление, смягчение или устранение одного или более из вышеупомянутых недостатков по отдельности или в любой комбинации.

В соответствии с аспектом настоящего изобретения предложено аудиоустройство, содержащее: приемник для приема аудиоданных для аудиосцены, причем аудиоданные содержат аудиоданные для первого "аудиокомпонента" (audio component), представляющего аудиоисточник реального мира в аудиосреде, окружающей пользователя; определитель для определения первого свойства аудиокомпонента реального мира, достигающего пользователя из аудиоисточника реального мира посредством распространения звука; целевой процессор для определения целевого свойства для комбинированного аудиокомпонента, принятого пользователем, в ответ на аудиоданные для первого аудиокомпонента, причем комбинированный аудиокомпонент является комбинацией аудиокомпонента реального мира, принятого пользователем посредством распространения звука, и преобразованного для воспроизведения аудио первого аудиокомпонента, принятого пользователем; средство корректировки для определения свойства преобразования для воспроизведения для первого аудиокомпонента путем изменения свойства первого аудиокомпонента, указанного аудиоданными для первого аудиокомпонента, в ответ на целевое свойство и первое свойство и преобразователь для воспроизведения для преобразования для воспроизведения первого аудиокомпонента в ответ на свойство преобразования для воспроизведения.

Настоящее изобретение может обеспечить улучшенное восприятие пользователем во многих вариантах реализации и может, в частности, обеспечить улучшенное восприятие аудио в сценариях, в которых аудиоданные преобразуют для воспроизведения для аудиоисточника, который также присутствует локально. Аудиоисточник может быть человеком или объектов в реальном мире, от которого исходит звук. Как правило, можно достичь улучшенного и более естественного восприятия аудиосцены, и во многих сценариях помехи и несогласованность, возникающее из-за локальных источников реального мира, могут быть ослаблены или уменьшены. Этот подход может быть, в частности, полезен для приложений виртуальной реальности, VR, (включая дополненную реальность, AR). Он может, например, обеспечивать улучшенное восприятие пользователем, например, для социальных приложений VR/AR, в которых в одном и том же месте присутствуют множество участников.

Данный подход может во многих вариантах реализации обеспечить улучшенные рабочие характеристики при сохранении низких сложности и использовании ресурсов.

Первый аудиокомпонент и аудиокомпонент реального мира могут происходить из одного и того же локального аудиоисточника, причем первый аудиокомпонент является аудиокодированным представлением аудио из локального аудиоисточника. Первый аудиокомпонент может быть, как правило, связан с положением в аудиосцене. Аудиосцена может, в частности, представлять собой аудиосцену VR/AR и может представлять виртуальное аудио для виртуальной сцены.

Целевое свойство для комбинированного аудиокомпонента, принятого пользователем, может быть целевым свойством для комбинированного звука, который может быть комбинацией звука, достигающего пользователя, и звука происходящего из аудиоисточника реального мира (он может указывать на требуемое свойство для звука из аудиоисточника реального мира, достигает ли он пользователя непосредственно за счет распространения звука в окружающей аудиосреде, или посредством преобразованного для воспроизведения аудио (и, таким образом, посредством принимаемых аудиоданных)).

В соответствии с необязательным признаком настоящего изобретения целевое свойство является целевым воспринимаемым положением комбинированного аудиокомпонента.

Этот подход может обеспечить улучшенное пространственное представление аудиосцены с пониженным пространственным искажением, вызываемым помехами от локальных аудиоисточников, также присутствующих в аудиосцене принимаемых аудиоданных. Первое свойство может быть указанием положения для аудиоисточника реального мира. Целевое свойство может быть целевым воспринимаемым положением в аудиосцене и/или локальной окружающей аудиосреде. Свойством преобразования для воспроизведения может быть свойство положения преобразования для воспроизведения для преобразования для воспроизведения первого аудиокомпонента. Положения могут быть абсолютными положениями, например, относительно общей системы координат, или могут быть относительными положениями.

В соответствии с необязательным признаком настоящего изобретения целевое свойство является уровнем комбинированного аудиокомпонента.

Этот подход может обеспечить улучшенное представление аудиосцены с пониженным искажением уровня, вызываемым помехами от локальных аудиоисточников, также присутствующих в аудиосцене принимаемых аудиоданных. Первое свойство может быть уровнем аудиокомпонента реального мира, а свойство преобразования для воспроизведения может быть свойством уровня. Уровень может также упоминаться как уровень аудио, уровень сигнала, уровень амплитуды или уровень громкости.

В соответствии с необязательным признаком настоящего изобретения средство корректировки выполнено с возможностью определения свойства преобразования для воспроизведения как уровня преобразования для воспроизведения, соответствующего уровню первого аудиокомпонента, указанного аудиоданными, который уменьшен на величину, определенную как функция от уровня аудиокомпонента реального мира, принятого пользователем.

Это может обеспечить улучшенное восприятие аудио во многих вариантах реализации.

В соответствии с необязательным признаком настоящего изобретения целевое свойство является частотным распределением комбинированного аудиокомпонента.

Этот подход может обеспечить улучшенное представление аудиосцены с пониженным искажением частоты, вызываемым помехами от локальных аудиоисточников, также присутствующих в аудиосцене принимаемых аудиоданных. Например, если пользователь носит наушники, которые только частично ослабляют внешний звук, пользователь может слышать как преобразованную для воспроизведения версию динамика в том же помещении, так и версию, которая достигает пользователя непосредственно в помещении. Наушники могут иметь зависящее от частоты ослабление внешнего звука, и преобразованное для воспроизведения аудио может быть адаптировано так, что комбинированный воспринимаемый звук имеет требуемый частотный спектр и компенсирует зависящее от частоты ослабление внешнего сигнала.

Первое свойство может быть частотным распределением аудиокомпонента реального мира, а свойство преобразования для воспроизведения может быть свойством частотного распределения. Частотное распределение может также упоминаться как частотный спектр и может быть относительной мерой. Например, частотное распределение может быть представлено частотной характеристикой/передаточной функцией относительно частотного распределения аудиокомпонента.

В соответствии с необязательным признаком настоящего изобретения преобразователь для воспроизведения выполнен с возможностью применения фильтра к первому аудиокомпоненту, причем фильтр имеет частотную характеристику, дополняющую частотную характеристику траектории звука от аудиоисточника реального мира до пользователя.

Это может обеспечить улучшенные рабочие характеристики восприятия аудио во многих сценариях.

В соответствии с необязательным признаком настоящего изобретения определитель выполнен с возможностью определения первого свойства в ответ на акустическую передаточную характеристику для внешнего звука для наушников, используемых для преобразования для воспроизведения первого аудиокомпонента.

Это может обеспечить улучшенные рабочие характеристики восприятия аудио во многих сценариях. Акустическая передаточная характеристика может быть свойством акустической передаточной функции (или, в действительности, может быть акустической передаточной функцией). Акустическая передаточная функция/характеристика может содержать акустическую передаточную функцию/характеристику для проницаемости наушников или состоять из нее.

В соответствии с необязательным признаком настоящего изобретения акустическая передаточная характеристика содержит по меньшей мере одно из частотной характеристики и свойства проницаемости наушников.

В соответствии с необязательным признаком настоящего изобретения определитель выполнен с возможностью определения первого свойства в ответ на сигнал микрофона, захватывающий окружающую аудиосреду пользователя.

Это может обеспечить улучшенные рабочие характеристики восприятия аудио во многих сценариях. Во многих вариантах реализации это может, в частности, сделать возможными низкую сложность и/или точное определение свойства аудиокомпонента реального мира. Во многих вариантах реализации сигнал микрофона может принадлежать микрофону, расположенному внутри наушников, используемых для преобразования для воспроизведения первого аудиокомпонента.

В соответствии с необязательным признаком настоящего изобретения средство корректировки выполнено с возможностью определения свойства преобразования для воспроизведения в ответ на психоакустическое пороговое значение для обнаружения звуковых отличий.

Во многих вариантах реализации это может уменьшить сложность без неприемлемого ущерба для рабочих характеристик.

В соответствии с необязательным признаком настоящего изобретения определитель выполнен с возможностью определения первого свойства в ответ на обнаружение объекта, соответствующего аудиоисточнику на изображении окружающей аудиосреды.

Это может быть особенно выгодно во многих практических применениях, например во множестве приложений VR/AR.

В соответствии с необязательным признаком настоящего изобретения приемник выполнен с возможностью идентификации первого аудиокомпонента как соответствующего аудиоисточнику реального мира в ответ на корреляцию между первым аудиокомпонентом и сигналом микрофона, захватывающим окружающую аудиосреду пользователя.

Это может быть особенно выгодно во многих практических применениях.

В соответствии с необязательным признаком настоящего изобретения приемник выполнен с возможностью идентификации первого аудиокомпонента как соответствующего аудиоисточнику реального мира в ответ на метаданные данных аудиосцены.

В соответствии с необязательным признаком настоящего изобретения аудиоданные представляют аудиосцену дополненной реальности, соответствующую окружающей аудиосреде.

В соответствии с аспектом настоящего изобретения предложен способ обработки аудиоданных, включающий: прием аудиоданных для аудиосцены, причем аудиоданные содержат аудиоданные для первого аудиокомпонента, представляющего аудиоисточник реального мира в аудиосреде, окружающей пользователя; определение первого свойства аудиокомпонента реального мира, достигающего пользователя из аудиоисточника реального мира посредством распространения звука; определение целевого свойства для комбинированного аудиокомпонента, принятого пользователем, в ответ на аудиоданные для первого аудиокомпонента, причем комбинированный аудиокомпонент является комбинацией аудиокомпонента реального мира, принятого пользователем посредством распространения звука, и преобразованного для воспроизведения аудио первого аудиокомпонента, принятого пользователем; определение свойства преобразования для воспроизведения для первого аудиокомпонента путем изменения свойства первого аудиокомпонента, указанного аудиоданными для первого аудиокомпонента, в ответ на целевое свойство и первое свойство и преобразование для воспроизведения первого аудиокомпонента в ответ на свойство преобразования для воспроизведения.

Эти и другие аспекты, признаки и/или преимущества настоящего изобретения станут очевидны из вариантов реализации, описанных далее в этом документе, и будут пояснены со ссылкой на варианты реализации.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Варианты реализации изобретения будут описаны только на примерах со ссылкой на чертежи, на которых:

на ФИГ. 1 показан пример схемы расположения клиент-сервер для обеспечения восприятия виртуальной реальности; и

на ФИГ. 2 показан пример элементов аудиоустройства в соответствии с некоторыми вариантами реализации настоящего изобретения.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

Виртуальные (включая дополненные) восприятия, позволяющие пользователю перемещаться в виртуальном или дополненном мире, становятся все более популярными, и для удовлетворения такого спроса разрабатывают услуги. Во многих таких подходах визуальные данные и аудиоданные могут быть сформированы динамически для отражения текущего положения пользователя (или зрителя).

В данной области техники термины «расположение» и «поза» используются как общий термин для положения и/или направления/ориентации. Комбинация положения и направления/ориентации, например, объекта, камеры, головы или вида, может называться позой или расположением. Таким образом, указание расположения или позы может включать шесть значений/компонентов, или составляющих/степеней свободы, причем каждые значение/компонент/степень свободы описывают отдельное свойство положения/местоположения или ориентации/направления соответствующего объекта. Конечно, во многих ситуациях расположение или поза могут быть представлены с использованием меньшего числа компонентов, например, если один или более компонентов считают фиксированными или не относящимися к делу (например, если все объекты считают расположенными на одной и той же высоте и имеющими горизонтальную ориентацию, то полное представление позы объекта могут обеспечить четыре компонента). Далее термин «поза» используется для ссылки на положение и/или ориентацию, которые могут быть представлены от одного до шести значениями (соответствующими максимально возможным степеням свободы).

Многие приложения виртуальной реальности основаны на позе, имеющей максимум степеней свободы, т.е. по три степени свободы каждого из положений и ориентации, дающих в результате в общей сложности шесть степеней свободы. Таким образом, поза может быть представлена набором или вектором из шести значений, представляющих шесть степеней свободы и, следовательно, вектор позы может обеспечивать указание трехмерного положения и/или трехмерного направления. Однако понятно, что в других вариантах реализации поза может быть представлена меньшим количеством значений.

Систему или объект, основанные на обеспечении максимума степеней свободы для зрителя, обычно называют имеющими 6 степеней свободы. Многие системы и объекты обеспечивают только ориентацию или положение, и их обычно называют имеющими 3 степени свободы.

Как правило, приложение виртуальной реальности формирует трехмерные выходные данные в виде отдельных изображений вида для левого и правого глаз. Затем они могу быть представлены пользователю с помощью подходящих средств, обычно таких, как отдельные дисплеи для левого и правого глаз гарнитуры виртуальной реальности. В других вариантах реализации одно или более изображений вида могут быть, например, представлены на автостереоскопическом дисплее или, в действительности, в некоторых вариантах реализации может быть сформировано только одно двумерное изображение (например, с использованием обычного двумерного дисплея).

Аналогичным образом для данной позы зрителя/пользователя/слушателя может быть обеспечено аудиопредставление сцены. Аудиосцену обычно преобразуют для воспроизведения для обеспечения пространственного восприятия, в котором аудиоисточники воспринимаются как происходящие из требуемых положений. Аудиоисточники могут быть статичными в сцене, а изменения позы пользователя приведут к изменению относительного положения аудиоисточника относительно позы пользователя. Соответственно, пространственное восприятие аудиоисточника следует изменять для отражения нового положения относительно пользователя. Преобразование для воспроизведения аудио может быть, соответственно, адаптировано в зависимости от позы пользователя.

Во многих вариантах реализации преобразование для воспроизведения аудио является бинауральным преобразованием для воспроизведения с использованием передаточных функций головы (Head Related Transfer Function, HRTF) или бинауральных импульсных переходных характеристик помещения (Binaural Room Impulse Responses, BRIR) (или подобного) для обеспечения требуемого пространственного эффекта для пользователя, носящего наушники. Однако понятно, что в некоторых системах вместо этого аудио может быть преобразовано для воспроизведения с использованием системы громкоговорителей, а сигналы для каждого громкоговорителя могут быть преобразованы для воспроизведения так, что общий эффект возле пользователя соответствует требуемому пространственному восприятию.

Входные данные позы зрителя или пользователя могут быть определены разными путями в разных приложениях. Во многих вариантах реализации физическое движение пользователя может быть отслежено непосредственно. Например, камера, производящая съемку области пользователя, может обнаруживать и отслеживать голову (или даже глаза) пользователя. Во многих вариантах реализации пользователь может носить гарнитуру виртуальной реальности, которая может быть отслежена внешними и/или внутренними средствами. Например, гарнитура может содержать акселерометры и гироскопы, обеспечивающие информацию о перемещении и повороте гарнитуры и, следовательно, головы. В некоторых примерах гарнитура виртуальной реальности может передавать сигналы или содержать (например, визуальные) идентификаторы, которые позволяют внешнему датчику определять положение гарнитуры виртуальной реальности.

В некоторых системах поза зрителя может быть предоставлена с помощью ручных средств, например, пользователем, вручную управляющим джойстиком или аналогичным средством ввода вручную. Например, пользователь может вручную перемещать виртуального зрителя вокруг виртуальной сцены, управляя первым аналоговым джойстиком одной рукой, и управлять вручную направлением, в котором смотрит виртуальный зритель, двигая вручную второй аналоговый джойстик другой рукой.

В некоторых приложениях для формирования входной позы зрителя может быть использовано сочетание ручного и автоматизированного подходов. Например, гарнитура может отслеживать ориентацию головы, а перемещением/положением зрителя в сцене может управлять пользователь с помощью джойстика.

В некоторых системах приложение виртуальной реальности может быть предоставлено зрителю локально, например, с помощью автономного устройства, которое не использует какие-либо удаленные данные или обработку виртуальной реальности, или даже не имеет никакого доступа к ним. Например, устройство, такое как игровая консоль, может содержать хранилище для хранения данных сцены, вход для приема/формирования позы зрителя и процессор для формирования соответствующих изображений из данных сцены.

В других системах приложение виртуальной реальности может быть реализовано и выполнено удаленно от зрителя. Например, устройство, локальное для пользователя, может обнаруживать/принимать данные движения/позы, передаваемые удаленному устройству, которое обрабатывает данные для формирования позы зрителя. После этого удаленное устройство может формировать подходящие изображения вида для позы зрителя на основе данных сцены, описывающих сцену. Затем изображения вида передают на устройство, локальное для зрителя, где их представляют. Например, удаленное устройство может непосредственно формировать видеопоток (обычно поток стерео/3D-видео), который непосредственно представляют с помощью локального устройства. Аналогичным образом удаленное устройство может формировать аудиосцену, отражающую виртуальную окружающую аудиосреду. Во многих вариантах реализации это может быть сделано путем формирования аудиосигналов, которые соответствуют относительному положению разных аудиоисточников в виртуальной окружающей аудиосреде, например, путем применения бинауральной обработки к отдельным аудиокомпонентам, соответствующим их текущему положению относительно позы головы. Поэтому в таком примере локальное устройство может не выполнять никакой обработки виртуальной реальности за исключением передачи данных движения и представления принятых видео- и аудиоданных.

Во многих системах функциональные возможности могут быть распределены между локальным устройством и удаленным устройством. Например, локальное устройство может обрабатывать принимаемые входные данные и данные датчиков для формирования поз зрителя, которые непрерывно передаются на удаленное устройство виртуальной реальности. После этого удаленное устройство виртуальной реальности может формировать соответствующие изображения вида и передавать их на локальное устройство для представления. В других системах удаленное устройство виртуальной реальности может не формировать непосредственно изображения вида, а может выбирать соответствующие данные сцены и передавать их на локальное устройство, которое может затем формировать изображения вида, которые представляют. Например, удаленное устройство виртуальной реальности может идентифицировать ближайшую точку захвата, выделить соответствующие данные сцены (например, сферическое изображение и данные глубины из точки захвата) и передать их на локальное устройство. После этого локальное устройство может обработать принятые данные сцены для формирования изображений для конкретной текущей позы обзора.

Аналогичным образом удаленное устройство VR может формировать аудиоданные, представляющие аудиосцену, передавая аудиокомпоненты/аудиообъекты, соответствующие разным аудиоисточниками в аудиосцене, вместе информацией о положении, указывающей положение этих источников (которая может быть, например, динамически изменена для движущихся объектов). После этого локальное устройство VR может преобразовать для воспроизведения сигналы соответствующим образом, например, путем применения надлежащей бинауральной обработки, отражающей относительное положение аудиоисточников для аудиокомпонентов.

На ФИГ. 1 показан такой пример системы виртуальной реальности, в которой удаленный сервер 101 виртуальной реальности поддерживает связь с клиентским устройством 103 виртуальной реальности, например, через сеть 105, такую как Интернет. Удаленный сервер 101 виртуальной реальности может быть выполнен с возможностью одновременной поддержки потенциально большого количества клиентских устройств 103 виртуальной реальности.

Такой подход может обеспечивать улучшенный компромисс, например, между сложностью и потребностью в ресурсах для разных устройств, требованиями к связи и т.д., во многих сценариях. Например, поза зрителя и соответствующие данные сцены могут передаваться с более длинными интервалами, при этом локальное устройство обрабатывает позу зрителя и принятые данные сцены локально для обеспечения восприятия в реальном времени с малой задержкой. Это может, например, существенно уменьшить требуемую полосу пропускания связи с обеспечением при этом восприятия с малой задержкой при возможности централизованного хранения, формирования и поддержания данных сцены. Это может, например, подойти для приложений, в которых восприятие виртуальной реальности обеспечивают на множестве удаленных устройств.

На ФИГ. 2 показано аудиоустройство для преобразования для воспроизведения аудио на основе принимаемых аудиоданных для аудиосцены. Устройство может быть выполнено с возможностью формирования аудио, обеспечивающего представление аудиосцены, и, в частности, может быть использовано в приложении VR для обеспечения представления аудио окружающей среды VR/AR. Устройство может быть дополнено устройством, формирующим визуальное представление сцены, как известно специалисту в данной области. Устройство может, соответственно, являться частью системы, обеспечивающей восприятие VR/AR с погружением и скоординированным предоставлением пространственного аудио и видео. Устройство, изображенное на ФИГ. 2, может быть частью клиентского устройства 103 виртуальной реальности, показанного на ФИГ. 1.

Устройство на ФИГ. 2 выполнено с возможностью приема и обработки аудиоданных для аудиосцены, которая в конкретном примере соответствует сцене для восприятия VR(AR). Например, движения/поза головы пользователя могут отслеживаться и подаваться на локальный или удаленный сервер виртуальной реальности, который затем формирует 3D-видеоизображения и пространственное аудио, соответствующие позе пользователя. Соответствующие пространственные аудиоданные могут быть обработаны устройством, изображенным на ФИГ. 2.

Аудиоданные могут содержать данные для множества аудиокомпонентов или аудиообъектов. Аудио может быть, например, представлено в виде кодированного аудио для данного аудиокомпонента, который нужно преобразовать для воспроизведения. Аудиоданные могут также содержать позиционные данные, которые указывают на положение источника аудиокомпонента. Позиционные данные могут, например, содержать данные об абсолютном положении, определяющие положение аудиоисточника в сцене. В таком варианте реализации локальное устройство может определять относительное положение аудиоисточника относительно текущей позы пользователя. Таким образом, принимаемые данные о положении могут быть независимыми от движений пользователя, а для отражения положения аудиоисточника относительно пользователя может быть локально определено относительное положение для аудиоисточников. Поэтому такое относительное положение может указывать на относительное положение, из которого пользователь должен воспринимать источник звука, и, соответственно, будет меняться в зависимости от движений головы пользователя. В других вариантах реализации аудиоданные могут содержать данные о положении, которые непосредственно описывают относительное положение.

Проблемой для многих таких практических систем и приложений является то, что аудио в общей окружающей среде может влиять на восприятие пользователем. На практике обычно трудно полностью подавить аудио в локальной окружающей среде, и действительно, даже если носить наушники, локальная окружающая среда вносит ощутимый вклад в воспринимаемое аудио. В некоторых случаях такие звуки могут быть подавлены с использованием активного шумоподавления. Однако это непрактично для аудиоисточников, которые имеют прямой аналог в сцене VR.

Действительно, проблема помех между звуками реальной окружающей среды и звуками аудиосцены остается открытой особенно для приложений, обеспечивающих восприятие VR, которое также отражает локальную окружающую среду, как, например, во многих случаях восприятия AR.

Например, осуществляются приложения, которые включают в себя «социальный» или «общий» аспект VR, при котором, например, множество людей в одной и той же локальной окружающей среде (например, помещении) имеют общее восприятие. Такие «социальные» или «общие» примеры использования предлагаются, например, в MPEG, и в настоящее время являются одним из основных классов восприятия для текущей деятельности по стандартизации MPEG-I. Примером такого применения является случай, когда несколько человек находятся в одном помещении и имеют одно и то же общее восприятие с присутствием проекции (аудио или видео) каждого участника в контенте VR.

При таком применении окружающая среда VR может содержать аудиоисточник, соответствующий каждому участнику, но в дополнение к этому пользователь может, например, из-за обычной проницаемости наушников, также слышать других участников непосредственно. Эта помеха может отрицательно сказаться на восприятии пользователем и может ослабить погружение участника. Однако выполнение шумоподавления на реальном звуковом компоненте является очень трудным и очень дорогостоящим с вычислительной точки зрения. Например, большинство типичных методов шумоподавления основаны на микрофоне внутри наушников и использовании контура обратной связи для сведения к минимуму (предпочтительно, полному ослаблению) любой компоненты сигнала реального мира в сигнале микрофона (таким образом, сигнал микрофона может рассматриваться как сигнал ошибки, приводящий в действие контур). Однако такой подход не реализуем, когда требуется присутствие аудиоисточника в воспринимаемом аудио.

Во многих вариантах реализации и сценариях устройство, приведенное на ФИГ. 2, обеспечивает улучшенное восприятие пользователем в присутствии локального аудио, которое также присутствует в сцене VR.

Приемник 201 устройства на ФИГ. 2 принимает аудиоданные для аудиосцены, как упоминалось ранее. В этом примере аудиоданные, в частности, содержат первый аудиокомпонент или объект, представляющий аудиоисточник реального мира, присутствующий в аудиосреде, окружающей пользователя. Первый аудиокомпонент может, соответственно, обеспечивать данные аудиосигнала и данные положения для локального аудиоисточника реального мира, такого как, например, локальный динамик/участник, который тоже присутствует локально (например, в том же помещении).

Устройство может быть, в частности, выполнено с возможностью преобразования для воспроизведения данных аудиосцены для обеспечения пользователя восприятием аудиосцены. Однако, вместо того, чтобы просто преобразовать для воспроизведения аудиосцену напрямую, устройство выполнено с возможностью (предварительной) обработки аудиоданных/аудиокомпонентов перед преобразованием для воспроизведения, чтобы компенсировать в результате прямой звук, который может быть принят для аудиоисточников, присутствующих как в аудиосцене, представленной аудиоданными, так в локальной окружающей среде реального мира. Как описано ранее, в сценариях VR (включая AR) внешние реальные звуки могут создавать помехи преобразованным для воспроизведения виртуальным звукам и когерентности виртуального содержимого, и подход приведенного на ФИГ. 2 устройства к предварительной обработке/компенсации звуков реального мира может смягчить это и обеспечить существенно улучшенное восприятие аудио.

Далее термин «виртуальный» будет использован для ссылки на аудиокомпоненты и аудиоисточники аудиосцены, представленные принимаемыми аудиоданными, тогда как аудиоисточники и аудиокомпоненты внешней окружающей среды будут обозначаться термином «реальный мир». Звук реального мира принимается и слышится пользователем по мере его распространения от соответствующего аудиоисточника реального мира к пользователю (ушам пользователя) за счет (физического) распространения звука в реальном мире и, таким образом, представляет собой вибрации в воздухе и/или среде (материале).

Устройство на ФИГ. 2 не основано на динамическом управлении звука реального мира или его изменении путем, например шумоподавления. Вместо этого подход основан на стремлении модифицировать преобразованный для воспроизведения виртуальный звук на основе звука реального мира так, чтобы компенсировать в преобразованном для воспроизведения виртуальном звуке воздействие, которое может оказывать звук реального мира на общее восприятие пользователем. Используемый подход обычно основан на компенсации преобразования для воспроизведения виртуальных аудиоисточников так, что объединенный эффект преобразования для воспроизведения виртуальных аудиоисточников и звуков реального мира приводит к воспринимаемому эффекту возле пользователя, соответствующему виртуальному аудиоисточнику, описанному принятыми аудиоданными.

Данный подход, в частности, определяет целевое свойство, которое отражает требуемое восприятие пользователем. Целевое свойство определяют из принимаемых аудиоданных, и оно, как правило, может быть свойством для аудиокомпонента, которое определяется аудиоданными, таким как, например, требуемые уровень или положение аудиоисточника. Целевое свойство может, в частности, соответствовать свойству компоненты сигнала, которое определяется принимаемыми аудиоданными. В традиционных подходах аудиокомпонент будет преобразован для воспроизведения с этим свойством, например, он будет преобразован для воспроизведения как происходящий из положения или уровня, определенных аудиоданными для аудиокомпонента. Однако, в устройстве на ФИГ. 2 вместо этого данное значение может быть использовано в качестве целевого свойства для комбинированного аудиокомпонента, соответствующего комбинации виртуального аудиокомпонента и аудиокомпонента реального мира для того же источника, т. е. целевое свойство является не целевым свойством для преобразования для воспроизведения виртуального аудиокомпонента, а является целевым свойством для комбинации виртуального аудиокомпонента и аудиокомпонента реального мира возле уха пользователя. Таким образом, оно является целевым свойством для комбинации звука, который создают возле уха пользователя путем преобразования для воспроизведения надлежащих принимаемых аудиоданных и звука реального мира, который достигает пользователя посредством распространения звука реального мира. Таким образом, эта комбинация отражает комбинацию виртуального аудио, преобразованного для воспроизведения пользователю, и звука реального мира, который пользователь слышит непосредственно.

Соответственно, определив целевое свойство, устройство также определяет/оценивает свойство аудиокомпонента реального мира, такое как свойство или уровень аудиокомпонента реального мира. Затем устройство может перейти к определению измененного или скорректированного свойства для преобразования для воспроизведения виртуального аудиокомпонента на основе оцененного свойства аудиокомпонента реального мира и целевого аудиокомпонента. Измененное свойство может быть, в частности, определено так, что комбинированный аудиокомпонент имеет свойство, близкое к целевому свойству, и в идеале так, что оно будет совпадать с целевым свойством. Таким образом, измененное свойство виртуального аудиокомпонента формируют для компенсации присутствия аудиокомпонента реального мира для получения в результате комбинированного эффекта, который близок к эффекту, определяемому аудиоданными. В качестве примера низкой сложности уровень виртуального аудиокомпонента может быть уменьшен для компенсации уровня аудиокомпонента реального мира так, что уровень комбинированного аудио совпадает (или по меньшей мере близок) с уровнем, определяемым аудиоданными.

Соответственно, подход может быть основан не на прямом управлении звуком реального мира, а на компенсации его эффекта/вклада (например, из-за проникновения внешнего звука) на, возможно, психоакустическом уровне, так что воспринимаемая помеха от звука реального мира уменьшается. Это может обеспечить более согласованное и когерентное восприятие звукового пространства во многих вариантах реализации. Например, если аудиообъект должен быть преобразован для восприятия под углом Y° в виртуальной окружающей среде, а эквивалентный аудиоисточник реального мира издает звук из направления X°, то свойство положения для виртуального аудиокомпонента может быть изменено так, что его преобразуют для восприятия в положении Z° так, что Z° > Y° > X°, тем самым противодействуя эффекту неправильного положения, вызываемому аудио реального мира. В случае компенсации интенсивности, если виртуальный аудиокомпонент в соответствии с принимаемыми аудиоданными должен быть преобразован для воспроизведения с интенсивностью |Y| в виртуальной окружающей среде, а эквивалентный аудиоисточник реального мира испускает аудиокомпонент реального мира при интенсивности |X|, то виртуальный аудиокомпонент будет изменен, чтобы быть преобразованным для воспроизведения при пониженной интенсивности |Z|, где |Z | < |Y|, и в идеале так, что |Y| = |X| + |Z|.

Особое преимущество подхода, показанного на ФИГ. 2, заключается в том, что во многих практических сценариях и вариантах реализации он позволяет существенно улучшать рабочие характеристики при низкой сложности и пониженным требованиями к вычислительным ресурсам. Действительно, во многих вариантах реализации предварительная обработка перед преобразованием для воспроизведения может просто соответствовать изменению параметра, такому как изменение усиления/уровня. Во многих вариантах реализации выполнение подробной обработки сигнала может оказаться необязательным, а процесс, скорее, просто корректирует обычное свойство, такое как уровень или положение.

Устройство, в частности, содержит средство 203 оценки, которое выполнено с возможностью оценки первого свойства аудиокомпонента реального мира для аудиоисточника реального мира.

Средство оценки может оценивать первое свойство как свойство аудиокомпонента реального мира, достигающего пользователя (и, в частности, уха пользователя) из аудиоисточника реального мира посредством распространения звука.

Таким образом, аудиокомпонент реального мира, достигающий пользователя (и, в частности, уха пользователя) из аудиоисточника реального мира посредством распространения звука, может, в частности, отражать аудио из аудиоисточника реального мира, принимаемое посредством акустического канала распространения звука, который, например, может быть представлен акустической передаточной функцией.

Распространение звука (в частности, распространение звука реального мира) представляет собой распространение звука посредством вибраций в воздухе и/или других средах. Оно может включать множество путей и отражений. Звук может рассматриваться как вибрации, которые проходят через воздух и/или другую среду (среды), и которые могут быть услышаны, когда они достигают уха человека или животного. Распространение звука может рассматриваться как распространение аудио посредством вибраций, которые проходят через воздух и/или другую среду.

Аудиокомпонент реального мира может рассматриваться как представляющий аудио из аудиоисточника реального мира, которое было бы услышано пользователем, если бы аудио не преобразовали для воспроизведения. Аудиокомпонент реального мира может быть аудиокомпонентом, который достигает пользователя только посредством распространения звука. В частности, аудиокомпонент реального мира может быть аудиокомпонентом, достигающим пользователя из аудиоисточника реального мира посредством передачи/распространения по каналу распространения звука, содержащему только физические вибрации и никакого электрического или другого преобразования, захвата, записи или любого иного изменения области сигнала. Он может представлять полностью акустический аудиокомпонент.

Аудиокомпонент реального мира может быть аудиокомпонентом в режиме реального времени, и он может быть, в частности, принят в режиме реального времени так, что разность во времени между аудиоисточником реального мира и пользователем (или, в частности, ухом пользователя) задана акустической задержкой (или по существу равна ей), причем задержка возникает из-за скорости вибраций, проходящих через воздух/среды из аудиоисточника реального мира до пользователя. Аудиокомпонент реального мира может быть аудиокомпонентом, соответствующим тому, что слышно из аудиоисточника реального мира, если первый аудиокомпонент не преобразуют для воспроизведения.

Первое свойство может быть, например, уровнем, положением или частотным спектром/распределением аудиокомпонента реального мира. Свойство аудиокомпонента реального мира может быть, в частности, свойством аудиокомпонента при достижении им пользователя, и, в частности, уха пользователя, или может быть, например, свойством аудиокомпонента возле аудиоисточника.

Во многих вариантах реализации свойство может быть определено из сигнала микрофона, захваченного микрофоном, расположенным в окружающей среде, так что, например, уровень аудиокомпонента может быть захвачен микрофоном, расположенным в наушниках. В других вариантах реализации свойство может быть определено другими способами, такими как, например, свойство положения, соответствующее положению аудиоисточника реального мира.

Приемник 201 и средство 203 оценки соединены с целевым процессором 205, который выполнен с возможностью определения целевого свойства для комбинированного аудиокомпонента для аудиоисточника, который принимается пользователем. Таким образом, комбинированный аудиокомпонент является комбинацией аудиокомпонента реального мира и преобразованного для воспроизведения аудио виртуального аудиокомпонента для того же самого аудиоисточника при приеме пользователем. Целевое свойством может, соответственно, отражать требуемое свойство комбинированного сигнала, который воспринимается пользователем.

Целевое свойство определяют из принимаемых аудиоданных, и оно может быть, в частности, определено как свойство виртуального аудиокомпонента, которое определяется аудиоданными. Например, это может быть уровень или положение виртуального аудиокомпонента, которые определяются аудиоданными. Это свойство для преобразования для воспроизведения виртуального аудиокомпонента определяет/описывает виртуальный аудиокомпонент в аудиосцене и, следовательно, отражает преднамеренное воспринимаемое свойство виртуального аудиокомпонента в аудиосцене при преобразовании его для воспроизведения.

Целевой процессор 205 соединен со средством 207 корректировки, которое также соединено с приемником 201. Средство 207 корректировки выполнено с возможностью определения свойства преобразования для воспроизведения для виртуального аудиокомпонента путем изменения свойства виртуального аудиокомпонента со значения, указанного аудиоданными, на измененное значение, которое затем используют для преобразования для воспроизведения. Измененное значение определяют на основе целевого свойства и оцененного свойства аудиокомпонента реального мира. Например, положение для виртуального аудиокомпонента может быть установлено на основе требуемого положения, которое указано аудиоданными, и на основе положения аудиоисточника реального мира относительно позы пользователя (и, например, также на основе оцененного уровня аудиокомпонента реального мира).

Средство 207 корректировки соединено с преобразователем 209 для воспроизведения, в который подают аудиоданные и измененное свойство, и который выполнен с возможностью преобразования для воспроизведения аудио из аудиоданных на основе измененного свойства. В частности, он преобразует для воспроизведения виртуальный аудиокомпонент с измененным свойством, а не с первоначальным свойством, определяемым принимаемыми аудиоданными.

Преобразователь 209 для воспроизведения будет, как правило, выполнен с возможностью обеспечения пространственного преобразования для воспроизведения и в некоторых вариантах реализации может, например, преобразовывать для воспроизведения аудиокомпоненты аудиосцены, использующей пространственную акустическую установку, такую как акустическая система окружающего звучания, или, например, использующая гибридную аудиосистему (комбинацию акустической системы и наушников).

Однако во многих вариантах реализации преобразователь 209 для воспроизведения будет выполнен с возможностью формирования пространственного преобразования для воспроизведения через наушники. Преобразователь 209 для воспроизведения может быть, в частности, выполнен с возможностью применения бинауральной фильтрации на основе HRTF или BRIR для обеспечения преобразования аудио для пространственного преобразования для воспроизведения аудио через наушники, как известно специалисту в данной области.

Во многих вариантах реализации использование наушников может обеспечить особенно эффективное восприятие VR, с более сильным погружением и персонализацией, в частности, в ситуациях, когда множество участников присутствуют в одном и том же помещении/локальной окружающей среде. Наушники, как правило, тоже могут обеспечивать ослабление внешнего звука, тем самым способствуя предоставлению звукового пространства, согласующегося с аудиосценой, определяемой принимаемыми аудиоданными, причем при пониженных помехах от локальной окружающей среды. Однако такое ослабление обычно не полное, и звук может в значительной степени проникать через наушники. Действительно, в некоторых вариантах реализации некоторое слуховое восприятие пользователем окружающей среды может быть даже желательным. Однако, для локальных аудиоисточников реального мира, которые также присутствуют в виртуальной аудиосцене, этом может, как упоминалось, вызвать аудиопомехи между виртуальными источником и источником реального мира, приводящие к восприятию аудио, которое менее согласовано, например, с визуальной отрисовкой виртуальной сцены. Устройство на ФИГ. 2 может выполнять предварительную обработку, которая может уменьшить влияние присутствия аудиоисточников реального мира на восприятие.

Данный подход может быть особенно интересен в случае реального звука, окружающего пользователя, носящего наушники, в то время как эти звуки (или объект, который они представляют) также является частью среды VR/AR, т.е. когда энергия окружающих звуков может быть использована повторно для преобразования для воспроизведения бинаурального контента, воспроизводимого через наушники, и/или когда окружающие звуки не нужно полностью подавлять. С одной стороны, наушники уменьшают интенсивность и направленность звука (проницаемость наушников), с другой стороны, невозможно полностью подавить и заменить эти окружающие звуки (почти невозможна абсолютная фазовая синхронизация нестационарных звуков в режиме реального времени). Устройство может компенсировать звук реального мира, тем самым улучшая восприятие пользователем. Например, система может быть использована для компенсации акустической проницаемости или ослабления наушников, частоты и направления падения.

Во многих вариантах реализации свойство может быть уровнем аудиокомпонентов. Таким образом, целевое свойство может быть абсолютным или относительным уровнем комбинированного аудиокомпонента, оцененное свойство для аудиокомпонента реального мира может быть абсолютным или относительным уровнем, и свойство преобразования для воспроизведения может быть абсолютным или относительным уровнем.

Например, принимаемые аудиоданные могут представлять виртуальный аудиокомпонент с уровнем относительно других аудиокомпонентов в аудиосцене. Таким образом, принимаемые аудиоданные могут описывать уровень виртуального аудиокомпонента относительно аудиосцены в целом, а средство 207 корректировки может непосредственно устанавливать целевое свойство так, чтобы оно соответствовало этому уровню. Кроме того, положение микрофона в гарнитуре может измерять уровень аудио аудиокомпонента реального мира из того же аудиоисточника. В некоторых вариантах реализации уровень для аудиокомпонента реального мира из того же аудиоисточника может быть, например, определен путем коррелирования сигнала микрофона с аудиосигналом виртуального аудиокомпонента, а на основе этого может быть установлена величина корреляции (например, с использованием подходящей монотонной функции).

После этого средство 207 корректировки может перейти к определению свойства преобразования для воспроизведения как уровня преобразования для воспроизведения, который соответствует уровню, определенному принятыми аудиоданными, но уменьшенному на уровень, соответствующий уровню аудиокомпонента реального мира. В качестве примера низкой сложности средство 207 корректировки может быть выполнено с возможностью выполнения этого путем адаптирования усиления для виртуального аудиокомпонента (абсолютного или относительного по отношению к другим аудиокомпонентам в аудиосцене), например, путем установки усиления как монотонно убывающей функции от корреляции между сигналом микрофона и сигналом виртуального аудиокомпонента. Этот последний пример подходит, например, для случая классического сценария VR, в котором данных подход может быть направлен на максимально возможную подгонку содержимого VR.

В случае сценария AR, в котором некоторые элементы реального мира должны быть дополнены, можно рассмотреть монотонно возрастающую функцию. Эту функцию также можно было бы установить на ноль до определенного порогового значения корреляции, прежде чем она возрастет (в зависимости от художественного замысла). Средство 203 оценки может использовать другие подходы для определения уровня аудиокомпонента реального мира в разных вариантах реализации. Во многих вариантах реализации уровень может быть определен на основе сигнала микрофона для одного или более сигналов микрофона, расположенного в наушниках. Как упоминалось ранее, корреляция этого с виртуальным аудиокомпонентом может быть использована в качестве оцененного свойства уровня аудиокомпонента реального мира.

Кроме того, средство 203 оценки может использовать свойство общего ослабления уровня наушников для более точной оценки воспринимаемого уровня в области вблизи уха. Такая оценка может быть непосредственно передана средству 207 корректировки в качестве уровня аудиокомпонента реального мира.

В случае микрофона, расположенного на наушниках, и записи вне наушников средство 203 оценки может использовать свойство общего ослабления уровня наушников для более точной оценки воспринимаемого уровня в области вблизи уха. Такая оценка может быть непосредственно передана средству 207 корректировки в качестве уровня аудиокомпонента реального мира. В некоторых вариантах реализации целевое свойство может быть свойством положения и может быть, в частности, воспринимаемым положением комбинированного аудиокомпонента. Во многих вариантах реализации целевое свойство может быть определено как преднамеренное воспринимаемое положение комбинированного аудио, соответствующее аудиоисточнику. Аудиоданные могут содержать положение виртуального аудиокомпонента в аудиосцене, и целевое положение может быть определено как это указанное положение.

Оцененное свойство аудиокомпонента реального мира может соответственно быть свойством положения, таким как, в частности, положение аудиоисточника аудиокомпонента реального мира. Положение может быть относительным или абсолютным положением. Например, положение аудиокомпонента/источника реального мира может быть определено в виде координат x, y, z (или угловых 3D-координат) в заданной системе координат помещения или может быть, например, определено относительно гарнитуры пользователя.

В некоторых вариантах реализации средство 203 оценки может быть выполнено с возможностью определения положения в ответ на специально предназначенные сигналы измерения. Например, в вариантах реализации, в которых аудиоисточник соответствует участнику в присутствии множества участников в одном и том же помещении, гарнитуры участников могут содержать, например, функциональные возможности инфракрасной дальнометрии, которая может определять расстояние до других гарнитур, а также потенциально фиксировать точки в помещении. Относительные положения гарнитур и участников и, следовательно, относительные положения по отношению к другим аудиоисточникам реального мира (другим участникам) могут быть определены из отдельных измерений дальности.

В некоторых вариантах реализации средство 203 оценки выполнено с возможностью определения первого свойства в ответ на обнаружение объекта, соответствующего аудиоисточнику на изображении окружающей аудиосреды. Например, окружающую среду могут контролировать одна или более видеокамер, и для определения положений отдельных участников на изображениях может быть использовано обнаружение лица или головы. Из этого могут быть определены относительные положения разных участников и, следовательно, разные аудиоисточники реального мира.

В некоторых вариантах реализации средство 203 оценки может быть выполнено с возможностью определения положения аудиоисточника из захвата звука от аудиоисточника. Например, гарнитура может содержать внешние микрофоны на своей боковой стороне. Тогда направление на источник звука может быть оценено путем обнаружения относительной задержки между двумя микрофонами для сигнала из аудиоисточника (т.е. разность во времени прихода указывает угол прихода). Два микрофона могут определять угол прихода в плоскости (азимут). Может потребоваться третий микрофон для определения угла превышения и точного 3D-положения.

В некоторых вариантах реализации средство 203 оценки может быть выполнено с возможностью определения положения аудиоисточника разными методами захвата, такими как датчики, создающие карты глубины, тепловые карты, GPS-координаты или световое поле (камеры).

В некоторых вариантах реализации средство 203 оценки может быть выполнено с возможностью определения положения аудиоисточника путем комбинирования разных модальностей, т.е. разных способов захвата. Как правило, для идентификации положения аудиоисточника, как на изображении так и в видеосцене, и, следовательно, повышения точности оценки положения, может быть использована комбинация методов захвата видео и аудио.

Средство 207 корректировки может быть выполнено с возможностью определения свойства преобразования для воспроизведения как измененного свойства положения. Изменения в угловых 3D-координатах более практичны, поскольку они являются ориентированным на пользователя представлением, но, как вариант, возможна запись в координатах x, y, z. Средство 207 корректировки может, например, изменять положение в противоположном направлении относительно направления от виртуального источника до источника реального мира, чтобы компенсировать несовпадение положения между реальным и виртуальным миром. Это может быть отражено в параметре расстояния, или одном из угловых параметров или их комбинации в зависимости от ситуации. Средство 207 корректировки может, например, изменять положение путем изменения уровня левого и правого уха так, что комбинация акустического + преобразованного для воспроизведения компонентов имела межканальную разницу уровней (Iinter-channel level Difference, ILD), соответствующую требуемому углу относительно пользователя.

В некоторых вариантах реализации целевое свойство может быть частотным распределением комбинированного аудиокомпонента. Аналогичным образом, свойство преобразования для воспроизведения может быть частотным распределением преобразованного для воспроизведения виртуального аудиокомпонента, а оцененное свойство сигнала реального мира может быть частотным распределением аудиокомпонента реального мира возле ушей пользователя.

Например, аудиокомпонент реального мира может достигать ушей пользователя посредством акустической передаточной функции, которая может иметь неплоскую частотную характеристику. В некоторых вариантах реализации акустическая передаточная функция может быть, например, преимущественно определена частотной характеристикой ослабления проницаемости наушников. Акустическое ослабление наушниками внешнего звука может меняться существенно для разных наушников, и в некоторых случаях даже для разных пользователей или разных посадок и положений наушников. В некоторых случаях передаточная функция/характеристика наушников может быть по существу постоянной для соответствующих частот и может, соответственно, часто рассматриваться как смоделированная посредством постоянной меры ослабления или проницаемости.

Однако на практике передаточные характеристики наушников будут, как правило, значительно зависеть от частоты в пределах аудиочастотного диапазона. Например, как правило, низкочастотные компоненты звука будут меньше ослабевать, чем высокочастотные компоненты, и воспринимаемый в результате звук будет звучать иначе.

В других вариантах реализации, например, когда преобразование для воспроизведения аудио выполняют посредством акустических систем и пользователь не носит наушников, акустическая передаточная функция может отражать общую акустическую характеристику от источника реального мира к уху пользователя. Эта акустическая передаточная функция может зависеть от характеристик помещения, положения пользователя, положения аудиоисточника реального мира и т. д.

В случаях, когда частотная характеристика акустической передаточной функции от аудиоисточника реального мира к уху пользователя не является плоской, получающийся в результате аудиокомпонент будет иметь другую частотную характеристику, чем соответствующий виртуальный аудиокомпонент (например, преобразованный для воспроизведения наушниками с частотной характеристикой, которая может считаться частотно плоской). Соответственно, аудиокомпонент реального мира будет не только вызывать изменения в уровне комбинированного аудиокомпонента, но также будет вызывать изменение в частотном распределении. Таким образом, частотный спектр объединенного аудиокомпонента будет отличаться от частотного спектра виртуального аудиокомпонента, который описан аудиоданными.

В некоторых вариантах реализации преобразование для воспроизведения виртуального аудиокомпонента может быть изменено для компенсации этого частотного распределения. В частности, средство 203 оценки может определять частотный спектр (частотное распределение) аудиокомпонента реального мира, принятого пользователем.

Средство 203 оценки может, например, определять это путем измерения аудиокомпонента реального мира в течение интервала времени, на протяжении которого виртуальный аудиокомпонент намеренно не преобразуют для воспроизведения. В качестве другого примера частотная характеристика, например, наушников, носимых пользователем, может быть оценена на основе формирования тестовых сигналов в локальной окружающей среде (например, качания частоты с постоянной амплитудой) и измерения результатов с использованием микрофона в наушниках. Еще в одних вариантах реализации частотная характеристика проницаемости гарнитуры может быть известна, например из предыдущих испытаний.

Затем частотное распределение аудиокомпонента реального мира возле уха пользователя может быть оценено средством 203 оценки как соответствующее частотному распределению аудиокомпонента реального мира, фильтрованного посредством акустической передаточной функции, и оно может быть использовано в качестве оцененного свойства аудиокомпонента реального мира. Во многих вариантах реализации указание частотного распределения может в действительности быть относительным указанием, и, следовательно, частотная характеристика акустической передаточной функции во многих вариантах реализации может быть использована непосредственно устройством (как, например, оцененное свойство аудиокомпонента реального мира).

Средство 207 корректировки может перейти к определению свойства преобразования для воспроизведения как измененного частотного распределения виртуального аудиокомпонента. Целевое частотное распределение может быть частотным распределением виртуального аудиокомпонента, которое представлено принимаемыми аудиоданными, т.е. целевой частотный спектр комбинированного аудиокомпонента, воспринятого пользователем, является частотным спектром принимаемого виртуального аудиокомпонента. Соответственно, средство 207 корректировки может изменять частотный спектр преобразуемых для воспроизведения виртуальных аудиокомпонентов так, что это дополняет частотный спектр аудиокомпонента реального мира, и так, что они складываются в требуемый частотный спектр.

Средство 207 корректировки может, в частности, перейти к фильтрации виртуального аудиокомпонента с помощью фильтра, определенного как дополняющего до требуемой акустической передаточной функции. В частности, фильтр может быть по существу взаимно обратным к акустической передаточной функции.

Такой подход может во многих вариантах реализации обеспечить улучшенное частотное распределение и воспринимаемое уменьшенное искажение, и может, в частности, привести к комбинированному аудио, воспринимаемому пользователем при меньшем частотном искажении, чем если бы для воспроизведения был преобразован неизмененный виртуальный аудиокомпонент.

В некоторых вариантах реализации средство корректировки выполнено с возможностью определения свойства преобразования для воспроизведения в ответ на психоакустическое пороговое значение для обнаружения звуковых отличий. Психоакустическая способность человека (минимальный различимый угол (возможно, в зависимости от частоты и азимута), минимальный различимый угол движения и т.д.) могла бы быть использована в качестве внутреннего параметра для принятия решения о том, насколько система должна компенсировать входящие проникновения внешнего звука.

Например, в случае, когда свойство преобразования для воспроизведения является свойством положения, средство корректировки может, в частности, использовать способность человека воспринимать отдельные источники как единое целое. Эта способность может быть использована для определения углового максимума между положением аудиоисточника реального мира и положением виртуального (преобразованного для воспроизведения) аудиоисточника.

Поскольку на эту способность человека также влияет зрение человека, т.е., если пользователь может (или не может) видеть один (или много) совпадающих визуальных аналогов в данном положении (положениях), то на основе информации о том, могут ли совпадающие объекты быть видны пользователем в виртуальной или реальной окружающей среде, могут быть выбраны соответствующие другие угловые максимумы.

В некоторых вариантах реализации средство 207 корректировки может быть выполнено с возможностью определения свойства преобразования для воспроизведения в ответ на информацию о том, способен ли пользователь видеть визуальный аналог аудиоисточника реального мира (случай AR) или визуальный аналог виртуального аудиоисточника (случай VR) либо и то, и другое (смешанная реальность).

Вышеупомянутый угловой максимум может быть также выбран на основе частот или азимутов аудиоисточников, поскольку это влияет на способность человека.

Другим примером является использование способности человека сопоставлять визуальный объект с аудиоэлементом. Это может быть использовано для свойства преобразования для воспроизведения как максимальная амплитуда углового изменения целевого свойства при условии, что визуальный объект находится в том же положении, что и аудиоисточник в принимаемых данных.

Для сценариев вне этих пределов психоакустических возможностей человека средство корректировки может быть выполнено с возможностью ненарушения общего восприятия.

Например, средство 207 корректировки может не выполнять никакого изменения вне этих пределов.

В некоторых вариантах реализации преобразователь 209 для воспроизведения может быть выполнен с возможностью обеспечения пространственного преобразования для воспроизведения, которое будет гарантировать плавный переход между ситуациями, в которых устройство способно компенсировать несовпадение между источником реального мира и виртуальным источником в пределах психоакустических способностей человека, и ситуацией, в которой устройство не может компенсировать в рамках этих пределов и предпочитает не влиять на преобразование для воспроизведения.

Например, преобразователь (209) для воспроизведения может использовать временной сглаживающий фильтр на данном свойстве преобразования для воспроизведения, переданном в преобразователь (209) для воспроизведения.

Описанное устройство соответственно пытается адаптировать преобразование для воспроизведения виртуального аудиокомпонента на основе свойств аудиокомпонента реального мира для того же аудиоисточника реального мира. Во многих вариантах реализации данный подход может быть применен к множеству аудиокомпонентов/аудиоисточников и, в частности, ко всем аудиокомпонентам/аудиоисточниками, которые существуют как в виртуальных сценариях, так и в сценариях реального мира.

В некоторых вариантах реализации может быть известно, какие аудиокомпоненты аудиоданных происходят из реального мира, и для каких существует локальный аудиоисточник. Например, может быть известно, что виртуальную аудиосцену формируют только для включения локальных аудиоисточников реального мира (например, в локализованном восприятии VR/AR).

Однако в других случаях этом может касаться только подмножества аудиокомпонентов. В некоторых вариантах реализации приемник может принимать аудиокомпоненты, которые имеют источники реального мира в окружающей среде пользователя, из одного или более источников, отличных от источников, которые являются чисто виртуальными для текущего пользователя, поскольку они могут быть предоставлены посредством специального интерфейса (его частью).

В других случаях может быть заранее известно, какие аудиокомпоненты имеют аналоги реального мира.

В некоторых вариантах реализации приемник 201 может быть выполнен с возможностью определения, какие аудиокомпоненты имеют аналоги реального мира, в ответ на метаданные данных аудиосцены. Например, принимаемые данные могут, например, иметь специально предназначенные метаданные, указывающие, имеют ли отдельные аудиокомпоненты аналоги реального мира или нет. Например, для каждого аудиокомпонента в принимаемых аудиоданных может быть включен один маркер, указывающий, отражает ли этот аудиокомпонент локальный аудиоисточник реального мира или нет. Если да, устройство может перейти к компенсации аудиокомпонента перед преобразованием для воспроизведения, как описано выше.

Такой подход может быть очень выгоден во многих применениях. В частности, он может позволить удаленному серверу управлять или руководить работой аудиоустройства и, следовательно, локальным преобразованием для воспроизведения. Во многих практических применениях услугу VR предоставляют посредством удаленного сервера, и этот сервер может не только иметь информацию о том, где находятся аудиоисточники реального мира, но и может также определять и принимать решение, какие аудиоисточники включать в аудиосцену. Соответственно, система может обеспечивать эффективное дистанционное управление работой.

Во многих вариантах реализации приемник 201 устройства, изображенного на ФИГ. 2, может быть выполнен с возможностью определения, соответствует ли данный аудиокомпонент локальному аудиоисточнику реального мира или нет.

Как описано ранее, это может быть сделано, в частности, путем коррелирования аудиосигнала для виртуального аудиокомпонента с сигналом микрофона, захватывающего локальную окружающую среду. Термин корреляция может включать любое возможное измерение подобия, включая классификацию аудио (например, распознавание аудиособытия, распознавание динамика), сравнение положения (в многоканальной записи) или перекрестную корреляцию обработки сигнала. Если максимальная корреляция превышает данное пороговое значение, считается, что аудиокомпонент имеет аналог в виде локального аудиокомпонента реального мира, и что он соответствует локальному аудиоисточнику. Соответственно, можно перейти к выполнению преобразования для воспроизведения, как описано ранее.

Если корреляция ниже порогового значения, считается, что аудиокомпонент не соответствует локальному аудиоисточнику (или что его уровень настолько низок, что не вызывает никаких значимых помех или искажения), и, следовательно, аудиокомпонент может быть непосредственно преобразован для воспроизведения без какой-либо компенсации.

Понятно, что в вышеприведенном описании варианты реализации настоящего изобретения изложены для ясности со ссылкой на разные функциональные схемы, блоки и процессоры. Однако понятно, что может быть использовано любое подходящее распределение функциональных возможностей между разными функциональными схемами, блоками или процессорами без ущерба для настоящего изобретения. Например, показанные функциональные возможности, подлежащие осуществлению отдельными процессорами или контроллерами, могут быть осуществлены одним и тем же процессором или контроллерами. Поэтому ссылки на конкретные функциональные блоки или схемы должны рассматриваться только как ссылки на подходящие средства для обеспечения описываемых функциональных возможностей, а не как указание на строгую логическую или физическую структуру или организацию.

Настоящее изобретение может быть реализовано в любой подходящей форме, включая оборудование, программное обеспечение, встроенное программное обеспечение или любую их комбинацию. Настоящее изобретение необязательно может быть реализовано, по меньшей мере частично, в виде компьютерного программного обеспечения, выполняемого на одном или более процессорах и/или цифровых процессорах сигналов. Элементы и компоненты варианта реализации настоящего изобретения могут быть физически, функционально и логически реализованы любым подходящим образом. В действительности функциональные возможности могут быть реализованы в одном блоке, в множестве блоков или как часть других функциональных блоков. В силу этого настоящее изобретение может быть реализовано в одном блоке или может быть физически или функционально распределено между разными блоками, схемами и процессорами.

Хотя настоящее изобретение было описано в связи с некоторыми вариантами реализации, это не следует рассматривать как ограничение конкретной формой, изложенной в настоящем документе. Скорее, объем настоящего изобретения ограничен только прилагаемой формулой изобретения. Кроме того, хотя может показаться, что признак описан в связи с конкретными вариантами реализации, специалисту в данной области понятно, что различные признаки описанных вариантов реализации могут быть объединены в соответствии с настоящим изобретением. В формуле изобретения термин «содержащий/включающий» не исключает присутствия других элементов или этапов.

Кроме того, хотя множество средств, элементов, схем или этапов способа перечислены по отдельности, они могут быть реализованы, например, с помощью одной схемы, блока или процессора. Далее, хотя отдельные признаки могут быть включены в разные пункты формулы изобретения, они, возможно, могут быть эффективно объединены, а включение в разные пункты формулы изобретения не означает, что комбинация признаков является неосуществимой и/или невыгодной. Кроме того, включение признака в одну категорию пунктов формулы изобретения не означает ограничения этой категорией, а, скорее, указывает на то, что данный признак в равной степени может быть применен к другим категориям пунктов изобретения, когда это уместно. Кроме того, порядок признаков в формуле изобретения не означает конкретного порядка, в котором эти признаки должны прорабатываться, и, в частности, порядок отдельных этапов в формуле изобретения на способ, не означает, что этапы должны выполняться в данном порядке. Наоборот, этапы могут выполняться в любом подходящем порядке. Кроме того, упоминания в единственном числе не исключают множественного числа. Поэтому ссылки с использованием средств указания единственного числа, числительных в единственном числе «первый», «второй» и т.д. не исключают множества. Ссылочные позиции в формуле изобретения приведены исключительно в качестве уточняющего примера и не должны трактоваться как ограничивающие объем формулы изобретения каким-либо образом.

Claims

1. Аудиоустройство, содержащее

приемник (201) для приема аудиоданных для аудиосцены, причем аудиоданные содержат аудиоданные для первого аудиокомпонента, представляющего аудиоисточник реального мира в аудиосреде, окружающей пользователя;

определитель (203) для определения первого свойства аудиокомпонента реального мира, достигающего пользователя из аудиоисточника реального мира посредством распространения звука;

целевой процессор (205) для определения целевого свойства для комбинированного аудиокомпонента, принятого пользователем, в ответ на аудиоданные для первого аудиокомпонента, причем комбинированный аудиокомпонент является комбинацией аудиокомпонента реального мира, принятого пользователем посредством распространения звука, и преобразованного для воспроизведения аудио первого аудиокомпонента, принятого пользователем;

средство (207) корректировки для определения свойства преобразования для воспроизведения для первого аудиокомпонента путем изменения свойства первого аудиокомпонента, указанного аудиоданными для первого аудиокомпонента, в ответ на целевое свойство и первое свойство и

преобразователь (209) для воспроизведения для преобразования для воспроизведения первого аудиокомпонента в ответ на свойство преобразования для воспроизведения.

2. Аудиоустройство по п. 1, в котором целевое свойство является целевым воспринимаемым положением комбинированного аудиокомпонента.

3. Аудиоустройство по п. 1, в котором целевое свойство является уровнем комбинированного аудиокомпонента.

4. Аудиоустройство по п. 3, в котором средство (207) корректировки выполнено с возможностью определения свойства преобразования для воспроизведения как уровня преобразования для воспроизведения, соответствующего уровню первого аудиокомпонента, указанному аудиоданными, который уменьшен на величину, определенную как функция от уровня аудиокомпонента реального мира, принятого пользователем.

5. Аудиоустройство по п. 1, в котором целевое свойство является частотным распределением комбинированного аудиокомпонента.

6. Аудиоустройство по п. 5, в котором преобразователь (209) для воспроизведения выполнен с возможностью применения фильтра к первому аудиокомпоненту, причем фильтр имеет частотную характеристику, дополняющую частотную характеристику траектории звука от аудиоисточника реального мира до пользователя.

7. Аудиоустройство по любому предыдущему пункту, в котором определитель (203) выполнен с возможностью определения первого свойства в ответ на акустическую передаточную характеристику для внешнего звука для наушников, используемых для преобразования для воспроизведения первого аудиокомпонента.

8. Аудиоустройство по п. 7, в котором акустическая передаточная характеристика содержит по меньшей мере одно из частотной характеристики и свойства проницаемости наушников.

9. Аудиоустройство по любому предыдущему пункту, в котором определитель (203) выполнен с возможностью определения первого свойства в ответ на сигнал микрофона, захватывающий окружающую аудиосреду пользователя.

10. Аудиоустройство по любому предыдущему пункту, в котором средство (207) корректировки выполнено с возможностью определения свойства преобразования для воспроизведения в ответ на психоакустическое пороговое значение для обнаружения звуковых отличий.

11. Аудиоустройство по любому предыдущему пункту, в котором определитель (203) выполнен с возможностью определения первого свойства в ответ на обнаружение объекта, соответствующего аудиоисточнику на изображении окружающей аудиосреды.

12. Аудиоустройство по любому предыдущему пункту, в котором приемник (201) выполнен с возможностью идентификации первого аудиокомпонента как соответствующего аудиоисточнику реального мира в ответ на корреляцию между первым аудиокомпонентом и сигналом микрофона, захватывающим окружающую аудиосреду пользователя.

13. Аудиоустройство по любому предыдущему пункту, в котором приемник (201) выполнен с возможностью идентификации первого аудиокомпонента как соответствующего аудиоисточнику реального мира в ответ на метаданные данных аудиосцены.

14. Аудиоустройство по любому предыдущему пункту, в котором аудиоданные представляют аудиосцену дополненной реальности, соответствующую окружающей аудиосреде.

15. Способ обработки аудиоданных, включающий

прием аудиоданных для аудиосцены, причем аудиоданные содержат аудиоданные для первого аудиокомпонента, представляющего аудиоисточник реального мира в аудиосреде, окружающей пользователя;

определение первого свойства аудиокомпонента реального мира, достигающего пользователя из аудиоисточника реального мира посредством распространения звука;

определение целевого свойства для комбинированного аудиокомпонента, принятого пользователем, в ответ на аудиоданные для первого аудиокомпонента, причем комбинированный аудиокомпонент является комбинацией аудиокомпонента реального мира, принятого пользователем посредством распространения звука, и преобразованного для воспроизведения аудио первого аудиокомпонента, принятого пользователем;

определение свойства преобразования для воспроизведения для первого аудиокомпонента путем изменения свойства первого аудиокомпонента, указанного аудиоданными для первого аудиокомпонента, в ответ на целевое свойство и первое свойство и

преобразование для воспроизведения первого аудиокомпонента в ответ на свойство преобразования для воспроизведения.