RU2803638C2

RU2803638C2 - Processing of spatially diffuse or large sound objects

Info

Publication number: RU2803638C2
Application number: RU2020107469A
Authority: RU
Inventors: Дирк Ерун Бребарт; Ле ЛУ; Николас Р. ЦИНГОС; Антонио МАТЕОС СОЛЕ
Original assignee: Долби Лэборетериз Лайсенсинг Корпорейшн; Долби Интернэшнл Аб
Priority date: 2013-07-31
Filing date: 2020-02-19
Publication date: 2023-09-18

Abstract

FIELD: computer engineering.

SUBSTANCE: processing audio data. Decorrelation process is performed on the audio signals of large sound objects using the decorrelation component associated with the input interface to create decorrelated audio signals of large sound objects that depend on a certain location of large sound objects and other information with the decorrelated audio signals of large sound objects mutually independent of each other, and the decorrelation process includes adjusting the level of each audio signal by adjusting the level of the corresponding audio gain for each of the audio signals to generate decorrelated audio signals of large sound objects corresponding to the speaker signals supplied for each speaker of the plurality of speakers, the plurality of speakers covering a large spatial area, while the decorrelated audio signals of the large sound objects are mixed with at least one audio signal for other sound objects that are spatially separated by a second distance threshold from the large sound object.

EFFECT: improved accuracy of audio data reproduction.

35 cl, 19 dwg

Description

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИCROSS REFERENCE TO RELATED APPLICATIONS

[0001] По настоящей заявке испрашивается приоритет патентной заявки Испании № P201331193, поданной 31 июля 2013 г., и предварительной заявки США № 61/885,805, поданной 2 октября 2013 г., полное содержание каждой из которых включено в настоящий документ посредством ссылки.[0001] This application claims priority to Spanish Patent Application No. P201331193, filed July 31, 2013, and U.S. Provisional Application No. 61/885,805, filed October 2, 2013, each of which is incorporated herein by reference in its entirety.

ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕFIELD OF TECHNOLOGY TO WHICH THE INVENTION RELATES

[0002] Это раскрытие относится к обработке аудиоданных. В частности, это раскрытие относится к обработке аудиоданных, соответствующих диффузным или пространственно большим звуковым объектам.[0002] This disclosure relates to audio data processing. In particular, this disclosure relates to the processing of audio data corresponding to diffuse or spatially large audio objects.

УРОВЕНЬ ТЕХНИКИBACKGROUND OF THE ART

[0003] Со времени появления звука в фильмах в 1927 г. происходило стабильное развитие технологии, используемой для захвата авторского замысла кинематографической звуковой дорожки и для воспроизведения этого содержимого. В 1970-х компания "Dolby" представила экономически эффективное средство кодирования и распространения миксов с тремя экранными каналами и моноканалом объемного звучания. "Dolby" обеспечила цифровой звук для кино в 1990-х посредством 5.1-канального формата, который обеспечивает дискретные левый, центральный и правый экранные каналы, левую и правую матрицы объемного звучания и канал сабвуфера для низкочастотных эффектов. Система Dolby Surround 7.1, представленная в 2010 г., увеличила количество каналов объемного звучания путем разбиения существующих левого и правого каналов объемного звучания на четыре "зоны".[0003] Since the advent of sound in films in 1927, there has been a steady advance in the technology used to capture the original intent of a cinematic soundtrack and to reproduce that content. In the 1970s, Dolby introduced a cost-effective means of encoding and distributing mixes with three on-screen channels and a mono surround channel. Dolby provided digital sound for cinema in the 1990s through a 5.1-channel format that provides discrete left, center and right screen channels, a left and right surround matrix, and a subwoofer channel for low-frequency effects. Dolby Surround 7.1, introduced in 2010, increased the number of surround channels by splitting the existing left and right surround channels into four “zones.”

[0004] Системы проигрывания аудио как для кино, так и для домашних кинотеатров становятся все более универсальными и сложными. Системы проигрывания аудио домашнего кинотеатра включают в себя все большие количества динамиков. Поскольку количество каналов увеличивается и размещение громкоговорителей переходит от плоской двухмерной (2D) матрицы к трехмерной (3D) матрице, включающей в себя приподнятость, воспроизведение звуков в среде проигрывания становится все более сложным процессом. Улучшенные способы обработки аудио были бы желательны.[0004] Audio playback systems for both cinema and home theaters are becoming increasingly versatile and sophisticated. Home theater audio systems include increasingly larger numbers of speakers. As the number of channels increases and speaker placement moves from a flat two-dimensional (2D) matrix to a three-dimensional (3D) matrix that includes elevation, the reproduction of sounds in a playback environment becomes increasingly complex. Improved audio processing techniques would be desirable.

СУЩНОСТЬ ИЗОБРЕТЕНИЯSUMMARY OF THE INVENTION

[0005] Улучшенные способы для обработки диффузных или пространственно больших звуковых объектов обеспечены. Используемый здесь термин "звуковой объект" ссылается на аудиосигналы (также называемые здесь "сигналами звуковых объектов") и ассоциированные метаданные, которые могут создаваться или "разрабатываться" без ссылки на какую-либо конкретную среду проигрывания. Ассоциированные метаданные могут включать в себя данные позиции звукового объекта, данные усиления звукового объекта, данные размера звукового объекта, данные траектории звукового объекта и т. д. Используемый здесь термин "рендеринг" относится к процессу преобразования звуковых объектов в подаваемые сигналы динамика для конкретной среды проигрывания. Процесс рендеринга может выполняться, по меньшей мере частично, согласно ассоциированным метаданным и согласно данным среды проигрывания. Данные среды проигрывания могут включать в себя указание некоторого количества динамиков в среде проигрывания и указание местоположения каждого динамика внутри среды проигрывания.[0005] Improved methods for processing diffuse or spatially large audio objects are provided. As used herein, the term "audio object" refers to audio signals (also referred to herein as "audio object signals") and associated metadata that may be created or "developed" without reference to any particular playback environment. Associated metadata may include audio object position data, audio object gain data, audio object size data, audio object path data, etc. As used herein, the term "rendering" refers to the process of converting audio objects into speaker input signals for a particular playback environment. . The rendering process may be performed, at least in part, according to associated metadata and according to data from the playing environment. The playing environment data may include indicating a number of speakers in the playing environment and indicating the location of each speaker within the playing environment.

[0006] Пространственно большой звуковой объект не подразумевается как воспринимаемый в качестве точечного источника звука, но должен вместо этого восприниматься как покрывающий большую пространственную область. В некоторых случаях большой звуковой объект должен восприниматься как окружающий слушателя. Такие аудиоэффекты не могут быть достигнуты одним только панорамированием и вместо этого могут требовать дополнительной обработки. Для создания убедительного размера пространственного объекта или пространственной диффузности, существенная часть сигналов динамика в среде проигрывания должна быть взаимно независима или по меньшей мере некоррелирована (например, независима в плане взаимной корреляции первого порядка или ковариации). Достаточно сложная система рендеринга, такая как система рендеринга для кинотеатра, может иметь возможность обеспечения такой декорреляции. Однако менее сложные системы рендеринга, такие как предназначенные для систем домашнего кинотеатра, не могут иметь возможность обеспечения надлежащей декорреляции.[0006] A spatially large sound object is not intended to be perceived as a point sound source, but should instead be perceived as covering a large spatial area. In some cases, a large sound object must be perceived as surrounding the listener. Such audio effects cannot be achieved by panning alone and may instead require additional processing. To create convincing feature size or spatial diffuseness, a substantial portion of the speaker signals in the playback environment must be mutually independent or at least uncorrelated (eg, independent in terms of first-order cross-correlation or covariance). A sufficiently complex rendering system, such as a movie theater rendering system, may be able to provide such decorrelation. However, less complex rendering systems, such as those designed for home theater systems, may not be able to provide proper decorrelation.

[0007] Некоторые осуществления, описанные здесь, могут включать в себя определение диффузных или пространственно больших звуковых объектов для специальной обработки. Процесс декорреляции может выполняться над аудиосигналами, соответствующими большим звуковым объектам, для создания декоррелированных аудиосигналов больших звуковых объектов. Эти декоррелированные аудиосигналы больших звуковых объектов могут быть ассоциированы с местоположениями объектов, которые могут быть стационарными или изменяющимися во времени местоположениями. Процесс ассоциирования может быть независим от конфигурации фактических динамиков проигрывания. Например, декоррелированные аудиосигналы больших звуковых объектов могут подвергаться рендерингу для местоположений виртуальных динамиков. В некоторых осуществлениях выходной сигнал из такого процесса рендеринга может быть входным для процесса упрощения сцены.[0007] Some implementations described herein may include identifying diffuse or spatially large audio objects for special processing. A decorrelation process can be performed on audio signals corresponding to large audio objects to create decorrelated audio signals of large audio objects. These decorrelated audio signals of large sound objects can be associated with object locations, which can be stationary or time-varying locations. The association process may be independent of the configuration of the actual playback speakers. For example, decorrelated audio signals of large audio objects can be rendered to virtual speaker locations. In some implementations, the output from such a rendering process may be input to the scene simplification process.

[0008] Соответственно, по меньшей мере некоторые аспекты этого раскрытия могут осуществляться в способе, который может включать в себя прием аудиоданных, содержащих звуковые объекты. Звуковые объекты могут включать в себя сигналы звуковых объектов и ассоциированные метаданные. Метаданные могут включать в себя по меньшей мере данные размера звукового объекта.[0008] Accordingly, at least some aspects of this disclosure may be implemented in a method that may include receiving audio data containing audio objects. Audio objects may include audio object signals and associated metadata. The metadata may include at least size data of the audio object.

[0009] Способ может включать в себя определение, на основе данных размера звукового объекта, большого звукового объекта, имеющего размер звукового объекта, который больше порогового размера, и выполнение процесса декорреляции над аудиосигналами больших звуковых объектов для создания декоррелированных аудиосигналов больших звуковых объектов. Способ может включать в себя ассоциирование декоррелированных аудиосигналов больших звуковых объектов с местоположениями объектов. Процесс ассоциирования может быть независим от конфигурации фактических динамиков проигрывания. Конфигурация фактических динамиков проигрывания может впоследствии быть использована для осуществления рендеринга декоррелированных аудиосигналов больших звуковых объектов для динамиков среды проигрывания.[0009] The method may include determining, based on the audio object size data, a large audio object having an audio object size that is larger than a threshold size, and performing a decorrelation process on the large audio object audio signals to create decorrelated large audio object audio signals. The method may include associating decorrelated audio signals of large audio objects with object locations. The association process may be independent of the configuration of the actual playback speakers. The configuration of the actual playback speakers can subsequently be used to render decorrelated audio signals of large audio objects to the speakers of the playback environment.

[0010] Способ может включать в себя прием метаданных декорреляции для большого звукового объекта. Процесс декорреляции может выполняться, по меньшей мере частично, согласно метаданным декорреляции. Способ может включать в себя кодирование аудиоданных, выходящих из процесса ассоциирования. В некоторых осуществлениях процесс кодирования может не включать в себя кодирование метаданных декорреляции для большого звукового объекта.[0010] The method may include receiving decorrelation metadata for a large audio object. The decorrelation process may be performed at least in part according to the decorrelation metadata. The method may include encoding audio data output from the association process. In some implementations, the encoding process may not include encoding decorrelation metadata for the large audio object.

[0011] Местоположения объектов могут включать в себя местоположения, соответствующие по меньшей мере некоторым из данных позиции звукового объекта принятых звуковых объектов. По меньшей мере некоторые из местоположений объектов могут быть стационарными. Однако в некоторых осуществлениях по меньшей мере некоторые из местоположений объектов могут изменяться с течением времени.[0011] The object locations may include locations corresponding to at least some of the audio object position data of the received audio objects. At least some of the object locations may be stationary. However, in some implementations, at least some of the object locations may change over time.

[0012] Процесс ассоциирования может включать в себя рендеринг декоррелированных аудиосигналов больших звуковых объектов согласно местоположениям виртуальных динамиков. В некоторых примерах процесс приема может включать в себя прием одного или нескольких сигналов звуковой подложки, соответствующих местоположениям динамиков. Способ может включать в себя микширование декоррелированных аудиосигналов больших звуковых объектов с по меньшей мере некоторыми из принятых сигналов звуковой подложки или принятых сигналов звуковых объектов. Способ может включать в себя вывод декоррелированных аудиосигналов больших звуковых объектов в качестве дополнительных сигналов звуковой подложки или сигналов звуковых объектов.[0012] The association process may include rendering decorrelated audio signals of large audio objects according to virtual speaker locations. In some examples, the receiving process may include receiving one or more audio substrate signals corresponding to speaker locations. The method may include mixing decorrelated large audio object audio signals with at least some of the received audio substrate signals or the received audio object signals. The method may include outputting decorrelated large audio object signals as additional audio substrate signals or audio object signals.

[0013] Способ может включать в себя применение процесса регулирования уровня к декоррелированным аудиосигналам больших звуковых объектов. В некоторых осуществлениях метаданные большого звукового объекта могут включать в себя метаданные позиции звукового объекта, и процесс регулирования уровня может зависеть, по меньшей мере частично, от метаданных размера звукового объекта и метаданных позиции звукового объекта большого звукового объекта.[0013] The method may include applying a level control process to decorrelated audio signals of large audio objects. In some implementations, the large audio object metadata may include audio object position metadata, and the level adjustment process may depend, at least in part, on the audio object size metadata and the audio object position metadata of the large audio object.

[0014] Способ может включать в себя ослабление или удаление аудиосигналов больших звуковых объектов после того, как процесс декорреляции выполняется. Однако в некоторых осуществлениях способ может включать в себя сохранение аудиосигналов, соответствующих вкладу точечного источника большого звукового объекта, после того, как процесс декорреляции выполняется.[0014] The method may include attenuating or removing audio signals of large audio objects after the decorrelation process is performed. However, in some implementations, the method may include storing audio signals corresponding to the point source contribution of a large audio object after the decorrelation process is performed.

[0015] Метаданные большого звукового объекта могут включать в себя метаданные позиции звукового объекта. В некоторых таких осуществлениях способ может включать в себя вычисление вкладов от виртуальных источников внутри области или объема звукового объекта, определенных данными позиции большого звукового объекта и данными размера большого звукового объекта. Способ также может включать в себя определение набора значений усиления звуковых объектов для каждого из множества выходных каналов на основе, по меньшей мере частично, вычисленных вкладов. Способ может включать в себя микширование декоррелированных аудиосигналов больших звуковых объектов с аудиосигналами для звуковых объектов, которые пространственно отделяются пороговой величиной расстояния от большого звукового объекта.[0015] The large audio object metadata may include audio object position metadata. In some such implementations, the method may include calculating contributions from virtual sources within an area or volume of an audio object determined by audio large object position data and audio large object size data. The method may also include determining a set of audio object gain values for each of the plurality of output channels based at least in part on the calculated contributions. The method may include mixing decorrelated audio signals of large audio objects with audio signals for audio objects that are spatially separated by a distance threshold from the large audio object.

[0016] В некоторых осуществлениях способ может включать в себя выполнение процесса кластеризации звуковых объектов после процесса декорреляции. В некоторых таких осуществлениях процесс кластеризации звуковых объектов может выполняться после процесса ассоциирования.[0016] In some implementations, the method may include performing a process of clustering audio objects after a decorrelation process. In some such implementations, the audio object clustering process may be performed after the association process.

[0017] Способ может включать в себя оценку аудиоданных для определения типа содержимого. В некоторых таких осуществлениях процесс декорреляции может выборочно выполняться согласно типу содержимого. Например, количество декорреляции, которая должна быть выполнена, может зависеть от типа содержимого. Процесс декорреляции может включать в себя задержки, универсальные фильтры, псевдослучайные фильтры и/или алгоритмы реверберации.[0017] The method may include evaluating audio data to determine a content type. In some such implementations, the decorrelation process may be selectively performed according to the type of content. For example, the amount of decorrelation that must be performed may depend on the type of content. The decorrelation process may include delays, universal filters, pseudo-random filters, and/or reverberation algorithms.

[0018] Способы, раскрываемые здесь, могут осуществляться с помощью аппаратных средств, программно-аппаратных средств, программных средств, сохраненных на одном или нескольких некратковременных носителей, и/или комбинаций перечисленного. Например, по меньшей мере некоторые аспекты этого раскрытия могут осуществляться в устройстве, которое включает в себя систему интерфейса и логическую систему. Система интерфейса может включать в себя пользовательский интерфейс и/или сетевой интерфейс. В некоторых осуществлениях устройство может включать в себя систему памяти. Система интерфейса может включать в себя по меньшей мере один интерфейс между логической системой и системой памяти.[0018] The methods disclosed herein may be implemented in hardware, firmware, software stored on one or more non-transitory media, and/or combinations thereof. For example, at least some aspects of this disclosure may be implemented in an apparatus that includes an interface system and a logic system. The interface system may include a user interface and/or a network interface. In some implementations, the device may include a memory system. The interface system may include at least one interface between a logic system and a memory system.

[0019] Логическая система может включать в себя по меньшей мере один процессор, такой как универсальный одно- или многочиповый процессор, процессор цифровых сигналов (DSP), специализированную интегральную схему (ASIC), программируемую пользователем вентильную матрицу (FPGA) или другое программируемое логическое устройство, схему на дискретных компонентах или транзисторную логическую схему, дискретные аппаратные компоненты и/или комбинации перечисленного.[0019] The logic system may include at least one processor, such as a general-purpose single- or multi-chip processor, a digital signal processor (DSP), an application specific integrated circuit (ASIC), a field programmable gate array (FPGA), or other programmable logic device , a discrete component circuit or transistor logic circuit, discrete hardware components, and/or combinations thereof.

[0020] В некоторых осуществлениях логическая система может иметь возможность приема, посредством системы интерфейса, аудиоданных, содержащих звуковые объекты. Звуковые объекты могут включать в себя сигналы звуковых объектов и ассоциированные метаданные. В некоторых осуществлениях метаданные включают в себя по меньшей мере данные размера звукового объекта. Логическая система может иметь возможность определения, на основе данных размера звукового объекта, большого звукового объекта, имеющего размер звукового объекта, который больше порогового размера, и выполнения процесса декорреляции над аудиосигналами больших звуковых объектов для создания декоррелированных аудиосигналов больших звуковых объектов. Логическая система может иметь возможность ассоциирования декоррелированных аудиосигналов больших звуковых объектов с местоположениями объектов.[0020] In some implementations, the logical system may be capable of receiving, through the interface system, audio data containing audio objects. Audio objects may include audio object signals and associated metadata. In some implementations, the metadata includes at least audio object size data. The logic system may be capable of determining, based on the audio object size data, a large audio object having an audio object size that is greater than a threshold size, and performing a decorrelation process on the audio large audio signals to create decorrelated large audio object audio signals. The logic system may be able to associate decorrelated audio signals of large audio objects with object locations.

[0021] Процесс ассоциирования может быть независим от конфигурации фактических динамиков проигрывания. Например, процесс ассоциирования может включать в себя рендеринг декоррелированных аудиосигналов больших звуковых объектов согласно местоположениям виртуальных динамиков. Конфигурация фактических динамиков проигрывания может впоследствии быть использована для осуществления рендеринга декоррелированных аудиосигналов больших звуковых объектов для динамиков среды проигрывания.[0021] The association process may be independent of the configuration of the actual playback speakers. For example, the association process may include rendering decorrelated audio signals of large audio objects according to the locations of virtual speakers. The configuration of the actual playback speakers can subsequently be used to render decorrelated audio signals of large audio objects to the speakers of the playback environment.

[0022] Логическая система может иметь возможность приема, посредством системы интерфейса, метаданных декорреляции для большого звукового объекта. Процесс декорреляции может выполняться, по меньшей мере частично, согласно метаданным декорреляции.[0022] The logic system may be capable of receiving, through the interface system, decorrelation metadata for a large audio object. The decorrelation process may be performed at least in part according to the decorrelation metadata.

[0023] Логическая система может иметь возможность кодирования аудиоданных, выходящих из процесса ассоциирования. В некоторых осуществлениях процесс кодирования может не включать в себя кодирование метаданных декорреляции для большого звукового объекта.[0023] The logic system may be capable of encoding audio data output from the association process. In some implementations, the encoding process may not include encoding decorrelation metadata for the large audio object.

[0024] По меньшей мере некоторые из местоположений объектов могут быть стационарными. Однако по меньшей мере некоторые из местоположений объектов могут изменяться с течением времени. Метаданные большого звукового объекта могут включать в себя метаданные позиции звукового объекта. Местоположения объектов могут включать в себя местоположения, соответствующие по меньшей мере некоторым из метаданных позиции звукового объекта принятых звуковых объектов.[0024] At least some of the object locations may be stationary. However, at least some of the object locations may change over time. The large audio object metadata may include audio object position metadata. The object locations may include locations corresponding to at least some of the audio object position metadata of the received audio objects.

[0025] Процесс приема может включать в себя прием одного или нескольких сигналов звуковой подложки, соответствующих местоположениям динамиков. Логическая система может иметь возможность микширования декоррелированных аудиосигналов больших звуковых объектов с по меньшей мере некоторыми из принятых сигналов звуковой подложки или принятых сигналов звуковых объектов. Логическая система может иметь возможность вывода декоррелированных аудиосигналов больших звуковых объектов в качестве дополнительных сигналов звуковой подложки или сигналов звуковых объектов.[0025] The receiving process may include receiving one or more audio substrate signals corresponding to speaker locations. The logic system may be capable of mixing the decorrelated large audio object audio signals with at least some of the received audio substrate signals or the received audio object signals. The logic system may be capable of outputting decorrelated audio signals of large audio objects as additional audio substrate signals or audio object signals.

[0026] Логическая система может иметь возможность применения процесса регулирования уровня к декоррелированным аудиосигналам больших звуковых объектов. Процесс регулирования уровня может зависеть, по меньшей мере частично, от метаданных размера звукового объекта и метаданных позиции звукового объекта большого звукового объекта.[0026] The logic system may be able to apply a level control process to decorrelated audio signals of large audio objects. The level adjustment process may depend, at least in part, on audio object size metadata and audio object position metadata of the large audio object.

[0027] Логическая система может иметь возможность ослабления или удаления аудиосигналов больших звуковых объектов после того, как процесс декорреляции выполняется. Однако устройство может иметь возможность сохранения аудиосигналов, соответствующих вкладу точечного источника большого звукового объекта, после того, как процесс декорреляции выполняется.[0027] The logic system may be able to attenuate or remove the audio signals of large audio objects after the decorrelation process is performed. However, the device may be able to store audio signals corresponding to the point source contribution of a large sound object after the decorrelation process is performed.

[0028] Логическая система может иметь возможность вычисления вкладов от виртуальных источников внутри области или объема звукового объекта, определенных данными позиции большого звукового объекта и данными размера большого звукового объекта. Логическая система может иметь возможность определения набора значений усиления звуковых объектов для каждого из множества выходных каналов на основе, по меньшей мере частично, вычисленных вкладов. Логическая система может иметь возможность микширования декоррелированных аудиосигналов больших звуковых объектов с аудиосигналами для звуковых объектов, которые пространственно отделяются пороговой величиной расстояния от большого звукового объекта.[0028] The logic system may be capable of calculating contributions from virtual sources within an area or volume of an audio object determined by the audio large object position data and the audio large object size data. The logic system may be able to determine a set of audio object gain values for each of a plurality of output channels based at least in part on the calculated contributions. The logic system may be capable of mixing decorrelated audio signals of large audio objects with audio signals for audio objects that are spatially separated by a distance threshold from the large audio object.

[0029] Логическая система может иметь возможность выполнения процесса кластеризации звуковых объектов после процесса декорреляции. В некоторых осуществлениях процесс кластеризации звуковых объектов может выполняться после процесса ассоциирования.[0029] The logic system may be able to perform the audio object clustering process after the decorrelation process. In some implementations, the audio object clustering process may be performed after the association process.

[0030] Логическая система может иметь возможность оценки аудиоданных для определения типа содержимого. Процесс декорреляции может выборочно выполняться согласно типу содержимого. Например, количество декорреляции, которая должна быть выполнена, зависит от типа содержимого. Процесс декорреляции может включать в себя задержки, универсальные фильтры, псевдослучайные фильтры и/или алгоритмы реверберации.[0030] The logic system may be able to evaluate audio data to determine the type of content. The decorrelation process can be selectively performed according to the content type. For example, the amount of decorrelation that must be performed depends on the type of content. The decorrelation process may include delays, universal filters, pseudo-random filters, and/or reverberation algorithms.

[0031] Подробности одного или нескольких осуществлений изобретения, описанного в этом техническом описании, излагаются на сопроводительных чертежах и в описании ниже. Другие признаки, аспекты и преимущества станут очевидны из описания, чертежей и пунктов формулы. Следует заметить, что относительные размеры следующих чертежей могут не быть изображены в масштабе.[0031] Details of one or more embodiments of the invention described in this specification are set forth in the accompanying drawings and description below. Other features, aspects and advantages will become apparent from the description, drawings and claims. It should be noted that the relative dimensions of the following drawings may not be drawn to scale.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙBRIEF DESCRIPTION OF THE DRAWINGS

[0032] Фиг.1 изображает пример среды проигрывания, имеющей конфигурацию Dolby Surround 5.1.[0032] Figure 1 depicts an example of a playback environment having a Dolby Surround 5.1 configuration.

[0033] Фиг.2 изображает пример среды проигрывания, имеющей конфигурацию Dolby Surround 7.1.[0033] Figure 2 depicts an example of a playback environment having a Dolby Surround 7.1 configuration.

[0034] Фиг.3A и 3B изображают два примера сред проигрывания домашнего кинотеатра, которые включают в себя конфигурации динамиков высоты.[0034] FIGS. 3A and 3B depict two examples of home theater playback environments that include height speaker configurations.

[0035] Фиг.4A изображает пример графического пользовательского интерфейса (GUI), который иллюстрирует зоны динамиков на изменяющихся приподнятостях в виртуальной среде проигрывания.[0035] FIG. 4A depicts an example graphical user interface (GUI) that illustrates speaker zones at varying elevations in a virtual playback environment.

[0036] Фиг.4B изображает пример другой среды проигрывания.[0036] FIG. 4B depicts an example of another playback environment.

[0037] Фиг.5 изображает блок-схему, которая обеспечивает пример звуковой обработки для пространственно больших звуковых объектов.[0037] FIG. 5 depicts a block diagram that provides an example of audio processing for spatially large audio objects.

[0038] Фиг.6A–6F изображают структурные схемы, которые иллюстрируют примеры компонентов звукового обрабатывающего устройства с возможностью обработки больших звуковых объектов.[0038] FIGS. 6A through 6F are block diagrams that illustrate example components of an audio processing device capable of processing large audio objects.

[0039] Фиг.7 изображает структурную схему, которая изображает пример системы выполненной с возможностью исполнения процесса кластеризации.[0039] FIG. 7 is a block diagram that depicts an example of a system configured to execute a clustering process.

[0040] Фиг.8 изображает структурную схему, которая иллюстрирует пример системы выполненной с возможностью кластеризации объектов и/или подложек в системе адаптивной звуковой обработки.[0040] FIG. 8 is a block diagram that illustrates an example of a system configured to cluster objects and/or substrates in an adaptive audio processing system.

[0041] Фиг.9 изображает структурную схему, которая обеспечивает пример процесса кластеризации, следующего за процессом декорреляции для больших звуковых объектов.[0041] FIG. 9 depicts a flow chart that provides an example of a clustering process following a decorrelation process for large audio objects.

[0042] Фиг.10A изображает пример местоположений виртуальных источников по отношению к среде проигрывания.[0042] FIG. 10A depicts an example of virtual source locations with respect to the playback environment.

[0043] Фиг.10B изображает альтернативный пример местоположений виртуальных источников по отношению к среде проигрывания.[0043] FIG. 10B depicts an alternative example of virtual source locations relative to the playback environment.

[0044] Фиг.11 изображает структурную схему, которая обеспечивает примеры компонентов звукового обрабатывающего устройства.[0044] FIG. 11 is a block diagram that provides examples of components of an audio processing device.

[0045] Подобные ссылочные позиции и обозначения на различных чертежах указывают подобные элементы.[0045] Like reference numerals and designations in the various drawings indicate like elements.

ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯDESCRIPTION OF IMPLEMENTATION OPTIONS

[0046] Следующее описание направлено на конкретные осуществления в целях описания некоторых новаторских аспектов этого раскрытия, а также примеры контекстов, в которых эти новаторские аспекты могут осуществляться. Однако принципы, описанные здесь, могут применяться различными другими способами. Например, несмотря на то, что различные осуществления описаны в отношении конкретных сред проигрывания, принципы, описанные здесь, могут широко применяться в других известных средах проигрывания, а также средах проигрывания, которые могут быть представлены в будущем. Кроме того, описанные осуществления могут осуществляться, по меньшей мере частично, в различных устройствах и системах в качестве аппаратных средств, программных средств, программно-аппаратных средств, облачных систем и т. д. Соответственно, принципы этого раскрытия не подразумеваются как ограниченные осуществлениями, показанными на чертежах и/или описанными здесь, а вместо этого имеют широкую применимость.[0046] The following description is directed to specific implementations for the purpose of describing some of the innovative aspects of this disclosure, as well as examples of contexts in which these innovative aspects may be implemented. However, the principles described here can be applied in various other ways. For example, although various implementations are described with respect to specific playback environments, the principles described herein may be broadly applicable to other known playback environments, as well as playback environments that may be introduced in the future. In addition, the described embodiments may be implemented, at least in part, in various devices and systems as hardware, software, firmware, cloud systems, etc. Accordingly, the principles of this disclosure are not intended to be limited to the embodiments shown in the drawings and/or described herein, but instead have broad applicability.

[0047] Фиг.1 изображает пример среды проигрывания, имеющей конфигурацию Dolby Surround 5.1. В этом примере среда проигрывания является средой проигрывания кинотеатра. Dolby Surround 5.1 была разработана в 1990-х, но эта конфигурация все еще широко применяется в домашних и кинотеатральных средах проигрывания. В среде проигрывания кинотеатра проектор 105 может быть сконфигурирован для проецирования видеоизображений, например для фильма, на экран 150. Аудиоданные могут синхронизироваться с видеоизображениями и обрабатываться звуковым процессором 110. Усилители 115 мощности могут обеспечивать подаваемые сигналы динамика к динамикам среды 100 проигрывания.[0047] Figure 1 depicts an example of a playback environment having a Dolby Surround 5.1 configuration. In this example, the playback environment is a movie theater playback environment. Dolby Surround 5.1 was developed in the 1990s, but this configuration is still widely used in home and theater playback environments. In a movie theater playback environment, projector 105 may be configured to project video images, such as a movie, onto screen 150. Audio data may be synchronized with the video images and processed by audio processor 110. Power amplifiers 115 may provide speaker signals to speakers of playback environment 100.

[0048] Конфигурация Dolby Surround 5.1 включает в себя левый канал 120 объемного звучания для левой матрицы 122 объемного звучания и правый канал 125 объемного звучания для правой матрицы 127 объемного звучания. Конфигурация Dolby Surround 5.1 также включает в себя левый канал 130 для левой матрицы 132 динамиков, центральный канал 135 для центральной матрицы 137 динамиков и правый канал 140 для правой матрицы 142 динамиков. В среде кинотеатра эти каналы могут называться левым каналом экрана, центральным каналом экрана и правым каналом экрана, соответственно. Отдельный канал 144 низкочастотных эффектов (LFE) обеспечен для сабвуфера 145.[0048] The Dolby Surround 5.1 configuration includes a left surround channel 120 for a left surround matrix 122 and a right surround channel 125 for a right surround matrix 127 . The Dolby Surround 5.1 configuration also includes a left channel 130 for the left speaker array 132, a center channel 135 for the center speaker array 137, and a right channel 140 for the right speaker array 142. In a movie theater environment, these channels may be referred to as the left screen channel, the center screen channel, and the right screen channel, respectively. A separate low frequency effects (LFE) channel 144 is provided for subwoofer 145.

[0049] В 2010 г. Dolby обеспечила улучшение для цифрового звука кинотеатра путем введения Dolby Surround 7.1. Фиг.2 изображает пример среды проигрывания, имеющей конфигурацию Dolby Surround 7.1. Цифровой проектор 205 может быть сконфигурирован для приема цифровых видеоданных и для проецирования видеоизображений на экран 150. Аудиоданные могут обрабатываться звуковым процессором 210. Усилители мощности 215 могут обеспечивать подаваемые сигналы динамика к динамикам среды проигрывания 200.[0049] In 2010, Dolby provided an improvement to digital cinema audio with the introduction of Dolby Surround 7.1. FIG. 2 depicts an example of a playback environment having a Dolby Surround 7.1 configuration. Digital projector 205 may be configured to receive digital video data and to project video images onto screen 150. Audio data may be processed by audio processor 210. Power amplifiers 215 may provide speaker signals to speakers of playback environment 200.

[0050] Как и Dolby Surround 5.1, конфигурация Dolby Surround 7.1 включает в себя левый канал 130 для левой матрицы 132 динамиков, центральный канал 135 для центральной матрицы 137 динамиков, правый канал 140 для правой матрицы 142 динамиков и канал 144 LFE для сабвуфера 145. Конфигурация Dolby Surround 7.1 включает в себя левую боковую матрицу 220 объемного звучания (Lss) и правую боковую матрицу 225 объемного звучания (Rss), каждая из которых может приводиться в действие одним каналом.[0050] Like Dolby Surround 5.1, the Dolby Surround 7.1 configuration includes a left channel 130 for the left speaker array 132, a center channel 135 for the center speaker array 137, a right channel 140 for the right speaker array 142, and an LFE channel 144 for the subwoofer 145. The Dolby Surround 7.1 configuration includes a left side surround (Lss) matrix 220 and a right side surround (Rss) matrix 225, each of which can be driven by one channel.

[0051] Однако Dolby Surround 7.1 увеличивает количество каналов объемного звучания путем разбиения левых и правых каналов объемного звучания Dolby Surround 5.1 на четыре зоны: дополнительно к левой боковой матрице 220 объемного звучания и правой боковой матрице 225 объемного звучания, отдельные каналы включены для левых задних динамиков 224 объемного звучания (Lrs) и правых задних динамиков 226 объемного звучания (Rrs). Увеличенное количество зон объемного звучания внутри среды 200 проигрывания может существенно улучшить локализацию звука.[0051] However, Dolby Surround 7.1 increases the number of surround channels by splitting the left and right surround channels of Dolby Surround 5.1 into four zones: in addition to the left side surround matrix 220 and the right side surround matrix 225, separate channels are included for the left rear speakers 224 surround sound (Lrs) and right rear speakers 226 surround sound (Rrs). An increased number of surround zones within the playback environment 200 can significantly improve sound localization.

[0052] В попытке создания более иммерсивной среды некоторые среды проигрывания могут быть сконфигурированы с увеличенными количествами динамиков, приводимых в действие увеличенными количествами каналов. Кроме того, некоторые среды проигрывания могут включать в себя динамики, размещенные на различных приподнятостях, некоторые из которых могут быть "динамиками высоты", сконфигурированными для создания звука от области, которая выше области сидения среды проигрывания.[0052] In an attempt to create a more immersive environment, some playback environments may be configured with increased numbers of speakers driving increased numbers of channels. In addition, some playback environments may include speakers placed at various elevations, some of which may be "height speakers" configured to produce sound from an area that is higher than the seating area of the playback environment.

[0053] Фиг.3A и 3B изображают два примера сред проигрывания домашнего кинотеатра, которые включают в себя конфигурации динамиков высоты. В этих примерах, среды 300a и 300b проигрывания включают в себя основные признаки конфигурации Dolby Surround 5.1, включающие в себя левый динамик 322 объемного звучания, правый динамик 327 объемного звучания, левый динамик 332, правый динамик 342, центральный динамик 337 и сабвуфер 145. Однако среда 300 проигрывания включает в себя расширение конфигурации Dolby Surround 5.1 для динамиков высоты, которое может называться конфигурацией Dolby Surround 5.1.2.[0053] FIGS. 3A and 3B depict two examples of home theater playback environments that include height speaker configurations. In these examples, playback environments 300a and 300b include the main features of a Dolby Surround 5.1 configuration, including a left surround speaker 322, a right surround speaker 327, a left speaker 332, a right speaker 342, a center speaker 337, and a subwoofer 145. However, The playback environment 300 includes an extension of the Dolby Surround 5.1 configuration for height speakers, which may be referred to as a Dolby Surround 5.1.2 configuration.

[0054] Фиг.3A изображает пример среды проигрывания, имеющей динамики высоты, установленные на потолке 360 среды проигрывания домашнего кинотеатра. В этом примере среда 300a проигрывания включает в себя динамик 352 высоты, который находится в левой верхней средней (Ltm) позиции, и динамик 357 высоты находится в правой верхней средней (Rtm) позиции. В примере, изображенном на фиг.3B, левый динамик 332 и правый динамик 342 являются динамиками приподнятости Dolby, которые конфигурируются для отражения звука от потолка 360. При надлежащей конфигурации отраженный звук может восприниматься слушателями 365 так, как если бы источник звука находился на потолке 360. Однако количество и конфигурация динамиков обеспечены лишь в качестве примера. Некоторые текущие осуществления домашних кинотеатров предусматривают вплоть до 34 позиций динамиков, и предполагаемые осуществления домашних кинотеатров могут обеспечить возможность еще большего количества позиций динамиков.[0054] FIG. 3A depicts an example of a playback environment having height speakers mounted on the ceiling 360 of a home theater playback environment. In this example, the playing environment 300a includes a height speaker 352 that is in the left upper middle (Ltm) position, and a height speaker 357 that is in the right upper middle (Rtm) position. In the example depicted in FIG. 3B, left speaker 332 and right speaker 342 are Dolby elevated speakers that are configured to reflect sound from the ceiling 360. When properly configured, the reflected sound can be perceived by listeners 365 as if the sound source were on the ceiling 360 However, the number and configuration of speakers are provided as an example only. Some current home theater implementations provide up to 34 speaker positions, and proposed home theater implementations may allow for even more speaker positions.

[0055] Соответственно, современной тенденцией является включать не только больше динамиков и больше каналов, но также включать динамики на различных высотах. По мере того как количество каналов увеличивается и размещение динамиков переходит от 2D к 3D, задачи позиционирования и рендеринга звуков становятся все более сложными.[0055] Accordingly, the current trend is to include not only more speakers and more channels, but also to include speakers at different heights. As the number of channels increases and speaker placement moves from 2D to 3D, the challenges of positioning and rendering sounds become increasingly complex.

[0056] Соответственно, Dolby разработала различные инструменты, включающие в себя, но не ограничивающиеся, пользовательские интерфейсы, которые увеличивают функциональные возможности и/или уменьшают сложность разработки для системы звука 3D-аудио. Некоторые такие инструменты могут быть использованы для создания звуковых объектов и/или метаданных для звуковых объектов.[0056] Accordingly, Dolby has developed various tools, including, but not limited to, user interfaces that increase functionality and/or reduce development complexity for a 3D audio sound system. Some such tools can be used to create audio objects and/or metadata for audio objects.

[0057] Фиг.4A изображает пример графического пользовательского интерфейса (GUI), который иллюстрирует зоны динамиков на изменяющихся приподнятостях в виртуальной среде проигрывания. GUI 400 может, например, отображаться на устройстве отображения согласно инструкциям от логической системы, согласно сигналам, принятым от устройств ввода пользователя, и т. д. Некоторые такие устройства описаны ниже со ссылками на фиг.11.[0057] FIG. 4A depicts an example graphical user interface (GUI) that illustrates speaker zones at varying elevations in a virtual playback environment. The GUI 400 may, for example, be displayed on a display device according to instructions from a logic system, according to signals received from user input devices, etc. Some such devices are described below with reference to FIG. 11.

[0058] Используемый здесь со ссылками на виртуальные среды проигрывания, такие как виртуальная среда 404 проигрывания, термин "зона динамика" в общем случае ссылается на логическую структуру, которая может иметь или не иметь взаимно-однозначное соответствие с фактическим динамиком среды проигрывания. Например, "местоположение зоны динамика" может соответствовать или не соответствовать конкретному местоположению динамика среды проигрывания кинотеатра. Вместо этого термин "местоположение зоны динамика" может ссылаться в общем случае на зону виртуальной среды проигрывания. В некоторых осуществлениях зона динамика виртуальной среды проигрывания может соответствовать виртуальному динамику, например, путем использования технологии виртуализации, такой как Dolby Headphone™ (иногда называемой Mobile Surround™), которая создает виртуальную среду объемного звука в реальном времени с использованием комплекта двухканальных стереонаушников. В GUI 400 существует семь зон 402a динамиков на первой приподнятости и две зоны 402b динамиков на второй приподнятости, что в сумме обеспечивает девять зон динамиков в виртуальной среде 404 проигрывания. В этом примере зоны 1–3 динамиков находятся в передней области 405 виртуальной среды 404 проигрывания. Передняя область 405 может соответствовать, например, области среды проигрывания кинотеатра, в которой расположен экран 150, области дома, в которой расположен телевизионный экран, и т. д.[0058] As used herein with reference to virtual playback environments, such as virtual playback environment 404, the term “speaker region” generally refers to a logical structure that may or may not have a one-to-one correspondence with the actual speaker of the playback environment. For example, a “speaker area location” may or may not correspond to a specific speaker location of a movie theater playing environment. Instead, the term "speaker area location" may refer generally to an area of the virtual playback environment. In some implementations, the speaker area of the virtual playback environment may correspond to a virtual speaker, for example, by using a virtualization technology such as Dolby Headphone™ (sometimes referred to as Mobile Surround™), which creates a virtual surround sound environment in real time using a set of two-channel stereo headphones. In the GUI 400, there are seven speaker zones 402a on the first elevation and two speaker zones 402b on the second elevation, for a total of nine speaker zones in the virtual playback environment 404. In this example, speaker zones 1-3 are in the front region 405 of the virtual playback environment 404. The front region 405 may correspond, for example, to an area of a movie theater playing environment in which the screen 150 is located, an area of a home in which a television screen is located, etc.

[0059] Здесь зона 4 динамика соответствует в общем динамикам в левой области 410, и зона 5 динамика соответствует динамикам в правой области 415 виртуальной среды 404 проигрывания. Зона 6 динамика соответствует левой задней области 412, и зона 7 динамика соответствует правой задней области 414 виртуальной среды 404 проигрывания. Зона 8 динамика соответствует динамикам в верхней области 420a, и зона 9 динамика соответствует динамикам в верхней области 420b, которая может быть областью виртуального потолка. Соответственно, местоположения зон 1–9 динамиков, которые показаны на фиг.4A, могут соответствовать или не соответствовать местоположениям фактических динамиков среды проигрывания. Кроме того, другие осуществления могут включать в себя больше или меньше зон динамиков и/или приподнятостей.[0059] Here, speaker zone 4 corresponds generally to speakers in the left region 410, and speaker zone 5 corresponds to speakers in the right region 415 of the virtual playback environment 404. Speaker zone 6 corresponds to the left rear region 412, and speaker zone 7 corresponds to the right rear region 414 of the virtual playback environment 404. Speaker zone 8 corresponds to speakers in the upper region 420a, and speaker zone 9 corresponds to speakers in the upper region 420b, which may be a virtual ceiling region. Accordingly, the locations of speaker zones 1 to 9, which are shown in FIG. 4A, may or may not correspond to the locations of actual speakers in the playback environment. Additionally, other implementations may include more or fewer speaker and/or raised areas.

[0060] В различных осуществлениях, описанных здесь, пользовательский интерфейс, такой как GUI 400, может быть использован в составе инструмента разработки и/или инструмента рендеринга. В некоторых осуществлениях инструмент разработки и/или инструмент рендеринга может осуществляться с помощью программных средств, сохраненных на одном или нескольких некратковременных носителях. Инструмент разработки и/или инструмент рендеринга может осуществляться (по меньшей мере частично) посредством аппаратных средств, программно-аппаратных средств и т. д., таких как логическая система и другие устройства, описанные ниже со ссылками на фиг.11. В некоторых осуществлениях разработки ассоциированный инструмент разработки может быть использован для создания метаданных для ассоциированных аудиоданных. Метаданные могут, например, включать в себя данные, указывающее позицию и/или траекторию звукового объекта в трехмерном пространстве, данные ограничения зоны динамика и т. д. Метаданные могут создаваться в отношении зон 402 динамиков виртуальной среды 404 проигрывания, а не в отношении конкретного размещения фактических динамиков среды проигрывания. Инструмент рендеринга может принимать аудиоданные и ассоциированные метаданные и может вычислять усиления аудио и подаваемые сигналы динамика для среды проигрывания. Такие усиления аудио и подаваемые сигналы динамика могут быть вычислены согласно процессу панорамирования амплитуды, который может создавать впечатление, что звук исходит из позиции P в среде проигрывания. Например, подаваемые сигналы динамика могут быть обеспечены динамикам от 1 до N среды проигрывания согласно следующему уравнению:[0060] In various implementations described herein, a user interface, such as GUI 400, may be used as part of a development tool and/or rendering tool. In some implementations, the development tool and/or rendering tool may be implemented using software stored on one or more non-transitory media. The development tool and/or rendering tool may be implemented (at least in part) by hardware, firmware, etc., such as the logic system and other devices described below with reference to FIG. 11. In some implementations of the development, an associated authoring tool may be used to create metadata for the associated audio data. The metadata may, for example, include data indicating the position and/or path of an audio object in three-dimensional space, speaker area limitation data, etc. The metadata may be created with respect to the speaker areas 402 of the virtual playback environment 404 rather than with respect to a specific placement actual speakers of the playback environment. The rendering tool can receive audio data and associated metadata and can calculate audio gains and speaker inputs for the playback environment. Such audio gains and speaker inputs can be calculated according to an amplitude panning process, which can make the sound appear to be coming from position P in the playback environment. For example, speaker input signals may be provided to speakers 1 to N of the playback environment according to the following equation:

[0061] x _i (t)=g _i x(t), i=1,..., N (Уравнение 1)[0061] x _i (t)=g _i x(t) , i= 1,..., N (Equation 1)

[0062] В уравнении 1 x _i (t) представляет подаваемый сигнал динамика, который должен быть применен к динамику i, g _i представляет коэффициент усиления соответствующего канала, x(t) представляет аудиосигнал и t представляет время. Коэффициенты усиления могут быть определены, например, согласно способам панорамирования амплитуды, описанным в разделе 2 на страницах 3-4 работы В. Пулкки "Компенсация замещения виртуальных источников после панорамирования амплитуды" (Общество инженеров по звуковой технике (AES), Международная конференция по виртуальному, синтетическому и развлекательному аудио), которая включена в настоящий документ посредством ссылки. В некоторых осуществлениях усиления могут быть зависимы от частоты. В некоторых осуществлениях время задержка может быть представлено путем замены x(t) на x(t-Δt).[0062] In Equation 1, x _i (t) represents the speaker input signal to be applied to speaker i , g _i represents the gain of the corresponding channel, x(t) represents the audio signal, and t represents time. The gains can be determined, for example, according to the amplitude panning techniques described in section 2 on pages 3-4 of V. Pulkki's "Displacement compensation of virtual sources after amplitude panning" (Audio Engineering Society (AES), International Conference on Virtual, synthetic and entertainment audio), which is incorporated herein by reference. In some implementations, the gains may be frequency dependent. In some implementations, the time delay may be represented by replacing x(t) with x(t-Δt) .

[0063] В некоторых осуществлениях рендеринга данные воспроизведения аудио, созданные со ссылками на зоны 402 динамиков, могут быть отображены в местоположения динамиков широкого диапазона сред проигрывания, которые могут быть конфигурацией Dolby Surround 5.1, конфигурацией Dolby Surround 7.1, конфигурацией Hamasaki 22.2 или другой конфигурацией. Например, со ссылкой на фиг.2, инструмент рендеринга может отображать данные воспроизведения аудио для зон 4 и 5 динамиков в матрицу 220 объемного звучания левой стороны и матрицу 225 объемного звучания правой стороны среды проигрывания, имеющей конфигурацию Dolby Surround 7.1. Данные воспроизведения аудио для зон 1, 2 и 3 динамиков могут отображаться в левый канал 230 экрана, правый канал 240 экрана и центральный канал 235 экрана, соответственно. Данные воспроизведения аудио для зон 6 и 7 динамиков могут отображаться в левые задние динамики 224 объемного звучания и правые задние динамики 226 объемного звучания.[0063] In some rendering implementations, audio playback data created with references to speaker zones 402 may be mapped to speaker locations of a wide range of playback environments, which may be a Dolby Surround 5.1 configuration, a Dolby Surround 7.1 configuration, a Hamasaki 22.2 configuration, or another configuration. For example, with reference to FIG. 2, the rendering tool may map audio playback data for speaker zones 4 and 5 into a left-side surround matrix 220 and a right-side surround matrix 225 of a playback environment having a Dolby Surround 7.1 configuration. Audio playback data for speaker zones 1, 2, and 3 may be displayed on the left screen channel 230, the right screen channel 240, and the center screen channel 235, respectively. Audio playback data for speaker zones 6 and 7 can be displayed to the left surround back speakers 224 and the right surround back speakers 226.

[0064] Фиг.4B изображает пример другой среды проигрывания. В некоторых осуществлениях инструмент рендеринга может отображать данные воспроизведения аудио для зон 1, 2 и 3 динамиков для соответствующих динамиков 455 экрана среды 450 проигрывания. Инструмент рендеринга может отображать данные воспроизведения аудио для зон 4 и 5 динамиков в матрицу 460 объемного звучания левой стороны и матрицу 465 объемного звучания правой стороны и может отображать данные воспроизведения аудио для зон 8 и 9 динамиков в левые верхние динамики 470a и правые верхние динамики 470b. Данные воспроизведения аудио для зон 6 и 7 динамиков могут отображаться в левые задние динамики 480a объемного звучания и правые задние динамики 480b объемного звучания.[0064] FIG. 4B depicts an example of another playback environment. In some implementations, the rendering tool may display audio playback data for speaker zones 1, 2, and 3 for the corresponding speakers 455 of the playback environment 450 screen. The rendering tool may map audio playback data for speaker zones 4 and 5 to left-side surround matrix 460 and right-side surround matrix 465, and can map audio playback data for speaker zones 8 and 9 to left-height speakers 470a and right-height speakers 470b. Audio playback data for speaker zones 6 and 7 may be displayed to the left surround back speakers 480a and the right surround back speakers 480b.

[0065] В некоторых осуществления разработки инструменты разработки могут быть использованы для создания метаданных для звуковых объектов. Метаданные могут указывать 3D-позицию объекта, ограничения рендеринга, тип содержимого (например, диалог, эффекты и т. д.) и/или другую информацию. В зависимости от осуществления, метаданные могут включать в себя другие типы данных, такие как данные ширины, данные усиления, данные траектории и т. д. Некоторые звуковые объекты могут быть статичными, в то время как другие могут перемещаться.[0065] In some development implementations, development tools can be used to create metadata for audio objects. Metadata may indicate the 3D position of an object, rendering constraints, content type (such as dialogue, effects, etc.), and/or other information. Depending on the implementation, the metadata may include other types of data, such as width data, gain data, path data, etc. Some audio objects may be static, while others may move.

[0066] Звуковые объекты подвергаются рендерингу согласно их ассоциированным метаданным, которые в общем случае включают в себя позиционные метаданные, указывающие позицию звукового объекта в трехмерном пространстве в некоторый заданный момент времени. Когда звуковые объекты отслеживаются или проигрываются в среде проигрывания, звуковые объекты подвергаются рендерингу согласно позиционным метаданным с использованием динамиков, которые присутствуют в среде проигрывания, вместо того, чтобы выводиться в предварительно определенный физический канал, как в случае с традиционными системами на основе каналов, такими как Dolby 5.1 и Dolby 7.1.[0066] Audio objects are rendered according to their associated metadata, which generally includes positional metadata indicating the position of the audio object in three-dimensional space at some given point in time. When audio objects are tracked or played in the playback environment, the audio objects are rendered according to positional metadata using the speakers that are present in the playback environment, rather than being output to a predefined physical channel, as is the case with traditional channel-based systems such as Dolby 5.1 and Dolby 7.1.

[0067] В качестве дополнения к позиционным метаданным, другие типы метаданных могут быть необходимы для создания надлежащих аудиоэффектов. Например, в некоторых осуществлениях метаданные, ассоциированные со звуковым объектом, могут указывать размер звукового объекта, который может также называться "шириной". Метаданные размера могут быть использованы для указания пространственной области или объема, занятых звуковым объектом. Пространственно большой звуковой объект должен восприниматься как покрывающий большую пространственную область, не только в качестве точечного источника звука, имеющего местоположение, определенное только метаданными позиции звукового объекта. В некоторых случаях, например, большой звуковой объект должен восприниматься как занимающий существенную часть среды проигрывания, возможно даже окружающий слушателя.[0067] In addition to positional metadata, other types of metadata may be necessary to create proper audio effects. For example, in some implementations, metadata associated with an audio object may indicate the size of the audio object, which may also be referred to as "width". Size metadata can be used to indicate the spatial area or volume occupied by an audio object. A spatially large sound object must be perceived as covering a large spatial area, not just as a point sound source having a location defined only by the sound object's position metadata. In some cases, for example, a large sound object must be perceived as occupying a significant part of the playing environment, perhaps even surrounding the listener.

[0068] Система слуха человека очень чувствительна к изменениям в корреляции или согласованности сигналов, поступающих в оба уха, и отображает эту корреляцию в атрибут воспринимаемого размера объекта, если нормализованная корреляция меньше значения +1. Таким образом, для того чтобы создать убедительный размер пространственного объекта, или пространственную диффузность, существенная часть сигналов динамика в среде проигрывания должна быть взаимно независима или по меньшей мере некоррелированна (например, независима в плане взаимной корреляции первого порядка или ковариации). Удовлетворительный процесс декорреляции обычно достаточно сложен и, как правило, включает в себя фильтры, переменные во времени.[0068] The human hearing system is very sensitive to changes in the correlation or coherence of signals entering both ears, and maps this correlation to the perceived size of an object attribute if the normalized correlation is less than a value of +1. Thus, in order to create convincing feature size, or spatial diffuseness, a significant portion of the speaker signals in the playback environment must be mutually independent or at least uncorrelated (eg, independent in terms of first-order cross-correlation or covariance). A satisfactory decorrelation process is usually quite complex and typically involves time-varying filters.

[0069] Кинематографическая звуковая дорожка может включать в себя сотни объектов, с каждым из которых ассоциированы метаданные позиции, метаданные размера и, возможно, другие пространственные метаданные. Кроме того, система звука кинотеатра может включать в себя сотни громкоговорителей, которые могут быть индивидуально управляемыми для обеспечения удовлетворительного восприятия местоположений и размеров звуковых объектов. В кинотеатре, таким образом, сотни объектов могут воспроизводиться сотнями громкоговорителей, и отображение из объекта в сигнал громкоговорителя состоит из очень большой матрицы коэффициентов панорамирования. Когда количество объектов представлено как M и количество громкоговорителей представлено как N, эта матрица имеет вплоть до M*N элементов. Это создает осложнения для воспроизведения диффузных или больших объектов. Для создания убедительного размера пространственного объекта, или пространственной диффузности, существенная часть сигналов N громкоговорителей должна быть взаимно независимой или по меньшей мере некоррелированной. Это в общем случае включает в себя использование множества (вплоть до N) независимых процессов декорреляции, вызывающих существенную процессорную нагрузку для процесса рендеринга. Кроме того, количество декорреляции может быть различным для каждого объекта, что дополнительно усложняет процесс рендеринга. Достаточно сложная система рендеринга, такая как система рендеринга для коммерческого театра, может иметь возможность обеспечения такой декорреляции.[0069] A cinematic soundtrack may include hundreds of objects, each of which has position metadata, size metadata, and possibly other spatial metadata associated with it. In addition, a movie theater sound system may include hundreds of loudspeakers that may be individually controlled to provide satisfactory perception of the locations and sizes of sound objects. In a movie theater, therefore, hundreds of objects may be played by hundreds of loudspeakers, and the mapping from object to loudspeaker signal consists of a very large matrix of panning coefficients. When the number of objects is represented as M and the number of speakers is represented as N, this matrix has up to M*N elements. This creates complications for reproducing diffuse or large objects. To create a convincing feature size, or spatial diffuseness, a significant portion of the N loudspeaker signals must be mutually independent or at least uncorrelated. This generally involves the use of many (up to N) independent decorrelation processes, causing significant CPU overhead to the rendering process. Additionally, the amount of decorrelation can be different for each object, further complicating the rendering process. A sufficiently complex rendering system, such as a commercial theater rendering system, may be able to provide such decorrelation.

[0070] Однако менее сложные системы рендеринга, такие как предназначенные для систем домашних кинотеатров, не могут иметь возможность обеспечения достаточной декорреляции. Некоторые такие системы рендеринга вообще не имеют возможности обеспечения декорреляции. Программы декорреляции, которые достаточно просты для исполнения в системе домашнего кинотеатра, могут вносить артефакты. Например, артефакты гребенчатого фильтра могут быть внесены, если за процессом декорреляции низкой сложности следует процесс понижающего микширования.[0070] However, less complex rendering systems, such as those designed for home theater systems, may not be able to provide sufficient decorrelation. Some such rendering systems do not have decorrelation capabilities at all. Decorrelation programs that are simple enough to run on a home theater system may introduce artifacts. For example, comb filter artifacts may be introduced if a low complexity decorrelation process is followed by a downmixing process.

[0071] Другая потенциальная проблема состоит в том, что в некоторых применениях основанное на объектах аудио передается в форме обратно-совместимого микса (такого как Dolby Digital или Dolby Digital Plus), дополненного дополнительной информацией для извлечения одного или нескольких объектов из обратно-совместимого микса. В обратно-совместимый микс обычно не будет включен эффект декорреляции. В некоторых таких системах восстановление объектов может работать надежно, только если обратно-совместимый микс был создан с использованием простых процедур панорамирования. Использование средств декорреляции в таких процессах может повредить процессу восстановления звукового объекта, иногда существенно. В прошлом это означало, что можно было легко сделать выбор не применять декорреляцию в обратно-совместимом миксе, из-за чего страдал авторский замысел этого микса, или принять ухудшение процесса восстановления объекта.[0071] Another potential problem is that in some applications, object-based audio is delivered in the form of a backwards-compatible mix (such as Dolby Digital or Dolby Digital Plus) supplemented with additional information to extract one or more objects from the backwards-compatible mix . A backwards-compatible mix will typically not include decorrelation. In some such systems, object restoration can only work reliably if the backwards-compatible mix was created using simple panning procedures. The use of decorrelation tools in such processes can damage the audio object restoration process, sometimes significantly. In the past, this meant that it was easy to choose not to apply decorrelation to a backward-compatible mix, which would compromise the original intent of that mix, or to accept the deterioration of the object restoration process.

[0072] Для того, чтобы решить такие потенциальные проблемы, некоторые осуществления, описанные здесь, включают в себя определение диффузных или пространственно больших звуковых объектов для специальной обработки. Такие способы и устройства могут, в частности, подходить для аудиоданных, которые должны быть подвергнуты рендерингу в домашнем кинотеатре. Однако эти способы и устройства не ограничиваются использованием в домашнем кинотеатре, а вместо этого имеют возможность широкого применения.[0072] In order to overcome such potential problems, some implementations described herein include identifying diffuse or spatially large audio objects for special processing. Such methods and devices may be particularly suitable for audio data to be rendered in a home theater environment. However, these methods and devices are not limited to home theater use, but instead have wide application potential.

[0073] Ввиду их пространственно диффузной природы, объекты с большим размером не воспринимаются как точечные источники с компактным и конкретным местоположением. Таким образом, множество динамиков используется для воспроизведения таких пространственно диффузных объектов. Однако точные местоположения динамиков в среде проигрывания, которые используются для воспроизведения больших звуковых объектов, менее критичны, чем местоположения динамиков, используемых для воспроизведения компактных, маленьких звуковых объектов. Соответственно, высококачественное воспроизведение больших звуковых объектов возможно без предварительного знания о конфигурации фактических динамиков проигрывания, используемой впоследствии для осуществления рендеринга декоррелированных сигналов больших звуковых объектов для фактических динамиков среды проигрывания. Следовательно, процессы декорреляции для больших звуковых объектов могут выполняться ранее, перед процессом рендеринга аудиоданных для воспроизведения в среде проигрывания, такой как система домашнего кинотеатра, для слушателей. В некоторых примерах процессы декорреляции для больших звуковых объектов выполняются до кодирования аудиоданных для передачи к таким средам проигрывания.[0073] Due to their spatially diffuse nature, objects with a large size are not perceived as point sources with a compact and specific location. Thus, multiple speakers are used to reproduce such spatially diffuse objects. However, the precise locations of speakers in the playback environment that are used to reproduce large sound objects are less critical than the locations of speakers used to reproduce compact, small sound objects. Accordingly, high-quality reproduction of large audio objects is possible without prior knowledge of the configuration of the actual playback speakers, which is subsequently used to render decorrelated large audio object signals to the actual speakers of the playback environment. Therefore, decorrelation processes for large audio objects can be performed earlier, prior to the process of rendering audio data for playback in a playback environment, such as a home theater system, for listeners. In some examples, decorrelation processes for large audio objects are performed before audio data is encoded for transmission to such playback environments.

[0074] Такие осуществления не требуют, чтобы средство рендеринга среды проигрывания имело возможность декорреляции высокой сложности, благодаря чему обеспечивается возможность для процессов рендеринга, которые могут быть относительно проще, эффективнее и дешевле. Обратно-совместимые понижающие миксы могут включать в себя эффект декорреляции для сохранения максимального возможного авторского замысла без необходимости в реконструкции объекта для декорреляции на стороне рендеринга. Высококачественные средства декорреляции могут применяться к большим звуковым объектам ранее финального процесса рендеринга, например, в течение процесса разработки или постпроизводства в студии звукозаписи. Такие средства декорреляции могут быть надежными в отношении понижающего микширования и/или другой последующей обработки аудио.[0074] Such implementations do not require the playback environment renderer to have high complexity decorrelation capabilities, thereby allowing for rendering processes that can be relatively simpler, more efficient, and less expensive. Backward-compatible downmixes can include a decorrelation effect to preserve as much of the author's intent as possible without the need to reconstruct the object for decorrelation on the rendering side. High-quality decorrelation tools can be applied to large audio objects earlier than the final rendering process, for example during the development or post-production process in a recording studio. Such decorrelation means may be robust to downmixing and/or other subsequent audio processing.

[0075] Фиг.5 изображает блок-схему, которая обеспечивает пример обработки аудио для пространственно больших звуковых объектов. Операции способа 500, как и у других способов, описанных здесь, не обязательно выполняются в указанном порядке. Кроме того, эти способы могут включать в себя больше или меньше блоков, чем показано и/или описано. Эти способы могут осуществляться, по меньшей мере частично, логической системой, такой как логическая система 1110, изображенная на фиг.11 и описанная ниже. Такая логическая система может быть компонентом системы обработки аудио. В качестве альтернативы или дополнения, такие способы могут осуществляться посредством некратковременного носителя, имеющего программные средства, сохраненные на нем. Программные средства могут включать в себя инструкции для управления одним или несколькими устройствами для выполнения, по меньшей мере частично, способов, описанных здесь.[0075] FIG. 5 depicts a block diagram that provides an example of audio processing for spatially large audio objects. The operations of method 500, like other methods described herein, are not necessarily performed in the specified order. In addition, these methods may include more or fewer blocks than are shown and/or described. These methods may be implemented, at least in part, by a logic system, such as logic system 1110 shown in FIG. 11 and described below. Such a logic system may be a component of an audio processing system. Alternatively or in addition, such methods may be carried out via a non-transitory medium having software stored thereon. The software may include instructions for controlling one or more devices to perform, at least in part, the methods described herein.

[0076] В этом примере способ 500 начинается с блока 505, который включает в себя прием аудиоданных, включающих в себя звуковые объекты. Аудиоданные могут приниматься системой обработки аудио. В этом примере звуковые объекты включают в себя сигналы звуковых объектов и ассоциированные метаданные. Здесь ассоциированные метаданные включают в себя данные размера звукового объекта. Ассоциированные метаданные также могут включать в себя данные позиции звукового объекта, указывающие позицию звукового объекта в трехмерном пространстве, метаданные декорреляции, информацию усиления звукового объекта и т. д. Аудиоданные также могут включать в себя один или несколько сигналов звуковой подложки, соответствующих местоположениям динамиков.[0076] In this example, method 500 begins at block 505, which includes receiving audio data including audio objects. The audio data may be received by an audio processing system. In this example, audio objects include audio object signals and associated metadata. Here, the associated metadata includes size data of the audio object. The associated metadata may also include audio object position data indicating the audio object's position in three-dimensional space, decorrelation metadata, audio object gain information, etc. The audio data may also include one or more audio substrate signals corresponding to speaker locations.

[0077] В этом осуществлении блок 510 включает в себя определение, на основе данных размера звукового объекта, большого звукового объекта, имеющего размер звукового объекта, который больше порогового размера. Например, блок 510 может включать в себя определение, превосходит ли значение численного размера звукового объекта предварительно определенный уровень. Значение численного размера звукового объекта может, например, соответствовать части среды проигрывания, занятой звуковым объектом. В качестве альтернативы или дополнения, блок 510 может включать в себя определение, указывает ли другой тип указания, такое как флаг, метаданные декорреляции и т. д., что звуковой объект имеет размер звукового объекта, который больше порогового размера. Хотя большая часть рассмотрения способа 500 включает в себя обработку одного большого звукового объекта, следует понимать, что те же самые (или подобные) процессы могут применяться к множеству больших звуковых объектов.[0077] In this implementation, block 510 includes determining, based on the audio object size data, a large audio object having an audio object size that is larger than a threshold size. For example, block 510 may include determining whether the numerical size value of an audio object exceeds a predetermined level. The numerical size value of the sound object may, for example, correspond to the portion of the playing environment occupied by the sound object. Alternatively or in addition, block 510 may include determining whether another type of indication, such as a flag, decorrelation metadata, etc., indicates that the audio object has an audio object size that is greater than a threshold size. While much of the discussion of method 500 involves processing a single large audio object, it should be understood that the same (or similar) processes may be applied to multiple large audio objects.

[0078] В этом примере блок 515 включает в себя выполнение процесса декорреляции над аудиосигналами больших звуковых объектов, производящего декоррелированные аудиосигналы больших звуковых объектов. В некоторых осуществлениях процесс декорреляции может выполняться, по меньшей мере частично, согласно принятым метаданным декорреляции. Процесс декорреляции может включать в себя задержки, универсальные фильтры, псевдослучайные фильтры и/или алгоритмы реверберации.[0078] In this example, block 515 includes performing a decorrelation process on the LOB audio signals, producing decorrelated LOB audio signals. In some implementations, the decorrelation process may be performed at least in part according to received decorrelation metadata. The decorrelation process may include delays, universal filters, pseudo-random filters, and/or reverberation algorithms.

[0079] Здесь на блоке 520 декоррелированные аудиосигналы больших звуковых объектов ассоциируются с местоположениями объектов. В этом примере процесс ассоциирования независим от конфигурации фактических динамиков проигрывания, которая может быть использована впоследствии для осуществления рендеринга декоррелированных аудиосигналов больших звуковых объектов для фактических динамиков проигрывания среды проигрывания. Однако в некоторых альтернативных осуществлениях местоположения объектов могут соответствовать местоположениям фактических динамиков проигрывания. Например, согласно некоторым таким альтернативным осуществлениям, местоположения объектов могут соответствовать местоположениям динамиков проигрывания широко используемых конфигураций динамиков проигрывания. Если сигналы звуковой подложки принимаются на блоке 505, местоположения объектов могут соответствовать местоположениям динамиков проигрывания, соответствующим по меньшей мере некоторым из сигналов звуковой подложки. В качестве альтернативы или дополнения, местоположения объектов могут быть местоположениями, соответствующими по меньшей мере некоторым из данных позиции звукового объекта принятых звуковых объектов. Соответственно, по меньшей мере некоторые из местоположений объектов могут быть стационарными, в то время как по меньшей мере некоторые из местоположений объектов могут изменяться с течением времени. В некоторых осуществлениях блок 520 может включать в себя микширование декоррелированных аудиосигналов больших звуковых объектов с аудиосигналами для звуковых объектов, которые пространственно отделяются пороговым расстоянием от большого звукового объекта.[0079] Here at block 520, decorrelated large audio object audio signals are associated with object locations. In this example, the association process is independent of the configuration of the actual playback speakers, which can be subsequently used to render decorrelated audio signals of large audio objects to the actual playback speakers of the playback environment. However, in some alternative implementations, the locations of the objects may correspond to the locations of the actual playback speakers. For example, according to some such alternative implementations, the locations of the objects may correspond to the locations of the playback speakers of commonly used playback speaker configurations. If the audio cues are received at block 505, the object locations may correspond to playback speaker locations corresponding to at least some of the audio cues. Alternatively or in addition, the object locations may be locations corresponding to at least some of the sound object position data of the received sound objects. Accordingly, at least some of the object locations may be stationary, while at least some of the object locations may change over time. In some implementations, block 520 may include mixing decorrelated audio signals of large audio objects with audio signals for audio objects that are spatially separated by a threshold distance from the large audio object.

[0080] В некоторых осуществлениях блок 520 может включать в себя рендеринг декоррелированных аудиосигналов больших звуковых объектов согласно местоположениям виртуальных динамиков. Некоторые такие осуществления могут включать в себя вычисление вкладов от виртуальных источников внутри области или объема звукового объекта, определенных данными позиции большого звукового объекта и данными размера большого звукового объекта. Такие осуществления могут включать в себя определение набора значений усиления звуковых объектов для каждого из множества выходных каналов на основе, по меньшей мере частично, вычисленных вкладов. Некоторые примеры описаны ниже.[0080] In some implementations, block 520 may include rendering decorrelated audio signals of large audio objects according to virtual speaker locations. Some such implementations may include calculating contributions from virtual sources within an area or volume of an audio object determined by audio large object position data and audio large object size data. Such implementations may include determining a set of audio object gain values for each of the plurality of output channels based at least in part on the calculated contributions. Some examples are described below.

[0081] Некоторые осуществления могут включать в себя кодирование аудиоданных, выходящих из процесса ассоциирования. Согласно некоторым таким осуществлениям, процесс кодирования включает в себя кодирование сигналов звуковых объектов и ассоциированных метаданных. В некоторых осуществлениях процесс кодирования включает в себя процесс сжатия данных. Процесс сжатия данных может быть без потерь или с потерями. В некоторых осуществлениях процесс сжатия данных включает в себя процесс квантования. Согласно некоторым примерам, процесс кодирования не включает в себя кодирование метаданных декорреляции для большого звукового объекта.[0081] Some implementations may include encoding audio data emerging from the association process. According to some such implementations, the encoding process includes encoding audio object signals and associated metadata. In some implementations, the encoding process includes a data compression process. The data compression process can be lossless or lossy. In some implementations, the data compression process includes a quantization process. According to some examples, the encoding process does not include encoding decorrelation metadata for the large audio object.

[0082] Некоторые осуществления включают в себя выполнение процесса кластеризации звуковых объектов, также называемого здесь процессом "упрощения сцены". Например, процесс кластеризации звуковых объектов может быть частью блока 520. Для осуществлений, которые включают в себя кодирование, процесс кодирования может включать в себя кодирование аудиоданных, которые выводятся из процесса кластеризации звуковых объектов. В некоторых таких осуществлениях процесс кластеризации звуковых объектов может выполняться после процесса декорреляции. Дополнительные примеры процессов, соответствующих блокам способа 500, включающих в себя процессы упрощения сцены, обеспечены ниже.[0082] Some implementations include performing an audio object clustering process, also referred to herein as a "scene simplification" process. For example, an audio object clustering process may be part of block 520. For implementations that include encoding, the encoding process may include encoding audio data that is output from the audio object clustering process. In some such implementations, the audio object clustering process may be performed after the decorrelation process. Additional examples of processes corresponding to blocks of method 500 including scene simplification processes are provided below.

[0083] Фиг.6A–6F изображают структурные схемы, которые иллюстрируют примеры компонентов систем обработки аудио, которые имеют возможность обработки больших звуковых объектов, как описано здесь. Эти компоненты могут, например, соответствовать модулям логической системы для системы обработки аудио, которая может осуществляться посредством аппаратных средств, программно-аппаратных средств, программных средств, сохраненных на одном или нескольких некратковременных носителях или комбинаций перечисленного. Логическая система может включать в себя один или несколько процессоров, таких как универсальные одно- или многочиповые процессоры. Логическая система может включать в себя процессор цифровых сигналов (DSP), специализированную интегральную схему (ASIC), программируемую пользователем вентильную матрицу (FPGA) или другое программируемое логическое устройство, схему на дискретных компонентах или транзисторную логическую схему, дискретные аппаратные компоненты и/или комбинации перечисленного.[0083] FIGS. 6A through 6F are block diagrams that illustrate example components of audio processing systems that have the ability to process large audio objects as described herein. These components may, for example, correspond to logic system modules for an audio processing system, which may be implemented in hardware, firmware, software stored on one or more non-transitory media, or combinations thereof. The logic system may include one or more processors, such as general-purpose single- or multi-chip processors. The logic system may include a digital signal processor (DSP), an application specific integrated circuit (ASIC), a field programmable gate array (FPGA) or other programmable logic device, discrete or transistor logic, discrete hardware components, and/or combinations thereof. .

[0084] На фиг.6A система 600 обработки аудио имеет возможность обнаружения больших звуковых объектов, таких как большой звуковой объект 605. Процесс обнаружения может по существу быть подобен одному из процессов, описанных со ссылками на блок 510 с фиг.5. В этом примере аудиосигналы больших звуковых объектов 605 декоррелируются системой 610 декорреляции для создания декоррелированных сигналов 611 больших звуковых объектов. Система 610 декорреляции может выполнять процесс декорреляции, по меньшей мере частично, согласно принятым метаданным декорреляции для большого звукового объекта 605. Процесс декорреляции может включать в себя одно или более из задержек, универсальных фильтров, псевдослучайных фильтров или алгоритмов реверберации.[0084] In FIG. 6A, audio processing system 600 is capable of detecting large audio objects, such as large audio object 605. The detection process may be substantially similar to one of the processes described with reference to block 510 of FIG. 5. In this example, audio large object signals 605 are decorrelated by decorrelation system 610 to create decorrelated large object signals 611. Decorrelation system 610 may perform a decorrelation process, at least in part, according to received decorrelation metadata for large audio object 605. The decorrelation process may include one or more of delays, universal filters, pseudo-random filters, or reverberation algorithms.

[0085] Система 600 обработки аудио также имеет возможность приема других аудиосигналов, которые являются другими звуковыми объектами и/или подложками 615 в этом примере. Здесь другие звуковые объекты являются звуковыми объектами, которые имеют размер, который меньше порогового размера для того, чтобы охарактеризовать звуковой объект как большой звуковой объект.[0085] The audio processing system 600 also has the ability to receive other audio signals, which are other audio objects and/or substrates 615 in this example. Here, the other sound objects are sound objects that have a size that is less than a threshold size for characterizing the sound object as a large sound object.

[0086] В этом примере система 600 обработки аудио имеет возможность ассоциирования декоррелированных аудиосигналов больших звуковых объектов 611 с местоположениями других объектов. Местоположения объектов могут быть стационарными или могут изменяться с течением времени. Процесс ассоциирования может быть подобен одному или нескольким из процессов, описанных выше со ссылками на блок 520 с фиг.5.[0086] In this example, the audio processing system 600 has the ability to associate decorrelated audio signals of large audio objects 611 with the locations of other objects. Object locations may be stationary or may change over time. The association process may be similar to one or more of the processes described above with reference to block 520 of FIG. 5.

[0087] Процесс ассоциирования может включать в себя процесс микширования. Процесс микширования может основываться, по меньшей мере частично, на расстоянии между местоположением большого звукового объекта и местоположением другого объекта. В осуществлении, изображенном на фиг.6A, система 600 обработки аудио имеет возможность микширования декоррелированных сигналов 611 больших звуковых объектов с по меньшей мере некоторыми аудиосигналами, соответствующими звуковым объектам и/или подложкам 615. Например, система 600 обработки аудио может иметь возможность микширования декоррелированных аудиосигналов 611 больших звуковых объектов с аудиосигналами для других звуковых объектов, которые пространственно отделяются пороговой величиной расстояния от большого звукового объекта.[0087] The association process may include a mixing process. The mixing process may be based, at least in part, on the distance between the location of a large audio object and the location of another object. In the implementation depicted in FIG. 6A, audio processing system 600 is capable of mixing decorrelated large audio object signals 611 with at least some audio signals corresponding to audio objects and/or substrates 615. For example, audio processing system 600 may be capable of mixing decorrelated audio signals. 611 large sound objects with audio signals to other sound objects that are spatially separated by a distance threshold from the large sound object.

[0088] В некоторых осуществлениях процесс ассоциирования может включать в себя процесс рендеринга. Например, процесс ассоциирования может включать в себя рендеринг декоррелированных аудиосигналов больших звуковых объектов согласно местоположениям виртуальных динамиков. Некоторые примеры описаны ниже. После процесса рендеринга может не быть необходимости в сохранении аудиосигналов, соответствующих большому звуковому объекту, которые были приняты системой 610 декорреляции. Соответственно, система 600 обработки аудио может быть сконфигурирована для ослабления или удаления аудиосигналов больших звуковых объектов 605 после того, как процесс декорреляции выполняется системой 610 декорреляции. В качестве альтернативы, система 600 обработки аудио может быть сконфигурирована для сохранения по меньшей мере части аудиосигналов больших звуковых объектов 605 (например, аудиосигналов, соответствующих вкладу точечного источника большого звукового объекта 605) после того, как процесс декорреляции выполняется.[0088] In some implementations, the association process may include a rendering process. For example, the association process may include rendering decorrelated audio signals of large audio objects according to the locations of virtual speakers. Some examples are described below. After the rendering process, there may be no need to store the audio signals corresponding to the large audio object that were received by the decorrelation system 610. Accordingly, audio processing system 600 may be configured to attenuate or remove audio signals of large audio objects 605 after the decorrelation process is performed by decorrelation system 610. Alternatively, the audio processing system 600 may be configured to store at least a portion of the audio signals of the large audio objects 605 (eg, audio signals corresponding to the point source contribution of the large audio object 605) after the decorrelation process is performed.

[0089] В этом примере система 600 обработки аудио включает в себя кодер 620, который имеет возможность кодирования аудиоданных. Здесь кодер 620 сконфигурирован для кодирования аудиоданных после процесса ассоциирования. В этом осуществлении кодер 620 имеет возможность применения процесса сжатия данных к аудиоданным. Закодированные аудиоданные 622 могут сохраняться и/или передаваться другим системам обработки аудио для последующей обработки, проигрывания и т. д.[0089] In this example, audio processing system 600 includes an encoder 620 that is capable of encoding audio data. Here, encoder 620 is configured to encode audio data after the association process. In this implementation, encoder 620 has the ability to apply a data compression process to the audio data. The encoded audio data 622 may be stored and/or transmitted to other audio processing systems for subsequent processing, playback, etc.

[0090] В осуществлении, изображенном на фиг.6B, система 600 обработки аудио имеет возможность регулирования уровня. В этом примере система 612 регулирования уровня сконфигурирована для регулирования уровней выходящих сигналов системы 610 декорреляции. Процесс регулирования уровня может зависеть от метаданных звуковых объектов в исходном содержимом. В этом примере процесс регулирования уровня зависит, по меньшей мере частично, от метаданных размера звукового объекта и метаданных позиции звукового объекта большого звукового объекта 605. Такое регулирование уровня может быть использовано для оптимизирования распределения выходного сигнала средства декорреляции к другим звуковым объектам, таким как звуковые объекты и/или подложки 615. Можно сделать выбор микшировать выходные сигналы средства декорреляции к сигналам другого объекта, которые пространственно отдалены, для того, чтобы улучшить пространственную диффузность получающейся в результате рендеринга.[0090] In the implementation depicted in FIG. 6B, the audio processing system 600 has level control capability. In this example, the level control system 612 is configured to control the levels of the output signals of the decorrelation system 610. The level adjustment process may depend on the metadata of audio objects in the source content. In this example, the level adjustment process depends at least in part on the size metadata of the audio object and the audio object position metadata of the large audio object 605. Such level adjustment can be used to optimize the distribution of the output of the decorrelation means to other audio objects, such as audio objects and/or substrate 615. The choice may be made to mix the output signals of the decorrelation means to signals of another object that are spatially distant, in order to improve the spatial diffuseness of the resulting rendering.

[0091] В качестве альтернативы или дополнения, процесс регулирования уровня может быть использован для обеспечения того, что звуки, соответствующие декоррелированному большому звуковому объекту 605, воспроизводятся только громкоговорителями с конкретного направления. Это может быть осуществлено только путем добавления выходных сигналов средства декорреляции к объектам вблизи желаемого направления или местоположения. В таких осуществлениях метаданные позиции большого звукового объекта 605 учитываются при процессе регулирования уровня для того, чтобы сберечь информацию, касающуюся воспринимаемого направления, из которого его звуки исходят. Такие осуществления могут подходить для объектов промежуточного размера, например, для звуковых объектов, которые считаются большими, но не настолько большие, чтобы их размер включал в себя всю среду воспроизведения/проигрывания.[0091] Alternatively or in addition, a level control process can be used to ensure that sounds corresponding to the decorrelated large sound object 605 are reproduced only by speakers from a particular direction. This can only be accomplished by adding decorrelation means outputs to objects near the desired direction or location. In such implementations, position metadata of the large sound object 605 is taken into account during the level adjustment process in order to preserve information regarding the perceived direction from which its sounds originate. Such implementations may be suitable for objects of intermediate size, for example, for audio objects that are considered large, but not so large that their size includes the entire playback environment.

[0092] В осуществлении, изображенном на фиг.6C, система 600 обработки аудио имеет возможность создания дополнительных объектов или каналов подложки в течение процесса декорреляции. Такие функциональные возможности могут быть желаемыми, например, если другие звуковые объекты и/или подложки 615 не подходят или не оптимальны. Например, в некоторых осуществлениях декоррелированные сигналы 611 больших звуковых объектов могут соответствовать местоположениям виртуальных динамиков. Если другие звуковые объекты и/или подложки 615 не соответствуют позициям, которые достаточно близки к желаемым местоположениям виртуальных динамиков, декоррелированные сигналы 611 больших звуковых объектов могут соответствовать новым местоположениям виртуальных динамиков.[0092] In the implementation depicted in FIG. 6C, audio processing system 600 has the ability to create additional substrate objects or channels during the decorrelation process. Such functionality may be desired, for example, if other audio objects and/or substrates 615 are not suitable or optimal. For example, in some implementations, decorrelated large audio object signals 611 may correspond to virtual speaker locations. If other audio objects and/or substrates 615 do not correspond to positions that are close enough to the desired virtual speaker locations, decorrelated large audio object signals 611 may correspond to new virtual speaker locations.

[0093] В этом примере большой звуковой объект 605 сначала обрабатывается системой 610 декорреляции. Впоследствии дополнительные объекты или каналы подложки, соответствующие декоррелированным сигналам 611 больших звуковых объектов, обеспечиваются кодеру 620. В этом примере декоррелированные сигналы 611 больших звуковых объектов подвергаются регулированию уровня перед посыланием кодеру 620. Декоррелированные сигналы 611 больших звуковых объектов могут быть сигналами каналов подложки и/или сигналами звуковых объектов, последние из которых могут соответствовать статичным или перемещающимся объектам.[0093] In this example, the large audio object 605 is first processed by the decorrelation system 610. Subsequently, additional objects or substrate channels corresponding to the decorrelated blob signals 611 are provided to the encoder 620. In this example, the decorrelated blob signals 611 are subject to level adjustment before being sent to the encoder 620. The decorrelated blob signals 611 may be substrate channel signals and/or signals of sound objects, the latter of which can correspond to static or moving objects.

[0094] В некоторых осуществлениях аудиосигналы, выходящие к кодеру 620, также могут включать в себя по меньшей мере некоторые из исходных сигналов больших звуковых объектов. Как отмечено выше, система 600 обработки аудио может иметь возможность сохранения аудиосигналов, соответствующих вкладу точечного источника большого звукового объекта 605 после того, как процесс декорреляции выполняется. Это может обеспечивать преимущества, например, потому, что различные сигналы могут быть коррелированными друг с другом в разной степени. Таким образом, может быть полезно пропустить по меньшей мере часть исходного аудиосигнала, соответствующего большому звуковому объекту 605 (например, вкладу точечного источника), и осуществить ее рендеринг отдельно. В таких осуществлениях может обеспечивать преимущества выравнивание декоррелированных сигналов и исходных сигналов, соответствующих большому звуковому объекту 605.[0094] In some implementations, the audio signals output to encoder 620 may also include at least some of the original large audio object signals. As noted above, the audio processing system 600 may be able to store audio signals corresponding to the point source contribution of the large audio object 605 after the decorrelation process is performed. This may provide advantages, for example, because different signals may be correlated with each other to varying degrees. Thus, it may be useful to skip at least a portion of the original audio signal corresponding to the large audio object 605 (eg, a point source contribution) and render it separately. In such implementations, alignment of the decorrelated signals and the original signals corresponding to the large audio object 605 may be advantageous.

[0095] Один такой пример показан на фиг.6D. В этом примере по меньшей мере некоторые из исходных сигналов 613 больших звуковых объектов подвергаются первому процессу выравнивания системой 612a регулирования уровня, и декоррелированные сигналы 611 больших звуковых объектов подвергаются процессу выравнивания системой 612b регулирования уровня. Здесь система 612a регулирования уровня и система 612b регулирования уровня обеспечивают выходные аудиосигналы кодеру 620. Выходные сигналы системы 612b регулирования уровня также микшируются с другими звуковыми объектами и/или подложками 615 в этом примере.[0095] One such example is shown in Fig. 6D. In this example, at least some of the original audio object signals 613 are subjected to a first equalization process by the level control system 612a, and the decorrelated audio object signals 611 are subject to an equalization process by the level control system 612b. Here, level control system 612a and level control system 612b provide audio outputs to encoder 620. The outputs of level control system 612b are also mixed with other audio objects and/or substrates 615 in this example.

[0096] В некоторых осуществлениях система 600 обработки аудио может иметь возможность оценки входных аудиоданных для определения (или по меньшей мере приблизительного определения) типа содержимого. Процесс декорреляции может основываться, по меньшей мере частично, на типе содержимого. В некоторых осуществлениях процесс декорреляции может выборочно выполняться согласно типу содержимого. Например, количество декорреляции, которая должна быть выполнена над входными аудиоданными, может зависеть, по меньшей мере частично, от типа содержимого. Например, в общем случае желательно уменьшить количество декорреляции для речи.[0096] In some implementations, audio processing system 600 may be able to evaluate input audio data to determine (or at least approximate) the type of content. The decorrelation process may be based, at least in part, on the type of content. In some implementations, the decorrelation process may be selectively performed according to content type. For example, the amount of decorrelation that must be performed on the input audio data may depend, at least in part, on the type of content. For example, it is generally desirable to reduce the amount of decorrelation for speech.

[0097] Один пример показан на фиг.6E. В этом примере система 625 интеллекта мультимедиа имеет возможность оценки аудиосигналов и приблизительного определения типа содержимого. Например, система 625 интеллекта мультимедиа может иметь возможность оценки аудиосигналов, соответствующих большим звуковым объектам 605 и приблизительного определения, является ли тип содержимого речью, музыкой, звуковыми эффектами и т. д. В примере, изображенном на фиг.6E, система 625 интеллекта мультимедиа имеет возможность посылания управляющих сигналов 627 для управления количеством декорреляции или обработки размера объекта согласно приблизительному определению типа содержимого.[0097] One example is shown in Fig. 6E. In this example, the media intelligence system 625 has the ability to evaluate audio signals and approximate the type of content. For example, the media intelligence system 625 may be able to evaluate audio signals corresponding to large audio objects 605 and approximate whether the type of content is speech, music, sound effects, etc. In the example depicted in FIG. 6E, the media intelligence system 625 has the ability to send control signals 627 to control the amount of decorrelation or process the size of an object according to an approximate determination of the content type.

[0098] Например, если система 625 интеллекта мультимедиа приблизительно определяет, что аудиосигналы больших звуковых объектов 605 соответствуют речи, система 625 интеллекта мультимедиа может посылать управляющие сигналы 627, указывающие, что количество декорреляции для этих сигналов должно быть уменьшено или что эти сигналы не должны быть декоррелированы. Различные способы автоматического определения вероятности, что сигнал является сигналом речи, могут быть использованы. Согласно одному варианту осуществления система 625 интеллекта мультимедиа может включать в себя средство приблизительного определения вероятности речи, которое имеет возможность генерирования значения вероятности речи на основе, по меньшей мере частично, информации аудио в центральном канале. Некоторые примеры описаны Робинсоном и Винтоном в работе "Автоматизированное различение речи/другого для отслеживания громкости" (Общество инженеров по звуковой технике, предварительная публикация № 6437 конференции 118, май 2005 г.).[0098] For example, if the media intelligence system 625 approximately determines that the audio signals of large audio objects 605 correspond to speech, the media intelligence system 625 may send control signals 627 indicating that the amount of decorrelation for these signals should be reduced or that these signals should not be decorrelated. Various methods for automatically determining the probability that a signal is a speech signal can be used. According to one embodiment, the media intelligence system 625 may include a speech probability approximate means that is capable of generating a speech probability value based at least in part on center channel audio information. Some examples are described by Robinson and Winton in “Automated Speech/Other Discrimination for Loudness Tracking” (Society of Audio Engineering, Conference 118 Advance Publication No. 6437, May 2005).

[0099] В некоторых осуществлениях управляющие сигналы 627 могут указывать количество регулирования уровня и/или могут указывать параметры для микширования декоррелированных сигналов 611 больших звуковых объектов с аудиосигналами для звуковых объектов и/или подложек 615.[0099] In some implementations, control signals 627 may indicate the amount of level adjustment and/or may indicate parameters for mixing decorrelated large audio object signals 611 with audio signals for audio objects and/or substrates 615.

[00100] В качестве альтернативы или дополнения, количество декорреляции для большого звукового объекта может основываться на "стеблях", "тэгах" или других прямых указаниях типа содержимого. Такие прямые указания типа содержимого могут, например, создаваться создателем содержимого (например, в течение процесса постобработки) и передаваться в качестве метаданных с соответствующими аудиосигналами. В некоторых осуществлениях такие метаданные могут быть удобочитаемыми для человека. Например, удобочитаемый для человека стебель или тэг может в явной форме указывать, в сущности, "это диалог", "это специальный эффект", "это музыка" и т. д.[00100] Alternatively or in addition, the amount of decorrelation for a large audio object may be based on "stems", "tags" or other direct indications of the content type. Such direct indications of the content type may, for example, be created by the content creator (eg, during a post-processing process) and transmitted as metadata with associated audio signals. In some implementations, such metadata may be human readable. For example, a human-readable stem or tag may explicitly state, in essence, “this is dialogue,” “this is a special effect,” “this is music,” etc.

[00101] Некоторые осуществления могут включать в себя процесс кластеризации, который комбинирует объекты, которые подобны в некоторых отношениях, например в плане пространственного местоположения, пространственного размера или типа содержимого. Некоторые примеры кластеризации описаны ниже со ссылками на фиг.7 и 8. В примере, изображенном на фиг.6F, объекты и/или подложки 615a вводятся в процесс 630 кластеризации. Меньшее количество объектов и/или подложек 615b выводится из процесса 630 кластеризации. Аудиоданные, соответствующие объектам и/или подложкам 615b, микшируются с выровненными декоррелированными сигналами 611 больших звуковых объектов. В некоторых альтернативных осуществлениях процесс кластеризации может следовать за процессом декорреляции. Один пример описан ниже со ссылками на фиг.9. Такие осуществления могут, например, препятствовать тому, что диалог микшируется в кластер с нежелаемыми метаданными, такими как позиция не у центрального динамика или большой размер кластера.[00101] Some implementations may include a clustering process that combines objects that are similar in some respects, such as in terms of spatial location, spatial size, or content type. Some examples of clustering are described below with reference to FIGS. 7 and 8. In the example depicted in FIG. 6F, objects and/or substrates 615a are introduced into a clustering process 630. A smaller number of objects and/or substrates 615b are output from the clustering process 630. Audio data corresponding to objects and/or substrates 615b is mixed with aligned decorrelated large audio object signals 611. In some alternative implementations, the clustering process may follow the decorrelation process. One example is described below with reference to FIG. 9. Such implementations may, for example, prevent dialogue from being mixed into a cluster with unwanted metadata, such as an off-center speaker position or a large cluster size.

Упрощение сцены посредством кластеризации объектовSimplifying a Scene by Clustering Objects

[00102] Для целей следующего описания термины "кластеризация" и "группирование" или "комбинирование" используются взаимозаменяемым образом для описания комбинации объектов и/или подложек (каналов) для уменьшения количества данных в блоке адаптивного аудиосодержимого для передачи и рендеринга в системе проигрывания адаптивного аудио; и термин "уменьшение" может быть использован для ссылки на действие выполнения упрощения сцены адаптивного аудио путем такой кластеризации объектов и подложек. Термины "кластеризация", "группирование" или "комбинирование" на протяжении этого описания не ограничиваются строго уникальным назначением канала объекта или подложки только одному кластеру, вместо этого канал объекта или подложки может быть распределен по более чем одной выходной подложке или кластеру с использованием весов или векторов усиления, которые определяют относительный вклад сигнала объекта или подложки в выходной кластер или выходной сигнал подложки.[00102] For purposes of the following description, the terms "clustering" and "grouping" or "combining" are used interchangeably to describe the combination of objects and/or substrates (channels) to reduce the amount of data in a block of adaptive audio content for transmission and rendering in an adaptive audio playback system ; and the term "reduce" may be used to refer to the act of performing simplification of an adaptive audio scene by such clustering of objects and substrates. The terms "clustering", "grouping" or "combining" throughout this description are not strictly limited to uniquely assigning an object or substrate channel to just one cluster, but instead an object or substrate channel may be distributed across more than one output substrate or cluster using weights or gain vectors that determine the relative contribution of the target or substrate signal to the output cluster or substrate output.

[00103] В одном варианте осуществления система адаптивного аудио включает в себя по меньшей мере один компонент, сконфигурированный для уменьшения полосы частот аудиосодержимого на основе объектов путем кластеризации объектов и чувственно прозрачных упрощений пространственных сцен, созданных комбинацией подложек канала и объектов. Процесс кластеризации объектов, исполняемый компонентом(-ами), использует конкретную информацию об объектах, которая может включать в себя пространственную позицию, тип содержимого объекта, временные атрибуты, размер объекта и/или подобное для уменьшения сложности пространственной сцены путем группирования подобных объектов в кластеры объектов, которые замещают исходные объекты.[00103] In one embodiment, an adaptive audio system includes at least one component configured to reduce the bandwidth of object-based audio content by clustering objects and sensory-transparent simplifications of spatial scenes created by a combination of channel substrates and objects. The object clustering process performed by the component(s) uses specific information about objects, which may include spatial position, object content type, temporal attributes, object size, and/or the like, to reduce the complexity of a spatial scene by grouping similar objects into object clusters , which replace the original objects.

[00104] Дополнительная обработка аудио для стандартного кодирования аудио для распределения и рендеринга притягательных впечатлений пользователя на основе исходных сложных дорожек подложек и аудио в общем случае называется упрощением сцены и/или кластеризацией объектов. Основная цель этой обработки состоит в уменьшении пространственной сцены посредством методик кластеризации или группирования, которые уменьшают количество отдельных элементов аудио (подложек и объектов), которые должны быть обеспечены устройству воспроизведения, но которые все еще сохраняют достаточно пространственной информации так, чтобы воспринимаемое различие между изначально разработанным содержимым и подвергнутым рендерингу выходным сигналом было минимизировано.[00104] Additional audio processing for standard audio encoding to distribute and render compelling user experiences based on the original complex substrate and audio tracks is generally referred to as scene simplification and/or object clustering. The main purpose of this processing is to reduce the spatial scene through clustering or grouping techniques that reduce the number of individual audio elements (substrates and objects) that must be provided to the playback device, but which still retain enough spatial information so that the perceived difference between the originally designed content and rendered output have been minimized.

[00105] Процесс упрощения сцены может обеспечивать рендеринг содержимого "объект-плюс-подложка" в каналах уменьшенной полосы частот или системах кодирования с использованием информации об объектах, такой как пространственная позиция, временные атрибуты, тип содержимого, размер и/или другие надлежащие характеристики для динамической кластеризации объектов до уменьшенного количества. Этот процесс может уменьшать количество объектов путем выполнения одной или нескольких из следующих операций кластеризации: (1) кластеризация объектов в объекты; (2) кластеризация объекта с подложками; и (3) кластеризация объектов и/или подложек в объекты. Дополнительно, объект может быть распределен по двум или более кластерам. Процесс может использовать временную информацию об объектах для управления кластеризацией и декластеризацией объектов.[00105] The scene simplification process may render object-plus-substrate content in reduced bandwidth channels or encoding systems using object information such as spatial position, temporal attributes, content type, size, and/or other appropriate characteristics for dynamic clustering of objects to a reduced number. This process can reduce the number of objects by performing one or more of the following clustering operations: (1) clustering objects into objects; (2) clustering an object with substrates; and (3) clustering objects and/or substrates into objects. Additionally, an object may be distributed across two or more clusters. A process can use temporary information about objects to control the clustering and declustering of objects.

[00106] В некоторых осуществлениях кластеры объектов замещают отдельные волновые формы и метаэлементы данных составных объектов единственной равноценной волновой формой и набором метаданных так, чтобы данные для N объектов были замещены данными для единственного объекта, таким образом, в сущности, сжимая данные объекта с N до 1. В качестве альтернативы или дополнения, канал объекта или подложки может быть распределен по более чем одному кластеру (например, с использованием методик панорамирования амплитуды), уменьшая данные объекта с N до M, где M < N. Процесс кластеризации может использовать метрику ошибки на основе искажения ввиду изменения в местоположении, громкости или другой характеристике кластеризованных объектов для определения компромисса между кластерным сжатием и ухудшением звука кластеризованных объектов. В некоторых вариантах осуществления процесс кластеризации может выполняться синхронно. В качестве альтернативы или дополнения, процесс кластеризации может быть управляемым событиями, например посредством звукового анализа сцены (ASA) и/или события обнаружения границы для управления упрощением объекта посредством кластеризации.[00106] In some implementations, clusters of objects replace the individual waveforms and metaelements of the composite object data with a single equivalent waveform and set of metadata so that data for N objects is replaced with data for a single object, thereby essentially compressing the object data from N to 1. Alternatively or in addition, an object or substrate channel can be distributed across more than one cluster (for example, using amplitude panning techniques), reducing the object data from N to M, where M < N. The clustering process can use an error metric of based on distortion due to changes in location, volume, or other characteristic of the clustered objects to determine the trade-off between cluster compression and audio degradation of the clustered objects. In some embodiments, the clustering process may be performed synchronously. Alternatively or in addition, the clustering process may be event driven, such as through audio scene analysis (ASA) and/or edge detection events to control object simplification through clustering.

[00107] В некоторых вариантах осуществления процесс может задействовать знание алгоритмов рендеринг конечной точки и/или устройств для управления кластеризацией. Таким образом, конкретные характеристики или свойства устройства проигрывания могут быть использованы для информирования процесса кластеризации. Например, различные схемы кластеризации могут задействоваться для динамиков в отличие от наушников или других драйверов аудио, или различные схемы кластеризации могут быть использованы для кодирования без потерь в отличие от кодирования с потерями, и так далее.[00107] In some embodiments, the process may leverage knowledge of endpoint rendering algorithms and/or clustering control devices. Thus, specific characteristics or properties of the playback device can be used to inform the clustering process. For example, different clustering schemes may be used for speakers as opposed to headphones or other audio drivers, or different clustering schemes may be used for lossless encoding as opposed to lossy encoding, and so on.

[00108] Фиг.7 изображает структурную схему, которая изображает пример системы выполненной с возможностью исполнения процесса кластеризации. Как изображено на фиг.7, система 700 включает в себя этапы кодера 704 и декодера 706, которые обрабатывают входные аудиосигналы для создания выходных аудиосигналов с уменьшенной полосой частот. В некоторых осуществлениях часть 720 и часть 730 могут быть в различных местоположениях. Например, часть 720 может соответствовать системе разработки постпроизводства, и часть 730 может соответствовать среде проигрывания, такой как система домашнего кинотеатра. В примере, изображенном на фиг.7, часть 709 входных сигналов обрабатывается посредством известных методик сжатия для создания сжатого битового потока 705 аудио. Сжатый битовый поток 705 аудио может быть декодирован этапом 706 декодера для создания по меньшей мере части выходного сигнала 707. Такие известные методики сжатия могут включать в себя анализ входного аудиосодержимого 709, квантизацию аудиоданных и затем выполнение методик сжатия, таких как маскирование и т. д., над самими аудиоданными. Методики сжатия могут быть с потерями или без потерь и могут осуществляться в системах, которые могут обеспечивать пользователю возможность выбора сжатой полосы частот, такой как 192 кбит/с, 256 кбит/с, 512 кбит/с и т. д.[00108] FIG. 7 is a block diagram that depicts an example of a system configured to execute a clustering process. As depicted in FIG. 7, system 700 includes encoder 704 and decoder stages 706 that process input audio signals to produce reduced-bandwidth output audio signals. In some implementations, portion 720 and portion 730 may be in different locations. For example, portion 720 may correspond to a post-production development system, and portion 730 may correspond to a playout environment, such as a home theater system. In the example depicted in FIG. 7, a portion 709 of the input signals is processed through known compression techniques to create a compressed audio bitstream 705. The compressed audio bitstream 705 may be decoded by a decoder step 706 to create at least a portion of the output signal 707. Such known compression techniques may include analyzing the input audio content 709, quantizing the audio data, and then performing compression techniques such as masking, etc. , over the audio data itself. Compression techniques may be lossy or lossless and may be implemented in systems that can provide the user with a choice of compressed bandwidth such as 192 kbps, 256 kbps, 512 kbps, etc.

[00109] В системе адаптивного аудио по меньшей мере часть входного аудио содержит входные сигналы 701, которые включают в себя звуковые объекты, которые в свою очередь включают в себя сигналы звуковых объектов и ассоциированные метаданные. Метаданные определяют точные характеристики ассоциированного аудиосодержимого, такие как пространственная позиция объекта, размер объекта, тип содержимого, громкость и так далее. Любое практическое количество звуковых объектов (например, сотни объектов) может обрабатываться через систему для проигрывания. Для обеспечения точного проигрывания множества объектов в широком множестве различных систем проигрывания и средств передачи система 700 включает в себя процесс кластеризации или компонент 702, который уменьшает количество объектов до меньшего, более поддающегося управлению количества объектов путем комбинирования исходных объектов в меньшее количество групп объектов.[00109] In an adaptive audio system, at least a portion of the input audio comprises input signals 701 that include audio objects, which in turn include audio object signals and associated metadata. Metadata defines the exact characteristics of the associated audio content, such as the spatial position of the object, the size of the object, the type of content, volume, and so on. Any practical number of audio objects (eg hundreds of objects) can be processed through the system for playback. To ensure accurate playback of multiple objects across a wide variety of different playback systems and media, system 700 includes a clustering process or component 702 that reduces the number of objects to a smaller, more manageable number of objects by combining the original objects into fewer groups of objects.

[00110] Процесс кластеризации, таким образом, строит группы объектов для создания меньшего количества выходных групп 703 из исходного набора отдельных входных объектов 701. Процесс 702 кластеризации в сущности обрабатывает метаданные объектов, а также сами аудиоданные для создания уменьшенного количества групп объектов. Метаданные могут анализироваться для определения, какие объекты в любой момент времени наиболее подходящим образом комбинируются с другими объектами, и соответствующие волновые формы аудио для комбинированных объектов могут суммироваться вместе для создания замещающего или комбинированного объекта. В этом примере комбинированные группы объектов затем вводятся в кодер 704, который сконфигурирован для генерирования битового потока 705, содержащего аудио и метаданные для передачи декодеру 706.[00110] The clustering process thus builds object groups to create a smaller number of output groups 703 from the original set of individual input objects 701. The clustering process 702 essentially processes the object metadata as well as the audio data itself to create a reduced number of object groups. The metadata can be analyzed to determine which objects are most appropriately combined with other objects at any given time, and the corresponding audio waveforms for the combined objects can be summed together to create a replacement or combined object. In this example, the combined groups of objects are then input to encoder 704, which is configured to generate a bitstream 705 containing audio and metadata for transmission to decoder 706.

[00111] В общем случае система адаптивного аудио, задействующая процесс кластеризации 702 объектов, включает в себя компоненты, которые генерируют метаданные из исходного пространственного аудиоформата. Система 700 содержит часть системы обработки аудио, сконфигурированную для обработки одного или нескольких битовых потоков, содержащих как стандартные элементы аудио на основе каналов, так и элементы кодирования звуковых объектов. Слой расширения, содержащий элементы кодирования звуковых объектов, может добавляться к битовому потоку аудиокодека на основе каналов или к битовому потоку звуковых объектов. Соответственно, в этом примере битовые потоки 705 включают в себя слой расширения, который должен быть обработан средствами рендерингдля использования с существующими проектированиями динамиков и драйверов или динамиками следующего поколения, задействующими индивидуально адресуемые драйверы и определения драйверов.[00111] In general, an adaptive audio system employing an object clustering process 702 includes components that generate metadata from a source spatial audio format. System 700 includes an audio processing system portion configured to process one or more bitstreams containing both standard channel-based audio elements and audio object encoding elements. An extension layer containing audio object coding elements may be added to the channel-based audio codec bitstream or to the audio object bitstream. Accordingly, in this example, bitstreams 705 include an enhancement layer that must be rendered for use with existing speaker and driver designs or next generation speakers employing individually addressable drivers and driver definitions.

[00112] Содержимое пространственного аудио из процессора пространственного аудио может включать в себя звуковые объекты, каналы и метаданные позиции. Когда объект подвергается рендерингу, он может быть назначен одному или нескольким динамикам согласно метаданным позиции и местоположению динамика проигрывания. Дополнительные метаданные, такие как метаданные размера, могут быть ассоциированы с объектом для изменения местоположения проигрывания или иного ограничения динамиков, которые должны быть использованы для проигрывания. Метаданные могут генерироваться на рабочей станции аудио в ответ на входные сигналы микширования инженера для обеспечения рендеринга сигнальных меток, которые управляют пространственными параметрами (например, позиция, размер, скорость, интенсивность, тембр и т. д.) и определяют, какой драйвер(ы) или динамик(и) в среде прослушивания проигрывают соответственные звуки в течение представления. Метаданные могут быть ассоциированы с соответственными аудиоданными в рабочей станции для упаковки и переноса процессором пространственного аудио.[00112] Spatial audio content from a spatial audio processor may include audio objects, channels, and position metadata. When an object is rendered, it can be assigned to one or more speakers according to the position metadata and the location of the playback speaker. Additional metadata, such as size metadata, may be associated with the object to change the playback location or otherwise limit the speakers that should be used for playback. Metadata can be generated on the audio workstation in response to the engineer's mixing inputs to provide rendering of cues that control spatial parameters (e.g. position, size, speed, intensity, timbre, etc.) and determine which driver(s) or the speaker(s) in the listening environment play the appropriate sounds during the performance. The metadata may be associated with corresponding audio data at the workstation for packaging and transport by the spatial audio processor.

[00113] Фиг.8 изображает структурную схему, которая иллюстрирует пример системы выполненной с возможностью кластеризации объектов и/или подложек в системе адаптивной обработки аудио. В примере, изображенном на фиг.8, компонент 806 обработки объектов, которые имеют возможность выполнения задач упрощения сцены, считывает произвольное количество входных аудиофайлов и метаданных. Входные аудиофайлы содержат входные объекты 802 и ассоциированные метаданные объектов и могут включать в себя подложки 804 и ассоциированные метаданные подложек. Этот входной файл/метаданные, таким образом, соответствуют дорожкам либо "подложки", либо "объекта".[00113] FIG. 8 is a block diagram that illustrates an example of a system configured to cluster objects and/or substrates in an adaptive audio processing system. In the example depicted in FIG. 8, object processing component 806, which is capable of performing scene simplification tasks, reads an arbitrary number of input audio files and metadata. The input audio files contain input objects 802 and associated object metadata and may include mattes 804 and associated matte metadata. This input file/metadata thus corresponds to either "matte" or "object" tracks.

[00114] В этом примере компонент 806 обработки объектов имеет возможность комбинирования интеллекта мультимедиа/классификации содержимого, анализа пространственного искажения и информации выбора/кластеризации объекта для создания меньшего количества выходных объектов и дорожек подложки. В частности, объекты могут быть кластеризованы вместе для создания новых равноценных объектов или кластеров 808 объектов с ассоциированными метаданными объекта/кластера. Объекты могут также быть выбраны для понижающего микширования в подложки. Это показано на фиг.8 в качестве выходного сигнала микшированных с понижением объектов 810, введенных в средство 816 рендеринга для комбинации 818 с подложками 812 для формирования выходных объектов подложки и ассоциированных метаданных 820. Выходная конфигурация 820 подложки (например, конфигурация Dolby 5.1) не обязательно должна соответствовать входной конфигурации подложки, которая, например, может быть 9.1 для кинотеатра Atmos. В этом примере новые метаданные генерируются для выходных дорожек путем комбинирования метаданных из входных дорожек, и новые аудиоданные также генерируются для выходных дорожек путем комбинирования аудио из входных дорожек.[00114] In this example, object processing component 806 has the ability to combine media intelligence/content classification, spatial distortion analysis, and object selection/clustering information to create fewer output objects and substrate tracks. In particular, objects can be clustered together to create new equivalent objects or clusters 808 of objects with associated object/cluster metadata. Objects can also be selected for downmixing into mattes. This is shown in FIG. 8 as the output of downmixed objects 810 input to renderer 816 to combine 818 with mattes 812 to generate output matte objects and associated metadata 820. The output matte configuration 820 (e.g., Dolby 5.1 configuration) is optional. must match the input configuration of the substrate, which for example could be 9.1 for an Atmos cinema. In this example, new metadata is generated for the output tracks by combining metadata from the input tracks, and new audio data is also generated for the output tracks by combining audio from the input tracks.

[00115] В этом осуществлении компонент 806 обработки объектов имеет возможность использования конкретной обработки информации 822 конфигурации. Такая обработка информации 822 конфигурации может включать в себя количество выходных объектов, размер кадра и конкретные установки интеллекта мультимедиа. Интеллект мультимедиа может включать в себя определение параметров или характеристик объектов (или ассоциированных с ними), таких как тип содержимого (т. е. диалог/музыка/эффекты/и т. д.), области (сегмент/классификация), предобработки, результаты акустического анализа сцены и другая подобная информация. Например, компонент 806 обработки объектов может иметь возможность определения, какие аудиосигналы соответствуют речи, музыке и/или звукам специальных эффектов. В некоторых осуществлениях компонент 806 обработки объектов имеет возможность определения по меньшей мере некоторых таких характеристик путем анализа аудиосигналов. В качестве альтернативы или дополнения, компонент 806 обработки объектов может иметь возможность определения по меньшей мере некоторых таких характеристик согласно ассоциированным метаданным, таким как тэги, метки и т. д.[00115] In this implementation, the object processing component 806 has the ability to use specific processing of configuration information 822. Such processing of configuration information 822 may include the number of output objects, frame size, and specific media intelligence settings. Multimedia intelligence may include determining parameters or characteristics of objects (or associated with them), such as content type (i.e. dialogue/music/effects/etc.), domains (segment/classification), preprocessing, results acoustic analysis of the scene and other similar information. For example, object processing component 806 may be able to determine which audio signals correspond to speech, music, and/or special effects sounds. In some implementations, the object processing component 806 is capable of determining at least some of these characteristics by analyzing the audio signals. Alternatively or in addition, object processing component 806 may be able to determine at least some of such characteristics according to associated metadata such as tags, labels, etc.

[00116] В альтернативном варианте осуществления генерирование аудио может быть отсрочено сохранением ссылки на все исходные дорожки, а также метаданные упрощения (например, какие объекты принадлежат к какому кластеру, какие объекты должны быть подвергнуты рендерингу для подложек и т. д.). Такая информация может, например, быть полезна для распределения функций процесса упрощения сцены между студией и местом кодирования или других подобных сценариев.[00116] In an alternative embodiment, audio generation can be delayed by storing a reference to all source tracks as well as simplification metadata (eg, which objects belong to which cluster, which objects should be rendered for substrates, etc.). Such information may, for example, be useful for distributing the scene simplification process between the studio and the encoding location or other similar scenarios.

[00117] Фиг.9 изображает структурную схему, которая обеспечивает пример процесса кластеризации, следующий за процессом декорреляции для больших звуковых объектов. Блоки системы 600 обработки аудио могут осуществляться посредством любой надлежащей комбинации аппаратных средств, программно-аппаратных средств, программных средств, сохраненных на некратковременных носителях, и т. д. Например, блоки системы 600 обработки аудио могут осуществляться посредством логической системы и/или других элементов, таких как описанные ниже со ссылками на фиг.11.[00117] FIG. 9 depicts a flow chart that provides an example of a clustering process following a decorrelation process for large audio objects. The blocks of the audio processing system 600 may be implemented by any suitable combination of hardware, firmware, software stored on non-transitory media, etc. For example, the blocks of the audio processing system 600 may be implemented by a logic system and/or other elements, such as those described below with reference to FIG. 11.

[00118] В этом осуществлении система 600 обработки аудио принимает аудиоданные, которые включают в себя звуковые объекты от O₁ до O_M. Здесь звуковые объекты включают в себя сигналы звуковых объектов и ассоциированные метаданные, включающие в себя по меньшей мере метаданные размера звукового объекта. Ассоциированные метаданные также могут включать в себя метаданные позиции звукового объекта. В этом примере модуль 905 обнаружения больших объектов имеет возможность определения, на основе, по меньшей мере частично, метаданных размера звукового объекта, больших звуковых объектов 605, которые имеют размер, который больше порогового размера. Модуль 905 обнаружения больших объектов может функционировать, например, как описано выше со ссылками на блок 510 с фиг.5.[00118] In this implementation, audio processing system 600 receives audio data that includes audio objects O ₁ to O _M . Here, the audio objects include audio object signals and associated metadata including at least audio object size metadata. The associated metadata may also include audio object position metadata. In this example, large object detection module 905 is capable of determining, based at least in part on audio object size metadata, large audio objects 605 that have a size that is greater than a threshold size. Large object detection module 905 may operate, for example, as described above with reference to block 510 of FIG. 5.

[00119] В этом осуществлении модуль 910 имеет возможность выполнения процесса декорреляции над аудиосигналами больших звуковых объектов 605 для создания декоррелированных аудиосигналов 611 больших звуковых объектов. В этом примере модуль 910 также имеет возможность рендеринга аудиосигналов больших звуковых объектов 605 для местоположений виртуальных динамиков. Соответственно, в этом примере декоррелированные аудиосигналы 611 больших звуковых объектов, выводимые модулем 910, соответствуют местоположениям виртуальных динамиков. Некоторые примеры рендеринга сигналов звуковых объектов для местоположений виртуальных динамиков далее будут описаны со ссылками на фиг.10A и 10B.[00119] In this implementation, module 910 is capable of performing a decorrelation process on audio large object signals 605 to create decorrelated audio large object signals 611. In this example, module 910 also has the ability to render audio signals of large audio objects 605 for virtual speaker locations. Accordingly, in this example, decorrelated audio large object signals 611 output by module 910 correspond to virtual speaker locations. Some examples of rendering audio object signals for virtual speaker locations will now be described with reference to FIGS. 10A and 10B.

[00120] Фиг.10A изображает пример местоположений виртуальных источников по отношению к среде проигрывания. Среда проигрывания может быть фактической средой проигрывания или виртуальной средой проигрывания. Местоположения 1005 виртуальных источников и местоположения 1025 динамиков являются лишь примерами. Однако в этом примере среда проигрывания является виртуальной средой проигрывания, и местоположения 1025 динамиков соответствуют местоположениям виртуальных динамиков.[00120] FIG. 10A depicts an example of virtual source locations with respect to the playback environment. The playback environment may be an actual playback environment or a virtual playback environment. The virtual source locations 1005 and speaker locations 1025 are just examples. However, in this example, the playing environment is a virtual playing environment, and the speaker locations 1025 correspond to the virtual speaker locations.

[00121] В некоторых осуществлениях, местоположения 1005 виртуальных источников могут быть размещены с интервалами равномерно во всех направлениях. В примере, изображенном на фиг.10A, местоположения 1005 виртуальных источников размещены с интервалами равномерно вдоль осей x, y и z. Местоположения 1005 виртуальных источников могут формировать прямоугольную сеть N _x на N _y на N _z местоположений 1005 виртуальных источников. В некоторых осуществлениях значение N может быть в диапазоне 5-100. Значение N может зависеть, по меньшей мере частично, от количества динамиков в среде проигрывания (или ожидаемого в среде проигрывания): может быть желательно включение двух или более местоположений 1005 виртуальных источников между всеми местоположениями динамиков.[00121] In some implementations, virtual source locations 1005 may be spaced evenly in all directions. In the example shown in FIG. 10A, virtual source locations 1005 are spaced evenly along the x, y, and z axes. The virtual source locations 1005 may form a rectangular network of N _x by N _y by N _z virtual source locations 1005 . In some implementations, the value of N may be in the range of 5-100. The value of N may depend, at least in part, on the number of speakers in the playback environment (or expected in the playback environment): it may be desirable to include two or more virtual source locations 1005 between all speaker locations.

[00122] Однако в альтернативных вариантах осуществления, местоположения 1005 виртуальных источников могут быть размещены с интервалами различным образом. Например, в некоторых осуществлениях, местоположения 1005 виртуальных источников могут иметь первые равномерные интервалы вдоль осей x и y и вторые равномерные интервалы вдоль оси z. В других осуществлениях, местоположения 1005 виртуальных источников могут быть размещены с интервалами неравномерно.[00122] However, in alternative embodiments, virtual source locations 1005 may be spaced in various ways. For example, in some implementations, virtual source locations 1005 may have first uniform spacing along the x and y axes and second uniform spacing along the z axis. In other implementations, virtual source locations 1005 may be spaced unevenly.

[00123] В этом примере объем 1020a звукового объекта соответствует размеру звукового объекта. Звуковой объект 1010 может быть подвергнут рендерингу согласно местоположениям 1005 виртуальных источников, охватываемых объемом 1020a звукового объекта. В примере, изображенном на фиг.10A, объем 1020a звукового объекта занимает часть, но не всю, среды 1000a проигрывания. Более большие звуковые объекты могут занимать более большую часть (или всю) среды 1000a проигрывания. В некоторых примерах, если звуковой объект 1010 соответствует точечному источнику, звуковой объект 1010 может иметь нулевой размер, и объем 1020a звукового объекта может быть установлен равным нулю.[00123] In this example, the volume 1020a of the sound object corresponds to the size of the sound object. The audio object 1010 may be rendered according to the virtual source locations 1005 encompassed by the audio object volume 1020a. In the example depicted in FIG. 10A, audio object volume 1020a occupies part, but not all, of the playback environment 1000a. Larger audio objects may occupy a larger portion (or all) of the playback environment 1000a. In some examples, if the sound object 1010 corresponds to a point source, the sound object 1010 may have a size of zero, and the sound object volume 1020a may be set to zero.

[00124] Согласно некоторым таким осуществлениям, инструмент разработки может связывать размер звукового объекта с декорреляцией путем указания (например, посредством флага декорреляции, включенного в ассоциированные метаданные), что декорреляция должна быть включена, когда размер звукового объекта больше или равен пороговому значению размера, и что декорреляция должна быть выключена, если размер звукового объекта меньше порогового значения размера. В некоторых осуществлениях управление декорреляцией (например, увеличение, уменьшение или отключение) может осуществляться согласно вводу пользователя, касающемуся порогового значения размера и/или других входных значений.[00124] According to some such implementations, the authoring tool may associate the size of an audio object with decorrelation by indicating (for example, through a decorrelation flag included in the associated metadata) that decorrelation should be enabled when the size of the audio object is greater than or equal to a size threshold, and that decorrelation should be turned off if the size of the audio object is less than the size threshold. In some implementations, decorrelation control (eg, increase, decrease, or disable) may be performed according to user input regarding the size threshold and/or other input values.

[00125] В этом примере, местоположения 1005 виртуальных источников определяются внутри объема 1002 виртуального источника. В некоторых осуществлениях объем виртуального источника может соответствовать объему, внутри которого звуковые объекты могут перемещаться. В примере, изображенном на фиг.10A, среда 1000a проигрывания и объем 1002a виртуального источника имеют одинаковую протяженность так, чтобы каждое из местоположений 1005 виртуальных источников соответствовало местоположению внутри среды 1000a проигрывания. Однако в альтернативных вариантах осуществления среда 1000a проигрывания и объем 1002 виртуального источника могут не иметь одинаковую протяженность.[00125] In this example, virtual source locations 1005 are defined within virtual source volume 1002. In some implementations, the volume of the virtual source may correspond to a volume within which audio objects can move. In the example depicted in FIG. 10A, the playback environment 1000a and the virtual source volume 1002a have the same extent so that each of the virtual source locations 1005 corresponds to a location within the playback environment 1000a. However, in alternative embodiments, the playback environment 1000a and the virtual source volume 1002 may not have the same extent.

[00126] Например, по меньшей мере некоторые из местоположений 1005 виртуальных источников могут соответствовать местоположениям вне среды проигрывания. Фиг.10B изображает альтернативный пример местоположений виртуальных источников по отношению к среде проигрывания. В этом примере объем 1002b виртуального источника протягивается наружу от среды 1000b проигрывания. Некоторые из местоположений 1005 виртуальных источников внутри объема 1020b звукового объекта находятся внутри среды 1000b проигрывания, и другие местоположения 1005 виртуальных источников внутри объема 1020b звукового объекта находятся вне среды 1000b проигрывания.[00126] For example, at least some of the virtual source locations 1005 may correspond to locations outside the playback environment. FIG. 10B depicts an alternative example of virtual source locations relative to the playback environment. In this example, the virtual source volume 1002b extends outward from the playback environment 1000b. Some of the virtual source locations 1005 within the audio object volume 1020b are inside the playback environment 1000b, and other virtual source locations 1005 within the audio object volume 1020b are outside the playback environment 1000b.

[00127] В других осуществлениях, местоположения 1005 виртуальных источников могут иметь первое равномерное размещение с интервалами вдоль осей x и y и второе равномерное размещение с интервалами вдоль оси z. Местоположения 1005 виртуальных источников могут формировать прямоугольную сетку N _x на N _y на M _z местоположений 1005 виртуальных источников. Например, в некоторых осуществлениях может быть меньше местоположений 1005 виртуальных источников вдоль оси z, чем вдоль осей x или y. В некоторых таких осуществлениях значение N может быть в диапазоне 10-100, в то время как значение M может быть в диапазоне 5-10.[00127] In other implementations, virtual source locations 1005 may have a first uniform spacing along the x and y axes and a second uniform spacing along the z axis. The virtual source locations 1005 may form a rectangular grid of N _x by N _y by M _z virtual source locations 1005 . For example, in some implementations there may be fewer virtual source locations 1005 along the z-axis than along the x- or y-axis. In some such implementations, the value of N may be in the range of 10-100, while the value of M may be in the range of 5-10.

[00128] Некоторые осуществления включают в себя вычисление значений усиления для каждого из местоположений 1005 виртуальных источников внутри объема 1020 звукового объекта. В некоторых осуществлениях значения усиления для каждого канала из множества выходных каналов среды проигрывания (которая может быть фактической средой проигрывания или виртуальной средой проигрывания) будут вычисляться для каждого из местоположений 1005 виртуальных источников внутри объема 1020 звукового объекта. В некоторых осуществлениях значения усиления могут быть вычислены путем применения алгоритма векторного панорамирования амплитуды ("VBAP"), алгоритма парного панорамирования или подобного алгоритма для вычисления значений усиления для точечных источников, расположенных в каждом из местоположений 1005 виртуальных источников внутри объема 1020 звукового объекта. В других осуществлениях может применяться разделяемый алгоритм для вычисления значений усиления для точечных источников, расположенных в каждом из местоположений 1005 виртуальных источников внутри объема 1020 звукового объекта. Используемый здесь "разделяемый" алгоритм является тем, для которого усиление некоторого заданного динамика может быть выражено в виде произведения множества коэффициентов (например, трех коэффициентов), каждый из которых зависит только от одной из координат местоположения 1005 виртуального источника. Примеры включают в себя алгоритмы, осуществляемые в различных существующих средствах панорамирования микшерных пультов, включающих в себя, но не ограничивающихся, программные средства Pro Tools™ и средства панорамирования, осуществляемые в пультах цифрового кино, обеспеченных AMS Neve.[00128] Some implementations include calculating gain values for each of the virtual source locations 1005 within the audio object volume 1020. In some implementations, gain values for each channel of the plurality of output channels of the playing environment (which may be an actual playing environment or a virtual playing environment) will be calculated for each of the virtual source locations 1005 within the audio object volume 1020. In some implementations, gain values may be calculated by applying a vector amplitude panning ("VBAP") algorithm, a paired panning algorithm, or a similar algorithm to calculate gain values for point sources located at each of the virtual source locations 1005 within the sound object volume 1020. In other implementations, a shared algorithm may be used to calculate gain values for point sources located at each of the virtual source locations 1005 within the sound object volume 1020. The "shared" algorithm used here is one for which the gain of some given speaker can be expressed as the product of a plurality of coefficients (eg, three coefficients), each of which depends on only one of the virtual source location coordinates 1005. Examples include algorithms implemented in various existing mixing console panning tools, including, but not limited to, Pro Tools™ software and panning tools implemented in digital cinema consoles provided by AMS Neve.

[00129] Возвращаясь снова к фиг.9, в этом примере система 600 обработки аудио также принимает каналы B₁-B_N подложки, а также канал низкочастотных эффектов (LFE). Звуковые объекты и каналы подложки обрабатываются согласно процессу упрощения сцены или "кластеризации", например, как описано выше со ссылками на фиг.7 и 8. Однако в этом примере канал LFE не вводится в процесс кластеризации, а вместо этого пропускается к кодеру 620.[00129] Referring again to FIG. 9, in this example, the audio processing system 600 also receives the substrate channels B ₁ -B _N as well as a low frequency effects (LFE) channel. The audio objects and substrate channels are processed according to a scene simplification or "clustering" process, for example, as described above with reference to FIGS. 7 and 8. However, in this example, the LFE channel is not entered into the clustering process, but is instead passed to encoder 620.

[00130] В этом осуществлении каналы B₁-B_N подложки преобразуются в статичные звуковые объекты 917 модулем 915. Модуль 920 принимает статичные звуковые объекты 917, дополнительно к звуковым объектам, которые модуль 905 обнаружения больших объектов определил как не являющиеся большими звуковыми объектами. Здесь модуль 920 также принимает декоррелированные сигналы 611 больших звуковых объектов, которые соответствуют местоположениям виртуальных динамиков в этом примере.[00130] In this embodiment, the substrate channels B ₁ -B _N are converted into static audio objects 917 by module 915. Module 920 receives static audio objects 917, in addition to audio objects that large object detection module 905 has determined are not large audio objects. Here, module 920 also receives decorrelated large audio object signals 611 that correspond to the virtual speaker locations in this example.

[00131] В этом осуществлении модуль 920 имеет возможность рендеринга статических объектов 917, принятых звуковых объектов и декоррелированных сигналов 611 больших звуковых объектов для кластеров от C₁ до C_P. В общем случае модуль 920 будет выводить меньшее количество кластеров, чем количество принятых звуковых объектов. В этом осуществлении модуль 920 имеет возможность ассоциирования декоррелированных сигналов 611 больших звуковых объектов с местоположениями надлежащих кластеров, например, как описано выше со ссылками на блок 520 с фиг.5.[00131] In this implementation, module 920 has the ability to render static objects 917, received audio objects, and decorrelated large audio object signals 611 for clusters C ₁ to C _P . In general, module 920 will output fewer clusters than the number of audio objects received. In this implementation, module 920 has the ability to associate decorrelated large audio object signals 611 with appropriate cluster locations, for example, as described above with reference to block 520 of FIG. 5.

[00132] В этом примере кластеры от C₁ до C_P и аудиоданные канала LFE кодируются кодером 620 и передаются среде 925 проигрывания. В некоторых осуществлениях среда 925 проигрывания может включать в себя систему домашнего кинотеатра. Система 930 обработки аудио имеет возможность приема и декодирования закодированных аудиоданных, а также рендеринга декодированных аудиоданных согласно конфигурации фактических динамиков проигрывания среды 925 проигрывания, например, позициям динамиков, возможностям динамиков (например, возможности воспроизведения нижних частот) и т. д. фактических динамиков проигрывания среды 925 проигрывания.[00132] In this example, clusters C ₁ to _CP and LFE channel audio data are encoded by encoder 620 and transmitted to playback environment 925. In some implementations, the playing environment 925 may include a home theater system. The audio processing system 930 is capable of receiving and decoding encoded audio data, as well as rendering the decoded audio data according to the configuration of the actual playback environment speakers 925, e.g., speaker positions, speaker capabilities (e.g., low-pass capability), etc. of the actual playback environment speakers. 925 plays.

[00133] Фиг.11 изображает структурную схему, которая обеспечивает примеры компонентов системы обработки аудио. В этом примере система 1100 обработки аудио включает в себя систему 1105 интерфейса. Система 1105 интерфейса может включать в себя сетевой интерфейс, такой как беспроводной сетевой интерфейс. В качестве альтернативы или дополнения, система 1105 интерфейса может включать в себя интерфейс универсальной последовательной шины (USB) или другой такой интерфейс.[00133] FIG. 11 is a block diagram that provides examples of components of an audio processing system. In this example, the audio processing system 1100 includes an interface system 1105. Interface system 1105 may include a network interface, such as a wireless network interface. Alternatively or in addition, interface system 1105 may include a universal serial bus (USB) interface or other such interface.

[00134] Система 1100 обработки аудио включает в себя логическую систему 1110. Логическая система 1110 может включать в себя процессор, такой как универсальный одно- или многочиповый процессор. Логическая система 1110 может включать в себя процессор цифровых сигналов (DSP), специализированную интегральную схему (ASIC), программируемую пользователем вентильную матрицу (FPGA) или другое программируемое логическое устройство, схему на дискретных компонентах или транзисторную логическую схему, или дискретные аппаратные компоненты, или комбинации перечисленного. Логическая система 1110 может быть сконфигурирована для управления другими компонентами системы 1100 обработки аудио. Хотя никакие интерфейсы между компонентами системы 1100 обработки аудио не показаны на фиг.11, логическая система 1110 может быть сконфигурирована с интерфейсами для связи с другими компонентами. Другие компоненты могут быть или не быть сконфигурированы для связи друг с другом по мере целесообразности.[00134] Audio processing system 1100 includes logic system 1110. Logic system 1110 may include a processor, such as a general-purpose single- or multi-chip processor. Logic system 1110 may include a digital signal processor (DSP), application specific integrated circuit (ASIC), field programmable gate array (FPGA) or other programmable logic device, discrete or transistor logic circuit, or discrete hardware components, or combinations listed. Logic system 1110 may be configured to control other components of audio processing system 1100. Although no interfaces between components of the audio processing system 1100 are shown in FIG. 11, the logic system 1110 may be configured with interfaces for communication with other components. Other components may or may not be configured to communicate with each other as appropriate.

[00135] Логическая система 1110 может быть сконфигурирована для выполнения функциональных возможностей обработки аудио, включающих в себя, но не ограничивающихся, типы функциональных возможностей, описанных здесь. В некоторых таких осуществлениях логическая система 1110 может быть сконфигурирована для оперирования (по меньшей мере частично) согласно программным средствам, сохраненным на одном или нескольких некратковременных носителях. Некратковременные носители могут включать в себя память, ассоциированную с логической системой 1110, такую как оперативная память (RAM) и/или постоянная память (ROM). Некратковременные носители могут включать в себя память системы 1115 памяти. Система 1115 памяти может включать в себя один или несколько подходящих типов некратковременных носителей информации, таких как флэш-память, жесткий диск и т. д.[00135] Logic system 1110 may be configured to perform audio processing functionality, including, but not limited to, the types of functionality described herein. In some such implementations, logic system 1110 may be configured to operate (at least in part) according to software stored on one or more non-transitory media. Non-transitory media may include memory associated with logic system 1110, such as random access memory (RAM) and/or read-only memory (ROM). Non-transitory media may include memory of the memory system 1115. Memory system 1115 may include one or more suitable types of non-transitory storage media, such as flash memory, hard disk, etc.

[00136] Система 1130 отображения может включать в себя один или несколько подходящих типов дисплея в зависимости от реализации системы 1100 обработки аудио. Например, система 1130 отображения может включать в себя жидкокристаллический дисплей, плазменный дисплей, бистабильный дисплей и т. д.[00136] The display system 1130 may include one or more suitable display types depending on the implementation of the audio processing system 1100. For example, the display system 1130 may include a liquid crystal display, a plasma display, a bistable display, etc.

[00137] Система 1135 ввода пользователя может включать в себя одно или несколько устройств, сконфигурированных для приема ввода от пользователя. В некоторых осуществлениях система 1135 ввода пользователя может включать в себя сенсорный экран, который накладывается на дисплей системы 1130 отображения. Система 1135 ввода пользователя может включать в себя мышь, трекбол, систему обнаружения жестов, джойстик, один или несколько GUI и/или меню, представленных на системе 1130 отображения, кнопок, клавиатуры, переключателей и т. д. В некоторых осуществлениях система 1135 ввода пользователя может включать в себя микрофон 1125: пользователь может обеспечивать голосовые команды для системы 1100 обработки аудио посредством микрофона 1125. Логическая система может быть сконфигурирована для распознавания речи и для управления по меньшей мере некоторыми операциями системы 1100 обработки аудио согласно таким голосовым командам. В некоторых осуществлениях система 1135 ввода пользователя может считаться пользовательским интерфейсом и, таким образом, быть в составе системы 1105 интерфейса.[00137] User input system 1135 may include one or more devices configured to receive input from a user. In some implementations, the user input system 1135 may include a touch screen that is superimposed on the display of the display system 1130. The user input system 1135 may include a mouse, trackball, gesture sensing system, joystick, one or more GUIs and/or menus presented on the display system 1130, buttons, keyboards, switches, etc. In some implementations, the user input system 1135 may include a microphone 1125: the user may provide voice commands to the audio processing system 1100 through the microphone 1125. The logic system may be configured to recognize speech and to control at least some operations of the audio processing system 1100 according to such voice commands. In some implementations, the user input system 1135 may be considered a user interface and, thus, be part of the interface system 1105.

[00138] Система 1140 мощности может включать в себя одно или несколько подходящих устройств хранения энергии, таких как никель-кадмиевый аккумулятор или литий-ионный аккумулятор. Система 1140 мощности может быть сконфигурирована для приема мощности от электрической розетки.[00138] Power system 1140 may include one or more suitable energy storage devices, such as a nickel-cadmium battery or a lithium-ion battery. Power system 1140 may be configured to receive power from an electrical outlet.

[00139] Различные модификации для осуществлений, описанных в этом раскрытии, могут быть без труда понятны обычным специалистам в данной области техники. Общие принципы, определенные здесь, могут применяться к другим осуществлениям без выхода за пределы сущности или объема этого раскрытия. Таким образом, пункты формулы не подразумеваются как ограниченные осуществлениями, показанными здесь, а должны соответствовать самому широкому объему в соответствии с этим раскрытием, принципами и новыми признаками, раскрываемыми здесь.[00139] Various modifications to the embodiments described in this disclosure may be readily apparent to those of ordinary skill in the art. The general principles defined herein may be applied to other implementations without departing from the spirit or scope of this disclosure. Thus, the claims are not intended to be limited to the embodiments shown herein, but are intended to be within the broadest scope consistent with this disclosure, the principles and new features disclosed herein.

Claims

1. A method for processing audio data, comprising the steps of:

receiving, through an input interface to an encoding component of the audio rendering system, audio data comprising audio objects, the audio objects comprising audio object signals and associated metadata, wherein the associated metadata includes at least size data of the audio objects;

determining, through the large object determination component based on the sound object size data, a large sound object having a sound object size that is larger than a threshold size, wherein the large sound object is spatially diffuse and requires a plurality of speakers to reproduce the large sound object;

performing, by means of a decorrelation component associated with an input interface, a decorrelation process on the audio big object signals to create decorrelated audio big object signals that depend on the determined location of the big audio objects and other information, wherein the decorrelated audio big object signals are mutually independent of each other, and the decorrelation process includes adjusting the level of each audio signal by adjusting the level of a corresponding audio gain for each of the audio signals to generate decorrelated large audio object audio signals corresponding to speaker input signals for each speaker of the plurality of speakers, the plurality of speakers covering a large spatial area,

wherein the decorrelated audio signals of the large sound objects are mixed with at least one audio signal for other sound objects that are spatially separated by a second distance threshold from the large sound object.

2. The method of claim 1, further comprising receiving decorrelation metadata for the large audio object, wherein the decorrelation metadata includes an indication that the size of the audio object is larger than a threshold size.

3. The method of claim 1, wherein the large sound object has a plurality of object locations, wherein at least some of the plurality of object locations are one of: stationary locations or locations that change over time.

4. The method of claim 1, wherein the decorrelation process is performed prior to the process of rendering audio data for playback in a playback environment including a home theater system.

5. The method of claim 1, wherein the decorrelation process includes one of a delay process, a universal filter process, a pseudo-random filter process, and a reverberation algorithm process.

6. The method of claim 1, wherein the plurality of speakers have a plurality of speaker locations, wherein the plurality of speaker locations include speaker zones defining virtual speaker locations located in the one or more speaker zones.

7. The method of claim 1, wherein the audio data comprises one or more audio substrate signals corresponding to speaker locations, and the method further comprises outputting decorrelated audio signals of large audio objects as additional audio substrate signals or audio object signals for playback through the plurality of speakers.

8. The method of claim 1, wherein the corresponding audio gain for each of the audio signals comprises a gain determined according to an amplitude panning method.

9. The method of claim 6, further comprising using a rendering tool to display speaker input signals for the one or more speaker zones, respectively.

10. The method of claim 1, further comprising attenuating or removing audio signals of large audio objects after the decorrelation process is performed.

11. The method of claim 1, further comprising storing audio signals corresponding to the large sound object point source contribution after the decorrelation process is performed.

12. The method of claim 1, wherein the large audio object has metadata including audio object position metadata, and the method further comprises:

calculating contributions from virtual sources within an area or volume of the sound object determined by the large sound object position metadata for the large sound object and the sound object size data; And

determining a set of audio object gain values for each of the plurality of output channels based at least in part on the calculated contributions.

13. The method according to claim 1, further comprising the step of performing a process of clustering audio objects after the decorrelation process.

14. The method of claim 1, further comprising evaluating the audio data to determine a content type, the decorrelation process being selectively performed according to the content type.

15. The method of claim 14, wherein the amount of decorrelation to be performed depends on the type of content.

16. The method of claim 1, wherein the decorrelation process includes a complex time-varying filter algorithm.

17. The method of claim 1, wherein the large audio object has metadata including audio object position metadata, and the method further comprises mixing decorrelated audio signals of the large audio objects with audio signals for audio objects that are spatially separated by a distance threshold from a large sound object.

18. A device for processing audio data, including an audio rendering system, the device comprising:

an input interface to an audio rendering system receiving audio data comprising audio objects, the audio objects comprising audio object signals and associated metadata, wherein the associated metadata includes at least size data of the audio objects;

a processing component that determines, based on the sound object size data, a large sound object having a sound object size that is larger than a threshold size, wherein the large sound object is spatially diffuse and requires a plurality of speakers to reproduce the large sound object;

a decorrelation component coupled to an input interface that performs a decorrelation process on the audio boobies to create decorrelated audio boobies that depend on the specific location of the boonies and other information, wherein the decorrelated audio boobies are mutually independent of each other, and the decorrelation process includes adjusting the level of each audio signal by adjusting the level of the corresponding audio gain for each of the audio signals to generate decorrelated large audio object signals corresponding to speaker input signals for each speaker of a plurality of speakers, the plurality of speakers covering a large spatial area,

19. The apparatus of claim 18, further comprising an input interface that receives decorrelation metadata for the large audio object, wherein the decorrelation metadata includes an indication that the size of the audio object is larger than a threshold size.

20. The apparatus of claim 18, wherein the large sound object has a plurality of object locations, wherein at least some of the plurality of object locations are one of: stationary locations or locations that change over time.

21. The apparatus of claim 18, wherein the decorrelation process is performed prior to the process of rendering audio data for playback in a playback environment including a home theater system.

22. The apparatus of claim 18, wherein the decorrelation process includes one of a delay process, a universal filter process, a pseudo-random filter process, and a reverberation algorithm process.

23. The apparatus of claim 18, wherein the plurality of speakers have a plurality of speaker locations, wherein the plurality of speaker locations include speaker zones defining virtual speaker locations located in the one or more speaker zones.

24. The apparatus of claim 18, wherein the audio data comprises one or more audio substrate signals corresponding to speaker locations, and the device further comprises an audio rendering system configured to output decorrelated audio signals of large audio objects as additional audio substrate signals or audio object signals for playback. through multiple speakers.

25. The apparatus of claim 18, wherein the corresponding audio gain for each of the audio signals comprises a gain determined according to an amplitude panning method.

26. The apparatus of claim 23, further comprising a rendering tool configured to display speaker inputs for one or more speaker zones, respectively.

27. The apparatus of claim 18, further comprising an audio rendering system that attenuates or removes audio signals of large audio objects after the decorrelation process is performed.

28. The apparatus of claim 18, further comprising an audio rendering system storing audio signals corresponding to the point source contribution of the large audio object after the decorrelation process is performed.

29. The device of claim 18, wherein the large audio object has metadata including audio object position metadata, and the device further comprises:

an audio rendering system calculating contributions from virtual sources within an area or volume of an audio object defined by the large audio object position metadata for the large audio object and the audio object size data; And

an audio rendering system determining a set of audio object gain values for each of the plurality of output channels based at least in part on the calculated contributions.

30. The apparatus of claim 18, further comprising an audio rendering system that performs a process of clustering audio objects after a decorrelation process.

31. The apparatus of claim 18, further comprising an audio rendering system evaluating audio data to determine a content type, the decorrelation process being selectively performed according to the content type.

32. The apparatus of claim 31, wherein the amount of decorrelation to be performed depends on the type of content.

33. The apparatus of claim 18, wherein the decorrelation process includes a complex time-varying filter algorithm.

34. The device of claim 18, wherein the large audio object has metadata including audio object position metadata, and the device further comprises an audio rendering system that mixes decorrelated audio signals of the large audio objects with audio signals for audio objects that are spatially separated by a distance threshold from large sound object.

35. A non-transitory medium having program instructions stored thereon that, when executed on a processing component of an audio rendering system, instructs the audio rendering system to:

receiving, through an audio rendering system input interface to an audio rendering system encoding component, audio data comprising audio objects, the audio objects comprising audio object signals and associated metadata, wherein the associated metadata includes at least size data of the audio objects;

determine, by the audio rendering system large object detection component based on the audio object size data, a large audio object having an audio object size that is larger than a threshold size, wherein the large audio object is spatially diffuse and requires a plurality of speakers to reproduce the large audio object;

perform, through the decorrelation component of the audio rendering system associated with the input interface, a decorrelation process on the audio big object signals to create decorrelated big audio signals that depend on the specific location of the big audio objects and other information, wherein the decorrelated big audio signals are mutually independent of each other each other, and the decorrelation process includes adjusting the level of each audio signal by adjusting the level of the corresponding audio gain for each of the audio signals to generate decorrelated audio signals of large audio objects corresponding to speaker input signals for each speaker of a plurality of speakers, the plurality of speakers covering a large spatial area,