RU2646344C2 - Обработка пространственно диффузных или больших звуковых объектов - Google Patents

Обработка пространственно диффузных или больших звуковых объектов Download PDF

Info

Publication number
RU2646344C2
RU2646344C2 RU2016106913A RU2016106913A RU2646344C2 RU 2646344 C2 RU2646344 C2 RU 2646344C2 RU 2016106913 A RU2016106913 A RU 2016106913A RU 2016106913 A RU2016106913 A RU 2016106913A RU 2646344 C2 RU2646344 C2 RU 2646344C2
Authority
RU
Russia
Prior art keywords
audio
objects
signals
sound
decorrelation
Prior art date
Application number
RU2016106913A
Other languages
English (en)
Other versions
RU2016106913A (ru
Inventor
Дирк Ерун БРЕБАРТ
Ле ЛУ
Николас Р. ЦИНГОС
СОЛЕ Антонио МАТЕОС
Original Assignee
Долби Лэборетериз Лайсенсинг Корпорейшн
Долби Интернэшнл Аб
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Долби Лэборетериз Лайсенсинг Корпорейшн, Долби Интернэшнл Аб filed Critical Долби Лэборетериз Лайсенсинг Корпорейшн
Publication of RU2016106913A publication Critical patent/RU2016106913A/ru
Application granted granted Critical
Publication of RU2646344C2 publication Critical patent/RU2646344C2/ru

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

Изобретение относится к обработке аудиоданных. Технический результат изобретения заключается в улучшенной обработке сигналов звуковых объектов за счет указания местоположения каждого динамика внутри среды проигрывания. Диффузные или пространственно большие звуковые объекты идентифицируют для обработки. Процесс декорреляции выполняется над аудиосигналами, соответствующими большим звуковым объектам, для создания декоррелированных аудиосигналов больших звуковых объектов. Эти декоррелированные аудиосигналы больших звуковых объектов ассоциированы с местоположениями объектов, которые могут быть стационарными или изменяющимися во времени местоположениями. Декоррелированные аудиосигналы больших звуковых объектов подвергаются рендерингу для местоположений виртуальных или фактических динамиков. Выходной сигнал такого процесса рендеринга является входным для процесса упрощения сцены. Процессы декорреляции, ассоциирования и/или упрощения сцены выполняются до процесса кодирования аудиоданных. 3 н. и 17 з.п. ф-лы, 19 ил.

Description

ПЕРЕКРЕСТНАЯ ССЫЛКА НА РОДСТВЕННЫЕ ЗАЯВКИ
[0001] По настоящей заявке испрашивается приоритет патентной заявки Испании № P201331193, поданной 31 июля 2013 г., и предварительной заявки США № 61/885805, поданной 2 октября 2013 г., полное содержание каждой из которых включено в настоящий документ посредством ссылки.
ОБЛАСТЬ ТЕХНИКИ, К КОТОРОЙ ОТНОСИТСЯ ИЗОБРЕТЕНИЕ
[0002] Это раскрытие относится к обработке аудиоданных. В частности, это раскрытие относится к обработке аудиоданных, соответствующих диффузным или пространственно большим звуковым объектам.
УРОВЕНЬ ТЕХНИКИ
[0003] Со времени появления звука в фильмах в 1927 г. происходило стабильное развитие технологии, используемой для захвата авторского замысла кинематографической звуковой дорожки и для воспроизведения этого содержимого. В 1970-х компания "Dolby" представила экономически эффективное средство кодирования и распространения миксов с тремя экранными каналами и моноканалом объемного звучания. "Dolby" обеспечила цифровой звук для кино в 1990-х посредством 5.1-канального формата, который обеспечивает дискретные левый, центральный и правый экранные каналы, левую и правую матрицы объемного звучания и канал сабвуфера для низкочастотных эффектов. Система Dolby Surround 7.1, представленная в 2010 г., увеличила количество каналов объемного звучания путем разбиения существующих левого и правого каналов объемного звучания на четыре "зоны".
[0004] Системы проигрывания аудио как для кино, так и для домашних кинотеатров становятся все более универсальными и сложными. Системы проигрывания аудио домашнего кинотеатра включают в себя все большие количества динамиков. Поскольку количество каналов увеличивается и размещение громкоговорителей переходит от плоской двухмерной (2D) матрицы к трехмерной (3D) матрице, включающей в себя приподнятость, воспроизведение звуков в среде проигрывания становится все более сложным процессом. Улучшенные способы обработки аудио были бы желательны.
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
[0005] Улучшенные способы для обработки диффузных или пространственно больших звуковых объектов обеспечены. Используемый здесь термин "звуковой объект" ссылается на аудиосигналы (также называемые здесь "сигналами звуковых объектов") и ассоциированные метаданные, которые могут создаваться или "разрабатываться" без ссылки на какую-либо конкретную среду проигрывания. Ассоциированные метаданные могут включать в себя данные позиции звукового объекта, данные усиления звукового объекта, данные размера звукового объекта, данные траектории звукового объекта и т. д. Используемый здесь термин "рендеринг" относится к процессу преобразования звуковых объектов в подаваемые сигналы динамика для конкретной среды проигрывания. Процесс рендеринга может выполняться, по меньшей мере частично, согласно ассоциированным метаданным и согласно данным среды проигрывания. Данные среды проигрывания могут включать в себя указание некоторого количества динамиков в среде проигрывания и указание местоположения каждого динамика внутри среды проигрывания.
[0006] Пространственно большой звуковой объект не подразумевается как воспринимаемый в качестве точечного источника звука, но должен вместо этого восприниматься как покрывающий большую пространственную область. В некоторых случаях большой звуковой объект должен восприниматься как окружающий слушателя. Такие аудиоэффекты не могут быть достигнуты одним только панорамированием и вместо этого могут требовать дополнительной обработки. Для создания убедительного размера пространственного объекта или пространственной диффузности, существенная часть сигналов динамика в среде проигрывания должна быть взаимно независима или по меньшей мере некоррелирована (например, независима в плане взаимной корреляции первого порядка или ковариации). Достаточно сложная система рендеринга, такая как система рендеринга для кинотеатра, может иметь возможность обеспечения такой декорреляции. Однако менее сложные системы рендеринга, такие как предназначенные для систем домашнего кинотеатра, не могут иметь возможность обеспечения надлежащей декорреляции.
[0007] Некоторые осуществления, описанные здесь, могут включать в себя определение диффузных или пространственно больших звуковых объектов для специальной обработки. Процесс декорреляции может выполняться над аудиосигналами, соответствующими большим звуковым объектам, для создания декоррелированных аудиосигналов больших звуковых объектов. Эти декоррелированные аудиосигналы больших звуковых объектов могут быть ассоциированы с местоположениями объектов, которые могут быть стационарными или изменяющимися во времени местоположениями. Процесс ассоциирования может быть независим от конфигурации фактических динамиков проигрывания. Например, декоррелированные аудиосигналы больших звуковых объектов могут подвергаться рендерингу для местоположений виртуальных динамиков. В некоторых осуществлениях выходной сигнал из такого процесса рендеринга может быть входным для процесса упрощения сцены.
[0008] Соответственно, по меньшей мере некоторые аспекты этого раскрытия могут осуществляться в способе, который может включать в себя прием аудиоданных, содержащих звуковые объекты. Звуковые объекты могут включать в себя сигналы звуковых объектов и ассоциированные метаданные. Метаданные могут включать в себя по меньшей мере данные размера звукового объекта.
[0009] Способ может включать в себя определение, на основе данных размера звукового объекта, большого звукового объекта, имеющего размер звукового объекта, который больше порогового размера, и выполнение процесса декорреляции над аудиосигналами больших звуковых объектов для создания декоррелированных аудиосигналов больших звуковых объектов. Способ может включать в себя ассоциирование декоррелированных аудиосигналов больших звуковых объектов с местоположениями объектов. Процесс ассоциирования может быть независим от конфигурации фактических динамиков проигрывания. Конфигурация фактических динамиков проигрывания может впоследствии быть использована для осуществления рендеринга декоррелированных аудиосигналов больших звуковых объектов для динамиков среды проигрывания.
[0010] Способ может включать в себя прием метаданных декорреляции для большого звукового объекта. Процесс декорреляции может выполняться, по меньшей мере частично, согласно метаданным декорреляции. Способ может включать в себя кодирование аудиоданных, выходящих из процесса ассоциирования. В некоторых осуществлениях процесс кодирования может не включать в себя кодирование метаданных декорреляции для большого звукового объекта.
[0011] Местоположения объектов могут включать в себя местоположения, соответствующие по меньшей мере некоторым из данных позиции звукового объекта принятых звуковых объектов. По меньшей мере некоторые из местоположений объектов могут быть стационарными. Однако в некоторых осуществлениях по меньшей мере некоторые из местоположений объектов могут изменяться с течением времени.
[0012] Процесс ассоциирования может включать в себя рендеринг декоррелированных аудиосигналов больших звуковых объектов согласно местоположениям виртуальных динамиков. В некоторых примерах процесс приема может включать в себя прием одного или нескольких сигналов звуковой подложки, соответствующих местоположениям динамиков. Способ может включать в себя микширование декоррелированных аудиосигналов больших звуковых объектов с по меньшей мере некоторыми из принятых сигналов звуковой подложки или принятых сигналов звуковых объектов. Способ может включать в себя вывод декоррелированных аудиосигналов больших звуковых объектов в качестве дополнительных сигналов звуковой подложки или сигналов звуковых объектов.
[0013] Способ может включать в себя применение процесса регулирования уровня к декоррелированным аудиосигналам больших звуковых объектов. В некоторых осуществлениях метаданные большого звукового объекта могут включать в себя метаданные позиции звукового объекта, и процесс регулирования уровня может зависеть, по меньшей мере частично, от метаданных размера звукового объекта и метаданных позиции звукового объекта большого звукового объекта.
[0014] Способ может включать в себя ослабление или удаление аудиосигналов больших звуковых объектов, после того как процесс декорреляции выполняется. Однако в некоторых осуществлениях способ может включать в себя сохранение аудиосигналов, соответствующих вкладу точечного источника большого звукового объекта, после того как процесс декорреляции выполняется.
[0015] Метаданные большого звукового объекта могут включать в себя метаданные позиции звукового объекта. В некоторых таких осуществлениях способ может включать в себя вычисление вкладов от виртуальных источников внутри области или объема звукового объекта, определенных данными позиции большого звукового объекта и данными размера большого звукового объекта. Способ также может включать в себя определение набора значений усиления звуковых объектов для каждого из множества выходных каналов на основе, по меньшей мере частично, вычисленных вкладов. Способ может включать в себя микширование декоррелированных аудиосигналов больших звуковых объектов с аудиосигналами для звуковых объектов, которые пространственно отделяются пороговой величиной расстояния от большого звукового объекта.
[0016] В некоторых осуществлениях способ может включать в себя выполнение процесса кластеризации звуковых объектов после процесса декорреляции. В некоторых таких осуществлениях процесс кластеризации звуковых объектов может выполняться после процесса ассоциирования.
[0017] Способ может включать в себя оценку аудиоданных для определения типа содержимого. В некоторых таких осуществлениях процесс декорреляции может выборочно выполняться согласно типу содержимого. Например, количество декорреляции, которая должна быть выполнена, может зависеть от типа содержимого. Процесс декорреляции может включать в себя задержки, универсальные фильтры, псевдослучайные фильтры и/или алгоритмы реверберации.
[0018] Способы, раскрываемые здесь, могут осуществляться с помощью аппаратных средств, программно-аппаратных средств, программных средств, сохраненных на одном или нескольких некратковременных носителей, и/или комбинаций перечисленного. Например, по меньшей мере некоторые аспекты этого раскрытия могут осуществляться в устройстве, которое включает в себя систему интерфейса и логическую систему. Система интерфейса может включать в себя пользовательский интерфейс и/или сетевой интерфейс. В некоторых осуществлениях устройство может включать в себя систему памяти. Система интерфейса может включать в себя по меньшей мере один интерфейс между логической системой и системой памяти.
[0019] Логическая система может включать в себя по меньшей мере один процессор, такой как универсальный одно- или многочиповый процессор, процессор цифровых сигналов (DSP), специализированную интегральную схему (ASIC), программируемую пользователем вентильную матрицу (FPGA) или другое программируемое логическое устройство, схему на дискретных компонентах или транзисторную логическую схему, дискретные аппаратные компоненты и/или комбинации перечисленного.
[0020] В некоторых осуществлениях логическая система может иметь возможность приема, посредством системы интерфейса, аудиоданных, содержащих звуковые объекты. Звуковые объекты могут включать в себя сигналы звуковых объектов и ассоциированные метаданные. В некоторых осуществлениях метаданные включают в себя по меньшей мере данные размера звукового объекта. Логическая система может иметь возможность определения, на основе данных размера звукового объекта, большого звукового объекта, имеющего размер звукового объекта, который больше порогового размера, и выполнения процесса декорреляции над аудиосигналами больших звуковых объектов для создания декоррелированных аудиосигналов больших звуковых объектов. Логическая система может иметь возможность ассоциирования декоррелированных аудиосигналов больших звуковых объектов с местоположениями объектов.
[0021] Процесс ассоциирования может быть независим от конфигурации фактических динамиков проигрывания. Например, процесс ассоциирования может включать в себя рендеринг декоррелированных аудиосигналов больших звуковых объектов согласно местоположениям виртуальных динамиков. Конфигурация фактических динамиков проигрывания может впоследствии быть использована для осуществления рендеринга декоррелированных аудиосигналов больших звуковых объектов для динамиков среды проигрывания.
[0022] Логическая система может иметь возможность приема, посредством системы интерфейса, метаданных декорреляции для большого звукового объекта. Процесс декорреляции может выполняться, по меньшей мере частично, согласно метаданным декорреляции.
[0023] Логическая система может иметь возможность кодирования аудиоданных, выходящих из процесса ассоциирования. В некоторых осуществлениях процесс кодирования может не включать в себя кодирование метаданных декорреляции для большого звукового объекта.
[0024] По меньшей мере некоторые из местоположений объектов могут быть стационарными. Однако по меньшей мере некоторые из местоположений объектов могут изменяться с течением времени. Метаданные большого звукового объекта могут включать в себя метаданные позиции звукового объекта. Местоположения объектов могут включать в себя местоположения, соответствующие по меньшей мере некоторым из метаданных позиции звукового объекта принятых звуковых объектов.
[0025] Процесс приема может включать в себя прием одного или нескольких сигналов звуковой подложки, соответствующих местоположениям динамиков. Логическая система может иметь возможность микширования декоррелированных аудиосигналов больших звуковых объектов с по меньшей мере некоторыми из принятых сигналов звуковой подложки или принятых сигналов звуковых объектов. Логическая система может иметь возможность вывода декоррелированных аудиосигналов больших звуковых объектов в качестве дополнительных сигналов звуковой подложки или сигналов звуковых объектов.
[0026] Логическая система может иметь возможность применения процесса регулирования уровня к декоррелированным аудиосигналам больших звуковых объектов. Процесс регулирования уровня может зависеть, по меньшей мере частично, от метаданных размера звукового объекта и метаданных позиции звукового объекта большого звукового объекта.
[0027] Логическая система может иметь возможность ослабления или удаления аудиосигналов больших звуковых объектов, после того как процесс декорреляции выполняется. Однако устройство может иметь возможность сохранения аудиосигналов, соответствующих вкладу точечного источника большого звукового объекта, после того как процесс декорреляции выполняется.
[0028] Логическая система может иметь возможность вычисления вкладов от виртуальных источников внутри области или объема звукового объекта, определенных данными позиции большого звукового объекта и данными размера большого звукового объекта. Логическая система может иметь возможность определения набора значений усиления звуковых объектов для каждого из множества выходных каналов на основе, по меньшей мере частично, вычисленных вкладов. Логическая система может иметь возможность микширования декоррелированных аудиосигналов больших звуковых объектов с аудиосигналами для звуковых объектов, которые пространственно отделяются пороговой величиной расстояния от большого звукового объекта.
[0029] Логическая система может иметь возможность выполнения процесса кластеризации звуковых объектов после процесса декорреляции. В некоторых осуществлениях процесс кластеризации звуковых объектов может выполняться после процесса ассоциирования.
[0030] Логическая система может иметь возможность оценки аудиоданных для определения типа содержимого. Процесс декорреляции может выборочно выполняться согласно типу содержимого. Например, количество декорреляции, которая должна быть выполнена, зависит от типа содержимого. Процесс декорреляции может включать в себя задержки, универсальные фильтры, псевдослучайные фильтры и/или алгоритмы реверберации.
[0031] Подробности одного или нескольких осуществлений изобретения, описанного в этом техническом описании, излагаются на сопроводительных чертежах и в описании ниже. Другие признаки, аспекты и преимущества станут очевидны из описания, чертежей и пунктов формулы. Следует заметить, что относительные размеры следующих чертежей могут не быть изображены в масштабе.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
[0032] Фиг.1 изображает пример среды проигрывания, имеющей конфигурацию Dolby Surround 5.1.
[0033] Фиг.2 изображает пример среды проигрывания, имеющей конфигурацию Dolby Surround 7.1.
[0034] Фиг.3A и 3B изображают два примера сред проигрывания домашнего кинотеатра, которые включают в себя конфигурации динамиков высоты.
[0035] Фиг.4A изображает пример графического пользовательского интерфейса (GUI), который иллюстрирует зоны динамиков на изменяющихся приподнятостях в виртуальной среде проигрывания.
[0036] Фиг.4B изображает пример другой среды проигрывания.
[0037] Фиг.5 изображает блок-схему, которая обеспечивает пример звуковой обработки для пространственно больших звуковых объектов.
[0038] Фиг.6A–6F изображают структурные схемы, которые иллюстрируют примеры компонентов звукового обрабатывающего устройства с возможностью обработки больших звуковых объектов.
[0039] Фиг.7 изображает структурную схему, которая изображает пример системы, выполненной с возможностью исполнения процесса кластеризации.
[0040] Фиг.8 изображает структурную схему, которая иллюстрирует пример системы, выполненной с возможностью кластеризации объектов и/или подложек в системе адаптивной звуковой обработки.
[0041] Фиг.9 изображает структурную схему, которая обеспечивает пример процесса кластеризации, следующего за процессом декорреляции для больших звуковых объектов.
[0042] Фиг.10A изображает пример местоположений виртуальных источников по отношению к среде проигрывания.
[0043] Фиг.10B изображает альтернативный пример местоположений виртуальных источников по отношению к среде проигрывания.
[0044] Фиг.11 изображает структурную схему, которая обеспечивает примеры компонентов звукового обрабатывающего устройства.
[0045] Подобные ссылочные позиции и обозначения на различных чертежах указывают подобные элементы.
ОПИСАНИЕ ВАРИАНТОВ ОСУЩЕСТВЛЕНИЯ
[0046] Следующее описание направлено на конкретные осуществления в целях описания некоторых новаторских аспектов этого раскрытия, а также примеры контекстов, в которых эти новаторские аспекты могут осуществляться. Однако принципы, описанные здесь, могут применяться различными другими способами. Например, несмотря на то, что различные осуществления описаны в отношении конкретных сред проигрывания, принципы, описанные здесь, могут широко применяться в других известных средах проигрывания, а также средах проигрывания, которые могут быть представлены в будущем. Кроме того, описанные осуществления могут осуществляться, по меньшей мере частично, в различных устройствах и системах в качестве аппаратных средств, программных средств, программно-аппаратных средств, облачных систем и т. д. Соответственно, принципы этого раскрытия не подразумеваются как ограниченные осуществлениями, показанными на чертежах и/или описанными здесь, а вместо этого имеют широкую применимость.
[0047] Фиг.1 изображает пример среды проигрывания, имеющей конфигурацию Dolby Surround 5.1. В этом примере среда проигрывания является средой проигрывания кинотеатра. Dolby Surround 5.1 была разработана в 1990-х, но эта конфигурация все еще широко применяется в домашних и кинотеатральных средах проигрывания. В среде проигрывания кинотеатра проектор 105 может быть сконфигурирован для проецирования видеоизображений, например для фильма, на экран 150. Аудиоданные могут синхронизироваться с видеоизображениями и обрабатываться звуковым процессором 110. Усилители 115 мощности могут обеспечивать подаваемые сигналы динамика к динамикам среды 100 проигрывания.
[0048] Конфигурация Dolby Surround 5.1 включает в себя левый канал 120 объемного звучания для левой матрицы 122 объемного звучания и правый канал 125 объемного звучания для правой матрицы 127 объемного звучания. Конфигурация Dolby Surround 5.1 также включает в себя левый канал 130 для левой матрицы 132 динамиков, центральный канал 135 для центральной матрицы 137 динамиков и правый канал 140 для правой матрицы 142 динамиков. В среде кинотеатра эти каналы могут называться левым каналом экрана, центральным каналом экрана и правым каналом экрана, соответственно. Отдельный канал 144 низкочастотных эффектов (LFE) обеспечен для сабвуфера 145.
[0049] В 2010 г. Dolby обеспечила улучшение для цифрового звука кинотеатра путем введения Dolby Surround 7.1. Фиг.2 изображает пример среды проигрывания, имеющей конфигурацию Dolby Surround 7.1. Цифровой проектор 205 может быть сконфигурирован для приема цифровых видеоданных и для проецирования видеоизображений на экран 150. Аудиоданные могут обрабатываться звуковым процессором 210. Усилители мощности 215 могут обеспечивать подаваемые сигналы динамика к динамикам среды проигрывания 200.
[0050] Как и Dolby Surround 5.1, конфигурация Dolby Surround 7.1 включает в себя левый канал 130 для левой матрицы 132 динамиков, центральный канал 135 для центральной матрицы 137 динамиков, правый канал 140 для правой матрицы 142 динамиков и канал 144 LFE для сабвуфера 145. Конфигурация Dolby Surround 7.1 включает в себя левую боковую матрицу 220 объемного звучания (Lss) и правую боковую матрицу 225 объемного звучания (Rss), каждая из которых может приводиться в действие одним каналом.
[0051] Однако Dolby Surround 7.1 увеличивает количество каналов объемного звучания путем разбиения левых и правых каналов объемного звучания Dolby Surround 5.1 на четыре зоны: дополнительно к левой боковой матрице 220 объемного звучания и правой боковой матрице 225 объемного звучания, отдельные каналы включены для левых задних динамиков 224 объемного звучания (Lrs) и правых задних динамиков 226 объемного звучания (Rrs). Увеличенное количество зон объемного звучания внутри среды 200 проигрывания может существенно улучшить локализацию звука.
[0052] В попытке создания более иммерсивной среды некоторые среды проигрывания могут быть сконфигурированы с увеличенными количествами динамиков, приводимых в действие увеличенными количествами каналов. Кроме того, некоторые среды проигрывания могут включать в себя динамики, размещенные на различных приподнятостях, некоторые из которых могут быть "динамиками высоты", сконфигурированными для создания звука от области, которая выше области сидения среды проигрывания.
[0053] Фиг.3A и 3B изображают два примера сред проигрывания домашнего кинотеатра, которые включают в себя конфигурации динамиков высоты. В этих примерах, среды 300a и 300b проигрывания включают в себя основные признаки конфигурации Dolby Surround 5.1, включающие в себя левый динамик 322 объемного звучания, правый динамик 327 объемного звучания, левый динамик 332, правый динамик 342, центральный динамик 337 и сабвуфер 145. Однако среда 300 проигрывания включает в себя расширение конфигурации Dolby Surround 5.1 для динамиков высоты, которое может называться конфигурацией Dolby Surround 5.1.2.
[0054] Фиг.3A изображает пример среды проигрывания, имеющей динамики высоты, установленные на потолке 360 среды проигрывания домашнего кинотеатра. В этом примере среда 300a проигрывания включает в себя динамик 352 высоты, который находится в левой верхней средней (Ltm) позиции, и динамик 357 высоты находится в правой верхней средней (Rtm) позиции. В примере, изображенном на фиг.3B, левый динамик 332 и правый динамик 342 являются динамиками приподнятости Dolby, которые конфигурируются для отражения звука от потолка 360. При надлежащей конфигурации отраженный звук может восприниматься слушателями 365 так, как если бы источник звука находился на потолке 360. Однако количество и конфигурация динамиков обеспечены лишь в качестве примера. Некоторые текущие осуществления домашних кинотеатров предусматривают вплоть до 34 позиций динамиков, и предполагаемые осуществления домашних кинотеатров могут обеспечить возможность еще большего количества позиций динамиков.
[0055] Соответственно, современной тенденцией является включать не только больше динамиков и больше каналов, но также включать динамики на различных высотах. По мере того как количество каналов увеличивается и размещение динамиков переходит от 2D к 3D, задачи позиционирования и рендеринга звуков становятся все более сложными.
[0056] Соответственно, Dolby разработала различные инструменты, включающие в себя, но не ограничивающиеся, пользовательские интерфейсы, которые увеличивают функциональные возможности и/или уменьшают сложность разработки для системы звука 3D-аудио. Некоторые такие инструменты могут быть использованы для создания звуковых объектов и/или метаданных для звуковых объектов.
[0057] Фиг.4A изображает пример графического пользовательского интерфейса (GUI), который иллюстрирует зоны динамиков на изменяющихся приподнятостях в виртуальной среде проигрывания. GUI 400 может, например, отображаться на устройстве отображения согласно инструкциям от логической системы, согласно сигналам, принятым от устройств ввода пользователя, и т. д. Некоторые такие устройства описаны ниже со ссылками на фиг.11.
[0058] Используемый здесь со ссылками на виртуальные среды проигрывания, такие как виртуальная среда 404 проигрывания, термин "зона динамика" в общем случае ссылается на логическую структуру, которая может иметь или не иметь взаимно-однозначное соответствие с фактическим динамиком среды проигрывания. Например, "местоположение зоны динамика" может соответствовать или не соответствовать конкретному местоположению динамика среды проигрывания кинотеатра. Вместо этого термин "местоположение зоны динамика" может ссылаться в общем случае на зону виртуальной среды проигрывания. В некоторых осуществлениях зона динамика виртуальной среды проигрывания может соответствовать виртуальному динамику, например, путем использования технологии виртуализации, такой как Dolby Headphone™ (иногда называемой Mobile Surround™), которая создает виртуальную среду объемного звука в реальном времени с использованием комплекта двухканальных стереонаушников. В GUI 400 существует семь зон 402a динамиков на первой приподнятости и две зоны 402b динамиков на второй приподнятости, что в сумме обеспечивает девять зон динамиков в виртуальной среде 404 проигрывания. В этом примере зоны 1–3 динамиков находятся в передней области 405 виртуальной среды 404 проигрывания. Передняя область 405 может соответствовать, например, области среды проигрывания кинотеатра, в которой расположен экран 150, области дома, в которой расположен телевизионный экран, и т. д.
[0059] Здесь зона 4 динамика соответствует в общем динамикам в левой области 410, и зона 5 динамика соответствует динамикам в правой области 415 виртуальной среды 404 проигрывания. Зона 6 динамика соответствует левой задней области 412, и зона 7 динамика соответствует правой задней области 414 виртуальной среды 404 проигрывания. Зона 8 динамика соответствует динамикам в верхней области 420a, и зона 9 динамика соответствует динамикам в верхней области 420b, которая может быть областью виртуального потолка. Соответственно, местоположения зон 1–9 динамиков, которые показаны на фиг.4A, могут соответствовать или не соответствовать местоположениям фактических динамиков среды проигрывания. Кроме того, другие осуществления могут включать в себя больше или меньше зон динамиков и/или приподнятостей.
[0060] В различных осуществлениях, описанных здесь, пользовательский интерфейс, такой как GUI 400, может быть использован в составе инструмента разработки и/или инструмента рендеринга. В некоторых осуществлениях инструмент разработки и/или инструмент рендеринга может осуществляться с помощью программных средств, сохраненных на одном или нескольких некратковременных носителях. Инструмент разработки и/или инструмент рендеринга может осуществляться (по меньшей мере частично) посредством аппаратных средств, программно-аппаратных средств и т. д., таких как логическая система и другие устройства, описанные ниже со ссылками на фиг.11. В некоторых осуществлениях разработки ассоциированный инструмент разработки может быть использован для создания метаданных для ассоциированных аудиоданных. Метаданные могут, например, включать в себя данные, указывающее позицию и/или траекторию звукового объекта в трехмерном пространстве, данные ограничения зоны динамика и т. д. Метаданные могут создаваться в отношении зон 402 динамиков виртуальной среды 404 проигрывания, а не в отношении конкретного размещения фактических динамиков среды проигрывания. Инструмент рендеринга может принимать аудиоданные и ассоциированные метаданные и может вычислять усиления аудио и подаваемые сигналы динамика для среды проигрывания. Такие усиления аудио и подаваемые сигналы динамика могут быть вычислены согласно процессу панорамирования амплитуды, который может создавать впечатление, что звук исходит из позиции P в среде проигрывания. Например, подаваемые сигналы динамика могут быть обеспечены динамикам от 1 до N среды проигрывания согласно следующему уравнению:
[0061] x i (t)=g i x(t), i=1,..., N (Уравнение 1)
[0062] В уравнении 1 x i (t) представляет подаваемый сигнал динамика, который должен быть применен к динамику i, g i представляет коэффициент усиления соответствующего канала, x(t) представляет аудиосигнал и t представляет время. Коэффициенты усиления могут быть определены, например, согласно способам панорамирования амплитуды, описанным в разделе 2 на страницах 3-4 работы В. Пулкки "Компенсация замещения виртуальных источников после панорамирования амплитуды" (Общество инженеров по звуковой технике (AES), Международная конференция по виртуальному, синтетическому и развлекательному аудио), которая включена в настоящий документ посредством ссылки. В некоторых осуществлениях усиления могут быть зависимы от частоты. В некоторых осуществлениях время задержка может быть представлено путем замены x(t) на x(t-Δt).
[0063] В некоторых осуществлениях рендеринга данные воспроизведения аудио, созданные со ссылками на зоны 402 динамиков, могут быть отображены в местоположения динамиков широкого диапазона сред проигрывания, которые могут быть конфигурацией Dolby Surround 5.1, конфигурацией Dolby Surround 7.1, конфигурацией Hamasaki 22.2 или другой конфигурацией. Например, со ссылкой на фиг.2, инструмент рендеринга может отображать данные воспроизведения аудио для зон 4 и 5 динамиков в матрицу 220 объемного звучания левой стороны и матрицу 225 объемного звучания правой стороны среды проигрывания, имеющей конфигурацию Dolby Surround 7.1. Данные воспроизведения аудио для зон 1, 2 и 3 динамиков могут отображаться в левый канал 230 экрана, правый канал 240 экрана и центральный канал 235 экрана, соответственно. Данные воспроизведения аудио для зон 6 и 7 динамиков могут отображаться в левые задние динамики 224 объемного звучания и правые задние динамики 226 объемного звучания.
[0064] Фиг.4B изображает пример другой среды проигрывания. В некоторых осуществлениях инструмент рендеринга может отображать данные воспроизведения аудио для зон 1, 2 и 3 динамиков для соответствующих динамиков 455 экрана среды 450 проигрывания. Инструмент рендеринга может отображать данные воспроизведения аудио для зон 4 и 5 динамиков в матрицу 460 объемного звучания левой стороны и матрицу 465 объемного звучания правой стороны и может отображать данные воспроизведения аудио для зон 8 и 9 динамиков в левые верхние динамики 470a и правые верхние динамики 470b. Данные воспроизведения аудио для зон 6 и 7 динамиков могут отображаться в левые задние динамики 480a объемного звучания и правые задние динамики 480b объемного звучания.
[0065] В некоторых осуществления разработки инструменты разработки могут быть использованы для создания метаданных для звуковых объектов. Метаданные могут указывать 3D-позицию объекта, ограничения рендеринга, тип содержимого (например, диалог, эффекты и т. д.) и/или другую информацию. В зависимости от осуществления, метаданные могут включать в себя другие типы данных, такие как данные ширины, данные усиления, данные траектории и т. д. Некоторые звуковые объекты могут быть статичными, в то время как другие могут перемещаться.
[0066] Звуковые объекты подвергаются рендерингу согласно их ассоциированным метаданным, которые в общем случае включают в себя позиционные метаданные, указывающие позицию звукового объекта в трехмерном пространстве в некоторый заданный момент времени. Когда звуковые объекты отслеживаются или проигрываются в среде проигрывания, звуковые объекты подвергаются рендерингу согласно позиционным метаданным с использованием динамиков, которые присутствуют в среде проигрывания, вместо того чтобы выводиться в предварительно определенный физический канал, как в случае с традиционными системами на основе каналов, такими как Dolby 5.1 и Dolby 7.1.
[0067] В качестве дополнения к позиционным метаданным, другие типы метаданных могут быть необходимы для создания надлежащих аудиоэффектов. Например, в некоторых осуществлениях метаданные, ассоциированные со звуковым объектом, могут указывать размер звукового объекта, который может также называться "шириной". Метаданные размера могут быть использованы для указания пространственной области или объема, занятых звуковым объектом. Пространственно большой звуковой объект должен восприниматься как покрывающий большую пространственную область, не только в качестве точечного источника звука, имеющего местоположение, определенное только метаданными позиции звукового объекта. В некоторых случаях, например, большой звуковой объект должен восприниматься как занимающий существенную часть среды проигрывания, возможно даже окружающий слушателя.
[0068] Система слуха человека очень чувствительна к изменениям в корреляции или согласованности сигналов, поступающих в оба уха, и отображает эту корреляцию в атрибут воспринимаемого размера объекта, если нормализованная корреляция меньше значения +1. Таким образом, для того чтобы создать убедительный размер пространственного объекта, или пространственную диффузность, существенная часть сигналов динамика в среде проигрывания должна быть взаимно независима или по меньшей мере некоррелированна (например, независима в плане взаимной корреляции первого порядка или ковариации). Удовлетворительный процесс декорреляции обычно достаточно сложен и, как правило, включает в себя фильтры, переменные во времени.
[0069] Кинематографическая звуковая дорожка может включать в себя сотни объектов, с каждым из которых ассоциированы метаданные позиции, метаданные размера и, возможно, другие пространственные метаданные. Кроме того, система звука кинотеатра может включать в себя сотни громкоговорителей, которые могут быть индивидуально управляемыми для обеспечения удовлетворительного восприятия местоположений и размеров звуковых объектов. В кинотеатре, таким образом, сотни объектов могут воспроизводиться сотнями громкоговорителей, и отображение из объекта в сигнал громкоговорителя состоит из очень большой матрицы коэффициентов панорамирования. Когда количество объектов представлено как M и количество громкоговорителей представлено как N, эта матрица имеет вплоть до M*N элементов. Это создает осложнения для воспроизведения диффузных или больших объектов. Для создания убедительного размера пространственного объекта, или пространственной диффузности, существенная часть сигналов N громкоговорителей должна быть взаимно независимой или по меньшей мере некоррелированной. Это в общем случае включает в себя использование множества (вплоть до N) независимых процессов декорреляции, вызывающих существенную процессорную нагрузку для процесса рендеринга. Кроме того, количество декорреляции может быть различным для каждого объекта, что дополнительно усложняет процесс рендеринга. Достаточно сложная система рендеринга, такая как система рендеринга для коммерческого театра, может иметь возможность обеспечения такой декорреляции.
[0070] Однако менее сложные системы рендеринга, такие как предназначенные для систем домашних кинотеатров, не могут иметь возможность обеспечения достаточной декорреляции. Некоторые такие системы рендеринга вообще не имеют возможности обеспечения декорреляции. Программы декорреляции, которые достаточно просты для исполнения в системе домашнего кинотеатра, могут вносить артефакты. Например, артефакты гребенчатого фильтра могут быть внесены, если за процессом декорреляции низкой сложности следует процесс понижающего микширования.
[0071] Другая потенциальная проблема состоит в том, что в некоторых применениях основанное на объектах аудио передается в форме обратно-совместимого микса (такого как Dolby Digital или Dolby Digital Plus), дополненного дополнительной информацией для извлечения одного или нескольких объектов из обратно-совместимого микса. В обратно-совместимый микс обычно не будет включен эффект декорреляции. В некоторых таких системах восстановление объектов может работать надежно, только если обратно-совместимый микс был создан с использованием простых процедур панорамирования. Использование средств декорреляции в таких процессах может повредить процессу восстановления звукового объекта, иногда существенно. В прошлом это означало, что можно было легко сделать выбор не применять декорреляцию в обратно-совместимом миксе, из-за чего страдал авторский замысел этого микса, или принять ухудшение процесса восстановления объекта.
[0072] Для того чтобы решить такие потенциальные проблемы, некоторые осуществления, описанные здесь, включают в себя определение диффузных или пространственно больших звуковых объектов для специальной обработки. Такие способы и устройства могут, в частности, подходить для аудиоданных, которые должны быть подвергнуты рендерингу в домашнем кинотеатре. Однако эти способы и устройства не ограничиваются использованием в домашнем кинотеатре, а вместо этого имеют возможность широкого применения.
[0073] Ввиду их пространственно диффузной природы, объекты с большим размером не воспринимаются как точечные источники с компактным и конкретным местоположением. Таким образом, множество динамиков используется для воспроизведения таких пространственно диффузных объектов. Однако точные местоположения динамиков в среде проигрывания, которые используются для воспроизведения больших звуковых объектов, менее критичны, чем местоположения динамиков, используемых для воспроизведения компактных, маленьких звуковых объектов. Соответственно, высококачественное воспроизведение больших звуковых объектов возможно без предварительного знания о конфигурации фактических динамиков проигрывания, используемой впоследствии для осуществления рендеринга декоррелированных сигналов больших звуковых объектов для фактических динамиков среды проигрывания. Следовательно, процессы декорреляции для больших звуковых объектов могут выполняться ранее, перед процессом рендеринга аудиоданных для воспроизведения в среде проигрывания, такой как система домашнего кинотеатра, для слушателей. В некоторых примерах процессы декорреляции для больших звуковых объектов выполняются до кодирования аудиоданных для передачи к таким средам проигрывания.
[0074] Такие осуществления не требуют, чтобы средство рендеринга среды проигрывания имело возможность декорреляции высокой сложности, благодаря чему обеспечивается возможность для процессов рендеринга, которые могут быть относительно проще, эффективнее и дешевле. Обратно-совместимые понижающие миксы могут включать в себя эффект декорреляции для сохранения максимального возможного авторского замысла без необходимости в реконструкции объекта для декорреляции на стороне рендеринга. Высококачественные средства декорреляции могут применяться к большим звуковым объектам ранее финального процесса рендеринга, например, в течение процесса разработки или постпроизводства в студии звукозаписи. Такие средства декорреляции могут быть надежными в отношении понижающего микширования и/или другой последующей обработки аудио.
[0075] Фиг.5 изображает блок-схему, которая обеспечивает пример обработки аудио для пространственно больших звуковых объектов. Операции способа 500, как и у других способов, описанных здесь, не обязательно выполняются в указанном порядке. Кроме того, эти способы могут включать в себя больше или меньше блоков, чем показано и/или описано. Эти способы могут осуществляться, по меньшей мере частично, логической системой, такой как логическая система 1110, изображенная на фиг.11 и описанная ниже. Такая логическая система может быть компонентом системы обработки аудио. В качестве альтернативы или дополнения, такие способы могут осуществляться посредством некратковременного носителя, имеющего программные средства, сохраненные на нем. Программные средства могут включать в себя инструкции для управления одним или несколькими устройствами для выполнения, по меньшей мере частично, способов, описанных здесь.
[0076] В этом примере способ 500 начинается с блока 505, который включает в себя прием аудиоданных, включающих в себя звуковые объекты. Аудиоданные могут приниматься системой обработки аудио. В этом примере звуковые объекты включают в себя сигналы звуковых объектов и ассоциированные метаданные. Здесь ассоциированные метаданные включают в себя данные размера звукового объекта. Ассоциированные метаданные также могут включать в себя данные позиции звукового объекта, указывающие позицию звукового объекта в трехмерном пространстве, метаданные декорреляции, информацию усиления звукового объекта и т. д. Аудиоданные также могут включать в себя один или несколько сигналов звуковой подложки, соответствующих местоположениям динамиков.
[0077] В этом осуществлении блок 510 включает в себя определение, на основе данных размера звукового объекта, большого звукового объекта, имеющего размер звукового объекта, который больше порогового размера. Например, блок 510 может включать в себя определение, превосходит ли значение численного размера звукового объекта предварительно определенный уровень. Значение численного размера звукового объекта может, например, соответствовать части среды проигрывания, занятой звуковым объектом. В качестве альтернативы или дополнения, блок 510 может включать в себя определение, указывает ли другой тип указания, такое как флаг, метаданные декорреляции и т. д., что звуковой объект имеет размер звукового объекта, который больше порогового размера. Хотя большая часть рассмотрения способа 500 включает в себя обработку одного большого звукового объекта, следует понимать, что те же самые (или подобные) процессы могут применяться к множеству больших звуковых объектов.
[0078] В этом примере блок 515 включает в себя выполнение процесса декорреляции над аудиосигналами больших звуковых объектов, производящего декоррелированные аудиосигналы больших звуковых объектов. В некоторых осуществлениях процесс декорреляции может выполняться, по меньшей мере частично, согласно принятым метаданным декорреляции. Процесс декорреляции может включать в себя задержки, универсальные фильтры, псевдослучайные фильтры и/или алгоритмы реверберации.
[0079] Здесь на блоке 520 декоррелированные аудиосигналы больших звуковых объектов ассоциируются с местоположениями объектов. В этом примере процесс ассоциирования независим от конфигурации фактических динамиков проигрывания, которая может быть использована впоследствии для осуществления рендеринга декоррелированных аудиосигналов больших звуковых объектов для фактических динамиков проигрывания среды проигрывания. Однако в некоторых альтернативных осуществлениях местоположения объектов могут соответствовать местоположениям фактических динамиков проигрывания. Например, согласно некоторым таким альтернативным осуществлениям, местоположения объектов могут соответствовать местоположениям динамиков проигрывания широко используемых конфигураций динамиков проигрывания. Если сигналы звуковой подложки принимаются на блоке 505, местоположения объектов могут соответствовать местоположениям динамиков проигрывания, соответствующим по меньшей мере некоторым из сигналов звуковой подложки. В качестве альтернативы или дополнения, местоположения объектов могут быть местоположениями, соответствующими по меньшей мере некоторым из данных позиции звукового объекта принятых звуковых объектов. Соответственно, по меньшей мере некоторые из местоположений объектов могут быть стационарными, в то время как по меньшей мере некоторые из местоположений объектов могут изменяться с течением времени. В некоторых осуществлениях блок 520 может включать в себя микширование декоррелированных аудиосигналов больших звуковых объектов с аудиосигналами для звуковых объектов, которые пространственно отделяются пороговым расстоянием от большого звукового объекта.
[0080] В некоторых осуществлениях блок 520 может включать в себя рендеринг декоррелированных аудиосигналов больших звуковых объектов согласно местоположениям виртуальных динамиков. Некоторые такие осуществления могут включать в себя вычисление вкладов от виртуальных источников внутри области или объема звукового объекта, определенных данными позиции большого звукового объекта и данными размера большого звукового объекта. Такие осуществления могут включать в себя определение набора значений усиления звуковых объектов для каждого из множества выходных каналов на основе, по меньшей мере частично, вычисленных вкладов. Некоторые примеры описаны ниже.
[0081] Некоторые осуществления могут включать в себя кодирование аудиоданных, выходящих из процесса ассоциирования. Согласно некоторым таким осуществлениям, процесс кодирования включает в себя кодирование сигналов звуковых объектов и ассоциированных метаданных. В некоторых осуществлениях процесс кодирования включает в себя процесс сжатия данных. Процесс сжатия данных может быть без потерь или с потерями. В некоторых осуществлениях процесс сжатия данных включает в себя процесс квантования. Согласно некоторым примерам, процесс кодирования не включает в себя кодирование метаданных декорреляции для большого звукового объекта.
[0082] Некоторые осуществления включают в себя выполнение процесса кластеризации звуковых объектов, также называемого здесь процессом "упрощения сцены". Например, процесс кластеризации звуковых объектов может быть частью блока 520. Для осуществлений, которые включают в себя кодирование, процесс кодирования может включать в себя кодирование аудиоданных, которые выводятся из процесса кластеризации звуковых объектов. В некоторых таких осуществлениях процесс кластеризации звуковых объектов может выполняться после процесса декорреляции. Дополнительные примеры процессов, соответствующих блокам способа 500, включающих в себя процессы упрощения сцены, обеспечены ниже.
[0083] Фиг.6A–6F изображают структурные схемы, которые иллюстрируют примеры компонентов систем обработки аудио, которые имеют возможность обработки больших звуковых объектов, как описано здесь. Эти компоненты могут, например, соответствовать модулям логической системы для системы обработки аудио, которая может осуществляться посредством аппаратных средств, программно-аппаратных средств, программных средств, сохраненных на одном или нескольких некратковременных носителях или комбинаций перечисленного. Логическая система может включать в себя один или несколько процессоров, таких как универсальные одно- или многочиповые процессоры. Логическая система может включать в себя процессор цифровых сигналов (DSP), специализированную интегральную схему (ASIC), программируемую пользователем вентильную матрицу (FPGA) или другое программируемое логическое устройство, схему на дискретных компонентах или транзисторную логическую схему, дискретные аппаратные компоненты и/или комбинации перечисленного.
[0084] На фиг.6A система 600 обработки аудио имеет возможность обнаружения больших звуковых объектов, таких как большой звуковой объект 605. Процесс обнаружения может по существу быть подобен одному из процессов, описанных со ссылками на блок 510 с фиг.5. В этом примере аудиосигналы больших звуковых объектов 605 декоррелируются системой 610 декорреляции для создания декоррелированных сигналов 611 больших звуковых объектов. Система 610 декорреляции может выполнять процесс декорреляции, по меньшей мере частично, согласно принятым метаданным декорреляции для большого звукового объекта 605. Процесс декорреляции может включать в себя одно или более из задержек, универсальных фильтров, псевдослучайных фильтров или алгоритмов реверберации.
[0085] Система 600 обработки аудио также имеет возможность приема других аудиосигналов, которые являются другими звуковыми объектами и/или подложками 615 в этом примере. Здесь другие звуковые объекты являются звуковыми объектами, которые имеют размер, который меньше порогового размера для того, чтобы охарактеризовать звуковой объект как большой звуковой объект.
[0086] В этом примере система 600 обработки аудио имеет возможность ассоциирования декоррелированных аудиосигналов больших звуковых объектов 611 с местоположениями других объектов. Местоположения объектов могут быть стационарными или могут изменяться с течением времени. Процесс ассоциирования может быть подобен одному или нескольким из процессов, описанных выше со ссылками на блок 520 с фиг.5.
[0087] Процесс ассоциирования может включать в себя процесс микширования. Процесс микширования может основываться, по меньшей мере частично, на расстоянии между местоположением большого звукового объекта и местоположением другого объекта. В осуществлении, изображенном на фиг.6A, система 600 обработки аудио имеет возможность микширования декоррелированных сигналов 611 больших звуковых объектов с по меньшей мере некоторыми аудиосигналами, соответствующими звуковым объектам и/или подложкам 615. Например, система 600 обработки аудио может иметь возможность микширования декоррелированных аудиосигналов 611 больших звуковых объектов с аудиосигналами для других звуковых объектов, которые пространственно отделяются пороговой величиной расстояния от большого звукового объекта.
[0088] В некоторых осуществлениях процесс ассоциирования может включать в себя процесс рендеринга. Например, процесс ассоциирования может включать в себя рендеринг декоррелированных аудиосигналов больших звуковых объектов согласно местоположениям виртуальных динамиков. Некоторые примеры описаны ниже. После процесса рендеринга может не быть необходимости в сохранении аудиосигналов, соответствующих большому звуковому объекту, которые были приняты системой 610 декорреляции. Соответственно, система 600 обработки аудио может быть сконфигурирована для ослабления или удаления аудиосигналов больших звуковых объектов 605, после того как процесс декорреляции выполняется системой 610 декорреляции. В качестве альтернативы, система 600 обработки аудио может быть сконфигурирована для сохранения по меньшей мере части аудиосигналов больших звуковых объектов 605 (например, аудиосигналов, соответствующих вкладу точечного источника большого звукового объекта 605), после того как процесс декорреляции выполняется.
[0089] В этом примере система 600 обработки аудио включает в себя кодер 620, который имеет возможность кодирования аудиоданных. Здесь кодер 620 сконфигурирован для кодирования аудиоданных после процесса ассоциирования. В этом осуществлении кодер 620 имеет возможность применения процесса сжатия данных к аудиоданным. Закодированные аудиоданные 622 могут сохраняться и/или передаваться другим системам обработки аудио для последующей обработки, проигрывания и т. д.
[0090] В осуществлении, изображенном на фиг.6B, система 600 обработки аудио имеет возможность регулирования уровня. В этом примере система 612 регулирования уровня сконфигурирована для регулирования уровней выходящих сигналов системы 610 декорреляции. Процесс регулирования уровня может зависеть от метаданных звуковых объектов в исходном содержимом. В этом примере процесс регулирования уровня зависит, по меньшей мере частично, от метаданных размера звукового объекта и метаданных позиции звукового объекта большого звукового объекта 605. Такое регулирование уровня может быть использовано для оптимизирования распределения выходного сигнала средства декорреляции к другим звуковым объектам, таким как звуковые объекты и/или подложки 615. Можно сделать выбор микшировать выходные сигналы средства декорреляции к сигналам другого объекта, которые пространственно отдалены, для того чтобы улучшить пространственную диффузность получающейся в результате рендеринга.
[0091] В качестве альтернативы или дополнения, процесс регулирования уровня может быть использован для обеспечения того, что звуки, соответствующие декоррелированному большому звуковому объекту 605, воспроизводятся только громкоговорителями с конкретного направления. Это может быть осуществлено только путем добавления выходных сигналов средства декорреляции к объектам вблизи желаемого направления или местоположения. В таких осуществлениях метаданные позиции большого звукового объекта 605 учитываются при процессе регулирования уровня для того, чтобы сберечь информацию, касающуюся воспринимаемого направления, из которого его звуки исходят. Такие осуществления могут подходить для объектов промежуточного размера, например, для звуковых объектов, которые считаются большими, но не настолько большие, чтобы их размер включал в себя всю среду воспроизведения/проигрывания.
[0092] В осуществлении, изображенном на фиг.6C, система 600 обработки аудио имеет возможность создания дополнительных объектов или каналов подложки в течение процесса декорреляции. Такие функциональные возможности могут быть желаемыми, например, если другие звуковые объекты и/или подложки 615 не подходят или не оптимальны. Например, в некоторых осуществлениях декоррелированные сигналы 611 больших звуковых объектов могут соответствовать местоположениям виртуальных динамиков. Если другие звуковые объекты и/или подложки 615 не соответствуют позициям, которые достаточно близки к желаемым местоположениям виртуальных динамиков, декоррелированные сигналы 611 больших звуковых объектов могут соответствовать новым местоположениям виртуальных динамиков.
[0093] В этом примере большой звуковой объект 605 сначала обрабатывается системой 610 декорреляции. Впоследствии дополнительные объекты или каналы подложки, соответствующие декоррелированным сигналам 611 больших звуковых объектов, обеспечиваются кодеру 620. В этом примере декоррелированные сигналы 611 больших звуковых объектов подвергаются регулированию уровня перед посыланием кодеру 620. Декоррелированные сигналы 611 больших звуковых объектов могут быть сигналами каналов подложки и/или сигналами звуковых объектов, последние из которых могут соответствовать статичным или перемещающимся объектам.
[0094] В некоторых осуществлениях аудиосигналы, выходящие к кодеру 620, также могут включать в себя по меньшей мере некоторые из исходных сигналов больших звуковых объектов. Как отмечено выше, система 600 обработки аудио может иметь возможность сохранения аудиосигналов, соответствующих вкладу точечного источника большого звукового объекта 605, после того как процесс декорреляции выполняется. Это может обеспечивать преимущества, например, потому, что различные сигналы могут быть коррелированными друг с другом в разной степени. Таким образом, может быть полезно пропустить по меньшей мере часть исходного аудиосигнала, соответствующего большому звуковому объекту 605 (например, вкладу точечного источника), и осуществить ее рендеринг отдельно. В таких осуществлениях может обеспечивать преимущества выравнивание декоррелированных сигналов и исходных сигналов, соответствующих большому звуковому объекту 605.
[0095] Один такой пример показан на фиг.6D. В этом примере по меньшей мере некоторые из исходных сигналов 613 больших звуковых объектов подвергаются первому процессу выравнивания системой 612a регулирования уровня, и декоррелированные сигналы 611 больших звуковых объектов подвергаются процессу выравнивания системой 612b регулирования уровня. Здесь система 612a регулирования уровня и система 612b регулирования уровня обеспечивают выходные аудиосигналы кодеру 620. Выходные сигналы системы 612b регулирования уровня также микшируются с другими звуковыми объектами и/или подложками 615 в этом примере.
[0096] В некоторых осуществлениях система 600 обработки аудио может иметь возможность оценки входных аудиоданных для определения (или по меньшей мере приблизительного определения) типа содержимого. Процесс декорреляции может основываться, по меньшей мере частично, на типе содержимого. В некоторых осуществлениях процесс декорреляции может выборочно выполняться согласно типу содержимого. Например, количество декорреляции, которая должна быть выполнена над входными аудиоданными, может зависеть, по меньшей мере частично, от типа содержимого. Например, в общем случае желательно уменьшить количество декорреляции для речи.
[0097] Один пример показан на фиг.6E. В этом примере система 625 интеллекта мультимедиа имеет возможность оценки аудиосигналов и приблизительного определения типа содержимого. Например, система 625 интеллекта мультимедиа может иметь возможность оценки аудиосигналов, соответствующих большим звуковым объектам 605 и приблизительного определения, является ли тип содержимого речью, музыкой, звуковыми эффектами и т. д. В примере, изображенном на фиг.6E, система 625 интеллекта мультимедиа имеет возможность посылания управляющих сигналов 627 для управления количеством декорреляции или обработки размера объекта согласно приблизительному определению типа содержимого.
[0098] Например, если система 625 интеллекта мультимедиа приблизительно определяет, что аудиосигналы больших звуковых объектов 605 соответствуют речи, система 625 интеллекта мультимедиа может посылать управляющие сигналы 627, указывающие, что количество декорреляции для этих сигналов должно быть уменьшено или что эти сигналы не должны быть декоррелированы. Различные способы автоматического определения вероятности, что сигнал является сигналом речи, могут быть использованы. Согласно одному варианту осуществления система 625 интеллекта мультимедиа может включать в себя средство приблизительного определения вероятности речи, которое имеет возможность генерирования значения вероятности речи на основе, по меньшей мере частично, информации аудио в центральном канале. Некоторые примеры описаны Робинсоном и Винтоном в работе "Автоматизированное различение речи/другого для отслеживания громкости" (Общество инженеров по звуковой технике, предварительная публикация № 6437 конференции 118, май 2005 г.).
[0099] В некоторых осуществлениях управляющие сигналы 627 могут указывать количество регулирования уровня и/или могут указывать параметры для микширования декоррелированных сигналов 611 больших звуковых объектов с аудиосигналами для звуковых объектов и/или подложек 615.
[00100] В качестве альтернативы или дополнения, количество декорреляции для большого звукового объекта может основываться на "стеблях", "тэгах" или других прямых указаниях типа содержимого. Такие прямые указания типа содержимого могут, например, создаваться создателем содержимого (например, в течение процесса постобработки) и передаваться в качестве метаданных с соответствующими аудиосигналами. В некоторых осуществлениях такие метаданные могут быть удобочитаемыми для человека. Например, удобочитаемый для человека стебель или тэг может в явной форме указывать, в сущности, "это диалог", "это специальный эффект", "это музыка" и т. д.
[00101] Некоторые осуществления могут включать в себя процесс кластеризации, который комбинирует объекты, которые подобны в некоторых отношениях, например в плане пространственного местоположения, пространственного размера или типа содержимого. Некоторые примеры кластеризации описаны ниже со ссылками на фиг.7 и 8. В примере, изображенном на фиг.6F, объекты и/или подложки 615a вводятся в процесс 630 кластеризации. Меньшее количество объектов и/или подложек 615b выводится из процесса 630 кластеризации. Аудиоданные, соответствующие объектам и/или подложкам 615b, микшируются с выровненными декоррелированными сигналами 611 больших звуковых объектов. В некоторых альтернативных осуществлениях процесс кластеризации может следовать за процессом декорреляции. Один пример описан ниже со ссылками на фиг.9. Такие осуществления могут, например, препятствовать тому, что диалог микшируется в кластер с нежелаемыми метаданными, такими как позиция не у центрального динамика или большой размер кластера.
Упрощение сцены посредством кластеризации объектов
[00102] Для целей следующего описания термины "кластеризация" и "группирование" или "комбинирование" используются взаимозаменяемым образом для описания комбинации объектов и/или подложек (каналов) для уменьшения количества данных в блоке адаптивного аудиосодержимого для передачи и рендеринга в системе проигрывания адаптивного аудио; и термин "уменьшение" может быть использован для ссылки на действие выполнения упрощения сцены адаптивного аудио путем такой кластеризации объектов и подложек. Термины "кластеризация", "группирование" или "комбинирование" на протяжении этого описания не ограничиваются строго уникальным назначением канала объекта или подложки только одному кластеру, вместо этого канал объекта или подложки может быть распределен по более чем одной выходной подложке или кластеру с использованием весов или векторов усиления, которые определяют относительный вклад сигнала объекта или подложки в выходной кластер или выходной сигнал подложки.
[00103] В одном варианте осуществления система адаптивного аудио включает в себя по меньшей мере один компонент, сконфигурированный для уменьшения полосы частот аудиосодержимого на основе объектов путем кластеризации объектов и чувственно прозрачных упрощений пространственных сцен, созданных комбинацией подложек канала и объектов. Процесс кластеризации объектов, исполняемый компонентом(-ами), использует конкретную информацию об объектах, которая может включать в себя пространственную позицию, тип содержимого объекта, временные атрибуты, размер объекта и/или подобное для уменьшения сложности пространственной сцены путем группирования подобных объектов в кластеры объектов, которые замещают исходные объекты.
[00104] Дополнительная обработка аудио для стандартного кодирования аудио для распределения и рендеринга притягательных впечатлений пользователя на основе исходных сложных дорожек подложек и аудио в общем случае называется упрощением сцены и/или кластеризацией объектов. Основная цель этой обработки состоит в уменьшении пространственной сцены посредством методик кластеризации или группирования, которые уменьшают количество отдельных элементов аудио (подложек и объектов), которые должны быть обеспечены устройству воспроизведения, но которые все еще сохраняют достаточно пространственной информации так, чтобы воспринимаемое различие между изначально разработанным содержимым и подвергнутым рендерингу выходным сигналом было минимизировано.
[00105] Процесс упрощения сцены может обеспечивать рендеринг содержимого "объект-плюс-подложка" в каналах уменьшенной полосы частот или системах кодирования с использованием информации об объектах, такой как пространственная позиция, временные атрибуты, тип содержимого, размер и/или другие надлежащие характеристики для динамической кластеризации объектов до уменьшенного количества. Этот процесс может уменьшать количество объектов путем выполнения одной или нескольких из следующих операций кластеризации: (1) кластеризация объектов в объекты; (2) кластеризация объекта с подложками; и (3) кластеризация объектов и/или подложек в объекты. Дополнительно, объект может быть распределен по двум или более кластерам. Процесс может использовать временную информацию об объектах для управления кластеризацией и декластеризацией объектов.
[00106] В некоторых осуществлениях кластеры объектов замещают отдельные волновые формы и метаэлементы данных составных объектов единственной равноценной волновой формой и набором метаданных так, чтобы данные для N объектов были замещены данными для единственного объекта, таким образом, в сущности, сжимая данные объекта с N до 1. В качестве альтернативы или дополнения, канал объекта или подложки может быть распределен по более чем одному кластеру (например, с использованием методик панорамирования амплитуды), уменьшая данные объекта с N до M, где M < N. Процесс кластеризации может использовать метрику ошибки на основе искажения ввиду изменения в местоположении, громкости или другой характеристике кластеризованных объектов для определения компромисса между кластерным сжатием и ухудшением звука кластеризованных объектов. В некоторых вариантах осуществления процесс кластеризации может выполняться синхронно. В качестве альтернативы или дополнения, процесс кластеризации может быть управляемым событиями, например посредством звукового анализа сцены (ASA) и/или события обнаружения границы для управления упрощением объекта посредством кластеризации.
[00107] В некоторых вариантах осуществления процесс может задействовать знание алгоритмов рендеринг конечной точки и/или устройств для управления кластеризацией. Таким образом, конкретные характеристики или свойства устройства проигрывания могут быть использованы для информирования процесса кластеризации. Например, различные схемы кластеризации могут задействоваться для динамиков в отличие от наушников или других драйверов аудио, или различные схемы кластеризации могут быть использованы для кодирования без потерь в отличие от кодирования с потерями, и так далее.
[00108] Фиг.7 изображает структурную схему, которая изображает пример системы выполненной с возможностью исполнения процесса кластеризации. Как изображено на фиг.7, система 700 включает в себя этапы кодера 704 и декодера 706, которые обрабатывают входные аудиосигналы для создания выходных аудиосигналов с уменьшенной полосой частот. В некоторых осуществлениях часть 720 и часть 730 могут быть в различных местоположениях. Например, часть 720 может соответствовать системе разработки постпроизводства, и часть 730 может соответствовать среде проигрывания, такой как система домашнего кинотеатра. В примере, изображенном на фиг.7, часть 709 входных сигналов обрабатывается посредством известных методик сжатия для создания сжатого битового потока 705 аудио. Сжатый битовый поток 705 аудио может быть декодирован этапом 706 декодера для создания по меньшей мере части выходного сигнала 707. Такие известные методики сжатия могут включать в себя анализ входного аудиосодержимого 709, квантизацию аудиоданных и затем выполнение методик сжатия, таких как маскирование и т. д., над самими аудиоданными. Методики сжатия могут быть с потерями или без потерь и могут осуществляться в системах, которые могут обеспечивать пользователю возможность выбора сжатой полосы частот, такой как 192 кбит/с, 256 кбит/с, 512 кбит/с и т. д.
[00109] В системе адаптивного аудио по меньшей мере часть входного аудио содержит входные сигналы 701, которые включают в себя звуковые объекты, которые в свою очередь включают в себя сигналы звуковых объектов и ассоциированные метаданные. Метаданные определяют точные характеристики ассоциированного аудиосодержимого, такие как пространственная позиция объекта, размер объекта, тип содержимого, громкость и так далее. Любое практическое количество звуковых объектов (например, сотни объектов) может обрабатываться через систему для проигрывания. Для обеспечения точного проигрывания множества объектов в широком множестве различных систем проигрывания и средств передачи система 700 включает в себя процесс кластеризации или компонент 702, который уменьшает количество объектов до меньшего, более поддающегося управлению количества объектов путем комбинирования исходных объектов в меньшее количество групп объектов.
[00110] Процесс кластеризации, таким образом, строит группы объектов для создания меньшего количества выходных групп 703 из исходного набора отдельных входных объектов 701. Процесс 702 кластеризации в сущности обрабатывает метаданные объектов, а также сами аудиоданные для создания уменьшенного количества групп объектов. Метаданные могут анализироваться для определения, какие объекты в любой момент времени наиболее подходящим образом комбинируются с другими объектами, и соответствующие волновые формы аудио для комбинированных объектов могут суммироваться вместе для создания замещающего или комбинированного объекта. В этом примере комбинированные группы объектов затем вводятся в кодер 704, который сконфигурирован для генерирования битового потока 705, содержащего аудио и метаданные для передачи декодеру 706.
[00111] В общем случае система адаптивного аудио, задействующая процесс кластеризации 702 объектов, включает в себя компоненты, которые генерируют метаданные из исходного пространственного аудиоформата. Система 700 содержит часть системы обработки аудио, сконфигурированную для обработки одного или нескольких битовых потоков, содержащих как стандартные элементы аудио на основе каналов, так и элементы кодирования звуковых объектов. Слой расширения, содержащий элементы кодирования звуковых объектов, может добавляться к битовому потоку аудиокодека на основе каналов или к битовому потоку звуковых объектов. Соответственно, в этом примере битовые потоки 705 включают в себя слой расширения, который должен быть обработан средствами рендеринг для использования с существующими проектированиями динамиков и драйверов или динамиками следующего поколения, задействующими индивидуально адресуемые драйверы и определения драйверов.
[00112] Содержимое пространственного аудио из процессора пространственного аудио может включать в себя звуковые объекты, каналы и метаданные позиции. Когда объект подвергается рендерингу, он может быть назначен одному или нескольким динамикам согласно метаданным позиции и местоположению динамика проигрывания. Дополнительные метаданные, такие как метаданные размера, могут быть ассоциированы с объектом для изменения местоположения проигрывания или иного ограничения динамиков, которые должны быть использованы для проигрывания. Метаданные могут генерироваться на рабочей станции аудио в ответ на входные сигналы микширования инженера для обеспечения рендеринга сигнальных меток, которые управляют пространственными параметрами (например, позиция, размер, скорость, интенсивность, тембр и т. д.) и определяют, какой драйвер(ы) или динамик(и) в среде прослушивания проигрывают соответственные звуки в течение представления. Метаданные могут быть ассоциированы с соответственными аудиоданными в рабочей станции для упаковки и переноса процессором пространственного аудио.
[00113] Фиг.8 изображает структурную схему, которая иллюстрирует пример системы выполненной с возможностью кластеризации объектов и/или подложек в системе адаптивной обработки аудио. В примере, изображенном на фиг.8, компонент 806 обработки объектов, которые имеют возможность выполнения задач упрощения сцены, считывает произвольное количество входных аудиофайлов и метаданных. Входные аудиофайлы содержат входные объекты 802 и ассоциированные метаданные объектов и могут включать в себя подложки 804 и ассоциированные метаданные подложек. Этот входной файл/метаданные, таким образом, соответствуют дорожкам либо "подложки", либо "объекта".
[00114] В этом примере компонент 806 обработки объектов имеет возможность комбинирования интеллекта мультимедиа/классификации содержимого, анализа пространственного искажения и информации выбора/кластеризации объекта для создания меньшего количества выходных объектов и дорожек подложки. В частности, объекты могут быть кластеризованы вместе для создания новых равноценных объектов или кластеров 808 объектов с ассоциированными метаданными объекта/кластера. Объекты могут также быть выбраны для понижающего микширования в подложки. Это показано на фиг.8 в качестве выходного сигнала микшированных с понижением объектов 810, введенных в средство 816 рендеринга для комбинации 818 с подложками 812 для формирования выходных объектов подложки и ассоциированных метаданных 820. Выходная конфигурация 820 подложки (например, конфигурация Dolby 5.1) не обязательно должна соответствовать входной конфигурации подложки, которая, например, может быть 9.1 для кинотеатра Atmos. В этом примере новые метаданные генерируются для выходных дорожек путем комбинирования метаданных из входных дорожек, и новые аудиоданные также генерируются для выходных дорожек путем комбинирования аудио из входных дорожек.
[00115] В этом осуществлении компонент 806 обработки объектов имеет возможность использования конкретной обработки информации 822 конфигурации. Такая обработка информации 822 конфигурации может включать в себя количество выходных объектов, размер кадра и конкретные установки интеллекта мультимедиа. Интеллект мультимедиа может включать в себя определение параметров или характеристик объектов (или ассоциированных с ними), таких как тип содержимого (т. е. диалог/музыка/эффекты/и т. д.), области (сегмент/классификация), предобработки, результаты акустического анализа сцены и другая подобная информация. Например, компонент 806 обработки объектов может иметь возможность определения, какие аудиосигналы соответствуют речи, музыке и/или звукам специальных эффектов. В некоторых осуществлениях компонент 806 обработки объектов имеет возможность определения по меньшей мере некоторых таких характеристик путем анализа аудиосигналов. В качестве альтернативы или дополнения, компонент 806 обработки объектов может иметь возможность определения по меньшей мере некоторых таких характеристик согласно ассоциированным метаданным, таким как тэги, метки и т. д.
[00116] В альтернативном варианте осуществления генерирование аудио может быть отсрочено сохранением ссылки на все исходные дорожки, а также метаданные упрощения (например, какие объекты принадлежат к какому кластеру, какие объекты должны быть подвергнуты рендерингу для подложек и т. д.). Такая информация может, например, быть полезна для распределения функций процесса упрощения сцены между студией и местом кодирования или других подобных сценариев.
[00117] Фиг.9 изображает структурную схему, которая обеспечивает пример процесса кластеризации, следующий за процессом декорреляции для больших звуковых объектов. Блоки системы 600 обработки аудио могут осуществляться посредством любой надлежащей комбинации аппаратных средств, программно-аппаратных средств, программных средств, сохраненных на некратковременных носителях, и т. д. Например, блоки системы 600 обработки аудио могут осуществляться посредством логической системы и/или других элементов, таких как описанные ниже со ссылками на фиг.11.
[00118] В этом осуществлении система 600 обработки аудио принимает аудиоданные, которые включают в себя звуковые объекты от O1 до OM. Здесь звуковые объекты включают в себя сигналы звуковых объектов и ассоциированные метаданные, включающие в себя по меньшей мере метаданные размера звукового объекта. Ассоциированные метаданные также могут включать в себя метаданные позиции звукового объекта. В этом примере модуль 905 обнаружения больших объектов имеет возможность определения, на основе, по меньшей мере частично, метаданных размера звукового объекта, больших звуковых объектов 605, которые имеют размер, который больше порогового размера. Модуль 905 обнаружения больших объектов может функционировать, например, как описано выше со ссылками на блок 510 с фиг.5.
[00119] В этом осуществлении модуль 910 имеет возможность выполнения процесса декорреляции над аудиосигналами больших звуковых объектов 605 для создания декоррелированных аудиосигналов 611 больших звуковых объектов. В этом примере модуль 910 также имеет возможность рендеринга аудиосигналов больших звуковых объектов 605 для местоположений виртуальных динамиков. Соответственно, в этом примере декоррелированные аудиосигналы 611 больших звуковых объектов, выводимые модулем 910, соответствуют местоположениям виртуальных динамиков. Некоторые примеры рендеринга сигналов звуковых объектов для местоположений виртуальных динамиков далее будут описаны со ссылками на фиг.10A и 10B.
[00120] Фиг.10A изображает пример местоположений виртуальных источников по отношению к среде проигрывания. Среда проигрывания может быть фактической средой проигрывания или виртуальной средой проигрывания. Местоположения 1005 виртуальных источников и местоположения 1025 динамиков являются лишь примерами. Однако в этом примере среда проигрывания является виртуальной средой проигрывания, и местоположения 1025 динамиков соответствуют местоположениям виртуальных динамиков.
[00121] В некоторых осуществлениях, местоположения 1005 виртуальных источников могут быть размещены с интервалами равномерно во всех направлениях. В примере, изображенном на фиг.10A, местоположения 1005 виртуальных источников размещены с интервалами равномерно вдоль осей x, y и z. Местоположения 1005 виртуальных источников могут формировать прямоугольную сеть N x на N y на N z местоположений 1005 виртуальных источников. В некоторых осуществлениях значение N может быть в диапазоне 5-100. Значение N может зависеть, по меньшей мере частично, от количества динамиков в среде проигрывания (или ожидаемого в среде проигрывания): может быть желательно включение двух или более местоположений 1005 виртуальных источников между всеми местоположениями динамиков.
[00122] Однако в альтернативных вариантах осуществления, местоположения 1005 виртуальных источников могут быть размещены с интервалами различным образом. Например, в некоторых осуществлениях, местоположения 1005 виртуальных источников могут иметь первые равномерные интервалы вдоль осей x и y и вторые равномерные интервалы вдоль оси z. В других осуществлениях, местоположения 1005 виртуальных источников могут быть размещены с интервалами неравномерно.
[00123] В этом примере объем 1020a звукового объекта соответствует размеру звукового объекта. Звуковой объект 1010 может быть подвергнут рендерингу согласно местоположениям 1005 виртуальных источников, охватываемых объемом 1020a звукового объекта. В примере, изображенном на фиг.10A, объем 1020a звукового объекта занимает часть, но не всю, среды 1000a проигрывания. Более большие звуковые объекты могут занимать более большую часть (или всю) среды 1000a проигрывания. В некоторых примерах, если звуковой объект 1010 соответствует точечному источнику, звуковой объект 1010 может иметь нулевой размер, и объем 1020a звукового объекта может быть установлен равным нулю.
[00124] Согласно некоторым таким осуществлениям, инструмент разработки может связывать размер звукового объекта с декорреляцией путем указания (например, посредством флага декорреляции, включенного в ассоциированные метаданные), что декорреляция должна быть включена, когда размер звукового объекта больше или равен пороговому значению размера, и что декорреляция должна быть выключена, если размер звукового объекта меньше порогового значения размера. В некоторых осуществлениях управление декорреляцией (например, увеличение, уменьшение или отключение) может осуществляться согласно вводу пользователя, касающемуся порогового значения размера и/или других входных значений.
[00125] В этом примере, местоположения 1005 виртуальных источников определяются внутри объема 1002 виртуального источника. В некоторых осуществлениях объем виртуального источника может соответствовать объему, внутри которого звуковые объекты могут перемещаться. В примере, изображенном на фиг.10A, среда 1000a проигрывания и объем 1002a виртуального источника имеют одинаковую протяженность так, чтобы каждое из местоположений 1005 виртуальных источников соответствовало местоположению внутри среды 1000a проигрывания. Однако в альтернативных вариантах осуществления среда 1000a проигрывания и объем 1002 виртуального источника могут не иметь одинаковую протяженность.
[00126] Например, по меньшей мере некоторые из местоположений 1005 виртуальных источников могут соответствовать местоположениям вне среды проигрывания. Фиг.10B изображает альтернативный пример местоположений виртуальных источников по отношению к среде проигрывания. В этом примере объем 1002b виртуального источника протягивается наружу от среды 1000b проигрывания. Некоторые из местоположений 1005 виртуальных источников внутри объема 1020b звукового объекта находятся внутри среды 1000b проигрывания, и другие местоположения 1005 виртуальных источников внутри объема 1020b звукового объекта находятся вне среды 1000b проигрывания.
[00127] В других осуществлениях, местоположения 1005 виртуальных источников могут иметь первое равномерное размещение с интервалами вдоль осей x и y и второе равномерное размещение с интервалами вдоль оси z. Местоположения 1005 виртуальных источников могут формировать прямоугольную сетку N x на N y на M z местоположений 1005 виртуальных источников. Например, в некоторых осуществлениях может быть меньше местоположений 1005 виртуальных источников вдоль оси z, чем вдоль осей x или y. В некоторых таких осуществлениях значение N может быть в диапазоне 10-100, в то время как значение M может быть в диапазоне 5-10.
[00128] Некоторые осуществления включают в себя вычисление значений усиления для каждого из местоположений 1005 виртуальных источников внутри объема 1020 звукового объекта. В некоторых осуществлениях значения усиления для каждого канала из множества выходных каналов среды проигрывания (которая может быть фактической средой проигрывания или виртуальной средой проигрывания) будут вычисляться для каждого из местоположений 1005 виртуальных источников внутри объема 1020 звукового объекта. В некоторых осуществлениях значения усиления могут быть вычислены путем применения алгоритма векторного панорамирования амплитуды ("VBAP"), алгоритма парного панорамирования или подобного алгоритма для вычисления значений усиления для точечных источников, расположенных в каждом из местоположений 1005 виртуальных источников внутри объема 1020 звукового объекта. В других осуществлениях может применяться разделяемый алгоритм для вычисления значений усиления для точечных источников, расположенных в каждом из местоположений 1005 виртуальных источников внутри объема 1020 звукового объекта. Используемый здесь "разделяемый" алгоритм является тем, для которого усиление некоторого заданного динамика может быть выражено в виде произведения множества коэффициентов (например, трех коэффициентов), каждый из которых зависит только от одной из координат местоположения 1005 виртуального источника. Примеры включают в себя алгоритмы, осуществляемые в различных существующих средствах панорамирования микшерных пультов, включающих в себя, но не ограничивающихся, программные средства Pro Tools™ и средства панорамирования, осуществляемые в пультах цифрового кино, обеспеченных AMS Neve.
[00129] Возвращаясь снова к фиг.9, в этом примере система 600 обработки аудио также принимает каналы B1-BN подложки, а также канал низкочастотных эффектов (LFE). Звуковые объекты и каналы подложки обрабатываются согласно процессу упрощения сцены или "кластеризации", например, как описано выше со ссылками на фиг.7 и 8. Однако в этом примере канал LFE не вводится в процесс кластеризации, а вместо этого пропускается к кодеру 620.
[00130] В этом осуществлении каналы B1-BN подложки преобразуются в статичные звуковые объекты 917 модулем 915. Модуль 920 принимает статичные звуковые объекты 917, дополнительно к звуковым объектам, которые модуль 905 обнаружения больших объектов определил как не являющиеся большими звуковыми объектами. Здесь модуль 920 также принимает декоррелированные сигналы 611 больших звуковых объектов, которые соответствуют местоположениям виртуальных динамиков в этом примере.
[00131] В этом осуществлении модуль 920 имеет возможность рендеринга статических объектов 917, принятых звуковых объектов и декоррелированных сигналов 611 больших звуковых объектов для кластеров от C1 до CP. В общем случае модуль 920 будет выводить меньшее количество кластеров, чем количество принятых звуковых объектов. В этом осуществлении модуль 920 имеет возможность ассоциирования декоррелированных сигналов 611 больших звуковых объектов с местоположениями надлежащих кластеров, например, как описано выше со ссылками на блок 520 с фиг.5.
[00132] В этом примере кластеры от C1 до CP и аудиоданные канала LFE кодируются кодером 620 и передаются среде 925 проигрывания. В некоторых осуществлениях среда 925 проигрывания может включать в себя систему домашнего кинотеатра. Система 930 обработки аудио имеет возможность приема и декодирования закодированных аудиоданных, а также рендеринга декодированных аудиоданных согласно конфигурации фактических динамиков проигрывания среды 925 проигрывания, например, позициям динамиков, возможностям динамиков (например, возможности воспроизведения нижних частот) и т. д. фактических динамиков проигрывания среды 925 проигрывания.
[00133] Фиг.11 изображает структурную схему, которая обеспечивает примеры компонентов системы обработки аудио. В этом примере система 1100 обработки аудио включает в себя систему 1105 интерфейса. Система 1105 интерфейса может включать в себя сетевой интерфейс, такой как беспроводной сетевой интерфейс. В качестве альтернативы или дополнения, система 1105 интерфейса может включать в себя интерфейс универсальной последовательной шины (USB) или другой такой интерфейс.
[00134] Система 1100 обработки аудио включает в себя логическую систему 1110. Логическая система 1110 может включать в себя процессор, такой как универсальный одно- или многочиповый процессор. Логическая система 1110 может включать в себя процессор цифровых сигналов (DSP), специализированную интегральную схему (ASIC), программируемую пользователем вентильную матрицу (FPGA) или другое программируемое логическое устройство, схему на дискретных компонентах или транзисторную логическую схему, или дискретные аппаратные компоненты, или комбинации перечисленного. Логическая система 1110 может быть сконфигурирована для управления другими компонентами системы 1100 обработки аудио. Хотя никакие интерфейсы между компонентами системы 1100 обработки аудио не показаны на фиг.11, логическая система 1110 может быть сконфигурирована с интерфейсами для связи с другими компонентами. Другие компоненты могут быть или не быть сконфигурированы для связи друг с другом по мере целесообразности.
[00135] Логическая система 1110 может быть сконфигурирована для выполнения функциональных возможностей обработки аудио, включающих в себя, но не ограничивающихся, типы функциональных возможностей, описанных здесь. В некоторых таких осуществлениях логическая система 1110 может быть сконфигурирована для оперирования (по меньшей мере частично) согласно программным средствам, сохраненным на одном или нескольких некратковременных носителях. Некратковременные носители могут включать в себя память, ассоциированную с логической системой 1110, такую как оперативная память (RAM) и/или постоянная память (ROM). Некратковременные носители могут включать в себя память системы 1115 памяти. Система 1115 памяти может включать в себя один или несколько подходящих типов некратковременных носителей информации, таких как флэш-память, жесткий диск и т. д.
[00136] Система 1130 отображения может включать в себя один или несколько подходящих типов дисплея в зависимости от реализации системы 1100 обработки аудио. Например, система 1130 отображения может включать в себя жидкокристаллический дисплей, плазменный дисплей, бистабильный дисплей и т. д.
[00137] Система 1135 ввода пользователя может включать в себя одно или несколько устройств, сконфигурированных для приема ввода от пользователя. В некоторых осуществлениях система 1135 ввода пользователя может включать в себя сенсорный экран, который накладывается на дисплей системы 1130 отображения. Система 1135 ввода пользователя может включать в себя мышь, трекбол, систему обнаружения жестов, джойстик, один или несколько GUI и/или меню, представленных на системе 1130 отображения, кнопок, клавиатуры, переключателей и т. д. В некоторых осуществлениях система 1135 ввода пользователя может включать в себя микрофон 1125: пользователь может обеспечивать голосовые команды для системы 1100 обработки аудио посредством микрофона 1125. Логическая система может быть сконфигурирована для распознавания речи и для управления по меньшей мере некоторыми операциями системы 1100 обработки аудио согласно таким голосовым командам. В некоторых осуществлениях система 1135 ввода пользователя может считаться пользовательским интерфейсом и, таким образом, быть в составе системы 1105 интерфейса.
[00138] Система 1140 мощности может включать в себя одно или несколько подходящих устройств хранения энергии, таких как никель-кадмиевый аккумулятор или литий-ионный аккумулятор. Система 1140 мощности может быть сконфигурирована для приема мощности от электрической розетки.
[00139] Различные модификации для осуществлений, описанных в этом раскрытии, могут быть без труда понятны обычным специалистам в данной области техники. Общие принципы, определенные здесь, могут применяться к другим осуществлениям без выхода за пределы сущности или объема этого раскрытия. Таким образом, пункты формулы не подразумеваются как ограниченные осуществлениями, показанными здесь, а должны соответствовать самому широкому объему в соответствии с этим раскрытием, принципами и новыми признаками, раскрываемыми здесь.

Claims (31)

1. Способ кодирования аудиосигналов, содержащий этапы, на которых:
принимают посредством интерфейса на компонент кодирования системы аудиорендеринга аудиоданные, содержащие звуковые объекты, причем звуковые объекты содержат сигналы звуковых объектов и ассоциированные метаданные, причем метаданные включают в себя по меньшей мере данные размера звуковых объектов;
определяют на основе данных размера звукового объекта большой звуковой объект, имеющий размер звукового объекта, который больше порогового размера, причем большой звуковой объект является пространственно диффузным и требует множества динамиков для воспроизведения звукового объектов;
выполняют посредством компонента декорреляции, связанного с интерфейсом, процесс декорреляции над аудиосигналами больших звуковых объектов для создания декоррелированных аудиосигналов больших звуковых объектов, которые не зависят только от определенного местоположения больших звуковых объектов, причем декоррелированные сигналы больших звуковых объектов являются взаимно независимыми друг от друга, и процесс декорреляции включает в себя регулирование уровня каждого аудиосигнала путем регулирования уровня соответствующего усиления аудио для каждого аудиосигнала для генерирования подаваемых сигналов динамика для каждого динамика из множества динамиков, причем множество динамиков покрывают большую пространственную область.
2. Способ по п.1, дополнительно содержащий этап, на котором принимают метаданные декорреляции для большого звукового объекта, причем метаданные декорреляции содержат указатель, что размер звукового объекта больше, чем пороговый размер.
3. Способ по п.1, в котором по меньшей мере некоторые из местоположений объектов являются одними из стационарных местоположений или местоположений, которые изменяются с течением времени во времени.
4. Способ по п.1, в котором процесс декорреляции выполняется ранее, перед процессом рендеринга аудиоданных для воспроизведения в среде проигрывания, включающей в себя систему домашнего кинотеатра.
5. Способ по п.1, в котором процесс декорреляции включает в себя одно из: процесса задержки, процесса универсального фильтра, процесса псевдослучайного фильтра и процесса алгоритмов реверберации.
6. Способ по п.1, в котором местоположения динамиков включают в себя зоны динамиков, определяющих виртуальные местоположения динамиков, расположенных в одной или боле зон динамиков.
7. Способ по п.1, причем аудиоданные содержат один или более сигналов звуковой подложки, соответствующих местоположениям динамиков, и способ дополнительно содержит этап, на котором выводят декоррелированные аудиосигналы больших звуковых объектов в качестве дополнительных сигналов звуковой подложки или сигналов звуковых объектов для воспроизведения через множество динамиков.
8. Способ по п.1, в котором соответствующее усиление аудио для каждого аудиосигнала содержит коэффициент усиления, определяемый согласно способу панорамирования амплитуды.
9. Способ по п.6, дополнительно содержащий использование инструмента рендеринга для отображения подаваемых сигналов динамика для соответствующих зон динамиков.
10. Способ по п.1, дополнительно содержащий этап, на котором ослабляют или удаляют аудиосигналы больших звуковых объектов, после того как процесс декорреляции выполняется.
11. Способ по п.1, дополнительно содержащий этап, на котором сохраняют аудиосигналы, соответствующие вкладу точечного источника большого звукового объекта, после того как процесс декорреляции выполняется.
12. Способ по п.1, в котором метаданные большого звукового объекта включают в себя метаданные позиции звукового объекта, и способ дополнительно содержит этапы, на которых:
вычисляют вклады от виртуальных источников внутри области или объема звукового объекта, определенных данными позиции большого звукового объекта и данными размера большого звукового объекта; и
определяют набор значений усиления звукового объекта для каждого из множества выходных каналов на основе по меньшей мере частично вычисленных вкладов.
13. Способ по п.1, дополнительно содержащий этап, на котором выполняют процесс кластеризации звуковых объектов после процесса декорреляции.
14. Способ по п.13, в котором процесс кластеризации звуковых объектов выполняется после процесса ассоциирования.
15. Способ по п.1, дополнительно содержащий этап, на котором оценивают аудиоданные для определения типа содержимого, причем процесс декорреляции выборочно выполняется согласно типу содержимого.
16. Способ по п.15, в котором количество декорреляции, которая должна быть выполнена, зависит от типа содержимого.
17. Способ по п.1, в котором процесс декорреляции включает в себя сложные фильтры, переменные во времени.
18. Способ по п.1, в котором метаданные большого звукового объекта включают в себя метаданные позиции звукового объекта, и способ дополнительно содержит этап, на котором микшируют декоррелированные аудиосигналы больших звуковых объектов с аудиосигналами для звуковых объектов, которые пространственно отделяются пороговой величиной расстояния от большого звукового объекта.
19. Устройство кодирования аудиосигналов, содержащее:
интерфейс системы аудиорендеринга, принимающей аудиоданные, содержащие звуковые объекты, причем звуковые объекты содержат сигналы звуковых объектов и ассоциированные метаданные, причем метаданные включают в себя по меньшей мере данные размера звуковых объектов;
компонент обработки, определяющий на основе данных размера звукового объекта большой звуковой объект, имеющий размер звукового объекта, который больше порогового размера, причем большой звуковой объект является пространственно диффузным и требует множества динамиков для воспроизведения звукового объекта;
компонент декорреляции, связанный с интрефейсом, выполняющий процесс декорреляции над аудиосигналами больших звуковых объектов для создания декоррелированных аудиосигналов больших звуковых объектов, которые не зависят только от определенного местоположения больших звуковых объектов, причем декоррелированные сигналы больших звуковых объектов являются взаимно независимыми друг от друга, и процесс декорреляции включает в себя регулирование уровня каждого аудиосигнала путем регулирования уровня соответствующего усиления аудио для каждого аудиосигнала для генерирования подаваемых сигналов динамика для каждого динамика из множества динамиков, причем множество динамиков покрывают большую пространственную область.
20. Некратковременный носитель, имеющий сохраненные на нем программные инструкции, который при выполнении на компоненте обработки системы аудиорендеринга предписывают системе:
принимать посредством интерфейса на компонент кодирования системы аудиорендеринга аудиоданные, содержащие звуковые объекты, причем звуковые объекты содержат сигналы звуковых объектов и ассоциированные метаданные, причем метаданные включают в себя по меньшей мере данные размера звуковых объектов;
определять на основе данных размера звукового объекта большой звуковой объект, имеющий размер звукового объекта, который больше порогового размера, причем большой звуковой объект является пространственно диффузным и требует множества динамиков для воспроизведения звукового объекта;
выполнять посредством компонента декорреляции, связанного с интрефейсом, процесс декорреляции над аудиосигналами больших звуковых объектов для создания декоррелированных аудиосигналов больших звуковых объектов, которые не зависят только от определенного местоположения больших звуковых объектов, причем декоррелированные сигналы больших звуковых объектов являются взаимно независимыми друг от друга, и процесс декорреляции включает в себя регулирование уровня каждого аудиосигнала путем регулирования уровня соответствующего усиления аудио для каждого аудиосигнала для генерирования подаваемых сигналов динамика для каждого динамика из множества динамиков, причем множество динамиков покрывают большую пространственную область.
RU2016106913A 2013-07-31 2014-07-24 Обработка пространственно диффузных или больших звуковых объектов RU2646344C2 (ru)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
ES201331193 2013-07-31
ESP201331193 2013-07-31
US201361885805P 2013-10-02 2013-10-02
US61/885,805 2013-10-02
PCT/US2014/047966 WO2015017235A1 (en) 2013-07-31 2014-07-24 Processing spatially diffuse or large audio objects

Related Child Applications (1)

Application Number Title Priority Date Filing Date
RU2018104812A Division RU2716037C2 (ru) 2013-07-31 2014-07-24 Обработка пространственно-диффузных или больших звуковых объектов

Publications (2)

Publication Number Publication Date
RU2016106913A RU2016106913A (ru) 2017-09-01
RU2646344C2 true RU2646344C2 (ru) 2018-03-02

Family

ID=52432343

Family Applications (2)

Application Number Title Priority Date Filing Date
RU2018104812A RU2716037C2 (ru) 2013-07-31 2014-07-24 Обработка пространственно-диффузных или больших звуковых объектов
RU2016106913A RU2646344C2 (ru) 2013-07-31 2014-07-24 Обработка пространственно диффузных или больших звуковых объектов

Family Applications Before (1)

Application Number Title Priority Date Filing Date
RU2018104812A RU2716037C2 (ru) 2013-07-31 2014-07-24 Обработка пространственно-диффузных или больших звуковых объектов

Country Status (9)

Country Link
US (6) US9654895B2 (ru)
EP (2) EP3028273B1 (ru)
JP (5) JP6388939B2 (ru)
KR (5) KR102327504B1 (ru)
CN (3) CN110808055B (ru)
BR (1) BR112016001738B1 (ru)
HK (1) HK1229945A1 (ru)
RU (2) RU2716037C2 (ru)
WO (1) WO2015017235A1 (ru)

Families Citing this family (44)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105432098B (zh) 2013-07-30 2017-08-29 杜比国际公司 针对任意扬声器布局的音频对象的平移
KR102327504B1 (ko) 2013-07-31 2021-11-17 돌비 레버러토리즈 라이쎈싱 코오포레이션 공간적으로 분산된 또는 큰 오디오 오브젝트들의 프로세싱
CN105895086B (zh) 2014-12-11 2021-01-12 杜比实验室特许公司 元数据保留的音频对象聚类
WO2016141023A1 (en) 2015-03-03 2016-09-09 Dolby Laboratories Licensing Corporation Enhancement of spatial audio signals by modulated decorrelation
WO2016171002A1 (ja) 2015-04-24 2016-10-27 ソニー株式会社 送信装置、送信方法、受信装置および受信方法
EP3706444B1 (en) * 2015-11-20 2023-12-27 Dolby Laboratories Licensing Corporation Improved rendering of immersive audio content
EP3174316B1 (en) * 2015-11-27 2020-02-26 Nokia Technologies Oy Intelligent audio rendering
US10278000B2 (en) 2015-12-14 2019-04-30 Dolby Laboratories Licensing Corporation Audio object clustering with single channel quality preservation
JP2017163432A (ja) * 2016-03-10 2017-09-14 ソニー株式会社 情報処理装置、情報処理方法、及び、プログラム
US10325610B2 (en) * 2016-03-30 2019-06-18 Microsoft Technology Licensing, Llc Adaptive audio rendering
US10863297B2 (en) 2016-06-01 2020-12-08 Dolby International Ab Method converting multichannel audio content into object-based audio content and a method for processing audio content having a spatial position
CN109479178B (zh) 2016-07-20 2021-02-26 杜比实验室特许公司 基于呈现器意识感知差异的音频对象聚集
CN106375778B (zh) * 2016-08-12 2020-04-17 南京青衿信息科技有限公司 一种符合数字电影规范的三维音频节目码流传输的方法
US10187740B2 (en) 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
US10419866B2 (en) * 2016-10-07 2019-09-17 Microsoft Technology Licensing, Llc Shared three-dimensional audio bed
US11096004B2 (en) 2017-01-23 2021-08-17 Nokia Technologies Oy Spatial audio rendering point extension
CN113923583A (zh) 2017-01-27 2022-01-11 奥罗技术公司 用于平移音频对象的处理方法和系统
US10531219B2 (en) 2017-03-20 2020-01-07 Nokia Technologies Oy Smooth rendering of overlapping audio-object interactions
EP3605531B1 (en) * 2017-03-28 2024-08-21 Sony Group Corporation Information processing device, information processing method, and program
CN110603821A (zh) 2017-05-04 2019-12-20 杜比国际公司 渲染具有表观大小的音频对象
US11074036B2 (en) 2017-05-05 2021-07-27 Nokia Technologies Oy Metadata-free audio-object interactions
US10165386B2 (en) 2017-05-16 2018-12-25 Nokia Technologies Oy VR audio superzoom
US11395087B2 (en) 2017-09-29 2022-07-19 Nokia Technologies Oy Level-based audio-object interactions
US11032580B2 (en) 2017-12-18 2021-06-08 Dish Network L.L.C. Systems and methods for facilitating a personalized viewing experience
US10365885B1 (en) 2018-02-21 2019-07-30 Sling Media Pvt. Ltd. Systems and methods for composition of audio content from multi-object audio
US10542368B2 (en) 2018-03-27 2020-01-21 Nokia Technologies Oy Audio content modification for playback audio
EP3780628A1 (en) * 2018-03-29 2021-02-17 Sony Corporation Information processing device, information processing method, and program
US20210048976A1 (en) * 2018-04-24 2021-02-18 Sony Corporation Display control apparatus, display control method, and program
GB2577885A (en) * 2018-10-08 2020-04-15 Nokia Technologies Oy Spatial audio augmentation and reproduction
CN117528391A (zh) 2019-01-08 2024-02-06 瑞典爱立信有限公司 用于虚拟现实的有效空间异质音频元素
CN113366865B (zh) * 2019-02-13 2023-03-21 杜比实验室特许公司 用于音频对象聚类的自适应响度规范化
EP4078999A1 (en) * 2019-12-19 2022-10-26 Telefonaktiebolaget Lm Ericsson (Publ) Audio rendering of audio sources
GB2595475A (en) * 2020-05-27 2021-12-01 Nokia Technologies Oy Spatial audio representation and rendering
US20230253000A1 (en) * 2020-07-09 2023-08-10 Sony Group Corporation Signal processing device, signal processing method, and program
US11750745B2 (en) * 2020-11-18 2023-09-05 Kelly Properties, Llc Processing and distribution of audio signals in a multi-party conferencing environment
JP7536733B2 (ja) 2020-11-24 2024-08-20 ネイバー コーポレーション オーディオと関連してユーザカスタム型臨場感を実現するためのコンピュータシステムおよびその方法
KR102500694B1 (ko) * 2020-11-24 2023-02-16 네이버 주식회사 사용자 맞춤형 현장감 실현을 위한 오디오 콘텐츠를 제작하는 컴퓨터 시스템 및 그의 방법
JP7536735B2 (ja) 2020-11-24 2024-08-20 ネイバー コーポレーション ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法
US11521623B2 (en) 2021-01-11 2022-12-06 Bank Of America Corporation System and method for single-speaker identification in a multi-speaker environment on a low-frequency audio recording
CN113905321A (zh) * 2021-09-01 2022-01-07 赛因芯微(北京)电子科技有限公司 基于对象音频通道元数据和生成方法、设备及存储介质
CN113923584A (zh) * 2021-09-01 2022-01-11 赛因芯微(北京)电子科技有限公司 基于矩阵音频通道元数据和生成方法、设备及存储介质
CN114143695A (zh) * 2021-10-15 2022-03-04 赛因芯微(北京)电子科技有限公司 一种音频流元数据和生成方法、电子设备及存储介质
EP4210352A1 (en) 2022-01-11 2023-07-12 Koninklijke Philips N.V. Audio apparatus and method of operation therefor
EP4210353A1 (en) * 2022-01-11 2023-07-12 Koninklijke Philips N.V. An audio apparatus and method of operation therefor

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030219130A1 (en) * 2002-05-24 2003-11-27 Frank Baumgarte Coherence-based audio coding and synthesis
WO2004036548A1 (en) * 2002-10-14 2004-04-29 Thomson Licensing S.A. Method for coding and decoding the wideness of a sound source in an audio scene
RU2376654C2 (ru) * 2005-02-14 2009-12-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Параметрическое совместное кодирование аудиоисточников
WO2013006338A2 (en) * 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6175631B1 (en) * 1999-07-09 2001-01-16 Stephen A. Davis Method and apparatus for decorrelating audio signals
JP2002369152A (ja) * 2001-06-06 2002-12-20 Canon Inc 画像処理装置、画像処理方法、画像処理プログラム及び画像処理プログラムが記憶されたコンピュータにより読み取り可能な記憶媒体
US8363865B1 (en) 2004-05-24 2013-01-29 Heather Bottum Multiple channel sound system using multi-speaker arrays
WO2007078254A2 (en) * 2006-01-05 2007-07-12 Telefonaktiebolaget Lm Ericsson (Publ) Personalized decoding of multi-channel surround sound
US8284713B2 (en) * 2006-02-10 2012-10-09 Cisco Technology, Inc. Wireless audio systems and related methods
US8204237B2 (en) * 2006-05-17 2012-06-19 Creative Technology Ltd Adaptive primary-ambient decomposition of audio signals
CN101479787B (zh) * 2006-09-29 2012-12-26 Lg电子株式会社 用于编码和解码基于对象的音频信号的方法和装置
DE602007013415D1 (de) * 2006-10-16 2011-05-05 Dolby Sweden Ab Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung
US8064624B2 (en) * 2007-07-19 2011-11-22 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for generating a stereo signal with enhanced perceptual quality
EP2248352B1 (en) * 2008-02-14 2013-01-23 Dolby Laboratories Licensing Corporation Stereophonic widening
EP2144229A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Efficient use of phase information in audio encoding and decoding
US8315396B2 (en) 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
WO2010101446A2 (en) * 2009-03-06 2010-09-10 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
KR101283783B1 (ko) * 2009-06-23 2013-07-08 한국전자통신연구원 고품질 다채널 오디오 부호화 및 복호화 장치
ES2793958T3 (es) * 2009-08-14 2020-11-17 Dts Llc Sistema para trasmitir adaptativamente objetos de audio
KR101844511B1 (ko) * 2010-03-19 2018-05-18 삼성전자주식회사 입체 음향 재생 방법 및 장치
KR101764175B1 (ko) * 2010-05-04 2017-08-14 삼성전자주식회사 입체 음향 재생 방법 및 장치
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
CN103329571B (zh) * 2011-01-04 2016-08-10 Dts有限责任公司 沉浸式音频呈现系统
WO2012122397A1 (en) * 2011-03-09 2012-09-13 Srs Labs, Inc. System for dynamically creating and rendering audio objects
JP5798247B2 (ja) * 2011-07-01 2015-10-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 向上した3dオーディオ作成および表現のためのシステムおよびツール
JP5740531B2 (ja) * 2011-07-01 2015-06-24 ドルビー ラボラトリーズ ライセンシング コーポレイション オブジェクトベースオーディオのアップミキシング
CN103050124B (zh) * 2011-10-13 2016-03-30 华为终端有限公司 混音方法、装置及系统
KR20130093783A (ko) * 2011-12-30 2013-08-23 한국전자통신연구원 오디오 객체 전송 장치 및 방법
US9584912B2 (en) * 2012-01-19 2017-02-28 Koninklijke Philips N.V. Spatial audio rendering and encoding
US9761229B2 (en) * 2012-07-20 2017-09-12 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for audio object clustering
US9805725B2 (en) 2012-12-21 2017-10-31 Dolby Laboratories Licensing Corporation Object clustering for rendering object-based audio content based on perceptual criteria
US9338420B2 (en) * 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
RS1332U (en) 2013-04-24 2013-08-30 Tomislav Stanojević FULL SOUND ENVIRONMENT SYSTEM WITH FLOOR SPEAKERS
KR102327504B1 (ko) 2013-07-31 2021-11-17 돌비 레버러토리즈 라이쎈싱 코오포레이션 공간적으로 분산된 또는 큰 오디오 오브젝트들의 프로세싱

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030219130A1 (en) * 2002-05-24 2003-11-27 Frank Baumgarte Coherence-based audio coding and synthesis
WO2004036548A1 (en) * 2002-10-14 2004-04-29 Thomson Licensing S.A. Method for coding and decoding the wideness of a sound source in an audio scene
US20060165238A1 (en) * 2002-10-14 2006-07-27 Jens Spille Method for coding and decoding the wideness of a sound source in an audio scene
RU2376654C2 (ru) * 2005-02-14 2009-12-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Параметрическое совместное кодирование аудиоисточников
WO2013006338A2 (en) * 2011-07-01 2013-01-10 Dolby Laboratories Licensing Corporation System and method for adaptive audio signal generation, coding and rendering

Also Published As

Publication number Publication date
CN110808055A (zh) 2020-02-18
BR112016001738A2 (pt) 2017-08-01
US10595152B2 (en) 2020-03-17
KR101681529B1 (ko) 2016-12-01
US11736890B2 (en) 2023-08-22
JP2024105657A (ja) 2024-08-06
RU2716037C2 (ru) 2020-03-05
JP7493559B2 (ja) 2024-05-31
CN105431900A (zh) 2016-03-23
JP2021036729A (ja) 2021-03-04
EP3564951B1 (en) 2022-08-31
EP3564951A1 (en) 2019-11-06
CN110797037A (zh) 2020-02-14
CN110808055B (zh) 2021-05-28
KR102484214B1 (ko) 2023-01-04
US20170223476A1 (en) 2017-08-03
KR102327504B1 (ko) 2021-11-17
US9654895B2 (en) 2017-05-16
KR20160021892A (ko) 2016-02-26
RU2018104812A3 (ru) 2019-02-26
JP7116144B2 (ja) 2022-08-09
KR102395351B1 (ko) 2022-05-10
CN105431900B (zh) 2019-11-22
JP2016530803A (ja) 2016-09-29
BR112016001738B1 (pt) 2023-04-04
KR20210141766A (ko) 2021-11-23
EP3028273B1 (en) 2019-09-11
US20230353970A1 (en) 2023-11-02
US10003907B2 (en) 2018-06-19
HK1229945A1 (zh) 2017-11-24
US20180295464A1 (en) 2018-10-11
JP6388939B2 (ja) 2018-09-12
JP2022136263A (ja) 2022-09-15
EP3028273A1 (en) 2016-06-08
US11064310B2 (en) 2021-07-13
WO2015017235A1 (en) 2015-02-05
KR20230007563A (ko) 2023-01-12
JP2018174590A (ja) 2018-11-08
US20220046378A1 (en) 2022-02-10
KR20160140971A (ko) 2016-12-07
US20200221249A1 (en) 2020-07-09
KR20220061284A (ko) 2022-05-12
RU2018104812A (ru) 2019-02-26
RU2016106913A (ru) 2017-09-01
US20160192105A1 (en) 2016-06-30
JP6804495B2 (ja) 2020-12-23

Similar Documents

Publication Publication Date Title
RU2646344C2 (ru) Обработка пространственно диффузных или больших звуковых объектов
US9712939B2 (en) Panning of audio objects to arbitrary speaker layouts
RU2803638C2 (ru) Обработка пространственно диффузных или больших звуковых объектов
US20240348999A1 (en) Apparatus and Method for Multi Device Audio Object Rendering
BR122020021378B1 (pt) Método, aparelho incluindo um sistema de renderização de áudio e meio não transitório de processamento de objetos de áudio espacialmente difusos ou grandes
BR122020021391B1 (pt) Método, aparelho incluindo um sistema de renderização de áudio e meio não transitório de processamento de objetos de áudio espacialmente difusos ou grandes