RU2510906C2 - Устройство и способ генерирования выходных звуковых сигналов посредством использования объектно-ориентированных метаданных - Google Patents
Устройство и способ генерирования выходных звуковых сигналов посредством использования объектно-ориентированных метаданных Download PDFInfo
- Publication number
- RU2510906C2 RU2510906C2 RU2010150046/08A RU2010150046A RU2510906C2 RU 2510906 C2 RU2510906 C2 RU 2510906C2 RU 2010150046/08 A RU2010150046/08 A RU 2010150046/08A RU 2010150046 A RU2010150046 A RU 2010150046A RU 2510906 C2 RU2510906 C2 RU 2510906C2
- Authority
- RU
- Russia
- Prior art keywords
- audio
- signal
- sound
- objects
- controlled
- Prior art date
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
- H04S7/302—Electronic adaptation of stereophonic sound system to listener position or orientation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Stereophonic System (AREA)
Abstract
Изобретение относится к обработке сигналов в полосе звуковых частот. Технический результат изобретения заключается в обеспечении эффективной скорости передачи звукового сигнала. Устройство для генерирования, по крайней мере, одного выходного звукового сигнала, представляющего суперпозицию двух различных звуковых объектов, включает процессор для обработки входного звукового сигнала для обеспечения объектного представления входного звукового сигнала, где это объектное представление может быть сгенерировано параметрически управляемым приближением оригинальных объектов посредством использования сигнала понижающего микширования объекта. Манипулятор объекта индивидуально управляет объектами, используя объектно-ориентированные звуковые метаданные, относящиеся к индивидуальным звуковым объектам, чтобы получить управляемые звуковые объекты. Управляемые звуковые объекты микшируются посредством использования микшера объекта для того, чтобы в конце концов получить выходной звуковой сигнал, имеющий одно- или многоканальные сигналы в зависимости от конкретной установки рендеринга. 9 н. и 5 з.п. ф-лы, 17 ил.
Description
Область изобретения
Данное изобретение относится к обработке сигналов в полосе звуковых частот и, в частности, к обработке сигналов в полосе звуковых частот в контексте кодирования звуковых объектов, такого как пространственное кодирование звукового объекта.
Предпосылки изобретения и прототип
В современных радиовещательных системах, таких как телевидение, при определенных обстоятельствах желательно не воспроизводить звуковые дорожки в том виде, как их спроектировал звукооператор, а скорее произвести специальные настройки, чтобы адресоваться к ограничениям, заданным во время представления (визуализации). Хорошо известная технология управления такими настройками при окончательном монтаже заключается в предоставлении соответствующих метаданных наряду со звуковыми дорожками.
Традиционные системы воспроизведения звука, например старые домашние телевизионные системы, состоят из одного громкоговорителя или пары стереогромкоговорителей. Более сложные многоканальные системы воспроизведения используют пять или даже больше громкоговорителей.
Если рассматриваются многоканальные системы воспроизведения, звукооператоры имеют намного больше свободы маневрирования при размещении единичных источников в двухмерной плоскости и поэтому могут также использовать более высокий динамический диапазон для полных звуковых дорожек, так как голос становится более внятным благодаря известному эффекту «коктейльной вечеринки».
Однако реалистические, высоко динамические звуки могут вызвать проблемы на традиционных системах воспроизведения. Могут существовать сценарии, где потребитель, возможно, не захочет получать этот высокий динамический сигнал, потому что он прослушивает контент в шумной окружающей среде (например, в едущем автомобиле или при использовании мобильной системы развлечений в полете), она или он носит слуховые устройства, или она или он не хочет потревожить своих соседей (поздно вечером, например).
Кроме того, дикторы сталкиваются с той проблемой, что различные элементы одной программы (например, коммерческая реклама) могут быть на различных уровнях громкости из-за различных коэффициентов амплитуды, требующих регулирования уровня последовательных элементов.
В цепи классической вещательной передачи конечный пользователь получает уже микшированную звуковую дорожку. Любое дальнейшее управление на стороне приемника может быть сделано только в очень ограниченной форме. В настоящее время небольшой набор характеристик метаданных системы Долби позволяет пользователю изменять некоторые свойства звукового сигнала.
Обычно манипуляции, основанные на вышеупомянутых метаданных, осуществляются без какого бы то ни было частотного селективного распознавания, так как метаданные, традиционно приложенные к звуковому сигналу, не предоставляют достаточную информацию, чтобы сделать это.
Кроме того, можно управлять только целым звуковым потоком. К тому же, нельзя принять и выделить каждый звуковой объект внутри этого звукового потока. Это может быть неудовлетворительным, особенно в неподходящей окружающей среде прослушивания.
В полуночном режиме использующийся звуковой процессор не может отличить шумы окружения от диалога из-за недостатка управляющей информации. Поэтому в случае шумов высокого уровня (которые должны быть сжаты/ограничены по громкости) диалоги тоже будут управляться параллельно. Это могло бы повредить внятности речи.
Увеличение уровня диалога по сравнению с окружающим звуком помогает улучшить восприятие речи, особенно для прослушивания людьми с ослабленным слухом. Эта техника работает, только если звуковой сигнал действительно отделяется в диалоге и окружающих компонентах на стороне приемника помимо наличия информации о контроле качества. Если доступен только стереосигнал понижающего микширования, никакое дальнейшее разделение больше не может быть применено для отдельного распознавания и управления речевой информацией. Современные способы осуществления понижающего микширования позволяют регулировать динамический стереоуровень для центрального и окружающих каналов. Но для любой отличной конфигурации громкоговорителя вместо стерео нет никакого реального указания от передатчика того, как микшировать с понижением конечный многоканальный звуковой источник. Только формула по умолчанию в декодере выполняет микширование сигнала точным образом.
Во всех описанных сценариях обычно существуют два различных подхода. Первый подход состоит в том, что при генерировании звукового сигнала, который будет передан, ряд звуковых объектов является микшированным с понижением до моно, стерео или многоканального сигнала. Сигнал, который должен быть передан пользователю этого сигнала посредством радиопередачи, посредством любого другого протокола передачи или посредством распределения на считываемом компьютером носителе данных, обычно имеет число каналов, меньшее чем число оригинальных звуковых объектов, которые были микшированы с понижением звукооператором, например, в студийном окружении. Кроме того, метаданные могут быть приложены, чтобы позволить несколько различных модификаций, но эти модификации могут быть применены только к целому переданному сигналу или, если переданный сигнал имеет несколько различных переданных каналов, к индивидуальным переданным каналам целиком. Поскольку, однако, такие переданные каналы всегда являются суперпозициями нескольких звуковых объектов, индивидуальное управление определенным звуковым объектом, в то время как следующий звуковой объект не управляется, вообще невозможно.
Другой подход состоит не в осуществлении понижающего микширования объекта, а в передаче сигналов звуковых объектов, поскольку они являются отдельными переданными каналами. Такой сценарий хорошо работает, когда число звуковых объектов небольшое. Когда, например, существует только пять звуковых объектов, тогда можно передать эти пять различных звуковых объектов отдельно друг от друга в пределах сценария 5.1. Метаданные могут быть связаны с теми каналами, которые указывают на определенную природу объекта/канала. Тогда на стороне приемника переданные каналы могут управляться основываясь на переданных метаданных.
Неудобство этого подхода состоит в том, что он не является обратно-совместимым и работает хорошо только в контексте небольшого количества звуковых объектов. Когда число звуковых объектов увеличивается, также быстро увеличивается скорость передачи битов, требуемая для передачи всех объектов как отдельных определенных звуковых дорожек. Это увеличение скорости передачи битов особенно не полезно в контексте применения в радиопередачах.
Поэтому существующие подходы, эффективные относительно скорости передачи битов, не позволяют осуществлять индивидуальное управление отдельными звуковыми объектами. Такое индивидуальное управление доступно только, когда каждый объект будет передаваться отдельно. Этот подход, однако, не эффективен относительно скорости передачи битов и поэтому не подходит, конкретно, в сценариях радиопередач.
Задачей данного изобретения является обеспечение эффективной скорости передачи битов при гибком решения этих проблем.
Согласно первому аспекту данного изобретения это достигается посредством устройства для генерирования, по крайней мере, одного выходного звукового сигнала, представляющего суперпозицию, по крайней мере, двух различных звуковых объектов, включающего: процессор для обработки входного звукового сигнала, чтобы обеспечить объектное представление входного звукового сигнала, в котором, по крайней мере, два различных звуковых объекта отделены друг от друга, по крайней мере, два различных звуковых объекта доступны в качестве отдельных сигналов звуковых объектов и, по крайней мере, два различных звуковых объекта являются управляемыми независимо друг от друга;
манипулятор объекта для управления сигналом звукового объекта или микшированным сигналом звукового объекта, по крайней мере, одного звукового объекта, основанного на объектно-ориентированных метаданных, относящихся, по крайней мере, к одному звуковому объекту, чтобы получить управляемый сигнал звукового объекта или управляемый микшированный сигнал звукового объекта, по крайней мере, для одного звукового объекта; и микшер объекта для микширования объектного представления посредством объединения управляемого звукового объекта с неизмененным звуковым объектом или с другим управляемым звуковым объектом, управляемым иначе, чем, по крайней мере, одним звуковым объектом.
Согласно второму аспекту данного изобретения это достигается посредством способа генерирования, по крайней мере, одного выходного звукового сигнала, представляющего суперпозицию, по крайней мере, двух различных звуковых объектов, включающего:
обработку входного звукового сигнала, чтобы обеспечить объектное представление входного звукового сигнала, в котором, по крайней мере, два различных звуковых объекта отделены друг от друга, по крайней мере, два различных звуковых объекта доступны в качестве отдельных сигналов звуковых объектов и, по крайней мере, два различных звуковых объекта являются управляемыми независимо друг от друга; управление сигналом звукового объекта или микшированным сигналом звукового объекта, по крайней мере, одного звукового объекта, основанного на объектно-ориентированных метаданных, относящихся, по крайней мере, к одному звуковому объекту, чтобы получить управляемый сигнал звукового объекта или управляемый микшированный сигнал звукового объекта, по крайней мере, для одного звукового объекта; и микширование объектного представления посредством объединения управляемого звукового объекта с неизмененным звуковым объектом или с другим управляемым звуковым объектом, который управляется иначе, чем, по крайней мере, один звуковой объект.
Согласно третьему аспекту данного изобретения результат достигается посредством устройства для генерирования закодированного звукового сигнала, представляющего суперпозицию, по крайней мере, двух различных звуковых объектов, включающего:
форматер потока данных для форматирования потока данных таким образом, чтобы поток данных включал сигнал понижающего микширования объекта, представляющего собой комбинацию, по крайней мере, двух различных звуковых объектов, и в качестве дополнительной информации метаданные, относящиеся, по крайней мере, к одному из различных звуковых объектов.
Согласно четвертому аспекту данного изобретения результат достигается посредством способа генерирования закодированного звукового сигнала, представляющего суперпозицию, по крайней мере, двух различных звуковых объектов, включающего: форматирование потока данных таким образом, чтобы поток данных включал сигнал понижающего микширования объекта, представляющий собой комбинацию, по крайней мере, двух различных звуковых объектов, и в качестве дополнительной информации метаданные, относящиеся, по крайней мере, к одному из различных звуковых объектов.
Дальнейшие аспекты данного изобретения относятся к компьютерным программам, реализующим изобретения на способы, и к считываемому компьютером носителю данных, с сохраненным на нем сигналом понижающего микширования объекта и в качестве дополнительной информации параметрическими данными объекта и метаданными для одного или более звуковых объектов, включенных в сигнал понижающего микширования объекта.
Данное изобретение основывается на обнаружении того, что индивидуальное управление отдельными сигналами звуковых объектов или отдельными сериями микшированных сигналов звуковых объектов позволяет обеспечить индивидуальную связанную с объектом обработку, основанную на связанных с объектом метаданных. Согласно данному изобретению результат управления не выходит непосредственно на громкоговоритель, но предоставляется микшеру объекта, который генерирует выходные сигналы для определенного сценария предоставления, где выходные сигналы генерируются суперпозицией, по крайней мере, одного управляемого сигнала объекта, или ряда микшированных сигналов объекта вместе с другими управляемыми сигналами объекта и/или неизмененным сигналом объекта. Естественно, нет необходимости управлять каждым объектом, но в некоторых случаях бывает достаточно управлять только одним объектом и не управлять последующим объектом множества звуковых объектов. Результатом операции микширования объекта является один или множество выходных звуковых сигналов, которые основываются на управляемых объектах. Эти выходные звуковые сигналы могут быть переданы громкоговорителям или могут быть сохранены для дальнейшего использования, или могут даже быть переданы последующему приемнику в зависимости от определенного сценария применения.
Предпочтительно, чтобы входной сигнал в устройство управления/микширования, выполненное согласно изобретению, был сигналом понижающего микширования, сгенерированным посредством понижающего микширования множества сигналов звуковых объектов. Процесс понижающего микширования может контролироваться метаданными для каждого объекта индивидуально или может быть неконтролируемым, чтобы быть одинаковым для каждого объекта. В предыдущем случае управление объектом согласно метаданным является процессом индивидуального контролирования объекта и процессом микширования определенного объекта, в котором генерируется сигнал компонента громкоговорителя, представляющий этот объект. Предпочтительно, чтобы предоставлялись также пространственные параметры объекта, которые могут использоваться для реконструкции оригинальных сигналов посредством их приближенных версий, используя переданный сигнал понижающего микширования объекта. Тогда процессор для обработки входного звукового сигнала для обеспечения объектного представления входного звукового сигнала является эффективным для вычисления реконструированных версий оригинального звукового объекта, основанного на параметрических данных, где эти приближенные сигналы объекта могут затем индивидуально управляться объектно-ориентированными метаданными.
Предпочтительно, чтобы объектное представление (рендеринг) информации также предоставлялось там, где объектное представление информации включает информацию относительно предполагаемой звуковой установки воспроизведения и информацию относительно расположения индивидуальных звуковых объектов в пределах сценария воспроизведения. Определенные осуществления, однако, могут также работать без таких данных о местоположении объекта. Такие конфигурации являются, например, обеспечением стационарных положений объекта, которые могут быть прочно установлены или которые могут согласовываться между передатчиком и приемником для полной звуковой дорожки.
Краткое описание чертежей
Предпочтительные осуществления данного изобретения далее обсуждаются в контексте приложенных чертежей, в которых:
Фиг.1 иллюстрирует предпочтительное осуществление устройства для генерирования, по крайней мере, одного выходного звукового сигнала;
Фиг.2 иллюстрирует предпочтительное исполнение процессора фиг.1;
Фиг.3А иллюстрирует предпочтительное осуществление манипулятора для управления сигналами объекта;
Фиг.3В иллюстрирует предпочтительное исполнение микшера объекта в контексте манипулятора, как проиллюстрировано на фиг.3А;
Фиг.4 иллюстрирует конфигурацию процессора/манипулятора/микшера объекта в ситуации, в которой управление выполняется вслед за понижающим микшированием объекта, но до окончательного микширования объекта;
Фиг.5А иллюстрирует предпочтительное осуществление устройства для генерирования закодированного звукового сигнала;
Фиг.5В иллюстрирует сигнал передачи, имеющий понижающее микширование объекта, объектно-ориентированные метаданные и пространственные параметры объекта;
Фиг.6 иллюстрирует карту, показывающую несколько звуковых объектов, идентифицированных в соответствии с определенной идентификацией, имеющих файл звукового объекта, и матрицу Е объединенной информации о звуковом объекте;
Фиг.7 иллюстрирует объяснение матрицы Е ковариации объекта фиг.6:
Фиг.8 иллюстрирует матрицу понижающего микширования и звуковое кодирующее устройство объекта, управляемое матрицей D понижающего микширования;
Фиг.9 иллюстрирует заданную матрицу визуализации А, которая обычно предоставляется пользователем, и пример определенного заданного воспроизводящего сценария;
Фиг.10 иллюстрирует предпочтительное осуществление устройства для генерирования, по крайней мере, одного выходного звукового сигнала в соответствии с дальнейшим аспектом данного изобретения;
Фиг.11А иллюстрирует дальнейшее осуществление;
Фиг.1lВ иллюстрирует еще один вариант осуществления;
Фиг.11С иллюстрирует дальнейшее осуществление;
Фиг.12А иллюстрирует примерный сценарий применения; и
Фиг.12В иллюстрирует дальнейший примерный сценарий применения.
Детальное описание предпочтительных осуществлений
Чтобы разрешить вышеупомянутые проблемы, предпочтительный подход должен обеспечивать соответствующие метаданные наряду со звуковыми дорожками. Такие метаданные могут состоять из информации для управления следующими тремя факторами (три «классических» D):
- нормализация диалога,
- контроль динамического диапазона,
- понижающее микширование.
Такие звуковые метаданные помогают приемнику управлять полученным звуковым сигналом, основанным на настройках, выполненных слушателем. Чтобы отличить этот вид звуковых метаданных от других (например, описательные метаданные, такие как Автор, Название,..,), обычно делается ссылка на «Метаданные системы Долби» (потому что они выполняются только системой Долби). В дальнейшем рассматривается только этот вид звуковых метаданных и называется просто «метаданные».
Звуковые метаданные являются дополнительной управляющей информацией, которая переносится наряду со звуковой программой и имеет существенную для приемника информацию о звуке. Метаданные предоставляют многие важные функции, включая контроль динамического диапазона для далеко не идеальной окружающей среды прослушивания, приведение в соответствие уровня программ, информацию о понижающем микшировании для воспроизведения многоканального звука через меньшее количество каналов громкоговорителя и другую информацию.
Метаданные обеспечивают инструменты, необходимые для звуковых программ, которые будут воспроизведены точно и мастерски во многих различных ситуациях прослушивания от полнофункциональных домашних театров до средств развлечения в полете, независимо от числа каналов громкоговорителя, качества оборудования воспроизведения или относительного уровня окружающих шумов.
В то время как инженер или поставщик контента заботятся об обеспечении звука самого высокого качества, возможного в рамках программы, они не имеют возможности контролировать обширный массив бытовой электроники или окружающей среды прослушивания, которые будут воспроизводить оригинальную звуковую дорожку. Метаданные предоставляют инженеру или поставщику контента возможность контролировать то, как их работа воспроизводится и воспринимается почти в любой мыслимой окружающей среде прослушивания.
Метаданные системы Долби являются специальным форматом для предоставления информации для управления этими тремя упомянутыми факторами.
Три самые важные функциональные возможности метаданных системы Долби
- Нормализация диалога для достижения долгосрочного среднего уровня диалога в пределах представления, часто состоящего из различных типов программы, таких как игровой фильм, коммерческая реклама и т.д.
- Контроль динамического диапазона, чтобы доставить большей части аудитории удовольствие приятным звуковым сжатием, но в то же самое время позволить каждому индивидуальному потребителю управлять динамикой звукового сигнала и регулировать сжатие для ее или его личной окружающей среды прослушивания.
- Понижающее микширование для отображения звуков многоканального звукового сигнала до двух или одного канала в случае, если недоступно никакое многоканальное звуковое оборудование воспроизведения.
Метаданные системы Долби используются наряду с Цифровой системой Долби (АС-3) и системой Долби Е. Формат звуковых метаданных системы-Долби-Е, описанный в [16] Цифровой системы Долби (АС-3), предназначен для транслирования звука в дом посредством цифрового телевидения (высокого или стандартного разрешения), DVD или других носителей.
Цифровая система Долби может переносить все, что угодно, от одиночного звукового канала до полной программы с 5.1 каналами, включая метаданные. И в цифровом телевидении, и в DVD это часто используется для передачи стерео, а также полных 5.1 дискретных звуковых программ.
Система Долби Е определенно предназначена для распределения многоканального звука в пределах профессиональной окружающей среды производства и распределения. В любое время до доставки потребителю система Долби Е является предпочтительным способом распределения многоканальных/мультипрограммных звуков с видео. Система Долби Е может переносить до восьми дискретных звуковых каналов, скомпонованных в любое число индивидуальных программных конфигураций (включая метаданные для каждого) в пределах существующей двухканальной цифровой звуковой инфраструктуры. В отличие от Цифровой системы Долби система Долби Е может регулировать многие генерации кодировки/расшифровки и является синхронной с частотой видео кадров. Как и Цифровая система Долби, система Долби Е переносит метаданные для каждой индивидуальной звуковой программы, закодированной в пределах потока данных. Использование системы Долби Е позволяет расшифровывать, изменять и повторно кодировать получающийся звуковой поток данных без слышимой деградации. Поскольку поток системы Долби Е синхронен с частотой видео кадров, он может быть маршрутизирован, переключен и отредактирован в профессиональной окружающей среде радиопередачи.
Кроме этого, средство предоставляется наряду с MPEG ААС для осуществления контроля динамического диапазона и управления генерированием понижающего микширования.
Чтобы регулировать исходный материал с переменными пиковыми уровнями, средними уровнями и динамическим диапазоном способом, минимизирующим изменчивость для потребителя, необходимо контролировать воспроизведенный уровень таким образом, что, например, уровень диалога или средний музыкальный уровень устанавливался на контролируемый потребителем уровень при воспроизведении, независимо от того, как программа была создана. Дополнительно, не все потребители смогут слушать программы в хорошей (то есть с низким шумом) окружающей среде, без ограничения громкости звука при прослушивании. Автомобильная окружающая среда, например, имеет высокий уровень окружающего шума, и можно поэтому ожидать, что слушатель захочет уменьшить диапазон уровней, которые иначе были бы воспроизведены.
По обеим этим причинам контроль динамического диапазона должен быть доступным в пределах спецификации AAC (Advanced Audio Coding - усовершенствованное аудиокодирование). Чтобы достигнуть этого, необходимо сопровождать звук с пониженной скоростью передачи битов данными, используемыми для установки и контроля динамического диапазона пунктов программы. Этот контроль должен быть определен относительно контрольного уровня и в отношении к важным элементам программы, например диалогу.
Характеристики контроля динамического диапазона следующие.
1. Контроль динамического диапазона является полностью оптимальным. Поэтому при правильном синтаксисе не происходит изменение сложности для тех, кто не желает активизировать DRC (контроль соблюдения проектных норм).
2. Звуковые данные с пониженной скоростью передачи битов передаются с полным динамическим диапазоном исходного материала, с вспомогательными данными, чтобы способствовать контролю динамического диапазона.
3. Данные контроля динамического диапазона могут быть посланы на каждый фрейм, чтобы уменьшить до минимума время ожидания при установке коэффициентов усиления воспроизведения.
4. Данные контроля динамического диапазона посылаются посредством использования характеристики «элемент заполнения» (fill_element) AAC (формат усовершенствованного аудиокодирования).
5. Контрольный Уровень определяется как Полномасштабный.
6. Контрольный Уровень Программы передается, чтобы обеспечить равенство уровней воспроизведения различных источников и обеспечить ссылку, на которую может опираться контроль динамического диапазона. Именно эта характеристика исходного сигнала наиболее релевантна для субъективного впечатления от громкости программы, такого как уровень контента диалога программы или средний уровень музыкальной программы.
7. Контрольный Уровень Программы представляет тот уровень программы, который может быть воспроизведен при заданном уровне относительно Контрольного Уровня в аппаратных средствах потребителя, чтобы достигнуть равенства уровня воспроизведения. Относительно этого более тихие части программы могут быть усилены по уровню, а более громкие части программы могут быть ослаблены по уровню.
8. Контрольный Уровень Программы определяется в пределах диапазона от 0 до -31.75 децибел относительно Контрольного Уровня.
9. Контрольный Уровень Программы использует 7-битовое поле с шагом в 0.25 децибел.
10. Контроль динамического диапазона определяется в пределах диапазона ±31.75 децибел.
11. Контроль динамического диапазона использует 8-битовое поле (1 знак, 7 значений) с шагом в 0.25 децибел.
12. Контроль динамического диапазона может быть применен ко всем спектральным коэффициентам звукового канала или диапазонам частот как к единому объекту, или коэффициенты могут быть разделены на различные группы масштабных коэффициентов, каждый управляется отдельно отдельными наборами данных контроля динамического диапазона.
13. Контроль динамического диапазона может применяться ко всем каналам (стерео или многоканального битового потока) как к единому объекту или может быть разделен, при этом группы каналов будут управляться отдельно отдельными наборами данных контроля динамического диапазона.
14. Если предполагаемый набор данных контроля динамического диапазона отсутствует, должны использоваться полученные последними действительные значения.
15. Не все элементы данных контроля динамического диапазона посылаются каждый раз. Например, Контрольный Уровень Программы может посылаться в среднем только один раз каждые 200 миллисекунд.
16. Где необходимо, обнаружение/защита от ошибок обеспечивается Транспортным Уровнем (уровнем переноса).
17. Пользователю будет предоставлено средство для изменения степени контроля динамического диапазона, присутствующего в битовом потоке, который применяется к уровню сигнала.
Помимо возможности передать отдельные моно- или стереомикшированные с понижением каналы в передаче с 5.1 каналами, ААС также позволяет автоматическое генерирование понижающего микширования от исходной дорожки с 5-ю каналами. Канал LFE должен быть опущен в этом случае.
Этот способ матричного понижающего микширования может управляться редактором звуковой дорожки с небольшим набором параметров, определяющих количество задних каналов, добавленных к понижающему микшированию.
Способ матричного понижающего микширования применяется только для микширования 3-передняя/2-задняя конфигурации громкоговорителя, программы с 5 каналами, до стерео- или монопрограммы. Он не применяется ни к какой другой программе кроме 3/2 конфигурации.
В пределах MPEG предоставляются несколько средств для управления представлением звука (аудиорендерингом) на стороне приемника.
Типовая технология предоставляется языком описания сцены, например BIFS и LASeR. Обе технологии используются для воспроизведения аудиовизуальных элементов из разделенных закодированных объектов в сцену воспроизведения.
BIFS стандартизированы в [5] и LASeR в [6].
MPEG-D главным образом имеет дело с (параметрическими) описаниями (то есть метаданными):
- чтобы генерировать многоканальный звук, основанный на звуковых представлениях понижающего микширования (MPEG Surround (объемного звучания)); и
- чтобы генерировать параметры MPEG Surround, основанные на звуковых объектах (MPEG Пространственное звуковое кодирование объекта).
MPEG Surround использует межканальные различия в уровне, фазе и когерентности, эквивалентные репликам ILD, ITD и IC, чтобы захватить пространственное изображение многоканального звукового сигнала относительно переданного сигнала понижающего микширования, и кодирует эти реплики в очень компактной форме таким образом, что реплики и переданный сигнал могут быть расшифрованы, чтобы синтезировать высококачественное многоканальное представление. MPEG Surround кодирующее устройство получает многоканальный звуковой сигнал, где N - число входных каналов (например, 5.1). Ключевой аспект процесса кодирования - то, что сигнал понижающего микширования, xt1 и xt2, который обычно бывает стерео (но может также быть моно), получается из многоканального входного сигнала, и именно этот сигнал понижающего микширования сжимается для передачи по каналу, а не многоканальный сигнал. Кодирующее устройство может выгодно использовать процесс понижающего микширования таким образом, что оно создает точный эквивалент многоканального сигнала в моно- или стереопонижающем микшировании, а также создает самую лучшую многоканальную расшифровку, основанную на понижающем микшировании и закодированных пространственных репликах. Альтернативно, понижающее микширование может поставляться внешне. MPEG Surround процесс кодирования независим от алгоритма сжатия, используемого для переданных каналов; это может быть любой из многих высокоэффективных алгоритмов сжатия, таких как MPEG-1 Слой III, MPEG-4 ААС или MPEG-4 Высокопроизводительной ААС, или это может быть даже РСМ (ИКМ - импульсно-кодовая модуляция [сигнала]).
Технология MPEG Surround поддерживает очень эффективное параметрическое кодирование многоканальных звуковых сигналов. Идея MPEG SAOC (пространственное кодирование звукового объекта) состоит в том, чтобы применить аналогичные основные допущения вместе с аналогичным параметрическим представлением для очень эффективного параметрического кодирования индивидуальных звуковых объектов (дорожки). Дополнительно, включается функциональная возможность представления, чтобы в интерактивном режиме представлять звуковые объекты в акустической сцене для нескольких типов систем воспроизведения (1.0, 2.0, 5.0… для громкоговорителей или бинаурального для наушников). SAOC разработан, чтобы передать ряд звуковых объектов в объединенный моно- или стереосигнал понижающего микширования, чтобы позже обеспечить воспроизведение индивидуальных объектов в звуковой сцене, предоставленной в интерактивном режиме. С этой целью SAOC кодирует Разность Уровней Объекта (OLD), Межобъектные перекрестные когерентности (IOC) и Разность Уровней Канала Понижающего микширования (DCLD) в параметрический битовый поток. SAOC декодер превращает SAOC параметрическое представление в MPEG Surround параметрическое представление, которое потом расшифровывается вместе с сигналом понижающего микширования посредством MPEG Surround декодера, чтобы произвести желательную звуковую сцену. Пользователь в интерактивном режиме управляет этим процессом, чтобы изменить представление звуковых объектов в получающейся звуковой сцене. Среди многочисленных вероятных применений SAOC далее перечислены несколько типичных сценариев.
Потребители могут создать личные интерактивные ремиксы, используя виртуальный микшерный пульт. Определенные инструменты могут быть, например, ослаблены для подыгрывания (как Караоке), оригинальный микс может быть изменен, чтобы удовлетворить личный вкус, уровень диалога в кинофильмах/радиопередачах может быть приспособлен для лучшей разборчивости речи и т.д.
Для интерактивных игр SAOC - это память и в вычислительном отношении эффективный способ воспроизведения саундтреков. Перемещение в виртуальной сцене отражается адаптацией объекта, воспроизводящего параметры. Сетевые игры со многими игроками извлекают выгоду из эффективности передачи, используя один поток SAOC, чтобы представить все звуковые объекты, которые являются внешними, на терминал определенного игрока.
В контексте этого применения термин «звуковой объект» также включает термин «основа», известный в сценариях производства звука. В частности, основы - индивидуальные компоненты микса, отдельно сохраненные (обычно на диске) в целях использования в ремиксах. Родственные основы обычно возвращаются из того же самого оригинального местоположения. Примером может быть основа барабана (включает все родственные барабану инструменты в миксе), вокальная основа (включает только речевые дорожки) или ритмическая основа (включает все ритмически связанные инструменты, такие как барабаны, гитара, клавиатура,…).
Современная телекоммуникационная инфраструктура является монофонической и ее функциональные возможности могут быть расширены. Терминалы, оборудованные расширением SAOC, улавливают несколько звуковых источников (объектов) и производят монофонический сигнал понижающего микширования, который передается совместимым способом при использовании существующих (речевых) кодировщиков. Дополнительная информация может передаваться вложенным обратно совместимым способом. Традиционные терминалы продолжат производить монофонический вывод данных, в то время как SAOC-задействованные терминалы могут воспроизводить акустическую сцену и таким образом увеличивать разборчивость, пространственно разделяя различных говорящих субъектов («эффект коктейльной вечеринки»).
Краткий обзор реально доступных применений звуковых метаданных системы Долби описывается в следующем разделе.
Полуночный режим.
Как упомянуто выше, могут существовать сценарии, где слушатель, возможно, не захочет получать высокий динамический сигнал. Поэтому слушатель может активизировать так называемый «полуночный режим» своего приемника. Тогда компрессор применяется к полному звуковому сигналу. Чтобы контролировать параметры этого компрессора, переданные метаданные оцениваются и применяются к полному звуковому сигналу.
Чистый звук.
Другой сценарий - люди с ослабленным слухом, которые не хотят иметь высоко динамический окружающий шум, но хотят иметь довольно чистый сигнал, содержащий диалоги («Clean Audio» - чистый звук). Этот режим может также быть задействован посредством использования метаданных.
В настоящее время предлагаемое решение определено в [15] - Приложение Е. Баланс между главным стереосигналом и дополнительным моно каналом, описывающим диалог, регулируется здесь индивидуальным набором параметров уровня. Предложенное решение, основанное на отдельном синтаксисе, называется дополнительным звуковым обслуживанием в DVB (цифровое видео- и телевещание).
Понижающее микширование.
Существуют отдельные параметры метаданных, которые управляют L/R понижающим микшированием. Определенные параметры метаданных позволяют инженеру выбирать, как строится стереопонижающее микширование и какой стереоаналоговый сигнал предпочтителен. Здесь центральный и окружающий уровни понижающего микширования определяют окончательный баланс микширования сигнала понижающего микширования для каждого декодера.
Фиг.1 иллюстрирует устройство для генерирования, по крайней мере, одного выходного звукового сигнала, представляющего суперпозицию, по крайней мере, двух различных звуковых объектов в соответствии с предпочтительным осуществлением данного изобретения. Устройство фиг.1 включает процессор 10 для обработки входного звукового сигнала 11 для обеспечения представления объекта 12 входного звукового сигнала, в котором, по крайней мере, два различных звуковых объекта отделены друг от друга, в котором, по крайней мере, два различных звуковых объекта доступны как отдельные звуковые сигналы объекта и в котором, по крайней мере, два различных звуковых объекта являются управляемыми независимо друг от друга.
Управление представлением объекта выполняется в манипуляторе объекта 13 для управления звуковым сигналом объекта, или микшированным представлением звукового сигнала объекта, по крайней мере, одного звукового объекта, основанного на объектно-ориентированных метаданных 14, относящихся, по крайней мере, к одному звуковому объекту. Манипулятор звукового объекта 13 приспосабливается, чтобы получить управляемый звуковой сигнал объекта или управляемое микшированное звуковое представление сигнала объекта 15, по крайней мере, для одного звукового объекта.
Сигналы, генерированные манипулятором объекта, вводятся в микшер объекта 16 для микширования представления объекта посредством комбинирования управляемого звукового объекта с неизмененным звуковым объектом или с управляемым другим звуковым объектом, где управляемый другой звуковой объект управлялся другим способом, чем, по крайней мере, один звуковой объект. Результат микшера объекта включает один или более выходных звуковых сигналов 17а, 17b, 17с. Предпочтительно, чтобы один или более выходных сигналов 17а-17с разрабатывались для определенной установки представления, такой как моно установка представления, стерео установка представления, многоканальная установка представления, включающая три или более каналов, такая как установка объемного звучания, требующая, по крайней мере, пять или, по крайней мере, семь различных выходных звуковых сигналов.
Фиг.2 иллюстрирует предпочтительную реализацию процессора 10 для обработки входного звукового сигнала. Предпочтительно, чтобы входной звуковой сигнал 11 реализовывался как объект понижающего микширования 11, полученный посредством микшера объекта понижающего микширования 101а фиг.5А, который описан далее. В этой ситуации процессор дополнительно получает параметры объекта 18 такие, как, например, генерируемые вычислителем параметров объекта 101b на фиг.5А, как описано далее. Тогда процессор 10 находится в позиции для вычисления отдельных звуковых сигналов объекта 12. Число звуковых сигналов объекта 12 может быть больше, чем число каналов в объекте понижающего микширования 11. Объект понижающего микширования 11 может включать монопонижающее микширование, стереопонижающее микширование или даже понижающее микширование, имеющее больше чем два канала. Однако форматер потока данных процессор 12 может быть эффективным для генерирования большего количества звуковых сигналов объекта 12 по сравнению с числом индивидуальных сигналов в объекте понижающего микширования 11. Звуковые сигналы объекта, благодаря параметрической обработке, выполненной процессором 10, не являются точным воспроизведением оригинальных звуковых объектов, которые присутствовали прежде, чем было выполнено понижающее микширование объекта 11, но звуковые сигналы объекта являются приближенными версиями оригинальных звуковых объектов, где точность приближения зависит от вида алгоритма разделения, выполненного в процессоре 10, и, конечно, от точности переданных параметров. Предпочтительные параметры объекта - параметры, известные из кодирования пространственного звукового объекта, а предпочтительный алгоритм реконструкции для генерирования индивидуально разделенных звуковых сигналов объекта является алгоритмом реконструкции, выполненным в соответствии со стандартом кодирования пространственных звуковых объектов. Предпочтительное осуществление процессора 10 и параметры объекта будут впоследствии обсуждены в контексте фиг.6-9.
Фиг.3А и фиг.3В совместно иллюстрируют исполнение, в котором выполняется управление объектом до понижающего микширования объекта для установки воспроизведения, в то время как фиг.4 иллюстрирует дальнейшее исполнение, в котором понижающее микширование объекта выполняется до управления, а управление выполняется до заключительного процесса микширования объекта. Результат процесса фиг.3А, 3В по сравнению с фиг.4 является тем же самым, но управление объектом выполняется на различных уровнях в сценарии обработки. Когда управление звуковыми сигналами объекта является проблемой в контексте эффективности и вычислительных ресурсов, осуществление в соответствии с фиг.3А/3В является предпочтительным, так как управление звуковым сигналом должно быть выполнено только на одиночном звуковом сигнале, а не множестве звуковых сигналов, как на фиг.4. В другом исполнении, в котором может быть требование о том, чтобы понижающее микширование объекта было выполнено посредством использования неизмененного сигнала объекта, предпочтительной является конфигурация фиг.4, в которой управление выполняется вслед за понижающим микшированием объекта, но до заключительного микширования объекта, чтобы получить выходные сигналы для, например, левого канала L, центрального канала С или правого канала R.
Фиг.3А иллюстрирует ситуацию, в которой процессор 10 фиг.2 вырабатывает отдельные звуковые сигналы объекта. По крайней мере, один звуковой сигнал объекта, такой как сигнал для объекта 1, управляется манипулятором 13а, основанным на метаданных для этого объекта 1. В зависимости от исполнения, другие объекты, такие как объект 2, управляются также манипулятором 13b. Естественно, может возникнуть ситуация, в которой действительно существует объект, такой как объект 3, которым не управляют, но который, однако, генерируется посредством разделения объекта. Результатом обработки фиг.3А в примере фиг.3А, являются два управляемых сигнала объекта и один неуправляемый сигнал.
Эти результаты вводятся в микшер объекта 16, который включает первую стадию микшера, исполненную как микшеры объекта понижающего микширования 19а, 19b, 19с, и который, кроме того, включает вторую стадию микшера объекта, исполненную устройствами 16а, 16b, 16с.
Первая стадия микшера объекта 16 включает, для каждого вывода данных фиг.3А, микшер объекта понижающего микширования, такой как микшер объекта понижающего микширования 19а для вывода 1 фиг.3А, микшер объекта понижающего микширования 19b для вывода 2 фиг.3А, микшер объекта понижающего микширования 19с для вывода 3 фиг.3А. Цель микшера объекта понижающего микширования 19а-19с состоит в том, чтобы «распределить» каждый объект на выходные каналы. Поэтому каждый микшер объекта понижающего микширования 19а, 19b, 19с имеет выход для левого составляющего сигнала L, центрального составляющего сигнала С и правого составляющего сигнала R. Таким образом, если, например, объект 1 был бы одиночным объектом, микшер понижающего микширования 19а был бы прямым микшером понижающего микширования, а вывод блока 19а был бы таким, как окончательный вывод L, С, R, обозначенный цифрами 17а, 17b, 17с. Микшеры объекта понижающего микширования 19а - 19с предпочтительно получают информацию о рендеринге, обозначенную цифрой 30, где информация о рендеринге может описывать установку рендеринга, то есть, как в осуществлении фиг.3В существуют только три выходных громкоговорителя. Эти выводы - левый громкоговоритель L, центральный громкоговоритель С и правый громкоговоритель R. Если, например, установка рендеринга или установка воспроизведения включает сценарий 5.1, то каждый микшер объекта понижающего микширования имел бы шесть выходных каналов, и там бы существовало шесть сумматоров так, чтобы был получен окончательный выходной сигнал для левого канала, окончательный выходной сигнал для правого канала, окончательный выходной сигнал для центрального канала, окончательный выходной сигнал для левого окружного канала, окончательный выходной сигнал для правого окружного канала и окончательный выходной сигнал для низкочастотного расширяющего (сабвуфер) канала.
В частности, сумматоры 16а, 16b, 16с приспособлены для объединения составляющих сигналов для соответствующего канала, которые были генерированы соответствующими микшерами объектов понижающего микширования. Эта комбинация, предпочтительно, является прямым поочередным дополнением образцов, но, в зависимости от исполнения, могут также применяться весовые коэффициенты. Кроме того, функциональные возможности фиг.3А, 3В могут быть реализованы в частотной области или области поддиапазона так, чтобы элементы 19а-16с могли бы работать в частотной области, и имелось бы некоторое преобразование частоты/времени до фактического вывода сигналов на громкоговорители в установке воспроизведения.
Фиг.4 иллюстрирует альтернативное исполнение, в котором функциональные возможности элементов 19а, 19b, 19с, 16а, 16b, 16с подобны осуществлению фиг.3В. Важно, однако, то, что управление, которое имело место на фиг.3А до понижающего микширования объекта 19а, теперь происходит после понижающего микширования объекта 19а. Таким образом, управление, специфическое для объекта, которое контролируется метаданными для соответствующего объекта, производится в области понижающего микширования, то есть до фактического дополнения впоследствии управляемых составляющих сигналов. Когда фиг.4 сравнивается с фиг.1, становится ясно, что микшер объекта понижающего микширования как 19а, 19b, 19с будет осуществлен в процессоре 10 и микшер объекта 16 будет включать сумматоры 16а, 16b, 16с. Когда исполняется фиг.4 и микшеры объекта понижающего микширования являются частью процессора, тогда процессор получит, в дополнение к параметрам объекта 18 фиг.1, информацию о рендеринге 30, то есть информацию относительно позиции каждого звукового объекта и информацию относительно установки рендеринга и дополнительную информацию в зависимости от обстоятельств.
Кроме того, управление может включать процесс понижающего микширования, осуществленный блоками 19а, 19b, 19с. В этом осуществлении манипулятор включает эти блоки, и дополнительные манипуляции могут иметь место, но не требуются в любом случае.
Фиг.5А иллюстрирует осуществление на стороне кодирующего устройства, которое может генерировать поток данных, как схематично показано на фиг.5В. В частности, фиг.5А иллюстрирует устройство для генерирования закодированного звукового сигнала 50, представляющего суперпозицию, по крайней мере, двух различных звуковых объектов. По существу, устройство фиг.5А иллюстрирует форматер потока данных 51 для форматирования потока данных 50 так, чтобы поток данных включал сигнал объекта понижающего микширования 52, представляющего комбинацию, такую как взвешенная или невзвешенная комбинация, по крайней мере, двух звуковых объектов. Кроме того, поток данных 50 включает, в качестве дополнительной информации, связанные с объектом метаданные 53, относящиеся, по крайней мере, к одному из различных звуковых объектов. Предпочтительно, чтобы поток данных 50, кроме того, включал параметрические данные 54, которые являются селективными по времени и частоте и которые обеспечивают высококачественное разделение сигнала понижающего микширования объекта на несколько звуковых объектов, где этот процесс также называется процессом повышающего микширования объекта, который выполняется процессором 10 фиг.1, как было объяснено ранее.
Сигнал понижающего микширования объекта 52 предпочтительно генерируется микшером объекта понижающего микширования 101а. Параметрические данные 54 предпочтительно генерируются вычислителем параметров объекта 101b, а метаданные селективных объектов 53 генерируются поставщиком метаданных селективных объектов 55. Поставщик метаданных селективных объектов может быть входом для получения метаданных в качестве произведенных генератором звука в студии звукозаписи или могут быть данными, произведенными посредством анализа, связанного с объектом, который мог бы быть выполнен вслед за разделением объекта. В частности, поставщик метаданных селективных объектов может быть реализован, чтобы проанализировать выход объекта посредством процессора 10, чтобы, например, выяснить, является ли объект речевым объектом, звуковым объектом или объектом окружающего звука. Таким образом, речевой объект может быть проанализирован посредством некоторых известных алгоритмов речевого обнаружения, известных из речевого кодирования, и анализ селективных объектов может быть осуществлен, чтобы также обнаружить звуковые объекты, исходящие от инструментов. Такие звуковые объекты имеют высокую тональную природу и могут поэтому быть отличены от речевых объектов или объектов окружающих звуков. Объекты окружающих звуков будут иметь весьма шумную природу, отражающую фоновый звук, который обычно существует, например, в кинофильмах, где, например, фоновые шумы - это звуки транспортных средств или любые другие постоянные шумовые сигналы или непостоянные сигналы, имеющие широкополосный спектр такой, какой производится, когда, например, в кино имеет место сцена со стрельбой.
Основываясь на этом анализе, можно усилить звуковой объект и ослабить другие объекты, чтобы выделить речь, поскольку это способствует улучшению понимания кинофильма плохо слышащими людьми или людьми преклонного возраста. Как установлено ранее, другие реализации включают предоставление метаданных определенного объекта, таких как идентификация объекта, и связанных с объектом данных звукооператором, производящим фактический сигнал понижающего микширования объекта на CD или DVD, такой как стереопонижающее микширование или понижающее микширование окружающего звука.
Фиг.5d иллюстрирует примерный поток данных 50, который имеет в качестве главной информации моно, стерео или многоканальный объект понижающего микширования и который имеет в качестве дополнительной информации параметры объекта 54 и объектно-ориентированные метаданные 53, которые являются постоянными только в случае идентификации объектов, таких как речь или окружающие звуки, или которые являются переменными во времени в случае предоставления данных уровня в качестве объектно-ориентированных метаданных, таких, какие требуются для полуночного режима. Предпочтительно, однако, чтобы объектно-ориентированные метаданные не предоставлялись частотно-селективным способом для сохранения скорости передачи данных.
Фиг.6 иллюстрирует осуществление отображения звукового объекта, иллюстрирующее ряд объектов N. В примерном объяснении фиг.6 каждый объект имеет ID (идентификатор) объекта, соответствующий файл звукового объекта и, что важно, информацию о параметрах звукового объекта, которая является, предпочтительно, информацией, касающейся мощности звукового объекта и межобъектной корреляции звукового объекта. В частности, информация о параметрах звукового объекта включает матрицу Е ковариации объекта для каждого поддиапазона и для каждого временного интервала устойчивой связи.
Пример такой информации о параметрах звукового объекта матрицы Е проиллюстрирован на фиг.7. Диагональные элементы еii включают информацию об интенсивности или мощности звукового объекта i в соответствующем поддиапазоне и соответствующем временном интервале. Наконец, сигнал поддиапазона, представляющий определенный звуковой объект i, вводится в вычислитель интенсивности или мощности, который может, например, выполнять функцию автокорреляции (acf), чтобы получить значение еii с или без нормализации. Альтернативно, мощность может быть вычислена как сумма квадратов сигнала на определенной длине (то есть векторное произведение: ss*). Функция автокорреляции (acf) может, в некотором смысле, описывать спектральное распределение мощности, но вследствие того, что Т(время)/Р(частота)-преобразование для выбора частоты предпочтительно используется в любом случае, вычисление мощности может быть выполнено без функции автокорреляции (acf) для каждого поддиапазона отдельно. Таким образом, главные диагональные элементы матрицы Е параметров звукового объекта указывают степень мощности звукового объекта в определенном поддиапазоне в определенном временном интервале устойчивой радиосвязи.
С другой стороны, недиагональный элемент еij указывает соответствующую меру корреляции между звуковыми объектами i, j в соответствующем поддиапазоне и временном интервале устойчивой радиосвязи. Из фиг.7 ясно, что матрица Е является, для реальных нормированных записей, симметричной относительно главной диагонали. Обычно эта матрица является эрмитовой матрицей. Элемент меры корреляции еij может быть вычислен, например, посредством взаимной корреляции двух сигналов поддиапазона соответствующих звуковых объектов так, чтобы была получена взаимная мера корреляции, которая может быть или не быть нормализована. Могут использоваться другие меры корреляции, которые не вычисляются посредством использования процедуры взаимной корреляции, а вычисляются другими способами определения корреляции между двумя сигналами. По практическим причинам все элементы матрицы Е нормализуются так, чтобы они имели величины между 0 и 1, где 1 указывает максимальную мощность, или максимальную корреляцию, 0 указывает минимальную мощность (нулевая мощность) и -1 указывает минимальную (несовпадающую по фазе) корреляцию.
Матрица D понижающего микширования размера К x N, где К>1, определяет К канал сигнала понижающего микширования в форме матрицы с К рядами посредством матричного умножения
Фиг.8 иллюстрирует пример матрицы D понижающего микширования, имеющей матричные элементы dij понижающего микширования. Такой элемент dij указывает, включается ли часть или целый объект j в сигнал понижающего микширования объекта i или нет. Когда, например, d12 равен нулю, это означает, что объект 2 не включен в сигнал понижающего микширования объекта 1. С другой стороны, значение d23, равное 1, указывает на то, что объект 3 полностью включен в сигнал понижающего микширования объекта 2.
Допустимы значения матричных элементов понижающего микширования между 0 и 1. В частности, значение 0.5 указывает на то, что определенный объект включается в сигнал понижающего микширования, но только с половиной его мощности. Таким образом, когда звуковой объект, такой как объект номер 4, одинаково распределяется по обоим каналам сигнала понижающего микширования, тогда d24 и d14 будут равны 0.5. Этот способ понижающего микширования является энергосберегающим процессом понижающего микширования, который предпочтителен для некоторых ситуаций. Альтернативно, однако, может также использоваться не энергосберегающее понижающее микширование, в котором целый звуковой объект вводится в левый канал понижающего микширования и правый канал понижающего микширования так, чтобы мощность этого звукового объекта была удвоена относительно других звуковых объектов в пределах сигнала понижающего микширования.
В нижних частях фиг.8 дана схематическая диаграмма кодирующего устройства объекта 101 фиг.1. В частности, кодирующее устройство объекта 101 включает две различные части 101а и 101b. Часть 101а - это микшер понижающего микширования, который предпочтительно выполняет взвешенную линейную комбинацию звуковых объектов 1, 2,…, N, и вторая часть кодирующего устройства объекта 101 - это вычислитель параметров звукового объекта 101b, который вычисляет информацию о параметрах звукового объекта, такую как матрица Е для каждого временного интервала или поддиапазоны, чтобы предоставить информацию о мощности звука и корреляции, которая является параметрической информацией и может поэтому быть передана с низкой скоростью передачи битов или может быть сохранена, потребляя небольшое количество ресурсов памяти.
Контролируемая пользователем матрица А рендеринга объекта (матрица объектного представления), размера М х N, определяет целевую визуализацию канала М звуковых объектов в форме матрицы с М рядами посредством матричного умножения
Предполагается в ходе следующего дифференцирования, что М=2, поскольку основное внимание уделяется стереовизуализации. Предоставление начальной матрицы визуализации более чем на два канала и нормы понижающего микширования от этих нескольких каналов на два канала делает очевидным для квалифицированных специалистов получение соответствующей матрицы рендеринга А, размера 2×N, для стереорендеринга. Для простоты также предполагается, что К=2, таким образом, объект понижающего микширования является также стереосигналом. Случай понижающего микширования стереообъекта является, кроме того, самым важным частным случаем, исходя из сценариев применения.
Фиг.9 иллюстрирует детальное объяснение заданной матрицы рендеринга А. В зависимости от применения заданная матрица рендеринга А может быть предоставлена пользователем. Пользователь может свободно указать, где виртуально должен быть расположен звуковой объект для установки воспроизведения. Достоинство концепции звукового объекта состоит в том, что информация о понижающем микшировании и информация о параметрах звукового объекта полностью независима от конкретной локализации звуковых объектов. Эта локализация звуковых объектов предоставляется пользователем в форме заданной информации рендеринга. Предпочтительно, чтобы заданная информация рендеринга могла быть осуществлена как заданная матрица рендеринга А, которая может быть в форме матрицы на фиг.9. В частности, матрица рендеринга А имеет М линий и N колонок, где М равно числу каналов в выходном сигнале после рендеринга и где N равно числу звуковых объектов. М равно двум предпочтительным сценариям стереорендеринга, но если выполняется рендеринг М-каналов, то матрица А имеет М линий.
В частности, матричный элемент a,j указывает на то, должна ли часть или целый объект j быть подвергнута рендерингу в конкретном выходном канале i или нет. Нижняя часть фиг.9 дает простой пример заданной матрицы рендеринга сценария, в котором имеется шесть звуковых объектов А01-А06, где только первые пять звуковых объектов должны быть подвергнуты рендерингу в определенных позициях, а шестой звуковой объект вообще не должен быть подвергнут рендерингу.
Относительно звукового объекта А01, пользователь хочет, чтобы рендеринг этого звукового объекта реализовывался в левой стороне сценария воспроизведения. Поэтому этот объект размещается в позиции левого громкоговорителя в (виртуальном) помещении воспроизведения, результаты чего в первой колонке матрицы визуализации А должны быть обозначены (10). Относительно второго звукового объекта, а22-1 и a12-0, это означает, что рендеринг второго звукового объекта должен быть осуществлен на правой стороне.
Звуковой объект 3 должен быть подвергнут рендерингу посередине, между левым громкоговорителем и правым громкоговорителем, так чтобы 50% уровня или сигнала этого звукового объекта входили в левый канал и 50% уровня или сигнала входили в правый канал, чтобы соответствующая третья колонка заданной матрицы рендеринга А была (0.5 длины 0.5).
Аналогично, любое размещение между левым громкоговорителем и правым громкоговорителем может быть указано заданной матрицей рендеринга. Относительно звукового объекта 4, размещение больше на правой стороне, так как матричный элемент а24 больше, чем а14. Аналогично, рендеринг пятого звукового объекта А05 осуществляется так, чтобы быть больше на левом громкоговорителе, как обозначено элементами a15 и а25 заданной матрицы рендеринга. Заданная матрица рендеринга А дополнительно позволяет вообще не выполнять операцию рендеринга определенного звукового объекта. Это примерно проиллюстрировано шестой колонкой заданной матрицы рендеринга, имеющей нулевые элементы.
Впоследствии предпочтительное осуществление данного изобретения описывается со ссылкой на фиг.10.
Предпочтительно, чтобы способы, известные из SAOC (Пространственное Звуковое Кодирование Объекта), разделяли один звуковой сигнал на различные части. Эти части могут быть, например, различными звуковыми объектами, но можно этим не ограничиваться.
Если метаданные передаются для каждой одиночной части звукового сигнала, это позволяет регулировать только некоторые из компонентов сигнала, в то время как другие части останутся неизменными или даже могли бы быть изменены другими метаданными.
Это может быть сделано для различных звуковых объектов, а также и для индивидуальных спектральных диапазонов.
Параметры для разделения объекта являются классическими или даже новыми метаданными (усиление, сжатие, уровень,...) для каждого индивидуального звукового объекта. Эти данные предпочтительно передаются.
Блок обработки декодера реализуется на двух различных стадиях: на первой стадии параметры разделения объекта используются для генерирования (10) индивидуальных звуковых объектов. На второй стадии процессорный блок 13 имеет множество элементов, где каждый элемент - для индивидуального объекта. Здесь должны применяться метаданные конкретного объекта. В конце процесса, происходящего в декодере, все индивидуальные объекты снова объединяются (16) в один единственный звуковой сигнал. Дополнительно, контроллер оригинального и управляемого сигналов 20 (dry /wet контроллер) может обеспечить плавное микширование наплывом между оригинальным и управляемым сигналами, чтобы предоставить конечному пользователю простую возможность найти собственную предпочтительную настройку.
В зависимости от конкретного исполнения фиг.10 иллюстрирует два аспекта. В основном аспекте связанные с объектом метаданные только указывают на описание объекта для конкретного объекта. Предпочтительно, чтобы описание объекта было связано с ID (идентификатором) объекта, как обозначено цифрой 21 на фиг.10. Поэтому объектно-ориентированные метаданные для верхнего объекта, управляемого устройством 13а, являются только информацией о том, что этот объект - «речевой» объект. Объектно-ориентированные метаданные для другого объекта, обработанного устройством 13b, имеют информацию о том, что этот второй объект - объект объемного звучания.
Этих основных связанных с объектом метаданных для обоих объектов может быть достаточно для того, чтобы осуществить расширенный чистый звуковой режим, в котором речевой объект усиливается, а объект окружающего звука ослабляется или, короче говоря, речевой объект усиливается относительно объекта окружающего звука, или объект окружающего звука ослабляется относительно речевого объекта. Пользователь, однако, может предпочтительно осуществлять различные режимы обработки на стороне приемника/декодера, который может быть запрограммирован через вход управления режимами. Эти различные режимы могут быть режимом уровня диалога, режимом сжатия, режимом понижающего микширования, расширенным полуночным режимом, расширенным чистым звуковым режимом, режимом динамического понижающего микширования, режимом катализированного повышающего микширования, режимом для перемещения объектов и т.д.
В зависимости от исполнения различные способы требуют различных объектно-ориентированных метаданных в дополнение к основной информации, указывающей вид или характер объекта, такого как речь или окружающий звук. В полуночном режиме, в котором динамический диапазон звукового сигнала должен быть сжат, предпочтительно, чтобы для каждого объекта, такого как речевой объект и окружающий объект, либо фактический уровень, либо заданный уровень для полуночного режима был предоставлен в качестве метаданных. Когда предоставлен фактический уровень объекта, тогда приемник должен вычислить заданный уровень для полуночного режима. Однако, когда предоставлен заданный относительный уровень, тогда обработка на стороне декодера/приемника уменьшается.
В этом исполнении каждый объект имеет зависящую от времени объектно-ориентированную последовательность информации об уровне, которая используется приемником, чтобы сжать динамический диапазон так, чтобы разность уровней в пределах одиночного объекта были уменьшены. Это автоматически приводит к получению заключительного звукового сигнала, в котором разность уровней время от времени уменьшается, как того требует исполнение полуночного режима. Для чистых звуковых применений может быть предоставлен также заданный уровень для речевого объекта. Тогда окружающий объект может быть установлен на ноль или почти на ноль, чтобы лучше подчеркнуть речевой объект в пределах звука, генерированного определенной установкой громкоговорителя. В высококачественном воспроизведении, которое является обратным полуночному режиму, может быть расширен динамический диапазон объекта или динамический диапазон различия между объектами. В этом исполнении предпочтительно обеспечить заданные уровни усиления объекта, так как эти заданные уровни гарантируют то, что в конце получается звук, который создается художественным звукооператором в звуковой студии и поэтому имеет более высокое качество по сравнению с автоматической настройкой или настройкой, определяемой пользователем.
В другом исполнении, в котором объектно-ориентированные метаданные, касающиеся улучшенного понижающего микширования, управление объектом включает понижающее микширование, отличающееся от того, которое предназначено для определенных установок рендеринга. Тогда объектно-ориентированные метаданные вводятся в блоки 19а - 19с микшера понижающего микширования объекта на фиг.3В или фиг.4. В этом исполнении манипулятор может включать блоки 19а-19с, когда индивидуальное понижающее микширование объекта выполняется в зависимости от установки рендеринга. В частности, блоки 19а-19с понижающего микширования объекта могут быть установлены отлично друг от друга. В этом случае речевой объект может быть введен только в центральный канал, а не в левый или правый канал, в зависимости от конфигурации канала. Тогда блоки микшера понижающего микширования 19а-19с могут иметь различное число выходов компонентов сигнала. Понижающее микширование также может быть осуществлено динамически.
Дополнительно, может также предоставляться информация о направленном повышающем микшировании и информация для перемещения объектов.
Ниже дается краткое изложение предпочтительных способов предоставления метаданных и применения метаданных определенного объекта.
Звуковые объекты могут разделяться не идеально, как в типичном SOAC применении. Для управления звуком может быть достаточным иметь «маску» объектов, а не полное разделение.
Это может привести к меньшему количеству/более грубым параметрам для разделения объекта.
Для применения режима, называемого «полуночным режимом», звукоинженер должен определить все параметры метаданных независимо для каждого объекта, производя, например, постоянный объем диалога, и управляемый шум окружения («расширенный полуночный режим»).
Это может быть также полезно для людей, носящих слуховые аппараты («расширенный чистый звук»),
Новые сценарии понижающего микширования: различные разделенные объекты могут рассматриваться по-разному для каждой определенной ситуации понижающего микширования. Например, сигнал с 5.1 каналами должен быть микширован с понижением для домашней телевизионной стереосистемы, а другой приемник имеет только моносистему воспроизведения. Поэтому различные объекты могут рассматриваться по-разному (и все это контролируется звукооператором во время производства благодаря метаданным, предоставленным звукооператором).
Предпочтительно также понижающее микширование до 3.0 и т.д.
Произведенное понижающее микширование не будет определяться постоянным основным параметром (набор), но оно может быть сгенерировано из переменных во времени зависящих от объекта параметров. Посредством новых объектно-ориентированных метаданных можно также выполнить направленное повышающее микширование.
Объекты могут быть размещены в различных позициях, например, чтобы сделать пространственное изображение более широким, когда окружение ослаблено. Это поможет улучшить отчетливость речи для плохо слышащих людей.
Предложенный в этой работе способ расширяет существующее понятие метаданных, осуществленное и главным образом используемое в Кодер-декодерах системы Долби. Теперь можно применить известное понятие метаданных не только к целому звуковому потоку, но и к извлеченным объектам в пределах этого потока. Это предоставляет звуковым инженерам и операторам намного больше возможности для маневра, обеспечивает большие диапазоны регулирования и поэтому лучшее качество звука и большее удовольствие для слушателей.
Фиг.12А, 12В иллюстрируют различные сценарии применения концепции изобретения. В классическом сценарии существует телевизионная трансляция спортивных соревнований, где присутствует обстановка стадиона во всех 5.1 каналах и где канал громкоговорителя отображается на центральном канале. Это «отображение» может быть выполнено прямым добавлением канала громкоговорителя к центральному каналу, предназначенному для этих 5.1 каналов, несущих обстановку стадиона. Теперь способ согласно изобретению позволяет иметь такой центральный канал в звуковом описании обстановки стадиона. Тогда процесс добавления смешивает центральный канал из обстановки стадиона и громкоговоритель. Генерируя параметры объекта для громкоговорителя и центральный канал из обстановки стадиона, данное изобретение позволяет разделять эти два звуковых объекта на стороне декодера и позволяет усиливать или ослаблять громкоговоритель или центральный канала из обстановки стадиона. Дальнейший сценарий предполагает наличие двух громкоговорителей. Такая ситуация может возникнуть, когда два человека комментируют один и тот же футбольный матч. В частности, когда имеются два диктора, которые говорят одновременно, может быть полезным иметь этих двух дикторов в качестве отдельных объектов и, дополнительно, сделать так, чтобы эти два диктора были отделены от каналов обстановки стадиона. В таком применении эти 5.1 каналов и два канала громкоговорителя могут обрабатываться как восемь различных звуковых объектов или семь различных звуковых объектов, когда низкочастотным каналом расширения (канал сабвуфера) пренебрегают. Так как инфраструктура прямого распределения приспособлена к 5.1 каналам звукового сигнала, семь (или восемь) объектов могут быть микшированы с понижением в 5.1 каналов сигнала понижающего микширования, и параметры объекта могут быть предоставлены в дополнение к 5.1 каналам понижающего микширования так, чтобы на стороне приемника объекты могли быть снова разделены, и, благодаря тому что объектно-ориентированные метаданные будут идентифицировать дикторские объекты из объектов обстановки стадиона, обработка конкретного объекта возможна до того, как заключительное понижающее микширование 5.1 каналов посредством микшера объектов имеет место на стороне приемника.
В этом сценарии можно было также иметь первый объект, включающий первого диктора, второй объект, включающий второго диктора, и третий объект, включающий полную обстановку стадиона.
Впоследствии различные исполнения сценариев объектно-ориентированного понижающего микширования обсуждаются в контексте фиг.11А-11С.
Когда, например, звук, генерированный посредством сценариев фиг.12А или 12В, должен быть воспроизведен на обычной 5.1 системе воспроизведения, тогда вложенный поток метаданных может быть проигнорирован, и полученный поток может проигрываться, как он есть. Когда, однако, воспроизведение должно производиться на установках стереогромкоговорителя, должно иметь место, понижающее микширование от 5.1 до стерео. Если окружающие каналы были добавлены непосредственно к левому/правому, модераторы могут быть на уровне, который является слишком низким. Поэтому предпочтительно снизить уровень обстановки до или после понижающего микширования до того, как объект регулятора будет (заново) добавлен.
Люди с ослабленным слухом могут захотеть снизить уровень обстановки, чтобы улучшить разборчивость речи, все еще разделяя оба громкоговорителя на левый/правый, что известно как «эффект коктейльной вечеринки», где человек слышит свое имя и затем концентрируется в направлении, откуда услышал свое имя. Эта концентрация на конкретном направлении будет, с психоакустической точки зрения, ослаблять звук, поступающий из других направлений. Поэтому точное местоположение определенного объекта, такое как нахождение громкоговорителя слева или справа или одновременно слева или справа так, чтобы громкоговоритель появился в середине между левым или правым, могло бы улучшить разборчивость. И наконец, входной звуковой поток предпочтительно разделяется на отдельные объекты, где объекты должны быть ранжированы в метаданных в зависимости от того, важен объект или менее важен. Тогда разность уровней между ними может быть отрегулирована в соответствии с метаданными, или позиция объекта может быть перемещена, чтобы улучшить разборчивость в соответствии с метаданными.
Чтобы достичь этой цели, метаданные применяются не к переданному сигналу, а метаданные применяются к одиночным разделяемым звуковым объектам до или после понижающего микширования объекта в зависимости от обстоятельств. Теперь данное изобретение не требует больше того, чтобы объекты были ограничены пространственными каналами так, чтобы этими каналами можно было управлять индивидуально. Вместо этого концепция изобретения объектно-ориентированных метаданных не требует того, чтобы имелся определенный объект в определенном канале, но объекты могут микшироваться с понижением до нескольких каналов и могут все еще управляться индивидуально.
Фиг.11А иллюстрирует дальнейшее исполнение предпочтительного осуществления. Микшер понижающего микширования объекта 16 генерирует m выходных каналов из k x n входных каналов, где k - число объектов и где n каналов генерируются на объект. Фиг.11А соответствует сценарию фиг.3А, 3В, где управление 13а, 13b, 13с имеет место до понижающего микширования объекта.
Фиг.11А, кроме того, включает манипуляторы уровня 19d, 19e, 19f, которые могут быть исполнены без контроля метаданных. Альтернативно, однако, эти манипуляторы уровня могут также контролироваться объектно-ориентированными метаданными так, чтобы модификация уровня, осуществленная блоками 19d-19f, была также частью манипулятора объекта 13 фиг.1. То же самое верно для процессов понижающего микширования 19а-19b-19с, когда эти процессы понижающего микширования контролируются объектно-ориентированными метаданными. Этот случай, однако, не проиллюстрирован на фиг.11А, но также может быть осуществлен, когда объектно-ориентированные метаданные также отправлены блокам понижающего микширования 19а-19с. В последнем случае эти блоки также были бы частью объектного манипулятора 13 на фиг.11А, а остальные функциональные возможности микшера объекта 16 осуществляются комбинацией в виде выходного канала компонентов сигналов управляемого объекта для соответствующих выходных каналов. Фиг.11А, кроме того, включает функциональные возможности нормализации диалога 25, которые могут быть осуществлены посредством обычных метаданных, так как эта нормализация диалога имеет место не в области объекта, а в области выходного канала.
Фиг.11В иллюстрирует исполнение объектно-ориентированного 5.1-стереопонижающего микширования. Здесь понижающее микширование выполняется перед управлением, и поэтому фиг.11В соответствует сценарию фиг.4. Модификация уровня 13а, 13b выполняется объектно-ориентированными метаданными, где, например, верхняя ветвь соответствует речевому объекту и более низкая ветвь соответствует окружающему объекту или, для примера в фиг.12А, 12В, верхний переход (ветвь) соответствует одному или обоим громкоговорителям, а нижний переход соответствует всей окружающей информации. Тогда блоки манипулятора уровня 13а, 13b управляли бы обоими объектами, основанными на установленных параметрах так, чтобы объектно-ориентированные метаданные были точной идентификацией объектов, а манипуляторы уровня 13а, 13b могли бы также управлять уровнями, основанными на заданных уровнях, предоставленных метаданными 14, или основанными на фактических уровнях, предоставленных метаданными 14. Поэтому, чтобы генерировать стереопонижающее микширование для многоканального входа, формула понижающего микширования применяется для каждого объекта и объекты взвешиваются данным уровнем до их повторного микширования снова до выходного сигнала.
Для чистых звуковых применений, как показано на фиг.11С, уровень значимости передается в качестве метаданных, чтобы дать возможность уменьшить менее значимые компоненты сигнала. Тогда другой переход (ветвь) соответствовал бы компонентам значимости, которые усиливаются, в то время как нижний переход (ветвь) мог бы соответствовать менее значимым компонентам, которые могут быть ослаблены. То, как выполняется определенное ослабление и/или усиление различных объектов, может быть фиксированно установлено приемником, но может также контролироваться, кроме того, объектно-ориентированными метаданными, как это исполняется посредством контроля оригинального и управляемого сигналов (dry/wet контроля) 14 на фиг.11С.
Обычно динамический контроль диапазона может исполняться в области объекта, который реализуется подобно исполнению ААС-динамического контроля диапазона как многополосного сжатия. Объектно-ориентированные метаданные могут даже быть частотно-селективными данными так, чтобы исполнялось частотно-селективное сжатие, которое подобно исполнению эквалайзера.
Как было сказано ранее, нормализация диалога предпочтительно выполняется вслед за понижающим микшированием, то есть в сигнале понижающего микширования. Понижающее микширование должно, в общем, быть в состоянии обработать объекты k с n входными каналами в m выходные каналы.
Не всегда бывает важно разделить объекты на дискретные объекты. Может быть достаточно «снять маску» с компонентов сигнала, которые подлежат управлению. Это подобно редактированию масок в обработке изображения. Тогда генерализованный «объект» является суперпозицией нескольких оригинальных объектов, где эта суперпозиция включает число объектов, меньшее, чем общее число оригинальных объектов. Все объекты снова складываются на заключительной стадии. Разделенные одиночные объекты не представляют никакого интереса, и для некоторых объектов значение уровня может быть установлено на 0, что соответствует высоким отрицательным числам децибел, когда определенный объект должен быть удален полностью, как в караоке, где может существовать заинтересованность в полном удалении голосового объекта так, чтобы певец караоке мог добавить свой собственный вокал к оставшимся инструментальным объектам.
Другие предпочтительные применения изобретения, как было сказано ранее, являются расширенным полуночным режимом, где динамический диапазон одиночных объектов может быть уменьшен, или режимом высокой точности, где динамический диапазон объектов расширен. В этом контексте переданный сигнал может быть сжат, и предполагается инвертирование этого сжатия. Особо предпочтительно, когда имеет место применение нормализации диалога для полного сигнала в качестве выхода на громкоговорители, но нелинейное ослабление/усиление для различных объектов полезно, когда установлена нормализация диалога. В дополнение к параметрическим данным для отделения различных звуковых объектов от сигнала понижающего микширования объекта, предпочтительно передать, для каждого объекта и суммарного сигнала в дополнение к классическим метаданным, связанным с суммарным сигналом, значения уровня для понижающего микширования, значения значимости, указывающие уровень значимости для чистого звука, идентификацию объекта, фактические абсолютные или относительные уровни в качестве переменной во времени информации или абсолютные или относительные заданные уровни в качестве переменной во времени информации и т.д.
Описанные осуществления являются только иллюстративными для принципов данного изобретения. Подразумевается, что модификации и изменения компоновки и деталей, описанных здесь, будут очевидны для других специалистов в этой области. Поэтому мы намереваемся ограничиться только областью пунктов формулы изобретения, а не специфическими деталями, представленными здесь посредством описания и объяснения осуществлений. В зависимости от определенных требований к реализации предложенных способов, они могут быть реализованы в аппаратных средствах или в программном обеспечении. Исполнение может быть реализовано посредством использования цифрового носителя данных, в частности DVD или компакт-диск, имеющего сохраненные на нем электронно-считываемые управляющие сигналы, которые взаимодействуют с программируемыми компьютерными системами таким образом, что реализуются способы по изобретению. В общем, данное изобретение является поэтому компьютерным программным продуктом с управляющей программой, сохраненным на машиночитаемом носителе, управляющая программа вводится в действие, чтобы реализовать способы, когда компьютерный программный продукт запущен на компьютере. Другими словами, способы по изобретению являются поэтому компьютерной программой, имеющей управляющую программу для реализации, по крайней мере, одного из изобретательных способов, когда компьютерная программа запущена на компьютере.
Ссылки
[1] ISO/IEC 13818-7: MPEG-2 (Типовое кодирование кинофильмов и связанной звуковой информации) - Часть 7: Усовершенствованное Звуковое Кодирование (ААС).
[2] ISO/IEC 23003-1: MPEG-D (звуковые технологии MPEG) - Часть 1: MPEG Surround (окружающий).
[3] ISO/IEC 23003-2: MPEG-D (звуковые технологии MPEG) - Часть 2:
Пространственное Кодирование Звукового Объекта (SAOC).
[4] ISO/IEC 13818-7: MPEG-2 (Типовое кодирование кинофильмов и связанной звуковой информации) - Часть 7: Улучшенное Звуковое Кодирование (ААС).
[5] ISO/IEC 14496-11: MPEG 4 (Кодирование аудиовизуальных объектов) - Часть 11:
Описание Сцены и Движок Приложения (В IFS).
[6] ISO/IEC 14496-: MPEG 4 (Кодирование аудиовизуальных объектов) - Часть 20:
Облегченное Прикладное Представление Сцены (LASeR) и Простой Формат Агрегирования (SAF).
[7] http:/www.dolby.com/assets/pdf/techlibrary/l 7. AllMetadata.pdf.
[8] http:/www.dolby.com/assets/pdf/tech_library/l 8_Metadata. Guide.pdf.
[9] Краусс, Курт; Реден, Джонас; Шилдбах, Вульфганг: Транскодирование Коэффициентов Динамического Контроля Диапазона и Других Метаданных в MPEG-4 НЕ АА, AES Соглашение 123, октябрь 2007, стр.7217.
[10] Робинсон, Чарльз Кв., Гандри, Кеннет: Динамический Контроль Диапазона посредством Метаданных, AES Соглашение 102, сентябрь 1999, стр.5028.
[11] Система Долби, «Стандарты и Инструкции для Создания Цифровой системы Долби и Битовых потоков системы Долби Е», Выпуск 3.
[14] Технологии кодирования /система Долби, «Система Долби Е / Решение проблемы Транскодера Метаданных aacPlus для aacPlus Многоканального Цифрового Видео-и Телевещания (DVB)», VI. 1.0.
[15] ETSI TS101154: Цифровое Видео-и Телевещание (DVB), V1.8.1.
[16] SMPTE RDD 6-2008: Описание и Справочник по Использованию Последовательного Битового Потока Звуковых Метаданных системы Долби.
Claims (14)
1. Устройство для генерирования, по крайней мере, одного звукового выходного сигнала, представляющего собой наложение, по крайней мере, двух различных звуковых объектов, включающее процессор для обработки звукового входного сигнала, позволяющий обеспечить объектное представление звукового входного сигнала, в котором, по крайней мере, два различных звуковых объекта отделены друг от друга, по крайней мере, два различных звуковых объекта доступны в качестве отдельных сигналов звуковых объектов и, по крайней мере, два различных звуковых объекта являются управляемыми независимо друг от друга; манипулятор объекта для управления, основанного на объектно-ориентированных звуковых метаданных, относящихся, по крайней мере, к одному звуковому объекту, сигналом звукового объекта, по крайней мере, одного звукового объекта или микшированным сигналом звукового объекта, полученного от, по крайней мере, одного звукового объекта, позволяющего получить управляемый сигнал звукового объекта, по крайней мере, для одного звукового объекта; и микшер объекта для микширования объектного представления посредством комбинирования управляемого сигнала звукового объекта с неизмененным звуковым объектом или с другим управляемым звуковым объектом, которым управляют иначе, чем, по крайней мере, одним звуковым объектом, при этом устройство приспособлено, чтобы генерировать m выходных сигналов, m является целым числом больше 1, процессор предназначен, чтобы обеспечить объектное представление, имеющее k звуковых объектов, k является целым числом, большим m, манипулятор объекта приспособлен, чтобы управлять, по крайней мере, двумя объектами, отличающимися друг от друга, основанными на метаданных, связанных, по крайней мере, с одним объектом, по крайней мере, двух объектов, и где микшер объекта предназначен объединить управляемые звуковые сигналы, по крайней мере, двух различных объектов, чтобы получить m выходных сигналов так, чтобы каждый выходной сигнал находился под влиянием управляемых звуковых сигналов, по крайней мере, двух различных объектов.
2. Устройство по п.1, в котором входной звуковой сигнал является микшированным с понижением представлением множества оригинальных звуковых объектов и включает, в качестве дополнительной информации, объектно-ориентированные метаданные, имеющие информацию относительно одного или более звуковых объектов, включенных в микшированное с понижением представление, и в котором манипулятор объекта приспособлен, чтобы извлечь объектно-ориентированные метаданные из входного звукового сигнала.
3. Устройство по п.1, в котором манипулятор объекта приспособлен, чтобы управлять каждым множеством сигналов компонентов объекта тем же самым способом, основанным на метаданных для объекта, чтобы получить сигналы компонентов объекта для звукового объекта, и в котором микшер объекта приспособлен, чтобы добавить сигналы компонентов объекта от других объектов к тому же самому выходному каналу, чтобы получить выходной звуковой сигнал для выходного канала.
4. Устройство по п.1, дополнительно включающее микшер выходного сигнала для микширования выходного звукового сигнала, который был получен, основываясь на управлении, по крайней мере, одним звуковым объектом, и соответствующего выходного звукового сигнала, полученного без управления, по крайней мере, одним звуковым объектом.
5. Устройство по п.1, в котором метаданные включают информацию относительно усиления, сжатия, уровня, установки понижающего микширования или характеристик, специфических для данного объекта, и где манипулятор объекта приспособлен, чтобы управлять объектом или другими объектами, основанными на метаданных для осуществления способом, предназначенным для конкретного объекта, полуночного режима, высокоточного режима, режима чистого звука, нормализации диалога, заданного управления понижающим микшированием, динамического понижающего микширования, управляемого повышающего микширования, перемещения речевых объектов или ослабления объекта окружения.
6. Устройство для генерирования, по крайней мере, одного звукового выходного сигнала, представляющего наложение, по крайней мере, двух различных звуковых объектов, включающее процессор для обработки звукового входного сигнала, позволяющий обеспечить объектное представление звукового входного сигнала, в котором, по крайней мере, два различных звуковых объекта отделены друг от друга: по крайней мере, два различных звуковых объекта доступны в качестве отдельных сигналов звуковых объектов и, по крайней мере, два различных звуковых объекта являются управляемыми независимо друг от друга; манипулятор объекта для управления, основанного на объектно-ориентированных звуковых метаданных, относящихся, по крайней мере, к одному звуковому объекту, сигналом звукового объекта, по крайней мере, одного звукового объекта или микшированным сигналом звукового объекта, полученного от по крайней мере, одного звукового объекта, позволяющий получить управляемый сигнал звукового объекта, по крайней мере, для одного звукового объекта; и микшер объекта для микширования объектного представления посредством комбинирования управляемого звукового объекта с неизмененным звуковым объектом или с другим управляемым звуковым объектом, которым управляют иначе, чем, по крайней мере, одним звуковым объектом, в котором процессор приспособлен, чтобы получить входной сигнал, входной сигнал является микшированным с понижением представлением множества оригинальных звуковых объектов, в котором процессор приспособлен, чтобы получить параметры звукового объекта для управления алгоритмом реконструкции для реконструкции приближенного представления оригинальных звуковых объектов, и в котором процессор приспособлен, чтобы управлять алгоритмом реконструкции, используя входной сигнал и параметры звукового объекта, чтобы получить объектное представление, включающее сигналы звукового объекта, являющиеся приближением сигналов звукового объекта оригинальных звуковых объектов.
7. Устройство для генерирования по п.3, в котором входной звуковой сигнал включает в качестве дополнительной информации параметры звукового объекта и в котором процессор приспособлен для извлечения дополнительной информации из входного звукового сигнала.
8. Устройство для генерирования, по крайней мере, одного звукового выходного сигнала, представляющего наложение, по крайней мере, двух различных звуковых объектов, включающее процессор для обработки звукового входного сигнала, позволяющий обеспечить объектное представление звукового входного сигнала, в котором, по крайней мере, два различных звуковых объекта отделены друг от друга, по крайней мере, два различных звуковых объекта доступны в качестве отдельных сигналов звуковых объектов и, по крайней мере, два различных звуковых объекта являются управляемыми независимо друг от друга; манипулятор объекта для управления, основанного на объектно-ориентированных звуковых метаданных, относящихся, по крайней мере, к одному звуковому объекту, сигналом звукового объекта, по крайней мере, одного звукового объекта или микшированным сигналом звукового объекта, полученного от, по крайней мере, одного звукового объекта, позволяющим получить управляемый сигнал звукового объекта, и микшер объекта для микширования объектного представления посредством комбинирования управляемого сигнала звукового объекта с неизмененным звуковым объектом или с другим управляемым звуковым объектом, которым управляют иначе, чем, по крайней мере, одним звуковым объектом, и в котором микшер объекта приспособлен, чтобы применять правило понижающего микширования к каждому объекту, основанному на позиции рендеринга для объекта и установки воспроизведения для получения сигнала компонентов объекта для каждого выходного звукового сигнала, и где микшер объекта приспособлен, чтобы добавить сигналы компонентов объекта от других объектов к тому же самому выходному каналу, чтобы получить выходной звуковой сигнал для выходного канала.
9. Устройство для генерирования, по крайней мере, одного звукового выходного сигнала, представляющего наложение, по крайней мере, двух различных звуковых объектов, включающее процессор для обработки звукового входного сигнала, позволяющий обеспечить объектное представление звукового входного сигнала, в котором, по крайней мере, два различных звуковых объекта отделены друг от друга, по крайней мере, два различных звуковых объекта доступны в качестве отдельных сигналов звуковых объектов и, по крайней мере, два различных звуковых объекта являются управляемыми независимо друг от друга; манипулятор объекта для управления, основанного на объектно-ориентированных звуковых метаданных, относящихся, по крайней мере, к одному звуковому объекту, сигналом звукового объекта, по крайней мере, одного звукового объекта или микшированным сигналом звукового объекта, полученного от, по крайней мере, одного звукового объекта, позволяющим получить управляемый сигнал звукового объекта, по крайней мере, для одного звукового объекта; и микшер объекта для микширования объектного представления посредством комбинирования управляемого сигнала звукового объекта с неизмененным звуковым объектом или с другим управляемым звуковым объектом, которым управляют иначе, чем, по крайней мере, одним звуковым объектом, в котором параметры объекта включают, для множества временных частей сигнала звукового объекта, параметры для каждого диапазона множества частотных диапазонов в соответствующей временной части, и где метаданные включают только нечастотную селективную информацию для звукового объекта.
10. Способ генерирования, по крайней мере, одного выходного звукового сигнала, представляющего наложение, по крайней мере, двух различных звуковых объектов, включающий обработку входного звукового сигнала для обеспечения объектного представления входного звукового сигнала, в котором, по крайней мере, два различных звуковых объекта отделены друг от друга, по крайней мере, два различных звуковых объекта доступны как отдельные сигналы звукового объекта и, по крайней мере, два различных звуковых объекта являются управляемыми независимо друг от друга; управление, основанное на объектно-ориентированных звуковых метаданных, относящихся, по крайней мере, к одному звуковому объекту, или микшированным сигналом звукового объекта, полученным от, по крайней мере, одного звукового объекта, чтобы получить управляемый сигнал звукового объекта или управляемый микшированный сигнал звукового объекта, по крайней мере, для одного звукового объекта; и микширование объектного представления посредством комбинирования управляемого звукового объекта с неизмененным звуковым объектом или с управляемым другим звуковым объектом, который управляется иным способом, чем, по крайней мере, один звуковой объект, в котором способ обеспечивает генерирование m выходных сигналов, m является целым числом, больше 1, обработка обеспечивает объектное представление, имеющее k звуковых объектов, k является целым числом, большим m, где, по крайней мере, два объекта управляются отличающимися друг от друга, основанными на метаданных, связанных, по крайней мере, с одним объектом из, по крайней мере, двух объектов, микширование объекта для объединения управляемых звуковых сигналов, по крайней мере, двух различных объектов, чтобы получить m выходных сигналов так, чтобы каждый выходной сигнал находился под влиянием управляемых звуковых сигналов, по крайней мере, двух различных объектов.
11. Способ генерирования, по крайней мере, одного выходного звукового сигнала, представляющего наложение, по крайней мере, двух различных звуковых объектов, включающий обработку входного звукового сигнала для обеспечения объектного представления входного звукового сигнала, в котором, по крайней мере, два различных звуковых объекта отделены друг от друга, по крайней мере, два различных звуковых объекта доступны как отдельные сигналы звукового объекта и, по крайней мере, два различных звуковых объекта являются управляемыми независимо друг от друга; управление, основанное на объектно-ориентированных звуковых метаданных, относящихся, по крайней мере, к одному звуковому объекту, сигналом, по крайней мере, одного звукового объекта или микшированным сигналом звукового объекта, полученным от, по крайней мере, одного звукового объекта, позволяющим получить управляемый сигнал звукового объекта, по крайней мере, для одного звукового объекта; и микширование объектного представления посредством комбинирования управляемого сигнала звукового объекта с неизмененным звуковым объектом или с другим управляемым звуковым объектом, которым управляют иначе, чем, по крайней мере, одним звуковым объектом, в котором параметры звукового объекта для управления алгоритмом реконструкции для реконструкции приближенного представления оригинальных звуковых объектов и в котором алгоритм реконструкции использует входной сигнал и параметры звукового объекта, чтобы получить объектное представление, включающее сигналы звукового объекта, являющиеся приближением сигналов звукового объекта оригинальных звуковых объектов.
12. Способ генерирования, по крайней мере, одного выходного звукового сигнала, представляющего наложение, по крайней мере, двух различных звуковых объектов, включающий обработку входного звукового сигнала для обеспечения объектного представления входного звукового сигнала, в котором, по крайней мере, два различных звуковых объекта отделены друг от друга, по крайней мере, два различных звуковых объекта доступны как отдельные сигналы звукового объекта и, по крайней мере, два различных звуковых объекта являются управляемыми независимо друг от друга; микширование объектного представления посредством комбинирования управляемого сигнала звукового объекта с неизмененным звуковым объектом или с другим управляемым звуковым объектом, которым управляют иначе, чем, по крайней мере, одним звуковым объектом, где правило понижающего микширования к каждому применяется к объекту, основанному на позиции рендеринга для объекта и установки воспроизведения для получения сигнала компонентов объекта для каждого выходного звукового сигнала, где сигналы компонентов объекта от других объектов к тому же самому выходному каналу добавляют, чтобы получить выходной звуковой сигнал для выходного канала.
13. Способ генерирования, по крайней мере, одного выходного звукового сигнала, представляющего наложение, по крайней мере, двух различных звуковых объектов, включающий обработку входного звукового сигнала для обеспечения объектного представления входного звукового сигнала, в котором, по крайней мере, два различных звуковых объекта отделены друг от друга, по крайней мере, два различных звуковых объекта доступны как отдельные сигналы звукового объекта, и, по крайней мере, два различных звуковых объекта являются управляемыми независимо друг от друга; и микширование объектного представления посредством комбинирования управляемого сигнала звукового объекта с неизмененным звуковым объектом или с другим управляемым звуковым объектом, которым управляют иначе, чем, по крайней мере, одним звуковым объектом.
14. Машиночитаемый носитель информации с записанной на него компьютерной программой для реализации, будучи выполненной на компьютере, способа генерирования, по крайней мере, одного выходного звукового сигнала по пп.10, 11, 12, 13.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP08012939.8 | 2008-07-17 | ||
EP08012939 | 2008-07-17 | ||
EP08017734A EP2146522A1 (en) | 2008-07-17 | 2008-10-09 | Apparatus and method for generating audio output signals using object based metadata |
EP08017734.8 | 2008-10-09 | ||
PCT/EP2009/004882 WO2010006719A1 (en) | 2008-07-17 | 2009-07-06 | Apparatus and method for generating audio output signals using object based metadata |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2013127404/08A Division RU2604342C2 (ru) | 2008-07-17 | 2009-07-06 | Устройство и способ генерирования выходных звуковых сигналов посредством использования объектно-ориентированных метаданных |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2010150046A RU2010150046A (ru) | 2012-06-20 |
RU2510906C2 true RU2510906C2 (ru) | 2014-04-10 |
Family
ID=41172321
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2010150046/08A RU2510906C2 (ru) | 2008-07-17 | 2009-07-06 | Устройство и способ генерирования выходных звуковых сигналов посредством использования объектно-ориентированных метаданных |
RU2013127404/08A RU2604342C2 (ru) | 2008-07-17 | 2009-07-06 | Устройство и способ генерирования выходных звуковых сигналов посредством использования объектно-ориентированных метаданных |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2013127404/08A RU2604342C2 (ru) | 2008-07-17 | 2009-07-06 | Устройство и способ генерирования выходных звуковых сигналов посредством использования объектно-ориентированных метаданных |
Country Status (16)
Country | Link |
---|---|
US (2) | US8315396B2 (ru) |
EP (2) | EP2146522A1 (ru) |
JP (1) | JP5467105B2 (ru) |
KR (2) | KR101325402B1 (ru) |
CN (2) | CN102100088B (ru) |
AR (2) | AR072702A1 (ru) |
AU (1) | AU2009270526B2 (ru) |
BR (1) | BRPI0910375B1 (ru) |
CA (1) | CA2725793C (ru) |
ES (1) | ES2453074T3 (ru) |
HK (2) | HK1155884A1 (ru) |
MX (1) | MX2010012087A (ru) |
PL (1) | PL2297978T3 (ru) |
RU (2) | RU2510906C2 (ru) |
TW (2) | TWI442789B (ru) |
WO (1) | WO2010006719A1 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2698775C1 (ru) * | 2014-04-11 | 2019-08-29 | Самсунг Электроникс Ко., Лтд. | Способ и устройство для рендеринга звукового сигнала и компьютерно-читаемый носитель информации |
Families Citing this family (136)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2581810C (en) | 2004-10-26 | 2013-12-17 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
WO2009050896A1 (ja) * | 2007-10-16 | 2009-04-23 | Panasonic Corporation | ストリーム合成装置、復号装置、方法 |
US8315396B2 (en) | 2008-07-17 | 2012-11-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating audio output signals using object based metadata |
US7928307B2 (en) * | 2008-11-03 | 2011-04-19 | Qnx Software Systems Co. | Karaoke system |
US9179235B2 (en) * | 2008-11-07 | 2015-11-03 | Adobe Systems Incorporated | Meta-parameter control for digital audio data |
KR20100071314A (ko) * | 2008-12-19 | 2010-06-29 | 삼성전자주식회사 | 영상처리장치 및 영상처리장치의 제어 방법 |
US8255821B2 (en) * | 2009-01-28 | 2012-08-28 | Lg Electronics Inc. | Method and an apparatus for decoding an audio signal |
KR101040086B1 (ko) * | 2009-05-20 | 2011-06-09 | 전자부품연구원 | 오디오 생성방법, 오디오 생성장치, 오디오 재생방법 및 오디오 재생장치 |
US9393412B2 (en) * | 2009-06-17 | 2016-07-19 | Med-El Elektromedizinische Geraete Gmbh | Multi-channel object-oriented audio bitstream processor for cochlear implants |
US20100324915A1 (en) * | 2009-06-23 | 2010-12-23 | Electronic And Telecommunications Research Institute | Encoding and decoding apparatuses for high quality multi-channel audio codec |
AU2010321013B2 (en) * | 2009-11-20 | 2014-05-29 | Dolby International Ab | Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter |
US8983829B2 (en) | 2010-04-12 | 2015-03-17 | Smule, Inc. | Coordinating and mixing vocals captured from geographically distributed performers |
US9147385B2 (en) | 2009-12-15 | 2015-09-29 | Smule, Inc. | Continuous score-coded pitch correction |
TWI529703B (zh) | 2010-02-11 | 2016-04-11 | 杜比實驗室特許公司 | 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法 |
US9601127B2 (en) | 2010-04-12 | 2017-03-21 | Smule, Inc. | Social music system and method with continuous, real-time pitch correction of vocal performance and dry vocal capture for subsequent re-rendering based on selectively applicable vocal effect(s) schedule(s) |
US10930256B2 (en) | 2010-04-12 | 2021-02-23 | Smule, Inc. | Social music system and method with continuous, real-time pitch correction of vocal performance and dry vocal capture for subsequent re-rendering based on selectively applicable vocal effect(s) schedule(s) |
US8848054B2 (en) * | 2010-07-29 | 2014-09-30 | Crestron Electronics Inc. | Presentation capture with automatically configurable output |
US8908874B2 (en) * | 2010-09-08 | 2014-12-09 | Dts, Inc. | Spatial audio encoding and reproduction |
EP2619904B1 (en) * | 2010-09-22 | 2014-07-30 | Dolby Laboratories Licensing Corporation | Audio stream mixing with dialog level normalization |
CN103119650B (zh) * | 2010-10-20 | 2014-11-12 | 松下电器(美国)知识产权公司 | 编码装置和编码方法 |
US20120148075A1 (en) * | 2010-12-08 | 2012-06-14 | Creative Technology Ltd | Method for optimizing reproduction of audio signals from an apparatus for audio reproduction |
US9075806B2 (en) | 2011-02-22 | 2015-07-07 | Dolby Laboratories Licensing Corporation | Alignment and re-association of metadata for media streams within a computing device |
TWI573131B (zh) | 2011-03-16 | 2017-03-01 | Dts股份有限公司 | 用以編碼或解碼音訊聲軌之方法、音訊編碼處理器及音訊解碼處理器 |
CN103443854B (zh) | 2011-04-08 | 2016-06-08 | 杜比实验室特许公司 | 用于混合来自两个编码位流的音频节目的元数据的自动配置 |
EP2727383B1 (en) | 2011-07-01 | 2021-04-28 | Dolby Laboratories Licensing Corporation | System and method for adaptive audio signal generation, coding and rendering |
EP2560161A1 (en) | 2011-08-17 | 2013-02-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Optimal mixing matrices and usage of decorrelators in spatial audio processing |
US20130065213A1 (en) * | 2011-09-13 | 2013-03-14 | Harman International Industries, Incorporated | System and method for adapting audio content for karaoke presentations |
CN103050124B (zh) | 2011-10-13 | 2016-03-30 | 华为终端有限公司 | 混音方法、装置及系统 |
US9286942B1 (en) * | 2011-11-28 | 2016-03-15 | Codentity, Llc | Automatic calculation of digital media content durations optimized for overlapping or adjoined transitions |
CN103325380B (zh) | 2012-03-23 | 2017-09-12 | 杜比实验室特许公司 | 用于信号增强的增益后处理 |
JP5973058B2 (ja) | 2012-05-07 | 2016-08-23 | ドルビー・インターナショナル・アーベー | レイアウト及びフォーマットに依存しない3dオーディオ再生のための方法及び装置 |
US10844689B1 (en) | 2019-12-19 | 2020-11-24 | Saudi Arabian Oil Company | Downhole ultrasonic actuator system for mitigating lost circulation |
CN104303229B (zh) | 2012-05-18 | 2017-09-12 | 杜比实验室特许公司 | 用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统 |
EP2862370B1 (en) | 2012-06-19 | 2017-08-30 | Dolby Laboratories Licensing Corporation | Rendering and playback of spatial audio using channel-based audio systems |
US9190065B2 (en) | 2012-07-15 | 2015-11-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients |
US9479886B2 (en) | 2012-07-20 | 2016-10-25 | Qualcomm Incorporated | Scalable downmix design with feedback for object-based surround codec |
US9761229B2 (en) | 2012-07-20 | 2017-09-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for audio object clustering |
JP6186435B2 (ja) * | 2012-08-07 | 2017-08-23 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ゲームオーディオコンテンツを示すオブジェクトベースオーディオの符号化及びレンダリング |
US9489954B2 (en) | 2012-08-07 | 2016-11-08 | Dolby Laboratories Licensing Corporation | Encoding and rendering of object based audio indicative of game audio content |
KR102246623B1 (ko) * | 2012-08-07 | 2021-04-29 | 스뮬, 인코포레이티드 | 선택적으로 적용가능한 보컬 효과 스케줄에 기초한 후속적 리렌더링을 위한 보컬 연주 및 드라이 보컬 캡쳐의 연속적인 실시간 피치 보정에 의한 소셜 음악 시스템 및 방법 |
EP2883226B1 (en) * | 2012-08-10 | 2016-08-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and methods for adapting audio information in spatial audio object coding |
CN104604256B (zh) | 2012-08-31 | 2017-09-15 | 杜比实验室特许公司 | 基于对象的音频的反射声渲染 |
EP2891149A1 (en) | 2012-08-31 | 2015-07-08 | Dolby Laboratories Licensing Corporation | Processing audio objects in principal and supplementary encoded audio signals |
EP2891338B1 (en) | 2012-08-31 | 2017-10-25 | Dolby Laboratories Licensing Corporation | System for rendering and playback of object based audio in various listening environments |
BR122021021503B1 (pt) | 2012-09-12 | 2023-04-11 | Fraunhofer - Gesellschaft Zur Forderung Der Angewandten Forschung E.V. | Aparelho e método para fornecer capacidades melhoradas de downmix guiado para áudio 3d |
MX347921B (es) | 2012-10-05 | 2017-05-17 | Fraunhofer Ges Forschung | Un aparato para la codificacion de una señal de voz que emplea prediccion lineal excitada por codigos algebraico en el dominio de autocorrelacion. |
WO2014058835A1 (en) * | 2012-10-08 | 2014-04-17 | Stc.Unm | System and methods for simulating real-time multisensory output |
US9064318B2 (en) | 2012-10-25 | 2015-06-23 | Adobe Systems Incorporated | Image matting and alpha value techniques |
US10638221B2 (en) | 2012-11-13 | 2020-04-28 | Adobe Inc. | Time interval sound alignment |
US9355649B2 (en) * | 2012-11-13 | 2016-05-31 | Adobe Systems Incorporated | Sound alignment using timing information |
US9201580B2 (en) | 2012-11-13 | 2015-12-01 | Adobe Systems Incorporated | Sound alignment user interface |
US9076205B2 (en) | 2012-11-19 | 2015-07-07 | Adobe Systems Incorporated | Edge direction and curve based image de-blurring |
US10249321B2 (en) | 2012-11-20 | 2019-04-02 | Adobe Inc. | Sound rate modification |
US9451304B2 (en) | 2012-11-29 | 2016-09-20 | Adobe Systems Incorporated | Sound feature priority alignment |
US9135710B2 (en) | 2012-11-30 | 2015-09-15 | Adobe Systems Incorporated | Depth map stereo correspondence techniques |
US10455219B2 (en) | 2012-11-30 | 2019-10-22 | Adobe Inc. | Stereo correspondence and depth sensors |
CA2893729C (en) | 2012-12-04 | 2019-03-12 | Samsung Electronics Co., Ltd. | Audio providing apparatus and audio providing method |
WO2014090277A1 (en) | 2012-12-10 | 2014-06-19 | Nokia Corporation | Spatial audio apparatus |
US9208547B2 (en) | 2012-12-19 | 2015-12-08 | Adobe Systems Incorporated | Stereo correspondence smoothness tool |
US10249052B2 (en) | 2012-12-19 | 2019-04-02 | Adobe Systems Incorporated | Stereo correspondence model fitting |
US9214026B2 (en) | 2012-12-20 | 2015-12-15 | Adobe Systems Incorporated | Belief propagation and affinity measures |
US9805725B2 (en) | 2012-12-21 | 2017-10-31 | Dolby Laboratories Licensing Corporation | Object clustering for rendering object-based audio content based on perceptual criteria |
KR102071860B1 (ko) | 2013-01-21 | 2020-01-31 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 상이한 재생 디바이스들에 걸친 라우드니스 및 동적 범위의 최적화 |
TR201802631T4 (tr) | 2013-01-21 | 2018-03-21 | Dolby Laboratories Licensing Corp | Program Ses Şiddeti ve Sınır Meta Verilere Sahip Sesli Enkoder ve Dekoder |
CN116665683A (zh) | 2013-02-21 | 2023-08-29 | 杜比国际公司 | 用于参数化多声道编码的方法 |
US9398390B2 (en) | 2013-03-13 | 2016-07-19 | Beatport, LLC | DJ stem systems and methods |
CN104080024B (zh) | 2013-03-26 | 2019-02-19 | 杜比实验室特许公司 | 音量校平器控制器和控制方法以及音频分类器 |
KR102332632B1 (ko) * | 2013-03-28 | 2021-12-02 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 임의적 라우드스피커 배치들로의 겉보기 크기를 갖는 오디오 오브젝트들의 렌더링 |
US9559651B2 (en) | 2013-03-29 | 2017-01-31 | Apple Inc. | Metadata for loudness and dynamic range control |
US9607624B2 (en) * | 2013-03-29 | 2017-03-28 | Apple Inc. | Metadata driven dynamic range control |
TWI530941B (zh) * | 2013-04-03 | 2016-04-21 | 杜比實驗室特許公司 | 用於基於物件音頻之互動成像的方法與系統 |
CN110083714B (zh) | 2013-04-05 | 2024-02-13 | 杜比实验室特许公司 | 用于自动文件检测的对来自基于文件的媒体的特有信息的获取、恢复和匹配 |
CN105144751A (zh) * | 2013-04-15 | 2015-12-09 | 英迪股份有限公司 | 用于产生虚拟对象的音频信号处理方法 |
WO2014171791A1 (ko) * | 2013-04-19 | 2014-10-23 | 한국전자통신연구원 | 다채널 오디오 신호 처리 장치 및 방법 |
EP2973551B1 (en) | 2013-05-24 | 2017-05-03 | Dolby International AB | Reconstruction of audio scenes from a downmix |
JP6248186B2 (ja) | 2013-05-24 | 2017-12-13 | ドルビー・インターナショナル・アーベー | オーディオ・エンコードおよびデコード方法、対応するコンピュータ可読媒体ならびに対応するオーディオ・エンコーダおよびデコーダ |
EP3005353B1 (en) * | 2013-05-24 | 2017-08-16 | Dolby International AB | Efficient coding of audio scenes comprising audio objects |
CA3211308A1 (en) | 2013-05-24 | 2014-11-27 | Dolby International Ab | Coding of audio scenes |
CN104240711B (zh) * | 2013-06-18 | 2019-10-11 | 杜比实验室特许公司 | 用于生成自适应音频内容的方法、系统和装置 |
TWM487509U (zh) | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
EP2830050A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for enhanced spatial audio object coding |
EP2830335A3 (en) | 2013-07-22 | 2015-02-25 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus, method, and computer program for mapping first and second input channels to at least one output channel |
EP2830045A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Concept for audio encoding and decoding for audio channels and audio objects |
EP2830049A1 (en) * | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for efficient object metadata coding |
KR102327504B1 (ko) * | 2013-07-31 | 2021-11-17 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 공간적으로 분산된 또는 큰 오디오 오브젝트들의 프로세싱 |
DE102013218176A1 (de) * | 2013-09-11 | 2015-03-12 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und verfahren zur dekorrelation von lautsprechersignalen |
US10095468B2 (en) | 2013-09-12 | 2018-10-09 | Dolby Laboratories Licensing Corporation | Dynamic range control for a wide variety of playback environments |
CN105531759B (zh) | 2013-09-12 | 2019-11-26 | 杜比实验室特许公司 | 用于下混合音频内容的响度调整 |
US10049683B2 (en) | 2013-10-21 | 2018-08-14 | Dolby International Ab | Audio encoder and decoder |
SG11201603116XA (en) | 2013-10-22 | 2016-05-30 | Fraunhofer Ges Forschung | Concept for combined dynamic range compression and guided clipping prevention for audio devices |
ES2755349T3 (es) | 2013-10-31 | 2020-04-22 | Dolby Laboratories Licensing Corp | Renderización binaural para auriculares utilizando procesamiento de metadatos |
EP2879131A1 (en) * | 2013-11-27 | 2015-06-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Decoder, encoder and method for informed loudness estimation in object-based audio coding systems |
EP3075173B1 (en) * | 2013-11-28 | 2019-12-11 | Dolby Laboratories Licensing Corporation | Position-based gain adjustment of object-based audio and ring-based channel audio |
CN104882145B (zh) * | 2014-02-28 | 2019-10-29 | 杜比实验室特许公司 | 使用音频对象的时间变化的音频对象聚类 |
US9779739B2 (en) | 2014-03-20 | 2017-10-03 | Dts, Inc. | Residual encoding in an object-based audio system |
CN110808723B (zh) | 2014-05-26 | 2024-09-17 | 杜比实验室特许公司 | 音频信号响度控制 |
WO2015180866A1 (en) * | 2014-05-28 | 2015-12-03 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Data processor and transport of user control data to audio decoders and renderers |
EP3151240B1 (en) * | 2014-05-30 | 2022-12-21 | Sony Group Corporation | Information processing device and information processing method |
EP3175446B1 (en) * | 2014-07-31 | 2019-06-19 | Dolby Laboratories Licensing Corporation | Audio processing systems and methods |
KR20220066996A (ko) * | 2014-10-01 | 2022-05-24 | 돌비 인터네셔널 에이비 | 오디오 인코더 및 디코더 |
MX364166B (es) * | 2014-10-02 | 2019-04-15 | Dolby Int Ab | Método de decodificación y decodificador para mejora del diálogo. |
JP6812517B2 (ja) * | 2014-10-03 | 2021-01-13 | ドルビー・インターナショナル・アーベー | パーソナル化されたオーディオへのスマート・アクセス |
CN106796809B (zh) * | 2014-10-03 | 2019-08-09 | 杜比国际公司 | 个性化音频的智能访问 |
CN112185401B (zh) | 2014-10-10 | 2024-07-02 | 杜比实验室特许公司 | 基于发送无关的表示的节目响度 |
CN105895086B (zh) | 2014-12-11 | 2021-01-12 | 杜比实验室特许公司 | 元数据保留的音频对象聚类 |
US10136240B2 (en) | 2015-04-20 | 2018-11-20 | Dolby Laboratories Licensing Corporation | Processing audio data to compensate for partial hearing loss or an adverse hearing environment |
US10257636B2 (en) | 2015-04-21 | 2019-04-09 | Dolby Laboratories Licensing Corporation | Spatial audio signal manipulation |
CN104936090B (zh) * | 2015-05-04 | 2018-12-14 | 联想(北京)有限公司 | 一种音频数据的处理方法和音频处理器 |
CN106303897A (zh) | 2015-06-01 | 2017-01-04 | 杜比实验室特许公司 | 处理基于对象的音频信号 |
KR102122004B1 (ko) | 2015-06-17 | 2020-06-26 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 코딩 시스템들에서 사용자 상호 작용을 위한 음량 제어 |
CA3149389A1 (en) * | 2015-06-17 | 2016-12-22 | Sony Corporation | Transmitting device, transmitting method, receiving device, and receiving method |
US9837086B2 (en) * | 2015-07-31 | 2017-12-05 | Apple Inc. | Encoded audio extended metadata-based dynamic range control |
US9934790B2 (en) * | 2015-07-31 | 2018-04-03 | Apple Inc. | Encoded audio metadata-based equalization |
US10693936B2 (en) | 2015-08-25 | 2020-06-23 | Qualcomm Incorporated | Transporting coded audio data |
WO2017035281A2 (en) | 2015-08-25 | 2017-03-02 | Dolby International Ab | Audio encoding and decoding using presentation transform parameters |
US10277581B2 (en) * | 2015-09-08 | 2019-04-30 | Oath, Inc. | Audio verification |
WO2017132082A1 (en) | 2016-01-27 | 2017-08-03 | Dolby Laboratories Licensing Corporation | Acoustic environment simulation |
CN112218229B (zh) | 2016-01-29 | 2022-04-01 | 杜比实验室特许公司 | 用于音频信号处理的系统、方法和计算机可读介质 |
US10863297B2 (en) | 2016-06-01 | 2020-12-08 | Dolby International Ab | Method converting multichannel audio content into object-based audio content and a method for processing audio content having a spatial position |
US10349196B2 (en) | 2016-10-03 | 2019-07-09 | Nokia Technologies Oy | Method of editing audio signals using separated objects and associated apparatus |
CN113242508B (zh) | 2017-03-06 | 2022-12-06 | 杜比国际公司 | 基于音频数据流渲染音频输出的方法、解码器系统和介质 |
GB2561595A (en) * | 2017-04-20 | 2018-10-24 | Nokia Technologies Oy | Ambience generation for spatial audio mixing featuring use of original and extended signal |
GB2563606A (en) | 2017-06-20 | 2018-12-26 | Nokia Technologies Oy | Spatial audio processing |
CN110998724B (zh) | 2017-08-01 | 2021-05-21 | 杜比实验室特许公司 | 基于位置元数据的音频对象分类 |
WO2020030304A1 (en) * | 2018-08-09 | 2020-02-13 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | An audio processor and a method considering acoustic obstacles and providing loudspeaker signals |
GB2577885A (en) | 2018-10-08 | 2020-04-15 | Nokia Technologies Oy | Spatial audio augmentation and reproduction |
EP3987825B1 (en) * | 2019-06-20 | 2024-07-24 | Dolby Laboratories Licensing Corporation | Rendering of an m-channel input on s speakers (s<m) |
US11545166B2 (en) | 2019-07-02 | 2023-01-03 | Dolby International Ab | Using metadata to aggregate signal processing operations |
US20230010466A1 (en) * | 2019-12-09 | 2023-01-12 | Dolby Laboratories Licensing Corporation | Adjusting audio and non-audio features based on noise metrics and speech intelligibility metrics |
EP3843428A1 (en) * | 2019-12-23 | 2021-06-30 | Dolby Laboratories Licensing Corp. | Inter-channel audio feature measurement and display on graphical user interface |
US11269589B2 (en) | 2019-12-23 | 2022-03-08 | Dolby Laboratories Licensing Corporation | Inter-channel audio feature measurement and usages |
US20210105451A1 (en) * | 2019-12-23 | 2021-04-08 | Intel Corporation | Scene construction using object-based immersive media |
CN111462767B (zh) * | 2020-04-10 | 2024-01-09 | 全景声科技南京有限公司 | 音频信号的增量编码方法及装置 |
CN112165648B (zh) * | 2020-10-19 | 2022-02-01 | 腾讯科技(深圳)有限公司 | 一种音频播放的方法、相关装置、设备及存储介质 |
US11521623B2 (en) | 2021-01-11 | 2022-12-06 | Bank Of America Corporation | System and method for single-speaker identification in a multi-speaker environment on a low-frequency audio recording |
GB2605190A (en) * | 2021-03-26 | 2022-09-28 | Nokia Technologies Oy | Interactive audio rendering of a spatial stream |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5479564A (en) * | 1991-08-09 | 1995-12-26 | U.S. Philips Corporation | Method and apparatus for manipulating pitch and/or duration of a signal |
WO2006089570A1 (en) * | 2005-02-22 | 2006-08-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
RU2006139082A (ru) * | 2004-04-05 | 2008-05-20 | Конинклейке Филипс Электроникс Н.В. (Nl) | Многоканальный кодер |
WO2008069593A1 (en) * | 2006-12-07 | 2008-06-12 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW510143B (en) * | 1999-12-03 | 2002-11-11 | Dolby Lab Licensing Corp | Method for deriving at least three audio signals from two input audio signals |
JP2001298680A (ja) * | 2000-04-17 | 2001-10-26 | Matsushita Electric Ind Co Ltd | ディジタル放送用信号の仕様およびその受信装置 |
JP2003066994A (ja) * | 2001-08-27 | 2003-03-05 | Canon Inc | データ復号装置及びデータ復号方法、並びにプログラム、記憶媒体 |
WO2007109338A1 (en) | 2006-03-21 | 2007-09-27 | Dolby Laboratories Licensing Corporation | Low bit rate audio encoding and decoding |
KR101251426B1 (ko) * | 2005-06-03 | 2013-04-05 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 디코딩 명령으로 오디오 신호를 인코딩하기 위한 장치 및방법 |
US8082157B2 (en) * | 2005-06-30 | 2011-12-20 | Lg Electronics Inc. | Apparatus for encoding and decoding audio signal and method thereof |
WO2007080211A1 (en) * | 2006-01-09 | 2007-07-19 | Nokia Corporation | Decoding of binaural audio signals |
US20080080722A1 (en) * | 2006-09-29 | 2008-04-03 | Carroll Tim J | Loudness controller with remote and local control |
EP2084901B1 (en) * | 2006-10-12 | 2015-12-09 | LG Electronics Inc. | Apparatus for processing a mix signal and method thereof |
DE602007013415D1 (de) * | 2006-10-16 | 2011-05-05 | Dolby Sweden Ab | Erweiterte codierung und parameterrepräsentation einer mehrkanaligen heruntergemischten objektcodierung |
WO2008046530A2 (en) | 2006-10-16 | 2008-04-24 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for multi -channel parameter transformation |
WO2008060111A1 (en) | 2006-11-15 | 2008-05-22 | Lg Electronics Inc. | A method and an apparatus for decoding an audio signal |
CA2645915C (en) * | 2007-02-14 | 2012-10-23 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
ES2452348T3 (es) * | 2007-04-26 | 2014-04-01 | Dolby International Ab | Aparato y procedimiento para sintetizar una señal de salida |
WO2009039897A1 (en) * | 2007-09-26 | 2009-04-02 | Fraunhofer - Gesellschaft Zur Förderung Der Angewandten Forschung E.V. | Apparatus and method for extracting an ambient signal in an apparatus and method for obtaining weighting coefficients for extracting an ambient signal and computer program |
US8315396B2 (en) | 2008-07-17 | 2012-11-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for generating audio output signals using object based metadata |
-
2008
- 2008-10-09 US US12/248,319 patent/US8315396B2/en active Active
- 2008-10-09 EP EP08017734A patent/EP2146522A1/en not_active Withdrawn
-
2009
- 2009-07-06 MX MX2010012087A patent/MX2010012087A/es active IP Right Grant
- 2009-07-06 PL PL09776987T patent/PL2297978T3/pl unknown
- 2009-07-06 WO PCT/EP2009/004882 patent/WO2010006719A1/en active Application Filing
- 2009-07-06 RU RU2010150046/08A patent/RU2510906C2/ru active
- 2009-07-06 CN CN2009801279353A patent/CN102100088B/zh active Active
- 2009-07-06 CA CA2725793A patent/CA2725793C/en active Active
- 2009-07-06 BR BRPI0910375-9A patent/BRPI0910375B1/pt active IP Right Grant
- 2009-07-06 RU RU2013127404/08A patent/RU2604342C2/ru active
- 2009-07-06 EP EP09776987.1A patent/EP2297978B1/en active Active
- 2009-07-06 CN CN201310228584.3A patent/CN103354630B/zh active Active
- 2009-07-06 KR KR1020127026868A patent/KR101325402B1/ko active IP Right Grant
- 2009-07-06 AU AU2009270526A patent/AU2009270526B2/en active Active
- 2009-07-06 ES ES09776987.1T patent/ES2453074T3/es active Active
- 2009-07-06 KR KR1020107029416A patent/KR101283771B1/ko active IP Right Grant
- 2009-07-06 JP JP2011517781A patent/JP5467105B2/ja active Active
- 2009-07-07 AR ARP090102543A patent/AR072702A1/es active IP Right Grant
- 2009-07-13 TW TW098123593A patent/TWI442789B/zh active
- 2009-07-13 TW TW102137312A patent/TWI549527B/zh active
-
2011
- 2011-09-20 HK HK11109920.3A patent/HK1155884A1/xx unknown
-
2012
- 2012-08-15 US US13/585,875 patent/US8824688B2/en active Active
-
2014
- 2014-01-27 AR ARP140100240A patent/AR094591A2/es active IP Right Grant
- 2014-04-16 HK HK14103638.6A patent/HK1190554A1/zh unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5479564A (en) * | 1991-08-09 | 1995-12-26 | U.S. Philips Corporation | Method and apparatus for manipulating pitch and/or duration of a signal |
RU2006139082A (ru) * | 2004-04-05 | 2008-05-20 | Конинклейке Филипс Электроникс Н.В. (Nl) | Многоканальный кодер |
WO2006089570A1 (en) * | 2005-02-22 | 2006-08-31 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
WO2008069593A1 (en) * | 2006-12-07 | 2008-06-12 | Lg Electronics Inc. | A method and an apparatus for processing an audio signal |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2698775C1 (ru) * | 2014-04-11 | 2019-08-29 | Самсунг Электроникс Ко., Лтд. | Способ и устройство для рендеринга звукового сигнала и компьютерно-читаемый носитель информации |
US10674299B2 (en) | 2014-04-11 | 2020-06-02 | Samsung Electronics Co., Ltd. | Method and apparatus for rendering sound signal, and computer-readable recording medium |
US10873822B2 (en) | 2014-04-11 | 2020-12-22 | Samsung Electronics Co., Ltd. | Method and apparatus for rendering sound signal, and computer-readable recording medium |
US11245998B2 (en) | 2014-04-11 | 2022-02-08 | Samsung Electronics Co.. Ltd. | Method and apparatus for rendering sound signal, and computer-readable recording medium |
US11785407B2 (en) | 2014-04-11 | 2023-10-10 | Samsung Electronics Co., Ltd. | Method and apparatus for rendering sound signal, and computer-readable recording medium |
Also Published As
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2510906C2 (ru) | Устройство и способ генерирования выходных звуковых сигналов посредством использования объектно-ориентированных метаданных | |
TWI443647B (zh) | 用以將以物件為主之音訊信號編碼與解碼之方法與裝置 | |
Engdegard et al. | Spatial audio object coding (SAOC)—the upcoming MPEG standard on parametric object based audio coding | |
US8239209B2 (en) | Method and apparatus for decoding an audio signal using a rendering parameter | |
RU2558612C2 (ru) | Декодер аудиосигнала, способ декодирования аудиосигнала и компьютерная программа с использованием ступеней каскадной обработки аудиообъектов | |
JP5450085B2 (ja) | オーディオ処理方法及び装置 | |
JP2015509212A (ja) | 空間オーディオ・レンダリング及び符号化 | |
AU2013200578B2 (en) | Apparatus and method for generating audio output signals using object based metadata |