RU2407072C1

RU2407072C1 - Способы и устройства кодирования и декодирования объектно-ориентированных аудиосигналов

Info

Publication number: RU2407072C1
Application number: RU2009116256/09A
Authority: RU
Inventors: Сунг Йонг ЙООН (KR); Сунг Йонг ЙООН; Хее Сук ПАНГ (KR); Хее Сук ПАНГ; Хиун Коок ЛИ (KR); Хиун Коок ЛИ; Донг Соо КИМ (KR); Донг Соо КИМ; Дзае Хиун ЛИМ (KR); Дзае Хиун ЛИМ
Original assignee: ЭлДжи ЭЛЕКТРОНИКС ИНК.
Priority date: 2006-09-29
Filing date: 2007-10-01
Publication date: 2010-12-20
Also published as: RU2420026C2; RU2009116279A; RU2010141971A; RU2009116276A; RU2009116275A; RU2455708C2

Abstract

Изобретение относится к способам и устройствам кодирования и декодирования многоканального объектно-ориентированного аудиосигнала. Техническим результатом является создание способов и устройств кодирования и декодирования аудиосигналов, в которых звуковые образы будут локализованы в любой требуемой позиции для каждого объектного аудиосигнала. Указанный технический результат достигается тем, что в способе декодирования аудио формируют третий сигнал понижающего микширования посредством комбинирования первого сигнала понижающего микширования, извлеченного из первого аудиосигнала, и второго сигнала понижающего микширования, извлеченного из второго аудиосигнала, формируют третью объектно-ориентированную дополнительную информацию посредством комбинирования первой объектно-ориентированной дополнительной информации, извлеченной из первого аудиосигнала, и второй объектно-ориентированной дополнительной информации, извлеченной из второго аудиосигнала, преобразуют третью объектно-ориентированную дополнительную информацию в канально-ориентированную дополнительную информацию и с помощью третьего сигнала понижающего микширования и канально-ориентированной дополнительной информации формируют многоканальный аудиосигнал. 3 н. и 15 з.п. ф-лы, 20 ил.

Description

Область техники, к которой относится изобретение

Настоящее изобретение относится к способу и устройству кодирования аудио и способу и устройству декодирования аудио, в которых звуковые образы могут быть локализованы в любой требуемой позиции для каждого объектного аудиосигнала.

Уровень техники

В общем, в методиках кодирования и декодирования многоканального аудио число канальных сигналов в многоканальном сигнале микшируется с понижением до меньшего числа канальных сигналов, дополнительная информация, касающаяся исходных канальных сигналов, передается и многоканальный сигнал, имеющий столько же каналов, что и исходный многоканальный сигнал, восстанавливается.

Методики кодирования и декодирования объектно-ориентированного аудио, по сути, аналогичны методикам кодирования и декодирования многоканального аудио в отношении понижающего микширования нескольких источников звука в меньшее число сигналов источника звука и передачи дополнительной информации, касающейся исходных источников звука. Тем не менее, в методиках кодирования и декодирования объектно-ориентированного аудио объектные сигналы, которые являются базовыми сигналами (к примеру, звук музыкального инструмента или человеческий голос) канального сигнала, интерпретируются так же, как канальные сигналы в методиках кодирования и декодирования многоканального аудио, и тем самым могут быть кодированы.

Другими словами, в методиках кодирования и декодирования объектно-ориентированного аудио каждый объектный сигнал считается объектом, который должен быть кодирован. В этом смысле методики кодирования и декодирования объектно-ориентированного аудио отличаются от методик кодирования и декодирования многоканального аудио, в которых операция кодирования многоканального аудио выполняется просто на основе межканальной информации независимо от числа элементов канального сигнала, которые должны быть кодированы.

Сущность изобретения

Техническая задача

Настоящее изобретение предоставляет способ и устройство кодирования аудио и способ и устройство декодирования аудио, в которых аудиосигналы могут быть кодированы или декодированы так, что звуковые образы могут быть локализованы в любой требуемой позиции для каждого объектного аудиосигнала.

Техническое решение

Согласно аспекту настоящего изобретения предусмотрен способ декодирования аудио, включающий в себя формирование третьего сигнала понижающего микширования посредством комбинирования первого сигнала понижающего микширования, извлеченного из первого аудиосигнала, и второго сигнала понижающего микширования, извлеченного из второго аудиосигнала; формирование третьей объектно-ориентированной дополнительной информации посредством комбинирования первой объектно-ориентированной дополнительной информации, извлеченной из первого аудиосигнала, и второй объектно-ориентированной дополнительной информации, извлеченной из второго аудиосигнала; преобразование третьей объектно-ориентированной дополнительной информации в канально-ориентированную дополнительную информацию и формирование многоканального аудиосигнала с помощью третьего сигнала понижающего микширования и канально-ориентированной дополнительной информации.

Согласно другому аспекту настоящего изобретения предусмотрено устройство декодирования аудио, включающее в себя многоточечный управляющий сумматор, который генерирует третий сигнал понижающего микширования посредством комбинирования первого сигнала понижающего микширования, извлеченного из первого аудиосигнала, и второго сигнала понижающего микширования, извлеченного из второго аудиосигнала, и генерирует третью объектно-ориентированную дополнительную информацию посредством комбинирования первой объектно-ориентированной дополнительной информации, извлеченной из первого аудиосигнала, и второй объектно-ориентированной дополнительной информации, извлеченной из второго аудиосигнала; транскодер, который преобразует третью объектно-ориентированную дополнительную информацию в канально-ориентированную дополнительную информацию, и многоканальный декодер, который генерирует многоканальный аудиосигнал с помощью третьего сигнала понижающего микширования и канально-ориентированной дополнительной информации.

Согласно другому аспекту настоящего изобретения предусмотрен машиночитаемый носитель записи, имеющий записанный на нем способ декодирования аудио, включающий в себя формирование третьего сигнала понижающего микширования посредством комбинирования первого сигнала понижающего микширования, извлеченного из первого аудиосигнала, и второго сигнала понижающего микширования, извлеченного из второго аудиосигнала; генерирование третьей объектно-ориентированной дополнительной информации посредством комбинирования первой объектно-ориентированной дополнительной информации, извлеченной из первого аудиосигнала, и второй объектно-ориентированной дополнительной информации, извлеченной из второго аудиосигнала; преобразование третьей объектно-ориентированной дополнительной информации в канально-ориентированную дополнительную информацию и генерирование многоканального аудиосигнала с помощью третьего сигнала понижающего микширования и канально-ориентированной дополнительной информации.

Преимущества

Предусмотрены способ и устройство кодирования аудио и способ и устройство декодирования аудио, в которых аудиосигналы могут быть кодированы или декодированы так, что звуковые образы могут быть локализованы в любой требуемой позиции для каждого объектного аудиосигнала.

Краткое описание чертежей

Настоящее изобретение должно стать более понятным из подробного описания, предоставленного далее в этом документе, и прилагаемых чертежей, которые предоставлены только в целях иллюстрации и вследствие этого не должны рассматриваться как ограничивающие настоящее изобретение, из которых:

Фиг.1 - это блок-схема типичной системы кодирования/декодирования объектно-ориентированного аудио;

Фиг.2 - это блок-схема устройства декодирования аудио согласно первому варианту осуществления настоящего изобретения;

Фиг.3 - это блок-схема устройства декодирования аудио согласно второму варианту осуществления настоящего изобретения;

Фиг.4 - это график для пояснения влияния разности амплитуд и разности времен, которые независимы друг от друга, на локализацию звуковых образов;

Фиг.5 - это график функций, касающийся соответствия между разностью амплитуд и разностью времен, которые требуются для того, чтобы локализовать звуковые образы в предварительно определенной позиции;

Фиг.6 иллюстрирует формат управляющей информации, включающей в себя гармоническую информацию;

Фиг.7 - это блок-схема устройства декодирования аудио согласно третьему варианту осуществления настоящего изобретения;

Фиг.8 - это блок-схема модуля художественного усиления при понижающем микшировании (ADG), который может быть использован в модуле декодирования аудио, проиллюстрированном на Фиг.7;

Фиг.9 - это блок-схема устройства декодирования аудио согласно четвертому варианту осуществления настоящего изобретения;

Фиг.10 - это блок-схема устройства декодирования аудио согласно пятому варианту осуществления настоящего изобретения;

Фиг.11 - это блок-схема устройства декодирования аудио согласно шестому варианту осуществления настоящего изобретения;

Фиг.12 - это блок-схема устройства декодирования аудио согласно седьмому варианту осуществления настоящего изобретения;

Фиг.13 - это блок-схема устройства декодирования аудио согласно восьмому варианту осуществления настоящего изобретения;

Фиг.14 - это схема для пояснения применения трехмерной (3D) информации к кадру посредством устройства декодирования аудио, проиллюстрированного на Фиг.13;

Фиг.15 - это блок-схема устройства декодирования аудио согласно девятому варианту осуществления настоящего изобретения;

Фиг.16 - это блок-схема устройства декодирования аудио согласно десятому варианту осуществления настоящего изобретения;

Фиг.17-19 - это схемы для пояснения способа декодирования аудио согласно варианту осуществления настоящего изобретения, и

Фиг.20 - это блок-схема устройства кодирования аудиосигналов согласно варианту осуществления настоящего изобретения.

Оптимальный режим осуществления изобретения

Далее настоящее изобретение описывается более подробно со ссылкой на прилагаемые чертежи, на которых показаны примерные варианты осуществления изобретения.

Способ и устройство кодирования аудио и способ и устройство декодирования аудио согласно настоящему изобретению могут быть применены к операциям обработки объектно-ориентированного аудио, но настоящее изобретение не ограничено этим. Другими словами, способ и устройство кодирования аудио и способ и устройство декодирования аудио могут быть применены к различным операциям обработки сигналов, отличным от операций обработки объектно-ориентированного аудио.

Фиг.1 иллюстрирует блок-схему типичной системы кодирования/декодирования объектно-ориентированного аудио. В общем, аудиосигналы, вводимые в устройство кодирования объектно-ориентированного аудио, не соответствуют каналам многоканального сигнала, а являются независимыми объектными сигналами. В этом смысле устройство кодирования объектно-ориентированного аудио отличается от устройства кодирования многоканального аудио, в которое вводятся канальные сигналы многоканального сигнала.

Например, канальные сигналы, такие как сигнал переднего левого канала и сигнал переднего правого канала для 5.1-канального сигнала, могут быть введены в многоканальный аудиосигнал, тогда как объектные аудиосигналы, такие как человеческий голос или звук музыкального инструмента (к примеру, звук скрипки или пианино), которые являются меньшими объектами, чем канальные сигналы, могут быть введены в устройство кодирования объектно-ориентированного аудио.

Ссылаясь на фиг.1, система кодирования/декодирования объектно-ориентированного аудио включает в себя устройство кодирования объектно-ориентированного аудио и устройство декодирования объектно-ориентированного аудио. Устройство кодирования объектно-ориентированного аудио включает в себя объектный кодер 100, а устройство декодирования объектно-ориентированного аудио включает в себя объектный декодер 111 и рендерер 113.

Объектный кодер 100 принимает N объектных аудиосигналов и формирует объектно-ориентированный сигнал понижающего микширования с одним или более каналами и дополнительной информацией, включающей в себя ряд фрагментов информации, извлеченных из N объектных сигналов, таких как информация разности энергии, информация разности фаз и значение корреляции. Дополнительная информация и объектно-ориентированный сигнал понижающего микширования объединяются в один поток битов, и поток битов передается в объектно-ориентированное устройство декодирования.

Дополнительная информация может включать в себя флаг, указывающий, следует ли выполнять кодирование канально-ориентированного аудио или кодирование объектно-ориентированного аудио, и тем самым может быть определено, следует ли выполнять кодирование канально-ориентированного аудио или кодирование объектно-ориентированного аудио, на основе флага дополнительной информации. Дополнительная информация также может включать в себя информацию огибающей, информацию группировки, информацию периода молчания и информацию задержки, касающуюся объектных сигналов. Дополнительная информация может также включать информацию разности уровней объектов, информацию корреляции между объектами, информацию усиления при понижающем микшировании, информацию разности уровней каналов понижающего микширования и информацию абсолютной энергии объекта.

Объектный декодер 111 принимает объектно-ориентированный сигнал понижающего микширования и дополнительную информацию из устройства кодирования объектно-ориентированного аудио и восстанавливает объектные сигналы, имеющие свойства, аналогичные свойствам N объектных аудиосигналов, на основе объектно-ориентированного сигнала понижающего микширования и дополнительной информации. Объектные сигналы, генерируемые посредством объектного декодера 111, еще не назначены какой-либо позиции в многоканальном пространстве. Таким образом, рендерер 113 назначает каждый из объектных сигналов, сгенерированных посредством объектного декодера 111, предварительно определенной позиции в многоканальном пространстве и определяет уровни объектных сигналов так, что объектные сигналы могут быть воспроизведены из надлежащих соответствующих позиций, указанных посредством рендерера 113, с надлежащими соответствующими уровнями, определенными посредством рендерера 113. Управляющая информация, касающаяся каждого из объектных сигналов, сгенерированных посредством объектного декодера 111, может варьироваться во времени, и тем самым пространственные позиции и уровни объектных сигналов, сформированных посредством объектного декодера 111, могут варьироваться согласно управляющей информации.

Фиг.2 - это блок-схема устройства 120 декодирования аудио согласно первому варианту осуществления настоящего изобретения. Ссылаясь на Фиг.2, устройство 120 декодирования аудио включает в себя объектный декодер 121, рендерер 123 и преобразователь 125 параметров. Устройство 120 декодирования аудио также может включать в себя демультиплексор (не показан), который извлекает сигнал понижающего микширования и дополнительную информацию из потока битов, вводимого в него, и это относится ко всем устройствам декодирования аудио согласно другим вариантам осуществления настоящего изобретения.

Объектный декодер 121 генерирует ряд объектных сигналов на основе сигнала понижающего микширования и модифицированной дополнительной информации, предоставленной посредством преобразователя 125 параметров. Рендерер 123 назначает каждый из объектных сигналов, сформированных посредством объектного декодера 121, предварительно определенной позиции в многоканальном пространстве и определяет уровни объектных сигналов, сгенерированных посредством объектного декодера 121, согласно управляющей информации. Преобразователь 125 параметров генерирует модифицированную дополнительную информацию посредством комбинирования дополнительной информации и управляющей информации. Затем преобразователь 125 параметров передает модифицированную дополнительную информацию в объектный декодер 121.

Объектный декодер 121 может иметь возможность выполнять адаптивное декодирование посредством анализа управляющей информации в модифицированной дополнительной информации.

Например, если управляющая информация указывает то, что первый объектный сигнал и второй объектный сигнал назначены на одну позицию в многоканальном пространстве и имеют одинаковый уровень, типичное устройство декодирования аудио может декодировать первый и второй объектные сигналы отдельно, а затем компоновать их в многоканальном пространстве посредством операции микширования/рендеринга.

С другой стороны, объектный декодер 121 устройства 120 декодирования аудио узнает из управляющей информации в модифицированной дополнительной информации то, что первый и второй объектные сигналы назначены одной позиции в многоканальном пространстве и имеют одинаковый уровень, как если бы они были одним источником звука. Соответственно, объектный декодер 121 декодирует первый и второй объектные сигналы посредством интерпретации их как одного источника звука, а не декодирует их по отдельности. В результате сложность декодирования снижается. Помимо этого вследствие уменьшения числа источников звука, которые должны быть обработаны, сложность микширования/рендеринга также снижается.

Устройство 120 декодирования аудио может быть эффективно использовано в ситуации, когда число объектных сигналов больше числа выходных каналов, поскольку множество объектных сигналов с большой вероятностью должны назначаться одной пространственной позиции.

Альтернативно устройство 120 декодирования аудио может быть использовано в ситуации, когда первый объектный сигнал и второй объектный сигнал назначаются одной позиции в многоканальном пространстве, но имеют различные уровни. В этом случае устройство 120 декодирования аудио декодирует первый и второй объектные сигналы посредством интерпретации первого и второго объектных сигналов как одного сигнала вместо декодирования первого и второго объектных сигналов отдельно и передачи декодированных первого и второго объектных сигналов в рендерер 123. Более конкретно, объектный декодер 121 может получать информацию, касающуюся разности между уровнями первого и второго объектных сигналов, из управляющей информации в модифицированной дополнительной информации и декодировать первый и второй объектные сигналы на основе полученной информации. Как результат, даже если первый и второй объектные сигналы имеют различные уровни, первый и второй объектные сигналы могут быть декодированы, как если бы они являлись одним источником звука.

Еще альтернативно объектный декодер 121 может регулировать уровни объектных сигналов, сгенерированных посредством объектного декодера 121, согласно управляющей информации. Далее объектный декодер 121 может декодировать объектные сигналы, уровни которых отрегулированы. Соответственно, рендерер 123 не должен регулировать уровни декодированных объектных сигналов, предоставляемых посредством объектного декодера 121, а просто компонует декодированные объектные сигналы, предоставляемые посредством объектного декодера 121, в многоканальном пространстве. Вкратце, поскольку объектный декодер 121 регулирует уровни объектных сигналов, генерируемых посредством объектного декодера 121, согласно управляющей информации, рендерер 123 может легко компоновать объектные сигналы, формируемые посредством объектного декодера 121, в многоканальном пространстве без необходимости дополнительно регулировать уровни объектных сигналов, формируемых посредством объектного декодера 121. Следовательно, можно снижать сложность микширования/рендеринга.

Согласно варианту осуществления по Фиг.2 объектный декодер устройства 120 декодирования аудио может адаптивно выполнять операцию декодирования посредством анализа управляющей информации, тем самым снижая сложность декодирования и сложность микширования/рендеринга. Может быть использована комбинация вышеописанных способов, выполняемых посредством устройства 120 декодирования аудио.

Фиг.3 - это блок-схема устройства 130 декодирования аудио согласно второму варианту осуществления настоящего изобретения. Ссылаясь на Фиг.3, устройство 130 декодирования аудио включает в себя объектный декодер 131 и рендерер 133. Устройство 130 декодирования аудио отличается за счет предоставления дополнительной информации не только в объектный декодер 131, но также в рендерер 133.

Устройство 130 декодирования аудио может эффективно выполнять операцию декодирования, даже когда имеется объектный сигнал, соответствующий периоду молчания. Например, сигналы второго-четвертого объектов могут соответствовать периоду воспроизведения музыки, в течение которого играют музыкальные инструменты, а сигнал первого объекта может соответствовать периоду молчания, в течение которого играется аккомпанемент. В этом случае информация, указывающая, какой из множества объектных сигналов соответствует периоду молчания, может быть включена в дополнительную информацию и дополнительная информация может быть предоставлена в рендерер 133, а также в объектный декодер 131.

Объектный декодер 131 может минимизировать сложность декодирования, не декодируя объектный сигнал, соответствующий периоду молчания. Объектный декодер 131 задает объектный сигнал, соответствующий значению 0, и передает уровень объектного сигнала в рендерер 133. В общем, объектные сигналы, имеющие значение 0, интерпретируются так же, как и объектные сигналы, имеющие значение, отличное от 0, и тем самым подвергаются операции микширования/рендеринга.

С другой стороны, устройство 130 декодирования аудио передает дополнительную информацию, включающую в себя информацию, указывающую, какой из множества объектных сигналов соответствует периоду молчания, в рендерер 133 и тем самым не допускает обработки объектного сигнала, соответствующего периоду молчания, посредством операции микширования/рендеринга, выполняемой посредством рендерера 133. Следовательно, устройство 130 декодирования аудио позволяет не допускать лишнего возрастания сложности микширования/рендеринга.

Рендерер 133 может использовать информацию параметров микширования, которая включена в управляющую информацию, для того чтобы локализовать звуковой образ каждого объектного сигнала в стереосцене. Информация параметров микширования может включать в себя только информацию амплитуды либо информацию амплитуды и информацию времени. Информация параметров микширования влияет не только на локализацию звуковых стереообразов, но также на психоакустическое восприятие пространственного качества звука пользователем.

Например, при сравнении двух звуковых образов, которые сгенерированы с помощью способа временного панорамирования и способа амплитудного панорамирования соответственно и воспроизводятся в одном месте с помощью 2-канального стереогромкоговорителя, обнаруживается, что способ амплитудного панорамирования может способствовать точной локализации звуковых образов и что способ временного панорамирования может предоставлять естественные звуки с сильным ощущением пространства. Таким образом, если рендерер 133 использует только способ амплитудного панорамирования для того, чтобы компоновать объектные сигналы в многоканальном пространстве, рендерер 133 может иметь возможность точно локализовать каждый звуковой образ, но может не иметь возможности предоставлять настолько сильное ощущение звука, как при использовании способа временного панорамирования. Пользователи могут иногда предпочитать локализацию звуковых образов для сильного ощущения звука или наоборот согласно типу звуковых источников.

Фиг.4(a) и 4(b) поясняют влияние интенсивности (разности амплитуд) и разности времен на локализацию звуковых образов, выполняемую при воспроизведении сигналов с помощью 2-канального стереогромкоговорителя. Ссылаясь на Фиг.4(a) и 4(b), звуковой образ может быть локализован под предварительно определенным углом согласно разности амплитуд и разности времен, которые независимы друг от друга. Например, разность амплитуд примерно в 8 дБ или разность времен примерно в 0,5 мс, которая эквивалентна разности амплитуд в 8 дБ, может быть использована для того, чтобы локализовать звуковой образ под углом в 20°. Следовательно, даже если только разность амплитуд предоставлена в качестве информации параметров микширования, можно получать различные звуки с различными свойствами посредством преобразования разности амплитуд в разность времен, которая эквивалента разности амплитуд, в ходе локализации звуковых образов.

Фиг.5 иллюстрирует функции, касающиеся соответствия между разностями амплитуд и разностями времен, которые требуются для того, чтобы локализовать звуковые образы под углами 10°, 20° и 30°. Функция, проиллюстрированная на Фиг.5, может быть получена на основе Фиг.4(a) и 4(b). Ссылаясь на Фиг.5, различные комбинации разности амплитуд-разности времен могут быть предоставлены для локализации звукового образа в предварительно определенной позиции. Например, допустим, что разность амплитуд в 8 дБ предоставлена в качестве информации параметров микширования, чтобы локализовать звуковой образ под углом в 20°. Согласно функции, проиллюстрированной на Фиг.5, звуковой образ также может быть локализован под углом 20° с помощью комбинации разности амплитуд в 3 дБ и разности времен в 0,3 мс. В этом случае не только информация разности амплитуд, а также информация разности времен может быть предоставлена в качестве информации параметров микширования, тем самым улучшая ощущение пространства.

Следовательно, чтобы сгенерировать звуки со свойствами, требуемыми пользователем, в ходе операции микширования/рендеринга, информация параметров микширования может быть надлежащим образом преобразована так, что любое из панорамирования амплитуды и панорамирования времени, которое подходит пользователю, может быть выполнено. Т.е. если информация параметров микширования включает в себя только информацию разности амплитуд и пользователю нужны звуки с сильным ощущением пространства, информация разности амплитуд может быть преобразована в информацию разности времен, эквивалентную информации разности амплитуд, со ссылкой на психоакустические данные. Альтернативно, если пользователю требуются звуки как с сильным ощущением пространства, так и с точной локализацией звуковых образов, информация разности амплитуд может быть преобразована в комбинацию информации разности амплитуд и информации разности времен, эквивалентную исходной информации амплитуд.

Альтернативно, если информация параметров микширования включает в себя только информацию разности времен и пользователь предпочитает точную локализацию звуковых образов, информация разности времен может быть преобразована в информацию разности амплитуд, эквивалентную информации разности времен, или может быть преобразована в комбинацию информации разности времен и информации разности амплитуд, которая может удовлетворять предпочтению пользователя посредством повышения точности локализации звуковых образов и ощущения пространства.

Еще альтернативно, если информация параметров микширования включает в себя и информацию разности амплитуд, и информацию разности времен и пользователь предпочитает точную локализацию звуковых образов, комбинация информации разности амплитуд и информации разности времен может быть преобразована в информацию разности амплитуд, эквивалентную комбинации исходной информации разности амплитуд и информации разности времен. С другой стороны, если информация параметров микширования включает в себя и информацию разности амплитуд, и информацию разности времен и пользователь предпочитает улучшение ощущения пространства, комбинация информации разности амплитуд и информации разности времен может быть преобразована в информацию разности времен, эквивалентную комбинации информации разности амплитуд и исходной информации разности времен.

Ссылаясь на Фиг.6, управляющая информация может включать в себя информацию микширования/рендеринга и информацию гармоник, касающуюся одного или более объектных сигналов. Информация гармоник может включать в себя, по меньшей мере, одно из информации высоты тона, информации основной частоты и информации преобладающей полосы частот, касающейся одного или более объектных сигналов, и описаний энергии и спектра каждой подполосы каждого из объектных сигналов.

Информация гармоник может быть использована для того, чтобы обрабатывать объектный сигнал в ходе операции рендеринга, поскольку разрешение рендерера, который выполняет эту операцию, в единицах подполос является недостаточным.

Если информация гармоник включает в себя информацию высоты тона, касающуюся одного или более объектных сигналов, усиление каждого из объектных сигналов может быть скорректировано посредством ослабления или усиления предварительно определенной частотной области с помощью гребенчатого фильтра или обратного гребенчатого фильтра. Например, если один из множества объектных сигналов является вокальным сигналом, объектные сигналы могут быть использованы в качестве караоке посредством ослабления только вокального сигнала. Альтернативно, если информация гармоник включает в себя информацию преобладающей частотной области, касающуюся одного или более объектных сигналов, может быть выполнен процесс ослабления или усиления преобладающей частотной области. Еще альтернативно, если информация гармоник включает в себя информацию спектра, касающуюся одного или более объектных сигналов, усиление каждого из объектных сигналов может контролироваться посредством выполнения ослабления или усиления без ограничения посредством каких-либо границ подполос.

Фиг.7 - это блок-схема устройства 140 декодирования аудио согласно другому варианту осуществления настоящего изобретения. Ссылаясь на Фиг.7, устройство 140 декодирования аудио использует многоканальный декодер 141 вместо объектного декодера и рендерера и декодирует ряд объектных сигналов после того, как объектные сигналы надлежащим образом скомпонованы в многоканальном пространстве.

Более конкретно, устройство 140 декодирования аудио включает в себя многоканальный декодер 141 и преобразователь 145 параметров. Многоканальный декодер 141 генерирует многоканальный сигнал, объектные сигналы которого уже скомпонованы в многоканальном пространстве, на основе сигнала понижающего микширования и информации пространственных параметров, которая является канально-ориентированной дополнительной информацией, предоставляемой посредством преобразователя 145 параметров. Преобразователь 145 параметров анализирует дополнительную информацию и управляющую информацию, передаваемую посредством устройства кодирования аудио (не показано), и формирует информацию пространственных параметров на основе результата анализа. Более конкретно, преобразователь 145 параметров формирует информацию пространственных параметров посредством комбинирования дополнительной информации и управляющей информации, которая включает в себя информацию настроек воспроизведения и информацию микширования. Т.е. преобразователь 145 параметров выполняет преобразование комбинации дополнительной информации и управляющей информации в пространственные данные, соответствующие модулю один-в-два (OTT) или модулю два-в-три (TTT).

Устройство 140 декодирования аудио может выполнять операцию многоканального декодирования, в которую объединены операция объектно-ориентированного декодирования и операция микширования/рендеринга, и тем самым может пропускать декодирование каждого объектного сигнала. Следовательно, можно снижать сложность декодирования и/или микширования/рендеринга.

Например, когда имеется 10 объектных сигналов и многоканальный сигнал, полученный на основе 10 объектных сигналов, который должен быть воспроизведен посредством 5.1-канальной акустической системы воспроизведения, типичное устройство декодирования объектно-ориентированного аудио генерирует декодированные сигналы, надлежащим образом соответствующие 10 объектным сигналам, на основе сигнала понижающего микширования и дополнительной информации, и затем формирует 5.1-канальный сигнал посредством надлежащей компоновки 10 объектных сигналов в многоканальное пространство, так чтобы объектные сигналы могли стать подходящими для 5.1-канального акустической среды. Тем не менее, недостаточно сформировать 10 объектных сигналов в ходе формирования 5.1-канального сигнала, и эта проблема становится более серьезной по мере того, как разность между числом объектных сигналов и числом каналов многоканального сигнала, который должен быть сгенерирован, возрастает.

С другой стороны, согласно варианту осуществления по Фиг.7 устройство 140 декодирования аудио генерирует информацию пространственных параметров, подходящую для 5.1-канального сигнала, на основе дополнительной информации и управляющей информации и предоставляет информацию пространственных параметров и сигнал понижающего микширования в многоканальный декодер 141. Затем многоканальный декодер 141 формирует 5.1-канальный сигнал на основе информации пространственных параметров и сигнала понижающего микширования. Другими словами, когда число каналов, которые должны быть выведены, составляет 5.1 каналов, устройство 140 декодирования аудио может просто сформировать 5.1-канальный сигнал на основе сигнала понижающего микширования без необходимости формировать 10 объектных сигналов и, таким образом, является более эффективным, чем традиционное устройство декодирования аудио, в отношении сложности.

Устройство 140 декодирования аудио считается эффективным, когда объем вычислений, требуемых для того, чтобы вычислять информацию пространственных параметров, соответствующую каждому из OTT-модуля и TTT-модуля посредством анализа дополнительной информации и управляющей информации, передаваемой посредством устройства кодирования аудио, меньше объема вычислений, требуемого для того, чтобы выполнять операцию микширования/рендеринга после декодирования каждого объектного сигнала.

Устройство 140 декодирования аудио может быть получено посредством добавления модуля для генерирования информации пространственных параметров посредством анализа дополнительной информации и управляющей информации в типичное устройство декодирования многоканального аудио и поэтому может сохранять совместимость с типичным устройством декодирования многоканального аудио. Также устройство 140 декодирования может повышать качество звука с использованием существующих средств типичного устройства декодирования многоканального аудио, таких как формирователь огибающей, средство временной обработки подполос (STP) и декоррелятор. С учетом всего этого следует сделать вывод о том, что все преимущества типичного способа декодирования многоканального аудио могут быть легко применены к способу декодирования объектного аудио.

Информация пространственных параметров, передаваемая в многоканальный декодер 141 посредством преобразователя 145 параметров, может быть сжата с тем, чтобы быть подходящей для передачи. Альтернативно информация пространственных параметров может иметь такой же формат, что и формат данных, передаваемых посредством типичного устройства многоканального кодирования. Т.е. информация пространственных параметров может быть подвергнута операции декодирования Хаффмана или операции предварительного декодирования и тем самым может быть передана в каждый модуль как несжатые данные пространственных меток. Упомянутое выше подходит для передачи информации пространственных параметров в устройство декодирования многоканального аудио в удаленном месте, а следующее удобно, поскольку нет необходимости устройству декодирования многоканального аудио преобразовывать сжатые данные пространственных меток в несжатые данные пространственных меток, которые могут быть легко использованы в операции декодирования.

Конфигурация информации пространственных параметров, основанная на анализе дополнительной информации и управляющей информации, может вызывать задержку между сигналом понижающего микширования и информацией пространственных параметров. Для того чтобы это обойти, может быть предоставлен дополнительный буфер либо для сигнала понижающего микширования, либо для информации пространственных параметров так, что сигнал понижающего микширования и информация пространственных параметров могут быть синхронизированы друг с другом. Эти способы, тем не менее, являются неудобными из-за необходимости предоставлять дополнительный буфер. Альтернативно дополнительная информация может передаваться впереди сигнала понижающего микширования с учетом возможности возникновения задержки между сигналом понижающего микширования и информацией пространственных параметров. В этом случае информация пространственных параметров, полученная посредством комбинирования дополнительной информации и управляющей информации, не обязательно должна корректироваться, а может легко быть использована.

Если множество объектных сигналов из сигнала понижающего микширования имеют различные уровни, модуль художественного усиления понижающего микширования (ADG), который может непосредственно компенсировать сигнал понижающего микширования, может определять относительные уровни объектных сигналов и каждый из объектных сигналов может быть назначен предварительно определенной позиции в многоканальном пространстве с помощью данных пространственных меток, таких как информация разности уровней каналов, информация межканальных корреляций (ICC) и информация коэффициентов прогнозирования каналов (CPC).

Например, если управляющая информация указывает, что предварительно определенный объектный сигнал должен быть назначен предварительно определенной позиции в многоканальном пространстве и имеет более высокий уровень, чем другие объектные сигналы, типичный многоканальный декодер может вычислять разность между энергиями каналов в сигнале понижающего микширования и поделить сигнал понижающего микширования на число выходных каналов на основе результатов вычислений. Тем не менее, типичный многоканальный декодер не может повышать или понижать громкость определенного звука в сигнале понижающего микширования. Другими словами, типичный многоканальный декодер просто распределяет сигнал понижающего микширования по числу выходных каналов и тем самым не может повышать или понижать громкость звука в сигнале понижающего микширования.

Относительно просто назначать каждый из ряда объектных сигналов в сигнале понижающего микширования, сгенерированном посредством объектного декодера, предварительно определенной позиции в многоканальном пространстве согласно управляющей информации. Однако специальные методики требуются для того, чтобы увеличивать или уменьшать амплитуду предварительно определенного объектного сигнала. Другими словами, если сигнал понижающего микширования, сформированный посредством объектного кодера, используется как есть, трудно уменьшать амплитуду каждого объектного сигнала в сигнале понижающего микширования.

Следовательно, согласно варианту осуществления настоящего изобретения относительные амплитуды объектных сигналов могут варьироваться согласно управляющей информации посредством использования ADG-модуля 147, проиллюстрированного на Фиг.8. Более конкретно, амплитуда любого из множества объектных сигналов из сигнала понижающего микширования, передаваемого посредством объектного кодера, может быть увеличена или уменьшена с помощью ADG-модуля 147. Сигнал понижающего микширования, полученный посредством компенсации, выполненной посредством ADG-модуля 147, может подвергаться многоканальному декодированию.

Если относительные амплитуды объектных сигналов в сигнале понижающего микширования надлежащим образом отрегулированы с помощью ADG-модуля 147, можно выполнять объектное декодирование с помощью типичного многоканального декодера. Если сигнал понижающего микширования, сгенерированный посредством объектного кодера, является моно- или стереосигналом либо многоканальным сигналом с тремя или более каналами, сигнал понижающего микширования может быть обработан посредством ADG-модуля 147. Если сигнал понижающего микширования, сгенерированный посредством объектного кодера, имеет два или более каналов и предварительно определенный объектный сигнал, который должен быть отрегулирован посредством ADG-модуля 147, существует только в одном из каналов сигнала понижающего микширования, ADG-модуль 147 может быть применен только к каналу, включающему в себя предварительно определенный объектный сигнал, вместо применения ко всем каналам сигнала понижающего микширования. Сигнал понижающего микширования, обработанный посредством ADG-модуля 147 вышеописанным способом, может быть легко обработан с помощью типичного многоканального декодера без необходимости модифицировать структуру многоканального декодера.

Даже когда конечный выходной сигнал не является многоканальным сигналом, который может быть воспроизведен посредством многоканальной акустической системы, а является стереофоническим сигналом, ADG-модуль 147 может быть использован для того, чтобы регулировать относительные амплитуды объектных сигналов конечного выходного сигнала.

Альтернативно применению ADG-модуля 147 информация усиления, задающая значение усиления, которое должно быть применено к каждому объектному сигналу, может быть включена в управляющую информацию в ходе генерирования ряда объектных сигналов. Для этого структура типичного многоканального декодера может быть модифицирована. Несмотря на необходимость модификации структуры существующего многоканального декодера этот способ является удобным в отношении снижения сложности декодирования за счет применения значения усиления к каждому объектному сигналу в ходе операции декодирования без необходимости вычислять ADG и компенсировать каждый объектный сигнал.

Фиг.9 - это блок-схема устройства 150 декодирования аудио согласно четвертому варианту осуществления настоящего изобретения. Ссылаясь на Фиг.9, устройство 150 декодирования аудио отличается генерированием стереофонического сигнала.

Более конкретно, устройство 150 декодирования аудио включает в себя многоканальный стереофонический декодер 151, первый преобразователь 157 параметров и второй преобразователь 159 параметров.

Второй преобразователь 159 параметров анализирует дополнительную информацию и управляющую информацию, которая предоставляется посредством устройства кодирования аудио, и конфигурирует информацию пространственных параметров на основе результата анализа. Первый преобразователь 157 параметров конфигурирует информацию стереофонических параметров, которая может быть использована посредством многоканального стереофонического декодера 151, посредством добавления трехмерной (3D) информации, такой как параметры функции моделирования восприятия звука (HRTF), в информацию пространственных параметров. Многоканальный стереофонический декодер 151 генерирует виртуальный трехмерный (3D) сигнал посредством применения информации виртуальных трехмерных параметров к сигналу понижающего микширования.

Первый преобразователь 157 параметров и второй преобразователь 159 параметров могут быть заменены одним модулем, т.е. модулем 155 преобразования параметров, который принимает дополнительную информацию, управляющую информацию и HRTF-параметры и конфигурирует информацию стереофонических параметров на основе дополнительной информации, управляющей информации и HRTF-параметров.

Традиционно для того, чтобы сформировать стереофонический сигнал для воспроизведения сигнала понижающего микширования, включающего в себя 10 объектных сигналов, с помощью наушников, объектный сигнал должен сгенерировать 10 декодированных сигналов, надлежащим образом соответствующих 10 объектным сигналам на основе сигнала понижающего микширования и дополнительной информации. Затем рендерер назначает каждый из 10 объектных сигналов предварительно определенной позиции в многоканальном пространстве со ссылкой на управляющую информацию с тем, чтобы удовлетворять требованиям 5-канальной акустической среды. После этого рендерер генерирует 5-канальный сигнал, который может быть воспроизведен посредством 5-канальной акустической системы. Далее рендерер применяет HRTF-параметры к 5-канальному сигналу, тем самым формируя 2-канальный сигнал. Вкратце, вышеупомянутый традиционный способ декодирования аудио включает в себя воспроизведение 10 объектных сигналов, преобразование 10 объектных сигналов в 5-канальный сигнал и формирование 2-канального сигнала на основе 5-канального сигнала, и это тем самым является неэффективным.

С другой стороны, устройство 150 декодирования аудио может легко формировать стереофонический сигнал, который может быть воспроизведен с помощью наушников, на основе объектных аудиосигналов. Помимо этого устройство 150 декодирования аудио конфигурирует информацию пространственных параметров посредством анализа дополнительной информации и управляющей информации и тем самым может генерировать стереофонический сигнал с помощью типичного многоканального стереофонического декодера. Более того, устройство 150 декодирования аудио может использовать типичный многоканальный стереофонический декодер, даже когда оснащено встроенным преобразователем параметров, который принимает дополнительную информацию, управляющую информацию и HRTF-параметры и конфигурирует информацию стереофонических параметров на основе дополнительной информации, управляющей информации и HRTF-параметров.

Фиг.10 - это блок-схема устройства 160 декодирования аудио согласно пятому варианту осуществления настоящего изобретения. Ссылаясь на Фиг.10, устройство 160 декодирования аудио включает в себя процессор 161 понижающего микширования, многоканальный декодер 163 и преобразователь 165 параметров. Процессор 161 понижающего микширования и преобразователь 165 параметров могут быть заменены единым модулем 167.

Преобразователь 165 параметров генерирует информацию пространственных параметров, которая может быть использована посредством многоканального декодера 163, и информацию параметров, которая может быть использована посредством процессора 161 понижающего микширования. Процессор 161 понижающего микширования выполняет операцию предварительной обработки с сигналом понижающего микширования и передает сигнал понижающего микширования, получающийся в результате операции предварительной обработки, в многоканальный декодер 163. Многоканальный декодер 163 выполняет операцию декодирования сигнала понижающего микширования, передаваемого посредством процессора 161 понижающего микширования, тем самым выводя стереосигнал, стереофонический стереосигнал или многоканальный сигнал. Примеры операции предварительной обработки, выполняемой посредством процессора 161 понижающего микширования, включают в себя модификацию или преобразование сигнала понижающего микширования во временной области или частотной области с помощью фильтрации.

Если сигнал понижающего микширования, вводимый в устройство 160 декодирования аудио, является стереосигналом, сигнал понижающего микширования может быть подвергнут предварительной обработке понижающего микширования, выполняемой посредством процессора 161 понижающего микширования, перед вводом в многоканальный декодер 163, поскольку многоканальный декодер 163 не может отображать компоненту сигнала понижающего микширования, соответствующего левому каналу, который является одним из множества каналов, в правый канал, который является другим из множества каналов. Следовательно, для того чтобы сдвинуть позицию объектного сигнала, относящегося к левому каналу, в направлении правого канала, сигнал понижающего микширования, вводимый в устройство 160 декодирования аудио, может быть предварительно обработан посредством процессора 161 понижающего микширования, и предварительно обработанный сигнал понижающего микширования может быть введен в многоканальный декодер 163.

Предварительная обработка стереосигнала понижающего микширования может выполняться на основе информации предварительной обработки, полученной из дополнительной информации и из управляющей информации.

Фиг.11 - это блок-схема устройства 170 декодирования аудио согласно шестому варианту осуществления настоящего изобретения. Ссылаясь на Фиг.11, устройство 170 декодирования аудио включает в себя многоканальный декодер 171, канальный процессор 173 и преобразователь 175 параметров.

Преобразователь 175 параметров генерирует информацию пространственных параметров, которая может быть использована посредством многоканального декодера 171, и информацию параметров, которая может быть использована посредством канального процессора 173. Канальный процессор 173 выполняет операцию постобработки с сигналом, выводимым посредством многоканального декодера 171. Примеры сигнала, выводимого посредством многоканального декодера 171, включают в себя стереосигнал, стереофонический стереосигнал и многоканальный сигнал.

Примеры операции постобработки, выполняемой посредством постпроцессора 173, включают в себя модификацию и преобразование каждого канала или всех каналов выходного сигнала. Например, если дополнительная информация включает в себя информацию собственной частоты, касающуюся предварительно определенного объектного сигнала, канальный процессор 173 может удалять гармонические компоненты из предварительно определенного объектного сигнала со ссылкой на информацию собственной частоты. Способ декодирования многоканального аудио может быть недостаточно эффективным для того, чтобы быть использованным в системе караоке. Тем не менее, если информация собственной частоты, касающаяся вокальных объектных сигналов, включена в дополнительную информацию и гармонические компоненты вокальных объектных сигналов удаляются в ходе операции постобработки, можно реализовывать высокопроизводительную систему караоке посредством использования варианта осуществления по Фиг.11. Вариант осуществления по Фиг.11 также может быть применен к объектным сигналам, отличным от вокальных объектных сигналов. Например, возможно удалить звук предварительно определенного музыкального инструмента с помощью варианта осуществления по Фиг.11. Также можно усиливать предварительно определенные гармонические компоненты с помощью информации собственной частоты, касающейся объектных сигналов, с помощью варианта осуществления по Фиг.11.

Канальный процессор 173 может выполнять дополнительную обработку эффектов для сигнала понижающего микширования. Альтернативно канальный процессор 173 может добавлять сигнал, полученный посредством дополнительной обработки эффектов, в сигнал, выводимый посредством многоканального декодера 171. Канальный процессор 173 может изменять спектр объекта или модифицировать сигнал понижающего микширования при необходимости. Если неприемлемо непосредственно напрямую выполнять операцию обработки эффектов, такую как реверберация, для сигнала понижающего микширования и передавать сигнал, полученный посредством операции обработки эффектов, в многоканальный декодер 171, процессор 173 понижающего микширования может добавить сигнал, полученный посредством операции обработки эффектов, в вывод многоканального декодера 171 вместо выполнения обработки эффектов с сигналом понижающего микширования.

Устройство 170 декодирования аудио может быть сконструировано так, чтобы включать в себя не только канальный процессор 173, но также процессор понижающего микширования. В этом случае процессор понижающего микширования может размещаться перед многоканальным декодером 171 и канальный процессор 173 может размещаться позади многоканального декодера 171.

Фиг.12, 13 - это блок-схема устройства 210 декодирования аудио согласно седьмому варианту осуществления настоящего изобретения. Ссылаясь на Фиг.12, устройство 210 декодирования аудио использует многоканальный декодер 213 вместо объектного декодера.

Более конкретно, устройство 210 декодирования аудио включает в себя многоканальный декодер 213, транскодер 215, рендерер 217 и базу 219 данных трехмерной информации.

Рендерер 217 определяет трехмерные позиции множества объектных сигналов на основе трехмерной информации, соответствующей индексным данным, включенным в управляющую информацию. Транскодер 215 генерирует канально-ориентированную дополнительную информацию посредством синтеза информации позиции, касающейся числа объектных аудиосигналов, к которым применяется трехмерная информация посредством рендерера 217. Многоканальный декодер 213 выводит трехмерный сигнал посредством применения канально-ориентированной дополнительной информации к сигналу понижающего микширования.

Функция моделирования восприятия звука (HRTF) может быть использована в качестве трехмерной информации. HRTF - это передаточная функция, которая описывает передачу звуковых волн между источником звука в произвольной позиции и барабанной перепонкой и возвращает значение, которое варьируется согласно направлению и высоте источника звука. Если сигнал без направленности фильтруется с помощью HRTF, сигнал может быть услышан, как если бы он воспроизводился из определенного направления.

Когда входной поток битов принимается, устройство 210 декодирования аудио извлекает объектно-ориентированный сигнал понижающего микширования и информацию объектно-ориентированных параметров из входного потока битов с помощью демультиплексора (не показан). Далее рендерер 217 извлекает индексные данные из управляющей информации, которые используются для того, чтобы определять позиции множества объектных аудиосигналов, и извлекает трехмерную информацию, соответствующую извлеченным индексным данным, из базы 219 данных трехмерной информации.

Более конкретно, информация параметров микширования, которая включена в управляющую информацию, которая используется посредством устройства 210 декодирования аудио, может включать не только информацию уровня, но также индексные данные, требуемые для поиска трехмерной информации. Информация параметров микширования также может включать в себя информацию времени, касающуюся разности времен между каналами, информацию позиции и один или более параметров, полученных посредством надлежащего комбинирования информации уровня и информации времени.

Позиция объектного аудиосигнала может быть определена первоначально согласно информации параметров микширования по умолчанию и может быть изменена впоследствии посредством применения трехмерной информации, соответствующей позиции, требуемой пользователем, к объектному аудиосигналу. Альтернативно, если пользователь хочет применять трехмерный эффект только к нескольким объектным аудиосигналам, информация уровня и информация времени, касающаяся других объектных аудиосигналов, к которым пользователь хочет не применять трехмерный эффект, может быть использована в качестве информации параметров микширования.

Транскодер 215 генерирует канально-ориентированную дополнительную информацию, касающуюся M каналов, посредством синтеза информации объектно-ориентированных параметров, касающейся N объектных сигналов, переданных посредством устройства кодирования аудио, и информации позиции определенного числа объектных сигналов, к которым трехмерная информация, такая как HRTF, применяется посредством рендерера 217.

Многоканальный декодер 213 генерирует аудиосигнал на основе сигнала понижающего микширования и канально-ориентированной дополнительной информации, предоставленной посредством транскодера 215, и генерирует трехмерный многоканальный сигнал посредством выполнения операции трехмерного рендеринга с помощью трехмерной информации, включенной в канально-ориентированную дополнительную информацию.

Фиг.13 - это блок-схема устройства 220 декодирования аудио согласно восьмому варианту осуществления настоящего изобретения. Ссылаясь на Фиг.13, устройство 220 декодирования аудио отличается от устройства 210 декодирования аудио, проиллюстрированного на Фиг.12, тем, что транскодер 225 передает канально-ориентированную дополнительную информацию и трехмерную информацию отдельно в многоканальный декодер 223. Другими словами, транскодер 225 устройства 220 декодирования аудио получает канально-ориентированную дополнительную информацию, касающуюся M каналов, из информации объектно-ориентированных параметров, касающейся N объектных сигналов, и передает канально-ориентированную дополнительную информацию и трехмерную информацию, которая применяется к каждому из N объектных сигналов, в многоканальный декодер 223, тогда как транскодер 215 устройства 210 декодирования аудио передает канально-ориентированную дополнительную информацию, включающую в себя трехмерную информацию, в многоканальный декодер 213.

Ссылаясь на Фиг.14, канально-ориентированная дополнительная информация и трехмерная информация могут включать в себя множество индексов кадров. Таким образом, многоканальный декодер 223 может синхронизировать канально-ориентированную дополнительную информацию и трехмерную информацию со ссылкой на индексы кадров каждой из канально-ориентированной дополнительной информации и трехмерной информации и тем самым может применять трехмерную информацию к кадру потока битов, соответствующему трехмерной информации. Например, трехмерная информация, имеющая индекс 2, может быть применена к началу кадра 2, имеющему индекс 2.

Поскольку канально-ориентированная дополнительная информация и трехмерная информация обе включают в себя индексы кадров, можно эффективно определять временную позицию канально-ориентированной дополнительной информации, к которой должна быть применена трехмерная информация, даже если трехмерная информация обновляется во времени. Другими словами, транскодер 225 включает трехмерную информацию и число индексов кадров в канально-ориентированную дополнительную информацию, и тем самым многоканальный декодер 223 может легко синхронизировать канально-ориентированную дополнительную информацию и трехмерную информацию.

Процессор 231 понижающего микширования, транскодер 235, рендерер 237 и база данных трехмерной информации могут быть заменены одним модулем 239.

Фиг.15 - это блок-схема устройства 230 декодирования аудио согласно девятому варианту осуществления настоящего изобретения. Ссылаясь на Фиг.15, устройство 230 декодирования аудио отличается от устройства 220 декодирования аудио, проиллюстрированного на Фиг.14, посредством дополнительного включения процессора 231 понижающего микширования.

Более конкретно, устройство 230 декодирования аудио включает в себя транскодер 235, рендерер 237, базу 238 данных трехмерной информации, многоканальный декодер 233 и процессор 231 понижающего микширования. Транскодер 235, рендерер 237, база 238 данных трехмерной информации и многоканальный декодер 233 являются такими же, как и их соответствующие аналоги, проиллюстрированные на Фиг.14. Процессор 231 понижающего микширования выполняет операцию предварительной обработки стереосигнала понижающего микширования для корректировки позиции. База 238 данных трехмерной информации может быть включена в рендерер 237. Модуль для применения предварительно определенного эффекта к сигналу понижающего микширования также может быть предусмотрен в устройстве 230 декодирования аудио.

Фиг.16 иллюстрирует блок-схему устройства 240 декодирования аудио согласно десятому варианту осуществления настоящего изобретения. Ссылаясь на Фиг.16, устройство 240 декодирования аудио отличается от устройства 230 декодирования аудио, проиллюстрированного на Фиг.15, посредством включения многоточечного управляющего сумматора 241.

Т.е. устройство 240 декодирования аудио аналогично устройству 230 декодирования аудио включает в себя процессор 243 понижающего микширования, многоканальный декодер 244, транскодер 245, рендерер 247 и базу 249 данных трехмерной информации. Многоточечный управляющий сумматор 241 комбинирует множество потоков битов, полученных посредством объектно-ориентированного кодирования, тем самым получая один поток битов. Например, когда первый поток битов для первого аудиосигнала и второй поток битов для второго аудиосигнала вводятся, многоточечный управляющий сумматор 241 извлекает первый сигнал понижающего микширования из первого потока битов, извлекает второй сигнал понижающего микширования из второго потока битов и генерирует третий сигнал понижающего микширования посредством комбинирования первого и второго сигналов понижающего микширования. Помимо этого многоточечный управляющий сумматор 241 извлекает первую объектно-ориентированную дополнительную информацию из первого потока битов, извлекает вторую объектно-ориентированную дополнительную информацию из второго потока битов и генерирует третью объектно-ориентированную дополнительную информацию посредством комбинирования первой объектно-ориентированной дополнительной информации и второй объектно-ориентированной дополнительной информации. Затем многоточечный управляющий сумматор 241 генерирует поток битов посредством комбинирования третьего сигнала понижающего микширования и третьей объектно-ориентированной дополнительной информации и выводит сгенерированный поток битов.

Следовательно, согласно десятому варианту осуществления настоящего изобретения можно эффективно обрабатывать даже сигналы, передаваемые посредством двух или более партнеров связи, в сравнении со случаем кодирования и декодирования каждого объектного сигнала.

Чтобы многоточечный управляющий сумматор 241 включал множество сигналов понижающего микширования, которые, соответственно, извлекаются из множества потоков битов и ассоциативно связаны с различными кодеками сжатия, в один сигнал понижающего микширования, сигналы понижающего микширования, возможно, должны быть преобразованы в сигналы импульсно-кодовой модуляции (PCM) или сигналы в предварительно определенной частотной области согласно типам кодеков сжатия сигналов понижающего микширования, PCM-сигналы или сигналы, полученные посредством преобразования, возможно, должны быть объединены, а сигнал, полученный посредством объединения, возможно, должен быть преобразован с помощью предварительно определенного кодека сжатия. В этом случае задержка может возникать согласно тому, включены сигналы понижающего микширования в PCM-сигнал или в сигнал в предварительно определенной частотной области. Тем не менее, задержка, возможно, не может быть надлежащим образом оценена посредством декодера. Следовательно, задержка, возможно, должна быть включена в поток битов и передана вместе с потоком битов. Задержка может указывать число выборок задержки в PCM-сигнале или число выборок задержки в предварительно определенной частотной области.

В ходе операции кодирования объектно-ориентированного аудио значительное число входных сигналов, возможно, иногда должно быть обработано в сравнении с числом входных сигналов, как правило, обрабатываемых в ходе обычной операции многоканального кодирования (к примеру, операции 5.1-канального или 7.1-канального кодирования). Следовательно, способ кодирования объектно-ориентированного аудио требует гораздо больших скоростей передачи битов, чем типичный способ кодирования канально-ориентированного многоканального аудио. Тем не менее, поскольку способ кодирования объектно-ориентированного аудио влечет за собой обработку объектных сигналов, которые меньше канальных сигналов, можно сгенерировать динамические выходные сигналы с помощью способа кодирования объектно-ориентированного аудио.

Далее подробно описывается способ кодирования аудио согласно варианту осуществления настоящего изобретения со ссылкой на Фиг.17-20.

В способе кодирования объектно-ориентированного аудио объектные сигналы могут быть заданы так, чтобы представлять отдельные звуки, такие как человеческий голос или звук музыкального инструмента. Альтернативно звуки, имеющие аналогичные характеристики, такие как звуки струнных музыкальных инструментов (к примеру, скрипки, альта и виолончели), звуки, принадлежащие одной полосе частот, или звуки, классифицированные в одну категорию согласно направлениям и углам своих источников звука, могут быть сгруппированы и заданы посредством одних и тех же объектных сигналов. Еще альтернативно объектные сигналы могут быть заданы с помощью комбинации вышеуказанных способов.

Определенное число объектных сигналов может быть передано как сигнал понижающего микширования и дополнительная информация. В ходе создания информации, которая должна быть передана, энергия или мощность сигнала понижающего микширования или каждого из множеств объектных сигналов сигнала понижающего микширования вычисляется первоначально для цели обнаружения огибающей сигнала понижающего микширования. Результаты вычисления могут быть использованы для того, чтобы передавать объектные сигналы или сигналы понижающего микширования либо вычислять соотношения уровней объектных сигналов.

Алгоритм линейного предикативного кодирования (LPC) может быть использован для меньших скоростей передачи битов. Более конкретно, ряд LPC-коэффициентов, которые представляют огибающую сигнала, генерируются через анализ сигнала, и LPC-коэффициенты передаются вместо передачи информации огибающей, касающейся сигнала. Этот способ является эффективным в отношении скоростей передачи битов. Тем не менее, поскольку очень вероятно, что LPC-коэффициенты отличаются от фактической огибающей сигнала, этот способ требует процесса сложения, такого как коррекция ошибок. Вкратце, способ, который влечет за собой передачу информации огибающей сигнала, может гарантировать высокое качество звука, но приводит к значительному увеличению объема информации, которая должна быть передана. С другой стороны, способ, который влечет за собой использование LPC-коэффициентов, позволяет уменьшать объем информации, которая должна быть передана, но требует дополнительного процесса, такого как коррекция ошибок, и приводит к снижению качества звука.

Согласно варианту осуществления настоящего изобретения может быть использована комбинация этих способов. Другими словами, огибающая сигнала может быть представлена посредством энергии или мощности сигнала либо значения индекса, либо другого значения, такого как LPC-коэффициент, соответствующего энергии или мощности сигнала.

Информация огибающей, касающаяся сигнала, может быть получена в единицах временных секций или частотных секций. Более конкретно, ссылаясь на Фиг.17, информация огибающей, касающаяся сигнала, может быть получена в единицах кадров. Альтернативно, если сигнал представляется посредством структуры полосы частот с помощью гребенки фильтров, такой как гребенка квадратурных зеркальных фильтров (QMF), информация огибающей, касающаяся сигнала, может быть получена в единицах подполос частот, разделов подполос частот, которые являются меньшими объектами, чем подполосы частот, группы подполос частот или группы разделов подполос частот. Еще альтернативно комбинация основанного на кадрах способа, основанного на подполосах частот способа и основанного на разделах подполос частот способа может быть использована в рамках области применения настоящего изобретения.

Еще альтернативно с учетом того, что низкочастотные компоненты сигнала, в общем, имеют больше информации, чем высокочастотные компоненты сигнала, информация огибающей, касающаяся низкочастотных компонентов сигнала, может быть передана как есть, тогда как информация огибающей, касающаяся высокочастотных компонентов сигнала, может быть представлена посредством LPC-коэффициентов или других значений, и LPC-коэффициенты или другие значения могут быть переданы вместо информации огибающей, касающейся высокочастотных компонентов сигнала. Тем не менее, низкочастотные компоненты сигнала необязательно могут иметь больше информации, чем высокочастотные компоненты сигнала. Следовательно, вышеописанный способ должен гибко применяться согласно обстоятельствам.

Согласно варианту осуществления информация огибающей или индексные данные, соответствующие части (далее упоминаемой как преобладающая часть) сигнала, который кажется преобладающим на частотно/временной оси, могут быть переданы, а информация огибающей или индексные данные, соответствующие не преобладающей части сигнала, могут быть не переданы. Альтернативно значения (к примеру, LPC-коэффициенты), которые представляют энергию и мощность преобладающей части сигнала, могут быть переданы, а значения, соответствующие не преобладающей части сигнала, могут быть не переданы. Еще альтернативно информация огибающей или индексные данные, соответствующие преобладающей части сигнала, могут быть переданы, и значения, которые представляют энергию и мощность не преобладающей части сигнала, могут быть переданы. Еще альтернативно информация, касающаяся только преобладающей части сигнала, может быть передана с тем, чтобы не преобладающая часть сигнала могла быть оценена на основе информации, касающейся преобладающей части сигнала. Еще альтернативно комбинация вышеописанных способов может быть использована.

Например, ссылаясь на Фиг.18, если сигнал делится на преобладающий период и не преобладающий период, информация, касающаяся сигнала, может быть передана четырьмя различными способами, как показано на (a)-(d).

Чтобы передавать определенное число объектных сигналов как комбинацию сигнала понижающего микширования и дополнительной информации, сигнал понижающего микширования должен быть разделен на множество элементов как часть операции декодирования, например, с учетом соотношения уровней объектных сигналов. Чтобы гарантировать независимость между элементами сигнала понижающего микширования, должна быть дополнительно выполнена операция декорреляции.

Объектные сигналы, которые являются единицами кодирования в способе объектно-ориентированного кодирования, имеют большую независимость, чем канальные сигналы, которые являются единицами кодирования в способе многоканального кодирования. Другими словами, канальный сигнал включает в себя ряд объектных сигналов и тем самым должен быть декоррелирован. С другой стороны, объектные сигналы являются независимыми друг от друга, и тем самым разделение каналов может легко выполняться с помощью характеристик объектных сигналов без необходимости операции декорреляции.

Более конкретно, ссылаясь на Фиг.19, объектные сигналы A, B и C, как оказывается, являются преобладающими на частотной оси. В этом случае нет необходимости разделять сигнал понижающего микширования на ряд сигналов согласно соотношению уровней объектных сигналов A, B и C и выполнять декорреляцию. Вместо этого информация, касающаяся преобладающих периодов объектных сигналов A, B и C, может быть передана либо значение усиления может быть применено к каждому частотному компоненту каждого из объектных сигналов A, B и C, тем самым пропуская декорреляцию. Следовательно, можно уменьшить объем вычислений и снизить скорость передачи битов на величину, в противном случае потребовалась бы декорреляция дополнительной информации.

Вкратце, чтобы пропустить декорреляцию, которая выполняется для того, чтобы гарантировать независимость среди определенного числа сигналов, получаемых посредством разделения сигнала понижающего микширования согласно соотношению соотношений объектных сигналов в сигнале понижающего микширования, информация, касающаяся частотной области, включающей в себя каждый объектный сигнал, может быть передана как дополнительная информация. Альтернативно различные значения усиления могут быть применены к преобладающему периоду, в течение которого каждый объектный сигнал кажется преобладающим, и не преобладающему периоду, в течение которого каждый объектный сигнал кажется менее преобладающим, и тем самым информация, касающаяся преобладающего периода, главным образом может предоставляться как дополнительная информация. Еще альтернативно информация, касающаяся преобладающего периода, может передаваться как дополнительная информация, а информация, касающаяся не преобладающего периода, может не передаваться. Еще альтернативно может быть использована комбинация вышеописанных способов, которые являются альтернативами способу декорреляции.

Вышеописанные способы, которые являются альтернативами способу декорреляции, могут быть применены ко всем объектным сигналам или только к некоторым объектным сигналам, которые являются легко различаемыми преобладающими периодами. Также вышеописанные способы, которые являются альтернативами способу декорреляции, могут быть переменно применены в элементах кадров.

Кодирование объектных аудиосигналов с помощью остаточного сигнала подробно описывается далее.

В общем, в способе кодирования объектного аудио ряд объектных сигналов кодируется и результаты кодирования передаются как комбинация сигнала понижающего микширования и дополнительной информации. Затем ряд объектных сигналов восстанавливается из сигнала понижающего микширования через декодирование согласно дополнительной информации и восстановленные объектные сигналы надлежащим образом микшируются, например, по запросу пользователя согласно управляющей информации, тем самым генерируя конечный канальный сигнал. Способ кодирования объектно-ориентированного аудио, в общем, направлен на то, чтобы свободно варьировать выходной канальный сигнал согласно управляющей информации с помощью микшера. Тем не менее, способ кодирования объектно-ориентированного аудио также может быть использован для того, чтобы генерировать канальный выходной сигнал заранее заданным способом независимо от управляющей информации.

Для этого дополнительная информация может включать в себя не только информацию, требуемую для того, чтобы получать определенное число объектных сигналов из сигнала понижающего микширования, но также информацию параметров микширования, требуемую для того, чтобы сгенерировать канальный сигнал. Таким образом, можно генерировать конечный канальный выходной сигнал без помощи микшера. В этом случае такой алгоритм, как остаточное кодирование, может быть использован для того, чтобы повышать качество звука.

Типичный способ остаточного кодирования включает в себя кодирование сигнала и кодирование ошибки между кодированным сигналом и исходным сигналом, т.е. остаточного сигнала. В ходе операции декодирования кодированный сигнал декодируется при компенсации ошибки между кодированным сигналом и исходным сигналом, тем самым восстанавливая сигнал, который аналогичен исходному сигналу в максимально возможной степени. Поскольку ошибка между кодированным сигналом и исходным сигналом, в общем, является незначительной, можно уменьшить объем информации, дополнительно требуемой для того, чтобы выполнять остаточное кодирование.

Если конечный выходной сигнал декодера является фиксированным, не только информация параметров микширования, требуемая для формирования конечного канального сигнала, но также информация остаточного кодирования может быть предоставлена в качестве дополнительной информации. В этом случае можно повысить качество звука.

Фиг.20 - это блок-схема устройства 310 кодирования аудио согласно варианту осуществления настоящего изобретения. Ссылаясь на Фиг.20, устройство 310 кодирования аудио отличается посредством использования остаточного сигнала.

Более конкретно, устройство 310 кодирования аудио включает в себя кодер 311, декодер 313, первый микшер 315, второй микшер 319, сумматор 317 и формирователь 321 потоков битов.

Первый микшер 315 выполняет операцию микширования с исходным сигналом, а второй микшер 319 выполняет операцию микширования с сигналом, полученным посредством выполнения операции кодирования и затем операции декодирования исходного сигнала. Сумматор 317 вычисляет остаточный сигнал между сигналом, выводимым посредством первого микшера 315, и сигналом, выводимым посредством второго микшера 319. Формирователь 321 потоков битов прибавляет остаточный сигнал к дополнительной информации и передает результат сложения. Таким образом можно повысить качество звука.

Вычисление остаточного сигнала может быть применено ко всем частям сигнала или только к низкочастотным частям сигнала. Альтернативно вычисление остаточного сигнала может быть выборочно применено к частотным областям, включающим в себя преобладающие сигналы, на покадровой основе. Еще альтернативно может быть использована комбинация вышеописанных способов.

Поскольку объем дополнительной информации, включающей в себя информацию остаточных сигналов, гораздо больше, чем объем дополнительной информации, не включающей в себя информацию остаточных сигналов, вычисление остаточного сигнала может быть применено только к некоторым частям сигнала, которые непосредственно влияют на качество звука, тем самым не допуская чрезмерного увеличения скорости передачи битов.

Настоящее изобретение может быть реализовано в качестве машиночитаемого кода, записанного на машиночитаемом носителе записи. Машиночитаемым носителем записи может быть любой тип устройства записи, в котором данные сохраняются машиночитаемым способом. Примеры машиночитаемых носителей записи включают в себя ROM, RAM, CD-ROM, магнитные ленты, гибкие диски, оптические устройства хранения данных и волновую несущую (например, передачу данных через Интернет). Машиночитаемые носители записи могут распространяться по множеству вычислительных систем, соединенных по сети, так что машиночитаемый код записывается на них и приводится в исполнение с них децентрализованным способом. Функциональные программы, код и сегменты кода, требуемые для реализации настоящего изобретения, могут быть легко истолкованы специалистами в данной области техники.

Промышленная применимость

Как описано выше, согласно настоящему изобретению звуковые изображения локализуются для каждого объектного аудиосигнала посредством извлечения выгод из преимуществ способов кодирования и декодирования объектно-ориентированного аудио. Таким образом, возможно предлагать более реалистичные звуки в ходе воспроизведения объектных аудиосигналов. Помимо этого настоящее изобретение может быть применено к интерактивным играм и тем самым может предоставлять пользователю более реалистичные переживания в виртуальной реальности.

Несмотря на то что настоящее изобретение конкретно показано и описано со ссылкой на его примерные варианты осуществления, специалистам в данной области техники следует понимать, что различные изменения по форме и содержанию могут быть сделаны без отступления от духа и области применения настоящего изобретения, задаваемой прилагаемой формулой изобретения.

Claims

1. Способ декодирования аудио, содержащий этапы, на которых:
генерируют третий сигнал понижающего микширования посредством комбинирования множества сигналов понижающего микширования, включая первый сигнал понижающего микширования и второй сигнал понижающего микширования;
генерируют третью объектно-ориентированную дополнительную информацию посредством комбинирования множества объектно-ориентированной дополнительной информации, включая первую объектно-ориентированную дополнительную информацию и вторую объектно-ориентированную дополнительную информацию;
преобразуют третью объектно-ориентированную дополнительную информацию в канально-ориентированную дополнительную информацию; и
генерируют многоканальный аудиосигнал, используя третий сигнал понижающего микширования и канально-ориентированную дополнительную информацию.

2. Способ декодирования аудио по п.1, в котором многоканальный аудиосигнал генерируют, дополнительно используя виртуальный трехмерный (3D) эффект, используя канально-ориентированную дополнительную информацию, трехмерную информацию и третий сигнал понижающего микширования.

3. Способ декодирования аудио по п.2, в котором канально-ориентированная дополнительная информация содержит трехмерную информацию.

4. Способ декодирования аудио по п.2, в котором трехмерная информация содержит информацию для синхронизации с канально-ориентированной дополнительной информацией.

5. Способ декодирования аудио по п.2, в котором трехмерная информация выбирается из базы данных трехмерной информации на основе управляющей информации, причем база данных трехмерной информации хранит множество фрагментов трехмерной информации.

6. Способ декодирования аудио по п.2, в котором трехмерная информация содержит функцию моделирования восприятия звука (HRTF).

7. Способ декодирования аудио по п.1, в котором третий сигнал понижающего микширования изменяет объектные сигналы третьего сигнала понижающего микширования, когда третий сигнал понижающего микширования является стереосигналом понижающего микширования.

8. Способ декодирования аудио по п.1, дополнительно содержащий этап, на котором применяют предварительно определенный эффект к многоканальному аудиосигналу.

9. Устройство декодирования аудио, содержащее:
сумматор понижающего микширования, генерирующий третий сигнал понижающего микширования посредством комбинирования множества сигналов понижающего микширования, включая первый сигнал понижающего микширования и второй сигнал понижающего микширования,
многоточечный управляющий сумматор, генерирующий третью объектно-ориентированную дополнительную информацию посредством комбинирования множества объектно-ориентированной дополнительной информации, включая первую объектно-ориентированную дополнительную информацию и вторую объектно-ориентированную дополнительную информацию;
транскодер, преобразующий третью объектно-ориентированную дополнительную информацию в канально-ориентированную дополнительную информацию; и
многоканальный декодер, генерирующий многоканальный аудиосигнал, используя третий сигнал понижающего микширования и канально-ориентированную дополнительную информацию.

10. Устройство декодирования аудио по п.9, в котором многоканальный аудиосигнал генерируется дополнительно используя виртуальный трехмерный (3D) эффект, используя канально-ориентированную дополнительную информацию, трехмерную информацию и третий сигнал понижающего микширования.

11. Устройство декодирования аудио по п.10, в котором канально-ориентированная дополнительная информация содержит трехмерную информацию.

12. Устройство декодирования аудио по п.10, в котором трехмерная информация содержит информацию для синхронизации с канально-ориентированной дополнительной информацией.

13. Устройство декодирования аудио по п.12, в котором трехмерная информация выбирается из базы данных трехмерной информации на основе управляющей информации, причем база данных трехмерной информации хранит множество элементов трехмерной информации.

14. Устройство декодирования аудио по п.10, в котором трехмерная информация содержит HRTF.

15. Устройство декодирования аудио по п.9, в котором третий сигнал понижающего микширования изменяет объектные сигналы третьего сигнала понижающего микширования, когда третий сигнал понижающего микширования является стереосигналом понижающего микширования.

16. Устройство декодирования аудио по п.9, дополнительно содержащее: канальный процессор, применяющий предварительно определенный эффект к многоканальному аудиосигналу.

17. Машиночитаемый носитель записи, имеющий записанный на нем машиночитаемый код для выполнения способа декодирования аудио, который может быть приведен в исполнение с помощью вычислительных систем, при этом способ содержит этапы, на которых:
генерируют третий сигнал понижающего микширования посредством комбинирования множества сигналов понижающего микширования, включая первый сигнал понижающего микширования и второй сигнал понижающего микширования;
генерируют третью объектно-ориентированную дополнительную информацию посредством комбинирования множества объектно-ориентированной дополнительной информации, включая первую объектно-ориентированную дополнительную информацию и вторую объектно-ориентированную дополнительную информацию;
преобразуют третью объектно-ориентированную дополнительную информацию в канально-ориентированную дополнительную информацию; и
генерируют многоканальный аудиосигнал, используя третий сигнал понижающего микширования и канально-ориентированную дополнительную информацию.

18. Машиночитаемый носитель записи по п.17, в котором многоканальный аудиосигнал генерируется, дополнительно используя виртуальный трехмерный (3D) эффект, используя канально-ориентированную дополнительную информацию, трехмерную информацию и третий сигнал понижающего микширования.