RU2406166C2

RU2406166C2 - Coding and decoding methods and devices based on objects of oriented audio signals

Info

Publication number: RU2406166C2
Application number: RU2008140142/09A
Authority: RU
Inventors: Донг Соо КИМ (KR); Донг Соо КИМ; Хее Сук ПАНГ (KR); Хее Сук ПАНГ; Дзае Хиун ЛИМ (KR); Дзае Хиун ЛИМ; Сунг Йонг ЙООН (KR); Сунг Йонг ЙООН; Хиун Коок ЛИ (KR); Хиун Коок ЛИ
Original assignee: ЭлДжи ЭЛЕКТРОНИКС ИНК.
Priority date: 2007-02-14
Filing date: 2008-02-14
Publication date: 2010-12-10
Also published as: RU2394283C1; RU2449388C2; RU2406165C2; RU2008140140A; RU2008140142A; RU2010112585A; RU2008140170A

Abstract

FIELD: information technology.

SUBSTANCE: audio decoding method involves receiving a step-down mixing signal based on additional information objects and control information, where the step-down mixing signal contains at least two step-down mixing channel signals and is generated through step-down mixing of multiple object signals, and control information controls the position or level or the object signal contained in the step-down mixing signal; extraction of the ratio of distribution of the object signals between channels from the object-based additional information; generation of pre-processing information for modifying step-down mixing channel signals based on information on the ratio of distribution between channels and control information; generation of a mutichannel audio signal based on the object-based additional information and control information and modified step-down mixing channel signals.

EFFECT: efficient processing of object-based audio signals.

11 cl, 33 dwg

Description

Область техники, к которой относится изобретениеFIELD OF THE INVENTION

Настоящее изобретение относится к способу и устройству кодирования аудио и способу и устройству декодирования аудио, в которых основывающиеся на объектах аудиосигналы могут быть эффективно обработаны посредством выполнения операций кодирования и декодирования.The present invention relates to an audio encoding method and apparatus, and an audio decoding method and apparatus in which object-based audio signals can be efficiently processed by performing encoding and decoding operations.

Предшествующий уровень техникиState of the art

В общем, в методиках кодирования и декодирования многоканального аудио в отношении некоторого количества канальных сигналов многоканального сигнала выполняется понижающее микширование с получением меньшего количества канальных сигналов, дополнительная информация, касающаяся исходных канальных сигналов, передается, и многоканальный сигнал, имеющий столько же каналов, что и исходный многоканальный сигнал, восстанавливается.In general, in multi-channel audio encoding and decoding techniques, for a certain number of channel signals of a multi-channel signal, down-mixing is performed to obtain fewer channel signals, additional information regarding the original channel signals is transmitted, and the multi-channel signal having the same number of channels as the original multi-channel signal is restored.

Методики кодирования и декодирования основывающегося на объектах аудио, по сути, аналогичны методикам кодирования и декодирования многоканального аудио в отношении понижающего микширования нескольких источников звука в меньшее число сигналов источника звука и передачи дополнительной информации, касающейся исходных источников звука. Тем не менее, в методиках кодирования и декодирования основывающегося на объектах аудио объектные сигналы, которые являются базовыми сигналами (к примеру, музыкальный инструмент или человеческий голос) канального сигнала, интерпретируются так же, как канальные сигналы в методиках кодирования и декодирования многоканального аудио, и тем самым могут быть кодированы.The encoding and decoding techniques of object-based audio are essentially the same as the multichannel audio encoding and decoding techniques for down-mixing multiple audio sources into fewer audio source signals and transmitting additional information regarding the original audio sources. However, in the encoding and decoding techniques of object-based audio, object signals, which are the basic signals (for example, a musical instrument or human voice) of a channel signal, are interpreted in the same way as channel signals in encoding and decoding techniques of multi-channel audio, and thereby most can be encoded.

Другими словами, в методиках кодирования и декодирования основывающегося на объектах аудио объектные сигналы считаются объектами, которые должны быть кодированы. В этом смысле методики кодирования и декодирования основывающегося на объектах аудио отличаются от методик кодирования и декодирования многоканального аудио, в которых операция кодирования многоканального аудио выполняется просто на основе межканальной информации независимо от числа элементов канального сигнала, которые должны быть кодированы.In other words, in object-based audio encoding and decoding techniques, object signals are considered objects to be encoded. In this sense, object-based audio encoding and decoding techniques are different from multi-channel audio encoding and decoding techniques, in which the multi-channel audio encoding operation is simply based on inter-channel information regardless of the number of channel signal elements to be encoded.

Сущность изобретенияSUMMARY OF THE INVENTION

Техническая задачаTechnical challenge

Настоящее изобретение предоставляет способ и устройство кодирования аудио и способ и устройство декодирования аудио, в которых аудиосигналы могут быть кодированы или декодированы так, чтобы аудиосигналы могли быть применены к различным вариантам осуществления.The present invention provides an audio encoding method and apparatus and an audio decoding method and apparatus in which audio signals can be encoded or decoded so that the audio signals can be applied to various embodiments.

Техническое решениеTechnical solution

Согласно аспекту настоящего изобретения предусмотрен способ декодирования аудио, включающий в себя: прием сигнала понижающего микширования и основывающейся на объектах дополнительной информации, при этом сигнал понижающего микширования включает в себя, по меньшей мере, два канальных сигнала понижающего микширования; извлечение информации усиления из основывающейся на объектах дополнительной информации и формирование информации модификации для модификации канальных сигналов понижающего микширования на поканальной основе на базе информации усиления; и модификацию канальных сигналов понижающего микширования посредством применения информации модификации к канальным сигналам понижающего микширования.According to an aspect of the present invention, there is provided a method for decoding audio, including: receiving a downmix signal and object-based additional information, wherein the downmix signal includes at least two channel downmix signals; extracting gain information from the object-based additional information and generating modification information for modifying channel down-mix signals on a per-channel basis based on gain information; and modifying the downmix channel signals by applying the modification information to the downmix channel signals.

Согласно другому аспекту настоящего изобретения предусмотрен способ кодирования аудио, включающий в себя: формирование сигнала понижающего микширования посредством понижающего микширования объектного сигнала, при этом сигнал понижающего микширования включает в себя, по меньшей мере, два канальных сигнала понижающего микширования; извлечение связанной с объектами информации, касающейся объектного сигнала, и формирование основывающейся на объектах дополнительной информации на основе связанной с объектами информации; и вставку информации усиления для модификации канальных сигналов понижающего микширования на поканальной основе в основывающуюся на объектах дополнительную информацию.According to another aspect of the present invention, there is provided an audio encoding method including: generating a downmix signal by downmixing an object signal, wherein the downmix signal includes at least two channel downmix signals; extracting object-related information related to the object signal and generating object-based additional information based on the object-related information; and inserting gain information for modifying the channel down-mix signals on a per-channel basis into object-based additional information.

Согласно другому аспекту настоящего изобретения предусмотрено устройство декодирования аудио, включающее в себя: демультиплексор, выполненный с возможностью извлекать сигнал понижающего микширования и основывающуюся на объектах дополнительную информацию из входного аудиосигнала, при этом сигнал понижающего микширования включает в себя, по меньшей мере, два канальных сигнала понижающего микширования; и транскодер, выполненный с возможностью формировать информацию модификации для модификации канальных сигналов понижающего микширования на поканальной основе на базе информации усиления, извлеченной из основывающейся на объектах дополнительной информации, и модифицировать канальные сигналы понижающего микширования посредством применения информации модификации к канальным сигналам понижающего микширования.According to another aspect of the present invention, there is provided an audio decoding apparatus including: a demultiplexer configured to extract a down-mix signal and object-based additional information from an input audio signal, wherein the down-mix signal includes at least two down-channel signals mixing; and a transcoder configured to generate modification information for modifying the channel down-mix signals on a per-channel basis based on gain information extracted from the object-based additional information, and modify the down-mix channel signals by applying the modification information to the down-mix channel signals.

Согласно другому аспекту настоящего изобретения предусмотрен машиночитаемый носитель записи, на котором записана компьютерная программа для выполнения способа декодирования аудио, при этом способ декодирования аудио включает в себя: прием сигнала понижающего микширования и основывающейся на объектах дополнительной информации, при этом сигнал понижающего микширования включает в себя, по меньшей мере, два канальных сигнала понижающего микширования; извлечение информации усиления из основывающейся на объектах дополнительной информации и формирование информации модификации для модификации канальных сигналов понижающего микширования на поканальной основе на базе информации усиления; и модификацию канальных сигналов понижающего микширования посредством применения информации модификации к канальным сигналам понижающего микширования.According to another aspect of the present invention, there is provided a computer-readable recording medium on which a computer program for executing an audio decoding method is recorded, wherein the audio decoding method includes: receiving a downmix signal and object-based additional information, wherein the downmix signal includes, at least two channel down-mix signals; extracting gain information from the object-based additional information and generating modification information for modifying channel down-mix signals on a per-channel basis based on gain information; and modifying the downmix channel signals by applying the modification information to the downmix channel signals.

Согласно другому аспекту настоящего изобретения предусмотрен машиночитаемый носитель записи, на котором записана компьютерная программа для выполнения способа кодирования аудио, при этом способ кодирования аудио включает в себя: формирование сигнала понижающего микширования посредством понижающего микширования объектного сигнала, при этом сигнал понижающего микширования включает в себя, по меньшей мере, два канальных сигнала понижающего микширования; извлечение связанной с объектами информации, касающейся объектного сигнала, и формирование основывающейся на объектах дополнительной информации на основе связанной с объектами информации; и вставку информации усиления для модификации канальных сигналов понижающего микширования на поканальной основе в основывающуюся на объектах дополнительную информацию.According to another aspect of the present invention, there is provided a computer-readable recording medium on which a computer program for executing an audio encoding method is recorded, wherein the audio encoding method includes: generating a downmix signal by downmixing an object signal, wherein the downmix signal includes at least two channel down-mix signals; extracting object-related information related to the object signal and generating object-based additional information based on the object-related information; and inserting gain information for modifying the channel down-mix signals on a per-channel basis into object-based additional information.

Краткое описание чертежейBrief Description of the Drawings

Фиг.1 иллюстрирует блок-схему типичной системы кодирования/декодирования основывающегося на объектах аудио;Figure 1 illustrates a block diagram of a typical encoding / decoding system of object-based audio;

Фиг.2 иллюстрирует блок-схему устройства декодирования аудио согласно первому варианту осуществления настоящего изобретения;2 illustrates a block diagram of an audio decoding apparatus according to a first embodiment of the present invention;

Фиг.3 иллюстрирует блок-схему устройства декодирования аудио согласно второму варианту осуществления настоящего изобретения;Figure 3 illustrates a block diagram of an audio decoding apparatus according to a second embodiment of the present invention;

Фиг.4 иллюстрирует блок-схему устройства декодирования аудио согласно третьему варианту осуществления настоящего изобретения;4 illustrates a block diagram of an audio decoding apparatus according to a third embodiment of the present invention;

Фиг.5 иллюстрирует блок-схему модуля произвольного усиления понижающего микширования (ADG), который может быть использован в модуле декодирования аудио, проиллюстрированном на фиг.4;FIG. 5 illustrates a block diagram of an arbitrary down-mix gain (ADG) module that can be used in the audio decoding module illustrated in FIG. 4;

Фиг.6 иллюстрирует блок-схему устройства декодирования аудио согласно четвертому варианту осуществления настоящего изобретения;6 illustrates a block diagram of an audio decoding apparatus according to a fourth embodiment of the present invention;

Фиг.7 иллюстрирует блок-схему устройства декодирования аудио согласно пятому варианту осуществления настоящего изобретения;7 illustrates a block diagram of an audio decoding apparatus according to a fifth embodiment of the present invention;

Фиг.8 иллюстрирует блок-схему устройства декодирования аудио согласно шестому варианту осуществления настоящего изобретения;Fig. 8 illustrates a block diagram of an audio decoding apparatus according to a sixth embodiment of the present invention;

Фиг.9 иллюстрирует блок-схему устройства декодирования аудио согласно седьмому варианту осуществления настоящего изобретения;9 illustrates a block diagram of an audio decoding apparatus according to a seventh embodiment of the present invention;

Фиг.10 иллюстрирует блок-схему устройства декодирования аудио согласно восьмому варианту осуществления настоящего изобретения;10 illustrates a block diagram of an audio decoding apparatus according to an eighth embodiment of the present invention;

Фиг.11 и 12 иллюстрируют схемы для пояснения работы транскодера;11 and 12 illustrate diagrams for explaining the operation of the transcoder;

Фиг.13-16 иллюстрируют схемы для пояснения конфигурирования основывающейся на объектах дополнительной информации;13-16 illustrate diagrams for explaining the configuration of object-based additional information;

Фиг.17-22 иллюстрируют схемы для пояснения объединения множества фрагментов основывающейся на объектах дополнительной информации в один фрагмент дополнительной информации;17-22 illustrate diagrams for explaining combining a plurality of fragments of object-based additional information into one fragment of additional information;

Фиг.23-27 иллюстрируют схемы для пояснения операции предварительной обработки; и23-27 illustrate diagrams for explaining a preprocessing operation; and

Фиг.28-33 - схемы, иллюстрирующие случай комбинирования множества потоков битов, декодированных с помощью основывающихся на объектах сигналов, в один поток битов.28-33 are diagrams illustrating a case of combining a plurality of bit streams decoded using object-based signals into a single bit stream.

Оптимальный режим осуществления изобретенияOptimum Mode for Carrying Out the Invention

Далее настоящее изобретение описывается более подробно со ссылкой на прилагаемые чертежи, на которых показаны примерные варианты осуществления изобретения.The invention will now be described in more detail with reference to the accompanying drawings, in which exemplary embodiments of the invention are shown.

Способ и устройство кодирования аудио и способ и устройство декодирования аудио согласно настоящему изобретению могут быть применены к операциям обработки основывающегося на объектах аудио, но настоящее изобретение не ограничено этим. Другими словами, способ и устройство кодирования аудио и способ и устройство декодирования аудио могут быть применены к различным операциям обработки сигналов, отличным от операций обработки основывающегося на объектах аудио.The audio encoding method and apparatus and the audio decoding method and apparatus according to the present invention can be applied to object-based audio processing operations, but the present invention is not limited thereto. In other words, the audio encoding method and apparatus and the audio decoding method and apparatus can be applied to various signal processing operations other than processing operations based on audio objects.

Фиг.1 иллюстрирует блок-схему типичной системы кодирования/декодирования основывающегося на объектах аудио. В общем, аудиосигналы, вводимые в устройство кодирования основывающегося на объектах аудио, не соответствуют каналам многоканального сигнала, а являются независимыми объектными сигналами. В этом смысле, устройство кодирования основывающегося на объектах аудио отличается от устройства кодирования многоканального аудио, в которое вводятся канальные сигналы многоканального сигнала.Figure 1 illustrates a block diagram of a typical encoding / decoding system for object-based audio. In general, the audio signals input to the object-based audio encoding device do not correspond to the channels of the multi-channel signal, but are independent object signals. In this sense, an object-based audio encoding device is different from a multi-channel audio encoding device into which channel signals of a multi-channel signal are input.

Например, канальные сигналы, такие как сигнал переднего левого канала и сигнал переднего правого канала для 5.1-канального сигнала, могут быть введены в многоканальный аудиосигнал, тогда как объектные сигналы, такие как человеческий голос или звук музыкального инструмента (к примеру, звук скрипки или пианино), которые являются меньшими объектами, чем канальные сигналы, могут быть введены в устройство кодирования основывающегося на объектах аудио.For example, channel signals, such as a front left channel signal and a front right channel signal for a 5.1 channel signal, can be input into a multi-channel audio signal, while object signals, such as a human voice or the sound of a musical instrument (for example, the sound of a violin or piano ), which are smaller objects than channel signals, can be input into an object-based audio encoding device.

Ссылаясь на фиг.1, система кодирования/декодирования основывающегося на объектах аудио включает в себя устройство кодирования основывающегося на объектах аудио и устройство декодирования основывающегося на объектах аудио. Устройство кодирования основывающегося на объектах аудио включает в себя объектный кодер 100, а устройство декодирования основывающегося на объектах аудио включает в себя объектный декодер 111 и микшер/рендерер 113.Referring to FIG. 1, an object-based audio encoding / decoding system includes an object-based audio encoding device and an object-based audio decoding device. An object-based audio encoding apparatus includes an object encoder 100, and an object-based audio decoding apparatus includes an object decoder 111 and a mixer / renderer 113.

Объектный кодер 100 принимает N объектных сигналов и формирует основывающийся на объектах сигнал понижающего микширования с одним или более каналами и дополнительной информацией, включающей в себя ряд фрагментов информации, извлеченных из N объектных сигналов, таких как информация разности энергии, информация разности фаз и корреляционная информация. Дополнительная информация и основывающийся на объектах сигнал понижающего микширования объединяются в один поток битов, и поток битов передается в основывающееся на объектах устройство декодирования.The object encoder 100 receives N object signals and generates an object-based downmix signal with one or more channels and additional information including a series of pieces of information extracted from N object signals, such as energy difference information, phase difference information and correlation information. The additional information and the object-based down-mix signal are combined into a single bit stream, and the bit stream is transmitted to the object-based decoding device.

Дополнительная информация может включать в себя флаг, указывающий то, следует выполнять кодирование основывающегося на каналах аудио или кодирование основывающегося на объектах аудио, и тем самым может быть определено, следует выполнять кодирование основывающегося на каналах аудио или кодирование основывающегося на объектах аудио, на основе флага дополнительной информации. Дополнительная информация также может включать в себя информацию энергии, информацию группировки, информацию периода молчания, информацию усиления понижающего микширования и информацию задержки, касающуюся объектных сигналов.Additional information may include a flag indicating whether encoding of channel-based audio or encoding of object-based audio should be performed, and thereby it can be determined whether encoding of channel-based audio or encoding of object-based audio should be performed based on an additional flag. information. Additional information may also include energy information, grouping information, silent period information, downmix gain information, and delay information regarding object signals.

Дополнительная информация и основывающийся на объектах сигнал понижающего микширования могут быть объединены в один поток битов, и поток битов может передаваться в устройство декодирования основывающегося на объектах аудио.The additional information and the object-based downmix signal may be combined into a single bitstream, and the bitstream may be transmitted to the object-based audio decoding device.

Объектный декодер 111 принимает основывающийся на объектах сигнал понижающего микширования и дополнительную информацию из устройства кодирования, основывающегося на объектах аудио, и восстанавливает объектные сигналы, имеющие свойства, аналогичные свойствам N объектных сигналов, на основе основывающегося на объектах сигнала понижающего микширования и дополнительной информации. Объектные сигналы, формируемые посредством объектного декодера 111, еще не назначены какой-либо позиции в многоканальном пространстве. Таким образом, микшер/рендерер 113 назначает каждый из объектных сигналов, сформированных посредством объектного декодера 111, предварительно определенной позиции в многоканальном пространстве и определяет уровни объектных сигналов так, что объектные сигналы могут быть воспроизведены из надлежащих соответствующих позиций, указанных посредством микшера/рендерера 113, с надлежащими соответствующими уровнями, определенными посредством микшера/рендерера 113. Управляющая информация, касающаяся каждого из объектных сигналов, сформированных посредством объектного декодера 111, может варьироваться во времени, и тем самым пространственные позиции и уровни объектных сигналов, сформированных посредством объектного декодера 111, могут варьироваться согласно управляющей информации.The object decoder 111 receives the object-based downmix signal and additional information from the object-based encoding device of the audio, and restores object signals having properties similar to the properties of the N object signals based on the object-based downmix signal and additional information. The object signals generated by the object decoder 111 have not yet been assigned any position in the multi-channel space. Thus, the mixer / renderer 113 assigns each of the object signals generated by the object decoder 111 to a predetermined position in the multi-channel space and determines the levels of the object signals so that the object signals can be reproduced from the corresponding respective positions indicated by the mixer / renderer 113, with the appropriate appropriate levels determined by the mixer / renderer 113. Control information regarding each of the object signals generated osredstvom object decoder 111 may vary over time, and thus the spatial positions and the levels of object signals generated by the object decoder 111 may vary according to the control information.

Фиг.2 иллюстрирует блок-схему устройства 120 декодирования аудио согласно первому варианту осуществления настоящего изобретения. Ссылаясь на фиг.2, устройство 120 декодирования аудио может иметь возможность выполнять адаптивное декодирование посредством анализа управляющей информации.FIG. 2 illustrates a block diagram of an audio decoding apparatus 120 according to a first embodiment of the present invention. Referring to FIG. 2, an audio decoding apparatus 120 may be able to perform adaptive decoding by analyzing control information.

Ссылаясь на фиг.2, устройство 120 декодирования аудио включает в себя объектный декодер 121, микшер/рендерер 123 и преобразователь 125 параметров. Устройство 120 декодирования аудио также может включать в себя демультиплексор (не показан), который извлекает сигнал понижающего микширования и дополнительную информацию из потока битов, вводимого в него, и он применяется ко всем устройствам декодирования аудио согласно другим вариантам осуществления настоящего изобретения.Referring to FIG. 2, an audio decoding apparatus 120 includes an object decoder 121, a mixer / renderer 123, and a parameter converter 125. Audio decoding apparatus 120 may also include a demultiplexer (not shown) that extracts a downmix signal and additional information from a bit stream input thereto, and it is applied to all audio decoding apparatuses according to other embodiments of the present invention.

Объектный декодер 121 формирует ряд объектных сигналов на основе сигнала понижающего микширования и модифицированной дополнительной информации, предоставленной посредством преобразователя 125 параметров. Микшер/рендерер 123 назначает каждый из объектных сигналов, сформированных посредством объектного декодера 121, предварительно определенной позиции в многоканальном пространстве и определяет уровни объектных сигналов, сформированных посредством объектного декодера 121, согласно управляющей информации. Преобразователь 125 параметров формирует модифицированную дополнительную информацию посредством комбинирования дополнительной информации и управляющей информации. Затем преобразователь 125 параметров передает модифицированную дополнительную информацию в объектный декодер 121.The object decoder 121 generates a series of object signals based on the down-mix signal and modified additional information provided by the parameter converter 125. The mixer / renderer 123 assigns each of the object signals generated by the object decoder 121 to a predetermined position in the multi-channel space and determines the levels of object signals generated by the object decoder 121 according to the control information. A parameter converter 125 generates modified additional information by combining additional information and control information. Then, the parameter converter 125 transmits the modified additional information to the object decoder 121.

Объектный декодер 121 может иметь возможность выполнять адаптивное декодирование посредством анализа управляющей информации в модифицированной дополнительной информации.The object decoder 121 may be able to perform adaptive decoding by analyzing control information in the modified additional information.

Например, если управляющая информация указывает то, что первый объектный сигнал и второй объектный сигнал назначены одной позиции в многоканальном пространстве и имеют одинаковый уровень, типичное устройство декодирования аудио может декодировать первый и второй объектные сигналы отдельно, а затем компоновать их в многоканальном пространстве посредством операции микширования/рендеринга.For example, if the control information indicates that the first object signal and the second object signal are assigned to the same position in the multi-channel space and have the same level, a typical audio decoding device can decode the first and second object signals separately and then compose them in the multi-channel space through a mixing operation / rendering.

С другой стороны, объектный декодер 121 устройства 120 декодирования аудио узнает из управляющей информации в модифицированной дополнительной информации то, что первый и второй объектные сигналы назначены одной позиции в многоканальном пространстве и имеют одинаковый уровень, как если бы они были одним источником звука. Соответственно, объектный декодер 121 декодирует первый и второй объектные сигналы посредством интерпретации их как одного источника звука без отдельного их декодирования. Как результат, сложность декодирования снижается. Помимо этого, вследствие уменьшения числа источников звука, которые должны быть обработаны, сложность микширования/рендеринга также снижается.On the other hand, the object decoder 121 of the audio decoding apparatus 120 recognizes from the control information in the modified supplementary information that the first and second object signals are assigned to the same position in the multi-channel space and have the same level as if they were the same sound source. Accordingly, the object decoder 121 decodes the first and second object signals by interpreting them as a single sound source without decoding them separately. As a result, decoding complexity is reduced. In addition, due to the reduction in the number of sound sources to be processed, the complexity of mixing / rendering is also reduced.

Устройство 120 декодирования аудио может быть эффективно использовано, когда число объектных сигналов больше числа выходных каналов, поскольку множество объектных сигналов с большой вероятностью должны назначаться одной пространственной позиции.Audio decoding apparatus 120 can be effectively used when the number of object signals is greater than the number of output channels, since many object signals are most likely to be assigned to one spatial position.

Альтернативно, устройство 120 декодирования аудио может быть использовано, когда первый объектный сигнал и второй объектный сигнал назначаются одной позиции в многоканальном пространстве, но имеют различные уровни. В этом случае, устройство 120 декодирования аудио декодирует первый и второй объектные сигналы посредством интерпретации первого и второго объектных сигналов как одного сигнала, вместо декодирования первого и второго объектных сигналов отдельно и передачи декодированных первого и второго объектных сигналов в микшер/рендерер 123. Более конкретно, объектный декодер 121 может получать информацию, касающуюся разности между уровнями первого и второго объектных сигналов, из управляющей информации в модифицированной дополнительной информации, и декодировать первый и второй объектные сигналы на основе полученной информации. Как результат, даже если первый и второй объектные сигналы имеют различные уровни, первый и второй объектные сигналы могут быть декодированы, как если бы они являлись одним источником звука.Alternatively, audio decoding apparatus 120 may be used when the first object signal and the second object signal are assigned to the same position in the multi-channel space, but at different levels. In this case, the audio decoding apparatus 120 decodes the first and second object signals by interpreting the first and second object signals as a single signal, instead of decoding the first and second object signals separately and transmitting the decoded first and second object signals to the mixer / renderer 123. More specifically, the object decoder 121 may receive information regarding the difference between the levels of the first and second object signals from the control information in the modified additional information, and decode the first and second object signals based on the received information. As a result, even if the first and second object signals have different levels, the first and second object signals can be decoded as if they were a single sound source.

Еще альтернативно, объектный декодер 121 может регулировать уровни объектных сигналов, сформированных посредством объектного декодера 121 согласно управляющей информации. Далее объектный декодер 121 может декодировать объектные сигналы, уровни которых отрегулированы. Соответственно, микшер/рендерер 123 не должен регулировать уровни декодированных объектных сигналов, предоставляемых посредством объектного декодера 121, а просто компонует декодированные объектные сигналы, предоставляемые посредством объектного декодера 121, в многоканальном пространстве. Вкратце, поскольку объектный декодер 121 регулирует уровни объектных сигналов, формируемых посредством объектного декодера 121, согласно управляющей информации микшер/рендерер 123 может легко компоновать объектные сигналы, формируемые посредством объектного декодера 121, в многоканальном пространстве без необходимости дополнительно регулировать уровни объектных сигналов, формируемых посредством объектного декодера 121. Следовательно, можно снижать сложность микширования/рендеринга.Still alternatively, object decoder 121 may adjust the levels of object signals generated by object decoder 121 according to control information. Further, the object decoder 121 can decode object signals whose levels are adjusted. Accordingly, the mixer / renderer 123 does not have to adjust the levels of the decoded object signals provided by the object decoder 121, but simply composes the decoded object signals provided by the object decoder 121 in a multi-channel space. Briefly, since the object decoder 121 adjusts the levels of the object signals generated by the object decoder 121, according to the control information, the mixer / renderer 123 can easily compose the object signals generated by the object decoder 121 in multi-channel space without the need to further adjust the levels of the object signals generated by the object decoder 121. Consequently, mixing / rendering complexity can be reduced.

Согласно варианту осуществления по фиг.2 объектный декодер устройства 120 декодирования аудио может адаптивно выполнять операцию декодирования посредством анализа управляющей информации, тем самым снижая сложность декодирования и сложность микширования/рендеринга. Может быть использована комбинация вышеописанных способов, выполняемых посредством устройства 120 декодирования аудио.According to the embodiment of FIG. 2, the object decoder of the audio decoding apparatus 120 can adaptively perform a decoding operation by analyzing control information, thereby reducing the decoding complexity and the complexity of mixing / rendering. A combination of the above methods performed by the audio decoding apparatus 120 may be used.

Фиг.3 иллюстрирует блок-схему устройства 130 декодирования аудио согласно второму варианту осуществления настоящего изобретения. Ссылаясь на фиг.3, устройство 130 декодирования аудио включает в себя объектный декодер 131 и микшер/рендерер 133. Устройство 130 декодирования аудио отличается за счет предоставления дополнительной информации не только в объектный декодер 131, но также в микшер/рендерер 133.FIG. 3 illustrates a block diagram of an audio decoding apparatus 130 according to a second embodiment of the present invention. Referring to FIG. 3, the audio decoding apparatus 130 includes an object decoder 131 and a mixer / renderer 133. The audio decoding device 130 is different by providing additional information not only to the object decoder 131, but also to the mixer / renderer 133.

Устройство 130 декодирования аудио может эффективно выполнять операцию декодирования, даже когда имеется объектный сигнал, соответствующий периоду молчания. Например, второй-четвертый объектные сигналы могут соответствовать периоду воспроизведения музыки, в течение которого воспроизводится музыкальный инструмент, а первый объектный сигнал может соответствовать периоду приглушения звука, в течение которого воспроизводится только фоновая музыка, и первый объектный сигнал может соответствовать периоду молчания, в течение которого воспроизводится аккомпанемент. В этом случае информация, указывающая то, какой из множества объектных сигналов соответствует периоду молчания, может быть включены в дополнительную информацию, и дополнительная информация может быть предоставлена в микшер/рендерер 133, а также в объектный декодер 131.An audio decoding apparatus 130 can efficiently perform a decoding operation even when there is an object signal corresponding to a period of silence. For example, the second to fourth object signals may correspond to a music playback period during which a musical instrument is played, and the first object signal may correspond to a mute period during which only background music is played, and the first object signal may correspond to a silence period during which accompaniment is played. In this case, information indicating which of the plurality of object signals corresponds to the silence period can be included in the additional information, and additional information can be provided in the mixer / renderer 133, as well as in the object decoder 131.

Объектный декодер 131 может минимизировать скорость декодирования не только посредством декодирования объектного сигнала, соответствующего периоду молчания. Объектный декодер 131 задает объектный сигнал, соответствующий значению в 0, и передает уровень объектного сигнала в микшер/рендерер 133. В общем, объектные сигналы, имеющие значение в 0, интерпретируются так же, как и объектные сигналы, имеющие значение, отличное от 0, и тем самым подвергаются операции микширования/рендеринга.The object decoder 131 can minimize the decoding speed not only by decoding the object signal corresponding to the silence period. The object decoder 131 sets the object signal corresponding to a value of 0, and transmits the level of the object signal to the mixer / renderer 133. In general, object signals having a value of 0 are interpreted in the same way as object signals having a value other than 0, and thereby undergo mixing / rendering operations.

С другой стороны, устройство 130 декодирования аудио передает дополнительную информацию, включающую в себя информацию, указывающую то, какой из множества объектных сигналов соответствует периоду молчания, в микшер/рендерер 133, и тем самым не допускает обработки объектного сигнала, соответствующего периоду молчания, посредством операции микширования/рендеринга, выполняемой посредством микшера/рендерера 133. Следовательно, устройство 130 декодирования аудио позволяет не допускать лишнего возрастания сложности микширования/рендеринга.On the other hand, the audio decoding apparatus 130 transmits additional information including information indicating which of the plurality of object signals corresponds to the silence period to the mixer / renderer 133, and thereby does not allow processing of the object signal corresponding to the silence period through an operation mixing / rendering performed by the mixer / renderer 133. Consequently, the audio decoding apparatus 130 avoids unnecessarily increasing mixing / rendering complexity.

Фиг.4 иллюстрирует блок-схему устройства 140 декодирования аудио согласно третьему варианту осуществления настоящего изобретения. Ссылаясь на фиг.4, устройство 140 декодирования аудио использует многоканальный декодер 141 вместо объектного декодера и микшера/рендерера и декодирует ряд объектных сигналов после того, как объектные сигналы надлежащим образом скомпонованы в многоканальном пространстве.FIG. 4 illustrates a block diagram of an audio decoding apparatus 140 according to a third embodiment of the present invention. Referring to FIG. 4, an audio decoding apparatus 140 uses a multi-channel decoder 141 instead of an object decoder and a mixer / renderer and decodes a series of object signals after the object signals are properly arranged in the multi-channel space.

Более конкретно, устройство 140 декодирования аудио включает в себя многоканальный декодер 141 и преобразователь 145 параметров. Многоканальный 141 декодер формирует многоканальный сигнал, объектные сигналы которого уже скомпонованы в многоканальном пространстве, на основе сигнала понижающего микширования и информации пространственных параметров, которая является информацией основывающихся на каналах параметров, предоставляемой посредством преобразователя 145 параметров. Преобразователь 145 параметров анализирует дополнительную информацию и управляющую информацию, передаваемую посредством устройства кодирования аудио (не показано), и формирует информацию пространственных параметров на основе результата анализа. Более конкретно, преобразователь 145 параметров формирует информацию пространственных параметров посредством комбинирования дополнительной информации и управляющей информации, которая включает в себя информацию настроек воспроизведения и информацию микширования. Т.е. преобразователь 145 параметров выполняет преобразование комбинации дополнительной информации и управляющей информации в пространственные данные, соответствующие модулю один-в-два (OTT) или модулю два-в-три (TTT).More specifically, the audio decoding apparatus 140 includes a multi-channel decoder 141 and a parameter converter 145. The multi-channel 141 decoder generates a multi-channel signal, the object signals of which are already arranged in the multi-channel space, on the basis of the down-mix signal and the spatial parameter information, which is information based on the parameter channels provided by the parameter converter 145. The parameter converter 145 analyzes additional information and control information transmitted by an audio encoding device (not shown), and generates spatial parameter information based on the analysis result. More specifically, the parameter transformer 145 generates spatial parameter information by combining additional information and control information, which includes reproduction setting information and mixing information. Those. a parameter converter 145 converts a combination of additional information and control information into spatial data corresponding to a one-to-two (OTT) module or a two-to-three module (TTT).

Устройство 140 декодирования аудио может выполнять операцию многоканального декодирования, в которую объединены операция основывающегося на объектах декодирования и операция микширования/рендеринга, и тем самым может пропускать декодирование каждого объектного сигнала. Следовательно, можно снижать сложность декодирования и/или микширования/рендеринга.The audio decoding apparatus 140 may perform a multi-channel decoding operation in which an object-based decoding operation and a mixing / rendering operation are combined, and thereby can skip decoding of each object signal. Therefore, it is possible to reduce the complexity of decoding and / or mixing / rendering.

Например, когда имеется 10 объектных сигналов, и многоканальный сигнал, полученный на основе 10 объектных сигналов, должен быть воспроизведен посредством 5.1-канальной акустической системы, типичное устройство декодирования основывающегося на объектах аудио формирует декодированные сигналы, надлежащим образом соответствующие 10 объектным сигналам, на основе сигнала понижающего микширования и дополнительной информации, и затем формирует 5.1-канальный сигнал посредством надлежащей компоновки 10 объектных сигналов в многоканальное пространство, так что объектные сигналы могут стать подходящими для 5.1-канального акустического окружения. Тем не менее, недостаточно сформировать 10 объектных сигналов в ходе формирования 5.1-канального сигнала, и эта проблема становится более серьезной по мере того, как разность между числом объектных сигналов и числом каналов многоканального сигнала, который должен быть сформирован, возрастает.For example, when there are 10 object signals, and a multi-channel signal derived from 10 object signals must be reproduced by a 5.1 channel speaker system, a typical object-based audio decoding device generates decoded signals appropriately corresponding to 10 object signals based on the signal downmix and additional information, and then generates a 5.1-channel signal by appropriately linking 10 object signals into a multi-channel space GUSTs, so that the object signals can become suitable for 5.1-channel acoustic environments. However, it is not enough to generate 10 object signals during the generation of the 5.1-channel signal, and this problem becomes more serious as the difference between the number of object signals and the number of channels of the multichannel signal to be generated increases.

С другой стороны, в варианте осуществления по фиг.4 устройство 140 декодирования аудио формирует информацию пространственных параметров, подходящую для 5.1-канального сигнала, на основе дополнительной информации и управляющей информации и предоставляет информацию пространственных параметров и сигнал понижающего микширования в многоканальный декодер 141. Затем многоканальный декодер 141 формирует 5.1-канальный сигнал на основе информации пространственных параметров и сигнала понижающего микширования. Другими словами, когда число каналов, которые должны быть выведены, составляет 5.1 каналов, устройство 140 декодирования аудио может просто сформировать 5.1-канальный сигнал на основе сигнала понижающего микширования без необходимости формировать 10 объектных сигналов и, таким образом, является более эффективным, чем традиционное устройство декодирования аудио, в отношении сложности.On the other hand, in the embodiment of FIG. 4, the audio decoding apparatus 140 generates spatial parameter information suitable for a 5.1 channel signal based on additional information and control information and provides spatial parameter information and a downmix signal to a multi-channel decoder 141. Then, multi-channel decoder 141 generates a 5.1 channel signal based on spatial parameter information and a downmix signal. In other words, when the number of channels to be output is 5.1 channels, the audio decoding apparatus 140 can simply generate a 5.1 channel signal based on the downmix signal without the need to generate 10 object signals and is thus more efficient than a conventional device audio decoding regarding complexity.

Устройство 140 декодирования аудио считается эффективным, когда объем вычислений, требуемых для того, чтобы вычислять информацию пространственных параметров, соответствующую каждому из OTT-модуля и TTT-модуля посредством анализа дополнительной информации и управляющей информации, передаваемой посредством устройства кодирования аудио, меньше объема вычислений, требуемого для того, чтобы выполнять операцию микширования/рендеринга после декодирования каждого объектного сигнала.The audio decoding apparatus 140 is considered effective when the amount of computation required to calculate the spatial parameter information corresponding to each of the OTT module and the TTT module by analyzing additional information and control information transmitted by the audio encoding apparatus is less than the computational amount required in order to perform the mixing / rendering operation after decoding each object signal.

Устройство 140 декодирования аудио может быть получено посредством добавления модуля для формирования информации пространственных параметров посредством анализа дополнительной информации и управляющей информации в типичное устройство декодирования многоканального аудио и поэтому может сохранять совместимость с типичным устройством декодирования многоканального аудио. Так же, устройство 140 декодирования может повышать качество звука с использованием существующих средств типичного устройства декодирования многоканального аудио, таких как формирователь огибающей, средство временной обработки подполос (STP) и декоррелятор. С учетом всего этого следует сделать вывод о том, что все преимущества типичного способа декодирования многоканального аудио могут быть легко применены к способу декодирования объектного аудио.An audio decoding apparatus 140 can be obtained by adding a module for generating spatial parameter information by analyzing additional information and control information into a typical multi-channel audio decoding device and therefore can maintain compatibility with a typical multi-channel audio decoding device. Also, decoding apparatus 140 can improve sound quality using existing means of a typical multichannel audio decoding apparatus, such as an envelope shaper, subband temporal processing (STP) means, and a decorrelator. Given all this, it should be concluded that all the advantages of a typical method for decoding multi-channel audio can be easily applied to a method for decoding object audio.

Информация пространственных параметров, передаваемая в многоканальный декодер 141 посредством преобразователя 145 параметров, может быть сжата, с тем, чтобы быть подходящей для передачи. Альтернативно, информация пространственных параметров может иметь такой же формат, что и формат данных, передаваемых посредством типичного устройства многоканального кодирования. Т.е. информация пространственных параметров может быть подвергнута операции декодирования Хаффмана или операции контрольного декодирования и тем самым может быть передана в каждый модуль как несжатые данные пространственных меток. Первое подходит для передачи информации пространственных параметров в устройство декодирования многоканального аудио в удаленном месте, а второе удобно, поскольку нет необходимости устройству декодирования многоканального аудио преобразовывать сжатые данные пространственных меток в несжатые данные пространственных меток, которые могут быть легко использованы в операции декодирования.The spatial parameter information transmitted to the multi-channel decoder 141 by the parameter converter 145 may be compressed so as to be suitable for transmission. Alternatively, the spatial parameter information may have the same format as the data format transmitted by a typical multi-channel encoding device. Those. the spatial parameter information may be subjected to a Huffman decoding operation or a control decoding operation, and thereby may be transmitted to each module as uncompressed spatial mark data. The first is suitable for transmitting spatial parameter information to a multi-channel audio decoding device in a remote location, and the second is convenient since there is no need for the multi-channel audio decoding device to convert compressed spatial label data to uncompressed spatial label data, which can be easily used in the decoding operation.

Конфигурация информации пространственной задержки на основе анализа дополнительной информации и управляющей информации может вызывать задержку. Чтобы компенсировать эту задержку, может быть предусмотрен дополнительный буфер для сигнала понижающего микширования с тем, чтобы задержка между сигналом понижающего микширования и потоком битов могла компенсироваться. Альтернативно, может быть предусмотрен дополнительный буфер для информации пространственных параметров, полученной из управляющей информации с тем, чтобы задержка между информацией пространственных параметров и потоком битов могла компенсироваться. Эти способы, тем не менее, являются неудобными из-за необходимости предоставлять дополнительный буфер. Альтернативно, дополнительная информация может передаваться впереди сигнала понижающего микширования с учетом возможности возникновения задержки между сигналом понижающего микширования и информацией пространственных параметров. В этом случае информация пространственных параметров, полученная посредством комбинирования дополнительной информации и управляющей информации, не обязательно должна корректироваться, а может легко быть использована.The configuration of spatial delay information based on the analysis of additional information and control information may cause a delay. To compensate for this delay, an additional buffer for the downmix signal may be provided so that the delay between the downmix signal and the bitstream can be compensated. Alternatively, an additional buffer may be provided for spatial parameter information obtained from the control information so that the delay between the spatial parameter information and the bitstream can be compensated. These methods, however, are inconvenient due to the need to provide an additional buffer. Alternatively, additional information may be transmitted ahead of the downmix signal, taking into account the possibility of a delay between the downmix signal and the spatial parameter information. In this case, the spatial parameter information obtained by combining additional information and control information does not have to be adjusted, but can easily be used.

Если множество объектных сигналов из сигнала понижающего микширования имеют различные уровни, модуль произвольного усиления понижающего микширования (ADG), который может непосредственно компенсировать сигнал понижающего микширования, может определять относительные уровни объектных сигналов, и каждый из объектных сигналов может быть назначен предварительно определенной позиции в многоканальном пространстве с помощью данных пространственных меток, такие как информация разности уровней каналов (CLD), информация межканальных корреляций (ICC) и информация коэффициентов прогнозирования каналов (CPC).If the plurality of object signals from the downmix signal have different levels, an arbitrary downmix gain module (ADG) that can directly compensate for the downmix signal can determine the relative levels of the object signals, and each of the object signals can be assigned to a predetermined position in the multi-channel space using spatial label data, such as channel level difference (CLD) information, inter-channel correlation information (ICC) and channel prediction coefficient (CPC) information.

Например, если управляющая информация указывает то, что предварительно определенный объектный сигнал должен быть назначен предварительно определенной позиции в многоканальном пространстве и имеет более высокий уровень, чем другие объектные сигналы, типичный многоканальный декодер может вычислять разность между энергиями каналов в сигнале понижающего микширования и поделить сигнал понижающего микширования на число выходных каналов на основе результатов вычислений. Тем не менее, типичный многоканальный декодер не может повышать или понижать громкость определенного звука в сигнале понижающего микширования. Другими словами, типичный многоканальный декодер просто распределяет сигнал понижающего микширования по числу выходных каналов и тем самым не может повышать или понижать громкость звука в сигнале понижающего микширования.For example, if the control information indicates that a predefined object signal should be assigned to a predefined position in multi-channel space and is higher than other object signals, a typical multi-channel decoder can calculate the difference between the channel energies in the downmix signal and divide the downmix signal mixing on the number of output channels based on the calculation results. However, a typical multi-channel decoder cannot increase or decrease the volume of a particular sound in a downmix signal. In other words, a typical multi-channel decoder simply distributes the downmix signal over the number of output channels and thus cannot increase or decrease the sound volume in the downmix signal.

Относительно просто назначать каждый из ряда объектных сигналов в сигнале понижающего микширования, сформированном посредством объектного декодера, предварительно определенной позиции в многоканальном пространстве согласно управляющей информации. Тем не менее, специальные методики требуются для того, чтобы увеличивать или уменьшать амплитуду предварительно определенного объектного сигнала. Другими словами, если сигнал понижающего микширования, сформированный посредством объектного декодера, используется как есть, трудно уменьшать амплитуду каждого объектного сигнала в сигнале понижающего микширования.It is relatively simple to assign each of a number of object signals in a downmix signal generated by the object decoder to a predetermined position in the multi-channel space according to the control information. However, special techniques are required in order to increase or decrease the amplitude of a predefined object signal. In other words, if the downmix signal generated by the object decoder is used as is, it is difficult to reduce the amplitude of each object signal in the downmix signal.

Следовательно, согласно варианту осуществления настоящего изобретения относительные амплитуды объектных сигналов могут варьироваться согласно управляющей информации посредством использования ADG-модуля 147, проиллюстрированного на фиг.5. ADG-модуль 147 может быть установлен в многоканальном декодере 141 или может быть отдельным от многоканального декодера 141.Therefore, according to an embodiment of the present invention, the relative amplitudes of the object signals can be varied according to the control information by using the ADG module 147 illustrated in FIG. The ADG module 147 may be installed in the multi-channel decoder 141 or may be separate from the multi-channel decoder 141.

Если относительные амплитуды объектных сигналов в сигнале понижающего микширования надлежащим образом отрегулированы с помощью ADG-модуля 147, можно выполнять объектное декодирование с помощью типичного многоканального декодера. Если сигнал понижающего микширования, сформированный посредством объектного декодера, является моно- или стереосигналом либо многоканальным сигналом с тремя или более каналами, сигнал понижающего микширования может быть обработан посредством ADG-модуля 147. Если сигнал понижающего микширования, сформированный посредством объектного декодера, имеет два или более каналов, и предварительно определенный объектный сигнал, который должен быть отрегулирован посредством ADG-модуля 147, существует только в одном из каналов сигнала понижающего микширования, ADG-модуль 147 может быть применен только к каналу, включающему в себя предварительно определенный объектный сигнал, вместо применения ко всем каналам сигнала понижающего микширования. Сигнал понижающего микширования, обработанный посредством ADG-модуля 147 вышеописанным способом, может быть легко обработан с помощью типичного многоканального кодера без необходимости модифицировать структуру многоканального декодера.If the relative amplitudes of the object signals in the downmix signal are properly adjusted using the ADG module 147, you can perform object decoding using a typical multi-channel decoder. If the down-mix signal generated by the object decoder is a mono or stereo signal or a multi-channel signal with three or more channels, the down-mix signal can be processed by the ADG module 147. If the down-mix signal generated by the object decoder has two or more channels, and a predefined object signal to be adjusted by the ADG module 147 exists in only one of the channels of the downmix signal In contrast, the ADG module 147 can only be applied to a channel that includes a predefined object signal, instead of applying a down-mix signal to all channels. The downmix signal processed by the ADG module 147 in the manner described above can be easily processed using a typical multi-channel encoder without the need to modify the structure of the multi-channel decoder.

Даже когда конечный выходной сигнал не является многоканальным сигналом, который может быть воспроизведен посредством многоканальной акустической системы, а является стереофоническим (бинацеальным) сигналом, ADG-модуль 147 может быть использован для того, чтобы регулировать относительные амплитуды объектных сигналов конечного выходного сигнала.Even when the final output signal is not a multi-channel signal that can be reproduced by a multi-channel speaker system, but is a stereo (binaceal) signal, the ADG module 147 can be used to adjust the relative amplitudes of the object signals of the final output signal.

Альтернативно применению ADG-модуля 147, информация усиления, задающая значение усиление, которое должно быть применено к каждому объектному сигналу, может быть включена в управляющую информацию в ходе формирования ряда объектных сигналов. Для этого структура типичного многоканального декодера может быть модифицирована. Несмотря на необходимость модификации структуры существующего многоканального декодера, этот способ является удобным в отношении сложности декодирования за счет применения значения усиления к каждому объектному сигналу в ходе операции декодирования без необходимости вычислять ADG и компенсировать каждый объектный сигнал.Alternative to using the ADG module 147, gain information specifying a gain value to be applied to each object signal may be included in the control information during the generation of a number of object signals. For this, the structure of a typical multi-channel decoder can be modified. Despite the need to modify the structure of an existing multi-channel decoder, this method is convenient in terms of decoding complexity by applying a gain value to each object signal during the decoding operation without the need to calculate ADG and compensate for each object signal.

ADG-модуль 147 может быть использован не только для регулирования объектных сигналов, но также для модификации информации спектра конкретного объектного сигнала. Более конкретно, ADG-модуль 147 может быть использован не только для того, чтобы повышать или понижать уровень конкретного объектного сигнала, но также для того, чтобы модифицировать информацию спектра конкретного объектного сигнала, такую как усиление высокотональной или низкотональной части конкретного объектного сигнала. Невозможно модифицировать информацию спектра без использования ADG-модуля 147.The ADG module 147 can be used not only to control the object signals, but also to modify the spectrum information of a particular object signal. More specifically, the ADG module 147 can be used not only to raise or lower the level of a specific object signal, but also to modify the spectrum information of a specific object signal, such as amplification of the high-tone or low-tone part of a specific object signal. It is not possible to modify spectrum information without using the ADG module 147.

Фиг.6 иллюстрирует блок-схему устройства 150 декодирования аудио согласно четвертому варианту осуществления настоящего изобретения. Ссылаясь на фиг.6, устройство 150 декодирования аудио включает в себя многоканальный стереофонический декодер 151, первый преобразователь 157 параметров и второй преобразователь 159 параметров.6 illustrates a block diagram of an audio decoding apparatus 150 according to a fourth embodiment of the present invention. Referring to FIG. 6, an audio decoding apparatus 150 includes a multi-channel stereo decoder 151, a first parameter converter 157 and a second parameter converter 159.

Второй преобразователь 159 параметров анализирует дополнительную информацию и управляющую информацию, которая предоставляется посредством устройства кодирования аудио, и конфигурирует информацию пространственных параметров на основе результата анализа. Первый преобразователь 157 параметров конфигурирует информацию виртуальных трехмерных (3D) параметров, которая может быть использована посредством многоканального стереофонического декодера 151, посредством добавления трехмерной (3D) информации, такой как функция моделирования восприятия звука (HRTF), в информацию пространственных параметров. Многоканальный стереофонический декодер 151 формирует стереофонический сигнал посредством применения информации стереофонических параметров к сигналу понижающего микширования.The second parameter converter 159 analyzes additional information and control information that is provided by the audio encoding device, and configures the spatial parameter information based on the analysis result. The first parameter converter 157 configures virtual three-dimensional (3D) parameter information that can be used by the multi-channel stereo decoder 151 by adding three-dimensional (3D) information, such as a sound perception modeling (HRTF) function, to spatial parameter information. A multi-channel stereo decoder 151 generates a stereo signal by applying stereo information to a downmix signal.

Первый преобразователь 157 параметров и второй преобразователь 159 параметров могут быть заменены посредством одного модуля, т.е. модуля 155 преобразования параметров, который принимает дополнительную информацию, управляющую информацию и 3D информацию и конфигурирует информацию стереофонических параметров на основе дополнительной информации, управляющей информации и HRTF-параметров.The first parameter converter 157 and the second parameter converter 159 can be replaced by one module, i.e. a parameter conversion module 155, which receives additional information, control information, and 3D information and configures stereo parameter information based on the additional information, control information, and HRTF parameters.

Традиционно для того, чтобы сформировать стереофонический сигнал для воспроизведения сигнала понижающего микширования, включающего в себя 10 объектных сигналов, с помощью наушников, объектный сигнал должен сформировать 10 декодированных сигналов, надлежащим образом соответствующих 10 объектным сигналам на основе сигнала понижающего микширования и дополнительной информации. Затем микшер/рендерер назначает каждый из 10 объектных сигналов предварительно определенной позиции в многоканальном пространстве со ссылкой на управляющую информацию, с тем, чтобы удовлетворять требованиям 5-канального акустического окружения. После этого микшер/рендерер формирует 5-канальный сигнал, который может быть воспроизведен посредством 5-канальной акустической системы. Далее микшер/рендерер применяет 3D информацию к 5-канальному сигналу, тем самым формируя 2-канальный сигнал. Вкратце, вышеупомянутый традиционный способ декодирования аудио включает в себя воспроизведение 10 объектных сигналов, преобразование 10 объектных сигналов в 5-канальный сигнал и формирование 2-канального сигнала на основе 5-канального сигнала, и это тем самым является неэффективным.Traditionally, in order to generate a stereo signal for reproducing a downmix signal including 10 object signals using headphones, the object signal must generate 10 decoded signals appropriately corresponding to 10 object signals based on the downmix signal and additional information. The mixer / renderer then assigns each of 10 object signals of a predetermined position in the multi-channel space with reference to control information so as to satisfy the requirements of the 5-channel acoustic environment. After that, the mixer / renderer generates a 5-channel signal, which can be reproduced by means of a 5-channel speaker system. Next, the mixer / renderer applies 3D information to the 5-channel signal, thereby forming a 2-channel signal. Briefly, the aforementioned conventional audio decoding method includes reproducing 10 object signals, converting 10 object signals to a 5-channel signal, and generating a 2-channel signal based on the 5-channel signal, and this is thus ineffective.

С другой стороны, устройство 150 декодирования аудио может легко формировать стереофонический сигнал, который может быть воспроизведен с помощью наушников, на основе объектных сигналов. Помимо этого устройство 150 декодирования аудио конфигурирует информацию пространственных параметров посредством анализа дополнительной информации и управляющей информации и тем самым может формировать стереофонический сигнал с помощью типичного многоканального стереофонического декодера. Более того, устройство 150 декодирования аудио может использовать типичный многоканальный стереофонический декодер, даже когда оснащено встроенным преобразователем параметров, который принимает дополнительную информацию, управляющую информацию и HRTF-параметры и конфигурирует информацию стереофонических параметров на основе дополнительной информации, управляющей информации и HRTF-параметров.On the other hand, the audio decoding apparatus 150 can easily generate a stereo signal, which can be reproduced using headphones, based on object signals. In addition, the audio decoding apparatus 150 configures spatial parameter information by analyzing additional information and control information, and thereby can generate a stereo signal using a typical multi-channel stereo decoder. Moreover, the audio decoding apparatus 150 may use a typical multi-channel stereo decoder even when equipped with an integrated parameter converter that receives additional information, control information and HRTF parameters and configures stereo parameter information based on the additional information, control information and HRTF parameters.

Фиг.7 иллюстрирует блок-схему устройства 160 декодирования аудио согласно пятому варианту осуществления настоящего изобретения. Ссылаясь на фиг.7, устройство 160 декодирования аудио включает в себя препроцессор 161, многоканальный 163 декодер и преобразователь 165 параметров.7 illustrates a block diagram of an audio decoding apparatus 160 according to a fifth embodiment of the present invention. Referring to FIG. 7, an audio decoding apparatus 160 includes a preprocessor 161, a multi-channel 163 decoder, and a parameter converter 165.

Преобразователь 165 параметров формирует информацию пространственных параметров, которая может быть использована посредством многоканального декодера 163, и информацию параметров, которая может быть использована посредством препроцессора 161. Препроцессор 161 выполняет операцию предварительной обработки с сигналом понижающего микширования и передает сигнал понижающего микширования, получающийся в результате операции предварительной обработки, в многоканальный декодер 163. Многоканальный декодер 163 выполняет операцию декодирования сигнала понижающего микширования, передаваемого посредством препроцессора 161, тем самым выводя стереосигнал, стереофонический стереосигнал и многоканальный сигнал. Примеры операции предварительной обработки, выполняемой посредством препроцессора 161, включают в себя модификацию или преобразование сигнала понижающего микширования во временной области или частотной области с помощью фильтрации.The parameter converter 165 generates spatial parameter information that can be used by the multi-channel decoder 163, and parameter information that can be used by the preprocessor 161. The preprocessor 161 performs the preprocessing operation with the downmix signal and transmits the downmix signal resulting from the preliminary operation processing to the multi-channel decoder 163. The multi-channel decoder 163 performs the decoding operation of the signal ala downmix signal transmitted by the preprocessor 161, thereby outputting a stereo signal, stereo and multi-channel stereo signal. Examples of the preprocessing operation performed by preprocessor 161 include modifying or converting a downmix signal in a time domain or a frequency domain by filtering.

Если сигнал понижающего микширования, вводимый в устройство 160 декодирования аудио, является стереосигналом, сигнал понижающего микширования, возможно, должен быть подвергнут обработке понижающего микширования, выполняемой посредством препроцессора 161, перед вводом в многоканальный декодер 163, поскольку многоканальный декодер 163 не может преобразовывать объектный сигнал, соответствующий левому каналу стереосигнала понижающего микширования, в правый канал многоканального сигнала посредством декодирования. Следовательно, чтобы сдвигать объектный сигнал, принадлежащий левому каналу стереосигнала понижающего микширования, к правому каналу, стереосигнал понижающего микширования, возможно, должен быть предварительно обработан посредством препроцессора 161, и предварительно обработанный сигнал понижающего микширования может быть введен в многоканальный декодер 163.If the down-mix signal input to the audio decoding apparatus 160 is a stereo signal, the down-mix signal may need to be subjected to down-mix processing performed by the preprocessor 161 before being input to the multi-channel decoder 163, since the multi-channel decoder 163 cannot convert the object signal, corresponding to the left channel of the stereo down-mix signal, into the right channel of the multi-channel signal by decoding. Therefore, in order to shift the object signal belonging to the left channel of the stereo down-mix signal to the right channel, the stereo down-mix signal may need to be pre-processed by preprocessor 161, and the pre-processed down-mix signal can be input to multi-channel decoder 163.

Предварительная обработка стереосигнала понижающего микширования может выполняться на основе информации предварительной обработки, полученной из дополнительной информации и из управляющей информации.The preprocessing of the stereo down-mix signal can be performed based on the preprocessing information obtained from the additional information and from the control information.

Фиг.8 иллюстрирует блок-схему устройства 170 декодирования аудио согласно шестому варианту осуществления настоящего изобретения. Ссылаясь на фиг.8, устройство 170 декодирования аудио включает в себя многоканальный 171 декодер, постпроцессор 173 и преобразователь 175 параметров.FIG. 8 illustrates a block diagram of an audio decoding apparatus 170 according to a sixth embodiment of the present invention. Referring to FIG. 8, an audio decoding apparatus 170 includes a multi-channel decoder 171, a post-processor 173, and a parameter converter 175.

Преобразователь 175 параметров формирует информацию пространственных параметров, которая может быть использована посредством многоканального декодера 163, и информацию параметров, которая может быть использована посредством постпроцессора 173. Постпроцессор 173 выполняет операцию постобработки с сигналом, выводимым посредством многоканального декодера 173. Примеры сигнала, выводимого посредством многоканального декодера 173, включают в себя стереосигнал, стереофонический стереосигнал и многоканальный сигнал.The parameter converter 175 generates spatial parameter information that can be used by the multi-channel decoder 163, and parameter information that can be used by the post-processor 173. The post-processor 173 performs a post-processing operation on a signal output by the multi-channel decoder 173. Examples of the signal output by the multi-channel decoder 173 include a stereo signal, a stereo stereo signal, and a multi-channel signal.

Примеры операции постобработки, выполняемой посредством постпроцессора 173, включают в себя модификацию и преобразование каждого канала или всех каналов выходного сигнала. Например, если дополнительная информация включает в себя информацию собственной частоты, касающуюся предварительно определенного объектного сигнала, постпроцессор 173 может удалять гармонические компоненты из предварительно определенного объектного сигнала со ссылкой на информацию собственной частоты. Способ декодирования многоканального аудио может быть недостаточно эффективным для того, чтобы использовать в системе караоке. Тем не менее, если информация собственной частоты, касающаяся вокальных объектных сигналов, включена в дополнительную информацию, и гармонические компоненты вокальных объектных сигналов удаляются в ходе операции постобработки, можно реализовывать высокопроизводительную систему караоке посредством использования варианта осуществления по фиг.8. Вариант осуществления по фиг.8 также может быть применен к объектным сигналам, отличным от вокальных объектных сигналов. Например, можно удалять звук предварительно определенного музыкального инструмента посредством использования варианта осуществления по фиг.8. Так же, можно усиливать предварительно определенные гармонические компоненты с помощью информации собственной частоты, касающейся объектных сигналов, посредством использования варианта осуществления по фиг.8. Вкратце, параметры постобработки могут предоставлять возможность применения различных эффектов, таких как вставка эффекта реверберации, добавление шума и усиление низкой части, которые не могут быть применены посредством многоканального декодера 171.Examples of the post-processing operation performed by the post-processor 173 include modifying and converting each channel or all channels of the output signal. For example, if the additional information includes natural frequency information regarding a predetermined object signal, post processor 173 may remove harmonic components from the predetermined object signal with reference to natural frequency information. A multi-channel audio decoding method may not be effective enough to be used in a karaoke system. However, if the natural frequency information regarding the vocal object signals is included in the additional information, and the harmonic components of the vocal object signals are removed during the post-processing operation, a high-performance karaoke system can be implemented by using the embodiment of FIG. 8. The embodiment of FIG. 8 can also be applied to object signals other than vocal object signals. For example, you can delete the sound of a predefined musical instrument by using the embodiment of FIG. Also, it is possible to amplify predetermined harmonic components with natural frequency information regarding the object signals by using the embodiment of FIG. In short, post-processing parameters may provide the ability to apply various effects, such as inserting a reverb effect, adding noise, and amplifying the low part that cannot be applied by multi-channel decoder 171.

Постпроцессор 173 может непосредственно применять дополнительный эффект к сигналу понижающего микширования или добавлять сигнал понижающего микширования, к которому эффект уже применен, в вывод многоканального декодера 171. Постпроцессор 173 всегда может изменять спектр объекта или модифицировать сигнал понижающего микширования при необходимости. Если не подходит непосредственно выполнять операцию обработки эффектов, такую как реверберация, для сигнала понижающего микширования и передавать сигнал, полученный посредством операции обработки эффектов, в многоканальный декодер 171, препроцессор 173 может просто добавить сигнал, полученный посредством операции обработки эффектов, в вывод многоканального декодера 171 вместо непосредственного выполнения обработки эффектов с сигналом понижающего микширования и передачи результата обработки эффектов в многоканальный декодер 171.Postprocessor 173 can directly apply an additional effect to the downmix signal or add a downmix signal, to which the effect has already been applied, to the output of multi-channel decoder 171. Postprocessor 173 can always change the object spectrum or modify the downmix signal if necessary. If it is not suitable to directly perform an effect processing operation, such as reverb, for the downmix signal and transmit the signal obtained by the effect processing operation to the multi-channel decoder 171, the preprocessor 173 can simply add the signal obtained by the effects processing operation to the output of the multi-channel decoder 171 instead of directly executing the effects processing with the downmix signal and transmitting the result of the effects processing to the multi-channel decoder 171.

Фиг.9 иллюстрирует блок-схему устройства 180 декодирования аудио согласно седьмому варианту осуществления настоящего изобретения. Ссылаясь на фиг.9, устройство 180 декодирования аудио включает в себя препроцессор 181, многоканальный 183 декодер, постпроцессор 185 и преобразователь 187 параметров.FIG. 9 illustrates a block diagram of an audio decoding apparatus 180 according to a seventh embodiment of the present invention. Referring to FIG. 9, an audio decoding apparatus 180 includes a preprocessor 181, a multi-channel decoder 183, a post-processor 185, and a parameter converter 187.

Описание препроцессора 161 непосредственно применимо к препроцессору 181. Постпроцессор 185 может быть использован для того, чтобы суммировать вывод препроцессора 181 и вывод многоканального декодера 185 и тем самым предоставлять конечный сигнал. В этом случае постпроцессор 185 выступает просто в качестве сумматора для суммирования сигналов. Параметр эффектов может предоставляться в тот из препроцессора 181 и постпроцессора 185, который осуществляет применение эффекта. Помимо этого, добавление сигнала, полученного посредством применения эффекта сигнала понижающего микширования, в вывод многоканального декодера 183 и применение эффекта к выводу многоканального декодера 185 может выполняться одновременно.The description of preprocessor 161 is directly applicable to preprocessor 181. Postprocessor 185 can be used to summarize the output of preprocessor 181 and the output of multi-channel decoder 185 and thereby provide the final signal. In this case, the post-processor 185 acts merely as an adder for summing the signals. An effect parameter may be provided to that of preprocessor 181 and postprocessor 185 that implements the effect. In addition, adding the signal obtained by applying the effect of the down-mix signal to the output of the multi-channel decoder 183 and applying the effect to the output of the multi-channel decoder 185 can be performed simultaneously.

Препроцессоры 161 и 181 по фиг.7 и 9 могут выполнять рендеринг сигнала понижающего микширования согласно управляющей информации, предоставленной пользователем. Помимо этого, препроцессоры 161 и 181 по фиг.7 и 9 могут повышать или понижать уровни объектных сигналов и изменять спектр объектных сигналов. В этом случае препроцессоры 161 и 181 по фиг.7 и 9 могут выполнять функции ADG-модуля.The preprocessors 161 and 181 of FIGS. 7 and 9 may render the downmix signal according to control information provided by the user. In addition, the preprocessors 161 and 181 of FIGS. 7 and 9 can raise or lower levels of object signals and change the spectrum of object signals. In this case, the preprocessors 161 and 181 of FIGS. 7 and 9 can perform the functions of an ADG module.

Рендеринг объектного сигнала согласно информации направления объектного сигнала, регулировка уровня объектного сигнала и изменение спектра объектного сигнала могут выполняться одновременно. Помимо этого часть рендеринга объектного сигнала согласно информации направления объектного сигнала, регулировки уровня объектного сигнала и изменения спектра объектного сигнала может выполняться с помощью препроцессора 161 или 181, а то из рендеринга объектного сигнала согласно информации направления объектного сигнала, регулировки уровня объектного сигнала и изменения спектра объектного сигнала, что не выполняется посредством препроцессора 161 или 181, может выполняться посредством ADG-модуля. Например, неэффективно изменять спектр объектного сигнала посредством использования ADG-модуля, который использует интервал уровня квантования и интервал параметрической полосы. В этом случае препроцессор 161 или 181 может быть использован для того, чтобы поминутно изменять спектр объектного сигнала на почастотной основе, а ADG-модуль может быть использован для того, чтобы регулировать уровень объектного сигнала.Rendering of the object signal according to the direction information of the object signal, adjusting the level of the object signal and changing the spectrum of the object signal can be performed simultaneously. In addition, part of the rendering of the object signal according to the information of the direction of the object signal, adjusting the level of the object signal and changing the spectrum of the object signal can be performed using preprocessor 161 or 181, and even from rendering the object signal according to the information of the direction of the object signal, adjusting the level of the object signal and changing the spectrum of the object a signal that is not executed by the preprocessor 161 or 181 can be performed by the ADG module. For example, it is inefficient to change the spectrum of an object signal by using an ADG module that uses a quantization level interval and a parametric band interval. In this case, preprocessor 161 or 181 can be used to constantly change the spectrum of the object signal on a frequency basis, and the ADG module can be used to adjust the level of the object signal.

Фиг.10 иллюстрирует блок-схему устройства декодирования аудио согласно восьмому варианту осуществления настоящего изобретения. Ссылаясь на фиг.10, устройство 200 декодирования аудио включает в себя формирователь 201 матриц рендеринга, транскодер 203, многоканальный декодер 205, препроцессор 207, процессор 208 эффектов и сумматор 209.10 illustrates a block diagram of an audio decoding apparatus according to an eighth embodiment of the present invention. Referring to FIG. 10, an audio decoding apparatus 200 includes a rendering matrix generator 201, a transcoder 203, a multi-channel decoder 205, a preprocessor 207, an effects processor 208, and an adder 209.

Формирователь 201 матриц рендеринга формирует матрицу рендеринга, которая представляет информацию позиций объектов, касающуюся позиций объектных сигналов, и информацию конфигурации воспроизведения, касающуюся уровней объектных сигналов, и предоставляет матрицу рендеринга в транскодер 203. Формирователь 201 матриц рендеринга формирует 3D информацию, такую как HRTF-коэффициент, на основе информации позиции объектов. HRTF - это передаточная функция, которая описывает передачу звуковых волн между источником звука в произвольной позиции и барабанной перепонкой, и возвращает значение, которое варьируется согласно направлению и высоте источника звука. Если сигнал без направленности фильтруется с помощью HRTF, сигнал может быть услышан, как если бы он воспроизводился из определенного направления.The rendering matrix generator 201 generates a rendering matrix that represents object position information regarding the positions of the object signals and the playback configuration information regarding the object signal levels and provides the rendering matrix to the transcoder 203. The rendering matrix generator 201 generates 3D information, such as an HRTF coefficient based on the position information of the objects. HRTF is a transfer function that describes the transmission of sound waves between a sound source in an arbitrary position and the eardrum, and returns a value that varies according to the direction and height of the sound source. If a signal with no directivity is filtered using HRTF, the signal can be heard as if it were being played back from a specific direction.

Информация позиции объектов и информация конфигурации воспроизведения, которая принимает посредством формирователя 201 матриц рендеринга, может варьироваться во времени и может предоставляться конечным пользователем.Object position information and playback configuration information that is received by the rendering matrix generator 201 may vary over time and may be provided by the end user.

Транскодер 203 формирует основывающуюся на каналах дополнительную информацию на основе основывающейся на объектах дополнительной информации, матрицы рендеринга и 3D информации, и предоставляет в многоканальный декодер 209 основывающуюся на каналах дополнительную информацию и 3D информацию, требуемую для многоканального декодера 209. Т.е. транскодер 203 передает основывающуюся на каналах дополнительную информацию, касающуюся M каналов, которая получается из информации основывающихся на объектах параметров, касающейся N объектных сигналов, и 3D информации по каждому из N объектных сигналов, в многоканальный декодер 205.Transcoder 203 generates channel-based additional information based on object-based additional information, a rendering matrix, and 3D information, and provides, to multi-channel decoder 209, channel-based additional information and 3D information required for multi-channel decoder 209. That is, transcoder 203 transmits channel-based additional information regarding M channels, which is obtained from object-based parameter information regarding N object signals and 3D information for each of N object signals to multi-channel decoder 205.

Многоканальный декодер 205 формирует многоканальный аудиосигнал на основе сигнала понижающего микширования и основывающейся на каналах дополнительной информации, предоставленной посредством транскодера 203, и выполняет 3D рендеринг многоканального аудиосигнала согласно 3D информации, тем самым формируя 3D многоканальный сигнал. Формирователь 201 матриц рендеринга может включать в себя базу данных 3D информации (не показана).Multi-channel decoder 205 generates a multi-channel audio signal based on the down-mix signal and channel-based additional information provided by transcoder 203, and performs 3D rendering of the multi-channel audio signal according to 3D information, thereby generating a 3D multi-channel signal. The rendering matrix generator 201 may include a database of 3D information (not shown).

Если есть необходимость предварительно обрабатывать сигнал понижающего микширования перед вводом сигнала понижающего микширования в многоканальный декодер 205, транскодер 203 передает информацию, касающуюся предварительной обработки, в препроцессор 207. Основывающаяся на объектах дополнительная информация включает в себя информацию, касающуюся всех объектных сигналов, а матрица рендеринга включает в себя информацию позиции объектов и информацию конфигурации воспроизведения. Транскодер 203 может формировать основывающуюся на каналах дополнительную информацию на основе основывающейся на объектах дополнительной информации и матрицы рендеринга, и затем формирует основывающуюся на каналах дополнительную информацию, требуемую для микширования и воспроизведения объектных сигналов согласно канальной информации. Затем транскодер 203 передает основывающуюся на каналах дополнительную информацию в многоканальный декодер 205.If there is a need to pre-process the down-mix signal before the down-mix signal is input to the multi-channel decoder 205, the transcoder 203 transmits information regarding the preprocessing to the preprocessor 207. The object-based additional information includes information regarding all the object signals, and the rendering matrix includes information about the position of the objects and the configuration information of the playback. The transcoder 203 may generate channel-based additional information based on the object-based additional information and the rendering matrix, and then generates the channel-based additional information required for mixing and reproducing the object signals according to the channel information. Then, transcoder 203 transmits the channel-based supplemental information to multi-channel decoder 205.

Основывающаяся на каналах дополнительная информация и 3D информация, предоставляемая посредством транскодера 205, может включать в себя индексы кадров. Таким образом, многоканальный декодер 205 может синхронизировать основывающуюся на каналах дополнительную информацию и 3D информацию посредством использования индексов кадров, и тем самым может иметь возможность применять 3D информацию только к определенным кадрам потока битов. Помимо этого, даже если 3D информация обновлена, можно легко синхронизировать основывающуюся на каналах дополнительную информацию и обновленную 3D информацию посредством использования индексов кадров. Т.е. индексы кадров могут быть включены в основывающуюся на каналах дополнительную информацию и 3D информацию, соответственно, чтобы многоканальный декодер 205 синхронизировал основывающуюся на каналах дополнительную информацию и 3D информацию.Channel-based supplemental information and 3D information provided by transcoder 205 may include frame indices. Thus, the multi-channel decoder 205 can synchronize the channel-based additional information and 3D information by using frame indices, and thereby may be able to apply 3D information only to certain frames of the bitstream. In addition, even if the 3D information is updated, it is easy to synchronize the channel-based additional information and the updated 3D information by using frame indices. Those. frame indices can be included in the channel-based additional information and 3D information, respectively, so that the multi-channel decoder 205 synchronizes the channel-based additional information and 3D information.

Препроцессор 207 может выполнять предварительную обработку входного сигнала понижающего микширования, если необходимо, перед тем как входной сигнал понижающего микширования вводится в многоканальный декодер 205. Как описано выше, если входной сигнал понижающего микширования является стереосигналом, и нет необходимости воспроизводить объектный сигнал, принадлежащий левому каналу, из правого канала, сигнал понижающего микширования, возможно, должен быть подвергнут предварительной обработке, выполняемой посредством препроцессора 207, перед вводом в многоканальный декодер 205, поскольку многоканальный декодер 205 не может сдвигать объектный сигнал из одного канала к другому. Информация, требуемая для предварительной обработки входного сигнала понижающего микширования, может предоставляться в препроцессор 207 посредством транскодера 205. Сигнал понижающего микширования, получаемый посредством предварительной обработки, выполняемой посредством препроцессора 207, может передаваться в многоканальный декодер 205.The preprocessor 207 can pre-process the input down-mix signal, if necessary, before the input down-mix signal is input to the multi-channel decoder 205. As described above, if the input down-mix signal is a stereo signal, and there is no need to reproduce the object signal belonging to the left channel, from the right channel, the down-mix signal may need to be pre-processed by preprocessor 207, per ed by input to multi-channel decoder 205, since multi-channel decoder 205 cannot shift an object signal from one channel to another. The information required for preprocessing the input down-mix signal can be provided to preprocessor 207 by transcoder 205. The down-mix signal obtained by preprocessing performed by preprocessor 207 can be transmitted to multi-channel decoder 205.

Процессор 208 эффектов и сумматор 209 могут непосредственно применять дополнительный эффект к сигналу понижающего микширования или добавлять сигнал понижающего микширования, к которому эффект уже применен, в вывод многоканального декодера 205. Процессор 208 эффектов всегда может изменять спектр объекта или модифицировать сигнал понижающего микширования при необходимости. Если не подходит непосредственно выполнять операцию обработки эффектов, такую как реверберация, для сигнала понижающего микширования и передавать сигнал, полученный посредством операции обработки эффектов, в многоканальный декодер 205, процессор 208 эффектов может просто добавить сигнал, полученный посредством операции обработки эффектов, в вывод многоканального декодера 205 вместо непосредственного выполнения обработки эффектов с сигналом понижающего микширования и передачи результата обработки эффектов в многоканальный декодер 205.The effects processor 208 and the adder 209 can directly apply an additional effect to the downmix signal or add a downmix signal to which the effect has already been applied to the output of the multi-channel decoder 205. The effects processor 208 can always change the spectrum of an object or modify the downmix signal if necessary. If it is not suitable to directly perform an effect processing operation, such as reverb, for the downmix signal and transmit the signal obtained by the effect processing operation to the multi-channel decoder 205, the effects processor 208 can simply add the signal obtained by the effects processing operation to the output of the multi-channel decoder 205 instead of directly executing the effects processing with the downmix signal and transmitting the result of the effects processing to the multi-channel decoder 205.

Далее подробно описывается матрица рендеринга, формируемая посредством формирователя 201 матриц рендеринга.The following describes in detail the rendering matrix generated by the renderer 201 of the rendering matrix.

Матрица рендеринга - это матрица, которая представляет позиции и конфигурацию воспроизведения объектных сигналов. Т.е. если имеется N объектных сигналов и M каналов, матрица рендеринга может указывать то, как N объектных сигналов преобразуются в M каналов различными способами.A rendering matrix is a matrix that represents the position and reproduction configuration of object signals. Those. if there are N object signals and M channels, the rendering matrix may indicate how N object signals are converted to M channels in various ways.

Более конкретно, когда N объектных сигналов отображается на M каналов, матрица рендеринга N×M может быть установлена. В этом случае матрица рендеринга включает в себя N строк, которые, соответственно, представляют N объектных сигналов, и M столбцов, которые, соответственно, представляют M каналов. Каждый из M коэффициентов в каждой из N строк может быть действительным числом или целым числом, указывающим отношение части объектного сигнала, назначенной соответствующему каналу, ко всему объектному сигналу.More specifically, when N object signals are mapped onto M channels, an N × M rendering matrix can be set. In this case, the rendering matrix includes N rows, which respectively represent N object signals, and M columns, which respectively represent M channels. Each of the M coefficients in each of the N lines may be a real number or an integer indicating the ratio of the part of the object signal assigned to the corresponding channel to the entire object signal.

Более конкретно, M коэффициентов в каждой из N строк матрицы рендеринга N×M могут быть действительными числами. В таком случае, если сумма M коэффициентов в строке матрицы рендеринга N×M равна предварительно определенному опорному значению, например 1, может быть определено то, что уровень объектного сигнала не варьировался. Если сумма M коэффициентов меньше 1, определяется то, что уровень объектного сигнала понизился. Если сумма M коэффициентов больше 1, определяется то, что уровень объектного сигнала повысился. Предварительно определенным опорным значением может быть числовое значение, отличное от 1. Величина, на которую варьируется уровень объектного сигнала, может быть ограничена диапазоном в 12 дБ. Например, если предварительно определенное опорное значение равно 1, а сумма M коэффициентов составляет 1,5, может быть определено то, что уровень объектного сигнала увеличился на 12 дБ. Если предварительно определенное опорное значение равно 1, а сумма M коэффициентов составляет 0,5, определяется то, что уровень объектного сигнала уменьшился на 12 дБ. Если предварительно определенное опорное значение равно 1, а сумма M коэффициентов составляет 0,5-1,5, определяется то, что объектный сигнал варьируется на предварительно определенную величину между -12 дБ и +12 дБ, и предварительно определенная величина может быть линейно определена согласно сумме из M коэффициентов.More specifically, the M coefficients in each of the N rows of the N × M rendering matrix may be real numbers. In this case, if the sum of the M coefficients in the row of the N × M rendering matrix is equal to a predetermined reference value, for example 1, it can be determined that the level of the object signal did not vary. If the sum of the M coefficients is less than 1, it is determined that the level of the object signal has decreased. If the sum of the M coefficients is greater than 1, it is determined that the level of the object signal has increased. The predefined reference value may be a numerical value other than 1. The value by which the level of the object signal is varied may be limited to a range of 12 dB. For example, if the predetermined reference value is 1 and the sum of the M coefficients is 1.5, it can be determined that the level of the object signal has increased by 12 dB. If the predefined reference value is 1 and the sum of the M coefficients is 0.5, it is determined that the level of the object signal has decreased by 12 dB. If the predetermined reference value is 1, and the sum of the M coefficients is 0.5-1.5, it is determined that the object signal varies by a predetermined value between -12 dB and +12 dB, and the predetermined value can be linearly determined according to sum of M coefficients.

M коэффициентов в каждой из N строк матрицы рендеринга N×M могут быть целыми числами. В таком случае, если сумма M коэффициентов в строке матрицы рендеринга N×M равна предварительно определенному опорному значению, например, 10, 20, 30 или 100, может быть определено то, что уровень объектного сигнала не варьировался. Если сумма M коэффициентов меньше предварительно определенного опорного значения, может быть определено то, что уровень объектного сигнала не понизился. Если сумма M коэффициентов больше предварительно определенного опорного значения, может быть определено то, что уровень объектного сигнала не повысился. Величина, на которую варьируется уровень объектного сигнала, может быть ограничена, например, диапазоном в 12 дБ. Величина, на которую сумма M коэффициентов отличается от предварительно заданного опорного значения, может представлять величину (в дБ), на которую варьировался уровень объектного сигнала. Например, если сумма M коэффициентов больше предварительно определенного опорного значения, может быть определено то, что уровень объектного сигнала повысился на 2 дБ. Следовательно, если предварительно определенное опорное значение равно 20, а сумма M коэффициентов составляет 23, может быть определено то, что уровень объектного сигнала увеличился на 6 дБ. Если предварительно определенное опорное значение равно 20, а сумма M коэффициентов составляет 15, может быть определено то, что уровень объектного сигнала уменьшился на 10 дБ.The M coefficients in each of the N rows of the N × M rendering matrix can be integers. In this case, if the sum of the M coefficients in the row of the N × M rendering matrix is equal to a predetermined reference value, for example, 10, 20, 30, or 100, it can be determined that the level of the object signal did not vary. If the sum of the M coefficients is less than a predetermined reference value, it can be determined that the level of the object signal has not decreased. If the sum of the M coefficients is greater than a predetermined reference value, it can be determined that the level of the object signal has not increased. The value by which the level of the object signal is varied can be limited, for example, to a range of 12 dB. The amount by which the sum of the M coefficients differs from the predefined reference value may represent the amount (in dB) by which the level of the object signal was varied. For example, if the sum of the M coefficients is greater than a predetermined reference value, it can be determined that the level of the object signal has increased by 2 dB. Therefore, if the predetermined reference value is 20, and the sum of the M coefficients is 23, it can be determined that the level of the object signal has increased by 6 dB. If the predetermined reference value is 20, and the sum of the M coefficients is 15, it can be determined that the level of the object signal has decreased by 10 dB.

Например, если имеется шесть объектных сигналов и пять каналов (т.е. передний левый (FL), передний правый (FR), центральный (C), задний левый (RL) и задний правый (RR) каналы), матрица рендеринга 6×5, имеющая шесть строк, надлежащим образом соответствующих шести объектным сигналам, и пять столбцов, надлежащим образом соответствующих пяти каналам, может быть установлена. Коэффициенты матрицы рендеринга 6×5 могут быть целыми числами, указывающими соотношение, с которым каждый из шести объектных сигналов распределяется по пяти каналам. Матрица рендеринга 6×5 может иметь опорное значение в 10. Таким образом, если сумма пяти коэффициентов в любой одной из шести строк матрицы рендеринга 6×5 равна 10, может быть определено, что уровень соответствующего сигнала варьировался. Величина, на которую сумма пяти коэффициентов в любой одной из шести строк матрицы рендеринга 6×5 отличается от опорного значения, представляет величину, на которую варьировался уровень соответствующего объектного сигнала. Например, если сумма пяти коэффициентов в любой одной из шести строк матрицы рендеринга 6x5 отличается от опорного значения на 1, может быть определено, что уровень соответствующего объектного сигнала варьировался на 2 дБ. Матрица рендеринга 6x5 может быть представлена посредством уравнения (1):For example, if there are six object signals and five channels (i.e., front left (FL), front right (FR), center (C), rear left (RL) and rear right (RR) channels), a 6 × rendering matrix 5, having six rows appropriately corresponding to six object signals, and five columns appropriately corresponding to five channels can be set. The coefficients of a 6 × 5 rendering matrix can be integers indicating the ratio with which each of the six object signals is distributed across five channels. The 6 × 5 rendering matrix may have a reference value of 10. Thus, if the sum of the five coefficients in any one of the six rows of the 6 × 5 rendering matrix is 10, it can be determined that the level of the corresponding signal varied. The value by which the sum of the five coefficients in any one of the six rows of the 6 × 5 rendering matrix differs from the reference value represents the amount by which the level of the corresponding object signal was varied. For example, if the sum of the five coefficients in any one of the six rows of the 6x5 rendering matrix differs from the reference value by 1, it can be determined that the level of the corresponding object signal varied by 2 dB. A 6x5 rendering matrix can be represented using equation (1):

Уравнение 1Equation 1

Ссылаясь на матрицу рендеринга 6×5 по уравнению (1), первая строка соответствует первому объектному сигналу и представляет соотношение, с которым первый объектный сигнал распределяется между FL, FR, C, RL и RR каналами. Поскольку первый коэффициент первой строки имеет наибольшее целое значение в 3, и сумма коэффициентов первой строки равна 10, определяется то, что первый объектный сигнал главным образом распределяется в FL канал и что уровень первого объектного сигнала не варьировался. Поскольку второй коэффициент второй строки, которая соответствует второму объектному сигналу, имеет наибольшее целое значение в 4 и сумма коэффициентов второй строки равна 12, определяется то, что второй объектный сигнал главным образом распределяется в FR канал и что уровень второго объектного сигнала увеличился на 4 дБ. Поскольку третий коэффициент третьей строки, которая соответствует третьему объектному сигналу, имеет наибольшее целое значение в 12 и сумма коэффициентов третьей строки равна 12, определяется то, что третий объектный сигнал распределяется только в C канал и что уровень третьего объектного сигнала увеличился на 4 дБ. Поскольку все коэффициенты пятой строки, которая соответствует пятому объектному сигналу, имеют одинаковое целое значение в 2 и сумма коэффициентов пятой строки равна 10, определяется то, что пятый объектный сигнал одинаково распределяется между FL, FR, C, RL и RR каналами и что уровень пятого объектного сигнала не варьировался.Referring to the 6 × 5 rendering matrix according to equation (1), the first row corresponds to the first object signal and represents the ratio with which the first object signal is distributed between the FL, FR, C, RL and RR channels. Since the first coefficient of the first line has the largest integer value of 3, and the sum of the coefficients of the first line is 10, it is determined that the first object signal is mainly distributed in the FL channel and that the level of the first object signal did not vary. Since the second coefficient of the second line, which corresponds to the second object signal, has the largest integer value of 4 and the sum of the coefficients of the second line is 12, it is determined that the second object signal is mainly distributed in the FR channel and that the level of the second object signal increased by 4 dB. Since the third coefficient of the third line, which corresponds to the third object signal, has the largest integer value of 12 and the sum of the coefficients of the third line is 12, it is determined that the third object signal is distributed only in the C channel and that the level of the third object signal increased by 4 dB. Since all the coefficients of the fifth row, which corresponds to the fifth object signal, have the same integer value of 2 and the sum of the coefficients of the fifth row is 10, it is determined that the fifth object signal is equally distributed between the FL, FR, C, RL and RR channels and that the level of the fifth the object signal did not vary.

Альтернативно, когда N объектных сигналов отображаются на M каналов, матрица рендеринга N×(M+1) может быть установлена. Матрица рендеринга N×(M+1) очень похожа на матрицу рендеринга N×M. Более конкретно, в матрице рендеринга N×(M+1), как в матрице рендеринга N×M, с первый по M-й коэффициенты в каждой из N строк представляют соотношение, с которым соответствующий объектный сигнал распределяется между FL, FR, C, RL и RR каналами. Тем не менее, матрица рендеринга N×(M+1), в отличие от матрицы рендеринга N×M, имеет дополнительный столбец (т.е. (M+1)-й столбец) для представления уровней объектных сигналов.Alternatively, when N object signals are mapped onto M channels, an N × (M + 1) rendering matrix can be set. The N × (M + 1) rendering matrix is very similar to the N × M rendering matrix. More specifically, in the N × (M + 1) rendering matrix, as in the N × M rendering matrix, the first through Mth coefficients in each of the N lines represent the ratio with which the corresponding object signal is distributed between FL, FR, C, RL and RR channels. However, the N × (M + 1) rendering matrix, unlike the N × M rendering matrix, has an additional column (i.e., the (M + 1) th column) to represent the levels of object signals.

Матрица рендеринга N×(M+1), в отличие от матрицы рендеринга N×M, указывает то, как объектный сигнал распределен между M каналами, а также то, варьировался ли уровень объектного сигнала по отдельности. Таким образом, посредством использования матрицы рендеринга N×(M+1) можно легко получать информацию, касающуюся варьирования, если имеется, уровня объектного сигнала без необходимости дополнительных вычислений. Поскольку матрица рендеринга N×(M+1) является практически такой же, что и матрица рендеринга N×M, матрица рендеринга N×(M+1) может быть легко преобразована в матрицу рендеринга N×M, и наоборот, без необходимости дополнительной информации.The N × (M + 1) rendering matrix, unlike the N × M rendering matrix, indicates how the object signal is distributed between the M channels and whether the level of the object signal was varied individually. Thus, by using the N × (M + 1) rendering matrix, it is easy to obtain information regarding the variation, if any, of the level of the object signal without the need for additional calculations. Since the N × (M + 1) rendering matrix is almost the same as the N × M rendering matrix, the N × (M + 1) rendering matrix can be easily converted to the N × M rendering matrix, and vice versa, without the need for additional information .

Еще альтернативно, когда N объектных сигналов отображается на M каналов, может быть установлена матрица рендеринга N×2. Матрица рендеринга N×2 имеет первый столбец, указывающий угловые позиции объектных сигналов, и второй столбец, указывающий варьирование, если имеется, уровня каждого из объектных сигналов. Матрица рендеринга N×2 может представлять угловые позиции объектных сигналов с регулярными интервалами в 1 или 3 градуса в пределах диапазона 0-360 градусов. Объектный сигнал, который равномерно распределен между всеми направлениями, может быть представлен посредством предварительно заданного значения, а не угла.Still alternatively, when N object signals are mapped onto M channels, an N × 2 rendering matrix can be set. The N × 2 rendering matrix has a first column indicating the angular positions of the object signals and a second column indicating the variation, if any, of the level of each of the object signals. An N × 2 rendering matrix can represent the angular positions of object signals at regular intervals of 1 or 3 degrees within a range of 0-360 degrees. An object signal that is evenly distributed between all directions can be represented by a predetermined value, rather than an angle.

Матрица рендеринга N×2 может быть преобразована в матрицу рендеринга N×3, которая может указывать не только 2D направления объектных сигналов, но также 3D направления объектных сигналов. Более конкретно, второй столбец матрицы рендеринга N×3 может быть использован для того, чтобы указывать 3D направления объектных сигналов. Третий столбец матрицы рендеринга N×3 указывает варьирование, если есть, уровня каждого объектного сигнала с помощью того же способа, что и использован посредством матрицы рендеринга N×M. Если конечный режим воспроизведения объектного декодера - это стереофоническое стерео, формирователь 201 матриц рендеринга может передавать 3D информацию, указывающую позицию каждого объектного сигнала, или индекс, соответствующий 3D информации. Во втором случае транскодеру 203 может потребоваться иметь 3D информацию, соответствующую индексу, переданному посредством формирователя 201 матриц рендеринга. Помимо того, если 3D информация, указывающая позицию каждого объектного сигнала, принимается от формирователя 201 матриц рендеринга, транскодер 203 может иметь возможность вычислять 3D информацию, которая может быть использована посредством многоканального кодера 205, на основе принятой 3D информации, матрицы рендеринга и основывающейся на объектах дополнительной информации.An N × 2 rendering matrix can be converted to an N × 3 rendering matrix, which can indicate not only 2D directions of object signals, but also 3D directions of object signals. More specifically, the second column of the N × 3 rendering matrix can be used to indicate 3D directions of object signals. The third column of the N × 3 rendering matrix indicates the variation, if any, of the level of each object signal using the same method as used by the N × M rendering matrix. If the final playback mode of the object decoder is stereo stereo, the rendering matrix generator 201 may transmit 3D information indicating the position of each object signal, or an index corresponding to 3D information. In the second case, the transcoder 203 may need to have 3D information corresponding to the index transmitted by the rendering matrix generator 201. In addition, if 3D information indicating the position of each object signal is received from the rendering matrix generator 201, the transcoder 203 may be able to calculate 3D information that can be used by the multi-channel encoder 205 based on the received 3D information, the rendering matrix, and the object-based rendering additional information.

Матрица рендеринга и 3D информация могут адаптивно варьироваться в реальном времени согласно модификации, выполненной в информацию позиции объектов и информацию конфигурации воспроизведения посредством конечного пользователя. Следовательно, информация, касающаяся того, обновляется ли матрица рендеринга и 3D информация, и обновления, если имеют место, в матрице рендеринга и 3D информации могут передаваться в транскодер 203 с регулярными временными интервалами, например, с интервалами в 0,5 с. Далее, если обновления в матрице рендеринга и 3D информации обнаружены, транскодер 203 может выполнить линейное преобразование принимаемых обновлений и существующей матрицы рендеринга и существующей 3D информации, при условии, что матрица рендеринга и 3D информация линейно варьируются во времени.The rendering matrix and 3D information can be adaptively varied in real time according to a modification made to the position information of the objects and the playback configuration information by the end user. Therefore, information regarding whether the rendering matrix and 3D information is updated, and updates, if any, in the rendering matrix and 3D information can be transmitted to transcoder 203 at regular time intervals, for example, at 0.5 s intervals. Further, if updates are found in the rendering matrix and 3D information, transcoder 203 can linearly convert the received updates and the existing rendering matrix and existing 3D information, provided that the rendering matrix and 3D information vary linearly in time.

Если информация позиций объектов и информация конфигурации воспроизведения не модифицировалась конечным пользователем с момента передачи матрицы рендеринга и 3D информации в транскодер 203, информация, указывающая то, что матрица рендеринга и 3D информация не варьировалась, может быть передана в транскодер 203. С другой стороны, если информация позиций объектов и информация конфигурации воспроизведения модифицировалась посредством конечного пользователя с момента передачи матрицы рендеринга и 3D информации в транскодер 203, информация, указывающая то, что матрица рендеринга и 3D информация варьировалась, и обновления в матрице рендеринга и 3D информации могут быть переданы в транскодер 203. Более конкретно, обновления в матрице рендеринга и обновления 3D информации могут отдельно передаваться в транскодер 203. Альтернативно, обновления в матрице рендеринга и/или обновления 3D информации могут совместно представляться посредством предварительно заданного репрезентативного значения. Далее, предварительно заданное репрезентативное значение может передаваться в транскодер 203 вместе с информацией, указывающей то, что предварительно заданное репрезентативное значение соответствует обновлениям в матрице рендеринга или обновлениям 3D информации. Таким образом, можно легко оповещать транскодер 203 о том, обновлялась или нет матрица рендеринга и 3D информация.If the object position information and the playback configuration information has not been modified by the end user since the rendering matrix and 3D information were transmitted to the transcoder 203, information indicating that the rendering matrix and 3D information did not vary can be transmitted to the transcoder 203. On the other hand, if information about the positions of objects and information about the configuration of the playback was modified by the end user from the moment the transfer of the rendering matrix and 3D information to the transcoder 203, the information indicated which means that the rendering matrix and 3D information varied, and updates in the rendering matrix and 3D information can be transmitted to transcoder 203. More specifically, updates in the rendering matrix and 3D information updates can be separately transmitted to transcoder 203. Alternatively, updates in the rendering matrix and / or updates to 3D information may be jointly represented by a predetermined representative value. Further, a predefined representative value may be transmitted to transcoder 203 along with information indicating that the predefined representative value corresponds to updates in the rendering matrix or updates to 3D information. Thus, it is possible to easily notify the transcoder 203 about whether or not the rendering matrix and 3D information were updated.

Матрица рендеринга N×M, аналогично указанной посредством уравнения (1), также может включать в себя дополнительный столбец для представления информации 3D направления объектных сигналов. В этом случае дополнительный столбец может представлять информацию 3D направления объектных сигналов как углы в диапазоне от -90 до +90 градусов. Дополнительный столбец может быть предусмотрен не только в матрице N×M, но также в матрице рендеринга N×(M+1) и в матрице N×2. Информация 3D направления объектных сигналов может быть необязательной для использования в обычном режиме декодирования многоканального декодера. Вместо этого, информация 3D направления объектных сигналов может быть обязательной для использования в стереофоническом режиме многоканального декодера. Информация 3D направления объектных сигналов может передаваться вместе с матрицей рендеринга. Альтернативно, информация 3D направления объектных сигналов может передаваться вместе с 3D информацией. Информация 3D направления объектных сигналов не влияет на основывающуюся на каналах дополнительную информацию, но влияет на 3D информацию при операции декодирования в стереофоническом режиме.The N × M rendering matrix, similar to that indicated by equation (1), may also include an additional column for representing 3D information of the direction of the object signals. In this case, an additional column can represent 3D information of the direction of the object signals as angles in the range from -90 to +90 degrees. An additional column can be provided not only in the N × M matrix, but also in the N × (M + 1) rendering matrix and in the N × 2 matrix. The 3D direction information of the object signals may not be necessary for use in the normal decoding mode of a multi-channel decoder. Instead, 3D direction information of object signals may be required for use in stereo mode of a multi-channel decoder. 3D information of the direction of the object signals can be transmitted along with the rendering matrix. Alternatively, 3D information of the direction of the object signals may be transmitted along with 3D information. The 3D direction information of the object signals does not affect the additional information based on the channels, but affects the 3D information in the decoding operation in stereo.

Информация, касающаяся пространственных позиций и уровней объектных сигналов, может предоставляться как матрица рендеринга. Альтернативно, информация, касающаяся пространственных позиций и уровней объектных сигналов, может представляться как модификации спектра объектного сигнала, такие как интенсификация низкотональных частей или высокотональных частей объектных сигналов. В этом случае информация, касающаяся модификаций спектра объектных сигналов, может передаваться как варьирования уровня в каждой параметрической полосе, которая используется в многоканальном кодеке. Если конечный пользователь контролирует модификации спектра объектных сигналов, информация, касающаяся модификаций спектра объектных сигналов, может передаваться как матрица спектра отдельно от матрицы рендеринга. Матрица спектра может иметь столько строк, сколько объектных сигналов, и столько столбцов, сколько параметров. Каждый коэффициент в матрице спектра указывает информацию, касающуюся регулирования уровня каждой параметрической полосы.Information regarding spatial positions and levels of object signals may be provided as a rendering matrix. Alternatively, information regarding spatial positions and levels of object signals may be represented as modifications to the spectrum of the object signal, such as intensification of low-tone parts or high-tone parts of object signals. In this case, information regarding modifications to the spectrum of object signals can be transmitted as level variations in each parametric band that is used in a multi-channel codec. If the end user controls modifications to the spectrum of object signals, information regarding modifications to the spectrum of object signals can be transmitted as a spectrum matrix separately from the rendering matrix. The spectrum matrix can have as many rows as there are object signals, and as many columns as parameters. Each coefficient in the spectrum matrix indicates information regarding the level control of each parametric band.

Далее подробно описывается работа транскодера 203. Транскодер 203 формирует основывающуюся на каналах дополнительную информацию для многоканального декодера 205 на основе основывающейся на объектах дополнительной информации, информации матриц рендеринга и 3D информации и передает основывающуюся на каналах дополнительную информацию в многоканальный декодер 205. Кроме того, транскодер 203 формирует 3D информацию для многоканального декодера 205 и передает 3D информацию в многоканальный декодер 205. Если входной сигнал понижающего микширования должен быть предварительно обработан перед вводом в многоканальный декодер 205, транскодер 203 может передавать информацию, касающуюся входного сигнала понижающего микширования.The operation of transcoder 203 is described in detail below. Transcoder 203 generates channel-based additional information for multi-channel decoder 205 based on object-based additional information, rendering matrix information and 3D information, and transmits channel-based additional information to multi-channel decoder 205. In addition, transcoder 203 generates 3D information for multi-channel decoder 205 and transmits 3D information to multi-channel decoder 205. If the input down-mix signal to Should be pre-processed before entering the multi-channel decoder 205, the transcoder 203 may transmit information regarding the downmix input.

Транскодер 203 может принимать основывающуюся на объектах дополнительную информацию, указывающую то, как множество объектных сигналов включены во входной сигнал понижающего микширования. Основывающаяся на объектах дополнительная информация может указывать то, как множество объектных сигналов включены во входной сигнал понижающего микширования, посредством использования OTT-модуля и TTT-модуля и посредством использования информации CLD, ICC и CPC. Основывающаяся на объектах дополнительная информация может предоставлять описания различных способов, которые могут выполняться посредством объектного кодера для указания информации, касающейся каждого из множества объектных сигналов, и тем самым может иметь возможность указывать то, как объектные сигналы включены в дополнительную информацию.Transcoder 203 may receive object-based additional information indicating how many object signals are included in the downmix input. The object-based additional information may indicate how a plurality of object signals are included in the downmix input by using the OTT module and the TTT module and by using the CLD, ICC and CPC information. The object-based additional information may provide descriptions of various methods that may be performed by the object encoder to indicate information regarding each of the plurality of object signals, and thereby may be able to indicate how the object signals are included in the additional information.

В случае TTT-модуля многоканального кодера L-, C- и R-сигналы могут микшироваться с понижением или микшироваться с повышением в L- и R-сигналы. В этом случае C-сигнал может совместно использовать младший бит L- и R-сигналов. Тем не менее, это редко происходит в случае понижающего микширования или повышающего микширования объектных сигналов. Следовательно, OTT-модуль широко используется для того, чтобы выполнять повышающее микширование или понижающее микширование для объектного кодирования. Даже если C-сигнал включает в себя независимый компонент сигнала, а не части L- и R-сигналов, TTT-модуль может быть использован для того, чтобы выполнять повышающее микширование или понижающее микширование для объектного кодирования.In the case of the TTT module of a multi-channel encoder, the L-, C- and R-signals can be downmixed or up-mixed into the L- and R-signals. In this case, the C signal may share the low-order bit of the L and R signals. However, this rarely happens in the case of downmixing or upmixing of object signals. Therefore, the OTT module is widely used to perform upmixing or downmixing for object coding. Even if the C signal includes an independent signal component, and not parts of the L and R signals, the TTT module can be used to perform upmixing or downmixing for object coding.

Например, если имеется шесть объектных сигналов, шесть объектных сигналов могут быть преобразованы в сигнал понижающего микширования посредством OTT-модуля, и информация, касающаяся каждого из объектных сигналов, может быть получена с помощью OTT-модуля, как проиллюстрировано на фиг.11.For example, if there are six object signals, six object signals can be converted into a downmix signal using the OTT module, and information regarding each of the object signals can be obtained using the OTT module, as illustrated in FIG. 11.

Ссылаясь на фиг.11, шесть объектных сигналов могут быть представлены посредством одного сигнала понижающего микширования и информации (такой как информация CLD и ICC), предоставленной посредством всего пяти OTT-модулей 211, 213, 215, 217 и 219. Структура, проиллюстрированная на фиг.11, может быть изменена различными способами. Т.е. ссылаясь на фиг.11, первый OTT-модуль 211 может принимать два из шести объектных сигналов. Помимо того, способ, которым OTT-модули 211, 213, 215, 217 и 219 иерархически соединены, может свободно варьироваться. Следовательно, дополнительная информация может включать в себя информацию иерархической структуры, указывающую то, как OTT-модули 211, 213, 215, 217 и 219 иерархически соединены, и информацию входных позиций, указывающую то, в какой OTT-модуль каждый объектный сигнал вводится. Если OTT-модули 211, 213, 215, 217 и 219 формируют произвольную древовидную структуру, способ, используемый в многоканальном кодеке для представления произвольной древовидной структуры, может быть использован для того, чтобы указывать эту информацию иерархической структуры. Помимо того, такая информация входной позиции может быть указана различными способами.Referring to FIG. 11, six object signals can be represented by a single downmix signal and information (such as CLD and ICC information) provided by a total of five OTT modules 211, 213, 215, 217 and 219. The structure illustrated in FIG. .11 may be modified in various ways. Those. referring to FIG. 11, the first OTT module 211 may receive two of six object signals. In addition, the manner in which the OTT modules 211, 213, 215, 217 and 219 are hierarchically connected can be freely varied. Therefore, additional information may include hierarchical structure information indicating how the OTT modules 211, 213, 215, 217 and 219 are hierarchically connected, and input position information indicating which OTT module each object signal is input into. If the OTT modules 211, 213, 215, 217 and 219 form an arbitrary tree structure, the method used in the multi-channel codec to represent an arbitrary tree structure can be used to indicate this hierarchical structure information. In addition, such input position information may be indicated in various ways.

Дополнительная информация также может включать в себя информацию, касающуюся периода приглушения звука каждого объектного сигнала. В этом случае древовидная структура OTT-модулей 211, 213, 215, 217 и 219 может адаптивно варьироваться во времени. Например, ссылаясь на фиг.11, когда первый объектный сигнал OBJECT1 приглушен, информация, касающаяся первого OTT-модуля 211, является лишней, и только второй объектный сигнал OBJECT2 может быть введен в четвертый OTT-модуль 217. Затем древовидная структура OTT-модулей 211, 213, 215, 217 и 219 может варьироваться соответствующим образом. Таким образом, информация, касающаяся варьирования, если оно имеет место, в древовидной структуре OTT-модулей 211, 213, 215, 217 и 219 может быть включена в дополнительную информацию.Additional information may also include information regarding the muting period of each object signal. In this case, the tree structure of the OTT modules 211, 213, 215, 217, and 219 can adaptively vary in time. For example, referring to FIG. 11, when the first object signal OBJECT1 is muted, information regarding the first OTT module 211 is redundant, and only the second object signal OBJECT2 can be input to the fourth OTT module 217. Then, the tree structure of the OTT modules 211 , 213, 215, 217 and 219 may vary accordingly. Thus, information regarding variation, if any, in the tree structure of OTT modules 211, 213, 215, 217 and 219 can be included in additional information.

Если предварительно определенный объектный сигнал приглушен, информация, указывающая то, что OTT-модуль, соответствующий предварительно определенному объектному сигналу, не используется, и информация, указывающая то, что нет доступных меток из OTT-модуля, может быть предоставлена. Таким образом, можно снижать размер дополнительной информации за счет невключения информации, касающейся OTT-модулей или TTT-модулей, которые не используются в дополнительной информации. Даже если древовидная структура множества OTT- или TTT-модулей модифицирована, можно легко определять то, какие из OTT- или TTT-модулей включены или выключены, на основе информации, указывающей то, что объектные сигналы приглушены. Следовательно, нет необходимости часто передавать информацию, касающуюся модификаций, если имеются, в древовидной структуре OTT- или TTT-модулей. Вместо этого передается информация, указывающая то, что объектный сигнал приглушен. Затем декодер может легко определять то, какая часть древовидной структуры OTT- или TTT-модулей должна быть модифицирована. Следовательно, можно минимизировать размер информации, которая должна быть передана в декодер. Помимо того, можно легко передавать метки, касающиеся объектных сигналов, в декодер.If the predefined object signal is muted, information indicating that the OTT module corresponding to the predefined object signal is not used, and information indicating that there are no labels available from the OTT module can be provided. Thus, it is possible to reduce the size of additional information by not including information regarding OTT modules or TTT modules that are not used in additional information. Even if the tree structure of the plurality of OTT or TTT modules is modified, it is easy to determine which of the OTT or TTT modules are on or off based on information indicating that the object signals are muted. Therefore, it is not necessary to often transmit information regarding modifications, if any, in the tree structure of OTT or TTT modules. Instead, information is transmitted indicating that the object signal is muted. The decoder can then easily determine which part of the tree structure of the OTT or TTT modules should be modified. Therefore, it is possible to minimize the size of information to be transmitted to the decoder. In addition, labels relating to object signals can be easily transmitted to a decoder.

Фиг.12 иллюстрирует схему для пояснения того, как множество объектных сигналов включаются в сигнал понижающего микширования. В варианте осуществления по фиг.11 структура OTT-модуля многоканального кодирования приспосабливается как есть. Тем не менее, в варианте осуществления по фиг.12 используется вариант структуры OTT-модуля многоканального кодирования Т.е. ссылаясь на фиг.12, множество объектных сигналов вводятся в каждый модуль, и только один сигнал понижающего микширования формируется в конце. Ссылаясь на фиг.12, информация, касающаяся каждого из множества объектных сигналов, может быть представлена посредством отношения уровня энергии каждого из объектных сигналов к общему уровню энергии объектных сигналов. Тем не менее, по мере того как число объектных сигналов возрастает, отношение уровня энергии каждого из объектных сигналов к общему уровню энергии объектных сигналов уменьшается. Чтобы разрешить это, находится один из множества объектных сигналов (далее упоминаемый как объектный сигнал с наибольшей энергией), имеющий наибольший уровень энергии в предварительно определенной параметрической полосе, и отношения уровней энергии других объектных сигналов (далее упоминаемых как объектные сигналы не с наибольшей энергией) к уровню энергии объектного сигнала с наибольшей энергией могут быть предоставлены в качестве информации, касающейся каждого из объектных сигналов. В этом случае после того, как задаются информация, указывающая объектный сигнал с наивысшей энергией, и абсолютное значение уровня энергии объектного сигнала с наивысшей энергией, могут быть легко определены уровни энергии других объектных сигналов не с наивысшей энергией.12 is a diagram for explaining how a plurality of object signals are included in a downmix signal. In the embodiment of FIG. 11, the structure of the multi-channel coding OTT module is adapted as is. However, in the embodiment of FIG. 12, an embodiment of the structure of an OTT multi-channel coding unit is used. That is, referring to FIG. 12, a plurality of object signals are input to each module, and only one downmix signal is generated at the end. Referring to FIG. 12, information regarding each of a plurality of object signals can be represented by the ratio of the energy level of each of the object signals to the total energy level of the object signals. However, as the number of object signals increases, the ratio of the energy level of each of the object signals to the total energy level of the object signals decreases. To resolve this, one of the many object signals (hereinafter referred to as the object signal with the highest energy), having the highest energy level in a predefined parametric band, and the ratio of the energy levels of other object signals (hereinafter referred to as object signals with the lowest energy) to the energy level of the object signal with the highest energy can be provided as information regarding each of the object signals. In this case, after the information indicating the object signal with the highest energy and the absolute value of the energy level of the object signal with the highest energy are set, the energy levels of other object signals with not the highest energy can be easily determined.

Уровень энергии объектного сигнала с наивысшей энергией требуется для объединения множества потоков битов в один поток битов, выполняемого в узле управления многосторонней связью (MCU). Тем не менее, в большинстве случаев уровень энергии объектного сигнала с наивысшей энергией необязателен, поскольку абсолютное значение уровня энергии объектного сигнала с наивысшей энергией может быть легко определено из отношений уровней энергии других объектных сигналов не с наивысшей энергией к уровню энергии объектного сигнала с наивысшей энергией.The energy level of the highest energy object signal is required to combine multiple bit streams into a single bit stream, performed at a multilateral communications control unit (MCU). However, in most cases the energy level of the object signal with the highest energy is not necessary, since the absolute value of the energy level of the object signal with the highest energy can be easily determined from the ratios of the energy levels of other object signals with the highest energy to the energy level of the object signal with the highest energy.

Например, предположим, что имеется четыре объектных сигнала A, B, C и D, принадлежащих предварительно определенной параметрической полосе, и что объектный сигнал A является объектным сигналом с наивысшей энергией. Далее, энергия E предварительно определенной параметрической полосы и абсолютное значение E уровня энергии объектного сигнала A удовлетворяют уравнению (2):For example, suppose that there are four object signals A, B, C and D that belong to a predefined parametric strip, and that object signal A is the object signal with the highest energy. Further, the energy E of a predetermined parametric band and the absolute value E of the energy level of the object signal A satisfy equation (2):

Уравнение 2Equation 2

При этом a, b и c соответственно указывают отношения уровня энергии объектных сигналов B, C и D к уровню энергии объектного сигнала. Ссылаясь на уравнение (2), можно вычислить абсолютное значение E_A уровня энергии объектного сигнала A на основе отношений a, b и c и энергии E_P предварительно определенной параметрической полосы. Следовательно, если только нет необходимости объединить множество битовых потоков в один битовый поток с помощью MCU, абсолютное значение E_A уровня энергии объектного сигнала A, возможно, не потребуется включать в поток битов. Информация, указывающая то, включено ли абсолютное значение E_A уровня энергии объектного сигнала A в поток битов, может быть включена в заголовок потока битов, тем самым, уменьшая размер потока битов.In this case, a, b and c respectively indicate the ratio of the energy level of the object signals B, C and D to the energy level of the object signal. Referring to equation (2), it is possible to calculate the absolute value E _{A of} the energy level of the object signal A based on the ratios a, b and c and the energy E _{P of} a predetermined parametric band. Therefore, unless it is necessary to combine multiple bit streams into one bit stream using the MCU, the absolute value E _{A of} the energy level of the object signal A may not need to be included in the bit stream. Information indicating whether the absolute value E _{A of} the energy level of the object signal A is included in the bit stream can be included in the header of the bit stream, thereby reducing the size of the bit stream.

С другой стороны, если есть необходимость объединить множество потоков битов в один поток битов с помощью MCU, уровень энергии объектного сигнала с наивысшей энергией является обязательным. В этом случае сумма уровней энергии, вычисленных на основе отношений уровней энергии объектных сигналов не с наивысшей энергией к уровню энергии объектного сигнала с наивысшей энергией, может не быть такой же, как уровень энергии сигнала понижающего микширования, полученного посредством понижающего микширования всех объектных сигналов. Например, когда уровень энергии сигнала понижающего микширования равен 100, сумма вычисленных уровней энергии может составлять 98 или 103 вследствие, к примеру, ошибок, возникающих в ходе операций квантования и деквантования. Чтобы разрешить это, разность между уровнем энергии сигнала понижающего микширования и суммой вычисленных уровней энергии может быть надлежащим образом компенсирована посредством умножения каждого из вычисленных уровней энергии на предварительно определенный коэффициент. Если уровень энергии сигнала понижающего микширования составляет X, а сумма вычисленных уровней энергии составляет Y, каждый из вычисленных уровней энергии может быть умножен на X/Y. Если разность между уровнем энергии сигнала понижающего микширования и суммой вычисленных уровней энергии не компенсирована, эти ошибки квантования могут быть включены в параметрические полосы и кадры, тем самым вызывая искажения сигнала.On the other hand, if there is a need to combine multiple bit streams into one bit stream using the MCU, the energy level of the object signal with the highest energy is mandatory. In this case, the sum of the energy levels calculated on the basis of the ratio of the energy levels of the object signals with the highest energy to the energy level of the object signal with the highest energy may not be the same as the energy level of the downmix signal obtained by downmixing all the object signals. For example, when the energy level of the down-mix signal is 100, the sum of the calculated energy levels may be 98 or 103 due to, for example, errors that occur during quantization and dequantization operations. To resolve this, the difference between the energy level of the downmix signal and the sum of the calculated energy levels can be properly compensated by multiplying each of the calculated energy levels by a predetermined coefficient. If the energy level of the down-mix signal is X, and the sum of the calculated energy levels is Y, each of the calculated energy levels can be multiplied by X / Y. If the difference between the energy level of the down-mix signal and the sum of the calculated energy levels are not compensated, these quantization errors can be included in the parametric bands and frames, thereby causing signal distortion.

Следовательно, информация, указывающая то, какой из множества объектных сигналов имеет наибольшее абсолютное значение энергии в предварительно определенной параметрической полосе, является обязательной. Эта информация может быть представлена посредством числа битов. Число битов, требуемых для указания того, какой из множества объектных сигналов имеет наибольшее абсолютное значение энергии в предварительно определенной параметрической полосе, варьируется согласно числу объектных сигналов. По мере того как число объектных сигналов возрастает, число битов, требуемых для указания того, какой из множества объектных сигналов имеет наибольшее абсолютное значение энергии в предварительно определенной параметрической полосе, возрастает. С другой стороны, по мере того как число объектных сигналов снижается, число битов, требуемых для указания того, какой из множества объектных сигналов имеет наибольшее абсолютное значение энергии в предварительно определенной параметрической полосе, уменьшается. Предварительно определенное число битов может быть назначено заранее для указания того, какой из множества объектных сигналов имеет наибольшее абсолютное значение энергии в предварительно определенной параметрической полосе. Альтернативно, число битов для указания того, какой из множества объектных сигналов имеет наибольшее абсолютное значение энергии в предварительно определенной параметрической полосе, может быть определено на основе определенной информации.Therefore, information indicating which of the plurality of object signals has the largest absolute energy value in a predetermined parametric band is mandatory. This information may be represented by the number of bits. The number of bits required to indicate which of the plurality of object signals has the largest absolute energy value in a predetermined parametric band varies according to the number of object signals. As the number of object signals increases, the number of bits required to indicate which of the plurality of object signals has the largest absolute energy value in a predetermined parametric band increases. On the other hand, as the number of object signals decreases, the number of bits required to indicate which of the plurality of object signals has the largest absolute energy value in a predetermined parametric band decreases. A predetermined number of bits can be assigned in advance to indicate which of the plurality of object signals has the largest absolute energy value in a predetermined parametric band. Alternatively, the number of bits to indicate which of the plurality of object signals has the largest absolute energy value in a predetermined parametric band can be determined based on certain information.

Размер информации, указывающей то, какой из множества объектных сигналов имеет наибольшее абсолютное значение энергии в каждой параметрической полосе, может быть уменьшен посредством использования того же способа, что и использован для того, чтобы уменьшать размер информации CLD, ICC и CPC для использования в OTT- и/или TTT-модулях многоканального кодека, например, посредством использования временного дифференциального метода, частотного дифференциального метода или метода контрольного кодирования.The size of the information indicating which of the plurality of object signals has the largest absolute energy value in each parametric band can be reduced by using the same method as used to reduce the size of the CLD, ICC and CPC information for use in OTT- and / or TTT modules of a multi-channel codec, for example, by using a time differential method, a frequency differential method, or a control coding method.

Чтобы указать то, какой из множества объектных сигналов имеет наибольшее абсолютное значение энергии в каждой параметрической полосе, может быть использована оптимизированная таблица Хаффмана. В этом случае информация, указывающая то, в каком порядке уровни энергии объектных сигналов сравниваются с уровнем энергии какого бы то ни было объектного сигнала, имеющего наибольшую абсолютную энергию, может потребоваться. Например, если имеется пять объектных сигналов (т.е. с первого по пятый объектные сигналы) и третий объектный сигнал является объектным сигналом с наивысшей энергией, может быть предоставлена информация, касающаяся третьего объектного сигнала. Далее отношения уровней энергии первого, второго, четвертого и пятого объектных сигналов к уровню энергии третьего объектного сигнала могут быть предоставлены различными способами, и это далее подробнее описывается.To indicate which of the plurality of object signals has the largest absolute energy value in each parametric band, an optimized Huffman table can be used. In this case, information indicating in which order the energy levels of the object signals are compared with the energy level of any object signal having the highest absolute energy may be required. For example, if there are five object signals (i.e., first to fifth object signals) and the third object signal is the highest energy object signal, information regarding the third object signal may be provided. Further, the ratio of the energy levels of the first, second, fourth and fifth object signals to the energy level of the third object signal can be provided in various ways, and this is described in more detail below.

Отношения уровней энергии первого, второго, четвертого и пятого объектных сигналов к уровню энергии третьего объектного сигнала могут предоставляться последовательно. Альтернативно, отношения уровней энергии четвертого, пятого, первого и второго объектных сигналов к уровню энергии третьего объектного сигнала могут предоставляться последовательно круговым способом. Далее информация, указывающая порядок, в котором предоставляются отношения уровней энергии первого, второго, четвертого и пятого объектных сигналов к уровню энергии третьего объектного сигнала, может быть включена в заголовок файла или может быть передана с интервалами числа кадров. Многоканальный кодек может определять информацию CLD и ICC на основе порядковых номеров OTT-модулей. Аналогично, необходима информация, указывающая то, как каждый объект отображается на поток битов.The ratios of the energy levels of the first, second, fourth and fifth object signals to the energy level of the third object signal can be provided sequentially. Alternatively, the ratios of the energy levels of the fourth, fifth, first and second object signals to the energy level of the third object signal can be provided sequentially in a circular manner. Further, information indicating the order in which the ratio of the energy levels of the first, second, fourth and fifth object signals to the energy level of the third object signal is provided can be included in the file header or can be transmitted at intervals of the number of frames. A multi-channel codec can determine CLD and ICC information based on the sequence numbers of OTT modules. Likewise, information is needed indicating how each object maps to the bitstream.

В случае многоканального кодека информация, касающаяся сигналов, соответствующих каждому каналу, может быть идентифицирована посредством порядковых номеров OTT- или TTT-модулей. Согласно способу кодирования основывающегося на объектах аудио, если имеется N объектных сигналов, эти N объектных сигналов, возможно, потребуется соответствующим образом пронумеровать. Тем не менее, иногда пользователю необходимо контролировать N объектных сигналов с помощью объектного декодера. В этом случае пользователю могут быть нужны не только порядковые номера N объектных сигналов, но также описания N объектных сигналов, такие как описания, указывающие то, что первый объектный сигнал соответствует голосу женщины и что второй объектный сигнал соответствует звуку пианино. Описания N объектных сигналов могут быть включены в поток битов как метаданные и затем переданы вместе с потоком битов. Более конкретно, описания N объектных сигналов могут быть предоставлены как текст или могут быть предоставлены с помощью кодовой таблицы или кодовых слов.In the case of a multi-channel codec, information regarding the signals corresponding to each channel can be identified by the sequence numbers of the OTT or TTT modules. According to an encoding method for object-based audio, if there are N object signals, these N object signals may need to be numbered accordingly. However, sometimes the user needs to control N object signals using an object decoder. In this case, the user may need not only serial numbers of N object signals, but also descriptions of N object signals, such as descriptions indicating that the first object signal corresponds to the woman’s voice and that the second object signal corresponds to the sound of the piano. Descriptions of N object signals may be included in the bitstream as metadata and then transmitted along with the bitstream. More specifically, descriptions of N object signals may be provided as text or may be provided using a code table or code words.

Иногда необходима информация корреляции, касающаяся корреляций между объектными сигналами. Для этого могут быть вычислены корреляции между объектным сигналом с наивысшей энергией и другими объектными сигналами не с наивысшей энергией. В этом случае одно корреляционное значение может быть указано для всех объектных сигналов, что сравнимо с использованием одного значения ICC во всех OTT-модулях.Sometimes correlation information is needed regarding correlations between object signals. For this, correlations between the object signal with the highest energy and other object signals with not the highest energy can be calculated. In this case, one correlation value can be indicated for all object signals, which is comparable to using one ICC value in all OTT modules.

Если объектные сигналы являются стереосигналами, необходима информация отношений энергии левого канала к энергии правого канала для объектных сигналов и ICC. Отношения энергии левого канала к энергии правого канала для объектных сигналов могут быть вычислены с помощью того же способа, что и использован для того, чтобы вычислять уровни энергии множества объектных сигналов на основе абсолютного значения уровня энергии того из объектных сигналов, который является объектным сигналом с наивысшей энергией, и отношений уровней энергии других объектных сигналов не с наивысшей энергией к уровню энергии объектного сигнала с наивысшей энергией. Например, если абсолютные значения уровней энергии левого и правого каналов объектного сигнала с наивысшей энергией равны A и B соответственно и отношение уровня энергии левого канала объектного сигнала не с наивысшей энергией к A и отношение уровня энергии правого канала объектного сигнала не с наивысшей энергией к B равны x и y соответственно, уровни энергии левого и правого каналов объектного сигнала не с наивысшей энергией могут быть вычислены как A*x и B*y. Таким образом, может быть вычислено отношение энергии левого канала к энергии правого канала объектного стереосигнала.If the object signals are stereo signals, information is needed on the ratios of the energy of the left channel to the energy of the right channel for object signals and ICC. The ratios of the energy of the left channel to the energy of the right channel for object signals can be calculated using the same method as used to calculate the energy levels of a plurality of object signals based on the absolute value of the energy level of that of the object signals, which is the object signal with the highest energy, and the ratio of the energy levels of other object signals not with the highest energy to the energy level of the object signal with the highest energy. For example, if the absolute values of the energy levels of the left and right channels of the object signal with the highest energy are A and B, respectively, and the ratio of the energy level of the left channel of the object signal is not with the highest energy to A and the ratio of the energy level of the right channel of the object signal with not the highest energy to B is x and y, respectively, the energy levels of the left and right channels of the object signal with not the highest energy can be calculated as A * x and B * y. Thus, the ratio of the energy of the left channel to the energy of the right channel of the object stereo signal can be calculated.

Абсолютное значение уровня энергии объектного сигнала с наивысшей энергией и отношения уровней энергии других объектных сигналов не с наивысшей энергией к уровню энергии объектного сигнала с наивысшей энергией также может быть использовано, когда объектные сигналы являются моносигналами, сигнал понижающего микширования, полученный посредством объектных моносигналов, является стереосигналом, и объектные моносигналы включены в оба канала стереосигнала понижающего микширования. В этом случае соотношение энергии части каждого объектного моносигнала, включенного в левый канал стереосигнала понижающего микширования, и энергии части каждого объектного моносигнала, включенного в правый канал стереосигнала понижающего микширования, и корреляционная информация необходимы, и это непосредственно применяется к объектным стереосигналам. Если объектный моносигнал включен в L- и R-каналы стереосигнала понижающего микширования, компоненты L- и R-каналов объектного моносигнала могут иметь только разность каналов, и объектный моносигнал может иметь значение корреляции 1 по всем параметрическим полосам. В этом случае для того, чтобы уменьшить объем данных, информация, указывающая то, что объектный моносигнал имеет значение корреляции, равное 1, по всем параметрическим полосам, может быть дополнительно предоставлена. Далее, нет необходимости указывать значение корреляции, равное 1, для каждой из параметрических полос. Вместо этого значение корреляции, равное 1, может быть указано для всех параметрических полос.The absolute value of the energy level of an object signal with the highest energy and the ratio of the energy levels of other object signals not of the highest energy to the energy level of the object signal with the highest energy can also be used when the object signals are mono signals, the down-mix signal obtained by object mono signals is a stereo signal , and object mono signals are included in both channels of the stereo down-mix signal. In this case, the ratio of the energy of the part of each object mono signal included in the left channel of the stereo down-mix signal and the energy of part of each object mono signal included in the right channel of the stereo down-mix signal and correlation information are necessary, and this is directly applied to object stereo signals. If the object mono signal is included in the L- and R-channels of the stereo down-mix signal, the components of the L- and R-channels of the object mono signal can have only the channel difference, and the object mono signal can have a correlation value of 1 over all parametric bands. In this case, in order to reduce the amount of data, information indicating that the object mono signal has a correlation value of 1 over all parametric bands can be further provided. Further, there is no need to indicate a correlation value of 1 for each of the parametric bands. Instead, a correlation value of 1 can be specified for all parametric bands.

В ходе формирования сигнала понижающего микширования посредством суммирования множества объектных сигналов может возникать отсечение. Чтобы разрешить это, сигнал понижающего микширования может быть умножен на предварительно заданное усиление, с тем, чтобы максимальный уровень сигнала понижающего микширования мог превышать порог отсечения. Предварительно заданное усиление может варьироваться во времени. Следовательно, необходима информация, касающаяся предварительно заданного усиления. Если сигнал понижающего микширования является стереосигналом, различные значения усиления могут быть предоставлены для L- и R-каналов сигнала понижающего микширования, чтобы не допустить отсечения. Чтобы уменьшить объем передачи данных, различные значения усиления могут не передаваться отдельно. Вместо этого сумма различных значений усиления и соотношение различных значений усиления может передаваться. Далее можно снижать динамический диапазон и уменьшать объем передачи данных в сравнении со случаем передачи различных значений усиления отдельно.During the formation of the downmix signal by summing a plurality of object signals, clipping may occur. To resolve this, the downmix signal can be multiplied by a predetermined gain so that the maximum level of the downmix signal can exceed the cutoff threshold. The preset gain may vary over time. Therefore, information regarding a predefined gain is needed. If the downmix signal is a stereo signal, different gain values can be provided for the L- and R-channels of the downmix signal to prevent clipping. To reduce the amount of data transmission, various gain values may not be transmitted separately. Instead, a sum of different gain values and a ratio of different gain values can be transmitted. Further, it is possible to reduce the dynamic range and reduce the amount of data transfer in comparison with the case of transmitting various gain values separately.

Чтобы дополнительно уменьшить объем передачи данных, может быть предоставлен бит, указывающий то, произошло ли отсечение в ходе отделения сигнала понижающего микширования, в ходе суммирования множества объектных сигналов. Затем, только если определено, что отсечение произошло, могут быть переданы значения усиления. Эта информация отсечения может быть необходимой для предотвращения отсечения в ходе суммирования множества сигналов понижающего микширования, чтобы объединить множество потоков битов. Чтобы предотвратить отсечение, сумма множества сигналов понижающего микширования может быть умножена на обратное число предварительно заданного значения усиления для предотвращения отсечения.To further reduce the amount of data transmission, a bit may be provided indicating whether clipping occurred during separation of the downmix signal during the summation of the plurality of object signals. Then, only if it is determined that clipping has occurred, can gain values be transmitted. This clipping information may be necessary to prevent clipping during the summation of a plurality of downmix signals in order to combine a plurality of bit streams. To prevent clipping, the sum of the plurality of downmix signals can be multiplied by the reciprocal of the predefined gain value to prevent clipping.

Фиг.13-16 иллюстрируют схемы для пояснения различных способов конфигурирования основывающейся на объектах дополнительной информации. Варианты осуществления по фиг.13-16 могут быть применены не только к объектным моно- и стереосигналам, но также для многоканальных объектных сигналов.13-16 illustrate diagrams for explaining various methods of configuring object-based additional information. The embodiments of FIGS. 13-16 can be applied not only to object mono and stereo signals, but also to multi-channel object signals.

Ссылаясь на фиг.13, многоканальный объектный сигнал (от OBJECT A(CH1) по OBJECT A(CHn)) вводится в объектный кодер 221. Затем объектный кодер 221 формирует сигнал понижающего микширования и дополнительную информацию на основе многоканального объектного сигнала (от OBJECT A(CH1) до OBJECT A(CHn)). Объектный кодер 223 принимает множество объектных сигналов от OBJECT1 до OBJECTn и сигнал понижающего микширования, сформированный посредством объектного кодера 221, и формирует еще один сигнал понижающего микширования и еще одну дополнительную информацию на основе объектных сигналов от OBJ.1 до OBJ.N и принятого сигнала понижающего микширования. Мультиплексор 225 объединяет дополнительную информацию, формируемую посредством объектного кодера 221, и дополнительную информацию, формируемую посредством объектного кодера 223.Referring to FIG. 13, a multi-channel object signal (from OBJECT A (CH1) to OBJECT A (CHn)) is input to the object encoder 221. Then, the object encoder 221 generates a downmix signal and additional information based on the multi-channel object signal (from OBJECT A ( CH1) to OBJECT A (CHn)). The object encoder 223 receives a plurality of object signals from OBJECT1 to OBJECTn and a downmix signal generated by the object encoder 221, and generates another downmix signal and additional information based on the object signals from OBJ.1 to OBJ.N and the received downmix signal mixing. Multiplexer 225 combines the additional information generated by the object encoder 221 and the additional information generated by the object encoder 223.

Ссылаясь на фиг.14, объектный кодер 233 формирует первый поток битов на основе многоканального объектного сигнала (от OBJECT A(CH1) до OBJECT A(CHn)). Далее объектный кодер 231 формирует второй поток битов на основе множества немногоканальных объектных сигналов от OBJECT1 до OBJECTn. Затем объектный кодер 235 комбинирует первый и второй потоки битов в один поток битов посредством использования практически того же способа, что и использован для того, чтобы объединить множество потоков битов в один поток битов с помощью MCU.Referring to FIG. 14, an object encoder 233 generates a first bit stream based on a multi-channel object signal (from OBJECT A (CH1) to OBJECT A (CHn)). Next, the object encoder 231 generates a second bit stream based on the set of multi-channel object signals from OBJECT1 to OBJECTn. Then, the object encoder 235 combines the first and second bitstreams into a single bitstream by using practically the same method as used to combine multiple bit streams into one bit stream using the MCU.

Ссылаясь на фиг.15, многоканальный кодер 241 формирует сигнал понижающего микширования и основывающуюся на каналах дополнительную информацию на основе многоканального объектного сигнала (от OBJECT A(CH1) до OBJECT A(CHn)). Объектный кодер 243 принимает сигнал понижающего микширования, сформированный посредством многоканального кодера 241, и множество немногоканальных объектных сигналов от OBJECT1 до OBJECTn и формирует объектный поток битов и дополнительную информацию на основе принятого сигнала понижающего микширования и объектных сигналов от OBJECT1 до OBJECTn. Мультиплексор 245 комбинирует основывающуюся на каналах дополнительную информацию, сформированную посредством многоканального кодера 241, и дополнительную информацию, сформированную посредством объектного кодера 243, и выводит результат комбинирования.Referring to FIG. 15, multi-channel encoder 241 generates a down-mix signal and channel-based additional information based on a multi-channel object signal (from OBJECT A (CH1) to OBJECT A (CHn)). The object encoder 243 receives the down-mix signal generated by the multi-channel encoder 241 and a plurality of multi-channel object signals from OBJECT1 to OBJECTn and generates the object bit stream and additional information based on the received down-mix signal and the object signals from OBJECT1 to OBJECTn. A multiplexer 245 combines the channel-based additional information generated by the multi-channel encoder 241 and the additional information generated by the object encoder 243 and outputs the combination result.

Ссылаясь на фиг.16, многоканальный кодер 253 формирует сигнал понижающего микширования и основывающуюся на каналах дополнительную информацию на основе многоканального объектного сигнала (от OBJECT A(CH1) до OBJECT A(CHn)). Объектный кодер 251 формирует сигнал понижающего микширования и дополнительную информацию на основе множества немногоканальных объектных сигналов от OBJECT1 до OBJECTn. Объектный кодер 255 принимает сигнал понижающего микширования, сформированный посредством многоканального кодера 253, и сигнал понижающего микширования, формируемый посредством объектного кодера 251, и комбинирует принятые сигналы понижающего микширования. Мультиплексор 257 комбинирует дополнительную информацию, сформированную посредством объектного кодера 251, и основывающуюся на каналах дополнительную информацию, сформированную посредством многоканального кодера 243, и выводит результат комбинирования.Referring to FIG. 16, multi-channel encoder 253 generates a down-mix signal and channel-based additional information based on a multi-channel object signal (from OBJECT A (CH1) to OBJECT A (CHn)). The object encoder 251 generates a down-mix signal and additional information based on a plurality of multi-channel object signals from OBJECT1 to OBJECTn. The object encoder 255 receives the down-mix signal generated by the multi-channel encoder 253 and the down-mix signal generated by the object encoder 251 and combines the received down-mix signals. A multiplexer 257 combines the additional information generated by the object encoder 251 and the channel-based additional information generated by the multi-channel encoder 243 and outputs the result of the combination.

В случае кодирования основывающегося на объектах аудио в телеконференциях иногда необходимо объединить множество объектных потоков битов в один поток битов. Ниже подробно описывается объединение множества объектных потоков битов в один поток битов.In the case of encoding object-based audio in newsgroups, it is sometimes necessary to combine multiple object bitstreams into a single bitstream. The following describes in detail the combination of multiple object bitstreams into a single bitstream.

Фиг.17 иллюстрирует схему для пояснения объединения двух объектных потоков битов. Ссылаясь на фиг.17, когда два объектных потока битов объединяются в один объектный поток битов, дополнительная информация, такая как информация CLD и ICC, представленная в двух объектных потоках битов, соответственно, может быть модифицирована. Два объектных потока битов могут быть объединены в один объектный поток битов просто посредством использования дополнительного OTT-модуля, т.е. одиннадцатого OTT-модуля, и использования дополнительной информации, такой как информация CLD и ICC, предоставляемой посредством одиннадцатого OTT-модуля.17 illustrates a diagram for explaining combining two object bitstreams. Referring to FIG. 17, when two object bitstreams are combined into one object bitstream, additional information, such as CLD and ICC information presented in the two object bitstreams, may be modified, respectively. Two object bitstreams can be combined into one object bitstream simply by using an additional OTT module, i.e. of the eleventh OTT module, and the use of additional information such as CLD and ICC information provided by the eleventh OTT module.

Древовидная конфигурационная информация каждого из двух объектных потоков битов должна быть объединена в интегрированную древовидную конфигурационную информацию, чтобы объединить два объектных потока битов в один объектный поток битов. Для этого, дополнительная конфигурационная информация, если имеется, сформированная посредством объединения двух объектных потоков битов, может быть модифицирована, индексы числа OTT-модулей, используемых для того, чтобы формировать два объектных потока битов, могут быть модифицированы, и только несколько дополнительных процессов, таких как процесс вычислений, выполняемый посредством одиннадцатого OTT-модуля, и понижающее микширование двух сигналов понижающего микширования в двух объектных потоках битов могут быть выполнены. Таким образом, два объектных потока битов могут быть легко объединены в один объектный поток битов без необходимости модифицировать информацию, касающуюся каждого из множества объектных сигналов, из которых исходят два объектных сигнала.The tree configuration information of each of the two object bitstreams must be combined into an integrated tree configuration information to combine the two object bitstreams into one object bitstream. For this, additional configuration information, if available, generated by combining two object bitstreams can be modified, the indices of the number of OTT modules used to form two object bitstreams can be modified, and only a few additional processes, such as a calculation process performed by the eleventh OTT module and down-mixing of two down-mixing signals in two object bit streams can be performed. Thus, two object bitstreams can easily be combined into one object bitstream without the need to modify information regarding each of the plurality of object signals from which two object signals are emitted.

Ссылаясь на фиг.17, одиннадцатый OTT-модуль может быть необязательным. В этом случае два сигнала понижающего микширования двух объектных потоков битов могут быть использованы, как есть, в качестве двухканального сигнала понижающего микширования. Таким образом, два объектных потока битов могут быть объединены в один поток битов без необходимости дополнительных вычислений.Referring to FIG. 17, an eleventh OTT module may be optional. In this case, two down-mix signals of two object bitstreams can be used, as is, as a two-channel down-mix signal. Thus, two object bitstreams can be combined into a single bitstream without the need for additional computations.

Фиг.18 иллюстрирует схему для пояснения объединения двух или более независимых объектных потоков битов в один объектный поток битов, имеющий стереосигнал понижающего микширования. Ссылаясь на фиг.18, если два или более независимых потока битов имеют различное число параметрических полос, преобразование параметрических полос может выполняться для объектных потоков битов, так чтобы число параметрических полос одного из объектных потоков битов, имеющего меньше параметрических полос, могло быть увеличено, чтобы быть таким же, как число параметрических полос другого объектного потока битов.FIG. 18 illustrates a diagram for explaining combining two or more independent object bitstreams into a single object bitstream having a stereo downmix signal. Referring to FIG. 18, if two or more independent bitstreams have a different number of parametric bands, the conversion of parametric bands can be performed for object bitstreams, so that the number of parametric bands of one of the object bitstreams having fewer parametric bands can be increased so that be the same as the number of parametric bands of another object bitstream.

Более конкретно, преобразование параметрической полосы может выполняться с помощью предварительно определенной таблицы преобразования. В этом случае преобразование параметрической полосы может выполняться с помощью простой линейной формулы.More specifically, parametric band conversion can be performed using a predetermined conversion table. In this case, the transformation of the parametric strip can be performed using a simple linear formula.

Если имеются перекрывающиеся параметрические полосы, значения параметров могут надлежащим образом смешиваться с учетом величины, на которую перекрывающиеся параметрические полосы перекрывают друг друга. В ситуациях, когда низкая сложность приоритетна, преобразование параметрических полос может выполняться для двух объектных потоков битов, с тем, чтобы число параметрических полос одного из двух объектных потоков битов, имеющего больше параметрических полос, могло быть уменьшено так, чтобы быть таким же, как число параметрических полос другого объектного потока битов.If there are overlapping parametric bands, the parameter values may be appropriately mixed taking into account the amount by which the overlapping parametric bands overlap. In situations where low complexity is a priority, the conversion of parametric bands can be performed for two object bitstreams, so that the number of parametric bands of one of two object bitstreams having more parametric bands can be reduced to be the same as the number parametric bands of another object bitstream.

В вариантах осуществления по фиг.17 и 18 два или более независимых объектных потока битов могут быть объединены в интегрированный объектный поток битов без необходимости вычисления существующих параметров независимых объектных потоков битов. Тем не менее, в случае объединения множества сигналов понижающего микширования параметры, касающиеся сигналов понижающего микширования, возможно, потребуется вычислить снова посредством QMF/гибридного анализа.In the embodiments of FIGS. 17 and 18, two or more independent object bitstreams can be combined into an integrated object bitstream without having to calculate existing parameters of independent object bitstreams. However, in the case of combining a plurality of downmix signals, parameters regarding downmix signals may need to be calculated again by QMF / hybrid analysis.

Тем не менее, это вычисление требует значительного объема вычислений, тем самым подвергая риску преимущества вариантов осуществления по фиг.17 и 18. Следовательно, необходимо предложить способы извлечения параметров без необходимости QMF/гибридного анализа или синтеза, даже когда сигналы понижающего микширования микшируются с понижением. Для этого информация энергии, касающаяся энергий каждой параметрической полосы каждого сигнала понижающего микширования, может быть включена в объектный поток битов. Затем, когда сигналы понижающего микширования смикшированы с понижением, информация, такая как информация CLD, может быть легко вычислена на основе такой информации энергии без необходимости QMF/гибридного анализа или синтеза. Эта информация энергии может представлять наивысший уровень энергии для каждой параметрической полосы или абсолютное значение уровня энергии объектного сигнала с наивысшей энергией для каждой параметрической полосы. Объем вычислений дополнительно может быть снижен посредством использования значений ICC, полученных из временной области для каждой параметрической полосы.However, this calculation requires a significant amount of computation, thereby jeopardizing the advantages of the embodiments of FIGS. 17 and 18. Therefore, it is necessary to propose methods for extracting parameters without the need for QMF / hybrid analysis or synthesis, even when downmix signals are downmixed. To this end, energy information regarding the energies of each parametric band of each downmix signal can be included in the object bit stream. Then, when the downmix signals are downmixed, information such as CLD information can be easily calculated based on such energy information without the need for QMF / hybrid analysis or synthesis. This energy information may represent the highest energy level for each parametric band or the absolute value of the energy level of the object signal with the highest energy for each parametric band. The amount of computation can be further reduced by using ICC values obtained from the time domain for each parametric band.

В ходе понижающего микширования множества сигналов понижающего микширования может возникать отсечение. Чтобы разрешить это, уровни сигналов понижающего микширования могут быть уменьшены. Если уровни сигналов понижающего микширования уменьшены, информация уровней, касающаяся уменьшенных уровней сигналов понижающего микширования, возможно, должна быть включена в объектный поток битов. Информация уровня для недопущения отсечения может быть применена к каждому кадру объектного потока битов или может быть применена только к некоторым кадрам, в которых возникает отсечение. Уровни исходных сигналов понижающего микширования могут быть вычислены посредством обратного применения информации уровня для недопущения отсечения в ходе операции декодирования. Информация уровня для недопущения отсечения может быть вычислена во временной области и тем самым не должна быть подвергнута QMF/гибридному синтезу или анализу. Объединение множества объектных сигналов в один объектный поток битов может выполняться с помощью структуры, проиллюстрированной на фиг.12, и это далее подробнее описывается со ссылкой на фиг.19.During downmixing of a plurality of downmix signals, clipping may occur. To resolve this, the downmix signal levels can be reduced. If the levels of the downmix signals are reduced, level information regarding the reduced levels of the downmix signals may need to be included in the object bitstream. Level information to prevent clipping can be applied to each frame of the object bitstream, or can only be applied to some frames in which clipping occurs. The levels of the original down-mix signals can be calculated by reverse applying the level information to prevent clipping during the decoding operation. Level information to prevent clipping can be computed in the time domain and thus should not be subjected to QMF / hybrid synthesis or analysis. Combining a plurality of object signals into a single object bit stream may be performed using the structure illustrated in FIG. 12, and this will be described in more detail below with reference to FIG.

Фиг.19 иллюстрирует схему для пояснения объединения двух независимых объектных потоков битов в один объектный поток битов. Ссылаясь на фиг.19, первый модуль 261 формирует первый объектный поток битов, а второй модуль 263 формирует второй объектный поток битов. Далее, третий модуль 265 формирует третий поток битов посредством комбинирования первого и второго потока битов. В этом случае, если первый и второй объектные потоки битов включают в себя информацию по абсолютному значению уровня энергии объектного сигнала с наивысшей энергией для каждой параметрической полосы и отношениям уровней энергии других объектных сигналов не с наивысшим уровнем энергии к уровню энергии объектного сигнала с наивысшим уровнем энергии и информацию усиления, касающуюся значений усиления, которые умножены на сигналы понижающего микширования посредством первого и второго модулей 261 и 263, третий модуль 265 может формировать третий объектный поток битов просто посредством объединения первого и второго потоков битов без необходимости дополнительного вычисления или извлечения параметров.19 is a diagram for explaining combining two independent object bitstreams into a single object bitstream. Referring to FIG. 19, the first module 261 generates a first object bit stream, and the second module 263 generates a second object bit stream. Further, the third module 265 generates a third bit stream by combining the first and second bit stream. In this case, if the first and second object bitstreams include information on the absolute value of the energy level of the object signal with the highest energy for each parametric strip and the ratios of the energy levels of other object signals not with the highest energy level to the energy level of the object signal with the highest energy level and gain information regarding gain values that are multiplied by downmix signals by the first and second modules 261 and 263, the third module 265 may generate rd object bitstream simply by combining the first and second bitstreams without further calculation or extraction parameters.

Третий модуль 265 принимает множество сигналов понижающего микширования DOWNMIX_A и DOWNMIX_B. Третий модуль 265 преобразует сигналы понижающего микширования DOWNMIX_A и DOWNMIX_B в PCM-сигналы и суммирует PCM-сигналы, тем самым формируя один сигнал понижающего микширования. Тем не менее, в ходе этого процесса может возникать отсечение. Чтобы разрешить это, сигналы понижающего микширования DOWNMIX_A и DOWNMIX_B могут быть умножены на предварительно заданное значение усиления. Информация, касающаяся предварительно заданного значения усиления, может быть включена в третий объектный поток битов и передана вместе с третьим объектным потоком битов.The third module 265 receives a plurality of downmix signals DOWNMIX_A and DOWNMIX_B. The third module 265 converts the downmix signals DOWNMIX_A and DOWNMIX_B into PCM signals and sums the PCM signals, thereby generating one downmix signal. However, clipping may occur during this process. To enable this, the downmix signals DOWNMIX_A and DOWNMIX_B can be multiplied by a predefined gain value. Information regarding a predetermined gain value may be included in the third object bit stream and transmitted along with the third object bit stream.

Ниже подробно описывается объединение множества объектных потоков битов в один поток битов. Ссылаясь на фиг.19, paramA может включать в себя информацию, касающуюся того, какой из множества объектных сигналов от OBJECT1 до OBJECTn является объектным сигналом с наивысшей энергией, и отношений уровней энергии других объектных сигналов не с наивысшей энергией к уровню энергии объектного сигнала с наивысшей энергией. Аналогично, SIDE_INFO может включать в себя SIDE_INFO_A, которое может включать в себя информацию, касающуюся того, какой из множества объектных сигналов от OBJECT1 до OBJECTn является объектным сигналом с наивысшей энергией, и отношений уровней энергии других объектных сигналов не с наивысшей энергией к уровню энергии объектного сигнала с наивысшей энергией.The following describes in detail the combination of multiple object bitstreams into a single bitstream. Referring to FIG. 19, paramA may include information regarding which of a plurality of object signals from OBJECT1 to OBJECTn is an object signal with the highest energy, and ratios of energy levels of other object signals not with the highest energy to the energy level of the object signal with the highest energy. Similarly, SIDE_INFO may include SIDE_INFO_A, which may include information regarding which of a plurality of object signals from OBJECT1 to OBJECTn is an object signal with the highest energy, and ratios of energy levels of other object signals not with the highest energy to the energy level of the object signal with the highest energy.

SIDE_INFO_A и SIDE_INFO_B могут быть включены параллельно в один поток битов, как проиллюстрировано на фиг.20. В этом случае дополнительно может быть предоставлен бит, указывающий то, существует более одного потока битов параллельно.SIDE_INFO_A and SIDE_INFO_B may be included in parallel in one bit stream, as illustrated in FIG. In this case, a bit may further be provided indicating that there is more than one bit stream in parallel.

Ссылаясь на фиг.20, чтобы указать то, является ли предварительно определенный поток битов интегрированным потоком битов, включающим в себя более одного потока битов, информация, указывающая то, является ли предварительно определенный поток битов интегрированным потоком битов, информация, касающаяся числа потоков битов, если есть, включенных в предварительно определенный поток битов, и информация, касающаяся исходных позиций потоков битов, если есть, включенных в предварительно определенный поток битов, может быть предоставлена в заголовке предварительно определенного потока битов, за которым следует более одного потока битов, если есть, в предварительно определенный поток битов. В этом случае декодер может определять то, является ли предварительно определенный поток битов интегрированным потоком битов, включающим в себя более одного потока битов, посредством анализа информации в заголовке предварительно определенного потока битов. Этот тип объединения потоков битов не требует дополнительных процессов, помимо добавления нескольких идентификаторов в поток битов. Тем не менее, такие идентификаторы должны предоставляться с интервалами в число кадров. Помимо этого, этот тип способа объединения потока битов требует от декодера определять то, является ли каждый поток битов, который принимает декодер, интегрированным потоком битов.Referring to FIG. 20, to indicate whether a predetermined bit stream is an integrated bit stream including more than one bit stream, information indicating whether a predetermined bit stream is an integrated bit stream, information regarding the number of bit streams, if any, included in a predetermined bit stream, and information regarding the initial positions of the bit streams, if any, included in a predetermined bit stream, may be provided in the header a predefined bitstream followed by more than one bitstream, if any, into a predefined bitstream. In this case, the decoder can determine whether the predetermined bit stream is an integrated bit stream including more than one bit stream by analyzing the information in the header of the predefined bit stream. This type of combining bit streams does not require additional processes, in addition to adding multiple identifiers to the bit stream. However, such identifiers should be provided at intervals of a number of frames. In addition, this type of method for combining the bitstream requires the decoder to determine whether each bitstream that the decoder receives is an integrated bitstream.

В качестве альтернативы вышеописанному способу объединения потоков битов, множество потоков битов мог быть объединены в один поток битов таким образом, чтобы декодер не могут распознать, является или нет один поток битов интегрированным потоком битов. Это подробно описывается ниже со ссылкой на фиг.21.As an alternative to the above method of combining bit streams, a plurality of bit streams could be combined into a single bit stream so that the decoder cannot recognize whether or not one bit stream is an integrated bit stream. This is described in detail below with reference to FIG.

Ссылаясь на фиг.21, сравниваются уровень энергии объектного сигнала с наивысшей энергией, представленного посредством SIDE_INFO_A, и уровень энергии объектного сигнала с наивысшей энергией, представленного посредством SIDE_INFO_B. Затем тот из двух объектных сигналов, который имеет наивысший уровень энергии, определяется как объектный сигнал с наивысшей энергией интегрированного потока битов. Например, если уровень энергии объектного сигнала с наивысшей энергией, представленного посредством SIDE_INFO_A, выше уровня энергии объектного сигнала с наивысшей энергией, представленного посредством SIDE_INFO_B, объектный сигнал с наивысшей энергией, представленный посредством SIDE_INFO_A, может становиться объектным сигналом с наивысшей энергией интегрированного потока битов. Затем информация энергетического соотношения SIDE_INFO_A может быть использована в интегрированном потоке битов как есть, тогда как информация энергетического соотношения SIDE_INFO_B может быть умножена на отношение уровней энергии.Referring to FIG. 21, the energy level of the highest energy object signal represented by SIDE_INFO_A and the energy level of the highest energy object signal represented by SIDE_INFO_B are compared. Then, one of the two object signals that has the highest energy level is defined as the object signal with the highest energy of the integrated bit stream. For example, if the energy level of the highest energy object signal represented by SIDE_INFO_A is higher than the energy level of the highest energy object represented by SIDE_INFO_B, the highest energy object signal represented by SIDE_INFO_A may become the highest energy signal of the integrated bit stream. Then, the energy ratio information SIDE_INFO_A can be used in the integrated bitstream as is, while the energy ratio information SIDE_INFO_B can be multiplied by the ratio of energy levels.

Далее, информация энергетического соотношения того из SIDE_INFO_A и SIDE_INFO_B, который включает в себя информацию, касающуюся объектного сигнала с наивысшей энергией интегрированного потока битов, может быть использована в качестве интегрированного потока битов, и информацию энергетического соотношения объектного сигнала с наивысшей энергией, представленного посредством Param A, и объектного сигнала с наивысшей энергией, представленного посредством SIDE_INFO_B. Этот способ влечет за собой пересчет информации энергетического соотношения SIDE_INFO_B. Тем не менее, пересчет информации энергетического соотношения SIDE_INFO_B является относительно несложным. В этом способе декодер может не иметь возможности определять то, является поток битов, который он принимает, интегрированным потоком битов, включающим в себя более одного потока битов, и тем самым может быть использован типичный способ декодирования.Further, the energy ratio information of that of SIDE_INFO_A and SIDE_INFO_B, which includes information relating to the object signal with the highest energy of the integrated bit stream, can be used as the integrated bit stream, and information of the energy ratio of the object signal with the highest energy represented by Param A , and the highest energy object signal represented by SIDE_INFO_B. This method entails the conversion of the energy ratio information SIDE_INFO_B. However, recalculation of the energy ratio information SIDE_INFO_B is relatively simple. In this method, the decoder may not be able to determine whether the bit stream it receives is an integrated bit stream including more than one bit stream, and thus a typical decoding method can be used.

Два объектных потока битов, включающих в себя стереосигналы понижающего микширования, легко могут быть объединены в один объектный поток битов без необходимости пересчета информации, касающейся объектных сигналов, посредством использования практически такого же способа, что использован для того, чтобы объединять потоки битов, включающие в себя моносигналы понижающего микширования. В объектном потоке битов информация, касающаяся древовидной структуры, которая низводит объектный сигнал, следует после информации объектных сигналов, получаемой из каждой ветви (т.е. каждого модуля) древовидной структуры.Two object bit streams including stereo downmix signals can easily be combined into one object bit stream without having to recalculate the information regarding the object signals using practically the same method as used to combine bit streams including downmix mono signals. In the object bitstream, information regarding the tree structure that reduces the object signal follows the information of the object signals obtained from each branch (i.e., each module) of the tree structure.

Объектные потоки битов описаны выше с учетом того, что определенный объект распределяется не только левому каналу или правому каналу стереосигнала понижающего микширования. Тем не менее, объектные сигналы, в общем, распределяются между обоими каналами стереосигнала понижающего микширования. Следовательно, далее подробно описывается то, как формировать объектный поток битов на основе потоков битов, которые распределяются между двумя каналами стереосигнала понижающего микширования.The object bitstreams are described above in view of the fact that a certain object is allocated not only to the left channel or the right channel of the stereo down-mix signal. However, object signals are generally distributed between both channels of the stereo downmix signal. Therefore, the following describes in detail how to generate an object bit stream based on the bit streams that are distributed between the two channels of the stereo down-mix signal.

Фиг.22 иллюстрирует схему для пояснения способа формирования стереосигнала понижающего микширования посредством микширования множества объектных сигналов, а более конкретно, способа понижающего микширования четырех объектных сигналов от OBJECT1 до OBJECT4 в L- и R-стереосигналы. Ссылаясь на фиг.22, некоторые из четырех объектных сигналов от OBJECT1 до OBJECT4 принадлежат и L-, и R-каналам сигнала понижающего микширования. Например, первый объектный сигнал OBJECT1 распределяется между L- и R-каналами с отношением a:b, как указано посредством уравнения (3):FIG. 22 illustrates a diagram for explaining a method of generating a stereo down-mix signal by mixing a plurality of object signals, and more specifically, a method of down-mixing four object signals from OBJECT1 to OBJECT4 into L- and R-stereo signals. Referring to FIG. 22, some of the four object signals from OBJECT1 to OBJECT4 belong to both the L- and R-channels of the downmix signal. For example, the first object signal OBJECT1 is distributed between the L- and R-channels with the ratio a: b, as indicated by equation (3):

Уравнение 3Equation 3

Если объектный сигнал распределяется между L- и R-каналами стереосигнала понижающего микширования, может дополнительно потребоваться информация соотношения распределения по каналам, касающаяся соотношения (a:b), с которым объектный сигнал распределяется между L- и R-каналами. Далее информация, касающаяся объектного сигнала, такая как информация CLD и ICC, может быть вычислена посредством выполнения понижающего микширования с помощью OTT-модулей для L- и R-каналов стереосигнала понижающего микширования, и это подробнее описывается далее со ссылкой на фиг.23.If the object signal is distributed between the L- and R-channels of the stereo down-mix signal, channel distribution ratio information regarding the ratio (a: b) with which the object signal is distributed between the L- and R-channels may be additionally required. Further, information regarding the object signal, such as CLD and ICC information, can be calculated by performing downmixing using OTT modules for the L- and R-channels of the downmix stereo signal, and this will be described in more detail below with reference to FIG.

Ссылаясь на фиг.23, после того как информация CLD и ICC, полученная из множества OTT-модулей в ходе операции понижающего микширования, и информация соотношения распределения между каналами каждого из множества объектных сигналов предоставлена, можно вычислять многоканальный поток битов, который адаптивно варьируется согласно любой модификации, выполненной в информации позиции объектов и информации конфигурации воспроизведения посредством конечного пользователя. Помимо того, если стереосигнал понижающего микширования должен быть обработан посредством предварительной обработки понижающего микширования, можно получить информацию, касающуюся того, как стереосигнал понижающего микширования обработан посредством предварительной обработки понижающего микширования, и передавать полученную информацию в препроцессор. Т.е. если информация соотношения распределения по каналам каждого из множества объектных сигналов не предоставлена, нет способа вычислять многоканальный поток битов и получать информацию, требуемую для работы препроцессора. Информация соотношения распределения между каналами объектного сигнала может быть представлена как соотношение двух целых чисел или скалярная величина (в дБ).Referring to FIG. 23, after the CLD and ICC information obtained from the plurality of OTT modules during the downmix operation and the distribution ratio information between the channels of each of the plurality of object signals are provided, a multi-channel bit stream that adaptively varies according to any a modification made to the position information of the objects and the playback configuration information by the end user. In addition, if the stereo downmix signal needs to be processed by preprocessing the downmix, you can get information regarding how the stereo downmix signal is processed by the preprocessing downmix and transmit the information to the preprocessor. Those. if the information of the distribution ratio over the channels of each of the plurality of object signals is not provided, there is no way to calculate the multi-channel bitstream and obtain the information required for the preprocessor to work. Information of the distribution ratio between the channels of the object signal can be represented as the ratio of two integers or a scalar value (in dB).

Как описано выше, если объектный сигнал распределен между двумя каналами стереосигнала понижающего микширования, информация соотношения распределения между каналами объектного сигнала может требоваться. Информация соотношения распределения между каналами может иметь фиксированное значение, указывающее соотношение, с которым объектный сигнал распределен между двумя каналами стереосигнала понижающего микширования. Альтернативно, информация соотношения распределения между каналами объектного сигнала может варьироваться от одной полосы частот до другой полосы частот объектного сигнала, особенно когда информация соотношения распределения между каналами используется как информация ICC. Если стереосигнал понижающего микширования получается посредством усложненной операции понижающего микширования, т.е. если объектный сигнал принадлежит двум каналам стереосигнала понижающего микширования и микшируется с понижением посредством варьирования информации ICC от одной полосы частот до другой полосы частот объектного сигнала, подробное описание понижающего микширования объектного сигнала может дополнительно потребоваться, чтобы декодировать окончательно подготовленный посредством рендеринга объектный сигнал. Этот вариант осуществления может быть применен ко всем возможным объектным структурам, которые уже описаны.As described above, if the object signal is distributed between two channels of the stereo down-mix signal, distribution ratio information between the channels of the object signal may be required. The distribution ratio information between the channels may have a fixed value indicating the ratio with which the object signal is distributed between the two channels of the stereo downmix signal. Alternatively, the distribution ratio information between the channels of the object signal may vary from one frequency band to another frequency band of the object signal, especially when the distribution ratio information between the channels is used as ICC information. If the stereo down-mix signal is obtained by a complicated down-mix operation, i.e. if the object signal belongs to two channels of the downmix stereo signal and is downmixed by varying the ICC information from one frequency band to another frequency band of the object signal, a detailed description of the downmix of the object signal may be additionally required to decode the object signal finally prepared by rendering. This embodiment can be applied to all possible object structures that have already been described.

Далее подробно описывается предварительная обработка со ссылкой на фиг.24-27. Если сигнал понижающего микширования, введенный в объектный декодер, является стереосигналом, входной сигнал понижающего микширования, возможно, потребуется предварительно обработать перед вводом в многоканальный декодер объектного декодера, поскольку многоканальный декодер не может преобразовывать сигнал, принадлежащий левому каналу входного сигнала понижающего микширования, в правый канал. Следовательно, чтобы конечный пользователь сдвинул позицию объектного сигнала, принадлежащего левому каналу входного сигнала понижающего микширования, к правому каналу, входной сигнал понижающего микширования, возможно, должен быть предварительно обработан, и предварительно обработанный сигнал понижающего микширования может быть введен в многоканальный декодер.Next, preprocessing is described in detail with reference to FIGS. 24-27. If the downmix signal input to the object decoder is a stereo signal, the downmix input may need to be pre-processed before being input to the multichannel decoder of the object decoder because the multichannel decoder cannot convert the signal belonging to the left channel of the downmix input signal to the right channel . Therefore, in order for the end user to shift the position of the object signal belonging to the left channel of the downmix input signal to the right channel, the downmix input signal may need to be pre-processed, and the pre-processed down-mix signal can be input into a multi-channel decoder.

Предварительная обработка стереосигнала понижающего микширования может быть выполнена посредством получения информации предварительной обработки из объектного потока битов и из матрицы рендеринга и надлежащей обработки стереосигнала понижающего микширования согласно информации обработки, и это далее подробно описывается.The preprocessing of the downmix stereo signal can be performed by obtaining the preprocessing information from the object bitstream and from the rendering matrix and the proper processing of the downmix stereo signal according to the processing information, and this is described in further detail below.

Фиг.24 иллюстрирует схему для пояснения того, как конфигурировать стереосигнал понижающего микширования на основе четырех объектных сигналов от OBJECT1 до OBJECT4. Ссылаясь на фиг.24, первый объектный сигнал OBJECT1 распределяется между L- и R-каналами с соотношением a:b, второй объектный сигнал OBJECT2 распределяется между L- и R-каналами с соотношением c:d, третий объектный сигнал OBJECT3 распределяется только L-каналу, и четвертый объектный сигнал OBJECT4 распределяется только R-каналу. Информация, такая как CLD и ICC, может быть сформирована посредством передачи каждого из с первого по четвертый объектного сигнала от OBJECT1 по OBJECT4 посредством ряда OTT, и сигнал понижающего микширования может быть сформирован на основе сформированной информации.24 illustrates a diagram for explaining how to configure a stereo down-mix signal based on four object signals from OBJECT1 to OBJECT4. Referring to Fig. 24, the first object signal OBJECT1 is distributed between L- and R-channels with the ratio a: b, the second object signal OBJECT2 is distributed between L- and R-channels with the ratio c: d, the third object signal OBJECT3 is distributed only L- channel, and the fourth object signal OBJECT4 is allocated only to the R-channel. Information, such as CLD and ICC, can be generated by transmitting each of the first to fourth object signals from OBJECT1 to OBJECT4 through an OTT series, and a downmix signal can be generated based on the generated information.

Предположим, что конечный пользователь получает матрицу рендеринга посредством надлежащего задания позиций и уровней с первого по четвертый объектных сигналов от OBJECT1 до OBJECT4 и что имеется пять каналов. Матрица рендеринга может быть представлена посредством уравнения (4):Suppose that the end user receives a rendering matrix by appropriately setting positions and levels one through four of the object signals from OBJECT1 to OBJECT4 and that there are five channels. The rendering matrix can be represented by equation (4):

Уравнение 4Equation 4

Ссылаясь на уравнение (4), когда сумма из пяти коэффициентов в каждой из четырех строк равна предварительно заданному опорному значению, т.е. 100, определяется то, что уровень соответствующего объектного сигнала не варьировался. Величина, на которую сумма пяти коэффициентов в каждой из четырех строк отличается от предварительно заданного опорного значения, может быть величиной (в дБ), на которую варьировался уровень соответствующего объектного сигнала. Первый, второй, третий, четвертый и пятый столбцы в матрице рендеринга уравнения (4) представляют FL-, FR-, C-, RL- и RR-каналы соответственно.Referring to equation (4), when the sum of five coefficients in each of the four rows is equal to a predetermined reference value, i.e. 100, it is determined that the level of the corresponding object signal has not been varied. The value by which the sum of the five coefficients in each of the four lines differs from the predefined reference value may be the amount (in dB) by which the level of the corresponding object signal was varied. The first, second, third, fourth and fifth columns in the rendering matrix of equation (4) represent the FL, FR, C, RL and RR channels, respectively.

Первая строка матрицы рендеринга по уравнению (4) соответствует первому объектному сигналу OBJECT1 и имеет всего пять коэффициентов, т.е. 30, 10, 20, 30 и 10. Поскольку сумма пяти коэффициентов первой строки составляет 100, определяется, что уровень первого объектного сигнала OBJECT1 не варьировался, и что только пространственная позиция первого объектного сигнала OBJECT1 изменилась. Даже если пять коэффициентов первой строки представляют различные канальные направления, они могут крупно классифицироваться на два канала: L- и R-каналы. В таком случае соотношение, с которым первый объектный сигнал OBJECT1 распределяется между L- и R-каналами, может быть вычислено как 70%(=(30+30+20)*0,5):30%(=(10+10+20)*0,5). Следовательно, матрица рендеринга по уравнению (4) указывает то, что уровень первого объектного сигнала OBJECT1 не варьировался, и что первый объектный сигнал OBJECT1 распределен между L- и R-каналами с соотношением 70%:30%. Если сумма пяти коэффициентов любой из строк матрицы рендеринга по уравнению (4) меньше или не больше 100, может быть определено, что уровень соответствующего объектного сигнала изменился, и затем соответствующий объектный сигнал может быть обработан посредством предварительной обработки или может быть преобразован и передан как ADG.The first row of the rendering matrix according to equation (4) corresponds to the first object signal OBJECT1 and has only five coefficients, i.e. 30, 10, 20, 30, and 10. Since the sum of the five coefficients of the first row is 100, it is determined that the level of the first object signal OBJECT1 has not varied, and that only the spatial position of the first object signal OBJECT1 has changed. Even if the five coefficients of the first row represent different channel directions, they can be broadly classified into two channels: L and R channels. In this case, the ratio with which the first object signal OBJECT1 is distributed between the L- and R-channels can be calculated as 70% (= (30 + 30 + 20) * 0.5): 30% (= (10 + 10 + 20) * 0.5). Therefore, the rendering matrix according to equation (4) indicates that the level of the first object signal OBJECT1 did not vary, and that the first object signal OBJECT1 is distributed between L and R channels with a ratio of 70%: 30%. If the sum of the five coefficients of any of the rows of the rendering matrix according to equation (4) is less than or not more than 100, it can be determined that the level of the corresponding object signal has changed, and then the corresponding object signal can be processed by preprocessing or can be converted and transmitted as ADG .

Чтобы предварительно обрабатывать сигналы понижающего микширования, соотношение, с которым сигналы понижающего микширования распределяются между параметрическими полосами, из которых параметры извлекаются из сигналов, полученных посредством выполнения QMF/гибридного преобразования сигналов понижающего микширования, может быть вычислено, и сигналы понижающего микширования могут быть перераспределены между параметрическими полосами согласно настройке матрицы рендеринга. Далее подробно описываются различные способы перераспределения сигналов понижающего микширования между параметрическими полосами.In order to pre-process the downmix signals, the ratio with which the downmix signals are distributed between the parametric bands from which the parameters are extracted from the signals obtained by performing QMF / hybrid conversion of the downmix signals can be calculated, and the downmix signals can be redistributed between the parametric stripes according to the setting of the rendering matrix. Various methods for redistributing down-mix signals between parametric bands are described in detail below.

В первом способе перераспределения сигналы понижающего микширования L- и R-канала декодируются отдельно с помощью их соответствующей дополнительной информации (такой как информация CLD и ICC) и с помощью практически того же способа, что и использован посредством многоканального кодека. Далее объектные сигналы, распределенные между сигналами понижающего микширования L- и R-канала, восстанавливаются. Чтобы снизить объем вычислений, сигналы понижающего микширования L- и R-канала могут быть декодированы только с помощью информации CLD. Соотношение, с которым каждый из восстановленных объектных сигналов распределяется между сигналами понижающего микширования L- и R-канала, может быть определено на основе дополнительной информации.In the first redistribution method, the down-mix signals of the L- and R-channel are decoded separately using their respective additional information (such as CLD and ICC information) and using almost the same method as used by the multi-channel codec. Next, the object signals distributed between the down-mix signals of the L- and R-channels are restored. To reduce the amount of computation, the down-mix signals of the L- and R-channels can only be decoded using CLD information. The relationship with which each of the reconstructed object signals is distributed between the down-mix signals of the L- and R-channels can be determined based on additional information.

Каждый из восстановленных объектных сигналов может быть перераспределен между сигналами понижающего микширования L- и R-канала согласно матрице рендеринга. Далее перераспределенные объектные сигналы микшируются с понижением на поканальной основе посредством OTT-модулей, тем самым, завершая предварительную обработку. Вкратце, первый способ перераспределения приспосабливает тот же способ, что и используемый многоканальным кодеком. Тем не менее, первый способ перераспределения требует стольких процессов декодирования, сколько объектных сигналов для каждого канала, и требует процесса перераспределения и процесса основывающегося на каналах понижающего микширования.Each of the reconstructed object signals can be redistributed between the down-mix signals of the L- and R-channels according to the rendering matrix. Next, the redistributed object signals are mixed downward on a per-channel basis using OTT modules, thereby completing pre-processing. In short, the first redistribution method accommodates the same method used by the multi-channel codec. However, the first redistribution method requires as many decoding processes as there are object signals for each channel, and requires a redistribution process and a channel-based downmix process.

Во втором способе перераспределения, в отличие от первого способа перераспределения, объектные сигналы не восстанавливаются из L- и R-сигналов понижающего микширования. Вместо этого, каждый из L- и R-сигналов понижающего микширования делится на две части: одна часть L_L или R_R, которая должна быть оставлена в соответствующем канале, и другая часть L_R или R_L, которая должна быть перераспределена, как проиллюстрировано на фиг.25. Ссылаясь на фиг.25, L_L указывает часть сигнала понижающего микширования L-канала, которая должна быть левой в L-канале, а L_R указывает часть сигнала понижающего микширования L-канала, которая должна быть добавлена к R-каналу. Аналогично, R_R указывает часть сигнала понижающего микширования R-канала, которая должна быть оставлена в R-канале, а R_L указывает часть сигнала понижающего микширования R-канала, которая должна быть добавлена к L-каналу. Каждый из сигналов понижающего микширования L- и R-канала может быть поделен на две части (L_L и L_R или R_R и R_L) согласно соотношению, с которым каждый объектный сигнал распределяется между L- и R-сигналами понижающего микширования, как задано посредством уравнения (2), и соотношению, с которым каждый объектный сигнал должен быть распределен между предварительно обработанными L и R в L- и R-каналах, как задано посредством уравнения (3). Следовательно, может быть определено, что сигналы понижающего микширования L- и R-каналов должны быть перераспределены между предварительно обработанными L и R в L- и R-каналах посредством сравнения соотношения, с которым каждый объектный сигнал распределяется между L- и R-сигналами понижающего микширования, и соотношения, с которым каждый объектный сигнал должен быть распределен между предварительно обработанными L и R в L- и R-каналах.In the second redistribution method, unlike the first redistribution method, object signals are not reconstructed from the L- and R-downmix signals. Instead, each of the L- and R-downmix signals is divided into two parts: one part L_L or R_R, which should be left in the corresponding channel, and the other part L_R or R_L, which should be redistributed, as illustrated in FIG. . Referring to FIG. 25, L_L indicates the portion of the L-channel down-mix signal that should be left in the L-channel, and L_R indicates the portion of the L-channel down-mix signal that should be added to the R-channel. Similarly, R_R indicates the portion of the R-channel down-mix signal that should be left in the R-channel, and R_L indicates the portion of the R-channel down-mix signal that should be added to the L-channel. Each of the L- and R-channel down-mix signals can be divided into two parts (L_L and L_R or R_R and R_L) according to the ratio with which each object signal is distributed between the L- and R-down-mix signals, as defined by the equation ( 2), and the ratio with which each object signal must be distributed between the pre-processed L and R in the L- and R-channels, as defined by equation (3). Therefore, it can be determined that the downmix signals of the L and R channels should be redistributed between the pre-processed L and R in the L and R channels by comparing the ratio with which each object signal is distributed between the L and R signals of the downmix mixing, and the relationship with which each object signal must be distributed between the pre-processed L and R in the L- and R-channels.

Разделение сигнала L-канала на сигналы L_L и L_R согласно предварительно заданному энергетическому соотношению описано выше. После того как сигнал L-канала разделен на сигналы L_L и L_R, возможно, должно быть определено ICC между сигналами L_L и L_R. ICC между сигналами L_L и L_R могут быть легко определено на основе информации ICC, касающейся объектных сигналов. Т.е. ICC между сигналами L_L и L_R может быть определено на основе соотношения, с которым каждый объектный сигнал распределяется между сигналами L_L и L_R.The separation of the L-channel signal into L_L and L_R signals according to a predetermined energy ratio is described above. After the L-channel signal is divided into L_L and L_R signals, perhaps an ICC between the L_L and L_R signals should be determined. The ICC between the L_L and L_R signals can be easily determined based on the ICC information regarding the object signals. Those. The ICC between the L_L and L_R signals can be determined based on the relationship with which each object signal is distributed between the L_L and L_R signals.

Далее подробно описывается второй способ перераспределения понижающего микширования. Предположим, что сигналы L и R понижающего микширования L- и R-каналов получены посредством способа, показанного на фиг.24, и что первый, второй, третий и четвертый объектные сигналы OBJECT1, OBJECT2, OBJECT3 и OBJECT4 распределяются между сигналами L и R понижающего микширования L- и R-каналов с соотношениями 1:2, 2:3, 1:0 и 0:1 соответственно. Множество объектных сигналов может быть смикшировано с понижением посредством ряда OTT-модулей, и информация, такая информация CLD и ICC, может быть получена из понижающего микширования объектных сигналов.The second method for redistributing the downmix is described in detail below. Assume that the L and R down-mix signals L and R are obtained by the method shown in FIG. 24, and that the first, second, third and fourth object signals OBJECT1, OBJECT2, OBJECT3 and OBJECT4 are distributed between the down-mix signals L and R mixing L- and R-channels with ratios of 1: 2, 2: 3, 1: 0 and 0: 1, respectively. A plurality of object signals can be downmixed by a series of OTT modules, and information such CLD and ICC information can be obtained from downmixing the object signals.

Пример матрицы рендеринга, установленной для с первого по четвертый объектных сигналов от OBJECT1 по OBJECT4, такой, как представлено посредством уравнения (4). Матрица рендеринга включает в себя информацию местоположения с первого по четвертый объектных сигналов от OBJECT1 до OBJECT4. Таким образом, предварительные сигналы L и R понижающего микширования L- и R-каналов могут быть получены посредством выполнения предварительной обработки с помощью матрицы рендеринга. То, как установить и интерпретировать матрицу рендеринга, уже описано выше со ссылкой на уравнение (3).An example of a rendering matrix set for the first to fourth object signals from OBJECT1 to OBJECT4, such as represented by equation (4). The rendering matrix includes location information from first to fourth object signals from OBJECT1 to OBJECT4. Thus, the L and R down-mix preliminary signals L and R channels can be obtained by performing preprocessing using a rendering matrix. How to establish and interpret the rendering matrix has already been described above with reference to equation (3).

Соотношение, с которым каждый из с первого по четвертый объектного сигнала от OBJECT1 до OBJECT4 распределяется между предварительно обработанными сигналами L и R понижающего микширования L- и R-каналов, может быть вычислено так, как указано посредством уравнения (5):The ratio with which each of the first to fourth object signals from OBJECT1 to OBJECT4 is distributed between the pre-processed L and R down-mix signals L and R can be calculated as indicated by equation (5):

Уравнение 5Equation 5

Объект 1:Object 1:

Объект 2:Object 2:

Объект 3:Object 3:

Объект 4:Object 4:

Соотношение, с которым каждый из с первого по четвертый объектного сигнала от OBJECT1 до OBJECT4 распределяется между сигналами L и R понижающего микширования L- и R-каналов, может быть вычислено так, как указано посредством уравнения (6):The ratio with which each of the first to fourth object signals from OBJECT1 to OBJECT4 is distributed between the L and R down-mix signals L and R channels can be calculated as indicated by equation (6):

Уравнение 6Equation 6

Объект 1:Object 1:

Объект 2:Object 2:

Объект 3:Object 3:

Объект 4:Object 4:

Ссылаясь на уравнение (5), сумма части третьего объектного сигнала OBJECT3, распределяемого для предварительно обработанного сигнала L понижающего микширования L-канала, и части третьего объектного сигнала OBJECT3, распределяемого для сигнала R понижающего микширования R-канала, равна 110, и таким образом, определяется то, что уровень третьего объектного сигнала OBJECT3 увеличился на 10. С другой стороны, сумма части четвертого объектного сигнала OBJECT4, распределяемого для предварительно обработанного сигнала L понижающего микширования L-канала, и части четвертого объектного сигнала OBJECT4, распределяемого для сигнала R понижающего микширования R-канала, равна 85, и таким образом, определяется то, что уровень четвертого объектного сигнала OBJECT4 снизился на 5. Если матрица рендеринга для с первого по четвертый объектных сигналов от OBJECT1 до OBJECT4 имеет опорное значение в 100, и величина, на которую сумма коэффициентов в каждой из строк матрицы рендеринга отличается от опорного значения в 100, представляет величину (единицы - дБ), на которую варьировался уровень соответствующего объектного сигнала, может быть определено то, что уровень третьего объектного сигнала OBJECT3 увеличился на 10 дБ, и что уровень четвертого объектного сигнала OBJECT4 уменьшился на 5 дБ.Referring to equation (5), the sum of the portion of the third object signal OBJECT3 allocated to the pre-processed L-channel down-mix signal L and the portion of the third object signal OBJECT3 allocated to the R-channel down-mix signal R is 110, and thus it is determined that the level of the third object signal OBJECT3 has increased by 10. On the other hand, the sum of the part of the fourth object signal OBJECT4 allocated to the pre-processed signal L down-mix L-channel, and part the fourth object signal OBJECT4 allocated to the R-channel down-mix signal R is 85, and thus it is determined that the level of the fourth object signal OBJECT4 has decreased by 5. If the rendering matrix for the first to fourth object signals from OBJECT1 to OBJECT4 has a reference value of 100, and the amount by which the sum of the coefficients in each row of the rendering matrix differs from the reference value of 100, represents the value (units - dB) by which the level of the corresponding object signal was varied, It is determined that the level of the third object signal OBJECT3 increased by 10 dB, and that the level of the fourth object signal OBJECT4 has decreased by 5 dB.

Уравнения (5) и (6) могут быть перекомпанованы в уравнение (7):Equations (5) and (6) can be reorganized into equation (7):

Уравнение 7Equation 7

Объект 1:Object 1:

Объект 2:Object 2:

Объект 3:Object 3:

Объект 4:Object 4:

Уравнение (7) сравнивает соотношение, с которым каждый из с первого по четвертый объектного сигнала от OBJECT1 до OBJECT4 распределяется между сигналами понижающего микширования L- и R-канала до предварительной обработки, и сравнивает соотношение, с которым каждый из с первого по четвертый объектных сигналов от OBJECT1 до OBJECT4 распределяется между сигналами понижающего микширования L- и R-канала после предварительной обработки. Следовательно, посредством использования уравнения (7) можно легко определить то, какая часть каждого с первого по четвертый объектных сигналов от OBJECT1 до OBJECT4 должна быть перераспределена посредством предварительной обработки. Например, ссылаясь на (7), соотношение, с которым второй объектный сигнал OBJECT2 распределяется между сигналами понижающего микширования L- и R-канала, изменяется с 40:60 до 30:70, и таким образом, может быть определено то, что одна четвертая (25%) части второго объектного сигнала OBJECT2, ранее распределенная сигналу понижающего микширования L-канала, должна быть сдвинута к сигналу понижающего микширования R-канала. Это может стать более очевидным посредством ссылки на уравнение (8):Equation (7) compares the ratio with which each of the first to fourth object signals from OBJECT1 to OBJECT4 is distributed between the down-mix signals of the L- and R-channel before preprocessing, and compares the ratio with which each of the first to fourth object signals from OBJECT1 to OBJECT4 is distributed between the down-mix signals of the L- and R-channel after pre-processing. Therefore, by using equation (7), it is easy to determine how much of each of the first to fourth object signals from OBJECT1 to OBJECT4 should be redistributed by preprocessing. For example, referring to (7), the ratio with which the second object signal OBJECT2 is distributed between the down-mix signals of the L- and R-channel changes from 40:60 to 30:70, and thus, one fourth can be determined (25%) of the part of the second object signal OBJECT2, previously distributed to the down-mix signal of the L-channel, should be shifted to the down-mix signal of the R-channel. This may become more apparent by reference to equation (8):

Уравнение 8Equation 8

OBJECT1: 55% части OBJECT1, ранее распределенной R, должно быть сдвинуто к LOBJECT1: 55% of the portion of OBJECT1 previously allocated to R should be shifted to L

OBJECT2: 25% части OBJECT1, ранее распределенной L, должно быть сдвинуто к ROBJECT2: 25% of the portion of OBJECT1 previously allocated to L should be shifted to R

OBJECT3: 50% части OBJECT1, ранее распределенной L, должно быть сдвинуто к ROBJECT3: 50% of the portion of OBJECT1 previously allocated to L should be shifted to R

OBJECT4: 50% части OBJECT1, ранее распределенной R, должно быть сдвинуто к L.OBJECT4: 50% of the portion of OBJECT1 previously allocated to R should be shifted to L.

Посредством использования уравнения (8) сигналы L_L, L_R, R_L и R_R по фиг.25 могут быть представлены так, как указано посредством уравнения (9):By using equation (8), the signals L_L, L_R, R_L and R_R of FIG. 25 can be represented as indicated by equation (9):

Уравнение 9Equation 9

Значение каждого объектного сигнала в уравнении (9) может быть представлено как соотношение, с которым соответствующий объектный сигнал распределяется между L- и R-каналами, посредством использования деквантованной информации CLD, предоставленной посредством OTT-модуля, как указано посредством уравнения (10):The value of each object signal in equation (9) can be represented as the ratio with which the corresponding object signal is distributed between the L and R channels, using the dequantized CLD information provided by the OTT module, as indicated by equation (10):

Уравнение 10Equation 10

Информация CLD, используемая в каждом блоке анализа по фиг.25, может быть определена так, как указано посредством уравнения (11):The CLD information used in each analysis unit of FIG. 25 can be determined as indicated by equation (11):

Уравнение 11Equation 11

где ε - константа для избежания деления на ноль, например, 96дБ ниже максимального ввода сигнала.where ε is a constant to avoid division by zero, for example, 96dB below the maximum signal input.

Таким образом, информация CLD и ICC, используемая в блоке анализа для формирования сигналов L_L и L_R на основе сигнала понижающего микширования L-канала, может быть определена, и информация CLD и ICC, используемая в блоке анализа для формирования сигналов R_L и R_R на основе сигнала понижающего микширования R-канала, также может быть определена. После того как сигналы L_L, L_R, R_L и R_R получены, как проиллюстрировано на фиг.25, сигналы L_R и R_R могут быть суммированы, тем самым получая предварительно обработанный стереосигнал понижающего микширования. Если конечный канал является стереоканалом, сигналы понижающего микширования L- и R-каналов, полученные посредством предварительной обработки, могут быть выведены. В этом случае должно быть отрегулировано варьирование, если имеет место, уровня каждого объектного сигнала. Для этого предварительно определенный модуль, который выполняет функции ADG-модуля, может быть дополнительно предоставлен. Информация для регулирования уровня каждого объектного сигнала может быть вычислена с помощью того же способа, что используемый для того, чтобы вычислять информацию ADG, и это подробнее описывается далее. Альтернативно, уровень каждого объектного сигнала может быть отрегулирован в ходе операции предварительной обработки. В этом случае регулирование уровня каждого объектного сигнала может выполняться с помощью того же способа, что и используемый для того, чтобы обрабатывать ADG. Альтернативно варианту осуществления по фиг.25, операция декорреляции может выполняться посредством декоррелятора и микшера, а не модулей анализа PARSING 1 и PARSING 2, как проиллюстрировано на фиг.26, чтобы регулировать корреляцию между сигналами L и R, полученными посредством микширования. Ссылаясь на фиг.26, Pre_L и Pre_R указывают сигналы L- и R-канала, полученные посредством регулирования уровня. Один из сигналов Pre_L и Pre_R может быть введен в декоррелятор и затем подвергнут операции микширования, выполняемой посредством микшера, тем самым получая сигнал с отрегулированной корреляцией.Thus, the CLD and ICC information used in the analysis unit to generate the L_L and L_R signals based on the L-channel down-mix signal can be determined, and the CLD and ICC information used in the analysis unit to generate the R_L and R_R signals based on the signal down-mix of the R-channel can also be determined. After the signals L_L, L_R, R_L and R_R are received, as illustrated in FIG. 25, the signals L_R and R_R can be summed, thereby obtaining a pre-processed stereo down-mix signal. If the final channel is a stereo channel, the down-mix signals of the L- and R-channels obtained by preprocessing can be output. In this case, the variation, if any, of the level of each object signal should be adjusted. For this, a predefined module that performs the functions of an ADG module can be additionally provided. Information for adjusting the level of each object signal can be calculated using the same method as used to calculate ADG information, and this is described in more detail below. Alternatively, the level of each object signal may be adjusted during the preprocessing operation. In this case, the level control of each object signal can be performed using the same method as that used to process the ADG. Alternative to the embodiment of FIG. 25, the decorrelation operation may be performed by a decorrelator and mixer rather than the PARSING 1 and PARSING 2 analysis modules, as illustrated in FIG. 26, to adjust the correlation between the L and R signals obtained by mixing. Referring to FIG. 26, Pre_L and Pre_R indicate L- and R-channel signals obtained by level control. One of the signals Pre_L and Pre_R can be input into the decorrelator and then subjected to a mixing operation performed by the mixer, thereby obtaining a signal with adjusted correlation.

Предварительно обработанный стереосигнал понижающего микширования может быть введен в многоканальный кодер. Чтобы предоставить многоканальный вывод, совместимый с информацией позиции объектов и информацией конфигурации воспроизведения, заданной посредством конечного пользователя, не только предварительно обработанный сигнал понижающего микширования, но также основывающаяся на каналах дополнительная информация для выполнения многоканального декодирования обязательна. Далее подробно описывается то, как получить основывающуюся на каналах дополнительную информацию, посредством повторного рассмотрения вышеуказанного примера. Предварительно обработанные сигналы L и R понижающего микширования, которые вводятся в многоканальный декодер, могут быть заданы на основе уравнения (5), как указано посредством уравнения (12):The pre-processed stereo down-mix signal can be input into a multi-channel encoder. In order to provide multi-channel output compatible with object position information and playback configuration information specified by the end user, not only a pre-processed downmix signal, but also channel-based additional information for performing multi-channel decoding is required. The following describes in detail how to obtain channel-based additional information by re-examining the above example. The pre-processed down-mix signals L and R, which are input to the multi-channel decoder, can be set based on equation (5), as indicated by equation (12):

Уравнение 12Equation 12

Соотношение, с которым каждый из с первого по четвертый объектного сигнала от OBJECT1 до OBJECT4 распределяется по FL-, RL-, C-, FR- и RR-каналам, может быть определено так, как указано посредством уравнения (13):The ratio with which each of the first to fourth object signals from OBJECT1 to OBJECT4 is distributed on the FL-, RL-, C-, FR- and RR-channels can be determined as indicated by equation (13):

Уравнение 13Equation 13

Предварительно обработанные сигналы L и R понижающего микширования могут быть расширены до 5.1 каналов посредством MPS, как проиллюстрировано на фиг.27. Ссылаясь на фиг.27, параметры TTT-модуля TTT0 и OTT-модулей OTTA, OTTB и OTTC, возможно, должны быть вычислены в единицах параметрических полос, даже если параметрические полосы не проиллюстрированы для удобства.The preprocessed downmix signals L and R can be expanded to 5.1 channels by MPS, as illustrated in FIG. Referring to FIG. 27, the parameters of the TTT module TTT0 and the OTT modules OTTA, OTTB and OTTC may need to be calculated in units of parametric bands, even if the parametric bands are not illustrated for convenience.

TTT-модуль TTT0 может быть использован в двух различных режимах: энергетически-ориентированном режиме и режиме прогнозирования. Когда используется в энергетически-ориентированном режиме, TTT-модуль TTT0 требует двух фрагментов информации CLD. Когда используется в режиме прогнозирования, TTT-модуль TTT0 требует двух фрагментов информации CPC и фрагмента информации ICC.TTT-module TTT0 can be used in two different modes: energy-oriented mode and prediction mode. When used in an energy-oriented mode, the TTT-module TTT0 requires two pieces of CLD information. When used in prediction mode, the TTT module TTT0 requires two pieces of CPC information and a piece of ICC information.

Чтобы вычислить информацию CLD в энергетически-ориентированном режиме, энергетическое соотношение сигналов L", R" и C по фиг.27 может быть вычислено с помощью уравнений (6), (10) и (13). Уровень энергии сигнала L" может быть вычислен так, как указано посредством уравнения (14):In order to calculate the CLD information in an energy-oriented mode, the energy ratio of the signals L ", R" and C of Fig. 27 can be calculated using equations (6), (10) and (13). The signal energy level L "can be calculated as indicated by equation (14):

Уравнение 14Equation 14

Уравнение (14), возможно, также должно быть использовано для того, чтобы вычислить уровень энергии R" или C. Далее информация CLD, используемая в TTT-модуле TTT0, может быть вычислена на основе уровней энергии сигналов L", R" и C, как указано посредством уравнения (15):Equation (14) may also need to be used to calculate the energy level R "or C. Further, the CLD information used in the TTT-module TTT0 can be calculated based on the energy levels of the signals L", R "and C, as indicated by equation (15):

Уравнение 15Equation 15

Уравнение (14) может быть установлено на основе уравнения (10). Несмотря на то, что уравнения (10) задает только то, как вычислять значения энергии для L-канала, значения энергии для R-канала могут быть вычислены с помощью уравнения (10). Таким образом, значения CLD и ICC третьего и четвертого OTT0-модулей могут быть вычислены на основе значений CLD и ICC первого и второго OTT-модулей. Тем не менее, это не обязательно может применяться ко всем древовидным структурам, а только к определенным древовидным структурам для декодирования объектных сигналов. Информация, включенная в объектный поток битов, может быть передана в каждый OTT-модуль. Альтернативно, информация, включенная в объектный поток битов, может быть передана только в некоторые OTT-модули, а информация, указывающая OTT-модули, которые не приняли информацию, может быть получена посредством вычисления.Equation (14) can be established based on equation (10). Despite the fact that equation (10) defines only how to calculate the energy values for the L channel, the energy values for the R channel can be calculated using equation (10). Thus, the CLD and ICC values of the third and fourth OTT0 modules can be calculated based on the CLD and ICC values of the first and second OTT modules. However, this may not necessarily apply to all tree structures, but only to certain tree structures for decoding object signals. Information included in the object bitstream may be transmitted to each OTT module. Alternatively, information included in the object bitstream can only be transmitted to some OTT modules, and information indicating OTT modules that have not received the information can be obtained by calculation.

Параметры, такие как информация CLD и ICC, могут быть вычислены для OTT-модулей OTTA, OTTB и OTTC посредством использования вышеупомянутого способа. Эти многоканальные параметры могут быть введены в многоканальный декодер и затем подвергнуты многоканальному декодированию, тем самым получая многоканальный сигнал, который надлежащим образом подготовлен посредством рендеринга согласно информации позиции объекта и информации конфигурации воспроизведения, требуемой посредством конечного пользователя.Parameters such as CLD and ICC information can be calculated for the OTT, OTTA, OTTB, and OTTC OTT modules by using the above method. These multi-channel parameters can be input into a multi-channel decoder and then subjected to multi-channel decoding, thereby obtaining a multi-channel signal that is properly prepared by rendering according to object position information and playback configuration information required by the end user.

Многоканальные параметры могут включать в себя параметр ADG, если уровень объектных сигналов еще не отрегулирован посредством предварительной обработки. Далее подробно описывается вычисление параметра ADG посредством повторного рассмотрения вышеуказанного примера.Multichannel parameters may include an ADG parameter if the level of the object signals has not yet been adjusted by preprocessing. The following describes in detail the calculation of the ADG parameter by reviewing the above example again.

Когда матрица рендеринга установлена таким образом, что уровень третьего объектного сигнала может быть увеличен на 10 дБ, что уровень четвертого объектного сигнала может быть уменьшен на 5 дБ, что уровень компонента третьего объектного сигнала в L может быть увеличен на 10 дБ и что уровень компонента четвертого объектного сигнала в L может быть уменьшен на 5 дБ, соотношение Ratio_ADG,L уровней энергии до и после регулирования уровней третьего и четвертого объектных сигналов может быть вычислено с помощью уравнения (16):When the rendering matrix is set so that the level of the third object signal can be increased by 10 dB, that the level of the fourth object signal can be reduced by 5 dB, that the level of the component of the third object signal in L can be increased by 10 dB, and that the level of the component of the fourth the object signal in L can be reduced by 5 dB, the ratio of Ratio _{ADG, L} energy levels before and after adjusting the levels of the third and fourth object signals can be calculated using equation (16):

Уравнение 16Equation 16

Соотношение Ratio _ADG,L может быть определено посредством подстановки уравнения (10) в уравнение (16). Соотношение Ratio _ADG,R для R-канала также может быть вычислено с помощью уравнения (16). Каждое из соотношений Ratio _ADG,L и Ratio _ADG,R представляет варьирование энергии соответствующей параметрической полосы вследствие регулирования уровней объектных сигналов. Таким образом, значения ADG ADG(L) и ADG(R) могут быть вычислены с помощью соотношений Ratio _ADG,L и Ratio _ADG,R, как указано посредством уравнения (17):The ratio Ratio _{ADG, L} can be determined by substituting equation (10) into equation (16). The ratio Ratio _{ADG, R} for the R channel can also be calculated using equation (16). Each of the ratios of Ratio _{ADG, L} and Ratio _{ADG, R} represents the variation in energy of the corresponding parametric band due to the regulation of the levels of object signals. Thus, the values ADG ADG (L) and ADG (R) can be calculated using the ratios Ratio _{ADG, L} and Ratio _{ADG, R,} as indicated by equation (17):

Уравнение 17Equation 17

После того как ADG-параметры ADG(L) и ADG(R) определены, ADG-параметры ADG(L) и ADG(R) квантуются с помощью таблицы квантования ADG, и передаются квантованные значения ADG. Если есть необходимость дополнительно точно отрегулировать ADG-значения ADG(L) и ADG(R), регулирование ADG-значений ADG(L) и ADG(R) может быть выполнено посредством препроцессора, а не посредством MPS-декодера.After the ADG parameters ADG (L) and ADG (R) are determined, the ADG parameters ADG (L) and ADG (R) are quantized using the ADG quantization table, and quantized ADG values are transmitted. If there is a need to further fine-tune the ADG values of ADG (L) and ADG (R), the adjustment of the ADG values of ADG (L) and ADG (R) can be performed by a preprocessor, and not by an MPS decoder.

Число и интервал параметрических полос для представления объектных сигналов в объектном потоке битов может отличаться от числа и интервала параметрических полос, используемого в многоканальном декодере. В этом случае параметрические полосы объектного потока битов могут линейно преобразовываться в параметрические полосы многоканального декодера. Более конкретно, если определенная параметрическая полоса объектного потока битов охватывает две параметрические полосы многоканального декодера, линейное преобразование может быть выполнено таким образом, что определенная параметрическая полоса объектного потока битов может быть разделена согласно соотношению, с которым соответствующая параметрическая полоса распределена между двумя параметрическими полосами многоканального декодера. С другой стороны, если больше одной параметрической полосы объектного потока битов включено в определенную параметрическую полосу многоканального декодера, значения параметров объектного потока битов могут быть усреднены. Альтернативно, преобразование параметрической полосы может быть выполнено с помощью существующей таблицы преобразования параметрических полос многоканального стандарта.The number and spacing of parametric bands for representing object signals in an object bitstream may differ from the number and spacing of parametric bands used in a multi-channel decoder. In this case, the parametric bands of the object bitstream can be linearly converted to the parametric bands of the multi-channel decoder. More specifically, if a specific parametric band of an object bit stream covers two parametric bands of a multi-channel decoder, linear conversion can be performed so that a certain parametric strip of an object bit stream can be divided according to the ratio with which a corresponding parametric strip is distributed between two parametric bands of a multi-channel decoder . On the other hand, if more than one parametric band of the object bitstream is included in the specific parametric band of the multi-channel decoder, the parameter values of the object bitstream can be averaged. Alternatively, parametric band conversion can be performed using the existing multi-channel standard parametric band conversion table.

Когда объектное кодирование используется для телеконференций, голоса различных людей соответствуют объектным сигналам. Объектный декодер выводит голоса, надлежащим образом соответствующие объектным сигналам, в определенные динамики. Тем не менее, когда несколько человек говорят одновременно, объектному декодеру трудно надлежащим образом распределять голоса людей по различным динамикам посредством декодирования, и рендеринг голосов людей может вызывать звуковые искажения и ухудшать качество звука. Чтобы разрешить это, информация, указывающая то, разговаривают ли несколько человек одновременно, может быть включена в поток битов. Далее, если определено на основе информации, что несколько человек разговаривают одновременно, основывающийся на каналах поток битов может быть модифицирован так, что едва декодированные сигналы, почти как сигналы понижающего микширования, могут быть выведены в каждый динамик.When object coding is used for teleconferences, the voices of different people correspond to object signals. The object decoder outputs the voices appropriately corresponding to the object signals to specific speakers. However, when several people speak at the same time, it is difficult for an object decoder to properly distribute people's voices to different speakers through decoding, and rendering people's voices can cause sound distortion and degrade sound quality. To resolve this, information indicating whether several people are talking at the same time can be included in the bitstream. Further, if it is determined based on the information that several people are talking simultaneously, the channel-based bit stream can be modified so that barely decoded signals, almost like down-mix signals, can be output to each speaker.

Например, предположим, что есть три человека a, b и c, и голоса трех человек a, b и c должны быть декодированы и тем самым выведены в динамики A, B и C соответственно. Когда три человека a, b и c говорят одновременно, голоса трех человек a, b и c все могут быть включены в сигнал понижающего микширования, который получается посредством понижающего микширования объектных сигналов, соответственно представляющих голоса трех человек a, b и c. В этом случае информация, касающаяся частей сигнала понижающего микширования, надлежащим образом соответствующих голосам трех человек a, b и c, может быть сконфигурирована как многоканальный поток битов. Далее, сигнал понижающего микширования может быть декодирован с помощью типичного способа декодирования объектов, с тем, чтобы голоса трех человек a, b и c могли быть выведены в динамики A, B и C соответственно. Вывод каждого из динамиков A, B и C, тем не менее, может быть искаженным и тем самым может иметь меньший коэффициент распознавания, чем исходный сигнал понижающего микширования. Помимо того, голоса трех человек a, b и c могут быть ненадлежащим образом отделены друг от друга. Чтобы разрешить это, информация, указывающая то, что одновременные фрагменты речи трех человек a, b и c произносятся, может быть включена в поток битов. После этого транскодер может сформировать многоканальный поток битов, с тем, чтобы сигнал понижающего микширования, полученный посредством понижающего микширования объектных сигналов, надлежащим образом соответствующих голосам трех человек a, b и c, мог быть выведен в каждый из динамиков A, B и C как есть. Таким образом, можно предотвратить искажения сигнала.For example, suppose there are three people a, b, and c, and the voices of three people a, b, and c must be decoded and thereby output to speakers A, B, and C, respectively. When three people a, b and c speak at the same time, the voices of three people a, b and c can all be included in the down-mix signal, which is obtained by down-mixing the object signals, respectively, representing the voices of three people a, b and c. In this case, information regarding portions of the downmix signal appropriately corresponding to the voices of three people a, b, and c can be configured as a multi-channel bitstream. Further, the down-mix signal can be decoded using a typical object decoding method so that the voices of three people a, b and c can be output to speakers A, B and C, respectively. The output of each of the speakers A, B, and C, however, may be distorted and thus may have a lower recognition coefficient than the original down-mix signal. In addition, the voices of three people a, b, and c may be improperly separated from each other. To resolve this, information indicating that simultaneous speech fragments of three people a, b, and c are being spoken can be included in the bitstream. After that, the transcoder can generate a multi-channel bit stream so that the down-mix signal obtained by down-mixing the object signals, corresponding to the voices of three people a, b and c, can be output to each of the speakers A, B and C as is . Thus, signal distortion can be prevented.

В действительности, когда несколько человек говорят одновременно, трудно отделить голос каждого человека. Следовательно, качество звука может быть выше, когда сигнал понижающего микширования выводится как есть, чем когда сигнал понижающего микширования подготавливается посредством рендеринга так, чтобы голоса различных людей могли быть отделены друг от друга и выведены в различные динамики. Для этого транскодер может сформировать многоканальный поток битов, с тем, чтобы сигнал понижающего микширования, полученный из одновременных фрагментов речи нескольких человек, мог быть выведен во все динамики или чтобы сигнал понижающего микширования мог быть усилен и затем выведен в динамики.In fact, when several people speak at the same time, it is difficult to separate the voice of each person. Therefore, the sound quality may be higher when the down-mix signal is output as is than when the down-mix signal is prepared by rendering so that the voices of different people can be separated from each other and output to different speakers. For this, the transcoder can generate a multi-channel bit stream so that the down-mix signal obtained from the simultaneous fragments of speech of several people can be output to all speakers or so that the down-mix signal can be amplified and then output to the speakers.

Чтобы указать то, исходит ли сигнал понижающего микширования из одновременных фрагментов речи нескольких человек, объектный кодер может надлежащим образом модифицировать объектный поток битов вместо предоставления дополнительной информации, как описано выше. В этом случае объектный декодер может выполнить типичную операцию декодирования с объектным потоком битов, с тем, чтобы сигнал понижающего микширования мог быть выведен в динамики как есть или чтобы сигнал понижающего микширования мог быть усилен, но не до такой степени, когда возникают искажения сигнала, и затем выведен в динамики.To indicate whether the downmix signal comes from simultaneous speech fragments of several people, the object encoder can appropriately modify the object bitstream instead of providing additional information, as described above. In this case, the object decoder can perform a typical decoding operation with the object bitstream so that the down-mix signal can be output to the speakers as is or the down-mix signal can be amplified, but not to the extent that signal distortion occurs, and then brought to the speakers.

Далее подробно описывается 3D информация, такая как HTRF, которая предоставляется в многоканальный декодер.The following describes in detail 3D information, such as HTRF, which is provided to a multi-channel decoder.

Когда объектный кодер работает в стереофоническом режиме, многоканальный декодер в объектном декодере также работает в стереофоническом режиме. Конечный пользователь может передавать 3D информацию, такую как HRTF, которая оптимизируется на основе пространственных позиций объектных сигналов, в многоканальный декодер.When the object encoder operates in stereo mode, the multi-channel decoder in the object decoder also operates in stereo mode. The end user can transmit 3D information, such as HRTF, which is optimized based on the spatial positions of the object signals, to a multi-channel decoder.

Более конкретно, когда имеются два объектных сигнала, т.е. OBJECT1 и OBJECT2, и два объектных сигнала OBJECT1 и OBJECT2 размещаются в позициях 1 и 2 соответственно, формирователь матриц рендеринга или транскодер может иметь 3D информацию, указывающую позиции объектных сигналов OBJECT1 и OBJECT2. Если формирователь матриц рендеринга имеет 3D информацию, указывающую позиции объектных сигналов OBJECT1 и OBJECT2, формирователь матриц рендеринга может передавать 3D информацию, указывающую позиции объектных сигналов OBJECT1 и OBJECT2, в транскодер. С другой стороны, если транскодер имеет 3D информацию, указывающую позиции объектных сигналов OBJECT1 и OBJECT2, формирователь матриц рендеринга может передавать только индексную информацию, соответствующую 3D информации, в транскодер.More specifically, when there are two object signals, i.e. OBJECT1 and OBJECT2, and two object signals OBJECT1 and OBJECT2 are located at positions 1 and 2, respectively, the rendering matrix generator or transcoder can have 3D information indicating the positions of the object signals OBJECT1 and OBJECT2. If the rendering matrix generator has 3D information indicating the positions of the object signals OBJECT1 and OBJECT2, the rendering matrix generator can transmit 3D information indicating the positions of the object signals OBJECT1 and OBJECT2 to the transcoder. On the other hand, if the transcoder has 3D information indicating the position of the object signals OBJECT1 and OBJECT2, the rendering matrix generator can only transmit index information corresponding to the 3D information to the transcoder.

В этом случае стереофонический сигнал может формироваться на основе 3D информации, задающей позиции 1 и 2, как указано посредством уравнения (18):In this case, a stereo signal can be generated based on 3D information specifying positions 1 and 2, as indicated by equation (18):

Уравнение 18Equation 18

Многоканальный стереофонический декодер получает стереофонический звук посредством выполнения декодирования с тем допущением, что 5.1-канальная акустическая система должна быть использована для того, чтобы воспроизводить звук, и стереофонический звук может быть представлен посредством уравнения (19):A multi-channel stereo decoder obtains stereo sound by performing decoding, with the assumption that a 5.1-channel speaker system must be used to reproduce sound, and stereo sound can be represented by equation (19):

Уравнение 19Equation 19

Компонент L-канала объектного сигнала OBJECT1 может быть представлен посредством уравнения (20):The L-channel component of the object signal OBJECT1 can be represented by equation (20):

Уравнение 20Equation 20

Компонент R-канала объектного сигнала OBJECT1 и компоненты L- и R-канала объектного сигнала OBJECT2 все могут быть заданы посредством использования уравнения (20). Например, если отношения уровней энергии объектных сигналов OBJECT1 и OBJECT2 к общему уровню энергии равны a и b соответственно, отношение части объектного сигнала OBJECT1, распределяемого в FL-канал, ко всему объектному сигналу OBJECT1 равно c, а отношение части объектного сигнала OBJECT2, распределяемого в FL-канал, ко всему объектному сигналу OBJECT2 равно d, соотношение, с которым объектные сигналы OBJECT1 и OBJECT2 распределяются в FL-канал, равно ac:bd. В этом случае HRTF FL-канала может быть определено так, как указано посредством уравнения (21):The component of the R-channel of the object signal OBJECT1 and the components of the L- and R-channel of the object signal OBJECT2 can all be specified by using equation (20). For example, if the ratios of the energy levels of the object signals OBJECT1 and OBJECT2 to the total energy level are a and b, respectively, the ratio of the part of the object signal OBJECT1 distributed in the FL channel to the entire object signal OBJECT1 is c, and the ratio of the part of the object signal OBJECT1 distributed in The FL channel, to the entire object signal OBJECT2 is equal to d, the ratio with which the object signals OBJECT1 and OBJECT2 are distributed in the FL channel is ac: bd. In this case, the HRTF of the FL channel can be determined as indicated by equation (21):

Уравнение 21Equation 21

Таким образом, может быть получена 3D информация для использования в многоканальном стереофоническом декодере. Поскольку 3D информация для использования в многоканальном стереофоническом декодере лучше представляет фактические позиции объектных сигналов, можно более живо воспроизводить стереофонические сигналы посредством стереофонического декодирования с помощью 3D информации для применения в многоканальном стереофоническом кодере, чем при выполнении многоканального декодирования с помощью 3D информации, соответствующей пяти позиция динамиков.Thus, 3D information can be obtained for use in a multi-channel stereo decoder. Since 3D information for use in a multi-channel stereo decoder better represents the actual position of the object signals, stereo signals can be reproduced more vividly by stereo decoding using 3D information for use in a multi-channel stereo encoder than when performing multi-channel decoding with 3D information corresponding to five speaker positions .

Как описано выше, 3D информация для использования в многоканальном стереофоническом декодере может быть основана на 3D информации, представляющей пространственные позиции объектных сигналов и информацию энергетических соотношений. Альтернативно, 3D информация для использования в многоканальном стереофоническом кодере может быть сформирована посредством надлежащего выполнения декорреляции при суммировании 3D информации, представляющей пространственные позиции объектных сигналов, на основе информации ICC объектных сигналов.As described above, 3D information for use in a multi-channel stereo decoder can be based on 3D information representing the spatial positions of the object signals and energy ratio information. Alternatively, 3D information for use in a multi-channel stereo encoder can be generated by properly performing decorrelation when summing 3D information representing the spatial positions of the object signals based on the ICC information of the object signals.

Обработка эффектов может выполняться как часть предварительной обработки. Альтернативно, результат обработки эффектов может просто прибавляться к выводу многоканального декодера. В первом случае для того, чтобы выполнять обработку эффектов объектного сигнала, извлечение объектного сигнала, возможно, должно быть выполнено помимо разделения сигнала L-канала на L_L и L_R и разделения сигнала R-канала на R_R и R_L.Effect processing can be performed as part of pre-processing. Alternatively, the effect processing result may simply be added to the output of a multi-channel decoder. In the first case, in order to perform processing of the effects of the object signal, the extraction of the object signal may need to be performed in addition to dividing the L-channel signal into L_L and L_R and dividing the R-channel signal into R_R and R_L.

Более конкретно, объектный сигнал сначала может быть извлечен из сигналов L- и R-канала. Затем сигнал L-канала может быть разделен на L_L и L_R, а сигнал R-канала может быть разделен на R_R и R_L. Обработка эффектов может выполняться с объектным сигналом. Затем объектный сигнал с обработкой эффектов может быть разделен на компоненты L- и R-канала согласно матрице рендеринга. После этого компонент L-канала объектного сигнала с обработкой эффектов может быть добавлен в L_L и R_L, а компонент R-канала объектного сигнала с обработкой эффектов может быть добавлен в R_R и L_R.More specifically, the object signal may first be extracted from the L and R channel signals. Then, the L-channel signal can be divided into L_L and L_R, and the R-channel signal can be divided into R_R and R_L. Effects can be processed with an object signal. Then the object signal with processing effects can be divided into components of the L- and R-channel according to the rendering matrix. After that, the L-channel component of the object signal with effects processing can be added to L_L and R_L, and the R-channel component of the object signal with effects processing can be added to R_R and L_R.

Альтернативно, могут быть сначала сформированы предварительно обработанные L- и R-сигналы L- и R-канала. Затем объектный сигнал может быть извлечен из предварительно обработанных L- и R-сигналов L- и R-канала. После этого обработка эффектов может быть выполнена для объектного сигнала, и результат обработки эффектов может быть снова добавлен к предварительно обработанным сигналам L- и R-канала.Alternatively, pre-processed L- and R-signals of the L- and R-channel may first be generated. Then, the object signal can be extracted from the pre-processed L- and R-signals of the L- and R-channel. After that, the effects processing can be performed for the object signal, and the result of the effects processing can be added back to the pre-processed L- and R-channel signals.

Спектр объектного сигнала может быть модифицирован посредством обработки эффектов. Например, уровень высокой части или низкой части объектного сигнала может быть выборочно повышен. Для этого только часть спектра, соответствующая высокотональной части или низкотональной части объектного сигнала, может быть модифицирована. В этом случае связанная с объектами информация, включенная в объектный поток битов, возможно, должна быть модифицирована соответствующим образом. Например, если уровень низкотональной части определенного объектного сигнала повышается, энергия низкотональной части определенного объектного сигнала также может быть повышена. Таким образом, информация энергии, включенная в объектный поток битов, более не представляет корректно энергию определенного объектного сигнала. Чтобы разрешить это, информация энергии, включенная в объектный поток битов, может быть непосредственно модифицирована согласно варьированию энергии определенного объектного сигнала. Альтернативно, информация варьирования спектра, предоставляемая посредством транскодера, может быть применена к формированию многоканального потока битов, с тем, чтобы варьирование в энергии определенного объектного сигнала могло быть отражено в многоканальном битовом потоке.The spectrum of the object signal can be modified by processing effects. For example, the level of the high part or low part of the object signal can be selectively increased. For this, only a part of the spectrum corresponding to the high-tonal part or low-tonal part of the object signal can be modified. In this case, information related to objects included in the object bitstream may need to be modified accordingly. For example, if the level of the low-tone part of a certain object signal rises, the energy of the low-tone part of a certain object signal can also be increased. Thus, the energy information included in the object bitstream no longer correctly represents the energy of a particular object signal. To resolve this, the energy information included in the object bitstream can be directly modified according to the variation in energy of a particular object signal. Alternatively, the spectrum variation information provided by the transcoder can be applied to the formation of a multi-channel bitstream so that the variation in energy of a particular object signal can be reflected in the multi-channel bitstream.

Фиг.28-33 иллюстрируют схемы для пояснения объединения множества фрагментов основывающейся на объектах дополнительной информации и множества сигналов понижающего микширования во фрагмент дополнительной информации и сигнал понижающего микширования. В случае телеконференций иногда необходимо комбинировать множество фрагментов основывающейся на объектах дополнительной информации и множества сигналов понижающего микширования в дополнительную информацию и сигнал понижающего микширования. В этом случае должен быть рассмотрен ряд факторов.28-33 illustrate diagrams for explaining combining a plurality of fragments of object-based supplemental information and a plurality of downmix signals into a plurality of supplemental information and a downmix signal. In the case of teleconferences, it is sometimes necessary to combine a plurality of fragments of object-based additional information and a plurality of downmix signals into additional information and a downmix signal. In this case, a number of factors should be considered.

Фиг.28 иллюстрирует схему объектно-кодированного потока битов. Ссылаясь на фиг.28, объектно-кодированный поток битов включает в себя сигнал понижающего микширования и дополнительную информацию. Сигнал понижающего микширования синхронизирован с дополнительной информацией. Следовательно, объектно-кодированный поток битов легко может быть декодирован без учета дополнительных факторов. Тем не менее, в случае объединения множества потоков битов в один поток битов необходимо убедиться в том, что сигнал понижающего микширования одного потока битов синхронизирован с дополнительной информацией одного потока битов.Fig. 28 illustrates an object-encoded bitstream diagram. Referring to FIG. 28, an object-encoded bitstream includes a downmix signal and additional information. The downmix signal is synchronized with additional information. Therefore, the object-encoded bitstream can easily be decoded without taking into account additional factors. However, when combining multiple bit streams into a single bit stream, you need to make sure that the down-mix signal of one bit stream is synchronized with the additional information of one bit stream.

Фиг.29 иллюстрирует схему для пояснения объединения множества объектно-кодированных потоков битов BS1 и BS2. Ссылаясь на фиг.29, ссылки с номерами 1, 2 и 3 указывают номера кадров. Чтобы объединить множество сигналов понижающего микширования в один сигнал понижающего микширования, сигналы понижающего микширования могут быть преобразованы в сигналы импульсно-кодовой модуляции (PCM), PCM-сигналы могут быть смикшированы с понижением во временной области и смикшированные с понижением PCM-сигналы могут быть преобразованы в формат кодека сжатия. В ходе этих процессов задержка d может быть сформирована, как проиллюстрировано на фиг.29(b). Следовательно, когда поток битов, который должен быть декодирован, получается посредством объединения множества потоков битов, необходимо убедиться в том, что сигнал понижающего микширования потока битов, который должен быть декодирован, корректно синхронизирован с дополнительной информацией потока битов, который должен быть декодирован.29 is a diagram for explaining a combination of a plurality of object-coded bit streams BS1 and BS2. Referring to FIG. 29, references 1, 2, and 3 indicate frame numbers. To combine multiple downmix signals into a single downmix signal, the downmix signals can be converted to pulse code modulation (PCM) signals, the PCM signals can be down-mixed in the time domain, and the down-mixed PCM signals can be converted to compression codec format. During these processes, a delay d can be generated, as illustrated in FIG. 29 (b). Therefore, when the bit stream to be decoded is obtained by combining a plurality of bit streams, it must be ensured that the down-mix signal of the bit stream to be decoded is correctly synchronized with the additional information of the bit stream to be decoded.

Если задержка между сигналом понижающего микширования и дополнительной информацией потока битов задана, поток битов может быть скомпенсирован на предварительно определенную величину, соответствующую задержке. Задержка между сигналом понижающего микширования и дополнительной информацией потока битов может варьироваться согласно типу кодека сжатия, используемого для формирования сигнала понижающего микширования. Следовательно, бит, указывающий задержку, если она вообще имеет место, между сигналом понижающего микширования и дополнительной информацией потока битов, может быть включен в дополнительную информацию.If the delay between the down-mix signal and the additional bitstream information is specified, the bitstream can be compensated by a predetermined amount corresponding to the delay. The delay between the downmix signal and the additional bitstream information may vary according to the type of compression codec used to generate the downmix signal. Therefore, a bit indicating the delay, if any, between the down-mix signal and the additional information of the bit stream, may be included in the additional information.

Фиг.30 иллюстрирует объединение двух потоков битов BS1 и BS2 в один поток битов, когда сигналы понижающего микширования потоков битов BS1 и BS2 формируются посредством различных типов кодеков или конфигурация дополнительной информации потока битов BS1 отличается от конфигурации дополнительной информации потока битов BS2. Ссылаясь на фиг.30, когда сигналы понижающего микширования потоков битов BS1 и BS2 формируются посредством различных типов кодеков или конфигурация дополнительной информации потока битов BS1 отличается от конфигурации дополнительной информации потока битов BS2, может быть определено то, что потоки битов BS1 и BS2 имеют различные задержки сигналов d1 и d2, являющиеся результатом преобразования сигналов понижающего микширования в сигналы временной области и преобразования сигналом временной области с использованием одного кодека сжатия. В этом случае, если потоки битов BS1 и BS2 просто суммируются без учета различных задержек сигналов, сигнал понижающего микширования потока битов BS1 может быть несогласован с сигналом понижающего микширования потока битов BS2 и дополнительная информация потока битов BS1 может быть несогласованна с дополнительной информацией потока битов BS2. Чтобы разрешить это, сигнал понижающего микширования потока битов BS1, который задерживается на d1, может быть дополнительно задержан так, чтобы быть синхронизированным с сигналом понижающего микширования потока битов BS2, который задержан на d2. Затем потоки битов BS1 и BS2 могут быть комбинированы с помощью одного способа варианта осуществления по фиг.30. Если имеется более одного потока битов, который должен быть объединен, тот из потоков битов, который имеет наибольшую задержку, может быть использован в качестве опорного потока битов, а другие потоки битов могут быть дополнительно задержаны так, чтобы быть синхронизированными с опорным потоком битов. Бит, указывающий задержку между сигналом понижающего микширования и дополнительной информацией, может быть включен в объектный поток битов.30 illustrates combining two bit streams BS1 and BS2 into one bit stream when down-mixing signals of bit streams BS1 and BS2 are generated by different types of codecs or the configuration of additional information of bitstream BS1 is different from the configuration of additional information of bitstream BS2. Referring to FIG. 30, when the down-mix signals of the bit streams BS1 and BS2 are generated by different types of codecs or the configuration of the additional information of the bitstream BS1 is different from the configuration of the additional information of the bitstream BS2, it can be determined that the bit streams BS1 and BS2 have different delays signals d1 and d2, which are the result of converting the downmix signals into time-domain signals and transforming the time-domain signal using a single compression codec. In this case, if the BS1 and BS2 bitstreams are simply summed without regard to various signal delays, the downmix signal of the BS1 bitstream may be inconsistent with the downmix signal of the BS2 bitstream and the additional information of the BS1 bitstream may be inconsistent with the additional information of the BS2 bitstream. To resolve this, the down-mix signal of the bitstream BS1, which is delayed by d1, can be further delayed so as to be synchronized with the down-mix signal of the bitstream BS2, which is delayed by d2. Then, the bit streams BS1 and BS2 can be combined using one method of the embodiment of FIG. 30. If there is more than one bit stream that needs to be combined, the one of the bit streams that has the largest delay can be used as the reference bit stream, and other bit streams can be further delayed so as to be synchronized with the reference bit stream. A bit indicating the delay between the down-mix signal and the additional information may be included in the object bit stream.

Бит, указывающий то, есть ли задержка сигнала в потоке битов, может быть предоставлен. Только если информация бита указывает то, что есть задержка сигнала в потоке битов, информация, указывающая задержку сигнала, может быть дополнительно предоставлена. Таким образом, можно минимизировать объем информации, требуемой для указания задержки сигнала, если имеет место, в потоке битов.A bit indicating whether there is a signal delay in the bitstream may be provided. Only if the bit information indicates that there is a signal delay in the bitstream, information indicating the signal delay can be further provided. Thus, it is possible to minimize the amount of information required to indicate a signal delay, if any, in the bitstream.

Фиг.32 иллюстрирует схему для пояснения того, как компенсировать один из двух потоков битов BS1 и BS2, имеющих различные задержки сигнала, на разность между различными задержками сигнала, в частности, как компенсировать поток битов BS2, который имеет большую задержку сигнала, чем поток битов BS1. Ссылаясь на фиг.32, с первого по третий кадры дополнительной информации потока битов BS1 все могут использоваться как есть. С другой стороны, с первого по третий кадры дополнительной информации потока битов BS2 могут не использоваться как есть, поскольку с первого по третий кадры дополнительной информации потока битов BS2 соответственно не синхронизированы с первым по третий кадрами дополнительной информации потока битов BS1. Например, второй кадр дополнительной информации потока битов BS1 соответствует не только части первого кадра дополнительной информации потока битов BS2, но также части второго кадра дополнительной информации потока битов BS2. Пропорция части второго кадра дополнительной информации потока битов BS2, соответствующей второму кадру дополнительной информации потока битов BS1, ко всему второму кадру дополнительной информации потока битов BS2 и пропорция части первого кадра дополнительной информации потока битов BS2, соответствующей второму кадру дополнительной информации потока битов BS1, ко всему первому кадру дополнительной информации потока битов BS2 может быть вычислена, и первый и второй кадры дополнительной информации потока битов BS2 могут быть усреднены или интерполированы на основе результатов вычисления. Таким образом, с первого по третий кадры дополнительной информации потока битов BS2 соответственно могут быть синхронизированы с первым по третий кадры дополнительной информации потока битов BS1, как проиллюстрировано на фиг.32(b). В таком случае дополнительная информация потока битов BS1 и дополнительная информация потока битов BS2 может быть объединена с помощью способа варианта осуществления по фиг.29. Сигналы понижающего микширования потоков битов BS1 и BS2 могут быть объединены в один сигнал понижающего микширования без необходимости компенсации задержки. В этом случае информация задержки, соответствующая задержке сигнала d1, может быть сохранена в объединенном потоке битов, полученном посредством объединения потоков битов BS1 и BS2.32 illustrates a diagram for explaining how to compensate one of two bit streams BS1 and BS2 having different signal delays by the difference between different signal delays, in particular how to compensate for a BS2 bit stream that has a longer signal delay than the bit stream BS1. Referring to FIG. 32, the first to third frames of additional information of the BS1 bitstream can all be used as is. On the other hand, the first to third frames of the additional information of the bitstream BS2 may not be used as they are, since the first to third frames of the additional information of the bitstream BS2 are not synchronized with the first to third frames of the additional information of the bitstream BS1. For example, the second frame of additional information of the bitstream BS1 corresponds not only to the part of the first frame of additional information of the bitstream BS2, but also to the part of the second frame of additional information of the bitstream BS2. The proportion of the portion of the second frame of additional information of the bitstream BS2 corresponding to the second frame of additional information of the bitstream BS1 to the entire second frame of additional information of the bitstream BS2 and the proportion of the portion of the first frame of additional information of the bitstream BS2 corresponding to the second frame of additional information of the bitstream BS1 the first frame of additional information of the bitstream BS2 can be calculated, and the first and second frames of additional information of the bitstream BS2 can be averaged or inter polished based on calculation results. Thus, the first to third frames of the additional information of the bitstream BS2 can respectively be synchronized with the first to third frames of the additional information of the bitstream BS1, as illustrated in FIG. 32 (b). In this case, the additional information of the bitstream BS1 and the additional information of the bitstream BS2 can be combined using the method of the embodiment of FIG. 29. The down-mix signals of the bit streams BS1 and BS2 can be combined into a single down-mix signal without the need for delay compensation. In this case, the delay information corresponding to the delay of the signal d1 can be stored in the combined bit stream obtained by combining the bit streams BS1 and BS2.

Фиг.33 иллюстрирует схемы для пояснения того, как компенсировать тот из двух потоков битов, имеющих различные задержки сигнала, который имеет более короткую задержку сигнала. Ссылаясь на фиг.33, с первого по третий кадры дополнительной информации потока битов BS2 все могут использоваться как есть. С другой стороны, с первого по третий кадры дополнительной информации потока битов BS1 могут не использоваться как есть, поскольку с первого по третий кадры дополнительной информации потока битов BS1 соответственно не синхронизированы с первым по третий кадрами дополнительной информации потока битов BS2. Например, первый кадр дополнительной информации потока битов BS2 соответствует не только части первого кадра дополнительной информации потока битов BS1, но также части второго кадра дополнительной информации потока битов BS1. Пропорция части первого кадра дополнительной информации потока битов BS1, соответствующей первому кадру дополнительной информации потока битов BS2, ко всему первому кадру дополнительной информации потока битов BS1 и пропорция части второго кадра дополнительной информации потока битов BS1, соответствующей второму кадру дополнительной информации потока битов BS2, ко всему второму кадру дополнительной информации потока битов BS1 может быть вычислена, и первый и второй кадры дополнительной информации потока битов BS1 могут быть усреднены или интерполированы на основе результатов вычисления. Таким образом, с первого по третий кадры дополнительной информации потока битов BS1 соответственно могут быть синхронизированы с первым по третий кадры дополнительной информации потока битов BS2, как проиллюстрировано на фиг.33(b). В таком случае дополнительная информация потока битов BS1 и дополнительная информация потока битов BS2 может быть объединена с помощью способа варианта осуществления по фиг.29. Сигналы понижающего микширования потоков битов BS1 и BS2 могут быть объединены в один сигнал понижающего микширования без необходимости компенсации задержки, даже если сигналы понижающего микширования имеют различные задержки сигналов. В этом случае информация задержки, соответствующая задержке сигнала d2, может быть сохранена в объединенном потоке битов, полученном посредством объединения потоков битов BS1 и BS2.33 illustrates diagrams for explaining how to compensate for one of two bit streams having different signal delays that has a shorter signal delay. Referring to FIG. 33, first to third frames of additional information of the BS2 bitstream can all be used as is. On the other hand, the first to third frames of the additional information of the bitstream BS1 may not be used as is, since the first to third frames of the additional information of the bitstream BS1 are accordingly not synchronized with the first to third frames of the additional information of the bitstream BS2. For example, the first frame of the additional information of the bitstream BS2 corresponds not only to the part of the first frame of the additional information of the bitstream BS1, but also to the part of the second frame of the additional information of the bitstream BS1. The proportion of the portion of the first frame of additional information of the bitstream BS1 corresponding to the first frame of additional information of the bitstream BS2 to the entire first frame of additional information of the bitstream BS1 and the proportion of the portion of the second frame of additional information of the bitstream BS1 corresponding to the second frame of additional information of the bitstream BS2 the second frame of additional information of the bitstream BS1 can be calculated, and the first and second frames of additional information of the bitstream BS1 can be averaged or inter polished based on calculation results. Thus, from the first to third frames of the additional information of the bitstream BS1, respectively, can be synchronized with the first to third frames of the additional information of the bitstream BS2, as illustrated in FIG. 33 (b). In this case, the additional information of the bitstream BS1 and the additional information of the bitstream BS2 can be combined using the method of the embodiment of FIG. 29. The down-mix signals of the bit streams BS1 and BS2 can be combined into a single down-mix signal without the need for delay compensation, even if the down-mix signals have different signal delays. In this case, the delay information corresponding to the delay of the signal d2 can be stored in the combined bit stream obtained by combining the bit streams BS1 and BS2.

Если множество объектно-кодированных потоков битов объединяются в один поток битов, сигналы понижающего микширования объектно-кодированных потоков битов, возможно, должны быть объединены в один сигнал понижающего микширования. Чтобы объединить множество сигналов понижающего микширования, соответствующих различным кодекам сжатия, в один сигнал понижающего микширования, сигналы понижающего микширования могут быть преобразованы в PCM-сигналы или сигналы частотной области и PCM-сигналы или сигналы частотной области могут быть суммированы в соответствующей области. Следовательно, результат суммирования может быть преобразован с помощью предварительно определенного кодека сжатия. Различные задержки сигнала могут возникать согласному тому, сигналы понижающего микширования суммированы в ходе PCM-операции или суммированы в частотной области, и согласно типу кодека сжатия. Поскольку декодер не может легко распознавать различные задержки сигнала из потока битов, который должен быть декодирован, информация задержки, касающаяся различных сигналов задержки, возможно, не должна быть включена в поток битов. Эта информация задержки может представлять число выборок задержки в PCM-сигнале или число выборок задержки в частотной области.If a plurality of object-encoded bit streams are combined into a single bit stream, down-mix signals of the object-encoded bit streams may need to be combined into a single down-mix signal. In order to combine a plurality of downmix signals corresponding to different compression codecs into a single downmix signal, the downmix signals can be converted to PCM signals or frequency domain signals and PCM signals or frequency domain signals can be summed in the corresponding region. Therefore, the summation result can be converted using a predefined compression codec. Different signal delays can occur according to the fact that the down-mix signals are summed during the PCM operation or summed in the frequency domain, and according to the type of compression codec. Since the decoder cannot easily recognize the various signal delays from the bitstream to be decoded, the delay information regarding the various delay signals may not need to be included in the bitstream. This delay information may represent the number of delay samples in the PCM signal or the number of delay samples in the frequency domain.

Настоящее изобретение может быть реализовано в качестве машиночитаемого кода, записанного на машиночитаемом носителе записи. Машиночитаемым носителем записи может быть любой тип устройства записи, в котором данные сохраняются машиночитаемым способом. Примеры машиночитаемых носителей записи включают в себя ROM, RAM, CD-ROM, a магнитные ленты, гибкие диски, устройства хранения оптических данных и волновую несущую (например, передачу данных через Интернет). Машиночитаемые носители записи могут распространяться по множеству вычислительных систем, соединенных по сети, так что машиночитаемый код записывается на них и приводится в исполнение с них децентрализованным способом. Функциональные программы, код и сегменты кода, требуемые для реализации настоящего изобретения, могут быть легко истолкованы специалистами в данной области техники.The present invention can be implemented as a computer-readable code recorded on a computer-readable recording medium. A computer-readable recording medium may be any type of recording device in which data is stored in a computer-readable manner. Examples of computer-readable recording media include ROM, RAM, CD-ROM, a magnetic tapes, floppy disks, optical storage devices, and a wave carrier (e.g., data transmission over the Internet). Computer-readable recording media can be distributed across a plurality of computing systems connected over a network, so that computer-readable code is written to and executed from them in a decentralized manner. Functional programs, code, and code segments required to implement the present invention can be readily construed by those skilled in the art.

Как описано выше, согласно настоящему изобретению, звуковые изображения локализуются для каждого объектного сигнала посредством извлечения выгод из преимуществ способов кодирования и декодирования основывающегося на объектах аудио. Таким образом, возможно предлагать более реалистичные звуки в ходе воспроизведения объектных сигналов. Помимо того, настоящее изобретение может быть применено к интерактивным играм и тем самым может предоставлять пользователю более реалистичные переживания в виртуальной реальности.As described above, according to the present invention, audio images are localized for each object signal by taking advantage of the advantages of encoding and decoding methods based on objects. Thus, it is possible to offer more realistic sounds during the reproduction of object signals. In addition, the present invention can be applied to interactive games and thereby can provide the user with more realistic experiences in virtual reality.

Несмотря на то, что настоящее изобретение конкретно показано и описано со ссылкой на его примерные варианты осуществления, специалистам в данной области техники следует понимать, что различные изменения по форме и содержанию могут быть сделаны без отступления от духа и объема настоящего изобретения, определяемого прилагаемой формулой изобретения.Although the present invention is specifically shown and described with reference to its exemplary embodiments, those skilled in the art should understand that various changes in form and content can be made without departing from the spirit and scope of the present invention as defined by the appended claims .

Claims

1. An audio decoding method, comprising the steps of:
receiving a downmix signal and object-based additional information and control information, wherein the downmix signal contains at least two channel downmix signals and is generated by downmixing a plurality of object signals, and the control information controls the position or level of the object signal included in the signal downmix;
extracting from the objects additional information based on the distribution ratio between the channels indicating a relationship corresponding to the object signal with which the object signal is distributed over each of the downmix channel signals;
generating pre-processing information for modifying the channel down-mix signals based on the distribution ratio information between the channels and the control information; and
modifying the channel down-mix signals by applying the preprocessing information to the channel down-mix signals;
forming channel-based additional information based on object-based additional information and control information; and
form a multi-channel audio signal based on additional information based on the channels and modified channel down-mix signals.

2. The audio decoding method of claim 1, wherein the object-based additional information comprises flag information indicating whether downmix amplification information is included in the object-based additional information.

3. An audio encoding method, comprising the steps of:
generating a downmix signal by downmixing a plurality of object signals, wherein the downmix signal comprises at least two channel downmix signals;
generating information of the distribution ratio between the channels by calculating the ratio with which the object signal is distributed over each of the channel down-mix signals;
generating object-based additional information based on said plurality of object signals;
inserting distribution ratio information between the channels for modifying the downmix channel signals into the object-based additional information; and
form a bitstream by combining a downmix signal and object-based additional information.

4. The audio encoding method according to claim 3, in which the bitstream contains flag information regarding whether to transmit the distribution ratio information between the channels.

5. An audio decoding apparatus comprising:
a demultiplexer configured to extract the downmix signal and object-based additional information from the input audio signal, wherein the downmix signal comprises at least two channel downmix signals;
a parameter converter configured to extract distribution relation information between channels indicating a relationship corresponding to the object signal with which the object signal is distributed across each of the downmix channel signals, and generate preprocessing information for modifying the downmix channel signals based on the distribution ratio information between the channels ; and
a preprocessor configured to modify the downmix channel signals by applying the preprocessing information to the downmix channel signals.

6. The audio decoding device according to claim 5, wherein the demultiplexer further extracts control information indicating a position or level of an object signal included in the downmix signal, wherein the parameter converter generates additional channel-based information based on the object-based additional information and control information.

7. The audio decoding apparatus according to claim 6, further comprising a multi-channel encoder that generates a multi-channel audio signal based on additional information based on the channels and modified down-mix channel signals.

8. The processor-readable recording medium on which the program is written to perform the method according to claim 1 in the processor.

9. A computer-readable recording medium on which a computer program is recorded for executing an audio decoding method, the audio decoding method comprising the steps of:
receiving a downmix signal and object-based additional information, wherein the downmix signal comprises at least two channel downmix signals;
extracting from the objects additional information based on the distribution ratio between the channels indicating a relationship corresponding to the object signal with which the object signal is distributed over each of the downmix channel signals;
generating pre-processing information for modifying the channel down-mix signals based on the distribution ratio information between the channels; and
modifying the channel down-mix signals by applying the preprocessing information to the channel down-mix signals.

10. The computer readable recording medium according to claim 9, wherein the method for decoding audio further comprises the steps of:
receiving control information indicating a position or level of an object signal included in the downmix signal;
forming channel-based additional information based on object-based additional information and control information; and
form a multi-channel audio signal based on additional information based on the channels and modified channel down-mix signals.

11. A computer-readable recording medium on which a computer program for executing an audio encoding method is recorded, wherein the audio encoding method comprises the steps of:
generating a downmix signal by downmixing a plurality of object signals, wherein the downmix signal comprises at least two channel downmix signals;
generating information of the distribution ratio between the channels by calculating the ratio with which the object signal is distributed over each of the channel down-mix signals;
generating object-based additional information based on said plurality of object signals;
inserting distribution ratio information between the channels for modifying the downmix channel signals into the object-based additional information; and
form a bitstream by combining a downmix signal and object-based additional information.