RU2406165C2 - Methods and devices for coding and decoding object-based audio signals - Google Patents

Methods and devices for coding and decoding object-based audio signals Download PDF

Info

Publication number
RU2406165C2
RU2406165C2 RU2008140140/09A RU2008140140A RU2406165C2 RU 2406165 C2 RU2406165 C2 RU 2406165C2 RU 2008140140/09 A RU2008140140/09 A RU 2008140140/09A RU 2008140140 A RU2008140140 A RU 2008140140A RU 2406165 C2 RU2406165 C2 RU 2406165C2
Authority
RU
Russia
Prior art keywords
signal
information
signals
channel
additional information
Prior art date
Application number
RU2008140140/09A
Other languages
Russian (ru)
Other versions
RU2008140140A (en
Inventor
Донг Соо КИМ (KR)
Донг Соо КИМ
Хее Сук ПАНГ (KR)
Хее Сук ПАНГ
Дзае Хиун ЛИМ (KR)
Дзае Хиун ЛИМ
Сунг Йонг ЙООН (KR)
Сунг Йонг ЙООН
Хиун Коок ЛИ (KR)
Хиун Коок ЛИ
Original Assignee
ЭлДжи ЭЛЕКТРОНИКС ИНК.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ЭлДжи ЭЛЕКТРОНИКС ИНК. filed Critical ЭлДжи ЭЛЕКТРОНИКС ИНК.
Publication of RU2008140140A publication Critical patent/RU2008140140A/en
Application granted granted Critical
Publication of RU2406165C2 publication Critical patent/RU2406165C2/en

Links

Images

Landscapes

  • Stereophonic System (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

FIELD: information technology.
SUBSTANCE: audio decoding method involves receiving a step-down mixing signal which is obtained by step-down mixing of multiple object signals, and additional object information containing object-based additional information and control information, extraction of metadata containing description of the object signal from the object-based additional information, pre-processing the position or level of the object signal and generation of a multichannel audio signal by using the pre-processed step-down mixing signal, spatial parametre information and control information.
EFFECT: method and device for coding and decoding audio for efficient processing of object-based audio signals.
11 cl, 33 dwg

Description

Область техники, к которой относится изобретениеFIELD OF THE INVENTION

Настоящее изобретение относится к способу и устройству кодирования аудио и способу и устройству декодирования аудио, в которых объектно-базированные аудиосигналы могут эффективно обрабатываться посредством выполнения операций кодирования и декодирования.The present invention relates to an audio encoding method and apparatus, and an audio decoding method and apparatus in which object-based audio signals can be efficiently processed by performing encoding and decoding operations.

Уровень техникиState of the art

В общем, в методах кодирования и декодирования многоканального аудио некоторое количество сигналов канала многоканального сигнала смешиваются с понижением в меньшее число сигналов канала, передается дополнительная информация относительно исходных сигналов канала, и восстанавливается многоканальный сигнал, имеющий столько каналов, сколько имеет исходный многоканальный сигнал.In general, in the methods of encoding and decoding multi-channel audio, a certain number of channel signals of a multi-channel signal are mixed downward to a smaller number of channel signals, additional information regarding the original channel signals is transmitted, and a multi-channel signal having as many channels as the original multi-channel signal is restored.

Методы объектно-базированного кодирования и декодирования аудио, в основном, аналогичны методам кодирования и декодирования многоканального аудио в терминах понижающего смешивания нескольких источников звука в меньшее количество сигналов источников звука и передачи дополнительной информации относительно исходных источников звука. Однако в методах объектно-базированного кодирования и декодирования аудиосигналы объекта, которые представляют собой базовые элементы (например, звук музыкального инструмента или голос человека) сигнала канала рассматриваются так же, как сигналы канала в методах кодирования и декодирования многоканального аудио, и могут, таким образом, кодироваться.The methods of object-based encoding and decoding of audio are basically similar to the methods of encoding and decoding multichannel audio in terms of down-mixing of several audio sources into fewer signals of audio sources and transmitting additional information relative to the original audio sources. However, in the methods of object-based encoding and decoding, the audio signals of the object, which are the basic elements (for example, the sound of a musical instrument or the voice of a person) of a channel signal are treated in the same way as channel signals in the methods of encoding and decoding multi-channel audio, and can thus be encoded.

Другими словами, в методах объектно-базированного кодирования и декодирования аудио, считается, что сигналы объекта представляют собой сущности, подлежащие кодированию. В этом отношении методы объектно-базированного кодирования и декодирования аудио отличаются от методов многоканального кодирования и декодирования аудио, в которых операция многоканального кодирования аудио выполняется, просто основываясь на межканальной информации, независимо от количества элементов сигнала канала, подлежащего кодированию.In other words, in methods of object-based encoding and decoding of audio, it is believed that the signals of an object are entities to be encoded. In this regard, the methods of object-based encoding and decoding of audio are different from the methods of multi-channel encoding and decoding of audio, in which the operation of multi-channel encoding of audio is performed simply based on inter-channel information, regardless of the number of elements of the channel signal to be encoded.

Описание изобретенияDescription of the invention

Техническая задачаTechnical challenge

Настоящее изобретение обеспечивает способ и устройство кодирования аудио и способ и устройство декодирования аудио, в которых аудиосигналы могут кодироваться или декодироваться, так что аудиосигналы могут применяться к различным окружающим средам.The present invention provides an audio encoding method and apparatus, and an audio decoding method and apparatus in which audio signals can be encoded or decoded, so that audio signals can be applied to various environments.

Техническое решениеTechnical solution

Согласно аспекту настоящего изобретения обеспечивается способ декодирования аудио, включающий в себя прием сигнала понижающего смешивания и объектно-базированной дополнительной информации, причем сигнал понижающего смешивания получается посредством выполнения понижающего смешивания множества сигналов объекта; извлечение метаданных из объектно-базированной дополнительной информации и отображение относящейся к объекту информации относительно сигналов объекта на основе метаданных. Согласно другому аспекту настоящего изобретения обеспечивается способ кодирования аудио, включающий в себя генерирование сигнала понижающего смешивания посредством выполнения понижающего смешивания множества сигналов объекта; генерирование объектно-базированной дополнительной информации посредством извлечения относящейся к объекту информации из сигналов объекта, и вставление метаданных для рендеринга относящейся к объекту информации в объектно-базированную дополнительную информацию.According to an aspect of the present invention, there is provided an audio decoding method including receiving a downmix signal and object-based additional information, wherein the downmix signal is obtained by downmixing a plurality of object signals; extracting metadata from object-based additional information and displaying object-related information regarding object signals based on metadata. According to another aspect of the present invention, there is provided an audio encoding method comprising generating a downmix signal by performing downmixing a plurality of object signals; generating object-based additional information by extracting the information related to the object from the signals of the object, and inserting metadata for rendering the information related to the object into the object-based additional information.

Согласно другому аспекту настоящего изобретения обеспечивается устройство декодирования аудио, включающее в себя: демультиплексор, выполненный с возможностью извлечения сигнала понижающего смешивания и объектно-базированной дополнительной информации из входного аудиосигнала, причем сигнал понижающего смешивания получается посредством выполнения понижающего смешивания множества сигналов объекта; транскодер, выполненный с возможностью извлечения метаданных из объектно-базированной дополнительной информации; и рендерер, который отображает относящуюся к объекту информацию относительно сигналов объекта на основе метаданных.According to another aspect of the present invention, there is provided an audio decoding apparatus including: a demultiplexer configured to extract a downmix signal and object-based additional information from an input audio signal, wherein the downmix signal is obtained by downmixing a plurality of object signals; a transcoder configured to extract metadata from object-based additional information; and a renderer that displays information related to the object regarding the signals of the object based on metadata.

Согласно другому аспекту настоящего изобретения обеспечивается считываемая компьютером среда записи, имеющая записанную на ней компьютерную программу для выполнения способа декодирования аудио, причем способ декодирования аудио включает в себя: прием сигнала понижающего смешивания и объектно-базированной дополнительной информации, при этом сигнал понижающего смешивания получается посредством выполнения понижающего смешивания множества сигналов объекта; извлечение метаданных из объектно-базированной дополнительной информации; и отображение относящейся к объекту информации относительно сигналов объекта на основе метаданных.According to another aspect of the present invention, there is provided a computer-readable recording medium having a computer program recorded thereon for executing an audio decoding method, the audio decoding method including: receiving a downmix signal and object-based additional information, wherein the downmix signal is obtained by performing down mixing of a plurality of object signals; extract metadata from object-based additional information; and displaying object related information regarding object signals based on metadata.

Согласно другому аспекту настоящего изобретения обеспечивается считываемая компьютером среда записи, имеющая записанную на ней компьютерную программу для выполнения способа кодирования аудио, причем способ кодирования аудио включает в себя: генерирование сигнала понижающего смешивания посредством выполнения понижающего смешивания множества сигналов объекта; генерирование объектно-базированной дополнительной информации посредством извлечения относящейся к объекту информации из сигналов объекта; и вставление метаданных в объектно-базированную дополнительную информацию, причем метаданные представляют относящуюся к объекту информацию.According to another aspect of the present invention, there is provided a computer-readable recording medium having a computer program recorded thereon for executing an audio encoding method, the audio encoding method including: generating a downmix signal by performing downmix of a plurality of object signals; generating object-based additional information by extracting information related to the object from the signals of the object; and embedding metadata in the object-based additional information, the metadata representing object-related information.

Краткое описание чертежейBrief Description of the Drawings

Фиг.1 иллюстрирует блок-схему типовой системы объектно-базированного кодирования/декодирования аудио;Figure 1 illustrates a block diagram of a typical system of object-based audio encoding / decoding;

фиг.2 иллюстрирует блок-схему устройства декодирования аудио согласно первому варианту осуществления настоящего изобретения;2 illustrates a block diagram of an audio decoding apparatus according to a first embodiment of the present invention;

фиг.3 иллюстрирует блок-схему устройства декодирования аудио согласно второму варианту осуществления настоящего изобретения;3 illustrates a block diagram of an audio decoding apparatus according to a second embodiment of the present invention;

фиг.4 иллюстрирует блок-схему устройства декодирования аудио согласно третьему варианту осуществления настоящего изобретения;4 illustrates a block diagram of an audio decoding apparatus according to a third embodiment of the present invention;

фиг.5 иллюстрирует блок-схему модуля произвольного коэффициента усиления понижающего смешивания (ADG), который может использоваться в устройстве декодирования аудио, изображенном на фиг.4;FIG. 5 illustrates a block diagram of an arbitrary down-mix gain (ADG) module that can be used in the audio decoding apparatus shown in FIG. 4;

фиг.6 иллюстрирует блок-схему устройства декодирования аудио согласно четвертому варианту осуществления настоящего изобретения;6 illustrates a block diagram of an audio decoding apparatus according to a fourth embodiment of the present invention;

фиг.7 иллюстрирует блок-схему устройства декодирования аудио согласно пятому варианту осуществления настоящего изобретения;7 illustrates a block diagram of an audio decoding apparatus according to a fifth embodiment of the present invention;

фиг.8 иллюстрирует блок-схему устройства декодирования аудио согласно шестому варианту осуществления настоящего изобретения;Fig. 8 illustrates a block diagram of an audio decoding apparatus according to a sixth embodiment of the present invention;

фиг.9 иллюстрирует блок-схему устройства декодирования аудио согласно седьмому варианту осуществления настоящего изобретения;9 illustrates a block diagram of an audio decoding apparatus according to a seventh embodiment of the present invention;

фиг.10 иллюстрирует блок-схему устройства декодирования аудио согласно восьмому варианту осуществления настоящего изобретения;10 illustrates a block diagram of an audio decoding apparatus according to an eighth embodiment of the present invention;

фиг.11 и 12 иллюстрируют схемы для объяснения работы транскодера;11 and 12 illustrate diagrams for explaining the operation of a transcoder;

фиг.13-16 иллюстрируют схемы для объяснения конфигурации объектно-базированной дополнительной информации;13-16 illustrate diagrams for explaining a configuration of object-based additional information;

фиг.17-22 иллюстрируют схемы для объяснения объединения множества порций объектно-базированной дополнительной информации в одну порцию дополнительной информации;17-22 illustrate diagrams for explaining combining a plurality of portions of object-based additional information into one portion of additional information;

фиг.23-27 иллюстрируют схемы для объяснения операции предварительной обработки; и23-27 illustrate diagrams for explaining a preprocessing operation; and

фиг.28-33 представляют собой схемы, иллюстрирующие случай комбинирования множества декодируемых битовых потоков с объектно-базированными сигналами в один битовый поток.28-33 are diagrams illustrating a case of combining a plurality of decoded bitstreams with object-based signals into a single bitstream.

Лучший вариант осуществления изобретенияThe best embodiment of the invention

Настоящее изобретение ниже в данном документе подробно описывается со ссылкой на прилагаемые чертежи, в которых показаны примерные варианты осуществления изобретения.The present invention is hereinafter described in detail with reference to the accompanying drawings, in which exemplary embodiments of the invention are shown.

Способ и устройство кодирования аудио и способ и устройство декодирования аудио согласно настоящему изобретению могут применяться к операциям объектно-базированной обработки аудио, но настоящее изобретение не ограничивается этим. Другими словами, способ и устройство кодирования аудио и способ и устройство декодирования аудио могут применяться в различных операциях по обработке сигналов, кроме операций объектно-базированной обработки аудио.The audio encoding method and apparatus and the audio decoding method and apparatus according to the present invention may be applied to object-based audio processing operations, but the present invention is not limited thereto. In other words, the audio encoding method and apparatus and the audio decoding method and apparatus can be used in various signal processing operations, except for object-based audio processing operations.

Фиг.1 иллюстрирует блок-схему типовой системы объектно-базированного кодирования/декодирования аудио. Как правило, аудиосигналы, вводимые в устройство объектно-базированного кодирования аудио, не соответствуют каналам многоканального сигнала, но являются независимыми сигналами объекта. В этом отношении устройство объектно-базированного кодирования аудио отличается от устройства многоканального кодирования аудио, в который вводятся сигналы канала многоканального сигнала.Figure 1 illustrates a block diagram of a typical system of object-based encoding / decoding audio. Typically, the audio signals input to an object-based audio encoding device do not correspond to the channels of a multi-channel signal, but are independent object signals. In this regard, the object-based audio encoding device is different from the multi-channel audio encoding device into which the channel signals of the multi-channel signal are input.

Например, сигналы канала, такие как сигнал переднего левого канала и сигнал переднего правого канала 5.1-канального сигнала, могут вводиться в многоканальный аудиосигнал, тогда как сигналы объекта, такие как голос человека или звук музыкального инструмента (например, звук скрипки или фортепьяно), которые представляют собой меньшие сущности, чем сигналы канала, могут вводиться в устройство объектно-базированного кодирования аудио.For example, channel signals, such as the front left channel signal and the front right channel signal of a 5.1 channel signal, can be input into a multi-channel audio signal, while object signals, such as a human voice or the sound of a musical instrument (e.g., the sound of a violin or piano), which are smaller entities than channel signals, can be entered into an object-based audio encoding device.

Ссылаясь на фиг.1, система объектно-базированного кодирования/декодирования аудио включает в себя устройство объектно-базированного кодирования аудио и устройство объектно-базированного декодирования аудио. Устройство объектно-базированного кодирования аудио включает в себя кодер 100 объектов, и устройство объектно-базированного декодирования аудио включает в себя декодер 111 объектов и смеситель/рендерер 113.Referring to FIG. 1, an object-based audio encoding / decoding system includes an object-based audio encoding device and an object-based audio decoding device. An object-based audio encoding apparatus includes an object encoder 100, and an object-based audio decoding apparatus includes an object decoder 111 and a mixer / renderer 113.

Кодер 100 объектов принимает N сигналов объекта и генерирует объектно-базированный сигнал понижающего смешивания с одним или несколькими каналами и дополнительной информацией, включающей в себя некоторое количество порций информации, извлеченных из N сигналов объекта, такой как информация о разности энергий, информация о разности фаз и информация о корреляции. Дополнительная информация и объектно-базированный сигнал понижающего смешивания объединяются в единственный битовый поток, и битовый поток передается на устройство объектно-базированного декодирования.An object encoder 100 receives N object signals and generates an object-based downmix signal with one or more channels and additional information including a number of pieces of information extracted from N object signals, such as energy difference information, phase difference information, and correlation information. The additional information and the object-based downmix signal are combined into a single bitstream, and the bitstream is transmitted to an object-based decoding device.

Дополнительная информация может включать в себя флаг, указывающий, выполнять ли канало-базированное кодирование аудио или объектно-базированное кодирование аудио, и, таким образом, может определяться, выполнять ли канало-базированное кодирование аудио или объектно-базированное кодирование аудио, основываясь на флаге дополнительной информации. Дополнительная информация также может включать в себя информацию об энергии, информацию о группировании, информацию о периоде молчания, информацию о коэффициенте усиления понижающего смешивания и информацию о задержке относительно сигналов объекта.The additional information may include a flag indicating whether to perform channel-based audio encoding or object-based audio encoding, and thus it may be determined whether to perform channel-based audio encoding or object-based audio encoding based on the optional information. Additional information may also include energy information, grouping information, silent period information, downmix gain information and delay information regarding object signals.

Дополнительная информация и объектно-базированный сигнал понижающего смешивания могут быть объединены в единственный битовый поток, и единственный битовый поток может передаваться на устройство объектно-базированного декодирования аудио.The additional information and the object-based downmix signal can be combined into a single bit stream, and a single bit stream can be transmitted to an object-based audio decoding device.

Декодер 111 объектов принимает объектно-базированный сигнал понижающего смешивания и дополнительную информацию от устройства объектно-базированного кодирования аудио и восстанавливает сигналы объекта, имеющие свойства, подобные свойствам N сигналов объекта, на основе объектно-базированного сигнала понижающего смешивания и дополнительной информации. Сигналам объекта, генерируемым декодером 111 объектов, не было еще распределено никакое положение в многоканальном пространстве. Таким образом, смеситель/рендерер 113 распределяет каждый сигнал объекта, генерируемый декодером 111 объектов, в предварительно определенное положение в многоканальном пространстве и определяет уровни сигналов объекта, так что сигналы объекта могут воспроизводиться из, соответственно, соответствующих положений, обозначаемых смесителем/рендерером 113, соответственно, с соответствующими уровнями, определенными смесителем/рендерером 113. Управляющая информация, касающаяся каждого сигнала объекта, генерируемого декодером 111 объектов, может изменяться во времени, и, таким образом, пространственные положения и уровни сигналов объекта, генерируемых декодером 111 объектов, могут изменяться в соответствии с управляющей информацией.An object decoder 111 receives an object-based downmix signal and additional information from an object-based audio encoding device and reconstructs object signals having properties similar to properties of N object signals based on an object-based downmix signal and additional information. The object signals generated by the object decoder 111 have not yet been allocated any position in the multi-channel space. Thus, the mixer / renderer 113 distributes each object signal generated by the object decoder 111 to a predetermined position in the multi-channel space and determines the signal levels of the object, so that the object signals can be reproduced from the corresponding positions indicated by the mixer / renderer 113, respectively , with corresponding levels defined by mixer / renderer 113. Control information regarding each object signal generated by the object decoder 111 may zmenyatsya in time, and thus, the spatial positions and the levels of the object signals generated by the object decoder 111 may vary in accordance with the control information.

Фиг.2 иллюстрирует блок-схему устройства 120 декодирования аудио согласно первому варианту осуществления настоящего изобретения. Как показано на фиг.2, устройство 120 декодирования аудио может иметь возможность выполнения адаптивного декодирования посредством анализа управляющей информации.FIG. 2 illustrates a block diagram of an audio decoding apparatus 120 according to a first embodiment of the present invention. As shown in FIG. 2, the audio decoding apparatus 120 may be able to perform adaptive decoding by analyzing control information.

Как показано на фиг.2, устройство 120 декодирования аудио включает в себя декодер 121 объектов, смеситель/рендерер 123 и преобразователь 125 параметров. Устройство 120 декодирования аудио также может включать в себя демультиплексор (не показан), который извлекает сигнал понижающего смешивания и дополнительную информацию из введенного в него битового потока, и он будет применяться ко всем устройствам декодирования аудио согласно другим вариантам осуществления настоящего изобретения.As shown in FIG. 2, the audio decoding apparatus 120 includes an object decoder 121, a mixer / renderer 123, and a parameter converter 125. Audio decoding apparatus 120 may also include a demultiplexer (not shown) that extracts a downmix signal and additional information from a bitstream input therein, and it will be applied to all audio decoding apparatuses according to other embodiments of the present invention.

Декодер 121 объектов генерирует некоторое количество сигналов объекта на основе сигнала понижающего смешивания и модифицированной дополнительной информации, предоставляемой преобразователем 125 параметров. Смеситель/рендерер 123 распределяет каждый сигнал объекта, генерируемый декодером 121 объектов, в предварительно определенное положение в многоканальном пространстве и определяет уровни сигналов объекта, генерируемых декодером 121 объектов в соответствии с управляющей информацией. Преобразователь 125 параметров генерирует модифицированную дополнительную информацию посредством комбинирования дополнительной информации и управляющей информации. Затем преобразователь 125 параметров передает модифицированную дополнительную информацию на декодер 121 объектов.An object decoder 121 generates a number of object signals based on a downmix signal and modified additional information provided by the parameter converter 125. The mixer / renderer 123 distributes each object signal generated by the object decoder 121 to a predetermined position in the multi-channel space and determines the signal levels of the object generated by the object decoder 121 in accordance with the control information. The parameter converter 125 generates modified additional information by combining the additional information and control information. Then, the parameter converter 125 transmits the modified additional information to the object decoder 121.

Декодер 121 объектов может иметь возможность выполнять адаптивное декодирование посредством анализа управляющей информации в модифицированной дополнительной информации.An object decoder 121 may be able to perform adaptive decoding by analyzing control information in the modified supplemental information.

Например, если управляющая информация указывает, что первый сигнал объекта и второй сигнал объекта распределяются в одно и то же положение в многоканальном пространстве и имеют одинаковый уровень, типовое устройство декодирования аудио может декодировать первый и второй сигналы объекта отдельно и затем размещать их в многоканальном пространстве при помощи операции смешивания/рендеринга.For example, if the control information indicates that the first object signal and the second object signal are distributed at the same position in the multi-channel space and have the same level, a typical audio decoding device can decode the first and second object signals separately and then place them in the multi-channel space when help with the blending / rendering operation.

С другой стороны, декодер 121 объектов устройства 120 декодирования аудио узнает из управляющей информации в модифицированной дополнительной информации, что первый и второй сигналы объекта распределяются в одно и то же положение в многоканальном пространстве и имеют одинаковый уровень, как если бы они были единственным источником звука. Следовательно, декодер 121 объектов декодирует первый и второй сигналы объекта, рассматривая их как единственный источник звука без декодирования их отдельно. В результате уменьшается сложность декодирования. Кроме того, вследствие уменьшения числа источников звука, которые необходимо обрабатывать, также уменьшается сложность смешивания/рендеринга.On the other hand, the object decoder 121 of the audio decoding apparatus 120 recognizes from the control information in the modified additional information that the first and second object signals are distributed at the same position in the multi-channel space and have the same level as if they were the only sound source. Therefore, the decoder 121 objects decodes the first and second signals of the object, considering them as the only sound source without decoding them separately. As a result, decoding complexity is reduced. In addition, due to the reduction in the number of sound sources that need to be processed, the complexity of mixing / rendering is also reduced.

Устройство 120 декодирования аудио может эффективно использоваться, когда количество сигналов объекта больше, чем количество выходных каналов, так как существует большая вероятность, что множество сигналов объекта будут распределяться в одно и то же пространственное положение.Audio decoding apparatus 120 can be effectively used when the number of object signals is greater than the number of output channels, since there is a high probability that a plurality of object signals will be distributed at the same spatial position.

Альтернативно, устройство 120 декодирования аудио может использоваться, когда первый сигнал объекта и второй сигнал объекта распределяются в одно и то же положение в многоканальном пространстве, но имеют различные уровни. В данном случае устройство 120 декодирования аудио декодирует первый и второй сигналы объекта, рассматривая первый и второй сигналы объекта как единственный сигнал, вместо декодирования первого и второго сигналов объекта отдельно и передачи декодированных первого и второго сигналов объекта на смеситель/рендерер 123. Более конкретно, декодер 121 объектов может получать информацию, касающуюся разности между уровнями первого и второго сигналов объекта из управляющей информации в модифицированной дополнительной информации, и декодировать первый и второй сигналы объекта, основываясь на полученной информации. В результате, даже если первый и второй сигналы объекта имеют различные уровни, первый и второй сигналы объекта могут декодироваться, как если бы они были единственным источником звука.Alternatively, the audio decoding apparatus 120 may be used when the first object signal and the second object signal are distributed at the same position in multi-channel space, but at different levels. In this case, the audio decoding apparatus 120 decodes the first and second object signals, treating the first and second object signals as a single signal, instead of decoding the first and second object signals separately and transmitting the decoded first and second object signals to the mixer / renderer 123. More specifically, the decoder 121 objects can receive information regarding the difference between the levels of the first and second signals of the object from the control information in the modified additional information, and decode rvy and second object signals based on the received information. As a result, even if the first and second signals of the object have different levels, the first and second signals of the object can be decoded as if they were the only sound source.

Еще в качестве альтернативы, декодер 121 объектов может регулировать уровни сигналов объекта, генерируемых декодером 121 объектов в соответствии с управляющей информацией. Затем декодер 121 объектов может декодировать сигналы объекта, уровни которых регулируются. Следовательно, смесителю/рендереру 123 нет необходимости регулировать уровни декодированных сигналов объекта, предоставленных декодером 121 объектов, но он просто расставляет декодированные сигналы объекта, представленные декодером 121 объектов, в многоканальном пространстве. Вкратце, так как декодер 121 объектов регулирует уровни сигналов объекта, генерируемых декодером 121 объектов в соответствии с управляющей информацией, смеситель/рендерер 123 легко может расставить сигналы объекта, генерируемые декодером 121 объектов, в многоканальном пространстве без необходимости дополнительной регулировки уровней сигналов объекта, генерируемых декодером 121 объектов. Поэтому можно уменьшить сложность смешивания/рендеринга.As an alternative, the object decoder 121 may adjust the signal levels of the object generated by the object decoder 121 in accordance with the control information. Then, object decoder 121 may decode object signals whose levels are adjustable. Therefore, the mixer / renderer 123 does not need to adjust the levels of decoded object signals provided by the object decoder 121, but it simply arranges the decoded object signals represented by the object decoder 121 in multi-channel space. Briefly, since the object decoder 121 adjusts the object signal levels generated by the object decoder 121 in accordance with the control information, the mixer / renderer 123 can easily arrange the object signals generated by the object decoder 121 in a multi-channel space without the need for additional adjustment of the object signal levels generated by the decoder 121 objects. Therefore, the complexity of blending / rendering can be reduced.

Согласно варианту осуществления по фиг.2 декодер объектов устройства 120 декодирования аудио может адаптивно выполнять операцию декодирования при помощи анализа управляющей информации, тем самым уменьшая сложность декодирования и сложность смешивания/рендеринга. Может использоваться комбинация вышеописанных способов, выполняемых устройством 120 декодирования аудио.According to the embodiment of FIG. 2, an object decoder of the audio decoding apparatus 120 can adaptively perform a decoding operation by analyzing control information, thereby reducing the decoding complexity and the complexity of mixing / rendering. A combination of the above methods performed by the audio decoding apparatus 120 may be used.

Фиг.3 иллюстрирует блок-схему устройства 130 декодирования аудио согласно второму варианту осуществления настоящего изобретения. Как показано на фиг.3, устройство 130 декодирования аудио включает в себя декодер 131 объектов и смеситель/рендерер 133. Устройство 130 декодирования аудио характеризуется предоставлением дополнительной информации не только декодеру 131 объектов, но также смесителю/рендереру 133.FIG. 3 illustrates a block diagram of an audio decoding apparatus 130 according to a second embodiment of the present invention. As shown in FIG. 3, the audio decoding apparatus 130 includes an object decoder 131 and a mixer / renderer 133. The audio decoding device 130 is characterized by providing additional information not only to the object decoder 131, but also to the mixer / renderer 133.

Устройство 130 декодирования аудио может эффективно выполнять операцию декодирования даже тогда, когда имеется сигнал объекта, соответствующий периоду молчания. Например, второй-четвертый сигналы объекта могут соответствовать периоду проигрывания музыки, во время которого проигрывается музыкальный инструмент, и первый сигнал объекта может соответствовать периоду приглушения, во время которого проигрывается только фоновая музыка, и первый сигнал объекта может соответствовать периоду молчания, во время которого проигрывается аккомпанемент. В данном случае информация, указывающая, какой из множества сигналов объекта соответствует периоду молчания, может быть включена в дополнительную информацию, и дополнительная информация может предоставляться на смеситель/рендерер 133, а также на декодер 131 объектов.An audio decoding apparatus 130 can efficiently perform a decoding operation even when there is an object signal corresponding to a period of silence. For example, the second to fourth signals of an object may correspond to a period of playing music during which a musical instrument is played, and the first signal of an object may correspond to a muting period during which only background music is played, and the first signal of an object may correspond to a period of silence during which it is played accompaniment. In this case, information indicating which of the plurality of object signals corresponds to the silence period may be included in additional information, and additional information may be provided to a mixer / renderer 133, as well as to an object decoder 131.

Декодер 131 объектов может минимизировать сложность декодирования посредством недекодирования сигнала объекта, соответствующего периоду молчания. Декодер 131 объектов устанавливает сигнал объекта, соответствующий значению 0, и передает уровень сигнала объекта на смеситель/рендерер 133. В основном, сигналы объекта, имеющие значение 0, рассматриваются так же, как сигналы объекта, имеющие значение, отличное от 0, и, таким образом, подвергаются операции смешивания/рендеринга.An object decoder 131 can minimize the decoding complexity by undecoding an object signal corresponding to a silence period. An object decoder 131 sets an object signal corresponding to a value of 0, and transmits an object signal level to a mixer / renderer 133. In general, object signals having a value of 0 are treated in the same way as object signals having a value other than 0, and thus thus undergoes blending / rendering operations.

С другой стороны, устройство 130 декодирования аудио передает дополнительную информацию, включающую в себя информацию, указывающую, какой из множества сигналов объекта соответствует периоду молчания, на смеситель/рендерер 133 и может, таким образом, предотвращать то, что сигнал объекта, соответствующий периоду молчания, подвергается операции смешивания/рендеринга, выполняемой смесителем/рендерером 133. Поэтому устройство 130 декодирования аудио может предотвращать нежелательное повышение сложности смешивания/рендеринга.On the other hand, the audio decoding apparatus 130 transmits additional information including information indicating which of the plurality of object signals corresponds to the silence period to the mixer / renderer 133 and can thus prevent the object signal corresponding to the silence period, undergoes the mixing / rendering operation performed by the mixer / renderer 133. Therefore, the audio decoding apparatus 130 can prevent an undesired increase in the complexity of the mixing / rendering.

Фиг.4 иллюстрирует блок-схему устройства 140 декодирования аудио согласно третьему варианту осуществления настоящего изобретения. Как показано на фиг.4, устройство 140 декодирования аудио использует многоканальный декодер 141 вместо декодера объектов и смесителя/рендерера и декодирует некоторое количество сигналов объекта, после того как сигналы объекта будут расставлены надлежащим образом в многоканальном пространстве.FIG. 4 illustrates a block diagram of an audio decoding apparatus 140 according to a third embodiment of the present invention. As shown in FIG. 4, the audio decoding apparatus 140 uses a multi-channel decoder 141 instead of an object decoder and mixer / renderer and decodes a number of object signals after the object signals are properly arranged in the multi-channel space.

Более конкретно, устройство 140 декодирования аудио включает в себя многоканальный декодер 141 и преобразователь 145 параметров. Многоканальный декодер 141 генерирует многоканальный сигнал, сигналы объекта которого уже были расставлены в многоканальном пространстве, на основе сигнала понижающего смешивания и информации о пространственных параметрах, которая представляет собой информацию о канало-базированных параметрах, представляемую преобразователем 145 параметров. Преобразователь 145 параметров анализирует дополнительную информацию и управляющую информацию, переданную устройством кодирования аудио (не показано), и генерирует информацию о пространственных параметрах на основе результата анализа. Более конкретно, преобразователь 145 параметров генерирует информацию о пространственных параметрах посредством комбинирования дополнительной информации и управляющей информации, которая включает в себя информацию об установке проигрывания и информацию о смешивании. Т.е. преобразователь 145 параметров выполняет преобразование комбинации дополнительной информации и управляющей информации в пространственные данные, соответствующие блоку один-в-два (OTT) или блоку два-в-три (TTT).More specifically, the audio decoding apparatus 140 includes a multi-channel decoder 141 and a parameter converter 145. The multi-channel decoder 141 generates a multi-channel signal, the object signals of which have already been arranged in multi-channel space, based on the down-mix signal and spatial parameter information, which is channel-based parameter information provided by the parameter converter 145. The parameter converter 145 analyzes additional information and control information transmitted by an audio encoding device (not shown), and generates spatial parameter information based on the analysis result. More specifically, the parameter transformer 145 generates spatial parameter information by combining additional information and control information, which includes playback setting information and mixing information. Those. a parameter converter 145 converts a combination of additional information and control information into spatial data corresponding to a one-to-two (OTT) block or a two-to-three block (TTT).

Устройство 140 декодирования аудио может выполнять операцию многоканального декодирования, в которую встроена операция объектно-базированного декодирования и операция смешивания/рендеринга, и может, таким образом пропускать декодирование каждого сигнала объекта. Поэтому можно снизить сложность декодирования и/или смешивания/рендеринга.The audio decoding apparatus 140 may perform a multi-channel decoding operation in which an object-based decoding operation and a mixing / rendering operation are integrated, and may thereby skip decoding each object signal. Therefore, the complexity of decoding and / or blending / rendering can be reduced.

Например, когда имеется 10 сигналов объекта и многоканальный сигнал, полученный на основе 10 сигналов объекта, должен воспроизводиться 5.1-канальной системой громкоговорителей, типовое устройство объектно-базированного декодирования аудио генерирует декодированные сигналы, соответствующие, соответственно, 10 сигналам объекта, на основе сигнала понижающего смешивания и дополнительной информации, и затем генерирует 5.1-канальный сигнал посредством расстановки соответствующим образом 10 сигналов объекта в многоканальном пространстве, так что сигналы объекта могут становиться пригодными для 5.1-канального окружения громкоговорителей. Однако неэффективно генерировать 10 сигналов объекта во время генерирования 5.1-канального сигнала, и эта проблема становится более серьезной, когда увеличивается разность между количеством сигналов объекта и количеством каналов многоканального сигнала, подлежащего генерированию.For example, when there are 10 object signals and a multi-channel signal derived from 10 object signals must be reproduced by a 5.1-channel speaker system, a typical object-based audio decoding device generates decoded signals corresponding to 10 object signals, respectively, based on the downmix signal and additional information, and then generates a 5.1-channel signal by appropriately arranging 10 object signals in multi-channel space, so then the object signals can become suitable for 5.1-channel surround speakers. However, it is inefficient to generate 10 object signals during the generation of the 5.1-channel signal, and this problem becomes more serious when the difference between the number of object signals and the number of channels of the multi-channel signal to be generated increases.

С другой стороны, в варианте осуществления по фиг.4 устройство 140 декодирования аудио генерирует информацию о пространственных параметрах, пригодную для 5.1-канального сигнала, основанного на дополнительной информации и управляющей информации, и предоставляет информацию о пространственных параметрах и сигнал понижающего смешивания на многоканальный декодер 141. Затем многоканальный декодер 141 генерирует 5.1-канальный сигнал, основанный на информации о пространственных параметрах и сигнале понижающего смешивания. Другими словами, когда количество каналов, подлежащих выводу, равно 5.1 каналам, устройство 140 декодирования аудио легко может генерировать 5.1-канальный сигнал, основанный на сигнале понижающего смешивания, без необходимости генерирования 10 сигналов объекта, и, таким образом, является более эффективным, чем обычное устройство декодирования аудио с точки зрения сложности.On the other hand, in the embodiment of FIG. 4, the audio decoding apparatus 140 generates spatial parameter information suitable for a 5.1 channel signal based on additional information and control information, and provides spatial parameter information and a downmix signal to a multi-channel decoder 141 Then, the multi-channel decoder 141 generates a 5.1-channel signal based on the spatial parameter information and the downmix signal. In other words, when the number of channels to be output is 5.1 channels, the audio decoding apparatus 140 can easily generate a 5.1 channel signal based on the downmix signal without the need to generate 10 object signals, and thus is more efficient than normal audio decoding device in terms of complexity.

Устройство 140 декодирования аудио считается эффективным, когда количество вычислений, необходимых для вычисления информации о пространственных параметрах, соответствующей каждому блоку ОТТ и блоку ТТТ, посредством анализа дополнительной информации и управляющей информации, переданной устройством кодирования аудио, меньше количества вычислений, необходимых для выполнения операции смешивания/рендеринга после декодирования каждого сигнала объекта.The audio decoding device 140 is considered effective when the number of calculations necessary to calculate the spatial parameter information corresponding to each OTT unit and the TTT block by analyzing additional information and control information transmitted by the audio encoding device is less than the number of calculations necessary to perform the mixing / rendering after decoding each signal of the object.

Устройство 140 декодирования аудио может быть получено просто добавлением модуля для генерирования информации о пространственных параметрах посредством анализа дополнительной информации и управляющей информации к типовому устройству многоканального декодирования аудио и, таким образом, может сохранять совместимость с типовым устройством многоканального декодирования аудио. Также устройство 140 декодирования аудио может улучшать качество звука, используя существующие инструментальные средства типового устройства многоканального декодирования аудио, такие как формирователь огибающей, инструментальное средство субполосной временной обработки (STP) и декоррелятор. При наличии всего этого делается вывод, что все преимущества типового способа многоканального декодирования аудио легко могут быть применены к способу декодирования объектного аудио.An audio decoding apparatus 140 can be obtained simply by adding a module for generating spatial parameter information by analyzing additional information and control information to a typical multi-channel audio decoding device, and thus can be compatible with a typical multi-channel audio decoding device. Also, audio decoding apparatus 140 can improve sound quality using existing tools of a typical multi-channel audio decoding apparatus, such as an envelope shaper, sub-band time processing (STP) tool, and decorrelator. Given all this, it is concluded that all the advantages of a typical multi-channel audio decoding method can easily be applied to an object audio decoding method.

Информация о пространственных параметрах, переданная на многоканальный декодер 141 преобразователем 145 параметров, может быть сжата, чтобы она была подходящей для передачи. Альтернативно, информация о пространственных параметрах может иметь такой же формат, что и формат данных, передаваемых типовым устройством многоканального кодирования. Т.е. информация о пространственных параметрах возможно подвергалась операции декодирования методом Хаффмана или операции декодирования по пилот-сигналу и, таким образом, может передаваться на каждый модуль в качестве несжатых данных пространственных меток. Первый подходит для передачи информации о пространственных параметрах на устройство многоканального декодирования аудио в удаленном месте, и второе является удобным, так как нет необходимости в устройстве многоканального декодирования аудио для преобразования сжатых данных пространственных меток в несжатые данные пространственных меток, которые легко могут использоваться в операции декодирования.The spatial parameter information transmitted to the multi-channel decoder 141 by the parameter converter 145 may be compressed to be suitable for transmission. Alternatively, the spatial parameter information may have the same format as the data format transmitted by a typical multi-channel encoding device. Those. the spatial parameter information may have been subjected to a Huffman decoding operation or a pilot decoding operation, and thus may be transmitted to each module as uncompressed spatial mark data. The first is suitable for transmitting spatial parameter information to a multi-channel audio decoding device in a remote location, and the second is convenient since there is no need for a multi-channel audio decoding device to convert compressed spatial label data to uncompressed spatial label data that can easily be used in the decoding operation .

Конфигурирование информации о пространственных параметрах, основанное на анализе дополнительной информации и управляющей информации, может вызвать задержку. Чтобы компенсировать такую задержку, может быть предусмотрен дополнительный буфер для сигнала понижающего смешивания, так что может компенсироваться задержка между сигналом понижающего смешивания и битовым потоком. Альтернативно, дополнительный буфер может быть предусмотрен для информации о пространственных параметрах, полученной из управляющей информации, так что может компенсироваться задержка между информацией о пространственных параметрах и битовым потоком. Эти способы, однако, являются неудобными из-за необходимости обеспечения дополнительного буфера. Альтернативно, дополнительная информация может передаваться перед сигналом понижающего смешивания, учитывая возможность появления задержки между сигналом понижающего смешивания и информацией о пространственных параметрах. В этом случае нет необходимости регулировать информацию о пространственных параметрах, полученную посредством комбинирования дополнительной информации и управляющей информации, но она легко может использоваться.Configuring spatial parameter information based on analysis of additional information and control information may cause a delay. To compensate for such a delay, an additional buffer for the downmix signal can be provided, so that the delay between the downmix signal and the bitstream can be compensated. Alternatively, an additional buffer may be provided for the spatial parameter information obtained from the control information, so that a delay between the spatial parameter information and the bitstream can be compensated. These methods, however, are inconvenient because of the need to provide an additional buffer. Alternatively, additional information may be transmitted before the downmix signal, given the possibility of a delay between the downmix signal and the spatial parameter information. In this case, there is no need to adjust the information on spatial parameters obtained by combining additional information and control information, but it can be easily used.

Если множество сигналов объекта сигнала понижающего смешивания имеют различные уровни, модуль произвольного коэффициента усиления понижающего смешивания (ADG), который может непосредственно компенсировать сигнал понижающего смешивания, может определять относительные уровни сигналов объекта, и каждый из сигналов объекта может расставляться в предварительно определенное положение в многоканальном пространстве, используя данные пространственных меток, такие как информация о разности уровней каналов (CLD), информация о межканальной корреляции (ICC) и информация о коэффициенте предсказания канала (CPC).If the plurality of object signals of the downmix signal have different levels, an arbitrary downmix gain module (ADG), which can directly compensate for the downmix signal, can determine the relative signal levels of the object, and each of the object signals can be positioned in a predetermined position in the multi-channel space using spatial label data such as channel level difference (CLD) information, inter-channel correlation information Relation Factor (ICC) and Channel Prediction Ratio Information (CPC).

Например, если управляющая информация указывает, что предварительно определенный сигнал объекта должен быть распределен в предварительно определенное положение в многоканальном пространстве и имеет более высокий уровень, чем другие сигналы объекта, типовой многоканальный декодер может вычислить разность между энергиями каналов сигнала понижающего смешивания, и разделить сигнал понижающего смешивания на некоторое количество выходных каналов, основываясь на результатах вычисления. Однако типовой многоканальный декодер не может увеличить или уменьшить громкость некоторого звука в сигнале понижающего смешивания. Другими словами, типовой многоканальный декодер просто распределяет сигнал понижающего смешивания по некоторому количеству выходных каналов и, таким образом, не может увеличить или уменьшить громкость звука в сигнале понижающего смешивания.For example, if the control information indicates that the predetermined signal of the object should be distributed to a predetermined position in the multi-channel space and has a higher level than other signals of the object, a typical multi-channel decoder can calculate the difference between the channel energies of the downmix signal, and separate the downmix signal mixing on a number of output channels based on the calculation results. However, a typical multi-channel decoder cannot increase or decrease the volume of some sound in a downmix signal. In other words, a typical multi-channel decoder simply distributes the down-mix signal over a number of output channels and thus cannot increase or decrease the sound volume in the down-mix signal.

Относительно легко распределить каждый из некоторого количества сигналов объекта сигнала понижающего смешивания, генерируемого кодером объектов, в предварительно определенное положение в многоканальном пространстве в соответствии с управляющей информацией. Однако необходимы специальные методы для увеличения или уменьшения амплитуды предварительно определенного сигнала объекта. Другими словами, если сигнал понижающего смешивания, генерируемый кодером объектов, используется как есть, то трудно уменьшить амплитуду каждого сигнала объекта сигнала понижающего смешивания.It is relatively easy to distribute each of a number of object signals of the down-mix signal generated by the object encoder to a predetermined position in the multi-channel space in accordance with the control information. However, special methods are needed to increase or decrease the amplitude of a predetermined object signal. In other words, if the downmix signal generated by the object encoder is used as is, it is difficult to reduce the amplitude of each signal object of the downmix signal.

Поэтому согласно варианту осуществления настоящего изобретения относительные амплитуды сигналов объекта могут изменяться в соответствии с управляющей информацией посредством использования модуля 147 ADG, изображенного на фиг.5. Модуль 147 ADG может быть установлен в многоканальном декодере 141 или может быть отдельным от многоканального декодера 141.Therefore, according to an embodiment of the present invention, the relative amplitudes of the object signals can be changed in accordance with the control information by using the ADG module 147 shown in FIG. The ADG module 147 may be installed in the multi-channel decoder 141 or may be separate from the multi-channel decoder 141.

Если относительные амплитуды сигналов объекта сигнала понижающего смешивания регулируются соответствующим образом с использованием модуля 147 ADG, то можно выполнять декодирование объекта, используя типовой многоканальный декодер. Если сигнал понижающего смешивания, генерируемый кодером объекта, является монофоническим или стереофоническим сигналом или многоканальным сигналом с тремя или более каналами, сигнал понижающего смешивания может обрабатываться модулем 147 ADG. Если сигнал понижающего смешивания, генерируемый кодером объекта, имеет два или более каналов и предварительно определенный сигнал объекта, который требует регулировки модулем 147 ADG, существует только в одном из каналов сигнала понижающего смешивания, модуль 147 ADG может применяться только к каналу, включающему в себя предварительно определенный сигнал объекта, вместо применения ко всем каналам сигнала понижающего смешивания. Сигнал понижающего смешивания, обработанный модулем 147 ADG вышеописанным образом, легко может обрабатываться с использованием типового многоканального декодера без необходимости модифицирования конструкции многоканального декодера.If the relative amplitudes of the object signals of the down-mix signal are adjusted appropriately using the ADG module 147, then decoding of the object can be performed using a typical multi-channel decoder. If the down-mix signal generated by the object encoder is a monaural or stereo signal or a multi-channel signal with three or more channels, the down-mix signal may be processed by the ADG module 147. If the downmix signal generated by the object encoder has two or more channels and a predetermined object signal that requires adjustment by the ADG module 147 exists in only one of the channels of the downmix signal, the ADG module 147 can only be applied to a channel including a specific object signal, instead of applying a downmix signal to all channels. The down-mix signal processed by the ADG module 147 as described above can easily be processed using a typical multi-channel decoder without the need to modify the design of the multi-channel decoder.

Даже если окончательный выходной сигнал не является многоканальным сигналом, который может воспроизводиться многоканальным громкоговорителем, но является бинауральным сигналом, модуль 147 ADG может использоваться для регулировки относительных амплитуд сигналов объекта окончательного выходного сигнала.Even if the final output signal is not a multi-channel signal that can be reproduced by a multi-channel speaker, but is a binaural signal, the ADG module 147 can be used to adjust the relative amplitudes of the signals of the final output signal object.

Альтернативно использованию модуля 147 ADG, информация о коэффициенте усиления, задающая значение коэффициента усиления, подлежащего применению для каждого сигнала объекта, может включаться в управляющую информацию во время генерирования некоторого количества сигналов объекта. Для этого может модифицироваться конструкция типового многоканального декодера. Даже если требуя модифицирование конструкции существующего многоканального декодера, этот способ является удобным в смысле снижения сложности декодирования посредством применения значения коэффициента усиления к каждому сигналу объекта во время операции декодирования без необходимости вычисления ADG и компенсирования каждого сигнала объекта.Alternative to using the ADG module 147, gain information specifying a gain value to be applied for each object signal may be included in the control information during the generation of a number of object signals. For this, the design of a typical multi-channel decoder can be modified. Even if requiring modification of the design of an existing multi-channel decoder, this method is convenient in the sense of reducing the complexity of decoding by applying a gain value to each signal of the object during the decoding operation without the need to calculate ADG and compensate for each signal of the object.

Модуль 147 ADG может использоваться не только для регулировки уровней сигналов объекта, но также для модифицирования спектральной информации некоторого сигнала объекта. Более конкретно, модуль 147 ADG может использоваться не только для увеличения или уменьшения уровня некоторого сигнала объекта, но также для модифицирования спектральной информации некоторого сигнала объекта, например, усиления части с высоким или низким тоном некоторого сигнала объекта. Нельзя модифицировать спектральную информацию без использования модуля 147 ADG.ADG module 147 can be used not only to adjust the signal levels of an object, but also to modify the spectral information of an object signal. More specifically, the ADG module 147 can be used not only to increase or decrease the level of a certain signal of an object, but also to modify the spectral information of a certain signal of an object, for example, to amplify a part with a high or low tone of a certain signal of an object. You cannot modify spectral information without using the 147 ADG module.

Фиг.6 иллюстрирует блок-схему устройства 150 декодирования аудио согласно четвертому варианту осуществления настоящего изобретения. Как показано на фиг.6, устройство 150 декодирования аудио включает в себя многоканальный бинауральный декодер 151, первый преобразователь 157 параметров и второй преобразователь 159 параметров.6 illustrates a block diagram of an audio decoding apparatus 150 according to a fourth embodiment of the present invention. As shown in FIG. 6, the audio decoding apparatus 150 includes a multi-channel binaural decoder 151, a first parameter converter 157 and a second parameter converter 159.

Второй преобразователь 159 параметров анализирует дополнительную информацию и управляющую информацию, которая предоставляется устройством кодирования аудио, и конфигурирует информацию о пространственных параметрах, основанную на результате анализа. Первый преобразователь 157 параметров конфигурирует информацию о виртуальных трехмерных (3D) параметрах, которая может использоваться многоканальным бинауральным декодером 151, посредством добавления трехмерной (3D) информации, такой как параметры функции моделирования восприятия звука (HRTF), к информации о пространственных параметрах. Многоканальный бинауральный декодер 151 генерирует бинауральный сигнал посредством применения информации о бинауральных параметрах к сигналу понижающего смешивания.The second parameter converter 159 analyzes additional information and control information that is provided by the audio encoding device, and configures the spatial parameter information based on the analysis result. The first parameter converter 157 configures virtual three-dimensional (3D) parameter information that can be used by the multi-channel binaural decoder 151 by adding three-dimensional (3D) information, such as parameters of the sound perception modeling function (HRTF), to the spatial parameter information. The multi-channel binaural decoder 151 generates a binaural signal by applying the binaural parameter information to the downmix signal.

Первый преобразователь 157 параметров и второй преобразователь 159 параметров могут быть заменены одним модулем, т.е. модулем 155 преобразования параметров, который принимает дополнительную информацию, управляющую информацию и трехмерную информацию и конфигурирует информацию о бинауральных параметрах, основанную на дополнительной информации, управляющей информации и параметрах HRTF.The first parameter converter 157 and the second parameter converter 159 can be replaced by one module, i.e. a parameter conversion module 155, which receives additional information, control information and three-dimensional information, and configures binaural parameter information based on the additional information, control information, and HRTF parameters.

Обычно, чтобы генерировать бинауральный сигнал для проигрывания сигнала понижающего смешивания, включающего в себя 10 сигналов объекта, при помощи головного телефона, сигнал объекта должен генерировать 10 декодированных сигналов, соответствующих, соответственно, 10 сигналам объекта, основанным на сигнале понижающего смешивания и дополнительной информации. После этого смеситель/рендерер распределяет каждый из 10 сигналов объекта в предварительно определенное положение в многоканальном пространстве со ссылкой на управляющую информацию, чтобы удовлетворять требованиям окружения 5-канального громкоговорителя. После этого смеситель/рендерер генерирует 5-канальный сигнал, который может воспроизводиться 5-канальным громкоговорителем. После этого смеситель/рендерер применяет трехмерную информацию к 5-канальному сигналу, таким образом генерируя 2-канальный сигнал. Вкратце, вышеупомянутый обычный способ декодирования аудио включает в себя воспроизведение 10 сигналов объекта, преобразование 10 сигналов объекта в 5-канальный сигнал и генерирование 2-канального сигнала на основе 5-канального сигнала и, таким образом, является неэффективным.Typically, in order to generate a binaural signal for playing a downmix signal including 10 object signals with a headphone, an object signal must generate 10 decoded signals corresponding to, respectively, 10 object signals based on the downmix signal and additional information. After that, the mixer / renderer distributes each of 10 signals of the object to a predetermined position in the multi-channel space with reference to control information in order to satisfy the environmental requirements of the 5-channel speaker. After that, the mixer / renderer generates a 5-channel signal that can be reproduced by a 5-channel speaker. After that, the mixer / renderer applies three-dimensional information to the 5-channel signal, thereby generating a 2-channel signal. Briefly, the aforementioned conventional audio decoding method includes reproducing 10 object signals, converting 10 object signals to a 5-channel signal, and generating a 2-channel signal based on the 5-channel signal, and thus is inefficient.

С другой стороны, устройство 150 декодирования аудио может легко генерировать бинауральный сигнал, который может воспроизводиться с использованием головных телефонов, основываясь на сигналах объекта. Кроме того, устройство 150 декодирования аудио конфигурирует информацию о пространственных параметрах посредством анализа дополнительной информации и управляющей информации и может, таким образом, генерировать бинауральный сигнал, используя типовой многоканальный бинауральный декодер. Кроме того, устройство 150 декодирования аудио все же может использовать типовой многоканальный бинауральный декодер даже тогда, когда он оснащен встроенным преобразователем параметров, который принимает дополнительную информацию, управляющую информацию и параметры HRTF и конфигурирует информацию о бинауральных параметрах, основанную на дополнительной информации, управляющей информации и параметрах HRTF.On the other hand, the audio decoding apparatus 150 can easily generate a binaural signal that can be reproduced using headphones, based on the signals of the object. In addition, the audio decoding apparatus 150 configures spatial parameter information by analyzing additional information and control information, and can thus generate a binaural signal using a typical multi-channel binaural decoder. In addition, the audio decoding apparatus 150 can still use a typical multi-channel binaural decoder even when it is equipped with an integrated parameter converter that receives additional information, control information and HRTF parameters and configures the binaural parameter information based on the additional information, control information and HRTF parameters.

Фиг.7 иллюстрирует блок-схему устройства 160 декодирования аудио согласно пятому варианту осуществления настоящего изобретения. Как показано на фиг.7, устройство 160 декодирования аудио включает в себя препроцессор 161, многоканальный декодер 163 и преобразователь 165 параметров.7 illustrates a block diagram of an audio decoding apparatus 160 according to a fifth embodiment of the present invention. As shown in FIG. 7, the audio decoding apparatus 160 includes a preprocessor 161, a multi-channel decoder 163, and a parameter converter 165.

Преобразователь 165 параметров генерирует информацию о пространственных параметрах, которая может использоваться многоканальным декодером 163, и информацию о параметрах, которая может использоваться препроцессором 161. Препроцессор 161 выполняет операцию предварительной обработки над сигналом понижающего смешивания и передает сигнал понижающего смешивания, являющийся результатом операции предварительной обработки, на многоканальный декодер 163. Многоканальный декодер 163 выполняет операцию декодирования над сигналом понижающего смешивания, переданным препроцессором 161, таким образом выводя стереофонический сигнал, бинауральный стереофонический сигнал или многоканальный сигнал. Примеры операции предварительной обработки, выполняемой препроцессором 161, включают в себя модифицирование или преобразование сигнала понижающего смешивания во временной области или частотной области, используя фильтрацию.The parameter converter 165 generates spatial parameter information that can be used by the multi-channel decoder 163, and parameter information that can be used by the preprocessor 161. The preprocessor 161 performs a preprocessing operation on the downmix signal and transmits the downmix signal resulting from the preprocessing operation to multi-channel decoder 163. Multi-channel decoder 163 performs the decoding operation on the downmix signal Nia transmitted by the preprocessor 161, thereby outputting a stereo signal, a binaural stereo signal or a multichannel signal. Examples of the preprocessing operation performed by preprocessor 161 include modifying or converting a downmix signal in a time domain or a frequency domain using filtering.

Если сигнал понижающего смешивания, введенный в устройство 160 декодирования аудио, представляет собой стереофонический сигнал, сигнал понижающего смешивания возможно подвергался предварительной обработке понижающего смешивания, выполняемой препроцессором 161, перед вводом в многоканальный декодер 163, так как многоканальный декодер 163 не может отображать сигнал объекта, соответствующий левому каналу стереофонического сигнала понижающего смешивания, на правый канал многоканального сигнала посредством декодирования. Поэтому, чтобы сдвинуть сигнал объекта, принадлежащий левому каналу стереофонического сигнала понижающего смешивания, в правый канал, возможно, что необходимо выполнение предварительной обработки стереофонического сигнала понижающего смешивания препроцессором 161, и сигнал понижающего смешивания с выполненной предварительной обработкой может вводиться в многоканальный декодер 163.If the down-mix signal inputted to the audio decoding apparatus 160 is a stereo signal, the down-mix signal may have been pre-processed by the down-mix performed by the preprocessor 161 before being input to the multi-channel decoder 163, since the multi-channel decoder 163 cannot display the object signal corresponding to the left channel of the stereo downmix signal; the right channel of the multi-channel signal by decoding. Therefore, in order to shift the object signal belonging to the left channel of the stereo down-mix signal to the right channel, it is possible that it is necessary to pre-process the stereo down-mix signal by preprocessor 161, and the down-mix signal with the pre-processing performed may be input to the multi-channel decoder 163.

Предварительная обработка стереофонического сигнала понижающего смешивания может выполняться на основе информации о предварительной обработке, полученной из дополнительной информации и из управляющей информации.The preprocessing of the stereo downmix signal may be performed based on the preprocessing information obtained from the additional information and from the control information.

Фиг.8 иллюстрирует блок-схему устройства 170 декодирования аудио согласно шестому варианту осуществления настоящего изобретения. Как показано на фиг.8, устройство 170 декодирования аудио включает в себя многоканальный декодер 171, постпроцессор 173 и преобразователь 175 параметров.FIG. 8 illustrates a block diagram of an audio decoding apparatus 170 according to a sixth embodiment of the present invention. As shown in FIG. 8, the audio decoding apparatus 170 includes a multi-channel decoder 171, a post-processor 173, and a parameter converter 175.

Преобразователь 175 параметров генерирует информацию о пространственных параметрах, которая может использоваться многоканальным декодером 163, и информацию о параметрах, которая может использоваться постпроцессором 173. Постпроцессор 173 выполняет операцию пост-обработки над сигналом, выводимым многоканальным декодером 173. Примеры сигнала, выводимого многоканальным декодером 173, включают в себя стереофонический сигнал, бинауральный стереофонический сигнал и многоканальный сигнал.The parameter converter 175 generates spatial parameter information that can be used by the multi-channel decoder 163, and parameter information that can be used by the post-processor 173. The post-processor 173 performs a post-processing operation on a signal output by the multi-channel decoder 173. Examples of the signal output by the multi-channel decoder 173, include a stereo signal, a binaural stereo signal, and a multi-channel signal.

Примеры операции постобработки, выполняемой постпроцессором 173, включают в себя модифицирование и преобразование каждого канала или всех каналов выходного сигнала. Например, если дополнительная информация включает в себя информацию об основной частоте, касающуюся предварительно определенного сигнала объекта, постпроцессор 173 может удалять гармонические составляющие из предварительно определенного сигнала объекта со ссылкой на информацию об основной частоте. Способ многоканального декодирования аудио не может быть достаточно эффективным для использования в системе караоке. Однако, если информация об основной частоте, касающаяся сигналов голосового объекта, включена в дополнительную информацию и гармонические составляющие сигналов голосового объекта удаляются во время операции постобработки, можно реализовать высококачественную систему караоке посредством использования варианта осуществления по фиг.8. Вариант осуществления по фиг.8 также может применяться к сигналам объекта, кроме сигналов голосового объекта. Например, можно удалить звук предварительно определенного музыкального инструмента посредством использования варианта осуществления по фиг.8. Также можно усилить предварительно определенные гармонические составляющие, используя информацию об основной частоте, касающуюся сигналов объекта, посредством использования варианта осуществления по фиг.8. Вкратце, параметры постобработки могут сделать возможным применение различных эффектов, таких как вставка эффекта реверберации, добавление шума и усиление части с низким тоном, которые не могут выполняться многоканальным декодером 171.Examples of the post-processing operation performed by the post-processor 173 include modifying and converting each channel or all channels of the output signal. For example, if the additional information includes basic frequency information regarding a predetermined object signal, post processor 173 may remove harmonic components from the predetermined object signal with reference to the fundamental frequency information. The multi-channel audio decoding method may not be effective enough for use in a karaoke system. However, if the fundamental frequency information regarding the signals of the voice object is included in the additional information and the harmonic components of the signals of the voice object are deleted during the post-processing operation, a high-quality karaoke system can be realized by using the embodiment of FIG. 8. The embodiment of FIG. 8 can also be applied to object signals other than voice object signals. For example, you can remove the sound of a predefined musical instrument by using the embodiment of FIG. It is also possible to amplify the predefined harmonic components using the fundamental frequency information regarding the signals of the object by using the embodiment of FIG. 8. In short, post-processing parameters can make it possible to apply various effects, such as inserting a reverb effect, adding noise, and enhancing the low-tone part that cannot be performed by multi-channel decoder 171.

Постпроцессор 173 может непосредственно применять дополнительный эффект к сигналу понижающего смешивания или добавлять сигнал понижающего смешивания, к которому эффект уже был применен, к выходному сигналу многоканального декодера 171. Постпроцессор 173 может изменять спектр объекта или модифицировать сигнал понижающего смешивания, когда это необходимо. Если не является подходящим непосредственное выполнение операции обработки эффекта, такой как реверберация по сигналу понижающего смешивания, и передача сигнала, полученного операцией обработки эффекта на многоканальный декодер 171, препроцессор 173 может просто добавить сигнал, получаемый операцией обработки эффекта к выходному сигналу многоканального декодера 171, вместо непосредственного выполнения обработки эффекта по сигналу понижающего смешивания и передачи результата обработки эффекта на многоканальный декодер 171.Postprocessor 173 can directly apply an additional effect to the downmix signal or add a downmix signal, to which the effect has already been applied, to the output of multi-channel decoder 171. Postprocessor 173 can modify the spectrum of the object or modify the downmix signal when necessary. If it is not suitable to directly perform an effect processing operation, such as reverb on a downmix signal, and transmit the signal obtained by the effect processing operation to a multi-channel decoder 171, the preprocessor 173 can simply add the signal obtained by the effect processing operation to the output signal of the multi-channel decoder 171, instead direct execution of the effect processing on the down-mixing signal and transmitting the result of the effect processing to the multi-channel decoder 171.

Фиг.9 иллюстрирует блок-схему устройства 180 декодирования аудио согласно седьмому варианту осуществления настоящего изобретения. Как показано на фиг.9, устройство 180 декодирования аудио включает в себя препроцессор 181, многоканальный декодер 183, постпроцессор 185 и преобразователь 187 параметров.FIG. 9 illustrates a block diagram of an audio decoding apparatus 180 according to a seventh embodiment of the present invention. As shown in FIG. 9, the audio decoding apparatus 180 includes a preprocessor 181, a multi-channel decoder 183, a post-processor 185, and a parameter converter 187.

Описание препроцессора 161 непосредственно применяется к препроцессору 181. Постпроцессор 185 может использоваться для добавления к выходному сигналу препроцессора 181 и выходному сигналу многоканального декодера 185 и, таким образом, обеспечения окончательного сигнала. В данном случае постпроцессор 185 служит просто в качестве сумматора для добавления сигналов. Параметр эффекта может предоставляться на тот, который из препроцессора 181 и постпроцессора 185 выполняет применение эффекта. Кроме того, добавление сигнала, полученного посредством применения эффекта к сигналу понижающего смешивания, к выходному сигналу многоканального декодера 183 и применение эффекта к выходному сигналу многоканального декодера 185 может выполняться одновременно.The description of preprocessor 161 is directly applicable to preprocessor 181. Postprocessor 185 can be used to add to the output of preprocessor 181 and the output of multi-channel decoder 185 and thus provide the final signal. In this case, postprocessor 185 serves merely as an adder to add signals. An effect parameter may be provided on that which of the preprocessor 181 and post-processor 185 performs the application of the effect. In addition, adding the signal obtained by applying the effect to the down-mix signal to the output of the multi-channel decoder 183 and applying the effect to the output of the multi-channel decoder 185 can be performed simultaneously.

Препроцессоры 161 и 181 по фиг.7 и 9 могут выполнять рендеринг над сигналом понижающего смешивания в соответствии с управляющей информацией, представленной пользователем. Кроме того, препроцессоры 161 и 181 по фиг.7 и 9 могут увеличивать или уменьшать уровни сигналов объекта и изменять спектры сигналов объекта. В данном случае препроцессоры 161 и 181 по фиг.7 и 9 могут выполнять функции модуля ADG.The preprocessors 161 and 181 of FIGS. 7 and 9 may render the downmix signal in accordance with the control information provided by the user. In addition, the preprocessors 161 and 181 of FIGS. 7 and 9 can increase or decrease the signal levels of the object and change the signal spectra of the object. In this case, the preprocessors 161 and 181 of FIGS. 7 and 9 can perform the functions of an ADG module.

Рендеринг сигнала объекта в соответствии с информацией о направлении сигнала объекта, регулировка уровня сигнала объекта и изменение спектра сигнала объекта могут выполняться одновременно. Кроме того, некоторые из рендеринга сигнала объекта в соответствии с информацией о направлении сигнала объекта, регулировки уровня сигнала объекта и изменения спектра сигнала объекта могут выполняться посредством использования препроцессоров 161 или 181, и то, что из рендеринга сигнала объекта в соответствии с информацией о направлении сигнала объекта, регулировки уровня сигнала объекта и изменения спектра сигнала объекта не выполняется препроцессором 161 или 181, может выполняться посредством использования модуля ADG. Например, неэффективно изменять спектр сигнала объекта посредством использования модуля ADG, который использует интервал уровня квантования и интервал полосы параметров. В данном случае препроцессор 161 или 181 может использоваться для точного изменения спектра сигнала объекта на почастотной основе, и модуль ADG может использоваться для регулировки уровня сигнала объекта.Rendering of the signal of the object in accordance with information about the direction of the signal of the object, adjusting the signal level of the object and changing the spectrum of the signal of the object can be performed simultaneously. In addition, some of the rendering of the signal of the object in accordance with information about the direction of the signal of the object, adjusting the signal level of the object and changing the spectrum of the signal of the object can be performed using preprocessors 161 or 181, and that of rendering the signal of the object in accordance with information about the signal direction object, adjusting the signal level of the object and changing the spectrum of the signal of the object is not performed by the preprocessor 161 or 181, can be performed by using the ADG module. For example, it is inefficient to change the spectrum of an object signal by using an ADG module that uses a quantization level interval and a parameter band interval. In this case, the preprocessor 161 or 181 can be used to accurately change the spectrum of the object signal on a frequency basis, and the ADG module can be used to adjust the signal level of the object.

Фиг.10 иллюстрирует блок-схему устройства декодирования аудио согласно восьмому варианту осуществления настоящего изобретения. Как показано на фиг.10, устройство 200 декодирования аудио включает в себя генератор 201 матрицы рендеринга, транскодер 203, многоканальный декодер 205, препроцессор 207, процессор 208 эффектов и сумматор 209.10 illustrates a block diagram of an audio decoding apparatus according to an eighth embodiment of the present invention. As shown in FIG. 10, the audio decoding apparatus 200 includes a rendering matrix generator 201, a transcoder 203, a multi-channel decoder 205, a preprocessor 207, an effects processor 208, and an adder 209.

Генератор 201 матрицы рендеринга генерирует матрицу рендеринга, которая представляет информацию о положении объекта, касающуюся положений сигналов объекта, и информацию о конфигурировании проигрывания, касающуюся уровней сигналов объекта, и предоставляет матрицу рендеринга на транскодер 203. Генератор 201 матрицы рендеринга генерирует трехмерную информацию, такую как коэффициент HRTF, основанную на информации о положении объекта. HRTF представляет собой передаточную функцию, которая описывает передачу звуковых волн между источником звука в произвольном положении и барабанной перепонки, и возвращает значение, которое изменяется в соответствии с направлением и высотой источника звука. Если сигнал без направленности фильтруется с использованием HRTF, сигнал может быть слышен, как если бы он воспроизводился с некоторого направления.The rendering matrix generator 201 generates a rendering matrix that represents object position information regarding the signal positions of the object and playback configuration information regarding the signal levels of the object and provides a rendering matrix to transcoder 203. The rendering matrix generator 201 generates three-dimensional information, such as a coefficient HRTF based on position information. HRTF is a transfer function that describes the transmission of sound waves between a sound source in an arbitrary position and the eardrum, and returns a value that changes in accordance with the direction and height of the sound source. If a signal with no directivity is filtered using HRTF, the signal can be heard as if it were being played from some direction.

Информация о положении объекта и информация о конфигурировании проигрывания, которая принимается генератором 201 матрицы рендеринга, может изменяться во времени и может предоставляться конечным пользователем.Information about the position of the object and information about the configuration of the playback, which is received by the generator 201 of the rendering matrix, can vary in time and can be provided by the end user.

Транскодер 203 генерирует канало-базированную дополнительную информацию, основанную на объектно-базированной дополнительной информации, матрице рендеринга и трехмерной информации, и предоставляет многоканальному декодеру 209 канало-базированную дополнительную информацию и трехмерную информацию, необходимые для многоканального декодера 209. Т.е. транскодер 203 передает канало-базированную дополнительную информацию, касающуюся М каналов, которая получается из информации об объектно-базированных параметрах, касающейся N сигналов объекта, и трехмерную информацию каждого из N сигналов объекта на многоканальный декодер 205.Transcoder 203 generates channel-based additional information based on object-based additional information, a rendering matrix, and three-dimensional information, and provides multi-channel decoder 209 with channel-based additional information and three-dimensional information necessary for multi-channel decoder 209. That is, transcoder 203 transmits channel-based additional information regarding M channels, which is obtained from information about object-based parameters regarding N object signals and three-dimensional information of each of N object signals to multi-channel decoder 205.

Многоканальный декодер 205 генерирует многоканальный аудиосигнал, основанный на сигнале понижающего смешивания и канало-базированной дополнительной информации, предусмотренной транскодером 203, и выполняет трехмерный рендеринг многоканального аудиосигнала в соответствии с трехмерной информацией, таким образом генерируя трехмерный многоканальный сигнал. Генератор 201 матрицы рендеринга может включать в себя базу данных трехмерной информации (не показана).The multi-channel decoder 205 generates a multi-channel audio signal based on the down-mix signal and channel-based additional information provided by the transcoder 203, and performs three-dimensional rendering of the multi-channel audio signal in accordance with the three-dimensional information, thereby generating a three-dimensional multi-channel signal. The rendering matrix generator 201 may include a database of three-dimensional information (not shown).

Если есть необходимость в предварительной обработке сигнала понижающего смешивания перед вводом сигнала понижающего смешивания в многоканальный декодер 205, транскодер 203 передает информацию, касающуюся предварительной обработки, на препроцессор 207. Объектно-базированная дополнительная информация включает в себя информацию, касающуюся всех сигналов объекта, и матрица рендеринга включает в себя информацию о положении объекта и информацию о конфигурировании проигрывания. Транскодер 203 может генерировать канало-базированную дополнительную информацию, основанную на объектно-базированной дополнительной информации и матрице рендеринга, и затем генерирует канало-базированную дополнительную информацию, необходимую для смешивания и воспроизведения сигналов объекта в соответствии с информацией о канале. После этого транскодер 203 передает канало-базированную дополнительную информацию на многоканальный декодер 205.If there is a need for preprocessing the downmix signal before inputting the downmix signal to multi-channel decoder 205, transcoder 203 transmits information regarding the preprocessing to preprocessor 207. Object-based additional information includes information regarding all the signals of the object and a rendering matrix includes information about the position of the object and information about configuring playback. Transcoder 203 may generate channel-based additional information based on object-based additional information and a rendering matrix, and then generates channel-based additional information necessary for mixing and reproducing object signals in accordance with the channel information. After that, the transcoder 203 transmits the channel-based additional information to the multi-channel decoder 205.

Канало-базированная дополнительная информация и трехмерная информация, представленная транскодером 205, могут включать в себя индексы кадра. Таким образом, многоканальный декодер 205 может синхронизировать канало-базированную дополнительную информацию и трехмерную информацию посредством использования индексов кадра и, таким образом, может иметь возможность применять трехмерную информацию только к некоторым кадрам битового потока. Кроме того, даже если трехмерная информация обновляется, можно легко синхронизировать канало-базированную дополнительную информацию и обновленную трехмерную информацию посредством использования индексов кадра. Т.е. индексы кадра могут включаться в канало-базированную дополнительную информацию и трехмерную информацию, соответственно, чтобы многоканальный декодер 205 синхронизировал канало-базированную дополнительную информацию и трехмерную информацию.The channel-based supplemental information and three-dimensional information represented by transcoder 205 may include frame indices. Thus, the multi-channel decoder 205 can synchronize the channel-based additional information and three-dimensional information by using frame indices and, thus, may be able to apply three-dimensional information only to certain frames of the bitstream. In addition, even if the three-dimensional information is updated, it is possible to easily synchronize the channel-based additional information and the updated three-dimensional information by using frame indices. Those. frame indices may be included in the channel-based additional information and three-dimensional information, respectively, so that the multi-channel decoder 205 synchronizes the channel-based additional information and three-dimensional information.

Препроцессор 207 может выполнять предварительную обработку введенного сигнала понижающего смешивания, если необходимо, перед тем как введенный сигнал понижающего смешивания будет введен в многоканальный декодер 205. Как описано выше, если введенный сигнал понижающего смешивания представляет собой стереофонический сигнал и существует необходимость проигрывания сигнала объекта, принадлежащего левому каналу из правого канала, сигнал понижающего смешивания может подвергаться предварительной обработке, выполняемой препроцессором 207 перед вводом в многоканальный декодер 205, так как многоканальный декодер 205 не может переместить сигнал объекта из одного канала в другой. Информация, необходимая для предварительной обработки входного сигнала понижающего смешивания, может предоставляться на препроцессор 207 транскодером 205. Сигнал понижающего смешивания, полученный при помощи предварительной обработки, выполняемой препроцессором 207, может передаваться на многоканальный декодер 205.The preprocessor 207 may pre-process the input downmix signal, if necessary, before the input downmix signal is input to the multi-channel decoder 205. As described above, if the input downmix signal is a stereo signal and there is a need to play the signal of the object belonging to the left channel from the right channel, the downmix signal can be pre-processed by preprocessor 207 per d input to the multichannel decoder 205 because the multichannel decoder 205 can not move an object signal from one channel to another. The information necessary for preprocessing the input down-mix signal may be provided to preprocessor 207 by transcoder 205. The down-mix signal obtained by preprocessing performed by preprocessor 207 may be transmitted to multi-channel decoder 205.

Процессор 208 эффектов и сумматор 209 могут непосредственно применять дополнительный эффект к сигналу понижающего смешивания или добавлять сигнал понижающего смешивания, в котором эффект уже был применен, к выходному сигналу многоканального декодера 205. Процессор 208 эффектов может изменять спектр объекта или модифицировать сигнал понижающего смешивания, когда необходимо. Если не является подходящим непосредственное выполнение операции обработки эффекта, такой как реверберация, над сигналом понижающего смешивания и передача сигнала, полученного операцией обработки эффекта, на многоканальный декодер 205, процессор 208 эффектов может просто добавить сигнал, полученный операцией обработки эффекта, к выходному сигналу многоканального декодера 205 вместо непосредственного выполнения обработки эффекта над сигналом понижающего смешивания и передачи результата обработки эффекта на многоканальный декодер 205.The effects processor 208 and the adder 209 can directly apply an additional effect to the downmix signal or add a downmix signal in which the effect has already been applied to the output of the multi-channel decoder 205. The effects processor 208 can modify the spectrum of the object or modify the downmix signal when necessary . If it is not suitable to directly perform an effect processing operation, such as reverb, on the downmix signal and transmit the signal obtained by the effect processing operation to the multi-channel decoder 205, the effect processor 208 can simply add the signal obtained by the effect processing operation to the output signal of the multi-channel decoder 205 instead of directly performing the effect processing on the downmix signal and transmitting the result of the effect processing to the multi-channel decoder 205.

Ниже в данном документе подробно описывается матрица рендеринга, генерируемая генератором 201 матрицы рендеринга.Below, this document describes in detail the rendering matrix generated by the rendering matrix generator 201.

Матрица рендеринга представляет собой матрицу, которая представляет положения и конфигурирование проигрывания сигналов объекта. Т.е. если имеется N сигналов объекта и М каналов, то матрица рендеринга может указывать, как N сигналов объекта отображаются на М каналов различным образом.The rendering matrix is a matrix that represents the position and configuration of the playback signals of the object. Those. if there are N object signals and M channels, then the rendering matrix can indicate how N object signals are displayed on M channels in different ways.

Более конкретно, когда N сигналов объекта отображаются на М каналов, может быть установлена матрица рендеринга размера N×M. В данном случае матрица рендеринга включает в себя N строк, которые представляют соответственно N сигналов объекта и М столбцов, которые представляют соответственно М каналов. Каждый из М коэффициентов в каждой из N строк может представлять собой действительное число или целое число, указывающее отношение части сигнала объекта, распределенной соответствующему каналу, ко всему сигналу объекта.More specifically, when N object signals are mapped onto M channels, an N × M size rendering matrix can be set. In this case, the rendering matrix includes N rows that represent respectively N object signals and M columns that represent M channels, respectively. Each of the M coefficients in each of the N lines may be a real number or an integer indicating the ratio of the part of the signal of the object allocated to the corresponding channel to the entire signal of the object.

Более конкретно, М коэффициентов в каждой из N строк матрицы рендеринга размера N×M могут представлять собой действительные числа. Тогда, если сумма M коэффициентов в строке матрицы рендеринга размера N×M равна предварительно определенному эталонному значению, например 1, может быть определено, что уровень сигнала объекта не изменялся. Если сумма М коэффициентов меньше 1, определяется, что уровень сигнала объекта был уменьшен. Если сумма М коэффициентов больше 1, определяется, что уровень сигнала объекта увеличился. Предварительно определенное эталонное значение может представлять собой числовое значение, отличное от 1. Величина, на которую изменяется уровень сигнала объекта, может ограничиваться диапазоном 12 дБ. Например, если предварительно определенное эталонное значение равно 1 и сумма М коэффициентов равна 1,5, то может быть определено, что уровень сигнала объекта увеличился на 12 дБ. Если предварительно определенное эталонное значение равно 1 и сумма М коэффициентов равна 0,5, то определяется, что уровень сигнала объекта уменьшился на 12 дБ. Если предварительно определенное эталонное значение равно 1 и сумма М коэффициентов равна 0,5-1,5, определяется, что сигнал объекта изменился на предварительно определенную величину от -12 дБ до +12 дБ, и предварительно определенная величина может линейно определяться в соответствии с суммой М коэффициентов.More specifically, the M coefficients in each of the N rows of an N × M size rendering matrix may be real numbers. Then, if the sum of the M coefficients in the row of the N × M rendering matrix is equal to a predetermined reference value, for example 1, it can be determined that the signal level of the object has not changed. If the sum of the M coefficients is less than 1, it is determined that the signal level of the object has been reduced. If the sum of the M coefficients is greater than 1, it is determined that the signal level of the object has increased. The predetermined reference value may be a numerical value other than 1. The amount by which the signal level of an object changes may be limited to a range of 12 dB. For example, if the predefined reference value is 1 and the sum of the M coefficients is 1.5, then it can be determined that the signal level of the object has increased by 12 dB. If the predefined reference value is 1 and the sum of the M coefficients is 0.5, then it is determined that the signal level of the object has decreased by 12 dB. If the predetermined reference value is 1 and the sum of the M coefficients is 0.5-1.5, it is determined that the object signal has changed by a predetermined value from -12 dB to +12 dB, and the predetermined value can be linearly determined in accordance with the sum M coefficients.

М коэффициенты в каждой из N строк матрицы рендеринга размера N×M могут представлять собой целые числа. Тогда, если сумма М коэффициентов в строке матрицы рендеринга размера N×M равна предварительно определенному эталонному значению, например 10, 20, 30 или 100, может быть определено, что уровень сигнала объекта не был изменен. Если сумма М коэффициентов меньше, чем предварительно определенное эталонное значение, то может быть определено, что уровень сигнала объекта не был уменьшен. Если сумма М коэффициентов больше, чем предварительно определенное эталонное значение, может быть определенно, что уровень сигнала объекта не был увеличен. Величина, на которую изменяется уровень сигнала объекта, может ограничиваться диапазоном, например, 12 дБ. Величина, на которую отличается сумма М коэффициентов от предварительно определенного эталонного значения, может представлять величину (единица измерения: дБ), на которую изменился уровень сигнала объекта. Например, если сумма М коэффициентов представляет собой сумму, которая больше, чем предварительно определенное эталонное значение, то может быть определено, что уровень сигнала объекта был увеличен на 2 дБ. Поэтому, если предварительно определенное эталонное значение равно 20 и сумма М коэффициентов равна 23, то может быть определено, что уровень сигнала объекта был увеличен на 6 дБ. Если предварительно определенное эталонное значение равно 20 и сумма М коэффициентов равна 15, то может быть определено, что уровень сигнала объекта был уменьшен на 10 дБ.The M coefficients in each of the N rows of the N × M size rendering matrix may be integers. Then, if the sum of the M coefficients in the row of the N × M rendering matrix is equal to a predetermined reference value, for example 10, 20, 30 or 100, it can be determined that the signal level of the object has not been changed. If the sum of the M coefficients is less than a predetermined reference value, it can be determined that the signal level of the object has not been reduced. If the sum of the M coefficients is greater than the predetermined reference value, it can be determined that the signal level of the object has not been increased. The amount by which the signal level of the object changes may be limited to a range of, for example, 12 dB. The value by which the sum of the M coefficients differs from the predetermined reference value may represent the value (unit: dB) by which the signal level of the object has changed. For example, if the sum of the M coefficients is a sum that is larger than a predetermined reference value, then it can be determined that the signal level of the object has been increased by 2 dB. Therefore, if the predetermined reference value is 20 and the sum of the M coefficients is 23, then it can be determined that the signal level of the object has been increased by 6 dB. If the predetermined reference value is 20 and the sum of the M coefficients is 15, then it can be determined that the signal level of the object has been reduced by 10 dB.

Например, если имеется шесть сигналов объекта и пять каналов (т.е. передний левый (FL), передний правый (FR), центральный С, задний левый (RL) и задний правый (RR) каналы), может быть установлена матрица рендеринга размера 6×5, имеющая шесть строк, соответствующих соответственно шести сигналам объекта, и пять столбцов, соответствующих соответственно пяти каналам. Коэффициенты матрицы рендеринга размера 6×5 могут представлять собой целые числа, указывающие соотношение, с которым каждый из шести сигналов объекта распределяется по пяти каналам. Матрица рендеринга размера 6×5 может иметь эталонное значение 10. Таким образом, если сумма пяти коэффициентов в любой одной из шести строк матрицы рендеринга размера 6×5 равна 10, то может быть определено, что уровень соответствующего сигнала объекта не изменился. Величина, на которую сумма пяти коэффициентов в любой одной из шести строк матрицы рендеринга размера 6×5 отличается от эталонного значения, представляет величину, на которую изменился уровень соответствующего сигнала объекта. Например, если сумма пяти коэффициентов в любой одной из шести строк матрицы рендеринга размера 6×5 отличается от эталонного значения на 1, то может быть определено, что уровень соответствующего сигнала объекта изменился на 2 дБ. Матрица рендеринга размера 6×5 может быть представлена уравнением (1):For example, if there are six object signals and five channels (i.e., front left (FL), front right (FR), center C, rear left (RL) and rear right (RR) channels), a size rendering matrix can be set 6 × 5, having six rows corresponding respectively to six signals of the object, and five columns corresponding respectively to five channels. The coefficients of a 6 × 5 rendering matrix can be integers indicating the ratio with which each of the six object signals is distributed across five channels. A 6 × 5 rendering matrix may have a reference value of 10. Thus, if the sum of the five coefficients in any one of the six rows of a 6 × 5 rendering matrix is 10, then it can be determined that the level of the corresponding object signal has not changed. The value by which the sum of the five coefficients in any one of the six rows of the 6 × 5 rendering matrix differs from the reference value, represents the amount by which the level of the corresponding signal of the object has changed. For example, if the sum of the five coefficients in any one of the six rows of a 6 × 5 rendering matrix differs from the reference value by 1, then it can be determined that the level of the corresponding signal of the object has changed by 2 dB. A 6 × 5 rendering matrix can be represented by equation (1):

[Уравнение 1][Equation 1]

Figure 00000001
Figure 00000001

Ссылаясь на матрицу рендеринга размера 6×5 уравнения (1), первая строка соответствует первому сигналу объекта и представляет соотношение, с которым первый сигнал объекта распределяется по FL-, FR-, C-, RL- и RR-каналам. Так как первый коэффициент первой строки имеет наибольше целочисленное значение 3 и сумма коэффициентов первой строки равна 10, то определяется, что первый сигнал объекта распределяется, главным образом, на FL-канал и что уровень первого сигнала объекта не изменился. Так как второй коэффициент второй строки, которая соответствует второму сигналу объекта, имеет наибольшее целочисленное значение 4 и сумма коэффициентов второй строки равна 12, то определяется, что второй сигнал объекта распределяется, главным образом, на FR-канал и что уровень второго сигнала объекта был увеличен на 4 дБ. Так как третий коэффициент третьей строки, которая соответствует третьему сигналу объекта, имеет наибольшее целочисленное значение 12 и сумма коэффициентов третьей строки равна 12, то определяется, что третий сигнал объекта распределяется только на C-канал и что уровень третьего сигнала объекта был увеличен на 4 дБ. Так как все коэффициенты пятой строки, которая соответствует пятому сигналу, имеет одинаковое целочисленное значение 2, и сумма коэффициентов пятой строки равна 10, то определяется, что пятый сигнал объекта равномерно распределяется по FL-, FR-, C-, RL- и RR-каналам и что уровень пятого сигнала объекта не изменился.Referring to the 6 × 5 rendering matrix of equation (1), the first row corresponds to the first signal of the object and represents the ratio with which the first signal of the object is distributed over the FL-, FR-, C-, RL- and RR-channels. Since the first coefficient of the first line has the largest integer value of 3 and the sum of the coefficients of the first line is 10, it is determined that the first signal of the object is distributed mainly to the FL channel and that the level of the first signal of the object has not changed. Since the second coefficient of the second line, which corresponds to the second signal of the object, has the largest integer value of 4 and the sum of the coefficients of the second line is 12, it is determined that the second signal of the object is distributed mainly on the FR channel and that the level of the second signal of the object has been increased 4 dB. Since the third coefficient of the third line, which corresponds to the third signal of the object, has the largest integer value of 12 and the sum of the coefficients of the third line is 12, it is determined that the third signal of the object is distributed only on the C-channel and that the level of the third signal of the object was increased by 4 dB . Since all the coefficients of the fifth row, which corresponds to the fifth signal, have the same integer value 2, and the sum of the coefficients of the fifth row is 10, it is determined that the fifth signal of the object is evenly distributed over FL-, FR-, C-, RL- and RR- channels and that the level of the fifth signal of the object has not changed.

Альтернативно, когда N сигналов объекта отображаются на М каналов, может быть установлена матрица рендеринга размера N×(M+1). Матрица рендеринга размера N×(M+1) очень подобна матрице рендеринга размера N×M. Более конкретно, в матрице рендеринга размера N×(M+1), подобно матрице рендеринга размера N×M, коэффициенты с первого по М-й в каждой из N строк представляют соотношение, с которым соответствующий сигнал объекта распределяется по FL-, FR-, C-, RL- и RR-каналам. Однако матрица рендеринга размера N×(M+1), в отличие от матрицы рендеринга размера N×M, имеет дополнительный столбец (т.е. (М+1)-й столбец) для представления уровней сигналов объекта.Alternatively, when N object signals are mapped onto M channels, an N × (M + 1) size rendering matrix can be set. The N × (M + 1) size rendering matrix is very similar to the N × M size rendering matrix. More specifically, in an N × (M + 1) size rendering matrix, like the N × M size rendering matrix, the first through Mth coefficients in each of the N rows represent the ratio with which the corresponding object signal is distributed across FL-, FR- , C, RL and RR channels. However, an N × (M + 1) size rendering matrix, unlike an N × M size rendering matrix, has an additional column (i.e., the (M + 1) th column) to represent the signal levels of the object.

Матрица рендеринга размера N×(M+1), в отличие от матрицы рендеринга размера N×M, указывает, как сигнал объекта распределяется по М каналам и изменился ли отдельно уровень сигнала объекта. Таким образом, посредством использования матрицы рендеринга размера N×(M+1) можно легко получить информацию, касающуюся изменения, если есть какие-либо, уровня сигнала объекта без необходимости дополнительных вычислений. Так как матрица рендеринга размера N×(M+1) представляет собой почти то же самое, что и матрица рендеринга размера N×M, матрица рендеринга размера N×(M+1) легко может быть преобразована в матрицу рендеринга размера N×M, или наоборот, без необходимости дополнительной информации.The N × (M + 1) size rendering matrix, unlike the N × M rendering matrix, indicates how the object signal is distributed across the M channels and whether the object signal level has changed individually. Thus, by using an N × (M + 1) size rendering matrix, it is easy to obtain information regarding the change, if any, of the signal level of an object without the need for additional calculations. Since the N × (M + 1) size rendering matrix is almost the same as the N × M rendering matrix, the N × (M + 1) size rendering matrix can easily be converted to an N × M rendering matrix, or vice versa, without the need for additional information.

Также альтернативно, когда N сигналов объекта отображаются на М каналов, может быть установлена матрица рендеринга размера N×2. Матрица рендеринга размера N×2 имеет первый столбец, указывающий угловые положения сигналов объекта, и второй столбец, указывающий изменение, если есть какие-либо, уровня каждого сигнала объекта. Матрица рендеринга размера N×2 может представлять угловые положения сигналов объекта с регулярными интервалами в 1 или 3 градуса в диапазоне 0-360 градусов. Сигнал объекта, который равномерно распределяется по всем направлениям, может представляться предварительно определенным значением, а не углом.Alternatively, when N signals of an object are mapped onto M channels, an N × 2 size rendering matrix can be set. An N × 2 rendering matrix has a first column indicating the angular position of the object's signals, and a second column indicating the change, if any, in the level of each object's signal. An N × 2 rendering matrix can represent the angular position of the object’s signals at regular intervals of 1 or 3 degrees in the range of 0-360 degrees. An object signal that is evenly distributed in all directions can be represented by a predetermined value, rather than an angle.

Матрица рендеринга размера N×2 может быть преобразована в матрицу рендеринга размера N×3, которая может указывать не только двумерные направления сигналов объекта, но также трехмерные направления сигналов объекта. Более конкретно, второй столбец матрицы рендеринга размера N×3 может использоваться для указания трехмерных направлений сигналов объекта. Третий столбец матрицы рендеринга размера N×3 указывает изменение, если есть какие-либо, уровня каждого сигнала объекта, используя тот же способ, который используется матрицей рендеринга размера N×M. Если окончательным режимом проигрывания декодера объектов является бинауральное стерео, генератор 201 матрицы рендеринга может передавать трехмерную информацию, указывающую положение каждого сигнала объекта или индекс, соответствующий трехмерной информации. В последнем случае транскодеру 203 может необходимо иметь трехмерную информацию, соответствующую индексу, переданному генератором 201 матрицы рендеринга. Кроме того, если трехмерная информация, указывающая положение каждого сигнала объекта принимается от генератора 201 матрицы рендеринга, транскодер 203 может иметь возможность вычислять трехмерную информацию, которая может использоваться многоканальным декодером 205, основанную на принимаемой трехмерной информации, матрице рендеринга и объектно-базированной дополнительной информации.An N × 2 rendering matrix can be converted to an N × 3 rendering matrix, which can indicate not only two-dimensional directions of an object’s signals, but also three-dimensional directions of an object’s signals. More specifically, the second column of an N × 3 size rendering matrix can be used to indicate the three-dimensional directions of the object signals. The third column of the N × 3 size rendering matrix indicates the change, if any, of the level of each object signal, using the same method as that used by the N × M size rendering matrix. If the final playback mode of the object decoder is binaural stereo, the rendering matrix generator 201 may transmit three-dimensional information indicating the position of each object signal or an index corresponding to the three-dimensional information. In the latter case, the transcoder 203 may need to have three-dimensional information corresponding to the index transmitted by the rendering matrix generator 201. In addition, if three-dimensional information indicating the position of each object signal is received from the rendering matrix generator 201, the transcoder 203 may be able to calculate three-dimensional information that can be used by the multi-channel decoder 205 based on the received three-dimensional information, the rendering matrix, and object-based additional information.

Матрица рендеринга и трехмерная информация могут адаптивно изменяться в реальном времени в соответствии с модификацией, выполненной для информации о положении объекта и информации о конфигурировании проигрывания конечным пользователем. Поэтому информация, касающаяся того, обновляется ли матрица рендеринга и трехмерная информация, и обновления, если есть какие-либо, матрицы рендеринга и трехмерной информации могут передаваться на транскодер 203 с регулярными интервалами времени, например, с интервалами 0,5 с. Тогда, если обнаруживаются обновления матрицы рендеринга и трехмерной информации, транскодер 203 может выполнять линейное преобразование принятых обновлений и существующей матрицы рендеринга и существующей трехмерной информации, предполагая, что матрица рендеринга и трехмерная информация линейно изменяются во времени.The rendering matrix and three-dimensional information can adaptively change in real time in accordance with the modification made for information about the position of the object and information about the configuration of playback by the end user. Therefore, information regarding whether the rendering matrix and three-dimensional information is updated, and updates, if any, of the rendering matrix and three-dimensional information can be transmitted to transcoder 203 at regular time intervals, for example, at 0.5 s intervals. Then, if updates to the rendering matrix and three-dimensional information are detected, transcoder 203 may linearly convert the received updates and the existing rendering matrix and existing three-dimensional information, assuming that the rendering matrix and three-dimensional information linearly change in time.

Если информация о положении объекта и информация о конфигурировании проигрывания не были модифицированы конечным пользователем после передачи матрицы рендеринга и трехмерной информации на транскодер 203, информация, указывающая, что матрица рендеринга и трехмерная информация не были изменены, может передаваться на транскодер 203. С другой стороны, если информация о положении объекта и информация о конфигурировании проигрывания были модифицированы конечным пользователем после передачи матрицы рендеринга и трехмерной информации на транскодер 203, информация, указывающая, что матрица рендеринга и трехмерная информация были изменены, и обновления матрицы рендеринга и трехмерной информации могут передаваться на транскодер 203. Более конкретно, обновления матрицы рендеринга и обновления трехмерной информации могут передаваться отдельно на транскодер 203. Альтернативно, обновления матрицы рендеринга и/или обновления трехмерной информации могут совместно представляться предварительно определенным представительным значением. Тогда предварительно определенное представительное значение может передаваться на транскодер 203 вместе с информацией, указывающей, что предварительно определенное представительное значение соответствует обновлениям матрицы рендеринга или обновлениям трехмерной информации. Таким образом можно легко уведомлять транскодер 203, были ли обновлены или нет матрица рендеринга и трехмерная информация.If the position information and the playback configuration information have not been modified by the end user after transmitting the rendering matrix and three-dimensional information to transcoder 203, information indicating that the rendering matrix and three-dimensional information have not been changed can be transmitted to transcoder 203. On the other hand, if the information about the position of the object and information about the configuration of the playback were modified by the end user after transmitting the rendering matrix and three-dimensional information on the trans a encoder 203, information indicating that the rendering matrix and three-dimensional information have been changed, and updates to the rendering matrix and three-dimensional information can be transmitted to transcoder 203. More specifically, updates to the rendering matrix and updates to three-dimensional information can be transmitted separately to transcoder 203. Alternatively, matrix updates the rendering and / or updating of three-dimensional information may jointly be represented by a predetermined representative value. Then, the predetermined representative value may be transmitted to the transcoder 203 together with information indicating that the predetermined representative value corresponds to updates to the rendering matrix or updates to three-dimensional information. In this way, transcoder 203 can be easily notified if the rendering matrix and 3D information have been updated or not.

Матрица рендеринга размера N×M, подобно матрице, указанной уравнением (1), также может включать в себя дополнительный столбец для представления информации о трехмерном направлении сигналов объекта. В данном случае дополнительный столбец может представлять информацию о трехмерном направлении сигналов объекта в качестве углов в диапазоне от -90 до +90 градусов. Дополнительный столбец может обеспечиваться не только для матрицы размера N+M, но также для матрицы рендеринга размера N×(M+1) и матрицы размера N×2. Информация о трехмерном направлении сигналов объекта может быть необязательной для использования в режиме нормального декодирования многоканального декодера. Вместо этого информация о трехмерном направлении сигналов объекта может быть необходимой для использования в бинауральном режиме многоканального декодера. Информация о трехмерном направлении сигналов объекта может передаваться вместе с матрицей рендеринга. Альтернативно, информация о трехмерном направлении сигналов объекта может передаваться вместе с трехмерной информацией. Информация о трехмерном направлении сигналов объекта не оказывает влияние на канало-базированную дополнительную информацию, но оказывает влияние на трехмерную информацию во время операции декодирования бинаурального режима.An N × M size rendering matrix, like the matrix indicated by equation (1), may also include an additional column for representing information about the three-dimensional direction of the object signals. In this case, an additional column can represent information about the three-dimensional direction of the object's signals as angles in the range from -90 to +90 degrees. An additional column can be provided not only for a matrix of size N + M, but also for a matrix of rendering size N × (M + 1) and a matrix of size N × 2. Information about the three-dimensional direction of the object signals may not be necessary for use in the normal decoding mode of a multi-channel decoder. Instead, information about the three-dimensional direction of the object's signals may be necessary for use in a binaural mode of a multi-channel decoder. Information about the three-dimensional direction of the signals of the object can be transmitted together with the rendering matrix. Alternatively, information about the three-dimensional direction of the signals of the object can be transmitted together with three-dimensional information. Information about the three-dimensional direction of the object signals does not affect the channel-based additional information, but does affect the three-dimensional information during the decoding operation of the binaural mode.

Информация, касающаяся пространственных положений и уровней сигналов объекта, может обеспечиваться в качестве матрицы рендеринга. Альтернативно, информация, касающаяся пространственных положений и уровней сигналов объекта, может представляться как модификации спектра сигнала объекта, такие как усиление частей с низким тоном или частей с высоким тоном сигналов объекта. В данном случае информация, касающаяся модификаций спектра сигналов объекта, может передаваться как изменения уровня в каждой полосе параметров, которая используется в многоканальном кодеке. Если конечный пользователь управляет модификациями спектра сигналов объекта, информация, касающаяся модификаций спектра сигналов объекта, может передаваться в качестве матрицы спектра отдельно от матрицы рендеринга. Матрица спектра может иметь столько же строк, сколько имеется сигналов объекта, и иметь столько столбцов, сколько имеется параметров. Каждый коэффициент матрицы спектра указывает информацию, касающуюся регулировки уровня каждой полосы параметров.Information regarding the spatial positions and signal levels of an object may be provided as a rendering matrix. Alternatively, information regarding spatial positions and signal levels of an object may be represented as modifications to the spectrum of the signal of the object, such as amplification of low-tone parts or high-tone parts of object signals. In this case, information regarding modifications to the spectrum of the object's signals can be transmitted as level changes in each parameter band that is used in a multi-channel codec. If the end user controls the modifications of the spectrum of the signals of the object, information regarding the modifications of the spectrum of signals of the object can be transmitted as a spectrum matrix separately from the rendering matrix. The spectrum matrix can have as many rows as there are object signals, and have as many columns as there are parameters. Each spectrum matrix coefficient indicates information regarding the level adjustment of each parameter band.

Ниже в данном документе подробно описывается принцип действия транскодера 203. Транскодер 203 генерирует канало-базированную дополнительную информацию для многоканального декодера 205, основываясь на объектно-базированной дополнительной информации, информации о матрице рендеринга и трехмерной информации, и передает канало-базированную дополнительную информацию на многоканальный декодер 205. Кроме того, транскодер 203 генерирует трехмерную информацию для многоканального декодера 205 и передает трехмерную информацию на многоканальный декодер 205. Если входному сигналу понижающего смешивания необходима предварительная обработка перед вводом в многоканальный декодер 205, транскодер 203 может передавать информацию, касающуюся входного сигнала понижающего смешивания.The principle of the transcoder 203 is described in detail later in this document. Transcoder 203 generates channel-based additional information for multi-channel decoder 205 based on object-based additional information, rendering matrix information and three-dimensional information, and transmits channel-based additional information to multi-channel decoder 205. In addition, transcoder 203 generates three-dimensional information for multi-channel decoder 205 and transmits three-dimensional information to a multi-channel deco ep 205. If an input downmix signal preprocessing necessary before entering the multi-channel decoder 205, the transcoder 203 may transmit information regarding the input downmix signal.

Транскодер 203 может принимать объектно-базированную дополнительную информацию, указывающую, как множество сигналов объекта включены во входной сигнал понижающего смешивания. Объектно-базированная дополнительная информация может указывать, как множество сигналов объекта включены во входной сигнал понижающего смешивания посредством использования блока ОТТ и блока ТТТ и использования информации о CLD, ICC и CPC. Объектно-базированная дополнительная информация может обеспечивать описания различных способов, которые могут выполняться кодером объектов для указания информации, касающейся каждого из множества сигналов объекта, и может, таким образом, иметь возможность указывать, как сигналы объекта включены в дополнительную информацию.Transcoder 203 may receive object-based additional information indicating how a plurality of object signals are included in the downmix input. Object-based supplemental information may indicate how many object signals are included in the downmix input by using the OTT block and TTT block and using CLD, ICC, and CPC information. Object-based additional information may provide descriptions of various methods that may be performed by an object encoder to indicate information regarding each of the plurality of object signals, and may thus be able to indicate how object signals are included in the additional information.

В случае блока ТТТ многоканального кодека может выполняться понижающее смешивание или повышающее смешивание L-, C- и R-сигналов в L- и R-сигналы. В данном случае С-сигнал может совместно использовать немного как L-, так и R-сигналы. Однако это редко происходит в случае понижающего смешивания или повышающего смешивания сигналов объектов. Поэтому блок ОТТ широко используется для выполнения повышающего смешивания или понижающего смешивания для кодирования объекта. Даже если С-сигнал включает в себя независимую составляющую сигнала, а не части L- и R-сигналов, блок ТТТ может использоваться для выполнения повышающего смешивания или понижающего смешивания для кодирования объекта.In the case of the TTT block of a multi-channel codec, downmixing or upmixing of L-, C- and R-signals into L- and R-signals can be performed. In this case, the C-signal can share a bit of both L- and R-signals. However, this rarely happens in the case of downmixing or upmixing of object signals. Therefore, the OTT block is widely used to perform upmixing or downmixing to encode an object. Even if the C signal includes an independent component of the signal, and not parts of the L and R signals, the TTT block can be used to perform upmixing or downmixing to encode the object.

Например, если имеется шесть сигналов объекта, шесть сигналов объекта могут преобразовываться в сигнал понижающего смешивания блоком ОТТ, и информация, касающаяся каждого сигнала объекта, может быть получена посредством использования блока ОТТ, как изображено на фиг.11.For example, if there are six object signals, six object signals can be converted into a downmix signal by the OTT block, and information regarding each object signal can be obtained by using the OTT block, as shown in FIG. 11.

Как показано на фиг.11, шесть сигналов объекта могут представляться одним сигналом понижающего смешивания и информацией (такой как информация о CLD и ICC), представляемой в сумме пятью блоками 211, 213, 215, 217 и 219 ОТТ. Конструкция, изображенная на фиг.11, может быть изменена многочисленным образом. Т.е., как показано на фиг.11, первый блок 211 ОТТ может принимать два из шести сигналов объекта. Кроме того, может свободно изменяться то, каким образом иерархически соединяются блоки 211, 213, 215, 217 и 219 ОТТ. Поэтому дополнительная информация может включать в себя информацию об иерархической структуре, указывающую то, как иерархически соединяются блоки 211, 213, 215, 217 и 219 ОТТ, и информацию о положении ввода, указывающую, в какой блок ОТТ вводится каждый сигнал объекта. Если блоки 211, 213, 215, 217 и 219 ОТТ образуют произвольную древовидную структуру, способ, используемый в многоканальном кодеке для представления произвольной древовидной структуры, может использоваться для указания такой информации о иерархической структуре. Кроме того, такая информация о положении ввода может указываться многочисленным образом.As shown in FIG. 11, six object signals can be represented by a single downmix signal and information (such as CLD and ICC information) summarized by five OTT blocks 211, 213, 215, 217 and 219. The design depicted in FIG. 11 can be modified in numerous ways. That is, as shown in FIG. 11, the first OTT unit 211 can receive two of the six object signals. In addition, the way in which the OTT blocks 211, 213, 215, 217, and 219 are hierarchically connected can be freely changed. Therefore, additional information may include hierarchical structure information indicating how OTT blocks 211, 213, 215, 217 and 219 are hierarchically connected, and input position information indicating to which OTT block each signal of an object is input. If the OTT blocks 211, 213, 215, 217 and 219 form an arbitrary tree structure, the method used in the multi-channel codec to represent an arbitrary tree structure can be used to indicate such information about the hierarchical structure. In addition, such input position information may be indicated in numerous ways.

Дополнительная информация также может включать в себя информацию, касающуюся периода приглушения каждого сигнала объекта. В данном случае древовидная структура блоков 211, 213, 215, 217 и 219 ОТТ может адаптивно изменяться по времени. Например, как показано на фиг.11, когда приглушен первый сигнал OBJECT1 объекта, информация, касающаяся первого блока 211 ОТТ, не является необходимой, и только второй сигнал OBJECT2 объекта может вводиться на четвертый блок 217 ОТТ. Тогда древовидная структура блоков 211, 213, 215, 217 и 219 ОТТ может изменяться соответствующим образом. Таким образом, информация, касающаяся изменения, если есть какое-либо, в древовидной структуре блоков 211, 213, 215, 217 и 219 ОТТ может быть включена в дополнительную информацию.Additional information may also include information regarding the muting period of each object signal. In this case, the tree-like structure of OTT blocks 211, 213, 215, 217 and 219 can adaptively change in time. For example, as shown in FIG. 11, when the first object signal OBJECT1 is muted, information regarding the first OTT block 211 is not necessary, and only the second object signal OBJECT2 can be input to the fourth OTT block 217. Then the tree structure of the blocks 211, 213, 215, 217 and 219 OTT can be changed accordingly. Thus, information regarding the change, if any, in the tree structure of the OTT blocks 211, 213, 215, 217 and 219 can be included in the additional information.

Если приглушен предварительно определенный сигнал объекта, информация, указывающая, что блок ОТТ, соответствующий предварительно определенному сигналу объекта, не находится в использовании и может быть предоставлена информация, указывающая, что недоступны метки от блока ОТТ. Таким образом, можно уменьшить размер дополнительной информации посредством того, что не включается информация, касающаяся блоков ОТТ или блоков ТТТ, которые не находятся в использовании в дополнительной информации. Даже если модифицируется древовидная структура множества блоков ОТТ или ТТТ, можно легко определить, какие из блоков ОТТ или ТТТ включены или выключены, основываясь на информации, указывающей, какие сигналы объекта приглушены. Поэтому нет необходимости часто передавать информацию, касающуюся модификаций, если есть какие-либо, древовидной структуры блоков ОТТ или ТТТ. Вместо этого может передаваться информация, указывающая, какой сигнал объекта является приглушенным. Затем декодер может легко определить, какая часть древовидной структуры блоков ОТТ или ТТТ требует модифицирования. Поэтому можно минимизировать размер информации, которая необходима для передачи на декодер. Кроме того, можно легко передавать метки, касающиеся сигналов объекта, на декодер.If a predefined object signal is muted, information indicating that the OTT block corresponding to the predefined object signal is not in use and information indicating that labels from the OTT block are unavailable can be provided. Thus, it is possible to reduce the size of the additional information by not including information regarding OTT blocks or TTT blocks that are not in use in the additional information. Even if the tree structure of the multiple OTT or TTT blocks is modified, it can be easily determined which of the OTT or TTT blocks are turned on or off based on information indicating which signals of the object are muted. Therefore, it is not necessary to often transmit information regarding modifications, if any, of the tree structure of OTT or TTT blocks. Instead, information may be transmitted indicating which signal of the object is muted. The decoder can then easily determine which part of the tree structure of the OTT or TTT blocks needs to be modified. Therefore, it is possible to minimize the size of the information that is necessary for transmission to the decoder. In addition, labels relating to object signals can be easily transmitted to a decoder.

Фиг.12 иллюстрирует схему для объяснения того, как множество сигналов объекта включается в сигнал понижающего смешивания. В варианте осуществления по фиг.11 структура блоков ОТТ многоканального кодирования принимается в том виде, в каком она есть. Однако в варианте осуществления по фиг.12 используется изменение структуры блоков ОТТ многоканального кодирования. Т.е., ссылаясь на фиг.12, множество сигналов объекта вводится в каждый блок, и в конце генерируется только один сигнал понижающего смешивания. Как показано на фиг.12, информация, касающаяся каждого из множества сигналов объекта, может представляться отношением уровня энергии каждого сигнала объекта к уровню полной энергии сигналов объекта. Однако, когда количество сигналов объекта увеличивается, отношение уровня энергии каждого сигнала объекта к уровню полной энергии сигналов объекта уменьшается. Чтобы решить этот вопрос, выполняется поиск одного из множества сигналов объекта (ниже в данном документе упоминаемый как сигнал объекта с наибольшей энергией), имеющего наибольший уровень энергии в предварительно определенной полосе параметров, и отношения уровней энергии других сигналов объекта (ниже в данном документе упоминаемых как сигналы объекта с ненаибольшей энергией) к уровню энергии сигнала объекта с наибольшей энергией могут обеспечиваться в качестве информации, касающейся каждого из сигналов объекта. В данном случае, если дана информация, указывающая сигнал объекта с наибольшей энергией и абсолютное значение уровня энергии сигнала объекта с наибольшей энергией, то легко могут быть определены уровни энергии других сигналов объекта с ненаибольшей энергией.12 illustrates a diagram for explaining how a plurality of object signals are included in a downmix signal. In the embodiment of FIG. 11, the structure of the multi-channel encoding OTT blocks is adopted as it is. However, in the embodiment of FIG. 12, a change in the structure of the OTT blocks of multi-channel coding is used. That is, referring to FIG. 12, a plurality of object signals are input into each block, and at the end only one downmix signal is generated. As shown in FIG. 12, information regarding each of the plurality of object signals may be represented by the ratio of the energy level of each object signal to the total energy level of the object signals. However, when the number of object signals increases, the ratio of the energy level of each object signal to the total energy level of the object signals decreases. To solve this problem, a search is made for one of the many signals of the object (hereinafter referred to as the signal of the object with the highest energy) that has the highest energy level in a predetermined band of parameters, and the ratio of the energy levels of other signals of the object (hereinafter referred to as signals of the object with the least energy) to the energy level of the signal of the object with the highest energy can be provided as information regarding each of the signals of the object. In this case, if information is given indicating the signal of the object with the highest energy and the absolute value of the energy level of the signal of the object with the highest energy, then the energy levels of other signals of the object with the lowest energy can be easily determined.

Уровень энергии сигнала объекта с наибольшей энергией необходим для объединения множества битовых потоков в единственный битовый поток, как выполняется в устройстве управления многосторонней связью (MCU). Однако в большинстве случаев уровень энергии сигнала объекта с наибольшей энергией не является обязательным, так как абсолютное значение уровня энергии сигнала объекта с наибольшей энергией легко может быть получено из отношений уровней энергии других сигналов объекта с ненаибольшей энергией к уровню энергии сигнала объекта с наибольшей энергией.The energy level of the signal of the object with the highest energy is needed to combine multiple bit streams into a single bit stream, as is done in a multi-communication control device (MCU). However, in most cases, the energy level of the signal of the object with the highest energy is not necessary, since the absolute value of the energy level of the signal of the object with the highest energy can easily be obtained from the ratios of the energy levels of other signals of the object with the lowest energy to the energy level of the signal of the object with the highest energy.

Например, предположим, что имеется четыре сигнала А, В, С и D объекта, принадлежащие предварительно определенной полосе параметров, и что сигнал А объекта представляет собой сигнал объекта с наибольшей энергией. Тогда энергия ЕР предварительно определенной полосы параметров и абсолютное значение ЕА уровня энергии сигнала А объекта удовлетворяют уравнению (2):For example, suppose that there are four object signals A, B, C, and D that belong to a predefined parameter strip, and that the object signal A is the signal of the object with the highest energy. Then the energy E P of a predetermined band of parameters and the absolute value E A of the energy level of the signal A of the object satisfy equation (2):

[Уравнение 2][Equation 2]

Figure 00000002
Figure 00000002

где a, b и c соответственно указывают отношения уровня энергии сигналов B, C и D объекта к уровню энергии сигнала объекта. Ссылаясь на уравнение (2), можно вычислить абсолютное значение ЕА уровня энергии сигнала А объекта на основе отношений a, b и c и энергии ЕР предварительно определенной полосы параметров. Поэтому, если нет необходимости объединять множество битовых потоков в единственный битовый поток с использованием MCU, то может быть не требуется включать в битовый поток абсолютное значение ЕА уровня энергии сигнала А объекта. Информация, указывающая, включено ли абсолютное значение ЕА уровня энергии сигнала А объекта в битовый поток, может включаться в заголовок битового потока, таким образом уменьшая размер битового потока.where a, b and c respectively indicate the ratio of the energy level of the signals B, C and D of the object to the energy level of the signal of the object. Referring to equation (2), it is possible to calculate the absolute value E A of the energy level of the signal A of the object based on the ratios a, b and c and energy E P of a predetermined parameter band. Therefore, if it is not necessary to combine multiple bit streams into a single bit stream using the MCU, then it may not be necessary to include in the bit stream the absolute value E A of the energy level of signal A of the object. Information indicating whether the absolute value E A of the energy level of signal A of the object is included in the bitstream can be included in the header of the bitstream, thereby reducing the size of the bitstream.

С другой стороны, если есть необходимость объединения множества битовых потоков в единственный битовый поток с использованием MCU, необходим уровень энергии сигнала объекта с наибольшей энергией. В данном случае сумма уровней энергии, вычисленная на основе отношений уровней энергии сигналов объекта с ненаибольшей энергией к уровню энергии сигнала объекта с наибольшей энергией, может не быть такой же, что и уровень энергии сигнала понижающего смешивания, полученного посредством понижающего смешивания всех сигналов объекта. Например, когда уровень энергии сигнала понижающего смешивания равен 100, сумма вычисленных уровней энергии может быть равна 98 или 103, например, из-за ошибок, вызванных во время операций квантования и деквантования. Чтобы решить этот вопрос, разность между уровнем энергии сигнала понижающего смешивания и суммой вычисленных уровней энергии может соответствующим образом компенсироваться посредством умножения каждого вычисленного уровня энергии на предварительно определенный коэффициент. Если уровень энергии сигнала понижающего смешивания равен Х и сумма вычисленных уровней энергии равна Y, каждый вычисленный уровень энергии может умножаться на X/Y. Если разность между уровнем энергии сигнала понижающего смешивания и суммой вычисленных уровней энергии не компенсируется, такие ошибки квантования могут включаться в полосы параметров и кадры, таким образом вызывая искажения сигнала.On the other hand, if there is a need to combine multiple bit streams into a single bit stream using the MCU, the energy level of the object signal with the highest energy is needed. In this case, the sum of the energy levels calculated on the basis of the ratio of the energy levels of the signals of the object with the least energy to the energy level of the signal of the object with the highest energy may not be the same as the energy level of the downmix signal obtained by downmixing all the signals of the object. For example, when the energy level of the down-mix signal is 100, the sum of the calculated energy levels may be 98 or 103, for example, due to errors caused during the quantization and dequantization operations. To solve this issue, the difference between the energy level of the downmix signal and the sum of the calculated energy levels can be appropriately compensated by multiplying each calculated energy level by a predetermined coefficient. If the energy level of the downmix signal is X and the sum of the calculated energy levels is Y, each calculated energy level can be multiplied by X / Y. If the difference between the energy level of the down-mix signal and the sum of the calculated energy levels is not compensated, such quantization errors can be included in the parameter bands and frames, thereby causing signal distortion.

Поэтому является необходимой информация, указывающая, какой из множества сигналов объекта имеет наибольшее абсолютное значение энергии в предварительной определенной полосе параметров. Такая информация может представляться некоторым количеством битов. Количество битов, необходимых для указания, какой из множества сигналов объекта имеет наибольшее абсолютное значение энергии в предварительно определенной полосе параметров, изменяется в соответствии с количеством сигналов объекта. Когда увеличивается количество сигналов объекта, увеличивается количество битов, необходимых для указания, какой из множества сигналов объекта имеет наибольшее абсолютное значение энергии в предварительно определенной полосе параметров. С другой стороны, когда уменьшается количество сигналов объекта, уменьшается количество битов, необходимых для указания, какой из множества сигналов объекта имеет наибольшее абсолютное значение энергии в предварительно определенной полосе параметров. Предварительно определенное количество битов может распределяться заранее для указания, какой из множества сигналов объекта имеет наибольшее абсолютное значение энергии в предварительно определенной полосе параметров. Альтернативно, количество битов для указания, какой из множества сигналов объекта имеет наибольшее абсолютное значение энергии в предварительно определенной полосе параметров, может определяться на основе определенной информации.Therefore, information is needed indicating which of the plurality of object signals has the largest absolute energy value in a predetermined parameter band. Such information may be represented by a number of bits. The number of bits required to indicate which of the plurality of object signals has the largest absolute energy value in a predetermined parameter band varies according to the number of object signals. When the number of object signals increases, the number of bits needed to indicate which of the plurality of object signals has the largest absolute energy value in a predetermined parameter band increases. On the other hand, when the number of object signals decreases, the number of bits necessary to indicate which of the plurality of object signals has the largest absolute energy value in a predetermined parameter band decreases. A predetermined number of bits can be distributed in advance to indicate which of the plurality of object signals has the largest absolute energy value in a predetermined parameter band. Alternatively, the number of bits for indicating which of the plurality of object signals has the largest absolute energy value in a predetermined parameter band may be determined based on certain information.

Размер информации, указывающей, какой из множества сигналов объекта имеет наибольшее абсолютное значение энергии в каждой полосе параметров, может уменьшаться посредством использования этого же способа, используемого для уменьшения размера информации о CLD, ICC и CPC для использования в блоках ОТТ и/или ТТТ многоканального кодека, например, посредством использования временно-дифференциального способа, частотно-дифференциального способа или способа кодирования пилот-сигнала.The size of information indicating which of the plurality of object signals has the largest absolute energy value in each parameter band can be reduced by using the same method used to reduce the size of CLD, ICC and CPC information for use in the OTT and / or TTT blocks of a multi-channel codec for example, by using a time-differential method, a frequency-differential method, or a pilot coding method.

Чтобы указать, какой из множества сигналов объекта имеет наибольшее абсолютное значение энергии в каждой полосе параметров, может использоваться оптимизированная таблица Хаффмана. В данном случае может потребоваться информация, указывающая, в каком порядке уровни энергии сигналов объекта сравниваются с уровнем энергии того сигнала объекта, который имеет наибольшую абсолютную энергию. Например, если имеется пять сигналов объекта (т.е. первый-пятый сигналы объекта) и третий сигнал объекта является сигналом объекта с наибольшей энергией, может обеспечиваться информация, касающаяся третьего сигнала объекта. Тогда отношения уровней энергии первого, второго, четвертого и пятого сигналов объекта к уровню энергии третьего сигнала объекта могут обеспечиваться различным образом, и это ниже в данном документе описывается более подробно.To indicate which of the plurality of object signals has the largest absolute energy value in each parameter band, an optimized Huffman table can be used. In this case, information may be required indicating in which order the energy levels of the signals of the object are compared with the energy level of that signal of the object that has the highest absolute energy. For example, if there are five object signals (i.e., the first to fifth object signals) and the third object signal is the object signal with the highest energy, information regarding the third object signal can be provided. Then the ratio of the energy levels of the first, second, fourth and fifth signals of the object to the energy level of the third signal of the object can be provided in various ways, and this is described in more detail later in this document.

Отношения уровней энергии первого, второго, четвертого и пятого сигналов объекта к уровню энергии третьего сигнала объекта могут обеспечиваться последовательно. Альтернативно, отношения уровней энергии четвертого, пятого, первого и второго сигналов объекта к уровню энергии третьего сигнала объекта могут последовательно обеспечиваться циклическим образом. Тогда информация, указывающая порядок, в котором обеспечиваются отношения уровней энергии первого, второго, четвертого и пятого сигналов объекта к уровню энергии третьего сигнала объекта, может включаться в заголовок файла или может передаваться с интервалами некоторого количества кадров. Многоканальный кодек может определять информацию о CLD и ICC на основе порядковых номеров блоков ОТТ. Аналогичным образом, является необходимой информация, указывающая то, как каждый сигнал объекта отображается на битовой поток.The ratio of the energy levels of the first, second, fourth and fifth signals of the object to the energy level of the third signal of the object can be provided sequentially. Alternatively, the ratio of the energy levels of the fourth, fifth, first and second signals of the object to the energy level of the third signal of the object can be sequentially provided in a cyclical manner. Then, information indicating the order in which the ratio of the energy levels of the first, second, fourth and fifth signals of the object to the energy level of the third signal of the object can be provided can be included in the file header or can be transmitted at intervals of a number of frames. A multi-channel codec can determine CLD and ICC information based on the sequence numbers of OTT blocks. Similarly, information is needed indicating how each signal of an object is mapped onto a bitstream.

В случае многоканального кодека информация, касающаяся сигналов, соответствующих каждому каналу, может идентифицироваться порядковыми номерами блоков ОТТ или ТТТ. Согласно способу объектно-базированного кодирования аудио, если имеется N сигналов объекта, то может требоваться нумерация N сигналов объекта соответствующим образом. Однако иногда необходимо, чтобы конечный пользователь управлял N сигналами объекта, используя декодер объектов. В данном случае конечному пользователю могут потребоваться не только порядковые номера N сигналов объекта, но также описания N сигналов объекта, такие как описания, указывающие, что первый сигнал объекта соответствует голосу женщины и что второй сигнал объекта соответствует звуку фортепиано. Описания N сигналов объекта могут включаться в заголовок битового потока в качестве метаданных и затем передаваться вместе с битовым потоком. Более конкретно, описания N сигналов объекта могут обеспечиваться в качестве текста или могут обеспечиваться посредством использования кодовой таблицы или кодовых слов.In the case of a multi-channel codec, information regarding the signals corresponding to each channel can be identified by the sequence numbers of the OTT or TTT blocks. According to an object-based audio encoding method, if there are N object signals, then N signaling of the object signals may be required accordingly. However, it is sometimes necessary that the end user control N signals of an object using an object decoder. In this case, the end user may need not only serial numbers of N signals of the object, but also descriptions of N signals of the object, such as descriptions indicating that the first signal of the object corresponds to the voice of a woman and that the second signal of the object corresponds to the sound of a piano. Descriptions of the N signals of the object may be included in the header of the bitstream as metadata and then transmitted along with the bitstream. More specifically, descriptions of N signals of an object may be provided as text, or may be provided by using a code table or code words.

Иногда является необходимой информация о корреляции, касающаяся корреляции между сигналами объекта. Для этого может вычисляться корреляция между сигналом объекта с наибольшей энергией и другими сигналами объекта с ненаибольшей энергией. В данном случае единственное значение корреляции может назначаться для всех сигналов объекта, которое сравнимо с использованием единственного значения ICC во всех блоках ОТТ.Sometimes correlation information regarding correlation between object signals is necessary. For this, the correlation between the signal of the object with the highest energy and other signals of the object with the lowest energy can be calculated. In this case, a single correlation value can be assigned for all signals of the object, which is comparable to using a single ICC value in all OTT blocks.

Если сигналы объекта представляют собой стереофонические сигналы, являются необходимыми отношения энергии левого канала к энергии правого канала сигналов объекта и информация о ICC. Отношения энергии левого канала к энергии правого канала сигналов объекта могут вычисляться с использованием того же способа, что и используемый для вычисления уровней энергии множества сигналов объекта, основанных на абсолютном значении уровня энергии того сигнала объекта, который является сигналом объекта с наибольшей энергией, и отношениях уровней энергии других сигналов объекта с ненаибольшей энергией к уровню энергии сигнала объекта с наибольшей энергией. Например, если абсолютные значения уровней энергии левого и правого каналов сигнала объекта с наибольшей энергией равны А и В соответственно, отношение уровня энергии левого канала сигнала объекта с ненаибольшей энергией к А и отношение уровня энергии правого канала сигнала объекта с ненаибольшей энергией к В равны x и y соответственно, уровни энергии левого и правого каналов сигнала объекта с ненаибольшей энергией могут вычисляться как A*x и B*y. Таким образом может вычисляться отношение энергии левого канала к энергии правого канала стереофонического сигнала объекта.If the object signals are stereo signals, the ratio of the energy of the left channel to the energy of the right channel of the object signals and ICC information are necessary. The ratios of the energy of the left channel to the energy of the right channel of the object signals can be calculated using the same method as used to calculate the energy levels of the set of object signals based on the absolute value of the energy level of that signal of the object, which is the signal of the object with the highest energy, and level ratios energy of other signals of the object with the least energy to the energy level of the signal of the object with the highest energy. For example, if the absolute values of the energy levels of the left and right channels of the signal of the object with the highest energy are A and B, respectively, the ratio of the energy level of the left channel of the signal of the object with the lowest energy to A and the ratio of the energy level of the right channel of the signal of the object with the lowest energy to B are x and y, respectively, the energy levels of the left and right channels of the signal of the object with the least energy can be calculated as A * x and B * y. Thus, the ratio of the energy of the left channel to the energy of the right channel of the stereo signal of the object can be calculated.

Абсолютное значение уровня энергии сигнала объекта с наибольшей энергией и отношения уровней энергии других сигналов объекта с ненаибольшей энергией к уровню энергии сигнала объекта с наибольшей энергией также могут использоваться, когда сигналы объекта представляют собой монофонические сигналы, сигнал понижающего смешивания, полученный посредством монофонических сигналов объекта, представляет собой стереофонический сигнал, и монофонические сигналы объекта включаются в оба канала стереофонического сигнала понижающего смешивания. В данном случае необходимо отношение энергии части каждого монофонического сигнала объекта, включенного в левый канал стереофонического сигнала понижающего смешивания, и энергии части соответствующего монофонического сигнала объекта, включенного в правый канал стереофонического сигнала понижающего смешивания, и информация о корреляции, и оно непосредственно применяется к стереофоническим сигналам объекта. Если монофонический сигнал объекта включается в оба L- и R-канала стереофонического сигнала понижающего смешивания, составляющие L- и R-канала монофонического сигнала объекта могут иметь только разность уровней, и монофонический сигнал объекта может иметь значение корреляции 1 по всем полосам параметров. В данном случае, чтобы уменьшить количество данных, может дополнительно обеспечиваться информация, указывающая то, что монофонический сигнал объекта имеет значение корреляции 1 по всем полосам параметров. Тогда нет необходимости указывать значение корреляции 1 для каждой полосы параметров. Вместо этого значение корреляции 1 может указываться для всех полос параметров.The absolute value of the energy level of the signal of the object with the highest energy and the ratio of the energy levels of other signals of the object with the lowest energy to the energy level of the signal of the object with the highest energy can also be used when the signals of the object are monophonic signals, the down-mix signal obtained by the monophonic signals of the object represents is a stereo signal, and the monophonic signals of the subject are included in both channels of the stereo downmix signal . In this case, the ratio of the energy of the part of each monophonic signal of the object included in the left channel of the stereo downmix signal, and the energy of part of the corresponding monophonic signal of the object included in the right channel of the stereo downmix signal, and correlation information, and it is directly applied to stereo signals object. If a monophonic signal of an object is included in both the L- and R-channels of the stereo downmix signal, the components of the L- and R-channels of the monophonic signal of the object can have only a difference of levels, and the monophonic signal of the object can have a correlation value of 1 over all parameter bands. In this case, in order to reduce the amount of data, information may additionally be provided indicating that the monophonic signal of the object has a correlation value of 1 over all parameter bands. Then there is no need to indicate a correlation value of 1 for each band of parameters. Instead, a correlation value of 1 may be indicated for all parameter bands.

Во время генерирования сигнала понижающего смешивания посредством суммирования множества сигналов объекта может иметь место ограничение. Чтобы решить этот вопрос, сигнал понижающего смешивания может умножаться на предварительно определенный коэффициент усиления, так что максимальный уровень сигнала понижающего смешивания может превышать порог ограничения. Предварительно определенный коэффициент усиления может изменяться во времени. Поэтому является необходимой информация, касающаяся предварительно определенного коэффициента усиления. Если сигнал понижающего смешивания представляет собой стереофонический сигнал, различные значения коэффициента усиления могут обеспечиваться для L- и R-каналов сигнала понижающего смешивания, чтобы предотвратить ограничение. Чтобы уменьшить количество передач данных, различные значения коэффициента усиления могут не передаваться отдельно. Вместо этого может передаваться сумма различных значений коэффициента усиления и отношение различных значений коэффициента усиления. Тогда можно уменьшить динамический диапазон и уменьшить количество передач данных по сравнению со случаем передачи различных значений коэффициента усиления отдельно.During generation of the downmix signal by summing a plurality of object signals, a restriction may occur. To solve this problem, the downmix signal can be multiplied by a predetermined gain, so that the maximum level of the downmix signal can exceed the limit threshold. A predetermined gain may vary over time. Therefore, information regarding a predetermined gain is necessary. If the downmix signal is a stereo signal, different gain values may be provided for the L- and R-channels of the downmix signal to prevent clipping. To reduce the number of data transmissions, different gain values may not be transmitted separately. Instead, a sum of different gain values and a ratio of different gain values can be transmitted. Then you can reduce the dynamic range and reduce the number of data transfers compared with the case of transmitting different values of the gain separately.

Чтобы дополнительно уменьшить количество передач данных, может быть предусмотрен бит, указывающий, имело ли место ограничение во время генерирования сигнала понижающего смешивания посредством суммирования множества сигналов объекта. Тогда, если только определяется, что имело место ограничение, могут передаваться значения коэффициента усиления. Такая информация об ограничении может быть необходимой для предотвращения ограничения во время суммирования множества сигналов понижающего смешивания, чтобы объединить множество битовых потоков. Чтобы предотвратить ограничение, сумма множества сигналов понижающего смешивания может умножаться на обратное число предварительно определенного значения коэффициента усиления для предотвращения ограничения.In order to further reduce the number of data transmissions, a bit may be provided indicating whether there has been a restriction during the generation of the downmix signal by summing a plurality of object signals. Then, if it is only determined that there has been a limitation, gain values may be transmitted. Such clipping information may be necessary to prevent clipping during the summation of a plurality of downmix signals to combine a plurality of bit streams. To prevent clipping, the sum of the plurality of downmix signals can be multiplied by the inverse of a predetermined gain value to prevent clipping.

Фиг.13-16 иллюстрируют схемы для объяснения различных способов конфигурирования объектно-базированной дополнительной информации. Варианты осуществления по фиг.13-16 могут применяться не только к монофоническим или стереофоническим сигналам объекта, но также к многоканальным сигналам объекта.13-16 illustrate diagrams for explaining various methods for configuring object-based supplemental information. The embodiments of FIGS. 13-16 can be applied not only to monophonic or stereo signals of an object, but also to multi-channel signals of an object.

Как показано на фиг.13, многоканальный сигнал (OBJECT A(CH1) - OBJECT A(CHn)) объекта вводится в кодер 221 объекта. Затем кодер 221 объекта генерирует сигнал понижающего смешивания и дополнительную информацию, основанную на многоканальном сигнале (OBJECT A(CH1) - OBJECT A(CHn)) объекта. Кодер 223 объектов принимает множество сигналов OBJECT1-OBJECTn объекта и сигнал понижающего смешивания, генерируемый кодером 221 объектов, и генерирует другой сигнал понижающего смешивания и другую дополнительную формацию, основанные на сигналах OBJ.1-OBJ.N объекта и принятом сигнале понижающего смешивания. Мультиплексор 225 объединяет дополнительную информацию, генерируемую кодером 221 объектов, и дополнительную информацию, генерируемую кодером 223 объектов.As shown in FIG. 13, a multi-channel signal (OBJECT A (CH1) to OBJECT A (CHn)) of an object is input to the encoder 221 of the object. Then, the encoder 221 of the object generates a down-mix signal and additional information based on the multi-channel signal (OBJECT A (CH1) - OBJECT A (CHn)) of the object. The object encoder 223 receives a plurality of object signals OBJECT1-OBJECTn and a downmix signal generated by the object encoder 221 and generates another downmix signal and another additional formation based on the object OBJ.1-OBJ.N signals and the received downmix signal. A multiplexer 225 combines the additional information generated by the object encoder 221 and the additional information generated by the object encoder 223.

Как показано на фиг.14, кодер 233 объектов генерирует первый битовый поток, основанный на многоканальном сигнале (OBJECT A(CH1) - OBJECT A(CHn)) объекта. Затем кодер 231 объектов генерирует второй битовый поток, основанный на множестве немногоканальных сигналов OBJECT1-OBJECTn объекта. Затем кодер 235 объекта комбинирует первый и второй битовые потоки в единственный битовый поток посредством использования почти того же способа, что и используемый для объединения множества битовых потоков в единственный битовый поток при помощи MCU.As shown in FIG. 14, an object encoder 233 generates a first bitstream based on a multi-channel signal (OBJECT A (CH1) - OBJECT A (CHn)) of the object. Then, the object encoder 231 generates a second bitstream based on a plurality of multi-channel object signals OBJECT1-OBJECTn. Then, the object encoder 235 combines the first and second bitstreams into a single bitstream by using almost the same method as used to combine multiple bitstreams into a single bitstream using the MCU.

Как показано на фиг.15, многоканальный кодер 241 генерирует сигнал понижающего смешивания и канало-базированную дополнительную информацию, основанную на многоканальном сигнале (OBJECT A(CH1) - OBJECT A(CHn)) объекта. Кодер 243 объектов принимает сигнал понижающего смешивания, генерируемый многоканальным кодером 241, и множество немногоканальных сигналов OBJECT1-OBJECTn объекта и генерирует битовый поток объекта и дополнительную информацию, основанную на принятом сигнале понижающего смешивания и сигналах OBJECT1-OBJECTn объекта. Мультиплексор 245 комбинирует канало-базированную дополнительную информацию, генерируемую многоканальным кодером 241, и дополнительную информацию, генерируемую кодером 243 объектов, и выводит результат комбинирования.As shown in FIG. 15, multi-channel encoder 241 generates a down-mix signal and channel-based additional information based on a multi-channel signal (OBJECT A (CH1) to OBJECT A (CHn)) of an object. The object encoder 243 receives the down-mix signal generated by the multi-channel encoder 241 and a plurality of multi-channel object signals OBJECT1-OBJECTn and generates an object bit stream and additional information based on the received down-mix signal and the object signals OBJECT1-OBJECTn. The multiplexer 245 combines the channel-based additional information generated by the multi-channel encoder 241 and the additional information generated by the encoder 243 of the objects, and displays the result of the combination.

Как показано на фиг.16, многоканальный кодер 253 генерирует сигнал понижающего смешивания и канало-базированную дополнительную информацию, основанную на многоканальном сигнале (OBJECT A(CH1) - OBJECT A(CHn)) объекта. Кодер 251 объектов генерирует сигнал понижающего смешивания и дополнительную информацию, основанную на множестве немногоканальных сигналов объекта OBJECT1-OBJECTn. Кодер 255 объектов принимает сигнал понижающего смешивания, генерируемый многоканальным кодером 253, и сигнал понижающего смешивания, генерируемый кодером 251 объектов, и комбинирует принимаемые сигналы понижающего смешивания. Мультиплексор 257 комбинирует дополнительную информацию, генерируемую кодером 251 объектов, и канало-базированную дополнительную информацию, генерируемую многоканальным кодером 253, и выводит результат комбинирования.As shown in FIG. 16, multi-channel encoder 253 generates a down-mix signal and channel-based supplemental information based on a multi-channel signal (OBJECT A (CH1) to OBJECT A (CHn)) of an object. An object encoder 251 generates a downmix signal and additional information based on a plurality of multi-channel object signals OBJECT1-OBJECTn. The object encoder 255 receives the down-mix signal generated by the multi-channel encoder 253 and the down-mix signal generated by the object encoder 251 and combines the received down-mix signals. The multiplexer 257 combines the additional information generated by the encoder 251 objects, and channel-based additional information generated by the multi-channel encoder 253, and displays the result of the combination.

В случае использования объектно-базированного кодирования аудио в телеконференции иногда является необходимым объединять множество битовых потоков объекта в единственный битовый поток. Ниже в данном документе подробно описывается объединение множества битовых потоков объекта в единственный битовый поток объекта.When using object-based audio encoding in a teleconference, it is sometimes necessary to combine multiple object bitstreams into a single bitstream. The following describes in detail the combination of multiple object bitstreams into a single object bitstream.

Фиг.17 иллюстрирует схему для объяснения объединения двух битовых потоков объекта. Как показано на фиг.17, когда два битовых потока объекта объединяются в единственный битовый поток объекта, дополнительная информация, такая как информация о CLD и ICC, присутствующая в двух битовых потоках объекта, соответственно, должна модифицироваться. Два битовых потока объекта могут объединяться в единственный битовый поток объекта просто посредством использования дополнительного блока ОТТ, т.е. одиннадцатого блока ОТТ, и использования дополнительной информации, такой как информация о CLD и ICC, обеспечиваемой одиннадцатым блоком ОТТ.17 illustrates a diagram for explaining the combination of two object bitstreams. As shown in FIG. 17, when two object bitstreams are combined into a single object bitstream, additional information, such as CLD and ICC information present in the two object bitstreams, should accordingly be modified. Two object bitstreams can be combined into a single object bitstream simply by using an additional OTT block, i.e. of the eleventh OTT block, and the use of additional information such as information about the CLD and ICC provided by the eleventh OTT block.

Информация о древовидной конфигурации каждого из двух битовых потоков объекта должна объединяться в интегрированную информацию о древовидной конфигурации, чтобы объединить два битовых потока в единственный битовый поток объекта. Для этого может модифицироваться дополнительная конфигурационная информация, если есть какая-либо, генерируемая посредством объединения двух битовых потоков объекта, могут модифицироваться индексы некоторого количества блоков ОТТ, используемых для генерирования двух битовых потоков объекта, и могут выполняться только несколько дополнительных процессов, таких как процесс вычисления, выполняемый одиннадцатым блоком ОТТ, и понижающее смешивание двух сигналов понижающего смешивания двух битовых потоков объекта. Таким образом легко могут объединяться два битовых потока объекта в единственный битовый поток объекта без необходимости модифицирования информации, касающейся каждого из множества сигналов объекта, из которых берут начало два сигнала объекта.The tree configuration information of each of the two object bitstreams must be combined into the integrated tree configuration information in order to combine the two bitstreams into a single object bitstream. For this, additional configuration information can be modified, if there is any generated by combining two bit streams of the object, the indices of a number of OTT blocks used to generate two bit streams of the object can be modified, and only a few additional processes can be performed, such as the calculation process performed by the eleventh block of the OTT, and down-mixing of two signals down-mixing of two bit streams of the object. Thus, two object bit streams can easily be combined into a single object bit stream without the need to modify information regarding each of the plurality of object signals from which two object signals originate.

Как показано на фиг.17, одиннадцатый блок ОТТ может быть необязательным. В данном случае могут использоваться два сигнала понижающего смешивания двух битовых потоков объекта, так как они являются в качестве двухканального сигнала понижающего смешивания. Таким образом, два битовых потока объекта могут объединяться в единственный битовый поток объекта без необходимости дополнительных вычислений.As shown in FIG. 17, an eleventh OTT block may be optional. In this case, two down-mix signals of two bit streams of an object can be used, since they are a two-channel down-mix signal. Thus, two object bitstreams can be combined into a single object bitstream without the need for additional calculations.

Фиг.18 иллюстрирует схему для объяснения объединения двух или нескольких независимых битовых потоков объекта в единственный битовый поток объекта, имеющий стереофонический сигнал понижающего смешивания. Как показано на фиг.18, если два или более независимых битовых потоков объекта имеют различное количество полос параметров, отображение полос параметров может выполняться на битовые потоки объекта, так что количество полос параметров одного из битовых потоков объекта, имеющего меньшее количество полос параметров, может быть увеличено, чтобы оно было таким же, что и количество полос параметров другого битового потока объекта.FIG. 18 illustrates a diagram for explaining combining two or more independent object bitstreams into a single object bitstream having a stereo downmix signal. As shown in FIG. 18, if two or more independent object bitstreams have a different number of parameter bands, the mapping of parameter bands can be performed on the object bitstreams, so that the number of parameter bands of one of the object bitstreams having a smaller number of parameter bands can be increased so that it is the same as the number of parameter bands of another object bitstream.

Более конкретно, отображение полос параметров может выполняться с использованием предварительно определенной таблицы отображения. В данном случае отображение полос параметров может выполняться с использованием простой линейной формулы.More specifically, the mapping of parameter bands may be performed using a predetermined mapping table. In this case, the display of the parameter bands can be performed using a simple linear formula.

Если имеются перекрывающиеся полосы параметров, значения параметров могут смешиваться соответствующим образом, принимая во внимание величину, на которую перекрывающиеся полосы параметров перекрывают друг друга. В тех ситуациях, когда отдается предпочтение малой сложности, отображение полос параметров может выполняться на два битовых потока объекта, так что количество полос параметров одного из двух битовых потоков объекта, имеющего больше полос параметров, может уменьшаться так, чтобы оно было таким же, что и количество полос параметров другого битового потока объекта.If there are overlapping parameter bands, the parameter values can be mixed accordingly, taking into account the amount by which the overlapping parameter bands overlap. In those situations where preference is given to low complexity, the mapping of parameter bands can be performed on two object bit streams, so that the number of parameter bands of one of the two bit streams of an object having more parameter bands can be reduced so that it is the same as the number of parameter bands of another object bitstream.

В вариантах осуществления по фиг.17 и 18 два или более независимых битовых потока объекта могут объединяться в интегрированный битовый поток объекта без необходимости вычисления существующих параметров независимых битовых потоков объекта. Однако в случае объединения множества сигналов понижающего смешивания параметры, касающиеся сигналов понижающего смешивания, могут требовать вычисления снова при помощи квадратурного зеркального фильтра (QMF)/гибридного анализа. Однако это вычисление требует большого количества вычислений, таким образом компрометируя преимущества вариантов осуществления по фиг.17 и 18. Поэтому необходимо предложить способы извлечения параметров без необходимости QMF/гибридного анализа или синтеза, даже когда выполняется понижающее смешивание сигналов понижающего смешивания. Для этого информация об энергии, касающаяся энергии каждой полосы параметров каждого сигнала понижающего смешивания, может включаться в битовый поток объекта. Тогда, когда выполняется понижающее смешивание сигналов понижающего смешивания, информация, такая как информации о CLD, легко может вычисляться на основе такой информации об энергии без необходимости QMF/гибридного анализа или синтеза. Такая информация об энергии может представлять наибольший уровень энергии для каждой полосы параметров или абсолютное значение уровня энергии сигнала объекта с наибольшей энергией для каждой полосы параметров. Количество вычислений может дополнительно уменьшаться посредством использования значений ICC, полученных из временной области для всей полосы параметров.In the embodiments of FIGS. 17 and 18, two or more independent object bitstreams can be combined into an integrated object bitstream without having to calculate existing parameters of the object's independent bit streams. However, in the case of combining a plurality of downmix signals, the parameters regarding the downmix signals may need to be calculated again using a quadrature mirror filter (QMF) / hybrid analysis. However, this calculation requires a large number of calculations, thus compromising the advantages of the embodiments of FIGS. 17 and 18. Therefore, it is necessary to propose methods for extracting parameters without the need for QMF / hybrid analysis or synthesis, even when downmixing downmix signals is performed. For this, energy information regarding the energy of each parameter band of each downmix signal may be included in the object bitstream. Then, when down-mixing of down-mixing signals is performed, information such as CLD information can easily be calculated based on such energy information without the need for QMF / hybrid analysis or synthesis. Such energy information may represent the highest energy level for each parameter band or the absolute value of the energy level of the object signal with the highest energy for each parameter band. The number of calculations can be further reduced by using ICC values obtained from the time domain for the entire parameter band.

Во время понижающего смешивания множества сигналов понижающего смешивания может иметь место ограничение. Чтобы решить этот вопрос, могут быть уменьшены уровни сигналов понижающего смешивания. Если уменьшаются уровни сигналов понижающего смешивания, может потребоваться включение информации об уровне, касающейся уменьшенных уровней сигналов понижающего смешивания, в битовый поток объекта. Информация об уровне для предотвращения ограничения может применяться к каждому кадру битового потока объекта или может применяться только к некоторым кадрам, в которых имеет место ограничение. Уровни исходных сигналов понижающего смешивания могут вычисляться посредством обратного применения информации об уровне для предотвращения ограничения во время операции декодирования. Информация об уровне для предотвращения ограничения может вычисляться во временной области, и, таким образом, ее не нужно подвергать QMF/гибридному синтезу или анализу. Объединение множества сигналов объекта в единственный битовый поток объекта может выполняться с использованием структуры, изображенной на фиг.12, и это подробно описывается в данном документе со ссылкой на фиг.19.During downmixing of a plurality of downmix signals, a restriction may occur. To solve this issue, down-mix signal levels can be reduced. If the levels of the downmix signals are reduced, it may be necessary to include level information regarding the reduced levels of the downmix signals in the object bitstream. Level information to prevent restriction can be applied to each frame of an object's bitstream or can only be applied to some frames in which restriction occurs. The levels of the original down-mix signals can be calculated by re-applying the level information to prevent restriction during the decoding operation. Level information to prevent restriction can be calculated in the time domain, and thus, it does not need to be subjected to QMF / hybrid synthesis or analysis. Combining the plurality of object signals into a single object bitstream can be performed using the structure depicted in FIG. 12, and this is described in detail herein with reference to FIG. 19.

Фиг.19 иллюстрирует схему для объяснения объединения двух независимых битовых потока объекта в единственный битовый поток объекта. Как показано на фиг.19, первый блок 261 генерирует первый битовый поток объекта и второй блок 263 генерирует второй битовый поток объекта. Тогда третий блок 265 генерирует третий битовый поток объекта посредством комбинирования первого и второго битовых потоков. В данном случае, если первый и второй битовые потоки объекта включают в себя информацию об абсолютном значении уровня энергии сигнала объекта с наибольшей энергией для каждой полосы параметров и отношения уровней энергии других сигналов объекта с ненаибольшей энергией к уровню энергии сигнала объекта с наибольшей энергией и информацию о коэффициенте усиления, касающуюся значений коэффициента усиления, которые умножаются на сигналы понижающего смешивания первым и вторым блоками 261 и 263, третий блок 265 может генерировать третий битовый поток объекта просто посредством объединения первого и второго битовых потоков без необходимости дополнительного вычисления или извлечения параметров.FIG. 19 illustrates a diagram for explaining combining two independent object bitstreams into a single object bitstream. As shown in FIG. 19, the first block 261 generates a first object bitstream and the second block 263 generates a second object bitstream. Then, the third block 265 generates a third object bitstream by combining the first and second bit streams. In this case, if the first and second bit streams of the object include information on the absolute value of the energy level of the signal of the object with the highest energy for each band of parameters and the ratio of the energy levels of other signals of the object with the lowest energy to the energy level of the signal of the object with the highest energy and information about gain factor relating to gain values that are multiplied by down-mix signals by the first and second blocks 261 and 263, the third block 265 may generate a third bit otok of the object simply by combining the first and second bit streams without the need for additional calculation or extraction of parameters.

Третий блок 265 принимает множество сигналов DOWNMIX_A и DOWNMIX_B понижающего смешивания. Третий блок 265 преобразует сигналы DOWNMIX_A и DOWNMIX_B понижающего смешивания в сигналы импульсно-кодовой модуляции (ИКМ) и добавляет ИКМ-сигналы, таким образом генерируя единственный сигнал понижающего смешивания. Во время этого процесса, однако, может иметь место ограничение. Чтобы решить этот вопрос, сигналы DOWNMIX_A и DOWNMIX_B понижающего смешивания могут умножаться на предварительно определенное значение коэффициента усиления. Информация, касающаяся предварительно определенного значения коэффициента усиления, может включаться в третий битовый поток объекта и передаваться вместе с третьим битовым потоком объекта.The third block 265 receives a plurality of downmix signals DOWNMIX_A and DOWNMIX_B. The third block 265 converts the downmix signals DOWNMIX_A and DOWNMIX_B into pulse code modulation (PCM) signals and adds PCM signals, thereby generating a single downmix signal. During this process, however, a restriction may occur. To solve this problem, the downmix signals DOWNMIX_A and DOWNMIX_B can be multiplied by a predetermined gain value. Information regarding a predetermined gain value may be included in the third object bitstream and transmitted together with the third object bitstream.

Объединение множества битовых потоков объекта в единственный битовый поток объекта ниже в данном документе описывается более подробно. Как показано на фиг.19, paramA может включать в себя информацию, касающуюся того, какой из множества сигналов OBJECT1-OBJECTn объекта представляет собой сигнал объекта с наибольшей энергией, и отношения уровней энергии других сигналов объекта с ненаибольшей энергией к уровню энергии сигнала объекта с наибольшей энергией. Аналогично, SIDE INFO может включать в себя информацию, касающуюся того, какой из множества сигналов OBJECT1-OBJECTn объекта представляет собой сигнал объекта с наибольшей энергией и отношения уровней энергии других сигналов объекта с ненаибольшей энергией к уровню энергии сигнала объекта с наибольшей энергией.Combining multiple object bitstreams into a single object bitstream is described in more detail later in this document. As shown in FIG. 19, paramA may include information regarding which of the plurality of object signals OBJECT1-OBJECTn is the signal of the object with the highest energy, and the ratio of the energy levels of other signals of the object with the lowest energy to the energy level of the signal of the object with the highest energy. Similarly, SIDE INFO may include information regarding which of the plurality of object signals OBJECT1-OBJECTn is the signal of the object with the highest energy and the ratio of the energy levels of other signals of the object with the lowest energy to the energy level of the signal of the object with the highest energy.

SIDE_INFO_A и SIDE_INFO_B могут включаться параллельно в один битовый поток, как изображено на фиг.20. В данном случае может дополнительно предусматриваться бит, указывающий, существует ли более одного битового потока параллельно.SIDE_INFO_A and SIDE_INFO_B can be included in parallel in one bit stream, as shown in Fig.20. In this case, a bit may further be provided indicating whether more than one bit stream exists in parallel.

Как показано на фиг.20, чтобы указать, является ли или нет предварительно определенный битовый поток интегрированным битовым потоком, включающим в себя более одного битового потока, информация, указывающая, является ли предварительно определенный битовый поток интегрированным битовым потоком, информация, касающаяся количества битовых потоков, если есть какие-либо, включенных в предварительно определенный битовый поток, и информация, касающаяся исходного положения битовых потоков, если есть какие-либо, включенных в предварительно определенный битовый поток, могут предусматриваться в головной части предварительно определенного битового потока и за которым следуют более одного битового потока, если есть какие-либо, в предварительно определенном битовом потоке. В данном случае декодер может определить, является ли предварительно определенный битовый поток интегрированным битовым потоком, включающим в себя более одного битового потока, посредством анализа информации в головной части предварительно определенного битового потока. Этот тип способа объединения битовых потоков не требует дополнительных процессов, за исключением добавления нескольких идентификаторов к битовому потоку. Однако такие идентификаторы должны быть предусмотрены с интервалами некоторого количества кадров. Кроме того, данный тип способа объединения битовых потоков требует декодер для определения, является ли или нет каждый битовый поток, который принимает декодер, интегрированным битовым потоком.As shown in FIG. 20, to indicate whether or not a predetermined bit stream is an integrated bit stream including more than one bit stream, information indicating whether a predetermined bit stream is an integrated bit stream, information regarding the number of bit streams if there are any included in the predefined bitstream, and information regarding the initial position of the bit streams, if there are any included in the predefined lenny bitstream may be provided at the head of the predetermined bitstream and followed by more than one bitstream, if there is any, in the predetermined bitstream. In this case, the decoder can determine whether the predefined bitstream is an integrated bitstream including more than one bitstream by analyzing the information at the head of the predefined bitstream. This type of method for combining bit streams does not require additional processes, with the exception of adding multiple identifiers to the bit stream. However, such identifiers should be provided at intervals of a certain number of frames. In addition, this type of method for combining bit streams requires a decoder to determine whether or not each bit stream that the decoder receives is an integrated bit stream.

В качестве альтернативы вышеупомянутому способу объединения битовых потоков множество битовых потоков могут объединяться в единственный битовый поток таким образом, что декодер не может распознать, что единственный битовый поток представляет собой или нет интегрированный битовый поток. Ниже в данном документе это подробно описывается со ссылкой на фиг.21.As an alternative to the aforementioned method of combining bit streams, a plurality of bit streams may be combined into a single bit stream so that the decoder cannot recognize that the single bit stream is or not an integrated bit stream. Hereinafter, this is described in detail with reference to FIG.

Как показано на фиг.21, сравнивается уровень энергии сигнала объекта с наибольшей энергией, представленного SIDE_INFO_A, и уровень энергии сигнала объекта с наибольшей энергией, представленного SIDE_INFO_B. Затем определяется тот, который из двух сигналов объекта имеет более высокий уровень энергии, который является сигналом объекта с наибольшей энергией интегрированного битового потока. Например, если уровень энергии сигнала объекта с наибольшей энергией, представленного SIDE_INFO_A, больше, чем уровень энергии сигнала объекта с наибольшей энергией, представленного SIDE_INFO_B, сигнал объекта с наибольшей энергией, представленный SIDE_INFO_А, может стать сигналом объекта с наибольшей энергией интегрированного битового потока. Затем информация об отношении энергий SIDE_INFO_A может использоваться в интегрированном битовом потоке в том виде, в каком она есть, тогда как информация об отношении энергий SIDE_INFO_B может умножаться на отношение уровней энергийAs shown in FIG. 21, the energy level of the signal of the object with the highest energy represented by SIDE_INFO_A is compared with the energy level of the signal of the object with the highest energy represented by SIDE_INFO_B. Then it is determined which one of the two signals of the object has a higher energy level, which is the signal of the object with the highest energy integrated bit stream. For example, if the energy level of the signal of the object with the highest energy represented by SIDE_INFO_A is greater than the energy level of the signal of the object with the highest energy represented by SIDE_INFO_B, the signal of the object with the highest energy represented by SIDE_INFO_A may become the signal of the object with the highest energy of the integrated bit stream. Then the energy ratio information SIDE_INFO_A can be used in the integrated bitstream as it is, while the energy ratio information SIDE_INFO_B can be multiplied by the ratio of energy levels

Тогда информация об отношении энергий того, какой из SIDE_INFO_A и SIDE_INFO_B включает в себя информацию, касающуюся сигнала объекта с наибольшей энергией интегрированного битового потока, может использоваться в интегрированном битовом потоке, и информацию об отношении энергий сигнала объекта с наибольшей энергией, представленного param A, и сигнала объекта с наибольшей энергией, представленного SIDE_INFO_B. Этот способ включает в себя повторное вычисление информации об отношении энергий SIDE_INFO_B. Однако повторное вычисление информации об отношении энергий SIDE_INFO_B является относительно несложным. В данном способе декодер не может иметь возможности определять, является ли или нет битовый поток, который он принимает, интегрированным битовым потоком, включающим в себя более одного битового потока, и, таким образом, может использоваться типовой способ декодирования.Then, the information on the energy ratio of which of SIDE_INFO_A and SIDE_INFO_B includes information regarding the signal of the object with the highest energy of the integrated bit stream can be used in the integrated bit stream, and information on the ratio of the energies of the signal of the object with the highest energy represented by param A, and the signal of the object with the highest energy represented by SIDE_INFO_B. This method includes re-computing the energy ratio information SIDE_INFO_B. However, the recalculation of energy ratio information SIDE_INFO_B is relatively simple. In this method, the decoder may not be able to determine whether or not the bitstream that it receives is an integrated bitstream including more than one bitstream, and thus a typical decoding method can be used.

Два битовых потока объекта, включающие в себя стереофонические сигналы понижающего смешивания, легко могут быть объединены в единственный битовый поток объекта без необходимости повторного вычисления информации, касающейся сигналов объекта, посредством использования почти такого же способа, что и используемый для объединения битовых потоков, включающих в себя монофонические сигналы понижающего смешивания. В битовом потоке объекта за информацией, касающейся древовидной структуры, которая выполняет понижающее смешивание сигналов объекта, следует информация о сигнале объекта, полученная от каждой ветви (т.е. каждого блока) древовидной структуры.Two object bitstreams, including stereo downmix signals, can easily be combined into a single object bitstream without having to recalculate information regarding the object's signals, using almost the same method as used to combine bitstreams including monophonic down-mix signals. In the object bitstream, information regarding the tree structure that performs down-mixing of the object signals is followed by information about the object signal received from each branch (i.e., each block) of the tree structure.

Выше были описаны битовые потоки объекта, предполагая, что некоторый объект распределяется только на левый канал или правый канал стереофонического сигнала понижающего смешивания. Однако сигналы объекта, как правило, распределяются между обоими каналами стереофонического сигнала понижающего смешивания. Поэтому ниже в данном документе подробно описывается то, как генерировать битовый поток объекта, основанный на битовых потоках объекта, которые распределяются между двумя каналами стереофонического сигнала понижающего смешивания.The bit streams of the object have been described above, assuming that some object is distributed only to the left channel or the right channel of the stereo downmix signal. However, object signals are typically distributed between both channels of the stereo downmix signal. Therefore, later in this document, it is described in detail how to generate an object bitstream based on object bitstreams that are distributed between two channels of a stereo downmix signal.

Фиг.22 иллюстрирует схему для объяснения способа генерирования стереофонического сигнала понижающего смешивания посредством смешивания множества сигналов объекта и более конкретно способ выполнения понижающего смешивания четырех сигналов OBJECT1-OBJECT4 объекта в L- и R-стереофонические сигналы. Как показано на фиг.22, некоторые из четырех сигналов OBJECT1-OBJECT4 объекта принадлежат обоим L- и R-каналам сигнала понижающего смешивания. Например, первый сигнал OBJECT1 объекта распределяется между L- и R-каналами в отношении a:b, как указано уравнением (3):FIG. 22 illustrates a diagram for explaining a method of generating a stereo downmix signal by mixing a plurality of object signals, and more specifically, a method of performing downmixing of four object signals OBJECT1 to OBJECT4 into L and R stereo signals. As shown in FIG. 22, some of the four object signals OBJECT1-OBJECT4 belong to both L- and R-channels of the downmix signal. For example, the first object signal OBJECT1 is distributed between the L- and R-channels with respect to a: b, as indicated by equation (3):

[Уравнение 3][Equation 3]

Figure 00000003
Figure 00000003

Если сигнал объекта распределяется между L- и R-каналами стереофонического сигнала понижающего смешивания, может дополнительно потребоваться информация об отношении распределения каналов, касающаяся отношения (a:b), при котором сигнал объекта распределяется между L- и R-каналами. Тогда информация, касающаяся сигналов объекта, такая как информация о CLD и ICC, может вычисляться посредством выполнения понижающего смешивания, используя блоки ОТТ для L- и R-каналов стереофонического сигнала понижающего смешивания, и ниже в данном документе это описывается более подробно со ссылкой на фиг.23.If the object signal is distributed between the L- and R-channels of the stereo downmix signal, additional information on the channel allocation relation may be required regarding the ratio (a: b) at which the object signal is distributed between the L- and R-channels. Then, information regarding object signals, such as CLD and ICC information, can be calculated by performing downmixing using OTT blocks for the L- and R-channels of the stereo downmix signal, and this will be described in more detail below with reference to FIG. .23.

Как показано на фиг.23, если обеспечена информация о CLD и ICC, полученная от множества блоков ОТТ во время операции понижающего смешивания, и информация об отношении распределения каналов каждого из множества сигналов объекта, то можно вычислить многоканальный битовый поток, который изменяется адаптивно к любой модификации, сделанной в информации о положении объекта и информации о конфигурировании проигрывания конечным пользователем. Кроме того, если стереофонический сигнал понижающего смешивания должен быть обработан посредством предварительной обработки понижающего смешивания, то можно получить информацию, касающуюся того, как стереофонический сигнал понижающего смешивания обрабатывается посредством предварительной обработки понижающего смешивания, и передать полученную информацию на препроцессор. Т.е., если нет информации об отношении распределения каналов каждого из множества сигналов объекта, нет возможности для вычисления многоканального битового потока и получения информации, необходимой для работы препроцессора. Информация об отношении распределения каналов сигнала объекта может представляться как отношение двух целых чисел или скалярных величин (единица измерения: дБ).As shown in FIG. 23, if CLD and ICC information provided from a plurality of OTT blocks during a downmix operation and information on a channel allocation ratio of each of a plurality of object signals are provided, then a multi-channel bitstream that varies adaptively to any modifications made to information about the position of the object and information about configuring playback by the end user. In addition, if the stereo downmix signal is to be processed by the downmix preprocessing, then information regarding how the stereo downmix signal is processed by the downmix preprocessing can be obtained and the information received is transmitted to the preprocessor. That is, if there is no information about the channel distribution ratio of each of the multiple signals of the object, there is no way to calculate the multi-channel bitstream and obtain the information necessary for the preprocessor to work. Information on the distribution ratio of the channel signal of an object can be represented as the ratio of two integers or scalar quantities (unit: dB).

Как описано выше, если сигнал объекта распределяется между двумя каналами стереофонического сигнала понижающего смешивания, может потребоваться информация об отношении распределения каналов сигнала объекта. Информация об отношении распределения каналов может иметь фиксированное значение, указывающее отношение, с которым сигнал объекта распределяется между двумя каналами стереофонического сигнала понижающего смешивания. Альтернативно, информация об отношении распределения каналов сигнала объекта может изменяться от одной полосы частот до другой полосы частот сигнала объекта, особенно когда информация об отношении распределения каналов используется в качестве информации о ICC. Если стереофонический сигнал понижающего смешивания получается посредством сложной операции понижающего смешивания, т.е. если сигнал объекта принадлежит двум каналам стереофонического сигнала понижающего смешивания и выполняется понижающее смешивание посредством изменения информации о ICC от одной полосы частот до другой полосы частот сигнала объекта, может дополнительно потребоваться подробное описание понижающего смешивания сигнала объекта, чтобы декодировать сигнал объекта, рендеринг которого выполняется в конечном счете. Данный вариант осуществления может применяться ко всем возможным структурам объекта, которые уже были описаны.As described above, if an object signal is distributed between two channels of a stereo downmix signal, information about the channel allocation ratio of the object signal may be required. The channel allocation relationship information may have a fixed value indicating the relationship with which the object signal is distributed between the two channels of the stereo downmix signal. Alternatively, the channel allocation information of the object signal may vary from one frequency band to another frequency band of the object signal, especially when the channel allocation ratio information is used as ICC information. If the stereo down-mix signal is obtained through a complex down-mix operation, i.e. if the object signal belongs to two channels of the stereo downmix signal and downmix is performed by changing the ICC information from one frequency band to another frequency band of the object signal, a detailed description of the downmix of the object signal may additionally be required to decode the object signal that is ultimately rendered account. This embodiment can be applied to all possible object structures that have already been described.

Ниже в данном документе после этого подробно описывается предварительная обработка со ссылкой на фиг.24-27. Если сигналом понижающего смешивания, введенным в декодер объектов, является стереофонический сигнал, введенный сигнал понижающего смешивания, возможно, требует выполнения предварительной обработки перед вводом в многоканальный декодер декодера объектов, так как многоканальный декодер не может отобразить сигнал, принадлежащий левому каналу введенного сигнала понижающего смешивания, на правый канал. Поэтому, чтобы конечный пользователь переместил положение сигнала объекта, принадлежащего левому каналу введенного сигнала понижающего смешивания, в правый канал, введенный сигнал понижающего смешивания может требовать выполнения предварительной обработки, и предварительно обработанный сигнал понижающего смешивания может вводиться в многоканальный декодер.Hereinafter, pre-processing is described in detail below with reference to FIGS. 24-27. If the downmix signal input to the object decoder is a stereo signal, the downmix signal input may need to be pre-processed before being input to the multichannel decoder of the object decoder, since the multichannel decoder cannot display the signal belonging to the left channel of the input downmix signal, to the right channel. Therefore, in order for the end user to move the position of the signal of the object belonging to the left channel of the input downmix signal to the right channel, the input downmix signal may require pre-processing, and the preprocessed downmix signal can be input to the multi-channel decoder.

Предварительная обработка стереофонического сигнала понижающего смешивания может выполняться посредством получения информации о предварительной обработке из битового потока объекта и из матрицы рендеринга и соответствующей обработки стереофонического сигнала понижающего смешивания в соответствии с информацией о предварительной обработке, и ниже в данном документе это описывается подробно.The preprocessing of the stereo downmix signal can be performed by obtaining the preliminary processing information from the object bitstream and from the rendering matrix and the corresponding processing of the stereo downmix signal in accordance with the preprocessing information, and this will be described in detail later in this document.

Фиг.24 иллюстрирует схему для объяснения того, как сконфигурировать стереофонический сигнал понижающего смешивания, основанный на четырех сигналах OBJECT1-OBJECT4 объекта. Как показано на фиг.24, первый сигнал OBJECT1 объекта распределяется между L- и R-каналами с отношением a:b, второй сигнал OBJECT2 объекта распределяется между L- и R-каналами с отношением c:d, третий сигнал OBJECT3 объекта распределяется только на L-канал, и четвертый сигнал OBJECT4 объекта распределяется только на R-канал. Информация, такая как CLD и ICC, может генерироваться пропусканием каждого из первого-четвертого сигналов OBJECT1-OBJECT4 объекта через некоторое количество ОТТ, и сигнал понижающего смешивания может генерироваться на основе сгенерированной информации.24 illustrates a diagram for explaining how to configure a stereo down-mix signal based on four object signals OBJECT1-OBJECT4. As shown in Fig. 24, the first object signal OBJECT1 is distributed between the L- and R-channels with the ratio a: b, the second object signal OBJECT2 is distributed between the L- and R-channels with the ratio c: d, the third object signal OBJECT3 is distributed only on L-channel, and the fourth signal OBJECT4 object is distributed only on the R-channel. Information such as CLD and ICC can be generated by passing each of the first to fourth object signals OBJECT1-OBJECT4 through a number of OTTs, and a downmix signal can be generated based on the generated information.

Предположим, что конечный пользователь получает матрицу рендеринга посредством соответствующей установки положений и уровней первого-четвертого сигналов OBJECT1-OBJECT4 объекта и что имеется пять каналов. Матрица рендеринга может быть представлена уравнением (4):Suppose that the end user receives a rendering matrix by appropriately setting the positions and levels of the first to fourth object signals OBJECT1-OBJECT4 and that there are five channels. The rendering matrix can be represented by equation (4):

[Уравнение 4][Equation 4]

Figure 00000004
Figure 00000004

Как показано в уравнении (4), когда сумма пяти коэффициентов в каждой из четырех строк равна предварительно определенному эталонному значению, т.е. 100, определяется, что уровень соответствующего сигнала объекта не изменился. Величина, на которую сумма пяти коэффициентов в каждой из четырех строк отличается от предварительно определенного эталонного значения, может представлять собой величину (единица измерения: дБ), на которую изменился уровень соответствующего сигнала объекта. Первый, второй, третий, четвертый и пятый столбцы матрицы рендеринга уравнения (4) представляют FL-, FR-, C-, RL- и RR-каналы соответственно.As shown in equation (4), when the sum of the five coefficients in each of the four rows is equal to a predetermined reference value, i.e. 100, it is determined that the level of the corresponding signal of the object has not changed. The value by which the sum of the five coefficients in each of the four lines differs from the predefined reference value may be the amount (unit: dB) by which the level of the corresponding signal of the object has changed. The first, second, third, fourth and fifth columns of the rendering matrix of equation (4) represent the FL, FR, C, RL and RR channels, respectively.

Первая строка матрицы рендеринга уравнения (4) соответствует первому сигналу OBJECT1 объекта и имеет в сумме пять коэффициентов, т.е. 30, 10, 20, 30 и 10. Так как сумма пяти коэффициентов первой строки равна 100, определяется, что уровень первого сигнала OBJECT1 объекта не изменился и что изменилось только пространственное положение первого сигнала OBJECT1 объекта. Даже если пять коэффициентов первой строки представляют различные направления каналов, они могут, главным образом, классифицироваться по двум каналам: L- и R-каналам. Тогда отношение, с которым первый сигнал OBJECT1 объекта распределяется между L- и R-каналами может вычисляться как 70% (=(30+30+20)*0,5):30%(=10+10+20)*0,5). Поэтому матрица рендеринга уравнения (4) указывает, что уровень первого сигнала OBJECT1 объекта не изменился и что первый сигнал OBJECT1 объекта распределяется между L- и R-каналами с отношением 70%:30%. Если сумма пяти коэффициентов любой одной из строк матрицы рендеринга уравнения (4) меньше или больше 100, может быть определено, что изменился уровень соответствующего сигнала объекта, и тогда соответствующий сигнал объекта может обрабатываться посредством предварительной обработки или может преобразовываться и передаваться как ADG.The first row of the rendering matrix of equation (4) corresponds to the first signal OBJECT1 of the object and has a total of five coefficients, i.e. 30, 10, 20, 30, and 10. Since the sum of the five coefficients of the first row is 100, it is determined that the level of the first signal OBJECT1 of the object has not changed and that only the spatial position of the first signal OBJECT1 of the object has changed. Even if the five coefficients of the first row represent different channel directions, they can mainly be classified by two channels: L and R channels. Then the ratio with which the first signal OBJECT1 of the object is distributed between the L- and R-channels can be calculated as 70% (= (30 + 30 + 20) * 0.5): 30% (= 10 + 10 + 20) * 0, 5). Therefore, the rendering matrix of equation (4) indicates that the level of the first signal OBJECT1 of the object has not changed and that the first signal OBJECT1 of the object is distributed between the L- and R-channels with a ratio of 70%: 30%. If the sum of the five coefficients of any one of the rows of the rendering matrix of equation (4) is less than or greater than 100, it can be determined that the level of the corresponding signal of the object has changed, and then the corresponding signal of the object can be processed by pre-processing or can be converted and transmitted as ADG.

Чтобы выполнить предварительную обработку сигналов понижающего смешивания, может вычисляться отношение, с которым сигналы понижающего смешивания распределяются между полосами параметров, из которых параметры извлекаются из сигналов, получаемых посредством выполнения QMF/гибридного преобразования сигналов понижающего смешивания, и сигналы понижающего смешивания могут перераспределяться между полосами параметров в соответствии с установкой матрицы рендеринга. Ниже в данном документе подробно описываются различные способы перераспределения сигналов понижающего смешивания между полосами параметров.In order to pre-process the downmix signals, the ratio with which the downmix signals are distributed between the parameter bands from which the parameters are extracted from the QMF / hybrid transform of the downmix signals and the downmix signals can be redistributed between the parameter bands in according to the setting of the rendering matrix. Below in this document, various methods for redistributing down-mix signals between parameter bands are described in detail.

В первом способе перераспределения сигналы понижающего смешивания L- и R-каналов декодируются отдельно с использованием их соответствующей дополнительной информации (такой как информация о CLD и ICC) и использованием почти такого же способа, что и используемый многоканальным кодеком. Затем восстанавливаются сигналы объекта, распределяемые между сигналами понижающего смешивания L- и R-каналов. Чтобы уменьшить количество вычислений, сигналы понижающего смешивания L- и R-каналов могут декодироваться с использованием только информации о CLD. Отношение, с которым каждый из восстановленных сигналов объекта распределяется между сигналами понижающего смешивания L- и R-каналов, может определяться на основе дополнительной информации.In the first redistribution method, the down-mix signals of the L- and R-channels are decoded separately using their respective additional information (such as CLD and ICC information) and using almost the same method as that used by the multi-channel codec. Then, the object signals distributed between the down-mix signals of the L- and R-channels are restored. To reduce the amount of computation, the downmix signals of the L and R channels can be decoded using only CLD information. The ratio with which each of the reconstructed object signals is distributed between the down-mix signals of the L and R channels can be determined based on additional information.

Каждый из восстановленных сигналов объекта может перераспределяться между сигналами понижающего смешивания L- и R-каналов в соответствии с матрицей рендеринга. Затем выполняется понижающее смешивание перераспределенных сигналов объекта на поканальной основе посредством блоков ОТТ, таким образом завершая предварительную обработку. Вкратце, первый способ перераспределения перенимает тот же способ, что и используемый многоканальным кодеком. Однако первый способ перераспределения требует столько процессов декодирования, сколько имеется сигналов объекта для каждого канала, и требует процесс перераспределения и канало-базированный процесс понижающего смешивания.Each of the reconstructed object signals can be redistributed between the down-mix signals of the L- and R-channels in accordance with the rendering matrix. Then, down-mixing of the redistributed object signals on a per-channel basis is performed by means of OTT blocks, thereby completing the preliminary processing. In short, the first redistribution method adopts the same method as that used by the multi-channel codec. However, the first redistribution method requires as many decoding processes as there are object signals for each channel, and requires a redistribution process and a channel-based downmix process.

Во втором способе перераспределения, в отличие от первого способа перераспределения, сигналы объекта не восстанавливаются из L- и R-сигналов понижающего смешивания. Вместо этого каждый из L- и R-сигналов понижающего смешивания делится на две части: одна часть L_L или R_R, которая должна быть оставлена в соответствующем канале, и другая часть L_R или R_L, которая должна быть перераспределена, как изображено на фиг.25. Как показано на фиг.25, L_L указывает часть сигнала понижающего смешивания L-канала, которая должна быть оставлена в L-канале, и L_R указывает часть сигнала понижающего смешивания L-канала, которая должна быть добавлена к R-каналу. Аналогично, R_R указывает часть сигнала понижающего смешивания R-канала, которая должна быть оставлена в R-канале, и R_L указывает часть сигнала понижающего смешивания R-канала, которая должна быть добавлена к L-каналу. Каждый из сигналов понижающего смешивания L- и R-каналов может быть разделен на две части (L_L и L_R или R_R и R_L) в соответствии с отношением, с которым каждый сигнал объекта распределяется между L- и R-сигналами понижающего смешивания, как определяется уравнением (2), и отношением, с которым каждый сигнал объекта должен распределяться между предварительно обработанными L- и R-каналами L и R, как определено уравнением (3). Поэтому может быть определено, как сигналы понижающего смешивания L- и R-каналов должны перераспределяться между предварительно обработанными L- и R-каналами L и R посредством сравнения отношения, с которым каждый сигнал объекта распределяется между L- и R-сигналами понижающего смешивания, и отношения, с которым каждый сигнал объекта должен распределяться между предварительно обработанными L- и R-каналами L и R.In the second method of redistribution, in contrast to the first method of redistribution, the object signals are not restored from the L- and R-signals of down-mixing. Instead, each of the L- and R-downmix signals is divided into two parts: one part L_L or R_R, which should be left in the corresponding channel, and the other part L_R or R_L, which should be redistributed, as shown in Fig. 25. As shown in FIG. 25, L_L indicates the portion of the L-channel downmix signal that should be left in the L-channel, and L_R indicates the portion of the L-channel downmix signal that should be added to the R-channel. Similarly, R_R indicates the portion of the R-channel down-mix signal that should be left in the R-channel, and R_L indicates the portion of the R-channel down-mix signal that should be added to the L-channel. Each of the down-mix signals of the L- and R-channels can be divided into two parts (L_L and L_R or R_R and R_L) in accordance with the ratio with which each object signal is distributed between the L- and R-down-mix signals, as defined by the equation (2), and the ratio with which each object signal should be distributed between the pre-processed L- and R-channels L and R, as defined by equation (3). Therefore, it can be determined how the downmix signals of the L- and R-channels should be redistributed between the pre-processed L- and R-channels L and R by comparing the relationship with which each object signal is distributed between the L- and R-downmix signals, and the relationship with which each object signal must be distributed between the pre-processed L- and R-channels L and R.

Деление сигнала L-канала на сигналы L_L и L_R в соответствии с предварительно определенным отношением энергии было описано выше. Если сигнал L-канала делится на сигналы L_L и L_R, может потребоваться определение ICC между сигналами L_L и L_R. ICC между сигналами L_L и L_R легко может определяться на основе информации о ICC, касающейся сигналов объекта. Т.е. ICC между сигналами L_L и L_R может определяться на основе отношения, с которым каждый сигнал объекта распределяется между сигналами L_L и L_R.The division of the L-channel signal into L_L and L_R signals in accordance with a predetermined energy ratio has been described above. If the L-channel signal is divided into L_L and L_R signals, ICC determination between the L_L and L_R signals may be required. The ICC between the L_L and L_R signals can be easily determined based on ICC information regarding the signals of the object. Those. The ICC between the L_L and L_R signals can be determined based on the relationship with which each object signal is distributed between the L_L and L_R signals.

Ниже в данном документе описывается более подробно второй способ перераспределения понижающего смешивания. Предположим, что сигналы L и R понижающего смешивания L- и R-каналов получаются способом, изображенным на фиг.24, и что первый, второй, третий и четвертый сигналы OBJECT1, OBJECT2, OBJECT3 и OBJECT4 объекта распределяются между сигналами L и R понижающего смешивания L- и R-каналов с отношениями 1:2, 2:3, 1:0 и 0:1 соответственно. Может быть выполнено понижающее смешивание множества сигналов объекта посредством некоторого количества блоков ОТТ, и информация, такая как информация о CLD и ICC, может быть получена от понижающего смешивания сигналов объекта.Below in this document, a second method for redistributing down-mix is described in more detail. Assume that the L and R down-mix signals L and R are obtained by the method shown in FIG. 24, and that the first, second, third and fourth object signals OBJECT1, OBJECT2, OBJECT3 and OBJECT4 are distributed between the down-mix signals L and R L- and R-channels with ratios 1: 2, 2: 3, 1: 0 and 0: 1, respectively. Downmixing of a plurality of object signals can be performed by means of a number of OTT blocks, and information, such as CLD and ICC information, can be obtained from downmixing of the object signals.

Пример матрицы рендеринга, установленной для первого-четвертого сигналов OBJECT1-OBJECT4 объекта, представляет собой ту, которая представлена уравнением (4). Матрица рендеринга включает в себя информацию о положении первого-четвертого сигналов OBJECT1-OBJECT4 объекта. Таким образом, предварительно обработанные сигналы L и R понижающего смешивания L- и R-каналов могут быть получены посредством выполнения предварительной обработки с использованием матрицы рендеринга. Как установить и интерпретировать матрицу рендеринга уже было описано выше со ссылкой на уравнение (3).An example of a rendering matrix set for the first to fourth object signals OBJECT1-OBJECT4 is one that is represented by equation (4). The rendering matrix includes information on the position of the first to fourth signals of the object OBJECT1-OBJECT4. Thus, pre-processed L and R down-mix signals of L and R channels can be obtained by performing pre-processing using a rendering matrix. How to establish and interpret the rendering matrix has already been described above with reference to equation (3).

Отношение, с которым каждый из первого-четвертого сигналов OBJECT1-OBJECT4 объекта распределяется между предварительно обработанными сигналами L и R понижающего смешивания L- и R-каналов, может вычисляться так, как указано уравнением (5):The ratio with which each of the first to fourth object signals OBJECT1-OBJECT4 is distributed between the pre-processed L and R channel down-mix signals L and R can be calculated as indicated by equation (5):

[Уравнение 5][Equation 5]

Figure 00000005
Figure 00000005

Отношение, с которым каждый из первого-четвертого сигналов OBJECT1-OBJECT4 объекта распределяется между сигналами L и R понижающего смешивания L- и R-каналов, может вычисляться так, как указано уравнением (6):The ratio with which each of the first to fourth object signals OBJECT1 to OBJECT4 is distributed between the L and R down-mix signals L and R can be calculated as indicated by equation (6):

[Уравнение 6][Equation 6]

Figure 00000006
Figure 00000006

Как показано в уравнении (5), сумма части третьего сигнала OBJECT3 объекта, распределенной предварительно обработанному сигналу L понижающего смешивания L-канала, и части третьего сигнала OBJECT3 объекта, распределенной сигналу R понижающего смешивания R-канала, равна 110, и, таким образом, определяется, что уровень третьего сигнала OBJECT3 объекта увеличился на 10. С другой стороны, сумма части четвертого сигнала OBJECT4 объекта, распределенной предварительно обработанному сигналу L понижающего смешивания L-канала, и части четвертого сигнала OBJECT4 объекта, распределенной сигналу R понижающего смешивания R-канала, равна 95, и, таким образом, определяется, что уровень четвертого сигнала OBJECT4 объекта уменьшился на 5. Если матрица рендеринга для первого-четвертого сигналов OBJECT1-OBJECT4 объекта имеет эталонное значение 100, и величина, на которую сумма коэффициентов в каждой строке матрицы рендеринга отличается от эталонного значения 100, представляет величину (единица измерения: дБ), на которую изменился уровень соответствующего сигнала объекта, может быть определено, что уровень третьего сигнала OBJECT3 объекта увеличился на 10 дБ и что уровень четвертого сигнала OBJECT4 объекта уменьшился на 5 дБ.As shown in equation (5), the sum of the part of the third object signal OBJECT3 allocated to the pre-processed L-channel down-mix signal L and the part of the third object signal OBJECT3 distributed to the R-channel down-mix signal R is 110, and thus it is determined that the level of the third signal OBJECT3 of the object has increased by 10. On the other hand, the sum of the part of the fourth signal OBJECT4 of the object distributed to the pre-processed signal L of the down-mix L-channel and the part of the fourth signal OBJECT4 of the object, p the R-channel downmix signal R is equal to 95, and thus it is determined that the level of the fourth object signal OBJECT4 has decreased by 5. If the rendering matrix for the first-fourth object signals OBJECT1-OBJECT4 has a reference value of 100, and the value, by which the sum of the coefficients in each row of the rendering matrix differs from the reference value 100, represents the value (unit: dB) by which the level of the corresponding signal of the object has changed, it can be determined that the level of the third signal OBJECT3 ARP increased by 10 dB and that of the fourth object signal OBJECT4 has decreased by 5 dB.

Уравнения (5) и (6) могут быть преобразованы в уравнение (7):Equations (5) and (6) can be converted into equation (7):

[Уравнение 7][Equation 7]

Figure 00000007
Figure 00000007

Уравнение (7) сравнивает отношение, с которым каждый из первого-четвертого сигналов OBJECT1-OBJECT4 объекта распределяется между сигналами понижающего смешивания L- и R-каналов перед предварительной обработкой, и отношение, с которым каждый из первого-четвертого сигналов OBJECT1-OBJECT4 объекта распределяется между сигналами понижающего смешивания L- и R-каналов после предварительной обработки. Поэтому посредством использования уравнения (7) легко можно определить, какая часть каждого из первого-четвертого сигналов OBJECT1-OBJECT4 объекта должна перераспределяться посредством предварительной обработки. Например, ссылаясь на уравнение (7), отношение, с которым второй сигнал OBJECT2 объекта распределяется между сигналами понижающего смешивания L- и R-каналов, изменяется с 40:60 на 30:70, и, таким образом, может быть определено, что одна четвертая (25%) от части второго сигнала OBJECT2 объекта, ранее распределенной сигналу понижающего смешивания L-канала, должна быть перемещена в сигнал понижающего смешивания R-канала. Это может стать более очевидным при ссылке на уравнение (8):Equation (7) compares the ratio with which each of the first to fourth object signals OBJECT1-OBJECT4 is distributed between the down-mix signals of the L and R channels before preprocessing, and the ratio with which each of the first to fourth object signals OBJECT1-OBJECT4 is distributed between the down-mix signals of the L- and R-channels after pre-processing. Therefore, by using equation (7), it is easy to determine which part of each of the first to fourth object signals OBJECT1-OBJECT4 should be redistributed by pre-processing. For example, referring to equation (7), the ratio with which the second object signal OBJECT2 is distributed between the down-mix signals of the L- and R-channels changes from 40:60 to 30:70, and thus, it can be determined that one the fourth (25%) of the part of the second object signal OBJECT2 previously distributed to the L-channel down-mix signal should be moved to the R-channel down-mix signal. This may become more apparent when referring to equation (8):

[Уравнение 8][Equation 8]

OBJECT1: 55% части OBJECT1, ранее распределенной R, необходимо переместить в LOBJECT1: 55% of the portion of OBJECT1 previously allocated to R must be moved to L

OBJECT2: 25% части OBJECT1, ранее распределенной L, необходимо переместить в ROBJECT2: 25% of the portion of OBJECT1 previously allocated to L must be moved to R

OBJECT3: 50% части OBJECT1, ранее распределенной L, необходимо переместить в ROBJECT3: 50% of the portion of OBJECT1 previously allocated to L must be moved to R

OBJECT4: 50% части OBJECT1, ранее распределенной R, необходимо переместить в LOBJECT4: 50% of the portion of OBJECT1 previously allocated to R must be moved to L

Посредством использования уравнения (8) сигналы L_L, L_R, R_L и R_R фиг.25 могут быть представлены так, как указано уравнением (9):By using equation (8), the signals L_L, L_R, R_L and R_R of FIG. 25 can be represented as indicated by equation (9):

[Уравнение 9][Equation 9]

Figure 00000008
Figure 00000008

Значение каждого сигнала объекта в уравнении (9) может представляться как отношение, с которым соответствующий сигнал объекта распределяется между L- и R-каналами посредством использования информации о деквантованной CLD, предоставляемой блоком ОТТ, как указано уравнением (10):The value of each object signal in equation (9) can be represented as the ratio with which the corresponding object signal is distributed between the L and R channels by using the information about the dequantized CLD provided by the OTT block, as indicated by equation (10):

[Уравнение 10][Equation 10]

Figure 00000009
Figure 00000009

Figure 00000010
Figure 00000010

Figure 00000011
Figure 00000011

Информация о CLD, используемая в каждом блоке синтаксического анализа на фиг.25, может определяться так, как указано уравнением (11):The CLD information used in each parsing unit in FIG. 25 may be determined as indicated by equation (11):

[Уравнение 11][Equation 11]

Figure 00000012
Figure 00000012

ε: где 1 - постоянная, чтобы избежать деления на нуль, например, 96 дБ ниже максимального входного сигналаε: where 1 is a constant to avoid dividing by zero, for example, 96 dB below the maximum input signal

Таким образом может определяться информация о CLD и ICC, используемая в блоке синтаксического анализа для генерирования сигналов L_L и L_R, основанных на сигнале понижающего смешивания L-канала, и также может определяться информация о CLD и ICC, используемая в блоке синтаксического анализа для генерирования сигналов R_L и R_R, основанных на сигнале понижающего смешивания R-канала. Если получены сигналы L_L, L_R, R_L и R_R, как показано на фиг.25, могут быть добавлены сигналы L_R и R_R, таким образом получая предварительно обработанный стереофонический сигнал понижающего смешивания. Если окончательным каналом является стереофонический канал, могут выводиться сигналы понижающего смешивания L- и R-каналов, полученные посредством предварительной обработки. В данном случае изменение, если есть какое-либо, уровня каждого сигнала объекта еще должно регулироваться. Для этого может дополнительно предусматриваться предварительно определенный модуль, который выполняет функции модуля ADG. Информация для регулировки уровня каждого сигнала объекта может вычисляться с использованием этого же способа, что и используемый для вычисления информации о ADG, и это более подробно описывается ниже. Альтернативно, уровень каждого сигнала объекта может регулироваться во время операции предварительной обработки. В данном случае регулировка уровня каждого сигнала объекта может выполняться с использованием этого же способа, что и используемый для обработки ADG. Альтернативно варианту осуществления по фиг.25 операция декорреляции может выполняться декоррелятором и смесителем, а не модулями PARSING1 и PARSING2 синтаксического анализа, как изображено на фиг.26, чтобы регулировать корреляцию между сигналами L и R, полученными посредством смешивания. Как показано на фиг.26, Pre_L и Pre_R обозначают сигналы L- и R-каналов, полученные посредством регулировки уровня. Один из сигналов Pre_L и Pre_R может вводиться в декоррелятор и затем подвергаться операции смешивания, выполняемой смесителем, таким образом, получая сигнал с отрегулированной корреляцией.In this way, CLD and ICC information used in the parser to generate L_L and L_R signals based on the L-channel downmix signal can be determined, and CLD and ICC information used in the parser for generating R_L signals can also be determined and R_R based on the downmix signal of the R channel. If L_L, L_R, R_L, and R_R signals are received, as shown in FIG. 25, L_R and R_R signals can be added, thereby obtaining a pre-processed stereo downmix signal. If the final channel is a stereo channel, L-and R-channel down-mix signals obtained by pre-processing can be output. In this case, the change, if any, of the level of each signal of the object must still be regulated. For this, a predefined module that acts as an ADG module may be further provided. Information for adjusting the level of each signal of an object can be calculated using the same method as that used to calculate information about ADG, and this is described in more detail below. Alternatively, the level of each object signal may be adjusted during the pre-processing operation. In this case, adjusting the level of each object signal can be performed using the same method as that used for ADG processing. Alternative to the embodiment of FIG. 25, the decorrelation operation may be performed by the decorrelator and mixer rather than the parsing units PARSING1 and PARSING2, as shown in FIG. 26, to adjust the correlation between the L and R signals obtained by mixing. As shown in FIG. 26, Pre_L and Pre_R denote L- and R-channel signals obtained by level adjustment. One of the signals Pre_L and Pre_R can be input to the decorrelator and then subjected to the mixing operation performed by the mixer, thereby obtaining a signal with adjusted correlation.

Предварительно обработанный стереофонический сигнал понижающего смешивания может вводиться в многоканальный декодер. Чтобы обеспечить многоканальный выходной сигнал, совместимый с информацией о положении объекта и информацией о конфигурировании проигрывания, установленными конечным пользователем, необходим не только предварительно обработанный сигнал понижающего смешивания, но также канало-базированная дополнительная информация для выполнения многоканального декодирования. Ниже в данном документе подробно описывается то, как получить канало-базированную дополнительную информацию, снова рассматривая вышеупомянутый пример. Предварительно обработанные сигналы L и R понижающего смешивания, которые вводятся в многоканальный декодер, могут определяться на основе уравнения (5), как указано уравнением (12):The pre-processed stereo downmix signal may be input to a multi-channel decoder. In order to provide a multi-channel output signal compatible with object position information and playback configuration information set by the end user, not only a pre-processed downmix signal is required, but also channel-based additional information to perform multi-channel decoding. The rest of this document describes in detail how to obtain channel-based supplementary information, again considering the above example. The preprocessed downmix signals L and R, which are input to the multi-channel decoder, can be determined based on equation (5), as indicated by equation (12):

[Уравнение 12][Equation 12]

Figure 00000013
Figure 00000013

Отношение, с которым каждый из первого-четвертого сигналов OBJECT1-OBJECT4 объекта распределяется по FL-, RL-, C-, FR- и RR-каналам, может определяться так, как указано уравнением (13):The ratio with which each of the first to fourth object signals OBJECT1-OBJECT4 is distributed on the FL-, RL-, C-, FR- and RR-channels can be determined as indicated by equation (13):

[Уравнение 13][Equation 13]

Figure 00000014
Figure 00000014

Предварительно обработанные сигналы L и R понижающего смешивания могут быть расширены до 5.1 каналов посредством MPS (MPEG Surround), как изображено на фиг.27. Как показано на фиг.27, параметры блока ТТТ0 ТТТ и блоков ОТТА, ОТТВ и ОТТС ОТТ могут потребовать вычисления в единицах полос параметров, даже если полосы параметров не изображены для удобства.The preprocessed downmix signals L and R can be expanded to 5.1 channels via MPS (MPEG Surround), as shown in FIG. As shown in FIG. 27, the parameters of the TTT0 TTT block and the OTTA, OTTV and OTTS OTT blocks may require calculation in units of parameter bands, even if the parameter bands are not shown for convenience.

Блок ТТТ0 ТТТ может использоваться в двух различных режимах: основанном на энергии режиме и режиме предсказания. Когда он используется в основанном на энергии режиме, блок ТТТ0 ТТТ требует две порции информации о CLD. Когда он используется в режиме предсказания, блок ТТТ0 ТТТ требует две порции информации о CPC и порцию информации о ICC.The TTT0 TTT unit can be used in two different modes: an energy-based mode and a prediction mode. When used in an energy-based mode, the TTT0 TTT block requires two pieces of CLD information. When used in prediction mode, the TTT0 TTT block requires two pieces of CPC information and a piece of ICC information.

Чтобы вычислить информацию о CLD в основанном на энергии режиме, отношение энергий сигналов L", R" и С на фиг.27 может вычисляться с использованием уравнений (6), (10) и (13). Уровень энергии сигнала L" может вычисляться так, как указано уравнением (14):In order to calculate CLD information in an energy-based mode, the energy ratio of the L, R, and C signals in FIG. 27 can be calculated using equations (6), (10) and (13). The signal energy level L "can be calculated as indicated by equation (14):

[Уравнение 14][Equation 14]

Figure 00000015
Figure 00000015

Уравнение (14) также может использоваться для вычисления уровня энергии R" или C. После этого информация о CLD, используемая в блоке ТТТ0 ТТТ, может вычисляться на основе уровней энергии сигналов L", R" и С, как указано уравнением (15):Equation (14) can also be used to calculate the energy level R "or C. After that, the CLD information used in the TTT0 TTT block can be calculated based on the energy levels of the signals L", R "and C, as indicated by equation (15):

[Уравнение 15][Equation 15]

Figure 00000016
Figure 00000016

Уравнение (14) может быть установлено на основе уравнения (10). Даже если уравнение (10) определяет только то, как вычислять значения энергии для L-канала, значения энергии для R-канала могут вычисляться с использованием уравнения (10). Таким образом могут вычисляться значения CLD и ICC третьего и четвертого блоков ОТТ на основе значений CLD и ICC первого и второго блоков ОТТ. Это, однако, не может обязательно применяться ко всем древовидным структурам, но только к некоторым древовидным структурам для декодирования сигналов объекта. Информация, включенная в битовый поток объекта, может передаваться на каждый блок ОТТ. Альтернативно, информация, включенная в битовый поток объекта, может передаваться только на некоторые блоки ОТТ, и информация, указывающая блоки ОТТ, которые не приняли информацию, могут быть получены посредством вычисления.Equation (14) can be established based on equation (10). Even if equation (10) determines only how to calculate the energy values for the L channel, the energy values for the R channel can be calculated using equation (10). Thus, CLD and ICC values of the third and fourth OTT blocks can be calculated based on the CLD and ICC values of the first and second OTT blocks. This, however, may not necessarily apply to all tree structures, but only to some tree structures for decoding object signals. Information included in the object bitstream can be transmitted to each OTT block. Alternatively, information included in the object bitstream can only be transmitted to some OTT blocks, and information indicating OTT blocks that have not received the information can be obtained by calculation.

Параметры, такие как информация о CLD и ICC, может вычисляться для блоков ОТТА, ОТТВ и ОТТС ОТТ посредством использования вышеупомянутого способа. Такие многоканальные параметры могут вводиться в многоканальный декодер и затем подвергаться многоканальному декодированию, таким образом получая многоканальный сигнал, рендеринг которого выполняется надлежащим образом в соответствии с информацией о положении объекта и информации о конфигурировании проигрывания, требуемой конечным пользователем.Parameters such as CLD and ICC information can be calculated for the OTTA, OTTV, and OTTC OTT blocks by using the above method. Such multichannel parameters can be input to a multichannel decoder and then subjected to multichannel decoding, thereby obtaining a multichannel signal that is rendered appropriately in accordance with the position information of the object and the playback configuration information required by the end user.

Многоканальные параметры могут включать в себя параметр ADG, если уровень сигналов объекта не был еще отрегулирован посредством предварительной обработки. Вычисление параметра ADG ниже в данном документе подробно описывается посредством рассматривания снова вышеупомянутого примера.Multichannel parameters may include an ADG parameter if the signal level of the object has not yet been adjusted by preprocessing. The calculation of the ADG parameter later in this document is described in detail by considering again the above example.

Когда матрица рендеринга устанавливается так, что уровень третьего сигнала объекта может увеличиваться на 10 дБ, уровень четвертого сигнала объекта может уменьшаться на 5 дБ, уровень составляющей третьего сигнала объекта в L может увеличиваться на 10 дБ и уровень составляющей четвертого сигнала объекта в L может уменьшаться на 5 дБ, отношение RatioADG,L уровней энергии перед и после регулировки уровней третьего и четвертого сигналов объекта может быть вычислено с использованием уравнения (16):When the rendering matrix is set so that the level of the third signal of the object can increase by 10 dB, the level of the fourth signal of the object can decrease by 5 dB, the level of the component of the third signal of the object in L can increase by 10 dB and the level of the component of the fourth signal of the object in L can decrease by 5 dB, the ratio of RatioADG, L energy levels before and after adjusting the levels of the third and fourth signals of the object can be calculated using equation (16):

[Уравнение 16][Equation 16]

Figure 00000017
Figure 00000017

Отношение Ratio ADG,L может определяться подстановкой уравнения (10) в уравнение (16). Отношение Ratio ADG,R для R-канала также может вычисляться с использованием уравнения (16). Каждое из отношений Ratio ADG,L и Ratio ADG,R представляет изменение энергии соответствующей полосы параметров из-за регулировки уровней сигналов объекта. Таким образом, значения ADG(L) и ADG(R) ADG могут вычисляться с использованием отношений Ratio ADG,L и Ratio ADG,R, как указано уравнением (17): Ratio ADG, L can be determined by substituting equation (10) into equation (16). The Ratio ADG, R ratio for the R channel can also be calculated using equation (16). Each of the ratios Ratio ADG, L and Ratio ADG, R represents a change in the corresponding parameter bands of energy due to adjustment levels of the object signals. Thus, the values ADG (L) and ADG (R) ADG may be calculated using relationships Ratio ADG, L and Ratio ADG, R, as indicated by equation (17):

[Уравнение 17][Equation 17]

Figure 00000018
Figure 00000018

Если определены параметры ADG(L) и ADG(R) ADG, параметры ADG(L) и ADG(R) ADG квантуются посредством использования таблицы квантования ADG, и квантованные значения ADG передаются. Если существует необходимость в дальнейшей точной регулировке значений ADG(L) и ADG(R) ADG, регулировка значений ADG(L) и ADG(R) ADG может выполняться препроцессором, а не декодером MPS.If the parameters ADG (L) and ADG (R) ADG are determined, the parameters ADG (L) and ADG (R) ADG are quantized using the quantization table ADG, and the quantized ADG values are transmitted. If there is a need for further fine-tuning of the ADG (L) and ADG (R) ADG values, the ADG (L) and ADG (R) ADG values can be adjusted by the preprocessor, not the MPS decoder.

Количество и интервал полос параметров для представления сигналов объекта в битовом потоке объекта могут быть отличными от количества и интервала полос параметров, используемых в многоканальном декодере. В данном случае полосы параметров битового потока объекта могут линейно отображаться на полосы параметров многоканального декодера. Более конкретно, если некоторая полоса параметров битового потока объекта распределяется по двум полосам параметров многоканального декодера, может выполняться линейное отображение, так что некоторая полоса параметров битового потока объекта может быть разделена в соответствии с отношением, с которым соответствующая полоса параметров распределяется между двумя полосами параметров многоканального декодера. С другой стороны, если более одной полосы параметров битового потока объекта включено в некоторую полосу параметров многоканального декодера, могут усредняться значения параметров битового потока объекта. Альтернативно, отображение полосы параметров может выполняться с использованием существующей таблицы отображения полосы параметров многоканального стандарта.The number and interval of parameter bands for representing the object signals in the object bitstream may be different from the number and interval of parameter bands used in a multi-channel decoder. In this case, the parameter bands of the object bitstream can be mapped linearly onto the parameter bands of the multi-channel decoder. More specifically, if a certain parameter band of an object bitstream is distributed across two parameter bands of a multichannel decoder, a linear mapping can be performed so that a certain parameter band of an object bitstream can be divided in accordance with the ratio with which a corresponding parameter band is distributed between two parameter bands of a multichannel decoder. decoder. On the other hand, if more than one parameter band of the object bitstream is included in some parameter band of the multi-channel decoder, the parameter values of the object bitstream can be averaged. Alternatively, parameter band mapping may be performed using an existing multi-channel standard parameter strip mapping table.

Когда кодирование объекта используется для телеконференции, голоса различных людей соответствуют сигналам объекта. Декодер объектов выводит голоса, соответственно, соответствующие сигналам объекта, на определенные громкоговорители. Однако, когда более одного человека говорят одновременно, то трудно декодеру объектов распределять надлежащим образом голоса людей по различным громкоговорителям при помощи декодирования, и рендеринг голосов людей может вызывать искажения звука и снижение качества звука. Чтобы принять меры по этому поводу, информация, указывающая, говорит ли более одного человека одновременно, может включаться в битовый поток. Тогда, если определяется, основываясь на информации, что более одного человека разговаривают одновременно, канало-базированный битовый поток может модифицироваться, так что с трудом декодируемые сигналы, почти подобные сигналам понижающего смешивания, могут выводиться на каждый громкоговоритель.When encoding an object is used for teleconferencing, the voices of various people correspond to the signals of the object. The object decoder outputs voices correspondingly corresponding to the object signals to certain speakers. However, when more than one person is speaking at the same time, it is difficult for the object decoder to appropriately distribute people's voices to different speakers using decoding, and rendering people's voices can cause sound distortion and lower sound quality. To take action on this subject, information indicating whether more than one person is speaking at the same time may be included in the bitstream. Then, if it is determined, based on the information that more than one person is talking at the same time, the channel-based bitstream can be modified, so that hard-to-decode signals, almost similar to down-mix signals, can be output to each speaker.

Например, предположим, что имеется три человека a, b и c, и голоса трех человек a, b и с необходимо декодировать и, таким образом, выводить на громкоговорители А, В и С соответственно. Когда три человека a, b и с одновременно разговаривают, голоса трех людей a, b и с все могут быть включены в сигнал понижающего смешивания, который получается посредством выполнения понижающего смешивания сигналов объекта, представляющих соответственно голоса трех людей a, b и с. В данном случае информация, касающаяся частей сигнала понижающего смешивания, соответствующих соответственно голосам трех людей a, b и с, может конфигурироваться как многоканальный битовый поток. Тогда сигнал понижающего смешивания может декодироваться с использованием обычного способа декодирования объектов, так что голоса трех человек a, b и с могут выводиться на громкоговорители А, В и С соответственно. Выходные сигналы каждого громкоговорителя А, В и С, однако, могут искажаться и могут, таким образом, иметь более низкий процент правильного распознавания, чем исходный сигнал понижающего смешивания. Кроме того, голоса трех человек a, b и с не могут быть надлежащим образом изолированы друг от друга. Чтобы решить этот вопрос, информация, указывающая, что проговариваются одновременные произнесения трех человек a, b и с, может включаться в битовый поток. Тогда транскодер может генерировать многоканальный битовый поток, так что сигнал понижающего смешивания, полученный посредством понижающего смешивания сигналов объекта, соответствующих соответственно голосам трех человек a, b и с, может выводиться на каждый громкоговоритель А, В и С в том виде, в каком он есть. Таким образом можно предотвратить искажения сигнала.For example, suppose there are three people a, b, and c, and the voices of three people a, b, and c need to be decoded, and thus output to speakers A, B, and C, respectively. When three people a, b and c are simultaneously talking, the voices of three people a, b and c can all be included in the downmix signal, which is obtained by downmixing the object signals representing the voices of three people a, b and c respectively. In this case, information regarding portions of the downmix signal corresponding respectively to the voices of three people a, b and c can be configured as a multi-channel bitstream. Then the downmix signal can be decoded using the usual method of decoding objects, so that the voices of three people a, b and c can be output to the speakers A, B and C, respectively. The outputs of each speaker A, B, and C, however, may be distorted and may thus have a lower percentage of correct recognition than the original downmix signal. In addition, the voices of three people a, b and c cannot be properly isolated from each other. To solve this issue, information indicating that the simultaneous utterances of three people a, b and c are spoken, can be included in the bitstream. Then the transcoder can generate a multi-channel bitstream, so that the down-mix signal obtained by down-mixing the object signals corresponding to the voices of three people a, b and c, respectively, can be output to each loudspeaker A, B and C in the form in which it is . In this way, signal distortion can be prevented.

В действительности, когда более одного человека разговаривают одновременно, трудно изолировать голос каждого человека. Поэтому качество звука может быть более высоким, когда сигнал понижающего смешивания выводится как есть, чем тогда, когда выполняется рендеринг сигнала понижающего смешивания, так что голоса различных людей могут изолироваться друг от друга и могут выводиться на различные громкоговорители. Для этого транскодер может генерировать многоканальный битовый поток, так что сигнал понижающего смешивания, полученный от одновременных произнесений более одного человека, может выводиться на все громкоговорители или что сигнал понижающего смешивания может усиливаться и затем выводиться на громкоговорители.In fact, when more than one person is talking at the same time, it is difficult to isolate each person’s voice. Therefore, the sound quality may be higher when the downmix signal is output as it is than when the downmix signal is rendered so that voices of different people can be isolated from each other and can be output to different speakers. To this end, the transcoder can generate a multi-channel bitstream, so that the down-mix signal obtained from the simultaneous pronunciations of more than one person can be output to all speakers or that the down-mix signal can be amplified and then output to the speakers.

Чтобы указать, происходит ли сигнал понижающего смешивания битового потока объекта из одновременных произнесений одного или нескольких человек, кодер объектов может модифицировать соответствующим образом битовый поток объекта вместо обеспечения добавочной информации, как описано выше. В данном случае декодер объектов может выполнять обычную операцию декодирования битового потока объекта, так что сигнал понижающего смешивания может выводиться на громкоговорители в том виде, в каком он есть, или что сигнал понижающего смешивания может усиливаться, но не до такой степени, что имеют место искажения сигнала, и затем выводиться на громкоговорители.To indicate whether an object bit-down mixing signal occurs from the simultaneous utterances of one or more people, the object encoder can modify the object bit stream accordingly instead of providing additional information as described above. In this case, the object decoder can perform the usual operation of decoding the object bitstream, so that the downmix signal can be output to the speakers as it is, or that the downmix signal can be amplified, but not to the extent that distortion occurs signal, and then output to the speakers.

Ниже в данном документе подробно описывается трехмерная информация, такая как HRTF, которая предоставляется многоканальному декодеру.Below in this document, three-dimensional information, such as HRTF, that is provided to a multi-channel decoder is described in detail.

Когда декодер объектов работает в бинауральном режиме, многоканальный декодер в декодере объектов также работает в бинауральном режиме. Конечный пользователь может передавать трехмерную информацию, такую как HRTF, которая оптимизируется на основе пространственных положений сигналов объекта, на многоканальный декодер.When the object decoder operates in binaural mode, the multi-channel decoder in the object decoder also operates in binaural mode. The end user can transmit three-dimensional information, such as HRTF, which is optimized based on the spatial positions of the object signals, to a multi-channel decoder.

Более конкретно, когда имеется два сигнала объекта, т.е. OBJECT1 и OBJECT2, и два сигнала OBJECT1 и OBJECT2 объекта располагаются в положениях 1 и 2 соответственно, генератор матрицы рендеринга или транскодер могут иметь трехмерную информацию, указывающую положения сигналов OBJECT1 и OBJECT2 объекта. Если генератор матрицы рендеринга имеет трехмерную информацию, указывающую положения сигналов OBJECT1 и OBJECT2 объекта, генератор матрицы рендеринга может передавать трехмерную информацию, указывающую положения сигналов OBJECT1 и OBJECT2 объекта, на транскодер. С другой стороны, если транскодер имеет трехмерную информацию, указывающую положения сигналов OBJECT1 и OBJECT2 объекта, генератор матрицы рендеринга может передавать только индексную информацию, соответствующую трехмерной информации, на транскодер.More specifically, when there are two object signals, i.e. OBJECT1 and OBJECT2, and two signals of OBJECT1 and OBJECT2 of the object are located in positions 1 and 2, respectively, the generator of the rendering matrix or transcoder can have three-dimensional information indicating the position of signals of OBJECT1 and OBJECT2 of the object. If the generator of the rendering matrix has three-dimensional information indicating the positions of the signals OBJECT1 and OBJECT2 of the object, the generator of the rendering matrix can transmit three-dimensional information indicating the positions of the signals OBJECT1 and OBJECT2 of the object to the transcoder. On the other hand, if the transcoder has three-dimensional information indicating the position of the object signals OBJECT1 and OBJECT2, the rendering matrix generator can only transmit index information corresponding to the three-dimensional information to the transcoder.

В данном случае бинауральный сигнал может генерироваться на основе трехмерной информации, задающей положения 1 и 2, как указано уравнением (18):In this case, the binaural signal can be generated based on three-dimensional information specifying the positions 1 and 2, as indicated by equation (18):

[Уравнение 18][Equation 18]

Figure 00000019
Figure 00000019

Многоканальный бинауральный декодер получает бинауральный звук посредством выполнения декодирования с предположением, что 5.1-канальная система громкоговорителей будет использоваться для воспроизведения звука, и бинауральный звук может быть представлен уравнением (19):A multi-channel binaural decoder receives binaural sound by performing decoding on the assumption that a 5.1-channel speaker system will be used to reproduce sound, and binaural sound can be represented by equation (19):

[Уравнение 19][Equation 19]

Figure 00000020
Figure 00000020

Составляющая L-канала сигнала OBJECT1 объекта может быть представлена уравнением (20):The L-channel component of the OBJECT1 signal of the object can be represented by equation (20):

[Уравнение 20][Equation 20]

Figure 00000021
Figure 00000021

Составляющая R-канала сигнала OBJECT1 объекта и составляющие L- и R-каналов сигнала OBJECT2 объекта все могут определяться посредством использования уравнения (20).The component of the R-channel of the signal OBJECT1 of the object and the components of the L- and R-channels of the signal OBJECT2 of the object can all be determined using equation (20).

Например, если отношения уровней энергии сигналов OBJECT1 и OBJECT2 объекта к суммарному уровню энергии равны a и b соответственно, отношение части сигнала OBJECT1 объекта, распределенной FL-каналу, ко всему сигналу OBJECT1 объекта равно с и отношение части сигнала OBJECT2 объекта, распределенной FL-каналу, ко всему сигналу OBJECT2 объекта равно d, отношение, с которым сигналы OBJECT1 и OBJECT2 объекта распределяются FL-каналу, равно ac:bd. В данном случае HRTF FL-канала может определяться так, как указано уравнением (21):For example, if the ratio of the energy levels of the OBJECT1 and OBJECT2 signals of the object to the total energy level is a and b, respectively, the ratio of the part of the signal OBJECT1 of the object distributed to the FL channel to the entire signal OBJECT1 of the object is equal to c and the ratio of the part of the signal OBJECT2 of the object distributed to the FL channel , to the whole signal OBJECT2 of the object is d, the ratio with which the signals OBJECT1 and OBJECT2 of the object are distributed to the FL channel is ac: bd. In this case, the HRTF of the FL channel can be determined as indicated by equation (21):

[Уравнение 21][Equation 21]

Figure 00000022
Figure 00000022

Таким образом может быть получена трехмерная информация для использования в многоканальном бинауральном декодере. Так как трехмерная информация для использования в многоканальном бинауральном декодере лучше представляет фактические положения сигналов объекта, то можно более живо воспроизводить бинауральные сигналы посредством бинаурального декодирования, использующего трехмерную информацию для использования в многоканальном бинауральном декодере, чем при выполнении многоканального декодирования, использующего трехмерную информацию, соответствующую положениям пяти громкоговорителей.In this way, three-dimensional information for use in a multi-channel binaural decoder can be obtained. Since three-dimensional information for use in a multi-channel binaural decoder better represents the actual position of the object signals, it is possible to reproduce binaural signals more vividly through binaural decoding using three-dimensional information for use in a multi-channel binaural decoder than when performing multi-channel decoding using three-dimensional information corresponding to the positions five loudspeakers.

Как описано выше, трехмерная информация для использования в многоканальном бинауральном декодере может вычисляться на основе трехмерной информации, представляющей пространственные положения сигналов объекта, и информации об отношении энергий. Альтернативно, трехмерная информация для использования в многоканальном бинауральном декодере может генерироваться посредством соответствующего выполнения декорреляции при добавлении трехмерной информации, представляющей пространственные положения сигналов объекта, основанные на информации о ICC сигналов объекта.As described above, three-dimensional information for use in a multi-channel binaural decoder can be calculated based on three-dimensional information representing the spatial position of the object signals and information about the ratio of energies. Alternatively, three-dimensional information for use in a multi-channel binaural decoder may be generated by appropriately performing decorrelation by adding three-dimensional information representing the spatial positions of the object signals based on the ICC information of the object signals.

Обработка эффектов может выполняться как часть предварительной обработки. Альтернативно, результат обработки эффектов может просто добавляться к выходному сигналу многоканального декодера. В первом случае, чтобы выполнить обработку эффектов над сигналом объекта, может потребоваться выполнение извлечения сигнала объекта в дополнение к разделению сигнала L-канала на L_L и L_R и разделению сигнала R-канала на R_R и R_L.Effect processing can be performed as part of pre-processing. Alternatively, the effect processing result may simply be added to the output of the multi-channel decoder. In the first case, in order to perform effects processing on the object signal, it may be necessary to extract the object signal in addition to dividing the L-channel signal into L_L and L_R and dividing the R-channel signal into R_R and R_L.

Более конкретно, сначала может извлекаться сигнал объекта из сигналов L- и R-каналов. Затем сигнал L-канала может разделяться на L_L и L_R, и сигнал R-канала может разделяться на R_R и R_L. Обработка эффектов может выполняться над сигналом объекта. Затем сигнал объекта с обработанными эффектами может разделяться на составляющие L- и R-каналов в соответствии с матрицей рендеринга. После этого составляющая L-канала сигнала объекта с обработанными эффектами может добавляться к L_L и R_L, и составляющая R-канала сигнала объекта с обработанными эффектами может добавляться к R_R и L_R.More specifically, an object signal may first be extracted from the L- and R-channel signals. Then, the L-channel signal may be divided into L_L and L_R, and the R-channel signal may be divided into R_R and R_L. Processing effects can be performed on the signal of the object. Then the signal of the object with the processed effects can be divided into the components of the L- and R-channels in accordance with the rendering matrix. After that, the L-channel component of the object signal with the processed effects can be added to L_L and R_L, and the R-channel component of the object signal with the processed effects can be added to R_R and L_R.

Альтернативно, сначала могут генерироваться предварительно обработанные сигналы L и R L- и R-каналов. После этого сигнал объекта может извлекаться из предварительно обработанных сигналов L и R L- и R-каналов. После этого может выполняться обработка эффектов над сигналом объекта, и результат обработки эффектов может добавляться обратно к предварительно обработанным сигналам L- и R-каналов.Alternatively, pre-processed L and R L- and R-channel signals may be generated first. After that, the object signal can be extracted from the pre-processed L and R signals of the L and R channels. After that, the processing of effects on the object signal can be performed, and the result of the processing of effects can be added back to the pre-processed signals of the L- and R-channels.

Спектр сигнала объекта может модифицироваться при помощи обработки эффектов. Например, может селективно увеличиваться уровень части с высоким тоном или части с низким тоном сигнала объекта. Для этого может модифицироваться только часть спектра, соответствующая части с высоким тоном или части с низким тоном сигнала объекта. В данном случае относящаяся к объекту информация, включенная в битовый поток объекта, может потребовать модифицирования соответствующим образом. Например, если уровень части с низким тоном некоторого сигнала объекта увеличивается, энергия части с низким тоном некоторого сигнала объекта также может увеличиваться. Таким образом, информация об энергии, включенная в битовый поток объекта, не представляет больше надлежащим образом энергию некоторого сигнала объекта. Чтобы решить этот вопрос, информация об энергии, включенная в битовый поток объекта, может непосредственно модифицироваться в соответствии с изменением энергии некоторого сигнала объекта. Альтернативно, информация об изменении спектра, обеспечиваемая транскодером, может применяться к образованию многоканального битового потока, так что изменение энергии некоторого сигнала объекта может отражаться в многоканальный битовый поток.The signal spectrum of an object can be modified using effects processing. For example, the level of a high-tone part or a low-tone part of an object signal may selectively increase. For this, only a part of the spectrum corresponding to a part with a high tone or a part with a low tone of an object signal can be modified. In this case, information related to the object included in the bitstream of the object may require modification accordingly. For example, if the level of the low-tone part of some object signal increases, the energy of the low-tone part of some object signal can also increase. Thus, energy information included in an object bitstream no longer properly represents the energy of an object signal. To solve this issue, the energy information included in the bitstream of the object can be directly modified in accordance with the change in energy of some signal of the object. Alternatively, the spectrum change information provided by the transcoder can be applied to the formation of a multi-channel bit stream, so that the energy change of some object signal can be reflected in the multi-channel bit stream.

Фиг.28-33 иллюстрируют схемы для объяснения включения множества порций объектно-базированной дополнительной информации и множества сигналов понижающего смешивания в порцию дополнительной информации и сигнал понижающего смешивания. В случае телеконференции иногда необходимо комбинировать множество порций объектно-базированной дополнительной информации и множество сигналов понижающего смешивания в дополнительную информацию и сигнал понижающего смешивания. В данном случае необходимо рассмотреть некоторое количество факторов.28-33 illustrate diagrams for explaining including a plurality of portions of object-based additional information and a plurality of downmix signals in a portion of additional information and a downmix signal. In the case of a teleconference, it is sometimes necessary to combine a plurality of portions of object-based additional information and a plurality of downmix signals into additional information and a downmix signal. In this case, it is necessary to consider a number of factors.

Фиг.28 иллюстрирует схему объектно-кодированного битового потока. Как показано на фиг.28, объектно-кодированный битовый поток включает в себя сигнал понижающего смешивания и дополнительную информацию. Сигнал понижающего смешивания синхронизируется с дополнительной информацией. Поэтому объектно-кодированный битовый поток легко может декодироваться без учета дополнительных факторов. Однако в случае объединения множества битовых потоков в единственный битовый поток необходимо убедиться, что сигнал понижающего смешивания единственного битового потока синхронизирован с дополнительной информацией единственного битового потока.FIG. 28 illustrates an object encoded bitstream diagram. As shown in FIG. 28, the object-encoded bitstream includes a downmix signal and additional information. The downmix signal is synchronized with additional information. Therefore, an object-encoded bitstream can easily be decoded without taking into account additional factors. However, in the case of combining multiple bit streams into a single bit stream, you must make sure that the down-mix signal of a single bit stream is synchronized with additional information of a single bit stream.

Фиг.29 иллюстрирует схему для объяснения объединения множества объектно-кодированных битовых потоков BS1 и BS2. Как показано на фиг.29, позиции 1, 2 и 3 указывают номера кадров. Чтобы объединить множество сигналов понижающего смешивания в единственный сигнал понижающего смешивания, сигналы понижающего смешивания могут преобразовываться в сигналы импульсно-кодовой модуляции (ИКМ), может выполняться понижающее смешивание ИКМ-сигналов во временной области, и ИКМ-сигнал с пониженным смешиванием может преобразовываться в формат кодека сжатия. Во время этих процессов может генерироваться задержка d, как изображено на фиг.29(b). Поэтому, когда подлежащий декодированию битовый поток получается посредством объединения множества битовых потоков, необходимо убедиться, что сигнал понижающего смешивания подлежащего декодированию битового потока надлежащим образом синхронизирован с дополнительной информацией подлежащего декодированию битового потока.29 is a diagram for explaining a combination of a plurality of object-encoded bitstreams BS1 and BS2. As shown in FIG. 29, positions 1, 2, and 3 indicate frame numbers. To combine multiple downmix signals into a single downmix signal, the downmix signals can be converted to pulse code modulation (PCM) signals, downmix of the PCM signals in the time domain can be performed, and the downmix PCM signal can be converted to the codec format compression. During these processes, a delay d may be generated, as shown in FIG. 29 (b). Therefore, when a bitstream to be decoded is obtained by combining a plurality of bit streams, it must be ensured that the down-mix signal of the bit stream to be decoded is properly synchronized with the additional information of the bit stream to be decoded.

Если задана задержка между сигналом понижающего смешивания и дополнительной информацией битового потока, битовый поток может компенсироваться предварительно определенной величиной, соответствующей задержке. Задержка между сигналом понижающего смешивания и дополнительной информацией битового потока может изменяться в соответствии с типом кодека сжатия, используемого для генерирования сигнала понижающего смешивания. Поэтому бит, указывающий задержку, если есть какая-либо, между сигналом понижающего смешивания и дополнительной информацией битового потока, может включаться в дополнительную информацию.If a delay is set between the down-mix signal and the additional bitstream information, the bitstream can be compensated for by a predetermined value corresponding to the delay. The delay between the downmix signal and the additional bitstream information may vary in accordance with the type of compression codec used to generate the downmix signal. Therefore, a bit indicating the delay, if any, between the down-mix signal and the additional information of the bit stream may be included in the additional information.

Фиг.30 иллюстрирует объединение двух битовых потоков BS1 и BS2 в единственный битовый поток, когда сигналы понижающего смешивания битовых потоков BS1 и BS2 генерируются различными типами кодеков или конфигурация дополнительной информации битового потока BS1 отличается от конфигурации дополнительной информации битового потока BS2. Как показано на фиг.30, когда сигналы понижающего смешивания битовых потоков BS1 и BS2 генерируются различными типами кодеков или конфигурация дополнительной информации битового потока BS1 отличается от конфигурации дополнительной информации битового потока BS2, может быть определено, что битовые потоки BS1 и BS2 имеют различные задержки d1 и d2 сигнала, возникающие в результате преобразования сигналов понижающего смешивания в сигналы временной области и преобразования сигналов временной области с использованием единственного кодека сжатия. В данном случае, если битовые потоки BS1 и BS2 просто суммируются без учета различных задержек сигнала, сигнал понижающего смешивания битового потока BS1 может быть неправильно выровнен с сигналом понижающего смешивания BS2 и дополнительная информация битового потока BS1 может быть неправильно выровнена с дополнительной информацией битового потока BS2. Чтобы решить этот вопрос, сигнал понижающего смешивания битового потока BS1, который задерживается на d1, может дополнительно задерживаться так, чтобы он синхронизировался с сигналом понижающего смешивания битового потока BS2, который задержан на d2. Тогда битовые потоки BS1 и BS2 могут комбинироваться с использованием одного и того же способа варианта осуществления по фиг.30. Если имеется более одного битового потока для объединения, тот битовый поток, который имеет наибольшую задержку, может использоваться в качестве эталонного битового потока, и тогда другие битовые потоки могут дополнительно задерживаться так, чтобы они синхронизировались с эталонным битовым потоком. Бит, указывающий задержку между сигналом понижающего смешивания и дополнительной информацией, может включаться в битовый поток объекта.30 illustrates combining two bitstreams BS1 and BS2 into a single bitstream when down-mixing signals of bitstreams BS1 and BS2 are generated by different types of codecs or the configuration of the additional information of the bitstream BS1 is different from the configuration of the additional information of the bitstream BS2. As shown in FIG. 30, when the down-mix signals of the bit streams BS1 and BS2 are generated by different types of codecs or the configuration of the additional information of the bitstream BS1 is different from the configuration of the additional information of the bitstream BS2, it can be determined that the bit streams BS1 and BS2 have different delays d1 and d2 signals resulting from converting the downmix signals to time-domain signals and converting the time-domain signals using a single compression codec. In this case, if the bitstreams BS1 and BS2 are simply summed without regard to various signal delays, the downmix signal of the bitstream BS1 may not be aligned correctly with the downmix signal BS2 and the additional information of the bitstream BS1 may not be aligned correctly with the additional information of the bitstream BS2. To solve this issue, the down-mix signal of the bitstream BS1, which is delayed by d1, can be further delayed so that it is synchronized with the down-mix signal of the bitstream BS2, which is delayed by d2. Then, the bitstreams BS1 and BS2 can be combined using the same method of the embodiment of FIG. 30. If there is more than one bitstream to combine, the bitstream that has the greatest delay can be used as the reference bitstream, and then other bitstreams can be further delayed so that they synchronize with the reference bitstream. A bit indicating the delay between the downmix signal and the additional information may be included in the object bitstream.

Может обеспечиваться бит, указывающий, имеется ли задержка сигнала в битовом потоке. Если только информация о бите указывает, что имеется задержка сигнала в битовом потоке, то может дополнительно обеспечиваться информация, определяющая задержку сигнала. Таким образом можно минимизировать количество информации, необходимое для указания задержки сигнала, если есть какая-либо, в битовом потоке.A bit may be provided indicating whether there is a signal delay in the bitstream. If only the bit information indicates that there is a signal delay in the bit stream, then information determining the signal delay can be further provided. In this way, the amount of information needed to indicate the signal delay, if any, in the bitstream can be minimized.

Фиг.32 иллюстрирует схему для объяснения того, как компенсировать один или два битовых потока BS1 и BS2, имеющих различные задержки сигнала, посредством разности между различными задержками сигнала, и в частности, как компенсировать битовый поток BS2, который имеет более длительную задержку сигнала, чем битовый поток BS1. Как показано на фиг.32, первый-третий кадры дополнительной информации битового потока BS1 все могут использоваться в том виде, в каком они есть. С другой стороны, первый-третий кадры дополнительной информации битового потока BS2 не могут использоваться в том виде, в каком они есть, так как первый-третий кадры дополнительной информации битового потока BS2 не синхронизируются соответствующим образом с первым-третьим кадрами дополнительной информации битового потока BS1. Например, второй кадр дополнительной информации битового потока BS1 соответствует не только части первого кадра дополнительной информации битового потока BS2, но также части второго кадра дополнительной информации битового потока BS2. Может быть вычислено соотношение части второго кадра дополнительной информации битового потока BS2, соответствующей второму кадру дополнительной информации битового потока BS1, со всем вторым кадром дополнительной информации битового потока BS2, и соотношение части первого кадра дополнительной информации битового потока BS2, соответствующей второму кадру дополнительной информации битового потока BS1, со всем первым кадром дополнительной информации битового потока BS2, и первый и второй кадры дополнительной информации битового потока BS2 могут усредняться или интерполироваться на основе результатов вычисления. Таким образом первый-третий кадры дополнительной информации битового потока BS2 могут синхронизироваться соответствующим образом с первым-третьим кадрами дополнительной информации битового потока BS1, как изображено на фиг.32(b). Тогда дополнительная информация битового потока BS1 и дополнительная информация битового потока BS2 могут объединяться с использованием способа варианта осуществления по фиг.29. Сигналы понижающего смешивания битовых потоков BS1 и BS2 могут объединяться в единственный сигнал понижающего смешивания без необходимости компенсации задержки. В данном случае информация о задержке, соответствующая задержке d1 сигнала, может сохраняться в объединенном битовом потоке, полученном посредством объединения битовых потоков BS1 и BS2.32 illustrates a diagram for explaining how to compensate for one or two bitstreams BS1 and BS2 having different signal delays by a difference between different signal delays, and in particular, how to compensate for a bitstream BS2 that has a longer signal delay than bitstream BS1. As shown in FIG. 32, the first to third frames of additional information of the bitstream BS1 can all be used as they are. On the other hand, the first to third frames of the additional information of the bitstream BS2 cannot be used as they are, since the first to third frames of the additional information of the bitstream BS2 are not synchronized accordingly with the first to third frames of the additional information of the bitstream BS1 . For example, a second frame of additional information of bitstream BS1 corresponds not only to a part of the first frame of additional information of bitstream BS2, but also to part of a second frame of additional information of bitstream BS2. The ratio of the portion of the second frame of additional information of the bitstream BS2 corresponding to the second frame of additional information of the bitstream BS1 can be calculated with the entire second frame of additional information of the bitstream BS2, and the ratio of the portion of the first frame of the additional information of bitstream BS2 corresponding to the second frame of the additional information of bitstream BS1, with all the first frame of additional information of the bitstream BS2, and the first and second frames of additional information of the bitstream BS2 could m averaged or interpolated based on the calculation results. Thus, the first to third frames of the additional information of the bitstream BS2 can be synchronized accordingly with the first to third frames of the additional information of the bitstream BS1, as shown in FIG. 32 (b). Then, the additional information of the bitstream BS1 and the additional information of the bitstream BS2 can be combined using the method of the embodiment of FIG. 29. The down-mix signals of the bit streams BS1 and BS2 can be combined into a single down-mix signal without the need for delay compensation. In this case, the delay information corresponding to the delay d1 of the signal may be stored in the combined bitstream obtained by combining the bit streams BS1 and BS2.

Фиг.33 иллюстрирует схему для объяснения того, как компенсировать тот битовый поток из двух битовых потоков, имеющих различные задержки сигнала, который имеет более короткую задержку сигнала. Как показано на фиг.33, первый-третий кадры дополнительной информации битового потока BS2 все могут использоваться в том виде, в каком они есть. С другой стороны, первый-третий кадры дополнительной информации битового потока BS1 не могут использоваться в том виде, в каком они есть, так как первый-третий кадры дополнительной информации битового потока BS1 не синхронизируются соответствующим образом с первым-третьим кадрами дополнительной информации битового потока BS2. Например, первый кадр дополнительной информации битового потока BS2 соответствует не только части первого кадра дополнительной информации битового потока BS1, но также части второго кадра дополнительной информации битового потока BS1. Может вычисляться соотношение части первого кадра дополнительной информации битового потока BS1, соответствующей первому кадру дополнительной информации битового потока BS2, со всем первым кадром дополнительной информации битового потока BS1, и соотношение части второго кадра дополнительной информации битового потока BS1, соответствующей первому кадру дополнительной информации битового потока BS2, со всем вторым кадром дополнительной информации битового потока BS1, и первый и второй кадры дополнительной информации битового потока BS1 могут усредняться или интерполироваться на основе результатов вычисления. Таким образом, первый-третий кадры дополнительной информации битового потока BS1 могут синхронизироваться соответствующим образом с первым-третьим кадрами дополнительной информации битового потока BS2, как изображено на фиг.33(b). Тогда дополнительная информация битового потока BS1 и дополнительная информация битового потока BS2 могут объединяться с использованием способа варианта осуществления по фиг.29. Сигналы понижающего смешивания битовых потоков BS1 и BS2 могут объединяться в единственный сигнал понижающего смешивания без необходимости компенсации задержки, даже если сигналы понижающего смешивания имеют различные задержки сигнала. В данном случае информация о задержке, соответствующая задержке d2 сигнала, может сохраняться в объединенном битовом потоке, полученном посредством объединения битовых потоков BS1 и BS2.33 illustrates a diagram for explaining how to compensate for that bitstream of two bitstreams having different signal delays that has a shorter signal delay. As shown in FIG. 33, the first to third frames of the additional information of the BS2 bitstream can all be used as they are. On the other hand, the first to third frames of the additional information of the bitstream BS1 cannot be used as they are, since the first to third frames of the additional information of the bitstream BS1 are not synchronized accordingly with the first to third frames of the additional information of the bitstream BS2 . For example, the first frame of the additional information of the bitstream BS2 corresponds not only to the portion of the first frame of the additional information of the bitstream BS1, but also to the part of the second frame of the additional information of the bitstream BS1. The ratio of the portion of the first frame of the additional information of the bitstream BS1 corresponding to the first frame of the additional information of the bitstream BS2 can be calculated with the entire first frame of the additional information of the bitstream BS1, and the ratio of the portion of the second frame of the additional information of the bitstream BS1 corresponding to the first frame of the additional information of the bitstream BS2 , with the entire second frame of additional information of the bitstream BS1, and the first and second frames of additional information of the bitstream BS1 can middle or interpolated on the basis of calculation results. Thus, the first to third frames of the additional information of the bitstream BS1 can be synchronized accordingly with the first to third frames of the additional information of the bitstream BS2, as shown in FIG. 33 (b). Then, the additional information of the bitstream BS1 and the additional information of the bitstream BS2 can be combined using the method of the embodiment of FIG. 29. The down-mix signals of the bit streams BS1 and BS2 can be combined into a single down-mix signal without the need for delay compensation, even if the down-mix signals have different signal delays. In this case, the delay information corresponding to the delay d2 of the signal may be stored in the combined bitstream obtained by combining the bit streams BS1 and BS2.

Если множество объектно-кодированных битовых потоков объединяются в единственный битовый поток, сигналы понижающего смешивания объектно-кодированных битовых потоков могут потребовать объединения в единственный сигнал понижающего смешивания. Чтобы объединить множество сигналов понижающего смешивания, соответствующих различным кодекам сжатия в единственные сигналы понижающего смешивания, сигналы понижающего смешивания могут преобразовываться в ИКМ-сигналы или сигналы частотной области и ИКМ-сигналы или сигналы частотной области могут суммироваться в соответствующей области. После этого результат суммирования может преобразовываться с использованием предварительно определенного кодека сжатия. Могут иметь место различные задержки сигнала в соответствии с тем, суммируются ли сигналы понижающего смешивания во время операции ИКМ или суммируются в частотной области и в соответствии с типом кодека сжатия. Так как декодер не может легко распознать различные задержки сигнала из битового потока, подлежащего декодированию, может потребоваться включение в битовый поток информации о задержке, определяющей различные задержки сигнала. Такая информация о задержке может представлять количество отсчетов задержки в ИКМ-сигнале или количество отсчетов задержки в частотной области.If a plurality of object-encoded bit streams are combined into a single bit stream, down-mix signals of object-encoded bit streams may require combining into a single down-mix signal. In order to combine a plurality of downmix signals corresponding to different compression codecs into single downmix signals, the downmix signals can be converted to PCM or frequency domain signals and PCM or frequency domain signals can be summed in the corresponding region. After that, the summation result can be converted using a predefined compression codec. Different signal delays may occur according to whether downmix signals are summed during the PCM operation or are summed in the frequency domain and according to the type of compression codec. Since the decoder cannot easily recognize various signal delays from the bit stream to be decoded, it may be necessary to include delay information in the bit stream defining the various signal delays. Such delay information may represent the number of delay samples in the PCM signal or the number of delay samples in the frequency domain.

Настоящее изобретение может быть реализовано в качестве считываемого компьютером кода, записанного на считываемой компьютером среде записи. Считываемая компьютером среда записи может представлять собой любой тип устройства записи, в котором данные сохраняются считываемым компьютером образом. Примеры считываемой компьютером среды записи включают в себя постоянное запоминающее устройство (ПЗУ), оперативное запоминающее устройство (ОЗУ), компакт-диск, магнитную ленту, дискету, оптический накопитель данных и несущую волну (например, передача данных по Интернету). Считываемая компьютером среда записи может распределяться по множеству компьютерных систем, соединенных в сети, так что считываемый компьютером код записывается на нее и исполняется с нее децентрализованным образом. Функциональные программы, код и сегменты кода, необходимые для реализации настоящего изобретения, легко могут толковаться специалистом в данной области техники.The present invention can be implemented as a computer-readable code recorded in a computer-readable recording medium. The computer-readable recording medium may be any type of recording device in which data is stored in a computer-readable manner. Examples of a computer-readable recording medium include read-only memory (ROM), random access memory (RAM), a compact disk, a magnetic tape, a floppy disk, an optical data storage device, and a carrier wave (e.g., data transmission over the Internet). The computer-readable recording medium can be distributed across a plurality of computer systems connected to the network, so that the computer-readable code is written to it and executed from it in a decentralized manner. Functional programs, code, and code segments needed to implement the present invention can be easily interpreted by a person skilled in the art.

Как описано выше, согласно настоящему изобретению звуковые изображения локализуются для каждого сигнала объекта посредством извлечения пользы из преимуществ способов объектно-базированного кодирования и декодирования аудио. Таким образом, можно предложить более реалистичные звуки во время проигрывания сигналов объекта. Кроме того, настоящее изобретение может быть применимо к интерактивным играм и, таким образом, может предоставлять пользователю более реалистичное впечатление виртуальной реальности.As described above, according to the present invention, audio images are localized for each signal of the object by taking advantage of the advantages of object-based encoding and decoding of audio. Thus, it is possible to offer more realistic sounds while playing back object signals. In addition, the present invention can be applied to interactive games, and thus can provide the user with a more realistic virtual reality experience.

Хотя настоящее изобретение было конкретно показано и описано со ссылкой на его примерные варианты осуществления, для специалиста в данной области техники понятно, что в нем могут быть сделаны различные изменения в форме и деталях без отступления от сущности и объема настоящего изобретения, определяемого нижеследующей формулой изобретения.Although the present invention has been specifically shown and described with reference to its exemplary embodiments, it is understood by a person skilled in the art that various changes in form and detail can be made therein without departing from the spirit and scope of the present invention as defined by the following claims.

Claims (11)

1. Способ декодирования аудио, содержащий следующие шаги:
осуществляют прием сигнала понижающего смешивания, объектно-базированную дополнительную информацию и управляющую информацию, причем сигнал понижающего смешивания получают путем понижающего смешивания множества сигналов объекта и управляющей информации, управляющей положением или уровнем указанного сигнала объекта, включенного в понижающий сигнал смешивания:
извлекают метаданные, включающие в себя описание сигнала объекта, из объектно-базированной дополнительной информации;
генерируют информацию параметра и информацию пространственного параметра путем использования управляющей информации и объектно-базированной дополнительной информации, при этом информация параметра используется для предварительной обработки сигнала понижающего смешивания, а информация пространственного параметра используется для генерирования многоканального аудиосигнала:
осуществляют предварительную обработку положения или уровня сигнала объекта, включенного в сигнал понижающего смешивания, путем наложения информации параметра к сигналу понижающего смешивания: и
генерируют многоканальный аудиосигнал путем использования предварительного обработанного сигнала понижающего смешивания, информации пространственного параметра и управляющей информации,
при этом в метаданных используется текстовый формат.
1. An audio decoding method comprising the following steps:
receiving a downmix signal, object-based additional information and control information, wherein a downmix signal is obtained by downmixing a plurality of object signals and control information that controls the position or level of a specified object signal included in the downmix signal:
extracting metadata, including a description of the object signal, from object-based additional information;
generate parameter information and spatial parameter information by using control information and object-based additional information, the parameter information is used to pre-process the downmix signal, and the spatial parameter information is used to generate a multi-channel audio signal:
pre-processing the position or signal level of the object included in the downmix signal by superimposing the parameter information to the downmix signal: and
generating a multi-channel audio signal by using the pre-processed downmix signal, spatial parameter information and control information,
while the metadata uses a text format.
2. Способ декодирования аудио по п.1, в котором метаданные содержат, по меньшей мере, одно из: числа, соответствующего сигналу объекта, и описания сигнала объекта.2. The method of decoding audio according to claim 1, in which the metadata contains at least one of: a number corresponding to the signal of the object, and a description of the signal of the object. 3. Способ декодирования аудио по п.1, в котором метаданные включены в заголовок объектно-базированной дополнительной информации.3. The audio decoding method of claim 1, wherein the metadata is included in the header of the object-based additional information. 4. Способ кодирования аудио, содержащий следующие шаги:
генерируют сигнал понижающего смешивания посредством понижающего смешивания множества сигналов объекта;
генерируют объектно-базированную дополнительную информацию из множества сигналов объекта;
осуществляют вставление метаданных, представляющих описание сигнала объекта, в объектно-базированную дополнительную информацию, и
генерируют битовый поток посредством комбинирования сигнала понижающего смешивания и объектно-базированной дополнительной информации, в которую вставлены метаданные.
4. An audio encoding method comprising the following steps:
generating a downmix signal by downmixing a plurality of object signals;
generating object-based additional information from a plurality of object signals;
inserting metadata representing an object signal description into object-based additional information, and
generating a bitstream by combining a downmix signal and object-based additional information into which metadata is inserted.
5. Устройство декодирования аудио, содержащее:
демультиплексор, конфигурированный для извлечения сигнала понижающего смешивания, объектно-базированной дополнительной информации и управляющей информации из введенного аудиосигнала, причем сигнал понижающего смешивания получен путем понижающего смешивания множества сигналов объекта и управляющей информации, управляющей положением или уровнем указанного сигнала объекта, включенного в понижающий сигнал смешивания:
конвертер параметра, конфигурированный для извлечения метаданных, представляющих описание сигнала объекта, из объектно-базированной дополнительной информации, и для генерирования информации параметра и информации пространственного параметра путем использования управляющей информации и объектно-базированной дополнительной информации, при этом информация параметра используется для предварительной обработки сигнала понижающего смешивания, а информация пространственного параметра используется для генерирования многоканального аудиосигнала:
препроцессор, конфигурированный для предварительной обработки положения или уровня сигнала объекта, включенного в сигнал понижающего смешивания, путем наложения информации параметра к сигналу понижающего смешивания: и
многоканальный декодер, конфигурированный для повышающего микширования предварительного обработанного сигнала понижающего смешивания путем использования информации пространственного параметра,
при этом в метаданных используется текстовый формат.
5. An audio decoding apparatus comprising:
a demultiplexer configured to extract the downmix signal, object-based additional information and control information from the inputted audio signal, wherein the downmix signal is obtained by downmixing a plurality of object signals and control information controlling the position or level of the signal of the object included in the downmix signal:
a parameter converter configured to extract metadata representing the description of the object signal from object-based additional information, and to generate parameter information and spatial parameter information by using control information and object-based additional information, wherein the parameter information is used to preprocess the downmix signal mixing, and spatial parameter information is used to generate multi-channel sound signal:
a preprocessor configured to pre-process the position or signal level of the object included in the downmix signal by superimposing the parameter information to the downmix signal: and
a multi-channel decoder configured to upmix a pre-processed downmix signal by using spatial parameter information,
while the metadata uses a text format.
6. Устройство по п.5, в котором метаданные содержат, по меньшей мере, одно из: числа, соответствующего сигналу объекта, и описания сигнала объекта.6. The device according to claim 5, in which the metadata contains at least one of: a number corresponding to the signal of the object, and a description of the signal of the object. 7. Устройство по п.5, в котором метаданные включены в заголовок объектно-базированной дополнительной информации.7. The device according to claim 5, in which metadata is included in the header of the object-based additional information. 8. Считываемая процессором среда записи, на которой записана программа для выполнения способа по п.1 в процессоре.8. The processor-readable recording medium on which the program is recorded to execute the method according to claim 1 in the processor. 9. Считываемая компьютером среда записи, имеющая записанную на ней компьютерную программу для выполнения способа декодирования аудио, содержащего:
прием сигнала понижающего смешивания, объектно-базированной дополнительной информации и управляющей информации, причем сигнал понижающего смешивания получен путем понижающего смешивания множества сигналов объекта и управляющей информации, управляющей положением или уровнем указанного сигнала объекта, включенного в понижающий сигнал смешивания;
извлечение метаданных, включающих в себя описание сигнала объекта, из объектно-базированной дополнительной информации;
генерирование информации параметра и информации пространственного параметра путем использования управляющей информации и объектно-базированной дополнительной информации, при этом информация параметра используется для предварительной обработки сигнала понижающего смешивания, а информация пространственного параметра используется для генерирования многоканального аудиосигнала;
предварительную обработку положения или уровня сигнала объекта, включенного в сигнал понижающего смешивания, путем наложения информации параметра к сигналу понижающего смешивания; и
повышающее микширование предварительного обработанного сигнала понижающего смешивания путем использования информации пространственного параметра;
при этом в метаданных используется текстовый формат.
9. A computer-readable recording medium having a computer program recorded thereon for performing an audio decoding method comprising:
receiving a downmix signal, object-based additional information, and control information, wherein the downmix signal is obtained by downmixing a plurality of object signals and control information controlling a position or level of said object signal included in the downmix signal;
extracting metadata, including an object signal description, from object-based additional information;
generating parameter information and spatial parameter information by using control information and object-based additional information, wherein the parameter information is used for preprocessing the downmix signal, and the spatial parameter information is used to generate a multi-channel audio signal;
pre-processing the position or signal level of the object included in the downmix signal by superimposing the parameter information to the downmix signal; and
upmixing the pre-processed downmix signal by using spatial parameter information;
while the metadata uses a text format.
10. Считываемая компьютером среда записи по п.9, в которой метаданные включены в заголовок объектно-базированной дополнительной информации.10. The computer-readable recording medium of claim 9, wherein the metadata is included in the header of the object-based additional information. 11. Считываемая компьютером среда записи, имеющая записанную на ней компьютерную программу для выполнения способа кодирования аудио, содержащего:
генерирование сигнала понижающего смешивания посредством понижающего смешивания множества сигналов объекта:
генерирование объектно-базированной дополнительной информации из множества сигналов объекта; и
вставление метаданных, включающих в себя описание сигнала объекта, в объектно-базированную дополнительную информацию;
генерирование битового потока путем объединения сигнала понижающего смешивания и объектно-базированной дополнительной информации, в которую включены метаданные.
11. A computer-readable recording medium having a computer program recorded thereon for performing an audio encoding method comprising:
generating a downmix signal by downmixing a plurality of object signals:
generating object-based additional information from a plurality of object signals; and
inserting metadata, including an object signal description, into object-based additional information;
generating a bitstream by combining a downmix signal and object-based additional information that includes metadata.
RU2008140140/09A 2007-02-14 2008-02-14 Methods and devices for coding and decoding object-based audio signals RU2406165C2 (en)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US90108907P 2007-02-14 2007-02-14
US60/901,089 2007-02-14
US90164207P 2007-02-16 2007-02-16
US60/901,642 2007-02-16
US60/903,818 2007-02-28
US90768907P 2007-04-13 2007-04-13
US60/907,689 2007-04-13
US60/924,027 2007-04-27
US94762007P 2007-07-02 2007-07-02
US60/947,620 2007-07-02
US60/948,373 2007-07-06

Publications (2)

Publication Number Publication Date
RU2008140140A RU2008140140A (en) 2010-04-20
RU2406165C2 true RU2406165C2 (en) 2010-12-10

Family

ID=42684745

Family Applications (4)

Application Number Title Priority Date Filing Date
RU2008140170/09A RU2394283C1 (en) 2007-02-14 2008-02-14 Methods and devices for coding and decoding object-based audio signals
RU2008140142/09A RU2406166C2 (en) 2007-02-14 2008-02-14 Coding and decoding methods and devices based on objects of oriented audio signals
RU2008140140/09A RU2406165C2 (en) 2007-02-14 2008-02-14 Methods and devices for coding and decoding object-based audio signals
RU2010112585/08A RU2449388C2 (en) 2007-02-14 2010-03-31 Methods and apparatus for encoding and decoding object-based audio signals

Family Applications Before (2)

Application Number Title Priority Date Filing Date
RU2008140170/09A RU2394283C1 (en) 2007-02-14 2008-02-14 Methods and devices for coding and decoding object-based audio signals
RU2008140142/09A RU2406166C2 (en) 2007-02-14 2008-02-14 Coding and decoding methods and devices based on objects of oriented audio signals

Family Applications After (1)

Application Number Title Priority Date Filing Date
RU2010112585/08A RU2449388C2 (en) 2007-02-14 2010-03-31 Methods and apparatus for encoding and decoding object-based audio signals

Country Status (1)

Country Link
RU (4) RU2394283C1 (en)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2585990C2 (en) * 2011-04-20 2016-06-10 Панасоник Интеллекчуал Проперти Корпорэйшн оф Америка Device and method for encoding by huffman method
US9576585B2 (en) 2013-01-28 2017-02-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for normalized audio playback of media with and without embedded loudness metadata of new media devices
RU2643630C1 (en) * 2014-03-24 2018-02-02 Самсунг Электроникс Ко., Лтд. Method and device for rendering acoustic signal and machine-readable record media
RU2667627C1 (en) * 2013-12-27 2018-09-21 Сони Корпорейшн Decoding device, method, and program
US12035130B2 (en) 2022-06-15 2024-07-09 Samsung Electronics Co., Ltd. Method and apparatus for rendering acoustic signal, and computer-readable recording medium

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5609737B2 (en) * 2010-04-13 2014-10-22 ソニー株式会社 Signal processing apparatus and method, encoding apparatus and method, decoding apparatus and method, and program
JP5895050B2 (en) * 2011-06-24 2016-03-30 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. Audio signal processor and method for processing encoded multi-channel audio signals
CN103368682B (en) 2012-03-29 2016-12-07 华为技术有限公司 Signal coding and the method and apparatus of decoding
JP6129348B2 (en) 2013-01-21 2017-05-17 ドルビー ラボラトリーズ ライセンシング コーポレイション Optimization of loudness and dynamic range across different playback devices
RU2630370C9 (en) 2013-02-14 2017-09-26 Долби Лабораторис Лайсэнзин Корпорейшн Methods of management of the interchannel coherence of sound signals that are exposed to the increasing mixing
US9830917B2 (en) 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
TWI618051B (en) * 2013-02-14 2018-03-11 杜比實驗室特許公司 Audio signal processing method and apparatus for audio signal enhancement using estimated spatial parameters
TWI618050B (en) 2013-02-14 2018-03-11 杜比實驗室特許公司 Method and apparatus for signal decorrelation in an audio processing system
EP2830332A3 (en) 2013-07-22 2015-03-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method, signal processing unit, and computer program for mapping a plurality of input channels of an input channel configuration to output channels of an output channel configuration
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830048A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for realizing a SAOC downmix of 3D audio content
EP2830049A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for efficient object metadata coding
KR20220156112A (en) 2013-09-12 2022-11-24 돌비 인터네셔널 에이비 Time-alignment of qmf based processing data
EP2879131A1 (en) 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
KR102343453B1 (en) * 2014-03-28 2021-12-27 삼성전자주식회사 Method and apparatus for rendering acoustic signal, and computer-readable recording medium
KR102574478B1 (en) 2014-04-11 2023-09-04 삼성전자주식회사 Method and apparatus for rendering sound signal, and computer-readable recording medium

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW429700B (en) * 1997-02-26 2001-04-11 Sony Corp Information encoding method and apparatus, information decoding method and apparatus and information recording medium
KR100261254B1 (en) * 1997-04-02 2000-07-01 윤종용 Scalable audio data encoding/decoding method and apparatus

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2585990C2 (en) * 2011-04-20 2016-06-10 Панасоник Интеллекчуал Проперти Корпорэйшн оф Америка Device and method for encoding by huffman method
US9576585B2 (en) 2013-01-28 2017-02-21 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for normalized audio playback of media with and without embedded loudness metadata of new media devices
RU2639663C2 (en) * 2013-01-28 2017-12-21 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Method and device for normalized playing audio mediadata with embedded volume metadata and without them on new media devices
RU2667627C1 (en) * 2013-12-27 2018-09-21 Сони Корпорейшн Decoding device, method, and program
RU2643630C1 (en) * 2014-03-24 2018-02-02 Самсунг Электроникс Ко., Лтд. Method and device for rendering acoustic signal and machine-readable record media
US12035130B2 (en) 2022-06-15 2024-07-09 Samsung Electronics Co., Ltd. Method and apparatus for rendering acoustic signal, and computer-readable recording medium
US12035129B2 (en) 2022-06-15 2024-07-09 Samsung Electronics Co., Ltd. Method and apparatus for rendering acoustic signal, and computer-readable recording medium

Also Published As

Publication number Publication date
RU2008140142A (en) 2010-04-20
RU2394283C1 (en) 2010-07-10
RU2008140170A (en) 2010-04-20
RU2010112585A (en) 2011-10-10
RU2008140140A (en) 2010-04-20
RU2449388C2 (en) 2012-04-27
RU2406166C2 (en) 2010-12-10

Similar Documents

Publication Publication Date Title
RU2406165C2 (en) Methods and devices for coding and decoding object-based audio signals
US9449601B2 (en) Methods and apparatuses for encoding and decoding object-based audio signals