RU2439719C2

RU2439719C2 - Device and method to synthesise output signal

Info

Publication number: RU2439719C2
Application number: RU2009141391/08A
Authority: RU
Inventors: Йонас ЭНГДЕГАРД (SE); Йонас ЭНГДЕГАРД; Хейко ПУРНХАГЕН (SE); Хейко ПУРНХАГЕН; Барбара РЕШ (SE); Барбара Реш; Ларс ВИЛЛЕМОЕС (SE); Ларс ВИЛЛЕМОЕС; Корнелия ФАЛЧ (DE); Корнелия ФАЛЧ; Юрген ХЕРРЕ (DE); Юрген ХЕРРЕ; Йоханнес ХИЛПЕРТ (DE); Йоханнес ХИЛПЕРТ; Андреас ХЁЛЬЦЕР (DE); Андреас ХЁЛЬЦЕР; Леонид ТЕРЕНТЬЕВ (DE); Леонид ТЕРЕНТЬЕВ
Original assignee: Долби Свиден АБ; Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф.
Priority date: 2007-04-26
Filing date: 2008-04-23
Publication date: 2012-01-10
Also published as: CA2684975C; KR20100003352A; EP2137725B1; JP5133401B2; EP2137725A1; HK1142712A1; PL2137725T3; KR20120048045A; JP2010525403A; RU2009141391A; MX2009011405A; ES2452348T3; CA2684975A1; CN101809654A; US20100094631A1; KR101312470B1; AU2008243406B2; CN101809654B; TW200910328A; BRPI0809760A2

Abstract

FIELD: information technologies. ^ SUBSTANCE: device to synthesise an output signal comprises a decorrelator (356) and a convergence assembly (364). The decorrelator (356) provides for a decorrelated single-channel signal or decorrelated signals of the first and second channels on the basis of a step-down mixing signal, which contains signals of step-down mixing of the first and second audio objects, and is a result of step-down mixing of multiple signals of audio objects in compliance with information on step-down mixing (354). The convergence assembly (364) performs weighted convergence of a step-down mixing signal (352) and a decorrelated signal (358) with application of weight ratios (P, Q, C0, G), calculation of which is carried out on the basis of data on step-down mixing (354), specified characteristics of audio rendering (360), determining a virtual position of audio objects in a virtual sound space, and parametric data on audio objects (362), which describe these audio objects. ^ EFFECT: development of a method for audio object coding, in which quality of objects reproduction in a stereo soundtrack will be most close to reference stereo sound transfer. ^ 28 cl, 24 dwg

Description

Настоящее изобретение относится к синтезированию выходного сигнала с применением аудиорендеринга, например выходного стереосигнала или выходного многоканального аудиосигнала, сформированного в результате понижающего микширования с использованием дополнительных управляющих данных. При этом многоканальное понижающее микширование представляет собой понижающее микширование совокупности множества сигналов аудиообъекта.The present invention relates to synthesizing an output signal using audio rendering, for example a stereo output signal or an output multi-channel audio signal generated as a result of downmixing using additional control data. Moreover, the multi-channel down-mix is a down-mix of a plurality of signals of an audio object.

Последние разработки в области аудиотехники способствуют совершенствованию многоканального воспроизведения аудиосигнала на основе стерео (или моно) сигнала и соответствующих управляющих команд. Эти методы параметрического кодирования звукового окружения обычно включают в себя параметризацию. Параметрический многоканальный аудиодекодер (например, декодер MPEG Surround, описываемый стандартом ISO/IEC 23003-1 (L.Villemoes, J.Herre, J.Breebaart, G.Hotho, S.Disch, H.Purnhagen, and K.Kjörling, "MPEG Surround: The Forthcoming ISO Standard for Spatial Audio Coding," in 28th International AES Conference, The Future of Audio Technology Surround and Beyond, Pitee, Sweden, June 30 - July 2, 2006 ("MPEG Surround: подготовка нового стандарта ИСО на пространственное аудиокодирование", материалы 28-й международной конференции AES «Передовые аудиотехнологии, современное состояние и перспективы», Пите, Швеция, 30 июня - 2 июля 2006 г., и Breebaart, J.Herre, L.Villemoes, С.Jin, K.Kjörling, J.Plogsties, and J.Koppens, "Multi-Channels goes Mobile: MPEG Surround Binaural Rendering," in 29th International AES Conference, Audio for Mobile and Handheld Devices, Seoul, Sept 2-4, 2006 "Мобильные многоканальные устройства: стереофоническое представление формата MPEG Surround", 29-я Международная конференция AES, "Звук для мобильных и портативных устройств", Сеул, 2-4 сентября 2006 г.), реконструирует М каналов, используя K переданных каналов, где М>K, с использованием управляющих данных. Управляющие данные содержат данные параметризации многоканального сигнала, выведенные из IID (межканальной разности мощности) и ICC (межканальной когерентности). Эти параметры, получаемые, как правило, на стадии кодирования, описывают соотношение мощностей и корреляцию пар каналов, задействованных в процессе повышающего микширования. Применение подобного алгоритма кодирования позволяет выполнять кодирование при скорости передачи данных, значительно более низкой, чем передача всех М каналов, обеспечении очень высокой эффективности кодирования и гарантии совместимости с устройствами с K каналами и с устройствами с М каналами.Recent developments in the field of audio technology contribute to the improvement of multi-channel playback of an audio signal based on a stereo (or mono) signal and the corresponding control commands. These methods for parametric coding of the surround sound environment typically include parameterization. A parametric multichannel audio decoder (e.g. MPEG Surround decoder described by ISO / IEC 23003-1 (L. Villemoes, J. Herre, J. Breebaart, G. Hotho, S. Disch, H. Purnhagen, and K. Kjörling, "MPEG Surround: The Forthcoming ISO Standard for Spatial Audio Coding, "in the 28th International AES Conference, The Future of Audio Technology Surround and Beyond, Pitee, Sweden, June 30 - July 2, 2006 (" MPEG Surround: preparing a new ISO standard for spatial audio coding ", Proceedings of the 28th AES International Conference" Advanced Audio Technologies, Current State and Prospects ", Pete, Sweden, June 30 - July 2, 2006, and Breebaart, J. Herre, L. Villemoes, C. Jin, K. Kjörling , J.Plogsties, and J.Koppens, "Multi-Channels goes Mobi le: MPEG Surround Binaural Rendering, "in the 29th International AES Conference, Audio for Mobile and Handheld Devices, Seoul, Sept 2-4, 2006" Mobile multi-channel devices: stereo presentation of MPEG Surround format ", 29th AES International Conference," Sound for mobile and portable devices, "Seoul, September 2-4, 2006), reconstructs M channels using K transmitted channels, where M> K, using control data. The control data contains multichannel signal parameterization data derived from IID (inter-channel power difference) and ICC (inter-channel coherence). These parameters, obtained, as a rule, at the coding stage, describe the power ratio and correlation of the channel pairs involved in the upmixing process. The use of such a coding algorithm allows coding at a data rate much lower than the transmission of all M channels, providing very high coding efficiency and guarantee compatibility with devices with K channels and with devices with M channels.

Аналогичной системой кодирования является соответствующее устройство кодирования аудиообъектов, обеспечивающее при кодировании понижающее микширование нескольких аудиообъектов с последующим выполнением повышающего микширования с использованием управляющих данных С.Faller, "Parametric Joint-Coding of Audio Sources," Convention Paper 6752 presented at the 120th AES Convention, Paris, France, May 20-23, 2006 ("Комбинированное параметрическое кодирование источников звука". Доклад 6752 на 120-й Конференции AES, Париж, Франция, 20-23 мая 2006 г.; С.Faller, "Parametric Joint-Coding of Audio Sources," Patent application PCT/EP2006/050904, 2006 «Комбинированное параметрическое кодирование источников звука»). Повышающее микширование может также рассматриваться как разделение объектов, смешанных в процессе понижающего микширования (Полученный в результате восходящего микширования сигнал может быть преобразован для воспроизведения в одно- или многоканальном режиме). Говоря точнее, в указанных источниках предлагается метод синтезирования аудиоканалов на базе даунмикса (так называемого суммарного сигнала, полученного в результате понижающего микширования), статистической информации об исходных объектах и параметров, описывающих требуемый выходной формат. Если используются несколько сигналов, полученных понижающим микшированием, эти сигналы состоят из подмножеств различных объектов, и повышающее микширование должно осуществляется по каждому каналу понижающего микширования индивидуально.A similar encoding system is the corresponding audio object encoding device, which provides for down-mixing of several audio objects during encoding and then performing up-mixing using C.Faller control data, "Parametric Joint-Coding of Audio Sources," Convention Paper 6752 presented at the 120th AES Convention, Paris , France, May 20-23, 2006 (Combined Parametric Coding of Sound Sources. Report 6752 at the 120th AES Conference, Paris, France, May 20-23, 2006; C. Faller, Parametric Joint-Coding of Audio Sources, "Patent application PCT / EP2006 / 050904, 2006" Combined full parametric coding of sound sources ”). Upmixing can also be considered as the separation of objects mixed during the downmixing process (The resultant upmixing signal can be converted for playback in single or multi-channel mode). More specifically, the indicated sources propose a method for synthesizing audio channels based on a downmix (the so-called total signal obtained as a result of down-mixing), statistical information about the source objects and parameters describing the required output format. If several signals obtained by downmixing are used, these signals consist of subsets of different objects, and upmixing should be carried out individually for each channel of downmixing.

Исходя из уровня техники, известно, что при понижающем микшировании стереообъекта и преобразовании объекта в стереоформат или при генерации стереосигнала для последующей обработки, например, с помощью декодера MPEG Surround, существенные эксплуатационные преимущества достигаются благодаря парной обработке каналов по алгоритму матрицирования с частотно-временной зависимостью. Вне рамок кодирования аудиообъектов применяется сходная процедура для частичного преобразования одного стереоаудиосигнала в другой стереоаудиосигнал в WO 2006/103584. Кроме того, известно, что для стандартной системы кодирования аудиообъекта в процесс аудиорендеринга необходимо дополнительно ввести процедуру декорреляции с целью перцептуального воспроизведения заданной сцены. При этом известный уровень техники не содержит описание комплексной оптимизации кодирования с помощью матричной системы (матрицирование) и декорреляции. Простое соединение известных технических решений ведет или к неэффективному и негибкому использованию возможностей многоканального понижающего микширования объекта, или к низкому качеству получаемой в результате аудиорендеринга стереофонограммы исходного объекта.Based on the prior art, it is known that when down-mixing a stereo object and converting the object to stereo format or when generating a stereo signal for subsequent processing, for example, using the MPEG Surround decoder, significant operational advantages are achieved due to pair processing of channels using a time-frequency matrix-based matrixing algorithm. Outside of the encoding of audio objects, a similar procedure is used to partially convert one stereo audio signal to another stereo audio signal in WO 2006/103584. In addition, it is known that for a standard coding system of an audio object, it is necessary to additionally introduce a decorrelation procedure into the audio rendering process in order to perceptually reproduce a given scene. Moreover, the prior art does not contain a description of the comprehensive optimization of coding using a matrix system (matrixing) and decorrelation. A simple combination of well-known technical solutions leads either to an ineffective and inflexible use of the capabilities of a multi-channel down-mix of an object, or to a poor quality of the stereo object of the source object resulting from audio rendering.

Задачей настоящего изобретения является скорректированная концепция синтезирования выходного сигнала с использованием аудиорендеринга.An object of the present invention is an adjusted concept for synthesizing an output signal using audio rendering.

Эта задача решается посредством устройства, синтезирующего преобразованный аудиорендерингом выходной сигнал в соответствии с п.1 формулы изобретения, посредством способа синтезирования выходного сигнала с применением аудиорендеринга по п.27 формулы, или посредством компьютерной программы согласно п.28 формулы изобретения.This problem is solved by means of a device synthesizing an output signal converted by audio rendering in accordance with claim 1, by a method of synthesizing an output signal using audio rendering according to claim 27, or by a computer program according to claim 28.

Данное изобретение обеспечивает синтез преобразованного с помощью аудиорендеринга выходного сигнала, интегрирующего сигналы двух или более звуковых каналов. При этом при преобразовании множества аудиообъектов число синтезированных сигналов звуковых каналов всегда меньше числа исходных аудиообъектов. Однако, если количество аудиообъектов не велико (например, 2), а количество выходных каналов - 2, 3 или большее число выходных звуковых каналов может превышать число аудиообъектов. Синтез выходного сигнала с использованием аудиорендеринга осуществляют без выполнения операции полного декодирования аудиообъекта до расшифровки составляющих аудиообъектов и без последующего рендеринга синтезируемых аудиообъектов по заданным параметрам. Вместо этого в области значений параметров рассчитывают преобразуемые выходные сигналы на базе характеристик понижающего микширования, на базе предварительно заданных характеристик аудиорендеринга и на базе данных аудиообъектов, описывающих эти аудиообъекты в форме параметров энергии и корреляции. Таким образом, количество декорреляторов, существенно усложняющих реализацию устройства синтеза, может быть сокращено так, что оно будет меньше числа выходных каналов и даже значительно меньше числа аудиообъектов. Говоря точнее, звук высокого качества может быть синтезирован при реализации синтезаторов только с одним или двумя декорреляторами. Более того, благодаря отсутствию необходимости в полном декодировании аудиообъектов и последующем аудиорендеринге по заданным параметрам обеспечивается экономия объема памяти и вычислительного ресурса. Кроме того, каждая операция потенциально вносит дополнительные артефакты. В силу этого, в соответствии с настоящим изобретением предпочтение отдается расчетам только в области значений параметров, чтобы единственными аудиосигналами, представленными не в виде параметров, а в виде, например, сигналов временной области или сигналов частотной области, были, по меньшей мере, те два сигнала, которые получены в результате понижающего микширования объекта. При акустическом синтезировании их вводят в декоррелятор как в форме даунмикса, если применяется один декоррелятор, так и в микшированной форме, если для каждого канала используется отдельный декоррелятор. Другие действия, выполняемые во временной области или в области банка фильтров или с сигналами смешанных каналов, представляют собой лишь взвешенные комбинации, такие как взвешенное сложение или взвешенное вычитание, то есть - линейные операции. Таким образом предотвращается внесение артефактов при выполнении операций полного декодирования аудиообъекта и последующем аудиорендеринге по заданным параметрам.The present invention provides the synthesis of an output signal converted by audio rendering, integrating the signals of two or more audio channels. In this case, when converting a plurality of audio objects, the number of synthesized signals of the audio channels is always less than the number of source audio objects. However, if the number of audio objects is not large (for example, 2), and the number of output channels is 2, 3 or more of the output audio channels may exceed the number of audio objects. The synthesis of the output signal using audio rendering is carried out without performing the operation of full decoding of the audio object before decoding the components of the audio objects and without subsequent rendering of the synthesized audio objects according to the specified parameters. Instead, convertible output signals are calculated in the parameter value range based on the downmix characteristics, based on predefined audio rendering characteristics and on the basis of audio objects describing these audio objects in the form of energy and correlation parameters. Thus, the number of decorrelators, significantly complicating the implementation of the synthesis device, can be reduced so that it will be less than the number of output channels and even significantly less than the number of audio objects. More specifically, high-quality sound can be synthesized when synthesizers are implemented with only one or two decorrelators. Moreover, due to the absence of the need for full decoding of audio objects and subsequent audio rendering according to the specified parameters, a saving in memory and computing resource is provided. In addition, each operation potentially introduces additional artifacts. Because of this, in accordance with the present invention, preference is given to calculations only in the range of parameter values, so that at least the two audio signals represented, not as parameters, but in the form of, for example, time-domain signals or frequency-domain signals signal, which are obtained as a result of down-mixing of the object. In acoustic synthesis, they are introduced into the decorrelator both in the form of a downmix, if one decorrelator is used, and in a mixed form, if a separate decorrelator is used for each channel. Other actions performed in the time domain or in the area of the filter bank or with mixed channel signals are only weighted combinations, such as weighted addition or weighted subtraction, that is, linear operations. This prevents the introduction of artifacts during the complete decoding of an audio object and subsequent audio rendering according to specified parameters.

Информация о аудиообъекте дается предпочтительно в виде энергетических параметров и данных корреляции, например, в форме ковариационной матрицы объекта. Кроме того, такая матрица предпочтительно должна быть применима для каждого поддиапазона и каждого временного интервала, что было бы отражено в частотно-временной карте, где каждое гнездо содержит ковариационную матрицу аудиообъекта, описывающую энергию соответствующих аудиообъектов в этом поддиапазоне и корреляцию между соответствующими парами аудиообъектов в соответствующем поддиапазоне. Естественно, что эта информация привязана к определенным временным рамкам частотного сигнала или аудиосигнала.Information about the audio object is preferably given in the form of energy parameters and correlation data, for example, in the form of a covariance matrix of the object. In addition, such a matrix should preferably be applicable for each subband and each time interval, which would be reflected in the time-frequency map, where each slot contains a covariance matrix of an audio object that describes the energy of the corresponding audio objects in this subband and the correlation between the corresponding pairs of audio objects in the corresponding subrange. Naturally, this information is tied to certain time frames of a frequency signal or an audio signal.

Предпочтительным результатом аудиосинтеза является преобразованный выходной стереосигнал, интегрирующий сигнал первого, или левого, звукового канала и сигнал второго, или правого, звукового канала. Благодаря этому можно достичь такого уровня кодирования аудиообъекта, при котором качество воспроизведения объектов в стереофонограмме будет максимально приближено к эталонной стереозвукопередаче.The preferred result of audio synthesis is a converted stereo output signal that integrates the signal of the first or left sound channel and the signal of the second or right sound channel. Thanks to this, it is possible to achieve such a level of coding of an audio object at which the quality of reproduction of objects in a stereo phonogram will be as close as possible to a reference stereo sound transmission.

Во многих случаях при кодировании аудиообъектов очень важно, чтобы стереоаудиорендеринг объектов был максимально приближен к эталонной стереозвукопередаче. Высокое качество акустики, полученное в результате стереоаудиорендеринга, приближенное к эталонной стереофонограмме, важно как в случае, когда стереоаудиорендеринг обеспечивает конечный выходной сигнал декодера объекта, так и в случае, когда стереосигнал передается на последующий элемент контура, такой как декодер MPEG Surround, работающий в режиме понижающего стереомикширования.In many cases, when encoding audio objects, it is very important that the stereo-audio rendering of objects is as close as possible to the reference stereo audio transmission. The high quality of acoustics obtained as a result of stereo-audio rendering, close to the reference stereo-phonogram, is important both in the case when stereo-audio rendering provides the final output signal of the object decoder, and in the case when the stereo signal is transmitted to the next contour element, such as the MPEG Surround decoder operating in stereo downmix.

Настоящее изобретение предлагает метод наиболее эффективного соединения матрицирования и декорреляции, который обеспечивает декодеру аудиообъекта возможность полного использования потенциала алгоритма кодирования аудиообъекта с задействованием сигнала понижающего микширования объекта одновременно по нескольким каналам.The present invention provides a method for the most efficient combination of matrixing and decorrelation, which enables the audio object decoder to fully utilize the potential of the audio object encoding algorithm using the down-mix signal of the object simultaneously on several channels.

Реализация данного изобретения отличается тем, что включает в себя:The implementation of this invention is characterized in that it includes:

- декодер аудиообъекта, который предназначен для аудиорендеринга множества отдельных аудиообъектов с использованием многоканального понижающего микширования, управляющих данных, описывающих аудиообъекты, управляющих данных, описывающих понижающее микширование, и параметров аудиорендеринга, включающий в свою конструкцию:- an audio object decoder, which is intended for audio rendering of a plurality of individual audio objects using multi-channel down-mix, control data describing audio objects, control data describing down-mix, and audio rendering parameters, including in its construction:

- стереопроцессор, имеющий в своем составе интегрированный блок матричного кодирования (модуль комплексного матрицирования), который линейно сводит каналы многоканального понижающего микширования с получением исходного необработанного (драй-микс = dry mix) сигнала и входного сигнала декоррелятора с последующей передачей входного сигнала декоррелятора на декоррелятор, выходной сигнал которого линейно сведен в сигнал, который после суммирования с исходным необработанным сигналом образует в канале выходной стереосигнал модуля комплексного матрицирования; или- a stereo processor, which includes an integrated matrix coding unit (complex matrixing module), which linearly converts the channels of the multi-channel down-mix to obtain the original raw (dry mix = dry mix) signal and the decorrelator input signal, followed by the transfer of the decorrelator input signal to the decorrelator, the output signal of which is linearly reduced to a signal which, after summing with the original unprocessed signal, forms the stereo output signal of the module in the channel complexly go matrixing; or

- блок расчета матрицы (матричный вычислитель), рассчитывающий на базе управляющих данных, описывающих аудиообъекты, понижающее микширование и параметры стереоаудиорендеринга, веса для линейного сведения, используемые затем интегрированным блоком матричного кодирования.- matrix calculation unit (matrix calculator), which calculates based on control data describing audio objects, down-mix and stereo audio rendering parameters, weights for linear information, which are then used by the integrated matrix encoding unit.

Далее изобретение представлено иллюстративным материалом, который не ограничивает его ни по форме, ни по существу, с описанием прилагаемых чертежей, The invention is further presented by illustrative material, which does not limit it either in form or in essence, with a description of the accompanying drawings,

где на фиг.1 дана блок-схема процесса кодирования аудиообъекта, включая кодирование и декодирование;where figure 1 is a flowchart of a process for encoding an audio object, including encoding and decoding;

на фиг.2А дана блок-схема процесса декодирования аудиообъекта до стереофонограммы;on figa given a flowchart of the decoding process of an audio object to a stereo;

на фиг.2B дана блок-схема процесса декодирования аудиообъекта;2B is a flowchart of a decoding process of an audio object;

на фиг.3А дана блок-схема работы стереопроцессора;on figa given a block diagram of the operation of the stereo processor;

на фиг.3B дана блок-схема работы устройства синтезирования преобразованного аудиорендерингом выходного сигнала;on figb given a block diagram of a device for synthesizing a converted audio rendering output signal;

на фиг.4А представлен первый вариант реализации данного изобретения, включающий в себя матрицу С₀ смешения исходного сигнала, матрицу Q преддекорреляционного смешения сигнала и матрицу Р повышающего микширования сигнала декоррелятора;on figa presents a first embodiment of the present invention, including a matrix C ₀ mixing the original signal, matrix Q pre-correlation signal mixing and matrix P up-mixing signal of the decorrelator;

на фиг.4B представлен вариант реализации данного изобретения без применения матрицы преддекорреляционного смешения сигнала;on figv presents an embodiment of the present invention without the use of a matrix of pre-correlation signal mixing;

на фиг.4С представлен вариант технического решения данного изобретения без применения матрицы повышающего микширования декоррелированного сигнала;on figs presents a variant of the technical solution of the present invention without the use of matrix up-mixing decorrelated signal;

на фиг.4D представлена версия осуществления настоящего изобретения с применением дополнительной матрицы G компенсации усиления;on fig.4D presents a version of the implementation of the present invention using the additional matrix G gain compensation;

на фиг.4Е представлен вариант матрицы Q понижающего микширования сигнала декоррелятора и матрицы Р повышающего микширования сигнала декоррелятора с использованием одиночного декоррелятора;FIG. 4E illustrates an embodiment of a downmix matrix Q of a decorrelator signal and a matrix P of upmix of a decorrelator signal using a single decorrelator;

на фиг.4F представлен вариант исполнения матрицы С₀ смешения исходного сигнала;on fig.4F presents an embodiment of the matrix With ₀ mixing the original signal;

на фиг.4G дана детализация процесса сведения смешанного исходного сигнала и сигнала декоррелятора или сигнала, полученного в результате повышающего микширования сигнала декоррелятора;on fig.4G is given a detail of the process of mixing the mixed source signal and the signal of the decorrelator or signal obtained as a result of up-mixing of the signal of the decorrelator;

на фиг.5 дана блок-схема многоканальной декорреляции с использованием нескольких декорреляторов;figure 5 is a block diagram of a multi-channel decorrelation using multiple decorrelators;

на фиг.6 дана сводная карта нескольких аудиообъектов, имеющих индивидуальный идентификатор, аудиофайл объекта, и общую матрицу Е параметров аудиообъектов;Fig.6 is a summary map of several audio objects having an individual identifier, an audio file of an object, and a common matrix E of parameters of audio objects;

на фиг.7 дана расшифровка ковариационной матрицы Е объектов, показанных на фиг.6;in Fig.7 is given the decoding of the covariance matrix E of the objects shown in Fig.6;

на фиг.8 даны матрица понижающего микширования и кодер аудиообъекта, управляемый матрицей D понижающего микширования;Fig. 8 shows a downmix matrix and an audio object encoder controlled by a downmix matrix D;

на фиг.9 даны матрица А параметров аудиорендеринга, представляемая, как правило, пользователем, и частный пример сценария аудиорендеринга по заданным параметрам;figure 9 shows the matrix A of the audio rendering parameters, presented, as a rule, by the user, and a particular example of the audio rendering script for the given parameters;

на фиг.10 показан алгоритм предварительных расчетов элементов матриц для четырех различных вариантов исполнения, представленных на фиг.4А-4D;figure 10 shows the algorithm for preliminary calculations of the matrix elements for four different options presented on figa-4D;

на фиг.11 показан алгоритм расчета матриц для первого варианта исполнения;11 shows an algorithm for calculating matrices for the first embodiment;

на фиг.12 показан алгоритм расчета матриц для второго варианта исполнения;Fig. 12 shows a matrix calculation algorithm for a second embodiment;

на фиг.13 показан алгоритм расчета матриц для третьего варианта исполнения; иon Fig shows a matrix calculation algorithm for the third embodiment; and

на фиг.14 показан алгоритм расчета матриц для четвертого варианта исполнения.on Fig shows a matrix calculation algorithm for the fourth embodiment.

Варианты осуществления настоящего изобретения представлены ниже исключительно для истолкования основных принципов УСТРОЙСТВА И СПОСОБА СИНТЕЗИРОВАНИЯ ВЫХОДНОГО СИГНАЛА. Подразумевается, что для специалистов в данной области возможность внесения изменений и усовершенствований в компоновку и элементы описанной конструкции очевидна. В силу этого, представленные описания и пояснения вариантов реализации изобретения ограничиваются только рамками патентных требований, а не конкретными деталями.Embodiments of the present invention are presented below solely for the interpretation of the basic principles of the DEVICE AND METHOD FOR SYNTHESIS OF THE OUTPUT SIGNAL. It is understood that for specialists in this field, the possibility of making changes and improvements to the layout and elements of the described construction is obvious. Therefore, the descriptions and explanations provided for the embodiments of the invention are limited only by the scope of patent requirements, and not by specific details.

На фиг.1 дана блок-схема процесса кодирования аудиообъекта, в котором задействованы кодер объекта 101 и декодер объекта 102. Кодер пространственных аудиообъектов 101 кодирует N объектов в данные нисходящего микширования объекта по K > 1 аудиоканалам в соответствии с параметрами кодера. Кодер объекта выводит информацию о примененной весовой матрице D понижающего микширования в сочетании со вспомогательными данными по мощности и корреляция понижающего микширования. Матрица D часто, но не обязательно всегда, постоянна по частотно-временным характеристикам, и поэтому информация о ней требует относительно небольшого объема. В завершение, кодер объекта извлекает параметры каждого объекта в виде частотно-временной функции с разрешением, определяемым условиями восприятия. Декодер пространственного аудиообъекта 102 принимает на входе каналы понижающего микширования объекта, данные понижающего микширования и параметры объекта (сгенерированные кодером) и генерирует выходной сигнал, состоящий из М звуковых каналов, для прослушивания. Аудиорендеринг N объектов в М звуковых каналов выполняют с использованием матрицы звукопередачи (аудиорендеринга), вводимой в декодер объекта как задаваемые пользователем характеристики.Figure 1 is a flowchart of an audio object encoding process in which an object encoder 101 and an object decoder 102 are involved. A spatial audio object encoder 101 encodes N objects into downlink object mixing data over K> 1 audio channels in accordance with the encoder parameters. The object encoder displays information about the applied downmix weight matrix D in combination with auxiliary power data and downmix correlation. Matrix D is often, but not necessarily always, constant in time-frequency characteristics, and therefore information about it requires a relatively small amount. Finally, the object encoder extracts the parameters of each object in the form of a time-frequency function with a resolution determined by the conditions of perception. The decoder of the spatial audio object 102 receives input down-mix channels of the object, down-mix data and object parameters (generated by the encoder) and generates an output signal consisting of M sound channels for listening. Audio rendering of N objects in M audio channels is performed using a sound transmission matrix (audio rendering) inputted to the object decoder as user-defined characteristics.

На фиг.2А показаны составные элементы декодера аудиообъекта 102 в варианте комплектации, выход которой задан как стереофонограмма. Даунмикс аудиообъекта вводят в стереопроцессор 201 для обработки сигналов с получением на выходе стереосигнала. Обработка сигнала зависит от характеристик матрицы, рассчитанных вычислителем матриц 202. Информация о матрице выводится из параметров объекта, данных понижающего микширования и задаваемых пользователем характеристик аудиорендеринга объекта, описывающих требования к звукопередаче N объектов в стереоформате с использованием матрицы аудиорендеринга.On figa shows the constituent elements of the decoder of the audio object 102 in the configuration, the output of which is set as a stereo. The downmix of the audio object is inserted into the stereo processor 201 to process the signals to produce a stereo signal. The signal processing depends on the characteristics of the matrix calculated by the matrix calculator 202. The information on the matrix is derived from the object parameters, down-mix data and user-defined characteristics of the object's audio rendering, describing the sound transmission requirements of N objects in stereo format using the audio rendering matrix.

На фиг.2B показаны составные элементы декодера аудиообъекта 102 в варианте комплектации, выход которой задан как общий многоканальный аудиосигнал. Даунмикс аудиообъекта вводят в стереопроцессор 201 для обработки сигналов с получением на выходе стереосигнала. Обработка сигнала зависит от характеристик матрицы, рассчитанных вычислителем матрицы 202. Информация о матрице выводится из параметров объекта, данных понижающего микширования и характеристик аудиорендеринга объекта, обработанных и переданных блоком сведения данных аудиорендеринга 204. Сводная информация по аудиорендерингу объекта содержит описание задаваемых характеристик преобразования N объектов в стереофонограмму с использованием матрицы аудиорендеринга и формируется на основании данных аудиорендеринга, описывающих преобразование N объектов в М звуковых каналов, переданных на декодер аудиообъекта 102, параметров объекта и данных понижающего микширования объекта. Вспомогательный процессор 203 преобразует стереосигнал, полученный от стереопроцессора 201, в конечный многоканальный выходной аудиосигнал, сформированный на базе информации о аудиорендеринге, информации о понижающем микшировании и параметров объекта. Как правило, роль базового элемента вспомогательного процессора 203 выполняет декодер формата MPEG Surround, работающий в режиме понижающего стереомикширования.FIG. 2B shows the constituent elements of an audio object decoder 102 in a configuration, the output of which is defined as a common multi-channel audio signal. The downmix of the audio object is inserted into the stereo processor 201 to process the signals to produce a stereo signal. The signal processing depends on the characteristics of the matrix calculated by the matrix calculator 202. The information on the matrix is derived from the object parameters, downmix data, and the object’s audio rendering characteristics processed and transmitted by the audio rendering data mixing unit 204. The object’s audio rendering information contains a description of the set conversion characteristics of N objects to a stereophonogram using an audio rendering matrix and is formed on the basis of audio rendering data describing the conversion N objects in M sound channels transmitted to the decoder of the audio object 102, object parameters, and object down-mix data. The auxiliary processor 203 converts the stereo signal received from the stereo processor 201 into a final multi-channel audio output signal generated based on audio rendering information, downmix information and object parameters. Typically, the role of the basic element of the auxiliary processor 203 is played by an MPEG Surround format decoder operating in a stereo downmix mode.

На фиг.3А представлена схема устройства стереопроцессора 201. Если даунмикс объекта рассматривать как поток двоичных данных, исходящий от K-канального аудиокодера, данный поток битов сначала декодируется аудиодекодером 301 в K аудиосигналов временной области. Далее, с помощью частотно-временного конвертора 302 все эти сигналы трансформируются в частотную область. Относящееся к изобретению усовершенствованное матрицирование с частотно-временным преобразованием, характеристики для которого задаются матричными данными, поступающими на стереопроцессор 201, осуществляется модулем комплексного матрицирования 303 с использованием результирующих сигналов Х частотной области. Получаемый на выходе модуля 303 стереосигнал Y′ в частотной области преобразуется с помощью частотно-временного конвертора 304 в сигнал временной области.3A is a diagram of a stereo processor 201 device. If an object downmix is considered as a binary data stream coming from a K-channel audio encoder, this bitstream is first decoded by an audio decoder 301 into K time-domain audio signals. Further, using the time-frequency converter 302, all these signals are transformed into the frequency domain. The improved time-frequency conversion matrixing of the invention, the characteristics of which are defined by matrix data supplied to the stereo processor 201, is performed by the complex matrixing module 303 using the resulting frequency domain X signals. Received at the output of module 303, the stereo signal Y ′ in the frequency domain is converted using the time-frequency converter 304 into a time-domain signal.

На фиг.3B представлено устройство, синтезирующее преобразованный аудиорендерингом выходной сигнал 350, включающий в себя в случае стереоаудиорендеринга сигнал первого звукового канала и сигнал второго звукового канала или сигналы большего числа выходных звуковых каналов в случае многоканального аудиорендеринга. Однако для большего числа аудиообъектов, например трех или более, количество выходных каналов должно быть меньше количества исходных аудиообъектов, интегрированных в сигнал, полученный понижающим микшированием 352. А именно, сигнал 352, полученный понижающим микшированием, содержит, по меньшей мере, сигнал понижающего микширования первого объекта и сигнал понижающего микширования второго объекта, причем, сигнал, полученный понижающим микшированием, представляет собой результат понижающего микширования множества сигналов аудиообъектов, соответствующий введенной информации о понижающем микшировании 354. А именно, в относящуюся к изобретению конструкцию аудиосинтезатора, как показано на фиг.3B, введен декоррелятор 356, генерирующий декоррелированный сигнал, который включает в себя декоррелированный одноканальный сигнал или, в случае применения двух декорреляторов, сигнал первого декоррелированного канала и сигнал второго декоррелированного канала или, при варианте реализации с тремя или более декорреляторами, включающий в себя сигналы числа декоррелированных каналов, большего двух. При этом предпочтительным является меньшее количество декорреляторов и, следовательно, меньшее число сигналов декоррелированных каналов, поскольку каждый декоррелятор значительно усложняет конструкцию. Предпочтительным является количество декорреляторов, меньшее количества аудиообъектов, интегрированных в сигнал понижающего микширования 352, и равное числу каналов в выходном сигнале 352 или меньшее, чем число звуковых каналов в преобразованном аудиорендерингом выходном сигнале 350. Однако для небольшого количества аудиообъектов (например, 2 или 3) количество декорреляторов может быть равным или большим, чем количество аудиообъектов.FIG. 3B shows a device synthesizing an audio-converted output signal 350, including in the case of stereo-audio rendering, a signal of a first audio channel and a signal of a second audio channel or signals of a larger number of audio output channels in the case of multi-channel audio rendering. However, for a larger number of audio objects, for example three or more, the number of output channels should be less than the number of original audio objects integrated in the signal obtained by downmix 352. Namely, the signal 352 obtained by downmix contains at least a downmix signal of the first the object and the downmix signal of the second object, the signal obtained by downmixing is the result of downmixing a plurality of signals of audio objects, corresponding to the downmix information entered 354. Namely, the decorrelator 356 incorporating a decorrelated signal that includes a decorrelated single channel signal or, in the case of two decorrelators, a first decorrelated channel and the signal of the second decorrelated channel, or, in an embodiment with three or more decorrelators, including signals of the number of decorrelated channels, b more than two. At the same time, fewer decorrelators and, therefore, fewer signals of decorrelated channels are preferable, since each decorrelator significantly complicates the design. The preferred number of decorrelators is less than the number of audio objects integrated in the downmix signal 352 and equal to the number of channels in the output signal 352 or less than the number of audio channels in the audio output converted signal 350. However, for a small number of audio objects (for example, 2 or 3) the number of decorrelators can be equal to or greater than the number of audio objects.

Как показано на фиг.3B, декоррелятор принимает на входе сигнал понижающего микширования 352 и генерирует выходной декоррелированный сигнал 358. Информация о понижающем микшировании 354 дополняется данными, задаваемыми для аудиорендеринга 360 и параметрами аудиообъекта 362. В частности, параметры аудиообъекта используются, по крайней мере, блоком сведения 364 и могут дополнительно быть использованы декоррелятором 356, что будет описано ниже. Параметры аудиообъекта 362 должны преимущественно включать в себя данные энергии и корреляции, параметрически описывающие аудиообъект числом в пределах значений между 0 и 1 или числом в заданном диапазоне значений, служащим показателем энергии, мощности или корреляции между двумя аудиообъектами, как будет рассмотрено позже.As shown in FIG. 3B, the decorrelator receives a downmix signal 352 at the input and generates an output decorrelated signal 358. The downmix information 354 is supplemented with data set for audio rendering 360 and parameters of the audio object 362. In particular, the parameters of the audio object are used at least information unit 364 and can optionally be used decorrelator 356, which will be described below. The parameters of the audio object 362 should advantageously include energy and correlation data parametrically describing the audio object by a number within the range of values between 0 and 1, or by a number in a predetermined range of values, serving as an indicator of energy, power, or correlation between two audio objects, as will be discussed later.

Смеситель 364 предназначен для взвешенного введения сигнала понижающего микширования 352 и декоррелированного сигнала 358. Кроме того, на основе параметров понижающего микширования 354 и заданных характеристик звукопередачи (аудиорендеринга) 360 блок сведения 364 рассчитывает весовые коэффициенты для взвешенного сведения. Задаваемые параметры аудиорендеринга имитируют реальное расположение аудиообъектов в виртуальной звуковой среде и позиционируют аудиообъекты, определяя для воспроизведения каждого из них первый или второй выходной канал, то есть левый выходной канал или правый выходной канал при стереоаудиорендеринге. В то же время, при многоканальном аудиорендеринге в задаваемых характеристиках звукопередачи для каждого канала дополнительно определяется примерное положение относительно левого панорамированного (объемного/пространственного) или правого панорамированного или центрального акустического канала и т.п. Возможна реализация любых сценариев аудиорендеринга, которые, однако, будут отличаться друг от друга параметрами звукопередачи, предварительно задаваемыми преимущественно в форме матрицы аудиорендеринга, предоставляемой, как правило, пользователем, что будет описано далее.The mixer 364 is designed for weighted input of the downmix signal 352 and the decorrelated signal 358. In addition, based on the parameters of the downmix 354 and the specified characteristics of sound transmission (audio rendering) 360, the information unit 364 calculates weighting factors for the weighted information. The set audio rendering parameters simulate the actual location of audio objects in a virtual sound environment and position audio objects, determining for playback each of them the first or second output channel, that is, the left output channel or the right output channel in stereo audio rendering. At the same time, with multi-channel audio rendering, the approximate position relative to the left panned (surround / spatial) or right panned or central acoustic channel, etc., is additionally determined in the set sound transmission characteristics for each channel. It is possible to implement any audio rendering scenarios, which, however, will differ from each other by sound transmission parameters, predefined mainly in the form of an audio rendering matrix, provided, as a rule, by the user, which will be described later.

И, наконец, блок сведения 364 использует параметры аудиообъекта 362, содержащие описание аудиообъектов, в основном, в виде энергетических показателей и данных корреляции. Как вариант исполнения допускается, чтобы параметры аудиообъекта были представлены в форме ковариационной матрицы аудиообъекта для каждой "ячейки" частотно-временной плоскости. Формулируя иначе, для каждого поддиапазона и для каждого временного отрезка, в пределах которого выбран этот поддиапазон, в качестве параметров аудиообъекта 362 определяется полная ковариационная матрица объекта, то есть матрица, содержащая информацию о мощности/энергии и информацию о корреляции.And finally, the information block 364 uses the parameters of the audio object 362 containing a description of the audio objects, mainly in the form of energy indicators and correlation data. As an embodiment, it is allowed that the parameters of the audio object are presented in the form of a covariance matrix of the audio object for each “cell” of the time-frequency plane. Formulating differently, for each subband and for each time interval within which this subband is selected, the parameters of the audio object 362 determine the complete covariance matrix of the object, that is, the matrix containing power / energy information and correlation information.

При сравнении фиг.3B и фиг.2А или 2B видно, что декодер аудиообъекта 102 на фиг.1 соответствует устройству синтезирования выходного сигнала с использованием аудиорендеринга.When comparing figv and figa or 2B shows that the decoder of the audio object 102 in figure 1 corresponds to a device for synthesizing the output signal using audio rendering.

Кроме того, в (функции стереопроцессора 201 включена фаза декорреляции 356, показанная на фиг.3B. Вместе с тем, блок сведения 364 включает в себя блок расчета матриц 202, показанный на фиг.2А. Одновременно, если декоррелятор 356 выполняет операцию понижающего микширования, здесь часть функций вычислителя матриц 202 ложится на декоррелятор 356, а не на блок сведения 364.In addition, the decorrelation phase 356 shown in Fig. 3B is included in the functions of the stereoprocessor 201. At the same time, the mixing unit 364 includes a matrix calculating unit 202 shown in Fig. 2A. At the same time, if the decorrelator 356 performs a downmix operation, here, part of the functions of the matrix calculator 202 lies on the decorrelator 356, and not on the information block 364.

Тем не менее, привязка выполняемых функций к конкретным компонентам элементной базы не имеет решающего значения при реализации настоящего изобретения, поскольку область его применения распространяется и на программное обеспечение, и на специальные средства цифровой обработки сигналов, или даже на персональные компьютеры общего назначения. Следовательно, соотнесение конкретной функции с конкретным модулем - это лишь один из подходов к техническому исполнению данного изобретения. Однако, если все принципиальные схемы конструктивных решений рассматривать как блок-схемы, иллюстрирующие алгоритмы рабочих операций, определенные функции можно легко соотнести с определенными блоками в зависимости от требований, предъявляемых при реализации или программировании.However, the binding of the performed functions to specific components of the element base is not critical in the implementation of the present invention, since its scope extends to software, and to special means of digital signal processing, or even to general-purpose personal computers. Therefore, correlation of a specific function with a specific module is only one of the approaches to the technical implementation of this invention. However, if all the schematic diagrams of constructive solutions are considered as block diagrams illustrating the algorithms of working operations, certain functions can be easily correlated with certain blocks depending on the requirements for implementation or programming.

Более того, при сравнении фиг.3B и фиг.3A становится очевидно, что выполнение функции блока сведения 364 по расчету весовых коэффициентов для взвешенного сведения может быть передано блоку расчета матриц 202. Говоря иначе, матричные данные представляют собой набор весовых коэффициентов, используемых модулем комплексного матричного кодирования 303, который реализован в блоке сведения 364, но который может также частично выполнять функции декоррелятора 356 (с учетом матрицы Q, что будет рассмотрено дальше). Таким образом, модуль комплексного матрицирования 303 выполняет операцию сведения поддиапазонов преимущественно этих, по меньшей мере, двух даунмикс-сигналов объекта (сигналов, полученных понижающим микшированием объекта), где информация о матрице включает в себя весовые коэффициенты для взвешивания этих, по меньшей мере, двух даунмикс-сигналов или сигнал, декоррелированный перед выполнением операции сведения.Moreover, when comparing FIG. 3B and FIG. 3A, it becomes apparent that the function of the weighting unit 364 for calculating the weighting factors for weighted information can be transferred to the matrix calculating unit 202. In other words, the matrix data is a set of weighting factors used by the complex module matrix coding 303, which is implemented in the information block 364, but which can also partially function as a decorrelator 356 (taking into account the matrix Q, which will be discussed later). Thus, the complex matrixing module 303 performs the operation of converting the subbands of these at least two downmix signals of the object (signals obtained by downmixing the object), where the matrix information includes weighting factors for weighting these at least two downmix signals or a signal de-correlated before performing a downmix operation.

Далее подробно рассматриваются предпочтительные варианты конструктивного решения блока сведения 364 и декоррелятора 356. В частности, некоторые версии реализации функциональных возможностей декоррелятора 356 и блока сведения 364 представлены с использованием фиг.4А-4D. На фиг.4Е-4G приведены частные случаи компоновки элементов, показанных на фиг. с 4А по 4D. Перед подробным рассмотрением фиг.4А-4D следует разъяснить общий принцип представления этих чертежей. Контур на каждом чертеже имеет линию верхнего ответвления для прохождения декоррелированного сигнала, и линию нижнего ответвления для прохождения исходного необработанного сигнала. Далее, выходные сигналы каждого ответвления, то есть сигнал на выходе линии 450 и сигнал на выходе линии 452, сводятся блоком сведения 454 для формирования преобразованного аудиорендерингом выходного сигнала 350. В целом, контур на фиг.4А включает в себя три матричных процессора 401, 402, 404. 401 - смеситель исходного сигнала. Эти, по меньшей мере, два даунмикс-сигнала аудиообъекта 352 подвергаются взвешиванию и/или взаимному смешению с получением двух исходных сигналов объекта, соответствующих сигналам ответвления прохождения исходного сигнала, которое заканчивается вводом в сумматор 454. При этом линия прохождения исходного сигнала может быть снабжена дополнительным матричным процессором-компенсатором усиления 409, показанным на фиг.4D на выходе смесителя исходного сигнала 401.The following describes in detail preferred options for constructive solutions of the information unit 364 and decorrelator 356. In particular, some versions of the implementation of the functionality of decorrelator 356 and information unit 364 are presented using figa-4D. FIGS. 4E-4G show particular cases of arrangement of the elements shown in FIGS. 4A to 4D. Before a detailed consideration of figa-4D should explain the General principle of presentation of these drawings. The contour in each drawing has an upper branch line for the passage of the decorrelated signal, and a lower branch line for the passage of the original unprocessed signal. Further, the output signals of each branch, that is, the signal at the output of line 450 and the signal at the output of line 452, are reduced by a data unit 454 to generate an audio signal converted by audio rendering 350. In general, the circuit in Fig. 4A includes three matrix processors 401, 402 , 404. 401 - mixer of the original signal. These at least two downmix signals of the audio object 352 are weighted and / or mixed to obtain two source signals of the object corresponding to the signal path branch signals, which ends with the input to the adder 454. The source signal path may be provided with an additional the matrix processor-compensator gain 409 shown in fig.4D at the output of the mixer of the original signal 401.

Кроме того, блок сведения 364 может произвольно включать в себя блок повышающего микширования сигнала декоррелятора 404, использующий матрицу Р повышающего микширования декоррелированного сигнала.In addition, the mixing unit 364 may optionally include an upmixing unit of the decorrelator 404 using the upmixing matrix P of the decorrelated signal.

Естественно, что разделение блоков матрицирования 404, 401 и 409 (фиг.4D) и блока сведения 454 условно, хотя подобный вариант конструктивного решения, безусловно, возможен. Вместе с тем, функции этих матриц могут быть реализованы с помощью одной "большой матрицы", которая получает на входе декоррелированный сигнал 358 и даунмикс-сигнал 352 и обеспечивает на выходе два, три или более преобразованных аудиорендерингом выходных каналов 350. При осуществлении в варианте "большой матрицы" сигналы по линиям 450 и 452 могут не проходить, и сами эти линии в качестве промежуточных компонентов могут быть конструктивно не реализованы, при этом функции такой "большой матрицы" будут выполняться в виде рабочих операций блоков матричного кодирования 404, 401 или 409 и блока сведения 454.Naturally, the separation of the matrixing units 404, 401 and 409 (FIG. 4D) and the mixing unit 454 is conditional, although a similar design solution is certainly possible. At the same time, the functions of these matrices can be realized with the help of one “large matrix”, which receives a decorrelated signal 358 and a downmix signal 352 at the input and provides two, three or more output channels 350 converted by audio rendering at the output. large matrix "signals along lines 450 and 452 may not pass, and these lines themselves as intermediate components may not be structurally implemented, while the functions of such a" large matrix "will be performed in the form of work operations of matrix blocks full coding 404, 401 or 409 and information block 454.

Кроме того, в декоррелятор 356 произвольно может быть введен блок преддекорреляционного смешения сигнала 402. На фиг.4B показан вариант реализации, не содержащий этот блок. В частности, это применимо в случае использования двух декорреляторов для преобразования сигналов по двум каналам понижающего микширования, когда специальное микширование с понижением не требуется. Естественно, в каждом конкретном случае осуществления для обоих каналов понижающего микширования могут быть применены определенные коэффициенты усиления, или перед вводом в декоррелятор два канала понижающего микширования могут быть смешаны. Вместе с тем, функции матрицы Q могут выполняться матрицей Р. Это означает, что матрица Р на фиг.4B отличается от матрицы Р на фиг.4А, несмотря на то, что достигается одинаковый результат. Ввиду этого декоррелятор 356 может вообще не содержать никакую матрицу, и полный расчет параметров матриц, как и их использование, будут осуществляться внутри блока сведения. Однако для более наглядного отображения технических возможностей, скрывающихся за математическими выкладками, в дальнейшем настоящее изобретение будет описываться в рамках матричных алгоритмов, представленных на фиг.4А-4D.In addition, a pre-correlation mixing block of signal 402 can be arbitrarily inserted into decorrelator 356. FIG. 4B shows an embodiment not containing this block. In particular, this is applicable when two decorrelators are used to convert signals through two down-mix channels, when special down-mix is not required. Naturally, in each particular implementation, certain gain factors can be applied to both downmix channels, or two downmix channels can be mixed before entering the decorrelator. At the same time, the functions of the matrix Q can be performed by the matrix P. This means that the matrix P in Fig. 4B is different from the matrix P in Fig. 4A, despite the fact that the same result is achieved. In view of this, decorrelator 356 may not contain any matrix at all, and the full calculation of the matrix parameters, as well as their use, will be carried out inside the information block. However, in order to more clearly display the technical capabilities hidden behind mathematical calculations, in the future, the present invention will be described in the framework of the matrix algorithms shown in figa-4D.

На фиг.4А показано конструктивное решение изобретения в виде модуля комплексного матричного кодирования 303. Входные данные X, включающие в себя параметры, по крайней мере, двух каналов, вводятся в смеситель исходного сигнала 401, который выполняет матричную операцию в соответствии с матрицей С микширования исходного сигнала и выводит исходный стереосигнал повышающего микширования Y′. Входные данные Х вводятся также в блок преддекорреляционного смешения 402, который выполняет матричную операцию в соответствии с матрицей преддекорреляционного смещения Q и дает на выходе сигнал канала N_d, который подается на декоррелятор 403. Далее результирующий декоррелированный сигнал Z канала N_d вводится в блок повышающего микширования сигнала декоррелятора 404, который выполняет матричную операцию в соответствии с матрицей Р повышающего микширования сигнала декоррелятора и выводит декоррелированный стереосигнал. Наконец, декоррелированный стереосигнал смешивается простым суммированием в канале с необработанным стереосигналом повышающего микширования Y′ с образованием выходного сигнала Y′ модуля комплексного матрицирования. Все три матрицы смешения С, Q, Р описываются матричными данными, рассчитываемыми и пересылаемыми матричным вычислителем 202 на стереопроцессор 201. Один из вариантов системы известного уровня техники содержит только нижнее ответвление линии прохождения исходного сигнала. Такая система работает неудовлетворительно в том простом случае, когда стереофонический музыкальный объект проходит по одному каналу понижающего микширования объекта, а монофонический голосовой объект проходит по другому каналу понижающего микширования объекта. Так происходит потому, что аудиорендеринг музыки в стереофонограмму целиком основывается на частотно-селективном панорамировании, хотя известно, что параметрический принцип преобразования в стереоформат, включающий в себя декорреляцию, дает гораздо более высокое качество воспринимаемого звука. В данном конкретном случае лучший результат могла бы дать целиком отличная система, относящаяся к известному уровню техники, в которой применена декорреляция, но которая базируется на даунмиксах двух отдельных монофонических объектов, однако, с другой стороны, достигаемое качество будет оставаться таким же, как и в первом примере с системой, выдающей необработанный стереосигнал для совместимого назад понижающего микширования, при котором музыка остается в формате истинного стерео, а голос смешивается по равным весам с этими двумя каналами понижающего микширования объекта. В качестве примера можно привести целевой аудиорендеринг для караоке, воспроизводящий только стереофонический музыкальный объект. Последующая раздельная обработка каждого канала понижающего микширования не дает возможность оптимального подавления речевого объекта как при комбинированной обработке, когда учитывается полученная информации о стереоаудиообъекте, такая как межканальная корреляция. Ключевая особенность настоящего изобретения - достижение максимально возможного качества звука не только в обеих этих простых ситуациях, но и при гораздо более сложных сочетаниях понижающего микширования объекта с аудиорендерингом.FIG. 4A shows a constructive solution of the invention in the form of a complex matrix coding module 303. Input X, including parameters of at least two channels, is input into the mixer of the original signal 401, which performs the matrix operation in accordance with the matrix C of mixing the original signal and outputs the original stereo up-mix signal Y ′. The input data X is also input into the pre-correlation mixing block 402, which performs the matrix operation in accordance with the pre-correlation bias matrix Q and gives the output of the channel signal N _d , which is fed to the decorrelator 403. Then, the resulting decorrelated signal Z of the channel N _d is input into the upmixing block the decorrelator signal 404, which performs a matrix operation in accordance with the upmix matrix P of the decorrelator signal and outputs a decorrelated stereo signal. Finally, the decorrelated stereo signal is mixed by simply adding in the channel to the unprocessed up-mixing stereo signal Y ′ to form the output signal Y ′ of the complex matrix. All three mixing matrices C, Q, P are described by matrix data calculated and sent by the matrix calculator 202 to the stereo processor 201. One embodiment of the prior art system contains only the lower branch of the source signal line. Such a system works unsatisfactorily in the simple case when a stereo musical object passes through one channel of a downmix of an object, and a monophonic voice object passes through another channel of a downmix of an object. This is because the audio rendering of music to a stereo phonogram is entirely based on frequency selective panning, although it is known that the parametric principle of conversion to stereo format, including decorrelation, gives a much higher quality of perceived sound. In this particular case, the best result could be achieved by a completely different system, related to the prior art, in which decorrelation is applied, but which is based on downmixes of two separate monophonic objects, however, on the other hand, the achieved quality will remain the same as in the first example with a system that produces an unprocessed stereo signal for backward compatible downmixing, in which the music remains in true stereo format and the voice is mixed in equal weights with these two channels Amps downmix an object. An example is the target audio rendering for karaoke, reproducing only a stereo music object. Subsequent separate processing of each channel down-mixing does not allow optimal suppression of the speech object as in combined processing, when the received information about the stereo-audio object, such as cross-channel correlation, is taken into account. A key feature of the present invention is the achievement of the highest possible sound quality, not only in both of these simple situations, but also with much more complex combinations of down-mixing an object with audio rendering.

На фиг.4B, как уже сказано выше, в отличие от фиг.4А изображена компоновка, при которой матрица Q преддекорреляционного смешения не требуется или интегрирована в матрицу Р повышающего микширования сигнала декоррелятора.On figv, as mentioned above, in contrast to figa shows a layout in which the matrix Q pre-correlation mixing is not required or integrated into the matrix P up-mixing signal of the decorrelator.

На фиг.4С изображена компоновка, при которой матрица Q преддекоррелятора предусмотрена и выполнена в блоке с декоррелятором 356, и при которой матрица Р повышающего микширования сигнала декоррелятора не требуется или интегрирована в матрицу Q.FIG. 4C shows an arrangement in which the pre-correlator matrix Q is provided and implemented in a block with decorrelator 356, and in which the upmix matrix P of the decorrelator signal is not required or integrated into the matrix Q.

В дополнение к этому на фиг.4D изображена компоновка, в которой присутствуют матрицы, показанные на фиг.4А, но в которой предусмотрена дополнительная матрица компенсации усиления G, что особенно применимо в третьем варианте технического решения, который будет обсужден в контексте фиг.13, и четвертом варианте конструктивного решения, который будет обсужден в контексте фиг.14.In addition to this, FIG. 4D shows an arrangement in which the matrices shown in FIG. 4A are present, but in which an additional gain compensation matrix G is provided, which is especially applicable in the third embodiment of the technical solution, which will be discussed in the context of FIG. 13, and a fourth embodiment of the design, which will be discussed in the context of FIG.

Блок декоррелятора 356 может включать в себя одиночный декоррелятор или два декоррелятора. На фиг.4Е изображен вариант компоновки, в котором предусмотрен одиночный декоррелятор 403 и в котором сигнал, полученный понижающим микшированием, является двухканальным сигналом понижающего микширования объекта, а выходной сигнал является двухканальным выходным звуковым сигналом. В данном случае матрица Q понижающего микширования сигнала декоррелятора имеет одну строку и два столбца, а матрица повышающего микширования сигнала декоррелятора имеет один столбец и две строки. Однако, когда сигнал, полученный понижающим микшированием, будет иметь больше двух каналов, количество столбцов Q будет равняться количеству каналов сигнала понижающего микширования, а когда синтезируемый преобразованный аудиорендерингом выходной сигнал будет иметь больше двух каналов, количество строк матрицы Р повышающего микширования декоррелированного сигнала будет равно количеству каналов преобразованного аудиорендерингом выходного сигнала.The decorrelator block 356 may include a single decorrelator or two decorrelators. FIG. 4E illustrates an arrangement in which a single decorrelator 403 is provided and in which the downmix signal is a two-channel downmix signal of an object, and the output signal is a two-channel audio output signal. In this case, the downmix matrix Q of the decorrelator signal has one row and two columns, and the upmix matrix of the decorrelator signal has one column and two rows. However, when the signal received by the downmix has more than two channels, the number of columns Q will be equal to the number of channels of the downmix signal, and when the synthesized audio-converted output signal has more than two channels, the number of rows of the upmix matrix P of the decorrelated signal will be equal to the number channels of the output converted by audio rendering.

На фиг.4F показан напоминающий электрическую цепь вариант реализации смесителя исходного сигнала 401, обозначенный С₀, который при конструктивном решении два-на-два имеет по две строки в двух столбцах. Ячейки матрицы отображены на схеме как весовые коэффициенты c_ij. Кроме того, как видно на фиг.4F, сведение взвешенных каналов выполняется с использованием сумматоров. Однако, когда количество каналов понижающего микширования отлично от количества каналов аудиорендеринга выходного сигнала, матрица микширования исходного сигнала С₀ не будет являться квадратичной матрицей, а будет иметь количество строк, отличное от количества столбцов.FIG. 4F shows an electric circuit resembling embodiment of a source signal mixer 401, designated C ₀ , which, in a two-on-two design, has two rows in two columns. The cells of the matrix are displayed in the diagram as weights c _ij . In addition, as can be seen in FIG. 4F, weighted channel mixing is performed using adders. However, when the number of down-mix channels is different from the number of channels of the audio rendering of the output signal, the mixing matrix of the original signal C ₀ will not be a quadratic matrix, but will have a number of rows other than the number of columns.

На фиг.4G детально отображена стадия суммирования 454 на фиг.4А. В частности, при наличии двух выходных каналов, например сигнала левого стереоканала и сигнала правого стереоканала, предусматриваются два разных суммирующих звена 454, которые выполняют сведение выходных сигналов верхнего ответвления, относящегося к сигналу декоррелятора, и нижнего ответвления, относящегося к исходному сигналу, как показано на фиг.4G.In FIG. 4G, the summing step 454 in FIG. 4A is shown in detail. In particular, when there are two output channels, for example, the left stereo channel signal and the right stereo channel signal, two different summing links 454 are provided that perform the output signals of the upper branch related to the decorrelator signal and the lower branch related to the original signal, as shown in figg.

Ячейки матрицы компенсации усиления G 409 расположены только по ее диагонали. При конструктивном исполнении "два-на-два", показанном на фиг.4f для матрицы С₀ смешения исходного сигнала, коэффициент усиления для компенсации усиления левого исходного сигнала должен находиться в позиции с₁₁, а коэффициент усиления для компенсации усиления правого исходного сигнала будет в позиции С₂₂ матрицы С₀ на фиг.4F. Значения c₁₂ и C₂₁ должны быть равны 0 для матрицы усиления G, как показано под обозначением 409 на фиг.4D.The cells of the gain compensation matrix G 409 are located only along its diagonal. With the two-on-two design shown in FIG. 4f for the source signal mixing matrix C ₀ , the gain for compensating for the gain of the left source signal should be at position ₁₁ , and the gain for compensating for the gain of the right source signal will be position C _{22 of the} matrix C ₀ in fig.4F. The values of c ₁₂ and C ₂₁ must be 0 for the gain matrix G, as shown under 409 in FIG. 4D.

На фиг.5 показана работа многоканального декоррелятора 403 известного уровня техники. Подобное инструментальное средство применяется, например, в рамках стандарта MPEG Surround. N_d сигналов - сигнал 1, сигнал 2, …, сигнал N_d раздельно подаются на декоррелятор 1, декоррелятор 2, …, декоррелятор N_d. Каждый декоррелятор обычно состоит из фильтра, предназначенного для выработки выходного сигнала, максимально некоррелированного с входным сигналом с сохранением мощности входного сигнала. Одновременно, фильтры различных декорреляторов подбираются так, чтобы выходной сигнал декоррелятора 1, выходной сигнал декоррелятора 2, …, выходной сигнал декоррелятора N_d также насколько возможно попарно не коррелировали. Поскольку декорреляторы, как правило, характеризуются высокой вычислительной сложностью по сравнению с другими компонентами декодера аудиообъектов, число N_d предпочтительно должно быть как можно меньше.Figure 5 shows the operation of the multi-channel decorrelator 403 of the prior art. A similar tool is used, for example, in the framework of the MPEG Surround standard. N _d signals - signal 1, signal 2, ..., signal N _{d are} separately fed to decorrelator 1, decorrelator 2, ..., decorrelator N _d . Each decorrelator usually consists of a filter designed to generate an output signal that is maximally uncorrelated with the input signal while maintaining the input signal power. At the same time, the filters of various decorrelators are selected so that the output signal of decorrelator 1, the output signal of decorrelator 2, ..., the output signal of decorrelator N _d also do not correlate as much as possible in pairs. Since decorrelators are typically characterized by high computational complexity compared to other components of an audio object decoder, the number N _d should preferably be as small as possible.

Представляемое изобретение предусматривает технические решения с числом N_d, равным 1, 2 или более, но предпочтительно - меньшим количества аудиообъектов. Говоря точнее, предпочтительное количество декорреляторов при осуществлении должно соответствовать количеству сигналов звуковых каналов преобразованного аудиорендерингом выходного сигнала или быть меньше количества сигналов аудиоканалов преобразованного аудиорендерингом выходного сигнала 350.The present invention provides technical solutions with a number N _d equal to 1, 2 or more, but preferably less than the number of audio objects. More specifically, the preferred number of decorrelators in the implementation should correspond to the number of audio channel signals converted by the audio rendering of the output signal, or less than the number of audio channel signals converted by the audio rendering of the output signal 350.

Далее представлено краткое математическое описание данного изобретения. Все рассматриваемые здесь сигналы являются отсчетами поддиапазонов модулированных банков фильтров или оконного анализа БПФ (быстрого преобразования Фурье) дискретных временных сигналов. Подразумевается, что эти поддиапазоны должны быть преобразованы обратно в область дискретного времени с помощью соответствующих операций банка фильтров синтеза. Сигнальный пакет из L отсчетов отображает сигнал в частотно-временном интервале, составляющем часть перцептуально мотивированной фрагментации частотно-временной плоскости, используемой для описания характеристик сигнала. При таком подходе аудиообъекты могут быть представлены матрицей, содержащей N строк длиной L,The following is a brief mathematical description of the present invention. All the signals considered here are samples of subbands of modulated filter banks or window FFT analysis (fast Fourier transform) of discrete time signals. It is understood that these subbands must be converted back to the discrete time domain using the appropriate synthesis filter bank operations. A signal packet of L samples displays the signal in a time-frequency interval that is part of the perceptually motivated fragmentation of the time-frequency plane used to describe the characteristics of the signal. With this approach, audio objects can be represented by a matrix containing N lines of length L,

На фиг.6 дана сводная карта N аудиообъектов. На фиг.6 каждый объект имеет индивидуальный идентификатор (ID) объекта, соответствующий звуковой файл объекта и обязательно - параметры аудиообъекта, которые предпочтительно должны содержать показатели энергетики аудиообъекта и его взаимной корреляции с другими аудиообъектами. А именно, параметры аудиообъекта включают в себя матрицу Е ковариации объекта для каждого поддиапазона и для каждого временного блока.Figure 6 is a summary map of N audio objects. In Fig.6, each object has an individual identifier (ID) of the object, the corresponding sound file of the object, and necessarily the parameters of the audio object, which preferably should contain indicators of the energy of the audio object and its mutual correlation with other audio objects. Namely, the parameters of the audio object include an object covariance matrix E for each subband and for each time block.

Пример такой матрицы Е акустических параметров объекта приведен на фиг.7. Диагонально расположенные ячейки e_ij заключают в себе информацию о мощности или энергии аудиообъекта i в соответствующем поддиапазоне и в соответствующем временном блоке. Для этого сигнал поддиапазона, представляющий некий аудиообъект i, вводится в вычислитель мощности или энергии, который рассчитан, например, на выполнение функции автокорреляции (acf) для получения значения е₁₁ с нормализацией или без таковой. Или же энергия может быть вычислена как сумма квадратов сигнала на определенной длине (то есть как векторное произведение: ss*). Функция acf может в некотором смысле описывать спектральное распределение энергии, но вследствие того, что применение частотно-временного преобразования для частотной селекции в любом случае предпочтительно, энергия может быть рассчитана без применения acf отдельно для каждого поддиапазона. Таким образом, диагональные элементы матрицы Е акустических параметров объекта указывают измеренный уровень мощности или энергии аудиообъекта в конкретном поддиапазоне в конкретный интервал времени.An example of such a matrix E of the acoustic parameters of the object is shown in Fig.7. Diagonally located cells e _ij enclose information about the power or energy of the audio object i in the corresponding subband and in the corresponding time block. For this, a subband signal representing a certain audio object i is input into a power or energy calculator, which is designed, for example, to perform the autocorrelation function (acf) to obtain the value of e ₁₁ with or without normalization. Or, the energy can be calculated as the sum of the squares of the signal over a specific length (that is, as a vector product: ss *). The acf function can in some sense describe the spectral distribution of energy, but since the use of the time-frequency conversion for frequency selection is preferable in any case, the energy can be calculated without using acf separately for each subband. Thus, the diagonal elements of the matrix E of the acoustic parameters of the object indicate the measured level of power or energy of the audio object in a particular subband in a specific time interval.

Вместе с тем, недиагональный элемент e_ij обозначает соответствующую степень тесноты корреляции между аудиообъектами i, j в соответствующем поддиапазоне и временном блоке. Как видно на фиг.7, в матрице Е ячейки с действительным значением располагаются симметрично относительно главной диагонали. Обычно такая матрица является эрмитовой матрицей. Показатель степени тесноты корреляции (коэффициент корреляции) e_ij может быть вычислен, например, с помощью взаимной корреляция двух сигналов поддиапазона соответствующих аудиообъектов, благодаря чему определяется степень тесноты перекрестной корреляции, которая произвольно может быть нормализована. Возможны другие способы измерения корреляции, которые не включают в себя операцию определения взаимной корреляции, а задействуют другие способы вычисления степени тесноты корреляции между двумя сигналами. По практическим соображениям все элементы матрицы Е нормализуются до значений между 0 и 1, где 1 служит показателем максимальной мощности, или максимальной корреляции, 0 обозначает минимальную мощность (нулевую мощность), а -1 показывает минимальную (не совпадающую по фазе) корреляцию.However, the off-diagonal element e _ij denotes the corresponding degree of tightness of the correlation between the audio objects i, j in the corresponding subband and time block. As can be seen in Fig.7, in the matrix E, the cells with the actual value are located symmetrically with respect to the main diagonal. Typically, such a matrix is a Hermitian matrix. The correlation tightness index (correlation coefficient) e _ij can be calculated, for example, by cross-correlation of two subband signals of the corresponding audio objects, thereby determining the degree of cross-correlation tightness, which can be arbitrarily normalized. Other methods of measuring correlation are possible, which do not include the operation of determining cross-correlation, but involve other methods of calculating the degree of tightness of the correlation between the two signals. For practical reasons, all elements of the matrix E are normalized to values between 0 and 1, where 1 is an indicator of maximum power, or maximum correlation, 0 indicates the minimum power (zero power), and -1 indicates the minimum (not matching in phase) correlation.

Матрица D понижающего микширования размерностью K × N, где K > N, формирует K-канальный сигнал понижающего микширования согласно матрице со сквозным количеством К строк при матричном мультиплицированииThe K × N downmix matrix D, where K> N, generates a K-channel downmix signal according to a matrix with an end-to-end number of K lines in matrix multiplication

На фиг.8 дан пример матрицы D понижающего микширования с ячейкой d_ij. Элемент d_ij показывает, включен или нет, и в какой степени, объект j в сигнал понижающего микширования объекта i. Например, если d₁₂ равно нулю, то объект 2 не включен в даунмикс-сигнал объекта 1. Вместе с тем, значение d₂₃, равное 1, означает, что объект 3 полностью включен в даунмикс-сигнал объекта 2.Fig. 8 shows an example of a downmix matrix D with a cell d _ij . Element d _ij indicates whether or not, and to what extent, object j is included in the downmix signal of object i. For example, if d ₁₂ is zero, then object 2 is not included in the downmix signal of object 1. However, a value of d ₂₃ equal to 1 means that object 3 is fully included in the downmix signal of object 2.

Показатели ячеек матрицы понижающего микширования находятся в пределах между 0 и 1. В частности, показатель 0,5 означает, что некий объект участвует в сигнале понижающего микширования половиной своей энергии. Таким образом, если, например, аудиообъект 4 равномерно распределен по обоим каналам микшированного с понижением сигнала, элементы d₂₄ и d₁₄ будут равны 0,5. Этот способ понижающего микширования является энергосберегающим и может быть рекомендован для целого ряда случаев. Тем не менее, метод понижающего микширования, не являющийся экономичным, также может быть задействован, когда аудиообъект целиком вводится в левый канал понижающего микширования и в правый канал понижающего микширования таким образом, что энергия этого аудиообъекта удваивается относительно других аудиообъектов внутри этого сигнала понижающего микширования.The cells of the downmix matrix cells are between 0 and 1. In particular, a value of 0.5 means that an object is participating in the downmix signal with half of its energy. Thus, if, for example, the audio object 4 is evenly distributed over both channels of the downmix signal, the elements d ₂₄ and d ₁₄ will be 0.5. This down-mix method is energy-efficient and can be recommended for a number of cases. However, a down-mix technique that is not economical can also be used when the entire audio object is inserted into the left down-mix channel and into the right down-mix channel so that the energy of this audio object doubles relative to other audio objects inside this down-mix signal.

В нижней части фиг.8 дается принципиальная схема кодера объекта 101, показанного на фиг.1. В частности, в кодер объекта 101 введены два разных компонента 101а и 101b. Компонент 101a представляет собой понижающий микшер, который преимущественно осуществляет взвешенное линейное сведение аудиообъектов 1, 2, …, N, второй компонент 101b кодера объекта 101 является вычислителем параметров аудиообъектов, таких как матрица Е, для каждого временного блока или частотного поддиапазона с целью подготовки данных корреляции и мощности звука, которые представляют собой параметрическую информацию и поэтому могут быть переданы с низким битрейтом или сохранены в малом объеме памяти.At the bottom of FIG. 8 is a schematic diagram of the encoder of the object 101 shown in FIG. In particular, two different components 101a and 101b are inserted into the encoder of the object 101. Component 101a is a downmixer that predominantly performs weighted linear mixing of audio objects 1, 2, ..., N, the second component 101b of the encoder of object 101 is a calculator of parameters of audio objects, such as matrix E, for each time block or frequency subband in order to produce correlation data and sound powers, which are parametric information and therefore can be transmitted with a low bit rate or stored in a small amount of memory.

Задаваемая пользователем матрица А рендеринга объекта размерностью М × N формирует М-канальный рендеринг аудиообъектов по заданным параметрам в виде матрицы со сквозным количеством М строк при матричном мультиплицированииA user-defined object rendering matrix A with a dimension of M × N forms an M-channel rendering of audio objects according to given parameters in the form of a matrix with an end-to-end number of M rows in matrix multiplication

В ходе последующего дифференцирования будет принято, что М=2, так как основное внимание уделяется стереоаудиорендерингу (/стереозвукопередаче). Принимая во внимание, что первичный аудиорендеринг осуществляется по более чем двум каналам, и, зная правила понижающего микширования этих нескольких каналов в два канала, квалифицированный специалист без труда рассчитает соответствующую матрицу рендеринга А размерностью 2 × N для выполнения стереоаудиорендеринга. Такое понижение выполняется блоком сведения данных аудиорендеринга 204. Кроме того, для упрощения примем, что K=2, то есть, что даунмикс объекта также является стереосигналом. Тем более что понижающее микширование стереообъекта представляет собой наиболее важный случай прикладного сценария.During the subsequent differentiation, it will be assumed that M = 2, since the main attention is paid to stereo audio rendering (/ stereo audio transmission). Taking into account that the primary audio rendering is carried out on more than two channels, and, knowing the rules for down-mixing these several channels into two channels, a qualified specialist will easily calculate the appropriate 2 × N rendering matrix A for stereo audio rendering. Such a reduction is performed by the audio rendering data converging unit 204. In addition, for simplicity, we assume that K = 2, that is, that the downmix of the object is also a stereo signal. Moreover, the down-mix of a stereo object is the most important case of an application scenario.

На фиг.9 детально рассмотрена матрица А параметров аудиорендеринга. В зависимости от назначения матрица А параметров аудиорендеринга может быть представлена пользователем. Пользователь абсолютно свободен в выборе конечного расположения аудиообъекта в воспроизводимой виртуальной среде. Сильная сторона концепции аудиообъекта заключается в том, что информация о понижающем микшировании и параметры аудиообъекта никак не влияют на желаемое пространственное размещение аудиообъектов. Такое позиционирование аудиообъектов задается пользователем в виде информации пространственно скоординированного аудиорендеринга. Информация такого целевого аудиорендеринга может быть представлена к форме матрицы А параметров аудиорендеринга, вариант которой представлен на фиг.9. В частности, матрица аудиорендеринга А имеет М строк и N столбцов, где М равно количеству каналов преобразованного аудиорендерингом выходного сигнала, и где N равно количеству аудиообъектов. М равно двум согласно предпочтительному сценарию стереоаудиорендеринга, однако если выполняется М-канальный аудиорендеринг, матрица А имеет М строк.Figure 9 is a detailed discussion of the matrix A of audio rendering parameters. Depending on the purpose, the matrix A of the audio rendering parameters may be presented by the user. The user is absolutely free to choose the final location of the audio object in a reproducible virtual environment. The strength of the audio object concept is that the downmix information and the audio object parameters do not affect the desired spatial distribution of the audio objects. Such positioning of audio objects is set by the user in the form of information of spatially coordinated audio rendering. Information of such a target audio rendering may be presented in the form of a matrix A of audio rendering parameters, a variant of which is shown in FIG. 9. In particular, the audio rendering matrix A has M rows and N columns, where M is equal to the number of channels of the output converted by audio rendering, and where N is equal to the number of audio objects. M is equal to two according to a preferred stereo audio rendering scenario, however, if M-channel audio rendering is performed, matrix A has M rows.

В частности, ячейка матрицы a_ij, включен или нет, и в какой степени, объект j в сигнал понижающего микширования объекта i. В нижней части фиг.9 приведен простой пример матрицы параметров аудиорендеринга для сценария, в котором задействованы шесть аудиообъектов от A01 до А06, причем, только первые пять аудиообъектов должны быть точно позиционированы в пространстве, а шестой аудиообъект рендеринг не должен затрагивать вообще.In particular, the matrix cell a _ij is included or not, and to what extent, object j is in the down-mix signal of object i. The lower part of Fig. 9 shows a simple example of a matrix of audio rendering parameters for a scenario in which six audio objects from A01 to A06 are involved, and only the first five audio objects must be precisely positioned in space, and the sixth audio object should not affect rendering at all.

По акустическому сценарию пользователя аудиообъект A01 должен звучать слева. Поэтому данный объект помещается в левый динамик в (виртуальной) аудитории, в результате чего первый столбец матрицы аудиорендеринга А приобретает вид (10). Второй аудиообъект имеет показатели а₂₂, равный одному, и а₁₂, равный нулю, что означает, что второй аудиообъект должен звучать справа.According to the user's acoustic scenario, audio object A01 should sound on the left. Therefore, this object is placed in the left speaker in the (virtual) audience, as a result of which the first column of the audio rendering matrix A takes the form (10). The second audio object has indicators a ₂₂ equal to one, and a ₁₂ equal to zero, which means that the second audio object should sound on the right.

Аудиообъект 3 должен звучать в центре, между левым и правым динамиками, чтобы 50% уровня или сигнала этого аудиообъекта проходило по левому каналу и 50% уровня или сигнала проходило по правому каналу, соответственно третий столбец матрицы А параметров аудиорендеринга получил вид (0,5 пробел 0,5).Audio object 3 should sound in the center, between the left and right speakers, so that 50% of the level or signal of this audio object passes through the left channel and 50% of the level or signal passes through the right channel, respectively, the third column of the matrix A of the audio rendering parameters has the form (0.5 space 0.5).

Аналогичным образом с помощью матрицы параметров аудиорендеринга может быть задано любое положение между левой и правой акустическими системами. Поскольку матричная ячейка а₂₄ больше, чем а₁₄, аудиообъект 4 смещен вправо. Аналогично этому пятый аудиообъект А05 смещен влево, что отражено элементами матрицы параметров аудиорендеринга а₁₅ и а₂₅. Матрица А параметров аудиорендеринга дополнительно предусматривает возможность вообще не воспроизводить некоторые аудиообъекты. Это показано на примере шестого столбца матрицы А параметров аудиорендеринга, содержащего нулевые ячейки.Similarly, using the matrix of audio rendering parameters, any position between the left and right speakers can be set. Since the matrix cell a _{24 is} larger than a ₁₄ , the audio object 4 is shifted to the right. Similarly, the fifth audio object A05 is shifted to the left, which is reflected by the elements of the matrix of audio rendering parameters a ₁₅ and a ₂₅ . Matrix A of audio rendering parameters additionally provides for the ability not to play some audio objects at all. This is shown by the example of the sixth column of the matrix A of audio rendering parameters containing zero cells.

В ходе последующего дифференцирования будет принято, что М=2, так как основное внимание уделяется стереоаудиорендерингу. Принимая во внимание, что первичный аудиорендеринг осуществляется по более чем двум каналам, и, зная правила понижающего микширования этих нескольких каналов в два канала, квалифицированный специалист без труда рассчитает соответствующую матрицу рендеринга А размерностью 2×N для выполнения стереоаудиорендеринга. Такое понижение выполняется блоком сведения данных аудиорендеринга 204. Кроме того, для упрощения примем, что K=2, то есть, что даунмикс объекта также является стереосигналом. Тем более что понижающее микширование стереообъекта представляет собой наиболее важный случай прикладного сценария.In the course of the subsequent differentiation, it will be assumed that M = 2, since the focus is on stereo audio rendering. Taking into account that the primary audio rendering is carried out on more than two channels, and, knowing the rules for down-mixing these several channels into two channels, a qualified specialist will easily calculate the appropriate 2 × N rendering matrix A for stereo audio rendering. Such a reduction is performed by the audio rendering data converging unit 204. In addition, for simplicity, we assume that K = 2, that is, that the downmix of the object is also a stereo signal. Moreover, the down-mix of a stereo object is the most important case of an application scenario.

Если временно пренебречь потерями кодирования аудиосигнала при понижающем микшировании объекта, основная задача декодера аудиообъекта состоит в приближении исходных аудиообъектов к желаемому пространственному восприятию в ходе аудиорендеринга по заданным параметрам (целевого аудиорендеринга) Y, основанного на матрице аудиорендеринга А, данных понижающего микширования X, матрице D понижающего микширования, и параметрах объекта. Устройство относящегося к изобретению интегрированного модуля матричного кодирования 303 представлено на фиг.4. Учитывая число N_d взаимно ортогональных декорреляторов в составе элемента 403, можно выделить три матрицы смешения:If we temporarily neglect audio coding losses during downmixing of an object, the main task of an audio object decoder is to bring the original audio objects closer to the desired spatial perception during the audio rendering according to the given parameters (target audio rendering) Y, based on the audio rendering matrix A, the downmix data X, the downmix matrix D mixing, and object parameters. An apparatus of the integrated matrix coding module 303 of the invention is shown in FIG. Given the number N _{d of} mutually orthogonal decorrelators in element 403, three mixing matrices can be distinguished:

- С размерностью 2 × 2, которая выполняет смешение исходного сигнала;- With a dimension of 2 × 2, which performs the mixing of the original signal;

- Q размерностью N_d× 2, которая выполняет преддекорреляционное смешение сигнала;- Q dimension N _d × 2, which performs pre-correlation mixing of the signal;

- Р размерностью 2 × N_d, которая выполняет повышающее микширование декоррелированного сигнала.- P dimension 2 × N _d , which performs upmixing of the decorrelated signal.

Если предположить, что декорреляторы являются энергосберегающими, матрица Z декоррелированного сигнала имеет ковариационную матрицу R_z=ZZ^* с диагональю N_d×N_d, диагональные значения которой равны диагональным значениям матрицы ковариацииAssuming decorrelators are energy-efficient, the decorrelated signal matrix Z has a covariance matrix R _z = ZZ ^* with a diagonal of N _d × N _d whose diagonal values are equal to the diagonal values of the covariance matrix

даунмикса объекта, прошедшего процесс преддекорреляционного смешения. (Здесь и далее звездочкой обозначены матричные операции с комплексно сопряженным транспонированием. Кроме того, подразумевается, что детерминированные матрицы ковариации формы UV^*, используемые повсеместно для удобства вычислений, могут быть заменены на математические ожидания).downmix of the object that went through the process of pre-correlation mixing. (Hereinafter, an asterisk denotes matrix operations with complex conjugate transposition. In addition, it is understood that the determinate covariance matrices of the UV ^* form, used universally for the convenience of calculations, can be replaced by mathematical expectations).

Кроме того, все декоррелированные сигналы могут считаться некоррелированными при понижающем микшировании объектов. Таким образом, ковариация R′ сведенного выходного сигнала модуля комплексного матрицирования 303, относящегося к изобретению.In addition, all decorrelated signals can be considered uncorrelated when downmixing objects. Thus, the covariance R ′ of the reduced output signal of the complex matrixing module 303 related to the invention.

может быть записана как сумма ковариации

смешанного исходного сигнала

и результирующей ковариации выхода декоррелятораcan be written as the sum of the covariance

mixed source signal

and resulting covariance of decorrelator output

Параметры объекта обычно содержат информацию относительно мощностей объекта и выбранных межобъектных корреляций. На основании этих параметров может быть построена модель E с N×N ковариацией объектов SS*.The parameters of the object usually contain information regarding the power of the object and the selected inter-object correlations. Based on these parameters, an E model with N × N covariance of SS * objects can be constructed.

При этом данные, необходимые декодеру аудиообъекта, описываются триплетом матриц (D, E, A), и метод, являющийся частью настоящего изобретения, состоит в использовании этих данных для общей оптимизации волнового согласования сведенного выходного сигнала (5) и его ковариации (6) с сигналом заданного аудиорендеринга (4). Задачей данной матрицы смещения исходного сигнала является корректная конечная ковариации R′=R, которая может быть оценена с использованиемAt the same time, the data required by the audio object decoder is described by a matrix triplet (D, E, A), and the method that is part of the present invention consists in using this data for general optimization of wave matching of the reduced output signal (5) and its covariance (6) with a signal of a given audio rendering (4). The objective of this bias matrix of the original signal is the correct final covariance R ′ = R, which can be estimated using

Сопоставляя матрицу ошибок, описываемую какComparing the error matrix described as

с (6) получаем требование к конструкцииc (6) we obtain the construction requirement

Поскольку левая часть (10) представляет собой положительную полуопределенную матрицу для любой матрицы P декоррелятора, необходимо, чтобы матрица ошибок (9) также являлась положительной полуопределенной матрицей. Для подробного объяснения приведенных далее формул необходимо параметризировать ковариации смешанного исходного сигнала и заданного аудиорендеринга следующим образом:Since the left-hand side of (10) is a positive semidefinite matrix for any matrix P of the decorrelator, it is necessary that the error matrix (9) also be a positive semidefinite matrix. For a detailed explanation of the following formulas, it is necessary to parameterize the covariance of the mixed source signal and the given audio rendering as follows:

Для матрицы ошибокFor error matrix

необходимое требование положительной полуопределенности может быть выражено в виде трех условий:the necessary requirement of positive semidefiniteness can be expressed in the form of three conditions:

Далее будет рассмотрена фиг.10. На фиг.10 показана последовательность предварительных расчетов, необходимых для четырех вариантов реализации, на фиг.11-14. Одним из таких предварительных вычислений является расчет ковариационной матрицы R сигнала аудиорендеринга по заданным параметрам, что обозначено элементом 1000 на фиг.10. Блок 1000 соответствует уравнению (8).Next will be considered figure 10. Figure 10 shows the sequence of preliminary calculations necessary for the four implementation options, figure 11-14. One of these preliminary calculations is the calculation of the covariance matrix R of the audio rendering signal according to predetermined parameters, which is indicated by element 1000 in FIG. 10. Block 1000 corresponds to equation (8).

Как показано в блоке 1002, матрица микширования исходного сигнала может быть рассчитана с использованием уравнения (15). В частности, результатом расчета матрицы смешения исходного сигнала С₀ является наилучшее согласование сигнала заданного аудиорендеринга, достигнутое с использованием сигналов понижающего микширования, при этом предполагается, что декоррелированный сигнал не используется вообще. Таким образом, матрица микширования исходного сигнала обеспечивает наилучшее согласование формы выходного сигнала матрицы смешивания с сигналом аудиорендеринга по заданным параметрам без какой-либо дополнительной декорреляции сигнала. Это свойство матрицы смешения исходного сигнала особенно важно для поддержания как можно более низкого уровня декоррелированного сигнала в выходном канале. В большинстве случаев декоррелированный сигнал - это сигнал, который был в значительной степени изменен декоррелятором. В силу этого такой сигнал, как правило, содержит артефакты в виде расцвечивания, размытия времени и плохой переходной характеристики. Поэтому преимуществом такого конструктивного решения является обеспечение лучшего качества выходного аудиосигнала вследствие низкого уровня декорреляции сигнала. Благодаря согласованию формы сигнала, то есть взвешиванию и сведению двух или более каналов в сигнал понижающего микширования с формированием исходного звукового сигнала, максимально приближенного к заданным характеристикам аудиорендеринга, требуется минимальная декорреляция сигнала.As shown in block 1002, the mixing matrix of the original signal can be calculated using equation (15). In particular, the result of calculating the mixing matrix of the initial signal C ₀ is the best signal matching of a given audio rendering achieved using down-mix signals, and it is assumed that the decorrelated signal is not used at all. Thus, the mixing matrix of the original signal provides the best matching of the output signal shape of the mixing matrix with the audio rendering signal according to the specified parameters without any additional decorrelation of the signal. This property of the mixing matrix of the original signal is especially important to keep the decorrelated signal in the output channel as low as possible. In most cases, a decorrelated signal is a signal that has been significantly altered by a decorrelator. Because of this, such a signal, as a rule, contains artifacts in the form of colorization, time blurring and poor transient response. Therefore, the advantage of this design solution is to provide better quality of the output audio signal due to the low level of decorrelation of the signal. Due to the matching of the waveform, that is, weighing and mixing two or more channels into a down-mix signal with the formation of the original sound signal, as close as possible to the specified characteristics of the audio rendering, minimal signal decorrelation is required.

В функции блока сведения 364 входит вычисление весовых коэффициентов таким образом, чтобы результат 452 смешения сигнала понижающего микширования первого объекта и сигнала понижающего микширования второго объекта по форме сигнала согласовывался с результатом аудиорендеринга по заданным параметрам, причем такое согласование в максимально возможной степени должно служить предотвращению ситуации, когда при аудиорендеринге исходных аудиообъектов с использованием задаваемых параметров аудиорендеринга 360 параметрическая информация о аудиообъекте 362 была бы утрачена при отсутствии акустических образов аудиообъектов. Из этого следует, что точная реконструкция сигнала не может быть гарантирована даже при наличии неквантованной матрицы Е. Среднеквадратическая ошибка может быть минимизирована. Следовательно, следует стремиться к волновому согласованию, благодаря которому возможна реконструкция уровней мощности и взаимных корреляций.The function of the information block 364 is to calculate the weighting coefficients so that the result 452 of mixing the down-mix signal of the first object and the down-mix signal of the second object in the waveform is consistent with the result of the audio rendering according to the specified parameters, and this coordination should, as much as possible, prevent the situation, when, during the audio rendering of the original audio objects using the specified audio rendering parameters 360, parametric information about ioobekte 362 would be lost in the absence of acoustic images of audio objects. It follows that an accurate reconstruction of the signal cannot be guaranteed even if there is a non-quantized matrix E. The mean-square error can be minimized. Therefore, one should strive for wave matching, due to which the reconstruction of power levels and mutual correlations is possible.

Сразу же после расчета матрицы С₀ смешения исходного сигнала, например, вышеупомянутым способом может быть вычислена матрица ковариации

исходного сигнала. В частности, рекомендуется использовать уравнение, расположенное в правой части фиг.10, то есть C₀DED^*C^* ₀. Благодаря этой формуле при расчете матрицы ковариации

результата смешения исходного сигнала требуются только параметры, а отсчеты частотных поддиапазонов не требуются. При этом, как вариант, ковариационная матрица результата смешения исходного сигнала может быть рассчитана с использованием матрицы С₀ смешения исходного сигнала и микшированных с понижением сигналов, но первое вычисление, которое выполняется в области значений параметров может быть только невысокой сложности.Immediately after calculating the initial mixing signal matrix C ₀ , for example, the covariance matrix can be calculated by the above method

source signal. In particular, it is recommended to use the equation located on the right side of FIG. 10, i.e., C ₀ DED ^* C ^* ₀ . Thanks to this formula, when calculating the covariance matrix

the result of mixing the original signal requires only parameters, and samples of the frequency subbands are not required. In this case, as an option, the covariance matrix of the result of mixing the original signal can be calculated using the matrix C _{0 of} mixing the original signal and the signals mixed with decreasing, but the first calculation, which is performed in the range of parameter values, can only be of low complexity.

За шагами вычислений 1000, 1002, 1004 могут быть рассчитаны матрица С₀ смешения исходного сигнала, ковариационная матрица R сигнала заданного аудиорендеринга и ковариационная матрица

исходного сигнала.After the calculation steps 1000, 1002, 1004, the mixing matrix C _{0 of the} original signal, the covariance matrix R of the given audio rendering signal and the covariance matrix can be calculated

source signal.

Далее рассматриваются четыре варианта конструктивного решения в зависимости от применения матриц Q, Р. Дополнительно описывается случай фиг.4d (например, для третьего или четвертого варианта реализации), где также определены значения матрицы G компенсации усиления. Для квалифицированного специалиста очевидна возможность варьирования конструктивных решений, помогающих найти значения этих матриц, благодаря существующей степени свободы выбора при вычислении матричных весовых коэффициентов.Four variants of the constructive solution are considered below depending on the application of the matrices Q and P. Additionally, the case of Fig. 4d is described (for example, for the third or fourth embodiment), where the values of the gain compensation matrix G are also determined. For a qualified specialist, the possibility of varying design solutions that help to find the values of these matrices is obvious, due to the existing degree of freedom of choice in calculating matrix weighting coefficients.

В первом варианте реализации настоящего изобретения матричный вычислитель 202 работает но следующему алгоритму.In a first embodiment of the present invention, matrix calculator 202 operates on the following algorithm.

Матрица повышающего микширования исходного сигнала рассчитывается прежде всего с целью нахождения решения методом наименьших квадратов для согласования формы сигналаThe upmix matrix of the original signal is calculated primarily to find a solution using the least squares method to match the waveform

В данном случае имеет силу . Кроме того, здесь выполняется уравнение:In this case, it is valid. . In addition, the equation holds here:

Решение этой задачи находимо с помощьюThe solution to this problem is found using

что имеет известное дополнительное решение методом наименьших квадратов, а на основании (13) также может быть легко подтверждено, что ошибка

является ортогональной по отношению к аппроксимации. Поэтому перекрестные члены при дальнейшем вычислении обращаются в нуль,which has a known additional solution by the least squares method, and on the basis of (13) it can also be easily confirmed that the error

is orthogonal with respect to the approximation. Therefore, the cross terms in the further calculation vanish,

Из этого следуетTherefore

что является заведомо неотрицательно определенным, следовательно, (10) может быть решено. Символическим решением являетсяwhich is obviously non-negative definite; therefore, (10) can be solved. The symbolic decision is

Здесь второй множитель

легко определяется с помощью поэлементной операции на диагонали, и матрица T решает матричное уравнение TT^*=ΔR. Для этого уравнения существует большой выбор решений. Особенность метода данного изобретения состоит в том, что начинать следует с разложения по сингулярным числам матрицы ΔR. Для этой симметричной матрицы он сводится к обычному разложению собственного вектора,Here is the second factor

it is easily determined using the elementwise operation on the diagonal, and the matrix T solves the matrix equation TT ^* = ΔR. There is a large selection of solutions for this equation. A feature of the method of this invention is that you should start with the expansion in the singular numbers of the matrix ΔR. For this symmetric matrix, it reduces to the usual expansion of the eigenvector,

где матрица U собственного вектора унитарна и ее столбцы содержат собственные векторы, соответствующие характеристическим значениям, отсортированным в убывающем порядке. Первый вариант решения по настоящему изобретению с одним декоррелятором (N_d=1) выполняется путем задания λ_min=0 в (19) и подстановки соответствующего натурального приближенияwhere the matrix U of the eigenvector is unitary and its columns contain eigenvectors corresponding to characteristic values sorted in descending order. The first solution option of the present invention with one decorrelator (N _d = 1) is performed by setting λ _min = 0 in (19) and substituting the corresponding natural approximation

в (18). Полное решение с количеством декорреляторов N_d=2 выполняется внесением недостающего минимально значимого дополнения из наименьшего собственного числа и добавлением второго столбца к (20), соответствующего произведению первого множителя (19) на корень квадратный каждого элемента диагональной матрицы собственных чисел. Подробно это будет выглядеть следующим образом:in (18). A complete solution with the number of decorrelators N _d = 2 is made by introducing the missing minimum significant complement from the smallest eigenvalue and adding the second column to (20), corresponding to the product of the first factor (19) and the square root of each element of the diagonal eigenvalue matrix. In detail it will look as follows:

Итог по расчету матрицы Р для первого варианта реализации будет подведен в контексте фиг.11. На шаге 1101 рассчитывается ковариационная матрица DR сигнала рассогласования или при рассмотрении фиг.4А - матрица коррелированного сигнала в верхнем ответвлении, с использованием результатов шага 1000 и шага 1004 на фиг.10. Затем выполняется разложение собственных чисел этой матрицы, что обсуждалось в связи с уравнением (19). Далее, в соответствии с одной из множества применимых стратегий, которые будут обсуждаться позднее, выбор переходит на матрицу Q. На базе выбранной матрицы Q рассчитывается ковариационная матрица R_z матрицированного декоррелированного сигнала с использованием уравнения, записанного справа от рамки 1103 на фиг.11, то есть матричного мультиплицирования QDED^*Q^*. Затем, на основании R_z, полученного на шаге 1103, вычисляется матрица Р повышающего микширования сигнала декоррелятора. Понятно, что фактическое выполнение этой матрицей повышающего микширования необязательно, так как на выходе блока Р 404 на фиг.4А сигналов больше, чем на входе. Эта операция может применяться в случае с одиночным коррелятором, в то время как при двух декорреляторах матрица Р повышающего микширования сигнала декоррелятора имеет два канала на входе и два канала на выходе и может быть реализована в виде матрицы повышающего микшера исходного сигнала, показанная на фиг.4F.The result of calculating the matrix P for the first embodiment will be summarized in the context of Fig. 11. In step 1101, the covariance matrix DR of the mismatch signal is calculated, or, when considering FIG. 4A, the matrix of the correlated signal in the upper branch, using the results of step 1000 and step 1004 in FIG. 10. Then the eigenvalues of this matrix are expanded, which was discussed in connection with equation (19). Next, in accordance with one of the many applicable strategies that will be discussed later, the choice goes to the Q matrix. Based on the selected Q matrix, the covariance matrix R _{z of the} matched decorrelated signal is calculated using the equation written to the right of frame 1103 in FIG. 11, then there is matrix multiplication QDED ^* Q ^* . Then, based on R _z obtained in step 1103, the upmix matrix P of the decorrelator signal is calculated. It is clear that the actual implementation of this matrix up-mixing is optional, since the output of block P 404 in Fig. 4A has more signals than at the input. This operation can be applied in the case of a single correlator, while for two decorrelators the upmix matrix P of the decorrelator signal has two channels at the input and two channels at the output and can be implemented as a matrix of the upmixer of the original signal shown in Fig. 4F .

Таким образом, основной особенностью первого варианта реализации является то, что вычисляются С₀ и Р. Существует мнение, что для обеспечения на выходе четко коррелированной схемы следует использовать два декоррелятора. Вместе с тем, возможность применения только одного декоррелятора создает свои преимущества. Такое решение представлено уравнением (20). В частности, при осуществлении может быть применен декоррелятор с меньшим характеристическим значением.Thus, the main feature of the first embodiment is that C ₀ and P are calculated. There is an opinion that two decorrelators should be used to ensure a clearly correlated circuit at the output. At the same time, the possibility of using only one decorrelator creates its own advantages. Such a solution is represented by equation (20). In particular, in the implementation can be applied decorrelator with a lower characteristic value.

Во втором варианте реализации настоящего изобретения матричный вычислитель 202 работает по следующему алгоритму. По своей форме матрица смешения сигнала декоррелятора ограниченаIn a second embodiment of the present invention, matrix calculator 202 operates according to the following algorithm. In its shape, the mixing matrix of the decorrelator signal is limited

При таком ограничении матрица ковариации одиночного декоррелированного сигнала является скаляром R_z=r_Z, и ковариация сведенного выходного сигнал (6) приобретает видWith this restriction, the covariance matrix of a single decorrelated signal is a scalar R _z = r _Z , and the covariance of the reduced output signal (6) takes the form

где α=c²r_z. Полное согласование с заданной ковариацией R′=R технически не осуществимо, но перцептуально обусловленная необходимость нормализованной корреляции между выходными каналами в целом ряде случаев заставляет по возможности приблизить ее к желаемой. Здесь задаваемая корреляция описываетсяwhere α = c ² r _z . Full agreement with the given covariance R ′ = R is not technically feasible, but the perceptually determined need for a normalized correlation between the output channels in a number of cases makes it possible to bring it closer to the desired one. Here, the defined correlation is described.

а корреляция, достигаемая в сведенном выходном сигнале (23), представляется какand the correlation achieved in the reduced output signal (23) is represented as

Уравнивание (24) и (25) приводит к квадратному уравнению в α,Equation (24) and (25) leads to the quadratic equation in α,

Для тех случаев, когда (26) имеет положительное решение α=α₀>0, второй вариант реализации настоящего изобретения предлагает в определении (22) использовать константу

. Если оба решения уравнения (26) окажутся положительными, применено должно быть то, норма с которого меньше. В том случае, когда подобное решение не существует, активность декоррелятора устанавливается на ноль выбором с=0, так как сложные решения с приводят к заметным фазовым искажениям декоррелированных сигналов.

может быть рассчитано двумя способами - или напрямую из сигнала

, или путем объединения ковариационной матрицы объектов с данными понижающего микширования и аудиорендеринга как

. Здесь первый метод даст в результате комплексное

и поэтому в правой части (26) квадрат должен быть взят из вещественной части или величины

соответственно. Тем не менее, даже комплекснозначное

может быть использовано. Такое комплексное значение указывает на корреляцию со специфической фазой, что также может оказаться полезным в специфических приложениях.For those cases where (26) has a positive solution α = α ₀ > 0, the second embodiment of the present invention proposes to use the constant in definition (22)

. If both solutions of equation (26) turn out to be positive, then the one with which the norm is less should be applied. In the case when such a solution does not exist, the decorrelator activity is set to zero by choosing c = 0, since complex solutions with lead to noticeable phase distortions of the decorrelated signals.

can be calculated in two ways - or directly from the signal

, or by combining the covariance matrix of objects with downmix and audio rendering data as

. Here, the first method will result in a comprehensive

and therefore, in the right-hand side of (26), the square should be taken from the real part or the quantity

respectively. However, even complex

can be used. Such a complex value indicates a correlation with a specific phase, which may also be useful in specific applications.

Как видно из (25), особенность этого конструктивного исполнения в том, что оно может только снизить тесноту корреляции в отличие от корреляции исходного сигнала. Таким образом,

.As can be seen from (25), the peculiarity of this design is that it can only reduce the correlation tightness, in contrast to the correlation of the original signal. In this way,

.

В итоге получаем, что второй вариант реализации прослежен на фиг.12. Он начинается с расчета ковариационной матрицы DR на шаге 1101, который идентичен шагу 1101 на фиг.11. Затем применяется уравнение (22). А именно, появление матрицы Р предварительно задано, и для нахождения остается только весовой множитель с, одинаковый для обоих элементов Р. В частности, один столбец матрицы Р показывает, что во второй версии реализации используется одиночный декоррелятор. Более того, знаки элементов р показывают, что декоррелированный сигнал вводится в один канал - в левый канал исходного сигнала и вычитается из правого канала исходного сигнала. Следовательно, максимальная декорреляция достигается путем добавления декоррелированного сигнала к одному каналу и вычитания декоррелированного сигнала из другого канала. Для нахождения величины с предпринимаются шаги 1203, 1206, 1103, и 1208. В частности, как видно из уравнения (24), задаваемый корреляционный ряд вычисляется на шаге 1203. Эта величина - показатель межканальной взаимной корреляции между двумя сигналами звукового канала при стереоаудиорендеринге. На основании результата шага 1203 на базе уравнения (26) определяется весовой коэффициент а, как показано на шаге 1206. В дополнение к этому подбираются значения для ячеек матрицы Q и рассчитывается матрица ковариации, которая в данном случае является лишь скалярной величиной R_z, как показано на шаге 1103 и что видно из уравнения справа от рамки 1103 на фиг.12. Наконец, находится множитель с, как показано на шаге 1208. Уравнение (26) представляет собой квадратное уравнение, которое может дать два положительных решения для α. Как уже говорилось выше, в этом случае используется решение с наименьшей нормой с. Однако когда подобное положительное решение не достигается, с задается как 0.As a result, we obtain that the second embodiment is traced in FIG. It begins by calculating the covariance matrix DR in step 1101, which is identical to step 1101 in FIG. 11. Then equation (22) is applied. Namely, the appearance of the matrix P is predefined, and only the weighting factor c remains to be found, which is the same for both elements of P. In particular, one column of the matrix P shows that a single decorrelator is used in the second version of the implementation. Moreover, the signs of the elements p show that the decorrelated signal is input into one channel — into the left channel of the original signal and is subtracted from the right channel of the original signal. Therefore, maximum decorrelation is achieved by adding a decorrelated signal to one channel and subtracting the decorrelated signal from another channel. To find the value of c, steps 1203, 1206, 1103, and 1208 are taken. In particular, as can be seen from equation (24), the specified correlation series is calculated at step 1203. This value is an indicator of inter-channel cross-correlation between two audio channel signals during stereo audio rendering. Based on the result of step 1203, based on equation (26), the weight coefficient a is determined, as shown in step 1206. In addition, values for the cells of the matrix Q are selected and the covariance matrix is calculated, which in this case is only a scalar quantity R _z , as shown in step 1103 and as can be seen from the equation to the right of frame 1103 in FIG. 12. Finally, find the factor c, as shown in step 1208. Equation (26) is a quadratic equation that can give two positive solutions for α. As mentioned above, in this case, the solution with the lowest norm c is used. However, when such a positive solution is not achieved, c is set to 0.

Таким образом, во втором варианте реализации Р вычисляется как частный случай распределения одного декоррелятора на два канала, как показано с помощью матрицы Р в рамке 1201. В некоторых случаях решение отсутствует и декоррелятор просто отключается. Преимущество данного конструктивного решения состоит в том, что при нем не вносится синтезированный сигнал с положительной корреляцией. Это - благоприятный фактор, поскольку такой сигнал может восприниматься как локализованный фантомный источник, что является артефактом, снижающим акустическое качество преобразуемого аудиорендерингом выходного сигнала. Учитывая тот факт, что в этой версии не принимается во внимание уровень мощности, возможно рассогласование выходного сигнала, что означает превышение или занижение мощности в выходном сигнале по сравнению с сигналом понижающего микширования. В подобном случае в выбранном варианте технического исполнения для улучшения качества звука применяют добавочную компенсацию усиления.Thus, in the second embodiment, P is calculated as a special case of the distribution of one decorrelator into two channels, as shown by the matrix P in frame 1201. In some cases, there is no solution and the decorrelator is simply turned off. The advantage of this design solution is that it does not introduce a synthesized signal with a positive correlation. This is a favorable factor, since such a signal can be perceived as a localized phantom source, which is an artifact that reduces the acoustic quality of the output signal converted by the audio rendering. Considering the fact that the power level is not taken into account in this version, the output signal may be out of alignment, which means that the output signal is either higher or lower than the down-mix signal. In such a case, in the selected technical embodiment, additional gain compensation is used to improve the sound quality.

В третьем варианте реализации настоящего изобретения матричный вычислитель 202 работает по следующему алгоритму. Отправной точкой является компенсация по усилению исходного сигналаIn a third embodiment of the present invention, matrix calculator 202 operates according to the following algorithm. The starting point is compensation for the amplification of the original signal.

где, например, некомпенсированный исходный сигнал

является результатом аппроксимации наименьших квадратов

по матрице смешивания, данной в (15). Кроме того, С=GC₀, где G является диагональной матрицей с ячейками g₁ and g₂. В этом случаеwhere, for example, the uncompensated source signal

is the result of least squares approximation

according to the mixing matrix given in (15). In addition, C = GC ₀ , where G is a diagonal matrix with cells g ₁ and g ₂ . In this case

и матрица ошибокand error matrix

Здесь третьим вариантом осуществления изобретения предписывается выбрать коэффициенты (g₁, g₂) компенсации для минимизации взвешенной суммы рассогласований по мощностиHere, a third embodiment of the invention is required to select compensation factors (g ₁ , g ₂ ) to minimize the weighted sum of power mismatches

с учетом ограничений, выявленных в (13). Примерами выбора весов для (30) являются (w₁, w₂)=(1, 1) или (w₁, w₂)=(R, L). После этого результирующая матрица ошибок ΔR используется для ввода в вычисления матрицы смешения сигнала декоррелятора Р согласно последовательности уравнений (18)-(21). К преимуществам этого варианта осуществления можно отнести то, что когда сигнал ошибки

идентичен микшированному с повышением исходному сигналу, объем декоррелированного сигнала, добавленного к конечному выходному сигналу, гораздо меньше объема, добавляемого к конечному выходному сигналу по первой версии реализации настоящего изобретения.taking into account the limitations identified in (13). Examples of the choice of weights for (30) are (w ₁ , w ₂ ) = (1, 1) or (w ₁ , w ₂ ) = (R, L). After that, the resulting error matrix ΔR is used to input the decorrelator signal P into the calculation of the mixing matrix of the signal according to the sequence of equations (18) - (21). The advantages of this embodiment include that when an error signal

identical to the up-mixed source signal, the amount of decorrelated signal added to the final output signal is much less than the volume added to the final output signal according to the first version of the implementation of the present invention.

Подводя итог по третьему варианту конструктивного решения, данному на фиг.13, можно отметить, что за матрицу добавочного усиления G принимается матрица, показанная на фиг.4d. По смыслу уравнений (29) и (30) коэффициенты усиления g₁ и g₂ вычисляются с использованием выбранных w1, w2, на что указывает текст под уравнением (30) и с учетом ограничений по матрице ошибок, очевидных из уравнения (13). По выполнении шагов 1301, 1302 можно рассчитать ковариационную матрицу ΔR рассогласования сигнала, используя g₁ and g₂ согласно шагу 1303. Понятно, что эта матрица ковариации рассогласованного сигнала, рассчитанная на шаге 1303, отличается от матрицы ковариации ΔR, рассчитанной на шаге 1101 на фиг.11 и 12. Затем повторяются шаги 1102, 1103, 1104 согласно более раннему обсуждению в связи с первым вариантом реализации на фиг.11.Summing up the third embodiment, given in FIG. 13, it can be noted that the matrix shown in FIG. 4d is taken as the gain matrix G. According to the meaning of equations (29) and (30), the gains g ₁ and g ₂ are calculated using the selected w1, w2, as indicated by the text under equation (30) and taking into account the restrictions on the error matrix obvious from equation (13). By performing steps 1301, 1302, the mismatch covariance matrix ΔR can be calculated using g ₁ and g ₂ according to step 1303. It is understood that this mismatch covariance matrix calculated in step 1303 is different from the covariance matrix ΔR calculated in step 1101 in FIG. .11 and 12. Then, steps 1102, 1103, 1104 are repeated according to an earlier discussion in connection with the first embodiment of FIG. 11.

Третий вариант конструктивного решения имеет то преимущество, что исходный сигнал не только согласуется по форме волны, но, кроме того, и компенсируется по усилению. Это помогает еще более сократить уровень декоррелированного сигнала, благодаря чему уменьшается и количество возникающих вместе с ним артефактов. Таким образом, в третьем варианте реализации делается попытка наиболее оптимальной комбинации компенсации усиления и дозированной декорреляции. Опять же поставленной целью является целостная передача структуры ковариации, включая уровни мощности каналов, и минимизировать уровень синтезированного сигнала, например, применяя уравнение минимизации (30).The third embodiment of the constructive solution has the advantage that the original signal is not only consistent in waveform, but also offset by gain. This helps to further reduce the level of decorrelated signal, which reduces the number of artifacts that occur with it. Thus, in the third embodiment, an attempt is made to the most optimal combination of gain compensation and dosed decorrelation. Again, the goal is to integrate the covariance structure, including channel power levels, and minimize the level of the synthesized signal, for example, using the minimization equation (30).

Рассмотрим далее четвертый вариант реализации изобретения. На шаге 1401 используется одиночный декоррелятор. Здесь речь идет о наименее сложном техническом решении, так как на практике применение одиночного декоррелятора наиболее целесообразно. Следующий шаг 1101, включающий расчет ковариационной матрицы ΔR, уже был отображен в виде блок-схемы и обсуждался в контексте шага 1101 для первого варианта реализации. Однако данные матрицы ковариации ΔR также могут быть вычислены в соответствии с шагом 1303 на фиг.13, где компенсация усиления сочетается с согласованием формы сигнала. Далее проверяют знак Δp, который является недиагональным элементом ковариационной матрицы ΔR. Если шаг 1402 определит, что этот знак отрицательный, будет продолжено выполнение шагов 1102, 1103, 1104 первого варианта реализации, где шаг 1103 особенно не сложен благодаря тому, что R_z - скалярная величина, поскольку декоррелятор только один.Let us further consider the fourth embodiment of the invention. At step 1401, a single decorrelator is used. Here we are talking about the least complicated technical solution, since in practice the use of a single decorrelator is most appropriate. The next step 1101, including the calculation of the covariance matrix ΔR, was already displayed in the form of a block diagram and was discussed in the context of step 1101 for the first implementation option. However, the data of the covariance matrix ΔR can also be calculated in accordance with step 1303 of FIG. 13, where gain compensation is combined with waveform matching. Next, check the sign of Δp, which is an off-diagonal element of the covariance matrix ΔR. If step 1402 determines that this sign is negative, then steps 1102, 1103, 1104 of the first embodiment will continue, where step 1103 is not particularly complicated due to the fact that R _z is a scalar quantity, since there is only one decorrelator.

Однако если определено, что знак Δp - положительный, ввод декоррелированного сигнала будет немедленно прекращен установкой элемента матрицы Р на ноль. Альтернативным действием может быть снижение уровня вводимого декоррелированного сигнала до значения выше нуля, но ниже той величины, которая была бы при отрицательном знаке. Однако рекомендуется, чтобы элементам матрицы Р не просто задавались меньшие значения, но чтобы они устанавливались на ноль, как показано в рамке 1404 на фиг.14. При этом в соответствии с фиг.4d для компенсации усиления определяются коэффициенты усиления g₁, g₂, как показано в рамке 1406. А именно, коэффициенты усиления рассчитываются так, чтобы элементы главной диагонали матрицы в правой стороне уравнения (29) равнялись нулю. Это означает, что матрица ковариации рассогласованного сигнала на своей главной диагонали имеет нулевые элементы. Таким образом, компенсация усиления достигается в том случае, если сигнал декоррелятора уменьшается или полностью отключается во избежание фантомных артефактов источника, которые могут возникнуть при вводе декоррелированного сигнала, который имеет специфические корреляционные свойства.However, if it is determined that the Δp sign is positive, the input of the decorrelated signal will be immediately stopped by setting the matrix element P to zero. An alternative action may be to reduce the level of the introduced decorrelated signal to a value above zero, but below the value that would have been with a negative sign. However, it is recommended that the elements of the matrix P are not just given smaller values, but that they are set to zero, as shown in box 1404 in FIG. Moreover, in accordance with fig.4d for gain compensation, the gains g ₁ , g _{2 are} determined, as shown in box 1406. Namely, the gains are calculated so that the elements of the main diagonal of the matrix on the right side of equation (29) are equal to zero. This means that the covariance matrix of the mismatched signal has zero elements on its main diagonal. Thus, gain compensation is achieved if the decorrelator signal is reduced or completely turned off to avoid phantom artifacts of the source that may occur when a decorrelated signal is input that has specific correlation properties.

Итак, четвертый вариант реализации сочетает в себе возможности первого варианта реализации и использование одиночного декоррелятора, предусматривая при этом проверку качества декоррелированного сигнала таким образом, чтобы декоррелированный сигнал мог быть сокращен или прерван, если индикатор качества, например, такой как значение Δp в ковариационной матрице ΔR сигнала ошибки (добавленный сигнал), становится положительным. Выбор матрицы Q преддекоррелятора должен основываться на условиях чувственного восприятия, поскольку теория второго порядка, приведенная выше, нечувствительна к использованию этой специфической матрицы. Это подразумевает также то, что основания, на которых выбирают Q, никак не связаны с соображениями, по которым выбирают вариант конструктивного исполнения.So, the fourth embodiment combines the capabilities of the first embodiment and the use of a single decorrelator, while providing for checking the quality of the decorrelated signal so that the decorrelated signal can be reduced or interrupted if the quality indicator, for example, such as Δp in the covariance matrix ΔR The error signal (added signal) becomes positive. The choice of the predecorrelator matrix Q should be based on the conditions of sensory perception, since the second-order theory presented above is insensitive to the use of this specific matrix. This also implies that the grounds on which Q is chosen are in no way connected with the considerations for which the design option is chosen.

Первое основание, предписываемое настоящим изобретением, состоит в использовании для ввода во все декорреляторы монофонического сигнала микшированного с понижением (монодаунмикса) исходного стереосигнала. В виде элементов матрицы это может быть представлено следующим образом:The first basis prescribed by the present invention is to use for input into all decorrelators a monophonic down-mixed (monodaunmix) source stereo signal. In the form of matrix elements, this can be represented as follows:

где

- ячейки матрицы Q, a

- ячейки матрицы С₀.Where

are the cells of the matrix Q, a

- cells of the matrix With ₀ .

Второе основание, предписываемое настоящим изобретением, состоит в том, что матрица Q преддекоррелятора должна быть производной только от одной матрицы D понижающего микширования. Взятие производной подразумевает здесь, что все объекты имеют удельную мощность и некоррелированы. Это допущение распространяется и на формирование матрицы повышающего микширования, начиная от исходных объектов до прогнозирования ошибок по каждому из них. Затем квадрат преддекорреляционных весов выбирается в пропорции к суммарной энергии ошибок прогнозирования объектов по всем каналам понижающего микширования. В конечном итоге те же самые веса используются для всех декорреляторов. Подробнее, эти веса получают, формируя сначала матрицу N × N,The second reason prescribed by the present invention is that the predecorrelator matrix Q should be derived from only one downmix matrix D. Taking the derivative implies here that all objects have specific power and are uncorrelated. This assumption also extends to the formation of the upmix matrix, starting from the source objects to predicting errors for each of them. Then, the square of the pre-correlation weights is selected in proportion to the total energy of the prediction errors of objects for all channels of the downmix. Ultimately, the same weights are used for all decorrelators. In more detail, these weights are obtained by first forming the N × N matrix,

и затем выводят матрицу W₀ ожидаемой энергии ошибок прогнозирования объектов путем приведения всех недиагональных значений (32) к нулю. Обозначив диагональные значения DW₀D^* через t₁, t₂, которые выражают суммарные доли энергии ошибок объектов, проходящие по каждому каналу понижающего микширования, получаем конечный набор элементов матрицы преддекоррелятора, используяand then, the matrix W _{0 of the} expected energy of the prediction errors of the objects is derived by reducing all off-diagonal values (32) to zero. Denoting the diagonal values of DW ₀ D ^* by t ₁ , t ₂ , which express the total fractions of the energy of the errors of the objects passing through each channel of the downmix, we obtain a finite set of elements of the matrix of the precorrelator using

В зависимости от специфики конструкции и назначения применяться могут любые виды декорреляторов, такие как ревербераторы и другие. Тем не менее, предпочтительный вариант осуществления предполагает использование энергосберегающих декорреляторов. Это означает, что мощность выходного сигнала декоррелятора должна быть равной мощности входного сигнала декоррелятора. Тем не менее, отклонения, возникающие при использовании неэкономичного декоррелятора, также могут быть компенсированы, например, учтены при расчете матрицы Р.Depending on the specific design and purpose, any kind of decorrelator, such as reverb and others, can be used. However, a preferred embodiment involves the use of energy-saving decorrelators. This means that the output power of the decorrelator should be equal to the input power of the decorrelator. However, deviations that occur when using an uneconomical decorrelator can also be compensated, for example, taken into account when calculating the matrix P.

Как утверждалось ранее, в предпочтительных вариантах осуществления следует избегать введения синтезированного сигнала с положительной корреляцией, поскольку такой сигнал может восприниматься как локализованный синтезированный фантомный источник. Во втором варианте реализации это однозначно следует избегать вследствие специфики структуры матрицы Р, как показано в рамке 1201. Тем не менее, эту проблему явно удалось обойти в четвертом варианте конструктивного решения с помощью процедуры проверки на шаге 1402. Квалифицированным специалистам доступны также другие способы определения качества декоррелированного сигнала и в особенности корреляционных характеристик во избежание проявления подобных артефактов фантомного источника, при этом такие способы могут быть применены в форме прекращения подачи декоррелированного сигнала техническими средствами, или в форме снижения мощности декоррелированного сигнала и усиления исходного сигнала для получения компенсированного сигнала на выходе.As stated previously, in preferred embodiments, the introduction of a positive-correlated synthesized signal should be avoided since such a signal can be perceived as a localized synthesized phantom source. In the second embodiment, this should definitely be avoided due to the specific structure of the matrix P, as shown in box 1201. Nevertheless, this problem was clearly circumvented in the fourth embodiment of the constructive solution using the verification procedure at step 1402. Other methods of determining quality are also available to qualified specialists. decorrelated signal, and in particular correlation characteristics, in order to avoid the appearance of such artifacts of a phantom source, while such methods can be applied in the form of pre rotation of the decorrelated signal by technical means, or in the form of reducing the power of the decorrelated signal and amplifying the original signal to obtain a compensated output signal.

Несмотря на то, что все матрицы Е, D, А описаны как комплексные матрицы, они могут также быть действительными. Тем не менее, ценность данного изобретения состоит именно в том, что оно рассматривает комплексные матрицы Е, D, А, фактически содержащие комплексные коэффициенты с мнимой частью, отличной от нуля.Although all matrices E, D, A are described as complex matrices, they can also be real. However, the value of this invention lies in the fact that it considers complex matrices E, D, A, actually containing complex coefficients with an imaginary part other than zero.

В дополнение к этому, матрица D и матрица А часто будут иметь намного более низкую спектральную и временную разрешающую способность по сравнению с матрицей Е, которая имеет самое высокое среди всех матриц разрешение по времени и частоте. В частности, матрица параметров аудиорендеринга и матрица понижающего микширования не будут зависеть от частоты, но могут зависеть от времени. Матрицы понижающего микширования это может коснуться при выполнении определенной специальной оптимизированной операции понижающего микширования. В отношении матрицы параметров аудиорендеринга это может проявиться в связи с перемещающимися аудиообъектами, которые время от времени, возможно, будут менять свое положение между левым и правым каналами. Описанные ниже конструктивные решения даны как иллюстрация основных принципов настоящего изобретения. Подразумевается, что для специалистов в данной области возможность внесения изменений и усовершенствований в компоновку и элементы описанной конструкции очевидна. В силу этого, представленные описания и пояснения вариантов реализации изобретения ограничиваются только рамками патентных требований, а не конкретными деталями. В зависимости от конкретных требований к реализации относящихся к изобретению методов эти методы могут быть осуществлены как в виде аппаратных средств, так и в виде программного обеспечения. Изобретение может быть реализовано с использованием цифрового накопителя данных, в частности диска, DVD-диска или CD-диска, содержащего электронно считываемые управляющие сигналы, совместимого с программируемыми компьютерными системами с целью осуществления методов, имеющих отношение к изобретению. Таким образом, в целом настоящее изобретение представляет собой компьютерный программный продукт с хранящимся на машиночитаемом носителе кодом программы, с помощью которого практически выполняются изобретенные методы при условии исполнения компьютерного программного продукта на компьютере. Другими словами, изобретенные методы, следовательно, являются компьютерной программой, имеющей программный код, необходимый для осуществления, по меньшей мере, одного из изобретенных методов при условии, что компьютерная программа будет выполняться на компьютере.In addition, matrix D and matrix A will often have a much lower spectral and temporal resolution than matrix E, which has the highest time and frequency resolution among all matrices. In particular, the matrix of audio rendering parameters and the downmix matrix will not depend on the frequency, but may depend on the time. This may affect the downmix matrices when performing certain specific optimized downmix operations. With regard to the matrix of audio rendering parameters, this may occur in connection with moving audio objects, which from time to time, possibly, will change their position between the left and right channels. The structural solutions described below are given as an illustration of the basic principles of the present invention. It is understood that for specialists in this field, the possibility of making changes and improvements to the layout and elements of the described construction is obvious. Therefore, the descriptions and explanations provided for the embodiments of the invention are limited only by the scope of patent requirements, and not by specific details. Depending on the specific requirements for the implementation of the methods related to the invention, these methods can be implemented both in hardware and in software. The invention can be implemented using a digital data storage device, in particular a disk, DVD-ROM or CD-ROM containing electronically readable control signals, compatible with programmable computer systems with the aim of implementing methods related to the invention. Thus, in general, the present invention is a computer program product with program code stored on a machine-readable medium, by which the inventive methods are practically executed provided that the computer program product is executed on a computer. In other words, the invented methods are therefore a computer program having the program code necessary to implement at least one of the invented methods, provided that the computer program is executed on a computer.

Claims

1. A device for synthesizing an output signal (350), providing a signal of a first sound channel and a signal of a second sound channel, including: a decorrelator (356) for generating a decorrelated signal (358), providing a decorrelated single channel signal or a decorrelated signal of the first channel and a decorrelated signal a second channel based on the downmix signal, wherein the downmix signal includes a downmix signal of the first audio object and a downmix signal mixing the second audio object and the result of downmixing a plurality of audio objects signals, implemented in accordance with the information about the downmix (354); and a converting unit (364) for performing weighted mixing of the downmix signal (352) and a de-correlated signal (358) using weighting factors (P, Q, C ₀ , G), wherein the mixing unit (364) is used to calculate weighting factors (P , Q, C _0, G) for the weighted information on the basis of the downmix information (354) based on predetermined characteristics rendering (360), determining a virtual position of the audio objects in the virtual sound space, and on the basis of parametric data audioobe max (362) describing the audio objects.

2. The device according to claim 1, in which the information unit (364) is designed to calculate weighting factors for weighted information so that the result 452 of mixing the down-mix signal of the first audio object and the down-mix signal of the second audio object in the form of the signal is consistent with the result of the audio rendering for the given parameters.

3. The device according to claim 1, in which the mixing unit (364) is designed to calculate the mixing matrix C ₀ for mixing the down-mix signal of the first audio object and the down-mix signal of the second audio object based on the equation:
C ₀ = AED * (DED *) ^-1 ,
where C ₀ is the mixing matrix, where A is the matrix of audio rendering parameters defining the characteristics of audio rendering (360), where D is the down mixing matrix defining the parameters of down mixing (354), where * denotes the complex conjugate transpose operation, and where E is the covariance matrix audio objects specifying parameters of audio objects (362).

4. The device according to claim 1, in which the information unit (364) is designed to calculate weighting factors based on the equation:
R = AEA *,
where R is the covariance matrix of the output signal converted by audio rendering (350), obtained by applying the specified characteristics of audio rendering to audio objects, where A is the matrix of audio rendering parameters that defines the characteristics of sound transmission (360), and where E is the covariance matrix of the audio object that defines the parameters of the audio object (362).

5. The device according to claim 3, in which the information unit (364) is designed to calculate weighting coefficients based on the equation:
R ₀ = C ₀ DED * C ₀ *,
where R ₀ is the covariance matrix of the result of the mixing operation (401) of the down-mix signal.

6. The device according to claim 1, in which the information unit (364) is designed to calculate weighting factors for weighted information so that weighted information is feasible by calculating the matrix C _{0 of} mixing the source signals and applying (401) the matrix of mixing the source signals C ₂ to the downmix signal (352), by calculating the matrix P of the subsequent processing of the decorrelator signal and applying (404) the matrix P of the subsequent processing of the decorrelator signal to the decorrelated signal (358), and by reducing (454) the results of the opera tion (404, 401) to obtain the output converted by audio rendering (550).

7. The device according to claim 1, in which the decorrelator unit (356) performs an operation (402) for processing the downmix signal (352) input to the decorrelator (403).

8. The device according to claim 7, in which the pre-correlation operation includes the process of mixing the first channel down-mix of the audio object and the second channel down-mix of the audio object based on the down-mix information (354) containing instructions on the distribution of the audio object in the channels of the down-mix signal.

9. The device according to claim 7, in which the mixing unit (364) performs the operation of mixing the original signal (401) using the first and second down-mix signals of an audio object, comprising a pre-correlation device (402) that performs functions similar to the operations of mixing the original signal (401) )

10. The device according to claim 9, in which the mixing unit (364) uses the matrix C _{0 of} mixing the original signal, and the pre-correlator (402) performs its functions using the matrix Q of pre-correlation identical to the matrix C _{0 of} mixing the original signal.

11. The device according to claim 6, in which the matrix P of the subsequent processing of the decorrelator signal is based on (1102) decomposing the eigenvalue of the covariance matrix of the decorrelated signal added to the result of mixing the original signal (452).

12. The device according to claim 11, in which the information unit (364) calculates weighting coefficients based on the multiplication (1104) of the matrix (T) formed on the basis of the eigenvalues obtained by decomposition of the eigenvalue (1102) and the covariance matrix of the decorrelator signal (358) .

13. The device according to claim 11, in which the information unit (364) is designed to calculate the weight coefficients so that a single decorrelator (403) is used, while the matrix P of the subsequent processing of the decorrelator signal will contain one column and the number of rows equal to the number of channels in the output converted by audio rendering, or so that two decorrelators (403) are used, and the matrix P of the subsequent processing of the decorrelator signal contains two columns and the number of rows equal to the number of channels of the converted audio renedringom output signal.

14. The device according to claim 11, in which the information unit provides for the calculation of weighting coefficients based on the covariance matrix of the decorrelated signal, which is calculated by the equation:
R _Z = QDED * Q *,
where R _Z is the decorrelation signal covariance matrix (358), Q is the pre-correlation signal mixing matrix, D is the down-mixing matrix that sets the down-mixing parameters (354), E is the covariance matrix of the audio object containing parametric information about the audio object (362).

15. The device according to claim 6, in which the information unit (364) provides for calculating the weighting factors for the weighted information so that the matrix P of the subsequent processing of the decorrelator signal is calculated so that the decorrelated signal is summed with the two resulting channels (452) of the original mixing operation signal with opposite signs (1201).

16. The device according to clause 15, in which the information unit (364) provides for calculating the weighting factors so that the decorrelated signal (358) is weighted using the weighting factor (s) determined by the control signal of the correlation between the two channels of the converted audio rendering of the output signal, this correlation pilot signal is similar to the correlation value established by the virtual operation of a given audio rendering based on the matrix of audio rendering parameters (A) (1203).

17. The device according to clause 16 is configured to solve the quadratic equation (26) for determining the weight coefficient (s), and within which, in the absence of a satisfactory solution to this quadratic equation, the introduction of the decorrelated signal is limited or terminated (1208).

18. The device according to claim 6, in which the information unit (364) provides for calculating weighting factors to obtain weighted information by compensating for gain (409) by weighing the result of mixing the original signal so that the energy error within the result of mixing the original signal when compared with the signal the downmix was minimized (1302).

19. The device according to claim 1, in which the information unit (364) estimates the likelihood of artifacts (1402) when the decorrelated signal is introduced, and containing the information unit (364), which provides for the termination or reduction of the introduction of the decorrelated signal (1404) when recognizing the risk of occurrence artifact, and reduction (1406) of power distortion arising from the reduction or termination of the introduction (1404) of the decorrelated signal.

20. The device according to claim 19, in which the information unit (364) provides for the calculation of weighting coefficients, aimed at optimizing the result of the mixing operation of the original signal (401).

21. The device according to claim 19, in which the information unit (364) provides for the calculation of the data of the covariance matrix R of the mismatch (1104), which represents the correlation structure of the mismatch between the original up-mix signal and the output signal determined by the virtual audio rendering circuit using the specified audio rendering parameters ( 360), and containing the information block (364), which provides for the determination of the sign (1402) of the off-diagonal data element of the covariance mismatch matrix R and termination (1104) and whether input reduction with a positive sign.

22. The device according to claim 1, further comprising: a time-frequency converter (302) for converting the downmix signal into a spectral representation including a plurality of subband down-mix signals: the decorrelation operation (403) and the operation are performed for each subband signal information (364) to generate the entire set of subband signals of the output audio rendering array, and a frequency-time converter (304) for converting a plurality of subband signals audio output to the time domain.

23. The device according to claim 1, also including a controller for generating blocks of sample values of the signal obtained by downmixing, and for controlling decorrelator (356) and mixing unit (364) to process individual blocks of sample values.

24. The device according to p. 22, which generates information about the audio object for each block and for each subband signal, and the specified audio rendering parameters and characteristics of the down-mixing signal of the audio object remain constant in frequency for the time block.

25. The device according to claim 1, in which the mixing unit (364) includes a complex matrixing module (303) for linearly converting the down-mix signal of the first audio object and the down-mix signal of the second audio object to the original signal (452), and in this the information unit (364) also provides a linear reduction of the decorrelated signal (358) into a signal that, after summing in the channel with the original signal, forms the stereo output signal of the integrated matrix coding module (303), and Moreover, the mixing unit (364) includes a matrix calculator (202) for calculating linear weighting coefficients used by the complex matrixing module (303) based on parametric information about the audio object (362), downmix information (354), and preset audio rendering parameters (360).

26. The device according to claim 1, in which the information unit (364) is designed to calculate weighting factors so that the energy fraction of the decorrelated signal (358) in the output signal converted by audio rendering is minimal, and so that the energy fraction of the original signal (452) obtained linear mixing of the down-mix signal of the first audio object and the down-mix signal of the second audio object was maximum.

27. A method for synthesizing an output signal (350) including a signal of a first sound channel and a signal of a second sound channel, comprising generating (356) a decorrelated signal (358) including a decorrelated single-channel signal or decorrelated signal of the first channel and decorrelated signal of the second channel obtained from the down-mix signal, wherein the down-mix signal contains the down-mix signal of the first audio object and the down-mix signal of the second au a dioobject, wherein the downmix signal contains a downmix - the result of downmixing a plurality of audio object signals according to the downmix information (354); and weighted mixing (364) of the downmix signal (352) and decorrelated signal (358) using weights (P, Q, C ₀ , G) based on the calculation of weights (P, Q, C ₀ , G) for weighted information based on the downmix information (354), based on the specified audio rendering characteristics (360) that determine the virtual position of the audio objects in the virtual sound space, and based on the parametric data on the audio objects (362) that describe these audio objects.

28. A computer-readable medium containing a computer program product stored on it with a program code for executing the method of claim 27, provided that the computer program product is executed on the computer.