RU2439719C2 - Device and method to synthesise output signal - Google Patents
Device and method to synthesise output signal Download PDFInfo
- Publication number
- RU2439719C2 RU2439719C2 RU2009141391/08A RU2009141391A RU2439719C2 RU 2439719 C2 RU2439719 C2 RU 2439719C2 RU 2009141391/08 A RU2009141391/08 A RU 2009141391/08A RU 2009141391 A RU2009141391 A RU 2009141391A RU 2439719 C2 RU2439719 C2 RU 2439719C2
- Authority
- RU
- Russia
- Prior art keywords
- signal
- matrix
- audio
- mixing
- information
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 238000009877 rendering Methods 0.000 claims abstract description 118
- 238000004364 calculation method Methods 0.000 claims abstract description 19
- 239000011159 matrix material Substances 0.000 claims description 257
- 230000006870 function Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 230000005540 biological transmission Effects 0.000 claims description 10
- 230000002194 synthesizing effect Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 7
- 230000009467 reduction Effects 0.000 claims description 7
- 238000009826 distribution Methods 0.000 claims description 4
- 230000003595 spectral effect Effects 0.000 claims description 3
- 238000005303 weighing Methods 0.000 claims description 2
- 238000000354 decomposition reaction Methods 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000011161 development Methods 0.000 abstract description 2
- 230000000694 effects Effects 0.000 abstract description 2
- 238000012546 transfer Methods 0.000 abstract description 2
- 239000000126 substance Substances 0.000 abstract 1
- 239000000203 mixture Substances 0.000 description 31
- 230000000875 corresponding effect Effects 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 13
- 238000013461 design Methods 0.000 description 11
- 230000005236 sound signal Effects 0.000 description 11
- 230000015572 biosynthetic process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 230000002596 correlated effect Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 230000004069 differentiation Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000005311 autocorrelation function Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000021317 sensory perception Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/01—Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- Stereophonic System (AREA)
Abstract
Description
Настоящее изобретение относится к синтезированию выходного сигнала с применением аудиорендеринга, например выходного стереосигнала или выходного многоканального аудиосигнала, сформированного в результате понижающего микширования с использованием дополнительных управляющих данных. При этом многоканальное понижающее микширование представляет собой понижающее микширование совокупности множества сигналов аудиообъекта.The present invention relates to synthesizing an output signal using audio rendering, for example a stereo output signal or an output multi-channel audio signal generated as a result of downmixing using additional control data. Moreover, the multi-channel down-mix is a down-mix of a plurality of signals of an audio object.
Последние разработки в области аудиотехники способствуют совершенствованию многоканального воспроизведения аудиосигнала на основе стерео (или моно) сигнала и соответствующих управляющих команд. Эти методы параметрического кодирования звукового окружения обычно включают в себя параметризацию. Параметрический многоканальный аудиодекодер (например, декодер MPEG Surround, описываемый стандартом ISO/IEC 23003-1 (L.Villemoes, J.Herre, J.Breebaart, G.Hotho, S.Disch, H.Purnhagen, and K.Kjörling, "MPEG Surround: The Forthcoming ISO Standard for Spatial Audio Coding," in 28th International AES Conference, The Future of Audio Technology Surround and Beyond, Pitee, Sweden, June 30 - July 2, 2006 ("MPEG Surround: подготовка нового стандарта ИСО на пространственное аудиокодирование", материалы 28-й международной конференции AES «Передовые аудиотехнологии, современное состояние и перспективы», Пите, Швеция, 30 июня - 2 июля 2006 г., и Breebaart, J.Herre, L.Villemoes, С.Jin, K.Kjörling, J.Plogsties, and J.Koppens, "Multi-Channels goes Mobile: MPEG Surround Binaural Rendering," in 29th International AES Conference, Audio for Mobile and Handheld Devices, Seoul, Sept 2-4, 2006 "Мобильные многоканальные устройства: стереофоническое представление формата MPEG Surround", 29-я Международная конференция AES, "Звук для мобильных и портативных устройств", Сеул, 2-4 сентября 2006 г.), реконструирует М каналов, используя K переданных каналов, где М>K, с использованием управляющих данных. Управляющие данные содержат данные параметризации многоканального сигнала, выведенные из IID (межканальной разности мощности) и ICC (межканальной когерентности). Эти параметры, получаемые, как правило, на стадии кодирования, описывают соотношение мощностей и корреляцию пар каналов, задействованных в процессе повышающего микширования. Применение подобного алгоритма кодирования позволяет выполнять кодирование при скорости передачи данных, значительно более низкой, чем передача всех М каналов, обеспечении очень высокой эффективности кодирования и гарантии совместимости с устройствами с K каналами и с устройствами с М каналами.Recent developments in the field of audio technology contribute to the improvement of multi-channel playback of an audio signal based on a stereo (or mono) signal and the corresponding control commands. These methods for parametric coding of the surround sound environment typically include parameterization. A parametric multichannel audio decoder (e.g. MPEG Surround decoder described by ISO / IEC 23003-1 (L. Villemoes, J. Herre, J. Breebaart, G. Hotho, S. Disch, H. Purnhagen, and K. Kjörling, "MPEG Surround: The Forthcoming ISO Standard for Spatial Audio Coding, "in the 28th International AES Conference, The Future of Audio Technology Surround and Beyond, Pitee, Sweden, June 30 - July 2, 2006 (" MPEG Surround: preparing a new ISO standard for spatial audio coding ", Proceedings of the 28th AES International Conference" Advanced Audio Technologies, Current State and Prospects ", Pete, Sweden, June 30 - July 2, 2006, and Breebaart, J. Herre, L. Villemoes, C. Jin, K. Kjörling , J.Plogsties, and J.Koppens, "Multi-Channels goes Mobi le: MPEG Surround Binaural Rendering, "in the 29th International AES Conference, Audio for Mobile and Handheld Devices, Seoul, Sept 2-4, 2006" Mobile multi-channel devices: stereo presentation of MPEG Surround format ", 29th AES International Conference," Sound for mobile and portable devices, "Seoul, September 2-4, 2006), reconstructs M channels using K transmitted channels, where M> K, using control data. The control data contains multichannel signal parameterization data derived from IID (inter-channel power difference) and ICC (inter-channel coherence). These parameters, obtained, as a rule, at the coding stage, describe the power ratio and correlation of the channel pairs involved in the upmixing process. The use of such a coding algorithm allows coding at a data rate much lower than the transmission of all M channels, providing very high coding efficiency and guarantee compatibility with devices with K channels and with devices with M channels.
Аналогичной системой кодирования является соответствующее устройство кодирования аудиообъектов, обеспечивающее при кодировании понижающее микширование нескольких аудиообъектов с последующим выполнением повышающего микширования с использованием управляющих данных С.Faller, "Parametric Joint-Coding of Audio Sources," Convention Paper 6752 presented at the 120th AES Convention, Paris, France, May 20-23, 2006 ("Комбинированное параметрическое кодирование источников звука". Доклад 6752 на 120-й Конференции AES, Париж, Франция, 20-23 мая 2006 г.; С.Faller, "Parametric Joint-Coding of Audio Sources," Patent application PCT/EP2006/050904, 2006 «Комбинированное параметрическое кодирование источников звука»). Повышающее микширование может также рассматриваться как разделение объектов, смешанных в процессе понижающего микширования (Полученный в результате восходящего микширования сигнал может быть преобразован для воспроизведения в одно- или многоканальном режиме). Говоря точнее, в указанных источниках предлагается метод синтезирования аудиоканалов на базе даунмикса (так называемого суммарного сигнала, полученного в результате понижающего микширования), статистической информации об исходных объектах и параметров, описывающих требуемый выходной формат. Если используются несколько сигналов, полученных понижающим микшированием, эти сигналы состоят из подмножеств различных объектов, и повышающее микширование должно осуществляется по каждому каналу понижающего микширования индивидуально.A similar encoding system is the corresponding audio object encoding device, which provides for down-mixing of several audio objects during encoding and then performing up-mixing using C.Faller control data, "Parametric Joint-Coding of Audio Sources," Convention Paper 6752 presented at the 120th AES Convention, Paris , France, May 20-23, 2006 (Combined Parametric Coding of Sound Sources. Report 6752 at the 120th AES Conference, Paris, France, May 20-23, 2006; C. Faller, Parametric Joint-Coding of Audio Sources, "Patent application PCT / EP2006 / 050904, 2006" Combined full parametric coding of sound sources ”). Upmixing can also be considered as the separation of objects mixed during the downmixing process (The resultant upmixing signal can be converted for playback in single or multi-channel mode). More specifically, the indicated sources propose a method for synthesizing audio channels based on a downmix (the so-called total signal obtained as a result of down-mixing), statistical information about the source objects and parameters describing the required output format. If several signals obtained by downmixing are used, these signals consist of subsets of different objects, and upmixing should be carried out individually for each channel of downmixing.
Исходя из уровня техники, известно, что при понижающем микшировании стереообъекта и преобразовании объекта в стереоформат или при генерации стереосигнала для последующей обработки, например, с помощью декодера MPEG Surround, существенные эксплуатационные преимущества достигаются благодаря парной обработке каналов по алгоритму матрицирования с частотно-временной зависимостью. Вне рамок кодирования аудиообъектов применяется сходная процедура для частичного преобразования одного стереоаудиосигнала в другой стереоаудиосигнал в WO 2006/103584. Кроме того, известно, что для стандартной системы кодирования аудиообъекта в процесс аудиорендеринга необходимо дополнительно ввести процедуру декорреляции с целью перцептуального воспроизведения заданной сцены. При этом известный уровень техники не содержит описание комплексной оптимизации кодирования с помощью матричной системы (матрицирование) и декорреляции. Простое соединение известных технических решений ведет или к неэффективному и негибкому использованию возможностей многоканального понижающего микширования объекта, или к низкому качеству получаемой в результате аудиорендеринга стереофонограммы исходного объекта.Based on the prior art, it is known that when down-mixing a stereo object and converting the object to stereo format or when generating a stereo signal for subsequent processing, for example, using the MPEG Surround decoder, significant operational advantages are achieved due to pair processing of channels using a time-frequency matrix-based matrixing algorithm. Outside of the encoding of audio objects, a similar procedure is used to partially convert one stereo audio signal to another stereo audio signal in WO 2006/103584. In addition, it is known that for a standard coding system of an audio object, it is necessary to additionally introduce a decorrelation procedure into the audio rendering process in order to perceptually reproduce a given scene. Moreover, the prior art does not contain a description of the comprehensive optimization of coding using a matrix system (matrixing) and decorrelation. A simple combination of well-known technical solutions leads either to an ineffective and inflexible use of the capabilities of a multi-channel down-mix of an object, or to a poor quality of the stereo object of the source object resulting from audio rendering.
Задачей настоящего изобретения является скорректированная концепция синтезирования выходного сигнала с использованием аудиорендеринга.An object of the present invention is an adjusted concept for synthesizing an output signal using audio rendering.
Эта задача решается посредством устройства, синтезирующего преобразованный аудиорендерингом выходной сигнал в соответствии с п.1 формулы изобретения, посредством способа синтезирования выходного сигнала с применением аудиорендеринга по п.27 формулы, или посредством компьютерной программы согласно п.28 формулы изобретения.This problem is solved by means of a device synthesizing an output signal converted by audio rendering in accordance with
Данное изобретение обеспечивает синтез преобразованного с помощью аудиорендеринга выходного сигнала, интегрирующего сигналы двух или более звуковых каналов. При этом при преобразовании множества аудиообъектов число синтезированных сигналов звуковых каналов всегда меньше числа исходных аудиообъектов. Однако, если количество аудиообъектов не велико (например, 2), а количество выходных каналов - 2, 3 или большее число выходных звуковых каналов может превышать число аудиообъектов. Синтез выходного сигнала с использованием аудиорендеринга осуществляют без выполнения операции полного декодирования аудиообъекта до расшифровки составляющих аудиообъектов и без последующего рендеринга синтезируемых аудиообъектов по заданным параметрам. Вместо этого в области значений параметров рассчитывают преобразуемые выходные сигналы на базе характеристик понижающего микширования, на базе предварительно заданных характеристик аудиорендеринга и на базе данных аудиообъектов, описывающих эти аудиообъекты в форме параметров энергии и корреляции. Таким образом, количество декорреляторов, существенно усложняющих реализацию устройства синтеза, может быть сокращено так, что оно будет меньше числа выходных каналов и даже значительно меньше числа аудиообъектов. Говоря точнее, звук высокого качества может быть синтезирован при реализации синтезаторов только с одним или двумя декорреляторами. Более того, благодаря отсутствию необходимости в полном декодировании аудиообъектов и последующем аудиорендеринге по заданным параметрам обеспечивается экономия объема памяти и вычислительного ресурса. Кроме того, каждая операция потенциально вносит дополнительные артефакты. В силу этого, в соответствии с настоящим изобретением предпочтение отдается расчетам только в области значений параметров, чтобы единственными аудиосигналами, представленными не в виде параметров, а в виде, например, сигналов временной области или сигналов частотной области, были, по меньшей мере, те два сигнала, которые получены в результате понижающего микширования объекта. При акустическом синтезировании их вводят в декоррелятор как в форме даунмикса, если применяется один декоррелятор, так и в микшированной форме, если для каждого канала используется отдельный декоррелятор. Другие действия, выполняемые во временной области или в области банка фильтров или с сигналами смешанных каналов, представляют собой лишь взвешенные комбинации, такие как взвешенное сложение или взвешенное вычитание, то есть - линейные операции. Таким образом предотвращается внесение артефактов при выполнении операций полного декодирования аудиообъекта и последующем аудиорендеринге по заданным параметрам.The present invention provides the synthesis of an output signal converted by audio rendering, integrating the signals of two or more audio channels. In this case, when converting a plurality of audio objects, the number of synthesized signals of the audio channels is always less than the number of source audio objects. However, if the number of audio objects is not large (for example, 2), and the number of output channels is 2, 3 or more of the output audio channels may exceed the number of audio objects. The synthesis of the output signal using audio rendering is carried out without performing the operation of full decoding of the audio object before decoding the components of the audio objects and without subsequent rendering of the synthesized audio objects according to the specified parameters. Instead, convertible output signals are calculated in the parameter value range based on the downmix characteristics, based on predefined audio rendering characteristics and on the basis of audio objects describing these audio objects in the form of energy and correlation parameters. Thus, the number of decorrelators, significantly complicating the implementation of the synthesis device, can be reduced so that it will be less than the number of output channels and even significantly less than the number of audio objects. More specifically, high-quality sound can be synthesized when synthesizers are implemented with only one or two decorrelators. Moreover, due to the absence of the need for full decoding of audio objects and subsequent audio rendering according to the specified parameters, a saving in memory and computing resource is provided. In addition, each operation potentially introduces additional artifacts. Because of this, in accordance with the present invention, preference is given to calculations only in the range of parameter values, so that at least the two audio signals represented, not as parameters, but in the form of, for example, time-domain signals or frequency-domain signals signal, which are obtained as a result of down-mixing of the object. In acoustic synthesis, they are introduced into the decorrelator both in the form of a downmix, if one decorrelator is used, and in a mixed form, if a separate decorrelator is used for each channel. Other actions performed in the time domain or in the area of the filter bank or with mixed channel signals are only weighted combinations, such as weighted addition or weighted subtraction, that is, linear operations. This prevents the introduction of artifacts during the complete decoding of an audio object and subsequent audio rendering according to specified parameters.
Информация о аудиообъекте дается предпочтительно в виде энергетических параметров и данных корреляции, например, в форме ковариационной матрицы объекта. Кроме того, такая матрица предпочтительно должна быть применима для каждого поддиапазона и каждого временного интервала, что было бы отражено в частотно-временной карте, где каждое гнездо содержит ковариационную матрицу аудиообъекта, описывающую энергию соответствующих аудиообъектов в этом поддиапазоне и корреляцию между соответствующими парами аудиообъектов в соответствующем поддиапазоне. Естественно, что эта информация привязана к определенным временным рамкам частотного сигнала или аудиосигнала.Information about the audio object is preferably given in the form of energy parameters and correlation data, for example, in the form of a covariance matrix of the object. In addition, such a matrix should preferably be applicable for each subband and each time interval, which would be reflected in the time-frequency map, where each slot contains a covariance matrix of an audio object that describes the energy of the corresponding audio objects in this subband and the correlation between the corresponding pairs of audio objects in the corresponding subrange. Naturally, this information is tied to certain time frames of a frequency signal or an audio signal.
Предпочтительным результатом аудиосинтеза является преобразованный выходной стереосигнал, интегрирующий сигнал первого, или левого, звукового канала и сигнал второго, или правого, звукового канала. Благодаря этому можно достичь такого уровня кодирования аудиообъекта, при котором качество воспроизведения объектов в стереофонограмме будет максимально приближено к эталонной стереозвукопередаче.The preferred result of audio synthesis is a converted stereo output signal that integrates the signal of the first or left sound channel and the signal of the second or right sound channel. Thanks to this, it is possible to achieve such a level of coding of an audio object at which the quality of reproduction of objects in a stereo phonogram will be as close as possible to a reference stereo sound transmission.
Во многих случаях при кодировании аудиообъектов очень важно, чтобы стереоаудиорендеринг объектов был максимально приближен к эталонной стереозвукопередаче. Высокое качество акустики, полученное в результате стереоаудиорендеринга, приближенное к эталонной стереофонограмме, важно как в случае, когда стереоаудиорендеринг обеспечивает конечный выходной сигнал декодера объекта, так и в случае, когда стереосигнал передается на последующий элемент контура, такой как декодер MPEG Surround, работающий в режиме понижающего стереомикширования.In many cases, when encoding audio objects, it is very important that the stereo-audio rendering of objects is as close as possible to the reference stereo audio transmission. The high quality of acoustics obtained as a result of stereo-audio rendering, close to the reference stereo-phonogram, is important both in the case when stereo-audio rendering provides the final output signal of the object decoder, and in the case when the stereo signal is transmitted to the next contour element, such as the MPEG Surround decoder operating in stereo downmix.
Настоящее изобретение предлагает метод наиболее эффективного соединения матрицирования и декорреляции, который обеспечивает декодеру аудиообъекта возможность полного использования потенциала алгоритма кодирования аудиообъекта с задействованием сигнала понижающего микширования объекта одновременно по нескольким каналам.The present invention provides a method for the most efficient combination of matrixing and decorrelation, which enables the audio object decoder to fully utilize the potential of the audio object encoding algorithm using the down-mix signal of the object simultaneously on several channels.
Реализация данного изобретения отличается тем, что включает в себя:The implementation of this invention is characterized in that it includes:
- декодер аудиообъекта, который предназначен для аудиорендеринга множества отдельных аудиообъектов с использованием многоканального понижающего микширования, управляющих данных, описывающих аудиообъекты, управляющих данных, описывающих понижающее микширование, и параметров аудиорендеринга, включающий в свою конструкцию:- an audio object decoder, which is intended for audio rendering of a plurality of individual audio objects using multi-channel down-mix, control data describing audio objects, control data describing down-mix, and audio rendering parameters, including in its construction:
- стереопроцессор, имеющий в своем составе интегрированный блок матричного кодирования (модуль комплексного матрицирования), который линейно сводит каналы многоканального понижающего микширования с получением исходного необработанного (драй-микс = dry mix) сигнала и входного сигнала декоррелятора с последующей передачей входного сигнала декоррелятора на декоррелятор, выходной сигнал которого линейно сведен в сигнал, который после суммирования с исходным необработанным сигналом образует в канале выходной стереосигнал модуля комплексного матрицирования; или- a stereo processor, which includes an integrated matrix coding unit (complex matrixing module), which linearly converts the channels of the multi-channel down-mix to obtain the original raw (dry mix = dry mix) signal and the decorrelator input signal, followed by the transfer of the decorrelator input signal to the decorrelator, the output signal of which is linearly reduced to a signal which, after summing with the original unprocessed signal, forms the stereo output signal of the module in the channel complexly go matrixing; or
- блок расчета матрицы (матричный вычислитель), рассчитывающий на базе управляющих данных, описывающих аудиообъекты, понижающее микширование и параметры стереоаудиорендеринга, веса для линейного сведения, используемые затем интегрированным блоком матричного кодирования.- matrix calculation unit (matrix calculator), which calculates based on control data describing audio objects, down-mix and stereo audio rendering parameters, weights for linear information, which are then used by the integrated matrix encoding unit.
Далее изобретение представлено иллюстративным материалом, который не ограничивает его ни по форме, ни по существу, с описанием прилагаемых чертежей, The invention is further presented by illustrative material, which does not limit it either in form or in essence, with a description of the accompanying drawings,
где на фиг.1 дана блок-схема процесса кодирования аудиообъекта, включая кодирование и декодирование;where figure 1 is a flowchart of a process for encoding an audio object, including encoding and decoding;
на фиг.2А дана блок-схема процесса декодирования аудиообъекта до стереофонограммы;on figa given a flowchart of the decoding process of an audio object to a stereo;
на фиг.2B дана блок-схема процесса декодирования аудиообъекта;2B is a flowchart of a decoding process of an audio object;
на фиг.3А дана блок-схема работы стереопроцессора;on figa given a block diagram of the operation of the stereo processor;
на фиг.3B дана блок-схема работы устройства синтезирования преобразованного аудиорендерингом выходного сигнала;on figb given a block diagram of a device for synthesizing a converted audio rendering output signal;
на фиг.4А представлен первый вариант реализации данного изобретения, включающий в себя матрицу С0 смешения исходного сигнала, матрицу Q преддекорреляционного смешения сигнала и матрицу Р повышающего микширования сигнала декоррелятора;on figa presents a first embodiment of the present invention, including a matrix C 0 mixing the original signal, matrix Q pre-correlation signal mixing and matrix P up-mixing signal of the decorrelator;
на фиг.4B представлен вариант реализации данного изобретения без применения матрицы преддекорреляционного смешения сигнала;on figv presents an embodiment of the present invention without the use of a matrix of pre-correlation signal mixing;
на фиг.4С представлен вариант технического решения данного изобретения без применения матрицы повышающего микширования декоррелированного сигнала;on figs presents a variant of the technical solution of the present invention without the use of matrix up-mixing decorrelated signal;
на фиг.4D представлена версия осуществления настоящего изобретения с применением дополнительной матрицы G компенсации усиления;on fig.4D presents a version of the implementation of the present invention using the additional matrix G gain compensation;
на фиг.4Е представлен вариант матрицы Q понижающего микширования сигнала декоррелятора и матрицы Р повышающего микширования сигнала декоррелятора с использованием одиночного декоррелятора;FIG. 4E illustrates an embodiment of a downmix matrix Q of a decorrelator signal and a matrix P of upmix of a decorrelator signal using a single decorrelator;
на фиг.4F представлен вариант исполнения матрицы С0 смешения исходного сигнала;on fig.4F presents an embodiment of the matrix With 0 mixing the original signal;
на фиг.4G дана детализация процесса сведения смешанного исходного сигнала и сигнала декоррелятора или сигнала, полученного в результате повышающего микширования сигнала декоррелятора;on fig.4G is given a detail of the process of mixing the mixed source signal and the signal of the decorrelator or signal obtained as a result of up-mixing of the signal of the decorrelator;
на фиг.5 дана блок-схема многоканальной декорреляции с использованием нескольких декорреляторов;figure 5 is a block diagram of a multi-channel decorrelation using multiple decorrelators;
на фиг.6 дана сводная карта нескольких аудиообъектов, имеющих индивидуальный идентификатор, аудиофайл объекта, и общую матрицу Е параметров аудиообъектов;Fig.6 is a summary map of several audio objects having an individual identifier, an audio file of an object, and a common matrix E of parameters of audio objects;
на фиг.7 дана расшифровка ковариационной матрицы Е объектов, показанных на фиг.6;in Fig.7 is given the decoding of the covariance matrix E of the objects shown in Fig.6;
на фиг.8 даны матрица понижающего микширования и кодер аудиообъекта, управляемый матрицей D понижающего микширования;Fig. 8 shows a downmix matrix and an audio object encoder controlled by a downmix matrix D;
на фиг.9 даны матрица А параметров аудиорендеринга, представляемая, как правило, пользователем, и частный пример сценария аудиорендеринга по заданным параметрам;figure 9 shows the matrix A of the audio rendering parameters, presented, as a rule, by the user, and a particular example of the audio rendering script for the given parameters;
на фиг.10 показан алгоритм предварительных расчетов элементов матриц для четырех различных вариантов исполнения, представленных на фиг.4А-4D;figure 10 shows the algorithm for preliminary calculations of the matrix elements for four different options presented on figa-4D;
на фиг.11 показан алгоритм расчета матриц для первого варианта исполнения;11 shows an algorithm for calculating matrices for the first embodiment;
на фиг.12 показан алгоритм расчета матриц для второго варианта исполнения;Fig. 12 shows a matrix calculation algorithm for a second embodiment;
на фиг.13 показан алгоритм расчета матриц для третьего варианта исполнения; иon Fig shows a matrix calculation algorithm for the third embodiment; and
на фиг.14 показан алгоритм расчета матриц для четвертого варианта исполнения.on Fig shows a matrix calculation algorithm for the fourth embodiment.
Варианты осуществления настоящего изобретения представлены ниже исключительно для истолкования основных принципов УСТРОЙСТВА И СПОСОБА СИНТЕЗИРОВАНИЯ ВЫХОДНОГО СИГНАЛА. Подразумевается, что для специалистов в данной области возможность внесения изменений и усовершенствований в компоновку и элементы описанной конструкции очевидна. В силу этого, представленные описания и пояснения вариантов реализации изобретения ограничиваются только рамками патентных требований, а не конкретными деталями.Embodiments of the present invention are presented below solely for the interpretation of the basic principles of the DEVICE AND METHOD FOR SYNTHESIS OF THE OUTPUT SIGNAL. It is understood that for specialists in this field, the possibility of making changes and improvements to the layout and elements of the described construction is obvious. Therefore, the descriptions and explanations provided for the embodiments of the invention are limited only by the scope of patent requirements, and not by specific details.
На фиг.1 дана блок-схема процесса кодирования аудиообъекта, в котором задействованы кодер объекта 101 и декодер объекта 102. Кодер пространственных аудиообъектов 101 кодирует N объектов в данные нисходящего микширования объекта по K > 1 аудиоканалам в соответствии с параметрами кодера. Кодер объекта выводит информацию о примененной весовой матрице D понижающего микширования в сочетании со вспомогательными данными по мощности и корреляция понижающего микширования. Матрица D часто, но не обязательно всегда, постоянна по частотно-временным характеристикам, и поэтому информация о ней требует относительно небольшого объема. В завершение, кодер объекта извлекает параметры каждого объекта в виде частотно-временной функции с разрешением, определяемым условиями восприятия. Декодер пространственного аудиообъекта 102 принимает на входе каналы понижающего микширования объекта, данные понижающего микширования и параметры объекта (сгенерированные кодером) и генерирует выходной сигнал, состоящий из М звуковых каналов, для прослушивания. Аудиорендеринг N объектов в М звуковых каналов выполняют с использованием матрицы звукопередачи (аудиорендеринга), вводимой в декодер объекта как задаваемые пользователем характеристики.Figure 1 is a flowchart of an audio object encoding process in which an
На фиг.2А показаны составные элементы декодера аудиообъекта 102 в варианте комплектации, выход которой задан как стереофонограмма. Даунмикс аудиообъекта вводят в стереопроцессор 201 для обработки сигналов с получением на выходе стереосигнала. Обработка сигнала зависит от характеристик матрицы, рассчитанных вычислителем матриц 202. Информация о матрице выводится из параметров объекта, данных понижающего микширования и задаваемых пользователем характеристик аудиорендеринга объекта, описывающих требования к звукопередаче N объектов в стереоформате с использованием матрицы аудиорендеринга.On figa shows the constituent elements of the decoder of the
На фиг.2B показаны составные элементы декодера аудиообъекта 102 в варианте комплектации, выход которой задан как общий многоканальный аудиосигнал. Даунмикс аудиообъекта вводят в стереопроцессор 201 для обработки сигналов с получением на выходе стереосигнала. Обработка сигнала зависит от характеристик матрицы, рассчитанных вычислителем матрицы 202. Информация о матрице выводится из параметров объекта, данных понижающего микширования и характеристик аудиорендеринга объекта, обработанных и переданных блоком сведения данных аудиорендеринга 204. Сводная информация по аудиорендерингу объекта содержит описание задаваемых характеристик преобразования N объектов в стереофонограмму с использованием матрицы аудиорендеринга и формируется на основании данных аудиорендеринга, описывающих преобразование N объектов в М звуковых каналов, переданных на декодер аудиообъекта 102, параметров объекта и данных понижающего микширования объекта. Вспомогательный процессор 203 преобразует стереосигнал, полученный от стереопроцессора 201, в конечный многоканальный выходной аудиосигнал, сформированный на базе информации о аудиорендеринге, информации о понижающем микшировании и параметров объекта. Как правило, роль базового элемента вспомогательного процессора 203 выполняет декодер формата MPEG Surround, работающий в режиме понижающего стереомикширования.FIG. 2B shows the constituent elements of an
На фиг.3А представлена схема устройства стереопроцессора 201. Если даунмикс объекта рассматривать как поток двоичных данных, исходящий от K-канального аудиокодера, данный поток битов сначала декодируется аудиодекодером 301 в K аудиосигналов временной области. Далее, с помощью частотно-временного конвертора 302 все эти сигналы трансформируются в частотную область. Относящееся к изобретению усовершенствованное матрицирование с частотно-временным преобразованием, характеристики для которого задаются матричными данными, поступающими на стереопроцессор 201, осуществляется модулем комплексного матрицирования 303 с использованием результирующих сигналов Х частотной области. Получаемый на выходе модуля 303 стереосигнал Y′ в частотной области преобразуется с помощью частотно-временного конвертора 304 в сигнал временной области.3A is a diagram of a
На фиг.3B представлено устройство, синтезирующее преобразованный аудиорендерингом выходной сигнал 350, включающий в себя в случае стереоаудиорендеринга сигнал первого звукового канала и сигнал второго звукового канала или сигналы большего числа выходных звуковых каналов в случае многоканального аудиорендеринга. Однако для большего числа аудиообъектов, например трех или более, количество выходных каналов должно быть меньше количества исходных аудиообъектов, интегрированных в сигнал, полученный понижающим микшированием 352. А именно, сигнал 352, полученный понижающим микшированием, содержит, по меньшей мере, сигнал понижающего микширования первого объекта и сигнал понижающего микширования второго объекта, причем, сигнал, полученный понижающим микшированием, представляет собой результат понижающего микширования множества сигналов аудиообъектов, соответствующий введенной информации о понижающем микшировании 354. А именно, в относящуюся к изобретению конструкцию аудиосинтезатора, как показано на фиг.3B, введен декоррелятор 356, генерирующий декоррелированный сигнал, который включает в себя декоррелированный одноканальный сигнал или, в случае применения двух декорреляторов, сигнал первого декоррелированного канала и сигнал второго декоррелированного канала или, при варианте реализации с тремя или более декорреляторами, включающий в себя сигналы числа декоррелированных каналов, большего двух. При этом предпочтительным является меньшее количество декорреляторов и, следовательно, меньшее число сигналов декоррелированных каналов, поскольку каждый декоррелятор значительно усложняет конструкцию. Предпочтительным является количество декорреляторов, меньшее количества аудиообъектов, интегрированных в сигнал понижающего микширования 352, и равное числу каналов в выходном сигнале 352 или меньшее, чем число звуковых каналов в преобразованном аудиорендерингом выходном сигнале 350. Однако для небольшого количества аудиообъектов (например, 2 или 3) количество декорреляторов может быть равным или большим, чем количество аудиообъектов.FIG. 3B shows a device synthesizing an audio-converted
Как показано на фиг.3B, декоррелятор принимает на входе сигнал понижающего микширования 352 и генерирует выходной декоррелированный сигнал 358. Информация о понижающем микшировании 354 дополняется данными, задаваемыми для аудиорендеринга 360 и параметрами аудиообъекта 362. В частности, параметры аудиообъекта используются, по крайней мере, блоком сведения 364 и могут дополнительно быть использованы декоррелятором 356, что будет описано ниже. Параметры аудиообъекта 362 должны преимущественно включать в себя данные энергии и корреляции, параметрически описывающие аудиообъект числом в пределах значений между 0 и 1 или числом в заданном диапазоне значений, служащим показателем энергии, мощности или корреляции между двумя аудиообъектами, как будет рассмотрено позже.As shown in FIG. 3B, the decorrelator receives a
Смеситель 364 предназначен для взвешенного введения сигнала понижающего микширования 352 и декоррелированного сигнала 358. Кроме того, на основе параметров понижающего микширования 354 и заданных характеристик звукопередачи (аудиорендеринга) 360 блок сведения 364 рассчитывает весовые коэффициенты для взвешенного сведения. Задаваемые параметры аудиорендеринга имитируют реальное расположение аудиообъектов в виртуальной звуковой среде и позиционируют аудиообъекты, определяя для воспроизведения каждого из них первый или второй выходной канал, то есть левый выходной канал или правый выходной канал при стереоаудиорендеринге. В то же время, при многоканальном аудиорендеринге в задаваемых характеристиках звукопередачи для каждого канала дополнительно определяется примерное положение относительно левого панорамированного (объемного/пространственного) или правого панорамированного или центрального акустического канала и т.п. Возможна реализация любых сценариев аудиорендеринга, которые, однако, будут отличаться друг от друга параметрами звукопередачи, предварительно задаваемыми преимущественно в форме матрицы аудиорендеринга, предоставляемой, как правило, пользователем, что будет описано далее.The mixer 364 is designed for weighted input of the
И, наконец, блок сведения 364 использует параметры аудиообъекта 362, содержащие описание аудиообъектов, в основном, в виде энергетических показателей и данных корреляции. Как вариант исполнения допускается, чтобы параметры аудиообъекта были представлены в форме ковариационной матрицы аудиообъекта для каждой "ячейки" частотно-временной плоскости. Формулируя иначе, для каждого поддиапазона и для каждого временного отрезка, в пределах которого выбран этот поддиапазон, в качестве параметров аудиообъекта 362 определяется полная ковариационная матрица объекта, то есть матрица, содержащая информацию о мощности/энергии и информацию о корреляции.And finally, the information block 364 uses the parameters of the
При сравнении фиг.3B и фиг.2А или 2B видно, что декодер аудиообъекта 102 на фиг.1 соответствует устройству синтезирования выходного сигнала с использованием аудиорендеринга.When comparing figv and figa or 2B shows that the decoder of the
Кроме того, в (функции стереопроцессора 201 включена фаза декорреляции 356, показанная на фиг.3B. Вместе с тем, блок сведения 364 включает в себя блок расчета матриц 202, показанный на фиг.2А. Одновременно, если декоррелятор 356 выполняет операцию понижающего микширования, здесь часть функций вычислителя матриц 202 ложится на декоррелятор 356, а не на блок сведения 364.In addition, the
Тем не менее, привязка выполняемых функций к конкретным компонентам элементной базы не имеет решающего значения при реализации настоящего изобретения, поскольку область его применения распространяется и на программное обеспечение, и на специальные средства цифровой обработки сигналов, или даже на персональные компьютеры общего назначения. Следовательно, соотнесение конкретной функции с конкретным модулем - это лишь один из подходов к техническому исполнению данного изобретения. Однако, если все принципиальные схемы конструктивных решений рассматривать как блок-схемы, иллюстрирующие алгоритмы рабочих операций, определенные функции можно легко соотнести с определенными блоками в зависимости от требований, предъявляемых при реализации или программировании.However, the binding of the performed functions to specific components of the element base is not critical in the implementation of the present invention, since its scope extends to software, and to special means of digital signal processing, or even to general-purpose personal computers. Therefore, correlation of a specific function with a specific module is only one of the approaches to the technical implementation of this invention. However, if all the schematic diagrams of constructive solutions are considered as block diagrams illustrating the algorithms of working operations, certain functions can be easily correlated with certain blocks depending on the requirements for implementation or programming.
Более того, при сравнении фиг.3B и фиг.3A становится очевидно, что выполнение функции блока сведения 364 по расчету весовых коэффициентов для взвешенного сведения может быть передано блоку расчета матриц 202. Говоря иначе, матричные данные представляют собой набор весовых коэффициентов, используемых модулем комплексного матричного кодирования 303, который реализован в блоке сведения 364, но который может также частично выполнять функции декоррелятора 356 (с учетом матрицы Q, что будет рассмотрено дальше). Таким образом, модуль комплексного матрицирования 303 выполняет операцию сведения поддиапазонов преимущественно этих, по меньшей мере, двух даунмикс-сигналов объекта (сигналов, полученных понижающим микшированием объекта), где информация о матрице включает в себя весовые коэффициенты для взвешивания этих, по меньшей мере, двух даунмикс-сигналов или сигнал, декоррелированный перед выполнением операции сведения.Moreover, when comparing FIG. 3B and FIG. 3A, it becomes apparent that the function of the weighting unit 364 for calculating the weighting factors for weighted information can be transferred to the
Далее подробно рассматриваются предпочтительные варианты конструктивного решения блока сведения 364 и декоррелятора 356. В частности, некоторые версии реализации функциональных возможностей декоррелятора 356 и блока сведения 364 представлены с использованием фиг.4А-4D. На фиг.4Е-4G приведены частные случаи компоновки элементов, показанных на фиг. с 4А по 4D. Перед подробным рассмотрением фиг.4А-4D следует разъяснить общий принцип представления этих чертежей. Контур на каждом чертеже имеет линию верхнего ответвления для прохождения декоррелированного сигнала, и линию нижнего ответвления для прохождения исходного необработанного сигнала. Далее, выходные сигналы каждого ответвления, то есть сигнал на выходе линии 450 и сигнал на выходе линии 452, сводятся блоком сведения 454 для формирования преобразованного аудиорендерингом выходного сигнала 350. В целом, контур на фиг.4А включает в себя три матричных процессора 401, 402, 404. 401 - смеситель исходного сигнала. Эти, по меньшей мере, два даунмикс-сигнала аудиообъекта 352 подвергаются взвешиванию и/или взаимному смешению с получением двух исходных сигналов объекта, соответствующих сигналам ответвления прохождения исходного сигнала, которое заканчивается вводом в сумматор 454. При этом линия прохождения исходного сигнала может быть снабжена дополнительным матричным процессором-компенсатором усиления 409, показанным на фиг.4D на выходе смесителя исходного сигнала 401.The following describes in detail preferred options for constructive solutions of the information unit 364 and
Кроме того, блок сведения 364 может произвольно включать в себя блок повышающего микширования сигнала декоррелятора 404, использующий матрицу Р повышающего микширования декоррелированного сигнала.In addition, the mixing unit 364 may optionally include an upmixing unit of the
Естественно, что разделение блоков матрицирования 404, 401 и 409 (фиг.4D) и блока сведения 454 условно, хотя подобный вариант конструктивного решения, безусловно, возможен. Вместе с тем, функции этих матриц могут быть реализованы с помощью одной "большой матрицы", которая получает на входе декоррелированный сигнал 358 и даунмикс-сигнал 352 и обеспечивает на выходе два, три или более преобразованных аудиорендерингом выходных каналов 350. При осуществлении в варианте "большой матрицы" сигналы по линиям 450 и 452 могут не проходить, и сами эти линии в качестве промежуточных компонентов могут быть конструктивно не реализованы, при этом функции такой "большой матрицы" будут выполняться в виде рабочих операций блоков матричного кодирования 404, 401 или 409 и блока сведения 454.Naturally, the separation of the
Кроме того, в декоррелятор 356 произвольно может быть введен блок преддекорреляционного смешения сигнала 402. На фиг.4B показан вариант реализации, не содержащий этот блок. В частности, это применимо в случае использования двух декорреляторов для преобразования сигналов по двум каналам понижающего микширования, когда специальное микширование с понижением не требуется. Естественно, в каждом конкретном случае осуществления для обоих каналов понижающего микширования могут быть применены определенные коэффициенты усиления, или перед вводом в декоррелятор два канала понижающего микширования могут быть смешаны. Вместе с тем, функции матрицы Q могут выполняться матрицей Р. Это означает, что матрица Р на фиг.4B отличается от матрицы Р на фиг.4А, несмотря на то, что достигается одинаковый результат. Ввиду этого декоррелятор 356 может вообще не содержать никакую матрицу, и полный расчет параметров матриц, как и их использование, будут осуществляться внутри блока сведения. Однако для более наглядного отображения технических возможностей, скрывающихся за математическими выкладками, в дальнейшем настоящее изобретение будет описываться в рамках матричных алгоритмов, представленных на фиг.4А-4D.In addition, a pre-correlation mixing block of
На фиг.4А показано конструктивное решение изобретения в виде модуля комплексного матричного кодирования 303. Входные данные X, включающие в себя параметры, по крайней мере, двух каналов, вводятся в смеситель исходного сигнала 401, который выполняет матричную операцию в соответствии с матрицей С микширования исходного сигнала и выводит исходный стереосигнал повышающего микширования Y′. Входные данные Х вводятся также в блок преддекорреляционного смешения 402, который выполняет матричную операцию в соответствии с матрицей преддекорреляционного смещения Q и дает на выходе сигнал канала Nd, который подается на декоррелятор 403. Далее результирующий декоррелированный сигнал Z канала Nd вводится в блок повышающего микширования сигнала декоррелятора 404, который выполняет матричную операцию в соответствии с матрицей Р повышающего микширования сигнала декоррелятора и выводит декоррелированный стереосигнал. Наконец, декоррелированный стереосигнал смешивается простым суммированием в канале с необработанным стереосигналом повышающего микширования Y′ с образованием выходного сигнала Y′ модуля комплексного матрицирования. Все три матрицы смешения С, Q, Р описываются матричными данными, рассчитываемыми и пересылаемыми матричным вычислителем 202 на стереопроцессор 201. Один из вариантов системы известного уровня техники содержит только нижнее ответвление линии прохождения исходного сигнала. Такая система работает неудовлетворительно в том простом случае, когда стереофонический музыкальный объект проходит по одному каналу понижающего микширования объекта, а монофонический голосовой объект проходит по другому каналу понижающего микширования объекта. Так происходит потому, что аудиорендеринг музыки в стереофонограмму целиком основывается на частотно-селективном панорамировании, хотя известно, что параметрический принцип преобразования в стереоформат, включающий в себя декорреляцию, дает гораздо более высокое качество воспринимаемого звука. В данном конкретном случае лучший результат могла бы дать целиком отличная система, относящаяся к известному уровню техники, в которой применена декорреляция, но которая базируется на даунмиксах двух отдельных монофонических объектов, однако, с другой стороны, достигаемое качество будет оставаться таким же, как и в первом примере с системой, выдающей необработанный стереосигнал для совместимого назад понижающего микширования, при котором музыка остается в формате истинного стерео, а голос смешивается по равным весам с этими двумя каналами понижающего микширования объекта. В качестве примера можно привести целевой аудиорендеринг для караоке, воспроизводящий только стереофонический музыкальный объект. Последующая раздельная обработка каждого канала понижающего микширования не дает возможность оптимального подавления речевого объекта как при комбинированной обработке, когда учитывается полученная информации о стереоаудиообъекте, такая как межканальная корреляция. Ключевая особенность настоящего изобретения - достижение максимально возможного качества звука не только в обеих этих простых ситуациях, но и при гораздо более сложных сочетаниях понижающего микширования объекта с аудиорендерингом.FIG. 4A shows a constructive solution of the invention in the form of a complex
На фиг.4B, как уже сказано выше, в отличие от фиг.4А изображена компоновка, при которой матрица Q преддекорреляционного смешения не требуется или интегрирована в матрицу Р повышающего микширования сигнала декоррелятора.On figv, as mentioned above, in contrast to figa shows a layout in which the matrix Q pre-correlation mixing is not required or integrated into the matrix P up-mixing signal of the decorrelator.
На фиг.4С изображена компоновка, при которой матрица Q преддекоррелятора предусмотрена и выполнена в блоке с декоррелятором 356, и при которой матрица Р повышающего микширования сигнала декоррелятора не требуется или интегрирована в матрицу Q.FIG. 4C shows an arrangement in which the pre-correlator matrix Q is provided and implemented in a block with
В дополнение к этому на фиг.4D изображена компоновка, в которой присутствуют матрицы, показанные на фиг.4А, но в которой предусмотрена дополнительная матрица компенсации усиления G, что особенно применимо в третьем варианте технического решения, который будет обсужден в контексте фиг.13, и четвертом варианте конструктивного решения, который будет обсужден в контексте фиг.14.In addition to this, FIG. 4D shows an arrangement in which the matrices shown in FIG. 4A are present, but in which an additional gain compensation matrix G is provided, which is especially applicable in the third embodiment of the technical solution, which will be discussed in the context of FIG. 13, and a fourth embodiment of the design, which will be discussed in the context of FIG.
Блок декоррелятора 356 может включать в себя одиночный декоррелятор или два декоррелятора. На фиг.4Е изображен вариант компоновки, в котором предусмотрен одиночный декоррелятор 403 и в котором сигнал, полученный понижающим микшированием, является двухканальным сигналом понижающего микширования объекта, а выходной сигнал является двухканальным выходным звуковым сигналом. В данном случае матрица Q понижающего микширования сигнала декоррелятора имеет одну строку и два столбца, а матрица повышающего микширования сигнала декоррелятора имеет один столбец и две строки. Однако, когда сигнал, полученный понижающим микшированием, будет иметь больше двух каналов, количество столбцов Q будет равняться количеству каналов сигнала понижающего микширования, а когда синтезируемый преобразованный аудиорендерингом выходной сигнал будет иметь больше двух каналов, количество строк матрицы Р повышающего микширования декоррелированного сигнала будет равно количеству каналов преобразованного аудиорендерингом выходного сигнала.The
На фиг.4F показан напоминающий электрическую цепь вариант реализации смесителя исходного сигнала 401, обозначенный С0, который при конструктивном решении два-на-два имеет по две строки в двух столбцах. Ячейки матрицы отображены на схеме как весовые коэффициенты cij. Кроме того, как видно на фиг.4F, сведение взвешенных каналов выполняется с использованием сумматоров. Однако, когда количество каналов понижающего микширования отлично от количества каналов аудиорендеринга выходного сигнала, матрица микширования исходного сигнала С0 не будет являться квадратичной матрицей, а будет иметь количество строк, отличное от количества столбцов.FIG. 4F shows an electric circuit resembling embodiment of a
На фиг.4G детально отображена стадия суммирования 454 на фиг.4А. В частности, при наличии двух выходных каналов, например сигнала левого стереоканала и сигнала правого стереоканала, предусматриваются два разных суммирующих звена 454, которые выполняют сведение выходных сигналов верхнего ответвления, относящегося к сигналу декоррелятора, и нижнего ответвления, относящегося к исходному сигналу, как показано на фиг.4G.In FIG. 4G, the summing
Ячейки матрицы компенсации усиления G 409 расположены только по ее диагонали. При конструктивном исполнении "два-на-два", показанном на фиг.4f для матрицы С0 смешения исходного сигнала, коэффициент усиления для компенсации усиления левого исходного сигнала должен находиться в позиции с11, а коэффициент усиления для компенсации усиления правого исходного сигнала будет в позиции С22 матрицы С0 на фиг.4F. Значения c12 и C21 должны быть равны 0 для матрицы усиления G, как показано под обозначением 409 на фиг.4D.The cells of the gain
На фиг.5 показана работа многоканального декоррелятора 403 известного уровня техники. Подобное инструментальное средство применяется, например, в рамках стандарта MPEG Surround. Nd сигналов - сигнал 1, сигнал 2, …, сигнал Nd раздельно подаются на декоррелятор 1, декоррелятор 2, …, декоррелятор Nd. Каждый декоррелятор обычно состоит из фильтра, предназначенного для выработки выходного сигнала, максимально некоррелированного с входным сигналом с сохранением мощности входного сигнала. Одновременно, фильтры различных декорреляторов подбираются так, чтобы выходной сигнал декоррелятора 1, выходной сигнал декоррелятора 2, …, выходной сигнал декоррелятора Nd также насколько возможно попарно не коррелировали. Поскольку декорреляторы, как правило, характеризуются высокой вычислительной сложностью по сравнению с другими компонентами декодера аудиообъектов, число Nd предпочтительно должно быть как можно меньше.Figure 5 shows the operation of the
Представляемое изобретение предусматривает технические решения с числом Nd, равным 1, 2 или более, но предпочтительно - меньшим количества аудиообъектов. Говоря точнее, предпочтительное количество декорреляторов при осуществлении должно соответствовать количеству сигналов звуковых каналов преобразованного аудиорендерингом выходного сигнала или быть меньше количества сигналов аудиоканалов преобразованного аудиорендерингом выходного сигнала 350.The present invention provides technical solutions with a number N d equal to 1, 2 or more, but preferably less than the number of audio objects. More specifically, the preferred number of decorrelators in the implementation should correspond to the number of audio channel signals converted by the audio rendering of the output signal, or less than the number of audio channel signals converted by the audio rendering of the
Далее представлено краткое математическое описание данного изобретения. Все рассматриваемые здесь сигналы являются отсчетами поддиапазонов модулированных банков фильтров или оконного анализа БПФ (быстрого преобразования Фурье) дискретных временных сигналов. Подразумевается, что эти поддиапазоны должны быть преобразованы обратно в область дискретного времени с помощью соответствующих операций банка фильтров синтеза. Сигнальный пакет из L отсчетов отображает сигнал в частотно-временном интервале, составляющем часть перцептуально мотивированной фрагментации частотно-временной плоскости, используемой для описания характеристик сигнала. При таком подходе аудиообъекты могут быть представлены матрицей, содержащей N строк длиной L,The following is a brief mathematical description of the present invention. All the signals considered here are samples of subbands of modulated filter banks or window FFT analysis (fast Fourier transform) of discrete time signals. It is understood that these subbands must be converted back to the discrete time domain using the appropriate synthesis filter bank operations. A signal packet of L samples displays the signal in a time-frequency interval that is part of the perceptually motivated fragmentation of the time-frequency plane used to describe the characteristics of the signal. With this approach, audio objects can be represented by a matrix containing N lines of length L,
На фиг.6 дана сводная карта N аудиообъектов. На фиг.6 каждый объект имеет индивидуальный идентификатор (ID) объекта, соответствующий звуковой файл объекта и обязательно - параметры аудиообъекта, которые предпочтительно должны содержать показатели энергетики аудиообъекта и его взаимной корреляции с другими аудиообъектами. А именно, параметры аудиообъекта включают в себя матрицу Е ковариации объекта для каждого поддиапазона и для каждого временного блока.Figure 6 is a summary map of N audio objects. In Fig.6, each object has an individual identifier (ID) of the object, the corresponding sound file of the object, and necessarily the parameters of the audio object, which preferably should contain indicators of the energy of the audio object and its mutual correlation with other audio objects. Namely, the parameters of the audio object include an object covariance matrix E for each subband and for each time block.
Пример такой матрицы Е акустических параметров объекта приведен на фиг.7. Диагонально расположенные ячейки eij заключают в себе информацию о мощности или энергии аудиообъекта i в соответствующем поддиапазоне и в соответствующем временном блоке. Для этого сигнал поддиапазона, представляющий некий аудиообъект i, вводится в вычислитель мощности или энергии, который рассчитан, например, на выполнение функции автокорреляции (acf) для получения значения е11 с нормализацией или без таковой. Или же энергия может быть вычислена как сумма квадратов сигнала на определенной длине (то есть как векторное произведение: ss*). Функция acf может в некотором смысле описывать спектральное распределение энергии, но вследствие того, что применение частотно-временного преобразования для частотной селекции в любом случае предпочтительно, энергия может быть рассчитана без применения acf отдельно для каждого поддиапазона. Таким образом, диагональные элементы матрицы Е акустических параметров объекта указывают измеренный уровень мощности или энергии аудиообъекта в конкретном поддиапазоне в конкретный интервал времени.An example of such a matrix E of the acoustic parameters of the object is shown in Fig.7. Diagonally located cells e ij enclose information about the power or energy of the audio object i in the corresponding subband and in the corresponding time block. For this, a subband signal representing a certain audio object i is input into a power or energy calculator, which is designed, for example, to perform the autocorrelation function (acf) to obtain the value of e 11 with or without normalization. Or, the energy can be calculated as the sum of the squares of the signal over a specific length (that is, as a vector product: ss *). The acf function can in some sense describe the spectral distribution of energy, but since the use of the time-frequency conversion for frequency selection is preferable in any case, the energy can be calculated without using acf separately for each subband. Thus, the diagonal elements of the matrix E of the acoustic parameters of the object indicate the measured level of power or energy of the audio object in a particular subband in a specific time interval.
Вместе с тем, недиагональный элемент eij обозначает соответствующую степень тесноты корреляции между аудиообъектами i, j в соответствующем поддиапазоне и временном блоке. Как видно на фиг.7, в матрице Е ячейки с действительным значением располагаются симметрично относительно главной диагонали. Обычно такая матрица является эрмитовой матрицей. Показатель степени тесноты корреляции (коэффициент корреляции) eij может быть вычислен, например, с помощью взаимной корреляция двух сигналов поддиапазона соответствующих аудиообъектов, благодаря чему определяется степень тесноты перекрестной корреляции, которая произвольно может быть нормализована. Возможны другие способы измерения корреляции, которые не включают в себя операцию определения взаимной корреляции, а задействуют другие способы вычисления степени тесноты корреляции между двумя сигналами. По практическим соображениям все элементы матрицы Е нормализуются до значений между 0 и 1, где 1 служит показателем максимальной мощности, или максимальной корреляции, 0 обозначает минимальную мощность (нулевую мощность), а -1 показывает минимальную (не совпадающую по фазе) корреляцию.However, the off-diagonal element e ij denotes the corresponding degree of tightness of the correlation between the audio objects i, j in the corresponding subband and time block. As can be seen in Fig.7, in the matrix E, the cells with the actual value are located symmetrically with respect to the main diagonal. Typically, such a matrix is a Hermitian matrix. The correlation tightness index (correlation coefficient) e ij can be calculated, for example, by cross-correlation of two subband signals of the corresponding audio objects, thereby determining the degree of cross-correlation tightness, which can be arbitrarily normalized. Other methods of measuring correlation are possible, which do not include the operation of determining cross-correlation, but involve other methods of calculating the degree of tightness of the correlation between the two signals. For practical reasons, all elements of the matrix E are normalized to values between 0 and 1, where 1 is an indicator of maximum power, or maximum correlation, 0 indicates the minimum power (zero power), and -1 indicates the minimum (not matching in phase) correlation.
Матрица D понижающего микширования размерностью K × N, где K > N, формирует K-канальный сигнал понижающего микширования согласно матрице со сквозным количеством К строк при матричном мультиплицированииThe K × N downmix matrix D, where K> N, generates a K-channel downmix signal according to a matrix with an end-to-end number of K lines in matrix multiplication
На фиг.8 дан пример матрицы D понижающего микширования с ячейкой dij. Элемент dij показывает, включен или нет, и в какой степени, объект j в сигнал понижающего микширования объекта i. Например, если d12 равно нулю, то объект 2 не включен в даунмикс-сигнал объекта 1. Вместе с тем, значение d23, равное 1, означает, что объект 3 полностью включен в даунмикс-сигнал объекта 2.Fig. 8 shows an example of a downmix matrix D with a cell d ij . Element d ij indicates whether or not, and to what extent, object j is included in the downmix signal of object i. For example, if d 12 is zero, then object 2 is not included in the downmix signal of
Показатели ячеек матрицы понижающего микширования находятся в пределах между 0 и 1. В частности, показатель 0,5 означает, что некий объект участвует в сигнале понижающего микширования половиной своей энергии. Таким образом, если, например, аудиообъект 4 равномерно распределен по обоим каналам микшированного с понижением сигнала, элементы d24 и d14 будут равны 0,5. Этот способ понижающего микширования является энергосберегающим и может быть рекомендован для целого ряда случаев. Тем не менее, метод понижающего микширования, не являющийся экономичным, также может быть задействован, когда аудиообъект целиком вводится в левый канал понижающего микширования и в правый канал понижающего микширования таким образом, что энергия этого аудиообъекта удваивается относительно других аудиообъектов внутри этого сигнала понижающего микширования.The cells of the downmix matrix cells are between 0 and 1. In particular, a value of 0.5 means that an object is participating in the downmix signal with half of its energy. Thus, if, for example, the
В нижней части фиг.8 дается принципиальная схема кодера объекта 101, показанного на фиг.1. В частности, в кодер объекта 101 введены два разных компонента 101а и 101b. Компонент 101a представляет собой понижающий микшер, который преимущественно осуществляет взвешенное линейное сведение аудиообъектов 1, 2, …, N, второй компонент 101b кодера объекта 101 является вычислителем параметров аудиообъектов, таких как матрица Е, для каждого временного блока или частотного поддиапазона с целью подготовки данных корреляции и мощности звука, которые представляют собой параметрическую информацию и поэтому могут быть переданы с низким битрейтом или сохранены в малом объеме памяти.At the bottom of FIG. 8 is a schematic diagram of the encoder of the
Задаваемая пользователем матрица А рендеринга объекта размерностью М × N формирует М-канальный рендеринг аудиообъектов по заданным параметрам в виде матрицы со сквозным количеством М строк при матричном мультиплицированииA user-defined object rendering matrix A with a dimension of M × N forms an M-channel rendering of audio objects according to given parameters in the form of a matrix with an end-to-end number of M rows in matrix multiplication
В ходе последующего дифференцирования будет принято, что М=2, так как основное внимание уделяется стереоаудиорендерингу (/стереозвукопередаче). Принимая во внимание, что первичный аудиорендеринг осуществляется по более чем двум каналам, и, зная правила понижающего микширования этих нескольких каналов в два канала, квалифицированный специалист без труда рассчитает соответствующую матрицу рендеринга А размерностью 2 × N для выполнения стереоаудиорендеринга. Такое понижение выполняется блоком сведения данных аудиорендеринга 204. Кроме того, для упрощения примем, что K=2, то есть, что даунмикс объекта также является стереосигналом. Тем более что понижающее микширование стереообъекта представляет собой наиболее важный случай прикладного сценария.During the subsequent differentiation, it will be assumed that M = 2, since the main attention is paid to stereo audio rendering (/ stereo audio transmission). Taking into account that the primary audio rendering is carried out on more than two channels, and, knowing the rules for down-mixing these several channels into two channels, a qualified specialist will easily calculate the appropriate 2 × N rendering matrix A for stereo audio rendering. Such a reduction is performed by the audio rendering
На фиг.9 детально рассмотрена матрица А параметров аудиорендеринга. В зависимости от назначения матрица А параметров аудиорендеринга может быть представлена пользователем. Пользователь абсолютно свободен в выборе конечного расположения аудиообъекта в воспроизводимой виртуальной среде. Сильная сторона концепции аудиообъекта заключается в том, что информация о понижающем микшировании и параметры аудиообъекта никак не влияют на желаемое пространственное размещение аудиообъектов. Такое позиционирование аудиообъектов задается пользователем в виде информации пространственно скоординированного аудиорендеринга. Информация такого целевого аудиорендеринга может быть представлена к форме матрицы А параметров аудиорендеринга, вариант которой представлен на фиг.9. В частности, матрица аудиорендеринга А имеет М строк и N столбцов, где М равно количеству каналов преобразованного аудиорендерингом выходного сигнала, и где N равно количеству аудиообъектов. М равно двум согласно предпочтительному сценарию стереоаудиорендеринга, однако если выполняется М-канальный аудиорендеринг, матрица А имеет М строк.Figure 9 is a detailed discussion of the matrix A of audio rendering parameters. Depending on the purpose, the matrix A of the audio rendering parameters may be presented by the user. The user is absolutely free to choose the final location of the audio object in a reproducible virtual environment. The strength of the audio object concept is that the downmix information and the audio object parameters do not affect the desired spatial distribution of the audio objects. Such positioning of audio objects is set by the user in the form of information of spatially coordinated audio rendering. Information of such a target audio rendering may be presented in the form of a matrix A of audio rendering parameters, a variant of which is shown in FIG. 9. In particular, the audio rendering matrix A has M rows and N columns, where M is equal to the number of channels of the output converted by audio rendering, and where N is equal to the number of audio objects. M is equal to two according to a preferred stereo audio rendering scenario, however, if M-channel audio rendering is performed, matrix A has M rows.
В частности, ячейка матрицы aij, включен или нет, и в какой степени, объект j в сигнал понижающего микширования объекта i. В нижней части фиг.9 приведен простой пример матрицы параметров аудиорендеринга для сценария, в котором задействованы шесть аудиообъектов от A01 до А06, причем, только первые пять аудиообъектов должны быть точно позиционированы в пространстве, а шестой аудиообъект рендеринг не должен затрагивать вообще.In particular, the matrix cell a ij is included or not, and to what extent, object j is in the down-mix signal of object i. The lower part of Fig. 9 shows a simple example of a matrix of audio rendering parameters for a scenario in which six audio objects from A01 to A06 are involved, and only the first five audio objects must be precisely positioned in space, and the sixth audio object should not affect rendering at all.
По акустическому сценарию пользователя аудиообъект A01 должен звучать слева. Поэтому данный объект помещается в левый динамик в (виртуальной) аудитории, в результате чего первый столбец матрицы аудиорендеринга А приобретает вид (10). Второй аудиообъект имеет показатели а22, равный одному, и а12, равный нулю, что означает, что второй аудиообъект должен звучать справа.According to the user's acoustic scenario, audio object A01 should sound on the left. Therefore, this object is placed in the left speaker in the (virtual) audience, as a result of which the first column of the audio rendering matrix A takes the form (10). The second audio object has indicators a 22 equal to one, and a 12 equal to zero, which means that the second audio object should sound on the right.
Аудиообъект 3 должен звучать в центре, между левым и правым динамиками, чтобы 50% уровня или сигнала этого аудиообъекта проходило по левому каналу и 50% уровня или сигнала проходило по правому каналу, соответственно третий столбец матрицы А параметров аудиорендеринга получил вид (0,5 пробел 0,5).
Аналогичным образом с помощью матрицы параметров аудиорендеринга может быть задано любое положение между левой и правой акустическими системами. Поскольку матричная ячейка а24 больше, чем а14, аудиообъект 4 смещен вправо. Аналогично этому пятый аудиообъект А05 смещен влево, что отражено элементами матрицы параметров аудиорендеринга а15 и а25. Матрица А параметров аудиорендеринга дополнительно предусматривает возможность вообще не воспроизводить некоторые аудиообъекты. Это показано на примере шестого столбца матрицы А параметров аудиорендеринга, содержащего нулевые ячейки.Similarly, using the matrix of audio rendering parameters, any position between the left and right speakers can be set. Since the matrix cell a 24 is larger than a 14 , the
В ходе последующего дифференцирования будет принято, что М=2, так как основное внимание уделяется стереоаудиорендерингу. Принимая во внимание, что первичный аудиорендеринг осуществляется по более чем двум каналам, и, зная правила понижающего микширования этих нескольких каналов в два канала, квалифицированный специалист без труда рассчитает соответствующую матрицу рендеринга А размерностью 2×N для выполнения стереоаудиорендеринга. Такое понижение выполняется блоком сведения данных аудиорендеринга 204. Кроме того, для упрощения примем, что K=2, то есть, что даунмикс объекта также является стереосигналом. Тем более что понижающее микширование стереообъекта представляет собой наиболее важный случай прикладного сценария.In the course of the subsequent differentiation, it will be assumed that M = 2, since the focus is on stereo audio rendering. Taking into account that the primary audio rendering is carried out on more than two channels, and, knowing the rules for down-mixing these several channels into two channels, a qualified specialist will easily calculate the appropriate 2 × N rendering matrix A for stereo audio rendering. Such a reduction is performed by the audio rendering
Если временно пренебречь потерями кодирования аудиосигнала при понижающем микшировании объекта, основная задача декодера аудиообъекта состоит в приближении исходных аудиообъектов к желаемому пространственному восприятию в ходе аудиорендеринга по заданным параметрам (целевого аудиорендеринга) Y, основанного на матрице аудиорендеринга А, данных понижающего микширования X, матрице D понижающего микширования, и параметрах объекта. Устройство относящегося к изобретению интегрированного модуля матричного кодирования 303 представлено на фиг.4. Учитывая число Nd взаимно ортогональных декорреляторов в составе элемента 403, можно выделить три матрицы смешения:If we temporarily neglect audio coding losses during downmixing of an object, the main task of an audio object decoder is to bring the original audio objects closer to the desired spatial perception during the audio rendering according to the given parameters (target audio rendering) Y, based on the audio rendering matrix A, the downmix data X, the downmix matrix D mixing, and object parameters. An apparatus of the integrated
- С размерностью 2 × 2, которая выполняет смешение исходного сигнала;- With a dimension of 2 × 2, which performs the mixing of the original signal;
- Q размерностью Nd × 2, которая выполняет преддекорреляционное смешение сигнала;- Q dimension N d × 2, which performs pre-correlation mixing of the signal;
- Р размерностью 2 × Nd, которая выполняет повышающее микширование декоррелированного сигнала.-
Если предположить, что декорреляторы являются энергосберегающими, матрица Z декоррелированного сигнала имеет ковариационную матрицу Rz=ZZ* с диагональю Nd×Nd, диагональные значения которой равны диагональным значениям матрицы ковариацииAssuming decorrelators are energy-efficient, the decorrelated signal matrix Z has a covariance matrix R z = ZZ * with a diagonal of N d × N d whose diagonal values are equal to the diagonal values of the covariance matrix
даунмикса объекта, прошедшего процесс преддекорреляционного смешения. (Здесь и далее звездочкой обозначены матричные операции с комплексно сопряженным транспонированием. Кроме того, подразумевается, что детерминированные матрицы ковариации формы UV*, используемые повсеместно для удобства вычислений, могут быть заменены на математические ожидания).downmix of the object that went through the process of pre-correlation mixing. (Hereinafter, an asterisk denotes matrix operations with complex conjugate transposition. In addition, it is understood that the determinate covariance matrices of the UV * form, used universally for the convenience of calculations, can be replaced by mathematical expectations).
Кроме того, все декоррелированные сигналы могут считаться некоррелированными при понижающем микшировании объектов. Таким образом, ковариация R′ сведенного выходного сигнала модуля комплексного матрицирования 303, относящегося к изобретению.In addition, all decorrelated signals can be considered uncorrelated when downmixing objects. Thus, the covariance R ′ of the reduced output signal of the
может быть записана как сумма ковариации смешанного исходного сигнала и результирующей ковариации выхода декоррелятораcan be written as the sum of the covariance mixed source signal and resulting covariance of decorrelator output
Параметры объекта обычно содержат информацию относительно мощностей объекта и выбранных межобъектных корреляций. На основании этих параметров может быть построена модель E с N×N ковариацией объектов SS*.The parameters of the object usually contain information regarding the power of the object and the selected inter-object correlations. Based on these parameters, an E model with N × N covariance of SS * objects can be constructed.
При этом данные, необходимые декодеру аудиообъекта, описываются триплетом матриц (D, E, A), и метод, являющийся частью настоящего изобретения, состоит в использовании этих данных для общей оптимизации волнового согласования сведенного выходного сигнала (5) и его ковариации (6) с сигналом заданного аудиорендеринга (4). Задачей данной матрицы смещения исходного сигнала является корректная конечная ковариации R′=R, которая может быть оценена с использованиемAt the same time, the data required by the audio object decoder is described by a matrix triplet (D, E, A), and the method that is part of the present invention consists in using this data for general optimization of wave matching of the reduced output signal (5) and its covariance (6) with a signal of a given audio rendering (4). The objective of this bias matrix of the original signal is the correct final covariance R ′ = R, which can be estimated using
Сопоставляя матрицу ошибок, описываемую какComparing the error matrix described as
с (6) получаем требование к конструкцииc (6) we obtain the construction requirement
Поскольку левая часть (10) представляет собой положительную полуопределенную матрицу для любой матрицы P декоррелятора, необходимо, чтобы матрица ошибок (9) также являлась положительной полуопределенной матрицей. Для подробного объяснения приведенных далее формул необходимо параметризировать ковариации смешанного исходного сигнала и заданного аудиорендеринга следующим образом:Since the left-hand side of (10) is a positive semidefinite matrix for any matrix P of the decorrelator, it is necessary that the error matrix (9) also be a positive semidefinite matrix. For a detailed explanation of the following formulas, it is necessary to parameterize the covariance of the mixed source signal and the given audio rendering as follows:
Для матрицы ошибокFor error matrix
необходимое требование положительной полуопределенности может быть выражено в виде трех условий:the necessary requirement of positive semidefiniteness can be expressed in the form of three conditions:
Далее будет рассмотрена фиг.10. На фиг.10 показана последовательность предварительных расчетов, необходимых для четырех вариантов реализации, на фиг.11-14. Одним из таких предварительных вычислений является расчет ковариационной матрицы R сигнала аудиорендеринга по заданным параметрам, что обозначено элементом 1000 на фиг.10. Блок 1000 соответствует уравнению (8).Next will be considered figure 10. Figure 10 shows the sequence of preliminary calculations necessary for the four implementation options, figure 11-14. One of these preliminary calculations is the calculation of the covariance matrix R of the audio rendering signal according to predetermined parameters, which is indicated by
Как показано в блоке 1002, матрица микширования исходного сигнала может быть рассчитана с использованием уравнения (15). В частности, результатом расчета матрицы смешения исходного сигнала С0 является наилучшее согласование сигнала заданного аудиорендеринга, достигнутое с использованием сигналов понижающего микширования, при этом предполагается, что декоррелированный сигнал не используется вообще. Таким образом, матрица микширования исходного сигнала обеспечивает наилучшее согласование формы выходного сигнала матрицы смешивания с сигналом аудиорендеринга по заданным параметрам без какой-либо дополнительной декорреляции сигнала. Это свойство матрицы смешения исходного сигнала особенно важно для поддержания как можно более низкого уровня декоррелированного сигнала в выходном канале. В большинстве случаев декоррелированный сигнал - это сигнал, который был в значительной степени изменен декоррелятором. В силу этого такой сигнал, как правило, содержит артефакты в виде расцвечивания, размытия времени и плохой переходной характеристики. Поэтому преимуществом такого конструктивного решения является обеспечение лучшего качества выходного аудиосигнала вследствие низкого уровня декорреляции сигнала. Благодаря согласованию формы сигнала, то есть взвешиванию и сведению двух или более каналов в сигнал понижающего микширования с формированием исходного звукового сигнала, максимально приближенного к заданным характеристикам аудиорендеринга, требуется минимальная декорреляция сигнала.As shown in
В функции блока сведения 364 входит вычисление весовых коэффициентов таким образом, чтобы результат 452 смешения сигнала понижающего микширования первого объекта и сигнала понижающего микширования второго объекта по форме сигнала согласовывался с результатом аудиорендеринга по заданным параметрам, причем такое согласование в максимально возможной степени должно служить предотвращению ситуации, когда при аудиорендеринге исходных аудиообъектов с использованием задаваемых параметров аудиорендеринга 360 параметрическая информация о аудиообъекте 362 была бы утрачена при отсутствии акустических образов аудиообъектов. Из этого следует, что точная реконструкция сигнала не может быть гарантирована даже при наличии неквантованной матрицы Е. Среднеквадратическая ошибка может быть минимизирована. Следовательно, следует стремиться к волновому согласованию, благодаря которому возможна реконструкция уровней мощности и взаимных корреляций.The function of the information block 364 is to calculate the weighting coefficients so that the
Сразу же после расчета матрицы С0 смешения исходного сигнала, например, вышеупомянутым способом может быть вычислена матрица ковариации исходного сигнала. В частности, рекомендуется использовать уравнение, расположенное в правой части фиг.10, то есть C0DED*C* 0. Благодаря этой формуле при расчете матрицы ковариации результата смешения исходного сигнала требуются только параметры, а отсчеты частотных поддиапазонов не требуются. При этом, как вариант, ковариационная матрица результата смешения исходного сигнала может быть рассчитана с использованием матрицы С0 смешения исходного сигнала и микшированных с понижением сигналов, но первое вычисление, которое выполняется в области значений параметров может быть только невысокой сложности.Immediately after calculating the initial mixing signal matrix C 0 , for example, the covariance matrix can be calculated by the above method source signal. In particular, it is recommended to use the equation located on the right side of FIG. 10, i.e., C 0 DED * C * 0 . Thanks to this formula, when calculating the covariance matrix the result of mixing the original signal requires only parameters, and samples of the frequency subbands are not required. In this case, as an option, the covariance matrix of the result of mixing the original signal can be calculated using the matrix C 0 of mixing the original signal and the signals mixed with decreasing, but the first calculation, which is performed in the range of parameter values, can only be of low complexity.
За шагами вычислений 1000, 1002, 1004 могут быть рассчитаны матрица С0 смешения исходного сигнала, ковариационная матрица R сигнала заданного аудиорендеринга и ковариационная матрица исходного сигнала.After the calculation steps 1000, 1002, 1004, the mixing matrix C 0 of the original signal, the covariance matrix R of the given audio rendering signal and the covariance matrix can be calculated source signal.
Далее рассматриваются четыре варианта конструктивного решения в зависимости от применения матриц Q, Р. Дополнительно описывается случай фиг.4d (например, для третьего или четвертого варианта реализации), где также определены значения матрицы G компенсации усиления. Для квалифицированного специалиста очевидна возможность варьирования конструктивных решений, помогающих найти значения этих матриц, благодаря существующей степени свободы выбора при вычислении матричных весовых коэффициентов.Four variants of the constructive solution are considered below depending on the application of the matrices Q and P. Additionally, the case of Fig. 4d is described (for example, for the third or fourth embodiment), where the values of the gain compensation matrix G are also determined. For a qualified specialist, the possibility of varying design solutions that help to find the values of these matrices is obvious, due to the existing degree of freedom of choice in calculating matrix weighting coefficients.
В первом варианте реализации настоящего изобретения матричный вычислитель 202 работает но следующему алгоритму.In a first embodiment of the present invention,
Матрица повышающего микширования исходного сигнала рассчитывается прежде всего с целью нахождения решения методом наименьших квадратов для согласования формы сигналаThe upmix matrix of the original signal is calculated primarily to find a solution using the least squares method to match the waveform
В данном случае имеет силу . Кроме того, здесь выполняется уравнение:In this case, it is valid. . In addition, the equation holds here:
Решение этой задачи находимо с помощьюThe solution to this problem is found using
что имеет известное дополнительное решение методом наименьших квадратов, а на основании (13) также может быть легко подтверждено, что ошибка является ортогональной по отношению к аппроксимации. Поэтому перекрестные члены при дальнейшем вычислении обращаются в нуль,which has a known additional solution by the least squares method, and on the basis of (13) it can also be easily confirmed that the error is orthogonal with respect to the approximation. Therefore, the cross terms in the further calculation vanish,
Из этого следуетTherefore
что является заведомо неотрицательно определенным, следовательно, (10) может быть решено. Символическим решением являетсяwhich is obviously non-negative definite; therefore, (10) can be solved. The symbolic decision is
Здесь второй множитель легко определяется с помощью поэлементной операции на диагонали, и матрица T решает матричное уравнение TT*=ΔR. Для этого уравнения существует большой выбор решений. Особенность метода данного изобретения состоит в том, что начинать следует с разложения по сингулярным числам матрицы ΔR. Для этой симметричной матрицы он сводится к обычному разложению собственного вектора,Here is the second factor it is easily determined using the elementwise operation on the diagonal, and the matrix T solves the matrix equation TT * = ΔR. There is a large selection of solutions for this equation. A feature of the method of this invention is that you should start with the expansion in the singular numbers of the matrix ΔR. For this symmetric matrix, it reduces to the usual expansion of the eigenvector,
где матрица U собственного вектора унитарна и ее столбцы содержат собственные векторы, соответствующие характеристическим значениям, отсортированным в убывающем порядке. Первый вариант решения по настоящему изобретению с одним декоррелятором (Nd=1) выполняется путем задания λmin=0 в (19) и подстановки соответствующего натурального приближенияwhere the matrix U of the eigenvector is unitary and its columns contain eigenvectors corresponding to characteristic values sorted in descending order. The first solution option of the present invention with one decorrelator (N d = 1) is performed by setting λ min = 0 in (19) and substituting the corresponding natural approximation
в (18). Полное решение с количеством декорреляторов Nd=2 выполняется внесением недостающего минимально значимого дополнения из наименьшего собственного числа и добавлением второго столбца к (20), соответствующего произведению первого множителя (19) на корень квадратный каждого элемента диагональной матрицы собственных чисел. Подробно это будет выглядеть следующим образом:in (18). A complete solution with the number of decorrelators N d = 2 is made by introducing the missing minimum significant complement from the smallest eigenvalue and adding the second column to (20), corresponding to the product of the first factor (19) and the square root of each element of the diagonal eigenvalue matrix. In detail it will look as follows:
Итог по расчету матрицы Р для первого варианта реализации будет подведен в контексте фиг.11. На шаге 1101 рассчитывается ковариационная матрица DR сигнала рассогласования или при рассмотрении фиг.4А - матрица коррелированного сигнала в верхнем ответвлении, с использованием результатов шага 1000 и шага 1004 на фиг.10. Затем выполняется разложение собственных чисел этой матрицы, что обсуждалось в связи с уравнением (19). Далее, в соответствии с одной из множества применимых стратегий, которые будут обсуждаться позднее, выбор переходит на матрицу Q. На базе выбранной матрицы Q рассчитывается ковариационная матрица Rz матрицированного декоррелированного сигнала с использованием уравнения, записанного справа от рамки 1103 на фиг.11, то есть матричного мультиплицирования QDED*Q*. Затем, на основании Rz, полученного на шаге 1103, вычисляется матрица Р повышающего микширования сигнала декоррелятора. Понятно, что фактическое выполнение этой матрицей повышающего микширования необязательно, так как на выходе блока Р 404 на фиг.4А сигналов больше, чем на входе. Эта операция может применяться в случае с одиночным коррелятором, в то время как при двух декорреляторах матрица Р повышающего микширования сигнала декоррелятора имеет два канала на входе и два канала на выходе и может быть реализована в виде матрицы повышающего микшера исходного сигнала, показанная на фиг.4F.The result of calculating the matrix P for the first embodiment will be summarized in the context of Fig. 11. In
Таким образом, основной особенностью первого варианта реализации является то, что вычисляются С0 и Р. Существует мнение, что для обеспечения на выходе четко коррелированной схемы следует использовать два декоррелятора. Вместе с тем, возможность применения только одного декоррелятора создает свои преимущества. Такое решение представлено уравнением (20). В частности, при осуществлении может быть применен декоррелятор с меньшим характеристическим значением.Thus, the main feature of the first embodiment is that C 0 and P are calculated. There is an opinion that two decorrelators should be used to ensure a clearly correlated circuit at the output. At the same time, the possibility of using only one decorrelator creates its own advantages. Such a solution is represented by equation (20). In particular, in the implementation can be applied decorrelator with a lower characteristic value.
Во втором варианте реализации настоящего изобретения матричный вычислитель 202 работает по следующему алгоритму. По своей форме матрица смешения сигнала декоррелятора ограниченаIn a second embodiment of the present invention,
При таком ограничении матрица ковариации одиночного декоррелированного сигнала является скаляром Rz=rZ, и ковариация сведенного выходного сигнал (6) приобретает видWith this restriction, the covariance matrix of a single decorrelated signal is a scalar R z = r Z , and the covariance of the reduced output signal (6) takes the form
где α=c2rz. Полное согласование с заданной ковариацией R′=R технически не осуществимо, но перцептуально обусловленная необходимость нормализованной корреляции между выходными каналами в целом ряде случаев заставляет по возможности приблизить ее к желаемой. Здесь задаваемая корреляция описываетсяwhere α = c 2 r z . Full agreement with the given covariance R ′ = R is not technically feasible, but the perceptually determined need for a normalized correlation between the output channels in a number of cases makes it possible to bring it closer to the desired one. Here, the defined correlation is described.
а корреляция, достигаемая в сведенном выходном сигнале (23), представляется какand the correlation achieved in the reduced output signal (23) is represented as
Уравнивание (24) и (25) приводит к квадратному уравнению в α,Equation (24) and (25) leads to the quadratic equation in α,
Для тех случаев, когда (26) имеет положительное решение α=α0>0, второй вариант реализации настоящего изобретения предлагает в определении (22) использовать константу . Если оба решения уравнения (26) окажутся положительными, применено должно быть то, норма с которого меньше. В том случае, когда подобное решение не существует, активность декоррелятора устанавливается на ноль выбором с=0, так как сложные решения с приводят к заметным фазовым искажениям декоррелированных сигналов. может быть рассчитано двумя способами - или напрямую из сигнала , или путем объединения ковариационной матрицы объектов с данными понижающего микширования и аудиорендеринга как . Здесь первый метод даст в результате комплексное и поэтому в правой части (26) квадрат должен быть взят из вещественной части или величины соответственно. Тем не менее, даже комплекснозначное может быть использовано. Такое комплексное значение указывает на корреляцию со специфической фазой, что также может оказаться полезным в специфических приложениях.For those cases where (26) has a positive solution α = α 0 > 0, the second embodiment of the present invention proposes to use the constant in definition (22) . If both solutions of equation (26) turn out to be positive, then the one with which the norm is less should be applied. In the case when such a solution does not exist, the decorrelator activity is set to zero by choosing c = 0, since complex solutions with lead to noticeable phase distortions of the decorrelated signals. can be calculated in two ways - or directly from the signal , or by combining the covariance matrix of objects with downmix and audio rendering data as . Here, the first method will result in a comprehensive and therefore, in the right-hand side of (26), the square should be taken from the real part or the quantity respectively. However, even complex can be used. Such a complex value indicates a correlation with a specific phase, which may also be useful in specific applications.
Как видно из (25), особенность этого конструктивного исполнения в том, что оно может только снизить тесноту корреляции в отличие от корреляции исходного сигнала. Таким образом, .As can be seen from (25), the peculiarity of this design is that it can only reduce the correlation tightness, in contrast to the correlation of the original signal. In this way, .
В итоге получаем, что второй вариант реализации прослежен на фиг.12. Он начинается с расчета ковариационной матрицы DR на шаге 1101, который идентичен шагу 1101 на фиг.11. Затем применяется уравнение (22). А именно, появление матрицы Р предварительно задано, и для нахождения остается только весовой множитель с, одинаковый для обоих элементов Р. В частности, один столбец матрицы Р показывает, что во второй версии реализации используется одиночный декоррелятор. Более того, знаки элементов р показывают, что декоррелированный сигнал вводится в один канал - в левый канал исходного сигнала и вычитается из правого канала исходного сигнала. Следовательно, максимальная декорреляция достигается путем добавления декоррелированного сигнала к одному каналу и вычитания декоррелированного сигнала из другого канала. Для нахождения величины с предпринимаются шаги 1203, 1206, 1103, и 1208. В частности, как видно из уравнения (24), задаваемый корреляционный ряд вычисляется на шаге 1203. Эта величина - показатель межканальной взаимной корреляции между двумя сигналами звукового канала при стереоаудиорендеринге. На основании результата шага 1203 на базе уравнения (26) определяется весовой коэффициент а, как показано на шаге 1206. В дополнение к этому подбираются значения для ячеек матрицы Q и рассчитывается матрица ковариации, которая в данном случае является лишь скалярной величиной Rz, как показано на шаге 1103 и что видно из уравнения справа от рамки 1103 на фиг.12. Наконец, находится множитель с, как показано на шаге 1208. Уравнение (26) представляет собой квадратное уравнение, которое может дать два положительных решения для α. Как уже говорилось выше, в этом случае используется решение с наименьшей нормой с. Однако когда подобное положительное решение не достигается, с задается как 0.As a result, we obtain that the second embodiment is traced in FIG. It begins by calculating the covariance matrix DR in
Таким образом, во втором варианте реализации Р вычисляется как частный случай распределения одного декоррелятора на два канала, как показано с помощью матрицы Р в рамке 1201. В некоторых случаях решение отсутствует и декоррелятор просто отключается. Преимущество данного конструктивного решения состоит в том, что при нем не вносится синтезированный сигнал с положительной корреляцией. Это - благоприятный фактор, поскольку такой сигнал может восприниматься как локализованный фантомный источник, что является артефактом, снижающим акустическое качество преобразуемого аудиорендерингом выходного сигнала. Учитывая тот факт, что в этой версии не принимается во внимание уровень мощности, возможно рассогласование выходного сигнала, что означает превышение или занижение мощности в выходном сигнале по сравнению с сигналом понижающего микширования. В подобном случае в выбранном варианте технического исполнения для улучшения качества звука применяют добавочную компенсацию усиления.Thus, in the second embodiment, P is calculated as a special case of the distribution of one decorrelator into two channels, as shown by the matrix P in
В третьем варианте реализации настоящего изобретения матричный вычислитель 202 работает по следующему алгоритму. Отправной точкой является компенсация по усилению исходного сигналаIn a third embodiment of the present invention,
где, например, некомпенсированный исходный сигнал является результатом аппроксимации наименьших квадратов по матрице смешивания, данной в (15). Кроме того, С=GC0, где G является диагональной матрицей с ячейками g1 and g2. В этом случаеwhere, for example, the uncompensated source signal is the result of least squares approximation according to the mixing matrix given in (15). In addition, C = GC 0 , where G is a diagonal matrix with cells g 1 and g 2 . In this case
и матрица ошибокand error matrix
Здесь третьим вариантом осуществления изобретения предписывается выбрать коэффициенты (g1, g2) компенсации для минимизации взвешенной суммы рассогласований по мощностиHere, a third embodiment of the invention is required to select compensation factors (g 1 , g 2 ) to minimize the weighted sum of power mismatches
с учетом ограничений, выявленных в (13). Примерами выбора весов для (30) являются (w1, w2)=(1, 1) или (w1, w2)=(R, L). После этого результирующая матрица ошибок ΔR используется для ввода в вычисления матрицы смешения сигнала декоррелятора Р согласно последовательности уравнений (18)-(21). К преимуществам этого варианта осуществления можно отнести то, что когда сигнал ошибки идентичен микшированному с повышением исходному сигналу, объем декоррелированного сигнала, добавленного к конечному выходному сигналу, гораздо меньше объема, добавляемого к конечному выходному сигналу по первой версии реализации настоящего изобретения.taking into account the limitations identified in (13). Examples of the choice of weights for (30) are (w 1 , w 2 ) = (1, 1) or (w 1 , w 2 ) = (R, L). After that, the resulting error matrix ΔR is used to input the decorrelator signal P into the calculation of the mixing matrix of the signal according to the sequence of equations (18) - (21). The advantages of this embodiment include that when an error signal identical to the up-mixed source signal, the amount of decorrelated signal added to the final output signal is much less than the volume added to the final output signal according to the first version of the implementation of the present invention.
Подводя итог по третьему варианту конструктивного решения, данному на фиг.13, можно отметить, что за матрицу добавочного усиления G принимается матрица, показанная на фиг.4d. По смыслу уравнений (29) и (30) коэффициенты усиления g1 и g2 вычисляются с использованием выбранных w1, w2, на что указывает текст под уравнением (30) и с учетом ограничений по матрице ошибок, очевидных из уравнения (13). По выполнении шагов 1301, 1302 можно рассчитать ковариационную матрицу ΔR рассогласования сигнала, используя g1 and g2 согласно шагу 1303. Понятно, что эта матрица ковариации рассогласованного сигнала, рассчитанная на шаге 1303, отличается от матрицы ковариации ΔR, рассчитанной на шаге 1101 на фиг.11 и 12. Затем повторяются шаги 1102, 1103, 1104 согласно более раннему обсуждению в связи с первым вариантом реализации на фиг.11.Summing up the third embodiment, given in FIG. 13, it can be noted that the matrix shown in FIG. 4d is taken as the gain matrix G. According to the meaning of equations (29) and (30), the gains g 1 and g 2 are calculated using the selected w1, w2, as indicated by the text under equation (30) and taking into account the restrictions on the error matrix obvious from equation (13). By performing
Третий вариант конструктивного решения имеет то преимущество, что исходный сигнал не только согласуется по форме волны, но, кроме того, и компенсируется по усилению. Это помогает еще более сократить уровень декоррелированного сигнала, благодаря чему уменьшается и количество возникающих вместе с ним артефактов. Таким образом, в третьем варианте реализации делается попытка наиболее оптимальной комбинации компенсации усиления и дозированной декорреляции. Опять же поставленной целью является целостная передача структуры ковариации, включая уровни мощности каналов, и минимизировать уровень синтезированного сигнала, например, применяя уравнение минимизации (30).The third embodiment of the constructive solution has the advantage that the original signal is not only consistent in waveform, but also offset by gain. This helps to further reduce the level of decorrelated signal, which reduces the number of artifacts that occur with it. Thus, in the third embodiment, an attempt is made to the most optimal combination of gain compensation and dosed decorrelation. Again, the goal is to integrate the covariance structure, including channel power levels, and minimize the level of the synthesized signal, for example, using the minimization equation (30).
Рассмотрим далее четвертый вариант реализации изобретения. На шаге 1401 используется одиночный декоррелятор. Здесь речь идет о наименее сложном техническом решении, так как на практике применение одиночного декоррелятора наиболее целесообразно. Следующий шаг 1101, включающий расчет ковариационной матрицы ΔR, уже был отображен в виде блок-схемы и обсуждался в контексте шага 1101 для первого варианта реализации. Однако данные матрицы ковариации ΔR также могут быть вычислены в соответствии с шагом 1303 на фиг.13, где компенсация усиления сочетается с согласованием формы сигнала. Далее проверяют знак Δp, который является недиагональным элементом ковариационной матрицы ΔR. Если шаг 1402 определит, что этот знак отрицательный, будет продолжено выполнение шагов 1102, 1103, 1104 первого варианта реализации, где шаг 1103 особенно не сложен благодаря тому, что Rz - скалярная величина, поскольку декоррелятор только один.Let us further consider the fourth embodiment of the invention. At
Однако если определено, что знак Δp - положительный, ввод декоррелированного сигнала будет немедленно прекращен установкой элемента матрицы Р на ноль. Альтернативным действием может быть снижение уровня вводимого декоррелированного сигнала до значения выше нуля, но ниже той величины, которая была бы при отрицательном знаке. Однако рекомендуется, чтобы элементам матрицы Р не просто задавались меньшие значения, но чтобы они устанавливались на ноль, как показано в рамке 1404 на фиг.14. При этом в соответствии с фиг.4d для компенсации усиления определяются коэффициенты усиления g1, g2, как показано в рамке 1406. А именно, коэффициенты усиления рассчитываются так, чтобы элементы главной диагонали матрицы в правой стороне уравнения (29) равнялись нулю. Это означает, что матрица ковариации рассогласованного сигнала на своей главной диагонали имеет нулевые элементы. Таким образом, компенсация усиления достигается в том случае, если сигнал декоррелятора уменьшается или полностью отключается во избежание фантомных артефактов источника, которые могут возникнуть при вводе декоррелированного сигнала, который имеет специфические корреляционные свойства.However, if it is determined that the Δp sign is positive, the input of the decorrelated signal will be immediately stopped by setting the matrix element P to zero. An alternative action may be to reduce the level of the introduced decorrelated signal to a value above zero, but below the value that would have been with a negative sign. However, it is recommended that the elements of the matrix P are not just given smaller values, but that they are set to zero, as shown in
Итак, четвертый вариант реализации сочетает в себе возможности первого варианта реализации и использование одиночного декоррелятора, предусматривая при этом проверку качества декоррелированного сигнала таким образом, чтобы декоррелированный сигнал мог быть сокращен или прерван, если индикатор качества, например, такой как значение Δp в ковариационной матрице ΔR сигнала ошибки (добавленный сигнал), становится положительным. Выбор матрицы Q преддекоррелятора должен основываться на условиях чувственного восприятия, поскольку теория второго порядка, приведенная выше, нечувствительна к использованию этой специфической матрицы. Это подразумевает также то, что основания, на которых выбирают Q, никак не связаны с соображениями, по которым выбирают вариант конструктивного исполнения.So, the fourth embodiment combines the capabilities of the first embodiment and the use of a single decorrelator, while providing for checking the quality of the decorrelated signal so that the decorrelated signal can be reduced or interrupted if the quality indicator, for example, such as Δp in the covariance matrix ΔR The error signal (added signal) becomes positive. The choice of the predecorrelator matrix Q should be based on the conditions of sensory perception, since the second-order theory presented above is insensitive to the use of this specific matrix. This also implies that the grounds on which Q is chosen are in no way connected with the considerations for which the design option is chosen.
Первое основание, предписываемое настоящим изобретением, состоит в использовании для ввода во все декорреляторы монофонического сигнала микшированного с понижением (монодаунмикса) исходного стереосигнала. В виде элементов матрицы это может быть представлено следующим образом:The first basis prescribed by the present invention is to use for input into all decorrelators a monophonic down-mixed (monodaunmix) source stereo signal. In the form of matrix elements, this can be represented as follows:
где - ячейки матрицы Q, a - ячейки матрицы С0.Where are the cells of the matrix Q, a - cells of the matrix With 0 .
Второе основание, предписываемое настоящим изобретением, состоит в том, что матрица Q преддекоррелятора должна быть производной только от одной матрицы D понижающего микширования. Взятие производной подразумевает здесь, что все объекты имеют удельную мощность и некоррелированы. Это допущение распространяется и на формирование матрицы повышающего микширования, начиная от исходных объектов до прогнозирования ошибок по каждому из них. Затем квадрат преддекорреляционных весов выбирается в пропорции к суммарной энергии ошибок прогнозирования объектов по всем каналам понижающего микширования. В конечном итоге те же самые веса используются для всех декорреляторов. Подробнее, эти веса получают, формируя сначала матрицу N × N,The second reason prescribed by the present invention is that the predecorrelator matrix Q should be derived from only one downmix matrix D. Taking the derivative implies here that all objects have specific power and are uncorrelated. This assumption also extends to the formation of the upmix matrix, starting from the source objects to predicting errors for each of them. Then, the square of the pre-correlation weights is selected in proportion to the total energy of the prediction errors of objects for all channels of the downmix. Ultimately, the same weights are used for all decorrelators. In more detail, these weights are obtained by first forming the N × N matrix,
и затем выводят матрицу W0 ожидаемой энергии ошибок прогнозирования объектов путем приведения всех недиагональных значений (32) к нулю. Обозначив диагональные значения DW0D* через t1, t2, которые выражают суммарные доли энергии ошибок объектов, проходящие по каждому каналу понижающего микширования, получаем конечный набор элементов матрицы преддекоррелятора, используяand then, the matrix W 0 of the expected energy of the prediction errors of the objects is derived by reducing all off-diagonal values (32) to zero. Denoting the diagonal values of DW 0 D * by t 1 , t 2 , which express the total fractions of the energy of the errors of the objects passing through each channel of the downmix, we obtain a finite set of elements of the matrix of the precorrelator using
В зависимости от специфики конструкции и назначения применяться могут любые виды декорреляторов, такие как ревербераторы и другие. Тем не менее, предпочтительный вариант осуществления предполагает использование энергосберегающих декорреляторов. Это означает, что мощность выходного сигнала декоррелятора должна быть равной мощности входного сигнала декоррелятора. Тем не менее, отклонения, возникающие при использовании неэкономичного декоррелятора, также могут быть компенсированы, например, учтены при расчете матрицы Р.Depending on the specific design and purpose, any kind of decorrelator, such as reverb and others, can be used. However, a preferred embodiment involves the use of energy-saving decorrelators. This means that the output power of the decorrelator should be equal to the input power of the decorrelator. However, deviations that occur when using an uneconomical decorrelator can also be compensated, for example, taken into account when calculating the matrix P.
Как утверждалось ранее, в предпочтительных вариантах осуществления следует избегать введения синтезированного сигнала с положительной корреляцией, поскольку такой сигнал может восприниматься как локализованный синтезированный фантомный источник. Во втором варианте реализации это однозначно следует избегать вследствие специфики структуры матрицы Р, как показано в рамке 1201. Тем не менее, эту проблему явно удалось обойти в четвертом варианте конструктивного решения с помощью процедуры проверки на шаге 1402. Квалифицированным специалистам доступны также другие способы определения качества декоррелированного сигнала и в особенности корреляционных характеристик во избежание проявления подобных артефактов фантомного источника, при этом такие способы могут быть применены в форме прекращения подачи декоррелированного сигнала техническими средствами, или в форме снижения мощности декоррелированного сигнала и усиления исходного сигнала для получения компенсированного сигнала на выходе.As stated previously, in preferred embodiments, the introduction of a positive-correlated synthesized signal should be avoided since such a signal can be perceived as a localized synthesized phantom source. In the second embodiment, this should definitely be avoided due to the specific structure of the matrix P, as shown in
Несмотря на то, что все матрицы Е, D, А описаны как комплексные матрицы, они могут также быть действительными. Тем не менее, ценность данного изобретения состоит именно в том, что оно рассматривает комплексные матрицы Е, D, А, фактически содержащие комплексные коэффициенты с мнимой частью, отличной от нуля.Although all matrices E, D, A are described as complex matrices, they can also be real. However, the value of this invention lies in the fact that it considers complex matrices E, D, A, actually containing complex coefficients with an imaginary part other than zero.
В дополнение к этому, матрица D и матрица А часто будут иметь намного более низкую спектральную и временную разрешающую способность по сравнению с матрицей Е, которая имеет самое высокое среди всех матриц разрешение по времени и частоте. В частности, матрица параметров аудиорендеринга и матрица понижающего микширования не будут зависеть от частоты, но могут зависеть от времени. Матрицы понижающего микширования это может коснуться при выполнении определенной специальной оптимизированной операции понижающего микширования. В отношении матрицы параметров аудиорендеринга это может проявиться в связи с перемещающимися аудиообъектами, которые время от времени, возможно, будут менять свое положение между левым и правым каналами. Описанные ниже конструктивные решения даны как иллюстрация основных принципов настоящего изобретения. Подразумевается, что для специалистов в данной области возможность внесения изменений и усовершенствований в компоновку и элементы описанной конструкции очевидна. В силу этого, представленные описания и пояснения вариантов реализации изобретения ограничиваются только рамками патентных требований, а не конкретными деталями. В зависимости от конкретных требований к реализации относящихся к изобретению методов эти методы могут быть осуществлены как в виде аппаратных средств, так и в виде программного обеспечения. Изобретение может быть реализовано с использованием цифрового накопителя данных, в частности диска, DVD-диска или CD-диска, содержащего электронно считываемые управляющие сигналы, совместимого с программируемыми компьютерными системами с целью осуществления методов, имеющих отношение к изобретению. Таким образом, в целом настоящее изобретение представляет собой компьютерный программный продукт с хранящимся на машиночитаемом носителе кодом программы, с помощью которого практически выполняются изобретенные методы при условии исполнения компьютерного программного продукта на компьютере. Другими словами, изобретенные методы, следовательно, являются компьютерной программой, имеющей программный код, необходимый для осуществления, по меньшей мере, одного из изобретенных методов при условии, что компьютерная программа будет выполняться на компьютере.In addition, matrix D and matrix A will often have a much lower spectral and temporal resolution than matrix E, which has the highest time and frequency resolution among all matrices. In particular, the matrix of audio rendering parameters and the downmix matrix will not depend on the frequency, but may depend on the time. This may affect the downmix matrices when performing certain specific optimized downmix operations. With regard to the matrix of audio rendering parameters, this may occur in connection with moving audio objects, which from time to time, possibly, will change their position between the left and right channels. The structural solutions described below are given as an illustration of the basic principles of the present invention. It is understood that for specialists in this field, the possibility of making changes and improvements to the layout and elements of the described construction is obvious. Therefore, the descriptions and explanations provided for the embodiments of the invention are limited only by the scope of patent requirements, and not by specific details. Depending on the specific requirements for the implementation of the methods related to the invention, these methods can be implemented both in hardware and in software. The invention can be implemented using a digital data storage device, in particular a disk, DVD-ROM or CD-ROM containing electronically readable control signals, compatible with programmable computer systems with the aim of implementing methods related to the invention. Thus, in general, the present invention is a computer program product with program code stored on a machine-readable medium, by which the inventive methods are practically executed provided that the computer program product is executed on a computer. In other words, the invented methods are therefore a computer program having the program code necessary to implement at least one of the invented methods, provided that the computer program is executed on a computer.
Claims (28)
C0=AED*(DED*)-1,
где С0 - матрица смешения, где А - матрица параметров аудиорендеринга, задающая характеристики аудиорендеринга (360), где D - матрица понижающего микширования, задающая параметры понижающего микширования (354), где * обозначает операцию комплексно сопряженного транспонирования, и где Е - ковариационная матрица аудиообъектов, задающая параметры аудиообъектов (362).3. The device according to claim 1, in which the mixing unit (364) is designed to calculate the mixing matrix C 0 for mixing the down-mix signal of the first audio object and the down-mix signal of the second audio object based on the equation:
C 0 = AED * (DED *) -1 ,
where C 0 is the mixing matrix, where A is the matrix of audio rendering parameters defining the characteristics of audio rendering (360), where D is the down mixing matrix defining the parameters of down mixing (354), where * denotes the complex conjugate transpose operation, and where E is the covariance matrix audio objects specifying parameters of audio objects (362).
R=AEA*,
где R - ковариационная матрица преобразованного аудиорендерингом выходного сигнала (350), полученного приложением к аудиообъектам заданных характеристик аудиорендеринга, где А - матрица параметров аудиорендеринга, задающая характеристики звукопередачи (360), и где Е - ковариационная матрица аудиообъекта, задающая параметры аудиообъекта (362).4. The device according to claim 1, in which the information unit (364) is designed to calculate weighting factors based on the equation:
R = AEA *,
where R is the covariance matrix of the output signal converted by audio rendering (350), obtained by applying the specified characteristics of audio rendering to audio objects, where A is the matrix of audio rendering parameters that defines the characteristics of sound transmission (360), and where E is the covariance matrix of the audio object that defines the parameters of the audio object (362).
R0=C0DED*C0*,
где R0 - матрица ковариации результата операции смешения (401) сигнала понижающего микширования.5. The device according to claim 3, in which the information unit (364) is designed to calculate weighting coefficients based on the equation:
R 0 = C 0 DED * C 0 *,
where R 0 is the covariance matrix of the result of the mixing operation (401) of the down-mix signal.
RZ=QDED*Q*,
где RZ - матрица ковариации декоррелированного сигнала (358), Q - матрица микширования сигнала преддекорреляции, D - матрица понижающего микширования, задающая параметры понижающего микширования (354), Е - ковариационная матрица аудиообъекта, содержащая параметрическую информацию о аудиообъекте (362).14. The device according to claim 11, in which the information unit provides for the calculation of weighting coefficients based on the covariance matrix of the decorrelated signal, which is calculated by the equation:
R Z = QDED * Q *,
where R Z is the decorrelation signal covariance matrix (358), Q is the pre-correlation signal mixing matrix, D is the down-mixing matrix that sets the down-mixing parameters (354), E is the covariance matrix of the audio object containing parametric information about the audio object (362).
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US91426707P | 2007-04-26 | 2007-04-26 | |
US60/914,267 | 2007-04-26 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2009141391A RU2009141391A (en) | 2011-06-10 |
RU2439719C2 true RU2439719C2 (en) | 2012-01-10 |
Family
ID=39683764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2009141391/08A RU2439719C2 (en) | 2007-04-26 | 2008-04-23 | Device and method to synthesise output signal |
Country Status (16)
Country | Link |
---|---|
US (1) | US8515759B2 (en) |
EP (1) | EP2137725B1 (en) |
JP (1) | JP5133401B2 (en) |
KR (2) | KR101312470B1 (en) |
CN (1) | CN101809654B (en) |
AU (1) | AU2008243406B2 (en) |
BR (1) | BRPI0809760B1 (en) |
CA (1) | CA2684975C (en) |
ES (1) | ES2452348T3 (en) |
HK (1) | HK1142712A1 (en) |
MX (1) | MX2009011405A (en) |
MY (1) | MY148040A (en) |
PL (1) | PL2137725T3 (en) |
RU (1) | RU2439719C2 (en) |
TW (1) | TWI372385B (en) |
WO (1) | WO2008131903A1 (en) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9699584B2 (en) | 2013-07-22 | 2017-07-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for realizing a SAOC downmix of 3D audio content |
US9743210B2 (en) | 2013-07-22 | 2017-08-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for efficient object metadata coding |
RU2641463C2 (en) * | 2013-10-21 | 2018-01-17 | Долби Интернэшнл Аб | Decorrelator structure for parametric recovery of sound signals |
RU2646320C1 (en) * | 2014-04-11 | 2018-03-02 | Самсунг Электроникс Ко., Лтд. | Method and device for rendering sound signal and computer-readable information media |
RU2656986C1 (en) * | 2014-06-26 | 2018-06-07 | Самсунг Электроникс Ко., Лтд. | Method and device for acoustic signal rendering and machine-readable recording media |
US10021501B2 (en) | 2013-09-27 | 2018-07-10 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for generating a downmix signal |
RU2661775C2 (en) * | 2013-02-08 | 2018-07-19 | Квэлкомм Инкорпорейтед | Transmission of audio rendering signal in bitstream |
RU2665917C2 (en) * | 2013-07-22 | 2018-09-04 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation rendered audio signals |
RU2666316C2 (en) * | 2014-07-30 | 2018-09-06 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Device and method of improving audio, system of sound improvement |
US10249311B2 (en) | 2013-07-22 | 2019-04-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for audio encoding and decoding for audio channels and audio objects |
RU2695508C1 (en) * | 2012-12-04 | 2019-07-23 | Самсунг Электроникс Ко., Лтд. | Audio providing device and audio providing method |
US10448185B2 (en) | 2013-07-22 | 2019-10-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals |
RU2704266C2 (en) * | 2014-10-31 | 2019-10-25 | Долби Интернешнл Аб | Parametric coding and decoding of multichannel audio signals |
RU2771919C1 (en) * | 2018-09-12 | 2022-05-13 | Шэньчжэнь Шокз Ко., Лтд. | Signal processing apparatus with multiple acoustic-electrical converters |
US11665482B2 (en) | 2011-12-23 | 2023-05-30 | Shenzhen Shokz Co., Ltd. | Bone conduction speaker and compound vibration device thereof |
Families Citing this family (88)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX2007000391A (en) * | 2004-07-14 | 2007-06-25 | Koninkl Philips Electronics Nv | Audio channel conversion. |
KR100957342B1 (en) * | 2006-09-06 | 2010-05-12 | 삼성전자주식회사 | System and method for relay in a communication system |
CA2645863C (en) * | 2006-11-24 | 2013-01-08 | Lg Electronics Inc. | Method for encoding and decoding object-based audio signal and apparatus thereof |
AU2008215232B2 (en) | 2007-02-14 | 2010-02-25 | Lg Electronics Inc. | Methods and apparatuses for encoding and decoding object-based audio signals |
US8543231B2 (en) * | 2007-12-09 | 2013-09-24 | Lg Electronics Inc. | Method and an apparatus for processing a signal |
KR101461685B1 (en) * | 2008-03-31 | 2014-11-19 | 한국전자통신연구원 | Method and apparatus for generating side information bitstream of multi object audio signal |
KR101629862B1 (en) * | 2008-05-23 | 2016-06-24 | 코닌클리케 필립스 엔.브이. | A parametric stereo upmix apparatus, a parametric stereo decoder, a parametric stereo downmix apparatus, a parametric stereo encoder |
EP2146522A1 (en) * | 2008-07-17 | 2010-01-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for generating audio output signals using object based metadata |
EP2175670A1 (en) * | 2008-10-07 | 2010-04-14 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Binaural rendering of a multi-channel audio signal |
WO2010087627A2 (en) * | 2009-01-28 | 2010-08-05 | Lg Electronics Inc. | A method and an apparatus for decoding an audio signal |
WO2010087631A2 (en) * | 2009-01-28 | 2010-08-05 | Lg Electronics Inc. | A method and an apparatus for decoding an audio signal |
EP2214162A1 (en) * | 2009-01-28 | 2010-08-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Upmixer, method and computer program for upmixing a downmix audio signal |
CA2949616C (en) * | 2009-03-17 | 2019-11-26 | Dolby International Ab | Advanced stereo coding based on a combination of adaptively selectable left/right or mid/side stereo coding and of parametric stereo coding |
KR101206177B1 (en) | 2009-03-31 | 2012-11-28 | 한국전자통신연구원 | Apparatus and method for converting audio signal |
GB2470059A (en) | 2009-05-08 | 2010-11-10 | Nokia Corp | Multi-channel audio processing using an inter-channel prediction model to form an inter-channel parameter |
US20100324915A1 (en) * | 2009-06-23 | 2010-12-23 | Electronic And Telecommunications Research Institute | Encoding and decoding apparatuses for high quality multi-channel audio codec |
ES2524428T3 (en) | 2009-06-24 | 2014-12-09 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal decoder, procedure for decoding an audio signal and computer program using cascading stages of audio object processing |
EP3093843B1 (en) * | 2009-09-29 | 2020-12-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Mpeg-saoc audio signal decoder, mpeg-saoc audio signal encoder, method for providing an upmix signal representation using mpeg-saoc decoding, method for providing a downmix signal representation using mpeg-saoc decoding, and computer program using a time/frequency-dependent common inter-object-correlation parameter value |
JP5758902B2 (en) | 2009-10-16 | 2015-08-05 | フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ | Apparatus, method, and computer for providing one or more adjusted parameters using an average value for providing a downmix signal representation and an upmix signal representation based on parametric side information related to the downmix signal representation program |
RU2605677C2 (en) | 2009-10-20 | 2016-12-27 | Франхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен | Audio encoder, audio decoder, method of encoding audio information, method of decoding audio information and computer program using iterative reduction of size of interval |
US8948687B2 (en) * | 2009-12-11 | 2015-02-03 | Andrew Llc | System and method for determining and controlling gain margin in an RF repeater |
CN102656627B (en) | 2009-12-16 | 2014-04-30 | 诺基亚公司 | Multi-channel audio processing method and device |
CN102696070B (en) * | 2010-01-06 | 2015-05-20 | Lg电子株式会社 | An apparatus for processing an audio signal and method thereof |
PL2524372T3 (en) * | 2010-01-12 | 2015-08-31 | Fraunhofer Ges Forschung | Audio encoder, audio decoder, method for encoding and decoding an audio information, and computer program obtaining a context sub-region value on the basis of a norm of previously decoded spectral values |
TWI444989B (en) | 2010-01-22 | 2014-07-11 | Dolby Lab Licensing Corp | Using multichannel decorrelation for improved multichannel upmixing |
US10158958B2 (en) | 2010-03-23 | 2018-12-18 | Dolby Laboratories Licensing Corporation | Techniques for localized perceptual audio |
CN113490135B (en) | 2010-03-23 | 2023-05-30 | 杜比实验室特许公司 | Audio reproducing method and sound reproducing system |
BR122019026166B1 (en) * | 2010-04-09 | 2021-01-05 | Dolby International Ab | decoder system, apparatus and method for emitting a stereo audio signal having a left channel and a right and a half channel readable by a non-transitory computer |
CN103189916B (en) * | 2010-11-10 | 2015-11-25 | 皇家飞利浦电子股份有限公司 | The method and apparatus of estimated signal pattern |
CN102802112B (en) * | 2011-05-24 | 2014-08-13 | 鸿富锦精密工业(深圳)有限公司 | Electronic device with audio file format conversion function |
EP2560161A1 (en) | 2011-08-17 | 2013-02-20 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Optimal mixing matrices and usage of decorrelators in spatial audio processing |
CA2971002A1 (en) | 2011-09-18 | 2013-03-21 | Touchtunes Music Corporation | Digital jukebox device with karaoke and/or photo booth features, and associated methods |
WO2020051786A1 (en) | 2018-09-12 | 2020-03-19 | Shenzhen Voxtech Co., Ltd. | Signal processing device having multiple acoustic-electric transducers |
WO2013120510A1 (en) * | 2012-02-14 | 2013-08-22 | Huawei Technologies Co., Ltd. | A method and apparatus for performing an adaptive down- and up-mixing of a multi-channel audio signal |
CN104160442B (en) * | 2012-02-24 | 2016-10-12 | 杜比国际公司 | Audio processing |
US9190065B2 (en) | 2012-07-15 | 2015-11-17 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for three-dimensional audio coding using basis function coefficients |
US9479886B2 (en) | 2012-07-20 | 2016-10-25 | Qualcomm Incorporated | Scalable downmix design with feedback for object-based surround codec |
US9761229B2 (en) | 2012-07-20 | 2017-09-12 | Qualcomm Incorporated | Systems, methods, apparatus, and computer-readable media for audio object clustering |
BR112015002367B1 (en) | 2012-08-03 | 2021-12-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung Ev | DECODER AND METHOD FOR MULTI-INSTANCE SPATIAL AUDIO OBJECT ENCODING USING A PARAMETRIC CONCEPT FOR MULTI-CHANNEL DOWNMIX/UPMIX BOXES |
PT2880654T (en) * | 2012-08-03 | 2017-12-07 | Fraunhofer Ges Forschung | Decoder and method for a generalized spatial-audio-object-coding parametric concept for multichannel downmix/upmix cases |
US9489954B2 (en) * | 2012-08-07 | 2016-11-08 | Dolby Laboratories Licensing Corporation | Encoding and rendering of object based audio indicative of game audio content |
RU2602346C2 (en) * | 2012-08-31 | 2016-11-20 | Долби Лэборетериз Лайсенсинг Корпорейшн | Rendering of reflected sound for object-oriented audio information |
US9396732B2 (en) * | 2012-10-18 | 2016-07-19 | Google Inc. | Hierarchical deccorelation of multichannel audio |
KR102213895B1 (en) | 2013-01-15 | 2021-02-08 | 한국전자통신연구원 | Encoding/decoding apparatus and method for controlling multichannel signals |
WO2014112793A1 (en) | 2013-01-15 | 2014-07-24 | 한국전자통신연구원 | Encoding/decoding apparatus for processing channel signal and method therefor |
TWI618050B (en) * | 2013-02-14 | 2018-03-11 | 杜比實驗室特許公司 | Method and apparatus for signal decorrelation in an audio processing system |
EP2956935B1 (en) | 2013-02-14 | 2017-01-04 | Dolby Laboratories Licensing Corporation | Controlling the inter-channel coherence of upmixed audio signals |
TWI618051B (en) | 2013-02-14 | 2018-03-11 | 杜比實驗室特許公司 | Audio signal processing method and apparatus for audio signal enhancement using estimated spatial parameters |
WO2014126688A1 (en) | 2013-02-14 | 2014-08-21 | Dolby Laboratories Licensing Corporation | Methods for audio signal transient detection and decorrelation control |
BR122021009025B1 (en) * | 2013-04-05 | 2022-08-30 | Dolby International Ab | DECODING METHOD TO DECODE TWO AUDIO SIGNALS AND DECODER TO DECODE TWO AUDIO SIGNALS |
CN108806704B (en) * | 2013-04-19 | 2023-06-06 | 韩国电子通信研究院 | Multi-channel audio signal processing device and method |
US10075795B2 (en) | 2013-04-19 | 2018-09-11 | Electronics And Telecommunications Research Institute | Apparatus and method for processing multi-channel audio signal |
BR122020017152B1 (en) | 2013-05-24 | 2022-07-26 | Dolby International Ab | METHOD AND APPARATUS TO DECODE AN AUDIO SCENE REPRESENTED BY N AUDIO SIGNALS AND READable MEDIUM ON A NON-TRANSITORY COMPUTER |
EP3005353B1 (en) * | 2013-05-24 | 2017-08-16 | Dolby International AB | Efficient coding of audio scenes comprising audio objects |
WO2014187987A1 (en) | 2013-05-24 | 2014-11-27 | Dolby International Ab | Methods for audio encoding and decoding, corresponding computer-readable media and corresponding audio encoder and decoder |
EP2973551B1 (en) | 2013-05-24 | 2017-05-03 | Dolby International AB | Reconstruction of audio scenes from a downmix |
CN105378826B (en) * | 2013-05-31 | 2019-06-11 | 诺基亚技术有限公司 | Audio scene device |
EP2830336A3 (en) | 2013-07-22 | 2015-03-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Renderer controlled spatial upmix |
US9319819B2 (en) | 2013-07-25 | 2016-04-19 | Etri | Binaural rendering method and apparatus for decoding multi channel audio |
KR102243395B1 (en) * | 2013-09-05 | 2021-04-22 | 한국전자통신연구원 | Apparatus for encoding audio signal, apparatus for decoding audio signal, and apparatus for replaying audio signal |
US9781539B2 (en) * | 2013-10-09 | 2017-10-03 | Sony Corporation | Encoding device and method, decoding device and method, and program |
KR20230011480A (en) | 2013-10-21 | 2023-01-20 | 돌비 인터네셔널 에이비 | Parametric reconstruction of audio signals |
EP3074970B1 (en) * | 2013-10-21 | 2018-02-21 | Dolby International AB | Audio encoder and decoder |
EP2866227A1 (en) * | 2013-10-22 | 2015-04-29 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder |
US9888333B2 (en) * | 2013-11-11 | 2018-02-06 | Google Technology Holdings LLC | Three-dimensional audio rendering techniques |
EP2879408A1 (en) | 2013-11-28 | 2015-06-03 | Thomson Licensing | Method and apparatus for higher order ambisonics encoding and decoding using singular value decomposition |
KR102310240B1 (en) * | 2014-05-09 | 2021-10-08 | 한국전자통신연구원 | Apparatus and method for transforming audio signal using location of the user and the speaker |
US9774974B2 (en) * | 2014-09-24 | 2017-09-26 | Electronics And Telecommunications Research Institute | Audio metadata providing apparatus and method, and multichannel audio data playback apparatus and method to support dynamic format conversion |
MY179448A (en) | 2014-10-02 | 2020-11-06 | Dolby Int Ab | Decoding method and decoder for dialog enhancement |
TWI587286B (en) * | 2014-10-31 | 2017-06-11 | 杜比國際公司 | Method and system for decoding and encoding of audio signals, computer program product, and computer-readable medium |
KR102088337B1 (en) * | 2015-02-02 | 2020-03-13 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | Apparatus and method for processing encoded audio signal |
CN105989845B (en) | 2015-02-25 | 2020-12-08 | 杜比实验室特许公司 | Video content assisted audio object extraction |
CA3005113C (en) | 2015-11-17 | 2020-07-21 | Dolby Laboratories Licensing Corporation | Headtracking for parametric binaural output system and method |
ES2779603T3 (en) * | 2015-11-17 | 2020-08-18 | Dolby Laboratories Licensing Corp | Parametric binaural output system and method |
CN110447243B (en) | 2017-03-06 | 2021-06-01 | 杜比国际公司 | Method, decoder system, and medium for rendering audio output based on audio data stream |
WO2018162472A1 (en) * | 2017-03-06 | 2018-09-13 | Dolby International Ab | Integrated reconstruction and rendering of audio signals |
JP6874842B2 (en) * | 2017-07-03 | 2021-05-19 | 日本電気株式会社 | Signal processing equipment, signal processing methods and programs |
EP3588988B1 (en) * | 2018-06-26 | 2021-02-17 | Nokia Technologies Oy | Selective presentation of ambient audio content for spatial audio presentation |
RU183846U1 (en) * | 2018-07-17 | 2018-10-05 | Федеральное государственное бюджетное образовательное учреждение высшего образования "МИРЭА - Российский технологический университет" | MATRIX SIGNAL PROCESSOR FOR KALMAN FILTRATION |
GB201909133D0 (en) * | 2019-06-25 | 2019-08-07 | Nokia Technologies Oy | Spatial audio representation and rendering |
JP7380837B2 (en) * | 2020-03-09 | 2023-11-15 | 日本電信電話株式会社 | Sound signal encoding method, sound signal decoding method, sound signal encoding device, sound signal decoding device, program and recording medium |
JP7396459B2 (en) * | 2020-03-09 | 2023-12-12 | 日本電信電話株式会社 | Sound signal downmix method, sound signal encoding method, sound signal downmix device, sound signal encoding device, program and recording medium |
WO2021181746A1 (en) * | 2020-03-09 | 2021-09-16 | 日本電信電話株式会社 | Sound signal downmixing method, sound signal coding method, sound signal downmixing device, sound signal coding device, program, and recording medium |
EP4120251A4 (en) * | 2020-03-09 | 2023-11-15 | Nippon Telegraph And Telephone Corporation | Sound signal encoding method, sound signal decoding method, sound signal encoding device, sound signal decoding device, program, and recording medium |
GB2595475A (en) * | 2020-05-27 | 2021-12-01 | Nokia Technologies Oy | Spatial audio representation and rendering |
EP4229630A1 (en) * | 2020-10-13 | 2023-08-23 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for encoding a plurality of audio objects using direction information during a downmixing or apparatus and method for decoding using an optimized covariance synthesis |
JP7517458B2 (en) | 2020-11-05 | 2024-07-17 | 日本電信電話株式会社 | Audio signal high-frequency compensation method, audio signal post-processing method, audio signal decoding method, their devices, programs, and recording media |
US20230395081A1 (en) | 2020-11-05 | 2023-12-07 | Nippon Telegraph And Telephone Corporation | Sound signal high frequency compensation method, sound signal post processing method, sound signal decode method, apparatus thereof, program, and storage medium |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2343347B (en) | 1998-06-20 | 2002-12-31 | Central Research Lab Ltd | A method of synthesising an audio signal |
KR100923297B1 (en) * | 2002-12-14 | 2009-10-23 | 삼성전자주식회사 | Method for encoding stereo audio, apparatus thereof, method for decoding audio stream and apparatus thereof |
RU2315371C2 (en) | 2002-12-28 | 2008-01-20 | Самсунг Электроникс Ко., Лтд. | Method and device for mixing an audio stream and information carrier |
PL1618763T3 (en) | 2003-04-17 | 2007-07-31 | Koninl Philips Electronics Nv | Audio signal synthesis |
KR20050060789A (en) * | 2003-12-17 | 2005-06-22 | 삼성전자주식회사 | Apparatus and method for controlling virtual sound |
US8983834B2 (en) | 2004-03-01 | 2015-03-17 | Dolby Laboratories Licensing Corporation | Multichannel audio coding |
SE0402652D0 (en) * | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Methods for improved performance of prediction based multi-channel reconstruction |
SE0402649D0 (en) | 2004-11-02 | 2004-11-02 | Coding Tech Ab | Advanced methods of creating orthogonal signals |
EP1691348A1 (en) | 2005-02-14 | 2006-08-16 | Ecole Polytechnique Federale De Lausanne | Parametric joint-coding of audio sources |
TWI313857B (en) | 2005-04-12 | 2009-08-21 | Coding Tech Ab | Apparatus for generating a parameter representation of a multi-channel signal and method for representing multi-channel audio signals |
EP1829424B1 (en) * | 2005-04-15 | 2009-01-21 | Dolby Sweden AB | Temporal envelope shaping of decorrelated signals |
-
2008
- 2008-04-23 RU RU2009141391/08A patent/RU2439719C2/en active
- 2008-04-23 US US12/597,740 patent/US8515759B2/en active Active
- 2008-04-23 ES ES08749081.9T patent/ES2452348T3/en active Active
- 2008-04-23 CA CA2684975A patent/CA2684975C/en active Active
- 2008-04-23 JP JP2010504535A patent/JP5133401B2/en active Active
- 2008-04-23 BR BRPI0809760-7A patent/BRPI0809760B1/en active IP Right Grant
- 2008-04-23 KR KR1020127009830A patent/KR101312470B1/en active IP Right Grant
- 2008-04-23 EP EP08749081.9A patent/EP2137725B1/en active Active
- 2008-04-23 WO PCT/EP2008/003282 patent/WO2008131903A1/en active Application Filing
- 2008-04-23 MX MX2009011405A patent/MX2009011405A/en active IP Right Grant
- 2008-04-23 PL PL08749081T patent/PL2137725T3/en unknown
- 2008-04-23 MY MYPI20094461A patent/MY148040A/en unknown
- 2008-04-23 AU AU2008243406A patent/AU2008243406B2/en active Active
- 2008-04-23 KR KR1020097022395A patent/KR101175592B1/en active IP Right Grant
- 2008-04-23 CN CN2008800135410A patent/CN101809654B/en active Active
- 2008-04-24 TW TW097115047A patent/TWI372385B/en active
-
2010
- 2010-06-25 HK HK10106292.0A patent/HK1142712A1/en unknown
Non-Patent Citations (1)
Title |
---|
HERRE J. и др., The Reference Model Architecture for MPEG Spatial Audio Coding, Audio Engineering Society Convention Paper 6447, 28.05.2005, c.1-13, разделы 4.1, 4.4, 4.5.1, 4.6. * |
Cited By (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11665482B2 (en) | 2011-12-23 | 2023-05-30 | Shenzhen Shokz Co., Ltd. | Bone conduction speaker and compound vibration device thereof |
RU2695508C1 (en) * | 2012-12-04 | 2019-07-23 | Самсунг Электроникс Ко., Лтд. | Audio providing device and audio providing method |
RU2661775C2 (en) * | 2013-02-08 | 2018-07-19 | Квэлкомм Инкорпорейтед | Transmission of audio rendering signal in bitstream |
US10178489B2 (en) | 2013-02-08 | 2019-01-08 | Qualcomm Incorporated | Signaling audio rendering information in a bitstream |
US11252523B2 (en) | 2013-07-22 | 2022-02-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals |
US9788136B2 (en) | 2013-07-22 | 2017-10-10 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
RU2660638C2 (en) * | 2013-07-22 | 2018-07-06 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Device and method for of the audio objects improved spatial encoding |
US11115770B2 (en) | 2013-07-22 | 2021-09-07 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel decorrelator, multi-channel audio decoder, multi channel audio encoder, methods and computer program using a premix of decorrelator input signals |
US11227616B2 (en) | 2013-07-22 | 2022-01-18 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for audio encoding and decoding for audio channels and audio objects |
US11381925B2 (en) | 2013-07-22 | 2022-07-05 | Fraunhofer-Gesellschaft zur Foerderang der angewandten Forschung e.V. | Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals |
RU2665917C2 (en) * | 2013-07-22 | 2018-09-04 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation rendered audio signals |
US11910176B2 (en) | 2013-07-22 | 2024-02-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
US11330386B2 (en) | 2013-07-22 | 2022-05-10 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for realizing a SAOC downmix of 3D audio content |
US10715943B2 (en) | 2013-07-22 | 2020-07-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for efficient object metadata coding |
US11463831B2 (en) | 2013-07-22 | 2022-10-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for efficient object metadata coding |
US10249311B2 (en) | 2013-07-22 | 2019-04-02 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for audio encoding and decoding for audio channels and audio objects |
US10277998B2 (en) | 2013-07-22 | 2019-04-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
US11984131B2 (en) | 2013-07-22 | 2024-05-14 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for audio encoding and decoding for audio channels and audio objects |
US11337019B2 (en) | 2013-07-22 | 2022-05-17 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
US10431227B2 (en) | 2013-07-22 | 2019-10-01 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals |
US10448185B2 (en) | 2013-07-22 | 2019-10-15 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals |
US9743210B2 (en) | 2013-07-22 | 2017-08-22 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for efficient object metadata coding |
US9699584B2 (en) | 2013-07-22 | 2017-07-04 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for realizing a SAOC downmix of 3D audio content |
US10659900B2 (en) | 2013-07-22 | 2020-05-19 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for low delay object metadata coding |
US11240619B2 (en) | 2013-07-22 | 2022-02-01 | Fraunhofer-Gesellschaft zur Foerderang der angewandten Forschung e.V. | Multi-channel decorrelator, multi-channel audio decoder, multi-channel audio encoder, methods and computer program using a premix of decorrelator input signals |
US10701504B2 (en) | 2013-07-22 | 2020-06-30 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Apparatus and method for realizing a SAOC downmix of 3D audio content |
RU2661310C2 (en) * | 2013-09-27 | 2018-07-13 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Concept of generation of reducing mixing signal |
US10021501B2 (en) | 2013-09-27 | 2018-07-10 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Concept for generating a downmix signal |
RU2641463C2 (en) * | 2013-10-21 | 2018-01-17 | Долби Интернэшнл Аб | Decorrelator structure for parametric recovery of sound signals |
RU2698775C1 (en) * | 2014-04-11 | 2019-08-29 | Самсунг Электроникс Ко., Лтд. | Method and device for rendering an audio signal and a computer-readable medium |
US10873822B2 (en) | 2014-04-11 | 2020-12-22 | Samsung Electronics Co., Ltd. | Method and apparatus for rendering sound signal, and computer-readable recording medium |
US10674299B2 (en) | 2014-04-11 | 2020-06-02 | Samsung Electronics Co., Ltd. | Method and apparatus for rendering sound signal, and computer-readable recording medium |
US11245998B2 (en) | 2014-04-11 | 2022-02-08 | Samsung Electronics Co.. Ltd. | Method and apparatus for rendering sound signal, and computer-readable recording medium |
US11785407B2 (en) | 2014-04-11 | 2023-10-10 | Samsung Electronics Co., Ltd. | Method and apparatus for rendering sound signal, and computer-readable recording medium |
RU2676415C1 (en) * | 2014-04-11 | 2018-12-28 | Самсунг Электроникс Ко., Лтд. | Method and device for rendering of sound signal and computer readable information media |
RU2646320C1 (en) * | 2014-04-11 | 2018-03-02 | Самсунг Электроникс Ко., Лтд. | Method and device for rendering sound signal and computer-readable information media |
US10484810B2 (en) | 2014-06-26 | 2019-11-19 | Samsung Electronics Co., Ltd. | Method and device for rendering acoustic signal, and computer-readable recording medium |
RU2777511C1 (en) * | 2014-06-26 | 2022-08-05 | Самсунг Электроникс Ко., Лтд. | Method and device for rendering acoustic signal and machine readable recording media |
RU2759448C2 (en) * | 2014-06-26 | 2021-11-12 | Самсунг Электроникс Ко., Лтд. | Method and device for rendering acoustic signal and machine-readable recording medium |
RU2656986C1 (en) * | 2014-06-26 | 2018-06-07 | Самсунг Электроникс Ко., Лтд. | Method and device for acoustic signal rendering and machine-readable recording media |
US10242692B2 (en) | 2014-07-30 | 2019-03-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio coherence enhancement by controlling time variant weighting factors for decorrelated signals |
RU2666316C2 (en) * | 2014-07-30 | 2018-09-06 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Device and method of improving audio, system of sound improvement |
RU2704266C2 (en) * | 2014-10-31 | 2019-10-25 | Долби Интернешнл Аб | Parametric coding and decoding of multichannel audio signals |
RU2798759C2 (en) * | 2014-10-31 | 2023-06-27 | Долби Интернешнл Аб | Parametric encoding and decoding of multi-channel audio signals |
RU2771919C1 (en) * | 2018-09-12 | 2022-05-13 | Шэньчжэнь Шокз Ко., Лтд. | Signal processing apparatus with multiple acoustic-electrical converters |
Also Published As
Publication number | Publication date |
---|---|
CA2684975C (en) | 2016-08-02 |
KR20100003352A (en) | 2010-01-08 |
EP2137725B1 (en) | 2014-01-08 |
JP5133401B2 (en) | 2013-01-30 |
EP2137725A1 (en) | 2009-12-30 |
HK1142712A1 (en) | 2010-12-10 |
PL2137725T3 (en) | 2014-06-30 |
KR20120048045A (en) | 2012-05-14 |
JP2010525403A (en) | 2010-07-22 |
RU2009141391A (en) | 2011-06-10 |
MX2009011405A (en) | 2009-11-05 |
ES2452348T3 (en) | 2014-04-01 |
CA2684975A1 (en) | 2008-11-06 |
CN101809654A (en) | 2010-08-18 |
US20100094631A1 (en) | 2010-04-15 |
KR101312470B1 (en) | 2013-09-27 |
AU2008243406B2 (en) | 2011-08-25 |
CN101809654B (en) | 2013-08-07 |
TW200910328A (en) | 2009-03-01 |
BRPI0809760A2 (en) | 2014-10-07 |
MY148040A (en) | 2013-02-28 |
AU2008243406A1 (en) | 2008-11-06 |
KR101175592B1 (en) | 2012-08-22 |
TWI372385B (en) | 2012-09-11 |
US8515759B2 (en) | 2013-08-20 |
BRPI0809760B1 (en) | 2020-12-01 |
WO2008131903A1 (en) | 2008-11-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2439719C2 (en) | Device and method to synthesise output signal | |
RU2430430C2 (en) | Improved method for coding and parametric presentation of coding multichannel object after downmixing | |
RU2558612C2 (en) | Audio signal decoder, method of decoding audio signal and computer program using cascaded audio object processing stages | |
CN102859590B (en) | Produce the device strengthening lower mixed frequency signal, the method producing the lower mixed frequency signal of enhancing and computer program | |
JP5563647B2 (en) | Multi-channel decoding method and multi-channel decoding apparatus | |
JP5520300B2 (en) | Apparatus, method and apparatus for providing a set of spatial cues based on a microphone signal and a computer program and a two-channel audio signal and a set of spatial cues | |
EP3419314B1 (en) | Multi-channel decorrelator, method and computer program using a premix of decorrelator input signals | |
RU2485605C2 (en) | Improved method for coding and parametric presentation of coding multichannel object after downmixing |