RU2803451C2 - Encoding and decoding parameters - Google Patents

Encoding and decoding parameters Download PDF

Info

Publication number
RU2803451C2
RU2803451C2 RU2022100437A RU2022100437A RU2803451C2 RU 2803451 C2 RU2803451 C2 RU 2803451C2 RU 2022100437 A RU2022100437 A RU 2022100437A RU 2022100437 A RU2022100437 A RU 2022100437A RU 2803451 C2 RU2803451 C2 RU 2803451C2
Authority
RU
Russia
Prior art keywords
information
signal
link layer
correlation
channels
Prior art date
Application number
RU2022100437A
Other languages
Russian (ru)
Other versions
RU2022100437A (en
Inventor
Александр БУТЕОН
Гийом ФУКС
Маркус МУЛЬТРУС
Фабиан КЮХ
Оливер ТИРГАРТ
Штефан БАЙЕР
Саша ДИШ
Юрген ХЕРРЕ
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2022100437A publication Critical patent/RU2022100437A/en
Application granted granted Critical
Publication of RU2803451C2 publication Critical patent/RU2803451C2/en

Links

Images

Abstract

FIELD: computer engineering.
SUBSTANCE: processing audio data. The technical result is achieved due to the fact that the target version (CyR) of the covariance information (Cy) of the original signal is restored based on the estimated version () of the original covariance information (Cy), while the estimated version () of the original covariance information (Cy) is reported to the mentioned number of synthesis channels, and the estimated version () of the original covariance information is obtained from the covariance information (Cx) of the downmix signal, with the estimated version () of the original covariance information is obtained by applying to the covariance information (Cx) of the downmix signal an estimation rule (Q), which is or is associated with a prototype rule for calculating the prototype signal.
EFFECT: enabling encoding and decoding of audio signal parameters with low bit rates to describe multi-channel content between encoder and decoder without loss of output sound quality.
74 cl, 27 dwg, 2 tbl

Description

1. Введение1. Introduction

Здесь раскрыты несколько примеров технологии кодирования и декодирования. В частности, изобретение служит для кодирования и декодирования многоканального аудиосодержимого на низких скоростях передачи битов, например, с использованием инфраструктуры DirAC. Этот способ позволяет получать высококачественный выходной сигнал при использовании низких скоростей передачи битов. Он может использоваться во множестве вариантов применения, включающих в себя производство художественной продукции, связь и виртуальную реальность.Several examples of encoding and decoding technology are disclosed herein. In particular, the invention serves to encode and decode multi-channel audio content at low bit rates, for example, using the DirAC infrastructure. This method allows you to obtain a high-quality output signal while using low bit rates. It can be used in a variety of applications including artistic production, communications and virtual reality.

1.1. Документы из уровня техники1.1. Documents from the prior art

Этот раздел кратко описывает уровень техники.This section briefly describes the state of the art.

1.1.1. Дискретное кодирование многоканального содержимого1.1.1. Discrete encoding of multi-channel content

Наиболее простой подход для кодирования и передачи многоканального содержимого заключается в количественном определении и кодировании непосредственно форм сигналов многоканального аудиосигнала без предшествующей обработки или предположений. Хотя этот способ работает идеально в теории, имеется один главный недостаток, который заключается в потреблении битов, требуемых для кодирования многоканального содержимого. Следовательно, другие способы, подлежащие описанию (а также предложенное изобретение), представляют собой так называемые «параметрические подходы», поскольку они используют метапараметры для описания и передачи многоканального аудиосигнала вместо самого исходного многоканального аудиосигнала.The simplest approach for encoding and transmitting multichannel content is to quantify and encode the waveforms of the multichannel audio signal directly, without prior processing or assumptions. Although this method works perfectly in theory, it has one major drawback, which is the consumption of bits required to encode multi-channel content. Therefore, other methods to be described (as well as the proposed invention) are so-called "parametric approaches" because they use metaparameters to describe and transmit the multi-channel audio signal instead of the original multi-channel audio signal itself.

1.1.2. Стандарт объемного звучания MPEG1.1.2. MPEG surround sound standard

Стандарт объемного звучания MPEG представляет собой стандарт ISO/MPEG, завершенный в 2006 году, для параметрического кодирования многоканального звука [1]. Этот способ основан главным образом на двух наборах параметров:The MPEG surround sound standard is an ISO/MPEG standard, completed in 2006, for parametric encoding of multi-channel audio [1]. This method is based mainly on two sets of parameters:

- межканальные когерентности (ICC), которые описывают когерентность между каждым каналом данного многоканального аудиосигнала.- inter-channel coherence (ICC), which describes the coherence between each channel of a given multi-channel audio signal.

- разность канальных уровней (CLD), которая соответствует разности уровней между двумя входными каналами многоканального аудиосигнала.- channel level difference (CLD), which corresponds to the level difference between two input channels of a multi-channel audio signal.

Одна особенность стандарта объемного звучания MPEG заключается в использовании так называемых «древовидных структур», причем эти структуры позволяют «описывать два входных канала посредством одиночных выходных каналов» (цитата из [1]).One feature of the MPEG surround sound standard is the use of so-called “tree structures”, these structures allowing “two input channels to be described by single output channels” (quoted from [1]).

В качестве примера, ниже содержится схема кодера многоканального аудиосигнала 5.1 с использованием стандарта объемного звучания MPEG. На этом чертеже, шесть входных каналов (помечены как "L", "LS", "R"", RS", "C" и "LFE" на чертеже) последовательно обрабатываются через древовидный структурный элемент (указан на чертеже как "R_OTT"). Каждый из этих древовидных структурных элементов должен формировать набор параметров, ICC и CLD, указанных выше, а также остаточный сигнал, который обрабатывается снова через другую древовидную структуру и формирует другой набор параметров. После того как конец дерева достигается, различные параметры, ранее вычисленные, передаются в декодер, как и микшированный с понижением сигнал. Эти элементы используются посредством декодера для формирования выходного многоканального сигнала, причем обработка декодера по существу представляет собой обратную древовидную структуру, используемую посредством кодера.As an example, below is a diagram of a 5.1 multichannel audio encoder using the MPEG surround sound standard. In this drawing, six input channels (labeled "L", "LS", "R", " RS ", "C" and "LFE" in the drawing) are processed sequentially through a tree structure (labeled "R_OTT" in the drawing "). Each of these tree structures must form the set of parameters, ICC and CLD, specified above, as well as a residual signal, which is processed again through another tree structure and generates another set of parameters. Once the end of the tree is reached, the various parameters previously calculated are passed to the decoder, as is the downmixed signal. These elements are used by the decoder to generate a multi-channel output signal, the decoder processing being essentially the inverse of the tree structure used by the encoder.

Главное преимущество стандарта объемного звучания MPEG основывается на использовании этой структуры и вышеуказанных параметров. Тем не менее, один из недостатков стандарта объемного звучания MPEG заключается в отсутствии гибкости вследствие древовидной структуры. Также вследствие особенностей обработки в некоторых конкретных элементах может происходить снижение качества.The main advantage of the MPEG surround sound standard is based on the use of this structure and the above parameters. However, one of the disadvantages of the MPEG surround sound standard is the lack of flexibility due to the tree structure. Also, due to processing characteristics, a decrease in quality may occur in some specific elements.

См., в числе прочего, фиг. 7, где показано общее представление кодера по стандарту объемного звучания MPEG для сигнала 5.1, извлеченного из [1].See, inter alia, FIG. 7, which shows an overview of the MPEG surround encoder for a 5.1 signal extracted from [1].

1.2. Направленное кодирование аудио1.2. Directional Audio Coding

Направленное кодирование аудио (сокращенное "DirAC") [2] также представляет собой параметрический способ воспроизведения пространственных аудиоданных, он разработан Ville Pulkki из университета Aalto в Финляндии. DirAC основывается на обработке по полосам частот, которая использует два набора параметров для описания систем пространственного звучания:Directional Audio Coding (abbreviated as "DirAC") [2] is also a parametric method for reproducing spatial audio data, developed by Ville Pulkki of Aalto University in Finland. DirAC is based on frequency band processing, which uses two sets of parameters to describe surround sound systems:

- Направление поступления (DoA), которое является углом в градусах, который описывает направление поступления преобладающего звука в аудиосигнале.- Direction of Arrival (DoA), which is the angle in degrees that describes the direction of arrival of the predominant sound in an audio signal.

- Рассеянность, которая является значением между 0 и 1, которые описывают, насколько «рассеянным» является звук. Если значение равно 0, звук является нерассеянным и может ассимилироваться в качестве точечного источника, исходящего из точного угла, если значение равно 1, звук является абсолютно рассеянным и предположительно исходит из «каждого» угла.- Scattering, which is a value between 0 and 1 that describes how "scattered" the sound is. If the value is 0, the sound is non-diffuse and can be assimilated as a point source coming from an exact corner; if the value is 1, the sound is completely diffuse and is assumed to come from "every" corner.

Для синтеза выходных сигналов DirAC предполагает разложение синтеза на рассеянную и нерассеянную часть, синтез рассеянного звука направлен на формирование восприятия окружающего звука, тогда как синтез прямого звука направлен на формирование преобладающего звука.To synthesize output signals, DirAC involves decomposing the synthesis into diffuse and non-diffuse parts, diffuse sound synthesis aims to shape the perception of ambient sound, while direct sound synthesis aims to shape the dominant sound.

При том, что DirAC обеспечивает выходные сигналы хорошего качества, оно имеет один значительный недостаток: оно не предназначено для многоканальных аудиосигналов. Следовательно, параметры DoA и рассеянности не являются подходящими для описания многоканального входного аудиосигнала, и в результате это сказывается на качестве выходного сигнала.While DirAC provides good quality output signals, it has one major drawback: it is not designed for multi-channel audio signals. Therefore, the DoA and dispersion parameters are not suitable for describing the multi-channel input audio signal, and as a result, the quality of the output signal is affected.

1.3. Бинауральное кодирование по сигнальным меткам1.3. Binaural coding by cues

Бинауральное кодирование по сигнальным меткам (BCC) [3] представляет собой параметрический подход, разработанный Christof Faller. Этот способ основывается на наборе параметров, аналогичном наборам параметров, описанным для стандарта объемного звучания MPEG (см. также 1.1.2), а именно:Binaural cue coding (BCC) [3] is a parametric approach developed by Christof Faller. This method is based on a set of parameters similar to those described for the MPEG surround sound standard (see also 1.1.2), namely:

- межканальной разности уровней (ICLD), которая представляет собой показатель отношений энергий между двумя каналами многоканального входного сигнала.- inter-channel level difference (ICLD), which is a measure of the energy ratio between two channels of a multi-channel input signal.

- межканальной разности времен (ICTD), которая представляет собой показатель задержки между двумя каналами многоканального входного сигнала.- inter-channel time difference (ICTD), which is a measure of the delay between two channels of a multi-channel input signal.

- межканальной корреляции (ICC), которая представляет собой показатель корреляции между двумя каналами многоканального входного сигнала.- inter-channel correlation (ICC), which is a measure of the correlation between two channels of a multi-channel input signal.

Подход BCC имеет почти одинаковые характеристики с точки зрения вычисления параметров, подлежащих передаче, по сравнению с новым изобретением, которое описано ниже, но в нем отсутствует гибкость и масштабируемость передаваемых параметров.The BCC approach has almost the same characteristics in terms of calculating the parameters to be transmitted compared to the new invention described below, but it lacks the flexibility and scalability of the transmitted parameters.

1.4. Пространственное кодирование аудиообъектов по стандарту MPEG1.4. Spatial coding of audio objects according to the MPEG standard

Здесь следует отметить просто пространственное кодирование аудиообъектов [4]. Оно представляет собой MPEG-стандарт для кодирования так называемых аудиообъектов, которые в определенной степени связаны с многоканальным сигналом. Он использует аналогичные параметры со стандартом объемного звучания MPEG.What should be noted here is simply the spatial coding of audio objects [4]. It is an MPEG standard for encoding so-called audio objects, which are related to a certain extent to a multi-channel signal. It uses similar parameters to the MPEG surround sound standard.

1.5. Предпосылки/недостатки уровня техники1.5. Background/disadvantages of the prior art

1.5. Предпосылки1.5. Prerequisites

1.5.1.1. Использование инфраструктуры DirAC1.5.1.1. Using the DirAC infrastructure

Один аспект изобретения, который следует отметить, заключается в том, что настоящее изобретение должно соответствовать инфраструктуре DirAC. Тем не менее, также следует заранее отметить, что параметры DirAC не являются подходящими для многоканального аудиосигнала. Необходимо привести некоторые дополнительные пояснения по этой теме.One aspect of the invention that should be noted is that the present invention must conform to the DirAC framework. However, it should also be noted upfront that DirAC parameters are not suitable for multi-channel audio. Some further clarification is needed on this topic.

Исходная обработка DirAC использует либо сигналы микрофонов, либо амбиофонические сигналы. Из этих сигналов, вычисляются параметры, а именно, направление поступления (DoA) и рассеянность.The original DirAC processing uses either microphone signals or ambiophonic signals. From these signals, parameters, namely direction of arrival (DoA) and scattering, are calculated.

Один первый подход, который опробован для использования DirAC с многоканальными аудиосигналами, заключается в преобразовании многоканальных сигналов в амбиофоническое содержимое с использованием способа, предложенного Ville Pulkki, описанного в [5]. Затем, после того как эти амбиофонические сигналы извлечены из многоканальных аудиосигналов, регулярная обработка DirAC выполнена с использованием DoA и рассеянности. Результат этой первой попытки заключается в том, что качество и пространственные признаки выходного многоканального сигнала ухудшены и не удовлетворяют требованиям целевого варианта применения.One early approach that has been tested for using DirAC with multi-channel audio signals is to convert multi-channel signals into ambiophonic content using the method proposed by Ville Pulkki described in [5]. Then, after these ambiophonic signals are extracted from the multi-channel audio signals, regular DirAC processing is performed using DoA and diffusion. The result of this first attempt is that the quality and spatial signature of the multi-channel output signal is degraded and does not meet the requirements of the target application.

Следовательно, основное обуславливание в основе этого нового изобретения заключается в том, чтобы использовать набор параметров, который эффективно описывает многоканальный сигнал, а также использовать инфраструктуру DirAC; дополнительные пояснения приводятся в разделе 1.1.2.Therefore, the main rationale behind this new invention is to use a set of parameters that effectively describes a multi-channel signal, and also to use the DirAC infrastructure; Additional explanations are provided in section 1.1.2.

1.5.1.2. Создание системы, работающей на низких скоростях передачи битов1.5.1.2. Creating a system that operates at low bit rates

Одна из задач и назначение настоящего изобретения заключается в предложении подхода, который обеспечивает возможность вариантов применения с низкими скоростями передачи битов. Это требует нахождения оптимального набора данных для описания многоканального содержимого между кодером и декодером. Это также требует нахождения оптимального компромисса с точки зрения чисел передаваемых параметров и выходного качества.One of the objects and purposes of the present invention is to provide an approach that enables low bit rate applications. This requires finding the optimal data set to describe the multi-channel content between the encoder and decoder. This also requires finding the optimal compromise in terms of the number of transmitted parameters and the output quality.

1.5.1.3. Создание гибкой системы1.5.1.3. Creating a flexible system

Другая важная задача настоящего изобретения заключается в предложении гибкой системы, которая может поддерживать любой многоканальный аудиоформат, предназначенный для воспроизведения на любой конфигурации громкоговорителей. Качество на выходе не должно нарушаться в зависимости от конфигурации на входе.Another important object of the present invention is to provide a flexible system that can support any multi-channel audio format for playback on any speaker configuration. The output quality should not be compromised depending on the input configuration.

1.5.2. Недостатки уровня техники1.5.2. Disadvantages of the Prior Art

Упомянутый выше уровень техники имеет нескольких недостатков, которые перечислены в нижеприведенной таблице. The prior art mentioned above has several disadvantages, which are listed in the table below.

НедостатокFlaw Рассматриваемый уровень техники Considered state of the art КомментарийA comment Несоответствующие скорости передачи битовInappropriate bit rates Дискретное кодирование многоканального содержимогоDiscrete encoding of multi-channel content Прямое кодирование многоканального содержимого приводит к скоростям передачи битов, которые являются слишком высокими для указанных требований и для целевых вариантов применения.Direct encoding of multi-channel content results in bit rates that are too high for the specified requirements and target applications. Несоответствующие параметры/дескрипторыInappropriate parameters/descriptors Ранее созданное DirACPreviously created DirAC Ранее созданный способ DirAC использует рассеянность и DoA в качестве описания параметров; оказывается, что эти параметры не являются подходящими для описания многоканального аудиосигналаThe previously created DirAC method uses scattering and DoA as parameter descriptions; it turns out that these parameters are not suitable for describing a multi-channel audio signal Отсутствие гибкости подходаLack of flexibility in approach Стандарт объемного звучания MPEG
BCC
MPEG surround sound standard
BCC
Стандарт объемного звучания MPEG и BCC не являются достаточно гибкими относительно требований целевых вариантов примененияMPEG and BCC surround sound standard are not flexible enough to meet target application requirements

2. Описание изобретения2. Description of the invention

2.1. Раскрытие изобретения2.1. Disclosure of the Invention

В соответствии с аспектом, предусмотрено устройство (кодер) синтеза аудиоданных для формирования сигнала синтеза из сигнала понижающего микширования, причем сигнал синтеза имеет некоторое число каналов синтеза, причем устройство синтеза аудиоданных содержит:According to an aspect, an audio data synthesis apparatus (encoder) is provided for generating a synthesis signal from a downmix signal, the synthesis signal having a number of synthesis channels, the audio data synthesis apparatus comprising:

- входной интерфейс, выполненный с возможностью приема сигнала понижающего микширования, причем сигнал понижающего микширования имеет некоторое число каналов понижающего микширования и вспомогательную информацию, причем вспомогательная информация включает в себя информацию канального уровня и корреляции исходного сигнала, причем исходный сигнал имеет некоторое число исходных каналов; и- an input interface configured to receive a downmix signal, wherein the downmix signal has a number of downmix channels and auxiliary information, wherein the auxiliary information includes link layer and correlation information of the original signal, wherein the original signal has a number of original channels; And

- процессор синтеза, выполненный с возможностью формирования, согласно по меньшей мере одному правилу микширования, сигнала синтеза с использованием:- a synthesis processor configured to generate, according to at least one mixing rule, a synthesis signal using:

- информации канального уровня и корреляции исходного сигнала; и- channel level information and correlation of the original signal; And

- ковариационной информации, ассоциированной с сигналом понижающего микширования.- covariance information associated with the downmix signal.

Устройство синтеза аудиоданных может содержать:The audio data synthesis device may contain:

- модуль вычисления прототипных сигналов, выполненный с возможностью вычисления прототипного сигнала из сигнала понижающего микширования, причем прототипный сигнал имеет упомянутое число каналов синтеза;- a prototype signal calculation module configured to calculate a prototype signal from the downmix signal, wherein the prototype signal has said number of synthesis channels;

- модуль вычисления правил микширования, выполненный с возможностью вычисления по меньшей мере одного правила микширования с использованием:- a mixing rule calculation module configured to calculate at least one mixing rule using:

- информации канального уровня и корреляции исходного сигнала; и- channel level information and correlation of the original signal; And

- ковариационной информации, ассоциированной с сигналом понижающего микширования;- covariance information associated with the downmix signal;

- при этом процессор синтеза выполнен с возможностью формирования сигнала синтеза с использованием прототипного сигнала и по меньшей мере одного правила микширования.- wherein the synthesis processor is configured to generate a synthesis signal using a prototype signal and at least one mixing rule.

Устройство синтеза аудиоданных может быть выполнено с возможностью восстановления целевой ковариационной информации исходного сигнала.The audio data synthesis apparatus may be configured to recover target covariance information of the original signal.

Устройство синтеза аудиоданных может быть выполнено с возможностью восстановления целевой ковариационной информации, адаптированной к числу каналов сигнала синтеза.The audio data synthesis apparatus may be configured to recover target covariance information adapted to the number of channels of the synthesis signal.

Устройство синтеза аудиоданных может быть выполнено с возможностью восстановления ковариационной информации, адаптированной к числу каналов сигнала синтеза, посредством назначения групп исходных каналов одиночным каналам синтеза, или наоборот, так что восстановленная целевая ковариационная информация сообщается в некоторое число каналов сигнала синтеза.An audio data synthesis apparatus may be configured to recover covariance information adapted to a number of synthesis signal channels by assigning groups of source channels to single synthesis channels, or vice versa, such that the recovered target covariance information is reported to a number of synthesis signal channels.

Устройство синтеза аудиоданных может быть выполнено с возможностью восстановления ковариационной информации, адаптированной к числу каналов сигнала синтеза, посредством формирования целевой ковариационной информации для упомянутого числа исходных каналов и затем применения правила понижающего микширования или правила повышающего микширования и энергетической компенсации, чтобы достигать целевой ковариации для каналов синтеза.An audio data synthesis apparatus may be configured to recover covariance information adapted to a number of synthesis signal channels by generating target covariance information for said number of source channels and then applying a downmixing rule or an upmixing rule and energy compensation to achieve the target covariance for the synthesis channels. .

Устройство синтеза аудиоданных может быть выполнено с возможностью восстановления целевой версии ковариационной информации на основе оцененной версии исходной ковариационной информации, при этом оцененная версия исходной ковариационной информации сообщается в некоторое число каналов синтеза или в некоторое число исходных каналов.The audio data synthesis apparatus may be configured to recover a target version of the covariance information based on an estimated version of the source covariance information, wherein the estimated version of the source covariance information is reported to a number of synthesis channels or a number of source channels.

Устройство синтеза аудиоданных может быть выполнено с возможностью получения оцененной версии исходной ковариационной информации из ковариационной информации, ассоциированной с сигналом понижающего микширования.The audio data synthesis apparatus may be configured to obtain an estimated version of the original covariance information from the covariance information associated with the downmix signal.

Устройство синтеза аудиоданных может быть выполнено с возможностью получения оцененной версии исходной ковариационной информации посредством применения к ковариационной информации, ассоциированной с сигналом понижающего микширования, правила оценки, ассоциированного с прототипным правилом для вычисления прототипного сигнала.The audio synthesis apparatus may be configured to obtain an estimated version of the original covariance information by applying to the covariance information associated with the downmix signal an evaluation rule associated with a prototype rule for calculating the prototype signal.

Устройство синтеза аудиоданных может быть выполнено с возможностью нормализации по меньшей мере для одной пары каналов оцененной версии () исходной ковариационной информации (Cy) в квадратные корни уровней каналов пары каналов.The audio data synthesis apparatus may be configured to normalize for at least one pair of channels the estimated version ( ) of the original covariance information (Cy) into the square roots of the channel levels of a pair of channels.

Устройство синтеза аудиоданных может быть выполнено с возможностью интерпретации матрицы с нормализованной оцененной версией исходной ковариационной информации.The audio data synthesis apparatus may be configured to interpret a matrix with a normalized estimated version of the original covariance information.

Устройство синтеза аудиоданных может быть выполнено с возможностью заполнения матрицы посредством вставки записей, полученных во вспомогательной информации потока битов.The audio data synthesis apparatus may be configured to populate the matrix by inserting entries obtained in the bit stream auxiliary information.

Устройство синтеза аудиоданных может быть выполнено с возможностью денормализации матрицы посредством масштабирования оцененной версии исходной ковариационной информации посредством квадратного корня уровней каналов, формирующих пару каналов.The audio data synthesis apparatus may be configured to denormalize the matrix by scaling the estimated version of the original covariance information by the square root of the channel levels forming the channel pair.

Устройство синтеза аудиоданных может быть выполнено с возможностью выполнения извлечения из вспомогательной информации сигнала понижающего микширования, причем устройство синтеза аудиоданных дополнительно выполнено с возможностью восстановления целевой версии ковариационной информации посредством оцененной версии исходной информации канального уровня и корреляции из:The audio synthesis apparatus may be configured to perform extraction of the downmix signal from the auxiliary information, wherein the audio synthesis apparatus is further configured to recover a target version of the covariance information by means of an estimated version of the original link layer information and correlation from:

- ковариационной информации по меньшей мере для одного первого канала или пары каналов; и- covariance information for at least one first channel or pair of channels; And

- информации канального уровня и корреляции по меньшей мере для одного второго канала или пары каналов.- link layer and correlation information for at least one second channel or pair of channels.

Устройство синтеза аудиоданных может быть выполнено с возможностью предпочтения информации канального уровня и корреляции, описывающей канал или пару каналов, полученной из вспомогательной информации потока битов, а не ковариационной информации, восстановленной из сигнала понижающего микширования для того же самого канала или пары каналов.The audio synthesis apparatus may be configured to prefer link layer and correlation information describing a channel or pair of channels obtained from the bit stream auxiliary information rather than covariance information recovered from a downmix signal for the same channel or pair of channels.

Восстановленная целевая версия исходной ковариационной информации может пониматься как описание энергетической взаимосвязи между парой каналов основана по меньшей мере частично на уровнях, ассоциированных с каждым каналом из пары каналов.The reconstructed target version of the original covariance information can be understood as a description of the energy relationship between a pair of channels based at least in part on the levels associated with each channel of the pair of channels.

Устройство синтеза аудиоданных может быть выполнено с возможностью получения версии в частотной области (FD) сигнала понижающего микширования, причем версия FD сигнала понижающего микширования на полосы частот или группы полос частот, при этом различная информация канального уровня и корреляции ассоциирована с различными полосами частот или группами полос частот,An audio data synthesis apparatus may be configured to obtain a frequency domain (FD) version of the downmix signal, the FD version of the downmix signal into frequency bands or groups of frequency bands, with different link layer and correlation information associated with different frequency bands or groups of bands frequencies,

- при этом устройство синтеза аудиоданных выполнено с возможностью работы по-разному для различных полос частот или групп полос частот таким образом, чтобы получить различные правила микширования для различных полос частот или групп полос частот.- wherein the audio data synthesis device is configured to operate differently for different frequency bands or groups of frequency bands so as to obtain different mixing rules for different frequency bands or groups of frequency bands.

Сигнал понижающего микширования разделяется на интервалы, при этом различная информация канального уровня и корреляции ассоциирована с различными интервалами, и устройство синтеза аудиоданных выполнено с возможностью работы по-разному для различных интервалов таким образом, чтобы получить различные правила микширования для различных интервалов.The downmix signal is divided into intervals, with different link layer and correlation information associated with different intervals, and the audio data synthesis apparatus is configured to operate differently for different intervals so as to obtain different mixing rules for different intervals.

Сигнал понижающего микширования разделяется на кадры, и каждый кадр разделяется на интервалы, при этом устройство синтеза аудиоданных выполнено с возможностью, когда наличие и положение переходной части в одном кадре передаются в служебных сигналах как находящиеся в одном переходном интервале:The downmix signal is divided into frames, and each frame is divided into intervals, and the audio data synthesis device is configured to have the presence and position of a transition portion in one frame signaled as being in the same transition interval:

- ассоциирования текущей информации канального уровня и корреляции с переходным интервалом и/или с интервалами после переходного интервала кадра; и- associating current link layer information and correlation with the transition interval and/or with intervals after the transition interval of the frame; And

- ассоциирования с интервалом кадра, предшествующим переходному интервалу, информации канального уровня и корреляции предыдущего интервала.- association with the frame interval preceding the transition interval, link layer information and correlation of the previous interval.

Устройство синтеза аудиоданных может быть выполнено с возможностью выбора прототипного правила, выполненного с возможностью вычисления прототипного сигнала на основе числа каналов синтеза.The audio data synthesis apparatus may be configured to select a prototype rule configured to calculate a prototype signal based on the number of synthesis channels.

Устройство синтеза аудиоданных может быть выполнено с возможностью выбора прототипного правила из множества предварительно сохраненных прототипных правил.The audio data synthesis apparatus may be configured to select a prototype rule from a plurality of previously stored prototype rules.

Устройство синтеза аудиоданных может быть выполнено с возможностью задания прототипного правила на основе выбора вручную.The audio data synthesis apparatus may be configured to specify a prototype rule based on manual selection.

Прототипное правило может быть основано или включать в себя матрицу с первой размерностью и второй размерностью, при этом первая размерность ассоциирована с числом каналов понижающего микширования, и вторая размерность ассоциирована с числом каналов синтеза.A prototype rule may be based on or include a matrix with a first dimension and a second dimension, wherein the first dimension is associated with the number of downmix channels and the second dimension is associated with the number of synthesis channels.

Устройство синтеза аудиоданных может быть выполнено с возможностью работы на скорости передачи битов, равной или ниже 160 Кбит/с.The audio synthesis apparatus may be configured to operate at a bit rate equal to or lower than 160 Kbps.

Устройство синтеза аудиоданных может дополнительно содержать энтропийный декодер для получения сигнала понижающего микширования со вспомогательной информацией.The audio data synthesis apparatus may further comprise an entropy decoder for obtaining a downmix signal with auxiliary information.

Устройство синтеза аудиоданных дополнительно содержит модуль декорреляции для уменьшения величины корреляции между различными каналами.The audio data synthesis device further includes a decorrelation module for reducing the amount of correlation between different channels.

Прототипный сигнал может непосредственно передаваться в процессор синтеза без выполнения декорреляции.The prototype signal can be directly passed to the synthesis processor without performing decorrelation.

По меньшей мере одно из информации канального уровня и корреляции исходного сигнала по меньшей мере одного правила микширования и ковариационной информации, ассоциированной с сигналом понижающего микширования, имеет форму матрицы.At least one of the link layer information and the original signal correlation of the at least one mixing rule and the covariance information associated with the downmix signal is in the form of a matrix.

Вспомогательная информация включает в себя идентификационные данные исходных каналов:Supporting information includes source channel identification data:

- при этом устройство синтеза аудиоданных может быть дополнительно выполнено с возможностью вычисления по меньшей мере одного правила микширования с использованием по меньшей мере одного из информации канального уровня и корреляции исходного сигнала, ковариационной информации, ассоциированной с сигналом понижающего микширования, идентификационных данных исходных каналов и идентификационных данных каналов синтеза.wherein the audio data synthesis apparatus may be further configured to compute at least one mixing rule using at least one of link layer information and source signal correlation, covariance information associated with the downmix signal, source channel identification data, and identification data synthesis channels.

Устройство синтеза аудиоданных может быть выполнено с возможностью вычисления по меньшей мере одного правила микширования посредством разложения по сингулярным значениям (SVD).The audio data synthesis apparatus may be configured to compute at least one mixing rule via singular value decomposition (SVD).

Сигнал понижающего микширования может разделяться на кадры, причем устройство синтеза аудиоданных выполнено с возможностью сглаживания принимаемого параметра либо оцененного или восстановленного значения или матрицы микширования, с использованием линейного комбинирования с параметром либо с оцененным или восстановленным значением, либо с матрицей микширования, полученной для предшествующего кадра.The downmix signal may be divided into frames, wherein the audio data synthesis device is configured to smooth a received parameter or an estimated or reconstructed value or a mixing matrix using linear combination with a parameter with either an estimated or reconstructed value or a mixing matrix obtained for the previous frame.

Устройство синтеза аудиоданных может быть выполнено с возможностью, деактивации сглаживания принимаемого параметра либо оцененного или восстановленного значения, либо матрицы микширования, когда наличие и/или положение переходной части в одном кадре передаются в служебных сигналах.The audio data synthesis apparatus may be configured to deactivate smoothing of a received parameter of either an estimated or reconstructed value or a mixing matrix when the presence and/or position of a transition portion in one frame is signaled.

Сигнал понижающего микширования может разделяться на кадры, и кадры разделяются на интервалы, при этом информация канального уровня и корреляции исходного сигнала получается из вспомогательной информации потока битов покадрово, причем устройство синтеза аудиоданных выполнено с возможностью использования для текущего кадра матрицы микширования (или правила микширования), полученной посредством масштабирования, матрицы микширования (или правила микширования), вычисленного для текущего кадра, посредством коэффициента, увеличивающегося вдоль последующих интервалов текущего кадра, и посредством добавления матрицы микширования (или правила микширования), используемой для предшествующего кадра в версии, масштабируемой посредством понижающего коэффициента вдоль последующих интервалов текущего кадра.The downmix signal may be divided into frames, and the frames are divided into intervals, wherein link layer and correlation information of the original signal is obtained from the auxiliary information of the bitstream on a frame-by-frame basis, and the audio data synthesis apparatus is configured to use a mixing matrix (or mixing rule) for the current frame. obtained by scaling, the mixing matrix (or mixing rule) calculated for the current frame, by a factor increasing along subsequent intervals of the current frame, and by adding the mixing matrix (or mixing rule) used for the previous frame in a version scaled by a decreasing factor along subsequent intervals of the current frame.

Число каналов синтеза может превышать число исходных каналов. Число каналов синтеза может быть меньше числа исходных каналов. Число каналов синтеза и число исходных каналов могут превышать число каналов понижающего микширования.The number of synthesis channels can exceed the number of original channels. The number of synthesis channels may be less than the number of original channels. The number of synthesis channels and the number of source channels can exceed the number of downmix channels.

По меньшей мере одно или все из числа каналов синтеза, числа исходных каналов и числа каналов понижающего микширования составляет множественное число.At least one or all of the number of synthesis channels, the number of source channels, and the number of downmix channels constitute the plural.

По меньшей мере одно правило микширования может включать в себя первую матрицу микширования и вторую матрицу микширования, причем устройство синтеза аудиоданных содержит:The at least one mixing rule may include a first mixing matrix and a second mixing matrix, wherein the audio data synthesis apparatus comprises:

- первый тракт, включающий в себя:- the first path, including:

- блок обработки первых матриц микширования, выполненный с возможностью синтеза первого компонента сигнала синтеза согласно первой матрице микширования, вычисленной из:- a processing unit for the first mixing matrices, configured to synthesize the first component of the synthesis signal according to the first mixing matrix calculated from:

- ковариационной матрицы, ассоциированной с сигналом синтеза, причем ковариационная матрица восстановлена из информации канального уровня и корреляции; и- a covariance matrix associated with the synthesis signal, wherein the covariance matrix is recovered from link layer and correlation information; And

- ковариационной матрицы, ассоциированной с сигналом понижающего микширования,- covariance matrix associated with the downmix signal,

- второй тракт для синтеза второго компонента сигнала синтеза, при этом второй компонент представляет собой остаточный компонент, причем второй тракт включает в себя:- a second path for synthesizing a second component of the synthesis signal, wherein the second component is a residual component, wherein the second path includes:

- блок обработки прототипных сигналов, выполненный с возможностью повышающего микширования сигнала понижающего микширования из упомянутого числа каналов понижающего микширования в упомянутое число каналов синтеза;- a prototype signal processing unit configured to upmix a downmix signal from said number of downmix channels into said number of synthesis channels;

- декоррелятор, выполненный с возможностью декорреляции микшированного с повышением прототипного сигнала;- a decorrelator configured to decorrelate an up-mixed prototype signal;

- блок обработки вторых матриц микширования, выполненный с возможностью синтеза второго компонента сигнала синтеза согласно второй матрице микширования из декоррелированной версии сигнала понижающего микширования, причем вторая матрица микширования представляет собой матрицу остаточного микширования,- a second mixing matrix processing unit configured to synthesize a second component of the synthesis signal according to a second mixing matrix from a decorrelated version of the downmixing signal, wherein the second mixing matrix is a residual mixing matrix,

- при этом устройство синтеза аудиоданных выполнено с возможностью оценки второй матрицы микширования из:- wherein the audio data synthesis device is configured to estimate the second mixing matrix from:

- остаточной ковариационной матрицы, обеспеченной блоком обработки первых матриц микширования; и- residual covariance matrix provided by the processing unit for the first mixing matrices; And

- оценки ковариационной матрицы декоррелированных прототипных сигналов, полученной из ковариационной матрицы, ассоциированной с сигналом понижающего микширования,- estimating the covariance matrix of decorrelated prototype signals obtained from the covariance matrix associated with the downmix signal,

- при этом устройство синтеза аудиоданных дополнительно содержит блок суммирования для суммирования первого компонента сигнала синтеза со вторым компонентом сигнала синтеза.- wherein the audio data synthesis device further comprises a summing unit for summing the first component of the synthesis signal with the second component of the synthesis signal.

В соответствии с аспектом, может быть предусмотрено устройство синтеза аудиоданных для формирования сигнала синтеза из сигнала понижающего микширования, имеющего некоторое число каналов понижающего микширования, причем сигнал синтеза имеет некоторое число каналов синтеза, при этом сигнал понижающего микширования представляет собой микшированную с понижением версию исходного сигнала, имеющего некоторое число исходных каналов, причем устройство синтеза аудиоданных содержит:In accordance with an aspect, an audio data synthesis apparatus may be provided for generating a synthesis signal from a downmix signal having a number of downmix channels, wherein the synthesis signal has a number of synthesis channels, wherein the downmix signal is a downmixed version of the original signal, having a certain number of source channels, and the audio data synthesis device contains:

- первый тракт, включающий в себя:- the first path, including:

- блок обработки первых матриц микширования, выполненный с возможностью синтеза первого компонента сигнала синтеза согласно первой матрице микширования, вычисленной из:- a processing unit for the first mixing matrices, configured to synthesize the first component of the synthesis signal according to the first mixing matrix calculated from:

- ковариационной матрицы, ассоциированной с сигналом синтеза; и- covariance matrix associated with the synthesis signal; And

- ковариационной матрицы, ассоциированной с сигналом понижающего микширования.- a covariance matrix associated with the downmix signal.

- второй тракт для синтеза второго компонента сигнала синтеза, при этом второй компонент представляет собой остаточный компонент, причем второй тракт включает в себя:- a second path for synthesizing a second component of the synthesis signal, wherein the second component is a residual component, wherein the second path includes:

- блок обработки прототипных сигналов, выполненный с возможностью повышающего микширования сигнала понижающего микширования из упомянутого числа каналов понижающего микширования в упомянутое число каналов синтеза;- a prototype signal processing unit configured to upmix a downmix signal from said number of downmix channels into said number of synthesis channels;

- декоррелятор, выполненный с возможностью декорреляции микшированного с повышением прототипного сигнала;- a decorrelator configured to decorrelate an up-mixed prototype signal;

- блок обработки вторых матриц микширования, выполненный с возможностью синтеза второго компонента сигнала синтеза согласно второй матрице микширования из декоррелированной версии сигнала понижающего микширования, причем вторая матрица микширования представляет собой матрицу остаточного микширования,- a second mixing matrix processing unit configured to synthesize a second component of the synthesis signal according to a second mixing matrix from a decorrelated version of the downmixing signal, wherein the second mixing matrix is a residual mixing matrix,

- при этом устройство синтеза аудиоданных выполнено с возможностью вычисления второй матрицы микширования из:- wherein the audio data synthesis device is configured to calculate the second mixing matrix from:

- остаточной ковариационной матрицы, обеспеченной блоком обработки первых матриц микширования; и- residual covariance matrix provided by the processing unit for the first mixing matrices; And

- оценки ковариационной матрицы декоррелированных прототипных сигналов, полученной из ковариационной матрицы, ассоциированной с сигналом понижающего микширования,- estimating the covariance matrix of decorrelated prototype signals obtained from the covariance matrix associated with the downmix signal,

- при этом устройство синтеза аудиоданных дополнительно содержит блок суммирования для суммирования первого компонента сигнала синтеза со вторым компонентом сигнала синтеза.- wherein the audio data synthesis device further comprises a summing unit for summing the first component of the synthesis signal with the second component of the synthesis signal.

Остаточная ковариационная матрица получается посредством вычитания, из ковариационной матрицы, ассоциированной с сигналом синтеза, матрицы, полученной посредством применения первой матрицы микширования к ковариационной матрице, ассоциированной с сигналом понижающего микширования.The residual covariance matrix is obtained by subtracting, from the covariance matrix associated with the synthesis signal, the matrix obtained by applying the first mixing matrix to the covariance matrix associated with the downmix signal.

Устройство синтеза аудиоданных может быть выполнено с возможностью определения второй матрицы микширования из:The audio data synthesis apparatus may be configured to determine a second mixing matrix from:

- второй матрицы, которая получается посредством разложения остаточной ковариационной матрицы, ассоциированной с сигналом синтеза;- a second matrix, which is obtained by decomposing the residual covariance matrix associated with the synthesis signal;

- первой матрицы, которая представляет собой инверсию или регуляризованную инверсию диагональной матрицы, полученную из оценки ковариационной матрицы декоррелированных прототипных сигналов.- a first matrix that is the inverse or regularized inverse of the diagonal matrix obtained from estimating the covariance matrix of the decorrelated prototype signals.

Диагональная матрица может получаться посредством применения функции вычисления квадратного корня к главным диагональным элементам ковариационной матрицы декоррелированных прототипных сигналов.The diagonal matrix can be obtained by applying a square root function to the principal diagonal elements of the covariance matrix of the decorrelated prototype signals.

Вторая матрица может получаться посредством разложения по сингулярным значениям (SVD), применяемого к остаточной ковариационной матрице, ассоциированной с сигналом синтеза.The second matrix may be obtained by singular value decomposition (SVD) applied to the residual covariance matrix associated with the synthesis signal.

Устройство синтеза аудиоданных может быть выполнено с возможностью определения второй матрицы микширования посредством умножения второй матрицы на инверсию или регуляризованную инверсию диагональной матрицы, полученную из оценки ковариационной матрицы декоррелированных прототипных сигналов и третьей матрицы.The audio data synthesis apparatus may be configured to determine a second mixing matrix by multiplying the second matrix by the inverse or regularized inverse of a diagonal matrix obtained from estimating the covariance matrix of the decorrelated prototype signals and the third matrix.

Устройство синтеза аудиоданных может быть выполнено с возможностью получения третьей матрицы посредством SVP, применяемого к матрице, полученной из нормализованной версии ковариационной матрицы декоррелированных прототипных сигналов, причем нормализация выполняется относительно главной диагонали остаточной ковариационной матрицы и диагональной матрицы и второй матрицы.The audio data synthesis apparatus may be configured to obtain a third matrix by means of an SVP applied to a matrix obtained from a normalized version of the covariance matrix of the decorrelated prototype signals, the normalization being performed with respect to the main diagonal of the residual covariance matrix and the diagonal matrix and the second matrix.

Устройство синтеза аудиоданных может быть выполнено с возможностью определения первой матрицы микширования из второй матрицы и обратной или регуляризованной инверсии второй матрицы,The audio data synthesis apparatus may be configured to determine a first mixing matrix from a second matrix and an inverse or regularized inversion of the second matrix,

- при этом вторая матрица получается посредством разложения ковариационной матрицы, ассоциированной с сигналом понижающего микширования, и- wherein the second matrix is obtained by decomposing the covariance matrix associated with the downmix signal, and

- вторая матрица получается посредством разложения восстановленной целевой ковариационной матрицы, ассоциированной с сигналом понижающего микширования.- the second matrix is obtained by decomposing the reconstructed target covariance matrix associated with the downmix signal.

Устройство синтеза аудиоданных может быть выполнено с возможностью оценки ковариационной матрицы декоррелированных прототипных сигналов из диагональных записей матрицы, полученной из применения к ковариационной матрице, ассоциированной с сигналом понижающего микширования, прототипного правила, используемого в прототипном блоке для повышающего микширования сигнала понижающего микширования из некоторого числа каналов понижающего микширования в упомянутое число каналов синтеза.The audio data synthesis apparatus may be configured to estimate a covariance matrix of decorrelated prototype signals from diagonal entries of the matrix obtained by applying to the covariance matrix associated with the downmix signal a prototype rule used in a prototype block for upmixing a downmix signal from a number of downmix channels. mixing into the mentioned number of synthesis channels.

Полосы частот агрегируются друг с другом в группы агрегированных полос частот, при этом информация относительно групп агрегированных полос частот передается во вспомогательной информации потока битов, при этом информация канального уровня и корреляции исходного сигнала обеспечивается в расчете на каждую группу полос частот таким образом, чтобы вычислить одну и ту же по меньшей мере одну матрицу микширования для различных полос частот одной и той же агрегированной группы полос частот.Frequency bands are aggregated with each other into groups of aggregated frequency bands, wherein information regarding the groups of aggregated frequency bands is carried in the bitstream auxiliary information, wherein link layer and source signal correlation information is provided per each group of frequency bands so as to calculate one and the same at least one mixing matrix for different frequency bands of the same aggregate group of frequency bands.

В соответствии с аспектом, может быть предусмотрен аудиокодер для формирования сигнала понижающего микширования из исходного сигнала, причем исходный сигнал имеет множество исходных каналов, причем сигнал понижающего микширования имеет некоторое число каналов понижающего микширования, причем аудиокодер содержит:In accordance with an aspect, an audio encoder may be provided for generating a downmix signal from an original signal, wherein the original signal has a plurality of original channels, wherein the downmix signal has a number of downmix channels, wherein the audio encoder comprises:

- модуль оценки параметров, выполненный с возможностью оценки информации канального уровня и корреляции исходного сигнала, и- a parameter estimation module configured to evaluate link level information and correlate the original signal, and

- модуль записи потоков битов для кодирования сигнала понижающего микширования в поток битов, так что сигнал понижающего микширования кодируется в потоке битов таким образом, что он имеет вспомогательную информацию, включающую в себя информацию канального уровня и корреляции исходного сигнала.- a bitstream recording module for encoding the downmix signal into a bitstream, such that the downmix signal is encoded into the bitstream such that it has auxiliary information including link layer and correlation information of the original signal.

Аудиокодер может быть выполнен с возможностью обеспечения информации канального уровня и корреляции исходного сигнала в качестве нормализованных значений.The audio encoder may be configured to provide link layer information and correlation of the original signal as normalized values.

Информация канального уровня и корреляции исходного сигнала, кодированная во вспомогательной информации, представляет по меньшей мере информацию канального уровня, ассоциированную со всеми исходными каналами.The link layer and source signal correlation information encoded in the auxiliary information represents at least link layer information associated with all source channels.

Информация канального уровня и корреляции исходного сигнала, кодированная во вспомогательной информации, представляет по меньшей мере информацию корреляции, описывающую энергетические взаимосвязи по меньшей мере между одной парой различных исходных каналов, но не всеми исходными каналами.The link layer and source signal correlation information encoded in the auxiliary information represents at least correlation information describing the power relationships between at least one pair of different source channels, but not all of the source channels.

Информация канального уровня и корреляции исходного сигнала включает в себя по меньшей мере одно значение когерентности, описывающее когерентность между двумя каналами из пары исходных каналов.The link layer and source signal correlation information includes at least one coherence value describing coherence between two channels of a pair of source channels.

Значение когерентности может нормализоваться. Значение когерентности может составлять:The coherence value may normalize. The coherence value can be:

, ,

- где является ковариацией между каналами i и j, при этом и соответственно, являются уровнями, ассоциированными с каналами i и j.- Where is the covariance between channels i and j, while And respectively, are the levels associated with channels i and j.

Информация канального уровня и корреляции исходного сигнала включает в себя по меньшей мере одну межканальную разность уровней (ICLD).The link layer and correlation information of the original signal includes at least one inter-channel level difference (ICLD).

По меньшей мере одна ICLD может обеспечиваться в качестве логарифмического значения. По меньшей мере одна ICLD может быть нормализована. ICLD может быть следующей:At least one ICLD may be provided as a logarithmic value. At least one ICLD may be normalized. The ICLD may be as follows:

- где:- Where:

- Xi является ICLD для канала i.- X i is the ICLD for channel i.

- Pi является мощностью текущего канала i- Pi is the power of the current channel i

- Pdmx,i является линейным комбинированием значений ковариационной информации сигнала понижающего микширования.- P dmx,i is a linear combination of the covariance information values of the downmix signal.

Аудиокодер может быть выполнен с возможностью выбора, следует ли кодировать или не кодировать по меньшей мере часть информации канального уровня и корреляции исходного сигнала, на основе информации состояния, таким образом, чтобы включить во вспомогательную информацию увеличенный объем информации канального уровня и корреляции в случае сравнительно меньшего объема рабочих данных.The audio encoder may be configured to select whether or not to encode at least a portion of the link layer and correlation information of the original signal based on the state information, so as to include in the auxiliary information an increased amount of link layer and correlation information in the case of comparatively less volume of working data.

Аудиокодер может быть выполнен с возможностью выбора того, какая часть информации канального уровня и корреляции исходного сигнала должна кодироваться во вспомогательной информации, на основе показателей по каналам, таким образом, чтобы включить информацию канального уровня и корреляции, ассоциированную с более чувствительными показателями, во вспомогательную информацию.The audio encoder may be configured to select how much of the link layer and correlation information of the original signal is to be encoded in the ancillary information, based on the per-channel metrics, so as to include the link layer and correlation information associated with the more sensitive metrics in the ancillary information. .

Информация канального уровня и корреляции исходного сигнала может иметь форму записей матрицы.The link layer and source signal correlation information may be in the form of matrix entries.

Матрица может быть симметричной или эрмитовой, при этом записи информации канального уровня и корреляции предусмотрены для всех или не всех записей на диагонали матрицы и/или менее чем для половины недиагональных элементов матрицы.The matrix may be symmetric or Hermitian, with link layer and correlation information entries provided for all or some of the entries on the diagonal of the matrix and/or for less than half of the non-diagonal elements of the matrix.

Модуль записи потоков битов может быть выполнен с возможностью кодирования идентификационных данных по меньшей мере одного канала.The bitstream recording module may be configured to encode identification data of at least one channel.

Исходный сигнал либо его обработанная версия может разделяться на множество последующих кадров равной продолжительности.The original signal or its processed version can be divided into many subsequent frames of equal duration.

Аудиокодер может быть выполнен с возможностью кодирования информации канального уровня и корреляции исходного сигнала, конкретного для каждого кадра, во вспомогательной информации.The audio encoder may be configured to encode link layer information and correlate the original signal specific to each frame into auxiliary information.

Аудиокодер может быть выполнен с возможностью кодирования во вспомогательной информации одной и той же информации канального уровня и корреляции исходного сигнала, совместно ассоциированного с множеством последовательных кадров.The audio encoder may be configured to encode the same link layer information into the auxiliary information and correlate the original signal collectively associated with a plurality of successive frames.

Аудиокодер может быть выполнен с возможностью выбора числа последовательных кадров, в которых одна и та же информация канального уровня и корреляции исходного сигнала может выбираться таким образом, что:The audio encoder may be configured to select a number of consecutive frames in which the same link layer and source signal correlation information may be selected such that:

- сравнительно более высокая скорость передачи битов или больший объем рабочих данных подразумевает увеличение числа последовательных кадров, с которыми ассоциирована одна и та же информация канального уровня и корреляции исходного сигнала, и наоборот.- A comparatively higher bit rate or larger amount of operating data implies an increase in the number of consecutive frames with which the same link layer and correlation information of the source signal is associated, and vice versa.

Аудиокодер может быть выполнен с возможностью сокращения числа последовательных кадров, с которыми ассоциирована одна и та же информация канального уровня и корреляции исходного сигнала, для обнаружения переходной части.The audio encoder may be configured to reduce the number of consecutive frames with which the same link layer information is associated and correlate the original signal to detect a transient portion.

Каждый кадр может подразделяться на целое число последовательных интервалов.Each frame can be divided into an integer number of consecutive intervals.

Аудиокодер может быть выполнен с возможностью оценки информации канального уровня и корреляции для каждого интервала и кодирования во вспомогательной информации суммы или среднего либо другого заданной линейной комбинации информации канального уровня и корреляции, оцененной для различных интервалов.The audio encoder may be configured to estimate link layer and correlation information for each slot and encode in the auxiliary information the sum or average or other specified linear combination of the link layer information and correlation estimated for different slots.

Аудиокодер может быть выполнен с возможностью выполнения анализа переходных процессов для версии во временной области кадра для определения наличия переходной части в кадре.The audio encoder may be configured to perform transient analysis on the time domain version of the frame to determine the presence of a transient portion in the frame.

Аудиодекодер может быть выполнен с возможностью определения, в каком интервале кадра имеется переходная часть, и:The audio decoder may be configured to determine in which frame interval there is a transition portion, and:

- кодирования информации канального уровня и корреляции исходного сигнала, ассоциированного с интервалом, в котором имеется переходная часть, и/или с последующими интервалами в кадре,- encoding link layer information and correlating the original signal associated with the interval in which there is a transition part, and/or with subsequent intervals in the frame,

- без кодирования информации канального уровня и корреляции исходного сигнала, ассоциированного с интервалами, предшествующими переходной части.- without encoding channel level information and correlating the original signal associated with the intervals preceding the transition part.

Аудиокодер может быть выполнен с возможностью передачи в служебных сигналах во вспомогательной информации наличия переходной части, имеющейся в одном интервале кадра.The audio encoder may be configured to signal in the ancillary information the presence of a transition portion present in one frame interval.

Аудиокодер может быть выполнен с возможностью передачи в служебных сигналах во вспомогательной информации того, в каком интервале кадра имеется переходная часть.The audio encoder may be configured to signal in the ancillary information in which frame interval there is a transition portion.

Аудиокодер может быть выполнен с возможностью оценки информации канального уровня и корреляции исходного сигнала, ассоциированного с множеством интервалов кадра, и их суммирования или усреднения, либо их линейного комбинирования для получения информации канального уровня и корреляции, ассоциированной с кадром.The audio encoder may be configured to estimate link layer and correlation information of an original signal associated with a plurality of frame intervals and sum or average them, or linearly combine them, to obtain link layer and correlation information associated with the frame.

Исходный сигнал может преобразовываться в сигнал частотной области, при этом аудиокодер выполнен с возможностью кодирования , информации канального уровня и корреляции исходного сигнала по полосам частот во вспомогательной информации.The source signal may be converted to a frequency domain signal, wherein the audio encoder is configured to encode , link layer information and correlate the source signal across frequency bands in auxiliary information.

Аудиокодер может быть выполнен с возможностью агрегирования некоторого числа полос частот исходного сигнала в более сокращенное число полос частот таким образом, чтобы кодировать информацию канального уровня и корреляции исходного сигнала по агрегированным полосам частот во вспомогательной информации.The audio encoder may be configured to aggregate a number of frequency bands of the original signal into a more reduced number of frequency bands so as to encode link layer information and correlations of the original signal across the aggregated frequency bands in the auxiliary information.

Аудиокодер может выполнен с возможностью, в случае обнаружения переходной части в кадре, дополнительного агрегирования полос частот таким образом, что:The audio encoder may be configured, if a transient is detected in the frame, to further aggregate frequency bands such that:

- число полос частот уменьшается; и/или- the number of frequency bands is reduced; and/or

- ширина по меньшей мере одной полосы частот увеличивается посредством агрегирования с другой полосой частот.- the width of at least one frequency band is increased by aggregation with another frequency band.

Аудиокодер может быть дополнительно выполнен с возможностью кодирования в потоке битов по меньшей мере одной информации канального уровня и корреляции одной полосы частот в качестве приращения относительно ранее кодированной информации канальной уровня и корреляции.The audio encoder may be further configured to encode into the bitstream at least one link layer information and correlation of one frequency band incrementally relative to the previously encoded link layer information and correlation.

Аудиокодер может быть выполнен с возможностью кодирования во вспомогательной информации потока битов неполной версии информации канального уровня и корреляции относительно информации канального уровня и корреляции, оцененной посредством модуля оценки.The audio encoder may be configured to encode in the bitstream side information a partial version of the link layer information and correlation with respect to the link layer information and the correlation estimated by the estimator.

Аудиокодер может быть выполнен с возможностью адаптивного выбора из всей информации канального уровня и корреляции, оцененной посредством модуля оценки, выбранной информации, которая должна кодироваться во вспомогательной информации потока битов, таким образом, что информация канального уровня и/или корреляции для оставшейся невыбранной информации, оцененная посредством модуля оценки, не кодируется.The audio encoder may be configured to adaptively select, from all the link layer and correlation information estimated by the estimator, the selected information to be encoded in the bit stream auxiliary information, such that the link layer and/or correlation information for the remaining unselected information is estimated via the evaluation module, not coded.

Аудиокодер может быть выполнен с возможностью восстановления информации канального уровня и корреляции из выбранной информации канального уровня и корреляции, за счет этого моделируя оценку в декодере невыбранной информации канального уровня и корреляции, и вычисления информации об ошибках между:The audio encoder may be configured to recover link layer and correlation information from selected link layer and correlation information, thereby simulating evaluation at the decoder of unselected link layer and correlation information, and calculating error information between:

- невыбранной информацией канального уровня и корреляции, оцененной посредством кодера; и- unselected link layer information and correlation estimated by the encoder; And

- невыбранной информацией канального уровня и корреляции, восстановленной посредством моделирования оценки, в декодере, некодированной информации канального уровня и корреляции; и- unselected link layer and correlation information recovered by estimation modeling, in the decoder, uncoded link layer and correlation information; And

- таким образом, чтобы отличать на основании вычисленной информации об ошибках:- in such a way as to distinguish, based on the calculated error information:

- восстанавливаемую надлежащим образом информацию канального уровня и корреляции;- properly restored link layer and correlation information;

- от невосстанавливаемой надлежащим образом информации канального уровня и корреляции,- from data link level and correlation that cannot be properly restored,

- таким образом, чтобы принимать решение в отношении:- in such a way as to make decisions regarding:

- выбора невосстанавливаемой надлежащим образом информации канального уровня и корреляции, которая должна кодироваться во вспомогательной информации потока битов; и- selection of properly unrecoverable link layer and correlation information to be encoded in the bit stream auxiliary information; And

- невыбора восстанавливаемой надлежащим образом информации канального уровня и корреляции, в силу этого отказываясь от кодирования во вспомогательной информации потока битов восстанавливаемой надлежащим образом информации канального уровня и корреляции.- failure to select properly recoverable link layer and correlation information, thereby not encoding properly recoverable link layer and correlation information into the bitstream auxiliary information.

Информация канального уровня и корреляции может индексироваться согласно заданному упорядочению, при этом кодер выполнен с возможностью передачи в служебных сигналах во вспомогательной информации потока битов индексов, ассоциированных с заданным упорядочением, причем индексы указывают, какая из информации канального уровня и корреляции кодируется. Индексы обеспечиваются через битовую карту. Индексы могут задаваться согласно комбинаторной системе счисления, ассоциирующей одномерный индекс с записями матрицы.The link layer and correlation information may be indexed according to a given ordering, wherein the encoder is configured to signal in the auxiliary information a stream of bits of indices associated with the given ordering, the indices indicating which of the link layer and correlation information is encoded. Indexes are provided via a bitmap. Indexes can be specified according to a combinatorial number system that associates a one-dimensional index with matrix entries.

Аудиокодер может быть выполнен с возможностью выполнения выбора между:The audio encoder may be configured to select between:

- адаптивным обеспечением информации канального уровня и корреляции, в которой индексы, ассоциированные с заданным упорядочением, кодируются во вспомогательной информации потока битов; и- adaptive provision of link layer information and correlation, in which indices associated with a given ordering are encoded in the auxiliary information of the bit stream; And

- фиксированным обеспечением информации канального уровня и корреляции таким образом, чтобы информация канального уровня и корреляции, которая кодируется, задавалась и упорядочивалась согласно заданному фиксированному упорядочению без обеспечения индексов.- fixedly providing link layer and correlation information such that the link layer and correlation information that is encoded is specified and ordered according to a given fixed ordering without providing indexes.

Аудиокодер может быть выполнен с возможностью передачи в служебных сигналах во вспомогательной информации потока битов то, обеспечена ли информация канального уровня и корреляции согласно адаптивному обеспечению или согласно фиксированному обеспечению.The audio encoder may be configured to signal in the bitstream side information whether link layer and correlation information is provided according to adaptive provision or according to fixed provision.

Аудиокодер может быть дополнительно выполнен с возможностью кодирования в потоке битов текущей информации канального уровня и корреляции в качестве приращения относительно предыдущей информации канального уровня и корреляции.The audio encoder may be further configured to encode current link layer and correlation information into the bitstream as an increment relative to previous link layer and correlation information.

Аудиокодер может быть дополнительно выполнен с возможностью формирования сигнала понижающего микширования согласно статическому понижающему микшированию.The audio encoder may be further configured to generate a downmix signal according to the static downmix.

В соответствии с аспектом, предусмотрен способ формирования сигнала синтеза из сигнала понижающего микширования, причем сигнал синтеза имеет некоторое число каналов синтеза, причем способ содержит:According to an aspect, there is provided a method for generating a synthesis signal from a downmix signal, the synthesis signal having a number of synthesis channels, the method comprising:

- прием сигнала понижающего микширования, причем сигнал понижающего микширования имеет некоторое число каналов понижающего микширования и вспомогательную информацию, причем вспомогательная информация включает в себя:- receiving a downmix signal, wherein the downmix signal has a number of downmix channels and auxiliary information, wherein the auxiliary information includes:

- информация канального уровня и корреляции исходного сигнала, причем исходный сигнал имеет некоторое число исходных каналов;- link level information and correlation of the source signal, wherein the source signal has a certain number of source channels;

- формирование сигнала синтеза с использованием информации (220) канального уровня и корреляции исходного сигнала и ковариационной информации, ассоциированной с сигналом.- generating a synthesis signal using channel level information (220) and correlation of the original signal and covariance information associated with the signal.

Способ может содержать:The method may contain:

- вычисление прототипного сигнала из сигнала понижающего микширования, причем прототипный сигнал имеет некоторое число каналов синтеза;- calculating a prototype signal from the downmix signal, wherein the prototype signal has a certain number of synthesis channels;

- вычисление правила микширования с использованием информации канального уровня и корреляции исходного сигнала и ковариационной информации, ассоциированной с сигналом понижающего микширования; и- calculating a mixing rule using link layer information and correlation of the original signal and covariance information associated with the downmixing signal; And

- формирование сигнала синтеза с использованием прототипного сигнала и правила микширования.- generation of a synthesis signal using a prototype signal and mixing rules.

В соответствии с аспектом, предусмотрен способ формирования сигнала понижающего микширования из исходного сигнала, причем исходный сигнал имеет некоторое число исходных каналов, причем сигнал понижающего микширования имеет некоторое число каналов понижающего микширования, при этом способ содержит:According to an aspect, there is provided a method for generating a downmix signal from an original signal, wherein the original signal has a number of original channels, wherein the downmix signal has a number of downmix channels, the method comprising:

- оценку информации канального уровня и корреляции исходного сигнала,- assessment of channel level information and correlation of the original signal,

- кодирование сигнала понижающего микширования в поток битов, так что сигнал понижающего микширования кодируется в потоке битов таким образом, что он имеет вспомогательную информацию, включающую в себя информацию канального уровня и корреляции исходного сигнала.- encoding the downmix signal into a bitstream, such that the downmix signal is encoded into the bitstream such that it has auxiliary information including link layer and correlation information of the original signal.

В соответствии с аспектом, предусмотрен способ формирования сигнала синтеза из сигнала понижающего микширования, имеющего некоторое число каналов понижающего микширования, причем сигнал синтеза имеет некоторое число каналов синтеза, при этом сигнал понижающего микширования представляет собой микшированную с понижением версию исходного сигнала, имеющего некоторое число исходных каналов, при этом способ содержит следующие фазы:In accordance with an aspect, there is provided a method for generating a synthesis signal from a downmix signal having a number of downmix channels, wherein the synthesis signal has a number of synthesis channels, wherein the downmix signal is a downmixed version of an original signal having a number of original channels. , and the method contains the following phases:

- первую фазу, включающую в себя:- the first phase, which includes:

- синтез первого компонента сигнала синтеза согласно первой матрице микширования, вычисленной из:- synthesis of the first component of the synthesis signal according to the first mixing matrix calculated from:

- ковариационной матрицы, ассоциированной с сигналом синтеза; и- covariance matrix associated with the synthesis signal; And

- ковариационной матрицы, ассоциированной с сигналом понижающего микширования.- a covariance matrix associated with the downmix signal.

- вторую фазу для синтеза второго компонента сигнала синтеза, при этом второй компонент представляет собой остаточный компонент, причем вторая фаза включает в себя:- a second phase for synthesizing a second component of the synthesis signal, wherein the second component is a residual component, wherein the second phase includes:

- этап обработки прототипных сигналов, сводящий с повышением сигнал понижающего микширования из упомянутого числа каналов понижающего микширования в упомянутое число каналов синтеза;- a prototype signal processing step that upmixes the downmix signal from said number of downmix channels into said number of synthesis channels;

- этап декорреляции, декоррелирующий микшированный с повышением прототипный сигнал;- decorrelation stage, decorrelating the upmixed prototype signal;

- этап обработки вторых матриц микширования, синтезирующий второй компонент сигнала синтеза согласно второй матрице микширования из декоррелированной версии сигнала понижающего микширования, причем вторая матрица микширования представляет собой матрицу остаточного микширования,- a second mixing matrix processing step that synthesizes a second component of the synthesis signal according to a second mixing matrix from a decorrelated version of the downmixing signal, wherein the second mixing matrix is a residual mixing matrix,

- при этом способ вычисляет вторую матрицу микширования из:- in this case, the method calculates the second mixing matrix from:

- остаточной ковариационной матрицы, обеспеченной посредством этапа обработки первых матриц микширования; и- a residual covariance matrix provided by the first mixing matrix processing step; And

- оценки ковариационной матрицы декоррелированных прототипных сигналов, полученной из ковариационной матрицы, ассоциированной с сигналом понижающего микширования,- estimating the covariance matrix of decorrelated prototype signals obtained from the covariance matrix associated with the downmix signal,

- при этом способ дополнительно содержит этап суммирования, суммирующий первый компонент сигнала синтеза со вторым компонентом сигнала синтеза, за счет этого получая сигнал синтеза.- wherein the method further comprises a summing step summing the first component of the synthesis signal with the second component of the synthesis signal, thereby obtaining a synthesis signal.

В соответствии с аспектом, предусмотрено устройство синтеза аудиоданных для формирования сигнала синтеза из сигнала понижающего микширования, причем сигнал синтеза имеет некоторое число каналов синтеза, причем число каналов синтеза больше одного или больше двух, причем устройство синтеза аудиоданных содержит по меньшей мере одно из:According to an aspect, an audio data synthesis apparatus is provided for generating a synthesis signal from the downmix signal, the synthesis signal having a number of synthesis channels, the number of synthesis channels being greater than one or greater than two, the audio data synthesis apparatus comprising at least one of:

- входного интерфейса, выполненного с возможностью приема сигнала понижающего микширования, причем сигнал понижающего микширования имеет по меньшей мере один канал понижающего микширования и вспомогательную информацию, причем вспомогательная информация включает в себя по меньшей мере одно из:- an input interface configured to receive a downmix signal, wherein the downmix signal has at least one downmix channel and auxiliary information, wherein the auxiliary information includes at least one of:

- информации канального уровня и корреляции исходного сигнала, причем исходный сигнал имеет некоторое число исходных каналов, причем число исходных каналов больше одного или больше двух;- link level information and correlation of the source signal, wherein the source signal has a certain number of source channels, and the number of source channels is more than one or more than two;

- такой части, как модуль вычисления прототипных сигналов (например, «вычисление прототипных сигналов»), выполненный с возможностью вычисления прототипного сигнала из сигнала понижающего микширования, причем прототипный сигнал имеет некоторое число каналов синтеза;- such a part as a prototype signal calculation module (for example, “prototype signal calculation”), configured to calculate a prototype signal from a downmix signal, wherein the prototype signal has a number of synthesis channels;

- такой части, как модуль вычисления правил микширования (например, «восстановление параметров»), выполненный с возможностью вычисления одного (или более) правил микширования (например, матрицы микширования) с использованием информации канального уровня и корреляции исходного сигнала, ковариационной информации, ассоциированной с сигналом понижающего микширования; и- such a part as a mixing rules calculation module (for example, “parameter recovery”), configured to calculate one (or more) mixing rules (for example, a mixing matrix) using link level information and correlation of the original signal, covariance information associated with downmix signal; And

- такой части, как процессор синтеза, например, «механизм синтеза»), выполненный с возможностью формирования сигнала синтеза с использованием прототипного сигнала и правила микширования.- such a part as a synthesis processor, for example, a “synthesis engine”), configured to generate a synthesis signal using a prototype signal and a mixing rule.

Число каналов синтеза может превышать число исходных каналов. В качестве альтернативы, число каналов синтеза может быть меньше числа исходных каналов.The number of synthesis channels can exceed the number of original channels. Alternatively, the number of synthesis channels may be less than the number of source channels.

Устройство синтеза аудиоданных (и, в частности, в некоторых аспектах, модуль вычисления правил микширования) может быть выполнено с возможностью восстановления целевой версии исходной информации канального уровня и корреляции.The audio data synthesis apparatus (and, in particular, in some aspects, the mixing rules computation module) may be configured to reconstruct a target version of the original link layer and correlation information.

Устройство синтеза аудиоданных (и, в частности, в некоторых аспектах, модуль вычисления правил микширования) может быть выполнено с возможностью восстановления целевой версии исходной информации канального уровня и корреляции, адаптированной к числу каналов сигнала синтеза.The audio synthesis apparatus (and, in particular, in some aspects, the mixing rule calculation module) may be configured to reconstruct a target version of the original link layer information and correlation adapted to the number of channels of the synthesis signal.

Устройство синтеза аудиоданных (и, в частности, в некоторых аспектах, модуль вычисления правил микширования) может быть выполнено с возможностью восстановления целевой версии исходной информации канального уровня и корреляции на основе оцененной версии исходной информации канального уровня и корреляции.The audio data synthesis apparatus (and, in particular, in some aspects, the mixing rule calculation module) may be configured to recover a target version of the original link layer and correlation information based on the estimated version of the original link layer and correlation information.

Устройство синтеза аудиоданных (и, в частности, в некоторых аспектах, модуль вычисления правил микширования) может быть выполнено с возможностью получения оцененной версии исходной информации канального уровня и корреляции из ковариационной информации, ассоциированной с сигналом понижающего микширования.The audio data synthesis apparatus (and, in particular, in some aspects, the mixing rule calculation module) may be configured to obtain an estimated version of the original link layer information and correlation from the covariance information associated with the downmix signal.

Устройство синтеза аудиоданных (и, в частности, в некоторых аспектах, модуль вычисления правил микширования) может быть выполнено с возможностью получения оцененной версии исходной информации канального уровня и корреляции посредством применения к ковариационной информации, ассоциированной с сигналом понижающего микширования, правила оценки, ассоциированного с прототипным правилом, используемым модулем вычисления прототипных сигналов (например, «вычисление прототипных сигналов») для вычисления прототипного сигнала.An audio data synthesis apparatus (and, in particular, in some aspects, a mixing rule calculation module) may be configured to obtain an estimated version of the original link layer information and correlation by applying to the covariance information associated with the downmix signal an evaluation rule associated with the prototype the rule used by the prototype signal computation module (for example, "prototype signal computation") to calculate the prototype signal.

Устройство синтеза аудиоданных (и, в частности, в некоторых аспектах, модуль вычисления правил микширования) может быть выполнено с возможностью извлечения из вспомогательной информации сигнала понижающего микширования:The audio synthesis apparatus (and, in particular, in some aspects, the mixing rules computation module) may be configured to extract a downmix signal from the auxiliary information:

- ковариационной информации, ассоциированной с сигналом понижающего микширования, описывающим уровень первых каналов или энергетическую взаимосвязь между парой каналов в сигнале понижающего микширования; и- covariance information associated with the downmix signal describing the level of the first channels or the energy relationship between a pair of channels in the downmix signal; And

- информации канального уровня и корреляции исходного сигнала, описывающего уровень первого канала или энергетическую взаимосвязь между парой каналов в исходном сигнале,- link level information and correlation of the original signal describing the level of the first channel or the energy relationship between a pair of channels in the original signal,

- таким образом, чтобы восстановить целевую версию исходной информации канального уровня и корреляции посредством использования по меньшей мере одного из:- so as to reconstruct the target version of the original link layer and correlation information by using at least one of:

- ковариационной информации исходного канала по меньшей мере для одного первого канала или пары каналов; и- covariance information of the original channel for at least one first channel or pair of channels; And

- информации канального уровня и корреляции, описывающей по меньшей мере один второй канал или пару каналов.- link layer and correlation information describing at least one second channel or pair of channels.

Устройство синтеза аудиоданных (и, в частности, в некоторых аспектах, модуль вычисления правил микширования) может быть выполнено с возможностью предпочтения информации канального уровня и корреляции, описывающей канал или пару каналов, а не ковариационной информации исходного канала для одного и того же канала или пары каналов.The audio synthesis apparatus (and, in particular, in some aspects, the mixing rules computation module) may be configured to favor link layer and correlation information describing a channel or pair of channels rather than source channel covariance information for the same channel or pair channels.

Восстановленная целевая версия исходной информации канального уровня и корреляции, описывающей энергетическую взаимосвязь между парой каналов, основана по меньшей мере частично на уровнях, ассоциированных с каждым каналом из пары каналов.The reconstructed target version of the original link layer information and correlation describing the energy relationship between a pair of channels is based at least in part on the layers associated with each channel of the channel pair.

Сигнал понижающего микширования может разделяться на полосы частот или группы полос частот: различная информация канального уровня и корреляции может быть ассоциирована с различными полосами частот или группами полос частот; синтезатор (модуль вычисления прототипных сигналов и, в частности, в некоторых аспектах по меньшей мере один из модуля вычисления правил микширования и процессора синтеза) работает по-разному для различных полос частот или групп полос частот, чтобы получать различные правила микширования для различных полос частот или групп полос частот.The downmix signal may be divided into frequency bands or groups of frequency bands: different link layer and correlation information may be associated with different frequency bands or groups of frequency bands; the synthesizer (the prototype signal calculator and, in particular, in some aspects, at least one of the mixing rule calculation module and the synthesis processor) operates differently for different frequency bands or groups of frequency bands to obtain different mixing rules for different frequency bands or groups of frequency bands.

Сигнал понижающего микширования может разделяться на интервалы, при этом различная информация канального уровня и корреляции ассоциирована с различными интервалами, и по меньшей мере один из компонента синтезатора (например, модуль вычисления прототипных сигналов, модуль вычисления правил микширования, процессор синтеза или другие элементы синтезатора) работает по-разному для различных интервалов, чтобы получать различные правила микширования для различных интервалов.The downmix signal may be divided into slots, with various link layer and correlation information associated with different slots, and at least one of the synthesizer components (e.g., a prototype signal computer, a mixing rule computer, a synthesis processor, or other synthesizer elements) is operating differently for different intervals to obtain different mixing rules for different intervals.

Синтезатор (например, модуль вычисления прототипных сигналов) может быть выполнен с возможностью выбора прототипного правила, выполненного с возможностью вычисления прототипного сигнала на основе числа каналов синтеза.A synthesizer (eg, a prototype signal computation module) may be configured to select a prototype rule configured to compute a prototype signal based on the number of synthesis channels.

Синтезатор (например, модуль вычисления прототипных сигналов) может быть выполнен с возможностью выбора прототипного правила из множества предварительно сохраненных прототипных правил.A synthesizer (eg, a prototype signal computation module) may be configured to select a prototype rule from a plurality of pre-stored prototype rules.

Синтезатор (например, модуль вычисления прототипных сигналов) может быть выполнен с возможностью определения прототипного правила на основе выбора вручную.A synthesizer (eg, a prototype signal computation module) may be configured to determine a prototype rule based on manual selection.

Синтезатор (например, модуль вычисления прототипных сигналов) может включать в себя матрицу с первой и второй размерностями, при этом первая размерность ассоциирована с числом каналов понижающего микширования, и вторая размерность ассоциирована с числом каналов синтеза.A synthesizer (eg, a prototype signal processor) may include a matrix of first and second dimensions, wherein the first dimension is associated with the number of downmix channels and the second dimension is associated with the number of synthesis channels.

Устройство синтеза аудиоданных (например, модуль вычисления прототипных сигналов) может быть выполнено с возможностью работы на скорости передачи битов, равной или меньшей, чем 64 Кбит/с или 160 Кбит/с.An audio data synthesis apparatus (eg, a prototype signal computation module) may be configured to operate at a bit rate equal to or less than 64 Kbps or 160 Kbps.

Вспомогательная информация может включать в себя идентификационные данные исходных каналов (например, L, R, C и т.д.).The auxiliary information may include identification data of the original channels (eg, L, R, C, etc.).

Устройство синтеза аудиоданных (и, в частности, в некоторых аспектах, модуль вычисления правил микширования) может быть выполнено с возможностью вычисления (например, «восстановление параметров») правила микширования (например, матрицы микширования) с использованием информации канального уровня и корреляции исходного сигнала, ковариационной информации, ассоциированной с сигналом понижающего микширования, и идентификационных данных исходных каналов и идентификационных данных каналов синтеза.An audio data synthesis apparatus (and, in particular, in some aspects, a mixing rule computation module) may be configured to compute (e.g., "parameter recovery") a mixing rule (e.g., a mixing matrix) using link layer information and correlation of the original signal. covariance information associated with the downmix signal; and source channel identities and synthesis channel identities.

Устройство синтеза аудиоданных может выбирать (например, посредством выбора, к примеру, выбора вручную либо посредством предварительного выбора, либо автоматически, например, посредством распознавания числа громкоговорителей), для сигнала синтеза, число каналов независимо по меньшей мере от одной из информации канального уровня и корреляции исходного сигнала во вспомогательной информации.An audio synthesis apparatus may select (e.g., by selecting, e.g., manually selecting either through preselection or automatically, e.g., by recognizing the number of speakers), for the synthesis signal, the number of channels independent of at least one of link layer and correlation information the original signal in the auxiliary information.

Устройство синтеза аудиоданных может выбирать различные прототипные правила для различных выборов в некоторых примерах. Модуль вычисления правил микширования может быть выполнен с возможностью вычисления правила микширования.The audio synthesis apparatus may select different prototype rules for different choices in some examples. The mixing rule calculation module may be configured to calculate the mixing rule.

В соответствии с аспектом, предусмотрен способ формирования сигнала синтеза из сигнала понижающего микширования, причем сигнал синтеза имеет некоторое число каналов синтеза, причем число каналов синтеза больше одного или больше двух, при этом способ содержит:According to an aspect, there is provided a method for generating a synthesis signal from a downmix signal, wherein the synthesis signal has a number of synthesis channels, wherein the number of synthesis channels is greater than one or greater than two, the method comprising:

- прием сигнала понижающего микширования, причем сигнал понижающего микширования имеет по меньшей мере один канал понижающего микширования и вспомогательную информацию, причем вспомогательная информация включает в себя:- receiving a downmix signal, wherein the downmix signal has at least one downmix channel and auxiliary information, wherein the auxiliary information includes:

- информацию канального уровня и корреляции исходного сигнала, причем исходный сигнал имеет некоторое число исходных каналов, причем число исходных каналов больше одного или больше двух;- link level information and correlation of the source signal, wherein the source signal has a certain number of source channels, and the number of source channels is more than one or more than two;

- вычисление прототипного сигнала из сигнала понижающего микширования, причем прототипный сигнал имеет некоторое число каналов синтеза;- calculating a prototype signal from the downmix signal, wherein the prototype signal has a certain number of synthesis channels;

- вычисление правила микширования с использованием информации канального уровня и корреляции исходного сигнала, ковариационной информации, ассоциированной с сигналом понижающего микширования; и- calculating a mixing rule using link level information and correlation of the original signal, covariance information associated with the downmixing signal; And

- формирование сигнала синтеза с использованием прототипного сигнала и правила микширования (например, правила).- generation of a synthesis signal using a prototype signal and mixing rules (for example, rules).

В соответствии с аспектом, предусмотрен аудиокодер для формирования сигнала понижающего микширования из исходного сигнала (например, y), причем исходный сигнал имеет по меньшей мере два канала, причем сигнал понижающего микширования имеет по меньшей мере один канал понижающего микширования, причем аудиокодер содержит по меньшей мере одно из:In accordance with an aspect, an audio encoder is provided for generating a downmix signal from a source signal (e.g., y), wherein the source signal has at least two channels, wherein the downmix signal has at least one downmix channel, wherein the audio encoder comprises at least one of:

- модуля оценки параметров, выполненного с возможностью оценки информации канального уровня и корреляции исходного сигнала,- parameter estimation module, configured to evaluate channel level information and correlate the original signal,

- модуля записи потоков битов для кодирования сигнала понижающего микширования в поток битов таким образом, что сигнал понижающего микширования кодируется в потоке битов так образом, что он имеет вспомогательную информацию, включающую в себя информацию канального уровня и корреляции исходного сигнала.- a bitstream recording module for encoding the downmix signal into a bitstream such that the downmix signal is encoded into the bitstream such that it has auxiliary information including link layer and correlation information of the original signal.

Информация канального уровня и корреляции исходного сигнала, кодированная во вспомогательной информации, представляет информацию канального уровня, ассоциированную не со всеми каналами исходного сигнала.The link layer and source signal correlation information encoded in the auxiliary information represents link layer information associated with not all channels of the source signal.

Информация канального уровня и корреляции исходного сигнала, кодированная во вспомогательной информации, представляет информацию корреляции, описывающую энергетические взаимосвязи по меньшей мере между одной парой различных каналов в исходном сигнале, но не со всеми каналами исходного сигнала.The link layer and correlation information of the original signal encoded in the auxiliary information represents correlation information describing the power relationships between at least one pair of different channels in the original signal, but not with all channels of the original signal.

Информация канального уровня и корреляции исходного сигнала может включать в себя по меньшей мере одно значение когерентности, описывающее когерентность между двумя каналами из пары каналов.The link layer and source signal correlation information may include at least one coherence value describing the coherence between two channels of a pair of channels.

Информация канального уровня и корреляции исходного сигнала может включать в себя по меньшей мере одну межканальную разность уровней (ICLD) между двумя каналами из пары каналов.The link layer and correlation information of the original signal may include at least one inter-channel level difference (ICLD) between two channels of a channel pair.

Аудиокодер может быть выполнен с возможностью выбора, следует ли кодировать или не кодировать по меньшей мере часть информации канального уровня и корреляции исходного сигнала, на основе информации состояния, таким образом, чтобы включить во вспомогательную информацию увеличенный объем информации канального уровня и корреляции в случае сравнительно более низкой перегрузки.The audio encoder may be configured to select whether or not to encode at least a portion of the link layer and correlation information of the original signal based on the state information, so as to include in the auxiliary information an increased amount of link layer and correlation information in the case of relatively more low overload.

Аудиокодер может быть выполнен с возможностью выбора того, следует ли решать, какая часть информацию канального уровня и корреляции исходного сигнала должна кодироваться во вспомогательной информации, на основе показателей по каналам, таким образом, чтобы включить информацию канального уровня и корреляции, ассоциированную с более чувствительными показателями (например, с показателями, которые ассоциированы с более перцепционно значимой ковариацией) во вспомогательную информацию.The audio encoder may be configured to select whether to decide what portion of the link layer and correlation information of the original signal should be encoded in the auxiliary information based on the channel-by-channel metrics, so as to include the link layer and correlation information associated with more sensitive metrics (e.g., with measures that are associated with more perceptually significant covariation) into auxiliary information.

Информация канального уровня и корреляции исходного сигнала может иметь форму матрицы.The link layer and correlation information of the original signal may be in the form of a matrix.

Модуль записи потоков битов может быть выполнен с возможностью кодирования идентификационных данных по меньшей мере одного канала.The bitstream recording module may be configured to encode identification data of at least one channel.

В соответствии с аспектом, предусмотрен способ формирования сигнала понижающего микширования из исходного сигнала, причем исходный сигнал имеет по меньшей мере два канала, причем сигнал понижающего микширования имеет по меньшей мере один канал понижающего микширования.According to an aspect, there is provided a method for generating a downmix signal from an original signal, wherein the original signal has at least two channels, wherein the downmix signal has at least one downmix channel.

Способ может содержать:The method may contain:

- оценку информации канального уровня и корреляции исходного сигнала,- assessment of channel level information and correlation of the original signal,

- кодирование сигнала понижающего микширования в поток битов, так что сигнал понижающего микширования кодируется в потоке битов таким образом, что он имеет вспомогательную информацию, включающую в себя информацию канального уровня и корреляции исходного сигнала.- encoding the downmix signal into a bitstream, such that the downmix signal is encoded into the bitstream such that it has auxiliary information including link layer and correlation information of the original signal.

Аудиокодер может быть агностическим относительно декодера. Устройство синтеза аудиоданных может быть агностическим относительно декодера.The audio encoder may be decoder agnostic. The audio synthesis device may be decoder agnostic.

В соответствии с аспектом, предусмотрена система, содержащая устройство синтеза аудиоданных, описанное выше или ниже, и аудиокодер, описанный выше или ниже.In accordance with an aspect, there is provided a system comprising an audio data synthesis apparatus described above or below and an audio encoder described above or below.

В соответствии с аспектом, предусмотрен постоянный блок хранения, сохраняющий инструкции, которые при выполнении процессором предписывают процессору осуществлять способ, описанный выше или ниже.In accordance with an aspect, a persistent storage unit is provided storing instructions that, when executed by a processor, cause the processor to carry out a method described above or below.

3. Примеры3. Examples

3.1. Краткое описание чертежей3.1. Brief description of drawings

Фиг. 1 показывает упрощенное общее представление обработки согласно изобретению.Fig. 1 shows a simplified overview of the processing according to the invention.

Фиг. 2a показывает аудиокодер согласно изобретению.Fig. 2a shows an audio encoder according to the invention.

Фиг. 2b показывает другой вид аудиокодера согласно изобретению.Fig. 2b shows another view of an audio encoder according to the invention.

Фиг. 2c показывает другой вид аудиокодера согласно изобретению.Fig. 2c shows another view of an audio encoder according to the invention.

Фиг. 2d показывает другой вид аудиокодера согласно изобретению.Fig. 2d shows another view of an audio encoder according to the invention.

Фиг. 3a показывает устройство синтеза аудиоданных (декодер) согласно изобретению.Fig. 3a shows an audio synthesis device (decoder) according to the invention.

Фиг. 3b показывает другой вид устройства синтеза аудиоданных (декодера) согласно изобретению.Fig. 3b shows another view of an audio synthesis device (decoder) according to the invention.

Фиг. 3c показывает другой вид устройства синтеза аудиоданных (декодера) согласно изобретению.Fig. 3c shows another view of an audio synthesis device (decoder) according to the invention.

Фиг. 4a-4d показывают примеры ковариационного синтеза.Fig. 4a-4d show examples of covariance synthesis.

Фиг. 5 показывает пример гребенки фильтров для аудиокодера согласно изобретению.Fig. 5 shows an example of a filter bank for an audio encoder according to the invention.

Фиг. 6a-6c показывают примеры работы аудиокодера согласно изобретению.Fig. 6a-6c show examples of operation of an audio encoder according to the invention.

Фиг. 7 показывает пример уровня техники.Fig. 7 shows an example of the prior art.

Фиг. 8a-8c показывают примеры того, каким образом получается ковариационная информация согласно изобретению.Fig. 8a-8c show examples of how covariance information is obtained according to the invention.

Фиг. 9a-9d показывают примеры матриц межканальной когерентности.Fig. 9a-9d show examples of inter-channel coherence matrices.

Фиг. 10a-10b показывают примеры кадров.Fig. 10a-10b show example frames.

Фиг. 11 показывает схему, используемую посредством декодера для получения матрицы микширования.Fig. 11 shows a circuit used by a decoder to obtain a mixing matrix.

3.2. Осуществление изобретения3.2. Carrying out the invention

Показано, что примеры основаны на кодере, сводящем с понижением сигнал 212 и передающем информацию 220 канального уровня и корреляции в декодер. Декодер может формировать правило микширования (например, матрицу микширования) из информации 220 канального уровня и корреляции. Информация, которая является важной для формирования правила микширования, может включать в себя ковариационную информацию (например, ковариационную матрицу Cy) исходного сигнала 212 и ковариационную информацию (например, ковариационную матрицу Cx) сигнала понижающего микширования. Хотя ковариационная матрица Cx может непосредственно оцениваться посредством декодера посредством анализа сигнала понижающего микширования, ковариационная матрица Cy исходного сигнала 212 легко оценивается посредством декодера. Ковариационная матрица Cy исходного сигнала 212, в общем, представляет собой симметричную матрицу (например, матрицу 5×5 в случае 5-канального исходного сигнала 212): в то время, когда матрица представляет, на диагонали, уровень каждого канала, она представляет ковариации между каналами в недиагональных записях. Матрица является диагональной, поскольку ковариация между общими каналами i и j является одинаковой с ковариацией между j и i. Следовательно, для передачи в декодер целой ковариационной информации необходимо передавать в служебных сигналах в декодер 5 уровней в диагональных записях и 10 ковариаций для недиагональных записей. Тем не менее, показано, что можно уменьшать объем информации, которая должна кодироваться.The examples are shown to be based on an encoder downmixing a signal 212 and passing link layer and correlation information 220 to a decoder. The decoder may generate a mixing rule (eg, a mixing matrix) from the link layer and correlation information 220. Information that is important for generating the mixing rule may include covariance information (eg, covariance matrix Cy) of the original signal 212 and covariance information (eg, covariance matrix C x ) of the downmix signal. Although the covariance matrix C x can be directly estimated by the decoder by analyzing the downmix signal, the covariance matrix C y of the original signal 212 is easily estimated by the decoder. The covariance matrix C y of the source signal 212 is generally a symmetric matrix (for example, a 5x5 matrix in the case of a 5-channel source signal 212): while the matrix represents, on the diagonal, the level of each channel, it represents the covariances between channels in off-diagonal entries. The matrix is diagonal because the covariance between common channels i and j is the same as the covariance between j and i. Therefore, to transmit entire covariance information to the decoder, it is necessary to signal 5 levels in diagonal records and 10 covariances for off-diagonal records to the decoder. However, it has been shown that it is possible to reduce the amount of information that must be encoded.

Кроме того, показано, что в некоторых случаях, вместо уровней и ковариаций, могут обеспечиваться нормализованные значения. Например, могут обеспечиваться межканальные когерентности (ICC, также указываемые с помощью ξi, j) и межканальные разности уровней (ICLD, также указываемые с помощью Xi), указывающие значения энергии. ICC, например, могут представлять собой корреляционные значения, обеспеченные вместо ковариаций для недиагональных записей матрицы Cy. Пример информации корреляции может иметь форму . В некоторых примерах, только часть ξi, j фактически кодируется.In addition, it is shown that in some cases, normalized values can be provided instead of levels and covariances. For example, inter-channel coherences (ICC, also indicated by ξi , j ) and inter-channel level differences (ICLD, also indicated by Xi ) indicating energy values may be provided. ICCs, for example, may be correlation values provided in place of covariances for off-diagonal entries of the matrix C y . An example of correlation information could be of the form . In some examples, only the ξ i , j portion is actually encoded.

Таким образом формируется матрица ICC. Диагональные записи матрицы ICC в принципе должны одинаково составлять 1, и в силу этого не обязательно кодировать их в потоке битов. Тем не менее, следует понимать, что кодер может передавать в декодер ICLD, например, в форме (см. также ниже). В некоторых примерах, все Xi фактически кодируются.In this way, the ICC matrix is formed. The diagonal entries of the ICC matrix should in principle be equal to 1, and as such do not necessarily need to be encoded in the bitstream. However, it should be understood that the encoder may provide an ICLD to the decoder, for example in the form (see also below). In some examples, all X i's are actually encoded.

Фиг. 9a-9d показывают примеры матрицы 900 ICC, с диагональными значениями "d", которые могут представлять собой ICLD Xi, и недиагональными значениями, указываемыми 902, 904, 905, 906, 907 (см. ниже), которые могут представлять собой ICC ξi, j.Fig. 9a-9d show examples of an ICC matrix 900, with diagonal values "d" which may represent ICLD X i and off-diagonal values indicated 902, 904, 905, 906, 907 (see below) which may represent ICC ξ i , j .

В настоящем документе, произведение между матрицами указывается посредством отсутствия символа. Например, произведение между матрицей A и матрицей B указывается посредством AB. Сопряженное транспонирование матрицы указывается с помощью звездочки (*).In this document, the product between matrices is indicated by the absence of a symbol. For example, the product between matrix A and matrix B is indicated by AB. The conjugate transposition of a matrix is indicated by an asterisk (*).

При обращении к диагонали, она служит в качестве главной диагонали.When referring to a diagonal, it serves as the main diagonal.

3.3. Настоящее изобретение3.3. The present invention

Фиг. 1 показывает аудиосистему 100 со стороной кодера и стороной декодера. Сторона кодера может осуществляться посредством кодера 200 и может получать аудиосигнал 212, например, из модуля аудиодатчика (например, микрофонов), либо может получаться из модуля хранения или из удаленного модуля (например, через радиопередачу). Сторона декодера может осуществляться посредством аудиодекодера 300 (устройства синтеза аудиоданных), который может передавать аудиосодержимое в модуль воспроизведения аудио (например, громкоговорители). Кодер 200 и декодер 300 могут обмениваться данными между собой, например, через канал связи, который может быть проводным или беспроводным (например, через радиочастотные волны, свет или ультразвук и т.д.). Кодер и/или декодер в силу этого могут включать в себя или соединяться с модулями связи (например, антеннами, приемо-передающими устройствами и т.д.) для передачи кодированного потока 248 битов из кодера 200 в декодер 300. В некоторых случаях, кодер 200 может сохранять кодированный поток 248 битов в модуле хранения (например, в оперативном запоминающем устройстве, во флэш-памяти и т.д.), для будущего использования. Аналогично, декодер 300 может считывать поток 248 битов, сохраненный в модуле хранения. В некоторых примерах, кодер 200 и декодер 300 могут представлять собой одно и то же устройство: после кодирования и сохранения потока 248 битов, устройство, возможно, должно считывать его для воспроизведения аудиосодержимого.Fig. 1 shows an audio system 100 with an encoder side and a decoder side. The encoder side may be implemented by encoder 200 and may receive audio signal 212, for example, from an audio sensor module (eg, microphones), or may be received from a storage module or from a remote module (eg, via radio transmission). The decoder side may be implemented by an audio decoder 300 (audio data synthesis device), which may transmit audio content to an audio playback module (eg, speakers). Encoder 200 and decoder 300 may communicate with each other, for example, through a communication channel, which may be wired or wireless (eg, radio frequency waves, light or ultrasound, etc.). The encoder and/or decoder may therefore include or couple to communication modules (eg, antennas, transceivers, etc.) to transmit a coded 248 bit stream from encoder 200 to decoder 300. In some cases, the encoder 200 may store the encoded stream of 248 bits in a storage module (eg, random access memory, flash memory, etc.) for future use. Likewise, decoder 300 may read a 248 bit stream stored in the storage module. In some examples, encoder 200 and decoder 300 may be the same device: after encoding and storing a 248 bit stream, the device may need to read it to play audio content.

Фиг. 2a, 2b, 2c и 2d показывают примеры кодеров 200. В некоторых примерах, кодеры по фиг. 2a и 2b и 2c и 2d могут быть одинаковыми и отличаться друг от друга только вследствие отсутствия некоторых элементов на одном и/или на другом чертеже.Fig. 2a, 2b, 2c and 2d show examples of encoders 200. In some examples, the encoders of FIGS. 2a and 2b and 2c and 2d may be the same and differ from each other only due to the absence of certain elements in one and/or in the other drawing.

Аудиокодер 200 может быть выполнен с возможностью формирования сигнала 246 понижающего микширования из исходного сигнала 212 (причем исходный сигнал 212 имеет по меньшей мере два (например, три или более) канала, и сигнал 246 понижающего микширования имеет по меньшей мере один канал понижающего микширования).Audio encoder 200 may be configured to generate a downmix signal 246 from the source signal 212 (wherein the source signal 212 has at least two (e.g., three or more) channels, and the downmix signal 246 has at least one downmix channel).

Аудиокодер 200 может содержать модуль 218 оценки параметров, выполненный с возможностью оценки информации 220 канального уровня и корреляции исходного сигнала 212. Аудиокодер 200 может содержать модуль 226 записи потоков битов для кодирования сигнала 246 понижающего микширования в поток 248 битов. Сигнал 246 понижающего микширования в силу этого кодируется в потоке 248 битов таким образом, что он имеет вспомогательную информацию 228, включающую в себя информацию канального уровня и корреляции исходного сигнала 212.Audio encoder 200 may include a parameter estimator 218 configured to estimate link layer information 220 and correlate the source signal 212. Audio encoder 200 may include a bitstream recording module 226 for encoding the downmix signal 246 into a bitstream 248. The downmix signal 246 is therefore encoded into a bit stream 248 such that it has side information 228 including link layer and correlation information of the original signal 212.

В частности, входной сигнал 212 может пониматься, в некоторых примерах, в качестве аудиосигнала временной области, такого как, например, временная последовательность аудиовыборок. Исходный сигнал 212 имеет по меньшей мере два канала, которые, например, могут соответствовать различным микрофонам (например, для положения в стереофонических аудиоданных или, как бы то ни было, положения в многоканальных аудиоданных) либо, например, соответствовать различным положениям громкоговорителей модуля воспроизведения аудио. Входной сигнал 212 может сводиться с понижением в блоке 244 вычисления понижающего микшера, чтобы получать микшированную с понижением версию 246 (также указываемую в качестве x) исходного сигнала 212. Эта микшированная с понижением версия исходного сигнала 212 также называется «сигналом 246 понижающего микширования». Сигнал 246 понижающего микширования имеет по меньшей мере один канал понижающего микширования. Сигнал 246 понижающего микширования имеет меньше каналов, чем исходный сигнал 212. Сигнал 212 понижающего микширования может находиться во временной области.In particular, input signal 212 may be understood, in some examples, as a time domain audio signal, such as, for example, a time sequence of audio samples. The source signal 212 has at least two channels, which, for example, may correspond to different microphones (for example, for a position in stereo audio data or, for example, a position in multi-channel audio data) or, for example, correspond to different speaker positions of an audio playback module . Input signal 212 may be downmixed in downmixer calculation block 244 to produce a downmixed version 246 (also referred to as x) of original signal 212. This downmixed version of original signal 212 is also referred to as “downmix signal 246.” The downmix signal 246 has at least one downmix channel. The downmix signal 246 has fewer channels than the original signal 212. The downmix signal 212 may be in the time domain.

Сигнал 246 понижающего микширования кодируется в потоке 248 битов посредством модуля 226 записи потоков битов (например, включающего в себя энтропийный кодер или мультиплексор, или базовый кодер) для потока битов, который должен сохраняться или передаваться в приемное устройство (например, ассоциирован со стороной декодера). Кодер 200 может включать в себя модуль 218 оценки параметров (или блок оценки параметров). Модуль 218 оценки параметров может оценивать информацию 220 канального уровня и корреляции, ассоциированную с исходным сигналом 212. Информация 220 канального уровня и корреляции может кодироваться в потоке 248 битов в качестве вспомогательной информации 228. В примерах, информация 220 канального уровня и корреляции кодируется посредством модуля 226 записи потоков битов. В примерах, даже если на фиг. 2b не показан модуль 226 записи потоков битов ниже относительно блока 235 вычисления для понижающего микширования, несмотря на это, модуль 226 записи потоков битов может иметься. На фиг. 2c, показано, что модуль 226 записи потоков битов может включать в себя базовый кодер 247, чтобы кодировать сигнал 246 понижающего микширования, с тем чтобы получать кодированную версию сигнала 246 понижающего микширования. Фиг. 2c также показывает то, что модуль 226 записи потоков битов может включать в себя мультиплексор 249, который кодирует в потоке битов 228 как кодированный сигнал 246 понижающего микширования, так и информацию 220 канального уровня и корреляции (например, в качестве кодированных параметров) во вспомогательной информации 228.The downmix signal 246 is encoded into a bitstream 248 by a bitstream writer 226 (e.g., including an entropy encoder or multiplexer, or a base encoder) for a bitstream to be stored or transmitted to a receiving device (e.g., associated with a decoder side) . Encoder 200 may include a parameter estimator 218 (or parameter estimator). A parameter estimator 218 may estimate link layer and correlation information 220 associated with the original signal 212. The link layer and correlation information 220 may be encoded in the bit stream 248 as auxiliary information 228. In examples, link layer and correlation information 220 is encoded by the module 226 recording bit streams. In the examples, even if in FIG. 2b does not show the bitstream recording unit 226 below the downmix calculation unit 235, although the bitstream recording unit 226 may be present. In fig. 2c, it is shown that the bitstream recording module 226 may include a base encoder 247 to encode the downmix signal 246 so as to obtain an encoded version of the downmix signal 246. Fig. 2c also shows that the bitstream recording module 226 may include a multiplexer 249 that encodes in the bitstream 228 both the encoded downmix signal 246 and the link layer and correlation information 220 (eg, as encoded parameters) in the auxiliary information. 228.

Как показано посредством фиг. 2b (но не приводится на фиг. 2a и 2c), исходный сигнал 212 может обрабатываться (например, посредством гребенки 214 фильтров, см. ниже), чтобы получать версию 216 в частотной области исходного сигнала 212.As shown by FIG. 2b (but not shown in FIGS. 2a and 2c), the original signal 212 may be processed (e.g., by filter bank 214, see below) to produce a frequency domain version 216 of the original signal 212.

На фиг. 6c показывается пример оценки параметров, в котором модуль 218 оценки параметров задает параметры ξi,j и Xi (например, нормализованные параметры), которые должны в дальнейшем кодироваться в потоке битов. Модули 502 и 504 оценки ковариации оценивают ковариацию Cx и Cy, соответственно, для сигнала 246 понижающего микширования, который должен кодироваться, и входного сигнала 212. Затем в блоке 506 ICLD параметры Xi ICLD вычисляются и передаются в модуль 246 записи потоков битов. В блоке 510 преобразования ковариаций в когерентности, получаются ICC ξi,j (412). В блоке 250, только некоторые ICC выбираются для кодирования.In fig. 6c shows an example of parameter estimation in which parameter estimation module 218 specifies parameters ξ i , j and X i (eg, normalized parameters) to be subsequently encoded in the bit stream. Covariance estimators 502 and 504 estimate the covariance C x and C y , respectively, for the downmix signal 246 to be encoded and the input signal 212 . Then, in ICLD block 506 , the ICLD parameters X i ICLD are calculated and transmitted to bitstream recording module 246 . In covariance-to-coherence conversion block 510, ICC ξ i , j (412) are obtained. At block 250, only some ICCs are selected for encoding.

Блок 222 квантования параметров (фиг. 2b) может разрешать получение информации 220 канального уровня и корреляции в квантованной версии 224.The parameter quantizer 222 (FIG. 2b) may resolve the link layer and correlation information 220 in a quantized version 224.

Информация 220 канального уровня и корреляции исходного сигнала 212 может в общем включать в себя информацию относительно энергии (или уровня) канала исходного сигнала 212. Помимо этого или в альтернативе, информация 220 канального уровня и корреляции исходного сигнала 212 может включать в себя информацию корреляции между парами каналов, к примеру, корреляцию между двумя различными каналами. Информация канального уровня и корреляции может включать в себя информацию, ассоциированную с ковариационной матрицей Cy (например, в нормализованной форме, такой как корреляция или ICC), в которой каждый столбец и каждая строка ассоциированы с конкретным каналом исходного сигнала 212, и в которой канальные уровни описаны посредством диагональных элементов матрицы Cy и информации корреляции, и информация корреляции описана посредством недиагональных элементов матрицы Cy. Матрица Cy может быть такой, что она представляет собой симметричную матрицу (т.е. она равна своему транспонированию) или эрмитову матрицу (т.е. она равна своему сопряженному транспонированию). Cy, в общем, является положительной полуопределенной. В некоторых примерах, корреляция может заменяться посредством ковариации (и информация корреляции заменяется посредством ковариационной информации). Следует понимать, что можно кодировать, во вспомогательной информации 228 потока 248 битов, информацию, ассоциированную не со всеми каналами исходного сигнала 212. Например, не обязательно обеспечивать эту информацию канального уровня и корреляции относительно всех каналов или всех пар каналов. Например, только сокращенный набор информации относительно корреляции между парами каналов сигнала 212 понижающего микширования может кодироваться в потоке 248 битов, в то время как оставшаяся информация может оцениваться на стороне декодера. В общем, можно кодировать меньше элементов, чем диагональных элементов Cy, и можно кодировать меньше элементов, чем элементов за пределами диагонали Cy.The link layer and correlation information 220 of the source signal 212 may generally include information regarding the channel energy (or level) of the source signal 212. Additionally or alternatively, the link layer and correlation information 220 of the source signal 212 may include correlation information between pairs channels, for example, the correlation between two different channels. The link layer and correlation information may include information associated with a covariance matrix C y (e.g., in a normalized form such as correlation or ICC) in which each column and each row is associated with a particular channel of the original signal 212, and in which the channel the layers are described by diagonal elements of the matrix C y and correlation information, and the correlation information is described by non-diagonal elements of the matrix C y . The matrix C y can be such that it is a symmetric matrix (i.e. it is equal to its transpose) or a Hermitian matrix (i.e. it is equal to its conjugate transpose). C y is, in general, positive semidefinite. In some examples, correlation may be replaced by covariance (and correlation information is replaced by covariance information). It should be understood that it is possible to encode, in the auxiliary information 228 of the bitstream 248, information associated with not all channels of the original signal 212. For example, it is not necessary to provide this link layer and correlation information with respect to all channels or all pairs of channels. For example, only a reduced set of information regarding the correlation between pairs of channels of the downmix signal 212 may be encoded in the bit stream 248, while the remaining information may be evaluated at the decoder side. In general, fewer elements can be encoded than diagonal elements of C y , and fewer elements can be encoded than elements off the diagonal of C y .

Например, информация канального уровня и корреляции может включать в себя записи ковариационной матрицы Cy исходного сигнала 212 (информацию 220 канального уровня и корреляции исходного сигнала) и/или ковариационной матрицы Cx сигнала 246 понижающего микширования (ковариационную информацию сигнала понижающего микширования), например, в нормализованной форме. Например, ковариационная матрица может ассоциировать каждую линию и каждый столбец с каждым каналом, с тем чтобы выражать ковариации между различными каналами и, на диагонали матрицы, уровнем каждого канала. В некоторых примерах, информация 220 канального уровня и корреляции исходного сигнала 212, кодированная во вспомогательной информации 228, может включать в себя только информацию канального уровня (например, только диагональные значения корреляционной матрицы Cy) или только информацию корреляции (например, только значения за пределами диагонали корреляционной матрицы Cy). То же применимо к ковариационной информации сигнала понижающего микширования.For example, the link layer and correlation information may include records of the covariance matrix C y of the original signal 212 (link layer and correlation information of the original signal) and/or the covariance matrix C x of the downmix signal 246 (covariance information of the downmix signal), for example, in a normalized form. For example, a covariance matrix may associate each line and each column with each channel so as to express the covariances between different channels and, on the diagonal of the matrix, the level of each channel. In some examples, link layer and correlation information 220 of the original signal 212 encoded in the auxiliary information 228 may include only link layer information (e.g., only diagonal values of the correlation matrix Cy) or only correlation information (e.g., only off-diagonal values correlation matrix Cy). The same applies to the covariance information of the downmix signal.

Как показано далее, информация 220 канального уровня и корреляции может включать в себя по меньшей мере одно значение (ξi,j) когерентности, описывающее когерентность между двумя каналами i и j из пары каналов i, j. Помимо этого или в качестве альтернативы, информация 220 канального уровня и корреляции может включать в себя по меньшей мере одну межканальную разность (Xi) уровней (ICLD). В частности, можно задавать матрицу, имеющую значения ICLD или значения межканальной когерентности (ICC). Следовательно, вышеприведенные примеры относительно передачи элементов матриц Cy и Cx могут обобщаться для других значений, которые должны кодироваться (например, передаваться) для осуществления информации 220 канального уровня и корреляции и/или информации когерентности канала понижающего микширования.As shown below, the link layer and correlation information 220 may include at least one coherence value (ξ i , j ) describing the coherence between two channels i and j of the channel pair i, j . Additionally or alternatively, link layer and correlation information 220 may include at least one inter-channel layer difference (Xi) (ICLD). In particular, a matrix having ICLD values or inter-channel coherence (ICC) values can be specified. Therefore, the above examples regarding the transmission of matrix elements C y and C x can be generalized to other values that must be encoded (eg, transmitted) to implement link layer information 220 and correlation and/or downmix channel coherence information.

Входной сигнал 212 может подразделяться на множество кадров. Различные кадры могут иметь, например, одинаковую продолжительность (например, каждый из них может состоять, в течение времени, истекшего для одного кадра, из одинакового числа выборок во временной области). Различные кадры в силу этого имеют, в общем, равные продолжительности. В потоке 248 битов сигнал 246 понижающего микширования (который может представлять собой сигнал временной области) может кодироваться покадрово (либо в любом случае, его подразделение на кадры может определяться посредством декодера). Информация 220 канального уровня и корреляции, кодированная в качестве вспомогательной информации 228 в потоке 248 битов, может быть ассоциирована с каждым кадром (например, параметры информации 220 канального уровня и корреляции могут быть предусмотрены для каждого кадра или для множества последовательных кадров). Соответственно, для каждого кадра сигнала 246 понижающего микширования, ассоциированная вспомогательная информация 228 (например, параметры) может кодироваться во вспомогательной информации 228 потока 248 битов. В некоторых случаях, множество последовательных кадров могут быть ассоциированы с одной и той же информацией 220 канального уровня и корреляции (например, с одинаковыми параметрами) относительного информации (параметров), кодированной во вспомогательной информации 228 потока 248 битов. Соответственно, один параметр может в результате должен быть совместно ассоциирован с множеством последовательных кадров. Это может происходить, в некоторых примерах, когда два последовательных кадра имеют аналогичные свойства, либо когда скорость передачи битов должна снижаться (например, вследствие необходимости уменьшения рабочих данных). Например:Input signal 212 may be divided into multiple frames. Different frames may, for example, have the same duration (eg, each may consist, during the elapsed time of one frame, of the same number of time domain samples). The different frames therefore have generally equal durations. In the bit stream 248, the downmix signal 246 (which may be a time domain signal) may be encoded frame by frame (or in any case, its subdivision into frames may be determined by a decoder). Link layer and correlation information 220 encoded as auxiliary information 228 in bit stream 248 may be associated with each frame (eg, link layer and correlation information parameters 220 may be provided for each frame or for multiple consecutive frames). Accordingly, for each frame of the downmix signal 246, associated side information 228 (eg, parameters) may be encoded in the side information 228 of bit stream 248. In some cases, multiple consecutive frames may be associated with the same link layer and correlation information 220 (eg, the same parameters) of the relative information(s) encoded in the auxiliary information 228 of the bit stream 248. Accordingly, one parameter may end up being jointly associated with multiple consecutive frames. This may occur, in some examples, when two consecutive frames have similar properties, or when the bit rate must be reduced (for example, due to the need to reduce operating data). For example:

- в случае большого объема рабочих данных, число последовательных кадров, ассоциированных с одним и тем же конкретным параметром, увеличивается, с тем чтобы уменьшать число битов, записанных в поток битов;- in the case of a large amount of operating data, the number of consecutive frames associated with the same specific parameter is increased so as to reduce the number of bits written to the bitstream;

- в случае меньшего объема рабочих данных число последовательных кадров, ассоциированных с одним и тем же конкретным параметром, уменьшается, с тем чтобы увеличивать качество микширования. - in the case of a smaller amount of working data, the number of consecutive frames associated with the same specific parameter is reduced in order to increase the quality of the mixing.

В других случаях, когда скорость передачи битов снижается, число последовательных кадров, ассоциированных с одним и тем же конкретным параметром, увеличивается, с тем чтобы уменьшать число битов, записанных в поток битов, и наоборот.In other cases, when the bit rate decreases, the number of consecutive frames associated with the same particular parameter increases so as to decrease the number of bits written to the bit stream, and vice versa.

В некоторых случаях, можно сглаживать параметры (либо восстановленные или оцененные значения, такие как ковариации) с использованием линейного комбинирования с параметрами (либо восстановленными или оцененными значениями, такими как ковариации), предшествующими текущему кадру, например, посредством суммирования, среднего и т.д.In some cases, it is possible to smooth parameters (or reconstructed or estimated values, such as covariances) using linear combination with parameters (or reconstructed or estimated values, such as covariances) preceding the current frame, for example, through summation, average, etc. .

В некоторых примерах, кадр может разделяться между множеством последующих интервалов. Фиг. 10a показывает кадр 920 (подразделяемый на четыре последовательных интервала 921-924), и фиг. 10b показывает кадр 930 (подразделяемый на четыре последовательных интервала 931-934). Продолжительность различных интервалов может быть одинаковой. Если длина кадра имеет размер интервала в 1,25 мс и в 20 мс, предусмотрено 16 интервалов в одном кадре (20/1,25=16).In some examples, the frame may be divided between multiple subsequent slots. Fig. 10a shows frame 920 (subdivided into four consecutive slots 921-924), and FIG. 10b shows frame 930 (subdivided into four consecutive slots 931-934). The duration of different intervals may be the same. If the frame length has an interval size of 1.25 ms and 20 ms, there are 16 intervals in one frame (20/1.25=16).

Подразделение интервалов может выполняться в гребенках фильтров (например, 214), поясненных ниже.Slot subdivision may be performed in filter banks (eg, 214), explained below.

В примере, гребенка фильтров представляет собой комплексно-модулированную гребенку фильтров с низкой задержкой (CLDFB), размер кадра составляет 20 мс, а размер интервала составляет 1,25 мс, что приводит к 16 интервалам гребенки фильтров в расчете на кадр и к числу полос частот для каждого интервала, которое зависит от входной частоты дискретизации, и при этом полосы частот имеют ширину 400 Гц. Таким образом, например, для входной частоты дискретизации 48 кГц, длина кадра в выборках составляет 960, длина интервала составляет 60 выборок, и число выборок гребенки фильтров в расчете на интервал также составляет 60.In the example, the filter bank is a complex-modulated low-latency filter bank (CLDFB), the frame size is 20 ms, and the slot size is 1.25 ms, resulting in 16 filter bank slots per frame and number of frequency bands for each interval, which depends on the input sampling frequency, and the frequency bands are 400 Hz wide. Thus, for example, for an input sample rate of 48 kHz, the frame length per sample is 960, the interval length is 60 samples, and the number of filter bank samples per interval is also 60.

Частота дискретизации/
кГц
Sampling frequency/
kHz
Длина кадра/выборкиFrame/sample length Длина интервала/выборкиInterval/sample length Число полос частот гребенки фильтровNumber of filter bank frequency bands
4848 960960 6060 6060 3232 640640 4040 4040 1616 320320 2020 2020 88 160160 1010 1010

Даже если каждый кадр (и также каждый интервал) может кодироваться во временной области, анализ по полосам частот может выполняться. В примерах, множество полос частот анализируются для каждого кадра (или интервала). Например, гребенка фильтров может применяться к временному сигналу, и результирующие подполосные сигналы могут анализироваться. В некоторых примерах, информация 220 канального уровня и корреляции также обеспечивается по полосам частот. Например, для каждой полосы частот входного сигнала 212 или сигнала 246 понижающего микширования, может обеспечиваться ассоциированная информация 220 канального уровня и корреляции (например, Cy или матрица ICC). В некоторых примерах, число полос частот может модифицироваться на основе свойств сигнала и/или запрашиваемой скорости передачи битов или измерений для текущих рабочих данных. В некоторых примерах, чем больше интервалов, которые требуются, тем меньше полос частот используется для поддержки аналогичной скорости передачи битов.Even though each frame (and also each interval) can be encoded in the time domain, analysis across frequency bands can be performed. In the examples, multiple frequency bands are analyzed for each frame (or interval). For example, a filter bank may be applied to the time signal, and the resulting subband signals may be analyzed. In some examples, link layer and correlation information 220 is also provided across frequency bands. For example, for each frequency band of input signal 212 or downmix signal 246, associated link layer and correlation information 220 (eg, C y or ICC matrix) may be provided. In some examples, the number of frequency bands may be modified based on signal properties and/or the requested bit rate or measurements for the current operating data. In some examples, the more slots that are required, the fewer frequency bands are used to support the same bit rate.

Поскольку размер интервала меньше размера кадра (по продолжительности), интервалы могут быть подходяще использоваться в случае переходной части в исходном сигнале 212, обнаруженной в кадре: кодер (и, в частности, гребенка 214 фильтров) может распознавать наличие переходной части, передавать в служебных сигналах ее наличие в потоке битов и указывать во вспомогательной информации 228 потока 248 битов, в каком интервале кадра имеется переходная часть. Кроме того, параметры информации 220 канального уровня и корреляции, кодированной во вспомогательной информации 228 потока 248 битов, соответственно, могут быть ассоциированы только с интервалами после переходной части и/или интервалом, в котором имеется переходная часть. Декодер в силу этого должен определять наличие переходной части и должен ассоциировать информацию 220 канального уровня и корреляции только с интервалами после переходной части и/или с интервалом, в котором имеется переходная часть (для интервалов, предшествующих переходной части, декодер использует информацию 220 канального уровня и корреляции для предыдущего кадра). На фиг. 10a, переходная часть не имеется, и параметры 220, кодированные во вспомогательной информации 228, в силу этого могут пониматься как ассоциированные со всем кадром 920. На фиг. 10b, переходная часть имеется во интервале 932: в силу этого параметры 220, кодированные во вспомогательной информации 228, должны означать интервалы 932, 933 и 934, в то время как параметры, ассоциированные с интервалом 931, предположительно должны быть одинаковыми для кадра, который предшествует кадру 930.Since the size of the interval is smaller than the size of the frame (in duration), intervals can be suitably used in the case of a transition portion in the original signal 212 detected in the frame: the encoder (and in particular the filter bank 214) can recognize the presence of the transition portion, signal its presence in the bit stream and indicate in the auxiliary information 228 of the bit stream 248 in which frame interval there is a transition part. In addition, the parameters of the link layer and correlation information 220 encoded in the auxiliary information 228 of the bitstream 248, respectively, can be associated only with the slots after the transition portion and/or the slot in which there is a transition portion. The decoder must therefore detect the presence of a transition portion and must associate link layer and correlation information 220 only with the slots after the transition portion and/or the slot in which the transition portion is present (for slots preceding the transition portion, the decoder uses the link layer information 220 and correlations for the previous frame). In fig. 10a, there is no transition portion, and the parameters 220 encoded in the auxiliary information 228 can therefore be understood to be associated with the entire frame 920. In FIG. 10b, the transition portion is present in interval 932: therefore, the parameters 220 encoded in the auxiliary information 228 should mean intervals 932, 933 and 934, while the parameters associated with interval 931 are supposed to be the same for the frame that precedes frame 930.

С учетом вышеизложенного, для каждого кадра (или интервала) и для каждой полосы частот, конкретная информация 220 канального уровня и корреляции, связанная с исходным сигналом 212, может задаваться. Например, элементы ковариационной матрицы Cy (например, ковариации и/или уровни) могут оцениваться для каждой полосы частот.Given the above, for each frame (or slot) and for each frequency band, specific link layer and correlation information 220 associated with the original signal 212 may be specified. For example, elements of the covariance matrix C y (eg, covariances and/or levels) can be estimated for each frequency band.

Если происходит обнаружение переходной части, в то время как множество кадров вместе ассоциированы с одним и тем же параметром, после этого можно сократить число кадров, вместе ассоциированных с одним и тем же параметром, таким образом, чтобы повысить качество микширования.If a transition portion is detected while a plurality of frames are collectively associated with the same parameter, it is then possible to reduce the number of frames collectively associated with the same parameter, so as to improve the mixing quality.

Фиг. 10a показывает кадр 920 (называемый здесь «нормальным кадром»), для которого, в исходном сигнале 212, восемь полос частот задаются (восемь полос 1...8 частот показаны в ординате, в то время как интервалы 921-924 показаны в абсциссе). Параметры информации 220 канального уровня и корреляции могут в теории кодироваться во вспомогательной информации 228 потока 248 битов, по полосам частот (например, должна быть предусмотрена одна ковариационная матрица для каждой исходной полосы частот). Тем не менее, чтобы уменьшать объем вспомогательной информации 228, кодер может агрегировать множество исходных полос частот (например, последовательных полос частот), чтобы получать по меньшей мере одну агрегированную полосу частот, сформированную посредством множества исходных полос частот. Например, на фиг. 10a группируются восемь исходных полос частот для получения четырех агрегированных полос частот (агрегированной полосы 1 частот, ассоциированной с исходной полосой 1 частот; агрегированной полосы 2 частот, ассоциированной с исходной полосой 2 частот; агрегированной полосы 3 частот, группирующей исходные полосы 3 и 5 частот; агрегированной полосы 3 частот, группирующей исходные полосы 5...8 частот). Матрицы ковариации, корреляции, ICC и т.д. могут быть ассоциированы с каждой из агрегированных полос частот. В некоторых примерах, то, что кодируется во вспомогательной информации 228 потока 248 битов, представлять собой параметры, полученные из суммы (либо среднего либо другого линейного комбинирования) параметров, ассоциированных с каждой агрегированной полосой частот. Следовательно, размер вспомогательной информации 228 потока 248 битов дополнительно уменьшается. Ниже по тексту, "агрегированная полоса частот" также называется "полосой частот параметров", поскольку она означает эти полосы частот, используемые для определения параметров 220.Fig. 10a shows a frame 920 (referred to herein as a "normal frame") for which, in the original signal 212, eight frequency bands are defined (eight frequency bands 1...8 are shown in the ordinate, while intervals 921-924 are shown in the abscissa) . The link layer and correlation information 220 parameters can in theory be encoded in the 248 bit stream auxiliary information 228, across frequency bands (eg, one covariance matrix should be provided for each source frequency band). However, to reduce the amount of side information 228, the encoder may aggregate multiple source bands (eg, successive frequency bands) to obtain at least one aggregate band generated by the plurality of source bands. For example, in FIG. 10a, eight original frequency bands are grouped to obtain four aggregate frequency bands (aggregate frequency band 1 associated with original frequency band 1; aggregate frequency band 2 associated with original frequency band 2; aggregate frequency band 3 grouping original frequency bands 3 and 5; aggregated frequency band 3, grouping the original frequency bands 5...8). Covariance matrices, correlations, ICC, etc. may be associated with each of the aggregated frequency bands. In some examples, what is encoded in the auxiliary information 228 of the bitstream 248 are parameters derived from the sum (or average or other linear combination) of the parameters associated with each aggregate frequency band. Therefore, the size of the auxiliary information 228 of the 248 bit stream is further reduced. Hereinafter, “aggregate frequency band” is also referred to as “parameter frequency band” because it refers to those frequency bands used to determine parameters 220.

Фиг. 10b показывает кадр 931 (подразделяемый на четыре последовательных интервала 931-934 или в другом целом числе), в котором имеется переходная часть. Здесь, переходная часть имеется во втором интервале 932 (в «переходном интервале»). В этом случае, декодер может определять в качестве ориентира параметры информации 220 канального уровня и корреляции только для переходного интервала 932 и/или для последующих интервалов 933 и 934. Информация 220 канального уровня и корреляции предыдущего интервала 931 не предусмотрены: следует понимать, что информация канального уровня и корреляции интервала 931 в принципе, в частности, должна отличаться от информации канального уровня и корреляции интервалов, но, вероятно, должна быть в большей степени аналогичной информации канального уровня и корреляции кадра, предшествующего кадру 930. Соответственно, декодер должен применять информацию канального уровня и корреляции кадра, предшествующего кадру 930, к интервалу 931, а информацию канального уровня и корреляции кадра 930 только к интервалам 932, 933 и 934.Fig. 10b shows a frame 931 (subdivided into four consecutive intervals 931-934 or other integer) in which there is a transition portion. Here, the transition portion is present in the second interval 932 (in the “transition interval”). In this case, the decoder may determine as a guide the parameters of the link layer information 220 and correlations only for the transition slot 932 and/or for subsequent slots 933 and 934. The link layer information 220 and correlations of the previous slot 931 are not provided: it should be understood that the link information level and slot correlation 931 should in principle, in particular, be different from the link layer and slot correlation information, but should likely be more similar to the link layer and slot correlation information of the frame preceding frame 930. Accordingly, the decoder should apply the link layer information and correlation of the frame preceding frame 930 to slot 931, and link layer and correlation information of frame 930 only to slots 932, 933, and 934.

Поскольку наличие и положение интервалов 931 с переходной частью могут передаваться в служебных сигналах (например, на 261, как показано далее) во вспомогательной информации 228 потока 248 битов, разработана технология для исключения или уменьшения увеличения размера вспомогательной информации 228: группировки между агрегированными полосами частот могут изменяться: например, агрегированная полоса 1 частот теперь группирует исходные полосы 1 частот и 2, причем агрегированная полоса 2 частот группирует исходные полосы 3...8 частот. Следовательно, число полос частот дополнительно уменьшается относительно случая по фиг. 10a, и параметры должны быть обеспечены только для двух агрегированных полос частот.Since the presence and position of transition intervals 931 may be signaled (eg, at 261, as shown below) in the side information 228 of the 248 bit stream, technology has been developed to eliminate or reduce the increase in size of the side information 228: groupings between aggregated frequency bands can change: for example, aggregate frequency band 1 now groups the original frequency bands 1 and 2, and aggregate frequency band 2 groups the original frequency bands 3...8. Therefore, the number of frequency bands is further reduced relative to the case of FIG. 10a, and the parameters need to be provided for only two aggregated frequency bands.

Фиг. 6a показывает, что блок 218 оценки параметров (модуль оценки параметров) допускает извлечение некоторого числа информации 220 канального уровня и корреляции.Fig. 6a shows that the parameter estimator 218 (parameter estimator) is capable of extracting a certain amount of link layer and correlation information 220.

Фиг. 6a показывает, что модуль 218 оценки параметров допускает извлечение некоторого числа параметров (информации 220 канального уровня и корреляции), которые могут представлять собой ICC матрицы 900 по фиг. 9a-9d.Fig. 6a shows that the parameter estimator 218 is capable of extracting a number of parameters (link layer and correlation information 220), which may represent the ICC matrix 900 of FIG. 9a-9d.

При этом, только часть оцененных параметров фактически отправляется в модуль 226 записи потоков битов, чтобы кодировать вспомогательную информацию 228. Это обусловлено тем, что кодер 200 может быть выполнен с возможностью выбора (в блоке 250 определения, не показанном на фиг. 1-5), следует ли кодировать или не кодировать по меньшей мере часть информации 220 канального уровня и корреляции исходного сигнала 212.However, only a portion of the estimated parameters are actually sent to the bitstream writer 226 to encode the auxiliary information 228. This is because the encoder 200 can be made selectable (in a determination block 250, not shown in FIGS. 1-5) whether or not to encode at least a portion of the link layer and correlation information 220 of the original signal 212.

Это проиллюстрировано на фиг. 6a в качестве множества переключателей 254s, которые управляются посредством выбора 254 (команды) из блока 250 определения. Если каждый из выходных сигналов 220 блока 218 оценки параметров представляет собой ICC матрицы 900 по фиг. 9c, не все параметры, оцененные посредством блока 218 оценки параметров, фактически кодируются во вспомогательной информации 228 потока 248 битов: в частности, в то время как записи 908 (ICC между каналами: R и L; C и L; C и R; RS и CS) фактически кодируются, записи 907 не кодируются (т.е. блок 250 определения, который может быть одинаковым с блоком по фиг. 6c, может считаться имеющим открытые переключатели 254s для некодированных записей 907, но закрытые переключатели 254s для записей 908, которые должны кодироваться во вспомогательной информации 228 потока 248 битов). Следует отметить, что информация 254' относительно того, какие параметры выбраны для кодирования (записи 908), может кодироваться (например, в качестве битовой карты или другой информации относительно того, какие записи 908 кодируются). На практике, информация 254' (которая, например, может представлять собой карту ICC) может включать в себя индексы (схематично проиллюстрированные на фиг. 9d) кодированных записей 908. Информация 254' может иметь форму битовой карты: например, информация 254' может состоять из поля фиксированной длины, причем каждое положение ассоциировано с индексом согласно заданному упорядочению, причем значение каждого бита обеспечивает информацию относительно того, обеспечивается ли фактически параметр, ассоциированный с этим индексом.This is illustrated in FIG. 6a as a plurality of switches 254s that are controlled by selecting 254 (commands) from determination unit 250. If each of the outputs 220 of the parameter estimator 218 is an ICC of the matrix 900 of FIG. 9c, not all of the parameters estimated by the parameter estimator 218 are actually encoded in the 248 bit stream auxiliary information 228: in particular, while the (ICC between channels) entries 908: R and L; C and L; C and R; RS and CS) are actually encoded, records 907 are not encoded (i.e., determination block 250, which may be the same as the block in FIG. 6c, may be considered to have open switches 254s for non-encoded records 907, but closed switches 254s for records 908 that must be encoded in the auxiliary information 228 of the 248 bit stream). It should be noted that information 254' regarding which parameters are selected for encoding (records 908) may be encoded (eg, as a bitmap or other information regarding which records 908 are encoded). In practice, information 254' (which, for example, may be an ICC map) may include indices (schematically illustrated in FIG. 9d) of encoded records 908. Information 254' may be in the form of a bitmap: for example, information 254' may consist from a fixed-length field, each position being associated with an index according to a given ordering, the value of each bit providing information as to whether the parameter associated with that index is actually provided.

В общем, блок 250 определения может выбирать то, следует кодировать или не кодировать по меньшей мере часть информации 220 канального уровня и корреляции (т.е. определять, должна ли кодироваться запись матрицы 900), например, на основе информации 252 состояния. Информация 252 состояния может быть основана на состоянии рабочих данных: например, в случае высокой нагрузки по передаче, можно уменьшать объем вспомогательной информации 228, которая должна кодироваться в потоке 248 битов. Например, и обращаясь к Фиг. 9c:In general, determination unit 250 may select whether or not to encode at least a portion of the link layer and correlation information 220 (ie, determine whether an entry of matrix 900 should be encoded), for example, based on state information 252. The state information 252 may be based on the state of the operating data: for example, in the case of a high transmission load, the amount of side information 228 that must be encoded in the bit stream 248 can be reduced. For example, and referring to FIG. 9c:

- в случае большого объема рабочих данных, число записей 908 матрицы 900, которые фактически записываются во вспомогательную информацию 228 потока 248 битов, уменьшается;- in the case of a large volume of working data, the number of entries 908 of the matrix 900 that are actually written to the auxiliary information 228 of the 248 bit stream is reduced;

- в случае меньшего объема рабочих данных, число записей 908 матрицы 900, которые фактически записываются во вспомогательную информацию 228 потока 248 битов, уменьшается.- in the case of a smaller amount of working data, the number of entries 908 of the matrix 900 that are actually written to the auxiliary information 228 of the 248 bit stream is reduced.

В качестве альтернативы или дополнения, могут оцениваться показатели 252 для определения того, какие параметры 220 должны кодироваться во вспомогательной информации 228 (например, того, какие записи матрицы 900 предназначены быть кодированными записями 908, а какие записи должны отброшены). В этом случае, можно кодировать в потоке битов только параметры 220 (ассоциированные с более чувствительными показателями, например, показатели, которые ассоциированы с более перцепционно значимой ковариацией, могут быть ассоциированы с записями, которые должны выбираться в качестве кодированных записей 908).Alternatively or in addition, metrics 252 may be evaluated to determine which parameters 220 should be encoded in auxiliary information 228 (eg, which entries of matrix 900 are intended to be encoded entries 908 and which entries should be discarded). In this case, only parameters 220 (associated with more sensitive metrics, e.g., metrics that are associated with more perceptually significant covariance may be associated with records to be selected as coded records 908) may be encoded in the bitstream.

Следует отметить, что этот процесс может повторяться для каждого кадра (или для множества кадров, в случае понижающей дискретизации) и для каждой полосы частот.It should be noted that this process may be repeated for each frame (or for multiple frames, in the case of downsampling) and for each frequency band.

Соответственно, блок 250 определения также может управляться, в дополнение к показателям состояния и т.д., посредством модуля 218 оценки параметров, через команду 251 на фиг. 6a.Accordingly, the determination unit 250 can also be controlled, in addition to status indicators, etc., by the parameter estimator 218, via instruction 251 in FIG. 6a.

В некоторых примерах (например, фиг. 6b), аудиокодер может быть дополнительно выполнен с возможностью кодирования в потоке 248 битов текущей информации 220t канального уровня и корреляции в качестве приращения 220k относительно предыдущей информации 220(t-1) канального уровня и корреляции. То, что кодируется посредством этого модуля 226 записи потоков битов во вспомогательной информации 228, может представлять собой приращение 220k, ассоциированное с текущим кадром (или интервалом) относительно предыдущего кадра. Это показывается на фиг. 6b. Текущая информация 220t канального уровня и корреляции передаётся в элемент 270 хранения данных таки образом, что элемент 270 хранения данных сохраняет значение текущей информации 220t канального уровня и корреляции для последующего кадра. Между тем, текущая информация 220t канального уровня и корреляции может сравниваться с ранее полученной информацией 220(t-1) канального уровня и корреляции. (Это показано на фиг. 6b в качестве вычитателя 273). Соответственно, результат 220Δ вычитания может получаться посредством вычитателя 273. Разность 220Δ может использоваться в модуле 220s масштабирования для получения относительного приращения 220k между предыдущей информацией 220(t-1) канального уровня и корреляции и текущей информацией 220t канального уровня и корреляции. Например, если настоящая информация 220t канального уровня и корреляции на 10% больше предыдущей информации 220(t-1) канального уровня и корреляции, то приращение 220, кодированное во вспомогательной информации 228 посредством модуля 226 записи потоков битов, должно указывать информацию приращения в 10%. В некоторых примерах, вместо обеспечения относительного приращения 220k, может кодироваться только разность 220Δ.In some examples (eg, FIG. 6b), the audio encoder may be further configured to encode 248 bits of the current link layer and correlation information 220t as an increment 220k relative to the previous link layer and correlation information 220(t-1). What is encoded by this bitstream recording module 226 in the auxiliary information 228 may be an increment 220k associated with the current frame (or interval) relative to the previous frame. This is shown in FIG. 6b. The current link layer and correlation information 220t is transmitted to the data storage element 270 such that the data storage element 270 stores the value of the current link layer and correlation information 220t for a subsequent frame. Meanwhile, the current link layer and correlation information 220t can be compared with the previously acquired link layer and correlation information 220(t-1). (This is shown in Fig. 6b as subtractor 273). Accordingly, the subtraction result 220Δ may be obtained by the subtractor 273. The difference 220Δ may be used in the scaling unit 220s to obtain a relative increment 220k between the previous link layer and correlation information 220(t-1) and the current link layer and correlation information 220t. For example, if the present link layer and correlation information 220t is 10% larger than the previous link layer and correlation information 220(t-1), then the increment 220 encoded in the auxiliary information 228 by the bitstream writer 226 should indicate the increment information of 10% . In some examples, instead of providing a relative increment of 220k, only a difference of 220Δ may be encoded.

Вариант выбора параметров, которые должны фактически кодироваться, из параметров, таких как ICC и ICLD, как пояснено выше и ниже, может быть адаптирован к конкретной ситуации. Например, в некоторых примерах:The option of selecting the parameters that should actually be encoded from parameters such as ICC and ICLD, as explained above and below, can be adapted to the specific situation. For example, in some examples:

- для одного первого кадра, только ICC 908 по фиг. 9c выбираются для кодирования во вспомогательной информации 228 потока 248 битов, в то время как ICC 907 не кодируются во вспомогательной информации 228 потока 248 битов;- for one first frame, only ICC 908 in FIG. 9c are selected to be encoded in the 248 bit stream side information 228, while the ICC 907 are not encoded in the 248 bit stream side information 228;

- для второго кадра, различные ICC выбираются для кодирования, в то время как различные невыбранные ICC не кодируются.- for the second frame, various ICCs are selected for encoding, while various unselected ICCs are not encoded.

То же самое может быть допустимым для интервалов и полос частот (и для различных параметров, таких как ICLD). Следовательно, кодер (и, в частности, блок 250) может определять то, какой параметр должен кодироваться, а какой не должен кодироваться, за счет этого адаптируя выбор параметров, которые должны кодироваться, к конкретной ситуации (например, состоянию, выбору и т.д.). "Признак важности" в силу этого может анализироваться, с тем чтобы выбирать то, какой параметр следует кодировать, а какой можно не кодировать. Признак важности может представлять собой показатели, ассоциированные, например, с результатами, полученными при моделировании операций, выполняемых посредством декодера. Например, кодер может моделировать восстановление посредством декодера некодированных параметров 907 ковариации, и признак важности может представлять собой показатели, указывающие абсолютную ошибку между некодированными параметрами 907 ковариации и параметрами, которые являются одинаковыми с параметрами, предположительно восстановленными посредством декодера. Посредством измерения ошибок в различных сценариях моделирования (например, при этом каждый сценарий моделирования ассоциирован с передачей некоторых кодированных параметров 908 ковариации и измерением ошибок, затрагивающих восстановление некодированных параметров 907 ковариации), можно определять сценарий моделирования, который меньше всего затрагивается посредством ошибок (например, сценарий моделирования, для которого показатели относительно всех ошибок в восстановлении), с тем чтобы отличать параметры 908 ковариации, которые должны кодироваться, от параметров 907 ковариации, которые не должны кодироваться, на основе наименее затрагиваемого сценария моделирования. В наименее затрагиваемом сценарии, невыбранные параметры 907 представляют собой параметры, которые являются наиболее легко восстанавливаемыми, и выбранные параметры 908 тенденциозно представляют собой параметры, для которых показатели, ассоциированные с ошибкой, должны быть самыми большими.The same may be valid for intervals and frequency bands (and for various parameters such as ICLD). Therefore, the encoder (and, in particular, block 250) can determine which parameters should be encoded and which should not be encoded, thereby tailoring the selection of parameters that should be encoded to a particular situation (e.g., state, choice, etc.). d.). The "sign of importance" can therefore be analyzed in order to select which parameter should be encoded and which may not be encoded. The importance flag may be metrics associated, for example, with results obtained from modeling operations performed by the decoder. For example, the encoder may model the decoder's recovery of the uncoded covariance parameters 907, and the importance indicator may be scores indicating the absolute error between the uncoded covariance parameters 907 and parameters that are the same as the parameters assumed to be recovered by the decoder. By measuring errors in different simulation scenarios (eg, with each simulation scenario associated with transmitting some encoded covariance parameters 908 and measuring errors affecting the recovery of uncoded covariance parameters 907), it is possible to determine the simulation scenario that is least affected by errors (e.g., scenario simulation for which the metrics are relative to all errors in the reconstruction) in order to distinguish covariance parameters 908 that should be encoded from covariance parameters 907 that should not be encoded, based on the least affected simulation scenario. In the least affected scenario, the unselected parameters 907 represent the parameters that are most easily recoverable, and the selected parameters 908 tend to represent the parameters for which the error-associated metrics should be the largest.

То же может выполняться, вместо моделирования параметров, таких как ICC и ICLD, посредством моделирования восстановления или оценки, посредством декодера, ковариации либо посредством моделирования свойств микширования или результатов микширования. В частности, моделирование может выполняться для каждого кадра или для каждого интервала и может осуществляться для каждой полосы частот или агрегированной полосы частот.The same can be done, instead of modeling parameters such as ICC and ICLD, by modeling reconstruction or estimation, by decoder, covariance, or by modeling mixing properties or mixing results. In particular, the simulation may be performed on a per-frame or per-slot basis, and may be performed on a per-band or aggregate-band basis.

Пример может представлять собой моделирование восстановления ковариации с использованием уравнения (4) или (6) (см. ниже), начиная с параметров, кодированных во вспомогательной информации 228 потока 248 битов.An example could be a covariance recovery simulation using equation (4) or (6) (see below), starting with the parameters encoded in the auxiliary information 228 of the 248 bit stream.

Если обобщать, можно восстанавливать информацию канального уровня и корреляции из выбранной информации канального уровня и корреляции, за счет этого моделируя оценку, в декодере (300), невыбранной информации (220, Cy) канального уровня и корреляции, и вычислять информацию об ошибках между:To summarize, it is possible to recover link layer and correlation information from selected link layer and correlation information, thereby simulating an estimate, in the decoder (300), of unselected link layer and correlation information (220, Cy), and calculate error information between:

- невыбранной информацией (220) канального уровня и корреляции, оцененной посредством кодера; и- unselected link layer information (220) and correlation estimated by the encoder; And

- невыбранной информацией канального уровня и корреляции, восстановленной посредством моделирования оценки, в декодере (300), некодированной информации (220) канального уровня и корреляции; и- unselected link layer and correlation information recovered by estimation modeling in the decoder (300), uncoded link layer and correlation information (220); And

- с тем чтобы отличать, на основе вычисленной информации об ошибках:- in order to distinguish, based on the calculated error information:

- восстанавливаемую надлежащим образом информацию канального уровня и корреляции; от- properly restored link layer and correlation information; from

- невосстанавливаемой надлежащим образом информации канального уровня и корреляции,- link level and correlation information that cannot be properly restored,

- с тем чтобы принимать решение на предмет:- in order to make decisions on:

- выбора невосстанавливаемой надлежащим образом информации канального уровня и корреляции, которая должна кодироваться во вспомогательной информации (228) потока (248) битов; и- selecting properly unrecoverable link layer and correlation information to be encoded in the auxiliary information (228) of the bit stream (248); And

- невыбора восстанавливаемой надлежащим образом информации канального уровня и корреляции, в силу этого отказываясь от кодирования во вспомогательной информации (228) потока (248) битов восстанавливаемой надлежащим образом информации канального уровня и корреляции.- not selecting properly recoverable link layer and correlation information, thereby not encoding in the auxiliary information (228) a stream (248) of bits of properly recoverable link layer and correlation information.

В общих чертах, кодер может моделировать любую операцию декодера и оценивать показатели ошибки из результатов моделирования.In general terms, an encoder can simulate any decoder operation and estimate error metrics from the simulation results.

В некоторых примерах, признак важности может отличаться (или содержать другие отличающиеся показатели) от оценки показателей, ассоциированных с ошибками. В некотором случае, признак важности может быть ассоциирован с выбором вручную или на основе важности на основе психоакустических критериев. Например, наиболее важные пары каналов могут выбираться для кодирования (908), даже без моделирования.In some examples, the severity indicator may be different (or contain other different indicators) from the evaluation of indicators associated with errors. In some cases, the importance cue may be associated with a manual selection or an importance-based selection based on psychoacoustic criteria. For example, the most important channel pairs can be selected for coding (908), even without simulation.

Далее приведено некоторое дополнительное пояснение для разъяснения того, каким образом кодер может передавать в служебных сигналах то, какие параметры 908 фактически кодируются во вспомогательной информации 220 потока 248 битов.The following is some additional explanation to explain how the encoder may signal which parameters 908 are actually encoded in the auxiliary information 220 of the bit stream 248.

Обращаясь к фиг. 9d, параметры по диагонали матрицы 900 ICC ассоциированы с упорядоченными индексами 1...10 (причем порядок предварительно определяется и известен посредством декодера). На фиг. 9c показано, что выбранные параметры 908, которые должны кодироваться, представляют собой ICC для пар L-R, L-C, R-C, LS-RS, которые индексируются посредством индексов 1, 2, 5, 10, соответственно. Соответственно, во вспомогательной информации 228 потока 248 битов, также предусмотрен индикатор индексов 1, 2, 5, 10 (например, в информации 254' по фиг. 6a). Соответственно, декодер должен понимать, что четыре ICC, предусмотренные во вспомогательной информации 228 потока 248 битов, представляют собой L-R, L-C, R-C, LS-RS, на основе информации относительно индексов 1, 2, 5, 10, также обеспеченной кодером, во вспомогательной информации 228. Индексы могут передаваться, например, через битовую карту, которая ассоциирует положение каждого бита в битовой карте с заданной. Например, для передачи в служебных сигналах индексов 1, 2, 5, 10, можно записать «1100100001» (в поле 254' вспомогательной информации 228), поскольку первый, второй, пятый и десятый биты означают индексы 1, 2, 5, 10 (в распоряжении специалистов в данной области техники другие варианты имеются). Он представляет собой так называемый «одномерный индекс», но другие стратегии индексации являются возможными. Например, комбинаторная технология счисления, согласно которой кодируется число N (в поле 254' вспомогательной информации 228), которое однозначно ассоциируется с конкретной парой каналов (см. также https://en.wikipedia.org/wiki/Combinatorial_number_system). Битовая карта также может называться «картой ICC», когда она относится к ICC.Referring to FIG. 9d, the diagonal parameters of the ICC matrix 900 are associated with ordered indices 1...10 (the order being predetermined and known by the decoder). In fig. 9c shows that the selected parameters 908 to be encoded are the ICCs for L-R, L-C, R-C, LS-RS pairs, which are indexed by indices 1, 2, 5, 10, respectively. Accordingly, in the auxiliary information 228 of the bit stream 248, an indicator of indexes 1, 2, 5, 10 is also provided (eg, in information 254' of FIG. 6a). Accordingly, the decoder must understand that the four ICCs provided in the 248 bit stream auxiliary information 228 are L-R, L-C, R-C, LS-RS, based on information regarding indexes 1, 2, 5, 10 also provided by the encoder in the auxiliary information 228. Indexes can be transmitted, for example, through a bitmap, which associates the position of each bit in the bitmap with a given one. For example, to send indices 1, 2, 5, 10 in the service signals, you can write “1100100001” (in field 254' of the auxiliary information 228), since the first, second, fifth and tenth bits mean indices 1, 2, 5, 10 ( other options are available to those skilled in the art). It is a so-called "one-dimensional index", but other indexing strategies are possible. For example, combinatorial number technology, according to which the number N is encoded (in field 254' of the auxiliary information 228), which is uniquely associated with a specific pair of channels (see also https://en.wikipedia.org/wiki/Combinatorial_number_system). A bitmap may also be called an "ICC map" when it refers to ICC.

Следует отметить, что в некоторых случаях используется неадаптивное (фиксированное) обеспечение параметров. Это означает, что в примере по фиг. 6a, вариант 254 выбора из параметров, которые должны кодироваться, является фиксированным, и нет необходимости для указания выбранных параметров в поле 254'. Фиг. 9b показывает пример фиксированного обеспечения параметров: выбранные ICC представляют собой L-C, L-LS, R-C, CRS, и нет необходимости передачи в служебных сигналах их индексов, поскольку декодер уже знает то, какие ICC кодируются во вспомогательной информации 228 потока 248 битов.It should be noted that in some cases non-adaptive (fixed) provision of parameters is used. This means that in the example of FIG. 6a, the selection option 254 from the parameters to be encoded is fixed and there is no need to indicate the selected parameters in the field 254'. Fig. 9b shows an example of fixed parameter provisioning: the selected ICCs are L-C, L-LS, R-C, CRS, and there is no need to signal their indices since the decoder already knows which ICCs are encoded in the 248 bit stream ancillary information 228.

Тем не менее, в некоторых случаях кодер может выполнять выбор между фиксированным обеспечением параметров и адаптивным обеспечением параметров. Кодер может передавать в служебных сигналах вариант выбора во вспомогательной информации 228 потока 248 битов, так что декодер может знать то, какие параметры фактически кодируются.However, in some cases the encoder may choose between fixed parameter provisioning and adaptive parameter provisioning. The encoder may signal the selection in the auxiliary information 228 of the 248 bit stream so that the decoder may know which parameters are actually encoded.

В некоторых случаях по меньшей мере некоторые параметры могут обеспечиваться без адаптации. Например:In some cases, at least some parameters may be provided without adaptation. For example:

- ICDL могут кодироваться в любом случае, без необходимости указания их в битовой карте; и- ICDLs can be encoded in any case, without the need to specify them in the bitmap; And

- ICC могут подвергаться адаптивному обеспечению.- ICCs may be subject to adaptive provisioning.

Пояснения связаны с каждым кадром или интервалом, или полосой частот. Для последующего кадра или интервала, или полосы частот, различные параметры 908 должны передаваться в декодер, различные индексы ассоциированы с последующим кадром или интервалом, или полосой частот; и могут выполняться различные выборы (например, фиксированные по сравнению с адаптивными). Фиг. 5 показывает пример гребенки 214 фильтров кодера 200, которая может использоваться для обработки исходного сигнала 212, чтобы получать сигнал 216 частотной области. Как видно из фиг. 5, сигнал 212 временной области (TD) может анализироваться посредством блока 258 анализа переходных процессов (детектора переходных частей). Кроме того, преобразование в версию 264 в частотной области (FD) входного сигнала 212, во множестве полос частот, обеспечивается посредством фильтра 263 (который может реализовывать, например, фильтр Фурье, короткий фильтр Фурье, квадратурное зеркало и т.д.). Версия 264 в частотной области входного сигнала 212 может анализироваться, например, в блоке 267 анализа полос частот, который может определять (согласно команде 268) конкретную группировку полос частот, которая должна выполняться в блоке 265 группировки сегментов. После этого, сигнал 216 FD должен представлять собой сигнал в сокращенном числе агрегированных полос частот. Агрегирование полос частот пояснено выше относительно фиг. 10a и 10b. Блок 267 группировки сегментов также может преобразовываться и согласовываться посредством анализа переходных процессов, выполняемого посредством блока 258 анализа переходных процессов. Как пояснено выше, может быть возможным дополнительно сокращать число агрегированных полос частот в случае переходной части: следовательно, информация 260 относительно переходной части может преобразовывать и согласовывать группировку сегментов. Помимо этого или в альтернативе, информация 261 относительно переходной части кодируется во вспомогательной информации 228 потока 248 битов. Информация 261 при кодировании во вспомогательной информации 228 может включать в себя, например, флаг, указывающий, имеется ли переходная часть (к примеру: «1», что означает «в кадре имеется переходная часть» по сравнению с «0», что означает: «в кадре отсутствует переходная часть»), и/или индикатор положения переходной части в кадре (к примеру, поле, указывающее, в каком интервале наблюдается переходная часть). В некоторых примерах, если информация 261 указывает, что в кадре отсутствует переходная часть («0»), индикатор положения переходной части не кодируется во вспомогательной информации 228, чтобы уменьшить размер потока 248 битов. Информация 261 также называется «параметром переходных частей» и показывается на фиг. 2d и 6b как кодируемая во вспомогательной информации 228 потока 246 битов.Explanations are associated with each frame or interval or frequency band. For a subsequent frame or interval or frequency band, various parameters 908 must be transmitted to the decoder, various indices associated with the subsequent frame or interval or frequency band; and different choices can be made (e.g., fixed versus adaptive). Fig. 5 shows an example of a filter bank 214 of the encoder 200 that can be used to process the source signal 212 to produce a frequency domain signal 216. As can be seen from Fig. 5, the time domain (TD) signal 212 may be analyzed by a transient analyzer (transient detector) 258. In addition, conversion to a frequency domain (FD) version 264 of the input signal 212, in a plurality of frequency bands, is provided by a filter 263 (which may implement, for example, a Fourier filter, a short Fourier filter, a quadrature mirror, etc.). The frequency domain version 264 of the input signal 212 may be analyzed, for example, in a frequency band analysis block 267, which can determine (per instruction 268) a particular frequency band grouping to be performed in a segment grouping block 265. Thereafter, the FD signal 216 must be a signal in a reduced number of aggregate frequency bands. Frequency band aggregation is explained above with respect to FIG. 10a and 10b. The segment grouping unit 267 may also be transformed and consistent through transient analysis performed by the transient analysis unit 258 . As explained above, it may be possible to further reduce the number of aggregated frequency bands in the case of a transition portion: therefore, information 260 regarding the transition portion can transform and coordinate the grouping of segments. Additionally or alternatively, information 261 regarding the transition portion is encoded in the auxiliary information 228 of the bit stream 248. The information 261, when encoded in the auxiliary information 228, may include, for example, a flag indicating whether there is a transition portion (for example: "1" meaning "there is a transition portion in the frame" versus "0" meaning: “there is no transition part in the frame”), and/or an indicator of the position of the transition part in the frame (for example, a field indicating in what interval the transition part is observed). In some examples, if the information 261 indicates that there is no transition portion ("0") in the frame, the transition portion position indicator is not encoded in the auxiliary information 228 to reduce the size of the bit stream 248. Information 261 is also called “transition parameter” and is shown in FIG. 2d and 6b as a 246-bit stream encoded in the auxiliary information 228.

В некоторых примерах, группировка сегментов в блоке 265 также может преобразовываться и согласовываться посредством внешней информации 260', такой как информация относительно состояния передачи (например, измерения, ассоциированные с передачами, частота ошибок и т.д.). Например, чем больше объем рабочих данных (или чем больше частота ошибок), тем больше агрегирование (тенденциозно меньше агрегированных полос частот, которые являются более широкими), с тем чтобы иметь меньший объем вспомогательной информации 228, которая должна кодироваться в потоке 248 битов. Информация 260', в некоторых примерах, может быть аналогичной информации или показателям 252 по фиг. 6a.In some examples, the grouping of segments in block 265 may also be translated and consistent through external information 260', such as information regarding transmission status (eg, measurements associated with transmissions, error rates, etc.). For example, the larger the amount of operating data (or the higher the error rate), the greater the aggregation (tendentiously fewer aggregated frequency bands that are wider) so as to have less amount of ancillary information 228 that must be encoded in the 248 bit stream. Information 260', in some examples, may be similar to information or metrics 252 of FIG. 6a.

В общем, нецелесообразно отправлять параметры для каждой комбинации полос частот/интервалов, но выборки гребенки фильтров группируются как по числу интервалов, так и по числу полос частот, чтобы сокращать число наборов параметров, которые передаются в расчете на кадр. Вдоль частотной оси, группировка полос частот в полосы частот параметров использует непостоянное разделение в полосах частот параметров, причем число полос частот в полосах частот параметров не является постоянным, а зачастую соответствует психоакустически обусловленному разрешению полос частот параметров, т.е. в полосах нижних частот, полосы частот параметров содержат только одну или небольшое число полос частот гребенки фильтров, и для более высоких полос частот параметров, большее (и постоянно увеличивающееся) число полос частот гребенки фильтров группируется в одну полосу частот параметров.In general, it is not practical to send parameters for every frequency band/slot combination, but filter bank samples are grouped by both the number of slots and the number of frequency bands to reduce the number of parameter sets that are sent per frame. Along the frequency axis, the grouping of frequency bands into parameter frequency bands exploits the non-constant separation within the parameter frequency bands, where the number of frequency bands within the parameter frequency bands is not constant, but often corresponds to the psychoacoustically determined resolution of the parameter frequency bands, i.e. at lower pass bands, parameter bands contain only one or a small number of filter bank frequency bands, and for higher parameter frequency bands, a larger (and increasing) number of filter bank frequency bands are grouped into one parameter band.

Таким образом, например, снова для входной частоты дискретизации 48 кГц и числа полос частот параметров, заданного равным 14, следующий вектор grp14 описывает индексы гребенки фильтров, которые обеспечивают границы полос частот для полос частот параметров (причем индекс начинается с 0):Thus, for example, again for an input sample rate of 48 kHz and the number of parameter frequency bands set to 14, the following vector grp14 describes the filter bank indices that provide the frequency band boundaries for the parameter frequency bands (with the index starting at 0):

grp14= grp14=

Полоса j частот параметров содержит полосы частот гребенки фильтров .Parameter frequency band j contains filter bank frequency bands .

Следует отметить, что группировка полос частот для 48 кГц также может непосредственно использоваться для других возможных частот дискретизации посредством простого ее усечения, поскольку группировка как соответствует психоакустически обусловленной шкале частот, так и имеет определенные границы полос частот, соответствующие числу полос частот для каждой частоты дискретизации (таблица 1).It should be noted that the grouping of frequency bands for 48 kHz can also be directly used for other possible sampling frequencies by simply truncation, since the grouping both corresponds to a psychoacoustically determined frequency scale and has specific frequency band boundaries corresponding to the number of frequency bands for each sampling frequency ( Table 1).

Если кадр является непереходным, или обработка переходных частей не реализуется, группировка вдоль временной оси выполняется по всем интервалам в кадре таким образом, что один набор параметров доступен в расчете на полосу частот параметров.If the frame is intransitive, or transition processing is not implemented, grouping along the time axis is performed across all intervals in the frame such that one set of parameters is available per parameter bandwidth.

При этом число наборов параметров должно быть большим, но временное разрешение может быть ниже 20-миллисекундных кадров (в среднем 40 мс). Таким образом, чтобы дополнительно сокращать число наборов параметров, отправленных в расчете на кадр, только поднабор полос частот параметров используется для определения и кодирования параметров для отправки в потоке битов в декодер. Поднаборы являются фиксированными и известны как кодеру, так и декодеру. Конкретный поднабор, отправленный в потоке битов, передается в служебных сигналах посредством поля в потоке битов, чтобы указывать для декодера то, какому поднабору полос частот параметров принадлежат передаваемые параметры, и декодер затем заменяет параметры для этого поднабора посредством передаваемых (ICC, ICLD) и сохраняет параметры из предыдущих кадров (ICC, ICLD) для всех полос частот параметров, которые не находятся в текущем поднаборе.In this case, the number of parameter sets should be large, but the temporal resolution may be lower than 20 millisecond frames (40 ms on average). Thus, to further reduce the number of parameter sets sent per frame, only a subset of the parameter bandwidths is used to determine and encode the parameters to be sent in the bit stream to the decoder. The subsets are fixed and known to both the encoder and the decoder. The particular subset sent in the bitstream is signaled by a field in the bitstream to indicate to the decoder which subset of parameter bands the transmitted parameters belong to, and the decoder then replaces the parameters for that subset by the transmitted ones (ICC, ICLD) and stores parameters from previous frames (ICC, ICLD) for all frequency bands of parameters that are not in the current subset.

В примере, полосы частот параметров могут разделяться на два поднабора, примерно содержащие половину полных полос частот параметров, и непрерывный поднабор для более низких полос частот параметров и один непрерывный поднабор для более высоких полос частот параметров. Поскольку имеются два поднабора, поле потоков битов для передачи в служебных сигналах поднабора составляет один бит, и пример для поднаборов для 48 кГц и 14 полос частот параметров представляет собой:In an example, the parameter bands may be divided into two subsets containing approximately half of the total parameter bands, and a contiguous subset for the lower parameter bands and one contiguous subset for the higher parameter bands. Since there are two subsets, the bit stream field to be transmitted in the subset signaling is one bit, and an example for subsets for 48 kHz and 14 parameter bands is:

, ,

- где указывает то, какому поднабору принадлежит полоса j частот параметров.- Where indicates which subset the j frequency band of parameters belongs to.

Следует отметить, что сигнал 246 понижающего микширования может фактически кодироваться, в потоке 248 битов, в качестве сигнала во временной области: просто, последующий модуль 218 оценки параметров должен оценивать параметры 220 (например, ξi, j и/или Xi) в частотной области (и декодер 300 должен использовать параметры 220 для подготовки правила 403 микширования (например, матрицы микширования), как пояснено ниже).It should be noted that the downmix signal 246 may actually be encoded, in a bit stream 248, as a time domain signal: simply, the subsequent parameter estimator 218 must estimate the parameters 220 (eg, ξ i , j and/or X i ) in the frequency domain region (and decoder 300 must use parameters 220 to prepare a mixing rule 403 (eg, a mixing matrix), as explained below).

Фиг. 2d показывает пример кодера 200, который может представлять собой один из предыдущих кодеров или может включать в себя элементы ранее поясненных кодеров. Входной сигнал 212 TD вводится в кодер, и выводится поток 248 битов, причем поток 248 битов включает в себя сигнал 246 понижающего микширования (например, кодированный посредством базового кодера 247) и информацию 220 корреляции и уровня, кодированную во вспомогательной информации 228.Fig. 2d shows an example of an encoder 200, which may be one of the previous encoders or may include elements of the previously explained encoders. The TD input signal 212 is input to the encoder and a bit stream 248 is output, wherein the bit stream 248 includes a downmix signal 246 (e.g., encoded by the base encoder 247) and correlation and level information 220 encoded in the auxiliary information 228.

Как видно из фиг. 2d, гребенка 214 фильтров может включаться (пример гребенки фильтров приведён на фиг. 5). Преобразование в частотной области (FD) предусмотрено в блоке 263 (DMX в частотной области) для получения сигнала 264 FD, который представляет собой версию FD входного сигнала 212. Сигнал 264 FD (также указываемый с X) получается во множестве полос частот. Может быть предусмотрен блок 265 группировки полос частот/интервалов (который может реализовывать блок 265 группировки по фиг. 5) для получения сигнала 216 FD в агрегированных полосах частот. Сигнал 216 FD, в некоторых примерах, может представлять собой версию сигнала 264 FD в меньшем числе полос частот. Затем сигнал 216 может передаваться в модуль 218 оценки параметров, который включает в себя блоки 502, 504 оценки ковариации (здесь показаны как один отдельный блок) и, ниже, блок 506, 510 оценки и кодирования параметров (варианты осуществления элементов 502, 504, 506 и 510 показаны на фиг. 6c). Блок 506, 510 оценки и кодирования параметров также может обеспечивать параметры 220, которые должны кодироваться во вспомогательной информации 228 потока 248 битов. Детектор 258 переходных частей (который может осуществлять блок 258 анализа переходных процессов по фиг. 5) может узнавать переходные части и/или положение переходной части в кадре (например, то, в каком интервале переходная часть идентифицирована). Соответственно, информация 261 относительно переходной части (например, параметр переходных частей) может передаваться в модуль 218 оценки параметров (например, для определения, какие параметры должны кодироваться). Детектор 258 переходных частей также может передавать информацию или команды (268) в блок 265, так что группировка выполняется с учетом наличия и/или положения переходной части в кадре.As can be seen from Fig. 2d, the filter bank 214 may be turned on (an example of a filter bank is shown in FIG. 5). Frequency domain (FD) conversion is provided in block 263 (frequency domain DMX) to obtain an FD signal 264, which is an FD version of the input signal 212. The FD signal 264 (also indicated with an X) is obtained in a variety of frequency bands. A frequency band/slot grouper 265 may be provided (which may implement the grouper 265 of FIG. 5) to obtain the FD signal 216 in the aggregated frequency bands. The FD signal 216, in some examples, may be a version of the FD signal 264 in fewer frequency bands. Signal 216 may then be passed to parameter estimator 218, which includes covariance estimators 502, 504 (shown here as one separate block) and, below, parameter estimator and encoder 506, 510 (embodiments of elements 502, 504, 506 and 510 are shown in Fig. 6c). The parameter estimator and encoder 506, 510 may also provide parameters 220 to be encoded in the auxiliary information 228 of the bit stream 248. The transition portion detector 258 (which may be implemented by the transient analysis block 258 of FIG. 5) may recognize the transition portions and/or the position of the transition portion in the frame (eg, in which interval the transition portion is identified). Accordingly, information 261 regarding the transition portion (eg, a parameter of the transition portions) may be transmitted to parameter estimation module 218 (eg, to determine which parameters should be encoded). The transition detector 258 may also provide information or commands (268) to block 265 such that grouping is performed based on the presence and/or position of the transition in the frame.

Фиг. 3a, 3b, 3c показывают примеры аудиодекодеров 300 (также называемых «устройствами синтеза аудиоданных»). В примерах, декодеры по фиг. 3a, 3b, 3c могут представлять собой один и тот же декодер, только с некоторыми отличиями для исключения различных элементов. В примерах, декодер 300 может быть таким же, как и декодеры по фиг. 1 и 4. В примерах, декодер 300 также может представлять собой одно и то же устройство по отношению к кодеру 200.Fig. 3a, 3b, 3c show examples of audio decoders 300 (also called “audio synthesis devices”). In the examples, the decoders of FIGS. 3a, 3b, 3c may be the same decoder, just with some differences to eliminate different elements. In examples, decoder 300 may be the same as the decoders of FIGS. 1 and 4. In the examples, decoder 300 may also be the same device as encoder 200.

Декодер 300 может быть выполнен с возможностью формирования сигнала (336, 340, yR) синтеза из сигнала x понижающего микширования в TD (246) или в FD (314). Устройство 300 синтеза аудиоданных может содержать входной интерфейс 312, выполненный с возможностью приема сигнала 246 понижающего микширования (например, сигнала понижающего микширования, одинакового с сигналом понижающего микширования, кодированным посредством кодера 200) и вспомогательной информации 228 (например, кодированной в потоке 248 битов). Вспомогательная информация 228 может включать в себя, как пояснено выше, информацию (220, 314) канального уровня и корреляции, такую как по меньшей мере одно из ξ, X и т.д. либо их элементов (как пояснено ниже) исходного сигнала, который может представлять собой исходный входной сигнал 212, y, на стороне кодера. В некоторых примерах, все ICLD (X) и некоторые записи (но не все) 906 или 908 за пределами диагонали матрицы 900 ICC (ICC или значения ξ) получаются посредством декодера 300.Decoder 300 may be configured to generate a synthesis signal (336, 340, yR) from the downmix signal x in the TD (246) or in the FD (314). Audio synthesis apparatus 300 may include an input interface 312 configured to receive a downmix signal 246 (eg, a downmix signal identical to the downmix signal encoded by encoder 200) and side information 228 (eg, encoded in a bit stream 248). Ancillary information 228 may include, as explained above, link layer and correlation information (220, 314), such as at least one of ξ, X, etc. or elements thereof (as explained below) of the original signal, which may be the original input signal 212, y, at the encoder side. In some examples, all ICLD(X) and some (but not all) entries 906 or 908 outside the diagonal of ICC matrix 900 (ICC or ξ values) are obtained by decoder 300.

Декодер 300 может выполнен с возможностью (например, через модуль вычисления прототипных сигналов или модуль 326 вычисления прототипных сигналов) вычисления прототипного сигнала 328 из сигнала (324, 246, x) понижающего микширования, причем прототипный сигнал 328 имеет некоторое число каналов (больше одного) сигнала 336 синтеза.Decoder 300 may be configured (for example, through a prototype signal calculator or prototype signal calculation module 326) to calculate a prototype signal 328 from the downmix signal (324, 246, x), wherein the prototype signal 328 has a number of (more than one) signal channels. 336 synthesis.

Декодер 300 может выполнен с возможностью (например, через модуль 402 вычисления правил микширования) вычисления правила 403 микширования с использованием по меньшей мере одного из:Decoder 300 may be configured (eg, through mixing rule calculation module 402) to calculate mixing rule 403 using at least one of:

- информации канального уровня и корреляции (например, 314, Cy, ξ, X либо их элементы) исходного сигнала (212, y); и- link level information and correlation (for example, 314, C y , ξ, X or their elements) of the original signal (212, y); And

- ковариационной информации (например, Cx либо ее элементы), ассоциированной с сигналом (324, 246, x) понижающего микширования.- covariance information (eg, C x or elements thereof) associated with the downmix signal (324, 246, x).

Декодер 300 может содержать процессор 404 синтеза, выполненный с возможностью формирования сигнала (336, 340, yR) синтеза с использованием прототипного сигнала 328 и правила 403 микширования.Decoder 300 may include a synthesis processor 404 configured to generate a synthesis signal (336, 340, yR) using the prototype signal 328 and the mixing rule 403.

Процессор 404 синтеза и модуль 402 вычисления правил микширования могут быть объединены в одном механизме 334 синтеза. В некоторых примерах, модуль 402 вычисления правил микширования может быть внешним по отношению к механизму 334 синтеза. В некоторых примерах, модуль 402 вычисления правил микширования по фиг. 3a может быть интегрирован с модулем 316 восстановления параметров по фиг. 3b.The synthesis processor 404 and the mixing rules calculation module 402 may be combined into a single synthesis engine 334 . In some examples, the mixing rules calculation module 402 may be external to the synthesis engine 334. In some examples, the mixing rule calculation module 402 of FIG. 3a may be integrated with the parameter recovery module 316 of FIG. 3b.

Число каналов синтеза сигнала (336, 340, yR) синтеза больше одного (и в некоторых случаях больше двух или больше трех) и может составлять большее, меньшее или равное число исходных каналов по сравнению с исходным сигналом (212, y), которое также больше одного (и в некоторых случаях больше двух или больше трех). Число каналов сигнала (246, 216, x) понижающего микширования составляет по меньшей мере один или два и меньше числа число исходных каналов исходного сигнала (212, y) и числа каналов синтеза сигнала (336, 340, yR) синтеза.The number of signal synthesis channels (336, 340, yR) of the synthesis is greater than one (and in some cases more than two or more than three) and may be more, less, or equal to the number of original channels compared to the original signal (212, y), which is also greater one (and in some cases more than two or more than three). The number of signal channels (246, 216, x) of the downmix is at least one or two and less than the number of original channels of the original signal (212, y) and the number of synthesis signal channels (336, 340, yR) of the synthesis.

Входной интерфейс 312 может считывать кодированный поток 248 битов (например, тот же поток 248 битов, кодированный посредством кодера 200). Входной интерфейс 312 может представлять собой или содержать модуль считывания потоков битов и/или энтропийный декодер. Поток 248 битов может кодировать, как пояснено выше, сигнал (246, x) понижающего микширования и вспомогательную информацию 228. Вспомогательная информация 228 может содержать, например, исходную информацию канального уровня и корреляции 220 в форме, выводимой либо модулем 218 оценки параметров, либо любым из элементов ниже относительно модуля 218 оценки параметров (например, блока 222 квантования параметров и т.д.). Вспомогательная информация 228 может содержать либо кодированные значения, либо индексированные значения, либо и то, и другое. Даже если входной интерфейс 312 не показан на фиг. 3b для сигнала (346, x) понижающего микширования, несмотря на это, он может также применяться к сигналу понижающего микширования, как показано на фиг 3a. В некоторых примерах, входной интерфейс 312 может квантовать параметры, полученные из потока 248 битов.Input interface 312 may read an encoded bit stream of 248 (eg, the same bit stream of 248 encoded by encoder 200). Input interface 312 may be or include a bitstream reader and/or an entropy decoder. The bit stream 248 may encode, as discussed above, the downmix signal (246, x) and side information 228. The side information 228 may comprise, for example, original link layer information and correlations 220 in the form output by either parameter estimator 218 or any of the elements below relative to the parameter estimation module 218 (eg, parameter quantization unit 222, etc.). The auxiliary information 228 may contain either encoded values, indexed values, or both. Even if the input interface 312 is not shown in FIG. 3b for the downmix signal (346, x), although it can also be applied to the downmix signal as shown in FIG. 3a. In some examples, input interface 312 may quantize parameters derived from the 248 bit stream.

Декодер 300 в силу этого может получать сигнал (246, x) понижающего микширования, который может находиться во временной области. Как пояснено, выше, сигнал 246 понижающего микширования может разделяться на кадры и/или интервалы (см. выше). В примерах, гребенка 320 фильтров может преобразовывать сигнал 246 понижающего микширования во временной области, чтобы получать версию 324 сигнала 246 понижающего микширования в частотной области. Как пояснено выше, полосы частот версии 324 в частотной области сигнала 246 понижающего микширования могут группироваться в группы полос частот. В примерах, может выполняться такая же группировка, как та, что выполняется в гребенке 214 фильтров (см. выше). Параметры для группировки (например, то, какие полосы частот и/или сколько полос частот должны группироваться и т.д.) могут быть основаны, например, на передаче служебных сигналов посредством модуля 265 группировки сегментов или блока 267 анализа полос частот, причем передача служебных сигналов кодируется во вспомогательной информации 228.The decoder 300 can therefore receive a downmix signal (246, x), which may be in the time domain. As explained above, the downmix signal 246 may be divided into frames and/or intervals (see above). In examples, filter bank 320 may transform the time domain downmix signal 246 to produce a frequency domain version 324 of the downmix signal 246. As explained above, the version frequency bands 324 in the frequency domain of the downmix signal 246 may be grouped into groups of frequency bands. In the examples, the same grouping may be performed as that performed in filter bank 214 (see above). The parameters for grouping (for example, which frequency bands and/or how many frequency bands should be grouped, etc.) can be based, for example, on the transmission of overhead signals through the segment grouping module 265 or the frequency band analysis unit 267, wherein the transmission of overhead signals signals are encoded in auxiliary information 228.

Декодер 300 может включать в себя модуль 326 вычисления прототипных сигналов. Модуль 326 вычисления прототипных сигналов может вычислять прототипный сигнал 328 из сигнала понижающего микширования (например, одной из версий 324, 246, x), например, посредством применения прототипного правила (например, матрицы Q). Прототипное правило может осуществляться посредством прототипной матрицы (Q) с первой размерностью и второй размерностью, при этом первая размерность ассоциирована с числом каналов понижающего микширования, и вторая размерность ассоциирована с числом каналов синтеза. Следовательно, прототипный сигнал имеет некоторое число каналов сигнала 340 синтеза, которые должны в конечном счете быть сформированы.The decoder 300 may include a prototype signal calculation module 326. The prototype signal calculation module 326 may calculate the prototype signal 328 from the downmix signal (eg, one of the versions 324, 246, x), for example, by applying a prototype rule (eg, the Q matrix). The prototype rule may be implemented by a prototype matrix (Q) with a first dimension and a second dimension, wherein the first dimension is associated with the number of downmix channels and the second dimension is associated with the number of synthesis channels. Therefore, the prototype signal has a number of synthesis signal channels 340 that must ultimately be generated.

Модуль 326 вычисления прототипных сигналов может применять так называемое повышающее микширование к сигналу (324, 246, x) понижающего микширования, в том смысле, что он просто формирует версию сигнала (324, 246, x) понижающего микширования в увеличенном числе каналов (числе каналов сигнала синтеза, которые должны формироваться), но без применения существенной «интеллектуальности». В примерах, модуль 326 вычисления прототипных сигналов может просто применять фиксированную заданную прототипную матрицу (идентифицированную как "Q" в этом документе) к версии 324 FD сигнала 246 понижающего микширования. В примерах, модуль 326 вычисления прототипных сигналов может применять различные прототипные матрицы к различным полосам частот. Прототипное правило (Q) может выбираться из множества предварительно сохраненных прототипных правил, например, на основе конкретного числа каналов понижающего микширования и конкретного числа каналов синтеза.The prototype signal calculator 326 may apply so-called upmixing to the downmix signal (324, 246, x), in the sense that it simply generates a version of the downmix signal (324, 246, x) on an increased number of channels (the number of channels of the signal synthesis that must be formed), but without the application of significant “intellectuality”. In examples, prototype signal calculator 326 may simply apply a fixed specified prototype matrix (identified as "Q" herein) to FD version 324 of downmix signal 246. In examples, prototype signal calculator 326 may apply different prototype matrices to different frequency bands. The prototype rule (Q) may be selected from a plurality of pre-stored prototype rules, for example, based on a specific number of downmix channels and a specific number of synthesis channels.

Прототипный сигнал 328 может декоррелироваться в модуле 330 декорреляции таким образом, чтобы получить декоррелированную версию 332 прототипного сигнала 328. Тем не менее, в некоторых примерах, предпочтительно модуль 330 декорреляции не имеется, поскольку доказано, что изобретение является достаточно эффективным, чтобы позволить его исключить.The prototype signal 328 may be decorrelated in the decorrelation module 330 so as to obtain a decorrelated version 332 of the prototype signal 328. However, in some examples, preferably the decorrelation module 330 is not present because the invention has been proven to be effective enough to allow its omission.

Прототипный сигнал (в любой из его версий 328, 332) может вводиться в механизм 334 синтеза (и, в частности, в процессор 404 синтеза). Здесь обрабатывается прототипный сигнал (328, 332) для получения сигнала (336, yR) синтеза. Механизм 334 синтеза (и, в частности, в процессор404 синтеза) может применять правило 403 микширования (в некоторых примерах, поясненных ниже, правила микширования равны двум, например, одно для основного компонента сигнала синтеза и одно для остаточного компонента). Правило 403 микширования может осуществляться, например, посредством матрицы. Матрица 403 может формироваться, например, посредством модуля 402 вычисления правил микширования, на основе информации канального уровня и корреляции (314, к примеру, ξ, X либо ее элементов) исходного сигнала (212, y).The prototype signal (in any of its versions 328, 332) may be input to the synthesis engine 334 (and, in particular, the synthesis processor 404). Here, the prototype signal (328, 332) is processed to obtain a synthesis signal (336, yR). The synthesis engine 334 (and, in particular, the synthesis processor 404) may apply a mixing rule 403 (in some examples explained below, the mixing rules are equal to two, for example, one for the main component of the synthesis signal and one for the residual component). The mixing rule 403 may be implemented, for example, by a matrix. The matrix 403 may be generated, for example, by the mixing rules calculation module 402, based on the link layer information and the correlation (314, eg, ξ, X or elements thereof) of the original signal (212, y).

Сигнал 336 синтеза, выводимый механизмом 334 синтеза (и, в частности, процессором 404 синтеза), при необходимости может фильтроваться в гребенке 338 фильтров. Помимо этого или в альтернативе, сигнал 336 синтеза может преобразовываться во временную область в гребенке 338 фильтров. Версия 340 (во временной области или фильтрованная) сигнала 336 синтеза в силу этого может использоваться для воспроизведения аудио (например, посредством громкоговорителей).The synthesis signal 336 output by the synthesis engine 334 (and, in particular, the synthesis processor 404) may be filtered by a filter bank 338 if desired. Additionally or alternatively, the synthesis signal 336 may be converted to the time domain in a filter bank 338. A (time domain or filtered) version 340 of the synthesis signal 336 can therefore be used for audio playback (eg, through loudspeakers).

Чтобы получать правило 403 микширования (например, матрицу микширования), информация канального уровня и корреляции (например, Cy, CyR и т.д.) исходного сигнала и ковариационная информация (например, Cx), ассоциированная с сигналом понижающего микширования, может передаваться в модуль 402 вычисления правил микширования. Для этой цели, можно использовать информацию 220 канального уровня и корреляции, кодированную во вспомогательной информации 228 посредством кодера 200.To obtain a mixing rule 403 (eg, a mixing matrix), link layer and correlation information (eg, C y , C y R , etc.) of the original signal and covariance information (eg, C x ) associated with the downmix signal may transmitted to the mixing rule calculation module 402. For this purpose, link layer and correlation information 220 encoded in auxiliary information 228 by encoder 200 can be used.

Тем не менее, в некоторых случаях, для уменьшения объема информации, кодированной в потоке 248 битов, не все параметры кодируются посредством кодера 200 (например, не вся информация канального уровня и корреляции исходного сигнала 212 и/или не вся ковариационная информация микшированного с понижением сигнала 246). Следовательно, некоторые параметры 318 должны оцениваться в модуле 316 восстановления параметров.However, in some cases, to reduce the amount of information encoded in the 248 bit stream, not all parameters are encoded by the encoder 200 (e.g., not all of the link layer and correlation information of the original signal 212 and/or not all of the covariance information of the downmixed signal 246). Therefore, some parameters 318 must be estimated in the parameter recovery module 316.

В модуль 316 восстановления параметров может подаваться, например по меньшей мере одно из:Parameter recovery module 316 may be supplied, for example, with at least one of:

- версии 322 сигнала 246 (x) понижающего микширования, которая, например, может представлять собой фильтрованную версию или версию FD сигнала 246 понижающего микширования; и- a version 322 of the downmix signal 246(x), which, for example, may be a filtered version or an FD version of the downmix signal 246; And

- вспомогательной информации 228 (включающая в себя информацию 228 канального уровня и корреляции).- auxiliary information 228 (including link layer and correlation information 228).

Вспомогательная информация 228 может включать в себя (в качестве информации уровня и корреляции входного сигнала) информацию, ассоциированную с корреляционной матрицей Cy исходного сигнала (212, y): тем не менее, в некотором случае не все элементы корреляционной матрицы Cy фактически кодируются. Следовательно, технологии оценки и восстановления разработаны для восстановления версии (CyR) корреляционной матрицы Cy (например, через промежуточные этапы, которые получают оцененную версию ).The auxiliary information 228 may include (as level and correlation information of the input signal) information associated with the correlation matrix C y of the original signal (212, y): however, in some case, not all elements of the correlation matrix C y are actually encoded. Consequently, estimation and recovery technologies are designed to recover the version (C yR ) of the correlation matrix C y (for example, through intermediate steps that obtain the estimated version ).

Параметры 314, передаваемые в модуль 316, могут получаться посредством энтропийного декодера 312 (входного интерфейса) и, например, могут квантоваться.Parameters 314 passed to module 316 may be obtained by entropy decoder 312 (input interface) and, for example, may be quantized.

Фиг. 3c показывает пример декодера 300, который может представлять собой вариант осуществления одного из декодеров по фиг. 1-3b. Здесь, декодер 300 включает в себя входной интерфейс 312, представленный посредством демультиплексора. Декодер 300 выводит сигнал 340 синтеза, который, например, может находиться в TD (сигнал 340), которые должен воспроизводиться посредством громкоговорителей, либо в FD (сигнал 336). Декодер 300 по фиг. 3c может включать в себя базовый декодер 347, который также может представлять собой часть входного интерфейса 312. Базовый декодер 347 в силу этого может выдавать сигнал x, 246 понижающего микширования. Гребенка 320 фильтров может преобразовывать сигнал 246 понижающего микширования из TD в FD. Версия FD сигнала x, 246 понижающего микширования указывается с помощью 324. Сигнал 324 FD понижающего микширования может передаваться в блок 388 для ковариационного синтеза. Блок 388 для ковариационного синтеза может выдавать сигнал 336 (Y) синтеза в FD. Гребенка 338 обратных фильтров может преобразовывать аудиосигнал 314 в его версии 340 TD. Сигнал 324 FD понижающего микширования может передаваться в блок 380 группировки полос частот/интервалов. Блок 380 группировки полос частот/интервалов может выполнять такую же операцию, как та, которая выполнена в кодере, посредством блока 265 группировки сегментов по фиг. 5 и 2d. Поскольку полосы частот сигнала 216 понижающего микширования по фиг. 5 и 2d, в кодере, группированы или агрегированы в небольшом числе полос частот (с большой шириной), и параметры 220 (ICC, ICLD) ассоциированы с группами агрегированных полос частот, теперь необходимо агрегировать декодированный сигнал понижающего микширования тем же способом: каждую агрегированную полосу частот со связанным параметром. Следовательно, номер 385 означает сигнал XB понижающего микширования после агрегирования. Следует отметить, что фильтр обеспечивает неагрегированное представление FD таким образом, чтобы иметь возможность обрабатывать параметры, поскольку в кодере группировка полос частот/интервалов в декодере (380) осуществляет одинаковое агрегирование по полосам частот/интервалам с кодером для обеспечения агрегированного понижающего микширования XB.Fig. 3c shows an example of a decoder 300, which may be an embodiment of one of the decoders of FIG. 1-3b. Here, the decoder 300 includes an input interface 312 provided by a demultiplexer. Decoder 300 outputs a synthesis signal 340, which, for example, may be in the TD (signal 340), which is to be played back through the speakers, or in the FD (signal 336). Decoder 300 of FIG. 3c may include a core decoder 347, which may also be part of an input interface 312. The core decoder 347 may therefore provide a downmix signal x, 246. Filter bank 320 may convert downmix signal 246 from TD to FD. The FD version of the downmix signal x, 246 is indicated by 324. The downmix FD signal 324 may be provided to block 388 for covariance synthesis. The covariance synthesis block 388 may provide a synthesis signal 336 (Y) to the FD. The inverse filter bank 338 may convert the audio signal 314 to its TD version 340. The FD downmix signal 324 may be transmitted to the frequency band/slot grouper 380 . The frequency band/slot grouper 380 may perform the same operation as that performed in the encoder by the segment grouper 265 of FIG. 5 and 2d. Since the frequency bands of the downmix signal 216 of FIG. 5 and 2d, in the encoder, are grouped or aggregated into a small number of frequency bands (with a large width), and the parameters 220 (ICC, ICLD) are associated with groups of aggregated frequency bands, it is now necessary to aggregate the decoded downmix signal in the same way: each aggregated band frequencies with a related parameter. Therefore, number 385 means the XB downmix signal after aggregation. It should be noted that the filter provides a non-aggregated representation of the FD in such a way as to be able to process the parameters, since in the encoder the band/slot grouping in the decoder (380) performs the same aggregation across bands/slots with the encoder to provide aggregated XB downmixing.

Блок 380 группировки полос частот/интервалов также может агрегировать по различным интервалам в кадре, так что сигнал 385 также агрегируется в размерности интервала, аналогичной кодеру. Блок 380 группировки полос частот/интервалов также может принимать информацию 261, кодированную во вспомогательной информации 228 потока 248 битов, указывающую на наличие переходной части, и в этом случае, также положение переходной части в кадре.Band/slot grouper 380 may also aggregate across different slots in a frame, such that signal 385 is also aggregated into an encoder-like slot dimension. The frequency band/slot grouper 380 may also receive information 261 encoded in the auxiliary information 228 of the bit stream 248 indicating the presence of a transition portion, and in this case, also the position of the transition portion in the frame.

В блоке 384 оценки ковариации, оценивается ковариация Cx сигнала 246 (324) понижающего микширования. Ковариация Cy получается в блоке 386 вычисления ковариации, например, посредством использования уравнений (4)-(8) может использоваться с этой целью. Фиг. 3c показывает «многоканальный параметр», который, например, может представлять собой параметры 220 (ICC и ICLD). Ковариации Cy и Cx затем передаются в блок 388 для ковариационного синтеза для синтеза сигнала 388 синтеза. В некоторых примерах, блоки 384, 386 и 388 могут осуществлять, если их рассматривать вместе, как восстановление 316 параметров, так и микширование вычисляются 402, и процессор 404 синтеза, как пояснено выше и ниже.In covariance estimation block 384, the covariance C x of the downmix signal 246 (324) is estimated. The covariance C y is obtained in covariance calculation block 386, for example, by using equations (4)-(8) can be used for this purpose. Fig. 3c shows a “multi-channel parameter” which, for example, may be parameters 220 (ICC and ICLD). The covariances C y and C x are then passed to a covariance synthesis block 388 to synthesize the synthesis signal 388 . In some examples, blocks 384, 386, and 388 may perform, when considered together, both parameter recovery 316 and mixing calculations 402, and synthesis processor 404, as explained above and below.

4. Пояснение4. Explanation

4.1. Общее представление4.1. General overview

Новый подход настоящих примеров нацелен, в числе прочего, на выполнение кодирования и декодирования многоканального содержимого на низких скоростях передачи битов (что означает на равных или ниже 160 Кбит/с) при поддержании качества звука, максимально близкого к исходному сигналу, и сохранении пространственных свойств многоканального сигнала. Одна характеристики нового подхода также заключается в том, чтобы подходить инфраструктуре DirAC, упомянутой выше. Выходной сигнал может подготавливаться посредством рендеринга такой же конфигурацией громкоговорителей, как и конфигурация громкоговорителей для входного сигнала 212, либо другой конфигурацией громкоговорителей (которая может быть большей или меньшей с точки зрения громкоговорителей). Кроме того, выходной сигнал может подготавливаться посредством рендеринга на громкоговорителях с использованием бинаурального рендеринга.The new approach of the present examples aims, among other things, to perform encoding and decoding of multi-channel content at low bit rates (meaning at or below 160 Kbps) while maintaining audio quality as close as possible to the original signal and preserving the spatial properties of multi-channel signal. One characteristic of the new approach is also to fit the DirAC framework mentioned above. The output signal may be rendered by the same speaker configuration as the speaker configuration for input signal 212, or by a different speaker configuration (which may be larger or smaller in terms of speakers). Additionally, the output signal can be prepared by rendering on loudspeakers using binaural rendering.

Текущий раздел должен представлять всестороннее описание изобретения и различных модулей, которые составляют его.The current section should provide a comprehensive description of the invention and the various modules that make up it.

Предложенная система состоит из двух основных частей:The proposed system consists of two main parts:

- Кодер 200, который извлекает необходимые параметры 220 из входного сигнала 212, квантует их (на 222) и кодирует их (на 226). Кодер 200 также может вычислять сигнал 246 понижающего микширования, который кодируется в потоке 248 битов (и может передаваться в декодер 300).- Encoder 200, which extracts the necessary parameters 220 from the input signal 212, quantizes them (at 222) and encodes them (at 226). Encoder 200 may also calculate a downmix signal 246, which is encoded into a bit stream 248 (and may be passed to decoder 300).

- Декодер 300, который использует кодированные (например, передаваемые) параметры и микшированный с понижением сигнал 246 для формирования многоканального выходного сигнала, качество которого является максимально близким к исходному сигналу 212.- A decoder 300 that uses the encoded (e.g., transmitted) parameters and the downmixed signal 246 to produce a multi-channel output signal whose quality is as close as possible to the original signal 212.

Фиг. 1 показывает общее представление предложенного нового подхода согласно примеру. Следует отметить, что некоторые примеры используют только поднабор блоков конфигурации, показанных в общей схеме, и исключают определенные блоки обработки в зависимости от ситуации применения.Fig. 1 shows an overview of the proposed new approach according to the example. It should be noted that some examples use only a subset of the configuration blocks shown in the overall diagram and exclude certain processing blocks depending on the application situation.

Входной сигнал 212 (y) в изобретении представляет собой многоканальный аудиосигнал 212 (также называемый «многоканальным потоком») во временной области или в частотно-временной области (например, сигнал 216), что означает, например, набор аудиосигналов, которые сформированы или предназначены для воспроизведения посредством набора громкоговорителей.Input signal 212(y) in the invention is a multi-channel audio signal 212 (also referred to as a "multi-channel stream") in the time domain or time-frequency domain (e.g., signal 216), meaning, for example, a set of audio signals that are generated or intended to playback through a set of speakers.

Первая часть обработки представляет собой часть кодирования; из многоканального аудиосигнала, так называемый сигнал 246 "понижающего микширования" должен вычисляться (см. также 4.2.6) наряду с набором параметров или вспомогательной информацией, 228 (см. также 4.2.2 и 4.2.3), которые извлекаются из входного сигнала 212 во временной области или в частотной области. Эти параметры кодируются (см. также 4.2.5) и, в этом случае, передаются в декодер 300.The first part of the processing is the encoding part; from a multi-channel audio signal, a so-called "downmix" signal 246 must be calculated (see also 4.2.6) along with a set of parameters or auxiliary information, 228 (see also 4.2.2 and 4.2.3) that are extracted from the input signal 212 in the time domain or in the frequency domain. These parameters are encoded (see also 4.2.5) and, in this case, transmitted to the decoder 300.

Сигнал 246 понижающего микширования и кодированные параметры 228 затем могут передаваться в базовый кодер и канал передачи, который связывает сторону кодера и сторону декодера процесса.The downmix signal 246 and encoded parameters 228 can then be transmitted to the base encoder and transmission channel that couples the encoder side and the decoder side of the process.

На стороне декодера, микшированный с понижением сигнал обрабатывается (4.3.3 и 4.3.4), и передаваемые параметры декодируются (см. также 4.3.2). Декодированные параметры используются для синтеза выходного сигнала с использованием ковариационного синтеза (см. также 4.3.5), и это должно приводить к конечному многоканальному выходному сигналу во временной области.On the decoder side, the downmixed signal is processed (4.3.3 and 4.3.4) and the transmitted parameters are decoded (see also 4.3.2). The decoded parameters are used to synthesize the output signal using covariance synthesis (see also 4.3.5) and this should result in a final multi-channel time domain output signal.

Перед подробным описанием, предусмотрены некоторые общие характеристики, которые должны устанавливаться, причем по меньшей мере одна из них является допустимой:Before going into detail, there are some general characteristics that must be installed, at least one of which is acceptable:

- Обработка может использоваться с любой конфигурацией громкоговорителей. Следует учесть тот факт, что при увеличении числа громкоговорителей сложность процесса и число битов, необходимых для кодирования передаваемых параметров, также должны увеличиваться.- Processing can be used with any speaker configuration. It should be taken into account that as the number of loudspeakers increases, the complexity of the process and the number of bits required to encode the transmitted parameters must also increase.

- Вся обработка может выполняться на основе кадров, т.е. входной сигнал 212 может разделяться на кадры, которые обрабатываются независимо. На стороне кодера, каждый кадр формирует набор параметров, которые должны передаваться в сторону декодера для обработки.- All processing can be done on a frame-by-frame basis, i.e. input signal 212 may be divided into frames that are processed independently. On the encoder side, each frame forms a set of parameters that must be transmitted to the decoder side for processing.

- Кадр также может разделяться на интервалы; эти интервалы представляют затем статистические свойства, которые не могут получаться в масштабе кадра. Кадр может разделяться, например, на восемь интервалов, и длина каждого интервала должна составлять 1/8 от длины кадра.- The frame can also be divided into intervals; these intervals then represent statistical properties that cannot be obtained at the frame scale. The frame may be divided, for example, into eight intervals, and the length of each interval should be 1/8 of the length of the frame.

4.2. Кодер4.2. Encoder

Задача кодера состоит в извлечении соответствующих параметров 220 для описания многоканального сигнала 212, их квантования (на 222), их кодирования (на 226) в качестве вспомогательной информации 228, и затем, в этом случае, их передачи на сторону декодера. Здесь подробно описаны параметры 220, а также то, каким образом они могут быть вычислены.The encoder's job is to extract the appropriate parameters 220 to describe the multi-channel signal 212, quantize them (at 222), encode them (at 226) as auxiliary information 228, and then, in this case, transmit them to the decoder side. The parameters 220 are described in detail here, as well as how they can be calculated.

Более подробная схема кодера 200 содержится на фиг. 2a-2d. Это общее представление подчеркивает два основных выходных сигнала 228 и 246 кодера.A more detailed diagram of encoder 200 is included in FIG. 2a-2d. This general view highlights the two main outputs of the 228 and 246 encoder.

Первый вывод кодера 200 представляет собой сигнал 228 понижающего микширования, который вычисляется из многоканального входного аудиосигнала 212; микшированный с понижением сигнал 228 является представлением исходного многоканального потока (сигнала) в меньшем количестве каналов, чем исходное содержимое (212). Дополнительная информация относительно их вычисления содержится в параграфе 4.2.6.The first output of the encoder 200 is a downmix signal 228, which is calculated from the multi-channel input audio signal 212; downmix signal 228 is a representation of the original multi-channel stream (signal) in fewer channels than the original content (212). Additional information regarding their calculation is contained in paragraph 4.2.6.

Второй выходной сигнал кодера 200 представляет собой кодированные параметры 220, выражаемые как вспомогательная информация 228 в потоке 248 битов; эти параметры 220 представляют собой ключевой момент настоящих примеров: они представляют собой параметры, которые используются для эффективного описания многоканального сигнала на стороне декодера. Эти параметры 220 обеспечивают хороший компромисс между качеством и числом битов, требуемых для их кодирования в потоке 248 битов. На стороне кодера, вычисление параметра может осуществляться в несколько этапов; далее процесс описан в частотной области, но может выполняться также во временной области. Параметры 220 сначала оцениваются из многоканального входного сигнала 212, затем они могут квантоваться в квантователе 222, и после этого они могут преобразовываться в цифровой поток 248 битов в качестве вспомогательной информации 228. Дополнительная информация относительно этих этапов содержится в параграфах 4.2.2, 4.2.3 и 4.2.5.The second output of encoder 200 is encoded parameters 220 expressed as side information 228 in a bit stream 248; these parameters 220 represent the key point of the present examples: they are parameters that are used to effectively describe the multi-channel signal at the decoder side. These parameters 220 provide a good compromise between the quality and the number of bits required to encode them into a 248 bit stream. On the encoder side, parameter calculation can be carried out in several stages; The process is described below in the frequency domain, but can also be performed in the time domain. The parameters 220 are first estimated from the multi-channel input signal 212, then they may be quantized in the quantizer 222, and thereafter they may be converted to a digital bit stream 248 as auxiliary information 228. Additional information regarding these steps is contained in paragraphs 4.2.2, 4.2.3 and 4.2.5.

4.2.1. Гребенка фильтров и группировка сегментов4.2.1. Filter comb and segment grouping

Гребенки фильтров поясняются для стороны кодера (например, гребенка 214 фильтров) или для стороны декодера (например, гребенки 320 и/или 338 фильтров).Filter banks are explained for the encoder side (eg, filter bank 214) or for the decoder side (eg, filter banks 320 and/or 338).

Изобретение может использовать гребенки фильтров в различных точках во время процесса. Эти гребенки фильтров могут преобразовывать сигнал либо из временной области в частотную область (в так называемые агрегированные полосы частот или полосы частот параметров), причем в этом случае они называются «гребенками фильтров анализа», либо из частотной во временную область (например, 338), причем в этом случае они называются «гребенками фильтров синтеза».The invention may use filter combs at various points during the process. These filter banks can transform the signal either from the time domain to the frequency domain (into so-called aggregate or parameter frequency bands), in which case they are called "analysis filter banks", or from the frequency domain to the time domain (e.g. 338), in which case they are called “synthesis filter banks”.

Вариант выбора гребенки фильтров должен совпадать с желательными требованиями по производительности и оптимизации, но остальная обработка может выполняться независимо от конкретного варианта выбора гребенки фильтров. Например, можно использовать гребенку фильтров на основе квадратурных зеркальных фильтров или гребенку фильтров на основе кратковременного преобразования Фурье.The filter bank selection must match the desired performance and optimization requirements, but other processing can be performed independently of the specific filter bank selection. For example, you can use a filter bank based on quadrature mirror filters or a filter bank based on the short-time Fourier transform.

Обращаясь к фиг. 5, выходной сигнал гребенки 214 фильтров кодера 200 должен представлять собой сигнал 216 в частотной области, представленный для некоторого числа полос частот (266 относительно 264). Выполнение остальной обработки для всех полос частот (264) может пониматься как обеспечение лучшего качества и лучшего частотного разрешения, но также требует более важных скоростей передачи битов для передачи всей информации. Следовательно, наряду с процессом гребенки фильтров выполняется так называемая «группировка сегментов» (265), которая соответствует группировке некоторой частоты для представления информации 266 относительно меньшего набора полос частот.Referring to FIG. 5, the output of the filter bank 214 of the encoder 200 should be a frequency domain signal 216 represented for a number of frequency bands (266 versus 264). Doing the rest of the processing for all frequency bands (264) can be understood as providing better quality and better frequency resolution, but also requires more critical bit rates to transmit all the information. Therefore, along with the filter bank process, so-called “segment grouping” (265) is performed, which corresponds to grouping a certain frequency to represent information 266 regarding a smaller set of frequency bands.

Например, выходной сигнал 264 фильтра 263 (фиг. 5) может представляться в 128 полосах частот, и группировка сегментов на 265 может приводить к сигналу 266 (216) только с 20 полосами частот. Предусмотрено несколько способов группирования полос частот, и один понятный способ, например, может представлять собой попытку аппроксимации эквивалентной прямоугольной полосы пропускания. Эквивалентная прямоугольная полоса пропускания представляет собой тип психоакустически обусловленного деления на полосы частот, которое пытается моделировать то, как человеческая слуховая система обрабатывает аудиособытия, т.е. задача состоит в группировании гребенки фильтров таким способом, который подходит для человеческого слуха.For example, the output signal 264 of filter 263 (FIG. 5) may be represented in 128 frequency bands, and grouping the segments into 265 may result in a signal 266 (216) with only 20 frequency bands. There are several ways to group frequency bands, and one obvious way, for example, might be to try to approximate an equivalent rectangular bandwidth. Equivalent Rectangular Bandwidth is a type of psychoacoustically driven frequency band division that attempts to model how the human auditory system processes audio events, i.e. the challenge is to group the filter banks in a way that is suitable for human hearing.

4.2.2. Оценка параметров (например, модуль 218 оценки)4.2.2. Parameter estimation (e.g., estimation module 218)

Аспект 1. Использование ковариационных матриц для описания и синтеза многоканальное содержимоеAspect 1. Using covariance matrices to describe and synthesize multichannel content

Оценка параметров на 218 представляет собой один из основных моментов изобретения; они используются на стороне декодера, чтобы синтезировать выходной многоканальный аудиосигнал. Эти параметры 220 (кодированные в качестве вспомогательной информации 228) выбраны, поскольку они эффективно описывают многоканальный входной поток 212 (сигнал), и они не требуют большого объема данных, которые должны передаваться. Эти параметры 220 вычисляются на стороне кодера и впоследствии используются совместно с механизмом синтеза на стороне декодера, чтобы вычислять выходной сигнал.The parameter estimation at 218 is one of the main points of the invention; they are used on the decoder side to synthesize the output multi-channel audio signal. These parameters 220 (encoded as auxiliary information 228) are chosen because they effectively describe the multi-channel input stream 212 (signal) and they do not require a large amount of data to be transmitted. These parameters 220 are calculated on the encoder side and subsequently used in conjunction with the synthesis engine on the decoder side to calculate the output signal.

Здесь ковариационные матрицы могут вычисляться между каналами многоканального аудиосигнала и микшированного с понижением сигнала. А именно:Here, covariance matrices can be calculated between the channels of the multi-channel audio signal and the downmixed signal. Namely:

- Cy: ковариационная матрица многоканального потока (сигнала), и/или- Cy: covariance matrix of the multi-channel stream (signal), and/or

- Cx: ковариационная матрица потока 246 (сигнала) понижающего микширования.- C x : covariance matrix of the downmix stream 246 (signal).

Обработка может выполняться на основе полос частот параметров, в силу чего полоса частот параметров является независимой от другой полосы частот параметров, и уравнения могут быть описаны для данной полосы частот параметров без потери общности.Processing can be performed on a parameter band basis, whereby a parameter band is independent of another parameter band, and equations can be described for a given parameter band without loss of generality.

Для данной полосы частот параметров, ковариационные матрицы определяются следующим образом:For a given frequency band of parameters, the covariance matrices are defined as follows:

(1) (1)

- где:- Where:

- обозначает оператор действительной части.- denotes the real part operator.

- Вместо действительной части, может быть предусмотрена любая другая операция, которая приводит к действительному значению, которое имеет взаимосвязь с комплексным значением, из которого оно извлекается (например, абсолютным значением)- Instead of the real part, any other operation may be provided that results in a real value that has a relationship with the complex value from which it is derived (for example, an absolute value)

- * обозначает оператор сопряженного транспонирования- * denotes the conjugate transpose operator

- B обозначает взаимосвязь между исходным числом полос частот и сгруппированными полосами частот (см. ниже 4.2.1. относительно группировки сегментов)- B denotes the relationship between the original number of frequency bands and the grouped frequency bands (see 4.2.1 below regarding grouping of segments)

- Y и X являются, соответственно, исходным многоканальным сигналом 212 и микшированным с понижением сигналом 246 в частотной области- Y and X are, respectively, the original multi-channel signal 212 and the downmixed frequency domain signal 246

Cy (либо ее элементы или значения, полученные из Cy либо из ее элементов) также указываются в качестве информации канального уровня и корреляции исходного сигнала 212. Cx (либо ее элементы или значения, полученные из Cy либо из ее элементов) также указываются в качестве ковариационной информации, ассоциированной с сигналом 212 понижающего микширования.C y (or its elements or values derived from C y or its elements) is also indicated as link layer and correlation information of the original signal 212. C x (or its elements or values derived from C y or its elements) is also are indicated as covariance information associated with the downmix signal 212.

Для данного кадра (и полосы частот), только одна или две ковариационных матрицы Cy и/или Cx могут выводиться, например, блоком 218 оценки. Поскольку процесс основан на интервалах, а не на кадрах, различная реализация может выполняться относительно взаимосвязи между матрицами для данных интервалов и для целого кадра. В качестве примера, можно вычислять ковариационную матрицу(ы) для каждого интервала в кадре и суммировать их для вывода матрицы для одного кадра. Следует отметить, что определение для вычисления ковариационных матриц представляет собой математическое определение, но также можно вычислять или по меньшей мере модифицировать эти матрицы заранее, если необходимо получать выходной сигнал с конкретными характеристиками.For a given frame (and frequency band), only one or two covariance matrices C y and/or C x may be output, for example, by estimator 218 . Because the process is based on intervals rather than frames, different implementations can be made regarding the relationship between matrices for given intervals and for an entire frame. As an example, one can calculate the covariance matrix(es) for each interval in a frame and sum them to output a matrix for one frame. It should be noted that the definition for calculating the covariance matrices is a mathematical definition, but it is also possible to calculate or at least modify these matrices in advance if it is necessary to obtain an output signal with specific characteristics.

Как пояснено выше, не обязательно, что все элементы матриц Cy и/или Cx фактически кодируются во вспомогательной информации 228 потока 248 битов. Для Cx, можно просто оценивать их из сигнала 246 понижающего микширования, кодированного посредством применения уравнения (1), и в силу этого кодер 200 может легко отказываться, просто-напросто, от кодирования любого элемента Cx (либо если обобщать, от ковариационной информации, ассоциированной с сигналом понижающего микширования). Для Cy (или для информации канального уровня и корреляции, ассоциированной с исходным сигналом) можно оценивать, на стороне декодера по меньшей мере один из элементов Cy посредством использования технологий, поясненных ниже.As explained above, it is not necessary that all elements of the matrices C y and/or C x are actually encoded in the auxiliary information 228 of the bit stream 248. For C x , they can simply be estimated from the downmix signal 246 encoded by applying equation (1), and as such, encoder 200 can easily dispense with encoding any element of C x (or more generally, covariance information associated with the downmix signal). For C y (or for link layer information and correlation associated with the original signal), at least one of the elements of C y can be estimated, on the decoder side, using techniques explained below.

Аспект 2a. Передача ковариационных матриц и/или энергий для описания и восстановления многоканального аудиосигналаAspect 2a. Transfer of covariance matrices and/or energies to describe and reconstruct a multichannel audio signal

Как упомянуто выше, ковариационные матрицы используются для синтеза. Можно передавать непосредственно эти ковариационные матрицы (либо их поднабор) из кодера в декодер.As mentioned above, covariance matrices are used for synthesis. It is possible to pass these covariance matrices (or a subset of them) directly from the encoder to the decoder.

В некоторых примерах, матрица Cx не должна обязательно передаваться, поскольку она может повторно вычисляться на стороне декодера с использованием микшированного с понижением сигнала 246, но в зависимости от сценария применения, эта матрица может требоваться в качестве передаваемого параметра.In some examples, the matrix C x does not necessarily need to be transmitted since it can be recalculated at the decoder side using the downmix signal 246, but depending on the application scenario, this matrix may be required as a transmitted parameter.

С точки зрения точки реализации, не все значения в этих матрицах Cx, Cy должны кодироваться или передаваться, например, чтобы удовлетворять определенным конкретным требованиям относительно скоростей передачи битов. Непередаваемые значения могут оцениваться на стороне декодера (см. также 4.3.2).From an implementation point of view, not all values in these matrices C x , C y need to be encoded or transmitted, for example, to satisfy certain specific bit rate requirements. Non-transmitted values may be evaluated on the decoder side (see also 4.3.2).

Аспект 2b. Передача межканальных когерентностей и межканальных разностей уровней для описания и восстановления многоканального сигналаAspect 2b. Transfer of inter-channel coherences and inter-channel level differences for characterization and reconstruction of a multi-channel signal

Из ковариационных матриц Cx, Cy, альтернативный набор параметров может задаваться и использоваться для восстановления многоканального сигнала 212 на стороне декодера. Эти параметры могут представлять собой, конкретно, например, межканальные когерентности (ICC) и/или межканальные разности уровней (ICLD).From the covariance matrices C x , C y , an alternative set of parameters may be specified and used to reconstruct the multi-channel signal 212 at the decoder side. These parameters may be, for example, inter-channel coherence (ICC) and/or inter-channel level differences (ICLD).

Межканальные когерентности описывают когерентность между каждым каналом многоканального потока. Этот параметр может извлекаться из ковариационной матрицы Cy и вычисляться следующим образом (для данной полосы частот параметров и для двух данных каналов i и j):Inter-channel coherences describe the coherence between each channel of a multi-channel stream. This parameter can be extracted from the covariance matrix C y and calculated as follows (for a given parameter bandwidth and for two given channels i and j):

(2) (2)

- где:- Where:

- ξi, j является ICC между каналами i и j входного сигнала 212- ξ i , j is the ICC between channels i and j of input signal 212

- являются значениями в ковариационной матрице (ранее заданными в уравнении (1)) многоканального сигнала между каналами i и i входного сигнала 212- are the values in the covariance matrix (previously specified in equation (1)) of the multi-channel signal between channels i and i of the input signal 212

Значения ICC могут вычисляться между каждым каналом многоканального сигнала, что может приводить к большому объему данных по мере того, как размер многоканального сигнала растет. На практике, может кодироваться и/или передаваться сокращенный набор ICC. Кодированные и/или передаваемые значения должны определяться, в некоторых примерах, в соответствии с требованием по производительности.ICC values may be calculated between each channel of a multi-channel signal, which can result in a large amount of data as the size of the multi-channel signal grows. In practice, a reduced ICC set may be encoded and/or transmitted. The encoded and/or transmitted values must be determined, in some examples, according to a performance requirement.

Например, при решении проблем, связанных с сигналом, сформированным посредством 5.1 (или 5.0) в качестве определённой конфигурации громкоговорителей, установленной рекомендацией ITU «ITU-R BS.2159-4», можно выбирать передачу только четырех ICC. Четыре ICC могут представлять собой ICC между:For example, when solving problems associated with a signal generated by 5.1 (or 5.0) as a certain speaker configuration established by the ITU recommendation “ITU-R BS.2159-4”, you can choose to transmit only four ICCs. The four ICCs may represent the ICC between:

- центральным и правым каналом- center and right channel

- центральным и левым каналом- central and left channel

- левым каналом и левым каналом объемного звучания- left channel and left surround channel

- правым каналом и правым каналом объемного звучания- right channel and right surround channel

В общем случае, индексы ICC, выбранных из матрицы ICC, описаны посредством карты ICC.In general, the indices of the ICCs selected from the ICC matrix are described by an ICC map.

В общем, для каждой конфигурации громкоговорителей может выбираться для кодирования и/или передачи в декодер фиксированный набор ICC, которые обеспечивают в среднем наилучшее качество. Число ICC и то, какие ICC должны передаваться, могут зависеть от конфигурации громкоговорителей и/или доступной полной скорости передачи битов и доступны в кодере и декодере без необходимости передачи карты ICC в потоке 248 битов. Другими словами, фиксированный набор ICC и/или соответствующая фиксированная карта ICC могут использоваться, например, в зависимости от конфигурации громкоговорителей и/или полной скорости передачи битов.In general, for each speaker configuration, a fixed set of ICCs that provide the best quality on average can be selected for encoding and/or transmission to the decoder. The number of ICCs and which ICCs must be transmitted may depend on the speaker configuration and/or the available full bit rate and are available in the encoder and decoder without the need to transmit an ICC map in a 248-bit stream. In other words, a fixed ICC set and/or a corresponding fixed ICC map may be used, for example, depending on the speaker configuration and/or the overall bit rate.

Эти фиксированные наборы могут быть не подходящими для конкретного материала и обеспечивать, в некоторых случаях, значительно худшее качество, чем среднее качество для всего материала с использованием фиксированного набора ICC. Чтобы преодолеть это, в другом примере для каждого кадра (или интервала), оптимальный набор ICC и соответствующая карта ICC могут оцениваться на основе признака важности определенного ICC. Карта ICC, используемая для текущего кадра, затем явно кодируется и/или передается вместе с квантованными ICC в потоке 248 битов.These fixed sets may not be suitable for a particular material and provide, in some cases, significantly worse quality than the average quality for all material using the ICC fixed set. To overcome this, in another example, for each frame (or slot), the optimal ICC set and the corresponding ICC map can be estimated based on the importance indicator of a particular ICC. The ICC map used for the current frame is then explicitly encoded and/or transmitted along with the quantized ICCs in a 248-bit stream.

Например, признак важности ICC может определяться посредством формирования оценки ковариации или оценки матрицы ICC с использованием ковариации Cx понижающего микширования из уравнения (1), аналогично декодеру с использованием уравнений (4) и (6) от 4.3.2. В зависимости от выбранного признака, признак вычисляется для каждой ICC или соответствующей записи в ковариационной матрице для каждой полосы частот, для которой параметры передаются в текущем кадре и комбинируются для всех полос частот. Эта матрица комбинированных признаков затем используется для определения наиболее важных ICC и, таким образом, набора ICC, которые должны использоваться, и карты ICC, которая должна передаваться.For example, the ICC importance feature may be determined by generating a covariance estimate or ICC matrix scores using the downmix covariance C x from equation (1), similar to the decoder using equations (4) and (6) from 4.3.2. Depending on the selected feature, the feature is calculated for each ICC or corresponding entry in the covariance matrix for each frequency band, for which the parameters are transmitted in the current frame and are combined for all frequency bands. This matrix of combined features is then used to determine the most important ICCs and thus the set of ICCs that should be used and the ICC map that should be transmitted.

Например, признак важности ICC представляет собой абсолютную ошибку между записями оцененной ковариации и действительной ковариации Cy, и матрица комбинированных признаков представляет собой сумму для абсолютной ошибки для каждой ICC по всем полосам частот, которые должны передаваться в текущем кадре. Из матрицы комбинированных признаков, выбираются n записей, в которых суммированная абсолютная ошибка является наибольшей, и n составляет число ICC, которые должны передаваться для комбинации громкоговорителей/скоростей передачи битов, и карта ICC компонуется из этих записей.For example, the ICC importance feature represents the absolute error between records of the estimated covariance and the actual covariance C y , and the combined feature matrix is the sum for the absolute error for each ICC over all frequency bands to be transmitted in the current frame. From the combined feature matrix, the n entries in which the summed absolute error is the largest are selected, and n constitutes the number of ICCs to be transmitted for the speaker/bit rate combination, and an ICC map is constructed from these entries.

Кроме того, в другом примере, как показано на фиг. 6b, чтобы исключить слишком большое изменение карт ICC между кадрами, матрица признаков может подчеркиваться для каждой записи, которая находится в выбранной карте ICC предыдущего кадра параметров, например, в случае абсолютной ошибки ковариации посредством применения коэффициента >1 (220k) к записям карты ICC предыдущего кадра.Moreover, in another example, as shown in FIG. 6b, to prevent ICC maps from changing too much between frames, the feature matrix can be underlined for each entry that is in the selected ICC map of the previous parameter frame, for example in the case of absolute covariance error by applying a factor >1 (220k) to the ICC map entries of the previous frame frame.

Кроме того, в другом примере, флаг, отправленный во вспомогательной информации 228 потока 248 битов, может указывать, используется ли в текущем кадре фиксированная карта ICC или оптимальная карта ICC, и если флаг указывает на фиксированный набор, то карта ICC не передается в потоке 248 битов.Additionally, in another example, a flag sent in the 248 bit stream auxiliary information 228 may indicate whether a fixed ICC map or an optimal ICC map is used in the current frame, and if the flag indicates a fixed set, then the ICC map is not sent in the 248 bit stream. bits

Оптимальная карта ICC, например, кодируется и/или передается в качестве битовой карты (например, карта ICC может реализовывать информацию 254' по фиг. 6a).The optimal ICC map, for example, is encoded and/or transmitted as a bitmap (for example, the ICC map may implement information 254' of FIG. 6a).

Другой пример для передачи карты ICC представляет собой передачу индекса в таблицу всех возможных карт ICC, причем, например, собственно индекс дополнительно энтропийно кодируется. Например, таблица всех возможных карт ICC не сохраняется в запоминающем устройстве, но карта ICC, указываемая индексом, непосредственно вычисляется из индекса.Another example for passing an ICC map is to pass an index to a table of all possible ICC maps, where, for example, the index itself is additionally entropy encoded. For example, a table of all possible ICC maps is not stored in the storage device, but the ICC map indicated by the index is directly calculated from the index.

Второй параметр, который может передаваться совместно с ICC (или отдельно), представляет собой ICLD. "ICLD" означает межканальную разность уровней, и она описывает энергетические взаимосвязи между каждым каналом входного многоканального сигнала 212. Нет уникального определения ICLD; важный аспект этого значения заключается в том, что оно описывает отношения энергий в многоканальном потоке.The second parameter, which may be sent in conjunction with the ICC (or separately), is the ICLD. "ICLD" means inter-channel level difference, and it describes the energy relationships between each channel of the input multi-channel signal 212. There is no unique definition of ICLD; An important aspect of this value is that it describes the relationships of energies in a multichannel flow.

В качестве примера, преобразование из Cy в ICLD может получаться следующим образом:As an example, the conversion from C y to ICLD could be obtained as follows:

(3) (3)

- где:- Where:

- Xi является ICLD для канала i.- X i is the ICLD for channel i.

- Pi является мощностью текущего канала i, она может извлекаться из диагонали Cy: .- Pi is the power of the current channel i, it can be extracted from the diagonal C y : .

- Pdmx, i: зависит от канала i, но всегда должно представлять собой линейную комбинацию значений в Cx, оно также зависит от исходной конфигурации громкоговорителей.- P dmx, i : depends on channel i, but should always be a linear combination of the values in C x , it also depends on the original speaker configuration.

В примерах, Pdmx, i не является одинаковой для каждого канала, а зависит от отображения, связанного с матрицей понижающего микширования (которая представляет собой прототипную матрицу для декодера), это упоминается в общем в одном из ключевых пунктов в уравнении (3). Зависит от того, канал i понижающее сводится только в один из каналов понижающего микширования или более чем в один из них. Другими словами, Pdmx, i может составлять или включать в себя сумму по всем диагональным элементам Cx, в которых имеется ненулевой элемент в матрице понижающего микширования, так что уравнение (3) может перезаписываться следующим образом:In the examples, P dmx,i is not the same for each channel, but depends on the mapping associated with the downmix matrix (which is a prototype matrix for the decoder), this is mentioned generally in one of the key points in equation (3). Depends on whether channel i is downmixed into only one of the downmix channels or into more than one of them. In other words, P dmx, i may be or include the sum over all diagonal elements of C x that have a non-zero element in the downmix matrix, so that equation (3) can be rewritten as follows:

- где αi является весовым коэффициентом, связанным с ожидаемой долей энергии канала в понижающем микшировании, причем этот весовой коэффициент является фиксированным для определенной конфигурации входных громкоговорителей и известным в кодере и декодере. Ниже приведено понятие матрицы Q. Некоторые значения αi и матриц Q также приведены в конце документа.- where α i is a weighting factor associated with the expected proportion of channel energy in the downmix, this weighting factor being fixed for a particular input speaker configuration and known in the encoder and decoder. Below is the concept of matrix Q. Some values of α i and matrices Q are also given at the end of the document.

В случае реализации, задающей картографировании для каждого входного канала i, причем картографический индекс представляет собой канал j понижающего микширования, в которое только сводится входной канал i, либо если картографический индекс превышает число каналов понижающего микширования. Таким образом, имеется картографический индекс mICLD, i, который используется для определения Pdmx, i следующим образом:In the case of an implementation specifying a mapping for each input channel i, wherein the mapping index is the downmix channel j into which only the input channel i is downmixed, or if the mapping index is greater than the number of downmix channels. Thus, there is a map index m ICLD, i , which is used to determine P dmx, i as follows:

4.2.3. Квантование параметров4.2.3. Parameter quantization

Примеры квантования параметров 220, чтобы получать параметры 224 квантования, могут выполняться, например, посредством модуля 222 квантования параметров по фиг. 2b и 4.Examples of quantizing parameters 220 to obtain quantization parameters 224 may be performed, for example, by the parameter quantization unit 222 of FIG. 2b and 4.

После того как набор параметров 220 вычисляется, что означает либо ковариационные матрицы {Cx, Cy}, либо ICC и ICLD ξ, X, они квантуются. Вариант выбора квантователя может представлять собой компромисс между качеством и объемом данных, которые следует передавать, но отсутствует ограничение относительно используемого квантователя.Once the parameter set 220 is calculated, which means either the covariance matrices {C x , C y } or the ICC and ICLD ξ, X, they are quantized. The choice of quantizer may represent a trade-off between the quality and amount of data to be transmitted, but there is no restriction on the quantizer used.

В качестве примера, в этом случае, ICC и ICLD используются; один может представлять собой нелинейный квантователь, заключающий в себе 10 шагов квантования в интервале [-1,1] для ICC, и другой может представлять собой нелинейный квантователь, заключающий в себе 20 шагов квантования в интервале [-30,30] для ICLD.As an example, in this case, ICC and ICLD are used; one may be a nonlinear quantizer comprising 10 quantization steps in the interval [-1,1] for ICC, and the other may be a nonlinear quantizer comprising 20 quantization steps in the interval [-30,30] for ICLD.

Кроме того, в качестве оптимизации реализации, можно выбирать необходимость дискретизировать с понижением передаваемые параметры, что означает то, квантованные параметры 224 используются каждые два или более кадров в строке.Additionally, as an implementation optimization, one may choose to downsample the transmitted parameters, which means that the quantized parameters 224 are used every two or more frames in a line.

В аспекте, поднабор параметров, передаваемых в текущем кадре, передается в служебных сигналах посредством индекса кадра параметров в потоке битов.In an aspect, a subset of the parameters transmitted in the current frame is signaled by the parameter frame index in the bit stream.

4.2.4. Обработка переходных частей, дискретизированные с понижением параметры4.2.4. Processing of transition parts, downsampled parameters

Некоторые примеры, поясненные ниже, могут пониматься как показанные на фиг. 5, который в свою очередь может представлять собой пример блока 214 по фиг. 1 и 2d.Some examples explained below can be understood as those shown in FIGS. 5, which in turn may be an example of block 214 of FIG. 1 and 2d.

В случае наборов дискретизированных с понижением параметров (например, полученных в блоке 265 на фиг. 5), т.е. набор 220 параметров для поднабора полос частот параметров может использоваться более чем для одного обработанного кадра, переходные части, которые появляются более чем в одном поднаборе, не могут сохраняться с точки зрения локализации и когерентности. Следовательно, может быть преимущественным отправлять параметры для всех полос частот в таком кадре. Этот специальный тип кадра параметров, например, может передаваться в служебных сигналах посредством флага в потоке битов.In the case of downsampled parameter sets (eg, obtained in block 265 in FIG. 5), i.e. the parameter set 220 for a subset of parameter bands may be used for more than one processed frame, transient parts that appear in more than one subset cannot be preserved in terms of localization and coherence. Therefore, it may be advantageous to send parameters for all frequency bands in such a frame. This special type of parameter frame, for example, can be signaled by means of a flag in the bit stream.

В аспекте, обнаружение переходных частей на 258 используется для обнаружения таких переходных частей в сигнале 212. Также может обнаруживаться положение переходной части в текущем кадре. Степень временной детализации предпочтительно может быть связана со степенью временной детализации используемой гребенки 214 фильтров, так что каждое положение переходной части может соответствовать интервалу или группе интервалов гребенки 214 фильтров. Интервалы для вычисления ковариационных матриц Cy и Cx затем выбираются на основе положения переходной части, например, только с использованием интервалов от интервала, содержащего переходную часть, до конца текущего кадра.In an aspect, the transition portion detection at 258 is used to detect such transition portions in the signal 212. The position of the transition portion in the current frame may also be detected. The degree of temporal granularity may preferably be related to the degree of temporal granularity of the filter bank 214 being used, such that each transition portion position may correspond to an interval or group of intervals of the filter bank 214. The intervals for calculating the covariance matrices C y and C x are then selected based on the position of the transition portion, for example, only using intervals from the interval containing the transition portion to the end of the current frame.

Детектор переходных частей (или блок 258 анализа переходных процессов) может представлять собой детектор переходных частей, также используемый при кодировании микшированного с понижением сигнала 212, например, детектор переходных частей во временной области базового IVAS-кодера. Следовательно, пример по фиг. 5 также может применяться выше по отношению к блоку 244 вычисления для понижающего микширования.The transient detector (or transient analyzer 258) may be a transient detector also used in encoding the downmix signal 212, such as the time domain transient detector of a basic IVAS encoder. Therefore, the example of FIG. 5 may also be applied above with respect to downmix calculation block 244.

В примере, наличие переходной части кодируется с использованием одного бита (к примеру: «1», что означает «имеется переходная часть в кадре» по сравнению с «0», что означает: «отсутствует переходная часть в кадре»), и если переходная часть обнаруживается, кроме того, положение переходной части кодируется и/или передается в качестве кодированного поля 261 (информации относительно переходной части) в потоке 248 битов для обеспечения возможности аналогичной обработки в декодере 300.In the example, the presence of a transition is encoded using a single bit (for example: "1", which means "there is a transition in the frame" versus "0", which means: "there is no transition in the frame"), and if the transition part is detected, in addition, the position of the transition part is encoded and/or transmitted as a coded field 261 (information regarding the transition part) in the bit stream 248 to enable similar processing in the decoder 300.

Если обнаружена переходная часть и должна выполняться передача всех полос частот (например, путём передачи в служебных сигналах), отправка параметров 220 с использованием нормальной группировки сегментов может приводить к всплеску скорости передачи данных, необходимой для передачи параметров 220 в качестве вспомогательной информации 228 в потоке 248 битов. Кроме того, временное разрешение является более важным, чем частотное разрешение. В силу этого может быть преимущественным, в блоке 265, изменять группировку сегментов для такого кадра, так чтобы иметь меньшее количество полос частот, которые следует передавать (например, от большого количества полос частот в версии 264 сигнала до меньшего количества полос частот в версии 266 сигнала). Пример использует такую другую группировку сегментов, например, посредством комбинирования двух соседних полос частот по всем полосам частот для нормального коэффициента понижающей дискретизации в 2 для параметров. В общих чертах, наличие переходной части подразумевает, что непосредственно ковариационные матрицы предположительно должны значительно отличаться до и после переходной части. Чтобы исключать артефакты для интервалов перед переходной частью, могут рассматриваться только непосредственно переходный интервал и все последующие интервалы до конца кадра. Это также основано на таком предположении, что, заблаговременно, сигнал является достаточно стационарным, и можно использовать информацию и правила микширования, которые извлечены для предыдущего кадра, также для интервалов, предшествующих переходной части.If a transition portion is detected and all frequency bands must be transmitted (eg, via signaling), sending parameters 220 using normal segment grouping may result in a burst of data rate required to transmit parameters 220 as ancillary information 228 in stream 248 bits Moreover, time resolution is more important than frequency resolution. Therefore, it may be advantageous, at block 265, to change the grouping of segments for such a frame so as to have fewer frequency bands to transmit (eg, from a large number of frequency bands in signal version 264 to fewer frequency bands in signal version 266 ). The example uses such a different grouping of segments, for example, by combining two adjacent frequency bands across all frequency bands for a normal downsampling factor of 2 for the parameters. In general terms, the presence of a transition part implies that the covariance matrices themselves are expected to differ significantly before and after the transition part. To avoid artifacts for intervals before a transition, only the transition interval itself and all subsequent intervals until the end of the frame can be considered. It is also based on the assumption that, in advance, the signal is sufficiently stationary that the information and mixing rules that are learned for the previous frame can also be used for the intervals preceding the transition portion.

Если обобщать, кодер может быть выполнен с возможностью определения, в каком интервале кадра имеется переходная часть, и кодирования информации (220) канального уровня и корреляции исходного сигнала (212, y), ассоциированной с интервалом, в котором имеется переходная часть, и/или с последующими интервалами в кадре, без кодирования информации (220) канального уровня и корреляции исходного сигнала (212, y), ассоциированной с интервалами, предшествующими переходной части.More generally, the encoder may be configured to determine in which frame interval there is a transition portion, and encode link layer information (220) and source signal correlation (212, y) associated with the interval in which the transition portion is present, and/or with subsequent intervals in the frame, without encoding the link layer information (220) and the correlation of the original signal (212, y) associated with the intervals preceding the transition portion.

Аналогичным образом, декодер может (например, в блоке 380), когда наличие и положение переходной части в одном кадре передаются в служебных сигналах (261):Likewise, the decoder may (eg, at block 380), when the presence and position of a transition portion in one frame are signaled (261):

- ассоциировать текущую информацию (220) канального уровня и корреляции с интервалом, в котором имеется переходная часть, и/или с последующими интервалами в кадре; и- associate current link layer and correlation information (220) with the interval in which there is a transition part, and/or with subsequent intervals in the frame; And

- ассоциировать, с интервалом кадра, предшествующим интервалу, в котором имеется переходная часть, информацию (220) канального уровня и корреляции предыдущего интервала.- associate, with the frame interval preceding the interval in which there is a transition part, link layer and correlation information (220) of the previous interval.

Другой важный аспект переходной части заключается в том, что в случае определения наличия переходной части в текущем кадре, операции сглаживания более не выполняются для текущего кадра. В случае переходной части, сглаживание не проводится для Cy и Cx, но CyR и Cx из текущего кадра используются при вычислении матриц микширования.Another important aspect of the transition portion is that if it is determined that a transition portion is present in the current frame, smoothing operations are no longer performed on the current frame. In the case of the transition part, no smoothing is performed on C y and C x , but C yR and C x from the current frame are used when calculating the mixing matrices.

4.2.5. Энтропийное кодирование4.2.5. Entropy coding

Модуль 226 энтропийного кодирования (модуль записи потоков битов) может представлять собой последний модуль кодера; его цель состоит в преобразовании квантованных значений, полученных ранее, в двоичный поток битов, который также называется «вспомогательной информацией».Entropy encoding module 226 (bitstream recording module) may be the last encoder module; its purpose is to convert the quantized values obtained previously into a binary bit stream, also called "auxiliary information".

Способ, используемый для кодирования значений, может представлять собой, в качестве примера, кодирование Хаффмана [6] или дельта-кодирование. Способ кодирования не является крайне важным и оказывает влияние только на конечную скорость передачи битов; следует адаптировать способ кодирования в зависимости от скоростей передачи битов, которых он хочет достигать.The method used to encode the values may be, for example, Huffman encoding [6] or delta encoding. The encoding method is not critical and only affects the final bit rate; one should adapt the encoding method depending on the bit rates it wants to achieve.

Для уменьшения размера потока 248 битов могут быть выполнены несколько оптимизаций реализации. В качестве примера, может быть реализован переключающий механизм, который переключается с одной схемы кодирования на другую в зависимости от того, какая из них является более эффективной с точки зрения размера потока битов.Several implementation optimizations can be made to reduce the 248-bit stream size. As an example, a switching mechanism may be implemented that switches from one encoding scheme to another depending on which one is more efficient in terms of bitstream size.

Например, параметры могут дельта-кодироваться вдоль частотной оси для одного кадра и результирующей последовательности дельта-индексов, энтропийно кодированных посредством диапазонного кодера.For example, parameters may be delta encoded along the frequency axis for one frame and the resulting sequence of delta indices entropy encoded by a band encoder.

Кроме того, в случае понижающей дискретизации параметров, также в качестве примера, может быть реализован механизм для передачи в каждом кадре только поднабора полос частот параметров для непрерывной передачи данных.Additionally, in the case of parameter downsampling, also by way of example, a mechanism may be implemented to transmit in each frame only a subset of parameter bands for continuous data transmission.

Эти примеры требуют битов служебных сигналов для передачи в служебных сигналах относящегося к декодеру аспекта обработки на стороне кодера.These examples require overhead bits to signal the decoder-related aspect of encoder-side processing.

4.2.6. Вычисление для понижающего микширования4.2.6. Calculation for downmixing

Часть 244 понижающего микширования обработки может быть простой, но при этом, в некоторых примерах, крайне важной. Понижающее микширование, используемое в изобретении, может быть пассивным, что означает, что способ, которым оно вычисляется, остается одинаковым во время обработки и является независимым от сигнала или от его характеристик в определённое время. Тем не менее, следует понимать, что вычисление для понижающего микширования на 244 может расширяться до активного вычисления (например, как описано в [7]).The downmix portion of the processing 244 may be simple, yet, in some examples, extremely important. The downmix used in the invention may be passive, meaning that the way it is calculated remains the same during processing and is independent of the signal or its characteristics at a particular time. However, it should be understood that the calculation for downmixing at 244 can be extended to an active calculation (eg, as described in [7]).

Сигнал 246 понижающего микширования может вычисляться в двух различных местах:The downmix signal 246 may be calculated at two different locations:

- Первый раз для оценки параметров (см. 4.2.2), на стороне кодера, поскольку это может быть необходимо (в некоторых примерах) для вычисления ковариационной матрицы Cx.- The first time for parameter estimation (see 4.2.2), on the encoder side, since this may be necessary (in some examples) to calculate the covariance matrix C x .

- Второй раз на стороне кодера, между кодером 200 и декодером 300 (во временной области), причем микшированный с понижением сигнал 246 кодируется и/или передается в декодер 300 и используется основа для синтеза в модуле 334.- A second time on the encoder side, between encoder 200 and decoder 300 (in the time domain), with the downmixed signal 246 encoded and/or transmitted to decoder 300 and used as a basis for synthesis in module 334.

В качестве примера, в случае стереофонического понижающего микширования для входного сигнала 5.1, сигнал понижающего микширования может вычисляться следующим образом:As an example, in the case of stereo downmix for a 5.1 input signal, the downmix signal can be calculated as follows:

- Левый канал понижающего микширования составляет сумму левого канала, левого канала объемного звучания и центрального канала.- The downmix left channel is the sum of the left channel, the surround left channel and the center channel.

Правый канал понижающего микширования составляет сумму правого канала, правого канала объемного звучания и центрального канала. В качестве альтернативы, в случае монофонического понижающего микширования для входного сигнала 5.1, сигнал понижающего микширования вычисляется в качестве суммы каждого канала многоканального потока.The right downmix channel is the sum of the right channel, the right surround channel and the center channel. Alternatively, in the case of mono downmix for a 5.1 input signal, the downmix signal is calculated as the sum of each channel of the multi-channel stream.

В примерах, каждый канал сигнала 246 понижающего микширования может получаться в качестве линейного комбинирования каналов исходного сигнала 212, например, с постоянными параметрами, за счет этого реализуя пассивное понижающее микширование.In examples, each channel of the downmix signal 246 may be obtained as a linear combination of the channels of the original signal 212, for example, with constant parameters, thereby implementing passive downmixing.

Вычисление микшированных с понижением сигналов может расширяться и адаптироваться для дополнительных конфигураций громкоговорителей согласно потребности обработки.The calculation of downmixed signals can be expanded and adapted to additional speaker configurations according to processing needs.

Аспект 3. Обработка с низкой задержкой с использованием пассивного понижающего микширования и гребенки фильтров с низкой задержкойAspect 3: Low Latency Processing Using Passive Downmixing and Low Latency Filter Banks

Настоящее изобретение может обеспечивать обработку с низкой задержкой посредством использования пассивного понижающего микширования, например, обработку, описанную выше для входного сигнала 5.1 и гребенки фильтров с низкой задержкой. С использованием этих двух элементов, можно достигать задержек ниже 5 миллисекунд между кодером 200 и декодером 300.The present invention can provide low latency processing through the use of passive downmixing, such as the processing described above for a 5.1 input signal and a low latency filter bank. Using these two elements, it is possible to achieve delays below 5 milliseconds between encoder 200 and decoder 300.

4.3. Декодер4.3. Decoder

Задача декодера состоит в синтезе выходного аудиосигнала (336, 340, yR) в определённой конфигурации громкоговорителей посредством использования кодированного (например, передаваемого) сигнала (246, 324) понижающего микширования и кодированной вспомогательной информации 228. Декодер 300 может подготавливать посредством рендеринга выходные аудиосигналы (334, 240, yR) посредством той же конфигурации громкоговорителей, что и конфигурация громкоговорителей, используемая для входного сигнала (212, y), либо посредством другой конфигурации громкоговорителей. Без потери общности, предполагается, что входные и выходные конфигурации громкоговорителей являются одинаковыми (но в примерах они могут отличаться). В этом разделе далее описаны различные модули, которые могут составлять декодер 300.The task of the decoder is to synthesize an output audio signal (336, 340, yR) in a particular speaker configuration by using a coded (eg, transmitted) downmix signal (246, 324) and coded auxiliary information 228. The decoder 300 may render output audio signals (334 , 240, yR) through the same speaker configuration as the speaker configuration used for the input signal (212, y), or through a different speaker configuration. Without loss of generality, the input and output speaker configurations are assumed to be the same (but may differ in the examples). This section further describes the various modules that may comprise the decoder 300.

Фиг. 3a и 3b иллюстрируют подробное общее представление возможной обработки декодера. Важно отметить, что по меньшей мере некоторые модули (в частности, модули с пунктирной границей, такие как 320, 330, 338) на фиг. 3b могут отбрасываться в зависимости потребностей и требований для данного варианта применения. Декодер 300 может вводиться посредством (например, приёма) двух наборов данных из кодера 200:Fig. 3a and 3b illustrate a detailed overview of possible decoder processing. It is important to note that at least some modules (particularly dashed border modules such as 320, 330, 338) in FIG. 3b may be discarded depending on the needs and requirements for a given application. Decoder 300 may be input by (eg, receiving) two sets of data from encoder 200:

- Вспомогательной информации 228 с кодированными параметрами (как описано в 4.2.2)- 228 auxiliary information with coded parameters (as described in 4.2.2)

- Микшированного с понижением сигнала (246, y), который может находиться во временной области (как описано в 4.2.6).- A downmixed signal (246, y), which may be in the time domain (as described in 4.2.6).

Кодированные параметры 228, возможно, должны сначала декодироваться (например, посредством входного модуля 312), например, с помощью способа обратного кодирования, который ранее использован. После того как этот этап выполняться, могут восстанавливаться релевантные параметры для синтеза, например, ковариационные матрицы. Параллельно, микшированный с понижением сигнал (246, x) может обрабатываться через несколько модулей: сначала может использоваться гребенка 320 фильтров анализа (см. также 4.2.1) для получения версии 324 в частотной области сигнала 246 понижающего микширования. Затем может вычисляться прототипный сигнал 328 (см. также 4.3.3), и может выполняться дополнительный этап декорреляции (на 330) (см. также 4.3.4). Ключевой момент синтеза представляет собой механизм 334 синтеза, который использует ковариационные матрицы (например, восстановленные в блоке 316) и прототипный сигнал (328 или 332) в качестве входного сигнала и формирует конечный сигнал 336 в качестве выходного сигнала (см. также 4.3.5). В завершение, может выполняться последний этап в гребенке 338 фильтров синтеза (например, если ранее использовалась гребенка 320 фильтров анализа), который формирует выходной сигнал 340 во временной области.The encoded parameters 228 may need to be first decoded (eg, by input module 312), eg, using the decoding method previously used. Once this step has been completed, relevant parameters for synthesis, such as covariance matrices, can be recovered. In parallel, the downmix signal (246, x) can be processed through several modules: first, an analysis filter bank 320 (see also 4.2.1) can be used to obtain a frequency domain version 324 of the downmix signal 246. The prototype signal 328 can then be calculated (see also 4.3.3), and an additional decorrelation step (at 330) can be performed (see also 4.3.4). The key point of synthesis is the synthesis engine 334, which uses the covariance matrices (e.g., reconstructed in block 316) and the prototype signal (328 or 332) as an input signal and produces a final signal 336 as an output signal (see also 4.3.5) . Finally, a final step in synthesis filter bank 338 may be performed (eg, if analysis filter bank 320 was previously used), which produces a time domain output signal 340.

4.3.1. Энтропийное декодирование (например, блок 312)4.3.1. Entropy Decoding (e.g. block 312)

Энтропийное декодирование в блоке 312 (входном интерфейсе) может обеспечивать возможность получения квантованных параметров 314, ранее полученных в 4. Декодирование потока 248 битов может пониматься как простая операция; поток 248 битов может считываться согласно способу кодирования, используемому в 4.2.5, и затем декодировать его.Entropy decoding at block 312 (input interface) may provide the ability to obtain the quantized parameters 314 previously obtained in 4. Decoding the 248 bit stream can be understood as a simple operation; the 248 bit stream can be read according to the encoding method used in 4.2.5 and then decoded.

С точки зрения точки реализации, поток 248 битов может содержать служебные биты, которые не являются данными, но которые указывают некоторые особенности обработки на стороне кодера.From an implementation point of view, the 248 bit stream may contain overhead bits, which are not data, but which indicate some processing behavior on the encoder side.

Например, два используемых первых бита могут указывать, какой способ кодирования используется в случае, если кодер 200 имеет возможность переключения между несколькими способами кодирования. Следующий бит также может использоваться для описания того, какие полосы частот параметров передаются в данный момент.For example, the first two bits used may indicate which encoding method is used in case the encoder 200 has the ability to switch between multiple encoding methods. The next bit can also be used to describe which parameter bandwidths are currently being transmitted.

Другая информация, которая может кодироваться во вспомогательной информации потока 248 битов, может включать в себя флаг, указывающий переходную часть, и поле 261, указывающее то, в каком интервале кадра имеется переходная часть.Other information that may be encoded in the auxiliary information of the bit stream 248 may include a flag indicating a transition portion and a field 261 indicating in which frame slot there is a transition portion.

4.3.2. Восстановление параметров4.3.2. Restoring settings

Восстановление параметров может выполняться, например, посредством блока 316 и/или модуля 402 вычисления правил микширования.Restoration of parameters can be performed, for example, by block 316 and/or module 402 for calculating mixing rules.

Цель этого восстановления параметров состоит в том, чтобы восстанавливать ковариационные матрицы Cx и Cy (либо если обобщать, ковариационную информацию, ассоциированную с сигналом 246 понижающего микширования, и информацию уровня и корреляции исходного сигнала) из микшированного с понижением сигнала 246 и/или из вспомогательной информации 228 (или в ее версии, представленной посредством квантованных параметров 314). Эти ковариационные матрицы Cx и Cy могут быть обязательными для синтеза, поскольку они представляют собой матрицы, которые эффективно описывают многоканальный сигнал 246.The purpose of this parameter recovery is to recover the covariance matrices C x and C y (or more generally, the covariance information associated with the downmix signal 246 and the level and correlation information of the original signal) from the downmixed signal 246 and/or from auxiliary information 228 (or a version thereof represented by quantized parameters 314). These covariance matrices C x and C y may be required for synthesis because they are matrices that effectively describe the multi-channel signal 246.

Восстановление параметров в модуле 316 может представлять собой двухэтапный процесс:Restoring parameters in module 316 may be a two-step process:

- во-первых, матрица Cx (либо если обобщать, ковариационная информация, ассоциированная с сигналом 246 понижающего микширования) повторно вычисляется из сигнала 246 понижающего микширования (этот этап может исключаться в случаях, в которых ковариационная информация, ассоциированная с сигналом 246 понижающего микширования, фактически кодируется во вспомогательной информации 228 потока 248 битов); иFirst, the matrix C x (or more generally, the covariance information associated with the downmix signal 246) is recalculated from the downmix signal 246 (this step may be omitted in cases in which the covariance information associated with the downmix signal 246 is is actually encoded in the auxiliary information 228 of the 248 bit stream); And

- затем, матрица Cy (либо если обобщать, информация уровня и корреляции исходного сигнала 212) может восстанавливаться, например, с использованием по меньшей мере частично передаваемых параметров и Cx либо, если обобщать, ковариационной информации, ассоциированной с сигналом 246 понижающего микширования (этот этап может исключаться в случаях, в которых информация уровня и корреляции исходного сигнала 212 фактически кодируется во вспомогательной информации 228 потока 248 битов).- then, the matrix C y (or more generally, the level and correlation information of the original signal 212) can be reconstructed, for example, using at least part of the transmitted parameters and C x or, more generally, covariance information associated with the downmix signal 246 ( this step may be eliminated in cases in which the level and correlation information of the original signal 212 is actually encoded in the auxiliary information 228 of the bit stream 248).

Следует отметить, что, в некоторых примерах, для каждого кадра можно сглаживать ковариационную матрицу Cx текущего кадра с использованием линейного комбинирования с восстановленной ковариационной матрицей, предшествующей текущему кадру, например, посредством суммирования, среднего и т.д. Например, в t-ом кадре, конечная ковариация, которая должна использоваться для уравнения (4), может учитывать целевую ковариацию, восстановленную для предшествующего кадра, например:It should be noted that, in some examples, for each frame, the covariance matrix C x of the current frame can be smoothed using linear combination with the reconstructed covariance matrix preceding the current frame, for example, by summing, averaging, etc. For example, in the t-th frame, the final covariance to be used for equation (4) may take into account the target covariance recovered for the previous frame, for example:

. .

Тем не менее, в случае определения наличия переходной части в текущем кадре, операции сглаживания более не выполняются для текущего кадра. В случае переходной части, сглаживание не проводится, Cx из текущего кадра используется.However, if it is determined that there is a transition portion in the current frame, smoothing operations are no longer performed on the current frame. In the case of a transition part, no smoothing is performed, C x from the current frame is used.

Ниже содержится общее представление процесса.Below is a general overview of the process.

Примечание: Что касается кодера, обработка здесь может выполняться на основе полос частот параметров независимо для каждой полосы частот, для ясности, обработка далее описана только для одной конкретной полосы частот и системы обозначений, адаптированной соответствующим образом.Note: As for the encoder, the processing here can be performed based on the parameter frequency bands independently for each frequency band, for clarity, the processing is described below only for one specific frequency band and the notation adapted accordingly.

Аспект 4a. Восстановление параметров в случае, если передаются ковариационные матрицыAspect 4a. Restoring parameters in case covariance matrices are transmitted

Для этого аспекта, предполагается, что кодированные (например, передаваемые) параметры во вспомогательной информации 228 (ковариационной матрице, ассоциированной с сигналом 246 понижающего микширования, и информации канального уровня и корреляции исходного сигнала 212) представляют собой ковариационные матрицы (или их поднабор), как задано в аспекте 2a. Тем не менее, в некоторых примерах, ковариационная матрица, ассоциированная с сигналом 246 понижающего микширования и/или информацией канального уровня и корреляции исходного сигнала 212, может осуществляться посредством другой информации.For this aspect, it is assumed that the encoded (eg, transmitted) parameters in the auxiliary information 228 (the covariance matrix associated with the downmix signal 246, and the link layer and correlation information of the original signal 212) are covariance matrices (or a subset thereof) as specified in aspect 2a. However, in some examples, the covariance matrix associated with the downmix signal 246 and/or the link layer and correlation information of the original signal 212 may be implemented by other information.

Если полные ковариационные матрицы Cx и Cy кодируются (например, передаются), последующая обработка отсутствует для обработки в блоке 318 (и блок 318 в силу этого может исключаться в таких примерах). Если только поднабор по меньшей мере одной из этих матриц кодируется (например, передается), отсутствующие значения должны оцениваться. Конечные ковариационные матрицы, используемые в механизме 334 синтеза (или более конкретно, в процессоре 404 синтеза), должны состоять из кодированных (например, передаваемых) значений 228 и оцененных значений на стороне декодера. Например, если только некоторые элементы матрицы Cy кодируются во вспомогательной информации 228 потока 248 битов, оставшиеся элементы Cy здесь оцениваются.If the full covariance matrices C x and C y are encoded (eg, transmitted), there is no subsequent processing to be processed in block 318 (and block 318 may therefore be eliminated in such examples). If only a subset of at least one of these matrices is encoded (eg, transmitted), missing values must be estimated. The final covariance matrices used in the synthesis engine 334 (or more specifically, in the synthesis processor 404) must consist of encoded (eg, transmitted) values 228 and estimated decoder-side values. For example, if only some elements of the matrix C y are encoded in the auxiliary information 228 of the 248 bit stream, the remaining elements of C y are evaluated here.

Для ковариационной матрицы Cx микшированного с понижением сигнала 246, можно вычислять отсутствующие значения посредством использования микшированного с понижением сигнала 246 на стороне декодера и применять уравнение (1).For the covariance matrix C x of the downmixed signal 246, missing values can be calculated by using the downmixed signal 246 on the decoder side and apply Equation (1).

В аспекте, в котором передаются или кодируются наличие и положение переходной части, используются одинаковые интервалы для вычисления ковариационной матрицы Cx микшированного с понижением сигнала 246, аналогично стороне кодера.In an aspect in which the presence and position of the transition portion is transmitted or encoded, equal intervals are used to calculate the covariance matrix C x of the downmixed signal 246, similar to the encoder side.

Для ковариационной матрицы Cy, отсутствующие значения могут вычисляться, в первой оценке, следующим образом:For the covariance matrix C y , missing values can be calculated, in the first estimation, as follows:

(4), (4),

- где:- Where:

- является оценкой ковариационной матрицы исходного сигнала 212 (она представляет собой пример оцененной версии исходной информации канального уровня и корреляции)- is an estimate of the covariance matrix of the original signal 212 (it is an example of an estimated version of the original link layer information and correlation)

- Q является так называемой прототипной матрицей (прототипным правилом, правилом оценки), которая описывает взаимосвязь между микшированным с понижением и исходным сигналом (см. также 4.3.3) (она представляет собой пример прототипного правила),- Q is the so-called prototype matrix (prototype rule, evaluation rule) which describes the relationship between the downmix and the original signal (see also 4.3.3) (it is an example of a prototype rule),

- Cx является ковариационной матрицей сигнала понижающего микширования (она представляет собой пример ковариационной информации сигнала 212 понижающего микширования),- C x is the covariance matrix of the downmix signal (it is an example of the covariance information of the downmix signal 212),

- * обозначает сопряженное транспонирование- * denotes conjugate transpose

После того как эти этапы выполняются, ковариационные матрицы получаются снова и могут использоваться для конечного синтеза.Once these steps are completed, the covariance matrices are obtained again and can be used for the final synthesis.

Аспект 4b. Восстановление параметров в случае, если ICC и ICLD переданыAspect 4b. Restoring parameters if ICC and ICLD are transmitted

Для этого аспекта, можно предполагать, что кодированные (например, передаваемые) параметры во вспомогательной информации 228 представляют собой ICC и ICLD (либо их поднабор), как задано в аспекте 2b.For this aspect, it can be assumed that the encoded (eg, transmitted) parameters in the auxiliary information 228 are ICC and ICLD (or a subset thereof), as defined in aspect 2b.

В этом случае, может быть сначала необходимо повторно вычислять ковариационную матрицу Cx. Это может осуществляться с использованием микшированного с понижением сигнала 212 на стороне декодера и применения уравнения (1).In this case, it may first be necessary to recalculate the covariance matrix C x . This may be accomplished by using the decoder side downmix signal 212 and applying equation (1).

В аспекте, в котором передаются наличие и положение переходной части, используются одинаковые интервалы для вычисления ковариационной матрицы Cx микшированного с понижением сигнала, аналогично кодеру. Затем ковариационная матрица Cy может повторно вычисляться из ICC и ICLD; эта операция может выполняться следующим образом:In an aspect in which the presence and position of the transition portion is transmitted, equal intervals are used to calculate the covariance matrix C x of the downmixed signal, similar to an encoder. The covariance matrix C y can then be recomputed from the ICC and ICLD; this operation can be performed as follows:

Может быть получена энергия (также известная как уровень) каждого канала многоканального входного сигнала. Эти энергии извлекаются с использованием передаваемых ICLD и следующей формулы:The energy (also known as level) of each channel of a multi-channel input signal can be obtained. These energies are extracted using the transmitted ICLDs and the following formula:

(5) (5)

- где:- Where:

- где αi является весовым коэффициентом, связанным с ожидаемой долей энергии канала в понижающем микшировании, причем этот весовой коэффициент является фиксированным для определенной конфигурации входных громкоговорителей и известным в кодере и декодере. В случае реализации, задающей картографировании для каждого входного канала i, причем картографический индекс представляет собой канал j понижающего микширования, в которое только сводится входной канал i, либо если картографический индекс превышает число каналов понижающего микширования. Таким образом, имеется картографический индекс mICLD, i, который используется для определения Pdmx, i следующим образом:- where α i is a weighting factor associated with the expected proportion of channel energy in the downmix, this weighting factor being fixed for a particular input speaker configuration and known in the encoder and decoder. In the case of an implementation specifying a mapping for each input channel i, wherein the mapping index is the downmix channel j into which only the input channel i is downmixed, or if the mapping index is greater than the number of downmix channels. Thus, there is a map index m ICLD, i , which is used to determine P dmx, i as follows:

Системы обозначений являются одинаковыми с системами обозначений, используемыми в оценке параметров в 4.2.3.The notation systems are the same as those used in parameter estimation in 4.2.3.

Эти энергии могут использоваться для нормализации оцененной Cy. В случае, если не все ICC передаются из стороны кодера, оценка Cy может вычисляться для непередаваемых значений. Оцененная ковариационная матрица может получаться с помощью прототипной матрицы Q и ковариационной матрицы Cx с использованием уравнения (4).These energies can be used to normalize the estimated Cy . In case not all ICCs are transmitted from the encoder side, an estimate of C y may be calculated for the values not transmitted. Estimated covariance matrix can be obtained using the prototype matrix Q and the covariance matrix C x using equation (4).

Эта оценка ковариационной матрицы приводит к оценке матрицы ICC, для которой член индекса (i, j) может задаваться следующим образом:This estimation of the covariance matrix results in an estimation of the ICC matrix, for which the index term (i, j) can be given as follows:

(6) (6)

Таким образом, «восстановленная» матрица может задаваться следующим образом:Thus, the “reconstructed” matrix can be specified as follows:

(7) (7)

- где:- Where:

- Подстрочный индекс R указывает восстановленную матрицу (которая представляет собой пример восстановленной версии исходной информации уровня и корреляции),- The subscript R indicates the reconstructed matrix (which is an example of a reconstructed version of the original level and correlation information)

- Ансамбль соответствует всем парам (i, j), которые декодированы (например, переданы из кодера в декодер) во вспомогательной информации 228.- Ensemble corresponds to all pairs (i, j) that are decoded (eg, passed from the encoder to the decoder) in the auxiliary information 228.

В примерах, ξi, j может быть предпочтительной по сравнению , в силу того, что является менее точной, чем кодированное значение ξi, j.In examples, ξ i , j may be preferred over , due to the fact that is less accurate than the encoded value ξ i , j .

В завершение, из этой восстановленной матрицы ICC восстановленная ковариационная матрица может представлять собой выведенную CyR. Эта матрица может получаться посредством применения энергий, полученных в уравнении (5), к восстановленной матрице ICC, таким образом, для индексов (i, j):Finally, from this reconstructed ICC matrix, the reconstructed covariance matrix may be the derived C yR . This matrix can be obtained by applying the energies obtained in equation (5) to the reconstructed ICC matrix, thus for indices (i, j):

(8) (8)

В случае, если передается полная матрица ICC, требуются только уравнения (5) и (8). Предыдущие параграфы иллюстрируют один подход для восстановления пропущенных параметров, могут использоваться другие подходы, и предложенный способ не является уникальным.In case the complete ICC matrix is transmitted, only equations (5) and (8) are required. The previous paragraphs illustrate one approach for recovering missing parameters, other approaches may be used, and the proposed method is not unique.

Из примера в аспекте 1b с использованием сигнала 5.1, можно отметить, что значения, которые не передаются, являются значениями, которые должны оцениваться на стороне декодера.From the example in aspect 1b using signal 5.1, it can be noted that the values that are not transmitted are values that must be evaluated at the decoder side.

Ковариационные матрицы Cx и CyR могут теперь получаться. Важно, чтобы отметить, что восстановленная матрица CyR может представлять собой оценку ковариационной матрицы Cy входного сигнала 212. Компромисс настоящего изобретения может заключаться в том, чтобы иметь оценку ковариационной матрицы на стороне декодера, достаточно близкую к исходной, а также передавать максимально возможно небольшое количество параметров. Эти матрицы могут быть обязательными для конечного синтеза, который проиллюстрирован в 4.3.5.The covariance matrices C x and C yR can now be obtained. It is important to note that the reconstructed matrix C yR may be an estimate of the covariance matrix C y of the input signal 212. A compromise of the present invention may be to have an estimate of the decoder side covariance matrix reasonably close to the original, while also transmitting as little as possible number of parameters. These matrices may be required for the final synthesis, which is illustrated in 4.3.5.

Следует отметить, что, в некоторых примерах, для каждого кадра можно сглаживать восстановленную ковариационную матрицу текущего кадра с использованием линейного комбинирования с восстановленной ковариационной матрицей, предшествующей текущему кадру, например, посредством суммирования, среднего и т.д. Например, в t-ом кадре, конечная ковариация, которая должна использоваться для синтеза может учитывать целевую ковариацию, восстановленную для предшествующего кадра, например:It should be noted that, in some examples, for each frame, the reconstructed covariance matrix of the current frame can be smoothed using a linear combination with the reconstructed covariance matrix preceding the current frame, for example, by summing, averaging, etc. For example, at the t-th frame, the final covariance to be used for synthesis may take into account the target covariance recovered from the previous frame, for example:

Тем не менее, в случае переходной части сглаживание не проводится, и CyR для текущего кадра используется при вычислении матриц микширования.However, in the case of the transition part, no smoothing is performed, and C yR for the current frame is used when calculating the mixing matrices.

Также следует отметить, что в некоторых примерах, для каждого кадра, несглаженная ковариационная матрица каналов Cx понижающего микширования используется для восстановления параметров, в то время как сглаженная ковариационная матрица Cx, t, как описано в разделе 4.2.3, используется для синтеза.It should also be noted that in some examples, for each frame, the unsmoothed downmix channel covariance matrix Cx is used for parameter recovery, while the smoothed covariance matrix Cx ,t, as described in section 4.2.3, is used for synthesis.

Фиг. 8a возобновляет операцию для получения ковариационных матриц Cx и CyR в декодере 300 (например, выполняемую в блоках 386 или 316...). В блоках по фиг. 8a, между скобками, также указывается уравнение, которое приспосабливается посредством конкретного блока. Как можно видеть, модуль 384 оценки ковариации, через уравнение (1), позволяет достигать ковариации Cx сигнала 324 понижающего микширования (или в его версии 385 с уменьшенной полосой частот). Первый блок 384' оценки ковариации, посредством использования уравнения (4) и правила Q надлежащего типа, позволяет достигать первой оценки ковариации Cy. Затем, блок 390 преобразования ковариаций в когерентности, посредством применения уравнения (6), получает когерентности ξ. После этого, замещающий блок ICC 392, посредством приспособления уравнения (7), выбирает между оцененными ICC (ξ) и ICC, передаваемым в служебных сигналах во вспомогательной информации 228 потока 348 битов. Выбранные когерентности ξR затем вводятся в блок 394 применения энергии, который применяет энергию согласно ICLD (Xi). Затем целевая ковариационная матрица CyR передаётся в модуль 402 вычисления правил микширования или блок 388 для ковариационного синтеза по фиг. 3a либо в модуль вычисления правил микширования по фиг. 3c или механизм 344 синтеза по фиг. 3b.Fig. 8a resumes the operation to obtain the covariance matrices C x and C yR in the decoder 300 (eg, performed in blocks 386 or 316...). In the blocks of Fig. 8a, between the brackets, the equation that is adjusted by the specific block is also indicated. As can be seen, the covariance estimator 384, through equation (1), allows the covariance C x of the downmix signal 324 (or its reduced-bandwidth version 385) to be achieved. The first covariance estimator 384', through the use of equation (4) and a Q rule of the appropriate type, achieves the first estimate covariance C y . Next, covariance-to-coherence conversion unit 390 obtains coherences ξ by applying equation (6). Thereafter, the replacement ICC block 392, by adjusting equation (7), selects between the estimated ICC (ξ) and the ICC signaled in the auxiliary information 228 of the 348 bit stream. The selected coherences ξ R are then input to energy application block 394, which applies energy according to ICLD (Xi). The target covariance matrix C yR is then passed to the mixing rules calculation module 402 or the covariance synthesis block 388 of FIG. 3a or to the mixing rules calculation module of FIG. 3c or synthesis engine 344 of FIG. 3b.

4.3.3. Вычисление прототипных сигналов (блок 326)4.3.3. Calculation of prototype signals (block 326)

Задача модуля 326 обработки прототипных сигналов состоит в формировании сигнала 212 понижающего микширования (либо его версии 324 в частотной области) таким способом, при котором он может использоваться посредством механизма 334 синтеза (см. 4.3.5). Модуль 326 обработки прототипных сигналов может выполнять повышающее микширование микшированного с понижением сигнала. Вычисление прототипного сигнала 328 может выполняться посредством модуля 326 обработки прототипных сигналов посредством умножения микшированного с понижением сигнала 212 (или 324) на так называемую прототипную матрицу Q:The purpose of the prototype signal processing module 326 is to generate the downmix signal 212 (or frequency domain version 324 thereof) in such a way that it can be used by the synthesis engine 334 (see 4.3.5). The prototype signal processing module 326 may perform upmixing of the downmixed signal. The calculation of the prototype signal 328 may be performed by the prototype signal processing module 326 by multiplying the downmixed signal 212 (or 324) by the so-called prototype matrix Q:

Yp=XQ (9),Yp=XQ (9),

- где:- Where:

- Q является прототипной матрицей (которая представляет собой пример прототипного правила),- Q is a prototype matrix (which is an example of a prototype rule),

- X является микшированным с понижением сигналом (212 или 324)- X is a downmixed signal (212 or 324)

- Yp является прототипным сигналом (328).- Yp is a prototype signal (328).

Способ, которым прототипная матрица устанавливается, может быть зависимым от обработки и может задаваться таким образом, чтобы удовлетворять требованию применения. Единственное ограничение может состоять в том, что число каналов прототипного сигнала 328 должно быть равным требуемому числу выходных каналов; это непосредственно ограничивает размер прототипной матрицы. Например, Q может представлять собой матрицу, имеющую число линий, которое составляет число каналов сигнала (212, 324) понижающего микширования, и число столбцов, которое составляет число каналов конечного выходного сигнала (332, 340) синтеза.The manner in which the prototype matrix is installed may be processing dependent and may be set to suit the application requirement. The only limitation may be that the number of channels of the prototype signal 328 must be equal to the required number of output channels; this directly limits the size of the prototype matrix. For example, Q may be a matrix having a number of lines that represents the number of channels of the downmix signal (212, 324) and a number of columns that represents the number of channels of the final synthesis output signal (332, 340).

В качестве примера, в случае сигналов 5.1 или 5.0, прототипная матрица может устанавливаться следующим образом:As an example, in the case of 5.1 or 5.0 signals, the prototype matrix could be set up as follows:

Следует отметить, что прототипная матрица может предварительно определяться и фиксироваться. Например, Q может быть одинаковой для всех кадров, но может отличаться для различных полос частот. Кроме того, предусмотрены различные Q для различной взаимосвязи между числом каналов сигнала понижающего микширования и числом каналов сигнала синтеза. Q может выбираться из множества предварительно сохраненных Q, например, на основе конкретного числа каналов понижающего микширования и конкретного числа каналов синтеза.It should be noted that the prototype matrix can be pre-defined and fixed. For example, Q may be the same for all frames, but may be different for different frequency bands. In addition, different Qs are provided for different relationships between the number of channels of the downmix signal and the number of channels of the synthesis signal. The Q may be selected from a plurality of pre-stored Qs, for example, based on a particular number of downmix channels and a particular number of synthesis channels.

Аспект 5. Восстановление параметров в случае, если выходная конфигурация громкоговорителей отличается от входной конфигурации громкоговорителейAspect 5: Restoring parameters if the output speaker configuration differs from the input speaker configuration

Один вариант применения предложенного изобретения заключается в формировании выходного сигнала 336 или 340 на конфигурации громкоговорителей, которая отличается от исходного сигнала 212 (что означает, например, с большим или меньшим числом громкоговорителей).One application of the present invention is to generate an output signal 336 or 340 from a speaker configuration that is different from the original signal 212 (meaning, for example, more or fewer speakers).

Для этого, следует соответствующим образом модифицировать прототипную матрицу. В этой ситуации прототипный сигнал, полученный с помощью уравнения (9), должен содержать столько каналов, сколько содержит выходная конфигурация громкоговорителей. Например, если в качестве входного сигнала (на стороне сигнала 212) имеется 5 сигналов каналов, и желательно получить в качестве выходного сигнала (на стороне сигнала 336) 7 канальных сигналов, то прототипный сигнал должен содержать уже 7 каналов.To do this, the prototype matrix should be modified accordingly. In this situation, the prototype signal obtained using equation (9) must contain as many channels as the output speaker configuration contains. For example, if there are 5 channel signals as an input signal (on the signal side 212), and it is desired to obtain 7 channel signals as an output signal (on the signal side 336), then the prototype signal should already contain 7 channels.

После этого, оценка ковариационной матрицы в уравнении (4) по-прежнему остается и по-прежнему должна использоваться для оценки параметров ковариации для каналов, которые не имеются во входном сигнале 212.Thereafter, the covariance matrix estimate in equation (4) still remains and must still be used to estimate covariance parameters for channels that are not present in the input signal 212.

Передаваемые параметры 228 между кодером и декодером по-прежнему являются релевантными, и уравнение (7) также по-прежнему может использоваться. Более точно, кодированные (например, передаваемые) параметры должны назначаться канальным парам, которые являются максимально близкими, с точки зрения геометрии, исходной конфигурации. По существу, требуется выполнять операцию адаптации.The transmitted parameters 228 between the encoder and decoder are still relevant, and equation (7) can also still be used. More precisely, encoded (eg, transmitted) parameters should be assigned to channel pairs that are as close as possible, in terms of geometry, to the original configuration. Essentially, an adaptation operation is required.

Например, если на стороне кодера оценивается значение ICC между одним громкоговорителем справа и одним громкоговорителем слева, это значение может назначаться канальной паре выходной конфигурации, которые имеют одинаковые левое и правое положения; в случае, если геометрия отличается, это значение может назначаться паре громкоговорителей, положения которых являются максимально близкими с исходной парой.For example, if the encoder side evaluates the ICC value between one speaker on the right and one speaker on the left, this value may be assigned to channel pairs of the output configuration that have the same left and right positions; in case the geometry is different, this value can be assigned to the pair of loudspeakers whose positions are as close as possible to the original pair.

Далее, после того, как целевая ковариационная матрица Cy получена для новой выходной конфигурации, остальная обработка является неизменной.Next, after the target covariance matrix C y is obtained for the new output configuration, the rest of the processing is unchanged.

Соответственно, чтобы адаптировать целевую ковариационную матрицу (CyR) к числу каналов синтеза, можно:Accordingly, to adapt the target covariance matrix (C yR ) to the number of synthesis channels, you can:

- использовать прототипную матрицу Q, которая преобразуется из упомянутого числа каналов понижающего микширования в некоторое число каналов синтеза; она может получаться посредством:- use a prototype matrix Q, which is converted from the mentioned number of downmixing channels into a certain number of synthesis channels; it can be obtained through:

- адаптации формулы (9), так что прототипный сигнал имеет некоторое число каналов синтеза;- adaptation of formula (9), so that the prototype signal has a certain number of synthesis channels;

- адаптации формулы (4), за счет этого оценивая в числе каналов синтеза;- adaptation of formula (4), thereby estimating in the number of synthesis channels;

- поддержания формул (5)-(8), которые в силу этого получаются в числе исходных каналов;- maintaining formulas (5)-(8), which are therefore obtained in the number of original channels;

- но назначения групп исходных каналов (например, пар исходных каналов) одиночным каналам синтеза (например, выбора назначений с точки зрения геометрии) или наоборот.- but assigning groups of source channels (for example, pairs of source channels) to single synthesis channels (for example, choosing assignments in terms of geometry) or vice versa.

На фиг. 8b приведён пример, который представляет собой версию фиг. 8a, на котором указываются число каналов некоторой матрицы и векторов. Когда ICC (полученные из вспомогательной информации 228 потока 348 битов) применяются к матрице ICC в 392, группы исходных каналов (например, пары исходных каналов) для одиночных каналов синтеза (например, выбор назначений с точки зрения геометрии) или наоборот.In fig. 8b is an example which is a version of FIG. 8a, which indicates the number of channels of a certain matrix and vectors. When the ICCs (derived from the 348 bit stream auxiliary information 228) are applied to the ICC matrix at 392, groups of source channels (eg, pairs of source channels) to single synthesis channels (eg, selecting assignments in terms of geometry) or vice versa.

Другая возможность формирования целевой ковариационной матрицы для числа выходных каналов, отличающегося от числа входных каналов, состоит в том, чтобы сначала формировать целевую ковариационную матрицу для числа входных каналов (например, числа исходных каналов входного сигнала 212) и затем адаптировать эту первую целевую ковариационную матрицу к числу каналов синтеза, получая вторую целевую ковариационную матрицу, соответствующую числу выходных каналов. Это может осуществляться посредством применения правила повышающего или понижающего микширования, например, матрицы, содержащей коэффициенты для комбинации определенных входных (исходных) каналов с выходными каналами, к первой целевой ковариационной матрицы CyR, и на втором этапе, применения этой матрицы CyR к передаваемым мощностям входного канала (ICLD) и получения вектора мощностей канала для числа выходных каналов (синтеза) и регулирования первой целевой ковариационной матрицы согласно векторам, чтобы получать вторую целевую ковариационную матрицу с запрашиваемым числом каналов синтеза. Эта отрегулированная вторая целевая ковариационная матрица теперь может использоваться в синтезе. Пример этого приведён на фиг. 8c, которая представляет собой версию фиг. 8a, в которой блоки 390-394 управляют восстановлением целевой ковариационной матрицы CyR, с тем чтобы иметь число исходных каналов исходного сигнала 212. После этого, в блоке 395 прототипный сигнал QN (который следует преобразовывать в число каналов синтеза) и вектор ICLD могут применяться. В частности, блок 386 по фиг. 8c является тем же, что и блок 386 по фиг. 8a, за исключением того факта, что на фиг. 8c, число каналов восстановленной целевой ковариации является совершенно равным числу исходных каналов входного сигнала 212 (и на фиг. 8a, для общности, восстановленная целевая ковариация имеет некоторое число каналов синтеза).Another possibility for generating a target covariance matrix for a number of output channels that is different from the number of input channels is to first generate a target covariance matrix for the number of input channels (eg, the number of source channels of input signal 212) and then adapt this first target covariance matrix to the number of synthesis channels, obtaining a second target covariance matrix corresponding to the number of output channels. This may be accomplished by applying an up- or down-mixing rule, for example a matrix containing coefficients for the combination of certain input (source) channels with output channels, to the first target covariance matrix C yR , and in a second step, applying this matrix C yR to the transmitted powers input channel (ICLD) and obtaining a vector of channel powers for the number of output channels (synthesis) and adjusting the first target covariance matrix according to the vectors to obtain a second target covariance matrix with the requested number of synthesis channels. This adjusted second target covariance matrix can now be used in synthesis. An example of this is shown in Fig. 8c, which is a version of FIG. 8a, in which blocks 390-394 control the reconstruction of the target covariance matrix C yR so as to have a source signal source channel count of 212. Thereafter, in block 395, the prototype signal QN (which should be converted to a number of synthesis channels) and the ICLD vector can be applied . In particular, block 386 of FIG. 8c is the same as block 386 of FIG. 8a, except for the fact that in FIG. 8c, the number of channels of the recovered target covariance is exactly equal to the number of original channels of the input signal 212 (and in FIG. 8a, for generality, the recovered target covariance has a number of synthesis channels).

4.3.4. Декорреляция4.3.4. Decorrelation

Цель модуля 330 декорреляции состоит в том, чтобы уменьшать величину корреляции между каждым каналом прототипного сигнала. Высококоррелированный сигнал громкоговорителей может приводить к фантомным источникам и ухудшать качество и пространственные свойства выходного многоканального сигнала. Этот этап является факультативным и может осуществляться или не осуществляться согласно требованию варианта применения. В настоящем изобретении, декорреляция используется до механизма синтеза. В качестве примера, всечастотный частотный декоррелятор может использоваться.The purpose of the decorrelation module 330 is to reduce the amount of correlation between each channel of the prototype signal. A highly correlated speaker signal can introduce phantom sources and degrade the quality and spatial properties of the multi-channel output signal. This step is optional and may or may not be performed as required by the application. In the present invention, decorrelation is used before the synthesis mechanism. As an example, an all-frequency frequency decorrelator can be used.

Следует отметить, что относительно стандарта объемного звучания MPEG:It should be noted that regarding the MPEG surround sound standard:

В стандарте объемного звучания MPEG согласно уровню техники, предусмотрено использование так называемых «матриц микширования» (обозначаемых как M1 и M2 в стандарте). Матрица M1 управляет тем, как доступные микшированные с понижением сигналы вводятся в декорреляторы. Матрица M2 описывает то, как прямые и декоррелированные сигналы должны комбинироваться для формирования выходного сигнала.The MPEG surround sound standard, according to the prior art, provides for the use of so-called “mixing matrices” (referred to as M1 and M2 in the standard). The M1 matrix controls how available downmixed signals are input into the decorrelators. The M2 matrix describes how the direct and decorrelated signals must be combined to form the output signal.

Хотя могут иметься сходства с прототипной матрицей, определённой в 4.3.3, а также с использованием декорреляторов, описанных в этом настоящем разделе, важно отметить, что:While there may be similarities to the prototype matrix defined in 4.3.3, as well as the use of decorrelators described in this section, it is important to note that:

- Прототипная матрица Q имеет совершенно другую функцию по сравнению с матрицами, используемыми в стандарте объемного звучания MPEG, аспект этой матрицы заключается в формировании прототипного сигнала. Цель этого прототипного сигнала должна вводиться в механизм синтеза.- The Q prototype matrix has a completely different function compared to the matrices used in the MPEG surround sound standard, the aspect of this matrix is to generate the prototype signal. The target of this prototype signal must be input into the synthesis engine.

- Прототипная матрица не имеет намерение подготавливать микшированные с понижением сигналы к декорреляторам и может адаптироваться в зависимости от требований и целевого варианта применения. Например, прототипная матрица может формировать прототипный сигнал для выходной конфигурации громкоговорителей, которая больше, чем входная конфигурация.- The prototype matrix does not intend to prepare downmixed signals for decorrelators and can be adapted depending on the requirements and the target application. For example, the prototype matrix may generate a prototype signal for an output speaker configuration that is larger than the input configuration.

- Использование декорреляторов в предложенном изобретении не является обязательным; обработка основана на использовании ковариационной матрицы в механизме синтеза (см. также 5.1).- The use of decorrelators in the proposed invention is not mandatory; processing is based on the use of a covariance matrix in the synthesis mechanism (see also 5.1).

- Предложенное изобретение не формирует выходной сигнал посредством комбинированного прямого и декоррелированного сигнала.- The proposed invention does not generate an output signal through a combined direct and decorrelated signal.

- Вычисление M1 и M2 сильно зависит от древовидной структуры, различные коэффициенты этих матриц являются зависимыми от случая с точки зрения структуры. Дело обстоит не так в предложенном изобретении, обработка является агностической относительно микшированного с понижением вычисления (см. также 5.2), и концептуально предложенная обработка нацелена на рассмотрение взаимосвязи между каждым каналом только вместо пар каналов, поскольку это может осуществляться с древовидной структурой.- The calculation of M1 and M2 is highly dependent on the tree structure, the various coefficients of these matrices are case dependent in terms of structure. This is not the case in the proposed invention, the processing is agnostic with respect to the downmix calculation (see also 5.2), and conceptually the proposed processing aims to consider the relationship between each channel only instead of pairs of channels, as this can be done with a tree structure.

Следовательно, настоящее изобретение отличается от стандарта объемного звучания MPEG из уровня техники.Therefore, the present invention differs from the MPEG surround sound standard of the prior art.

4.3.5. Механизм синтеза, матричное вычисление4.3.5. Synthesis mechanism, matrix calculation

Последний этап декодера включает в себя механизм синтеза 334 или процессор синтеза 402 (и при необходимости дополнительно гребенку 338 фильтров синтеза). Задача механизма 334 синтеза состоит в формировании конечного выходного сигнала 336 относительно определенных ограничений. Механизм 334 синтеза может вычислять выходной сигнал 336, характеристики которого ограничены посредством входных параметров. В настоящем изобретении, входные параметры 318 механизма 338 синтеза, за исключением прототипного сигнала 328 (или 332), представляют собой ковариационные матрицы Cx и Cy. В частности, CyR называется «целевой ковариационной матрицей», поскольку характеристики выходных сигналов должны быть максимально близкими к характеристикам, заданным посредством Cy (показано, что поясняются оцененная версия и предварительно сконструированная версия целевой ковариационной матрицы).The final stage of the decoder includes a synthesis engine 334 or a synthesis processor 402 (and optionally an additional synthesis filter bank 338). The task of the synthesis engine 334 is to generate the final output signal 336 relative to certain constraints. The synthesis engine 334 may calculate an output signal 336 whose characteristics are constrained by the input parameters. In the present invention, the input parameters 318 of the synthesis engine 338, with the exception of the prototype signal 328 (or 332), are covariance matrices C x and C y . In particular, C yR is called the “target covariance matrix” because the characteristics of the output signals should be as close as possible to the characteristics specified by C y (the estimated version and the pre-constructed version of the target covariance matrix are shown to be explained).

Механизм 334 синтеза, который может использоваться, не является уникальным, в качестве примера, может использоваться ковариационный синтез из источника из уровня техники [8], который включён в настоящий документ путём ссылки. Другой механизм 333 синтеза, который может использоваться, представляет собой механизм синтеза, описанный в обработке DirAC в [2].The synthesis engine 334 that may be used is not unique; as an example, covariance synthesis may be used from the prior art source [8], which is incorporated herein by reference. Another synthesis engine 333 that may be used is the synthesis engine described in the DirAC processing in [2].

Выходной сигнал механизма 334 синтеза может требовать дополнительной обработки через гребенку 338 фильтров синтеза.The output of the synthesis engine 334 may require additional processing through a synthesis filter bank 338.

В качестве конечного результата, получается выходной многоканальный сигнал 340 во временной области.As a final result, a multi-channel time domain output signal 340 is obtained.

Аспект 6. Высококачественные выходные сигналы с использованием «ковариационного синтеза»Aspect 6: High Quality Outputs Using “Covariance Synthesis”

Как упомянуто выше, используемый механизм 334 синтеза не является уникальным, и может использоваться любой механизм, который использует передаваемые параметры либо их поднабор. Тем не менее, один аспект настоящего изобретения может заключаться в обеспечении высококачественных выходных сигналов 336, например, посредством использования ковариационного синтеза [8].As mentioned above, the synthesis engine 334 used is not unique, and any engine that uses the passed parameters or a subset thereof can be used. However, one aspect of the present invention may be to provide high quality output signals 336, for example, through the use of covariance synthesis [8].

Этот способ синтеза нацелен на вычисление выходного сигнала 336, характеристики которого задаются посредством ковариационной матрицы CyR. Для этого, вычисляются так называемые матрицы оптимального микширования, причем эти матрицы должны сводить прототипный сигнал 328 в конечный выходной сигнал 336 и должны обеспечивать оптимальный с математической точки зрения результат с учетом целевой ковариационной матрицы CyR.This synthesis method aims to calculate an output signal 336, the characteristics of which are specified by the covariance matrix C yR . To do this, so-called optimal mixing matrices are calculated, and these matrices must combine the prototype signal 328 into the final output signal 336 and must provide a mathematically optimal result, taking into account the target covariance matrix C yR .

Матрица M микширования представляет собой матрицу, которая преобразует прототипный сигнал xp в выходной сигнал yR (336) через взаимосвязь .The mixing matrix M is a matrix that converts the prototype signal x p into an output signal yR (336) through the relationship .

Матрица микширования также может представлять собой матрицу, которая преобразует сигнал x понижающего микширования в выходной сигнал через взаимосвязь . Из этой взаимосвязи также можно вывести .The mixing matrix may also be a matrix that converts the downmix signal x into an output signal through an interconnection . From this relationship we can also deduce .

В представленной обработке CyR и Cx могут в некоторых примерах быть уже известны (поскольку они, соответственно, представляют собой целевую ковариационную матрицу CyR и ковариационную матрицу Cx сигнала 246 понижающего микширования).In the present processing, C yR and C x may in some examples already be known (since they respectively represent the target covariance matrix C yR and the covariance matrix C x of the downmix signal 246).

Одно решение с математической точки зрения задается посредством , где Ky и представляют собой все матрицы, полученные посредством выполнения разложения по сингулярным значениям для Cx и CyR. Для P, он представляет собой свободный параметр здесь, но оптимальное решение (с перцепционной точки зрения для слушателя) может находиться относительно ограничения, предписанного посредством прототипной матрицы Q. Математическое подтверждение того, что указывается здесь, содержится в [8].One solution from a mathematical point of view is given by , where Ky and represent all matrices obtained by performing singular value decomposition on C x and C yR . For P, it represents a free parameter here, but the optimal solution (from a perceptual point of view for the listener) can be found with respect to the constraint prescribed by the prototype matrix Q. Mathematical confirmation of what is stated here is contained in [8].

Этот механизм 334 синтеза обеспечивает высококачественный выходной сигнал 336, поскольку подход разработан с возможностью обеспечения оптимального математического решения проблемы восстановления выходного сигнала.This synthesis engine 334 provides a high quality output signal 336 because the approach is designed to provide an optimal mathematical solution to the output signal reconstruction problem.

Если говорить не с точки зрения математики, важно понимать, что ковариационные матрицы представляют энергетические взаимосвязи между различными каналами многоканального аудиосигнала. Матрица Cy для исходного многоканального сигнала 212 и матрица Cx для микшированного с понижением многоканального сигнала 246. Каждое значение этих матриц преобразует энергетическую взаимосвязь между двумя каналами многоканального потока.In a non-mathematical sense, it is important to understand that covariance matrices represent the energy relationships between the various channels of a multi-channel audio signal. A matrix C y for the original multi-channel signal 212 and a matrix C x for the down-mixed multi-channel signal 246. Each value of these matrices transforms the energy relationship between two channels of the multi-channel stream.

Следовательно, философия в основе ковариационного синтеза заключается в том, чтобы формировать сигнал, характеристики которого управляются посредством целевой ковариационной матрицы CyR. Эта матрица CyR вычислена таким способом, при котором она описывает исходный входной сигнал 212 (или выходной сигнал, который желательно получать, в случае если он отличается от входного сигнала). После этого, за счет наличия этих элементов, ковариационный синтез должен оптимально сводить прототипный сигнал для формирования конечного выходного сигнала.Therefore, the philosophy behind covariance synthesis is to generate a signal whose characteristics are controlled by the target covariance matrix C yR . This matrix C yR is calculated in such a way that it describes the original input signal 212 (or the output signal that is desired to be obtained, in case it is different from the input signal). Then, due to the presence of these elements, covariance synthesis should optimally reduce the prototype signal to form the final output signal.

В дополнительном аспекте, матрица микширования, используемая для синтеза интервала, представляет собой комбинацию матрицы M микширования текущего кадра, и матрицы Mp микширования предыдущего, с тем чтобы гарантировать сглаженный синтез, например, линейную интерполяцию на основе индекса интервала в текущем кадре.In a further aspect, the mixing matrix used for interval synthesis is a combination of the current frame's mixing matrix M, and the previous frame's mixing matrix Mp, so as to ensure smooth synthesis, eg, linear interpolation based on the index of the interval in the current frame.

В дополнительном аспекте, в котором передаются наличие и положение переходной части, используется предыдущая матрица Mp микширования для всех интервалов перед положением переходной части, и матрица M микширования используется для интервала, содержащего положение переходной части, и всех последующих интервалов в текущем кадре. Следует отметить, что, в некоторых примерах, для каждого кадра или интервала можно сглаживать матрицу микширования текущего кадра или интервала с использованием линейного комбинирования с матрицей микширования, используемой для предшествующего кадра или интервала, например, посредством суммирования, среднего и т.д. Предположим, что, для текущего кадра t, интервал s, полоса частот i выходного сигнала получаются посредством , где Ms, i представляет собой комбинацию Mt-1,i матрицы микширования, используемой для предыдущего кадра, и Mt, i, которая представляет собой матрицу микширования, вычисленную для текущего кадра, например, линейную интерполяцию между ними:In a further aspect, in which the presence and position of the transition portion is transmitted, a previous mixing matrix Mp is used for all intervals before the transition portion position, and a mixing matrix M is used for the interval containing the transition portion position and all subsequent intervals in the current frame. It should be noted that, in some examples, for each frame or interval, the mixing matrix of the current frame or interval can be smoothed using a linear combination with the mixing matrix used for the previous frame or interval, for example, by summing, averaging, etc. Suppose that, for the current frame t, interval s, bandwidth i of the output signal is obtained by , where M s, i is a combination of the Mt-1, i mixing matrix used for the previous frame, and M t, i , which is the mixing matrix calculated for the current frame, e.g. linear interpolation between them:

, ,

- где ns составляет число интервалов в кадре (например, 16), и t-1 и t указывают предыдущий и текущий кадр. Если обобщать, матрица Ms, i микширования, ассоциированная с каждым интервалом, может получаться посредством масштабирования вдоль последующих интервалов текущего кадра t матрицы Mt, i микширования, вычисленной для текущего кадра, посредством повышающего коэффициента, и посредством добавления, вдоль последующих интервалов текущего кадра t, матрицы Mt-1,i микширования, масштабируемой посредством понижающего коэффициента. Коэффициенты могут быть линейными.- where n s is the number of slots in the frame (eg, 16), and t-1 and t indicate the previous and current frame. More generally, the mixing matrix M s, i associated with each interval can be obtained by scaling along subsequent intervals of the current frame t the mixing matrix M t, i calculated for the current frame by a boosting factor, and by adding, along subsequent intervals of the current frame t, a mixing matrix Mt-1,i, scaled by a reduction factor. The coefficients can be linear.

Может быть предусмотрено, что в случае переходной части (например, передаваемой в служебных сигналах в информации 261), комбинируются не текущая и прошлая матрицы микширования, а предыдущая матрица микширования вплоть до интервала, содержащего переходную часть, и текущая матрица микширования для интервала, содержащего переходную часть и все последующие интервалы до конца кадра.It may be provided that in the case of a transition part (for example, signaled in information 261), not the current and past mixing matrices are combined, but the previous mixing matrix up to the interval containing the transition part and the current mixing matrix for the interval containing the transition part. part and all subsequent intervals until the end of the frame.

, ,

- где s является индексом интервала, i является индексом полосы частот, t и t-1 указывают текущий и предыдущий кадр, и st является интервалом, содержащим переходную часть.- where s is the interval index, i is the frequency band index, t and t-1 indicate the current and previous frame, and s t is the interval containing the transition part.

Отличия от источника из уровня техники [8]Differences from the prior art source [8]

Также важно отметить, что предложенное изобретение выходит за рамки объема способа, предложенного в [8]. Заметные различия, в числе прочего, заключаются в следующем:It is also important to note that the proposed invention goes beyond the scope of the method proposed in [8]. Notable differences include, but are not limited to:

- Целевая ковариационная матрица CyR вычисляется на стороне кодера предложенной обработки.- The target covariance matrix C yR is calculated at the encoder side of the proposed processing.

- Целевая ковариационная матрица CyR также может вычисляться другим способом (в предложенном изобретении, ковариационная матрица не составляет сумму рассеянной и прямой части).- The target covariance matrix C yR can also be calculated in another way (in the proposed invention, the covariance matrix is not the sum of the scattered and direct parts).

- Обработка выполняется не для каждой полосы частот отдельно, а группируется для полос частот параметров (как упомянуто в 0).- Processing is not performed for each frequency band separately, but is grouped for parameter frequency bands (as mentioned in 0).

- С более глобальной точки зрения: ковариационный синтез здесь представляет собой только один блок всего процесса и должен использоваться совместно со всеми другими элементами на стороне декодера.- From a more global point of view: covariance synthesis here represents only one block of the entire process and must be used in conjunction with all other elements on the decoder side.

4.3. Предпочтительные аспекты в качестве списка4.3. Preferred aspects as a list

По меньшей мере один из следующих аспектов может характеризовать изобретение:At least one of the following aspects may characterize the invention:

1. На стороне кодера1. On the encoder side

a. Ввод многоканального аудиосигнала 246.a. Multi-channel audio input 246.

b. Преобразование сигнала 212 из временной области в частотную область (216) с использованием гребенки 214 фильтровb. Converting signal 212 from time domain to frequency domain (216) using filter bank 214

c. Вычисление сигнала 246 понижающего микширования в блоке 244c. Calculating the downmix signal 246 at block 244

d. Из исходного сигнала 212 и/или сигнала 246 понижающего микширования, оценка первого набора параметров для описания многоканального потока 246 (сигнала): ковариационные матрицы Cx и/или Cyd. From the original signal 212 and/or the downmix signal 246, estimate a first set of parameters to describe the multi-channel stream 246 (signal): covariance matrices C x and/or Cy

e. Передача и/или кодирование ковариационных матриц Cx и/или Cy непосредственно либо вычисление ICC и/или ICLD и их передачаe. Transmitting and/or encoding covariance matrices C x and/or C y directly, or calculating ICC and/or ICLD and transmitting them

f. Кодирование передаваемых параметров 228 в потоке 248 битов с использованием соответствующей схемы кодированияf. Encoding of 228 transmitted parameters in a 248 bit stream using an appropriate encoding scheme

g. Вычисление микшированного с понижением сигнала 246 во временной областиg. Calculation of a down-mixed signal 246 in the time domain

h. Передача вспомогательной информации (т.е. параметров) и микшированного с понижением сигнала 246 во временной областиh. Transmission of auxiliary information (i.e. parameters) and down-mixed signal 246 in the time domain

2. На стороне декодера2. On the decoder side

a. Декодирование потока 248 битов, содержащего вспомогательную информацию 228 и сигнал 246 понижающего микшированияa. Decoding a 248 bit stream containing side information 228 and a downmix signal 246

b. (при необходимости) Применение гребенки фильтров 320 к сигналу 246 понижающего микширования, чтобы получать версию 324 сигнала 246 понижающего микширования в частотной областиb. (if necessary) Applying a filter bank 320 to the downmix signal 246 to obtain a frequency domain version 324 of the downmix signal 246

c. Восстановление ковариационных матриц Cx и CyR из ранее декодированных параметров 228 и сигнала 246 понижающего микшированияc. Recovering covariance matrices C x and C yR from previously decoded parameters 228 and downmix signal 246

d. Вычисление прототипного сигнала 328 из сигнала 246 (324) понижающего микшированияd. Calculation of prototype signal 328 from downmix signal 246 (324)

e. (при необходимости) Декорреляция прототипного сигнала (в блоке 330)e. (if necessary) Decorrelation of the prototype signal (in block 330)

f. Применение механизма 334 синтеза к прототипному сигналу с использованием восстановленных Cx и CyR.f. Applying a synthesis engine 334 to a prototype signal using the reconstructed Cx and CyR .

g. (при необходимости) Применение гребенки 338 фильтров синтеза к выходному сигналу 336 ковариационного синтеза 334g. (if necessary) Applying synthesis filter bank 338 to covariance synthesis output 336 334

h. Получение выходного многоканального сигнала 340h. Receiving 340 multi-channel output signal

4.5. Ковариационный синтез4.5. Covariance synthesis

В настоящем разделе, поясняются некоторые технологии, которые могут реализовываться в системах по фиг. 1-3d. Тем не менее, эти технологии также могут реализовываться независимо: например, в некоторых примерах нет необходимости в вычислении ковариации, осуществляемом для фиг. 8a-8c и в уравнениях (1)-(8). Следовательно, в некоторых примерах, если обратиться к CyR (восстановленной целевой ковариации), она также может заменяться посредством Cy (которая также может непосредственно обеспечиваться без восстановления). Несмотря на это, технологии этого раздела могут преимущественно использоваться вместе с технологиями, поясненными выше.This section explains some of the technologies that may be implemented in the systems of FIGS. 1-3d. However, these techniques can also be implemented independently: for example, in some examples, the covariance calculation performed for FIGS. 8a-8c and in equations (1)-(8). Therefore, in some examples, if one refers to C yR (the recovered target covariance), it may also be replaced by C y (which may also be directly provided without recovery). Regardless, the technologies in this section can advantageously be used in conjunction with the technologies explained above.

Обратимся теперь к фиг. 4a-4d. Здесь поясняются примеры блоков 388a-388d для ковариационного синтеза. Блоки 388a-388d могут реализовывать, например, блок 388 по фиг. 3c для выполнения ковариационного синтеза. Блоки 388a-388d, например, могут представлять собой часть процессора 404 синтеза и модуля 402 вычисления правил микширования механизма 334 синтеза и/или блока 316 восстановления параметров по фиг. 3a. На фиг. 4a-4d, сигнал 324 понижающего микширования находится в частотной области (FD) (т.е. ниже гребенки 320 фильтров) и указывается как X, в то время как сигнал 336 синтеза также находится в FD и указывается как Y. Тем не менее, можно обобщать эти результаты, например, во временной области. Следует отметить, что каждый из блоков 388a-388d для ковариационного синтеза по фиг. 4a-4d может называться «одной отдельной полосой частот» (например, после дезагрегирования в 380), и ковариационные матрицы Cx и CyR (или другая восстановленная информация) в силу этого могут быть ассоциированы с одной конкретной полосой частот. Ковариационный синтез может выполняться, например, покадрово, и в этом случае ковариационные матрицы Cx и CyR (или другая восстановленная информация) ассоциированы с одним отдельным кадром (или со множеством последовательными кадрами): следовательно, ковариационный синтез может выполняться покадрово или каждое множество кадров.Let us now turn to FIG. 4a-4d. Examples of covariance synthesis blocks 388a-388d are explained here. Blocks 388a-388d may implement, for example, block 388 of FIG. 3c to perform covariance synthesis. Blocks 388a-388d, for example, may be part of the synthesis processor 404 and the mixing rules calculation module 402 of the synthesis engine 334 and/or the parameter recovery unit 316 of FIG. 3a. In fig. 4a-4d, the downmix signal 324 is in the frequency domain (FD) (i.e., below the filter bank 320) and is indicated as X, while the synthesis signal 336 is also in the FD and is indicated as Y. However, it is possible to generalize these results, for example, in the time domain. It should be noted that each of the covariance synthesis blocks 388a-388d of FIG. 4a-4d may be referred to as "one distinct frequency band" (eg, after disaggregation at 380), and the covariance matrices C x and C yR (or other reconstructed information) may thereby be associated with one particular frequency band. Covariance synthesis may be performed, for example, frame by frame, in which case the covariance matrices C x and C yR (or other reconstructed information) are associated with one single frame (or multiple consecutive frames): therefore, covariance synthesis may be performed frame by frame or each set of frames .

На фиг. 4a, блок 388a ковариационного синтеза может состоять из одного блока 600a оптимального микширования с компенсацией энергии при отсутствии блока корреляции. По существу, одна отдельная матрица M микширования обнаруживается, и единственная важная операция, которая дополнительно выполняется, представляет собой вычисление матрицы M' микширования с компенсацией энергии.In fig. 4a, the covariance synthesis block 388a may consist of a single energy-compensated optimal mixing block 600a in the absence of a correlation block. Essentially, one separate mixing matrix M is discovered, and the only significant operation that is additionally performed is the computation of the energy-compensated mixing matrix M'.

Фиг. 4b показывает блок 388b для ковариационного синтеза, обусловленный посредством [8]. Блок 388b для ковариационного синтеза может позволять получать сигнал 336 синтеза в качестве сигнала синтеза, имеющего первый основной компонент 336M и второй остаточный компонент 336R. Хотя основной компонент 336M может получаться в матрице микширования оптимального основного компонента 600b, например, посредством обнаружения матрицы MM микширования из ковариационных матриц Cx и CyR и без декорреляторов, остаточный компонент 336R может получаться другим способом. MR должен в принципе удовлетворять взаимосвязи . Типично, полученная матрица микширования не полностью удовлетворяет этому, и остаточная целевая ковариация может обнаруживаться с помощью . Как можно видеть, сигнал 324 понижающего микширования может извлекаться в тракт 610b (тракт 610b может называться "вторым трактом", параллельным первому тракту 610b', включающему в себя блок 600b). Прототипная версия 613b (указываемая с помощью YpR) сигнала 324 понижающего микширования может получаться в блоке 612b обработки прототипных сигналов (блоке повышающего микширования). Например, уравнение, такое как уравнение (9) может использоваться, т.е.:Fig. 4b shows a block 388b for covariance synthesis conditioned by [8]. The covariance synthesis block 388b may be capable of obtaining a synthesis signal 336 as a synthesis signal having a first principal component 336M and a second residual component 336R. Although the principal component 336M may be obtained in the mixing matrix of the optimal principal component 600b, for example, by discovering the mixing matrix MM from the covariance matrices C x and C yR and without decorrelators, the residual component 336R may be obtained in a different manner. MR should in principle satisfy the relationships . Typically, the resulting mixing matrix does not fully satisfy this, and the residual target covariance can be detected using . As can be seen, the downmix signal 324 may be extracted into path 610b (path 610b may be referred to as a "second path" parallel to the first path 610b' including block 600b). A prototype version 613b (indicated by Y pR ) of the downmix signal 324 may be obtained in a prototype signal processing block (upmixer) 612b. For example, an equation such as equation (9) can be used, i.e.:

В настоящем документе приведены примеры Q (прототипной матрицы или матрицы повышающего микширования). Ниже блока 612b имеется декоррелятор 614b для декорреляции прототипного сигнала 613b для получения декоррелированного сигнала 615b (также указываемого с помощью ). Из декоррелированного сигнала 615b ковариационная матрица декоррелированного сигнала (615b) оценивается в блоке 616b. Посредством использования ковариационной матрицы декоррелированного сигнала в качестве эквивалента Cx микширования основных компонентов и Cr в качестве целевой ковариации в другом блоке оптимального микширования, остаточный компонент 336R сигнала 336 синтеза может получаться в блоке 618b обработки матриц микширования оптимальных остаточных компонентов. Блок 618b обработки матриц микширования оптимальных остаточных компонентов может реализовываться таким образом, что матрица MR микширования формируется таким образом, чтобы свести декоррелированный сигнал 615b и получить остаточный компонент 336R сигнала 336 синтеза (для конкретной полосы частот). В блоке 620b суммирования, остаточный компонент 336R суммируется с основным компонентом 336M (тракты 610b и 610b' в силу этого объединяются в блоке 620b суммирования).Examples of Q (prototype matrix or upmix matrix) are provided herein. Below block 612b there is a decorrelator 614b for decorrelating the prototype signal 613b to obtain a decorrelated signal 615b (also indicated by ). From the decorrelated signal 615b covariance matrix decorrelated signal (615b) is evaluated in block 616b. By using the covariance matrix decorrelated signal as equivalent to Cx of the principal components mixing and Cr as the target covariance in another optimal mixing block, the residual component 336R of the synthesis signal 336 may be obtained in the optimal residual component mixing matrix processing block 618b. The optimal residual component mixing matrix processing unit 618b may be implemented such that a mixing matrix MR is generated to mix the decorrelated signal 615b and obtain a residual component 336R of the synthesis signal 336 (for a particular frequency band). In adder 620b, the residual component 336R is added to the main component 336M (paths 610b and 610b' are therefore combined in adder 620b).

Фиг. 4c показывает пример ковариационного синтеза 388c, альтернативного ковариационному синтезу 388b по фиг. 4b. Блок 388c для ковариационного синтеза позволяет получать сигнал 336 синтеза в качестве сигнала Y, имеющего первый основной компонент 336M' и второй остаточный компонент 336R'. Хотя основной компонент 336M' может получаться в матрице микширования оптимального основного компонента 600c, например, посредством обнаружения матрицы MM микширования из ковариационных матриц Cx и CyR (либо другой информации 220 Cy) и без корреляторов, остаточный компонент 336R' может получаться другим способом. Сигнал 324 понижающего микширования может извлекаться в тракт 610c (тракт 610c может называться "вторым трактом", параллельным первому тракту 610c', включающему в себя блок 600c). Прототипная версия 613c сигнала 324 понижающего микширования может получаться в блоке 612c понижающего микширования (блоке повышающего микширования) посредством применения прототипной матрицы Q (например, матрицы, которая сводит с повышением микшированный с понижением сигнал 234 в версию 613c микшированного с понижением сигнала 234 в числе каналов, которое составляет число каналов синтеза). Например, может использоваться уравнение, такое как уравнение (9). В настоящем документе приведены примеры Q. Ниже блока 612c может быть предусмотрен декоррелятор 614c. В некоторых примерах, первый тракт не имеет декоррелятора, в то время как второй тракт имеет декоррелятор.Fig. 4c shows an example of covariance synthesis 388c alternative to covariance synthesis 388b of FIG. 4b. The covariance synthesis block 388c allows the synthesis signal 336 to be obtained as a Y signal having a first principal component 336M' and a second residual component 336R'. Although the principal component 336M' may be obtained in the optimal principal component mixing matrix 600c, for example, by discovering the mixing matrix MM from the covariance matrices C x and C yR (or other Cy information 220) and without correlators, the residual component 336R' may be obtained in another manner. The downmix signal 324 may be extracted to path 610c (path 610c may be referred to as a “second path” parallel to the first path 610c' including block 600c). A prototype version 613c of the downmix signal 324 may be obtained in a downmixer 612c (an upmixer) by using a prototype Q matrix (e.g., a matrix that mixes the upmixed signal 234 into a version 613c of the downmixed signal 234 in the number of channels which is the number of synthesis channels). For example, an equation such as equation (9) may be used. Examples of Q are provided herein. A decorrelator 614c may be provided below block 612c. In some examples, the first path does not have a decorrelator, while the second path has a decorrelator.

Декоррелятор 614c может обеспечивать декоррелированный сигнал 615c (также указываемый с помощью ). Тем не менее, в отличие от технологии, используемой в блоке 388b для ковариационного синтеза по фиг. 4b, в блоке 388c для ковариационного синтеза по фиг. 4c, ковариационная матрица декоррелированного сигнала 615c не оценивается из декоррелированного сигнала 615c (). Напротив, ковариационная матрица декоррелированного сигнала 615c получается (в блоке 616c) из:Decorrelator 614c may provide decorrelated signal 615c (also indicated by ). However, unlike the technology used in covariance synthesis block 388b of FIG. 4b, in the covariance synthesis block 388c of FIG. 4c, covariance matrix decorrelated signal 615c is not estimated from decorrelated signal 615c ( ). On the contrary, the covariance matrix decorrelated signal 615c is obtained (at block 616c) from:

- ковариационной матрицы Cx сигнала 324 понижающего микширования (например, оцененной в блоке 384 на фиг. 3c и/или с использованием уравнения (1)); и- the covariance matrix C x of the downmix signal 324 (eg, estimated in block 384 of FIG. 3c and/or using equation (1)); And

- прототипной матрицы Q.- prototype matrix Q.

Посредством использования ковариационной матрицы , оцененной из ковариационной матрицы Cx сигнала 324 понижающего микширования, в качестве эквивалента Cx матрицы микширования основных компонентов и Cr в качестве целевой ковариационной матрицы, остаточный компонент 336R' сигнала 336 синтеза получается в блоке 618c обработки матриц микширования оптимальных остаточных компонентов. Блок 618c обработки матриц микширования оптимальных остаточных компонентов может реализовываться таким образом, что матрица MR микширования остаточных компонентов формируется, с тем чтобы получать остаточный компонент 336R' посредством микширования декоррелированного сигнала 615c согласно матрице MR микширования остаточных компонентов. В блоке 620c суммирования, остаточный компонент 336R' суммируется с основным компонентом 336M', с тем чтобы получать сигнал 336 синтеза (тракты 610c, и 610c' в силу этого объединяются в блоке 620c суммирования).By using the covariance matrix , estimated from the covariance matrix Cx of the downmix signal 324, as equivalent to the principal component mixing matrix Cx and Cr as the target covariance matrix, the residual component 336R' of the synthesis signal 336 is obtained in the optimal residual component mixing matrix processing unit 618c. The optimal residual component mixing matrix processing unit 618c may be implemented such that a residual component mixing matrix MR is generated so as to obtain a residual component 336R' by mixing the decorrelated signal 615c according to the residual component mixing matrix MR. In summing block 620c, the residual component 336R' is summed with the main component 336M' to produce synthesis signal 336 (paths 610c and 610c' are therefore combined in summing block 620c).

В некоторых примерах, остаточный компонент 336R или 336R' не всегда или не обязательно вычисляется (и тракт 610b или 610c не всегда используется). В некоторых примерах, хотя для некоторых полос частот ковариационный синтез выполняется без вычисления остаточного сигнала 336R или 336R' для других полос частот одного и того же кадра, ковариационный синтез обрабатывается также с учетом остаточного сигнала 336R или 336R'. Фиг. 4d показывает пример блока 388d ковариационного синтеза, который может представлять собой конкретный случай блока 388b или 388c для ковариационного синтеза: здесь, модуль 630 выбора полос частот может выбирать или отменять выбор (способом, представленным посредством переключателя 631) вычисления остаточного сигнала 336R или 336R'. Например, тракт 610b или 610c может избирательно активироваться посредством модуля 630 выбора для некоторых полос частот и деактивироваться для других полос частот. В частности, тракт 610b или 610c может деактивироваться для полос частот по заданному пороговому значению (например, фиксированному пороговому значению), которое может составлять пороговое значение (например, максимальное), которое отличает между полосами частот, для которых человеческое ухо является нечувствительным к фазе (полосами частот с частотой выше порогового значения), и полосами частот, для которых человеческое ухо является фазочувствительным (полосами частот с частотой ниже порогового значения), так что остаточный компонент 336R или 336R' не вычисляется для полос частот с частотой ниже порогового значения и вычисляется для полос частот с частотой выше порогового значения.In some examples, the residual component 336R or 336R' is not always or necessarily calculated (and path 610b or 610c is not always used). In some examples, although for some frequency bands the covariance synthesis is performed without calculating the residual signal 336R or 336R' for other frequency bands in the same frame, the covariance synthesis is also processed taking into account the residual signal 336R or 336R'. Fig. 4d shows an example of a covariance synthesis block 388d, which may be a specific case of a covariance synthesis block 388b or 388c: here, the frequency band selector 630 may select or deselect (in a manner represented by switch 631) the calculation of the residual signal 336R or 336R'. For example, path 610b or 610c may be selectively activated by selector 630 for some frequency bands and disabled for other frequency bands. In particular, path 610b or 610c may be disabled for frequency bands at a predetermined threshold (eg, a fixed threshold), which may be a threshold (eg, maximum) that distinguishes between frequency bands for which the human ear is phase insensitive ( frequency bands above the threshold), and frequency bands for which the human ear is phase sensitive (frequency bands below the threshold), so that the residual component 336R or 336R' is not calculated for frequency bands below the threshold and is calculated for frequency bands with a frequency above the threshold value.

Пример по фиг. 4d также может получаться посредством подстановки блока 600b или 600c вместо блока 600a по фиг. 4a и подстановки замены блока 610b или 610c вместо блока 388b для ковариационного синтеза по фиг. 4b или блока 388c для ковариационного синтеза по фиг. 4c.Example according to FIG. 4d may also be obtained by substituting block 600b or 600c in place of block 600a of FIG. 4a and substituting block 610b or 610c for block 388b for covariance synthesis in FIG. 4b or the covariance synthesis block 388c of FIG. 4c.

Здесь приведены некоторые указания относительно того, как можно получить правило (матрицу) микширования в любом из блоков 338, 402 (или 404), 600a, 600b, 600c и т.д. Как пояснено выше, предусмотрено множество способов для получения матриц микширования, но некоторые из них здесь поясняются подробнее.Here is some guidance as to how the mixing rule (matrix) can be obtained in any of blocks 338, 402 (or 404), 600a, 600b, 600c, etc. As explained above, there are many methods for obtaining mixing matrices, but some of them are explained in more detail here.

В частности, сначала, следует обратиться к блоку 388b для ковариационного синтеза по фиг. 4b. В блоке 600c обработки матриц микширования оптимальных основных компонентов, матрица M микширования для основного компонента 336M сигнала 336 синтеза может получаться, например, из:Specifically, first reference is made to the covariance synthesis block 388b of FIG. 4b. In the optimal principal component mixing matrix processing unit 600c, the mixing matrix M for the principal component 336M of the synthesis signal 336 may be obtained, for example, from:

- ковариационной матрицы Cy исходного сигнала 212 (Cy может оцениваться с использованием по меньшей мере некоторых формул (6)-(8), поясненных выше, см., например, фиг. 8; она может иметь так называемую форму «целевой версии» CyR, например, оцененную с помощью формулы (8)); и- covariance matrix C y of the original signal 212 (C y can be estimated using at least some of the formulas (6)-(8) explained above, see, for example, Fig. 8; it can have the so-called “target version” form C yR , for example, estimated using formula (8)); And

- ковариационной матрицы Cx сигнала 246, 324 понижающего микширования (Cy может оцениваться, например, с использованием формулы (1)).- covariance matrix C x of the downmix signal 246, 324 (C y can be estimated, for example, using formula (1)).

Например, как предложено в [8], общепризнанным является разложение ковариационных матриц Cx и Cy, которые являются эрмитовыми и положительными полуопределенными, согласно следующей факторизации:For example, as proposed in [8], it is generally accepted to decompose the covariance matrices C x and C y , which are Hermitian and positive semidefinite, according to the following factorization:

Kx и Ky могут получаться, например, посредством применения разложения по сингулярным значениям (SVD) два раза из Cx и Cy. Например:Kx and Ky can be obtained, for example, by applying singular value decomposition (SVD) twice from C x and C y . For example:

- SVD в Cx может обеспечивать матрицу UCx сингулярных векторов (например, левых сингулярных векторов); и- SVD in C x can provide a matrix UC x of singular vectors (for example, left singular vectors); And

- диагональную матрицу SCx сингулярных значений;- diagonal matrix SC x singular values;

- так что Kx получается посредством умножения UCx на диагональную матрицу, имеющую в своих записях квадратные корни значений в соответствующих записях SCx.- so that Kx is obtained by multiplying UC x by a diagonal matrix having in its entries the square roots of the values in the corresponding SC x entries.

Кроме того, SVD в Cy может обеспечивать:Additionally, SVD in C y can provide:

- матрицу VCy сингулярных векторов (например, правых сингулярных векторов); и- matrix VC y of singular vectors (for example, right singular vectors); And

- диагональную матрицу SCy сингулярных значений,- diagonal matrix SC y of singular values,

- так что Ky получается посредством умножения UCy на диагональную матрицу, имеющую, в своих записях, квадратные корни значений в соответствующих записях SCy.- so that Ky is obtained by multiplying UC y by a diagonal matrix having, in its entries, the square roots of the values in the corresponding SC y entries.

После этого можно получать матрицу микширования основных компонентов, которая, при применении к сигналу 324 понижающего микширования, должна позволять получать основной компонент 336M сигнала 336 синтеза. Матрица микширования основных компонентов может получаться следующим образом:After this you can get the matrix a principal component mix that, when applied to the downmix signal 324, should produce a principal component 336M of the synthesis signal 336. Matrix mixing the main components can be obtained as follows:

Если Kx является необратимой матрицей, регуляризованная обратная матрица может получаться с помощью известных технологиях и заменяется вместо .If Kx is an irreversible matrix, the regularized inverse matrix can be obtained using known techniques and is replaced instead .

Параметр P, в общем, является свободным, но он может оптимизироваться. Чтобы достигать P, можно применять SVD к:The parameter P is generally free, but it can be optimized. To achieve P, one can apply SVD to:

Cx (ковариационной матрицей сигнала 324 понижающего микширования); иC x (covariance matrix of downmix signal 324); And

(ковариационной матрицей прототипного сигнала 613b). (covariance matrix of prototype signal 613b).

После того как SVD выполняются, можно получать P следующим образом:Once the SVDs are executed, P can be obtained as follows:

Λ является матрицей, имеющей столько строк, сколько составляет число каналов синтеза, и столько столбцов, сколько составляет число числа каналов понижающего микширования. Λ представляет собой идентификационные данные в первом квадратном блоке и заполняется нулями в оставшихся записях. Ниже поясняется то, как V и U получаются из Cx и , и U представляют собой матрицы сингулярных векторов, полученных из SVD:Λ is a matrix having as many rows as the number of synthesis channels and as many columns as the number of downmix channels. Λ represents the identification data in the first square block and is padded with zeros in the remaining entries. The following explains how V and U are obtained from C x And , and U are the singular vector matrices obtained from the SVD:

S является диагональной матрицей сингулярных значений, типично полученных через SVD. является диагональной матрицей, которая нормализует энергии в расчете на один канал прототипного сигнала (615b) в энергии сигнала синтеза y. Чтобы получать , сначала необходимо вычислять , т.е. ковариационную матрицу прототипного сигнала (614b). Затем, чтобы достигать из , диагональные значения нормализуются в соответствующие диагональные значения Cy, в силу этого обеспечивая . Пример заключается в том, что диагональные записи вычисляются как , где являются значениями диагональных записей Cy, и являются значениями диагональных записей .S is a diagonal singular value matrix, typically obtained through SVD. is a diagonal matrix that normalizes the energies per channel of the prototype signal (615b) in the synthesis signal energy y. To receive , first you need to calculate , i.e. covariance matrix of the prototype signal (614b). Then, to achieve from , diagonal values are normalized to the corresponding diagonal values C y , thereby providing . An example is that diagonal entries are calculated as , Where are the values of the diagonal entries C y , and are the values of the diagonal entries .

После того как получается, ковариационная матрица Cr остаточного компонента получается следующим образом:After it turns out that the covariance matrix Cr of the residual component is obtained as follows:

После получения Cr можно получить матрицу микширования для микширования декоррелированного сигнала 615b, чтобы получить остаточный сигнал 336R, причем в одном и том же оптимальном микшировании Cr имеет ту же роль, что и роль CyR в основном оптимальном микшировании, и ковариация декоррелированных прототипов выполняет роль ковариации Cx входных сигналов в основном оптимальном микшировании.After obtaining Cr, a mixing matrix can be obtained for mixing the decorrelated signal 615b to obtain the residual signal 336R, and in the same optimal mixing, Cr has the same role as the role of C yR in the main optimal mixing, and the covariance Decorrelated prototypes act as covariance C x of the input signals in the underlying optimal mixing.

Тем не менее, следует понимать, что, по сравнению с технологией по фиг. 4b, технология по фиг. 4c представляет некоторые преимущества. В некоторых примерах, технология по фиг. 4c является той же, что и технология по фиг. 4c по меньшей мере для вычисления основной матрицы и для формирования основного компонента сигнала синтеза. В отличие от этого, технология по фиг. 4c отличается от технологии по фиг. 4b при вычислении матрицы остаточного микширования и, говоря в общем, для формирования остаточного компонента сигнала синтеза. Теперь следует обратиться к фиг. 11 в связи с фиг. 4c для вычисления матрицы остаточного микширования. В примере по фиг. 4c, используется декоррелятор 614c в частотной области, который обеспечивает декорреляцию прототипного сигнала 613c, но сохраняет энергии непосредственно прототипного сигнала 613b.However, it should be understood that, compared to the technology of FIG. 4b, technology according to FIG. 4c presents some advantages. In some examples, the technology of FIG. 4c is the same as the technology of FIG. 4c at least for calculating the main matrix and for generating the main component of the synthesis signal. In contrast, the technology of FIG. 4c differs from the technology of FIG. 4b when calculating the residual mixing matrix and, generally speaking, to generate the residual component of the synthesis signal. Referring now to FIG. 11 in connection with FIG. 4c to calculate the residual mixing matrix. In the example of FIG. 4c, a frequency domain decorrelator 614c is used that decorrelates the prototype signal 613c but preserves the energies of the prototype signal 613b itself.

Кроме того, в примере по фиг. 4c предполагается (по меньшей мере, посредством аппроксимации), что декоррелированные каналы декоррелированного сигнала 615c являются взаимно некогерентными, и в силу этого, что все недиагональные элементы ковариационной матрицы декоррелированных сигналов равны нулю. При обоих предположениях, можно просто оценивать ковариацию декоррелированных прототипов из применения Q к Cx и применять только главную диагональ этой ковариации (т.е. энергии прототипных сигналов). Эта технология по фиг. 4c является более эффективной, чем оценка по примеру по фиг. 4b, из декоррелированного сигнала 615b, в которой необходимо выполнять то же самое агрегирование полос частот/интервалов, которое уже выполнено для Cx. Следовательно, в примере по фиг. 4c, можно просто применять матричное умножение уже агрегированного Cx. Следовательно, одна и та же матрица микширования вычисляется для всех полос частот одной и той же агрегированной группы полос частот.Moreover, in the example of FIG. 4c assumes (at least by approximation) that the decorrelated channels of decorrelated signal 615c are mutually incoherent, and as such, that all off-diagonal elements of the decorrelated signal covariance matrix are zero. Under both assumptions, one can simply estimate the covariance of the decorrelated prototypes from applying Q to C x and apply only the main diagonal of this covariance (i.e., the energy of the prototype signals). This technology according to FIG. 4c is more efficient than the example of FIG. 4b, from the decorrelated signal 615b, in which it is necessary to perform the same frequency/slot aggregation that is already performed on C x . Therefore, in the example of FIG. 4c, one can simply apply matrix multiplication of the already aggregated C x . Therefore, the same mixing matrix is calculated for all frequency bands of the same aggregate group of frequency bands.

Таким образом, ковариация 711 () декоррелированного сигнала может оцениваться, на 710, с использованием:Thus, the covariance is 711 ( ) of the decorrelated signal can be estimated, at 710, using:

в качестве главной диагонали матрицы со всеми недиагональными элементами, заданными равными нулю, которая используется в качестве ковариации входных сигналов. В примерах, в которых Cx сглаживается для выполнения синтеза основного компонента 336M' сигнала синтеза, может использоваться технология, согласно которой версия Cx, которая используется для вычисления Pdecorr, представляет собой несглаженную Cx.as the main diagonal of the matrix with all off-diagonal elements set to zero, which is used as the covariance input signals. In examples in which C x is smoothed to perform synthesis of the synthesis signal principal component 336M', a technique may be used whereby the version of C x that is used to calculate P decorr is the unsmoothed C x .

Теперь, прототипная матрица Qr должна использоваться. Тем не менее, следует отметить, что, для остаточного сигнала, Qr представляет собой единичную матрицу. Знание свойств (диагональной матрицы) и Qr (единичной матрицы) приводит к дополнительному упрощению при вычислении матрицы микширования (по меньшей мере одно SVD может не использоваться), см. следующую технологию и распечатку Matlab.Now, the prototype Qr matrix must be used. However, it should be noted that, for the residual signal, Qr is an identity matrix. Knowledge of properties (diagonal matrix) and Qr (identity matrix) leads to further simplification when calculating the mixing matrix (at least one SVD may not be used), see the following technology and Matlab printout.

Сначала, аналогично примеру по фиг. 4b, остаточная целевая ковариационная матрица Cx (эрмитова положительная полуопределенная) из входного сигнала 212 может разлагаться как . Матрица Kr может получаться через SVD (702): SVD 702, применяемое к Cr, формирует:First, similar to the example in FIG. 4b, the residual target covariance matrix C x (Hermitian positive semidefinite) from input signal 212 can be decomposed as . The Kr matrix can be obtained via SVD(702): SVD 702 applied to Cr produces:

- матрицу UCr сингулярных векторов (например, левых сингулярных векторов);- matrix UCr of singular vectors (for example, left singular vectors);

- диагональную матрицу SCr сингулярных значений;- diagonal matrix SCr of singular values;

- так что Kr получается (на 706) посредством умножения UCr на диагональную матрицу, имеющую, в своих записях, квадратные корни значений в соответствующих записях SCr (причем последняя получена на 704).- so that Kr is obtained (at 706) by multiplying UCr by a diagonal matrix having, in its entries, the square roots of the values in the corresponding SCr entries (the latter obtained at 704).

В этот момент, может быть теоретически возможным применять другое SVD, на этот раз к ковариации декоррелированных прототипов.At this point, it may be theoretically possible to apply another SVD, this time to the covariance decorrelated prototypes.

Тем не менее, в этом примере (фиг. 4c), чтобы уменьшать вычислительные усилия, выбран другой тракт. , оцененная из , представляет собой диагональную матрицу, и в силу этого SVD не требуется (SVD диагональной матрицы обеспечивает сингулярные значения в качестве сортированного вектора диагональных элементов, и левые и правые сингулярные вектора просто указывают индекс сортировки). Посредством вычисления (на 712) квадратного корня каждого значения в записях диагонали , получается диагональная матрица . Эта диагональная матрица является такой, что , с таким преимуществом, что SVD не требуется для получения . Из диагональной ковариации декоррелированных сигналов, вычисляется оцененная ковариационная матрица декоррелированного сигнала 615c. Но поскольку прототипная матрица Qr (т.е. матрица идентификационных данных), можно непосредственно использовать для формулирования в качестве , где являются значениями диагональных записей Cr, и являются значениями диагональных записей . представляет собой диагональную матрицу (полученную на 722), которая нормализует энергии в расчете на один канал декоррелированного сигнала (615b) для требуемых энергий сигнала синтеза y.However, in this example (Fig. 4c), a different path is chosen to reduce computational effort. , estimated from , is a diagonal matrix, and as such no SVD is required (the SVD of a diagonal matrix provides the singular values as a sorted vector of diagonal elements, and the left and right singular vectors simply indicate the sorting index). By calculating (at 712) the square root of each value in the diagonal entries , we get a diagonal matrix . This diagonal matrix is such that , with the advantage that SVD is not required to obtain . From diagonal covariance decorrelated signals, the estimated covariance matrix is calculated decorrelated signal 615c. But since the prototype matrix Qr (i.e. the identity data matrix), one can directly use to formulate as , Where are the values of the diagonal entries Cr, and are the values of the diagonal entries . is a diagonal matrix (obtained at 722) that normalizes the energies per channel of the decorrelated signal (615b) for the required synthesis signal energies y.

В этот момент, можно (на 734) умножать на (также результат 735 умножения 734 называется " "). Затем (736), Kr умножается на , чтобы получать (т.е. = ). Из , может выполняться SVD (738), с тем чтобы получать матрицу U левых сингулярных векторов и матрицу V правых сингулярных векторов. Посредством умножения (740) V и U*, получается матрица P (). В завершение (742), можно получать матрицу MR микширования для остаточного сигнала посредством применения:At this moment, you can multiply (by 734) on (also the result of 735 multiplied by 734 is called " "). Then (736), Kr is multiplied by to receive (those. = ). From , SVD (738) may be performed to obtain a left singular vector matrix U and a right singular vector matrix V. By multiplying (740) V and U*, the matrix P ( ). Finally (742), a mixing matrix MR for the residual signal can be obtained by applying:

, ,

- где (полученная на 745) может заменяться посредством регуляризованной инверсии. MR в силу этого может использоваться в блоке 618c для остаточного микширования.- Where (obtained at 745) can be replaced by regularized inversion. MR can therefore be used in block 618c for residual mixing.

Здесь приведён код Matlab для выполнения ковариационного синтеза, как пояснено выше. Следует отметить, что в этом коде звездочка (*) означает умножение, а апостроф (') означает эрмитову матрицу.Here is the Matlab code to perform covariance synthesis as explained above. It should be noted that in this code, the asterisk (*) means multiplication and the apostrophe (') means Hermitian matrix.

% Вычисление матрицы остаточного микширования% Calculate the residual mixing matrix

function[m]=ComputeMixingMatrixResidual(C_hat_y, Cr,reg_sx, reg_ghat)function[m]=ComputeMixingMatrixResidual(C_hat_y, Cr,reg_sx, reg_ghat)

EPS_=single(1e-15);% эпсилон, чтобы исключать деления на нольEPS_=single(1e-15);% epsilon to exclude divisions by zero

num_outputs=size(Cr,1);num_outputs=size(Cr,1);

% Разложение Cy% Cy Decomposition

[U_Cr, S_Cr]=svd(Cr);[U_Cr, S_Cr]=svd(Cr);

Kr=U_Cr*sqrt(S_Cr);Kr=U_Cr*sqrt(S_Cr);

% SVD диагональной матрицы представляет собой упорядоченные диагональные элементы,The %SVD of a diagonal matrix represents the ordered diagonal elements,

% можно пропускать упорядочение и получать Kx непосредственно из Cx % you can skip the ordering and get Kx directly from C x

K_hat_y=sqrt(diag(C_haty));K_hat_y=sqrt(diag(C_haty));

limit=max(K_hat_y)*reg_sx+EPS_;limit=max(K_hat_y)*reg_sx+EPS_;

S_hat_y_reg_diag=max(K_hat_y, limit);S_hat_y_reg_diag=max(K_hat_y, limit);

% Формулирование регуляризованной Kx% Formulation of regularized Kx

K_hat_y_reg_inverse=1./S_hat_y_reg_diag;K_hat_y_reg_inverse=1./S_hat_y_reg_diag;

% Формулирование матрицы G-шляпа нормализации% Formulation of the G-hat normalization matrix

% Q является единичной матрицей в случае остаточной/рассеянной части, так что:%Q is the identity matrix in the case of the residual/scattered part, so that:

% Q*Cx*Q'=Cx % Q*C x *Q'=C x

Cy_hat_diag=diag(C_hat_y);Cy_hat_diag=diag(C_hat_y);

limit=max(Cy_hat_diag)*reg_ghat+EPS_;limit=max(Cy_hat_diag)*reg_ghat+EPS_;

Cy_hat_diag=max(Cy_hat_diag, limit);Cy_hat_diag=max(Cy_hat_diag, limit);

G_hat=sqrt(diag(Cr)./Cy_hat_diag);G_hat=sqrt(diag(Cr)./Cy_hat_diag);

% Формулирование оптимальной P% Formulation of optimal P

% Kx, G_hat являются диагональными матрицами, Q является I, и т.д.% Kx, G_hat are diagonal matrices, Q is I, etc.

K_hat_y=K_hat_y.*G_hat;K_hat_y=K_hat_y.*G_hat;

for k=1:num_outputsfor k=1:num_outputs

Ky_dash(k,:)=Kr(k,:)*K_hat_y(k);Ky_dash(k,:)=Kr(k,:)*K_hat_y(k);

endend

[U,~,V]=svd(Ky_dash);[U,~,V]=svd(Ky_dash);

P=V*U';P=V*U';

% Формулирование M% Formulation M

M=Kr*P;M=Kr*P;

for k=1:num_outputsfor k=1:num_outputs

M(:,k)=M(:,k)*K_hat_y_reg_inverse(k);M(:,k)=M(:,k)*K_hat_y_reg_inverse(k);

endend

endend

Здесь приведено пояснение относительно ковариационного синтеза по фиг. 4b и 4c. В некоторых примерах, два способа синтеза могут рассматриваться для каждой полосы частот, для некоторых полос частот применяется полный синтез, включающий в себя остаточный тракт из фиг. 4b, для полос частот, типично выше определенной частоты, при которой человеческое ухо является нечувствительным к фазе, чтобы достигать требуемых энергий в канале, применяется энергетическая компенсация.An explanation is given here regarding the covariance synthesis of FIG. 4b and 4c. In some examples, two synthesis methods may be considered for each frequency band, with some frequency bands employing full synthesis including the residual path from FIG. 4b, for frequency bands typically above a certain frequency at which the human ear is phase insensitive, energy compensation is applied to achieve the required channel energies.

Таким образом, также в примере по фиг. 4b, для полос частот ниже определенной (фиксированной, известной декодеру) границы (порогового значения) полосы частот, полный синтез согласно фиг. 4b может выполняться (например, в случае фиг. 4d). В примере по фиг. 4b, ковариация декоррелированного сигнала 615b извлекается непосредственно из декоррелированного сигнала 615b. Напротив, в примере по фиг. 4c, используется декоррелятор 614c в частотной области, который обеспечивает декорреляцию прототипного сигнала 613c, но сохраняет энергии самого прототипного сигнала 613b.Thus, also in the example of FIG. 4b, for frequency bands below a certain (fixed, known to the decoder) frequency band limit (threshold value), full synthesis according to FIG. 4b may be executed (eg in the case of FIG. 4d). In the example of FIG. 4b, covariance decorrelated signal 615b is extracted directly from decorrelated signal 615b. In contrast, in the example of FIG. 4c, a frequency domain decorrelator 614c is used that decorrelates the prototype signal 613c but preserves the energies of the prototype signal 613b itself.

Дополнительные факторы:Additional factors:

--- В обоих примерах по фиг. 4b и в 4c: в первом тракте (610b', 610c'), матрица MM микширования формируется (в блоке 600b, 600c) посредством базирования на ковариации Cy исходного сигнала 212 и ковариации Cx сигнала 324 понижающего микширования;--- In both examples of FIG. 4b and at 4c: in the first path (610b', 610c'), a mixing matrix MM is generated (at block 600b, 600c) by basing it on the covariance C y of the original signal 212 and the covariance C x of the downmix signal 324;

--- В обоих примерах по фиг. 4b и в 4c: во втором тракте (610b, 610c), предусмотрен декоррелятор (614b, 614c), и формируется матрица MR микширования (в блоке 618b, 618c), которая должна учитывать ковариацию декоррелированного сигнала (616b, 616c); но--- In both examples of FIG. 4b and 4c: in the second path (610b, 610c), a decorrelator is provided (614b, 614c), and a mixing matrix MR is generated (at block 618b, 618c) that must account for covariance decorrelated signal (616b, 616c); But

-ooo В примере по фиг. 4b, ковариация декоррелированного сигнала (616b, 616c) вычисляется, интуитивно, с использованием декоррелированного сигнала (616b, 616c) и взвешивается в энергиях исходного канала y;-ooo In the example of FIG. 4b, covariance the decorrelated signal (616b, 616c) is calculated, intuitively, using the decorrelated signal (616b, 616c) and weighted in the energies of the original channel y;

-ooo В примере по фиг. 4c, ковариация декоррелированного сигнала (616b, 616c) вычисляется, парадоксальным образом, посредством его оценки из матрицы Cx и взвешивается в энергиях исходного канала y.-ooo In the example of FIG. 4c, the covariance of the decorrelated signal (616b, 616c) is calculated, paradoxically, by estimating it from the matrix C x and weighted by the energies of the original channel y.

Следует отметить, что ковариационная матрица (CyR) может представлять собой восстановленную целевую матрицу, поясненную выше (например, полученную из информации 220 канального уровня и корреляции, записанной во вспомогательную информацию 228 потока 248 битов), и в силу этого может считаться ассоциированной с ковариацией исходного сигнала 212. В любом случае, поскольку она должна использоваться для сигнала 336 синтеза, ковариационная матрица (CyR) также может рассматриваться считаться ковариацией, ассоциированной с сигналом синтеза. То же применимо к остаточной ковариационной матрице Cr, которая может пониматься как остаточная ковариационная матрица (Cr), ассоциированная с сигналом синтеза, и основная ковариационная матрица, которая может пониматься как основная ковариационная матрица, ассоциированная с сигналом синтеза.It should be noted that the covariance matrix (C yR ) may be the reconstructed target matrix explained above (eg, obtained from the link layer and correlation information 220 recorded in the auxiliary information 228 of the bit stream 248), and may therefore be considered associated with the covariance source signal 212. In any case, since it is to be used for synthesis signal 336, the covariance matrix (C yR ) can also be considered to be the covariance associated with the synthesis signal. The same applies to the residual covariance matrix Cr, which can be understood as the residual covariance matrix (Cr) associated with the synthesis signal, and the main covariance matrix, which can be understood as the main covariance matrix associated with the synthesis signal.

5. Преимущества5. Benefits

5.1. Уменьшенное использование декорреляции и оптимальное использование механизма синтеза5.1. Reduced use of decorrelation and optimal use of the synthesis engine

С учетом предложенной технологии, а также параметров, которые используются для обработки, и способа, которым эти параметры комбинируются с механизмом 334 синтеза, поясняется, что потребность в сильной декорреляции аудиосигнала (например, в его версии 328) уменьшается, а также что влияние декорреляции (например, артефактов или ухудшения пространственных свойств или ухудшения качества сигнала) уменьшается, если не исключается, даже в отсутствие модуля 330 декорреляции.Taking into account the proposed technology, as well as the parameters that are used for processing, and the way in which these parameters are combined with the synthesis engine 334, it is explained that the need for strong decorrelation of the audio signal (for example, in its version 328) is reduced, and also that the influence of decorrelation ( such as artifacts or degradation of spatial properties or degradation of signal quality) is reduced, if not eliminated, even in the absence of decorrelation module 330.

Более точно, как указано выше, часть 330 декорреляции обработки является факультативной. Фактически, механизм 334 синтеза принимает меры относительно декорреляции сигнала 328 посредством использования целевой ковариационной матрицы Cy (либо ее поднабор) и обеспечивает то, что каналы, которые составляют выходной сигнал 336, надлежащим образом декоррелируются между собой. Значения в ковариационной матрице Cy представляют энергетические взаимосвязи между различными каналами многоканального аудиосигнала именно потому, что они использованы в качестве цели для синтеза.More specifically, as stated above, the processing decorrelation portion 330 is optional. In effect, the synthesis engine 334 takes care of the decorrelation of the signal 328 by using the target covariance matrix C y (or a subset thereof) and ensures that the channels that make up the output signal 336 are properly decorrelated with each other. The values in the covariance matrix C y represent the energy relationships between the various channels of a multichannel audio signal precisely because they are used as the target for synthesis.

Кроме того, кодированные (например, передаваемые) параметры 228 (например, в их версии 314 или 318), комбинированные с механизмом 334 синтеза, могут обеспечивать высококачественный выходной сигнал 336, с учетом того факта, что механизм 334 синтеза использует целевую ковариационную матрицу Cy для воспроизведения выходного многоканального сигнала 336, пространственные характеристики и качество звука которого являются максимально близкими со входным сигналом 212.In addition, encoded (eg, transmitted) parameters 228 (eg, in their version 314 or 318) combined with the synthesis engine 334 can provide a high quality output signal 336, given the fact that the synthesis engine 334 uses the target covariance matrix C y to reproduce a multi-channel output signal 336 whose spatial characteristics and sound quality are as close as possible to the input signal 212.

5.2. Агностическая к понижающему микшированию обработка5.2. Downmix-agnostic processing

С учетом предложенной технологии, а также способа, которым вычисляются прототипные сигналы 328, и того, как они используются с механизмом 334 синтеза, здесь поясняется, что предложенный декодер является агностическим относительно способа, которым микшированные с понижением сигналы 212 вычисляются в кодере.In view of the proposed technology, as well as the manner in which the prototype signals 328 are computed and how they are used with the synthesis engine 334, it is explained here that the proposed decoder is agnostic with respect to the manner in which the downmixed signals 212 are computed in the encoder.

Это означает то, что предложенное изобретение в декодере 300 может выполняться независимо от способа, которым микшированные с понижением сигналы 246 вычисляются в кодере, и того, что выходное качество сигнала 336 (или 340) не основывается на конкретном способе понижающего микширования.This means that the proposed invention in the decoder 300 can be performed independently of the manner in which the downmixed signals 246 are calculated in the encoder, and that the output quality of the signal 336 (or 340) is not based on a particular downmixing method.

5.3. Масштабируемость параметров5.3. Scalability of parameters

С учетом предложенной технологии, а также способа, которым параметры (28, 314, 318) вычисляются, и способа, которым они используются с механизмом 334 синтеза, а также способа, которым они оцениваются на стороне декодера, поясняется то, что параметры, используемые для описания многоканальных аудиосигналов, являются масштабируемыми по числу и задаче.Taking into account the proposed technology, as well as the way in which the parameters (28, 314, 318) are calculated, and the way in which they are used with the synthesis engine 334, as well as the way in which they are evaluated on the decoder side, it is explained that the parameters used for descriptions of multi-channel audio signals are scalable in number and task.

Обычно кодируется (например, передается) только поднабор параметров (например, поднабор Cy и/или Cx, например, элементы), оцененный на стороне кодера: это позволяет уменьшать скорости передачи битов, используемые посредством обработки. Следовательно, количество параметров (например, элементов Cy и/или Cx), кодированных (например, передаваемых), может быть масштабируемым, с учетом того факта, что непередаваемые параметры восстанавливаются на стороне декодера. Это дает возможность масштабировать всю обработку с точки зрения выходного качества и скоростей передачи битов: чем больше передаваемых параметров, тем лучше выходное качество, и наоборот.Typically, only a subset of the parameters (eg, a subset of C y and/or C x , eg elements) evaluated at the encoder side are encoded (eg transmitted): this allows the bit rates used by the processing to be reduced. Therefore, the number of parameters (eg C y and/or C x elements) encoded (eg transmitted) can be scalable, taking into account the fact that non-transmitted parameters are recovered at the decoder side. This makes it possible to scale the entire processing in terms of output quality and bit rates: the more parameters transmitted, the better the output quality, and vice versa.

Кроме того, эти параметры (например, Cy и/или Cx либо их элементы) являются масштабируемыми по назначению, что означает, что они могут управляться посредством пользовательского ввода для изменения характеристик выходного многоканального сигнала. Кроме того, эти параметры могут вычисляться для каждой полосы частот и в силу этого обеспечивать возможность масштабируемого частотного разрешения.In addition, these parameters (eg, C y and/or C x or elements thereof) are scalable by purpose, meaning that they can be controlled by user input to change the characteristics of the output multi-channel signal. In addition, these parameters can be calculated for each frequency band and therefore provide scalable frequency resolution.

Например, может быть возможным решать подавлять один громкоговоритель в выходном сигнале (336, 340), и в силу этого, может быть возможным непосредственно манипулировать параметрами на стороне декодера, с тем чтобы достигать такого преобразования.For example, it may be possible to decide to suppress one speaker in the output signal (336, 340), and because of this, it may be possible to directly manipulate parameters on the decoder side in order to achieve such a conversion.

5.4. Гибкость выходной конфигурации5.4. Output configuration flexibility

С учетом предложенной технологии, а также используемого механизма 334 синтеза и гибкости параметров (например, Cy и/или Cx либо ее элементов), здесь поясняется то, что предложенное изобретение обеспечивает возможность большого спектра возможностей рендеринга относительно выходной конфигурации.Given the proposed technology, as well as the synthesis engine 334 used and the flexibility of the parameters (eg, C y and/or C x or elements thereof), it is explained here that the proposed invention allows for a wide range of rendering capabilities relative to the output configuration.

Более точно, выходная конфигурация не должна обязательно быть одинаковой с входной конфигурацией. Можно манипулировать восстановленной целевой ковариационной матрицей, которая подается в механизм синтеза, для формирования выходного сигнала в конфигурации громкоговорителей, которая больше или меньше либо просто имеет геометрию, отличную от исходной геометрии. Это возможно в силу параметров, которые передаются, а также поскольку предложенная система является агностической относительно микшированного с понижением сигнала (см. также 5.2).More precisely, the output configuration need not be the same as the input configuration. The reconstructed target covariance matrix that is fed to the synthesis engine can be manipulated to generate an output signal in a speaker configuration that is larger, smaller, or simply has a different geometry than the original geometry. This is possible due to the parameters that are transmitted and also because the proposed system is agnostic with respect to the downmixed signal (see also 5.2).

По этим причинам поясняется, что предложенное изобретение является гибким с точки зрения выходной конфигурации громкоговорителей.For these reasons, it is explained that the present invention is flexible in terms of speaker output configuration.

5. Некоторые примеры прототипных матриц5. Some examples of prototype matrices

Ниже приводятся таблицы уже для 5.1, но без учета LFE, поскольку LFE также включено в обработку (только с одним ICC для взаимосвязи LFE/C и ICLD для LFE, отправленного только в наименьшей полосе частот параметров, и заданного равным 1 и нулю, соответственно, для всех других полос частот в синтезе на стороне декодера). Именование и порядки каналов соответствуют CICP, содержащимся в ISO/IEC 23091-3 "Information technology - Coding independent code-points - Part 3: Audio", Q всегда используется как в качестве прототипной матрицы в декодере, так и в качестве матрицы понижающего микширования в кодере.Below are the tables already for 5.1, but excluding LFE, since LFE is also included in the processing (with only one ICC for the LFE/C relationship and ICLD for LFE sent only in the smallest parameter bandwidth, and set to 1 and zero, respectively, for all other frequency bands in decoder-side synthesis). The channel naming and orders are in accordance with the CICP contained in ISO/IEC 23091-3 "Information technology - Coding independent code-points - Part 3: Audio", Q is always used both as a prototype matrix in the decoder and as a downmix matrix in coder.

5.1 (CICP6). α5.1 (CICP6). α ii должны использоваться для вычисления ICLD. should be used to calculate ICLD.

7.1. (CICP12)7.1. (CICP12)

5.1+4. (CICP16)5.1+4. (CICP16)

7.1+4. (CICP19)7.1+4. (CICP19)

6. Способы6. Methods

Хотя вышеприведенные технологии главным образом пояснены в качестве компонентов или функциональных устройств, изобретение также может реализовываться как способы. Блоки и элементы, поясненные выше, также могут пониматься как этапы и/или фазы способов.Although the above technologies are mainly explained as components or functional devices, the invention can also be implemented as methods. The blocks and elements explained above can also be understood as steps and/or phases of methods.

Например, предусмотрен способ декодирования для формирования сигнала синтеза из сигнала понижающего микширования, причем сигнал синтеза имеет некоторое число каналов синтеза, причем способ содержит:For example, a decoding method is provided for generating a synthesis signal from a downmix signal, the synthesis signal having a number of synthesis channels, the method comprising:

- прием сигнала понижающего микширования (246, x), причем сигнал (246, x) понижающего микширования имеет некоторое число каналов понижающего микширования и вспомогательную информацию (228), причем вспомогательная информация (228) включает в себя:- receiving a downmix signal (246, x), wherein the downmix signal (246, x) has a number of downmix channels and auxiliary information (228), wherein the auxiliary information (228) includes:

- информацию (220) канального уровня и корреляции исходного сигнала (212, y), причем исходный сигнал (212, y) имеет некоторое число исходных каналов;- information (220) of the link level and correlation of the original signal (212, y), and the original signal (212, y) has a certain number of original channels;

- формирование сигнала синтеза с использованием информации (220) канального уровня и корреляции исходного сигнала (212, y) и ковариационной информации (Cx), ассоциированной с сигналом (246, x).- generating a synthesis signal using channel level information (220) and correlation of the original signal (212, y) and covariance information (C x ) associated with the signal (246, x).

Способ декодирования может содержать по меньшей мере один из следующих этапов:The decoding method may comprise at least one of the following steps:

- вычисление прототипного сигнала из сигнала (246, x) понижающего микширования, причем прототипный сигнал имеет некоторое число каналов синтеза;- calculating a prototype signal from the downmix signal (246, x), wherein the prototype signal has a certain number of synthesis channels;

- вычисление правила микширования с использованием информации канального уровня и корреляции исходного сигнала (212, y) и ковариационной информации, ассоциированной с сигналом (246, x) понижающего микширования; и- calculating a mixing rule using link layer information and correlation of the original signal (212, y) and covariance information associated with the downmix signal (246, x); And

- формирование сигнала синтеза с использованием прототипного сигнала и правила микширования.- generation of a synthesis signal using a prototype signal and mixing rules.

Также предусмотрен способ декодирования для формирования сигнала (336) синтеза из сигнала (324, x) понижающего микширования, имеющего некоторое число каналов понижающего микширования, причем сигнал (336) синтеза имеет некоторое число каналов синтеза, причем сигнал (324, x) понижающего микширования представляет собой микшированную с понижением версию исходного сигнала (212), имеющего некоторое число исходных каналов, при этом способ содержит следующие фазы:A decoding method is also provided for generating a synthesis signal (336) from a downmix signal (324, x) having a number of downmix channels, wherein the synthesis signal (336) has a number of synthesis channels, wherein the downmix signal (324, x) represents is a downmixed version of the original signal (212) having a number of original channels, the method comprising the following phases:

- первую фазу (610c'), включающую в себя:- the first phase (610c'), including:

- синтез первого компонента (336M') сигнала синтеза согласно первой матрице (MM) микширования, вычисленной из:- synthesis of the first component (336M') of the synthesis signal according to the first mixing matrix (MM) calculated from:

- ковариационной матрицы (CyR), ассоциированной с сигналом синтеза (например, восстановленной целевой версией ковариации исходного сигнала); и- covariance matrix (C yR ) associated with the synthesis signal (for example, the reconstructed target version of the covariance of the original signal); And

- ковариационной матрицы (Cx), ассоциированной с сигналом (324) понижающего микширования.- a covariance matrix (C x ) associated with the downmix signal (324).

- вторую фазу (610c) для синтеза второго компонента (336R') сигнала синтеза, при этом второй компонент (336R') представляет собой остаточный компонент, причем вторая фаза (610c) включает в себя:- a second phase (610c) for synthesizing a second component (336R') of the synthesis signal, wherein the second component (336R') is a residual component, wherein the second phase (610c) includes:

- этап (612c) обработки прототипных сигналов, сводящий с повышением сигнал (324) понижающего микширования из упомянутого числа каналов понижающего микширования в упомянутое число каналов синтеза;- a prototype signal processing step (612c) upmixing a downmix signal (324) from said number of downmix channels into said number of synthesis channels;

- этап (614c) декорреляции, декоррелирующий микшированный с повышением прототипный сигнал (613c);- a decorrelation stage (614c), decorrelating the upmixed prototype signal (613c);

- этап (618c) обработки вторых матриц микширования, синтезирующий второй компонент (336R') сигнала синтеза согласно второй матрице (MR) микширования из декоррелированной версии (615c) сигнала (324) понижающего микширования, причем вторая матрица (MR) микширования представляет собой матрицу остаточного микширования,- a second mixing matrix processing step (618c) synthesizing a second component (336R') of the synthesis signal according to a second mixing matrix (MR) from a decorrelated version (615c) of the downmixing signal (324), wherein the second mixing matrix (MR) is a residual matrix mixing,

- при этом способ вычисляет вторую матрицу (MR) микширования из:- wherein the method calculates the second mixing matrix (MR) from:

- остаточной ковариационной матрицы (Cr), обеспечиваемая этапом (600c) обработки первых матриц микширования; и- residual covariance matrix (Cr) provided by the first mixing matrix processing step (600c); And

- оценки ковариационной матрицы () декоррелированных прототипных сигналов, полученной из ковариационной матрицы (Cx), ассоциированной с сигналом (324) понижающего микширования,- estimates of the covariance matrix ( ) decorrelated prototype signals obtained from the covariance matrix (C x ) associated with the downmix signal (324),

- при этом способ дополнительно содержит этап (620c) суммирования, суммирующий первый компонент (336M') сигнала синтеза со вторым компонентом (336R') сигнала синтеза, за счет этого получая сигнал (336) синтеза.- wherein the method further comprises a summing step (620c) summing the first synthesis signal component (336M') with the second synthesis signal component (336R'), thereby obtaining a synthesis signal (336).

Кроме того, предусмотрен способ кодирования для формирования сигнала (246, x) понижающего микширования из исходного сигнала (212, y), причем исходный сигнал (212, y) имеет некоторое число исходных каналов, причем сигнал (246, x) понижающего микширования имеет некоторое число каналов понижающего микширования, при этом способ содержит:In addition, an encoding method is provided for generating a downmix signal (246, x) from a source signal (212, y), wherein the source signal (212, y) has a number of source channels, and wherein the downmix signal (246, x) has a number of number of downmix channels, wherein the method contains:

- оценку (218) информации (220) канального уровня и корреляции исходного сигнала (212, y),- assessment (218) of channel level information (220) and correlation of the original signal (212, y),

- кодирование (226) сигнала (246, x) понижающего микширования в поток (248) битов, так что сигнал (246, x) понижающего микширования кодируется в потоке (248) битов таким образом, что она имеет вспомогательную информацию (228), включающую в себя информацию (220) канального уровня и корреляции исходного сигнала (12, y).- encoding (226) the downmix signal (246, x) into a bitstream (248) such that the downmix signal (246, x) is encoded into the bitstream (248) such that it has auxiliary information (228) including includes information (220) of the channel level and correlation of the original signal (12, y).

Эти способы могут реализовываться в любом из кодеров и декодера, поясненных выше.These methods may be implemented in any of the encoders and decoders explained above.

7. Блоки хранения7. Storage blocks

Кроме того, изобретение может быть реализовано в постоянном блоке хранения, сохраняющем инструкции, которые при выполнении процессором предписывают процессору осуществлять способ, описанный выше.Moreover, the invention may be implemented in a persistent storage unit storing instructions that, when executed by a processor, cause the processor to carry out the method described above.

Кроме того, изобретение может быть реализовано в постоянном модуле хранения, сохраняющем инструкции, которые при выполнении процессором предписывают процессору управлять по меньшей мере одной из функций кодера или декодера.Additionally, the invention may be implemented in a persistent storage module storing instructions that, when executed by a processor, cause the processor to control at least one of the encoder or decoder functions.

Модуль хранения, например, может составлять часть кодера 200 или декодера 300.The storage module, for example, may be part of an encoder 200 or a decoder 300.

8. Другие аспекты8. Other aspects

Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогичным образом, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут выполняться посредством (или с использованием) аппаратного устройства, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых аспектах, некоторые из одного или более самых важных этапов способа могут выполняться посредством этого устройства.Although certain aspects are described in the context of an apparatus, it will be appreciated that these aspects also represent a description of the corresponding method, wherein the block or apparatus corresponds to a method step or a feature of a method step. Likewise, aspects described in the context of a method step also provide a description of the corresponding block or element, or feature of the corresponding device. Some or all of the steps of the method may be performed by (or using) a hardware device, such as, for example, a microprocessor, a programmable computer, or an electronic circuit. In some aspects, some of one or more of the most important steps of the method can be performed by this device.

В зависимости от определенных требований к реализации, аспекты изобретения могут реализовываться в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронночитаемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ. Следовательно, цифровой носитель хранения данных может быть машиночитаемым.Depending on certain implementation requirements, aspects of the invention may be implemented in hardware or software. An implementation may be performed using a digital storage medium, such as a floppy disk, DVD, CD, ROM, PROM, EPROM, EEPROM, or flash memory, having stored electronically readable control signals that interact (or allow interaction) with a programmable computer system in such a way that the appropriate method is carried out. Therefore, the digital storage medium may be machine readable.

Некоторые аспекты согласно изобретению содержат носитель данных, имеющий считываемые электронными средствами управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.Some aspects of the invention comprise a storage medium having electronically readable control signals that are capable of interacting with a programmable computer system in a manner that implements one of the methods described herein.

В общем, аспекты настоящего изобретения могут быть реализованы в виде компьютерного программного продукта с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт выполняется на компьютере. Программный код, например, может сохраняться на машиночитаемом носителе.In general, aspects of the present invention may be implemented as a computer program product with program code, wherein the program code is configured to implement one of the methods where the computer program product is executed on a computer. The program code, for example, may be stored on a computer-readable medium.

Другие аспекты содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.Other aspects comprise a computer program for implementing one of the methods described herein stored on a computer-readable medium.

Другими словами, аспект изобретаемого способа в силу этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.In other words, an aspect of the inventive method is therefore a computer program having program code for carrying out one of the methods described herein when the computer program runs on a computer.

Следовательно, дополнительный аспект изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель хранения данных или носитель с записанными данными типично является материальным и/или энергонезависимым.Therefore, an additional aspect of the inventive methods is a storage medium (digital storage medium or computer readable medium) containing a recorded computer program for implementing one of the methods described herein. The storage medium, digital storage medium, or recorded data medium is typically tangible and/or non-volatile.

Следовательно, дополнительный аспект изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.Therefore, an additional aspect of the inventive method is a data stream or signal sequence representing a computer program for implementing one of the methods described herein. The data stream or signal sequence, for example, may be configured to be transmitted over a data connection, such as the Internet.

Дополнительный аспект содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществления одного из способов, описанных в данном документе.An additional aspect comprises processing means, such as a computer or programmable logic device, configured to implement one of the methods described herein.

Дополнительный аспект содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.An additional aspect comprises a computer having a computer program installed for performing one of the methods described herein.

Дополнительный аспект согласно изобретению содержит устройство или систему, выполненные с возможностью передачи (например, электронными или оптическими средствами) в приемное устройство компьютерной программы для осуществления одного из способов, описанных в данном документе. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.A further aspect of the invention comprises a device or system configured to transmit (eg, by electronic or optical means) to a receiving device a computer program for performing one of the methods described herein. The receiving device, for example, may be a computer, mobile device, storage device, or the like. The device or system, for example, may include a file server for transmitting a computer program to a receiving device.

В некоторых аспектах для выполнения части или всех из функциональностей способов, описанных в данном документе, может использоваться программируемое логическое устройство (например, программируемая пользователем вентильная матрица). В некоторых аспектах программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для осуществления одного из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного устройства.In some aspects, a programmable logic device (eg, a field programmable gate array) may be used to perform some or all of the functionality of the methods described herein. In some aspects, a field programmable gate array may interface with a microprocessor to implement one of the methods described herein. In general, the methods are preferably implemented by any hardware device.

Устройство, описанное в данном документе, может быть реализовано с использованием аппаратного устройства либо с использованием компьютера, либо с использованием комбинации аппаратного устройства и компьютера.The apparatus described herein may be implemented using a hardware device, either using a computer, or using a combination of a hardware device and a computer.

Способы, описанные в данном документе, могут осуществляться с использованием аппаратного устройства либо с использованием компьютера, либо с использованием комбинации аппаратного устройства и компьютера.The methods described herein may be performed using a hardware device, or using a computer, or using a combination of a hardware device and a computer.

Вышеописанные аспекты являются лишь иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что для специалистам в данной области техники должны быть очевидны модификации и изменения конфигураций и подробностей, описанных в данном документе. Следовательно, подразумевается ограничение лишь объемом нижеприведенной формулы изобретения, а не конкретными подробностями, представленными в качестве описания и пояснения аспектов в данном документе.The above-described aspects are merely illustrative of the principles of the present invention. It should be understood that modifications and changes to the configurations and details described herein will be apparent to those skilled in the art. Therefore, limitation is intended only by the scope of the following claims and not by the specific details provided by way of description and explanation of aspects herein.

9. Библиография и источники9. Bibliography and sources

[1] J. Herre, K. Kjörling, J. Breebart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Rödén, W. Oomen, K. Linzmeier и K. S. Chong, "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", Audio English Society, издание 56, номер 11, стр. 932-955, 2008 год. [1] J. Herre, K. Kjörling, J. Breebart, C. Faller, S. Disch, H. Purnhagen, J. Koppens, J. Hilpert, J. Rödén, W. Oomen, K. Linzmeier and K. S. Chong, "MPEG Surround - The ISO/MPEG Standard for Efficient and Compatible Multichannel Audio Coding", Audio English Society, Vol. 56, No. 11, pp. 932-955, 2008.

[2] V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", Audio English Society, издание 55, номер 6, стр. 503-516, 2007 год. [2] V. Pulkki, "Spatial Sound Reproduction with Directional Audio Coding", Audio English Society, Vol. 55, No. 6, pp. 503-516, 2007.

[3] C. Faller и F. Baumgarte, "Binaural Cue Coding - Part II: Schemes and Applications", IEEE Transactions on Speech and Audio Processing, издание 11, номер 6, стр. 520-531, 2003 год.[3] C. Faller and F. Baumgarte, “Binaural Cue Coding - Part II: Schemes and Applications,” IEEE Transactions on Speech and Audio Processing, Vol. 11, No. 6, pp. 520-531, 2003.

[4] O. Hellmuth, H. Purnhagen, J. Koppens, J. Herre, J. Engdegård, J. Hilpert, L. Villemoes, L. Terentiv, C. Falch, A. Hölzer, M. L. Valero, B. Resch, H. Mundt и H.-O. Oh, "MPEG Spatial Audio Object Coding - The ISO/MPEG Standard for Efficient Coding of Interactive Audio Scenes", in AES, Сан-Франциско, 2010 год. [4] O. Hellmuth, H. Purnhagen, J. Koppens, J. Herre, J. Engdegård, J. Hilpert, L. Villemoes, L. Terentiv, C. Falch, A. Hölzer, M. L. Valero, B. Resch, H. Mundt and H.-O. Oh, "MPEG Spatial Audio Object Coding - The ISO/MPEG Standard for Efficient Coding of Interactive Audio Scenes", in AES, San Francisco, 2010.

[5] L. Mikko-Ville и V. Pulkki, "Converting 5.1. Audio Recordings to B-Format for Directional Audio Coding Reproduction", in ICASSP, Прага, 2011 год. [5] L. Mikko-Ville and V. Pulkki, "Converting 5.1. Audio Recordings to B-Format for Directional Audio Coding Reproduction", in ICASSP, Prague, 2011.

[6] D. A. Huffman, "A Method for the Construction of Minimum-Redundancy Codes", Proceedings of the IRE, издание 40, номер 9, стр. 1098-1101, 1952 год.[6] D. A. Huffman, “A Method for the Construction of Minimum-Redundancy Codes,” Proceedings of the IRE, Vol. 40, No. 9, pp. 1098-1101, 1952.

[7] A. Karapetyan, F. Fleischmann и J. Plogsties, "Active Multichannel Audio Downmix", in 145th Audio Engineering Society, Нью-Йорк, 2018 год. [7] A. Karapetyan, F. Fleischmann and J. Plogsties, “Active Multichannel Audio Downmix,” in 145th Audio Engineering Society, New York, 2018.

[8] J. Vilkamo, T. Bäckström и A. Kuntz, "Optimized Covariance Domain Framework for Time-Frequency Processing of Spatial Audio", Journal of the Audio Engineering Society, издание 61, номер 6, стр. 403-411, 2013 год.[8] J. Vilkamo, T. Bäckström and A. Kuntz, "Optimized Covariance Domain Framework for Time-Frequency Processing of Spatial Audio", Journal of the Audio Engineering Society, Vol. 61, No. 6, pp. 403-411, 2013 year.

Claims (131)

1. Устройство (300) синтеза аудиоданных для формирования сигнала (336, 340, yR) синтеза из сигнала (246, x) понижающего микширования, причем сигнал (336, 340, yR) синтеза имеет множество каналов синтеза, причем устройство (300) синтеза аудиоданных содержит:1. An audio data synthesis device (300) for generating a synthesis signal (336, 340, yR) from a downmix signal (246, x), wherein the synthesis signal (336, 340, yR) has a plurality of synthesis channels, wherein the synthesis device (300) audio data contains: - входной интерфейс (312), выполненный с возможностью приема сигнала понижающего микширования (246, x), причем сигнал (246, x) понижающего микширования имеет множество каналов понижающего микширования и вспомогательную информацию (228), причем вспомогательная информация (228) включает в себя информацию (314, ξ, χ) канального уровня и корреляции исходного сигнала (212, y), причем исходный сигнал (212, y) имеет множество исходных каналов; и- an input interface (312) configured to receive a downmix signal (246, x), wherein the downmix signal (246, x) has a plurality of downmix channels and auxiliary information (228), wherein the auxiliary information (228) includes link layer and correlation information (314, ξ, χ) of the original signal (212, y), wherein the original signal (212, y) has a plurality of original channels; And - процессор (404) синтеза, выполненный с возможностью формирования сигнала (336, 340, yR) синтеза согласно по меньшей мере одному правилу микширования в форме матрицы с использованием:- a synthesis processor (404), configured to generate a synthesis signal (336, 340, yR) according to at least one mixing rule in the form of a matrix using: - информации (220, 314, ξ, χ) канального уровня и корреляции исходного сигнала (212, y); и- information (220, 314, ξ, χ) of the channel level and correlation of the original signal (212, y); And - ковариационной информации (Cx) сигнала (324, 246, x) понижающего микширования,- covariance information (C x ) of the downmix signal (324, 246, x), причём устройство (300) синтеза аудиоданных выполнено с возможностью восстановления (386) целевой версии (CyR) ковариационной информации (Cy) исходного сигнала,wherein the audio data synthesis device (300) is configured to restore (386) the target version (C yR ) of the covariance information (Cy) of the source signal, причём устройство (300) синтеза аудиоданных выполнено с возможностью восстановления (386) целевой версии (CyR) ковариационной информации (Cy) на основании оцененной версии () исходной ковариационной информации (Cy), при этом оцененная версия () исходной ковариационной информации (Cy) сообщается в упомянутое число каналов синтеза,wherein the audio data synthesis device (300) is configured to restore (386) the target version (C yR ) of the covariance information (Cy) based on the estimated version ( ) of the original covariance information (Cy), with the estimated version ( ) the original covariance information (Cy) is reported to the mentioned number of synthesis channels, причём устройство (300) синтеза аудиоданных выполнено с возможностью получения оцененной версии () исходной ковариационной информации из ковариационной информации (Cx) сигнала (324, 246, x) понижающего микширования, причём устройство (300) синтеза аудиоданных выполнено с возможностью получения оцененной версии () исходной ковариационной информации (220) посредством применения к ковариационной информации (Cx) сигнала (324, 246, x) понижающего микширования правила (Q) оценки, которое представляет собой прототипное правило для вычисления прототипного сигнала (326) или ассоциировано с ним.wherein the audio data synthesis device (300) is configured to obtain an evaluated version ( ) of the original covariance information from the covariance information (Cx) of the downmix signal (324, 246, x), wherein the audio data synthesis device (300) is configured to obtain an estimated version of ( ) of the original covariance information (220) by applying to the covariance information (C x ) the downmixing signal (324, 246, x) an estimation rule (Q) that is or associated with a prototype rule for calculating the prototype signal (326). 2. Устройство (300) синтеза аудиоданных по п. 1, содержащее:2. Audio data synthesis device (300) according to claim 1, containing: - модуль (326) вычисления прототипных сигналов, выполненный с возможностью вычисления прототипного сигнала (328) из сигнала (324, 246, x) понижающего микширования, причем прототипный сигнал (328) имеет упомянутое число каналов синтеза;- a prototype signal calculation module (326), configured to calculate a prototype signal (328) from a downmix signal (324, 246, x), wherein the prototype signal (328) has said number of synthesis channels; - модуль (402) вычисления правил микширования, выполненный с возможностью вычисления по меньшей мере одного правила (403) микширования с использованием:- a mixing rule calculation module (402), configured to calculate at least one mixing rule (403) using: - информации (314, ξ, 0) канального уровня и корреляции исходного сигнала (212, y); и- information (314, ξ, 0) of the channel level and correlation of the original signal (212, y); And - ковариационной информации (Cx) сигнала (324, 246, x) понижающего микширования;- covariance information (C x ) of the downmix signal (324, 246, x); - при этом процессор (404) синтеза выполнен с возможностью формирования сигнала (336, 340, yR) синтеза с использованием прототипного сигнала (328) и упомянутого по меньшей мере одного правила (403) микширования.- wherein the synthesis processor (404) is configured to generate a synthesis signal (336, 340, yR) using the prototype signal (328) and the at least one mixing rule (403). 3. Устройство синтеза аудиоданных по любому из предшествующих пунктов, выполненное с возможностью восстановления целевой версии (CyR) ковариационной информации (Cy), адаптированной к числу каналов сигнала (336, 340, yR) синтеза.3. An audio data synthesis device according to any of the preceding paragraphs, configured to restore the target version (C yR ) of the covariance information (Cy) adapted to the number of signal channels (336, 340, yR) of the synthesis. 4. Устройство синтеза аудиоданных по п. 3, выполненное с возможностью восстановления целевой версии (CyR) ковариационной информации (Cy), адаптированной к числу каналов сигнала (336, 340, yR) синтеза, посредством назначения групп исходных каналов одиночным каналам синтеза, или наоборот, таким образом, что восстановленная целевая версия ковариационной информации (CyR) сообщается в упомянутое число каналов сигнала (336, 340, yR) синтеза.4. The audio data synthesis device according to claim 3, configured to restore a target version (C yR ) of covariance information (Cy) adapted to the number of synthesis signal channels (336, 340, yR) by assigning groups of source channels to single synthesis channels, or conversely, such that the reconstructed target version of the covariance information (C yR ) is reported to said number of signal channels (336, 340, yR) of the synthesis. 5. Устройство синтеза аудиоданных по п. 4, выполненное с возможностью восстановления целевой версии (CyR) ковариационной информации (Cy), адаптированной к числу каналов сигнала (336, 340, yR) синтеза, посредством формирования целевой версии (CyR) ковариационной информации для упомянутого числа исходных каналов и затем применения правила понижающего микширования или правила повышающего микширования и энергетической компенсации для достижения целевой версии (CyR) ковариации для каналов синтеза.5. The audio data synthesis device according to claim 4, configured to restore the target version (C yR ) of the covariance information (Cy), adapted to the number of signal channels (336, 340, yR) of the synthesis, by generating the target version (C yR ) of the covariance information for said number of source channels and then applying a downmixing rule or an upmixing rule and energy compensation to achieve the target version (C yR ) of the covariance for the synthesis channels. 6. Устройство синтеза аудиоданных по любому из предшествующих пунктов, выполненное с возможностью нормализации по меньшей мере для одной пары каналов оцененной версии () исходной ковариационной информации (Cy) в квадратные корни уровней каналов пары каналов.6. An audio data synthesis device according to any of the preceding paragraphs, configured to normalize for at least one pair of channels of the estimated version ( ) of the original covariance information (Cy) into the square roots of the channel levels of a pair of channels. 7. Устройство синтеза аудиоданных по п. 6, выполненное с возможностью интерпретации матрицы с нормализованной оцененной версией () исходной ковариационной информации (Cy).7. An audio data synthesis device according to claim 6, configured to interpret a matrix with a normalized estimated version ( ) initial covariance information (Cy). 8. Устройство синтеза аудиоданных по п. 7, выполненное с возможностью заполнения матрицы посредством вставки записей (908), полученных во вспомогательной информации (228) потока (248) битов.8. The audio data synthesis device of claim 7, configured to populate the matrix by inserting entries (908) obtained in the auxiliary information (228) of the bit stream (248). 9. Устройство синтеза аудиоданных по любому из пп. 6-8, выполненное с возможностью денормализации матрицы посредством масштабирования оцененной версии () исходной ковариационной информации (Cy) посредством квадратного корня уровней каналов, образующих пару каналов.9. Audio data synthesis device according to any one of claims. 6-8, configured to denormalize the matrix by scaling the estimated version ( ) of the original covariance information (Cy) by the square root of the channel levels forming a channel pair. 10. Устройство синтеза аудиоданных по любому из предшествующих пунктов, выполненное с возможностью извлечения из вспомогательной информации (228) сигнала (324, 246, x) понижающего микширования информации (ξ, χ) канального уровня и корреляции, причем устройство синтеза аудиоданных дополнительно выполнено с возможностью восстановления целевой версии (CyR) ковариационной информации (Cy) посредством оцененной версии () исходной информации (220) канального уровня и корреляции из:10. An audio data synthesis device according to any one of the preceding paragraphs, configured to extract from the auxiliary information (228) a signal (324, 246, x) downmixing the link layer information (ξ, χ) and correlation, and the audio data synthesis device is further configured to recovering the target version (C yR ) of the covariance information (Cy) by means of the estimated version ( ) initial information (220) of the link layer and correlation from: - ковариационной информации (Cx) по меньшей мере для одной пары каналов; и- covariance information (C x ) for at least one pair of channels; And - информации (ξ, χ) канального уровня и корреляции по меньшей мере для одного второго канала и одной пары каналов.- information (ξ, χ) of the link layer and correlation for at least one second channel and one pair of channels. 11. Устройство синтеза аудиоданных по п. 10, выполненное с возможностью предпочтения информации (ξ, χ) канального уровня и корреляции, описывающей канал или пару каналов, полученной из вспомогательной информации (228) потока (248) битов, а не ковариационной информации (Cy), восстановленной из сигнала (324, 246, x) понижающего микширования для того же канала или пары каналов.11. The audio data synthesis apparatus of claim 10, configured to prefer link layer information (ξ, χ) and correlation describing a channel or pair of channels obtained from the auxiliary information (228) of the bit stream (248) rather than the covariance information (Cy ), reconstructed from the (324, 246, x) downmix signal for the same channel or pair of channels. 12. Устройство синтеза аудиоданных по любому из предшествующих пунктов, в котором восстановленная целевая версия (CyR) ковариационной информации (Cy) описывает энергетическую взаимосвязь между парой каналов или основана по меньшей мере частично на уровнях, ассоциированных с каждым каналом из пары каналов.12. The audio data synthesis apparatus of any one of the preceding claims, wherein the recovered target version (C yR ) of the covariance information (Cy) describes the energy relationship between a pair of channels or is based at least in part on the levels associated with each channel of the pair of channels. 13. Устройство синтеза аудиоданных по любому из предшествующих пунктов, выполненное с возможностью получения версии (324) в частотной области (FD) сигнала (246, x) понижающего микширования, причем версия (324) FD сигнала (246, x) понижающего микширования разделена на полосы частот или группы полос частот, при этом различная информация (220) канального уровня и корреляции ассоциирована с различными полосами частот или группами полос частот,13. The audio data synthesis apparatus of any one of the preceding claims, configured to obtain a frequency domain (FD) version (324) of the downmix signal (246, x), wherein the FD version (324) of the downmix signal (246, x) is divided into frequency bands or groups of frequency bands, wherein different link layer and correlation information (220) is associated with different frequency bands or groups of frequency bands, - при этом устройство синтеза аудиоданных выполнено с возможностью работы по-разному для различных полос частот или групп полос частот таким образом, чтобы получить различные правила (403) микширования для различных полос частот или групп полос частот.- wherein the audio data synthesis device is configured to operate differently for different frequency bands or groups of frequency bands so as to obtain different mixing rules (403) for different frequency bands or groups of frequency bands. 14. Устройство синтеза аудиоданных по любому из предшествующих пунктов, в котором сигнал (324, 246, x) понижающего микширования разделен на интервалы, при этом различная информация (220) канального уровня и корреляции ассоциирована с различными интервалами, и устройство синтеза аудиоданных выполнено с возможностью работы по-разному для различных интервалов таким образом, чтобы получить различные правила (403) микширования для различных интервалов.14. The audio data synthesis apparatus of any one of the preceding claims, wherein the downmix signal (324, 246, x) is divided into intervals, wherein various link layer and correlation information (220) are associated with the various intervals, and the audio data synthesis apparatus is configured to operating differently for different intervals so as to obtain different mixing rules (403) for different intervals. 15. Устройство синтеза аудиоданных по любому из предшествующих пунктов, в котором сигнал (324, 246, x) понижающего микширования разделен на кадры, и каждый кадр разделен на интервалы, при этом устройство синтеза аудиоданных выполнено с возможностью, когда наличие и положение переходной части в одном кадре передаются в служебных сигналах (261) как находящиеся в одном переходном интервале:15. The audio data synthesis apparatus according to any one of the preceding claims, wherein the downmix signal (324, 246, x) is divided into frames, and each frame is divided into intervals, wherein the audio data synthesis apparatus is configured when the presence and position of the transition portion in one frame are transmitted in service signals (261) as being in the same transition interval: - ассоциирования текущей информации (220) канального уровня и корреляции с переходным интервалом и/или с интервалами после переходного интервала кадра; и- associating and correlating current link layer information (220) with the transition interval and/or with intervals after the transition interval of the frame; And - ассоциирования с интервалом кадра, предшествующим переходному интервалу, информации (220) канального уровня и корреляции предыдущего кадра.- associating with the frame interval preceding the transition interval, link layer information (220) and correlation of the previous frame. 16. Устройство синтеза аудиоданных по любому из предшествующих пунктов, выполненное с возможностью выбора прототипного правила (Q), выполненного с возможностью вычисления прототипного сигнала (328) на основе числа каналов синтеза.16. The audio data synthesis apparatus of any one of the preceding claims, configured to select a prototype rule (Q) configured to calculate a prototype signal (328) based on the number of synthesis channels. 17. Устройство синтеза аудиоданных по п. 16, выполненное с возможностью выбора прототипного правила (Q) из множества предварительно сохраненных прототипных правил.17. The audio data synthesis device according to claim 16, configured to select a prototype rule (Q) from a plurality of previously stored prototype rules. 18. Устройство синтеза аудиоданных по любому из предшествующих пунктов, выполненное с возможностью определения прототипного правила (Q) на основе выбора вручную.18. An audio data synthesis device according to any one of the preceding claims, configured to determine a prototype rule (Q) based on manual selection. 19. Устройство синтеза аудиоданных по п. 17 или 18, в котором прототипное правило включает в себя матрицу (Q) с первой размерностью и второй размерностью, при этом первая размерность ассоциирована с числом каналов понижающего микширования, и вторая размерность ассоциирована с числом каналов синтеза.19. The audio synthesis apparatus of claim 17 or 18, wherein the prior art rule includes a matrix (Q) with a first dimension and a second dimension, wherein the first dimension is associated with the number of downmix channels and the second dimension is associated with the number of synthesis channels. 20. Устройство синтеза аудиоданных по любому из предшествующих пунктов, выполненное с возможностью работы на скорости передачи битов, равной или меньшей, чем 160 Кбит/с.20. An audio data synthesis device according to any one of the preceding claims, configured to operate at a bit rate equal to or less than 160 Kbps. 21. Устройство синтеза аудиоданных по любому из предшествующих пунктов, дополнительно содержащее энтропийный декодер (312) для получения сигнала (246, x) понижающего микширования со вспомогательной информацией (314).21. The audio data synthesis apparatus of any one of the preceding claims, further comprising an entropy decoder (312) for obtaining a downmix signal (246, x) with auxiliary information (314). 22. Устройство синтеза аудиоданных по любому из предшествующих пунктов, дополнительно содержащее модуль (614b, 614c, 330) декорреляции для уменьшения величины корреляции между различными каналами.22. The audio data synthesis apparatus of any one of the preceding claims, further comprising a decorrelation module (614b, 614c, 330) for reducing the amount of correlation between different channels. 23. Устройство синтеза аудиоданных по любому из пп. 1-21, в котором прототипный сигнал (328) непосредственно передаётся в процессор (600a, 600b, 404) синтеза без выполнения декорреляции.23. Audio data synthesis device according to any one of claims. 1-21, in which the prototype signal (328) is directly transmitted to the synthesis processor (600a, 600b, 404) without performing decorrelation. 24. Устройство синтеза аудиоданных по любому из предшествующих пунктов, в котором по меньшей мере одно из информации (ξ, χ) канального уровня и корреляции исходного сигнала (212, y) и ковариационной информации (Cx) сигнала (246, x) понижающего микширования, имеет форму матрицы.24. The audio data synthesis apparatus of any one of the preceding claims, wherein at least one of link layer information (ξ, χ) and correlation information of the original signal (212, y) and covariance information (C x ) of the downmix signal (246, x) , has the form of a matrix. 25. Устройство синтеза аудиоданных по любому из предшествующих пунктов, в котором вспомогательная информация (228) включает в себя идентификационные данные исходных каналов;25. The audio data synthesis device according to any one of the preceding claims, wherein the auxiliary information (228) includes identification data of source channels; - при этом устройство синтеза аудиоданных дополнительно выполнено с возможностью вычисления по меньшей мере одного правила (403) микширования с использованием по меньшей мере одного из информации (ξ, χ) канального уровня и корреляции исходного сигнала (212, y), ковариационной информации (Cx) сигнала (246, x) понижающего микширования, идентификационных данных исходных каналов и идентификационных данных каналов синтеза.- wherein the audio data synthesis device is further configured to calculate at least one mixing rule (403) using at least one of the link level information (ξ, χ) and the correlation of the original signal (212, y), covariance information (C x ) downmix signal (246, x), source channel IDs, and synthesis channel IDs. 26. Устройство синтеза аудиоданных по любому из предшествующих пунктов, выполненное с возможностью вычисления по меньшей мере одного правила микширования посредством разложения по сингулярным значениям (SVD).26. The audio data synthesis apparatus of any one of the preceding claims, configured to compute at least one mixing rule by singular value decomposition (SVD). 27. Устройство синтеза аудиоданных по любому из предшествующих пунктов, в котором сигнал понижающего микширования разделен на кадры, причем устройство синтеза аудиоданных выполнено с возможностью сглаживания принимаемого параметра или оцененного или восстановленного значения или матрицы микширования с использованием линейной комбинации с параметром или оцененного или восстановленного значения, или матрицы микширования, полученной для предшествующего кадра.27. The audio synthesis apparatus of any one of the preceding claims, wherein the downmix signal is divided into frames, wherein the audio synthesis apparatus is configured to smooth a received parameter or estimated or reconstructed value or mixing matrix using a linear combination with the parameter or estimated or reconstructed value, or the mixing matrix obtained for the previous frame. 28. Устройство синтеза аудиоданных по п. 27, выполненное с возможностью, когда наличие и/или положение переходной части в одном кадре передаются в служебных сигналах (261), деактивации сглаживания принимаемого параметра или оцененного или восстановленного значения или матрицы микширования.28. The audio data synthesis device of claim 27, configured to, when the presence and/or position of a transition portion in one frame is signaled (261), deactivate smoothing of the received parameter or the estimated or reconstructed value or mixing matrix. 29. Устройство синтеза аудиоданных по любому из предшествующих пунктов, в котором сигнал понижающего микширования разделен на кадры, и кадры разделены на интервалы, при этом информация (220, ξ, χ) канального уровня и корреляции исходного сигнала (212, y) получается из вспомогательной информации (228) потока (248) битов покадрово, причем устройство синтеза аудиоданных выполнено с возможностью использования для текущего кадра правила микширования, полученного посредством масштабирования правила микширования, вычисленного для текущего кадра, на коэффициент, увеличивающийся вдоль последующих интервалов текущего кадра, и путём добавления правила микширования, используемого для предшествующего кадра в версии, масштабированной на понижающий коэффициент вдоль последующих интервалов текущего кадра.29. The audio data synthesis apparatus of any one of the preceding claims, wherein the downmix signal is divided into frames and the frames are divided into intervals, wherein the link layer and correlation information (220, ξ, χ) of the original signal (212, y) is obtained from the auxiliary information (228) of a stream (248) of bits frame by frame, and the audio data synthesis device is configured to use for the current frame a mixing rule obtained by scaling the mixing rule calculated for the current frame by a factor increasing along subsequent intervals of the current frame, and by adding the rule mix used for the previous frame in a version scaled down by a factor along subsequent intervals of the current frame. 30. Устройство синтеза аудиоданных по любому из предшествующих пунктов, в котором число каналов синтеза больше числа исходных каналов.30. An audio data synthesis device according to any of the preceding paragraphs, in which the number of synthesis channels is greater than the number of original channels. 31. Устройство синтеза аудиоданных по любому из предшествующих пунктов, в котором число каналов синтеза меньше числа исходных каналов.31. An audio data synthesis device according to any of the preceding paragraphs, in which the number of synthesis channels is less than the number of source channels. 32. Аудиокодер (200) для формирования сигнала (246, x) понижающего микширования из исходного сигнала (212, y), причем исходный сигнал (212, y) имеет множество исходных каналов, причем сигнал (246, x) понижающего микширования имеет множество каналов понижающего микширования, причем аудиокодер (200) содержит:32. An audio encoder (200) for generating a downmix signal (246, x) from a source signal (212, y), wherein the source signal (212, y) has a plurality of source channels, wherein the downmix signal (246, x) has a plurality of channels downmixing, wherein the audio encoder (200) comprises: - модуль (218) оценки параметров, выполненный с возможностью оценки информации (220) канального уровня и корреляции исходного сигнала (212, y), и- parameter estimation module (218), configured to evaluate link level information (220) and correlate the original signal (212, y), and - модуль (226) записи потоков битов для кодирования сигнала (246, x) понижающего микширования в поток (248) битов таким образом, что сигнал (246, x) понижающего микширования кодируется в потоке (248) битов таким образом, что она имеет вспомогательную информацию (228), включающую в себя информацию (220) канального уровня и корреляции исходного сигнала (212, y),- a bitstream recording module (226) for encoding the downmix signal (246, x) into a bit stream (248) such that the downmix signal (246, x) is encoded into the bit stream (248) such that it has an auxiliary information (228) including link layer and correlation information (220) of the original signal (212, y), причём информация (220) канального уровня и корреляции исходного сигнала (212, y) включает в себя по меньшей мере одну межканальную разность уровней (ICLD),wherein the link layer and correlation information (220) of the original signal (212, y) includes at least one inter-channel level difference (ICLD), причём информация (220) канального уровня и корреляции исходного сигнала (212, y), кодированная во вспомогательной информации (228), включает в себя по меньшей мере информацию (220, 908) корреляции, описывающую энергетические взаимосвязи по меньшей мере между одной парой различных исходных каналов, но не всеми исходными каналами.wherein the link layer and correlation information (220) of the original signal (212, y) encoded in the auxiliary information (228) includes at least correlation information (220, 908) describing the energy relationships between at least one pair of different original channels, but not all original channels. 33. Аудиокодер по п. 32, выполненный с возможностью обеспечения информации (220) канального уровня и корреляции исходного сигнала (212, y) в качестве нормализованных значений.33. The audio encoder of claim 32, configured to provide link layer information (220) and correlation of the original signal (212, y) as normalized values. 34. Аудиокодер по п. 32 или 33, в котором информация (220) канального уровня и корреляции исходного сигнала (212, y), кодированная во вспомогательной информации (228), включает в себя или представляет по меньшей мере информацию канального уровня, ассоциированную со всеми исходными каналами.34. The audio encoder of claim 32 or 33, wherein the link layer and correlation information (212, y) of the original signal (212, y) encoded in the auxiliary information (228) includes or represents at least link layer information associated with all source channels. 35. Аудиокодер по любому из пп. 32-34, в котором информация (220) канального уровня и корреляции исходного сигнала (212, y) включает в себя по меньшей мере одно значение (ξi,j) когерентности, описывающее когерентность между двумя каналами из пары исходных каналов.35. Audio encoder according to any one of paragraphs. 32-34, in which the link layer and correlation information (220) of the source signal (212, y) includes at least one coherence value (ξ i,j ) describing the coherence between two channels of a pair of source channels. 36. Аудиокодер по п. 35, в котором значение когерентности нормализовано.36. The audio encoder of claim 35, wherein the coherence value is normalized. 37. Аудиокодер по любому из пп. 35, 36, в котором значение когерентности является следующим:37. Audio encoder according to any one of paragraphs. 35, 36, in which the coherence value is as follows: - где является ковариацией между каналами i и j, при этом и соответственно являются уровнями, ассоциированными с каналами i и j.- Where is the covariance between channels i and j, while And respectively, are the levels associated with channels i and j. 38. Аудиокодер по любому из пп. 32-37, в котором по меньшей мере одна ICLD обеспечивается в качестве логарифмического значения.38. Audio encoder according to any one of paragraphs. 32-37, wherein the at least one ICLD is provided as a logarithmic value. 39. Аудиокодер по пп. 32-38, в котором по меньшей мере одна ICLD является нормализованной.39. Audio encoder according to claims. 32-38, in which at least one ICLD is normalized. 40. Аудиокодер по п. 39, в котором ICLD является следующей:40. The audio encoder of claim 39, wherein the ICLD is as follows: - где:- Where: - Xi является ICLD для канала i,- X i is the ICLD for channel i, - Pi является мощностью текущего канала i,- Pi is the power of the current channel i, - Pdmx,i является линейным комбинированием значений ковариационной информации сигнала понижающего микширования.- P dmx,i is a linear combination of the covariance information values of the downmix signal. 41. Аудиокодер по любому из пп. 32-40, выполненный с возможностью выбора (250) того, следует ли кодировать или не кодировать по меньшей мере часть информации (220) канального уровня и корреляции исходного сигнала (212, y), на основе информации состояния (252) таким образом, чтобы включить во вспомогательную информацию (228) увеличенный объем информации (220) канального уровня и корреляции в случае сравнительно меньшего объема рабочих данных.41. Audio encoder according to any one of paragraphs. 32-40, configured to select (250) whether or not to encode at least a portion of the link layer and correlation information (220) of the original signal (212, y), based on the state information (252) so that include in the auxiliary information (228) an increased amount of link layer information (220) and correlations in the case of a relatively smaller amount of operational data. 42. Аудиокодер по любому из пп. 32-41, выполненный с возможностью выбора (250) того, какая часть информации (220) канального уровня и корреляции исходного сигнала (212, y) должна кодироваться во вспомогательной информации (228), на основе показателей (252) по каналам таким образом, чтобы включить информацию (220) канального уровня и корреляции, ассоциированную с более чувствительными показателями, во вспомогательную информацию (228).42. Audio encoder according to any one of paragraphs. 32-41, configured to select (250) which portion of the link layer and correlation information (220) of the original signal (212, y) should be encoded in the auxiliary information (228), based on the channel-by-channel metrics (252) such that to include link layer and correlation information (220) associated with more sensitive metrics in the auxiliary information (228). 43. Аудиокодер по любому из пп. 32-44, в котором информация (220) канального уровня и корреляции исходного сигнала (212, y) имеет форму записей матрицы (Cy).43. Audio encoder according to any one of paragraphs. 32-44, in which the link layer and correlation information (220) of the original signal (212, y) is in the form of matrix entries (Cy). 44. Аудиокодер по п. 43, в котором матрица является симметричной или эрмитовой, при этом записи информации (220) канального уровня и корреляции обеспечиваются для всех или не всех записей на диагонали матрицы (Cy) и/или менее чем для половины недиагональных элементов матрицы (Cy).44. The audio encoder of claim 43, wherein the matrix is symmetrical or Hermitian, wherein link layer and correlation information entries (220) are provided for all or less of all entries on a diagonal of the matrix (Cy) and/or for less than half of the non-diagonal elements of the matrix (Cy). 45. Аудиокодер по любому из пп. 32-44, в котором модуль (226) записи потоков битов выполнен с возможностью кодирования идентификационных данных по меньшей мере одного канала.45. Audio encoder according to any one of paragraphs. 32-44, in which the bitstream recording module (226) is configured to encode identification data of at least one channel. 46. Аудиокодер по любому из пп. 32-45, в котором исходный сигнал (212, y) или его обработанная версия (216) разделены на множество последующих кадров равной продолжительности.46. Audio encoder according to any one of paragraphs. 32-45, in which the original signal (212, y) or its processed version (216) is divided into a plurality of subsequent frames of equal duration. 47. Аудиокодер по п. 46, выполненный с возможностью кодирования информации (220) канального уровня и корреляции исходного сигнала (212, y), конкретного для каждого кадра во вспомогательной информации (228).47. The audio encoder of claim 46, configured to encode link layer information (220) and correlate the source signal (212, y) specific to each frame in the auxiliary information (228). 48. Аудиокодер по п. 47, выполненный с возможностью кодирования одинаковой информации (220) канального уровня и корреляции исходного сигнала (212, y), совместно ассоциированного с множеством последовательных кадров, во вспомогательной информации (228).48. The audio encoder of claim 47, configured to encode the same link layer information (220) and correlate the original signal (212, y) collectively associated with the plurality of successive frames into auxiliary information (228). 49. Аудиокодер по любому из пп. 47, 48, выполненный с возможностью выбора некоторого числа последовательных кадров, в которых одинаковая информация (220) канального уровня и корреляции исходного сигнала (212, y) выбирается таким образом, что:49. Audio encoder according to any one of paragraphs. 47, 48, configured to select a number of consecutive frames in which the same link layer and source signal correlation information (220) (212, y) is selected such that: - сравнительно более высокая скорость передачи битов или больший объем рабочих данных подразумевает увеличение числа последовательных кадров, с которыми ассоциирована одинаковая информация (220) канального уровня и корреляции исходного сигнала (212, y), и наоборот.- a comparatively higher bit rate or larger volume of operating data implies an increase in the number of consecutive frames with which the same link layer and correlation information (220) of the source signal (212, y) is associated, and vice versa. 50. Аудиокодер по любому из пп. 48, 49, выполненный с возможностью сокращения числа последовательных кадров, с которыми ассоциирована одинаковая информация (220) канального уровня и корреляции исходного сигнала (212, y), при обнаружении переходной части.50. Audio encoder according to any one of paragraphs. 48, 49, configured to reduce the number of consecutive frames with which the same link layer information (220) is associated and correlate the original signal (212, y) when a transition portion is detected. 51. Аудиокодер по любому из пп. 46-50, в котором каждый кадр подразделяен на целое число последовательных интервалов.51. Audio encoder according to any one of paragraphs. 46-50, in which each frame is divided into an integer number of consecutive intervals. 52. Аудиокодер по п. 51, выполненный с возможностью оценки информации (220) канального уровня и корреляции для каждого интервала и кодирования во вспомогательной информации (228) суммы или среднего или другой заданной линейной комбинации информации (220) канального уровня и корреляции, оцененной для различных интервалов,52. The audio encoder of claim 51, configured to estimate link layer and correlation information (220) for each slot and encode in the auxiliary information (228) the sum or average or other predetermined linear combination of the link layer information (220) and correlation estimated for various intervals, причём аудиокодер выполнен с возможностью выполнения анализа переходных процессов (258) для версии во временной области кадра для определения наличия переходной части в кадре.wherein the audio encoder is configured to perform transient analysis (258) on the time domain version of the frame to determine the presence of a transient portion in the frame. 53. Аудиодекодер по п. 52, выполненный с возможностью определения, в каком интервале кадра имеется переходная часть, и:53. The audio decoder according to claim 52, configured to determine in which frame interval there is a transition part, and: - кодирования информации (220) канального уровня и корреляции исходного сигнала (212, y), ассоциированной с интервалом, в котором имеется переходная часть, и/или с последующими интервалами в кадре,- encoding the link layer information (220) and the correlation of the original signal (212, y) associated with the interval in which there is a transition part, and/or with subsequent intervals in the frame, - без кодирования информации (220) канального уровня и корреляции исходного сигнала (212, y), ассоциированной с интервалами, предшествующими переходной части.- without encoding the channel layer information (220) and the correlation of the original signal (212, y) associated with the intervals preceding the transition part. 54. Аудиокодер по п. 52 или 53, выполненный с возможностью передачи в служебных сигналах (261) во вспомогательной информации (228) наличия переходной части, имеющейся в одном интервале кадра.54. The audio encoder according to claim 52 or 53, configured to transmit in the service signals (261) in the auxiliary information (228) the presence of a transition part present in one frame interval. 55. Аудиокодер по п. 54, выполненный с возможностью передачи в служебных сигналах (261) во вспомогательной информации (228) того, в каком интервале кадра имеется переходная часть.55. The audio encoder according to claim 54, configured to transmit in the service signals (261) in the auxiliary information (228) in which frame interval there is a transition part. 56. Аудиокодер по любому из пп. 52-54, выполненный с возможностью оценки информации (220) канального уровня и корреляции исходного сигнала (212, y), ассоциированной с множеством интервалов кадра, и их суммирования или их усреднения или их линейного комбинирования, чтобы получить информацию (220) канального уровня и корреляции, ассоциированную с кадром.56. Audio encoder according to any one of paragraphs. 52-54, configured to evaluate the link layer information (220) and the correlation of the original signal (212, y) associated with a plurality of frame intervals, and add them or average them or linearly combine them to obtain link layer information (220) and correlation associated with the frame. 57. Аудиокодер по любому из пп. 32-56, в котором исходный сигнал (212, y) преобразуется (263) в сигнал (264, 266) частотной области, при этом аудиокодер выполнен с возможностью кодирования информации (220) канального уровня и корреляции исходного сигнала (212, y) по полосам частот во вспомогательной информации (228),57. Audio encoder according to any one of paragraphs. 32-56, in which the original signal (212, y) is converted (263) into a frequency domain signal (264, 266), wherein the audio encoder is configured to encode link layer information (220) and correlate the original signal (212, y) by frequency bands in supporting information (228), причём аудиокодер выполнен с возможностью агрегирования (265) некоторого числа полос частот исходного сигнала (212, y) в более сокращенное число полос частот (266) таким образом, чтобы кодировать информацию (220) канального уровня и корреляции исходного сигнала (212, y) по агрегированным полосам частот во вспомогательной информации (228).wherein the audio encoder is configured to aggregate (265) a certain number of frequency bands of the original signal (212, y) into a more reduced number of frequency bands (266) so as to encode channel level information (220) and correlations of the original signal (212, y) according to aggregated frequency bands in the supporting information (228). 58. Аудиокодер по п. 57, выполненный с возможностью, в случае обнаружения переходной части в кадре, дополнительного агрегирования (265) полосы частот таким образом, что:58. The audio encoder according to claim 57, configured to, in case of detection of a transition part in the frame, additional aggregation (265) of the frequency band in such a way that: - число полос частот (266) уменьшается; и/или- the number of frequency bands (266) is reduced; and/or - ширина по меньшей мере одной полосы частот увеличивается посредством агрегирования с другой полосой частот.- the width of at least one frequency band is increased by aggregation with another frequency band. 59. Аудиокодер по любому из пп. 57, 58, дополнительно выполненный с возможностью кодирования (226) в потоке (248) битов по меньшей мере одной информации (220) канального уровня и корреляции одной полосы частот в качестве приращения относительно ранее кодированной информации канального уровня и корреляции.59. Audio encoder according to any one of paragraphs. 57, 58, further configured to encode (226) in the bit stream (248) at least one link layer information (220) and correlate one frequency band as an increment relative to the previously encoded link layer information and correlation. 60. Аудиокодер по любому из пп. 32-59, выполненный с возможностью кодирования во вспомогательной информации (228) потока (248) битов неполной версии информации (220) канального уровня и корреляции по отношению к информации (220) канального уровня и корреляции, оцененной посредством модуля (218) оценки.60. Audio encoder according to any one of paragraphs. 32-59, configured to encode in the auxiliary information (228) bit stream (248) an incomplete version of the link layer information (220) and correlation with respect to the link layer information (220) and correlation estimated by the estimation module (218). 61. Аудиокодер по п. 60, выполненный с возможностью адаптивного выбора из всей информации (220) канального уровня и корреляции, оцененной модулем (218) оценки, выбранной информации, которая должна кодироваться во вспомогательной информации (228) потока (248) битов, таким образом, что информация (220) канального уровня и/или корреляции для оставшейся невыбранной информации, оцененная посредством модуля (218) оценки, не кодируется.61. The audio encoder of claim 60, configured to adaptively select from all the link layer and correlation information (220) evaluated by the estimator (218) the selected information to be encoded in the auxiliary information (228) of the bit stream (248), such that such that the link layer and/or correlation information (220) for the remaining unselected information estimated by the estimator (218) is not encoded. 62. Аудиокодер по п. 60, выполненный с возможностью восстановления информации (220) канального уровня и корреляции из выбранной информации (220) канального уровня и корреляции, таким образом моделируя оценку в декодере (300) невыбранной информации (220) канального уровня и корреляции, и вычисления информации об ошибках между:62. The audio encoder of claim 60, configured to recover link layer and correlation information (220) from selected link layer and correlation information (220), thereby simulating an estimate in the decoder (300) of unselected link layer and correlation information (220), and calculating error information between: - невыбранной информацией (220) канального уровня и корреляции, оцененной кодером; и- unselected link layer information (220) and correlation estimated by the encoder; And - невыбранной информацией канального уровня и корреляции, восстановленной посредством моделирования оценки, в декодере (300), некодированной информации (220) канального уровня и корреляции; и- unselected link layer and correlation information recovered by estimation modeling in the decoder (300), uncoded link layer and correlation information (220); And - таким образом, чтобы отличать на основании вычисленной информации об ошибках:- in such a way as to distinguish, based on the calculated error information: - восстанавливаемую надлежащим образом информацию канального уровня и корреляции; от- properly restored link layer and correlation information; from - невосстанавливаемой надлежащим образом информации канального уровня и корреляции,- link level and correlation information that cannot be properly restored, - таким образом, чтобы принять решение в отношении:- in such a way as to make a decision regarding: - выбора невосстанавливаемой надлежащим образом информации канального уровня и корреляции, которая должна кодироваться во вспомогательной информации (228) потока (248) битов; и- selecting properly unrecoverable link layer and correlation information to be encoded in the auxiliary information (228) of the bit stream (248); And - невыбора восстанавливаемой надлежащим образом информации канального уровня и корреляции, таким образом отказываясь от кодирования во вспомогательной информации (228) потока (248) битов восстанавливаемой надлежащим образом информации канального уровня и корреляции.- not selecting properly recoverable link layer and correlation information, thereby not encoding in the auxiliary information (228) a stream (248) of bits of properly recoverable link layer and correlation information. 63. Аудиокодер по любому из пп. 61, 62, в котором информация (220) канального уровня и корреляции индексирована согласно заданному упорядочению, при этом кодер выполнен с возможностью передачи в служебных сигналах во вспомогательной информации (228) потока (248) битов индексов, ассоциированных с заданным упорядочением, причем индексы указывают, какая из информации (220) канального уровня и корреляции кодируется.63. Audio encoder according to any one of paragraphs. 61, 62, in which the link layer and correlation information (220) is indexed according to a given ordering, wherein the encoder is configured to signal in the auxiliary information (228) a stream (248) of index bits associated with the given ordering, wherein the indices indicate which of the link layer and correlation information (220) is encoded. 64. Аудиокодер по п. 63, в котором индексы передаются через битовую карту.64. The audio encoder of claim 63, wherein the indices are transmitted via a bitmap. 65. Аудиокодер по любому из пп. 63, 64, в котором индексы определяются согласно комбинаторной системе счисления, ассоциирующей одномерный индекс с записями матрицы.65. Audio encoder according to any one of paragraphs. 63, 64, in which the indices are defined according to a combinatorial number system that associates a one-dimensional index with matrix entries. 66. Аудиокодер по любому из пп. 64, 65, выполненный с возможностью выполнения выбора между:66. Audio encoder according to any one of paragraphs. 64, 65, configured to select between: - адаптивным обеспечением информации (220) канального уровня и корреляции, в которой индексы, ассоциированные с заданным упорядочением, кодируются во вспомогательной информации потока битов; и- adaptive provision of link layer information (220) and correlation, in which indices associated with a given ordering are encoded in the auxiliary information of the bit stream; And - фиксированным обеспечением информации (220) канального уровня и корреляции таким образом, что информация (220) канального уровня и корреляции, которая кодируется, задается и упорядочивается согласно заданному фиксированному упорядочению без обеспечения индексов.- fixedly providing link layer and correlation information (220) such that the link layer and correlation information (220) that is encoded is specified and ordered according to a given fixed ordering without providing indexes. 67. Аудиокодер по п. 66, выполненный с возможностью передачи в служебных сигналах во вспомогательной информации (228) потока (248) битов обеспечивается ли информация (220) канального уровня и корреляции согласно адаптивному обеспечению или согласно фиксированному обеспечению.67. The audio encoder of claim 66, configured to signal in the auxiliary information (228) the bit stream (248) whether the link layer and correlation information (220) is provided according to adaptive provision or according to fixed provision. 68. Аудиокодер по любому из пп. 32-67, дополнительно выполненный с возможностью кодирования (226) в потоке (248) битов текущей информации (220t) канального уровня и корреляции в качестве приращения (220k) относительно предыдущей информации (220(t-1)) канального уровня и корреляции.68. Audio encoder according to any one of paragraphs. 32-67, further configured to encode (226) in the stream (248) bits of current link layer information (220t) and correlation as an increment (220k) relative to previous link layer information (220(t-1)) and correlation. 69. Аудиокодер по любому из пп. 32-68, дополнительно выполненный с возможностью формирования сигнала (246) понижающего микширования согласно статическому понижающему микшированию (244).69. Audio encoder according to any one of paragraphs. 32-68, further configured to generate a downmix signal (246) according to the static downmix (244). 70. Аудиокодер по любому из пп. 32-69, в котором аудиокодер является агностическим относительно устройства синтеза аудиоданных.70. Audio encoder according to any one of paragraphs. 32-69, wherein the audio encoder is agnostic with respect to the audio data synthesis device. 71. Способ формирования сигнала синтеза из сигнала понижающего микширования, причем сигнал синтеза имеет множество каналов синтеза, при этом способ содержит этапы, на которых:71. A method for generating a synthesis signal from a downmix signal, wherein the synthesis signal has a plurality of synthesis channels, the method comprising the steps of: - принимают сигнал понижающего микширования (246, x), причем сигнал (246, x) понижающего микширования имеет множество каналов понижающего микширования и вспомогательную информацию (228), причем вспомогательная информация (228) включает в себя:- receiving a downmix signal (246, x), wherein the downmix signal (246, x) has a plurality of downmix channels and auxiliary information (228), wherein the auxiliary information (228) includes: - информацию (220) канального уровня и корреляции исходного сигнала (212, y), причем исходный сигнал (212, y) имеет множество исходных каналов;- link layer and correlation information (220) of the original signal (212, y), wherein the original signal (212, y) has a plurality of original channels; - формируют сигнал синтеза с использованием информации (220) канального уровня и корреляции исходного сигнала (212, y) и ковариационной информации (Cx) сигнала (246, x) понижающего микширования,- forming a synthesis signal using channel level information (220) and correlation of the original signal (212, y) and covariance information (C x ) of the downmixing signal (246, x), причём способ дополнительно содержит этапы, на которых:Moreover, the method additionally contains the steps of: восстанавливают (386) целевую версию (CyR) ковариационной информации (Cy) исходного сигнала на основании оцененной версии () исходной ковариационной информации (Cy), при этом оцененная версия () исходной ковариационной информации (Cy) сообщается в упомянутое число каналов синтеза,recover (386) the target version (C yR ) of the covariance information (C y ) of the original signal based on the estimated version ( ) of the original covariance information (C y ), while the estimated version ( ) the original covariance information (C y ) is reported to the mentioned number of synthesis channels, причём оцененная версия () исходной ковариационной информации получается из ковариационной информации (Cx) сигнала (246, x) понижающего микширования, причём оцененная версия () исходной ковариационной информации (220) получается посредством применения к ковариационной информации (Cx) сигнала (324, 246, x) понижающего микширования правила (Q) оценки, которое представляет собой прототипное правило для вычисления прототипного сигнала (326) или ассоциировано с ним.and the evaluated version ( ) of the original covariance information is obtained from the covariance information (C x ) of the downmix signal (246, x), wherein the estimated version ( ) of the original covariance information (220) is obtained by applying to the covariance information (C x ) the downmix signal (324, 246, x) an estimation rule (Q) that is or is associated with a prototype rule for calculating the prototype signal (326). 72. Способ по п. 71, при этом способ содержит этапы, на которых:72. The method according to claim 71, wherein the method contains the steps of: - вычисляют прототипный сигнал из сигнала (246, x) понижающего микширования, причем прототипный сигнал имеет упомянутое число каналов синтеза;- calculating a prototype signal from the downmix signal (246, x), wherein the prototype signal has said number of synthesis channels; - вычисляют правило микширования с использованием информации канального уровня и корреляции исходного сигнала (212, y) и ковариационной информации сигнала (246, x) понижающего микширования; и- calculating a mixing rule using link layer information and correlation of the original signal (212, y) and covariance information of the downmixing signal (246, x); And - формируют сигнал синтеза с использованием прототипного сигнала и правила микширования.- generate a synthesis signal using a prototype signal and mixing rules. 73. Способ формирования сигнала (246, x) понижающего микширования из исходного сигнала (212, y), причем исходный сигнал (212, y) имеет некоторое число исходных каналов, причем сигнал (246, x) понижающего микширования имеет некоторое число каналов понижающего микширования, при этом способ содержит этапы, на которых:73. A method for generating a downmix signal (246, x) from an original signal (212, y), wherein the original signal (212, y) has a number of original channels, and wherein the downmix signal (246, x) has a number of downmix channels , and the method contains the steps of: - оценивают (218) информацию (220) канального уровня и корреляции исходного сигнала (212, y), причём информация (220) канального уровня и корреляции исходного сигнала (212, y) включает в себя по меньшей мере одну межканальную разность уровней (ICLD), причём информация (220) канального уровня и корреляции исходного сигнала (212, y), кодированная во вспомогательной информации (228), дополнительно включает в себя по меньшей мере информацию (220, 908) корреляции, описывающую энергетические взаимосвязи по меньшей мере между одной парой различных исходных каналов, но не всеми исходными каналами,- evaluate (218) link layer and correlation information (220) of the source signal (212, y), wherein the link layer and correlation information (220) of the source signal (212, y) includes at least one inter-channel level difference (ICLD) , wherein the link layer and correlation information (220) of the original signal (212, y) encoded in the auxiliary information (228) further includes at least correlation information (220, 908) describing the energy relationships between at least one pair different source channels, but not all source channels, - кодируют (226) сигнал (246, x) понижающего микширования в поток (248) битов, так что сигнал (246, x) понижающего микширования кодируется в потоке (248) битов таким образом, что она имеет вспомогательную информацию (228), включающую в себя информацию (220) канального уровня и корреляции исходного сигнала (12, y).- encoding (226) the downmix signal (246, x) into a bit stream (248) such that the downmix signal (246, x) is encoded into the bit stream (248) such that it has auxiliary information (228) including includes information (220) of the channel level and correlation of the original signal (12, y). 74. Постоянный блок хранения, сохраняющий инструкции, которые при выполнении процессором предписывают процессору осуществлять способ по любому из пп. 71-73.74. A permanent storage unit storing instructions that, when executed by a processor, cause the processor to carry out the method of any one of claims. 71-73.
RU2022100437A 2019-06-14 2020-06-15 Encoding and decoding parameters RU2803451C2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP19180385.7 2019-06-14

Related Child Applications (1)

Application Number Title Priority Date Filing Date
RU2022115502A Division RU2806701C2 (en) 2019-06-14 2020-06-15 Encoding and decoding of parameters

Publications (2)

Publication Number Publication Date
RU2022100437A RU2022100437A (en) 2023-07-14
RU2803451C2 true RU2803451C2 (en) 2023-09-13

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070223708A1 (en) * 2006-03-24 2007-09-27 Lars Villemoes Generation of spatial downmixes from parametric representations of multi channel signals
US20080071549A1 (en) * 2004-07-02 2008-03-20 Chong Kok S Audio Signal Decoding Device and Audio Signal Encoding Device
US20090110203A1 (en) * 2006-03-28 2009-04-30 Anisse Taleb Method and arrangement for a decoder for multi-channel surround sound
US20090171676A1 (en) * 2006-11-15 2009-07-02 Lg Electronics Inc. Method and an apparatus for decoding an audio signal
RU2409912C9 (en) * 2006-01-09 2011-06-10 Нокиа Корпорейшн Decoding binaural audio signals

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080071549A1 (en) * 2004-07-02 2008-03-20 Chong Kok S Audio Signal Decoding Device and Audio Signal Encoding Device
RU2409912C9 (en) * 2006-01-09 2011-06-10 Нокиа Корпорейшн Decoding binaural audio signals
US20070223708A1 (en) * 2006-03-24 2007-09-27 Lars Villemoes Generation of spatial downmixes from parametric representations of multi channel signals
US20090110203A1 (en) * 2006-03-28 2009-04-30 Anisse Taleb Method and arrangement for a decoder for multi-channel surround sound
US20090171676A1 (en) * 2006-11-15 2009-07-02 Lg Electronics Inc. Method and an apparatus for decoding an audio signal

Similar Documents

Publication Publication Date Title
US20220358939A1 (en) Apparatus, method and computer program for upmixing a downmix audio signal using a phase value smoothing
JP7471326B2 (en) Parameter Encoding and Decoding
US20180350375A1 (en) Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
EP3017446B1 (en) Enhanced soundfield coding using parametric component generation
CA2750451C (en) Upmixer, method and computer program for upmixing a downmix audio signal
US20090222272A1 (en) Controlling Spatial Audio Coding Parameters as a Function of Auditory Events
CN110223701B (en) Decoder and method for generating an audio output signal from a downmix signal
JP2016525716A (en) Suppression of comb filter artifacts in multi-channel downmix using adaptive phase alignment
EP2830334A1 (en) Multi-channel audio decoder, multi-channel audio encoder, methods, computer program and encoded audio representation using a decorrelation of rendered audio signals
JP2008530616A (en) Near-transparent or transparent multi-channel encoder / decoder configuration
RU2803451C2 (en) Encoding and decoding parameters
RU2806701C2 (en) Encoding and decoding of parameters
KR20170110680A (en) APPARATUS AND METHOD FOR PROCESSING AN ENCODED AUDIO SIGNAL