RU2803449C2 - Audio decoder, device for determining set of values setting filter characteristics, methods for providing decoded audio representation, methods for determining set of values setting filter characteristics, and computer software - Google Patents

Audio decoder, device for determining set of values setting filter characteristics, methods for providing decoded audio representation, methods for determining set of values setting filter characteristics, and computer software Download PDF

Info

Publication number
RU2803449C2
RU2803449C2 RU2021132566A RU2021132566A RU2803449C2 RU 2803449 C2 RU2803449 C2 RU 2803449C2 RU 2021132566 A RU2021132566 A RU 2021132566A RU 2021132566 A RU2021132566 A RU 2021132566A RU 2803449 C2 RU2803449 C2 RU 2803449C2
Authority
RU
Russia
Prior art keywords
values
audio
representation
scaling
decoded
Prior art date
Application number
RU2021132566A
Other languages
Russian (ru)
Other versions
RU2021132566A (en
Inventor
Гийом ФУКС
Срикантх КОРСЕ
Эммануэль РАВЕЛЛИ
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2021132566A publication Critical patent/RU2021132566A/en
Application granted granted Critical
Publication of RU2803449C2 publication Critical patent/RU2803449C2/en

Links

Images

Abstract

FIELD: computer engineering.
SUBSTANCE: processing audio data. The technical result is achieved by an audio decoder to provide a decoded audio presentation based on the encoded audio presentation, which contains a filter to provide an improved audio presentation of the decoded audio presentation. The filter is configured to obtain a plurality of scaling values that are associated with different frequency bins or frequency bands based on the spectral values of the decoded audio representation that are associated with different frequency bins or frequency bands, and the filter is configured to scale the spectral values of the decoded representation audio signals or a pre-processed version of them using scaling values to obtain an enhanced audio presentation. A device is also described for determining a set of values specifying filter characteristics for providing enhanced audio presentation based on the decoded audio presentation.
EFFECT: improved quality of audio data reproduction while maintaining the bit rate.
44 cl, 14 dwg

Description

1. Область техники, к которой относится изобретение1. Field of technology to which the invention relates

Варианты осуществления согласно настоящему изобретению относятся к аудиодекодеру.Embodiments of the present invention relate to an audio decoder.

Дополнительные варианты осуществления согласно настоящему изобретению относятся к устройству для определения набора значений, задающих характеристики фильтра.Additional embodiments of the present invention relate to an apparatus for determining a set of values defining filter characteristics.

Дополнительные варианты осуществления согласно изобретению относятся к способу для обеспечения декодированного аудиопредставления.Additional embodiments of the invention relate to a method for providing a decoded audio presentation.

Дополнительные варианты осуществления согласно изобретению относятся к способу для определения набора значений, задающих характеристики фильтра.Additional embodiments of the invention relate to a method for determining a set of values defining the characteristics of a filter.

Дополнительные варианты осуществления согласно изобретению относятся к соответствующим компьютерным программам.Additional embodiments of the invention relate to corresponding computer programs.

Варианты осуществления согласно изобретению относятся к постфильтру на основе действительнозначной маски для повышения качества кодированной речи.Embodiments of the invention relate to a real-value mask based post-filter for improving the quality of encoded speech.

Варианты осуществления согласно настоящему изобретению, в общем, относятся к постфильтру для улучшения декодированного аудио аудиодекодера, определения набора значений, задающих характеристики фильтра на основе декодированного аудиопредставления.Embodiments of the present invention generally relate to a post-filter for enhancing a decoded audio audio decoder by determining a set of values defining the characteristics of the filter based on the decoded audio representation.

2. Уровень техники2. State of the art

Ниже по тексту, предоставляется введение в некоторые традиционные решения.Below, an introduction to some traditional solutions is provided.

С учетом этой ситуации, имеется потребность в концепции, которая предоставляет больший компромисс между скоростью передачи битов, качеством звучания и сложностью при декодировании аудиоконтента.Given this situation, there is a need for a concept that provides a greater compromise between bit rate, audio quality and complexity when decoding audio content.

3. Сущность изобретения3. Essence of the invention

Вариант осуществления согласно настоящему изобретению обеспечивает аудиодекодер (например, речевой декодер или общий аудиодекодер, или аудиодекодер, переключающийся между режимом декодирования речи, например, режимом декодирования на основе линейного прогнозирования и общим режимом декодирования аудио, например, режимом кодирования на основе представления в спектральной области с использованием коэффициентов масштабирования для масштабирования декодированных спектральных значений) для обеспечения декодированного аудиопредставления на основе кодированного аудиопредставления.An embodiment of the present invention provides an audio decoder (eg, a speech decoder or a general audio decoder, or an audio decoder switching between a speech decoding mode, such as a linear prediction decoding mode, and a general audio decoding mode, such as a spectral domain representation-based coding mode with using scaling factors to scale the decoded spectral values) to provide a decoded audio representation based on the encoded audio representation.

Аудиодекодер содержит фильтр (или "постфильтр") для обеспечения улучшенного аудиопредставления (например, ) декодированного аудиопредставления (например, ), при этом входное аудиопредставление, которое используется посредством фильтра, может, например, обеспечиваться посредством ядра декодера для аудиодекодера.The audio decoder contains a filter (or "post-filter") to provide an enhanced audio presentation (e.g. ) decoded audio representation (e.g. ), wherein the input audio representation that is used by the filter may, for example, be provided by a decoder core to the audio decoder.

Фильтр (или постфильтр) выполнен с возможностью получать множество значений масштабирования (например, значений маски, например, M(k, n)), которые, например, могут быть действительнозначными и которые, например, могут быть неотрицательными, и которые, например, могут быть ограничены предварительно определенным диапазоном, и которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами (например, имеющими индекс элемента разрешения по частоте или индекс k частотного диапазона), на основе спектральных значений декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами (например, имеющими индекс элемента разрешения по частоте или индекс k частотного диапазона).The filter (or post-filter) is configured to obtain a plurality of scaling values (e.g., mask values, e.g., M(k, n)), which, for example, may be real-valued and which, for example, may be non-negative, and which, for example, may be limited to a predetermined range, and which are associated with different frequency bins or frequency ranges (eg, having a frequency bin index or frequency band index k), based on the spectral values of the decoded audio representation that are associated with the different frequency bins or frequency ranges (for example, having an index of frequency resolution element or index k of the frequency range).

Фильтр (или постфильтр) выполнен с возможностью масштабировать спектральные значения декодированного представления аудиосигналов (например, ) или их предварительно обработанную версию с использованием значений масштабирования (например, M(k, n)) для получения улучшенного аудиопредставления (например, ).The filter (or post-filter) is configured to scale the spectral values of the decoded representation of the audio signals (e.g. ) or a pre-processed version thereof using scaling values (e.g. M(k, n)) to produce an improved audio representation (e.g. ).

Этот вариант осуществления основан на такой идее, что качество звучания может эффективно повышаться с использованием масштабирования спектральных значений декодированного представления аудиосигналов, при этом значения масштабирования извлекаются на основе спектральных значений декодированного аудиопредставления. Обнаружено, что фильтрация, которая осуществляется посредством масштабирования спектральных значений, может эффективно адаптироваться к характеристикам сигналов на основе спектральных значений декодированного аудиопредставления и может повышать качество декодированного аудиопредставления. Например, на основе спектральных значений декодированного аудиопредставления, настройка фильтра (которая может задаваться посредством значений масштабирования) может регулироваться таким образом, чтобы уменьшать влияние шума квантования. Например, регулирование значений масштабирования на основе спектральных значений декодированного аудиопредставления может использовать структуру на основе машинного обучения или нейронную сеть, которая может обеспечивать значения масштабирования вычислительно эффективным способом.This embodiment is based on the idea that audio quality can be effectively improved by using scaling of spectral values of the decoded audio representation, wherein the scaling values are extracted based on the spectral values of the decoded audio representation. It has been discovered that filtering, which is performed by scaling spectral values, can effectively adapt to signal characteristics based on the spectral values of the decoded audio representation and can improve the quality of the decoded audio representation. For example, based on the spectral values of the decoded audio representation, the filter setting (which may be specified by scaling values) may be adjusted to reduce the effect of quantization noise. For example, adjusting the scaling values based on the spectral values of the decoded audio representation may use a machine learning-based framework or neural network that can provide the scaling values in a computationally efficient manner.

В частности, обнаружено, что извлечение значений масштабирования из спектральных значений декодированного аудиопредставления по-прежнему является преимущественным и возможным с хорошими результатами, даже если шум квантования, в общем, коррелируется с сигналом. Соответственно, концепция может применяться с очень хорошими результатами в этой ситуации.In particular, it has been found that extracting scaling values from the spectral values of the decoded audio representation is still advantageous and possible with good results, even if the quantization noise is generally correlated with the signal. Accordingly, the concept can be applied with very good results in this situation.

В качестве вывода, вышеописанный аудиокодер предоставляет возможность улучшения достижимого качества звучания с использованием фильтра, характеристика которого регулируется на основе спектральных значений декодированного аудиопредставления, при этом операция фильтрации, например, может выполняться эффективным способом посредством масштабирования спектральных значений с использованием значений масштабирования. Таким образом, ощущение для слуха может улучшаться, при этом необязательно основываться на дополнительной вспомогательной информации для того, чтобы управлять регулированием фильтра. Наоборот, регулирование фильтра может быть основано только на декодированных спектральных значениях текущего обработанного кадра независимо от схемы кодирования, используемой для формирования кодированных и декодированных представлений аудиосигнала и возможно декодированных спектральных значений одного или более ранее декодированных кадров и/или одного или более последующих декодированных кадров.As a conclusion, the above-described audio encoder provides the ability to improve the achievable audio quality using a filter whose response is adjusted based on the spectral values of the decoded audio representation, wherein the filtering operation, for example, can be performed in an efficient manner by scaling the spectral values using the scaling values. In this way, the hearing sensation can be improved without necessarily relying on additional auxiliary information to control the filter adjustment. Conversely, filter adjustment may be based only on the decoded spectral values of the current processed frame, regardless of the encoding scheme used to generate encoded and decoded representations of the audio signal and possibly decoded spectral values of one or more previously decoded frames and/or one or more subsequent decoded frames.

В предпочтительном варианте осуществления аудиодекодера, фильтр выполнен с возможностью использовать конфигурируемую структуру обработки (например, структуру на основе "машинного обучения", как нейронная сеть), конфигурация которой основана на алгоритме машинного обучения, чтобы обеспечивать значения масштабирования.In a preferred embodiment of an audio decoder, the filter is configured to use a configurable processing structure (eg, a "machine learning" based structure, like a neural network) configured based on a machine learning algorithm to provide scaling values.

Посредством использования конфигурируемой структуры обработки, такой как структура на основе машинного обучения или нейронная сеть, характеристики фильтра могут легко регулироваться на основе коэффициентов, задающих функциональность конфигурируемой структуры обработки. Соответственно, типично можно регулировать характеристики фильтра в широком диапазоне в зависимости от спектральных значений декодированного аудиопредставления. Следовательно, можно получать повышенное качество звука во множестве различных обстоятельств.By using a configurable processing framework, such as a machine learning-based framework or a neural network, filter characteristics can be easily adjusted based on coefficients specifying the functionality of the configurable processing framework. Accordingly, it is typically possible to adjust the filter characteristics over a wide range depending on the spectral values of the decoded audio representation. Therefore, it is possible to obtain improved sound quality in a variety of different circumstances.

В предпочтительном варианте осуществления аудиодекодера, фильтр выполнен с возможностью определять значения масштабирования только на основе спектральных значений декодированного аудиопредставления во множестве элементов разрешения по частоте или частотных диапазонов (например, без использования дополнительной служебной информации при извлечении значений масштабирования из спектральных значений).In a preferred embodiment of an audio decoder, the filter is configured to determine scaling values based only on spectral values of the decoded audio representation in a plurality of frequency bins or frequency bands (eg, without using additional overhead in extracting scaling values from the spectral values).

С использованием такой концепции, можно повышать качество звучания независимо от присутствия вспомогательной информации.Using this concept, it is possible to improve sound quality regardless of the presence of auxiliary information.

Вычислительная и структурная сложность может сохраняться достаточно низкой, поскольку используется когерентное и универсальное представление декодированного аудиосигнала (спектральных значений декодированного аудиопредставления), которое является агностическим относительно технологий кодирования, используемых для того, чтобы получать кодированное и декодированное представление. В этом случае, комплексные и специфические операции для конкретных вспомогательных информационных значений не допускаются. Помимо этого, в общем, можно извлекать значения масштабирования на основе спектральных значений декодированного аудиопредставления с использованием универсальной структуры обработки (такой как нейронная сеть), которая использует ограниченное число различных вычислительных функциональностей (таких как масштабированные суммирования и оценка функций активации).Computational and structural complexity can be kept quite low because a coherent and universal representation of the decoded audio signal (the spectral values of the decoded audio representation) is used, which is agnostic with respect to the encoding technologies used to obtain the encoded and decoded representation. In this case, complex and specific operations for specific auxiliary information values are not allowed. In addition, it is generally possible to extract scaling values based on the spectral values of the decoded audio representation using a generic processing framework (such as a neural network) that uses a limited number of different computational functionalities (such as scaled summations and estimation of activation functions).

В предпочтительном варианте осуществления аудиодекодера, фильтр выполнен с возможностью получать значения абсолютной величины (которые, например, могут описывать абсолютное значение или амплитуду, или норму) улучшенного аудиопредставления согласно следующему:In a preferred embodiment of an audio decoder, the filter is configured to receive values absolute value (which, for example, may describe the absolute value or amplitude, or rate) of the enhanced audio presentation according to the following:

, ,

при этом M(k, n) является значением масштабирования, при этом k является частотным индексом (например, обозначающим различные элементы разрешения по частоте или частотные диапазоны), при этом n является временным индексом (например, обозначающим различные перекрывающиеся или неперекрывающиеся кадры), и при этом является значением абсолютной величины спектрального значения декодированного аудиопредставления. Значение абсолютной величины может быть абсолютной величиной, абсолютным значением или любой нормой спектрального значения, полученного посредством применения частотно-временного преобразования, такого как как STFT (кратковременное преобразование Фурье), FFT или MDCT, к декодированному аудиосигналу.wherein M(k, n) is a scaling value, wherein k is a frequency index (eg, denoting different frequency bins or frequency bands), wherein n is a temporal index (eg, denoting different overlapping or non-overlapping frames), and wherein is the absolute magnitude value of the spectral value of the decoded audio representation. Meaning The absolute value can be an absolute value, an absolute value, or any norm of a spectral value obtained by applying a time-frequency transform such as STFT, FFT, or MDCT to the decoded audio signal.

Альтернативно, фильтр может быть выполнен с возможностью получать значения улучшенного аудиопредставления согласно следующему:Alternatively, the filter may be configured to receive values improved audio presentation according to the following:

, ,

при этом M(k, n) является значением масштабирования, при этом k является частотным индексом (например, обозначающим различные элементы разрешения по частоте или частотные диапазоны), при этом n является временным индексом (например, обозначающим различные перекрывающиеся или неперекрывающиеся кадры), и при этом является спектральным значением декодированного аудиопредставления.wherein M(k, n) is a scaling value, wherein k is a frequency index (eg, denoting different frequency bins or frequency bands), wherein n is a temporal index (eg, denoting different overlapping or non-overlapping frames), and wherein is the spectral value of the decoded audio representation.

Обнаружено, что такое простое извлечение значения абсолютной величины улучшенного аудиопредставления или (типично комплекснозначных) значений улучшенного аудиопредставления может выполняться с хорошей эффективностью и по-прежнему приводит к значительному улучшению качества звучания.It has been found that such simple extraction of the absolute value of the enhanced audio representation or (typically complex valued) values of the enhanced audio representation can be performed with good efficiency and still results in a significant improvement in audio quality.

В предпочтительном варианте осуществления аудиодекодера, фильтр выполнен с возможностью получать значения масштабирования таким образом, что значения масштабирования вызывают масштабирование (или, в некоторых случаях, усиление) для одного или более спектральных значений декодированного представления аудиосигналов или для одного или более предварительно обработанных спектральных значений, которые основаны на спектральных значениях декодированного представления аудиосигналов.In a preferred embodiment of an audio decoder, the filter is configured to obtain scaling values such that the scaling values cause scaling (or, in some cases, gain) to one or more spectral values of the decoded representation of the audio signals, or to one or more preprocessed spectral values that are based on the spectral values of the decoded representation of the audio signals.

Посредством выполнения такого масштабирования, которое может предпочтительно, но не обязательно, вызывать усиление или затухание, по меньшей мере, для одного спектрального значения (и которое типично может также приводить к затуханию, по меньшей мере, одного спектрального значения), спектр декодированного аудиопредставления может формироваться эффективным способом. Например, посредством предоставления возможности как усиления, так и затухания посредством масштабирования, артефакты, которые могут вызываться посредством ограниченной точности представления чисел, также могут уменьшаться в некоторых случаях. Кроме того, регулирование значений масштабирования необязательно содержит дополнительную степень свободы посредством недопущения ограничения значений масштабирования значениями, меньшими единицы. Соответственно, хорошее улучшение качества звучания может достигаться.By performing such scaling, which may preferably, but not necessarily, cause attenuation or attenuation of at least one spectral value (and which typically may also cause attenuation of at least one spectral value), the spectrum of the decoded audio representation can be generated effective way. For example, by allowing both enhancement and attenuation through scaling, artifacts that may be caused by limited precision in number representation may also be reduced in some cases. In addition, adjusting the scaling values does not necessarily include an additional degree of freedom by preventing the scaling values from being limited to values less than one. Accordingly, good improvement in sound quality can be achieved.

В предпочтительном варианте осуществления аудиодекодера, фильтр содержит нейронную сеть или структуру на основе машинного обучения, выполненную с возможностью обеспечивать значения масштабирования на основе множества спектральных значений, описывающих декодированное аудиопредставление (например, описывающих абсолютные величины преобразованного представления декодированного аудиопредставления), при этом спектральные значения ассоциированы с различными элементами разрешения по частоте или частотными диапазонами.In a preferred embodiment of an audio decoder, the filter comprises a neural network or machine learning-based structure configured to provide scaling values based on a plurality of spectral values describing the decoded audio representation (e.g., describing the absolute values of the transformed representation of the decoded audio representation), wherein the spectral values are associated with different frequency resolution elements or frequency ranges.

Обнаружено, что использование нейронной сети или структуры на основе машинного обучения в таком фильтре способствует сравнительно высокой эффективности. Также обнаружено, что нейронная сеть или структура на основе машинного обучения может легко обрабатывать спектральные значения декодированного аудиопредставления входной величины, в случаях, в которых число спектральных значений, введенных в нейронную сеть или структуру на основе машинного обучения, является сравнительно высоким. Обнаружено, что нейронные сети или структуры на основе машинного обучения могут хорошо обрабатывать такое высокое число входных сигналов или входных величин, и они также могут предлагать большое количество различных значений масштабирования в качестве выходных величин. Другими словами, обнаружено, что нейронные сети или структуры на основе машинного обучения оптимально подходят для того, чтобы извлекать сравнительно большое число значений масштабирования на основе сравнительно большого числа спектральных значений, без необходимости чрезмерных вычислительных ресурсов. Таким образом, значения масштабирования могут регулироваться до спектральных значений декодированного аудиопредставления очень точным способом без чрезмерной вычислительной нагрузки, при этом подробности спектра декодированного аудиопредставления могут рассматриваться при регулировании характеристики фильтрации. Кроме того, обнаружено, что коэффициенты нейронной сети или структуры на основе машинного обучения, предоставляющей значения масштабирования, могут определяться с обоснованным усилием, и что нейронная сеть или структура на основе машинного обучения предоставляет достаточные степени свободы для того, чтобы достигать точного определения значений масштабирования.The use of a neural network or machine learning based structure in such a filter is found to result in comparatively high performance. It has also been found that a neural network or machine learning framework can easily process spectral values of a decoded audio representation of an input quantity, in cases in which the number of spectral values input to the neural network or machine learning framework is comparatively high. It has been found that neural networks or machine learning based structures can handle such a high number of input signals or input quantities well, and they can also offer a large number of different scaling values as output quantities. In other words, neural networks or machine learning-based frameworks are found to be optimally suited to extract a relatively large number of scaling values from a relatively large number of spectral values, without the need for excessive computational resources. In this way, the scaling values can be adjusted to the spectral values of the decoded audio representation in a very precise manner without excessive computational load, and the spectral details of the decoded audio representation can be considered when adjusting the filtering characteristic. It has also been discovered that the coefficients of the neural network or machine learning framework providing the scaling values can be determined with reasonable effort, and that the neural network or machine learning framework provides sufficient degrees of freedom to achieve accurate determination of the scaling values.

В предпочтительном варианте осуществления аудиодекодера, входные сигналы нейронной сети или структуры на основе машинного обучения представляют логарифмические абсолютные величины, амплитуду или норму спектральных значений декодированного аудиопредставления, при этом спектральные значения ассоциированы с различными элементами разрешения по частоте или частотными диапазонами.In a preferred embodiment of an audio decoder, the input signals of the neural network or machine learning framework represent the logarithmic magnitude, amplitude, or norm of spectral values of the decoded audio representation, wherein the spectral values are associated with different frequency bins or frequency ranges.

Обнаружено, что предпочтительно обеспечивать логарифмические абсолютные величины спектральных значений, амплитуды спектральных значений или нормы спектральных значений в качестве входных сигналов нейронной сети или структуры на основе машинного обучения. Обнаружено, что знак или фаза спектральных значений имеет второстепенную важность для регулирования фильтра, т.е. для определения значений масштабирования. В частности, обнаружено, что логарифмизация абсолютных величин спектральных значений декодированного аудиопредставления, в частности, является предпочтительной, поскольку динамический диапазон может уменьшаться. Обнаружено, что нейронная сеть или структура на основе машинного обучения типично может лучше обрабатывать логарифмизированные абсолютные величины спектральных значений по сравнению с самими спектральными значениями, поскольку спектральные значения типично имеют расширенный динамический диапазон. Посредством использования логарифмизированных значений, также можно использовать упрощенное представление чисел в (искусственной) нейронной сети или в структуре на основе машинного обучения, поскольку зачастую не требуется использовать представление чисел с плавающей запятой. Наоборот, можно проектировать нейронную сеть или структуру на основе машинного обучения с использованием представления чисел с фиксированной запятой, что значительно сокращает усилия по реализации.It has been found that it is preferable to provide logarithmic absolute magnitudes of spectral values, amplitudes of spectral values, or norms of spectral values as inputs to a neural network or machine learning framework. It has been found that the sign or phase of the spectral values is of secondary importance for filter control, i.e. to define scaling values. In particular, it has been found that logarithmization of the absolute values of the spectral values of the decoded audio representation is particularly advantageous since the dynamic range may be reduced. It has been found that a neural network or machine learning framework can typically handle logarithmized absolute values of spectral values better than the spectral values themselves, since spectral values typically have an extended dynamic range. By using logarithmized values, it is also possible to use a simplified representation of numbers in an (artificial) neural network or machine learning framework, since it is often not necessary to use a floating point representation. Conversely, it is possible to design a neural network or machine learning framework using a fixed-point representation of numbers, significantly reducing implementation effort.

В предпочтительном варианте осуществления аудиодекодера, выходные сигналы нейронной сети или структуры на основе машинного обучения представляют значения масштабирования (например, значения маски).In a preferred embodiment of the audio decoder, the outputs of the neural network or machine learning framework represent scaling values (eg, mask values).

Посредством предоставления значений масштабирования в качестве выходных сигналов (или выходных величин) нейронной сети или структуры на основе машинного обучения, усилия по реализации могут поддерживаться достаточно низкими. Например, нейронную сеть или структуру на основе машинного обучения, предлагающую сравнительно большое количество значений масштабирования, легко реализовывать. Например, может использоваться однородная структура, что уменьшает усилия по реализации.By providing scaling values as outputs (or output values) of a neural network or machine learning framework, implementation effort can be kept fairly low. For example, a neural network or machine learning framework that offers a relatively large number of scaling values is easy to implement. For example, a homogeneous structure can be used, which reduces implementation effort.

В предпочтительном варианте осуществления аудиодекодера, нейронная сеть или структура на основе машинного обучения обучается, чтобы ограничивать, уменьшать или минимизировать отклонение (например, среднеквадратическую ошибку; например, MSEMA) между множеством целевых значений масштабирования (например, IRM(k, n)) и множеством значений масштабирования (например, M(k, n)), полученных с использованием нейронной сети или с использованием структуры на основе машинного обучения.In a preferred embodiment of an audio decoder, a neural network or machine learning framework is trained to constrain, reduce, or minimize the deviation (e.g., mean square error; e.g., MSE MA ) between a plurality of scaling targets (e.g., IRM(k, n)) and a set of scaling values (for example, M(k, n)) obtained using a neural network or using a machine learning-based framework.

Посредством обучения нейронной сети или структура на основе машинного обучения таким способом, может достигаться то, что улучшенное аудиопредставление, которое получается посредством масштабирования спектральных значений декодированного представления аудиосигналов (или их предварительно обработанной версии) с использованием значений масштабирования, предоставляет хорошее ощущение для слуха. Например, целевые значения масштабирования могут легко определяться, например, на основе знаний обработки с потерями на стороне кодера. Таким образом, может определяться с небольшими усилиями то, какие значения масштабирования лучше всего аппроксимируют спектральные значения декодированного аудиопредставления в идеальное улучшенное аудиопредставление (которое, например, может быть равным входному аудиопредставлению аудиокодера). Другими словами, посредством обучения нейронной сети или структуры на основе машинного обучения, чтобы ограничивать, уменьшать или минимизировать отклонение между множеством целевых значений масштабирования и множеством значений масштабирования, полученных с использованием нейронной сети или с использованием структуры на основе машинного обучения, например, для множества различного аудиоконтента или типов аудиоконтента, может достигаться то, что нейронная сеть или структура на основе машинного обучения предоставляет соответствующие значения масштабирования даже для различного аудиоконтента или различных типов аудиоконтента. Кроме того, посредством использования извлечения между целевыми значениями масштабирования и значениями масштабирования, полученными с использованием нейронной сети или с использованием структуры на основе машинного обучения в качестве величины оптимизации, сложность процесса обучения может поддерживаться небольшой, и числовые проблемы могут не допускаться.By training a neural network or machine learning-based structure in this manner, it can be achieved that the improved audio representation, which is obtained by scaling the spectral values of the decoded representation of the audio signals (or a pre-processed version thereof) using the scaling values, provides a good sensation to the ear. For example, target scaling values can be easily determined, for example, based on knowledge of encoder-side lossy processing. In this way, it can be determined with little effort which scaling values best approximate the spectral values of the decoded audio representation into an ideal enhanced audio representation (which, for example, may be equal to the input audio representation of the audio encoder). In other words, by training a neural network or machine learning-based framework to constrain, reduce, or minimize the deviation between a plurality of target scaling values and a plurality of scaling values obtained using the neural network or using a machine learning-based framework, for example, for a variety of different audio content or types of audio content, it can be achieved that the neural network or machine learning-based structure provides appropriate scaling values even for different audio content or different types of audio content. In addition, by using the extraction between target scaling values and scaling values obtained using a neural network or using a machine learning-based structure as the optimization value, the complexity of the training process can be kept small, and numerical problems can be avoided.

В предпочтительном варианте осуществления аудиодекодера, нейронная сеть или структура на основе машинного обучения обучается, чтобы ограничивать, уменьшать или минимизировать отклонение (например, MSESA) между целевым спектром абсолютной величины, целевым амплитудным спектром, целевым абсолютным спектром или целевым норменным спектром (например, , например, исходным спектром обучающего аудиосигнала) и (улучшенным) спектром абсолютной величины, амплитудным спектром, абсолютным спектром или норменным спектром, полученным с использованием масштабирования (например, частотно-зависимого масштабирования) обработанного (например, декодированного, например, квантованного, кодированного и декодированного) спектра (который, например, основан на целевом спектре абсолютной величины и/или на обучающем аудиосигнале), который использует значения масштабирования, которые обеспечиваются посредством нейронной сети, или посредством структуры на основе машинного обучения (при этом входные сигналы нейронной сети, например, основаны на декодированном спектре).In a preferred embodiment of an audio decoder, a neural network or machine learning framework is trained to constrain, reduce, or minimize the deviation (e.g., MSE SA ) between a target absolute magnitude spectrum, a target amplitude spectrum, a target absolute spectrum, or a target normal spectrum (e.g., , e.g., the original spectrum of the training audio signal) and the (improved) absolute magnitude spectrum, amplitude spectrum, absolute spectrum, or normal spectrum obtained using scaling (e.g., frequency dependent scaling) processed (e.g., decoded, e.g., quantized, encoded, and decoded ) spectrum (which, for example, is based on the target absolute value spectrum and/or on the training audio signal), which uses scaling values that are provided by a neural network, or through a machine learning-based framework (wherein the input signals of the neural network, for example, are based on the decoded spectrum).

Посредством использования такого подхода на основе обучения, типично может обеспечиваться хорошее качество улучшенного аудиопредставления. В частности, обнаружено, что нейронные сети или структуры на основе машинного обучения также обеспечивают соответствующие коэффициенты масштабирования, если декодированное аудиопредставление представляет различный аудиоконтент по сравнению с аудиоконтентом, используемым для обучения. Кроме того, обнаружено, что улучшенное аудиопредставление воспринимается как хорошего качества, если спектр абсолютной величины или амплитудный спектр, или абсолютный спектр, или норменный спектр находится в достаточно хорошем соответствии с требуемым (целевым) спектром абсолютной величины или (целевым) амплитудным спектром, или (целевым) абсолютным спектром, или (целевым) норменным спектром.By using such a learning-based approach, typically good quality enhanced audio presentation can be achieved. In particular, it has been found that neural networks or machine learning-based frameworks also provide appropriate scaling factors if the decoded audio representation represents different audio content compared to the audio content used for training. In addition, it has been found that an enhanced audio presentation is perceived as being of good quality if the absolute magnitude spectrum or amplitude spectrum, or the absolute spectrum, or normal spectrum is in reasonably good agreement with the desired (target) magnitude spectrum or (target) amplitude spectrum, or ( target) absolute spectrum, or (target) normal spectrum.

В предпочтительном варианте осуществления аудио, нейронная сеть или структура на основе машинного обучения обучается таким образом, что масштабирование для одного или более спектральных значений спектрального разложения декодированного представления аудиосигналов или для одного или более предварительно обработанных спектральных значений, которые основаны на спектральных значениях спектрального разложения декодированного представления аудиосигналов, находится в диапазоне между 0 и предварительно определенным максимальным значением.In a preferred embodiment, the audio, neural network or machine learning framework is trained such that it scales to one or more spectral decomposition spectral values of the decoded representation of the audio signals or to one or more preprocessed spectral values that are based on the spectral decomposition spectral values of the decoded representation audio signals, is in the range between 0 and a predefined maximum value.

Обнаружено, что ограничение масштабирования (или значений масштабирования) является полезным, чтобы не допускать чрезмерного усиления спектральных значений. Обнаружено, что очень высокое усиление (или масштабирование) одного или более спектральных значений может приводить к слышимым артефактам. Кроме того, обнаружено, что чрезмерно большие значения масштабирования могут достигаться во время обучения, например, если спектральные значения декодированного аудиопредставления являются очень небольшими или даже равными нулю. Таким образом, качество улучшенного аудиопредставления может повышаться посредством использования такого подхода на основе ограничения.It has been found that limiting the scaling (or scaling values) is useful to prevent excessive amplification of the spectral values. It has been discovered that very high gain (or scaling) of one or more spectral values can lead to audible artifacts. In addition, it has been found that excessively large scaling values can be achieved during training, for example, if the spectral values of the decoded audio representation are very small or even zero. Thus, the quality of the enhanced audio presentation can be improved by using such a constraint-based approach.

В предпочтительном варианте осуществления аудиодекодера, максимальное значение превышает 1 (и, например, может быть равным 2, 5 или 10).In a preferred embodiment of the audio decoder, the maximum value is greater than 1 (and, for example, could be 2, 5 or 10).

Обнаружено, что такое ограничение для масштабирования (или для значений масштабирования) способствует очень хорошим результатам. Например, посредством предоставления возможности усиления (например, посредством предоставления возможности масштабирования или значения масштабирования, большего единицы), артефакты, которые вызываются посредством "спектральных дыр", также могут частично компенсироваться. Одновременно, избыточный шум может быть ограничен посредством затухания (например, с использованием масштабирования или значений масштабирования, меньших единицы). Следовательно, очень гибкое улучшение сигнала может получаться посредством масштабирования.This restriction on scaling (or scaling values) has been found to produce very good results. For example, by providing amplification capability (eg, by providing a scaling capability or a scaling value greater than one), artifacts that are caused by spectral holes can also be partially compensated. At the same time, excess noise can be limited through attenuation (eg, using scaling or scaling values less than one). Therefore, very flexible signal enhancement can be obtained by scaling.

В предпочтительном варианте осуществления аудиодекодера, нейронная сеть или структура на основе машинного обучения обучается таким образом, что масштабирование (или значения масштабирования) для одного или более спектральных значений спектрального разложения декодированного представления аудиосигналов или для одного или более предварительно обработанных спектральных значений, которые основаны на спектральных значениях спектрального разложения декодированного представления аудиосигналов, ограничиваются 2, или ограничиваются 5, или ограничиваются 10, или ограничиваются предварительно определенным значением, большим 1.In a preferred embodiment of an audio decoder, a neural network or machine learning framework is trained such that the scaling (or scaling values) for one or more spectral values of the spectral decomposition of the decoded representation of the audio signals or for one or more preprocessed spectral values that are based on the spectral spectral decomposition values of the decoded representation of audio signals are limited to 2, or limited to 5, or limited to 10, or limited to a predetermined value greater than 1.

Посредством использования такого подхода, артефакты могут поддерживаться достаточно небольшими, в то время как усиление разрешается (что, например, может помогать не допускать "спектральных дыр"). Таким образом, может получаться хорошее ощущение для слуха.By using this approach, artifacts can be kept fairly small while enhancement is resolved (which, for example, can help prevent "spectral holes"). In this way, a good hearing sensation can be obtained.

В предпочтительном варианте осуществления аудиодекодера, нейронная сеть или структура на основе машинного обучения обучается таким образом, что значения масштабирования ограничены 2 или ограничены 5, или ограничены 10, или ограничены предварительно определенным значением, большим 1.In a preferred embodiment of the audio decoder, the neural network or machine learning framework is trained such that the scaling values are limited to 2, or limited to 5, or limited to 10, or limited to a predetermined value greater than 1.

Посредством ограничения значений масштабирования таким диапазоном, может достигаться очень хорошее качество улучшенного аудиопредставления.By limiting the scaling values to such a range, very good quality enhanced audio presentation can be achieved.

В предпочтительном варианте осуществления аудиодекодера, число входных признаков нейронной сети или структуры на основе машинного обучения (например, 516 или 903) больше, по меньшей мере, на коэффициент 2 числа выходных значений (например, 129) нейронной сети или структуры на основе машинного обучения.In a preferred embodiment of the audio decoder, the number of input features of the neural network or machine learning framework (eg, 516 or 903) is greater by at least a factor of 2 than the number of output values (eg, 129) of the neural network or machine learning framework.

Обнаружено, что использование сравнительно большого числа входных признаков для нейронной сети или структуры на основе машинного обучения, которое больше числа выходных значений (или выходных сигналов) нейронной сети или структуры на основе машинного обучения, приводит к конкретным надежным значениям масштабирования. В частности, посредством выбора сравнительно высокого числа входных признаков нейронной сети, можно рассматривать информацию из предыдущих кадров и/или из следующих кадров, при этом обнаружено, что рассмотрение таких дополнительных входных признаков типично повышает качество значений масштабирования и в силу этого качество улучшенного аудиопредставления.It has been found that using a relatively large number of input features to a neural network or machine learning framework that is greater than the number of output values (or outputs) of the neural network or machine learning framework results in specific robust scaling values. In particular, by selecting a relatively high number of neural network input features, information from previous frames and/or subsequent frames can be considered, and it has been found that consideration of such additional input features typically improves the quality of the scaling values and thereby the quality of the enhanced audio presentation.

В предпочтительном варианте осуществления аудиодекодера, фильтр выполнен с возможностью нормализовать входные признаки (например, представленные посредством входных сигналов) нейронной сети или структуры на основе машинного обучения (например, абсолютные величины спектральных значений, полученных с использованием кратковременного преобразования Фурье) до предварительно определенного среднего значения (например, до среднего значения в нуль) и/или до предварительно определенной дисперсии (например, до единичной дисперсии) или среднеквадратического отклонения.In a preferred embodiment of an audio decoder, the filter is configured to normalize input features (eg, represented by input signals) of a neural network or machine learning framework (eg, absolute magnitudes of spectral values obtained using a short-time Fourier transform) to a predetermined average value ( e.g., to a mean of zero) and/or to a predetermined variance (e.g., to unit variance) or standard deviation.

Обнаружено, что нормализация входных признаков нейронной сети или структуры на основе машинного обучения делает предоставление значений масштабирования независимым от громкости или уровня громкости либо от интенсивности декодированного аудиопредставления. Соответственно, нейронная сеть или структура на основе машинного обучения может "фокусироваться" на структурных характеристиках спектра декодированного аудиопредставления и не затрагивается (или не затрагиваются в значительной степени) посредством изменений громкости. Кроме того, посредством выполнения такой нормализации, можно не допускать того, что узлы нейронной сети чрезмерно насыщаются. Кроме того, уменьшается динамический диапазон, что является полезным, чтобы поддерживать представление чисел, используемое в нейронной сети или в структуре на основе машинного обучения, эффективным.Normalization of the input features of a neural network or machine learning framework is found to make the provision of scaling values independent of loudness or loudness level, or the intensity of the decoded audio representation. Accordingly, a neural network or machine learning framework can "focus" on the structural characteristics of the spectrum of the decoded audio representation and is not (or not significantly affected by) changes in volume. In addition, by performing such normalization, it is possible to prevent the nodes of the neural network from becoming overly saturated. In addition, the dynamic range is reduced, which is useful to keep the representation of numbers used in a neural network or machine learning framework efficient.

В предпочтительном варианте осуществления аудиодекодера, нейронная сеть содержит входной слой, один или более скрытых слоев и выходной слой.In a preferred embodiment of an audio decoder, the neural network includes an input layer, one or more hidden layers, and an output layer.

Такая структура нейронной сети оказалась предпочтительной для настоящей заявки.This neural network structure turned out to be preferable for the present application.

В предпочтительном варианте осуществления аудиодекодера, один или более скрытых слоев используют блоки линейной ректификации в качестве функций активации.In a preferred embodiment of an audio decoder, one or more hidden layers use linear rectification units as activation functions.

Обнаружено, что использование блоков линейной ректификации в качестве функций активации обеспечивает возможность предоставления масштабирующих векторов на основе спектральных значений декодированного аудиопредставления с хорошей надежностью.It has been found that the use of linear rectification blocks as activation functions provides the ability to provide scaling vectors based on the spectral values of the decoded audio representation with good reliability.

В предпочтительном варианте осуществления аудиодекодера, выходной слой использует (неограниченные) блоки линейной ректификации или ограниченные блоки линейной ректификации, или сигмоидальные функции (например, масштабированные сигмоидальные функции) в качестве функций активации.In a preferred embodiment of an audio decoder, the output layer uses (unconstrained) linear rectifiers or constrained linear rectifiers, or sigmoid functions (eg, scaled sigmoid functions) as activation functions.

Посредством использования блоков линейной ректификации или ограниченных блоков линейной ректификации, или сигмоидальных функций в качестве функций активации в выходном слое, значения масштабирования могут получаться надежным способом. В частности, использование ограниченных блоков линейной ректификации или сигмоидальных функций предоставляет возможность ограничения значений масштабирования требуемым диапазоном, как пояснено выше. Таким образом, значения масштабирования могут получаться эффективным и надежным способом.By using linear rectification blocks or restricted linear rectification blocks, or sigmoid functions as activation functions in the output layer, scaling values can be obtained in a reliable manner. In particular, the use of limited linear rectification blocks or sigmoid functions provides the ability to limit the scaling values to the required range, as explained above. In this way, scaling values can be obtained in an efficient and reliable manner.

В предпочтительном варианте осуществления аудиодекодера, фильтр выполнен с возможностью получать коэффициенты кратковременного преобразования Фурье (например, ), которые представляют спектральные значения декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами.In a preferred embodiment of an audio decoder, the filter is configured to obtain short-time Fourier transform coefficients (e.g. ), which represent spectral values of the decoded audio representation that are associated with different frequency bins or frequency bands.

Обнаружено, что коэффициенты кратковременного преобразования Фурье составляют, в частности, значимое представление декодированного аудиопредставления. Например, следует признавать то, что коэффициенты кратковременного преобразования Фурье лучше применяются посредством нейронной сети или посредством структуры на основе машинного обучения, чем MDCT-коэффициенты в некоторых случаях (даже если MDCT-коэффициенты могут использоваться посредством аудиодекодера для восстановления декодированного спектрального представления).It is found that the short-time Fourier transform coefficients constitute, in particular, a meaningful representation of the decoded audio representation. For example, it should be recognized that short-time Fourier transform coefficients are better applied by a neural network or machine learning-based framework than MDCT coefficients in some cases (even though the MDCT coefficients can be used by an audio decoder to reconstruct the decoded spectral representation).

В предпочтительном варианте осуществления аудиодекодера, фильтр выполнен с возможностью извлекать логарифмическую абсолютную величину, амплитуду, абсолютные или норменные значения (например, на основе коэффициентов кратковременного преобразования Фурье) и определять значения масштабирования на основе логарифмической абсолютной величины, амплитуды, абсолютных или норменных значений.In a preferred embodiment of an audio decoder, the filter is configured to extract log absolute value, amplitude, absolute or normal values (eg, based on short time Fourier transform coefficients) and determine scaling values based on log absolute value, amplitude, absolute or normal values.

Обнаружено, что извлечение значений масштабирования на основе неотрицательных значений, таких как логарифмические значения абсолютной величины, значения амплитуды, абсолютные значения или норменные значения, является эффективным, поскольку рассмотрение фазы должно значительно увеличивать вычислительную нагрузку без результирующего существенного улучшения значений масштабирования. Таким образом, удаление знака и типично также фазы спектральных значений (например, полученных посредством кратковременного преобразования Фурье) способствует хорошему компромиссу между сложностью и качеством звучания.Extracting scaling values based on non-negative values, such as log absolute values, amplitude values, absolute values, or normal values, has been found to be effective since considering phase must significantly increase the computational load without resulting in significant improvement in scaling values. Thus, removing the sign and typically also the phase of spectral values (eg obtained through the short-time Fourier transform) promotes a good compromise between complexity and sound quality.

В предпочтительном варианте осуществления аудиодекодера, фильтр выполнен с возможностью определять множество значений масштабирования, ассоциированных с текущим кадром (например, с текущим кадром декодированного аудиопредставления или с текущим кадром кратковременного преобразования Фурье) на основе спектральных значений декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами текущего кадра, и на основе спектральных значений декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами одного или более кадров, предшествующих текущему кадру (например, предыдущих контекстных кадров).In a preferred embodiment of an audio decoder, the filter is configured to determine a plurality of scaling values associated with a current frame (eg, a current frame of a decoded audio representation or a current frame of a short time Fourier transform) based on spectral values of the decoded audio representation that are associated with various frequency bins or frequency ranges of the current frame, and based on spectral values of the decoded audio representation that are associated with different frequency bins or frequency ranges of one or more frames preceding the current frame (eg, previous context frames).

Тем не менее, обнаружено, что рассмотрение спектральных значений одного или более кадров, предшествующих текущему кадру, помогает улучшать масштабирующие векторы. Это обусловлено тем фактом, что множество типов аудиоконтента содержат временную корреляцию между последующими кадрами. Таким образом, нейронная сеть или структура на основе машинного обучения, например, может рассматривать временную эволюцию спектральных значений при определении значений масштабирования. Например, нейронная сеть или структура на основе машинного обучения может регулировать значения масштабирования, чтобы не допускать (или противодействовать) чрезмерных изменений масштабированных спектральных значений (например, в улучшенном аудиопредставлении) со временем.However, it has been found that considering the spectral values of one or more frames preceding the current frame helps improve the scaling vectors. This is due to the fact that many types of audio content contain temporal correlation between subsequent frames. Thus, a neural network or machine learning framework, for example, can consider the temporal evolution of spectral values when determining scaling values. For example, a neural network or machine learning framework may adjust the scaling values to prevent (or counteract) the scaled spectral values (eg, in an enhanced audio representation) from changing excessively over time.

В предпочтительном варианте осуществления аудиодекодера, фильтр выполнен с возможностью определять множество значений масштабирования, ассоциированных с текущим кадром (например, с текущим кадром декодированного аудиопредставления или с текущим кадром кратковременного преобразования Фурье) на основе спектральных значений декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами одного или более кадров после текущего кадра (например, будущих контекстных кадров).In a preferred embodiment of an audio decoder, the filter is configured to determine a plurality of scaling values associated with a current frame (eg, a current frame of a decoded audio representation or a current frame of a short time Fourier transform) based on spectral values of the decoded audio representation that are associated with various frequency bins or frequency ranges of one or more frames after the current frame (eg, future context frames).

Посредством рассмотрения спектральных значений декодированного аудиопредставления одного или более кадров после текущих кадров, также могут быть использованы корреляции между последующими кадрами, и качество значений масштабирования типично может повышаться.By considering the spectral values of the decoded audio representation of one or more frames after the current frames, correlations between subsequent frames can also be exploited, and the quality of the scaling values can typically be improved.

Вариант осуществления согласно настоящему изобретению обеспечивает устройство для определения набора значений (например, коэффициентов нейронной сети или коэффициентов другой структуры на основе машинного обучения), задающих характеристики фильтра (например, фильтра на основе нейронной сети или фильтра на основе другой структуры на основе машинного обучения) для обеспечения улучшенного аудиопредставления (например, ) на основе декодированного аудиопредставления (которое, например, может обеспечиваться посредством декодирования аудио).An embodiment of the present invention provides an apparatus for determining a set of values (e.g., neural network coefficients or coefficients of another machine learning-based structure) defining characteristics of a filter (e.g., a neural network-based filter or a filter based on another machine learning-based structure) for providing an enhanced audio presentation (e.g. ) based on the decoded audio representation (which, for example, may be provided by audio decoding).

Устройство выполнено с возможностью получать спектральные значения (например, абсолютные величины или фазы, или MDCT-коэффициенты, например, представленные посредством значений абсолютной величины, например, ) декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами.The device is configured to obtain spectral values (for example, absolute magnitudes or phases, or MDCT coefficients, for example, represented by absolute magnitude values, for example, ) decoded audio representations that are associated with different frequency bins or frequency ranges.

Устройство выполнено с возможностью определять набор значений, задающих характеристики фильтра, так что значения масштабирования, обеспеченные посредством фильтра на основе спектральных значений декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, аппроксимируют целевые значения масштабирования (которые могут вычисляться на основе сравнения требуемого улучшенного аудиопредставления и декодированного аудиопредставления).The apparatus is configured to determine a set of values defining filter characteristics such that scaling values provided by the filter based on spectral values of the decoded audio representation that are associated with different frequency bins or frequency ranges approximate the target scaling values (which may be calculated based on the comparison the required enhanced audio presentation and the decoded audio presentation).

Альтернативно, устройство выполнено с возможностью определять набор значений, задающих характеристики фильтра, так что спектр, полученный посредством фильтра на основе спектральных значений декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, и с использованием значений масштабирования, полученных на основе декодированного аудиопредставления, аппроксимирует целевой спектр (который может соответствовать требуемому улучшенному аудиопредставлению и который может быть равным входному сигналу аудиокодера в цепочке обработки, содержащей аудиокодер и аудиодекодер, включающий в себя фильтр).Alternatively, the apparatus is configured to determine a set of values defining filter characteristics such that the spectrum obtained by the filter is based on spectral values of the decoded audio representation that are associated with different frequency bins or frequency ranges, and using scaling values obtained based on the decoded audio representation. audio representation, approximates the target spectrum (which may correspond to the desired enhanced audio representation and which may be equal to the input signal of an audio encoder in a processing chain comprising an audio encoder and an audio decoder including a filter).

С использованием такого устройства, набор значений, задающих характеристики фильтра, который используется в вышеуказанном аудиодекодере, может получаться с небольшими усилиями. В частности, набор значений, которые могут представлять собой коэффициенты нейронной сети или коэффициенты другой структуры на основе машинного обучения, задающие характеристики фильтра, может определяться таким образом, что фильтр использует значения масштабирования, которые приводят к хорошему качеству звука и приводят к улучшению улучшенного аудиопредставления по сравнению с декодированным аудиопредставлением. Например, определение набора значений, задающих характеристики фильтра, может выполняться на основе множества обучающего аудиоконтента или опорного аудиоконтента, при этом целевые значения масштабирования или целевой спектр могут извлекаться из опорного аудиоконтента. Тем не менее, обнаружено, что набор значений, задающих характеристики фильтра, типично также является подходящим для аудиоконтента, который отличается от опорного аудиоконтента, при условии, что опорный аудиоконтент, по меньшей мере, до некоторой степени представляет аудиоконтент, который должен декодироваться посредством аудиодекодера, упомянутого выше. Кроме того, обнаружено, что использование значений масштабирования, предоставленных посредством фильтра или с использованием спектра, полученного посредством фильтра в качестве величины оптимизации, приводит к надежному набору значений, задающих характеристики фильтра.Using such a device, a set of values specifying the characteristics of the filter that is used in the above audio decoder can be obtained with little effort. In particular, a set of values, which may be coefficients of a neural network or coefficients of another machine learning-based structure, specifying the characteristics of the filter, may be determined such that the filter uses scaling values that result in good audio quality and result in an improved enhanced audio presentation over compared to the decoded audio representation. For example, determining a set of values defining filter characteristics may be performed based on a plurality of training audio content or reference audio content, where target scaling values or target spectrum may be derived from the reference audio content. However, it has been found that the set of values defining the filter characteristics is typically also suitable for audio content that is different from the reference audio content, provided that the reference audio content is at least to some extent representative of the audio content that is to be decoded by the audio decoder. mentioned above. In addition, it has been found that using scaling values provided by the filter or using the spectrum obtained by the filter as the optimization value results in a reliable set of values defining the characteristics of the filter.

В предпочтительном варианте осуществления устройства, устройство выполнено с возможностью обучать структуру на основе машинного обучения (например, нейронную сеть), которая является частью фильтра и которая обеспечивает значения масштабирования для масштабирования значений абсолютной величины декодированного аудиосигнала или спектральных значений декодированного аудиосигнала, чтобы уменьшать или минимизировать отклонение (например, среднеквадратическую ошибку; например, MSEMA) между множеством целевых значений масштабирования (например, IRM(k, n)) и множеством значений масштабирования (например, M(k, n)), полученных с использованием нейронной сети, на основе спектральных значений декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами.In a preferred embodiment of the device, the device is configured to train a machine learning-based structure (e.g., a neural network) that is part of the filter and that provides scaling values for scaling the absolute magnitude values of the decoded audio signal or the spectral values of the decoded audio signal to reduce or minimize deviation (e.g., root mean square error; e.g., MSE MA ) between a set of target scaling values (e.g., IRM(k, n)) and a set of scaling values (e.g., M(k, n)) obtained using a neural network based on spectral decoded audio representation values that are associated with different frequency bins or frequency ranges.

Посредством обучения структуры на основе машинного обучения с использованием целевых значений масштабирования, которые, например, могут извлекаться на основе исходного аудиоконтента, который кодируется и декодируется в цепочке обработки, содержащей аудиодекодер (который извлекает декодированное аудиопредставление), структура на основе машинного обучения может проектироваться (или конфигурироваться) с возможностью, по меньшей мере, частично компенсировать ухудшение характеристик сигнала в цепочке обработки. Например, целевые значения масштабирования могут определяться таким образом, что целевые значения масштабирования масштабируют декодированное аудиопредставление таким образом, что декодированное аудиопредставление аппроксимирует (исходное) аудиопредставление, вводимое в цепочку обработки (например, вводимое в аудиокодер). Таким образом, значения масштабирования, обеспеченные посредством структуры на основе машинного обучения, могут иметь высокую степень надежности и могут быть выполнены с возможностью улучшать восстановление аудиоконтента, которое подвергается цепочке обработки.By training a machine learning-based structure using scaling targets that, for example, can be derived from the original audio content that is encoded and decoded in a processing chain containing an audio decoder (which extracts the decoded audio representation), the machine learning-based structure can be designed (or configured) with the ability to at least partially compensate for signal degradation in the processing chain. For example, scaling targets may be determined such that the scaling targets scale the decoded audio representation such that the decoded audio representation approximates the (original) audio representation input to the processing chain (eg, input to an audio encoder). Thus, the scaling values provided by the machine learning-based framework can have a high degree of reliability and can be configured to improve the recovery of audio content that is subjected to the processing chain.

В предпочтительном варианте осуществления, устройство выполнено с возможностью обучать структуру на основе машинного обучения (например, нейронную сеть), с тем чтобы уменьшать или минимизировать отклонение (например, MSESA) между целевым спектром (абсолютной величины) (например, , например, исходным спектром обучающего аудиосигнала) и (улучшенным) спектром (или спектром абсолютной величины), полученным с использованием масштабирования (например, частотно-зависимого масштабирования) обработанного (например, декодированного, например, квантованного, кодированного и декодированного) спектра (который, например, основан на целевом спектре абсолютной величины и/или на обучающем аудиосигнале), который использует значения масштабирования, которые обеспечиваются посредством структуры на основе машинного обучения (например, нейронной сети). Например, входные сигналы структуры на основе машинного обучения или нейронной сети основаны на декодированном спектре.In a preferred embodiment, the device is configured to train a machine learning-based structure (e.g., a neural network) so as to reduce or minimize the deviation (e.g., MSE SA ) between a target (absolute value) spectrum (e.g., , e.g., the original spectrum of the training audio signal) and the (enhanced) spectrum (or absolute magnitude spectrum) obtained using scaling (e.g., frequency-dependent scaling) of the processed (e.g., decoded, e.g., quantized, encoded, and decoded) spectrum (which, for example, based on a target absolute magnitude spectrum and/or on a training audio signal) that uses scaling values that are provided by a machine learning-based framework (eg, a neural network). For example, machine learning or neural network based structure inputs are based on the decoded spectrum.

Обнаружено, что такое обучение структуры на основе машинного обучения также приводит к значениям масштабирования, которые обеспечивают возможность компенсации ухудшения характеристик сигнала в цепочке обработки сигналов (которая может содержать кодирование аудио и декодирование аудио). Например, целевой спектр может представлять собой спектр опорного аудиоконтента или обучающего аудиоконтента, который вводится в цепочке обработки, содержащей аудиокодер (с потерями) и аудиодекодер, предоставляющий декодированное аудиопредставление. Таким образом, структура на основе машинного обучения может обучаться таким образом, что значения масштабирования масштабируют декодированное аудиопредставление, чтобы аппроксимировать опорный аудиоконтент, вводимый в аудиокодер. Следовательно, структура на основе машинного обучения может обучаться, чтобы обеспечивать значения масштабирования, которые помогают преодолевать ухудшение характеристик в цепочке обработки (с потерями).It is found that such machine learning-based structure training also results in scaling values that provide the ability to compensate for signal degradation in the signal processing chain (which may include audio encoding and audio decoding). For example, the target spectrum may be the spectrum of reference audio content or training audio content that is input into a processing chain comprising an audio encoder (lossy) and an audio decoder providing a decoded audio representation. Thus, the machine learning framework can be trained such that the scaling values scale the decoded audio representation to approximate the reference audio content input to the audio encoder. Therefore, the machine learning-based framework can learn to provide scaling values that help overcome performance degradation in the (lossy) processing chain.

В предпочтительном варианте осуществления, устройство выполнено с возможностью обучать структуру на основе машинного обучения (например, нейронную сеть) таким образом, что масштабирование (или значение масштабирования) для спектральных значений декодированного представления аудиосигналов или для одного или более предварительно обработанных спектральных значений, которые основаны на спектральных значениях декодированного представления аудиосигналов, находится в диапазоне между 0 и 2 или находится в диапазоне между 0 и 5, или находится в диапазоне между 0 и 10, или находится в диапазоне между 0 и максимальным значением (которое, например, может быть больше 1).In a preferred embodiment, the device is configured to train a machine learning-based structure (eg, a neural network) such that a scaling (or scaling value) for the spectral values of the decoded representation of the audio signals or for one or more pre-processed spectral values that is based on spectral values of the decoded representation of audio signals, is in the range between 0 and 2, or is in the range between 0 and 5, or is in the range between 0 and 10, or is in the range between 0 and the maximum value (which, for example, may be greater than 1) .

Посредством ограничения масштабирования предварительно определенным диапазоном (например, между нулем и предварительно определенным значением, которое типично может быть больше единицы), можно не допускать артефактов, которые могут вызываться, например, посредством чрезмерно больших значений масштабирования. Кроме того, следует отметить, что ограничение значений масштабирования (которое может обеспечиваться в качестве выходных сигналов нейронной сети или структуры на основе машинного обучения) предоставляет возможность сравнительно простой реализации выходных каскадов (например, выходных узлов) нейронной сети или структуры на основе машинного обучения.By limiting the scaling to a predefined range (eg, between zero and a predefined value, which typically may be greater than one), artifacts that may be caused by, for example, excessively large scaling values can be avoided. Additionally, it should be noted that limiting the scaling values (which may be provided as the outputs of the neural network or machine learning framework) allows the output stages (eg, output nodes) of the neural network or machine learning framework to be implemented relatively easily.

В предпочтительном варианте осуществления устройства, устройство выполнено с возможностью обучать структуру на основе машинного обучения (например, нейронную сеть) таким образом, что масштабирование абсолютной величины (или значения масштабирования) для спектральных значений декодированного представления аудиосигналов или для одного или более предварительно обработанных спектральных значений, которые основаны на спектральных значениях декодированного представления аудиосигналов, ограничено таким образом, что они находятся в диапазоне между 0 и предварительно определенным максимальным значением.In a preferred embodiment of the device, the device is configured to train a machine learning-based structure (e.g., a neural network) such that an absolute magnitude scaling (or scaling value) for spectral values of the decoded representation of the audio signals or for one or more pre-processed spectral values, which are based on the spectral values of the decoded representation of the audio signals are limited such that they are in the range between 0 and a predetermined maximum value.

Посредством ограничения масштабирования абсолютной величины (или значений масштабирования) таким образом, что они находятся в диапазоне между нулем и предварительно определенным максимумом, переключение ухудшения характеристик, вызываемое посредством чрезмерно сильного масштабирования абсолютной величины, не допускается.By limiting the absolute value scaling (or scaling values) so that they are in the range between zero and a predetermined maximum, switching degradation caused by excessively strong absolute value scaling is prevented.

В предпочтительном варианте осуществления аудиодекодера, максимальное значение превышает 1 (и, например, может быть равным 2, 5 или 10).In a preferred embodiment of the audio decoder, the maximum value is greater than 1 (and, for example, could be 2, 5 or 10).

Посредством предоставления возможности того, что максимальное значение масштабирования абсолютной величины больше единицы, затухание и усиление могут достигаться посредством масштабирования с использованием значений масштабирования. Показано, что такая концепция является очень гибкой и способствует очень хорошему ощущению для слуха.By allowing the maximum absolute value scaling value to be greater than one, attenuation and gain can be achieved by scaling using the scaling values. This concept has been shown to be very flexible and to provide a very good listening experience.

Вариант осуществления изобретения обеспечивает способ для обеспечения декодированного аудиопредставления на основе кодированного аудиопредставления.An embodiment of the invention provides a method for providing a decoded audio representation based on an encoded audio representation.

Способ содержит предоставление улучшенного аудиопредставления (например, ) декодированного аудиопредставления (например, ), при этом входное аудиопредставление, которое используется посредством фильтра, предоставляющего улучшенное аудиопредставление, например, может обеспечиваться посредством ядра декодера для аудиодекодера.The method comprises providing an enhanced audio presentation (for example, ) decoded audio representation (e.g. ), wherein an input audio representation that is used by a filter providing an enhanced audio representation, for example, may be provided by a decoder core for an audio decoder.

Способ содержит получение множества значений масштабирования (например, значений маски, например, M(k, n)), которые, например, могут быть действительнозначными и которые, например, могут быть неотрицательными, и которые, например, может быть ограничены предварительно определенным диапазоном, и которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами (например, имеющими индекс элемента разрешения по частоте или индекс k частотного диапазона), на основе спектральных значений декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами (например, имеющими индекс элемента разрешения по частоте или индекс k частотного диапазона).The method comprises obtaining a plurality of scaling values (e.g., mask values, e.g., M(k, n)), which, for example, may be real-valued and which, for example, may be non-negative, and which, for example, may be limited to a predetermined range, and which are associated with different frequency bins or frequency bands (eg, having a frequency bin index or frequency band index k), based on the spectral values of the decoded audio representation that are associated with the different frequency bins or frequency bands (eg, having frequency resolution element index or frequency range index k).

Способ содержит масштабирование спектральных значений декодированного представления аудиосигналов (например, ) или их предварительно обработанной версии с использованием значений масштабирования (например, M(k, n)) для получения улучшенного аудиопредставления (например, ). The method comprises scaling spectral values of a decoded representation of audio signals (for example, ) or a pre-processed version thereof using scaling values (e.g. M(k, n)) to produce an enhanced audio representation (e.g. ).

Этот способ основан на подходыподходах, идентичных подходыподходам для вышеописанного устройства. Кроме того, следует отметить, что способ может дополняться посредством любых из признаков, функциональностей и подробностей, описанных в данном документе, также относительно устройства. Кроме того, следует отметить, что способ может дополняться посредством любых из этих признаков, функциональностей и подробностей как отдельно, так и в комбинации.This method is based on approaches identical to those for the above-described device. In addition, it should be noted that the method may be extended by any of the features, functionality and details described herein also with respect to the apparatus. It should further be noted that the method may be enhanced by any of these features, functionality and details, either individually or in combination.

Вариант осуществления обеспечивает способ для определения набора значений (например, коэффициентов нейронной сети или коэффициентов другой структуры на основе машинного обучения), задающих характеристики фильтра (например, фильтра на основе нейронной сети или фильтра на основе другой структуры на основе машинного обучения) для обеспечения улучшенного аудиопредставления (например, ) на основе декодированного аудиопредставления (которое, например, может обеспечиваться посредством декодирования аудио).An embodiment provides a method for determining a set of values (e.g., neural network coefficients or coefficients of another machine learning-based structure) defining characteristics of a filter (e.g., a neural network-based filter or a filter based on another machine learning-based structure) to provide an enhanced audio presentation (For example, ) based on the decoded audio representation (which, for example, may be provided by audio decoding).

Способ содержит получение спектральных значений (например, абсолютных величин или фаз, или MDCT-коэффициентов, представленных посредством значений абсолютной величины, например, ) декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами.The method comprises obtaining spectral values (for example, absolute magnitudes or phases, or MDCT coefficients represented by absolute magnitude values, for example, ) decoded audio representations that are associated with different frequency bins or frequency ranges.

Способ содержит определение набора значений, задающих характеристики фильтра, так что значения масштабирования, обеспеченные посредством фильтра на основе спектральных значений декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, аппроксимируют целевые значения масштабирования (которые могут вычисляться на основе сравнения требуемого улучшенного аудиопредставления и декодированного аудиопредставления).The method comprises defining a set of values defining filter characteristics such that the scaling values provided by the filter based on spectral values of the decoded audio representation that are associated with different frequency bins or frequency ranges approximate the target scaling values (which can be calculated based on a comparison of the desired improved audio presentation and decoded audio presentation).

Альтернативно, способ содержит определение набора значений, задающих характеристики фильтра, так что спектр, полученный посредством фильтра на основе спектральных значений декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, и с использованием значений масштабирования, полученных на основе декодированного аудиопредставления, аппроксимирует целевой спектр (который может соответствовать требуемому улучшенному аудиопредставлению и который может быть равным входному сигналу аудиокодера в цепочке обработки, содержащей аудиокодер и аудиодекодер, включающий в себя фильтр).Alternatively, the method comprises defining a set of values defining characteristics of the filter, such that a spectrum obtained by the filter based on spectral values of the decoded audio representation that are associated with different frequency bins or frequency bands, and using scaling values obtained based on the decoded audio representation, approximates the target spectrum (which may correspond to the desired enhanced audio representation and which may be equal to the input signal of the audio encoder in a processing chain comprising an audio encoder and an audio decoder including a filter).

Этот способ основан на подходыподходах, идентичных подходыподходам для вышеописанного устройства. Тем не менее, следует отметить, что способ может дополняться посредством любых из признаков, функциональностей и подробностей, описанных в данном документе, также относительно устройства. Кроме того, способ может дополняться посредством признаков, функциональностей и подробностей как отдельно, так и в комбинации.This method is based on approaches identical to those for the device described above. However, it should be noted that the method can be extended by any of the features, functionality and details described herein also with respect to the apparatus. In addition, the method can be complemented by features, functionality and details, either individually or in combination.

Вариант осуществления согласно изобретению обеспечивает компьютерную программу для осуществления способа, описанного в данном документе, когда компьютерная программа работает на компьютере.An embodiment of the invention provides a computer program for implementing the method described herein when the computer program runs on a computer.

4. Краткое описание чертежей4. Brief description of drawings

Далее описываются варианты осуществления согласно настоящему изобретению со ссылкой на прилагаемые чертежи, на которых:Embodiments according to the present invention will now be described with reference to the accompanying drawings, in which:

Фиг. 1 показывает принципиальную блок-схему аудиодекодера, согласно варианту осуществления настоящего изобретения;Fig. 1 shows a circuit block diagram of an audio decoder according to an embodiment of the present invention;

Фиг. 2 показывает принципиальную блок-схему устройства для определения набора значений, задающих характеристики фильтра, согласно варианту осуществления настоящего изобретения;Fig. 2 shows a schematic block diagram of an apparatus for determining a set of values defining filter characteristics, according to an embodiment of the present invention;

Фиг. 3 показывает принципиальную блок-схему аудиодекодера, согласно варианту осуществления настоящего изобретения;Fig. 3 shows a circuit block diagram of an audio decoder according to an embodiment of the present invention;

Фиг. 4 показывает принципиальную блок-схему устройства для определения набора значений, задающих характеристики фильтра, согласно варианту осуществления настоящего изобретения;Fig. 4 shows a schematic block diagram of an apparatus for determining a set of values defining filter characteristics, according to an embodiment of the present invention;

Фиг. 5 показывает принципиальную блок-схему устройства для определения набора значений, задающих характеристики фильтра, согласно варианту осуществления настоящего изобретения;Fig. 5 shows a schematic block diagram of an apparatus for determining a set of filter characteristic values according to an embodiment of the present invention;

Таблица 1 показывает представление процентной доли от значений маски, которые находятся в интервале (0, 1) для различного отношения "сигнал-шум" (SNR);Table 1 shows a representation of the percentage of mask values that are in the interval (0, 1) for different signal-to-noise ratio (SNR);

Таблица 2 показывает представление процентной доли от значений маски в различных пороговых областях, измеренных при наименьших трех скоростях передачи битов AMR-WB;Table 2 shows a representation of the percentage of mask values in various threshold regions measured at the lowest three AMR-WB bit rates;

Фиг. 6 показывает схематичное представление полностью соединенной нейронной сети (FCNN), которая преобразует логарифмическую абсолютную величину в действительнозначные маски;Fig. 6 shows a schematic representation of a fully connected neural network (FCNN) that converts log absolute value into real-valued masks;

Фиг. 7 показывает графическое представление средних количественных PESQ- и POLQA-показателей, оценивающих эксперимент по принципу оракула с различными пределами маски при 6,65 Кбит/с;Fig. 7 shows a graphical representation of the average PESQ and POLQA scores evaluating the oracle experiment with different mask limits at 6.65 Kbps;

Фиг. 8 показывает графическое представление средних количественных PESQ- и POLQA-показателей, оценивающих производительность предложенных способов и EVS-постпроцессора;Fig. 8 shows a graphical representation of the average quantitative PESQ and POLQA indicators evaluating the performance of the proposed methods and the EVS post-processor;

Фиг. 9 показывает блок-схему последовательности операций способа, согласно варианту осуществления настоящего изобретения; иFig. 9 shows a flowchart of a method according to an embodiment of the present invention; And

Фиг. 10 показывает блок-схему последовательности операций способа, согласно варианту осуществления настоящего изобретения.Fig. 10 shows a flowchart of a method according to an embodiment of the present invention.

5. Подробное описание вариантов осуществления5. Detailed Description of Embodiments

1. Аудиодекодер согласно фиг. 11. Audio decoder according to FIG. 1

Фиг. 1 показывает принципиальную блок-схему аудиодекодера 100, согласно варианту осуществления настоящего изобретения. Аудиодекодер 100 выполнен с возможностью принимать кодированное аудиопредставление 110 и обеспечивать, на его основе, улучшенное аудиопредставление 112, которое может представлять собой улучшенную форму декодированного аудиопредставления.Fig. 1 shows a circuit block diagram of an audio decoder 100 according to an embodiment of the present invention. Audio decoder 100 is configured to receive the encoded audio representation 110 and provide therefrom an enhanced audio representation 112, which may be an improved form of the decoded audio representation.

Аудиодекодер 100 необязательно содержит ядро 120 декодера, которое может принимать кодированное аудиопредставление 110 и обеспечивать, на его основе, декодированное аудиопредставление 122. Аудиодекодер дополнительно содержит фильтр 130, который выполнен с возможностью обеспечивать улучшенное аудиопредставление 112 на основе декодированного аудиопредставления 122. Фильтр 130, который может рассматриваться как постфильтр, выполнен с возможностью получать множество значений 136 масштабирования, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, на основе спектральных значений 132 декодированного аудиопредставления, которые также ассоциированы с различными элементами разрешения по частоте или частотными диапазонами. Например, фильтр 130 может содержать определение значений масштабирования или модуль 134 определения значений масштабирования, который принимает спектральные значения 132 декодированного аудиопредставления и который обеспечивает значения 136 масштабирования. Фильтр 130 дополнительно выполнен с возможностью масштабировать спектральные значения декодированного представления аудиосигналов или их предварительно обработанную версию с использованием значений 136 масштабирования для получения улучшенного аудиопредставления 112.Audio decoder 100 optionally includes a decoder core 120 that can receive an encoded audio presentation 110 and provide, based thereon, a decoded audio presentation 122. The audio decoder further includes a filter 130 that is configured to provide an enhanced audio presentation 112 based on the decoded audio presentation 122. A filter 130 that can regarded as a post-filter, is configured to obtain a plurality of scaling values 136 that are associated with different frequency bins or frequency bands, based on the spectral values 132 of the decoded audio representation that are also associated with different frequency bins or frequency bands. For example, filter 130 may include a scaling value determination or scaling value determination module 134 that receives spectral values 132 of the decoded audio representation and that provides scaling values 136 . The filter 130 is further configured to scale the spectral values of the decoded representation of the audio signals or a pre-processed version thereof using the scaling values 136 to obtain an improved audio representation 112.

Следует отметить, что спектральные значения декодированного аудиопредставления, которые используются для того, чтобы получать значения масштабирования, могут быть идентичными спектральным значениям, которые фактически масштабируются (например, посредством масштабирования или модуля 138 масштабирования), или могут отличаться от спектральных значений, которые фактически масштабируются. Например, первый поднабор спектральных значений декодированного аудиопредставления может использоваться для определения значений масштабирования, и второй поднабор спектральных значений спектра или амплитудного спектра, или абсолютного спектра, или норменного спектра может фактически масштабироваться. Первый поднабор и второй поднабор могут быть равными или могут перекрываться частично, или могут даже полностью отличаться (вообще без общих спектральных значений).It should be noted that the spectral values of the decoded audio representation that are used to obtain the scaling values may be identical to the spectral values that are actually scaled (eg, by scaling or scaling module 138), or may be different from the spectral values that are actually scaled. For example, a first subset of spectral values of the decoded audio representation may be used to determine scaling values, and a second subset of spectral values of a spectrum or amplitude spectrum or absolute spectrum or normal spectrum may actually be scaled. The first subset and the second subset may be equal, or may overlap partially, or may even be completely different (with no common spectral values at all).

Относительно функциональности аудиодекодера 100 можно сказать, что аудиодекодер 100 предоставляет декодированное аудиопредставление 122 на основе кодированного аудиопредставления. Поскольку кодирование (т.е. предоставление кодированного аудиопредставления) типично выполняется с потерями, декодированное аудиопредставление 122, предоставляемое, например, посредством ядра декодера может содержать некоторое ухудшение характеристик по сравнению с исходным аудиоконтентом (который может подаваться в аудиокодер, предоставляющий кодированное аудиопредставление 110). Следует отметить, что декодированное аудиопредставление 122, предоставляемое, например, посредством ядра декодера, может принимать любую форму, и, например, может обеспечиваться посредством ядра декодера в форме представления во временной области или в форме представления в спектральной области. Представление в спектральной области, например, может содержать коэффициенты (дискретного) преобразования Фурье или (дискретные) MDCT-коэффициенты и т.п.With respect to the functionality of the audio decoder 100, it can be said that the audio decoder 100 provides a decoded audio representation 122 based on the encoded audio representation. Because encoding (i.e., providing a coded audio representation) is typically lossy, the decoded audio representation 122 provided by, for example, the decoder core may contain some degradation in performance compared to the original audio content (which may be provided to the audio encoder providing the coded audio representation 110). It should be noted that the decoded audio representation 122 provided by, for example, the decoder core may take any form, and, for example, may be provided by the decoder core in the form of a time domain representation or in the form of a spectral domain representation. The spectral domain representation, for example, may contain (discrete) Fourier transform coefficients or (discrete) MDCT coefficients and the like.

Фильтр 130, например, может получать (или принимать) спектральные значения, представляющие декодированное аудиопредставление. Тем не менее, спектральные значения, используемые посредством фильтра 130, например, могут иметь другой тип по сравнению со спектральными значениями, предоставленными посредством ядра декодера. Например, фильтр 130 может использовать коэффициенты Фурье в качестве спектральных значений, в то время как ядро 120 декодера первоначально только предоставляет MDCT-коэффициенты. Кроме того, фильтр 130 может, необязательно, извлекать спектральные значения из представления во временной области декодированного аудиопредставления 120, например, посредством преобразования Фурье или MDCT-преобразования и т.п. (например, кратковременного преобразования Фурье (STFT)).Filter 130, for example, may receive (or receive) spectral values representing the decoded audio representation. However, the spectral values used by the filter 130, for example, may be of a different type compared to the spectral values provided by the decoder core. For example, filter 130 may use Fourier coefficients as spectral values, while decoder core 120 initially only provides MDCT coefficients. In addition, filter 130 may optionally extract spectral values from the time domain representation of decoded audio representation 120, for example, through a Fourier transform or an MDCT transform, or the like. (for example, short-time Fourier transform (STFT)).

Определение 134 значений масштабирования извлекает значения 136 масштабирования из множества спектральных значений декодированного аудиопредставления (например, извлекаемых из декодированного аудиопредставления). Например, определение 134 значений масштабирования может содержать нейронную сеть или структуру на основе машинного обучения, которая принимает спектральные значения 132 и извлекает значения 136 масштабирования. Кроме того, спектральные значения улучшенного аудиопредставления 112 могут получаться посредством масштабирования спектральных значений декодированного аудиопредставления (которое может быть равным или отличающимся от спектральных значений, используемых посредством определения 134 значений масштабирования) в соответствии со значениями 136 масштабирования. Например, значения 136 масштабирования могут задавать масштабирование спектральных значений в различных элементах разрешения по частоте или частотных диапазонах. Кроме того, следует отметить, что масштабирование 136 может работать с комплекснозначными спектральными значениями или с действительнозначными спектральными значениями (например, значениями амплитуды или значениями абсолютной величины, или норменными значениями).The scaling value determination 134 extracts the scaling values 136 from a plurality of spectral values of the decoded audio representation (eg, extracted from the decoded audio representation). For example, the scaling value determination 134 may comprise a neural network or machine learning framework that takes the spectral values 132 and extracts the scaling values 136 . In addition, the spectral values of the enhanced audio representation 112 may be obtained by scaling the spectral values of the decoded audio representation (which may be equal to or different from the spectral values used by determining the scaling values 134) according to the scaling values 136. For example, scaling values 136 may specify scaling of spectral values in different frequency bins or frequency bands. Additionally, it should be noted that scaling 136 may operate on complex-valued spectral values or real-valued spectral values (eg, amplitude values or absolute magnitude values, or normal values).

Соответственно, при использовании соответствующего определения значений 136 масштабирования на основе спектральных значений 132 декодированного аудиопредставления, масштабирование 138 может противодействовать ухудшению качества звучания, вызываемому посредством кодирования с потерями, используемого для того, чтобы обеспечивать кодированное аудиопредставление 110.Accordingly, by using an appropriate determination of the scaling values 136 based on the spectral values 132 of the decoded audio representation, the scaling 138 can counteract the degradation in audio quality caused by the lossy coding used to provide the encoded audio representation 110.

Например, масштабирование 138 может уменьшать шум квантования, например, посредством избирательного ослабления спектральных элементов разрешения или спектральных диапазонов, содержащих высокий шум квантования. Альтернативно или помимо этого, масштабирование 138 также может приводить к сглаживанию спектра во времени и/или по частоте, что также может помогать уменьшать шум квантования и/или улучшать перцепционное ощущение.For example, scaling 138 may reduce quantization noise, such as by selectively attenuating spectral bins or spectral bands containing high quantization noise. Alternatively or in addition, scaling 138 may also result in a smoothing of the spectrum in time and/or frequency, which may also help reduce quantization noise and/or improve perceptual feel.

Тем не менее, следует отметить, что аудиодекодер 100 согласно фиг. 1 необязательно может дополняться посредством любых из признаков, функциональностей и подробностей раскрытых в данном документе, как отдельно, так и в комбинации.However, it should be noted that the audio decoder 100 of FIG. 1 may optionally be supplemented by any of the features, functionality and details disclosed herein, either alone or in combination.

2. Устройство согласно фиг. 22. The device according to Fig. 2

Фиг. 2 показывает принципиальную блок-схему устройства 200 для определения набора значений (например, коэффициентов нейронной сети или коэффициентов другой структуры на основе машинного обучения), задающих характеристики фильтра (например, фильтра на основе нейронной сети или фильтра на основе другой структуры на основе машинного обучения).Fig. 2 shows a schematic block diagram of an apparatus 200 for determining a set of values (e.g., neural network coefficients or coefficients of another machine learning-based structure) defining characteristics of a filter (e.g., a neural network-based filter or a filter based on another machine learning-based structure) .

Устройство 200 согласно фиг. 2 выполнено с возможностью принимать декодированное аудиопредставление 210 и обеспечивать, на его основе, набор 212 значений, задающих фильтр, при этом набор 212 значений, задающих фильтр, например, может содержать коэффициенты нейронной сети или коэффициенты другой структуры на основе машинного обучения. Необязательно, устройство 200 может принимать целевые значения 214 масштабирования и/или информацию 216 целевого спектра. Тем не менее, устройство 200 может, необязательно, непосредственно формировать целевые значения масштабирования и/или информацию 216 целевого спектра.The device 200 according to FIG. 2 is configured to receive the decoded audio representation 210 and provide, from it, a set of filter values 212, wherein the set of filter values 212, for example, may comprise coefficients of a neural network or coefficients of another machine learning-based structure. Optionally, device 200 may receive scaling target values 214 and/or target spectrum information 216 . However, device 200 may optionally directly generate target scaling values and/or target spectrum information 216.

Следует отметить, что целевые значения масштабирования, например, могут описывать значения масштабирования, которые серьезно приближают (или приближают) декодированное аудиопредставление 210 к идеальному (неискаженному) состоянию. Например, целевые значения масштабирования могут определяться на основе знаний опорного аудиопредставления, из которого декодированное аудиопредставление 210 извлекается посредством кодирования и декодирования. Например, из знаний спектральных значений опорного аудиопредставления и из знаний спектральных значений декодированного аудиопредставления может извлекаться то, какое масштабирование вызывает улучшенное аудиопредставление (которое получается на основе спектральных значений декодированного аудиопредставления с использованием масштабирования), с тем чтобы аппроксимировать опорное аудиопредставление.It should be noted that target scaling values, for example, may describe scaling values that significantly bring (or push) the decoded audio presentation 210 closer to an ideal (undistorted) state. For example, target scaling values may be determined based on knowledge of the reference audio representation from which the decoded audio representation 210 is extracted through encoding and decoding. For example, from knowledge of the spectral values of the reference audio representation and from knowledge of the spectral values of the decoded audio representation, what scaling causes the enhanced audio representation (which is obtained based on the spectral values of the decoded audio representation using scaling) to approximate the reference audio representation can be extracted.

Кроме того, информация 216 целевого спектра, например, может быть основана на знаниях опорного аудиопредставления, из которого декодированное аудиопредставление извлекается посредством кодирования и декодирования. Например, информация целевого спектра может принимать форму спектральных значений опорного аудиопредставления.In addition, target spectrum information 216, for example, may be based on knowledge of a reference audio representation from which a decoded audio representation is extracted through encoding and decoding. For example, the target spectrum information may take the form of spectral values of the reference audio representation.

Как можно видеть на фиг. 2, устройство 200 необязательно может содержать определение спектрального значения, в котором спектральные значения декодированного аудиопредставления 210 извлекаются из декодированного аудиопредставления 210. Определение спектральных значений обозначается с помощью 220, и спектральные значения декодированного аудиопредставления обозначаются с помощью 222. Тем не менее, следует отметить, что определение 220 спектральных значений должно считаться необязательным, поскольку декодированное аудиопредставление 210 может непосредственно обеспечиваться в форме спектральных значений.As can be seen in FIG. 2, device 200 may optionally include a spectral value definition, in which spectral values of the decoded audio representation 210 are extracted from the decoded audio representation 210. The spectral value definition is denoted by 220, and the spectral values of the decoded audio representation are denoted by 222. However, it should be noted that determining spectral values 220 should be considered optional since the decoded audio representation 210 can be directly provided in the form of spectral values.

Устройство 200 также содержит определение 230 набора значений, задающих фильтр. Определение 230 может принимать или получать спектральные значения 222 декодированного аудиопредставления и обеспечивать, на их основе, набор 212 значений, задающих фильтр. Определение 230 необязательно может использовать целевые значения 214 масштабирования и/или информацию 216 целевого спектра.The device 200 also includes a definition 230 of a set of values defining a filter. Definition 230 may receive or receive spectral values 222 of the decoded audio representation and, based on them, provide a set 212 of values defining a filter. Definition 230 may optionally use target scaling values 214 and/or target spectrum information 216 .

Относительно функциональности устройства 200 следует отметить, что устройство 200 выполнено с возможностью получать спектральные значения 222 декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами. Кроме того, определение 230 может быть выполнено с возможностью определять набор 212 значений, задающих характеристики фильтра, так что значения масштабирования, обеспеченные посредством фильтра на основе спектральных значений 222 декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, аппроксимируют целевые значения масштабирования (например, целевые значения 214 масштабирования). Как упомянуто выше, целевые значения масштабирования могут вычисляться на основе сравнения требуемого улучшенного аудиопредставления и декодированного аудиопредставления, при этом требуемое улучшенное аудиопредставление может соответствовать опорному аудиопредставлению, упомянутому выше. Иными словами, определение 230 может определять и/или оптимизировать набор значений (например, набор коэффициентов нейронной сети или набор коэффициентов другой структуры на основе машинного обучения), задающих характеристики фильтра (например, фильтра на основе нейронной сети или фильтра на основе другой структуры на основе машинного обучения), таким образом, что этот фильтр обеспечивает значения масштабирования на основе спектральных значений декодированного аудиопредставления, которые аппроксимируют целевые значения 214 масштабирования. Определение набора 214 значений, задающих фильтр, может осуществляться с использованием однопроходного прямого вычисления, но типично может выполняться с использованием итеративной оптимизации. Тем не менее, могут использоваться любые известные процедуры обучения для нейронных сетей или для структур на основе компьютерного обучения.With respect to the functionality of the device 200, it should be noted that the device 200 is configured to obtain spectral values 222 of the decoded audio representation that are associated with various frequency bins or frequency bands. In addition, definition 230 may be configured to determine a set 212 of values defining filter characteristics such that scaling values provided by the filter based on spectral values 222 of the decoded audio representation that are associated with different frequency bins or frequency ranges approximate the target values scaling (eg, scaling targets 214). As mentioned above, target scaling values may be calculated based on a comparison of the desired enhanced audio representation and the decoded audio representation, wherein the desired enhanced audio representation may correspond to the reference audio representation mentioned above. In other words, definition 230 may determine and/or optimize a set of values (e.g., a set of neural network coefficients or a set of coefficients of another machine learning-based structure) specifying the characteristics of a filter (e.g., a neural network-based filter or a filter based on another machine learning-based structure). machine learning) such that the filter provides scaling values based on the spectral values of the decoded audio representation that approximate the target scaling values 214. Determining the set of values 214 defining the filter can be done using a one-pass forward calculation, but typically can be done using iterative optimization. However, any known training procedures for neural networks or for computer-learning-based structures can be used.

Альтернативно, определение 230 набора 212 значений, задающих фильтр, может быть выполнено с возможностью определять набор 212 значений, задающих характеристики фильтра, так что спектр, полученный посредством фильтра на основе спектральных значений декодированного аудиопредставления (которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами), и с использованием значений масштабирования, полученных на основе декодированного аудиопредставления, аппроксимирует целевой спектр (который, например, может описываться посредством целевой информации спектра 216). Другими словами, определение 230 может выбирать набор 212 значений, задающих фильтр таким образом, что фильтрованная версия спектральных значений декодированного аудиопредставления 210 аппроксимирует спектральные значения, описанные посредством целевой информации спектра 216. В качестве вывода, устройство 200 может определять набор 212 значений, задающих фильтр таким образом, что фильтр, по меньшей мере, частично аппроксимирует спектральные значения декодированного аудиопредставления как "идеальные" или "опорные", или "целевые" спектральные значения. С этой целью, устройство типично использует декодированные аудиопредставления, представляющие различный аудиоконтент. Посредством определения набора 212 значений, задающих фильтр на основе различного аудиоконтента (или различных типов аудиоконтента), набор 212 значений, задающих фильтр, может выбираться таким образом, что фильтр работает достаточно хорошо для аудиоконтента, который отличается от опорного аудиоконтента, используемого для обучения набора 212 значений, задающих фильтр.Alternatively, defining 230 a set of values 212 defining the filter may be configured to determine a set 212 of values defining filter characteristics such that the spectrum obtained by the filter based on the spectral values of the decoded audio representation (which are associated with different frequency bins or frequency bands ), and using scaling values derived from the decoded audio representation, approximates the target spectrum (which, for example, may be described by target spectrum information 216). In other words, definition 230 may select a set 212 of values defining a filter such that the filtered version of the spectral values of the decoded audio representation 210 approximates the spectral values described by target spectrum information 216. As an output, device 200 may determine a set 212 of values defining the filter such such that the filter at least partially approximates the spectral values of the decoded audio representation as "ideal" or "reference" or "target" spectral values. To this end, the device typically uses decoded audio representations representing various audio content. By defining a set of filter defining values 212 based on different audio content (or different types of audio content), the set of filter defining values 212 can be selected such that the filter performs well enough for audio content that is different from the reference audio content used to train the set 212 values defining the filter.

Таким образом, может достигаться то, что набор 212 значений, задающих фильтр, оптимально подходит для улучшения декодированного аудиопредставления, полученного в аудиодекодере, например, в аудиодекодере 100 согласно фиг. 1. Другими словами, набор 212 значений, задающих фильтр, может использоваться, например, в аудиодекодере 100, чтобы задавать операцию определения 134 значений масштабирования (и в силу этого задавать операцию фильтра 130).In this way, it can be achieved that the set of filter defining values 212 is optimally suited for improving the decoded audio representation obtained in the audio decoder, for example, in the audio decoder 100 according to FIG. 1. In other words, the set of filter defining values 212 may be used, for example, in the audio decoder 100 to specify the operation of determining the scaling values 134 (and thereby specifying the operation of the filter 130).

Тем не менее, следует отметить, что устройство 200 согласно фиг. 2 необязательно может дополняться посредством любых из признаков, функциональностей и подробностей, описанных в данном документе, как отдельно, так и в комбинации.However, it should be noted that the device 200 of FIG. 2 may optionally be supplemented by any of the features, functionality and details described herein, either alone or in combination.

3. Аудиодекодер 300 согласно фиг. 33. Audio decoder 300 according to FIG. 3

Фиг. 3 показывает принципиальную блок-схему аудиодекодера 300, согласно другому варианту осуществления настоящего изобретения. Аудиодекодер 300 выполнен с возможностью принимать кодированное аудиопредставление 310, которое может соответствовать кодированному аудиопредставлению 110, и обеспечивать, на его основе, улучшенное аудиопредставление 312, которое может соответствовать улучшенному аудиопредставлению 112. Аудиодекодер 300 содержит ядро 320 декодера, которое может соответствовать ядру 120 декодера. Ядро 320 декодера предоставляет декодированное аудиопредставление 322 (которое может соответствовать декодированному аудиопредставлению 122) на основе кодированного аудиопредставления 310. Декодированное аудиопредставление может находиться в представлении во временной области, но также может находиться в представлении в спектральной области.Fig. 3 shows a schematic block diagram of an audio decoder 300, according to another embodiment of the present invention. Audio decoder 300 is configured to receive an encoded audio representation 310, which may correspond to an encoded audio representation 110, and therefrom provide an enhanced audio representation 312, which may correspond to an enhanced audio representation 112. Audio decoder 300 includes a decoder core 320, which may correspond to a decoder core 120. Decoder core 320 provides a decoded audio representation 322 (which may correspond to a decoded audio representation 122) based on the encoded audio representation 310. The decoded audio representation may be in a time domain representation, but may also be in a spectral domain representation.

Необязательно, аудиодекодер 300 может содержать преобразование 324, которое может принимать декодированное аудиопредставление 322 и обеспечивать представление 326 в спектральной области на основе декодированного аудиопредставления 322. Это преобразование 324, например, может быть полезным, если декодированное аудиопредставление не принимает форму спектральных значений, ассоциированных с различными элементами разрешения по частоте или частотными диапазонами. Например, преобразование 324 может преобразовывать декодированное аудиопредставление 322 во множество спектральных значений, если декодированное аудиопредставление 322 находится в представлении во временной области. Тем не менее, преобразование 324 также может выполнять преобразование из первого типа представления в спектральной области во второй тип представления в спектральной области в случае, если ядро 320 декодера не предоставляет спектральные значения, применимые посредством стадий последующей обработки. Представление 326 в спектральной области, например, может содержать спектральные значения 132, как показано в аудиодекодере 100 по фиг. 1.Optionally, audio decoder 300 may include a transform 324 that can take the decoded audio representation 322 and provide a spectral domain representation 326 based on the decoded audio representation 322. This transform 324, for example, may be useful if the decoded audio representation does not take the form of spectral values associated with different frequency resolution elements or frequency ranges. For example, transform 324 may transform decoded audio representation 322 into a plurality of spectral values if decoded audio representation 322 is in a time domain representation. However, transform 324 may also transform from the first type of spectral domain representation to the second type of spectral domain representation in the event that decoder core 320 does not provide spectral values usable through the post-processing steps. Spectral domain representation 326, for example, may include spectral values 132, as shown in audio decoder 100 of FIG. 1.

Кроме того, аудиодекодер 300 содержит определение 334 значений масштабирования, которое, например, содержит определение 360 абсолютных значений, логарифмическое вычисление 370 и нейронную сеть или структуру 380 на основе машинного обучения. Определение 334 значений масштабирования обеспечивает значения 336 масштабирования на основе спектральных значений 326, которые могут соответствовать спектральным значениям 132.In addition, audio decoder 300 includes a scaling value definition 334, which, for example, includes an absolute value definition 360, a logarithmic calculation 370, and a neural network or machine learning framework 380. Defining scaling values 334 provides scaling values 336 based on spectral values 326 that may correspond to spectral values 132.

Аудиодекодер 300 также содержит масштабирование 338, которое может соответствовать масштабированию 138. При масштабировании, спектральные значения декодированного аудиопредставления или их предварительно обработанная версия масштабируются в зависимости от значений 336 масштабирования, предоставленных посредством нейронной сети/структуры 380 на основе машинного обучения. Соответственно, масштабирование 338 предоставляет улучшенное аудиопредставление.Audio decoder 300 also includes a scaling 338 that may correspond to scaling 138. When scaling, the spectral values of the decoded audio representation or a preprocessed version thereof are scaled depending on the scaling values 336 provided by the neural network/machine learning framework 380. Accordingly, scaling 338 provides an improved audio presentation.

Определение 334 значений масштабирования и масштабирование 338 могут рассматриваться как фильтр или "постфильтр".Determining 334 scaling values and scaling 338 can be considered a filter or "post-filter".

Далее описываются некоторые дополнительные подробности.Some additional details are described below.

Определение 334 значений масштабирования содержит определение 360 абсолютных значений. Определение 360 абсолютных значений может принимать представление 326 в спектральной области декодированного аудиопредставления, например, . Определение 360 абсолютных значений затем может обеспечивать абсолютные значения 362 представления 326 в спектральной области декодированного аудиопредставления. Абсолютные значения 362, например, могут быть обозначаться с помощью The definition of 334 scaling values contains the definition of 360 absolute values. The definition 360 of absolute values may take a spectral domain representation 326 of the decoded audio representation, e.g. . The absolute value determination 360 can then provide the absolute values 362 of the spectral domain representation 326 of the decoded audio representation. Absolute values 362, for example, can be indicated by

Определение значений масштабирования также содержит логарифмическое вычисление 370, которое принимает абсолютные значения 362 представления в спектральной области декодированного аудиопредставления (например, множество абсолютных значений спектральных значений) и предоставляет, на их основе, логарифмизированные абсолютные значения 372 представления в спектральной области декодированного аудиопредставления. Например, логарифмизированные абсолютные значения 372 могут быть обозначаться с помощью log10 Determining the scaling values also includes a logarithmic calculation 370 that takes the absolute values 362 of the spectral domain representation of the decoded audio representation (e.g., a plurality of absolute values of the spectral values) and provides, based thereon, logarithmized absolute values 372 of the spectral domain representation of the decoded audio representation. For example, logarithmized absolute values of 372 can be denoted using log 10

Следует отметить, что определение 360 абсолютных значений, например, может определять абсолютные значения или значения абсолютной величины, или норменные значения для множества спектральных значений представления 326 в спектральной области, так что, например, знаки или фазы спектральных значений удаляются. Логарифмические вычисления, например, вычисляют обыкновенный логарифм (с основанием 10) или натуральный логарифм, или любой другой логарифм, который может быть подходящим. Кроме того, следует отметить, что логарифмическое вычисление необязательно может заменяться посредством любого другого вычисления, которое уменьшает динамический диапазон спектральных значений 362. Кроме того, известно, что логарифмическое вычисление 370 может содержать ограничение отрицательных и/или положительных значений таким образом, что логарифмизированные абсолютные значения 372 могут быть ограничены обоснованным диапазоном значений.It should be noted that the absolute value determination 360, for example, can determine the absolute values or absolute magnitude values, or normal values for a plurality of spectral values of the spectral domain representation 326, such that, for example, the signs or phases of the spectral values are removed. Logarithmic calculations, for example, calculate the ordinary logarithm (base 10) or natural logarithm, or any other logarithm that may be appropriate. In addition, it should be noted that the logarithmic calculation may not necessarily be replaced by any other calculation that reduces the dynamic range of the spectral values 362. In addition, it is known that the logarithmic calculation 370 may include limiting negative and/or positive values such that the logarithmic absolute values 372 may be limited to a reasonable range of values.

Определение 334 значений масштабирования также содержит нейронную сеть или структуру 380 на основе машинного обучения, которая принимает логарифмизированные абсолютные значения 372 и которая предоставляет, на их основе, значения 332 масштабирования. Нейронная сеть или структура 380 на основе машинного обучения, например, может параметризоваться посредством набора 382 значений, задающих характеристики фильтра. Набор значений, например, может содержать коэффициенты структуры на основе машинного обучения или коэффициенты нейронной сети. Например, набор 382 значений может содержать весовые коэффициенты ветвей нейронной сети и необязательно также параметры функции активации. Набор 382 значений, например, может определяться посредством устройства 200, и набор 382 значений, например, может соответствовать набору 212 значений.The scaling value determination 334 also includes a neural network or machine learning framework 380 that takes the logarithmized absolute values 372 and that provides scaling values 332 based on them. A neural network or machine learning-based framework 380, for example, may be parameterized by a set 382 of values defining the characteristics of the filter. The value set, for example, may contain machine learning-based structure coefficients or neural network coefficients. For example, the set 382 of values may contain the weights of the neural network branches and optionally also activation function parameters. A set 382 of values, for example, may be determined by device 200, and a set 382 of values, for example, may correspond to a set 212 of values.

Кроме того, нейронная сеть или структура 380 на основе машинного обучения необязательно может также содержать логарифмизированные абсолютные значения представления в спектральной области декодированного аудиопредставления для одного или более кадров, предшествующих текущему кадру, и/или для одного или более кадров после текущего кадра. Другими словами, нейронная сеть или структура 380 на основе машинного обучения может не только использовать логарифмизированные абсолютные значения спектральных значений, ассоциированных с текущим обработанным кадром (для которого значения масштабирования применяются), но также может рассматривать логарифмизированные абсолютные значения спектральных значений одного или более предшествующих кадров и/или одного или более последующих кадров. Таким образом, значения масштабирования, ассоциированные с данным (текущим обработанным) кадром, могут быть основаны на спектральных значениях данного (текущего обработанного) кадра, а также на спектральных значениях одного или более предшествующих кадров и/или одного или более последующих кадров.In addition, the neural network or machine learning framework 380 may also optionally contain logarithmized absolute spectral domain representation values of the decoded audio representation for one or more frames preceding the current frame and/or for one or more frames after the current frame. In other words, the neural network or machine learning framework 380 may not only use the logarithmized absolute values of the spectral values associated with the current processed frame (for which the scaling values are applied), but may also consider the logarithmized absolute values of the spectral values of one or more previous frames and /or one or more subsequent frames. Thus, the scaling values associated with a given (currently processed) frame may be based on the spectral values of the given (currently processed) frame, as well as the spectral values of one or more previous frames and/or one or more subsequent frames.

Например, логарифмизированные абсолютные значения представления в спектральной области декодированного аудиопредставления (обозначенные с помощью 372) могут применяться к вводам (например, входным нейронам) нейронной сети или структуры 380 на основе машинного обучения. Значения 336 масштабирования могут обеспечиваться посредством выводов нейронной сети или структуры 380 на основе машинного обучения (например, посредством выходных нейронов). Кроме того, нейронная сеть или структура на основе машинного обучения может выполнять обработку в соответствии с набором 382 значений, задающих характеристики фильтра.For example, the logarithmized absolute values of the spectral domain representation of the decoded audio representation (denoted by 372) may be applied to the inputs (eg, input neurons) of the neural network or machine learning framework 380. The scaling values 336 may be provided through the outputs of a neural network or machine learning framework 380 (eg, through output neurons). Additionally, a neural network or machine learning framework may perform processing according to a set 382 of values defining the characteristics of the filter.

Масштабирование 338 может принимать значения 336 масштабирования, которые также могут обозначаться "как значения маскирования" и которые, например, могут быть обозначаться с помощью M(k, n), а также спектральные значения или предварительно обработанные спектральные значения представления в спектральной области декодированного аудиопредставления. Например, спектральные значения, которые вводятся в масштабирование 338 и которые масштабируются в соответствии со значениями 336 масштабирования, могут быть основаны на представлении 326 в спектральной области или могут быть основаны на абсолютных значениях 362, при этом, необязательно, предварительная обработка может применяться до того, как масштабирование 338 выполняется. Предварительная обработка, например, может содержать фильтрацию, например, в форме фиксированного масштабирования или масштабирования, определенного посредством вспомогательной информации кодированной аудиоинформации. Тем не менее, предварительная обработка также может быть фиксированной, может быть независимой от вспомогательной информации кодированного аудиопредставления. Кроме того, следует отметить, что спектральные значения, которые вводятся в масштабирование 338 и которые масштабируются с использованием значений 336 масштабирования, не обязательно должны быть идентичными спектральным значениям, которые используются для извлечения значений 336 масштабирования.Scaling 338 may take scaling values 336, which may also be referred to as “masking values” and which, for example, may be denoted by M(k, n), as well as spectral values or pre-processed spectral representation values in the spectral domain of the decoded audio representation. For example, the spectral values that are input to the scaling 338 and that are scaled according to the scaling values 336 may be based on the spectral domain representation 326 or may be based on absolute values 362, where, optionally, preprocessing may be applied before how 338 scaling is performed. The pre-processing, for example, may comprise filtering, for example in the form of a fixed scaling or a scaling determined by the auxiliary information of the encoded audio information. However, the preprocessing may also be fixed, independent of the auxiliary information of the encoded audio representation. In addition, it should be noted that the spectral values that are input into the scaling 338 and that are scaled using the scaling values 336 need not be identical to the spectral values that are used to extract the scaling values 336 .

Соответственно, масштабирование 338, например, может умножать спектральные значения, которые вводятся в масштабирование 338, на значения масштабирования, при этом различные значения масштабирования ассоциированы с различными элементами разрешения по частоте или частотными диапазонами. Соответственно, получается улучшенное аудиопредставление 312, при этом улучшенное аудиопредставление, например, может содержать масштабированное представление в спектральной области (например, ) или масштабированные абсолютные значения такого представления в спектральной области (например, ). Таким образом, масштабирование 338, например, может выполняться с использованием простого умножения между спектральными значениями, ассоциированными с декодированным аудиопредставлением 322, и ассоциированными значениями масштабирования, предоставленными посредством нейронной сети или структуры 380 на основе машинного обучения.Accordingly, scaling 338, for example, may multiply spectral values that are input to scaling 338 by scaling values, with different scaling values associated with different frequency bins or frequency ranges. Accordingly, an enhanced audio representation 312 is obtained, wherein the enhanced audio representation, for example, may comprise a scaled spectral domain representation (e.g. ) or scaled absolute values of such a spectral domain representation (e.g. ). Thus, scaling 338, for example, can be performed using a simple multiplication between the spectral values associated with the decoded audio representation 322 and the associated scaling values provided by a neural network or machine learning framework 380.

В качестве вывода, устройство 300 предоставляет улучшенное аудиопредставление 312 на основе кодированного аудиопредставления 310, при этом масштабирование 338 применяется к спектральным значениям, которые основаны на декодированном аудиопредставлении 322, предоставленном посредством ядра 320 декодера. Значения 336 масштабирования, которые используются при масштабировании 338, обеспечиваются посредством нейронной сети или посредством структуры на основе машинного обучения, при этом входные сигналы нейронной сети или структуры 380 на основе машинного обучения предпочтительно получаются посредством логарифмизации абсолютных значений спектральных значений, которые основаны на декодированном аудиопредставлении 322. Тем не менее, посредством соответствующего варианта выбора набора 382 значений, задающих характеристики фильтра, нейронная сеть или структура на основе машинного обучения может обеспечивать значения масштабирования таким образом, что масштабирование 338 улучшает ощущение для слуха улучшенного аудиопредставления по сравнению с декодированным аудиопредставлением.As an output, device 300 provides an enhanced audio representation 312 based on the encoded audio representation 310, with scaling 338 applied to spectral values that are based on the decoded audio representation 322 provided by the decoder core 320. The scaling values 336 that are used in scaling 338 are provided by a neural network or machine learning framework, wherein the input signals of the neural network or machine learning framework 380 are preferably obtained by logarithmizing the absolute values of the spectral values that are based on the decoded audio representation 322 However, by appropriately selecting a set 382 of values defining the filter characteristics, a neural network or machine learning framework can provide scaling values such that scaling 338 improves the auditory experience of an improved audio representation relative to the decoded audio representation.

Кроме того, следует отметить, что аудиодекодер 300 необязательно может дополняться посредством любых из признаков, функциональностей и подробностей, описанных в данном документе.In addition, it should be noted that audio decoder 300 may not necessarily be complemented by any of the features, functionality and details described herein.

4. Устройство согласно фиг. 44. The device according to Fig. 4

Фиг. 4 показывает принципиальную блок-схему устройства 400 для определения набора значений (например, коэффициентов нейронной сети или коэффициентов другой структуры на основе машинного обучения), задающих характеристики фильтра. Устройство 400 выполнено с возможностью принимать обучающее аудиопредставление 410 и обеспечивать, на его основе, набор 412 значений, задающих характеристики фильтра. Следует отметить, что обучающее аудиопредставление 410, например, может содержать различный аудиоконтент, который используется для определения набора 412 значений.Fig. 4 shows a schematic block diagram of an apparatus 400 for determining a set of values (eg, neural network coefficients or coefficients of other machine learning-based structure) defining filter characteristics. The device 400 is configured to receive the training audio presentation 410 and, based on it, provide a set 412 of values defining the characteristics of the filter. It should be noted that the training audio presentation 410, for example, may contain various audio content that is used to determine a set 412 of values.

Устройство 400 содержит аудиокодер 420, который выполнен с возможностью кодировать обучающее аудиопредставление 410, чтобы за счет этого получать кодированное обучающее аудиопредставление 422. Устройство 400 также содержит ядро 430 декодера, которое принимает кодированное обучающее аудиопредставление 422 и предоставляет, на его основе, декодированное аудиопредставление 432. Следует отметить, что ядро 420 декодера, например, может быть идентичным ядру 320 декодера и ядру 120 декодера. Декодированное аудиопредставление 432 также может соответствовать декодированному аудиопредставлению 210.The device 400 includes an audio encoder 420 that is configured to encode the training audio representation 410 to thereby obtain an encoded training audio representation 422. The device 400 also includes a decoder core 430 that receives the encoded training audio representation 422 and provides, based thereon, a decoded audio representation 432. It should be noted that the decoder core 420, for example, may be identical to the decoder core 320 and the decoder core 120. The decoded audio presentation 432 may also correspond to the decoded audio presentation 210.

Устройство 400 также содержит, необязательно, преобразование 442, которое преобразует декодированное аудиопредставление 432, которое основано на обучающем аудиопредставлении 410, в представление 446 в спектральной области. Преобразование 442, например, может соответствовать преобразованию 324, и представление 446 в спектральной области, например, может соответствовать представлению 326 в спектральной области. Устройство 400 также содержит определение 460 абсолютных значений, которое принимает представление 446 в спектральной области и предоставляет, на его основе, абсолютные значения 462 представления в спектральной области. Определение 460 абсолютных значений, например, может соответствовать определению 360 абсолютных значений. Устройство 400 также содержит логарифмическое вычисление 470, которое принимает абсолютные значения 462 представления в спектральной области и предоставляет, на их основе, логарифмизированные абсолютные значения 472 представления в спектральной области декодированного аудиопредставления. Логарифмическое вычисление 470 может соответствовать логарифмическому вычислению 370.The device 400 also optionally includes a transform 442 that converts the decoded audio representation 432, which is based on the training audio representation 410, into a spectral domain representation 446. Transform 442, for example, may correspond to transform 324, and spectral domain representation 446, for example, may correspond to spectral domain representation 326. Apparatus 400 also includes an absolute value definition 460 that takes the spectral domain representation 446 and provides, based thereon, the absolute values 462 of the spectral domain representation. The definition of 460 absolute values, for example, may correspond to the definition of 360 absolute values. The device 400 also includes a logarithmic calculation 470 that takes the absolute values 462 of the spectral domain representation and provides, based thereon, the logarithmized absolute values 472 of the spectral domain representation of the decoded audio representation. A logarithmic calculation of 470 may correspond to a logarithmic calculation of 370.

Кроме того, устройство 400 также содержит нейронную сеть или структуру 480 на основе машинного обучения, которая соответствует нейронной сети или структуре 380 на основе машинного обучения. Тем не менее, коэффициенты структуры на основе машинного обучения или нейронной сети 480, которые обозначаются с помощью 482, обеспечиваются посредством тренировки 490 нейронной сети/тренировки машинного обучения. Здесь следует отметить, что нейронная сеть/структура 480 на основе машинного обучения обеспечивает значения масштабирования, которые нейронная сеть/структура на основе машинного обучения извлекает на основе логарифмизированных абсолютных значений 372, в тренировку 490 нейронной сети/тренировку машинного обучения.In addition, device 400 also includes a neural network or machine learning framework 480 that corresponds to the neural network or machine learning framework 380. However, the structure coefficients based on machine learning or neural network 480, which are denoted by 482, are provided through neural network/machine learning training 490. It should be noted here that the machine learning neural network/framework 480 provides the scaling values that the machine learning neural network/framework extracts based on the logarithmized absolute values 372 to the neural network/machine learning training 490 .

Устройство 400 также содержит вычисление 492 целевых значений масштабирования, которое также обозначается в качестве "вычисления масок соотношений". Например, вычисление 492 целевых значений масштабирования принимает обучающее аудиопредставление 410 и абсолютные значения 462 представления в спектральной области декодированного аудиопредставления 432. Соответственно, вычисление 492 целевых значений масштабирования предоставляет информацию 494 целевых значений масштабирования, которая описывает требуемые значения масштабирования, которые должны обеспечиваться посредством нейронной сети/структуры 480 на основе машинного обучения. Соответственно, тренировка 490 нейронной сети/тренировка машинного обучения сравнивает значения 484 масштабирования, обеспеченные посредством нейронной сети/структуры 480 на основе машинного обучения, с целевыми значениями 494 масштабирования, предоставленными посредством масштабирования 492 целевых вычислений значения, и регулирует значения 482 (т.е. коэффициенты структуры на основе машинного обучения или нейронной сети), чтобы уменьшать (или минимизировать) отклонение между значениями 484 масштабирования и целевыми значениями 494 масштабирования.Apparatus 400 also includes scaling target calculation 492, which is also referred to as “ratio mask calculation.” For example, the scaling target calculation 492 takes the training audio representation 410 and the absolute values 462 of the spectral domain representation of the decoded audio representation 432. Accordingly, the scaling target calculation 492 provides scaling target information 494 that describes the desired scaling values to be provided by the neural network. 480 structures based on machine learning. Accordingly, the neural network/machine learning training 490 compares the scaling values 484 provided by the neural network/machine learning framework 480 with the scaling targets 494 provided by the scaling 492 target value calculations and adjusts the values 482 (i.e. structure coefficients based on machine learning or neural network) to reduce (or minimize) the deviation between the scaling values 484 and the target scaling values 494.

Ниже по тексту предоставляется общее представление функциональности устройства 400. Посредством кодирования и декодирования обучающего аудиопредставления (которое, например, может содержать различный аудиоконтент) в аудиокодере 420 и в аудиодекодере 430, получается декодированное аудиопредставление 432, которое типично содержит некоторое ухудшение характеристик по сравнению с обучающим аудиопредставлением вследствие потерь в кодировании с потерями. Вычисление 492 целевых значений масштабирования определяет то, какое масштабирование (например, какие значения масштабирования) должно применяться к спектральным значениям декодированного аудиопредставления 432, так что масштабированные спектральные значения декодированного аудиопредставления 432 хорошо аппроксимируют спектральные значения обучающего аудиопредставления. Предполагается, что артефакты, введенные посредством кодирования с потерями, могут, по меньшей мере, частично компенсироваться посредством применения масштабирования в спектральные значения декодированного аудиопредставления 432. Следовательно, нейронная сеть или структура 480 на основе машинного обучения обучается посредством тренировки нейронной сети/тренировки машинного обучения таким образом, что значения 482 масштабирования, обеспеченные посредством нейронной сети/структуры 480 на основе машинного обучения на основе декодированного аудиопредставления 432, аппроксимируют целевые значения 494 масштабирования. Необязательное преобразование 442, определение 460 абсолютных значений и логарифмическое вычисление 470 составляют только (необязательные) этапы предварительной обработки, чтобы извлекать входные значения 472 (которые представляют собой логарифмизированные абсолютные значения спектральных значений декодированного аудиопредставления) для нейронной сети или структуры 480 на основе машинного обучения.Below, a general overview of the functionality of the device 400 is provided. By encoding and decoding the training audio presentation (which, for example, may contain various audio content) in the audio encoder 420 and in the audio decoder 430, a decoded audio presentation 432 is obtained that typically contains some degradation in performance compared to the training audio presentation. due to losses in lossy coding. The calculation 492 of target scaling values determines what scaling (eg, which scaling values) should be applied to the spectral values of the decoded audio representation 432 such that the scaled spectral values of the decoded audio representation 432 well approximate the spectral values of the training audio representation. It is believed that artifacts introduced by lossy encoding can be at least partially compensated for by applying scaling to spectral values of the decoded audio representation 432. Therefore, the neural network or machine learning framework 480 is trained by neural network training/machine learning training such such that the scaling values 482 provided by the neural network/machine learning framework 480 based on the decoded audio representation 432 approximate the target scaling values 494. The optional transform 442, absolute value determination 460, and logarithmic calculation 470 constitute only (optional) preprocessing steps to extract input values 472 (which are the logarithmized absolute values of the spectral values of the decoded audio representation) for the neural network or machine learning framework 480.

Тренировка 490 нейронной сети/тренировка машинного обучения может использовать соответствующий механизм обучения (например, процедуру оптимизации), чтобы регулировать коэффициенты 482 структуры на основе машинного обучения или нейронной сети таким образом, что разность (например, взвешенная разность) между значениями 484 масштабирования и целевыми значениями 494 масштабирования минимизируется или опускается ниже порогового значения либо, по меньшей мере, уменьшается.The neural network training 490/machine learning training may use an appropriate learning mechanism (e.g., an optimization procedure) to adjust the machine learning or neural network structure coefficients 482 such that the difference (e.g., a weighted difference) between the scaling values 484 and the target values 494 scaling is minimized or falls below the threshold or is at least reduced.

Соответственно, коэффициенты 482 структуры на основе машинного обучения или нейронной сети (или, вообще говоря, набор значений, задающих характеристики фильтра) обеспечиваются посредством устройства 400. Эти значения могут использоваться в фильтре 130 (чтобы регулировать определение 134 значений масштабирования) или в устройстве 300 (чтобы регулировать нейронную сеть/структуру 380 на основе машинного обучения).Accordingly, the coefficients 482 of the machine learning or neural network structure (or, more generally, a set of values defining the characteristics of the filter) are provided by the device 400. These values can be used in the filter 130 (to regulate the determination of scaling values 134) or in the device 300 ( to regulate the neural network/structure 380 based on machine learning).

Тем не менее, следует отметить, что устройство 400 необязательно может дополняться посредством любых из признаков, функциональностей и подробностей, описанных в данном документе.However, it should be noted that the device 400 may not necessarily be complemented by any of the features, functionality and details described herein.

5. Устройство согласно фиг. 55. The device according to Fig. 5

Фиг. 5 показывает принципиальную блок-схему устройства 500 для определения набора 512 значений, задающих фильтр, при этом значения 512, например, могут представлять собой коэффициенты структуры на основе машинного обучения или нейронной сети.Fig. 5 shows a schematic block diagram of an apparatus 500 for determining a set 512 of values defining a filter, wherein the values 512, for example, may be machine learning or neural network based structure coefficients.

Следует отметить, что устройство 500 является аналогичным устройству 400, так что идентичные признаки, функциональности и подробности не приводятся снова. Вместо этого, следует обратиться к вышеприведенным пояснениям.It should be noted that the device 500 is similar to the device 400, so identical features, functionality and details are not given again. Instead, you should refer to the above explanations.

Устройство 500 принимает обучающее аудиопредставление 510, которое, например, может соответствовать обучающему аудиопредставлению 410. Устройство 500 содержит аудиокодер 520, который соответствует аудиокодеру 420 и который предоставляет кодированное обучающее аудиопредставление 522, которое соответствует кодированному обучающему аудиопредставлению 422. Устройство 500 также содержит ядро 530 декодера, которое соответствует ядру 430 декодера и предоставляет декодированное аудиопредставление 532.Device 500 receives training audio representation 510, which, for example, may correspond to training audio presentation 410. Device 500 includes an audio encoder 520, which corresponds to audio encoder 420, and which provides an encoded training audio representation 522, which corresponds to encoded training audio presentation 422. Device 500 also includes a decoder core 530, which corresponds to decoder core 430 and provides a decoded audio representation 532.

Устройство 500 необязательно содержит преобразование 542, которое соответствует преобразованию 442 и которое предоставляет представление в спектральной области (например, в форме спектральных значений) декодированного аудиопредставления 552. Представление в спектральной области обозначается с помощью 546 и соответствует представлению 446 в спектральной области. Кроме того, устройство 500 содержит определение 560 абсолютных значений, которое соответствует определению 460 абсолютных значений. Устройство 500 также содержит логарифмическое вычисление 570, которое соответствует логарифмическому вычислению 470. Кроме того, устройство 500 содержит нейронную сеть или структуру 580 на основе машинного обучения, которая соответствует структуре 480 на основе машинного обучения. Тем не менее, устройство 500 также содержит масштабирование 590, которое выполнено с возможностью принимать спектральные значения 546 декодированного аудиопредставления или абсолютные значения 562 спектральных значений декодированного аудиопредставления. Масштабирование также принимает значения 584 масштабирования, обеспеченные посредством нейронной сети 580. Соответственно, масштабирование 590 масштабирует спектральные значения декодированного аудиопредставления или абсолютные значения спектральных значений аудиопредставления, чтобы за счет этого получать улучшенное аудиопредставление 592. Улучшенное аудиопредставление 592, например, может содержать масштабированные спектральные значения (например, или масштабированные абсолютные значения спектральных значений (например, ). В принципе, улучшенное аудиопредставление 592 может соответствовать улучшенному аудиопредставлению 112, предоставленному посредством устройства 100, и улучшенному аудиопредставлению 312, предоставленному посредством устройства 300. До такой степени, функциональность устройства 500 может соответствовать функциональности устройства 100 и/или функциональности устройства 300, за исключением того факта, что коэффициенты нейронной сети или структуры 580 на основе машинного обучения, которые обозначаются с помощью 594, регулируются посредством тренировки 596 нейронной сети/тренировки машинного обучения. Например, тренировка 596 нейронной сети/тренировка машинного обучения может принимать обучающее аудиопредставление 510, а также улучшенное аудиопредставление 592 и может регулировать коэффициенты 594 таким образом, что улучшенное аудиопредставление 592 аппроксимирует обучающее аудиопредставление.Device 500 optionally includes a transform 542 that corresponds to transform 442 and that provides a spectral domain representation (eg, in the form of spectral values) of the decoded audio representation 552. The spectral domain representation is denoted by 546 and corresponds to the spectral domain representation 446. In addition, device 500 includes an absolute value definition 560 that corresponds to an absolute value definition 460. The device 500 also includes a logarithmic calculation 570 that corresponds to the logarithmic calculation 470. In addition, the device 500 includes a neural network or machine learning-based structure 580 that corresponds to the machine learning-based structure 480. However, device 500 also includes a scaling 590 that is configured to receive spectral values 546 of the decoded audio representation or absolute spectral values 562 of the decoded audio representation. The scaling also receives scaling values 584 provided by the neural network 580. Accordingly, scaling 590 scales the spectral values of the decoded audio representation or the absolute values of the spectral values of the audio representation to thereby obtain an improved audio representation 592. The improved audio representation 592, for example, may include scaled spectral values ( For example, or scaled absolute values of spectral values (e.g. ). In principle, the enhanced audio presentation 592 may correspond to the enhanced audio presentation 112 provided by the device 100 and the enhanced audio presentation 312 provided by the device 300. To such an extent, the functionality of the device 500 may correspond to the functionality of the device 100 and/or the functionality of the device 300, except that that the coefficients of the neural network or machine learning-based structure 580, which are denoted by 594, are adjusted through neural network/machine learning training 596. For example, neural network/machine learning training 596 may receive training audio representation 510 as well as enhanced audio representation 592 and may adjust coefficients 594 such that enhanced audio representation 592 approximates the training audio representation.

Здесь следует отметить, что, если улучшенное аудиопредставление 592 аппроксимирует обучающее аудиопредставление 510 с хорошей точностью, ухудшение характеристик сигнала, вызываемое посредством кодирования с потерями, по меньшей мере, частично компенсируется посредством масштабирования 590. Иными словами, тренировка 596 нейронной сети, например, может определять (взвешенную) разность между обучающим аудиопредставлением 510 и улучшенным аудиопредставлением 592 и регулировать коэффициенты 594 структуры на основе машинного обучения или нейронной сети 580, чтобы уменьшать или минимизировать эту разность. Регулирование коэффициентов 594, например, может выполняться в итеративной процедуре.It should be noted here that if the enhanced audio representation 592 approximates the training audio representation 510 with good accuracy, the signal degradation caused by the lossy encoding is at least partially compensated by the scaling 590. In other words, the neural network training 596, for example, can determine (weighted) difference between the training audio presentation 510 and the enhanced audio presentation 592 and adjusting the structure coefficients 594 based on machine learning or neural network 580 to reduce or minimize this difference. Adjustment of coefficients 594, for example, may be performed in an iterative procedure.

Соответственно, можно добиваться того, что коэффициенты 594 нейронной сети или структуры 580 на основе машинного обучения адаптируются таким образом, что в нормальном режиме работы, структура на основе машинного обучения или нейронная сеть 380 с использованием определенных коэффициентов 594 может обеспечивать значения 336 масштабирования, которые приводят к улучшенному аудиопредставлению 312 хорошего качества.Accordingly, it is possible to ensure that the coefficients 594 of the neural network or machine learning framework 580 are adapted such that, in normal operation, the machine learning framework or neural network 380, using certain coefficients 594, can provide scaling values 336 that result in to an improved audio presentation of 312 good quality.

Иными словами, коэффициенты 482, 594 нейронной сети или структуры 480 на основе машинного обучения либо нейронной сети или структуры 580 на основе машинного обучения могут использоваться в нейронной сети 380 устройства 300, и можно ожидать, что устройство 300 предоставляет высококачественное улучшенное аудиопредставление 312 в этой ситуации. Конечно, эта функциональность основана на таком допущении, что нейронная сеть/структура 380 на основе машинного обучения является аналогичной или даже является идентичной нейронной сети/структуре 480 на основе машинного обучения или нейронной сети/структуре 580 на основе машинного обучения.In other words, the coefficients 482, 594 of the neural network or machine learning-based structure 480 or the neural network or machine learning-based structure 580 can be used in the neural network 380 of the device 300, and the device 300 can be expected to provide a high quality enhanced audio presentation 312 in this situation. . Of course, this functionality is based on the assumption that the machine learning neural network/framework 380 is similar or even identical to the machine learning neural network/framework 480 or the machine learning neural network/framework 580.

Кроме того, следует отметить, что коэффициенты 482, 412 или коэффициенты 594, 512 также могут использоваться в определении 134 значений масштабирования аудиодекодера 100.Additionally, it should be noted that factors 482, 412 or factors 594, 512 may also be used in determining 134 scaling values of audio decoder 100.

Кроме того, следует отметить, что устройство 500 необязательно может дополняться посредством любых из признаков, функциональностей и подробностей, описанных в данном документе, как отдельно, так и в комбинации.In addition, it should be noted that the device 500 may not necessarily be complemented by any of the features, functionality and details described herein, either alone or in combination.

6. Подробности и варианты осуществления6. Details and embodiments

Ниже по тексту поясняются некоторые подходы, лежащие в основе настоящего изобретения, и описываются несколько решений. В частности, раскрывается определенное число подробностей, которое необязательно могут вводиться в любой из вариантов осуществления, раскрытых в данном документе.Below, some of the approaches underlying the present invention are explained and several solutions are described. In particular, a certain number of details are disclosed that may not necessarily be included in any of the embodiments disclosed herein.

6.1. Формулирование проблемы6.1. Formulation of the problem

6.1.1. Идеальная маска соотношений (IRM)6.1.1. Ideal Relationship Mask (IRM)

С очень упрощенной математической точки зрения, можно описывать кодированную речь , например, декодированную речь, предоставленную посредством ядра декодера (например, ядра 120 декодера либо ядра 320 декодера, либо ядра 430 декодера, либо ядра 530 декодера), следующим образом:From a very simplified mathematical point of view, one can describe coded speech , for example, decoded speech provided by a decoder core (e.g., decoder core 120 or decoder core 320 or decoder core 430 or decoder core 530), as follows:

(1) (1)

- где x(n) является вводом в кодер (например, в аудиокодер 410, 510), и δ(n) является шумом квантования. Шум δ(n) квантования коррелируется с входной речью, поскольку ACELP использует перцепционные модели во время процесса квантования. Это свойство корреляции шума квантования делает проблему постфильтрации уникальной для проблемы улучшения речи, которая допускает то, что шум должен декоррелироваться. Чтобы уменьшать шум квантования, оценивается действительнозначная маска в расчете на элемент разрешения по частоте и времени, и эта маска умножается на маску абсолютной величины кодированной речи для этого элемента разрешения по частоте и времени.- where x(n) is the input to the encoder (eg, audio encoder 410, 510), and δ(n) is the quantization noise. The quantization noise δ(n) is correlated with the input speech because ACELP uses perceptual models during the quantization process. This correlation property of quantization noise makes the postfiltering problem unique to the speech enhancement problem, which allows for noise to be decorrelated. To reduce quantization noise, a real value mask per frequency and time bin is estimated, and this mask is multiplied by the absolute value mask of the encoded speech for that frequency and time bin.

(2) (2)

- где M(k, n) является действительнозначной маской, является абсолютной величиной кодированной речи, является абсолютной величиной улучшенной речи, k является частотным индексом, и n является временным индексом. Если маска является идеальной (например, если значения M(k, n) масштабирования являются идеальными), можно восстанавливать чистую речь из кодированной речи.- where M(k, n) is a real-valued mask, is the absolute value of the encoded speech, is the absolute value of the improved speech, k is the frequency index, and n is the time index. If the mask is ideal (eg, if the scaling values M(k, n) are ideal), clear speech can be recovered from the encoded speech.

(3) (3)

- где является абсолютной величиной чистой речи.- Where is the absolute value of pure speech.

При сравнении уравнения 2 и 3, получается идеальная маска соотношений (IRM) (например, идеальное значение значений M(k, n) масштабирования), которая задается следующим образом:By comparing Equation 2 and 3, an ideal ratio mask (IRM) is obtained (e.g., the ideal value of the scaling values M(k, n)), which is given as follows:

(4) (4)

- где является очень небольшим постоянным коэффициентом с тем, чтобы предотвращать деление на нуль. Поскольку значения абсолютной величины находятся в диапазоне , значения IRM также находятся в диапазоне .- Where is a very small constant factor to prevent division by zero. Since the absolute value values are in the range , IRM values are also in the range .

Иными словами, например, улучшенное аудиопредставление может извлекаться на основе декодированного аудио с использованием масштабирования, при этом коэффициенты масштабирования могут описываться посредством M(k, n). Кроме того, например, коэффициенты M(k, n) масштабирования могут извлекаться из декодированного аудиопредставления, поскольку типично существует корреляция между шумом (который, по меньшей мере, частично компенсируется посредством масштабирования с использованием коэффициентов масштабирования M(k, n)) и декодированным аудиопредставлением Например, масштабирование, как задано в уравнении (2), может выполняться посредством масштабирования 138, при этом определение 134 значений масштабирования может, например, обеспечивать значения M(k, n) масштабирования, которые аппроксимируют идеальные масштабирующие векторы IRM(k, n), как описано, например, посредством уравнения (4).In other words, for example, improved audio presentation can be extracted based on decoded audio using scaling, where the scaling factors can be described by M(k, n). Additionally, for example, scaling factors M(k, n) may be extracted from the decoded audio representation because typically there is a correlation between noise (which is at least partially compensated for by scaling using the scaling factors M(k, n)) and the decoded audio representation For example, scaling as defined in equation (2) may be accomplished by scaling 138, wherein determining 134 scaling values may, for example, provide scaling values M(k, n) that approximate ideal scaling vectors IRM(k, n), as described, for example, by equation (4).

Таким образом, желательно, если определение 134 значений масштабирования определяет значения масштабирования, которые аппроксимируют IRM(k, n).Thus, it is desirable for the definition of scaling values 134 to determine scaling values that approximate IRM(k, n).

Это, например, может достигаться посредством соответствующего проектирования определения 134 значений масштабирования или определения 334 значений масштабирования, при этом, например, коэффициенты структуры на основе машинного обучения или нейронной сети, используемые для того, чтобы реализовывать блок 380, могут определяться так, как указано ниже по тексту.This, for example, can be achieved by appropriately designing the scaling value definition 134 or scaling value definition 334, wherein, for example, the machine learning or neural network structure coefficients used to implement block 380 can be determined as follows: according to the text.

6.1.2. MMSE-оптимизации6.1.2. MMSE optimization

Например, два различных типа оптимизации на основе минимальной среднеквадратической ошибки (MMSE) могут использоваться для того, чтобы обучать нейронную сеть (например, нейронную сеть 380): аппроксимация масок (MA) (например, как показано на фиг. 4) и аппроксимация сигналов (SA) [10] (например, как показано на фиг. 5). Подход на основе MA-оптимизации пытается минимизировать среднеквадратическую ошибку (MSE) между целевой маской (например, целевыми значениями масштабирования) и оцененной маской (например, значениями 484 масштабирования, предоставленными посредством нейронной сети).For example, two different types of minimum mean square error (MMSE) optimization can be used to train a neural network (eg, neural network 380): mask approximation (MA) (eg, as shown in FIG. 4) and signal approximation (MA). SA) [10] (for example, as shown in Fig. 5). The MA optimization approach attempts to minimize the mean square error (MSE) between a target mask (eg, target scaling values) and an estimated mask (eg, scaling values 484 provided by a neural network).

(5) (5)

- где IRM(k, n) является целевой маской, M(k, n) является оцененной маской.- where IRM(k, n) is the target mask, M(k, n) is the estimated mask.

Подход на основе SA-оптимизации пытается минимизировать среднеквадратическую ошибку (MSE) между целевым спектром абсолютной величины (например, спектром абсолютной величины обучающего аудиопредставления 510) и улучшенным спектром абсолютной величины (например, спектром абсолютной величины улучшенного аудиопредставления 592).The SA optimization approach attempts to minimize the mean square error (MSE) between the target absolute magnitude spectrum (eg, the absolute magnitude spectrum of the training audio presentation 510) and the improved absolute magnitude spectrum (eg, the absolute magnitude spectrum of the enhanced audio presentation 592).

(6) (6)

- где улучшенный спектр абсолютной величины задается посредством уравнения 2.- where the improved absolute magnitude spectrum is given by Equation 2.

Иными словами, нейронная сеть, используемая в определении 134 значений масштабирования или в определении 334 значений масштабирования, может обучаться, например, как показано на фиг. 4 и 5. Как видно из фиг. 4, тренировка 490 нейронной сети/тренировка машинного обучения оптимизирует коэффициенты нейронной сети или коэффициенты 482 структуры на основе машинного обучения в соответствии с критерием, заданным в уравнении (5).In other words, the neural network used in determining the scaling values 134 or in determining the scaling values 334 may be trained, for example, as shown in FIG. 4 and 5. As can be seen from Figs. 4, neural network training 490/machine learning training optimizes the neural network coefficients or machine learning-based structure coefficients 482 according to the criterion specified in equation (5).

Как показано на фиг. 5, тренировка 596 нейронной сети/тренировка машинного обучения оптимизирует коэффициенты нейронной сети/коэффициенты 594 структуры машинного обучения в соответствии с критерием, показанным в уравнении (6).As shown in FIG. 5, neural network training 596/machine learning training optimizes the neural network coefficients/machine learning structure coefficients 594 according to the criterion shown in equation (6).

6.1.3. Анализ значений маски6.1.3. Analysis of mask values

В большинстве предложенных подходов на основе маски для улучшения речи и дереверберации, значения маски ограничены единицей [9]-[10]. Это обусловлено тем, что, традиционно, если значения маски не ограничены единицей, ошибки оценки могут вызывать усиление шумовых или музыкальных тонов [15]. Следовательно, эти подходы используют сигмоиду в качестве выходных активаций, чтобы ограничивать значения маски 1.In most of the proposed mask-based approaches for speech enhancement and dererberation, the mask values are limited to one [9]–[10]. This is because, traditionally, if mask values are not limited to one, estimation errors may cause noise or music tones to be amplified [15]. Hence, these approaches use the sigmoid as output activations to constrain the mask values to 1.

Таблица 1 показывает процентную долю от значений маски, которые находятся в интервале (0,1) для различного отношения "сигнал-шум" (SNR). Эти значения маски вычисляются посредством добавления белого шума при различных SNR в чистую речь. Из таблицы 1 можно логически выводить то, что большинство значений маски находятся в интервале [0,1], и в силу этого ограничение значениями маски в 1 не имеет отрицательного эффекта на системы улучшения речи на основе нейронной сети.Table 1 shows the percentage of mask values that are in the interval (0.1) for various signal-to-noise ratios (SNR). These mask values are calculated by adding white noise at different SNRs to clean speech. From Table 1, it can be logically concluded that most of the mask values are in the interval [0,1], and because of this, limiting the mask values to 1 does not have a negative effect on neural network-based speech enhancement systems.

Затем вычислено распределение значений маски при более низких трех скоростях передачи битов (6,65 Кбит/с, 8,85 Кбит/с и 12,65 Кбит/с) AMR-WB. Таблица 2 показывает вычисленное распределение. Одно существенное отличие для таблицы 1 заключается в процентной доле от значений маски, которые находятся в диапазоне [0,1]. Хотя 39% значений находятся в этом диапазоне при 6,65 Кбит/с, при 12,65 Кбит/с, это значение увеличивается до 44%. Почти 30-36% значений маски находятся в диапазоне (1,2]. Почти 95% значений маски находятся в диапазоне [0,5]. Следовательно, для проблемы постфильтрации, нельзя просто ограничивать значение маски 1. Это предотвращает использование сигмоидальных активаций (или простых, немасштабированных сигмоидальных активаций) в выходном слое.The distribution of mask values at the lower three bit rates (6.65 Kbps, 8.85 Kbps, and 12.65 Kbps) of AMR-WB is then calculated. Table 2 shows the calculated distribution. One significant difference for Table 1 is the percentage of mask values that are in the range [0,1]. Although 39% of the values are in this range at 6.65 Kbps, at 12.65 Kbps this value increases to 44%. Almost 30-36% of the mask values are in the range (1,2]. Almost 95% of the mask values are in the range [0,5]. Therefore, for the post-filtering problem, you cannot simply limit the mask value to 1. This prevents the use of sigmoid activations (or simple, unscaled sigmoid activations) in the output layer.

Другими словами, обнаружено, что предпочтительно использовать значения маски (также обозначенные в качестве значений масштабирования), которые больше единицы в вариантах осуществления согласно изобретению. Кроме того, обнаружено, что предпочтительно ограничивать значения маски или значения масштабирования предварительно определенным значением, которое должно быть больше единицы и которое, например, может находиться в области между 1 и 10 или в области между 1,5 и 10. Посредством ограничения значения маски или значения масштабирования, может не допускаться чрезмерное масштабирование, которое может приводить к артефактам. Например, соответствующий диапазон значений деления шкалы может достигаться посредством использования масштабированной сигмоидальной активации в выходном слое нейронной сети или посредством использования (например, выпрямленной) ограниченной линейной функции активации в качестве выходного слоя нейронной сети.In other words, it has been found that it is preferable to use mask values (also referred to as scaling values) that are greater than one in embodiments of the invention. In addition, it has been found that it is preferable to limit the mask values or scaling values to a predetermined value, which should be greater than one and which, for example, may be in the region between 1 and 10 or in the region between 1.5 and 10. By limiting the mask value or scaling values, excessive scaling, which could lead to artifacts, may be avoided. For example, an appropriate range of scale division values can be achieved by using a scaled sigmoidal activation in the output layer of the neural network, or by using a (eg, rectified) constrained linear activation function as the output layer of the neural network.

6.2. Экспериментальная компоновка6.2. Experimental layout

Ниже по тексту описываются некоторые подробности относительно экспериментальной компоновки. Тем не менее, следует отметить, что функциональности признаков и подробности, описанные в данном документе, необязательно могут перениматься в любом из вариантов осуществления, раскрытых в данном документе.Some details regarding the experimental setup are described below. However, it should be noted that the functionality of the features and details described herein may not necessarily be adopted in any of the embodiments disclosed herein.

Предложенный постфильтр вычисляет кратковременное преобразование Фурье (STFT) кадров с длиной 16 мс с 50%-м перекрытием (8 мс) на частоте дискретизации в 16 кГц (например, в блоке 324). Временные кадры кодируются со взвешиванием с функцией кодирования со взвешиванием Хана, до того, как быстрое преобразование Фурье (FFT) длины 256 вычисляется, приводя к 129 элементам разрешения по частоте (например, представление в пространственной области 326). Из FFT вычисляются значения логарифмической абсолютной величины, чтобы сжимать очень расширенный динамический диапазон значений абсолютной величины (например, логарифмизированных абсолютных значений 372). Поскольку речь имеет временную зависимость, использованы контекстные кадры вокруг обработанного временного кадра (например, обозначенные с помощью 373). Предложенная модель протестирована при двух условиях: a) использованы только предыдущие контекстные кадры, и b) использованы предыдущие и будущие контекстные кадры. Это осуществлено, поскольку будущие контекстные кадры способствуют задержке предложенного постфильтра, и необходимо тестировать преимущество использования будущих контекстных кадров. Контекстная функция кодирования со взвешиванием в 3 выбрана для экспериментов с продвижением задержки всего в один кадр (16 мс), когда рассматриваются только предыдущие контекстные кадры. Когда рассматриваются предыдущие и будущие контекстные кадры, задержка предложенного постфильтра равна 4 кадрам (64 мс).The proposed post-filter computes a short-time Fourier transform (STFT) of 16 ms frames with 50% overlap (8 ms) at a sampling rate of 16 kHz (eg, at block 324). Time frames are weighted encoded with a Han weighted encoding function, before a fast Fourier transform (FFT) of length 256 is computed, resulting in 129 frequency bins (eg, spatial domain representation 326). Logarithmic absolute magnitude values are calculated from the FFT to compress the very wide dynamic range of absolute magnitude values (eg, logarithmic absolute magnitudes 372). Since speech is time dependent, context frames around the processed time frame (eg, indicated by 373) are used. The proposed model is tested under two conditions: a) only previous context frames are used, and b) previous and future context frames are used. This is implemented because future context frames contribute to the delay of the proposed post-filter, and the benefit of using future context frames needs to be tested. A contextual encoding function with a weight of 3 is chosen for experiments with advancing latency of just one frame (16 ms) when only previous context frames are considered. When previous and future context frames are considered, the latency of the proposed post-filter is 4 frames (64 ms).

Размерность по входным признакам (например, значений 373 и 373) для предложенной нейронной сети при тестировании только с предыдущими 3 контекстными кадрами и текущим обработанным кадром составляет 516 (4*129). При тестировании с предыдущими и будущими контекстными кадрами, размерность по входным признакам составляет 903 (7*129). Входные признаки (например, значения 372 и 373) нормализуются к нулевому среднему и единичной дисперсии. Тем не менее, цель, либо действительнозначная маска (например, значения 494), либо спектр абсолютной величины некодированной речи (например, абсолютная величина значений 410), не нормализуется.The dimension of input features (for example, values 373 and 373) for the proposed neural network when testing only with the previous 3 context frames and the current processed frame is 516 (4*129). When testing with previous and future context frames, the dimension of the input features is 903 (7*129). The input features (for example, values 372 and 373) are normalized to zero mean and unit variance. However, the target, either the real-valued mask (eg, values 494) or the absolute magnitude spectrum of uncoded speech (eg, absolute magnitude of values 410), is not normalized.

Фиг. 6 показывает FCNN 600, которая тренируется для того, чтобы обучать функцию fθ преобразования между логарифмической абсолютной величиной и действительнозначной маской.Fig. 6 shows an FCNN 600 that is trained to learn a transformation function f θ between a log absolute value and a real-valued mask.

(7) (7)

FCNN представляет собой простую нейронную сеть, которая имеет входной слой 610, один или более скрытых слоев 612a-612d и выходной слой 614. FCNN реализована на Python с помощью работы Keras [16], и использован Tensorflow [17] в качестве внутреннего интерфейса. В экспериментах, использовано 4 скрытых слоя с 2048 единицами. Все 4 скрытых слоя используют блоки линейной ректификации (ReLU) в качестве функций активации [18]. Вывод скрытых слоев нормализован с использованием пакетной нормализации [19]. Чтобы предотвращать сверхподгонку, выпадение сигнала [20] задается равным 0,2. Чтобы обучать FCNN, использован оптимизатор Адама [21] с темпом обучения 0,01, и используемый размер пакета равен 32.The FCNN is a simple neural network that has an input layer 610, one or more hidden layers 612a-612d, and an output layer 614. The FCNN is implemented in Python using the work of Keras [16], and uses Tensorflow [17] as the backend. In the experiments, 4 hidden layers with 2048 units were used. All 4 hidden layers use rectified linear units (ReLUs) as activation functions [18]. The output of the hidden layers is normalized using batch normalization [19]. To prevent overfitting, the signal dropout [20] is set to 0.2. To train the FCNN, the Adam optimizer [21] is used with a learning rate of 0.01, and the batch size used is 32.

Размерность выходного слоя 614 равна 129. Поскольку FCNN оценивает действительнозначную (или действительнозначную) маску, и эти маски могут принимать любое значение между , тестирование выполняется как с ограничением значений маски, так и без ограничения. Когда значения маски являются неограниченными, использована ReLU-активация в выходном слое. Когда значения маски являются ограниченными, использована либо ограниченная ReLU-активация, либо сигмоидальная функция, и вывод сигмоидальной активации масштабирован на определенный коэффициент N масштабирования.The dimension of the output layer 614 is 129. Because FCNN evaluates to a real-valued (or real-valued) mask, and these masks can take any value between , testing is performed both with and without limiting the mask values. When the mask values are unconstrained, ReLU activation is used in the output layer. When the mask values are constrained, either a constrained ReLU activation or a sigmoid function is used, and the output of the sigmoid activation is scaled by a certain scaling factor N.

Чтобы обучать FCNN, использованы две функции потерь (MSEMA и MSESA), заданные в разделе 6.1.2. Нормы отсечения использованы для того, чтобы обеспечивать сходимость модели, когда ограниченная ReLU или неограниченная ReLU используется в качестве активации выходного слоя.To train the FCNN, two loss functions (MSE MA and MSE SA ) are used, defined in Section 6.1.2. Cut-off norms are used to ensure the convergence of the model when constrained ReLU or unconstrained ReLU is used as the activation of the output layer.

Градиенты в выходном слое, когда ограниченная или неограниченная ReLU используется, являются следующими:The gradients in the output layer when constrained or unconstrained ReLU is used are as follows:

(8) (8)

- где tar является либо спектром абсолютной величины (например, абсолютной величиной аудиопредставления 510), либо IRM (например, значениями 494), out является либо улучшенной абсолютной величиной (например, значениями 542), либо оцененной маской (например, значениями 484), которая принимает любое значение между 0 и пороговое значение, и h является выводом скрытого модуля, который задается как ввод в выходной модуль. Когда ограниченная ReLU используется, уравнение 8 равно нулю за пределами ограниченного значения.- where tar is either an absolute value spectrum (for example, the absolute value of audio representation 510) or an IRM (for example, values 494), out is either an improved absolute value (for example, values 542) or an estimated mask (for example, values 484), which takes any value between 0 and the threshold value, and h is the output of the hidden module, which is given as the input to the output module. When constrained ReLU is used, Equation 8 is zero outside the constrained value.

Градиенты в выходном слое, когда масштабированная сигмоида используется, являются следующими:The gradients in the output layer when the scaled sigmoid is used are as follows:

(9) (9)

- где tar является либо спектром абсолютной величины, либо IRM (например, значениями 494), out является либо улучшенной абсолютной величиной, либо оцененной маской Mest, которая принимает любое значение между 0 и 1, и h является выводом скрытого модуля, который задается как ввод в выходной модуль.- where tar is either the absolute magnitude spectrum or the IRM (e.g. 494 values), out is either the improved absolute magnitude or the estimated mask M est , which takes any value between 0 and 1, and h is the output of the hidden module, which is given by input to the output module.

Для обучения проверки достоверности и тестирования, использована NTT-база данных [22]. Также выполнено перекрестное тестирование баз данных для TIMIT-базы данных [23], чтобы подтверждать независимость модели от обучающей базы данных. NTT- и TIMIT-базы данных представляют собой базу данных с чистой речью. TIMIT-база данных состоит из файлов с моноречью на частоте дискретизации в 16 кГц. NTT-база данных состоит из файлов со стереоречью, дискретизированных при 48 кГц. Чтобы получать файлы с моноречью при 16 кГц, выполнено пассивное понижающее сведение и повторная дискретизация для NTT-база данных. NTT-база данных состоит из 3960 файлов, из которых 3612 файлов использованы для обучения, 198 файлов использованы для проверки достоверности, и 150 файлов использованы для тестирования. База данных NT состоит из говорящих мужского пола и женского пола, а также состоит из таких языков, как американский английский и британский английский, немецкий, китайский, французский и японский язык.For training validation and testing, the NTT database was used [22]. Cross-database testing was also performed on the TIMIT database [23] to confirm the independence of the model from the training database. The NTT and TIMIT databases are pure speech databases. The TIMIT database consists of monospeech files at a sampling rate of 16 kHz. The NTT database consists of stereo speech files sampled at 48 kHz. To obtain mono speech files at 16 kHz, passive downmixing and resampling was performed on the NTT database. The NTT database consists of 3960 files, of which 3612 files are used for training, 198 files are used for validation, and 150 files are used for testing. The NT database consists of male and female speakers and also consists of languages such as American English and British English, German, Chinese, French and Japanese.

Улучшенная речь временной области получается с использованием обратного кратковременного преобразования Фурье (iSTFT). iSTFT использует фазу кодированной речи вообще без обработки.Enhanced time domain speech is obtained using the inverse short time Fourier transform (iSTFT). iSTFT uses the encoded speech phase without any processing at all.

В качестве вывода, полностью соединенная нейронная сеть 600, как показано на фиг. 6 используется в вариантах осуществления согласно изобретению, чтобы реализовывать определение 134 значений масштабирования или нейронную сеть 380. Кроме того, нейронная сеть 600 может обучаться посредством устройства 200 или посредством устройства 400, или посредством устройства 500.As an output, the fully connected neural network 600 as shown in FIG. 6 is used in embodiments of the invention to implement scaling value determination 134 or neural network 380. In addition, neural network 600 may be trained by device 200 or by device 400 or by device 500.

Как можно видеть, нейронная сеть 600 принимает логарифмизированные значения абсолютной величины (например, логарифмизированные абсолютные значения спектральных значений 132, 372, 472, 572) во входном слое 610. Например, логарифмизированные абсолютные значения спектральных значений текущего обработанного кадра и одного или более предшествующих кадров, и одного или более последующих кадров могут приниматься во входном слое 610. Входной слой, например, может принимать логарифмизированные абсолютные значения спектральных значений. Значения, принятые посредством входного слоя, затем могут перенаправляться, масштабированным способом, в искусственные нейроны первых скрытых слоев 612a. Масштабирование входных значений входного слоя 612, например, может задаваться посредством набора значений, задающих характеристики фильтра. Затем, искусственные нейроны первого скрытого слоя 612, который может реализовываться с использованием нелинейных функций, обеспечивают выходные значения первого скрытого слоя 612a. Выходные значения первого скрытого слоя 612a затем обеспечиваются, масштабированным способом, во вводы искусственных нейронов последующего (второго) скрытого слоя 612b. С другой стороны, масштабирование задается посредством набора значений, задающих характеристики фильтра. Дополнительные скрытые слои, содержащие аналогичную функциональность, могут включаться. В завершение, выходные сигналы последнего скрытого слоя (например, четвертого скрытого слоя 612d) обеспечиваются, масштабированным способом, во вводы искусственных нейронов выходного слоя 614. Функциональность искусственных нейронов выходного слоя 614, например, может задаваться посредством функции активации выходного слоя. Соответственно, выходные значения нейронной сети могут определяться с использованием оценки функции активации выходного слоя.As can be seen, neural network 600 receives logarithmized absolute magnitude values (e.g., logarithmized absolute values of spectral values 132, 372, 472, 572) in input layer 610. For example, logarithmized absolute values of spectral values of the current processed frame and one or more previous frames, and one or more subsequent frames may be received at input layer 610. The input layer, for example, may receive logarithmized absolute values of the spectral values. The values received by the input layer can then be forwarded, in a scaled manner, to the artificial neurons of the first hidden layers 612a. The scaling of the input values of the input layer 612, for example, can be specified by a set of values defining the characteristics of the filter. Next, artificial neurons of the first hidden layer 612, which may be implemented using nonlinear functions, provide the output values of the first hidden layer 612a. The output values of the first hidden layer 612a are then provided, in a scaled manner, to the inputs of the artificial neurons of the subsequent (second) hidden layer 612b. On the other hand, scaling is specified by a set of values that define the characteristics of the filter. Additional hidden layers containing similar functionality may be included. Finally, the outputs of the last hidden layer (eg, the fourth hidden layer 612d) are provided, in a scaled manner, to the inputs of the output layer 614 artificial neurons. The functionality of the output layer 614 artificial neurons, for example, can be specified by an output layer activation function. Accordingly, the output values of the neural network can be determined using an estimate of the activation function of the output layer.

Кроме того, следует отметить, что нейронная сеть может быть "полностью соединенной", что означает, например, то, что все входные сигналы нейронной сети могут способствовать входным сигналам всех искусственных нейронов первого скрытого слоя, и то, что выходные сигналы всех искусственных нейронов данного скрытого слоя могут способствовать входным сигналам всех искусственных нейронов последующего скрытого слоя. Тем не менее, фактические доли могут определяться посредством набора значений, задающих характеристики фильтра, который типично определяется посредством тренировки 490, 596 нейронной сети.Additionally, it should be noted that a neural network can be "fully connected", meaning, for example, that all inputs to the neural network can contribute to the inputs of all artificial neurons in the first hidden layer, and that the outputs of all artificial neurons in a given layer hidden layer can contribute to the input signals of all artificial neurons of the subsequent hidden layer. However, the actual shares may be determined by a set of values defining the characteristics of the filter, which is typically determined by training 490, 596 a neural network.

Кроме того, следует отметить, что тренировка 490, 596 нейронной сети, например, может использовать градиенты, как предусмотрено в уравнениях (8) и (9), при определении коэффициентов нейронной сети.Additionally, it should be noted that neural network training 490, 596, for example, may use gradients as provided in equations (8) and (9) in determining the neural network coefficients.

Следует отметить, что любые из признаков, функциональностей и подробностей, описанных в этом разделе, необязательно могут вводиться в любые из вариантов осуществления, раскрытых в данном документе, как отдельно, так и в комбинации.It should be noted that any of the features, functionality and details described in this section may not necessarily be included in any of the embodiments disclosed herein, either alone or in combination.

6.3. Эксперименты и результаты6.3. Experiments and results

Чтобы оценивать предел значений маски, проведен эксперимент по принципу оракула. При этом оценивается IRM и ограничивается IRM с различными пороговыми значениями, как показано на фиг. 7. Использованы объективные показатели, такие как перцепционная оценка качества речи (PESQ) [24][25][26] и перцепционная объективная оценка качества прослушивания (POLQA) [27] для оценки. Из фиг. 7 можно сделать вывод, что задание порогового значения равным 1 не работает настолько хорошо, как задание порогового значения равным 2, 4 или 10. Имеются очень незначительные разности между пороговыми значениями 2, 4 и 10. Следовательно, выбрано ограничение значения маски 2 в дополнительных экспериментах.To evaluate the limit of the mask values, an experiment was carried out using the oracle principle. This evaluates the IRM and limits the IRM with different thresholds, as shown in FIG. 7. Used objective measures such as Perceptual Speech Quality Assessment (PESQ) [24][25][26] and Perceptual Objective Listening Quality Assessment (POLQA) [27] for evaluation. From fig. 7, it can be concluded that setting the threshold value to 1 does not work as well as setting the threshold value to 2, 4 or 10. There are very minor differences between threshold values 2, 4 and 10. Therefore, a mask value limit of 2 is chosen in additional experiments .

Кроме того, фиг. 8 показывает средние количественные PESQ- и POLQA-показатели, оценивающие производительность предложенных способов и EVS-постпроцессора. Можно видеть, что применение концепций, описанных в данном документе, приводит к повышению качества речи, как для случая, в котором аппроксимация сигналов (например, как показано на фиг. 5), так и для случая, в котором маскированная аппроксимация (например, как показано на фиг. 4) используется для обучения искусственной нейронной сети.In addition, FIG. 8 shows the average quantitative PESQ and POLQA indicators evaluating the performance of the proposed methods and the EVS postprocessor. It can be seen that application of the concepts described herein results in improved speech quality, both for the case in which the signals are approximated (for example, as shown in FIG. 5) and for the case in which the masked approximation is used (for example, as shown in FIG. 5). shown in Fig. 4) is used to train an artificial neural network.

7. Заключения7. Conclusions

Обнаружено, что качество кодированной речи существенно страдает на более низких скоростях передачи битов вследствие высокого шума квантования. Постфильтры обычно используются на низких скоростях передачи битов, чтобы смягчать эффект шума квантования. В этом раскрытии сущности, предлагается постфильтр на основе действительнозначной маски для того, чтобы повышать качество декодированной речи при более низких скоростях передачи битов. Чтобы оценивать эту действительнозначную маску, используется, например, полностью соединенная нейронная сеть, которая работает с нормализованными логарифмическими абсолютными величинами. Данное предложение протестировано на кодеке на основе стандарта широкополосного адаптивного многоскоростного кодирования (AMR-WB) в более низких 3 режимах (6,65 Кбит/с, 8,85 Кбит/с и 12,65 Кбит/с). Эксперимент показывает улучшение в PESQ, POLQA и субъективных тестах на основе прослушивания.It is found that the quality of encoded speech suffers significantly at lower bit rates due to high quantization noise. Post filters are typically used at low bit rates to mitigate the effect of quantization noise. In this disclosure, a real-value mask based post filter is proposed to improve the quality of decoded speech at lower bit rates. To estimate this real-valued mask, for example, a fully connected neural network is used that operates on normalized logarithmic absolute values. This proposal is tested on a codec based on the Adaptive Multi-Rate Wideband (AMR-WB) codec in the lower 3 modes (6.65 Kbps, 8.85 Kbps and 12.65 Kbps). The experiment shows improvement in PESQ, POLQA and subjective listening tests.

Другими словами, варианты осуществления согласно изобретению относятся к концепции, которая использует полностью соединенную сеть в контексте кодирования речи и/или декодирования речи. Варианты осуществления согласно изобретению относятся к улучшению кодированной речи. Варианты осуществления согласно изобретению относятся к постфильтрации. Варианты осуществления согласно изобретению относятся к концепции, которая решает проблемы, связанные с шумом квантования (или, более точно, с уменьшением шума квантования).In other words, embodiments according to the invention relate to a concept that utilizes a fully connected network in the context of speech encoding and/or speech decoding. Embodiments of the invention relate to improving coded speech. Embodiments of the invention relate to post-filtration. Embodiments of the invention relate to a concept that solves problems associated with quantization noise (or more precisely, quantization noise reduction).

В вариантах осуществления согласно изобретению, CNN (сверточная нейронная сеть) используется в качестве функции преобразования в кепстральной области. Работа [14] предлагает статистический контекстный постфильтр в области логарифмической абсолютной величины.In embodiments according to the invention, a CNN (convolutional neural network) is used as a transform function in the cepstral domain. Work [14] proposes a statistical contextual postfilter in the logarithmic absolute value domain.

В этой работе, проблема улучшения кодированной речи формулируется как проблема регрессии. Полностью соединенная нейронная сеть (FCNN) тренируется для того, чтобы обучать функцию fθ преобразования между вводом (логарифмической абсолютной величиной) и выводом (действительнозначной маской). Оцененная действительнозначная маска затем умножается на входную абсолютную величину, чтобы улучшать кодированную речь. Работа оценивается для AMR-WB-кодека на скоростях передачи битов в 6,65 Кбит/с, 8,85 Кбит/с и 12,65 Кбит/с. В вариантах осуществления, постфильтр может использоваться в EVS [4][3] в качестве опорного постфильтра. Для получения дальнейшей информации, следует обратиться к разделам 6.1 и 6.2. Как можно видеть, вербальные результаты тестирования на основе прослушивания обеспечиваются. Например, предпочтительные количественные PESQ- и POLQA-показатели могут достигаться с использованием вариантов осуществления согласно изобретению.In this work, the coded speech enhancement problem is formulated as a regression problem. A fully connected neural network (FCNN) is trained to learn a transformation function f θ between the input (log absolute value) and the output (real valued mask). The estimated real-valued mask is then multiplied by the input absolute value to improve the encoded speech. Performance is evaluated for the AMR-WB codec at bit rates of 6.65 Kbps, 8.85 Kbps, and 12.65 Kbps. In embodiments, the post filter may be used in EVS [4][3] as a reference post filter. For further information, please refer to sections 6.1 and 6.2. As can be seen, verbal test results based on listening are provided. For example, preferred PESQ and POLQA scores can be achieved using embodiments of the invention.

Ниже по тексту описываются некоторые дополнительные важные моменты.Some additional important points are described below.

Согласно первому аспекту, постфильтр на основе маски, чтобы повышать качество кодированной речи, используется в вариантах осуществления согласно изобретению.According to a first aspect, a mask-based post-filter to improve the quality of encoded speech is used in embodiments according to the invention.

Маска является действительнозначной (либо значения масштабирования являются действительнозначными). Она оценивается для каждого элемента разрешения по частоте посредством алгоритма машинного обучения (или посредством нейронной сети) из входных признаков:The mask is real-valued (or the scaling values are real-valued). It is estimated for each frequency bin by a machine learning algorithm (or by a neural network) from the input features:

- где является оцененной маской, является значением абсолютной величины кодированной речи, и является постобработанной речью в элементе k разрешения по частоте и временном индексе n.- Where is a rated mask, is the absolute value of the encoded speech, and is the post-processed speech at frequency bin k and time index n.

Входные признаки, используемые в данный момент, представляют собой спектр логарифмической абсолютной величины, но также могут представлять собой любую производную спектра абсолютной величины.The input features currently used are the logarithmic magnitude spectrum, but can also be any derivative of the absolute magnitude spectrum.

Согласно второму аспекту, необязательно может быть предусмотрено ограничение значений маски или значений масштабирования.According to a second aspect, there may optionally be a limitation on the mask values or scaling values.

Значения оцененной маски находятся, например, в диапазоне [0, ]. Чтобы предотвращать такой большой диапазон, пороговое значение необязательно может задаваться. В традиционных алгоритмах улучшения речи, маска является ограниченной 1. В отличие от них, здесь она ограничивается пороговым значением, которое превышает 1. Это пороговое значение определяется посредством анализа распределения масок. Полезные пороговые значения, например, могут составлять между 2 и 10.The values of the estimated mask are, for example, in the range [0, ]. To prevent such a large range, a threshold value may optionally be set. In traditional speech enhancement algorithms, the mask is limited to 1. In contrast, here it is limited to a threshold value that is greater than 1. This threshold value is determined by analyzing the distribution of masks. Useful thresholds, for example, may be between 2 and 10.

a. Поскольку значения оцененной маски, например, ограничены пороговым значением, и поскольку оцененное пороговое значение превышает 1, выходной слой может представлять собой либо ограниченные блоки линейной ректификации (ReLU), либо масштабированную сигмоиду.a. Because the estimated mask values, for example, are limited by a threshold, and because the estimated threshold is greater than 1, the output layer can be either restricted linear units (ReLUs) or a scaled sigmoid.

b. Когда алгоритм машинного обучения оптимизируется с использованием способа на основе MMSE (оптимизации оценки минимального среднеквадратического значения) для аппроксимации масок, целевая маска (например, целевые значения масштабирования) необязательно может модифицироваться либо посредством задания значений маски (например, целевых значений масштабирования) выше порогового значения в целевой маске равным 1, либо может задаваться равной пороговому значению.b. When a machine learning algorithm is optimized using an MMSE (Minimum Mean Square Estimation Optimization)-based method for approximating masks, the target mask (eg, scaling targets) may optionally be modified either by setting the mask values (eg, scaling targets) above a threshold value in target mask equal to 1, or can be set equal to the threshold value.

Согласно третьему аспекту, алгоритм машинного обучения может использоваться в качестве полностью соединенной нейронной сети. Долгое кратковременное запоминающее устройство (LSTM) также может использоваться в качестве альтернативы.According to the third aspect, the machine learning algorithm can be used as a fully connected neural network. Long short-term memory (LSTM) can also be used as an alternative.

a. Полностью соединенная нейронная сеть состоит, например, из 4 скрытых слоев. Каждый скрытый слой, например, состоит из 2048 или 2500 активаций блоков линейной ректификации (ReLU).a. A fully connected neural network consists of, for example, 4 hidden layers. Each hidden layer, for example, consists of 2048 or 2500 activations of linear rectification units (ReLUs).

b. Входная размерность полностью соединенной нейронной сети зависит от контекстных кадров и размера FFT. Задержка системы также зависит от контекстных кадров и размера кадра.b. The input dimension of a fully connected neural network depends on the context frames and the size of the FFT. System latency also depends on context frames and frame size.

c. Размер контекстных кадров, например, может составлять любое значение между 3 и 5. Для экспериментов, использовано, например, 256 (16 мс 16 кГц) в качестве размера кадра и FFT-размера. Размер контекстных кадров задан равным 3, поскольку получается очень небольшое преимущество при выходе за пределы 3. Также тест выполнен как с будущими+предыдущими контекстными кадрами, так и только с предыдущими контекстными кадрами.c. The size of the context frames, for example, can be any value between 3 and 5. For experiments, for example, 256 (16 ms 16 kHz) was used as the frame size and FFT size. The size of the context frames is set to 3, since there is very little benefit when going beyond 3. The test is also performed with both future+previous context frames and with only previous context frames.

Согласно четвертому аспекту, полностью соединенная сеть обучена со следующей MMSE (оптимизацией оценки минимального среднеквадратического значения): аппроксимация масок и аппроксимация сигналов.According to the fourth aspect, the fully connected network is trained with the following MMSE (minimum mean square estimation optimization): mask approximation and signal approximation.

a. При аппроксимации масок, среднеквадратическая ошибка между целевой маской (например, целевыми значениями масштабирования) и оцененной маской (например, значениями масштабирования значений масштабирования, определенными с использованием нейронной сети) минимизируется. Целевая маска модифицируется, например, как указано в (2.b) (например, в аспекте 2, подраздел b).a. When approximating masks, the mean squared error between the target mask (eg, the target scaling values) and the estimated mask (eg, the scaling values of the scaling values determined using a neural network) is minimized. The target mask is modified, for example, as specified in (2.b) (for example, in aspect 2, subsection b).

b. При аппроксимации сигналов, среднеквадратическая ошибка между улучшенной абсолютной величиной (например, улучшенным спектром 592 абсолютной величины) и целевой абсолютной величиной (например, спектром абсолютной величины аудиопредставления 510) минимизируется. Улучшенная абсолютная величина получается посредством умножения оцененной маски из DNN (например, из нейронной сети) на оцененную маску кодированной абсолютной величины. Целевая абсолютная величина представляет собой некодированную речевую абсолютную величину.b. When approximating signals, the root mean square error between the improved absolute value (eg, improved absolute value spectrum 592) and the target absolute value (eg, absolute value spectrum of the audio presentation 510) is minimized. The improved absolute value is obtained by multiplying the estimated mask from the DNN (eg, a neural network) by the estimated encoded absolute value mask. The target absolute value is an uncoded speech absolute value.

В качестве вывода, варианты осуществления, описанные в данном документе, могут необязательно дополняться посредством любого из важных моментов или аспектов, описанных здесь. Тем не менее, следует отметить, что важные моменты и аспекты, описанные здесь, могут использоваться отдельно или в комбинации и могут вводиться в любой из вариантов осуществления, описанных в данном документе, как отдельно, так и в комбинации.As a conclusion, the embodiments described herein may not necessarily be supplemented by any of the important points or aspects described herein. However, it should be noted that the important points and aspects described herein may be used alone or in combination, and may be incorporated into any of the embodiments described herein, either alone or in combination.

8. Способ согласно фиг. 98. Method according to FIG. 9

Фиг. 9 показывает принципиальную блок-схему способа 900 для обеспечения улучшенного аудиопредставления на основе кодированного аудиопредставления, согласно варианту осуществления настоящего изобретения.Fig. 9 shows a schematic flow diagram of a method 900 for providing an enhanced audio presentation based on an encoded audio presentation, according to an embodiment of the present invention.

Способ содержит предоставление 910 декодированного аудиопредставления ().The method comprises providing 910 a decoded audio representation ( ).

Кроме того, способ содержит получение 920 множества значений (M(k, n)) масштабирования, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, на основе спектральных значений декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, и способ содержит масштабирование 930 спектральных значений декодированного представления () аудиосигналов или их предварительно обработанной версии, с использованием значений (M(k, n)) масштабирования для получения улучшенного аудиопредставления ().The method further comprises obtaining 920 a plurality of scaling values (M(k, n)) that are associated with different frequency bins or frequency bands, based on the spectral values of the decoded audio representation that are associated with the different frequency bins or frequency bands. and the method comprises scaling 930 spectral values of the decoded representation ( ) audio signals or a pre-processed version thereof, using (M(k, n)) scaling values to obtain an enhanced audio representation ( ).

Способ 900 необязательно может дополняться посредством любых из признаков, функциональностей и подробностей, описанных в данном документе, как отдельно, так и в комбинации.The method 900 may optionally be enhanced by any of the features, functionality and details described herein, either alone or in combination.

9. Способ согласно фиг. 109. Method according to FIG. 10

Фиг. 10 показывает принципиальную блок-схему способа 1000 для определения набора значений, задающих характеристики фильтра для обеспечения улучшенного аудиопредставления () на основе декодированного аудиопредставления, согласно варианту осуществления настоящего изобретения.Fig. 10 shows a schematic flow diagram of a method 1000 for determining a set of values defining filter characteristics to provide enhanced audio presentation ( ) based on the decoded audio representation, according to an embodiment of the present invention.

Способ содержит получение 1010 спектральных значений () декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами.The method involves obtaining 1010 spectral values ( ) decoded audio representations that are associated with different frequency bins or frequency ranges.

Способ также содержит определение 1020 набора значений, задающих характеристики фильтра таким образом, что значения масштабирования, обеспеченные посредством фильтра на основе спектральных значений декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, аппроксимируют целевые значения масштабирования.The method also includes defining 1020 a set of values defining filter characteristics such that the scaling values provided by the filter based on spectral values of the decoded audio representation that are associated with different frequency bins or frequency bands approximate the target scaling values.

Альтернативно, способ содержит определение 1030 набора значений, задающих характеристики фильтра таким образом, что спектр, полученный посредством фильтра на основе спектральных значений декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, и с использованием значений масштабирования, полученных на основе декодированного аудиопредставления, аппроксимирует целевой спектр.Alternatively, the method comprises defining 1030 a set of values defining filter characteristics such that the spectrum obtained by the filter is based on spectral values of the decoded audio representation that are associated with different frequency bins or frequency ranges, and using scaling values obtained based on the decoded audio representation. audio representation, approximates the target spectrum.

10. Альтернативы реализации10. Implementation Alternatives

Хотя некоторые аспекты описаны в контексте устройства, очевидно, что эти аспекты также представляют описание соответствующего способа, при этом блок или устройство соответствует этапу способа либо признаку этапа способа. Аналогично, аспекты, описанные в контексте этапа способа, также представляют описание соответствующего блока или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут выполняться посредством (или с использованием) аппаратного устройства, такого как, например, микропроцессор, программируемый компьютер либо электронная схема. В некоторых вариантах осуществления, один или более из самых важных этапов способа могут выполняться посредством этого устройства.Although certain aspects are described in the context of an apparatus, it will be appreciated that these aspects also represent a description of the corresponding method, wherein the block or apparatus corresponds to a method step or a feature of a method step. Likewise, aspects described in the context of a method step also provide a description of the corresponding block or element, or feature of the corresponding device. Some or all of the steps of the method may be performed by (or using) a hardware device, such as, for example, a microprocessor, a programmable computer, or an electronic circuit. In some embodiments, one or more of the most critical steps of the method may be performed by this device.

Изобретаемый кодированный аудиосигнал может сохраняться на цифровом носителе хранения данных либо может передаваться по среде передачи, такой как беспроводная среда передачи или проводная среда передачи, к примеру, Интернет.The inventive encoded audio signal may be stored on a digital storage medium or may be transmitted over a transmission medium such as a wireless transmission medium or a wired transmission medium such as the Internet.

В зависимости от определенных требований к реализации, варианты осуществления изобретения могут реализовываться в аппаратных средствах или в программном обеспечении. Реализация может выполняться с использованием цифрового носителя хранения данных, например, гибкого диска, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM или флэш-памяти, имеющего сохраненные электронно считываемые управляющие сигналы, которые взаимодействуют (или допускают взаимодействие) с программируемой компьютерной системой таким образом, что осуществляется соответствующий способ. Следовательно, цифровой носитель хранения данных может быть машиночитаемым.Depending on certain implementation requirements, embodiments of the invention may be implemented in hardware or software. An implementation may be performed using a digital storage medium, such as a floppy disk, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM, or flash memory, having stored electronically readable control signals that interact (or are interoperable) with programmable computer system in such a way that the appropriate method is carried out. Therefore, the digital storage medium may be machine readable.

Некоторые варианты осуществления согласно изобретению содержат носитель данных, имеющий электронночитаемые управляющие сигналы, которые допускают взаимодействие с программируемой компьютерной системой таким образом, что осуществляется один из способов, описанных в данном документе.Some embodiments of the invention comprise a storage medium having electronically readable control signals that are capable of interfacing with a programmable computer system in a manner that implements one of the methods described herein.

В общем, варианты осуществления настоящего изобретения могут реализовываться как компьютерный программный продукт с программным кодом, при этом программный код выполнен с возможностью осуществления одного из способов, когда компьютерный программный продукт работает на компьютере. Программный код, например, может сохраняться на машиночитаемом носителе.In general, embodiments of the present invention may be implemented as a computer program product with program code, wherein the program code is configured to implement one of the methods when the computer program product runs on a computer. The program code, for example, may be stored on a computer-readable medium.

Другие варианты осуществления содержат компьютерную программу для осуществления одного из способов, описанных в данном документе, сохраненную на машиночитаемом носителе.Other embodiments comprise a computer program for implementing one of the methods described herein stored on a computer-readable medium.

Другими словами, вариант осуществления изобретаемого способа в силу этого представляет собой компьютерную программу, имеющую программный код для осуществления одного из способов, описанных в данном документе, когда компьютерная программа работает на компьютере.In other words, an embodiment of the inventive method is therefore a computer program having program code for carrying out one of the methods described herein when the computer program runs on a computer.

Следовательно, дополнительный вариант осуществления изобретаемых способов представляет собой носитель хранения данных (цифровой носитель хранения данных или машиночитаемый носитель), содержащий записанную компьютерную программу для осуществления одного из способов, описанных в данном документе. Носитель данных, цифровой носитель хранения данных или носитель с записанными данными типично является материальным и/или энергонезависимым.Therefore, a further embodiment of the inventive methods is a storage medium (digital storage medium or computer readable medium) containing a recorded computer program for implementing one of the methods described herein. The storage medium, digital storage medium, or recorded data medium is typically tangible and/or non-volatile.

Следовательно, дополнительный вариант осуществления изобретаемого способа представляет собой поток данных или последовательность сигналов, представляющих компьютерную программу для осуществления одного из способов, описанных в данном документе. Поток данных или последовательность сигналов, например, может быть выполнена с возможностью передачи через соединение для передачи данных, например, через Интернет.Therefore, a further embodiment of the inventive method is a data stream or signal sequence representing a computer program for implementing one of the methods described herein. The data stream or signal sequence, for example, may be configured to be transmitted over a data connection, such as the Internet.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, выполненное с возможностью осуществлять один из способов, описанных в данном документе.An additional embodiment comprises processing means, such as a computer or programmable logic device, configured to implement one of the methods described herein.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную компьютерную программу для осуществления одного из способов, описанных в данном документе.A further embodiment comprises a computer having a computer program installed for performing one of the methods described herein.

Дополнительный вариант осуществления согласно изобретению содержит устройство или систему, выполненную с возможностью передавать (например, электронно или оптически) компьютерную программу для осуществления одного из способов, описанных в данном документе, в приемное устройство. Приемное устройство, например, может представлять собой компьютер, мобильное устройство, запоминающее устройство и т.п. Устройство или система, например, может содержать файловый сервер для передачи компьютерной программы в приемное устройство.A further embodiment of the invention comprises a device or system configured to transmit (eg, electronically or optically) a computer program for implementing one of the methods described herein to a receiving device. The receiving device, for example, may be a computer, mobile device, storage device, or the like. The device or system, for example, may include a file server for transmitting a computer program to a receiving device.

В некоторых вариантах осуществления, программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для того, чтобы выполнять часть или все из функциональностей способов, описанных в данном документе. В некоторых вариантах осуществления, программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором, чтобы осуществлять один из способов, описанных в данном документе. В общем, способы предпочтительно осуществляются посредством любого аппаратного устройства.In some embodiments, a programmable logic device (eg, a field programmable gate array) may be used to perform some or all of the functionality of the methods described herein. In some embodiments, a field programmable gate array may interface with a microprocessor to implement one of the methods described herein. In general, the methods are preferably implemented by any hardware device.

Устройство, описанное в данном документе, может реализовываться с использованием аппаратного устройства либо с использованием компьютера, либо с использованием комбинации аппаратного устройства и компьютера.The apparatus described herein may be implemented using a hardware device, either using a computer, or using a combination of a hardware device and a computer.

Устройство, описанное в данном документе, или любые компоненты устройства, описанного в данном документе, могут реализовываться, по меньшей мере, частично в аппаратных средствах и/или в программном обеспечении.The device described herein, or any components of the device described herein, may be implemented at least in part in hardware and/or software.

Способы, описанные в данном документе, могут осуществляться с использованием аппаратного устройства либо с использованием компьютера, либо с использованием комбинации аппаратного устройства и компьютера.The methods described herein may be performed using a hardware device, or using a computer, or using a combination of a hardware device and a computer.

Способы, описанные в данном документе, или любые компоненты устройства, описанного в данном документе, могут выполняться, по меньшей мере, частично посредством аппаратных средств и/или посредством программного обеспечения.The methods described herein, or any components of the apparatus described herein, may be performed at least in part by hardware and/or software.

Вышеописанные варианты осуществления являются просто иллюстративными в отношении принципов настоящего изобретения. Следует понимать, что модификации и изменения компоновок и подробностей, описанных в данном документе, должны быть очевидными для специалистов в данной области техники. Следовательно, они подразумеваются как ограниченные только посредством объема нижеприведенной формулы изобретения, а не посредством конкретных подробностей, представленных посредством описания и пояснения вариантов осуществления в данном документе.The above-described embodiments are merely illustrative of the principles of the present invention. It should be understood that modifications and changes to the arrangements and details described herein will be apparent to those skilled in the art. Accordingly, they are intended to be limited only by the scope of the claims below and not by the specific details provided by the description and explanation of the embodiments herein.

11. Библиографический список11. Bibliography

1. 3GPP "Speech codec speech processing functions; Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions", 3rd Generation Partnership Project (3GPP), TS 26.190, 12 2009. [онлайн]. По адресу: http://www.3gpp.org/ftp/Specs/html-info/26190.htm1. 3GPP "Speech codec speech processing functions; Adaptive Multi-Rate - Wideband (AMR-WB) speech codec; Transcoding functions", 3rd Generation Partnership Project (3GPP), TS 26.190, 12 2009. [online]. At: http://www.3gpp.org/ftp/Specs/html-info/26190.htm

2. M. Dietz, M. Multrus, V. Eksler, V. Malenovsky, E. Norvell, H. Pobloth, L. Miao, Z. Wang, L. Laaksonen, A. Vasilache, Y. Kamamoto, K. Kikuiri, S. Ragot, J. Faure, H. Ehara, V. Rajendran, V. Atti, H. Sung, E. Oh, H. Yuan и C. Zhu "Overview of the EVS codec architecture", IEEE, 2015 год, стр. 5698-5702.2. M. Dietz, M. Multrus, V. Eksler, V. Malenovsky, E. Norvell, H. Pobloth, L. Miao, Z. Wang, L. Laaksonen, A. Vasilache, Y. Kamamoto, K. Kikuiri, S. Ragot, J. Faure, H. Ehara, V. Rajendran, V. Atti, H. Sung, E. Oh, H. Yuan and C. Zhu "Overview of the EVS codec architecture", IEEE, 2015, pp. 5698-5702.

3. 3GPP "TS 26.445, EVS Codec Detailed Algorithmic Description; 3GPP Technical Specification (Release 12)", 3rd Generation Partnership Project (3GPP), TS 26.445, 12 2014. [онлайн]. По адресу: http://www.3gpp.org/ftp/Specs/html-info/26445.htm3. 3GPP "TS 26.445, EVS Codec Detailed Algorithmic Description; 3GPP Technical Specification (Release 12)", 3rd Generation Partnership Project (3GPP), TS 26.445, 12 2014. [online]. At: http://www.3gpp.org/ftp/Specs/html-info/26445.htm

4. T. Vaillancourt, R. Salami и M. Jelnek "New post-processing techniques for low bit rate celp codecs", in ICASSP, 2015 год.4. T. Vaillancourt, R. Salami and M. Jelnek "New post-processing techniques for low bit rate celp codecs", in ICASSP, 2015.

5. J.-H. Chen и A. Gersho "Adaptive postfiltering for quality enhancement of coded speech", издание 3, номер 1, стр. 59-71, 1995 год.5. J.-H. Chen and A. Gersho "Adaptive postfiltering for quality enhancement of coded speech", edition 3, number 1, pp. 59-71, 1995.

6. T. Bäckström, Speech Coding with Code-Excited Linear Prediction. Springer, 2017 год. [онлайн]. По адресу: http://www.springer.com/gp/book/97833195020216. T. Bäckström, Speech Coding with Code-Excited Linear Prediction. Springer, 2017. [online]. At: http://www.springer.com/gp/book/9783319502021

7. K. Han, Y. Wang, D. Wang, W. S. Woods, I. Merks и T. Zhang "Learning spectral mapping for speech dereverberation and denoising".7. K. Han, Y. Wang, D. Wang, W. S. Woods, I. Merks and T. Zhang "Learning spectral mapping for speech dereverberation and denoising."

8. Y. Zhao, D. Wang, I. Merks и T. Zhang "DNN-based enhancement of noisy and reverberant speech", in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2016 год.8. Y. Zhao, D. Wang, I. Merks and T. Zhang "DNN-based enhancement of noisy and reverberant speech", in 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2016.

9. Y. Wang, A. Narayanan и D. Wang "On training targets for supervised speech separation", IEEE/ACM Transactions on Audio, Speech and Language Processing, издание 22, стр. 1849-1858, 2014 год.9. Y. Wang, A. Narayanan and D. Wang "On training targets for supervised speech separation", IEEE/ACM Transactions on Audio, Speech and Language Processing, vol. 22, pp. 1849-1858, 2014.

10. F. Weninger, J. R. Hershey, J. L. Roux и B. Schuller "Discriminatively trained recurrent neural networks for single-channel speech separation", in IEEE Global Conference on Signal and Information Processing (GlobalSIP), 2014 год.10. F. Weninger, J. R. Hershey, J. L. Roux and B. Schuller "Discriminatively trained recurrent neural networks for single-channel speech separation", in IEEE Global Conference on Signal and Information Processing (GlobalSIP), 2014.

[11. D. S. Williamson и D. Wang "Time-frequency masking in the complex domain for speech dereverberation and denoising".[eleven. D. S. Williamson and D. Wang "Time-frequency masking in the complex domain for speech dereverberation and denoising".

12. Z. Zhao, S. Elshamy, H. Liu и T. Fingscheidt "A CNN postprocessor to enhance coded speech", in 16th International Workshop on Acoustic Signal Enhancement (IWAENC), 2018 год.12. Z. Zhao, S. Elshamy, H. Liu and T. Fingscheidt "A CNN postprocessor to enhance coded speech", in 16th International Workshop on Acoustic Signal Enhancement (IWAENC), 2018.

13. Z. Zhao, H. Liu и T. Fingscheidt "Convolutional neural networks to enhance coded speech", IEEE/ACM Transactions on Au-dio, Speech and Language Processing, издание 27, номер 4, стр. 663-678, апрель 2019 года.13. Z. Zhao, H. Liu and T. Fingscheidt "Convolutional neural networks to enhance coded speech", IEEE/ACM Transactions on Au-dio, Speech and Language Processing, vol. 27, no. 4, pp. 663-678, April 2019.

14. S. Das и T. Bäckström "Postfiltering using log-magnitude spectrum for speech and audio coding", in Proc. Inter-speech 2018, 2018 год, стр. 3543-3547. [онлайн]. По адресу: http://dx.doi.org/10.21437/Interspeech.2018-102714. S. Das and T. Bäckström "Postfiltering using log-magnitude spectrum for speech and audio coding", in Proc. Inter-speech 2018, 2018, pp. 3543-3547. [online]. At: http://dx.doi.org/10.21437/Interspeech.2018-1027

15. W. Mack, S. Chakrabarty, F.-R. Stöter, S. Braun, B. Edler и E. Habets "Single-channel dereverberation using direct MMSE optimization and bidirectional LSTM networks", in Proc. Interspeech 2018, 2018 год, стр. 1314-1318. [онлайн]. По адресу: http://dx.doi.org/10.21437/Interspeech.2018-129615. W. Mack, S. Chakrabarty, F.-R. Stöter, S. Braun, B. Edler and E. Habets "Single-channel dereverberation using direct MMSE optimization and bidirectional LSTM networks", in Proc. Interspeech 2018, 2018, pp. 1314-1318. [online]. At: http://dx.doi.org/10.21437/Interspeech.2018-1296

16. F. Chollet и др. "Keras", https://keras.io, 2015 год.16. F. Chollet et al. “Keras”, https://keras.io, 2015.

17. M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin, S. Ghemawat, I. Goodfellow, A. Harp, G. Irving, M. Isard, Y. Jia, R. Jozefowicz, L. Kaiser, M. Kudlur, J. Levenberg, D. Mane´, R. Monga, S. Moore, D. Murray, C. Olah, M. Schuster, J. Shlens, B. Steiner, I. Sutskever, K. Talwar, P. Tucker, V. Vanhoucke, V. Vasudevan, F. Vie´gas, O. Vinyals, P. Warden, M. Wattenberg, M. Wicke, Y. Yu и X. Zheng "TensorFlow: Large-scale machine learning on heterogeneous systems", 2015 год, программное обеспечение доступно для скачивания с tensorflow.org. [онлайн]. По адресу: http://tensorflow.org/17. M. Abadi, A. Agarwal, P. Barham, E. Brevdo, Z. Chen, C. Citro, G. S. Corrado, A. Davis, J. Dean, M. Devin, S. Ghemawat, I. Goodfellow, A Harp, G. Irving, M. Isard, Y. Jia, R. Jozefowicz, L. Kaiser, M. Kudlur, J. Levenberg, D. Mane´, R. Monga, S. Moore, D. Murray, C. Olah, M. Schuster, J. Shlens, B. Steiner, I. Sutskever, K. Talwar, P. Tucker, V. Vanhoucke, V. Vasudevan, F. Vie´gas, O. Vinyals, P. Warden, M. Wattenberg, M. Wicke, Y. Yu and X. Zheng "TensorFlow: Large-scale machine learning on heterogeneous systems", 2015, software available for download from tensorflow.org. [online]. At: http://tensorflow.org/

X. Glorot, A. Bordes и Y. Bengio "Deep sparse rectifier neural networks", in ^ International Conference on Artificial Intelligence and Statistics, 2011 год, стр. 315-323.X. Glorot, A. Bordes and Y. Bengio "Deep sparse rectifier neural networks", in ^ International Conference on Artificial Intelligence and Statistics, 2011, pp. 315-323.

S. Ioffe и C. Szegedy "Batch normalization: Accelerating deep network training by reducing internal covariate shift", in International Conference on Machine Learning, издание 37, 2015 год, стр. 448- 456.S. Ioffe and C. Szegedy "Batch normalization: Accelerating deep network training by reducing internal covariate shift", in International Conference on Machine Learning, vol. 37, 2015, pp. 448-456.

N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever и R. Salakhutdinov "Dropout: A simple way to prevent neural networks from overfitting", J. Mach. Learn. Res., издание 15, номер 1, стр. 1929-1958, январь 2014 года. [онлайн]. По адресу: http://dl.acm.org/citation.cfm?id=2627435.2670313N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever and R. Salakhutdinov "Dropout: A simple way to prevent neural networks from overfitting", J. Mach. Learn. Res., Vol. 15, No. 1, pp. 1929-1958, January 2014. [online]. At: http://dl.acm.org/citation.cfm?id=2627435.2670313

D. Kingma и J. Ba "Adam: A method for stochastic optimization", in arXiv preprint arXiv:1412.6980, 2014 год.D. Kingma and J. Ba "Adam: A method for stochastic optimization", in arXiv preprint arXiv:1412.6980, 2014.

NTT-AT, "Super wideband stereo speech database", http://www.ntt-at.com/product/widebandspeech, обращение: 09.09.2014. [онлайн]. По адресу: http://www.ntt-at.com/product/widebandspeechNTT-AT, "Super wideband stereo speech database", http://www.ntt-at.com/product/widebandspeech, access: 09.09.2014. [online]. At: http://www.ntt-at.com/product/widebandspeech

J. S. Garofolo, L. D. Consortium и другие "TIMIT: acoustic-phonetic continuous speech corpus", Linguistic Data Consortium, 1993 год.J. S. Garofolo, L. D. Consortium and others "TIMIT: acoustic-phonetic continuous speech corpus", Linguistic Data Consortium, 1993.

A. Rix, J. Beerends, M. Hollier и A. Hekstra "Perceptual evaluation of speech quality (PESQ) - the new method for speech quality assessment of telephone networks and codecs", in 2001 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2001 год.A. Rix, J. Beerends, M. Hollier and A. Hekstra "Perceptual evaluation of speech quality (PESQ) - the new method for speech quality assessment of telephone networks and codecs", in 2001 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2001.

ITU-T "P.862.1: Mapping Function for Transforming P.862 Raw Result Scores to MOS-LQO", (International Telecommunication Union), Tech. Rep. P.862.1, ноябрь 2003 года.ITU-T "P.862.1: Mapping Function for Transforming P.862 Raw Result Scores to MOS-LQO", (International Telecommunication Union), Tech. Rep. P.862.1, November 2003.

"P.862.2: Wideband Extension to Recommendation P.862 for the Assessment of Wideband Telephone Networks and Speech Codecs", (International Telecommunication Union), Tech. Rep. P.862.2, ноябрь 2005 года."P.862.2: Wideband Extension to Recommendation P.862 for the Assessment of Wideband Telephone Networks and Speech Codecs", (International Telecommunication Union), Tech. Rep. P.862.2, November 2005.

27. Perceptual objective listening quality assessment (POLQA), ITU-T Recommendation P.863, 2011. [онлайн]. По адресу: http://www.itu.int/rec/T-REC-P.863/en27. Perceptual objective listening quality assessment (POLQA), ITU-T Recommendation P.863, 2011. [online]. At: http://www.itu.int/rec/T-REC-P.863/en

28. Recommendation BS.1534, Method for the subjective assessment of intermediate quality levels of coding systems, ITU-R, 2003 год.28. Recommendation BS.1534, Method for the subjective assessment of intermediate quality levels of coding systems, ITU-R, 2003.

Claims (146)

1. Аудиодекодер (100; 300) для обеспечения декодированного аудиопредставления (122; 322; ) на основе кодированного аудиопредставления (110; 310),1. Audio decoder (100; 300) to provide a decoded audio representation (122; 322; ) based on the encoded audio representation (110; 310), при этом аудиодекодер содержит фильтр (130; 360, 370, 380, 338) для обеспечения улучшенного аудиопредставления (112; 312; ) декодированного аудиопредставления (122; 322; ),wherein the audio decoder includes a filter (130; 360, 370, 380, 338) to provide improved audio presentation (112; 312; ) decoded audio representation (122; 322; ), при этом фильтр выполнен с возможностью получать множество значений (136; 336; M(k, n)) масштабирования, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, на основе спектральных значений (132; 326; ) декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, иwherein the filter is configured to obtain a plurality of scaling values (136; 336; M(k, n)) that are associated with different frequency bins or frequency ranges based on the spectral values (132; 326; ) decoded audio representations that are associated with different frequency bins or frequency ranges, and при этом фильтр выполнен с возможностью масштабировать спектральные значения декодированного представления () аудиосигналов или их предварительно обработанную версию с использованием значений (136; 336; M(k, n)) масштабирования для получения улучшенного аудиопредставления (122; 312; ).wherein the filter is configured to scale the spectral values of the decoded representation ( ) audio signals or a pre-processed version thereof using (136; 336; M(k, n)) scaling values to obtain an enhanced audio representation (122; 312; ). 2. Аудиодекодер (100; 300) по п. 1,2. Audio decoder (100; 300) according to claim 1, в котором фильтр (130; 360, 370, 380, 338) выполнен с возможностью использовать конфигурируемую структуру обработки, конфигурация которой основана на алгоритме машинного обучения, чтобы обеспечивать значения (136; 336; M(k, n)) масштабирования.wherein the filter (130; 360, 370, 380, 338) is configured to use a configurable processing structure, the configuration of which is based on a machine learning algorithm, to provide scaling values (136; 336; M(k, n)). 3. Аудиодекодер (100; 300) по п. 1 или 2,3. Audio decoder (100; 300) according to claim 1 or 2, в котором фильтр (130; 360, 370, 380, 338), выполнен с возможностью определять значения (136; 336; M(k, n)) масштабирования только на основе спектральных значений (132; 326; ) декодированного аудиопредставления (122; 322; ) во множестве элементов разрешения по частоте или частотных диапазонов.wherein the filter (130; 360, 370, 380, 338) is configured to determine the scaling values (136; 336; M(k, n)) based only on the spectral values (132; 326; ) decoded audio representation (122; 322; ) in a variety of frequency bins or frequency ranges. 4. Аудиодекодер (100; 300) по одному из пп. 1-3,4. Audio decoder (100; 300) according to one of paragraphs. 1-3, в котором фильтр (130; 360, 370, 380, 338) выполнен с возможностью получать значения абсолютной величины улучшенного аудиопредставления согласно следующему:in which the filter (130; 360, 370, 380, 338) is configured to obtain absolute value values improved audio presentation according to the following: , , при этом M(k, n) является значением масштабирования,where M(k, n) is the scaling value, при этом k является частотным индексом,where k is the frequency index, при этом n является временным индексом,in this case n is a temporary index, при этом ] является значением абсолютной величины спектрального значения декодированного аудиопредставления; илиwherein ] is the absolute value of the spectral value of the decoded audio representation; or при этом фильтр выполнен с возможностью получать значения улучшенного аудиопредставления согласно следующему:wherein the filter is configured to receive values improved audio presentation according to the following: , , при этом M(k, n) является значением масштабирования,where M(k, n) is the scaling value, при этом k является частотным индексом,where k is the frequency index, при этом n является временным индексом,in this case n is a temporary index, при этом является спектральным значением декодированного аудиопредставления.wherein is the spectral value of the decoded audio representation. 5. Аудиодекодер (100; 300) по одному из пп. 1-4,5. Audio decoder (100; 300) according to one of paragraphs. 1-4, в котором фильтр (130; 360, 370, 380, 338) выполнен с возможностью получать значения (136; 336; M(k, n)) масштабирования таким образом, что значения масштабирования вызывают масштабирование или усиление для одного или более спектральных значений (132; 326; ) декодированного представления (122; 322; ) аудиосигналов или для одного или более предварительно обработанных спектральных значений, которые основаны на спектральных значениях (132; 326; ) декодированного представления (122; 322; ) аудиосигналов.wherein the filter (130; 360, 370, 380, 338) is configured to obtain scaling values (136; 336; M(k, n)) such that the scaling values cause scaling or gain for one or more spectral values (132 ;326; ) decoded representation (122; 322; ) audio signals or for one or more pre-processed spectral values that are based on the spectral values (132; 326; ) decoded representation (122; 322; ) audio signals. 6. Аудиодекодер (100; 300) по одному из пп. 1-5,6. Audio decoder (100; 300) according to one of paragraphs. 1-5, в котором фильтр (130; 360, 370, 380, 338) содержит нейронную сеть (380; 600) или структуру на основе машинного обучения, выполненную с возможностью обеспечивать значения (136; 336; M(k, n)) масштабирования на основе множества спектральных значений (132; 326; ), описывающих декодированное аудиопредставление (122; 322; ), причем спектральные значения ассоциированы с различными элементами разрешения по частоте или частотными диапазонами.wherein the filter (130; 360, 370, 380, 338) comprises a neural network (380; 600) or machine learning-based structure configured to provide scaling values (136; 336; M(k, n)) based on the set spectral values (132; 326; ), describing the decoded audio representation (122; 322; ), with spectral values associated with different frequency bins or frequency ranges. 7. Аудиодекодер (100; 300) по п. 6,7. Audio decoder (100; 300) according to clause 6, в котором входные сигналы (372) нейронной сети (380; 600) или структуры на основе машинного обучения представляют логарифмические абсолютные величины, амплитуду или норму спектральных значений декодированного аудиопредставления, причем спектральные значения ассоциированы с различными элементами разрешения по частоте или частотными диапазонами.wherein the input signals (372) of the neural network (380; 600) or machine learning framework represent logarithmic absolute values, amplitude or norm of spectral values of the decoded audio representation, the spectral values being associated with different frequency bins or frequency ranges. 8. Аудиодекодер (100; 300) по одному из пп. 6, 7,8. Audio decoder (100; 300) according to one of paragraphs. 6, 7, в котором выходные сигналы (336) нейронной сети (380; 600) или структуры на основе машинного обучения представляют значения (136; 336; M(k, n)) масштабирования.wherein the outputs (336) of the neural network (380; 600) or machine learning based structure represent the scaling values (136; 336; M(k, n)). 9. Аудиодекодер (100; 300) по одному из пп. 6-8,9. Audio decoder (100; 300) according to one of paragraphs. 6-8, в котором нейронная сеть (380; 600) или структура на основе машинного обучения обучается, чтобы ограничивать, уменьшать или минимизировать отклонение (MSEMA) между множеством целевых значений (494, IRM(k, n)) масштабирования и множеством значений (484, M(k, n)) масштабирования, полученных с использованием нейронной сети (380; 580; 600) или с использованием структуры на основе машинного обучения.in which a neural network (380, 600) or machine learning framework is trained to constrain, reduce, or minimize the deviation (MSE MA ) between a set of scaling target values (494, IRM(k, n)) and a set of values (484, M (k, n)) scaling obtained using a neural network (380; 580; 600) or using a machine learning-based framework. 10. Аудиодекодер (100; 300) по одному из пп. 6-9,10. Audio decoder (100; 300) according to one of paragraphs. 6-9, в котором нейронная сеть (380; 600) или структура на основе машинного обучения обучается, чтобы ограничивать, уменьшать или минимизировать отклонение (MSESA) между целевым спектром (510) абсолютной величины, целевым амплитудным спектром, целевым абсолютным спектром или целевым норменным спектром () и спектром (592) абсолютной величины, амплитудным спектром, абсолютным спектром или норменным спектром, полученным с использованием масштабирования обработанного спектра, который использует значения (584) масштабирования, которые обеспечиваются посредством нейронной сети (380; 580; 600) или посредством структуры на основе машинного обучения.wherein a neural network (380; 600) or machine learning-based framework is trained to constrain, reduce, or minimize the deviation (MSE SA ) between a target absolute magnitude spectrum (510), a target amplitude spectrum, a target absolute spectrum, or a target normal spectrum (510). ) and an absolute magnitude spectrum (592), an amplitude spectrum, an absolute spectrum, or a normal spectrum obtained using processed spectrum scaling that uses scaling values (584) that are provided by a neural network (380; 580; 600) or by a framework based on machine learning. 11. Аудиодекодер (100; 300) по одному из пп. 6-10,11. Audio decoder (100; 300) according to one of paragraphs. 6-10, в котором нейронная сеть (380; 600) или структура на основе машинного обучения обучена таким образом, что масштабирование для одного или более спектральных значений (132; 326; ) спектрального разложения декодированного представления (122; 322; ) аудиосигналов или для одного или более предварительно обработанных спектральных значений, которые основаны на спектральных значениях спектрального разложения декодированного представления аудиосигналов, находится в диапазоне между 0 и предварительно определенным максимальным значением.wherein a neural network (380; 600) or machine learning framework is trained such that scaling to one or more spectral values (132; 326; ) spectral decomposition of the decoded representation (122; 322; ) of the audio signals, or for one or more preprocessed spectral values that are based on the spectral values of the spectral decomposition of the decoded representation of the audio signals, is in the range between 0 and a predetermined maximum value. 12. Аудиодекодер (100; 300) по п. 11, в котором максимальное значение превышает 1.12. Audio decoder (100; 300) according to claim 11, in which the maximum value exceeds 1. 13. Аудиодекодер (100; 300) по одному из пп. 6-12,13. Audio decoder (100; 300) according to one of paragraphs. 6-12, в котором нейронная сеть (380; 600) или структура на основе машинного обучения обучена таким образом, что масштабирование для одного или более спектральных значений спектрального разложения декодированного представления аудиосигналов или для одного или более предварительно обработанных спектральных значений, которые основаны на спектральных значениях спектрального разложения декодированного представления аудиосигналов, ограничено 2 или ограничено 5, или ограничено 10, или ограничено предварительно определенным значением, большим 1.wherein a neural network (380; 600) or machine learning framework is trained such that it scales to one or more spectral decomposition spectral values of the decoded representation of the audio signals or to one or more preprocessed spectral values that are based on the spectral decomposition spectral values of the decoded representation of audio signals, limited to 2 or limited to 5, or limited to 10, or limited to a predefined value greater than 1. 14. Аудиодекодер (100; 300) по одному из пп. 6-13,14. Audio decoder (100; 300) according to one of paragraphs. 6-13, в котором нейронная сеть (380; 600) или структура на основе машинного обучения обучена таким образом, что значения масштабирования ограничены 2 или ограничены 5, или ограничены 10, или ограничены предварительно определенным значением, большим 1.wherein the neural network (380; 600) or machine learning framework is trained such that the scaling values are limited to 2, or limited to 5, or limited to 10, or limited to a predefined value greater than 1. 15. Аудиодекодер (100; 300) по одному из пп. 6-14,15. Audio decoder (100; 300) according to one of paragraphs. 6-14, в котором число входных признаков нейронной сети (380; 600) или структуры на основе машинного обучения больше по меньшей мере на коэффициент 2 числа выходных значений нейронной сети или структуры на основе машинного обучения.in which the number of input features of the neural network (380; 600) or structure based on machine learning is greater by at least a factor of 2 than the number of output values of the neural network or structure based on machine learning. 16. Аудиодекодер (100; 300) по одному из пп. 6-15,16. Audio decoder (100; 300) according to one of paragraphs. 6-15, в котором фильтр (130; 360, 370, 380, 338) выполнен с возможностью нормализовать входные признаки нейронной сети или структуры на основе машинного обучения до предварительно определенного среднего значения и/или до предварительно определенной дисперсии или среднеквадратического отклонения.wherein the filter (130; 360, 370, 380, 338) is configured to normalize the input features of the neural network or machine learning structure to a predetermined mean value and/or to a predetermined variance or standard deviation. 17. Аудиодекодер (100; 300) по одному из пп. 1-16,17. Audio decoder (100; 300) according to one of paragraphs. 1-16, в котором нейронная сеть (380; 600) содержит входной слой (610), один или более скрытых слоев (612a-612d) и выходной слой (614).in which the neural network (380; 600) contains an input layer (610), one or more hidden layers (612a-612d) and an output layer (614). 18. Аудиодекодер (100; 300) по п. 17,18. Audio decoder (100; 300) according to clause 17, в котором один или более скрытых слоев (612a-612d) используют блоки линейной ректификации в качестве функций активации.wherein one or more hidden layers (612a-612d) use linear rectification units as activation functions. 19. Аудиодекодер (100; 300) по одному из пп. 17, 18,19. Audio decoder (100; 300) according to one of paragraphs. 17, 18, в котором выходной слой (614) использует блоки линейной ректификации или ограниченные блоки линейной ректификации или сигмоидальные функции в качестве функций активации.wherein the output layer (614) uses linear rectification blocks or limited linear rectification blocks or sigmoid functions as activation functions. 20. Аудиодекодер (100; 300) по одному из пп. 1-19,20. Audio decoder (100; 300) according to one of paragraphs. 1-19, в котором фильтр (130; 360, 370, 380, 338) выполнен с возможностью получать коэффициенты () кратковременного преобразования Фурье, которые представляют спектральные значения декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами.in which the filter (130; 360, 370, 380, 338) is configured to obtain coefficients ( ) short-time Fourier transforms, which represent spectral values of the decoded audio representation that are associated with different frequency bins or frequency ranges. 21. Аудиодекодер (100; 300) по одному из пп. 1-19,21. Audio decoder (100; 300) according to one of paragraphs. 1-19, в котором фильтр (130; 360, 370, 380, 338) выполнен с возможностью извлекать логарифмическую абсолютную величину, амплитуду, абсолютное или норменное значения (372) и определять значения (136; 336; M(k, n)) масштабирования на основе логарифмической абсолютной величины, амплитуды, абсолютного или норменного значений.wherein the filter (130; 360, 370, 380, 338) is configured to extract logarithmic magnitude, amplitude, absolute or normal values (372) and determine scaling values (136; 336; M(k, n)) based on the logarithmic absolute value, amplitude, absolute or normal values. 22. Аудиодекодер (100; 300) по одному из пп. 1-20,22. Audio decoder (100; 300) according to one of paragraphs. 1-20, в котором фильтр (130; 360, 370, 380, 338) выполнен с возможностью определять множество значений (136; 336; M(k, n)) масштабирования, ассоциированных с текущим кадром на основе спектральных значений (132; 326; ) декодированного аудиопредставления (122; 322; ), которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами текущего кадра, и на основе спектральных значений (132; 326; ) декодированного аудиопредставления (122; 322; ), которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами одного или более кадров, предшествующих текущему кадру.wherein the filter (130; 360, 370, 380, 338) is configured to determine a plurality of scaling values (136; 336; M(k, n)) associated with the current frame based on the spectral values (132; 326; ) decoded audio representation (122; 322; ), which are associated with different frequency bins or frequency ranges of the current frame, and based on spectral values (132; 326; ) decoded audio representation (122; 322; ) that are associated with different frequency bins or frequency ranges of one or more frames preceding the current frame. 23. Аудиодекодер (100; 300) по одному из пп. 1-22,23. Audio decoder (100; 300) according to one of paragraphs. 1-22, в котором фильтр (130; 360, 370, 380, 338) выполнен с возможностью определять множество значений масштабирования, ассоциированных с текущим кадром на основе спектральных значений (132; 326; ) декодированного аудиопредставления (122; 322; ), которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами одного или более кадров после текущего кадра.wherein the filter (130; 360, 370, 380, 338) is configured to determine a plurality of scaling values associated with the current frame based on the spectral values (132; 326; ) decoded audio representation (122; 322; ) that are associated with different frequency bins or frequency ranges of one or more frames after the current frame. 24. Устройство (200; 400; 500) для определения набора значений, задающих характеристики фильтра (130; 360, 370, 380, 338) для обеспечения улучшенного аудиопредставления (112; 312; ) на основе декодированного аудиопредставления (122; 322),24. Apparatus (200; 400; 500) for determining a set of values defining filter characteristics (130; 360, 370, 380, 338) to provide improved audio presentation (112; 312; ) based on the decoded audio representation (122; 322), при этом упомянутое устройство выполнено с возможностью получать спектральные значения (132; 326; ) декодированного аудиопредставления (122; 322), которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, иwherein said device is configured to obtain spectral values (132; 326; ) decoded audio representation (122; 322), which are associated with different frequency bins or frequency bands, and при этом упомянутое устройство выполнено с возможностью определять набор (382; 412; 512) значений, задающих характеристики фильтра (130; 360, 370, 380, 338), так что значения (136; 336; 484; 584) масштабирования, обеспеченные посредством фильтра на основе спектральных значений декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, аппроксимируют целевые значения (494) масштабирования, илиwherein said device is configured to determine a set (382; 412; 512) of values defining the characteristics of the filter (130; 360, 370, 380, 338), such that the scaling values (136; 336; 484; 584) provided by the filter based on the spectral values of the decoded audio representation that are associated with various frequency bins or frequency ranges that approximate the target scaling values (494), or при этом упомянутое устройство выполнено с возможностью определять набор (382; 412; 512) значений, задающих характеристики фильтра (130; 360, 370, 380, 338), так что спектр, полученный посредством фильтра на основе спектральных значений (132; 326; ) декодированного аудиопредставления (122; 322), которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, и с использованием значений (136; 336; 484; 584) масштабирования, полученных на основе декодированного аудиопредставления (122; 322), аппроксимирует целевой спектр (510).wherein said device is configured to determine a set (382; 412; 512) of values defining the characteristics of the filter (130; 360, 370, 380, 338), such that the spectrum obtained by the filter based on the spectral values (132; 326; ) of the decoded audio representation (122; 322), which are associated with different frequency bins or frequency ranges, and using scaling values (136; 336; 484; 584) derived from the decoded audio representation (122; 322), approximates the target spectrum (510). 25. Устройство (200; 400) по п. 24,25. Device (200; 400) according to clause 24, при этом упомянутое устройство выполнено с возможностью обучать структуру (380; 480; 580) на основе машинного обучения, которая является частью фильтра (130; 360, 370, 380, 338) и которая обеспечивает значения (136; 336; 484; 584; M(k, n)) масштабирования для масштабирования значений (362, 372; 462, 472; 562) абсолютной величины декодированного аудиосигнала (122; 322; 432; 532) или спектральных значений (326; 446; 546) декодированного аудиосигнала, чтобы уменьшать или минимизировать отклонение (MSEMA) между множеством целевых значений (494; IRM(k, n)) масштабирования и множеством значений (136; 336; 484; 584; M(k, n)) масштабирования, полученных с использованием нейронной сети, на основе спектральных значений (326; 446; 546) декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами.wherein said device is configured to train a structure (380; 480; 580) based on machine learning, which is part of the filter (130; 360, 370, 380, 338) and which provides the values (136; 336; 484; 584; M (k, n)) scaling to scale the absolute value values (362, 372; 462, 472; 562) of the decoded audio signal (122; 322; 432; 532) or the spectral values (326; 446; 546) of the decoded audio signal to reduce or minimize the deviation (MSE MA ) between a set of scaling target values (494; IRM(k, n)) and a set of scaling values (136; 336; 484; 584; M(k, n)) obtained using a neural network based spectral values (326; 446; 546) of the decoded audio representation, which are associated with different frequency bins or frequency ranges. 26. Устройство (200; 500) по п. 24,26. Device (200; 500) according to clause 24, при этом упомянутое устройство выполнено с возможностью обучать структуру (380; 480; 580) на основе машинного обучения уменьшать или минимизировать отклонение (MSESA) между целевым спектром (510; ) и спектром (592; ), полученным с использованием масштабирования обработанного спектра (532; 546), который использует значения (584) масштабирования, которые обеспечиваются посредством структуры на основе машинного обучения.wherein said device is configured to train the structure (380; 480; 580) based on machine learning to reduce or minimize the deviation (MSE SA ) between the target spectrum (510; ) and spectrum (592; ) obtained using processed spectrum scaling (532; 546), which uses scaling values (584) that are provided by a machine learning-based framework. 27. Устройство (200; 400; 500) по одному из пп. 24-26,27. Device (200; 400; 500) according to one of paragraphs. 24-26, при этом упомянутое устройство выполнено с возможностью обучать структуру (380; 480; 580) на основе машинного обучения таким образом, что масштабирование для спектральных значений декодированного представления аудиосигналов или для одного или более предварительно обработанных спектральных значений, которые основаны на спектральных значениях декодированного представления аудиосигналов, находится в диапазоне между 0 и 2 или находится в диапазоне между 0 и 5, или находится в диапазоне между 0 и 10.wherein said device is configured to train a structure (380; 480; 580) based on machine learning such that scaling for spectral values of the decoded representation of the audio signals or for one or more pre-processed spectral values that are based on the spectral values of the decoded representation of the audio signals, is in the range between 0 and 2 or is in the range between 0 and 5, or is in the range between 0 and 10. 28. Устройство (200; 400; 500) по одному из пп. 24-27,28. Device (200; 400; 500) according to one of paragraphs. 24-27, при этом упомянутое устройство выполнено с возможностью обучать структуру (380; 480; 580) на основе машинного обучения таким образом, что масштабирование абсолютной величины для спектральных значений декодированного представления аудиосигналов или для одного или более предварительно обработанных спектральных значений, которые основаны на спектральных значениях декодированного представления аудиосигналов, ограничено нахождением в диапазоне между 0 и предварительно определенным максимальным значением.wherein said device is configured to train a structure (380; 480; 580) based on machine learning such that the absolute value is scaled for spectral values of the decoded representation of the audio signals or for one or more pre-processed spectral values that are based on the spectral values of the decoded representation audio signals is limited to a range between 0 and a predefined maximum value. 29. Аудиодекодер (200; 400; 500) по п. 28, в котором максимальное значение превышает 1.29. Audio decoder (200; 400; 500) according to claim 28, in which the maximum value exceeds 1. 30. Способ (900) для обеспечения улучшенного аудиопредставления на основе кодированного аудиопредставления,30. A method (900) for providing an enhanced audio presentation based on an encoded audio presentation, при этом упомянутый способ содержит этап, на котором обеспечивают (910) декодированное аудиопредставление () кодированного аудиопредставления,wherein said method comprises providing (910) a decoded audio representation ( ) coded audio representation, при этом упомянутый способ содержит этап, на котором получают (920) множество значений (M(k, n)) масштабирования, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, на основе спектральных значений декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, иwherein said method comprises obtaining (920) a plurality of scaling values (M(k, n)) that are associated with different frequency bins or frequency ranges based on the spectral values of the decoded audio representation that are associated with the various bins by frequency or frequency ranges, and при этом упомянутый способ содержит этап, на котором масштабируют (930) спектральные значения декодированного представления () аудиосигналов или их предварительно обработанную версию с использованием значений (M(k, n)) масштабирования для получения улучшенного аудиопредставления ().wherein said method comprises scaling (930) the spectral values of the decoded representation ( ) audio signals or a pre-processed version thereof using (M(k, n)) scaling values to obtain an enhanced audio representation ( ). 31. Способ (1000) для определения набора значений, задающих характеристики фильтра для обеспечения улучшенного аудиопредставления () на основе декодированного аудиопредставления,31. A method (1000) for determining a set of values specifying filter characteristics to provide enhanced audio presentation ( ) based on the decoded audio representation, при этом упомянутый способ содержит этап, на котором получают (1010) спектральные значения () декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, иwherein said method comprises the step of obtaining (1010) spectral values ( ) decoded audio representations that are associated with different frequency bins or frequency ranges, and при этом упомянутый способ содержит этап, на котором определяют (1020) набор значений, задающих характеристики фильтра, так что значения масштабирования, обеспеченные посредством фильтра на основе спектральных значений декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, аппроксимируют целевые значения масштабирования, илиwherein said method comprises determining (1020) a set of values defining filter characteristics such that scaling values provided by the filter based on spectral values of the decoded audio representation that are associated with different frequency bins or frequency ranges approximate the target values scaling, or при этом упомянутый способ содержит этап, на котором определяют (1030) набор значений, задающих характеристики фильтра, так что спектр, полученный посредством фильтра на основе спектральных значений декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, и с использованием значений масштабирования, полученных на основе декодированного аудиопредставления, аппроксимирует целевой спектр.wherein said method comprises determining (1030) a set of values defining filter characteristics such that the spectrum obtained by the filter is based on spectral values of the decoded audio representation that are associated with various frequency bins or frequency ranges, and using the values scaling derived from the decoded audio representation approximates the target spectrum. 32. Цифровой носитель хранения, содержащий хранящиеся на нем исполняемые компьютером инструкции, которые при выполнении компьютером заставляют компьютер выполнять способ по п. 30.32. A digital storage medium containing computer-executable instructions stored therein that, when executed by a computer, cause the computer to perform the method of claim 30. 33. Аудиодекодер (100; 300) для обеспечения декодированного аудиопредставления (122; 322; ) на основе кодированного аудиопредставления (110; 310),33. Audio decoder (100; 300) for providing a decoded audio representation (122; 322; ) based on the encoded audio representation (110; 310), при этом аудиодекодер содержит фильтр (130; 360, 370, 380, 338) для обеспечения улучшенного аудиопредставления (112; 312; ) декодированного аудиопредставления (122; 322; ),wherein the audio decoder includes a filter (130; 360, 370, 380, 338) to provide improved audio presentation (112; 312; ) decoded audio representation (122; 322; ), при этом фильтр выполнен с возможностью получать множество значений (136; 336; M(k, n)) масштабирования, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, на основе спектральных значений (132; 326; ) декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, иwherein the filter is configured to obtain a plurality of scaling values (136; 336; M(k, n)) that are associated with different frequency bins or frequency ranges based on the spectral values (132; 326; ) decoded audio representations that are associated with different frequency bins or frequency ranges, and при этом фильтр выполнен с возможностью масштабировать спектральные значения декодированного представления () аудиосигналов или их предварительно обработанную версию с использованием значений (136; 336; M(k, n)) масштабирования для получения улучшенного аудиопредставления (122; 312; );wherein the filter is configured to scale the spectral values of the decoded representation ( ) audio signals or a pre-processed version thereof using (136; 336; M(k, n)) scaling values to obtain an enhanced audio representation (122; 312; ); при этом фильтр (130; 360, 370, 380, 338) содержит нейронную сеть (380; 600) или структуру на основе машинного обучения, выполненную с возможностью обеспечивать значения (136; 336; M(k, n)) масштабирования на основе множества спектральных значений (132; 326; ), описывающих декодированное аудиопредставление (122; 322; ), причем спектральные значения ассоциированы с различными элементами разрешения по частоте или частотными диапазонами;wherein the filter (130; 360, 370, 380, 338) comprises a neural network (380; 600) or machine learning-based structure configured to provide scaling values (136; 336; M(k, n)) based on the set spectral values (132; 326; ), describing the decoded audio representation (122; 322; ), wherein the spectral values are associated with different frequency bins or frequency ranges; при этом нейронная сеть (380; 600) или структура на основе машинного обучения обучена таким образом, что масштабирование для одного или более спектральных значений (132; 326; ) спектрального разложения декодированного представления (122; 322; ) аудиосигналов или для одного или более предварительно обработанных спектральных значений, которые основаны на спектральных значениях спектрального разложения декодированного представления аудиосигналов, находится в диапазоне между 0 и предварительно определенным максимальным значением,wherein the neural network (380; 600) or machine learning-based structure is trained in such a way that scaling for one or more spectral values (132; 326; ) spectral decomposition of the decoded representation (122; 322; ) of the audio signals, or for one or more preprocessed spectral values that are based on the spectral values of the spectral decomposition of the decoded representation of the audio signals, is in the range between 0 and a predetermined maximum value, при этом максимальное значение превышает 1.the maximum value exceeds 1. 34. Аудиодекодер (100; 300) для обеспечения декодированного аудиопредставления (122; 322; ) на основе кодированного аудиопредставления (110; 310),34. Audio decoder (100; 300) for providing a decoded audio representation (122; 322; ) based on the encoded audio representation (110; 310), при этом аудиодекодер содержит фильтр (130; 360, 370, 380, 338) для обеспечения улучшенного аудиопредставления (112; 312; ) декодированного аудиопредставления (122; 322; ),wherein the audio decoder includes a filter (130; 360, 370, 380, 338) to provide improved audio presentation (112; 312; ) decoded audio representation (122; 322; ), при этом фильтр выполнен с возможностью получать множество значений (136; 336; M(k, n)) масштабирования, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, на основе спектральных значений (132; 326; ) декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, иwherein the filter is configured to obtain a plurality of scaling values (136; 336; M(k, n)) that are associated with different frequency bins or frequency ranges based on the spectral values (132; 326; ) decoded audio representations that are associated with different frequency bins or frequency ranges, and при этом фильтр выполнен с возможностью масштабировать спектральные значения декодированного представления () аудиосигналов или их предварительно обработанную версию с использованием значений (136; 336; M(k, n)) масштабирования для получения улучшенного аудиопредставления (122; 312; );wherein the filter is configured to scale the spectral values of the decoded representation ( ) audio signals or a pre-processed version thereof using (136; 336; M(k, n)) scaling values to obtain an enhanced audio representation (122; 312; ); при этом фильтр (130; 360, 370, 380, 338) содержит нейронную сеть (380; 600) или структуру на основе машинного обучения, выполненную с возможностью обеспечивать значения (136; 336; M(k, n)) масштабирования на основе множества спектральных значений (132; 326; ), описывающих декодированное аудиопредставление (122; 322; ), причем спектральные значения ассоциированы с различными элементами разрешения по частоте или частотными диапазонами;wherein the filter (130; 360, 370, 380, 338) comprises a neural network (380; 600) or machine learning-based structure configured to provide scaling values (136; 336; M(k, n)) based on the set spectral values (132; 326; ), describing the decoded audio representation (122; 322; ), wherein the spectral values are associated with different frequency bins or frequency ranges; при этом нейронная сеть (380; 600) или структура на основе машинного обучения обучена таким образом, что масштабирование для одного или более спектральных значений спектрального разложения декодированного представления аудиосигналов или для одного или более предварительно обработанных спектральных значений, которые основаны на спектральных значениях спектрального разложения декодированного представления аудиосигналов, ограничено 2 или ограничено 5, или ограничено 10, или ограничено предварительно определенным значением, большим 1.wherein the neural network (380; 600) or machine learning framework is trained such that it scales to one or more spectral decomposition spectral values of the decoded representation of the audio signals or to one or more preprocessed spectral values that are based on the spectral decomposition spectral values of the decoded representation of audio signals, limited to 2 or limited to 5, or limited to 10, or limited to a predefined value greater than 1. 35. Аудиодекодер (100; 300) для обеспечения декодированного аудиопредставления (122; 322; ) на основе кодированного аудиопредставления (110; 310),35. Audio decoder (100; 300) for providing a decoded audio representation (122; 322; ) based on the encoded audio representation (110; 310), при этом аудиодекодер содержит фильтр (130; 360, 370, 380, 338) для обеспечения улучшенного аудиопредставления (112; 312; ) декодированного аудиопредставления (122; 322; ),wherein the audio decoder includes a filter (130; 360, 370, 380, 338) to provide improved audio presentation (112; 312; ) decoded audio representation (122; 322; ), при этом фильтр выполнен с возможностью получать множество значений (136; 336; M(k, n)) масштабирования, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, на основе спектральных значений (132; 326; ) декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, иwherein the filter is configured to obtain a plurality of scaling values (136; 336; M(k, n)) that are associated with different frequency bins or frequency ranges based on the spectral values (132; 326; ) decoded audio representations that are associated with different frequency bins or frequency ranges, and при этом фильтр выполнен с возможностью масштабировать спектральные значения декодированного представления () аудиосигналов или их предварительно обработанную версию с использованием значений (136; 336; M(k, n)) масштабирования для получения улучшенного аудиопредставления (122; 312; );wherein the filter is configured to scale the spectral values of the decoded representation ( ) audio signals or a pre-processed version thereof using (136; 336; M(k, n)) scaling values to obtain an enhanced audio representation (122; 312; ); при этом фильтр (130; 360, 370, 380, 338) содержит нейронную сеть (380; 600) или структуру на основе машинного обучения, выполненную с возможностью обеспечивать значения (136; 336; M(k, n)) масштабирования на основе множества спектральных значений (132; 326; ), описывающих декодированное аудиопредставление (122; 322; ), причем спектральные значения ассоциированы с различными элементами разрешения по частоте или частотными диапазонами;wherein the filter (130; 360, 370, 380, 338) comprises a neural network (380; 600) or machine learning-based structure configured to provide scaling values (136; 336; M(k, n)) based on the set spectral values (132; 326; ), describing the decoded audio representation (122; 322; ), wherein the spectral values are associated with different frequency bins or frequency ranges; при этом нейронная сеть (380; 600) или структура на основе машинного обучения обучена таким образом, что значения масштабирования ограничены 2 или ограничены 5, или ограничены 10, или ограничены предварительно определенным значением, большим 1.wherein the neural network (380; 600) or machine learning based structure is trained such that the scaling values are limited to 2, or limited to 5, or limited to 10, or limited to a predefined value greater than 1. 36. Аудиодекодер (100; 300) для обеспечения декодированного аудиопредставления (122; 322; ) на основе кодированного аудиопредставления (110; 310),36. Audio decoder (100; 300) for providing a decoded audio representation (122; 322; ) based on the encoded audio representation (110; 310), при этом аудиодекодер содержит фильтр (130; 360, 370, 380, 338) для обеспечения улучшенного аудиопредставления (112; 312; ) декодированного аудиопредставления (122; 322; ),wherein the audio decoder includes a filter (130; 360, 370, 380, 338) to provide improved audio presentation (112; 312; ) decoded audio representation (122; 322; ), при этом фильтр выполнен с возможностью получать множество значений (136; 336; M(k, n)) масштабирования, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, на основе спектральных значений (132; 326; ) декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, иwherein the filter is configured to obtain a plurality of scaling values (136; 336; M(k, n)) that are associated with different frequency bins or frequency ranges based on the spectral values (132; 326; ) decoded audio representations that are associated with different frequency bins or frequency ranges, and при этом фильтр выполнен с возможностью масштабировать спектральные значения декодированного представления () аудиосигналов или их предварительно обработанную версию с использованием значений (136; 336; M(k, n)) масштабирования для получения улучшенного аудиопредставления (122; 312; );wherein the filter is configured to scale the spectral values of the decoded representation ( ) audio signals or a pre-processed version thereof using (136; 336; M(k, n)) scaling values to obtain an enhanced audio representation (122; 312; ); при этом фильтр (130; 360, 370, 380, 338) содержит нейронную сеть (380; 600) или структуру на основе машинного обучения, выполненную с возможностью обеспечивать значения (136; 336; M(k, n)) масштабирования на основе множества спектральных значений (132; 326; ), описывающих декодированное аудиопредставление (122; 322; ), причем спектральные значения ассоциированы с различными элементами разрешения по частоте или частотными диапазонами;wherein the filter (130; 360, 370, 380, 338) comprises a neural network (380; 600) or machine learning-based structure configured to provide scaling values (136; 336; M(k, n)) based on the set spectral values (132; 326; ), describing the decoded audio representation (122; 322; ), wherein the spectral values are associated with different frequency bins or frequency ranges; при этом фильтр (130; 360, 370, 380, 338) выполнен с возможностью нормализовать входные признаки нейронной сети или структуры на основе машинного обучения до предварительно определенного среднего значения и/или до предварительно определенной дисперсии или среднеквадратического отклонения.wherein the filter (130; 360, 370, 380, 338) is configured to normalize the input features of the neural network or structure based on machine learning to a predetermined mean value and/or to a predetermined variance or standard deviation. 37. Аудиодекодер (100; 300) для обеспечения декодированного аудиопредставления (122; 322; ) на основе кодированного аудиопредставления (110; 310),37. Audio decoder (100; 300) for providing a decoded audio representation (122; 322; ) based on the encoded audio representation (110; 310), при этом аудиодекодер содержит фильтр (130; 360, 370, 380, 338) для обеспечения улучшенного аудиопредставления (112; 312; ) декодированного аудиопредставления (122; 322; ),wherein the audio decoder includes a filter (130; 360, 370, 380, 338) to provide improved audio presentation (112; 312; ) decoded audio representation (122; 322; ), при этом фильтр выполнен с возможностью получать множество значений (136; 336; M(k, n)) масштабирования, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, на основе спектральных значений (132; 326; ) декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, иwherein the filter is configured to obtain a plurality of scaling values (136; 336; M(k, n)) that are associated with different frequency bins or frequency ranges based on the spectral values (132; 326; ) decoded audio representations that are associated with different frequency bins or frequency ranges, and при этом фильтр выполнен с возможностью масштабировать спектральные значения декодированного представления () аудиосигналов или их предварительно обработанную версию с использованием значений (136; 336; M(k, n)) масштабирования для получения улучшенного аудиопредставления (122; 312; );wherein the filter is configured to scale the spectral values of the decoded representation ( ) audio signals or a pre-processed version thereof using (136; 336; M(k, n)) scaling values to obtain an enhanced audio representation (122; 312; ); при этом фильтр (130; 360, 370, 380, 338) содержит нейронную сеть (380; 600) или структуру на основе машинного обучения, выполненную с возможностью обеспечивать значения (136; 336; M(k, n)) масштабирования на основе множества спектральных значений (132; 326; ), описывающих декодированное аудиопредставление (122; 322; ), причем спектральные значения ассоциированы с различными элементами разрешения по частоте или частотными диапазонами;wherein the filter (130; 360, 370, 380, 338) comprises a neural network (380; 600) or machine learning-based structure configured to provide scaling values (136; 336; M(k, n)) based on the set spectral values (132; 326; ), describing the decoded audio representation (122; 322; ), wherein the spectral values are associated with different frequency bins or frequency ranges; при этом входные сигналы (372) нейронной сети (380; 600) или структуры на основе машинного обучения представляют логарифмические абсолютные величины спектральных значений декодированного аудиопредставления, причем спектральные значения ассоциированы с различными элементами разрешения по частоте или частотными диапазонами.wherein the input signals (372) of the neural network (380; 600) or machine learning structure represent logarithmic absolute values of the spectral values of the decoded audio representation, the spectral values being associated with different frequency bins or frequency ranges. 38. Аудиодекодер (100; 300) для обеспечения декодированного аудиопредставления (122; 322; ) на основе кодированного аудиопредставления (110; 310),38. Audio decoder (100; 300) for providing a decoded audio representation (122; 322; ) based on the encoded audio representation (110; 310), при этом аудиодекодер содержит фильтр (130; 360, 370, 380, 338) для обеспечения улучшенного аудиопредставления (112; 312; ) декодированного аудиопредставления (122; 322; ),wherein the audio decoder includes a filter (130; 360, 370, 380, 338) to provide improved audio presentation (112; 312; ) decoded audio representation (122; 322; ), при этом фильтр выполнен с возможностью получать множество значений (136; 336; M(k, n)) масштабирования, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, на основе спектральных значений (132; 326; ) декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, иwherein the filter is configured to obtain a plurality of scaling values (136; 336; M(k, n)) that are associated with different frequency bins or frequency ranges based on the spectral values (132; 326; ) decoded audio representations that are associated with different frequency bins or frequency ranges, and при этом фильтр выполнен с возможностью масштабировать спектральные значения декодированного представления () аудиосигналов или их предварительно обработанную версию с использованием значений (136; 336; M(k, n)) масштабирования для получения улучшенного аудиопредставления (122; 312; );wherein the filter is configured to scale the spectral values of the decoded representation ( ) audio signals or a pre-processed version thereof using (136; 336; M(k, n)) scaling values to obtain an enhanced audio representation (122; 312; ); при этом фильтр (130; 360, 370, 380, 338) содержит нейронную сеть (380; 600) или структуру на основе машинного обучения, выполненную с возможностью обеспечивать значения (136; 336; M(k, n)) масштабирования на основе множества спектральных значений (132; 326; ), описывающих декодированное аудиопредставление (122; 322; ), причем спектральные значения ассоциированы с различными элементами разрешения по частоте или частотными диапазонами;wherein the filter (130; 360, 370, 380, 338) comprises a neural network (380; 600) or machine learning-based structure configured to provide scaling values (136; 336; M(k, n)) based on the set spectral values (132; 326; ), describing the decoded audio representation (122; 322; ), wherein the spectral values are associated with different frequency bins or frequency ranges; при этом нейронная сеть (380; 600) содержит входной слой (610), один или более скрытых слоев (612a-612d) и выходной слой (614);wherein the neural network (380; 600) contains an input layer (610), one or more hidden layers (612a-612d) and an output layer (614); при этом один или более скрытых слоев (612a-612d) используют блоки линейной ректификации в качестве функций активации.wherein one or more hidden layers (612a-612d) use linear rectification units as activation functions. 39. Аудиодекодер (100; 300) для обеспечения декодированного аудиопредставления (122; 322; ) на основе кодированного аудиопредставления (110; 310),39. Audio decoder (100; 300) for providing a decoded audio representation (122; 322; ) based on the encoded audio representation (110; 310), при этом аудиодекодер содержит фильтр (130; 360, 370, 380, 338) для обеспечения улучшенного аудиопредставления (112; 312; ) декодированного аудиопредставления (122; 322; );wherein the audio decoder includes a filter (130; 360, 370, 380, 338) to provide improved audio presentation (112; 312; ) decoded audio representation (122; 322; ); при этом фильтр выполнен с возможностью получать множество значений (136; 336; M(k, n)) масштабирования, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, на основе спектральных значений (132; 326; ) декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, иwherein the filter is configured to obtain a plurality of scaling values (136; 336; M(k, n)) that are associated with different frequency bins or frequency ranges based on the spectral values (132; 326; ) decoded audio representations that are associated with different frequency bins or frequency ranges, and при этом фильтр выполнен с возможностью масштабировать спектральные значения декодированного представления () аудиосигналов или их предварительно обработанную версию с использованием значений (136; 336; M(k, n)) масштабирования для получения улучшенного аудиопредставления (122; 312; );wherein the filter is configured to scale the spectral values of the decoded representation ( ) audio signals or a pre-processed version thereof using (136; 336; M(k, n)) scaling values to obtain an enhanced audio representation (122; 312; ); при этом фильтр (130; 360, 370, 380, 338) содержит нейронную сеть (380; 600) или структуру на основе машинного обучения, выполненную с возможностью обеспечивать значения (136; 336; M(k, n)) масштабирования на основе множества спектральных значений (132; 326; ), описывающих декодированное аудиопредставление (122; 322; ), причем спектральные значения ассоциированы с различными элементами разрешения по частоте или частотными диапазонами;wherein the filter (130; 360, 370, 380, 338) comprises a neural network (380; 600) or machine learning-based structure configured to provide scaling values (136; 336; M(k, n)) based on the set spectral values (132; 326; ), describing the decoded audio representation (122; 322; ), wherein the spectral values are associated with different frequency bins or frequency ranges; при этом нейронная сеть (380; 600) содержит входной слой (610), один или более скрытых слоев (612a-612d) и выходной слой (614);wherein the neural network (380; 600) contains an input layer (610), one or more hidden layers (612a-612d) and an output layer (614); при этом выходной слой (614) использует блоки линейной ректификации или ограниченные блоки линейной ректификации или сигмоидальные функции в качестве функций активации.wherein the output layer (614) uses linear rectification blocks or limited linear rectification blocks or sigmoid functions as activation functions. 40. Аудиодекодер (100; 300) для обеспечения декодированного аудиопредставления (122; 322; ) на основе кодированного аудиопредставления (110; 310),40. Audio decoder (100; 300) for providing a decoded audio representation (122; 322; ) based on the encoded audio representation (110; 310), при этом аудиодекодер содержит фильтр (130; 360, 370, 380, 338) для обеспечения улучшенного аудиопредставления (112; 312; ) декодированного аудиопредставления (122; 322; ),wherein the audio decoder includes a filter (130; 360, 370, 380, 338) to provide improved audio presentation (112; 312; ) decoded audio representation (122; 322; ), при этом фильтр выполнен с возможностью получать множество значений (136; 336; M(k, n)) масштабирования, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, на основе спектральных значений (132; 326; ) декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, иwherein the filter is configured to obtain a plurality of scaling values (136; 336; M(k, n)) that are associated with different frequency bins or frequency ranges based on the spectral values (132; 326; ) decoded audio representations that are associated with different frequency bins or frequency ranges, and при этом фильтр выполнен с возможностью масштабировать спектральные значения декодированного представления () аудиосигналов или их предварительно обработанную версию с использованием значений (136; 336; M(k, n)) масштабирования для получения улучшенного аудиопредставления (122; 312; );wherein the filter is configured to scale the spectral values of the decoded representation ( ) audio signals or a pre-processed version thereof using (136; 336; M(k, n)) scaling values to obtain an enhanced audio representation (122; 312; ); при этом фильтр (130; 360, 370, 380, 338) выполнен с возможностью извлекать логарифмические значения (372) абсолютной величины и определять значения (136; 336; M(k, n)) масштабирования на основе логарифмических значений абсолютной величины.wherein the filter (130; 360, 370, 380, 338) is configured to extract logarithmic absolute value values (372) and determine scaling values (136; 336; M(k, n)) based on the logarithmic absolute value values. 41. Устройство (200; 400; 500) для определения набора значений, задающих характеристики фильтра (130; 360, 370, 380, 338) для обеспечения улучшенного аудиопредставления (112; 312; ) на основе декодированного аудиопредставления (122; 322),41. Apparatus (200; 400; 500) for determining a set of values defining filter characteristics (130; 360, 370, 380, 338) to provide improved audio presentation (112; 312; ) based on the decoded audio representation (122; 322), при этом фильтр выполнен с возможностью масштабировать спектральные значения декодированного представления () аудиосигналов или их предварительно обработанную версию с использованием значений (136; 336; M(k, n)) масштабирования для получения улучшенного аудиопредставления (122; 312; ),wherein the filter is configured to scale the spectral values of the decoded representation ( ) audio signals or a pre-processed version thereof using (136; 336; M(k, n)) scaling values to obtain an enhanced audio representation (122; 312; ), при этом упомянутое устройство выполнено с возможностью получать спектральные значения (132; 326; ) декодированного аудиопредставления (122; 322), которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, иwherein said device is configured to obtain spectral values (132; 326; ) decoded audio representation (122; 322), which are associated with different frequency bins or frequency bands, and при этом упомянутое устройство выполнено с возможностью определять набор (382; 412; 512) значений, задающих характеристики фильтра (130; 360, 370, 380, 338), так что значения (136; 336; 484; 584) масштабирования, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, и которые обеспечиваются посредством фильтра на основе спектральных значений декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, аппроксимируют целевые значения (494) масштабирования, илиwherein said device is configured to determine a set (382; 412; 512) of values defining filter characteristics (130; 360, 370, 380, 338), such that scaling values (136; 336; 484; 584) that are associated with different frequency bins or frequency bands, and which are provided by a filter based on the spectral values of the decoded audio representation that are associated with the different frequency bins or frequency bands that approximate the target scaling values (494), or при этом упомянутое устройство выполнено с возможностью определять набор (382; 412; 512) значений, задающих характеристики фильтра (130; 360, 370, 380, 338), так что спектр, полученный посредством фильтра на основе спектральных значений (132; 326; ) декодированного аудиопредставления (122; 322), которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, и с использованием значений (136; 336; 484; 584) масштабирования, полученных на основе декодированного аудиопредставления (122; 322), аппроксимирует целевой спектр (510).wherein said device is configured to determine a set (382; 412; 512) of values defining the characteristics of the filter (130; 360, 370, 380, 338), such that the spectrum obtained by the filter based on the spectral values (132; 326; ) of the decoded audio representation (122; 322), which are associated with different frequency bins or frequency ranges, and using scaling values (136; 336; 484; 584) derived from the decoded audio representation (122; 322), approximates the target spectrum (510). 42. Аудиодекодер (100; 300) для обеспечения декодированного аудиопредставления (122; 322; ) на основе кодированного аудиопредставления (110; 310),42. Audio decoder (100; 300) for providing a decoded audio representation (122; 322; ) based on the encoded audio representation (110; 310), при этом аудиодекодер содержит фильтр (130; 360, 370, 380, 338) для обеспечения улучшенного аудиопредставления (112; 312; ) декодированного аудиопредставления (122; 322; ),wherein the audio decoder includes a filter (130; 360, 370, 380, 338) to provide improved audio presentation (112; 312; ) decoded audio representation (122; 322; ), при этом фильтр выполнен с возможностью получать множество значений (136; 336; M(k, n)) масштабирования, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, на основе спектральных значений (132; 326; ) декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, иwherein the filter is configured to obtain a plurality of scaling values (136; 336; M(k, n)) that are associated with different frequency bins or frequency ranges based on the spectral values (132; 326; ) decoded audio representations that are associated with different frequency bins or frequency ranges, and при этом фильтр выполнен с возможностью масштабировать спектральные значения декодированного представления () аудиосигналов или их предварительно обработанную версию с использованием значений (136; 336; M(k, n)) масштабирования для получения улучшенного аудиопредставления (122; 312; );wherein the filter is configured to scale the spectral values of the decoded representation ( ) audio signals or a pre-processed version thereof using (136; 336; M(k, n)) scaling values to obtain an enhanced audio representation (122; 312; ); при этом фильтр (130; 360, 370, 380, 338) выполнен с возможностью получать значения (136; 336; M(k, n)) масштабирования таким образом, что значения масштабирования вызывают усиление для одного или более спектральных значений (132; 326; ) декодированного представления (122; 322; ) аудиосигналов или для одного или более предварительно обработанных спектральных значений, которые основаны на спектральных значениях (132; 326; ) декодированного представления (122; 322; ) аудиосигналов.wherein the filter (130; 360, 370, 380, 338) is configured to obtain scaling values (136; 336; M(k, n)) such that the scaling values cause amplification for one or more spectral values (132; 326 ; ) decoded representation (122; 322; ) audio signals or for one or more pre-processed spectral values that are based on the spectral values (132; 326; ) decoded representation (122; 322; ) audio signals. 43. Аудиодекодер (100; 300) для обеспечения декодированного аудиопредставления (122; 322; ) на основе кодированного аудиопредставления (110; 310),43. Audio decoder (100; 300) for providing a decoded audio representation (122; 322; ) based on the encoded audio representation (110; 310), при этом аудиодекодер содержит фильтр (130; 360, 370, 380, 338) для обеспечения улучшенного аудиопредставления (112; 312; ) декодированного аудиопредставления (122; 322; ),wherein the audio decoder includes a filter (130; 360, 370, 380, 338) to provide improved audio presentation (112; 312; ) decoded audio representation (122; 322; ), при этом фильтр выполнен с возможностью получать множество значений (136; 336; M(k, n)) масштабирования, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, на основе спектральных значений (132; 326; ) декодированного аудиопредставления, которые ассоциированы с различными элементами разрешения по частоте или частотными диапазонами, иwherein the filter is configured to obtain a plurality of scaling values (136; 336; M(k, n)) that are associated with different frequency bins or frequency ranges based on the spectral values (132; 326; ) decoded audio representations that are associated with different frequency bins or frequency ranges, and при этом фильтр выполнен с возможностью масштабировать спектральные значения декодированного представления () аудиосигналов или их предварительно обработанную версию с использованием значений (136; 336; M(k, n)) масштабирования для получения улучшенного аудиопредставления (122; 312; );wherein the filter is configured to scale the spectral values of the decoded representation ( ) audio signals or a pre-processed version thereof using (136; 336; M(k, n)) scaling values to obtain an enhanced audio representation (122; 312; ); при этом фильтр (130; 360, 370, 380, 338) выполнен с возможностью получать значения (136; 336; M(k, n)) масштабирования таким образом, что значения масштабирования обеспечивают возможность и усиления и затухания посредством масштабирования.wherein the filter (130; 360, 370, 380, 338) is configured to obtain scaling values (136; 336; M(k, n)) such that the scaling values enable both amplification and attenuation by scaling. 44. Цифровой носитель хранения, содержащий хранящиеся на нем исполняемые компьютером инструкции, которые при выполнении компьютером заставляют компьютер выполнять способ по п. 31.44. A digital storage medium containing computer-executable instructions stored therein that, when executed by a computer, cause the computer to perform the method of claim 31.
RU2021132566A 2019-04-11 2020-04-09 Audio decoder, device for determining set of values setting filter characteristics, methods for providing decoded audio representation, methods for determining set of values setting filter characteristics, and computer software RU2803449C2 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EPPCT/EP2019/059355 2019-04-11

Publications (2)

Publication Number Publication Date
RU2021132566A RU2021132566A (en) 2023-05-11
RU2803449C2 true RU2803449C2 (en) 2023-09-13

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080004869A1 (en) * 2006-06-30 2008-01-03 Juergen Herre Audio Encoder, Audio Decoder and Audio Processor Having a Dynamically Variable Warping Characteristic
US20160133273A1 (en) * 2013-06-25 2016-05-12 Orange Improved frequency band extension in an audio signal decoder
RU2591661C2 (en) * 2009-10-08 2016-07-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Multimode audio signal decoder, multimode audio signal encoder, methods and computer programs using linear predictive coding based on noise limitation
RU2607263C2 (en) * 2013-07-22 2017-01-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Device and method for encoding and decoding an encoded audio signal using a temporary noise/overlays generating
US20170133029A1 (en) * 2014-07-28 2017-05-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Harmonicity-dependent controlling of a harmonic filter tool

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080004869A1 (en) * 2006-06-30 2008-01-03 Juergen Herre Audio Encoder, Audio Decoder and Audio Processor Having a Dynamically Variable Warping Characteristic
RU2591661C2 (en) * 2009-10-08 2016-07-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Multimode audio signal decoder, multimode audio signal encoder, methods and computer programs using linear predictive coding based on noise limitation
US20160133273A1 (en) * 2013-06-25 2016-05-12 Orange Improved frequency band extension in an audio signal decoder
RU2607263C2 (en) * 2013-07-22 2017-01-10 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Device and method for encoding and decoding an encoded audio signal using a temporary noise/overlays generating
US20170133029A1 (en) * 2014-07-28 2017-05-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Harmonicity-dependent controlling of a harmonic filter tool

Similar Documents

Publication Publication Date Title
US20220223161A1 (en) Audio Decoder, Apparatus for Determining a Set of Values Defining Characteristics of a Filter, Methods for Providing a Decoded Audio Representation, Methods for Determining a Set of Values Defining Characteristics of a Filter and Computer Program
Zhao et al. Convolutional neural networks to enhance coded speech
Pulakka et al. Bandwidth extension of telephone speech using a neural network and a filter bank implementation for highband mel spectrum
CN108447495B (en) Deep learning voice enhancement method based on comprehensive feature set
RU2552184C2 (en) Bandwidth expansion device
Tachibana et al. An investigation of noise shaping with perceptual weighting for WaveNet-based speech generation
Dubey et al. Non-intrusive speech quality assessment using several combinations of auditory features
Braun et al. Effect of noise suppression losses on speech distortion and ASR performance
TWI721328B (en) Noise attenuation at a decoder
Korse et al. Enhancement of coded speech using a mask-based post-filter
Pulakka et al. Bandwidth extension of telephone speech to low frequencies using sinusoidal synthesis and a Gaussian mixture model
Xu et al. Deep noise suppression maximizing non-differentiable PESQ mediated by a non-intrusive PESQNet
Close et al. MetricGAN+/-: Increasing robustness of noise reduction on unseen data
Pia et al. Nesc: Robust neural end-2-end speech coding with gans
Yang et al. Improving speech enhancement through fine-grained speech characteristics
Bhat et al. Formant frequency-based speech enhancement technique to improve intelligibility for hearing aid users with smartphone as an assistive device
Zhao et al. A CNN postprocessor to enhance coded speech
RU2803449C2 (en) Audio decoder, device for determining set of values setting filter characteristics, methods for providing decoded audio representation, methods for determining set of values setting filter characteristics, and computer software
Shu et al. A human auditory perception loss function using modified bark spectral distortion for speech enhancement
Guimarães et al. Optimizing time domain fully convolutional networks for 3D speech enhancement in a reverberant environment using perceptual losses
Rai et al. Recalling-Enhanced Recurrent Neural Network optimized with Chimp Optimization Algorithm based speech enhancement for hearing aids
Jokinen et al. Comparison of Gaussian process regression and Gaussian mixture models in spectral tilt modelling for intelligibility enhancement of telephone speech.
Büthe et al. LACE: A light-weight, causal model for enhancing coded speech through adaptive convolutions
Jose Amrconvnet: Amr-coded speech enhancement using convolutional neural networks
Shahhoud et al. PESQ enhancement for decoded speech audio signals using complex convolutional recurrent neural network