RU2782364C1 - Apparatus and method for isolating sources using sound quality assessment and control - Google Patents

Apparatus and method for isolating sources using sound quality assessment and control Download PDF

Info

Publication number
RU2782364C1
RU2782364C1 RU2021121442A RU2021121442A RU2782364C1 RU 2782364 C1 RU2782364 C1 RU 2782364C1 RU 2021121442 A RU2021121442 A RU 2021121442A RU 2021121442 A RU2021121442 A RU 2021121442A RU 2782364 C1 RU2782364 C1 RU 2782364C1
Authority
RU
Russia
Prior art keywords
signal
audio signal
estimated
depending
values
Prior art date
Application number
RU2021121442A
Other languages
Russian (ru)
Inventor
Кристиан УЛЕ
Маттео ТОРКОЛИ
Саша ДИШ
Йоуни ПАУЛУС
Юрген ХЕРРЕ
Оливер ХЕЛЛЬМУТ
Харальд ФУКС
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Application granted granted Critical
Publication of RU2782364C1 publication Critical patent/RU2782364C1/en

Links

Images

Abstract

FIELD: computing technology.
SUBSTANCE: invention relates to the field of computing technology for processing audio data. The technical result is achieved by determining the estimated target signal depending on the input audio signal; determining the resulting values, depending on the estimated sound quality of the estimated target signal, in order to obtain one or multiple parameter values; and forming an isolated audio signal, depending on the one or multiple parameter values and depending on one of the estimated target signal, the input audio signal, and the estimated difference signal; wherein the estimated difference signal is an estimate of a signal containing only a section of the difference audio signal, wherein the isolated audio signal is formed depending on the parameter values and depending on the linear combination of the estimated target signal and the input audio signal; or wherein the isolated audio signal is formed depending on the parameter values and depending on the linear combination of the estimated target signal and the estimated difference signal.
EFFECT: maximum reduction of noise level on the condition of absence of artifacts.
16 cl, 6 dwg

Description

Настоящее изобретение относится к отделению (выделению) источников аудиосигналов, в частности, к адаптивному сигнальному управлению качеством звука отделенных выходных сигналов и, в частности, к устройству и способу отделения источников с использованием оценки и управления качеством звука.The present invention relates to separation (separation) of audio sources, in particular, to adaptive signal quality control of the sound quality of separated output signals, and, in particular, to a device and method for separating sources using sound quality estimation and control.

При отделении источников качество выходных сигналов ухудшается, и это ухудшение монотонно увеличивается вместе с ослаблением сигналов помех.As the sources are separated, the quality of the output signals deteriorates, and this degradation increases monotonically with the attenuation of the interfering signals.

Отделение источников аудиосигналов проводилось в прошлом.The separation of audio sources has been done in the past.

Отделение (выделение) источников аудиосигналов направлено на получение целевого сигнала

Figure 00000001
при заданном совокупном сигнале
Figure 00000002
,The separation (selection) of audio signal sources is aimed at obtaining the target signal
Figure 00000001
for a given cumulative signal
Figure 00000002
,

Figure 00000003
(1),
Figure 00000003
(one),

где

Figure 00000004
содержит все сигналы помех и в дальнейшем называется "сигналом помех". Результатом отделения
Figure 00000005
является оценка целевого сигнала
Figure 00000006
,where
Figure 00000004
contains all interference signals and is referred to as "interference signal" in the following. The result of separation
Figure 00000005
is the estimate of the target signal
Figure 00000006
,

Figure 00000007
(2)
Figure 00000007
(2)

и, возможно, дополнительно оценку сигнала помех

Figure 00000008
,and, possibly, an additional evaluation of the interference signal
Figure 00000008
,

Figure 00000009
(3)
Figure 00000009
(3)

Такая обработка обычно вносит артефакты в выходной сигнал, которые ухудшают качество звука. Это ухудшение качества звука монотонно увеличивается с величиной отделения, ослабления сигналов помех. Во многих приложениях не требуется полное отделение, а частичное усиление, звуки помех ослаблены, но все еще присутствуют в выходном сигнале.Such processing usually introduces artifacts into the output signal that degrade the sound quality. This deterioration in sound quality increases monotonically with the amount of separation, attenuation of interference signals. In many applications, full separation is not required, but partial amplification, interference sounds are attenuated but still present in the output signal.

Это имеет дополнительное преимущество в том, что качество звука выше, чем в полностью отделенных сигналах, поскольку вносится меньше артефактов, а утечка сигналов помех частично маскирует воспринимаемые артефакты.This has the added benefit that the audio quality is better than with completely separated signals because less artifact is introduced and interference signal leakage partially masks perceived artifacts.

Частичная маскировка аудиосигнала означает, что его громкость (например, воспринимаемая интенсивность) частично снижается. Кроме того, может быть желательно и необходимо, чтобы вместо достижения большого ослабления качество звука на выходе не опускалось ниже заданного уровня качества звука.Partial masking of an audio signal means that its loudness (eg perceived intensity) is partially reduced. In addition, it may be desirable and necessary that, instead of achieving a large attenuation, the output audio quality does not fall below a predetermined audio quality level.

Примером такого применения является улучшение диалога. Аудио сигналы в теле- и радиовещании и звук в фильмах часто представляют собой смешение речевых сигналов и фоновых сигналов, например, звуков окружающей среды и музыки. Когда эти сигналы смешиваются таким образом, что уровень речи слишком низок по сравнению с уровнем фона, у слушателя могут возникнуть трудности с пониманием того, что было сказано, или понимание требует очень больших усилий при прослушивании, и это приводит к утомлению слушателя. В таких сценариях могут быть применены способы автоматического снижения уровня фона, но результат должен иметь высокое качество звука.An example of such an application is the enhancement of dialogue. Audio signals in television and radio broadcasts and sound in films are often a mixture of speech signals and background signals such as environmental sounds and music. When these signals are mixed in such a way that the speech level is too low compared to the background level, the listener may have difficulty understanding what has been said, or comprehension is very difficult to listen to, resulting in listener fatigue. In such scenarios, ways to automatically reduce the background level can be applied, but the result should be of high sound quality.

На предшествующем уровне техники существуют различные способы отделения источников. Отделение целевого сигнала из смешения сигналов обсуждалось на предшествующем уровне техники. Эти способы можно разделить категориями на два подхода. Первая категория способов основана на сформулированных предположениях о модели сигнала и/или модели смешивания. Модель сигнала описывает характеристики входных сигналов, здесь

Figure 00000001
и
Figure 00000004
. Модель смешивания описывает характеристики того, как входные сигналы объединяются для получения смешенного сигнала
Figure 00000002
, здесь посредством сложения.In the prior art, there are various ways to separate sources. The separation of the target signal from the signal mix has been discussed in the prior art. These methods can be categorized into two approaches. The first category of methods is based on formulated assumptions about the signal model and/or mixing model. The signal model describes the characteristics of the input signals, here
Figure 00000001
and
Figure 00000004
. The mixing model describes the characteristics of how input signals are combined to produce a mixed signal.
Figure 00000002
, here by addition.

На основе этих предположений способ разрабатывается аналитически или эвристически. Например, способ независимого компонентного анализа (Independent Component Analysis) может быть получен, если предположить, что смешение содержит два исходных сигнала, которые статистически независимы, смешение была захвачено двумя микрофонами, и смешивание было получено путем сложения обоих сигналов (производящего мгновенное смешение). Обратный процесс смешивания затем математически выводится как инверсия матрицы смешивания, и элементы этой матрицы отделения смешивания вычисляются в соответствии с указанным способом. Большинство аналитических способов получены путем формулировки задачи отделения как численной оптимизации критерия, например, среднеквадратичной ошибки между истинной целью и оцененной целью.Based on these assumptions, the method is developed analytically or heuristically. For example, an Independent Component Analysis method can be obtained by assuming that the mix contains two original signals that are statistically independent, the mix was captured by two microphones, and the mix was obtained by adding both signals (producing instant mix). The inverse mixing process is then mathematically derived as the inverse of the mixing matrix, and the elements of this mixing separation matrix are calculated in accordance with the specified method. Most of the analytical methods are obtained by formulating the separation problem as a numerical optimization of a criterion, for example, the root mean square error between the true target and the estimated target.

Вторая категория управляется данными. В этом случае оценивается представление целевых сигналов или оценивается набор параметров для извлечения целевых сигналов из входного смешения. Оценка основана на модели, которая была обучена на наборе обучающих данных, отсюда название "управляемая данными". Оценка получается путем оптимизации критерия, например, путем минимизации среднеквадратичной ошибки между истинной целью и оцененной целью, учитывая обучающие данные. Примером для этой категории являются искусственные нейронные сети (Artificial Neural Networks, ANN), которые были обучены выдавать оценку речевого сигнала при наличии смешения речевого сигнала и сигнала помех. Во время обучения регулируемые параметры искусственной нейронной сети определяются таким образом, чтобы критерий производительности, вычисленный для набора обучающих данных, был оптимизирован - в среднем по всему набору данных.The second category is data driven. In this case, the representation of the target signals is evaluated, or a set of parameters is evaluated to extract the target signals from the input mix. The score is based on a model that has been trained on the training dataset, hence the name "data driven". The score is obtained by optimizing the criterion, for example, by minimizing the mean square error between the true target and the estimated target given the training data. An example for this category are Artificial Neural Networks (ANNs) that have been trained to produce an estimate of a speech signal in the presence of a mixture of speech and noise signals. During training, the adjustable parameters of the artificial neural network are determined in such a way that the performance criterion calculated for the training dataset is optimized - on average over the entire dataset.

Что касается отделения источников, решение, оптимальное в смысле среднеквадратичной ошибки или оптимальное по любому другому числовому критерию, не обязательно является решением с наивысшим качеством звука, которое предпочитают люди-слушатели.As far as source separation is concerned, the solution that is optimal in terms of rms error, or optimal in terms of any other numerical criterion, is not necessarily the highest audio quality solution that human listeners prefer.

Вторая проблема связана с тем, что отделение источников всегда приводит к двум эффектам: во-первых, к желаемому ослаблению звуков помех и, во-вторых, к нежелательному ухудшению качества звука. Оба эффекта коррелированы, например, увеличение желаемого эффекта приводит к увеличению нежелательного эффекта. Конечная цель состоит в том, чтобы управлять компромиссом между ними.The second problem is that the separation of sources always leads to two effects: firstly, to the desired attenuation of interference sounds and, secondly, to an undesirable deterioration in sound quality. Both effects are correlated, for example, an increase in the desired effect leads to an increase in the undesirable effect. The ultimate goal is to manage the compromise between them.

Качество звука может быть оценено, например, количественно с помощью теста на прослушивание или с помощью вычислительных моделей качества звука. Качество звука имеет множество аспектов, в дальнейшем называемых компонентами качества звука (Sound Quality Components, SQC).Sound quality can be quantified, for example, with a listening test or with computational sound quality models. Sound quality has many aspects, hereinafter referred to as Sound Quality Components (SQC).

Например, качество звука определяется воспринимаемой интенсивностью артефактов (это компоненты сигнала, которые были внесены обработкой сигналов, например, отделением источников, и которые снижают качество звука).For example, audio quality is determined by the perceived intensity of artifacts (these are signal components that have been introduced by signal processing, such as source separation, that degrade audio quality).

Или, например, качество звука определяется воспринимаемой интенсивностью сигналов помех, или, например, разборчивостью речи (когда целевой сигнал является речью), или, например, общим качеством звука.Or, for example, the sound quality is determined by the perceived intensity of the interfering signals, or, for example, speech intelligibility (when the target signal is speech), or, for example, the overall sound quality.

Существуют различные вычислительные модели качества звука, которые вычисляют (оценивают) компоненты качества звука,

Figure 00000010
,
Figure 00000011
, где
Figure 00000012
обозначает количество компонентов качества звука.There are various sound quality computational models that calculate (estimate) sound quality components,
Figure 00000010
,
Figure 00000011
, where
Figure 00000012
indicates the number of sound quality components.

Такие способы обычно оценивают компонент качества звука с учетом целевого сигнала и оценки целевого сигнала,Such methods typically estimate the audio quality component given a target signal and an estimate of the target signal,

Figure 00000013
(4)
Figure 00000013
(four)

или учитывая также сигнал помех,or considering also the interference signal,

Figure 00000014
(5).
Figure 00000014
(5).

В практическом применении целевые сигналы

Figure 00000001
(и сигналы помех
Figure 00000004
) не доступны, иначе не требовалось бы отделение. Когда доступны только входной сигнал
Figure 00000002
и оценки целевого сигнала
Figure 00000015
, компоненты качества звука не могут быть вычислены с помощью этих способов.In practical application, target signals
Figure 00000001
(and interference signals
Figure 00000004
) are not available, otherwise separation would not be required. When only the input signal is available
Figure 00000002
and target signal evaluation
Figure 00000015
, the sound quality components cannot be calculated using these methods.

В предшествующем уровне техники были описаны различные вычислительные модели для оценки аспектов качества звука, включая разборчивость.Various computational models have been described in the prior art for evaluating aspects of sound quality, including intelligibility.

Оценка слепого отделения источников (Blind Source Separation Evaluation, BSSEval) (см. [1]) представляет собой набор инструментов для многокритериальной оценки производительности. Оцениваемый сигнал подвергается декомпозиции посредством ортогональной проекции на компонент целевого сигнала, помехи от других источников и артефакты. Метрики вычисляются как энергетические соотношения этих компонентов и выражаются в дБ. Этими метриками являются отношение источника (исходного сигнала) к искажениям (Source to Distortion Ratio, SDR), отношение источника к помехам (Source to Interference Ratio, SIR) и отношение источника к артефактам (Source to Artifact Ratio, SAR).Blind Source Separation Evaluation (BSSEval) (see [1]) is a set of tools for multi-criteria performance evaluation. The estimated signal is decomposed by means of an orthogonal projection onto the target signal component, interference from other sources, and artifacts. The metrics are calculated as the energy ratios of these components and are expressed in dB. These metrics are Source to Distortion Ratio (SDR), Source to Interference Ratio (SIR), and Source to Artifact Ratio (SAR).

Способы перцептивной оценки отделения источников аудио (Perceptual Evaluation methods for Audio Source Separation, PEASS) (см. [2]) были разработаны как перцептивно мотивированный преемник способа BSSEval. Выполняется проекция сигнала на временных сегментах с помощью гамматонового фильтр-банка.Perceptual Evaluation methods for Audio Source Separation (PEASS) (see [2]) were developed as a perceptually motivated successor to the BSSEval method. The signal is projected onto time segments using a gammaton filter bank.

PEMO-Q (см. [3]) используется для обеспечения множественных признаков. Четыре оценки восприятия получаются из этих признаков с использованием нейронной сети, обученной с помощью субъективных оценок. Оценками восприятия являются: общая оценка восприятия (Overall Perceptual Score, OPS), оценка восприятия, связанная с помехами (Interference-related Perceptual Score, IPS), оценка восприятия, связанная с артефактами (Artifact-related Perceptual Score, APS) и оценка восприятия, связанная с целевым сигналом (Target-related Perceptual Score, TPS).PEMO-Q (see [3]) is used to provide multiple features. Four perception scores are obtained from these features using a neural network trained with subjective scores. The Perceptual Scores are: Overall Perceptual Score (OPS), Interference-related Perceptual Score (IPS), Artifact-related Perceptual Score (APS) and Perceptual Score, associated with the target signal (Target-related Perceptual Score, TPS).

Оценка восприятия качества аудио (Perceptual Evaluation of Audio Quality, PEAQ) (см. [4]) представляет собой метрику, разработанную для аудиокодирования. Она использует периферийную модель уха для вычисления представлений базилярной мембраны опорного и испытательного сигнала. Аспекты различия между этими представлениями определяются количественно несколькими выходными переменными. Посредством нейронной сети, обученной с помощью субъективных данных, эти переменные объединяются, чтобы получить основной результат, например, общую оценку различий (Overall Difference Grade, ODG).Perceptual Evaluation of Audio Quality (PEAQ) (see [4]) is a metric developed for audio coding. It uses a peripheral ear model to calculate the basilar membrane representations of the reference and test signals. Aspects of difference between these representations are quantified by several output variables. Through a neural network trained with subjective data, these variables are combined to get the main result, for example, the overall difference score (Overall Difference Grade, ODG).

Оценка восприятия качества речи (Perceptual Evaluation of Speech Quality, PESQ) (см. [5]) представляет собой метрику, разработанную для речи, передаваемой по телекоммуникационным сетям. Следовательно, способ содержит предварительную обработку, которая имитирует телефонную трубку. Показатели для звуковых помех вычисляются по заданной громкости сигналов и объединяются в оценках PESQ. На их основе прогнозируется оценка MOS посредством полиномиальной функции отображения (см. [6]).Perceptual Evaluation of Speech Quality (PESQ) (see [5]) is a metric developed for speech transmitted over telecommunication networks. Therefore, the method includes pre-processing that simulates a handset. The metrics for audio interference are calculated from a given signal loudness and combined in the PESQ scores. Based on them, the MOS estimate is predicted using a polynomial mapping function (see [6]).

ViSQOLAudio (см. [7]) представляет собой метрику, разработанную для музыки, закодированной на низких битовых скоростях, разработанную на основе виртуального объективного слушателя качества речи (Virtual Speech Quality Objective Listener, ViSQOL). Обе метрики основаны на модели периферийной слуховой системы, чтобы создать внутренние представления сигналов, названных нейрограммами. Они сравниваются через адаптацию индекса структурного сходства, первоначально разработанного для оценки качества сжатых изображений.ViSQOLAudio (see [7]) is a metric designed for music encoded at low bit rates, developed on top of the Virtual Speech Quality Objective Listener (ViSQOL). Both metrics are based on a model of the peripheral auditory system to create internal representations of signals called neurograms. They are compared through an adaptation of the Structural Similarity Index originally developed to evaluate the quality of compressed images.

Индекс качества аудио слуховых аппаратов (Hearing-Aid Audio Quality Index, HAAQI) (см. [8]) представляет собой индекс, предназначенный для прогнозирования качества музыки для людей, использующих слуховые аппараты. Индекс основан на модели слуховой периферии, расширенной для учета последствий потери слуха. Это соответствует базе данных оценок качества, сделанных слушателями с нормальным или ослабленным слухом. Моделирование потери слуха можно обойти, и индекс становится действительным также для людей с нормальным слухом. Основываясь на той же слуховой модели, авторы HAAQI также предложили индекс качества речи - индекс качества речи слуховых аппаратов (Hearing-Aid Speech Quality Index, HASQI) (см. [9]), и индекс разборчивости речи - индекс восприятия речи слуховых аппаратов (Hearing-Aid Speech Perception Index, HASPI) (см. [10]).The Hearing-Aid Audio Quality Index (HAAQI) (see [8]) is an index designed to predict the quality of music for hearing aid wearers. The index is based on an auditory periphery model extended to account for the effects of hearing loss. This corresponds to a database of quality ratings made by hearing-impaired or normal-hearing listeners. The simulation of hearing loss can be bypassed and the index becomes valid also for people with normal hearing. Based on the same auditory model, the HAAQI authors also proposed a speech quality index - the Hearing-Aid Speech Quality Index (HASQI) (see [9]), and a speech intelligibility index - the hearing aid speech perception index (Hearing -Aid Speech Perception Index, HASPI) (see [10]).

Кратковременная объективная разборчивость (Short-Time Objective Intelligibility, STOI) (см. [11]) представляет собой показатель, который, как ожидается, будет иметь монотонное соотношение со средней разборчивостью речи. Она особенно относится к речи, обработанной с помощью некоторого частотно-временного взвешивания.Short-Time Objective Intelligibility (STOI) (see [11]) is a measure that is expected to have a monotonous relationship with average speech intelligibility. It applies especially to speech processed with some time-frequency weighting.

В [12] искусственная нейронная сеть обучается таким образом, чтобы оценивать отношение источника к искажению, учитывая только входной сигнал и выходной оцененный целевой сигнал, где вычисление отношения источника к искажению обычно принимало бы в качестве входных данных также истинную цель и сигнал помех. Множество алгоритмов отделения выполняется параллельно на одном и том же входном сигнале. Оценки отношения источника к искажению используются, чтобы выбрать для каждого временного интервала выходные данные алгоритма с наилучшим отношением источника к искажению. Следовательно, не сформулирован контроль над компромиссом между качеством звука и отделением, и не предложен контроль параметров алгоритма отделения. Кроме того, используется отношение источника к искажению, которое не мотивировано восприятием и, как было показано, плохо коррелировано с воспринимаемым качеством, например, в [13].In [12], an artificial neural network is trained to estimate the source-to-distortion ratio given only the input signal and the estimated target output signal, where the calculation of the source-to-distortion ratio would normally take as input also the true target and the interference signal. Many separation algorithms are executed in parallel on the same input signal. The source-to-distortion ratio estimates are used to select, for each time interval, the algorithm output with the best source-to-distortion ratio. Therefore, no control over the trade-off between sound quality and separation is formulated, and no control over the parameters of the separation algorithm is proposed. In addition, a source-to-distortion ratio is used, which is not motivated by perception and has been shown to be poorly correlated with perceived quality, for example in [13].

Кроме того, в последнее время появились работы по улучшению речи с помощью контролируемого обучения, в которых оценки компонентов качества звука интегрируются в функции затрат, в то время как традиционно модели улучшения речи оптимизируются на основе среднеквадратичной ошибки (MSE) между оцененной и чистой речью. Например, в [14], [15], [16] используются функции затрат на основе STOI, а не на MSE. В [17] используется обучение с подкреплением на основе PESQ или PEASS. Тем не менее, отсутствует контроль над компромиссом между качеством звука и отделением.In addition, recently there have been works on speech enhancement using supervised learning, in which estimates of the sound quality components are integrated into cost functions, while traditionally speech enhancement models are optimized based on the root mean square error (MSE) between the estimated and clean speech. For example, [14], [15], [16] use cost functions based on STOI rather than MSE. In [17], reinforcement learning based on PESQ or PEASS is used. However, there is no control over the trade-off between sound quality and separation.

В [18] предложено устройство обработки аудио, в котором показатель слышимости используется вместе с показателем идентификации артефактов для управления частотно-временным усилением, применяемым обработкой. Это делается, например, для того чтобы обеспечить максимальное снижение уровня шума при условии отсутствия артефактов, компромисс между качеством звука и отделением фиксирован. Кроме того, система не предполагает контролируемого обучения. Для выявления артефактов используется коэффициент эксцесса, показатель, который напрямую сравнивает выходные и входные сигналы (возможно, в сегментах, где отсутствует речь), без необходимости определения истинной цели и сигнала помех. Этот простой показатель дополняется показателем слышимости.[18] proposes an audio processing device in which the audibility score is used in conjunction with the artifact identification score to control the time-frequency gain applied by the processing. This is done, for example, in order to provide the maximum reduction in noise level, provided there are no artifacts, the trade-off between sound quality and separation is fixed. In addition, the system does not involve supervised learning. Artifact detection uses the kurtosis factor, a metric that directly compares output and input signals (perhaps in non-speech segments), without the need to determine the true target and interference signal. This simple indicator is supplemented by an indicator of audibility.

Задача настоящего изобретения состоит в том, чтобы обеспечить улучшенные концепции для отделения источников. Задача настоящего изобретения решена посредством устройства по п. 1, способа по п. 16 и компьютерной программы по п. 17 формулы изобретения.The object of the present invention is to provide improved concepts for source separation. The task of the present invention is solved by means of the device according to claim 1, the method according to claim 16 and the computer program according to claim 17 of the claims.

Обеспечено устройство для формирования отделенного аудиосигнала из входного аудиосигнала. Входной аудиосигнал содержит участок целевого аудиосигнала и участок разностного аудиосигнала. Участок разностного аудиосигнала указывает разность между входным аудиосигналом и участком целевого аудиосигнала. Устройство содержит разделитель источника, модуль определения и процессор сигналов. Разделитель источника сконфигурирован для определения оцененного целевого сигнала, который зависит от входного аудиосигнала, оцененный целевой сигнал является оценкой сигнала, который содержит только участок целевого аудиосигнала. Модуль определения сконфигурирован для определения одного или нескольких результирующих значений в зависимости от оцененного качества звука оцененного целевого сигнала, чтобы получить одно или несколько значений параметров, причем одно или несколько значений параметров представляют собой одно или несколько результирующих значений или зависят от одного или нескольких результирующих значений. Процессор сигналов сконфигурирован для формирования отделенного аудиосигнала в зависимости от одного или нескольких значений параметров и в зависимости по меньшей мере от одного из оцененного целевого сигнала и входного аудиосигнала и оцененного разностного сигнала, причем оцененный разностный сигнал является оценкой сигнала, который содержит только участок разностного аудиосигнала.An apparatus is provided for generating a separated audio signal from an input audio signal. The input audio signal contains a portion of the target audio signal and a portion of the difference audio signal. The difference audio section indicates the difference between the input audio signal and the target audio section. The device contains a source separator, a definition module, and a signal processor. The source splitter is configured to define an estimated target signal that depends on the input audio signal, the estimated target signal is an estimated signal that contains only a section of the target audio signal. The determining module is configured to determine one or more result values depending on the estimated audio quality of the estimated target signal to obtain one or more parameter values, where one or more parameter values are one or more result values or depend on one or more result values. The signal processor is configured to generate a separated audio signal depending on one or more parameter values and depending on at least one of the estimated target signal and the input audio signal and the estimated difference signal, wherein the estimated difference signal is a signal estimate that contains only a section of the difference audio signal.

Кроме того, обеспечен способ формирования отделенного аудиосигнала из входного аудиосигнала. Входной аудиосигнал содержит участок целевого аудиосигнала и участок разностного аудиосигнала. Участок разностного аудиосигнала указывает разность между входным аудиосигналом и участком целевого аудиосигнала. Способ содержит:In addition, a method for generating a separated audio signal from an input audio signal is provided. The input audio signal contains a portion of the target audio signal and a portion of the difference audio signal. The difference audio section indicates the difference between the input audio signal and the target audio section. The method contains:

- определение оцененного целевого сигнала, который зависит от входного аудиосигнала, оцененный целевой сигнал является оценкой сигнала, который содержит только участок целевого аудиосигнала;- determining the estimated target signal, which depends on the input audio signal, the estimated target signal is an estimate of the signal, which contains only a portion of the target audio signal;

- определение одного или нескольких результирующих значений в зависимости от оцененного качества звука оцененного целевого сигнала, чтобы получить одно или несколько значений параметров, причем одно или несколько значений параметров представляют собой одно или несколько результирующих значений или зависят от одного или нескольких результирующих значений; и- determining one or more result values depending on the estimated audio quality of the estimated target signal to obtain one or more parameter values, where one or more parameter values represent one or more result values or depend on one or more result values; and

- формирование отделенного аудиосигнала в зависимости от одного или нескольких значений параметров и в зависимости по меньшей мере от одного из оцененного целевого сигнала и входного аудиосигнала и от оцененного разностного сигнала, оцененный разностный сигнал является оценкой сигнала, который содержит только участок разностного аудиосигнала.- generating a separated audio signal depending on one or more parameter values and depending on at least one of the estimated target signal and the input audio signal and the estimated difference signal, the estimated difference signal is an estimate of a signal that contains only a portion of the difference audio signal.

Кроме того, обеспечена компьютерная программа для реализации описанного выше способа при ее исполнении на процессоре компьютера или процессоре сигналов.In addition, a computer program is provided for implementing the method described above when it is executed on a computer processor or a signal processor.

Далее варианты осуществления настоящего изобретения описаны более подробно со ссылкой на следующие фигуры.Hereinafter, embodiments of the present invention are described in more detail with reference to the following figures.

Фиг. 1a иллюстрирует устройство для формирования отделенного аудиосигнала из входного аудиосигнала в соответствии с вариантом осуществления,Fig. 1a illustrates an apparatus for generating a separated audio signal from an input audio signal according to an embodiment,

Фиг. 1b иллюстрирует устройство для формирования отделенного аудиосигнала в соответствии с другим вариантом осуществления, дополнительно содержащее искусственную нейронную сеть,Fig. 1b illustrates an apparatus for generating a separated audio signal according to another embodiment, further comprising an artificial neural network,

Фиг. 2 иллюстрирует устройство в соответствии с вариантом осуществления, которое сконфигурировано для использования оценки качества звука, и которое сконфигурировано для проведения последующей обработки,Fig. 2 illustrates an apparatus according to an embodiment which is configured to use sound quality estimation and which is configured to perform post-processing,

Фиг. 3 иллюстрирует устройство в соответствии с другим вариантом осуществления, в котором проводится прямая оценка параметров последующей обработки,Fig. 3 illustrates an apparatus according to another embodiment in which post-processing parameters are directly evaluated,

Фиг. 4 иллюстрирует устройство в соответствии с дополнительным вариантом осуществления, в котором проводится оценка качества звука и вторичное отделение, иFig. 4 illustrates an apparatus according to a further embodiment in which sound quality evaluation and secondary separation are performed, and

Фиг. 5 иллюстрирует устройство в соответствии с другим вариантом осуществления, в котором проводится прямая оценка параметров отделения.Fig. 5 illustrates an apparatus according to another embodiment in which separation parameters are directly estimated.

Фиг. 1a иллюстрирует устройство для формирования отделенного аудиосигнала из входного аудиосигнала в соответствии с вариантом осуществления. Входной аудиосигнал содержит участок целевого аудиосигнала и участок разностного аудиосигнала. Участок разностного аудиосигнала указывает разность между входным аудиосигналом и участком целевого аудиосигнала.Fig. 1a illustrates an apparatus for generating a separated audio signal from an input audio signal according to an embodiment. The input audio signal contains a portion of the target audio signal and a portion of the difference audio signal. The difference audio section indicates the difference between the input audio signal and the target audio section.

Устройство содержит разделитель 110 источника, модуль 120 определения и процессор 130 сигналов.The apparatus includes a source splitter 110, a determiner 120, and a signal processor 130.

Разделитель 110 источника сконфигурирован для определения оцененного целевого сигнала, который зависит от входного аудиосигнала, оцененный целевой сигнал является оценкой сигнала, который содержит только участок целевого аудиосигнала.The source splitter 110 is configured to determine an estimated target signal that depends on the input audio signal, the estimated target signal is a signal estimate that contains only a section of the target audio signal.

Модуль 120 определения сконфигурирован для определения одного или нескольких результирующих значений в зависимости от оцененного качества звука оцененного целевого сигнала, чтобы получить одно или несколько значений параметров, причем одно или несколько значений параметров представляют собой одно или несколько результирующих значений или зависят от одного или нескольких результирующих значений.Determination module 120 is configured to determine one or more result values depending on the estimated audio quality of the estimated target signal to obtain one or more parameter values, wherein the one or more parameter values are one or more result values or depend on one or more result values. .

Процессор 130 сигналов сконфигурирован для формирования отделенного аудиосигнала в зависимости от одного или нескольких значений параметров и в зависимости по меньшей мере от одного из оцененного целевого сигнала и входного аудиосигнала и от оцененного разностного сигнала. Оцененный разностный сигнал является оценкой сигнала, который содержит только участок разностного аудиосигнала.The signal processor 130 is configured to generate a separated audio signal depending on one or more parameter values and depending on at least one of the estimated target signal and the input audio signal and the estimated difference signal. The estimated difference signal is an estimate of a signal that contains only a portion of the difference audio signal.

Факультативно в варианте осуществления модуль 120 определения, например, может быть сконфигурирован для определения одного или нескольких результирующих значений в зависимости от оцененного целевого сигнала и в зависимости по меньшей мере от одного из входного аудиосигнала и оцененного разностного сигнала.Optionally, in an embodiment, determiner 120 may, for example, be configured to determine one or more result values depending on the estimated target signal and depending on at least one of the input audio signal and the estimated difference signal.

Варианты осуществления обеспечивают мотивированное восприятием и адаптируемое к сигналу управление компромиссом между качеством звука и отделением c использованием контролируемого обучения. Это может быть достигнуто двумя способами. Первый способ оценивает качество звука выходного сигнала и использует эту оценку, чтобы адаптировать параметры отделения или последующую обработку отделенных сигналов. Во втором варианте осуществления регрессионный метод непосредственно выдает управляющие параметры, в результате чего качество звука выходного сигнала отвечает предварительно заданным требованиям.Embodiments provide perceptually motivated and signal-adaptive control of the trade-off between sound quality and separation using supervised learning. This can be achieved in two ways. The first method estimates the audio quality of the output signal and uses this estimate to adapt the separation parameters or post-processing of the separated signals. In the second embodiment, the regression method directly outputs the control parameters, resulting in the sound quality of the output signal meeting the predetermined requirements.

В соответствии с вариантами осуществления анализ входного сигнала и выходного сигнала отделения проводится для получения оценки

Figure 00000010
качества звука и определения параметров обработки на основе
Figure 00000010
, чтобы качество звука на выходе (при использовании определенных параметров обработки) было не нижнее заданного значения качества.In accordance with embodiments, analysis of the input signal and the output signal of the department is carried out to obtain an estimate
Figure 00000010
sound quality and determine processing parameters based on
Figure 00000010
so that the output audio quality (when using certain processing options) is not below the specified quality value.

В некоторых вариантах осуществления анализ выдает показатель качества

Figure 00000010
в (9). Из показателя качества вычисляется управляющий параметр
Figure 00000016
в формуле (13) ниже (например, масштабный коэффициент), и окончательные выходные данные получаются посредством микширования начальных выходных данных и входных данных, как в формуле (13) ниже. Вычисление
Figure 00000017
может выполняться итерационно или посредством регрессии, причем параметры регрессии получаются в результате обучения из набора обучающих сигналов, см. фиг. 2. В вариантах осуществления управляющий параметр может представлять собой не масштабный коэффициент, а, например, параметр сглаживания и т.п.In some embodiments, the analysis produces a quality score
Figure 00000010
at 9). The control parameter is calculated from the quality index
Figure 00000016
in formula (13) below (eg, scaling factor), and the final output is obtained by mixing the initial output and input data as in formula (13) below. calculation
Figure 00000017
can be performed iteratively or by regression, with the regression parameters obtained as a result of training from a set of training signals, see FIG. 2. In embodiments, the control parameter may not be a scaling factor but, for example, a smoothing parameter or the like.

В некоторых вариантах осуществления анализ приводит к управляющему параметру

Figure 00000016
в (13) непосредственно, см. фиг. 3.In some embodiments, the analysis results in a control parameter
Figure 00000016
in (13) directly, see fig. 3.

Фиг. 4 и фиг. 5 определяют дополнительные варианты осуществления.Fig. 4 and FIG. 5 define additional embodiments.

Некоторые варианты осуществления достигают управления качеством звука на этапе последующей обработки, как описано ниже.Some embodiments achieve audio quality control in the post-processing step, as described below.

Подмножество описанных в настоящем документе вариантов осуществления может применяться независимо от способа отделения. Некоторые описанные в настоящем документе варианты осуществления управляют процессом отделения.A subset of the embodiments described herein may be applied regardless of the separation method. Some of the embodiments described herein control the separation process.

Отделение источника c использованием спектрального взвешивания обрабатывает сигналы в частотно-временной области или кратковременной спектральной области. Входной сигнал

Figure 00000002
преобразуется посредством оконного преобразования Фурье (STFT) или обрабатывается с помощью набора фильтров, что дает в результате комплекснозначные коэффициенты преобразования STFT или сигналы
Figure 00000018
частотных подполос, где
Figure 00000019
обозначает индекс временного кадра,
Figure 00000020
обозначает индекс частотного интервала или индекс частотной подполосы. Комплекснозначные коэффициенты преобразования STFT или сигналы частотных подполос требуемого сигнала представляют собой
Figure 00000021
, и сигнал помех представляет собой
Figure 00000022
.Source separation using spectral weighting processes signals in the time-frequency domain or short-term spectral domain. Input signal
Figure 00000002
transformed by a windowed Fourier transform (STFT) or processed by a filter bank, resulting in complex-valued STFT transform coefficients or signals
Figure 00000018
frequency subbands, where
Figure 00000019
denotes the time frame index,
Figure 00000020
denotes a frequency slot index or a frequency subband index. The complex valued STFT transform coefficients or frequency subband signals of the desired signal are
Figure 00000021
, and the interference signal is
Figure 00000022
.

Отделенные (выделенные) выходные сигналы вычисляются посредством спектрального взвешивания какThe separated (dedicated) output signals are computed by spectral weighting as

Figure 00000023
(6),
Figure 00000023
(6)

где спектральные весовые коэффициенты

Figure 00000024
поэлементно умножаются на входной сигнал. Цель состоит в том, чтобы ослабить элементы в
Figure 00000018
, где источник помех
Figure 00000022
является большим. С этой целью спектральные весовые коэффициенты могут быть вычислены на основе оценки цели
Figure 00000025
, оценки источника помех
Figure 00000026
или оценки отношения сигнала к источнику помех, например,where the spectral weights
Figure 00000024
element-wise multiplied by the input signal. The goal is to weaken the elements in
Figure 00000018
, where the interference source
Figure 00000022
is big. To this end, the spectral weights can be computed based on the target score
Figure 00000025
, interference source estimates
Figure 00000026
or an estimate of the signal-to-interference ratio, for example,

Figure 00000027
(7)
Figure 00000027
(7)

илиor

Figure 00000028
(8),
Figure 00000028
(eight),

где

Figure 00000029
и
Figure 00000030
- параметры, управляющие отделением. Например, увеличение
Figure 00000030
может привести к большему ослаблению источника помех, но также и к более сильному ухудшению качества звука. Спектральные весовые коэффициенты могут быть дополнительно модифицированы, например, посредством задания порога, чтобы
Figure 00000031
было больше порога. Модифицированные коэффициенты усиления
Figure 00000032
вычисляются какwhere
Figure 00000029
and
Figure 00000030
- parameters that control the department. For example, an increase
Figure 00000030
may lead to more attenuation of the interferer, but also to a greater deterioration in sound quality. The spectral weights can be further modified, for example by setting a threshold, so that
Figure 00000031
was over the threshold. Modified gains
Figure 00000032
calculated as

Figure 00000033
.
Figure 00000033
.

Увеличение порога v сокращает ослабление источника помех и сокращает потенциальное ухудшение качества звука.Increasing the threshold v reduces the attenuation of the interfering source and reduces the potential degradation in audio quality.

Оценка требуемых величин (цели

Figure 00000034
, источника помех
Figure 00000026
или отношения сигнала к источнику помех) является основой этих способов, и в прошлом были разработаны различные способы оценки. Они следуют одному из двух описанных выше подходов.Estimation of the required values (objectives
Figure 00000034
, interference source
Figure 00000026
or signal-to-interferer ratio) is the basis of these methods, and various evaluation methods have been developed in the past. They follow one of the two approaches described above.

Затем выходной сигнал

Figure 00000015
вычисляется с использованием обратной обработки преобразования STFT или набора фильтров.Then the output signal
Figure 00000015
is computed using the inverse processing of the STFT transform or filter bank.

Далее описывается отделение источника с использованием оценки целевого сигнала в соответствии с вариантами осуществления.Next, source separation using target signal estimation according to the embodiments will be described.

Представление целевого сигнала также может быть оценено непосредственно по входному сигналу, например, с помощью искусственной нейронной сети. Недавно были предложены различные способы, в которых искусственная нейронная сеть обучалась для оценки целевого временного сигнала, или его коэффициентов STFT, или величин коэффициентов STFT.The representation of the target signal can also be estimated directly from the input signal, for example, using an artificial neural network. Recently, various methods have been proposed in which an artificial neural network was trained to estimate a target timing signal, or its STFT coefficients, or STFT coefficient values.

Что касается качества звука, компонент качества звука (SQC) получается посредством применения модели контролируемого обучения

Figure 00000035
для оценки результатов этой вычислительной модели,Regarding audio quality, the audio quality component (SQC) is obtained by applying a supervised learning model
Figure 00000035
to evaluate the results of this computational model,

Figure 00000036
(9).
Figure 00000036
(9).

Способ контролируемого обучения

Figure 00000035
реализован следующим образом.Method of supervised learning
Figure 00000035
implemented as follows.

1. Конфигурация модели контролируемого обучения

Figure 00000035
с помощью обучаемых параметров,
Figure 00000037
входных переменных и
Figure 00000038
выходных переменных.1. Supervised learning model configuration
Figure 00000035
using learnable parameters,
Figure 00000037
input variables and
Figure 00000038
output variables.

2. Формирование набора данных с помощью сигналов-примеров для цели

Figure 00000001
и смешения
Figure 00000002
.2. Formation of a data set using sample signals for the target
Figure 00000001
and mixing
Figure 00000002
.

3. Вычисление оценки для целевых сигналов посредством отделения источников,

Figure 00000039
.3. Computing an estimate for target signals by separating sources,
Figure 00000039
.

4. Вычисление компонентов качества звука

Figure 00000010
из полученных сигналов посредством вычислительных моделей качества звука в соответствии с (9) или (10).4. Calculation of sound quality components
Figure 00000010
from the received signals by means of computational sound quality models in accordance with (9) or (10).

5. Обучение модели контролируемого обучения

Figure 00000035
таким образом, чтобы она выдавала оценки
Figure 00000040
с учетом соответствующих сигналов-примеров для предполагаемой цели
Figure 00000015
(результата отделения источников) и смешения
Figure 00000002
. В качестве альтернативы, обучение модели контролируемого обучения
Figure 00000035
таким образом, чтобы она выдавала оценки
Figure 00000040
с учетом
Figure 00000015
и
Figure 00000041
(если)
Figure 00000042
.5. Supervised learning model training
Figure 00000035
in such a way that it gives ratings
Figure 00000040
with appropriate example signals for the intended purpose
Figure 00000015
(the result of separation of sources) and mixing
Figure 00000002
. Alternatively, supervised learning model training
Figure 00000035
in such a way that it gives ratings
Figure 00000040
taking into account
Figure 00000015
and
Figure 00000041
(if)
Figure 00000042
.

6. В применении обученная модель получает оцененную цель

Figure 00000015
(результат отделения источников), полученную из смешения
Figure 00000002
с использованием способа отделения источников вместе со смешением
Figure 00000002
.6. In application, the trained model gets the estimated target
Figure 00000015
(the result of separation of sources), obtained from mixing
Figure 00000002
using the source separation method along with mixing
Figure 00000002
.

Обеспечено применение способов контролируемого обучения для контроля качества отделенного выходного сигнала.The use of supervised learning methods to control the quality of the separated output signal is provided.

Далее описывается оценка качества звука с использованием контролируемого обучения соответствии с вариантами осуществления.The following describes sound quality evaluation using supervised learning in accordance with the embodiments.

Фиг. 1b иллюстрирует вариант осуществления, в котором модуль 120 определения содержит искусственную нейронную сеть 125. Искусственная нейронная сеть 125, например, может быть сконфигурирована для определения одного или нескольких результирующих значений в зависимости от оцененного целевого сигнала. Искусственная нейронная сеть 125, например, может быть сконфигурирована для приема множества входных значений, каждое из множества входных значений зависит по меньшей мере от одного из оцененного целевого сигнала и оцененного разностного сигнала и от входного аудиосигнала. Искусственная нейронная сеть 125, например, может быть сконфигурирована для определения одного или нескольких результирующих значений в качестве одного или нескольких выходных значений искусственной нейронной сети 125.Fig. 1b illustrates an embodiment in which determination module 120 comprises an artificial neural network 125. Artificial neural network 125, for example, may be configured to determine one or more result values depending on the estimated target signal. The artificial neural network 125, for example, may be configured to receive a plurality of input values, each of the plurality of input values depending on at least one of the estimated target signal and the estimated difference signal, and on the input audio signal. Artificial neural network 125, for example, may be configured to determine one or more result values as one or more output values of artificial neural network 125.

Факультативно в варианте осуществления искусственная нейронная сеть 125, например, может быть сконфигурирована для определения одного или нескольких результирующих значений в зависимости от оцененного целевого сигнала и по меньшей мере одного сигнала из входного аудиосигнала и оцененного разностного сигнала.Optionally, in an embodiment, the artificial neural network 125, for example, may be configured to determine one or more result values depending on the estimated target signal and at least one signal from the input audio signal and the estimated difference signal.

В варианте осуществления каждое из множества входных значений, например, может зависеть по меньшей мере от одного из оцененного целевого сигнала и оцененного разностного сигнала и от входного аудиосигнала. Одно или несколько результирующих значений, например, могут указывать оцененное качество звука оцененного целевого сигнала.In an embodiment, each of the plurality of input values, for example, may depend on at least one of the estimated target signal and the estimated difference signal, and on the input audio signal. One or more result values, for example, may indicate the estimated audio quality of the estimated target signal.

В соответствии с вариантом осуществления каждое из множества входных значений может, например, зависеть по меньшей мере от одного из оцененного целевого сигнала и оцененного разностного сигнала и от входного аудиосигнала. Одно или несколько результирующих значений, например, могут представлять собой одно или несколько значений параметров.According to an embodiment, each of the plurality of input values may, for example, depend on at least one of the estimated target signal and the estimated difference signal, and on the input audio signal. One or more result values, for example, may be one or more parameter values.

В варианте осуществления искусственная нейронная сеть 125, например, может быть сконфигурирована для обучения посредством приема множества наборов обучающих данных, причем каждый из множества наборов обучающих данных содержит множество входных обучающих значений искусственной нейронной сети 125 и одно или несколько выходных обучающих значений искусственной нейронной сети 125, причем каждое из множества выходных обучающих значений, например, может зависеть по меньшей мере от одного из обучающего целевого сигнала и обучающего разностного сигнала и от обучающего входного сигнала, причем каждое из одного или нескольких выходных обучающих значений, например, может зависеть от оценки качества звука обучающего целевого сигнала.In an embodiment, artificial neural network 125, for example, may be configured to train by receiving a plurality of training datasets, each of the plurality of training datasets comprising a plurality of artificial neural network 125 input training values and one or more artificial neural network 125 output training values, each of the plurality of output training values, for example, may depend on at least one of the training target signal and the training difference signal and on the training input signal, wherein each of the one or more output training values, for example, may depend on the sound quality score of the training target signal.

В вариантах осуществления оценка для компонента качества звука получается посредством контролируемого обучения с использованием модели контролируемого обучения (SLM), например, искусственной нейронной сети (Artificial Neural Network, ANN) 125. Искусственная нейронная сеть 125, например, может представлять собой полностью соединенную искусственную нейронную сеть 125, которая содержит входной слой с A блоками, по меньшей мере один скрытый слой с входными уровнями, каждый по меньшей мере с двумя блоками, и выходной слой с одним или несколькими блоками.In embodiments, an estimate for the audio quality component is obtained by supervised learning using a supervised learning model (SLM), such as an Artificial Neural Network (ANN) 125. The artificial neural network 125, for example, may be a fully connected artificial neural network. 125 which contains an input layer with A blocks, at least one hidden layer with input levels each with at least two blocks, and an output layer with one or more blocks.

Модель контролируемого обучения может быть реализована как регрессионная модель или модель классификации. Регрессионная модель оценивает одно целевое значение на выходе одного блока в выходном слое. В качестве альтернативы задача регрессии может быть сформулирована как задача классификации посредством квантования выходного значения по меньшей на 3 этапа с использованием выходного слоя с

Figure 00000043
блоками, где
Figure 00000043
равно количеству этапов квантования.The supervised learning model can be implemented as a regression model or a classification model. The regression model evaluates one target value at the output of one block in the output layer. Alternatively, the regression problem can be formulated as a classification problem by quantizing the output value into at least 3 steps using an output layer with
Figure 00000043
blocks, where
Figure 00000043
is equal to the number of quantization steps.

Для каждого этапа квантования используется один выходной блок.One output block is used for each quantization step.

Модель контролируемого обучения сначала обучается с помощью набора данных, который содержит несколько примеров смешенного сигнала

Figure 00000044
, оцененной цели
Figure 00000045
и компонента качества звука
Figure 00000010
, где компонент качества звука был вычислен из оцененной цели
Figure 00000045
и истинной цели
Figure 00000046
, например. Один элемент набора данных обозначен как
Figure 00000047
. Выходной результат модели контролируемого обучения здесь обозначен как
Figure 00000048
.The supervised learning model is first trained on a dataset that contains multiple mixed signal examples
Figure 00000044
, estimated goal
Figure 00000045
and sound quality component
Figure 00000010
, where the audio quality component was computed from the estimated target
Figure 00000045
and true purpose
Figure 00000046
, for example. One element of the dataset is denoted as
Figure 00000047
. The output of the supervised learning model is denoted here as
Figure 00000048
.

Количество блоков во входном слое

Figure 00000049
соответствует количеству входных значений. Вводы в модели вычисляются из входных сигналов. Каждый сигнал может быть факультативно обработан посредством набора фильтров частотно-временного преобразования, например, краткосрочного преобразования Фурье (STFT). Например, ввод может быть построен посредством конкатенации коэффициентов STFT, вычисленных из
Figure 00000050
смежных кадров из
Figure 00000051
и
Figure 00000052
, где
Figure 00000053
или
Figure 00000054
. Если
Figure 00000055
- общее количество спектральных коэффициентов на кадр, то общее количество входных коэффициентов равно
Figure 00000056
.Number of blocks in the input layer
Figure 00000049
corresponds to the number of input values. The inputs in the model are computed from the input signals. Each signal can optionally be processed through a bank of time-frequency transform filters, such as the Short Term Fourier Transform (STFT). For example, the input can be constructed by concatenating the STFT coefficients computed from
Figure 00000050
adjacent frames from
Figure 00000051
and
Figure 00000052
, where
Figure 00000053
or
Figure 00000054
. If a
Figure 00000055
is the total number of spectral coefficients per frame, then the total number of input coefficients is
Figure 00000056
.

Каждый блок искусственной нейронной сети 125 вычисляет свое выходное значение как линейную комбинацию входных значений, которые затем факультативно обрабатываются с помощью нелинейной функции сжатия,Each block of artificial neural network 125 calculates its output value as a linear combination of input values, which are then optionally processed using a non-linear compression function,

Figure 00000057
(10),
Figure 00000057
(ten),

где

Figure 00000058
обозначает выход одного нейрона,
Figure 00000059
обозначают
Figure 00000060
входных значений,
Figure 00000061
обозначают
Figure 00000060
весовых коэффициентов для линейной комбинации, и
Figure 00000062
обозначают
Figure 00000060
дополнительных составляющих смещения. Для блоков в первом скрытом слое количество входных значений
Figure 00000060
равно количеству входных коэффициентов D. Все
Figure 00000061
и
Figure 00000062
являются параметрами искусственной нейронной сети 125, которые определяются в способе обучения.where
Figure 00000058
denotes the output of one neuron,
Figure 00000059
designate
Figure 00000060
input values,
Figure 00000061
designate
Figure 00000060
weighting factors for the linear combination, and
Figure 00000062
designate
Figure 00000060
additional bias components. For blocks in the first hidden layer, the number of input values
Figure 00000060
equals the number of input coefficients D. All
Figure 00000061
and
Figure 00000062
are the parameters of the artificial neural network 125, which are determined in the training method.

Блоки одного слоя соединены с блоками следующего слоя, выходы блоков предыдущего слоя являются входами в блоки следующего слоя.The blocks of one layer are connected to the blocks of the next layer, the outputs of the blocks of the previous layer are the inputs to the blocks of the next layer.

Обучение выполняется посредством минимизации ошибки предсказания с использованием численного метода оптимизации, например, метода градиентного спуска. Ошибка предсказания для одного элемента является функцией разности

Figure 00000063
. Ошибка предсказания для всего набора данных или подмножества набора данных, используемого в качестве критерия оптимизации, является, например, среднеквадратичной ошибкой MSE или средней абсолютной ошибкой MAE, где
Figure 00000064
обозначает количество элементов в наборе данных.Training is performed by minimizing the prediction error using a numerical optimization method such as gradient descent. The prediction error for one element is a function of the difference
Figure 00000063
. The prediction error for the entire data set or a subset of the data set used as an optimization criterion is, for example, the MSE root mean square error or the MAE mean absolute error, where
Figure 00000064
denotes the number of elements in the dataset.

Figure 00000065
(11)
Figure 00000065
(eleven)

Figure 00000066
(12)
Figure 00000066
(12)

Другие показатели ошибок возможны для целей обучения, если они являются монотонными функциями

Figure 00000067
и дифференцируемыми. Кроме того, существуют другие структуры и элементы для построения искусственных нейронных сетей, например, слои сверточной нейронной сети или слои рекуррентной нейронной сети.Other error rates are possible for learning purposes if they are monotone functions
Figure 00000067
and differentiable. In addition, there are other structures and elements for building artificial neural networks, such as convolutional neural network layers or recurrent neural network layers.

Все они имеют общее в том, что они реализуют отображение из многомерного входа на одно- или многомерный выход, причем функция отображения управляется набором параметров (например,

Figure 00000061
и
Figure 00000062
), которые определяются в процедуре обучения посредством оптимизации скалярного критерия.They all have in common that they implement a mapping from a multidimensional input to a one or multidimensional output, with the mapping function controlled by a set of parameters (for example,
Figure 00000061
and
Figure 00000062
), which are determined in the learning procedure by optimizing the scalar criterion.

После обучения модель контролируемого обучения может использоваться для оценки качества звука неизвестной оцененной цели

Figure 00000045
с учетом смешения без необходимости в истинной цели
Figure 00000046
.After training, a supervised learning model can be used to evaluate the sound quality of an unknown evaluated target.
Figure 00000045
subject to confusion without the need for a true target
Figure 00000046
.

Что касается вычислительных моделей качества звука, в экспериментах в соответствии с вариантами осуществления успешно использовались различные вычислительные модели для оценки аспектов качества звука (включая разборчивость), такие как вычислительные модели, описанные в [1]-[11], в частности оценка слепого отделения источников (BSSEval) (см. [1]), способы оценки восприятия для отделения источников аудио (PEASS) (см. [2]), PEMO-Q (см. [3]), оценка восприятия качества аудио (PEAQ) (см. [4]), оценка восприятия качества речи (PESQ) (см. [5] и [6]), ViSQOLAudio (см. [7), индекс качества аудио слухового аппарата (HAAQI) (см. [8]), индекс качества речи слухового аппарата (HASQI) (см. [9), индекс восприятия речи слухового аппарата (HASPI) (см. [10]), и кратковременная объективная разборчивость (STOI) (см. [11]).With regard to sound quality computational models, experiments in accordance with embodiments have successfully used various computational models to evaluate aspects of sound quality (including intelligibility), such as the computational models described in [1]-[11], in particular the evaluation of blind source separation. (BSSEval) (see [1]), Perceptual Assessment Methods for Audio Source Separation (PEASS) (see [2]), PEMO-Q (see [3]), Perceptual Audio Quality Score (PEAQ) (see [4]), Perceptual Speech Quality Score (PESQ) (see [5] and [6]), ViSQOLAudio (see [7], Hearing Aid Audio Quality Index (HAAQI) (see [8]), Quality Index Hearing Aid Speech Perception (HASQI) (see [9], Hearing Aid Speech Perception Index (HASPI) (see [10]), and Short Term Objective Intelligibility (STOI) (see [11]).

Таким образом, в соответствии с вариантом осуществления оценка качества звука обучающего целевого сигнала, например, может зависеть от одной или нескольких вычислительных моделей качества звука.Thus, according to an embodiment, the estimation of the sound quality of the training target signal, for example, may depend on one or more computational sound quality models.

Например, в варианте осуществления оценка качества звука обучающего целевого сигнала может зависеть от одной или нескольких следующих вычислительных моделей качества звука:For example, in an embodiment, the audio quality estimate of the training target signal may depend on one or more of the following audio quality computational models:

Оценка слепого отделения источников,Evaluation of the blind separation of sources,

Методы оценки восприятия для отделения источников аудио,Perceptual evaluation methods for separating audio sources,

Оценка восприятия качества аудио,Audio quality perception evaluation,

Оценка восприятия качества речи,Speech quality perception assessment,

Аудио с виртуальным объективным слушателем качества речи,Audio with virtual speech quality objective listener,

Индекс качества аудио слухового аппарата,Hearing aid audio quality index,

Индекс качества речи слухового аппарата,Hearing aid speech quality index,

Индекс восприятия речи слухового аппарата, иHearing aid speech perception index, and

Кратковременная объективная разборчивость.Short-term objective intelligibility.

Другие вычислительные модели качества звука, например, также могут использоваться в других вариантах осуществления.Other sound quality computational models, for example, may also be used in other embodiments.

Далее описывается управление качеством звука.The following describes sound quality control.

Управление качеством звука может быть реализовано посредством оценки компонента качества звука и вычисления параметров обработки на основе оценки компонента качества звука или посредством прямой оценки оптимальных параметров обработки таким образом, чтобы компонент качества звука соответствовал целевому значению

Figure 00000068
(или не опускался ниже этого целевого значения).Audio quality control can be realized by estimating the audio quality component and calculating processing parameters based on the audio quality component estimate, or by directly estimating the optimal processing parameters so that the audio quality component matches the target value.
Figure 00000068
(or did not fall below this target value).

Оценка компонента качества звука была описана выше. Аналогичным образом оптимальные параметры обработки могут быть оценены посредством обучения регрессионного метода с помощью требуемых значений оптимальных параметров обработки. Оптимальные параметры обработки вычисляются, как описано ниже. Эта обработка в дальнейшем называется модулем оценки параметров (Parameter Estimation Module, PEM).The evaluation of the audio quality component has been described above. Similarly, the optimal processing parameters can be estimated by training the regression method with the desired values of the optimal processing parameters. Optimal processing parameters are calculated as described below. This processing is hereinafter referred to as a Parameter Estimation Module (PEM).

Целевое значение для качества звука

Figure 00000068
будет определять компромисс между отделением и качеством звука. Этот параметр может управляться пользователем или указываться в зависимости от сценария воспроизведения звука. Воспроизведение звука в домашних условиях в спокойной обстановке на высококачественном оборудовании может извлечь преимущество из более высокого качества звука и меньшего отделения. Воспроизведение звука в транспортных средствах в шумной среде через динамики, встроенные в смартфон, может извлечь преимущество из более низкого качества звука, но более высокого отделения и разборчивости речи.Target value for sound quality
Figure 00000068
will determine the trade-off between separation and sound quality. This setting can be controlled by the user or specified depending on the audio playback scenario. Playing audio at home in a quiet environment on high quality equipment can benefit from higher sound quality and smaller separation. Audio playback in vehicles in noisy environments through speakers built into a smartphone can benefit from lower sound quality but higher separation and speech intelligibility.

Кроме того, оценочные величины (либо компонент качества звука, либо параметры обработки) могут быть дополнительно применены либо для управления последующей обработкой, либо для управления вторичным отделением.In addition, the estimated values (either the audio quality component or the processing parameters) can be further applied either to control the post-processing or to control the secondary compartment.

Таким образом, для реализации предложенного способа могут использоваться четыре разных концепции. Эти концепции проиллюстрированы на фиг. 2, фиг. 3, фиг. 4 и фиг. 5 и описаны далее.Thus, four different concepts can be used to implement the proposed method. These concepts are illustrated in Fig. 2, fig. 3, fig. 4 and FIG. 5 and are described below.

Фиг. 2 иллюстрирует устройство в соответствии с вариантом осуществления, которое сконфигурировано для использования оценки качества звука, и которое сконфигурировано для проведения последующей обработки.Fig. 2 illustrates an apparatus according to an embodiment that is configured to use audio quality estimation and that is configured to perform post-processing.

В соответствии с таким вариантом осуществления модуль 120 определения, например, может быть сконфигурирован для оценки, в зависимости по меньшей мере от одного из оцененного целевого сигнала и входного аудиосигнала и от оцененного разностного сигнала, значения качества звука как одного или нескольких результирующих значений, причем значение качества звука указывает оцененное качество звука оцененного целевого сигнала. Модуль 120 определения, например, может быть сконфигурирован для определения одного или нескольких значений параметров в зависимости от значения качества звука.According to such an embodiment, determining module 120 may, for example, be configured to evaluate, depending on at least one of the estimated target signal and the input audio signal and on the estimated difference signal, the sound quality value as one or more result values, wherein the value audio quality indicates the estimated audio quality of the estimated target signal. The determiner 120, for example, may be configured to determine one or more parameter values depending on the sound quality value.

Таким образом в соответствии с вариантом осуществления модуль 120 определения, например, может быть сконфигурирован для определения, в зависимости от оцененного качества звука оцененного целевого сигнала, управляющего параметра как одного или нескольких значений параметра. Процессор 130 сигналов, например, может быть сконфигурирован для определения отделенного аудиосигнала в зависимости от управляющего параметра и в зависимости по меньшей мере от одного из оцененного целевого сигнала и входного аудиосигнала и от оцененного разностного сигнала.Thus, according to an embodiment, determining module 120, for example, may be configured to determine, depending on the estimated audio quality of the estimated target signal, the control parameter as one or more parameter values. The signal processor 130, for example, may be configured to determine the separated audio signal depending on the control parameter and depending on at least one of the estimated target signal and the input audio signal and the estimated difference signal.

Далее описаны конкретные варианты осуществления.The following describes specific embodiments.

На первом этапе применяется отделение. Отделенный сигнал и необработанный сигнал вводятся в модуль оценки качества (Quality Estimation Module, QEM). QEM вычисляет оценку для компонентов качества звука,

Figure 00000069
.At the first stage, separation is applied. The separated signal and the raw signal are input to a Quality Estimation Module (QEM). QEM calculates a score for audio quality components,
Figure 00000069
.

Оценочные компоненты качества звука

Figure 00000069
используются для вычисления набора параметров
Figure 00000070
для управления последующей обработкой.Sound Quality Evaluation Components
Figure 00000069
are used to calculate a set of parameters
Figure 00000070
to control post-processing.

Переменные

Figure 00000071
,
Figure 00000069
,
Figure 00000072
и
Figure 00000070
могут изменяться во времени, но зависимость от времени в дальнейшем опущена для ясности обозначения.Variables
Figure 00000071
,
Figure 00000069
,
Figure 00000072
and
Figure 00000070
may change over time, but the dependence on time is omitted from here on for clarity of notation.

Такая последующая обработка, например, добавляет масштабированную или отфильтрованную копию входного сигнала к масштабированной или отфильтрованной копии выходного сигнала и тем самым сокращает ослабление сигналов помех (например, эффект отделения), например,Such post-processing, for example, adds a scaled or filtered copy of the input signal to a scaled or filtered copy of the output signal and thereby reduces the attenuation of interference signals (for example, the effect of separation), for example,

Figure 00000073
(13),
Figure 00000073
(13),

где параметр

Figure 00000074
управляет величиной отделения.where parameter
Figure 00000074
controls the size of the branch.

В других вариантах осуществления, например, может использоваться формула:In other embodiments, for example, the formula may be used:

Figure 00000075
,
Figure 00000075
,

где

Figure 00000076
- оцененный разностный сигнал.where
Figure 00000076
is the estimated difference signal.

Сокращение отделения приводит кThe reduction in separation leads to

1) сокращению количества артефактов и1) reducing the number of artifacts and

2) увеличению утечки звуков помех, которая маскирует артефакты отделения.2) increased leakage of interference sounds, which masks separation artifacts.

Таким образом, в варианте осуществления процессор 120 сигналов, например, может быть сконфигурирован для определения отделенного аудиосигнала в зависимости от формулы (13), где

Figure 00000077
- отделенный аудиосигнал,
Figure 00000045
- оцененный целевой сигнал,
Figure 00000044
- входной аудиосигнал,
Figure 00000074
- управляющий параметр, и
Figure 00000078
- индекс.Thus, in an embodiment, the signal processor 120, for example, may be configured to determine the separated audio signal depending on formula (13), where
Figure 00000077
- separated audio signal,
Figure 00000045
- estimated target signal,
Figure 00000044
- input audio signal,
Figure 00000074
is the control parameter, and
Figure 00000078
- index.

Параметр вычисляется с учетом оценки качества звука

Figure 00000079
и целевого показателя качества
Figure 00000068
,The parameter is calculated taking into account the sound quality rating
Figure 00000079
and quality target
Figure 00000068
,

Figure 00000080
(14).
Figure 00000080
(fourteen).

Эта функция

Figure 00000081
, например, может представлять собой итерационный экстенсивный поиск, как проиллюстрировано с помощью следующего псевдокода.This function
Figure 00000081
, for example, can be an iterative extensive search, as illustrated by the following pseudocode.

Figure 00000082
Figure 00000082

В качестве альтернативы соотношение

Figure 00000083
может быть вычислено следующим образом.Alternatively, the ratio
Figure 00000083
can be calculated as follows.

1. Вычисление

Figure 00000084
для набора значений
Figure 00000085
,
Figure 00000086
.1. Calculation
Figure 00000084
for a set of values
Figure 00000085
,
Figure 00000086
.

2. Вычисление остающихся значений

Figure 00000079
посредством интерполяции и экстраполяции.2. Calculation of the remaining values
Figure 00000079
through interpolation and extrapolation.

Например, когда параметр обработки

Figure 00000087
управляет последующей обработкой, как в уравнении (13),
Figure 00000079
вычисляется для фиксированного количества значений
Figure 00000074
, например, соответствующих 18, 12 и 6 дБ относительного усиления
Figure 00000045
.For example, when the processing parameter
Figure 00000087
controls post-processing as in equation (13),
Figure 00000079
calculated for a fixed number of values
Figure 00000074
, for example, corresponding to 18, 12 and 6 dB of relative gain
Figure 00000045
.

Таким образом, отображение

Figure 00000083
аппроксимируется, и
Figure 00000088
может быть выбрано.So the display
Figure 00000083
is approximated, and
Figure 00000088
can be chosen.

Подводя итог, в варианте осуществления процессор 130 сигналов, например, может быть сконфигурирован для формирования отделенного аудиосигнала посредством определения первой версии отделенного аудиосигнала и посредством изменения отделенного аудиосигнала один или несколько раз для получения одной или нескольких промежуточных версий отделенного аудиосигнала. Модуль 120 определения, например, может быть сконфигурирован для изменения значения качества звука в зависимости от одного из одного или нескольких промежуточных значений отделенного аудиосигнала. Процессор 130 сигналов, например, может быть сконфигурирован для прекращения изменения отделенного аудиосигнала, если значение качества звука больше или равно заданному значению качества.To summarize, in an embodiment, the signal processor 130, for example, may be configured to generate a separated audio signal by determining a first version of the separated audio signal and by changing the separated audio signal one or more times to obtain one or more intermediate versions of the separated audio signal. The determiner 120, for example, may be configured to change the sound quality value depending on one of one or more intermediate values of the separated audio signal. The signal processor 130, for example, may be configured to stop changing the separated audio signal if the audio quality value is greater than or equal to a predetermined quality value.

Фиг. 3 иллюстрирует устройство в соответствии с другим вариантом осуществления, в котором проводится прямая оценка параметров последующей обработки.Fig. 3 illustrates an apparatus according to another embodiment in which post-processing parameters are directly evaluated.

Сначала применяется отделение. Отделенные сигналы вводятся в модуль оценки параметра (Parameter Estimation Module, PEM). Оценочные параметры применяются для управления последующей обработкой. PEM был обучен непосредственно оценивать p(n) на основе отделенного сигнала

Figure 00000015
и входного сигнала
Figure 00000002
. Это означает, что операция в уравнении 14 перемещена в фазу обучения, и регрессионный метод обучается оценивать
Figure 00000089
вместо
Figure 00000079
. Следовательно, производится обучение следующей функции.Separation is applied first. The separated signals are input to a Parameter Estimation Module (PEM). Estimated parameters are used to control post-processing. The PEM was trained to directly estimate p(n) based on the separated signal
Figure 00000015
and input signal
Figure 00000002
. This means that the operation in Equation 14 is moved to the learning phase and the regression method is trained to evaluate
Figure 00000089
instead of
Figure 00000079
. Therefore, the next function is trained.

Figure 00000090
(15).
Figure 00000090
(fifteen).

Очевидно, что эта процедура имеет преимущество в том, что требует меньше вычислений, в отличие от описанной выше процедуры. Это достигается за счет меньшей гибкости, поскольку модель обучается для фиксированной настройки

Figure 00000068
. Однако несколько моделей могут быть обучены на разных значениях
Figure 00000068
. Таким образом, окончательная гибкость в выборе
Figure 00000068
может быть сохранена.Obviously, this procedure has the advantage of requiring less computation than the procedure described above. This comes at the cost of less flexibility as the model is trained for a fixed setting.
Figure 00000068
. However, multiple models can be trained on different values
Figure 00000068
. So the ultimate flexibility in choosing
Figure 00000068
can be saved.

В варианте осуществления процессор сигналов 130, например, может быть сконфигурирован для формирования отделенного аудиосигнала в зависимости от одного или нескольких значений параметров и в зависимости от последующей обработки оцененного целевого сигнала.In an embodiment, signal processor 130, for example, may be configured to generate a separated audio signal depending on one or more parameter values and depending on subsequent processing of the estimated target signal.

Фиг. 4 иллюстрирует устройство в соответствии с дополнительным вариантом осуществления, в котором проводятся оценка качества звука и вторичное отделение.Fig. 4 illustrates an apparatus according to a further embodiment in which sound quality evaluation and secondary separation are performed.

Сначала применяется отделение. Отделенные сигналы вводятся в QEM. Оценочные компоненты качества звука используются для вычисления набора параметров для управления вторичным отделением. Во вторичное отделение

Figure 00000091
вводятся либо входной сигнал
Figure 00000002
, либо результат первого отделения
Figure 00000015
, линейная комбинация обоих
Figure 00000092
, где
Figure 00000029
и
Figure 00000093
являются весовыми коэффициентами, или промежуточный результат из первого отделения.Separation is applied first. The separated signals are entered into QEM. The estimated audio quality components are used to calculate a set of parameters for controlling the secondary compartment. To the secondary department
Figure 00000091
input or input signal
Figure 00000002
, or the result of the first division
Figure 00000015
, a linear combination of both
Figure 00000092
, where
Figure 00000029
and
Figure 00000093
are the weights, or the intermediate result from the first division.

Таким образом, в таком варианте осуществления процессор 130 сигналов, например, может быть сконфигурирован для формирования отделенного аудиосигнала в зависимости от одного или нескольких значений параметров и в зависимости от линейной комбинации оцененного целевого сигнала и входного аудиосигнала, или процессор 130 сигналов, например, может быть сконфигурирован для формирования отделенного аудиосигнала в зависимости от одного или нескольких значений параметров и в зависимости от линейной комбинации оцененного целевого сигнала и оцененного разностного сигнала.Thus, in such an embodiment, the signal processor 130, for example, may be configured to generate a separated audio signal depending on one or more parameter values and depending on the linear combination of the estimated target signal and the input audio signal, or the signal processor 130, for example, may be configured to generate a separated audio signal depending on one or more parameter values and depending on a linear combination of the estimated target signal and the estimated difference signal.

Подходящими параметрами для управления вторичным отделением являются, например, параметры, которые модифицируют спектральные весовые коэффициенты.Suitable parameters for controlling the secondary compartment are, for example, parameters that modify the spectral weights.

На фиг. 5 показано устройство в соответствии с другим вариантом осуществления, в котором проводится прямая оценка параметров отделения.In FIG. 5 shows an apparatus according to another embodiment in which separation parameters are directly evaluated.

Сначала применяется отделение. Отделенные сигналы вводятся в PEM. Оценочные параметры управляют вторичным отделением.Separation is applied first. The separated signals are entered into the PEM. Estimated parameters control the secondary branch.

Во вторичное отделение z(n) вводятся либо входной сигнал x(n), либо результат первого отделения

Figure 00000015
, линейная комбинация обоих
Figure 00000092
, где
Figure 00000029
и
Figure 00000093
являются весовыми коэффициентами, или промежуточный результат из первого отделения.Either the input signal x(n) or the result of the first branch are entered into the secondary branch z(n)
Figure 00000015
, a linear combination of both
Figure 00000092
, where
Figure 00000029
and
Figure 00000093
are the weights, or the intermediate result from the first division.

Например, выполняется управление следующими параметрами:

Figure 00000029
, и
Figure 00000030
из уравнений (5), (6) и
Figure 00000094
, как описано выше.For example, the following parameters are controlled:
Figure 00000029
, and
Figure 00000030
from equations (5), (6) and
Figure 00000094
as described above.

Что касается итерационной обработки в соответствии с вариантами осуществления, фиг. 4 и 5 изображают итерационную обработку с одной итерацией. В общем случае она может быть повторена несколько раз и реализована в цикле.With respect to iterative processing according to the embodiments, FIG. 4 and 5 show iterative processing with one iteration. In the general case, it can be repeated several times and implemented in a loop.

Итерационная обработка (без промежуточной оценки качества) очень похожа на другие предыдущие способы, которые выполняют конкатенацию нескольких отделений.Iterative processing (without intermediate quality evaluation) is very similar to other previous methods that perform the concatenation of several branches.

Такой подход, например, может подойти для объединения нескольких разных способов (что лучше, чем повторение одного способа).This approach, for example, may be suitable for combining several different ways (which is better than repeating one way).

Хотя некоторые аспекты были описаны в контексте устройства, ясно, что эти аспекты также представляют собой описание соответствующего способа, в котором модуль или устройство соответствуют этапу способа или признаку этапа способа. Аналогичным образом, аспекты, описанные в контексте этапа способа, также представляют собой описание соответствующего модуля, элемента или признака соответствующего устройства. Некоторые или все этапы способа могут быть исполнены посредством (или с использованием) аппаратного устройства, такого как, например, микропроцессор, программируемый компьютер или электронная схема. В некоторых вариантах осуществления один или несколько из наиболее важных этапов способа могут быть исполнены таким устройством.Although some aspects have been described in the context of a device, it is clear that these aspects are also a description of the corresponding method, in which the module or device corresponds to a method step or a feature of a method step. Likewise, aspects described in the context of a method step are also descriptions of the respective module, element, or feature of the respective device. Some or all of the steps of the method may be executed by (or using) a hardware device such as, for example, a microprocessor, a programmable computer, or an electronic circuit. In some embodiments, one or more of the most important steps of the method may be performed by such a device.

В зависимости от некоторых требований реализации варианты осуществления изобретения могут быть реализованы в аппаратном или программном обеспечении, по меньшей мере частично в аппаратном обеспечении или по меньшей мере частично в программном обеспечении. Реализация может быть выполнена с использованием цифрового запоминающего носителя, например, дискеты, цифрового универсального диска (DVD), диска Blu-Ray, компакт-диска (CD), постоянного запоминающего устройства (ПЗУ; ROM), программируемого постоянного запоминающего устройства (ППЗУ; PROM), стираемого программируемого постоянного запоминающего устройства (СППЗУ; EPROM), электрически стираемого программируемого постоянного запоминающего устройства (ЭСППЗУ; EEPROM) и флэш-памяти, имеющего сохраненные на нем считываемые в электронном виде сигналы, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой, в результате чего выполняется соответствующий способ. Таким образом, цифровой запоминающий носитель может являться машиночитаемым.Depending on some implementation requirements, embodiments of the invention may be implemented in hardware or software, at least partially in hardware, or at least partially in software. Implementation can be done using digital storage media such as floppy disk, digital versatile disk (DVD), Blu-ray disc, compact disc (CD), read only memory (ROM; ROM), programmable read only memory (PROM; PROM). ), erasable programmable read-only memory (EPROM), electrically erasable programmable read-only memory (EEPROM), and flash memory having electronically readable signals stored thereon that interact (or are capable of interacting) with a programmable computer system. , resulting in the corresponding method being executed. Thus, the digital storage medium can be computer readable.

Некоторые варианты осуществления в соответствии с изобретением содержат носитель данных, имеющий читаемые в электронном виде управляющие сигналы, которые способны взаимодействовать с программируемой компьютерной системой, в результате чего выполняется один из способов, описанных в настоящем документе.Some embodiments in accordance with the invention include a storage medium having electronically readable control signals that are capable of interacting with a programmable computer system, resulting in one of the methods described herein.

Обычно варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, причем программный код выполняет один из способов, когда компьютерный программный продукт исполняется на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.Typically, embodiments of the present invention may be implemented as a computer program product with program code, the program code performing one of the methods when the computer program product is executed on the computer. The program code may, for example, be stored on a computer-readable medium.

Другие варианты осуществления содержат компьютерную программу для выполнения одного из описанных в настоящем документе способов, сохраненную на машиночитаемом носителе.Other embodiments include a computer program for performing one of the methods described herein, stored on a computer-readable medium.

Другими словами, вариант осуществления способа изобретения, таким образом, представляет собой компьютерную программу, имеющую программный код для выполнения одного из описанных здесь способов, когда компьютерная программа выполняется на компьютере.In other words, an embodiment of the method of the invention is thus a computer program having program code for performing one of the methods described herein when the computer program is executed on a computer.

Дополнительным вариантом осуществления способов изобретения, таким образом, является носитель данных (или цифровой запоминающий носитель, или машиночитаемый носитель), содержащий записанную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Носитель данных, цифровой запоминающий носитель или носитель с записанными данными обычно являются материальными и/или непереходными носителями.An additional embodiment of the methods of the invention, therefore, is a storage medium (or digital storage medium, or computer-readable medium) containing a computer program recorded thereon for performing one of the methods described herein. The storage medium, digital storage medium, or recorded data medium is typically a tangible and/or non-transitory medium.

Дополнительным вариантом осуществления способа настоящего изобретения, таким образом, являются поток данных или последовательность сигналов, представляющие компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Поток данных или последовательность сигналов, например, могут быть сконфигурированы для переноса через соединение передачи данных, например, через интернет.An additional embodiment of the method of the present invention is thus a data stream or signal sequence representing a computer program for performing one of the methods described herein. The data stream or signal sequence, for example, may be configured to be carried over a data connection, such as over the Internet.

Дополнительный вариант осуществления содержит средство обработки, например, компьютер или программируемое логическое устройство, сконфигурированное или адаптированное для выполнения одного из способов, описанных в настоящем документе.An additional embodiment comprises a processing means, such as a computer or programmable logic device, configured or adapted to perform one of the methods described herein.

Дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе.An additional embodiment comprises a computer having a computer program installed thereon for performing one of the methods described herein.

Дополнительный вариант осуществления в соответствии с изобретением содержит устройство или систему, сконфигурированную для переноса на приемник (например, в электронном или оптическом виде) компьютерной программы для выполнения одного из способов, описанных в настоящем документе. Приемник, например, может являться компьютером, мобильным устройством, запоминающим устройством и т.п. Устройство или система, например, могут содержать файловый сервер для переноса компьютерной программы на приемник.An additional embodiment in accordance with the invention comprises an apparatus or system configured to transfer to a receiver (eg, electronically or optically) a computer program to perform one of the methods described herein. The receiver, for example, may be a computer, a mobile device, a storage device, or the like. The device or system, for example, may include a file server for transferring a computer program to the receiver.

В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторой или всей функциональности способов, описанных в настоящем документе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для выполнения одного из способов, описанных в настоящем документе. Обычно способы предпочтительно выполняются любым аппаратным устройством.In some embodiments, a programmable logic device (eg, a field programmable gate array) may be used to perform some or all of the functionality of the methods described herein. In some embodiments, a user-programmable gate array may interface with a microprocessor to perform one of the methods described herein. In general, the methods are preferably performed by any hardware device.

Устройство, описанное в настоящем документе, может быть реализовано с использованием аппаратного устройства, с использованием компьютера или с использованием комбинации аппаратного устройства и компьютера.The apparatus described herein may be implemented using a hardware device, using a computer, or using a combination of a hardware device and a computer.

Способы, описанные в настоящем документе, могут быть выполнены с использованием аппаратного устройства, с использованием компьютера или с использованием комбинации аппаратного устройства и компьютера.The methods described herein may be performed using a hardware device, using a computer, or using a combination of a hardware device and a computer.

Описанные выше варианты осуществления являются лишь иллюстрацией принципов настоящего изобретения. Подразумевается, что модификации и вариации размещений и подробностей, описанных в настоящем документе, будут очевидны для других специалистов в данной области техники. Таким образом, подразумевается, что изобретение ограничено только объемом последующей патентной формулы изобретения, а не конкретными подробностями, представленными посредством описания и разъяснения изложенных в настоящем документе вариантов осуществления.The embodiments described above are merely illustrative of the principles of the present invention. It is intended that modifications and variations of the arrangements and details described herein will be apparent to others skilled in the art. Thus, the invention is intended to be limited only by the scope of the following patent claims and not by the specific details provided by way of the description and explanation of the embodiments set forth herein.

ЛитератураLiterature

[1] E. Vincent, R. Gribonval, and C. Fйvotte, “Performance measurement in blind audio source separation,” IEEE Transactions on Audio, Speech and Language Processing, vol. 14, no. 4, pp. 1462-1469, 2006.[1] E. Vincent, R. Gribonval, and C. Févotte, “Performance measurement in blind audio source separation,” IEEE Transactions on Audio, Speech and Language Processing, vol. 14, no. 4, pp. 1462-1469, 2006.

[2] V. Emiya, E. Vincent, N. Harlander, and V. Hohmann, “Subjective and objective quality assessment of audio source separation,” IEEE Trans. Audio, Speech and Language Process., vol. 19, no. 7, 2011.[2] V. Emiya, E. Vincent, N. Harlander, and V. Hohmann, “Subjective and objective quality assessment of audio source separation,” IEEE Trans. Audio, Speech and Language Process., vol. 19, no. 7, 2011.

[3] R. Huber and B. Kollmeier, “PEMO-Q - a new method for objective audio quality assessment using a model of audatory perception,” IEEE Trans. Audio, Speech and Language Process., vol. 14, 2006.[3] R. Huber and B. Kollmeier, “PEMO-Q - a new method for objective audio quality assessment using a model of audatory perception,” IEEE Trans. Audio, Speech and Language Process., vol. 14, 2006.

[4] ITU-R Rec. BS.1387-1, “Method for objective measurements of perceived audio quality,” 2001.[4] ITU-R Rec. BS.1387-1, “Method for objective measurements of perceived audio quality,” 2001.

[5] ITU-T Rec. P.862, “Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs,” 2001.[5] ITU-T Rec. P.862, “Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs,” 2001.

[6] ITU-T Rec. P.862.1, “Mapping function for transforming P.862 raw results scores to MOS-LQO,” 2003.[6] ITU-T Rec. P.862.1, “Mapping function for transforming P.862 raw results scores to MOS-LQO,” 2003.

[7] A. Hines, E. Gillen et al., “ViSQOLAudio: An Objective Audio Quality Metric for Low Bitrate Codecs,” J. Acoust. Soc. Am., vol. 137, no. 6, 2015.[7] A. Hines, E. Gillen et al., “ViSQOLAudio: An Objective Audio Quality Metric for Low Bitrate Codecs,” J. Acoust. soc. Am., vol. 137, no. 6, 2015.

[8] J. M. Kates and K. H. Arehart, “The Hearing-Aid Audio Quality Index (HAAQI),” IEEE Trans. Audio, Speech and Language Process., vol. 24, no. 2, 2016, evaluation code kindly provided by Prof. J.M. Kates.[8] J. M. Kates and K. H. Arehart, “The Hearing-Aid Audio Quality Index (HAAQI),” IEEE Trans. Audio, Speech and Language Process., vol. 24, no. 2, 2016, evaluation code kindly provided by Prof. J.M. Kates.

[9] J. M. Kates and K. H. Arehart, “The Hearing-Aid Speech Quality Index (HASQI) version 2,” Journal of the Audio Engineering Society, vol. 62, no. 3, pp. 99-117, 2014.[9] J. M. Kates and K. H. Arehart, “The Hearing-Aid Speech Quality Index (HASQI) version 2,” Journal of the Audio Engineering Society, vol. 62, no. 3, pp. 99-117, 2014.

[10] J. M. Kates and K. H. Arehart, “The Hearing-Aid Speech Perception Index (HASPI),” Speech Communication, vol. 65, pp. 75-93, 2014.[10] J. M. Kates and K. H. Arehart, “The Hearing-Aid Speech Perception Index (HASPI),” Speech Communication, vol. 65, pp. 75-93, 2014.

[11] C. Taal, R. Hendriks, R. Heusdens, and J. Jensen, “An algorithm for intelligibility prediction of time-frequency weighted noisy speech,” IEEE Trans. Audio, Speech and Language Process., vol. 19, no. 7, 2011.[11] C. Taal, R. Hendriks, R. Heusdens, and J. Jensen, “An algorithm for intelligibility prediction of time-frequency weighted noisy speech,” IEEE Trans. Audio, Speech and Language Process., vol. 19, no. 7, 2011.

[12] E. Manilow, P. Seetharaman, F. Pishdadian, and B. Pardo, “Predicting algorithm efficacy for adaptive multi-cue source separation,” in Applications of Signal Processing to Audio and Acoustics (WASPAA), 2017 IEEE Workshop on, 2017, pp. 274-278.[12] E. Manilow, P. Seetharaman, F. Pishdadian, and B. Pardo, “Predicting algorithm efficacy for adaptive multi-cue source separation,” in Applications of Signal Processing to Audio and Acoustics (WASPAA), 2017 IEEE Workshop on , 2017, pp. 274-278.

[13] M. Cartwright, B. Pardo, G. J. Mysore, and M. Hoffman, “Fast and easy crowdsourced perceptual audio evaluation,” in Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on, 2016.[13] M. Cartwright, B. Pardo, G. J. Mysore, and M. Hoffman, “Fast and easy crowdsourced perceptual audio evaluation,” in Acoustics, Speech and Signal Processing (ICASSP), 2016 IEEE International Conference on, 2016.

[14] S.-W. Fu, T.-W. Wang, Y. Tsao, X. Lu, and H. Kawai, “End-to-end waveform utterance enhancement for direct evaluation metrics optimization by fully convolutional neural networks,” IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), vol. 26, no. 9, 2018.[14] S.-W. Fu, T.-W. Wang, Y. Tsao, X. Lu, and H. Kawai, “End-to-end waveform utterance enhancement for direct evaluation metrics optimization by fully convolutional neural networks,” IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP) , vol. 26, no. 9, 2018.

[15] Y. Koizumi, K. Niwa, Y. Hioka, K. Koabayashi, and Y. Haneda, “Dnn-based source enhancement to increase objective sound quality assessment score,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018.[15] Y. Koizumi, K. Niwa, Y. Hioka, K. Koabayashi, and Y. Haneda, “Dnn-based source enhancement to increase objective sound quality assessment score,” IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2018.

[16] Y. Zhao, B. Xu, R. Giri, and T. Zhang, “Perceptually guided speech enhancement using deep neural networks,” in Acoustics, Speech and Signal Processing (ICASSP), 2018 IEEE International Conference on, 2018.[16] Y. Zhao, B. Xu, R. Giri, and T. Zhang, “Perceptually guided speech enhancement using deep neural networks,” in Acoustics, Speech and Signal Processing (ICASSP), 2018 IEEE International Conference on, 2018.

[17] Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda, “Dnn-based source enhancement self-optimized by reinforcement learning using sound quality measurements,” in Acoustics, Speech and Signal Processing (ICASSP), 2017 IEEE International Conference on, 2017.[17] Y. Koizumi, K. Niwa, Y. Hioka, K. Kobayashi, and Y. Haneda, “Dnn-based source enhancement self-optimized by reinforcement learning using sound quality measurements,” in Acoustics, Speech and Signal Processing ( ICASSP), 2017 IEEE International Conference on, 2017.

[18] J. Jensen and M. S. Pedersen, “Audio processing device comprising artifact reduction,” US Patent US 9,432,766 B2, Aug. 30, 2016.[18] J. Jensen and M. S. Pedersen, “Audio processing device comprising artifact reduction,” US Patent US 9,432,766 B2, Aug. 30, 2016.

Claims (63)

1. Устройство для формирования отделенного аудиосигнала из входного аудиосигнала, причем входной аудиосигнал содержит участок целевого аудиосигнала и участок разностного аудиосигнала, причем участок разностного аудиосигнала указывает разность между входным аудиосигналом и участком целевого аудиосигнала, причем устройство содержит:1. A device for generating a separated audio signal from an input audio signal, the input audio signal comprising a target audio signal section and a difference audio signal section, the difference audio signal section indicating a difference between the input audio signal and the target audio signal section, the device comprising: разделитель (110) источника для определения оцененного целевого сигнала, который зависит от входного аудиосигнала, причем оцененный целевой сигнал является оценкой сигнала, который содержит только участок целевого аудиосигнала,a source separator (110) for determining an estimated target signal that depends on the input audio signal, wherein the estimated target signal is an estimate of a signal that contains only a portion of the target audio signal, модуль (120) определения, причем модуль (120) определения выполнен с возможностью определять одно или несколько результирующих значений в зависимости от оцененного качества звука оцененного целевого сигнала, чтобы получить одно или несколько значений параметров, причем одно или несколько значений параметров представляют собой одно или несколько результирующих значений или зависят от одного или нескольких результирующих значений, иdetermination module (120), wherein the determination module (120) is configured to determine one or more resulting values depending on the estimated sound quality of the estimated target signal to obtain one or more parameter values, wherein one or more parameter values are one or more result values or depend on one or more result values, and процессор (130) сигналов для формирования отделенного аудиосигнала в зависимости от одного или нескольких значений параметров и в зависимости по меньшей мере от одного из оцененного целевого сигнала, и входного аудиосигнала, и оцененного разностного сигнала, причем оцененный разностный сигнал является оценкой сигнала, который содержит только участок разностного аудиосигнала,a signal processor (130) for generating a separated audio signal depending on one or more parameter values and depending on at least one of the estimated target signal, and the input audio signal, and the estimated difference signal, where the estimated difference signal is an estimate of a signal that contains only section of the difference audio signal, причем процессор (130) сигналов выполнен с возможностью формировать отделенный аудиосигнал в зависимости от одного или нескольких значений параметров и в зависимости от линейной комбинации оцененного целевого сигнала и входного аудиосигнала, илиwherein the signal processor (130) is configured to generate a separated audio signal depending on one or more parameter values and depending on a linear combination of the estimated target signal and the input audio signal, or при этом процессор (130) сигналов выполнен с возможностью формировать отделенный аудиосигнал в зависимости от одного или нескольких значений параметров и в зависимости от линейной комбинации оцененного целевого сигнала и оцененного разностного сигнала.wherein the signal processor (130) is configured to generate a separated audio signal depending on one or more parameter values and depending on a linear combination of the estimated target signal and the estimated difference signal. 2. Устройство по п. 1,2. The device according to claim 1, в котором модуль (120) определения выполнен с возможностью определять, в зависимости от оцененного качества звука оцененного целевого сигнала, управляющий параметр как одно или несколько значений параметров, иin which the determining module (120) is configured to determine, depending on the estimated sound quality of the estimated target signal, the control parameter as one or more parameter values, and в котором процессор сигналов выполнен с возможностью определять отделенный аудиосигнал в зависимости от управляющего параметра и в зависимости по меньшей мере от одного из оцененного целевого сигнала, и входного аудиосигнала, и оцененного разностного сигнала.wherein the signal processor is configured to determine the separated audio signal depending on the control parameter and depending on at least one of the estimated target signal and the input audio signal and the estimated difference signal. 3. Устройство по п. 2,3. Device according to claim 2, в котором процессор (130) сигналов выполнен с возможностью определять отделенный аудиосигнал в зависимости от:wherein the signal processor (130) is configured to determine the separated audio signal depending on:
Figure 00000095
,
Figure 00000095
,
или в зависимости от:or depending on:
Figure 00000096
,
Figure 00000096
,
где
Figure 00000097
- отделенный аудиосигнал,
where
Figure 00000097
- separated audio signal,
где
Figure 00000098
- оцененный целевой сигнал,
where
Figure 00000098
- estimated target signal,
где
Figure 00000099
- входной аудиосигнал,
where
Figure 00000099
- input audio signal,
где
Figure 00000100
- оцененный разностный сигнал,
where
Figure 00000100
is the estimated difference signal,
где
Figure 00000101
- управляющий параметр, и
where
Figure 00000101
is the control parameter, and
где
Figure 00000102
- индекс.
where
Figure 00000102
- index.
4. Устройство по п. 2,4. Device according to claim 2, в котором модуль (120) определения выполнен с возможностью оценивать, в зависимости по меньшей мере от одного из оцененного целевого сигнала, и входного аудиосигнала, и оцененного разностного сигнала, значение качества звука как одно или несколько результирующих значений, причем значение качества звука указывает оцененное качество звука оцененного целевого сигнала, иin which the determining module (120) is configured to evaluate, depending on at least one of the estimated target signal, and the input audio signal, and the estimated difference signal, the sound quality value as one or more result values, and the sound quality value indicates the estimated quality the sound of the estimated target signal, and в котором модуль (120) определения выполнен с возможностью определять одно или несколько значений параметров в зависимости от значения качества звука.wherein the determination module (120) is configured to determine one or more parameter values depending on the sound quality value. 5. Устройство по п. 4,5. The device according to claim 4, в котором процессор (130) сигналов выполнен с возможностью формировать отделенный аудиосигнал посредством определения первой версии отделенного аудиосигнала и посредством изменения отделенного аудиосигнала один или несколько раз для получения одной или нескольких промежуточных версий отделенного аудиосигнала,wherein the signal processor (130) is configured to generate a separated audio signal by determining a first version of the separated audio signal and by changing the separated audio signal one or more times to obtain one or more intermediate versions of the separated audio signal, в котором модуль (120) определения выполнен с возможностью изменять значение качества звука в зависимости от одного из одного или нескольких промежуточных значений отделенного аудиосигнала, иin which the determination module (120) is configured to change the sound quality value depending on one of one or more intermediate values of the separated audio signal, and в котором процессор (130) сигналов выполнен с возможностью прекращать изменение отделенного аудиосигнала, если значение качества звука больше или равно заданному значению качества.wherein the signal processor (130) is configured to stop changing the separated audio signal if the sound quality value is greater than or equal to the predetermined quality value. 6. Устройство по п. 1,6. Device according to claim 1, в котором модуль (120) определения выполнен с возможностью определять одно или несколько результирующих значений в зависимости от оцененного целевого сигнала и в зависимости по меньшей мере от одного из входного аудиосигнала и оцененного разностного сигнала.wherein the determining module (120) is configured to determine one or more result values depending on the estimated target signal and depending on at least one of the input audio signal and the estimated difference signal. 7. Устройство по п. 1,7. The device according to claim 1, в котором модуль (120) определения содержит искусственную нейронную сеть (125) для определения одного или нескольких результирующих значений в зависимости от оцененного целевого сигнала, причем искусственная нейронная сеть (125) выполнена с возможностью принимать множество входных значений, каждое из множества входных значений зависит по меньшей мере от одного из оцененного целевого сигнала, и оцененного разностного сигнала, и входного аудиосигнала, и причем искусственная нейронная сеть (125) выполнена с возможностью определять одно или несколько результирующих значений как одно или несколько выходных значений искусственной нейронной сети (125).in which the determination module (120) contains an artificial neural network (125) to determine one or more resulting values depending on the estimated target signal, and the artificial neural network (125) is configured to receive a plurality of input values, each of the plurality of input values depends on from at least one of the estimated target signal, and the estimated difference signal, and the input audio signal, and wherein the artificial neural network (125) is configured to determine one or more resulting values as one or more output values of the artificial neural network (125). 8. Устройство по п. 7,8. Device according to claim 7, в котором каждое из множества входных значений зависит по меньшей мере от одного из оцененного целевого сигнала, и оцененного разностного сигнала, и входного аудиосигнала, иwherein each of the plurality of input values depends on at least one of the estimated target signal and the estimated difference signal and the input audio signal, and в котором одно или несколько результирующих значений указывают оцененное качество звука оцененного целевого сигнала.in which one or more result values indicate the estimated audio quality of the estimated target signal. 9. Устройство по п. 7,9. The device according to claim 7, в котором каждое множество входных значений зависит по меньшей мере от одного из оцененного целевого сигнала, и оцененного разностного сигнала, и от входного аудиосигнала, иwherein each set of input values depends on at least one of the estimated target signal and the estimated difference signal and the input audio signal, and в котором одно или несколько результирующих значений представляют собой одно или несколько значений параметров.in which one or more result values are one or more parameter values. 10. Устройство по п. 7,10. Device according to claim 7, в котором искусственная нейронная сеть (125) выполнена с возможностью обучаться посредством приема множества наборов обучающих данных, причем каждый из множества наборов обучающих данных содержит множество входных обучающих значений искусственной нейронной сети (125) и одно или несколько выходных обучающих значений искусственной нейронной сети (125), причем каждое из множества выходных обучающих значений зависит по меньшей мере от одного из обучающего целевого сигнала, и обучающего разностного сигнала, и обучающего входного сигнала, причем каждое из одного или нескольких выходных обучающих значений зависит от оценки качества звука обучающего целевого сигнала.wherein the artificial neural network (125) is configured to learn by receiving a plurality of training data sets, each of the plurality of training data sets comprising a plurality of artificial neural network (125) input training values and one or more artificial neural network (125) output training values , wherein each of the plurality of training output values depends on at least one of the training target signal, and the training difference signal, and the training input signal, with each of the one or more training output values dependent on the audio quality estimate of the training target signal. 11. Устройство по п. 10,11. The device according to claim 10, в котором оценка качества звука обучающего целевого сигнала зависит от одной или нескольких вычислительных моделей качества звука.wherein the estimate of the sound quality of the training target signal depends on one or more computational sound quality models. 12. Устройство по п. 11,12. Device according to claim 11, в котором одна или несколько вычислительных моделей качества звука являются по меньшей мере одной из следующих моделей:wherein one or more computational sound quality models are at least one of the following models: оценка слепого отделения источников,Blind Source Separation Evaluation, способы оценки восприятия для отделения источников аудио,methods of perceptual evaluation for separating audio sources, оценка восприятия качества аудио,audio quality perception evaluation, оценка восприятия качества речи,assessment of perception of speech quality, аудио с виртуальным объективным слушателем качества речи,audio with speech quality virtual objective listener, индекс качества аудио слухового аппарата,hearing aid audio quality index, индекс качества речи слухового аппарата,hearing aid speech quality index, индекс восприятия речи слухового аппарата, иhearing aid speech perception index, and кратковременная объективная разборчивость.short-term objective intelligibility. 13. Устройство по п. 7,13. The device according to claim 7, в котором искусственная нейронная сеть (125) выполнена с возможностью определять одно или несколько результирующих значений в зависимости от оцененного целевого сигнала и в зависимости по меньшей мере от одного из входного аудиосигнала и оцененного разностного сигнала.wherein the artificial neural network (125) is configured to determine one or more result values depending on the estimated target signal and depending on at least one of the input audio signal and the estimated difference signal. 14. Устройство по п. 1,14. Device according to claim 1, в котором процессор (130) сигналов выполнен с возможностью формировать отделенный аудиосигнал в зависимости от одного или нескольких значений параметров и в зависимости от последующей обработки оцененного целевого сигнала.wherein the signal processor (130) is configured to generate a separated audio signal depending on one or more parameter values and depending on subsequent processing of the estimated target signal. 15. Способ формирования отделенного аудиосигнала из входного аудиосигнала, причем входной аудиосигнал содержит участок целевого аудиосигнала и участок разностного аудиосигнала, причем участок разностного аудиосигнала указывает разность между входным аудиосигналом и участком целевого аудиосигнала, причем способ содержит этапы, на которых:15. A method for generating a separated audio signal from an input audio signal, the input audio signal comprising a target audio signal portion and a difference audio signal portion, the difference audio signal portion indicating a difference between the input audio signal and the target audio signal portion, the method comprising: определяют оцененный целевой сигнал, который зависит от входного аудиосигнала, причем оцененный целевой сигнал является оценкой сигнала, который содержит только участок целевого аудиосигнала,determining an estimated target signal that depends on the input audio signal, wherein the estimated target signal is an estimate of a signal that contains only a portion of the target audio signal, определяют одно или несколько результирующих значений в зависимости от оцененного качества звука оцененного целевого сигнала, чтобы получить одно или несколько значений параметров, причем одно или несколько значений параметров представляют собой одно или несколько результирующих значений или зависят от одного или нескольких результирующих значений, иdetermining one or more result values depending on the estimated audio quality of the estimated target signal to obtain one or more parameter values, where one or more parameter values are one or more result values or depend on one or more result values, and формируют отделенный аудиосигнал в зависимости от одного или нескольких значений параметров и в зависимости по меньшей мере от одного из оцененного целевого сигнала, и входного аудиосигнала, и оцененного разностного сигнала, причем оцененный разностный сигнал является оценкой сигнала, который содержит только участок разностного аудиосигнала,generating a separated audio signal depending on one or more parameter values and depending on at least one of the estimated target signal, and the input audio signal, and the estimated difference signal, wherein the estimated difference signal is an estimate of a signal that contains only a portion of the difference audio signal, причем формирование отделенного аудиосигнала проводят в зависимости от одного или нескольких значений параметров и в зависимости от линейной комбинации оцененного целевого сигнала и входного аудиосигнала; или moreover, the formation of the separated audio signal is carried out depending on one or more parameter values and depending on the linear combination of the estimated target signal and the input audio signal; or при этом формирование отделенного аудиосигнала проводят в зависимости от одного или нескольких значений параметров и в зависимости от линейной комбинации оцененного целевого сигнала и оцененного разностного сигнала.wherein the formation of the separated audio signal is carried out depending on one or more parameter values and depending on the linear combination of the estimated target signal and the estimated difference signal. 16. Машиночитаемый носитель, содержащий программный код для выполнения способа по п. 15 при его исполнении на процессоре компьютера или процессоре сигналов. 16. A computer-readable medium containing program code for performing the method of claim 15 when executed on a computer processor or signal processor.
RU2021121442A 2018-12-21 2019-12-20 Apparatus and method for isolating sources using sound quality assessment and control RU2782364C1 (en)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP18215707.3 2018-12-21

Publications (1)

Publication Number Publication Date
RU2782364C1 true RU2782364C1 (en) 2022-10-26

Family

ID=

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020133333A1 (en) * 2001-01-24 2002-09-19 Masashi Ito Apparatus and program for separating a desired sound from a mixed input sound
US20050222840A1 (en) * 2004-03-12 2005-10-06 Paris Smaragdis Method and system for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution
RU2507608C2 (en) * 2008-08-05 2014-02-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Method and apparatus for processing audio signal for speech enhancement using required feature extraction function
US20150310875A1 (en) * 2013-01-08 2015-10-29 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improving speech intelligibility in background noise by amplification and compression
US20170251320A1 (en) * 2016-02-29 2017-08-31 Electronics And Telecommunications Research Institute Apparatus and method of creating multilingual audio content based on stereo audio signal

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020133333A1 (en) * 2001-01-24 2002-09-19 Masashi Ito Apparatus and program for separating a desired sound from a mixed input sound
US20050222840A1 (en) * 2004-03-12 2005-10-06 Paris Smaragdis Method and system for separating multiple sound sources from monophonic input with non-negative matrix factor deconvolution
RU2507608C2 (en) * 2008-08-05 2014-02-20 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Method and apparatus for processing audio signal for speech enhancement using required feature extraction function
US20150310875A1 (en) * 2013-01-08 2015-10-29 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for improving speech intelligibility in background noise by amplification and compression
US20170251320A1 (en) * 2016-02-29 2017-08-31 Electronics And Telecommunications Research Institute Apparatus and method of creating multilingual audio content based on stereo audio signal

Similar Documents

Publication Publication Date Title
KR102630449B1 (en) Source separation device and method using sound quality estimation and control
RU2507608C2 (en) Method and apparatus for processing audio signal for speech enhancement using required feature extraction function
JP5341983B2 (en) Method and apparatus for maintaining speech aurality in multi-channel audio with minimal impact on surround experience
JP5666023B2 (en) Apparatus and method for determining reverberation perception level, audio processor, and signal processing method
WO2011112382A1 (en) Method and system for scaling ducking of speech-relevant channels in multi-channel audio
Ma et al. Speech enhancement using a masking threshold constrained Kalman filter and its heuristic implementations
CN109979478A (en) Voice de-noising method and device, storage medium and electronic equipment
WO2019057847A1 (en) Signal processor and method for providing a processed audio signal reducing noise and reverberation
Braun et al. Effect of noise suppression losses on speech distortion and ASR performance
JP4551215B2 (en) How to perform auditory intelligibility analysis of speech
EP2943954B1 (en) Improving speech intelligibility in background noise by speech-intelligibility-dependent amplification
Kates Modeling the effects of single-microphone noise-suppression
US11224360B2 (en) Systems and methods for evaluating hearing health
Wang Speech enhancement in the modulation domain
RU2782364C1 (en) Apparatus and method for isolating sources using sound quality assessment and control
Li et al. Joint Noise Reduction and Listening Enhancement for Full-End Speech Enhancement
Pourmand et al. Computational auditory models in predicting noise reduction performance for wideband telephony applications
Langjahr et al. Objective quality assessment of target speaker separation performance in multisource reverberant environment
EP4350695A1 (en) Apparatus, methods and computer programs for audio signal enhancement using a dataset
Rustrana et al. Spectral Methods for Single Channel Speech Enhancement in Multi-Source Environment
Alghamdi Objective Methods for Speech Intelligibility Prediction
Rohdenburg et al. Subband-based parameter optimization in noise reduction schemes by means of objective perceptual quality measures
García Ruíz et al. The role of window length and shift in complex-domain DNN-based speech enhancement
Silva Comparison of Techniques with Speech Enhancement and Nonlinear Rectification for Robust Speaker Identificatio
Ljungquist Masking and Reconstructing Speech to Improve Intelligibility