RU2768514C2 - Процессор сигналов и способ обеспечения обработанного аудиосигнала с подавленным шумом и подавленной реверберацией - Google Patents

Процессор сигналов и способ обеспечения обработанного аудиосигнала с подавленным шумом и подавленной реверберацией Download PDF

Info

Publication number
RU2768514C2
RU2768514C2 RU2020113933A RU2020113933A RU2768514C2 RU 2768514 C2 RU2768514 C2 RU 2768514C2 RU 2020113933 A RU2020113933 A RU 2020113933A RU 2020113933 A RU2020113933 A RU 2020113933A RU 2768514 C2 RU2768514 C2 RU 2768514C2
Authority
RU
Russia
Prior art keywords
signal
noise
coefficients
reverberation
reverb
Prior art date
Application number
RU2020113933A
Other languages
English (en)
Other versions
RU2020113933A (ru
RU2020113933A3 (ru
Inventor
Себастьян БРАУН
Эмануэль ХАБЕТС
Original Assignee
Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. filed Critical Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф.
Publication of RU2020113933A publication Critical patent/RU2020113933A/ru
Publication of RU2020113933A3 publication Critical patent/RU2020113933A3/ru
Application granted granted Critical
Publication of RU2768514C2 publication Critical patent/RU2768514C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

Изобретение относится к области обработки аудиосигналов. Техническим результатом является обеспечение подавления шума и подавления реверберации для аудиосигналов. Раскрыт процессор сигналов для обеспечения одного или более обработанных аудиосигналов ((n);(n)) на основе одного или более входных аудиосигналов (y(n)), причем процессор сигналов выполнен с возможностью оценивать коэффициенты ((n)) авторегрессивной модели реверберации с использованием одного или более входных аудиосигналов и одного или более задержанных реверберирующих сигналов с подавленным шумом ((n)), полученных с использованием шумоподавления; и причем процессор сигналов выполнен с возможностью обеспечивать один или более реверберирующих сигналов с подавленным шумом ((n)) с использованием входного аудиосигнала и оценочных коэффициентов ((n)) авторегрессивной модели реверберации; и причем процессор сигналов выполнен с возможностью производить один или более выходных сигналов с подавленным шумом и с подавленной реверберацией ((n);(n)) с использованием одного или более реверберирующих сигналов с подавленным шумом ((n)) и оценочных коэффициентов ((n)) авторегрессивной модели реверберации. 3 н. и 23 з.п. ф-лы, 16 ил.

Description

Область техники
Варианты осуществления в соответствии с изобретением относятся к процессору сигналов для обеспечения обработанного аудиосигнала.
Дополнительные варианты осуществления в соответствии с изобретением относятся к способу обеспечения обработанного аудиосигнала.
Дополнительные варианты осуществления в соответствии с изобретением относятся к компьютерной программе для выполнения упомянутых способов.
Варианты осуществления в соответствии с изобретением относятся к способу и устройству для онлайнового подавления реверберации и шума (например, с использованием параллельной структуры) с управлением подавлением.
Дополнительные варианты осуществления в соответствии с изобретением относятся к онлайновому подавлению реверберации и шума на основе линейного предсказания с использованием чередующихся фильтров Калмана.
Варианты осуществления в соответствии с изобретением относятся к процессору сигналов, способу и компьютерной программе для подавления шума и реверберации.
Уровень техники
Обработка аудиосигналов, речевая связь и передача аудиоинформации являются непрерывно развивающимися областями техники. Однако при обработке аудиосигналов шум и реверберация часто ухудшают качество звука.
Например, в сценариях речевой связи на большом расстоянии, когда требуемый источник речи находится далеко от устройства захвата, качество и разборчивость речи обычно ухудшаются вследствие высокого уровня реверберации и шума по сравнению с требуемым уровнем речевого сигнала.
Также рабочие характеристики устройств распознавания речи резко ухудшаются в сценариях разговора на большом расстоянии [15], [34].
Таким образом, подавление реверберации в шумных средах для покадровой обработки в реальном времени с высоким качеством восприятия остается сложной и частично нерешенной задачей.
Многоканальные алгоритмы подавления реверберации существующего уровня техники основаны на пространственно-спектральной фильтрации [2], [27], системной идентификации [25], [26], акустической инверсии канала [20], [22] или линейном предсказании с использованием авторегрессивной (AR) модели реверберации [21], [29], [32]. Успешное применение подходов на основе линейного предсказания было достигнуто посредством использования многоканальной авторегрессивной модели (MAR) для каждой частотной полосы в области оконного преобразования Фурье (STFT). Преимущества способов на основе модели MAR состоят в том, что они пригодны для нескольких источников, они непосредственно оценивают фильтр подавления реверберации конечной длины, требуемые фильтры являются относительно короткими, и они подходят в качестве методик предварительной обработки для алгоритмов формирования диаграммы направленности. Большой проблемой модели сигнала MAR является интеграция аддитивного шума, который должен быть удален заранее [30], [32], без разрушения отношений между соседними периодами времени реверберирующего сигнала. В [33] была представлена обобщенная структура для способов многоканального линейного предсказания, названная слепым сокращением импульсной характеристики, которая стремится сократить реверберирующий хвост в каждом микрофоне и приводит к такому же количеству выходных каналов, как и входных каналов, обеспечивая сохранность корреляции между микрофонами требуемого сигнала.
Поскольку первыми решениями на основе структуры многоканального линейного предсказания были пакетные алгоритмы, дополнительные усилия были приложены, чтобы разработать онлайновые алгоритмы, которые подходят для обработки в режиме реального времени [4, 12, 13, 31, 35]. Однако, насколько нам известно, подавление аддитивного шума в онлайновом решении было рассмотрено только в [31].
Принимая во внимание традиционные решения, существует потребность в концепции, которая обеспечивает улучшенный компромисс между сложностью, стабильностью и качеством сигнала, сокращая и шум, и реверберацию аудиосигнала.
Сущность изобретения
Вариант осуществления в соответствии с изобретением создает процессор сигналов для обеспечения обработанного аудиосигнала (например, аудиосигнала с подавленным шумом и с подавленной реверберацией, который может быть одноканальным или многоканальным аудиосигналом) (или, вообще говоря, одного или более обработанных аудиосигналов) на основе входного аудиосигнала (например, одноканального или многоканального входного аудиосигнала) (или, вообще говоря, на основе одного или более выходных аудиосигналов). Процессор сигналов выполнен с возможностью оценивать коэффициенты (например, многоканальной) авторегрессивной модели реверберации (например, коэффициенты AR или коэффициенты MAR) с использованием входного аудиосигнала (например, шумного и реверберирующего входного аудиосигнала или нескольких шумных и реверберирующих входных аудиосигналов, или непосредственно наблюдаемого сигнала y(n), который может происходить, например, от одного или более микрофонов) (или, вообще говоря, с использованием одного или более входных аудиосигналов) и (одного или более) задержанных реверберирующих сигналов с подавленным шумом, полученных с использованием шумоподавления (или стадии шумоподавления). Например, задержанный реверберирующий сигнал с подавленным шумом может содержать (один или более) прошлые реверберирующие сигналы с подавленным шумом, которые могут быть представлены как
Figure 00000001
. Например, оценка коэффициентов может быть выполнена посредством стадии оценки коэффициентов AR или стадии оценки коэффициентов MAR процессора сигналов.
Кроме того, процессор сигналов выполнен с возможностью обеспечивать реверберирующий сигнал с подавленным шумом (например, текущего кадра) (или, вообще говоря, один или более реверберирующих сигналов с подавленным шумом) с использованием входного аудиосигнала (который может являться шумным и реверберирующим входным аудиосигналом, или который может являться шумным наблюдаемым сигналом y(n) который может происходить от одного или более микрофонов) и оценочных коэффициентов авторегрессивной модели реверберации (которая может представлять собой многоканальную авторегрессивную модель реверберации) (и причем оценочные коэффициенты могут быть ассоциированы с текущим кадром и могут называться «коэффициентами MAR»). Кроме того, часть процессора сигналов, выполненную с возможностью обеспечивать реверберирующий сигнал с подавленным шумом, можно рассматривать как «стадию (или каскад) шумоподавления».
Кроме того, процессор аудиосигналов выполнен с возможностью обеспечивать выходной сигнал с подавленным шумом и с подавленной реверберацией (или, вообще говоря, один или несколько выходных сигналов с подавленным шумом и с подавленной реверберацией) с использованием (реверберирующего) сигнала с подавленным шумом (или, вообще говоря, одного или более реверберирующих сигналов с подавленным шумом) и оценочных коэффициентов авторегрессивной модели реверберации (или многоканальной авторегрессивной модели реверберации). Это может быть выполнено с использованием оценки реверберации и вычитания сигнала.
Этот вариант осуществления в соответствии с изобретением основан на том, что возможно преодолеть проблему причинной связи, которая обнаружена в некоторых традиционных решениях, посредством оценки коэффициентов авторегрессивной модели реверберации, ассоциированных с некоторым кадром, на основе задержанного реверберирующего сигнала с подавленным шумом, который может быть ассоциирован с одним или более предыдущими кадрами, и что возможно обеспечить реверберирующий сигнал с подавленным шумом текущего кадра с использованием входного аудиосигнала и оценочных коэффициенты авторегрессивной модели реверберации, ассоциированных с текущим кадром, и полученных на основе сигналов с подавленным шумом (и обычно реверберирующих) (например, обеспеченных посредством стадии шумоподавления), ассоциированных с одним или более предыдущими кадрами. В соответствии с этим вычислительная сложность может быть сохранена довольно малой, поскольку оценка коэффициентов авторегрессивной модели реверберации и оценка реверберирующего сигнала с подавленным шумом могут быть выполнены отдельно и с чередованием. Другими словами, раздельная оценка коэффициентов авторегрессивной модели реверберации и реверберирующего сигнала с подавленным шумом может быть выполнена более эффективно, чем совместная оценка коэффициентов авторегрессивной модели реверберации и реверберирующего сигнала с подавленным шумом, а также более эффективно, чем совместная оценка (с одним этапом) аудиосигнала с подавленным шумом и с подавленной реверберацией. Тем не менее, было обнаружено, что рассмотрение задержанных (или, эквивалентно, прошедших) реверберирующих сигналов с подавленным шумом, полученных с использованием шумоподавления при оценке коэффициентов авторегрессивной модели реверберации, приводит к довольно хорошей оценке коэффициентов авторегрессивной модели реверберации, в результате чего нет какого-либо серьезного ухудшения качества звука обработанного сигнала (выходного сигнала). В соответствии с этим возможно попеременно оценивать коэффициенты авторегрессивной модели реверберации и кадры реверберирующего сигнала с подавленным шумом, по-прежнему получая высокое качество звука.
Следовательно, компромисс между сложностью, стабильностью и качеством сигнала можно считать хорошим.
В предпочтительном варианте осуществления процессор сигналов выполнен с возможностью оценивать коэффициенты многоканальной авторегрессивной модели реверберации. Было обнаружено, что концепция, описанная в настоящем документе, хорошо подходит для обработки многоканальных сигналов и способствует конкретным улучшениям в сложности для таких многоканальных сигналов.
В предпочтительном варианте осуществления процессор сигналов выполнен с возможностью использовать оценочные коэффициенты авторегрессивной модели реверберации, ассоциированные с текущим обрабатываемым участком (например, с временным кадром, имеющим индекс кадра n) входного аудиосигнала, чтобы произвести реверберирующий сигнал с подавленным шумом, ассоциированный с текущим обрабатываемым участком (например, с периодом времени, имеющим индекс кадра n) входного аудиосигнала. В соответствии с этим обеспечение реверберирующего сигнала с подавленным шумом, ассоциированного с текущим обрабатываемым участком, может полагаться на предыдущую оценку коэффициентов авторегрессивной модели реверберации, ассоциированных с текущим обрабатываемым участком входного аудиосигнала, или оценка коэффициентов авторегрессивной модели реверберации, ассоциированных с текущим обрабатываемым участком (или кадром), может предшествовать обеспечению реверберирующего сигнала с подавленным шумом, ассоциированного с текущим обрабатываемым участком (или кадром). В соответствии с этим при обработке аудиокадра с индексом кадра n оценка коэффициентов авторегрессивной модели реверберации может быть выполнена сначала (например, с использованием прошлого сигнала с подавленным шумом, но реверберирующего), и затем может быть выполнено обеспечение реверберирующего сигнала с подавленным шумом, ассоциированного с текущим обрабатываемым кадром. Было обнаружено, что такой порядок обработки приводит к особенно хорошим результатам, в то время как обратный порядок обычно не будет выполняться достаточно хорошо.
В предпочтительном варианте осуществления процессор сигналов выполнен с возможностью использовать один или более задержанных реверберирующих сигналов с подавленным шумом (или в качестве альтернативы реверберирующего сигнала с подавленным шумом), ассоциированных (или основанных) с ранее обработанным участком (например, с кадром, имеющим индекс кадра n-1) входного аудиосигнала (например, входного сигнала y(n)) для оценки коэффициентов авторегрессивной модели реверберации, ассоциированных с текущим обрабатываемым участком (например, имеющим индекс кадра n) входного аудиосигнала. Посредством использования реверберирующего сигнала с подавленным шумом, ассоциированного с ранее обработанным участком (или кадром) входного аудиосигнала, для оценки коэффициента авторегрессивной модели реверберации, ассоциированного с текущим обрабатываемым участком (или кадром) входного аудиосигнала, возможно избежать проблемы причинной связи, поскольку обеспечение реверберирующего сигнала с подавленным шумом, ассоциированного с ранее обработанным кадром, обычно может выполняться перед оценкой коэффициентов авторегрессивной модели реверберации, ассоциированных с текущим обрабатываемым участком (или кадром) входного аудиосигнала. Кроме того, было обнаружено, что использование реверберирующего сигнала с подавленным шумом, ассоциированного с ранее обработанным участком входного аудиосигнала, приводит к достаточно хорошей оценке коэффициентов авторегрессивной модели реверберации.
В предпочтительном варианте осуществления процессор сигналов выполнен с возможностью попеременно обеспечивать оценочные коэффициенты авторегрессивной модели реверберации (или многоканальной авторегрессивной модели реверберации) и участки реверберирующего сигнала с подавленным шумом. Кроме того, процессор сигналов выполнен с возможностью использовать оценочные коэффициенты (или в качестве альтернативы ранее оцененные коэффициенты) (предпочтительно многоканальной) авторегрессивной модели реверберации для обеспечения участков реверберирующего сигнала с подавленным шумом. Кроме того, процессор сигналов выполнен с возможностью использовать один или более задержанных реверберирующих сигналов с подавленным шумом (или в качестве альтернативы ранее обеспеченных участков реверберирующего сигнала с подавленным шумом) для оценки коэффициентов многоканальной авторегрессивной модели реверберации. Посредством выполнения такого попеременного обеспечения оценочных коэффициентов авторегрессивной модели реверберации и участков реверберирующего сигнала с подавленным шумом вычислительная сложность может быть поддержана на низком уровне, и результаты могут быть получены с небольшой задержкой. Кроме того, можно избежать вычислительной нестабильности, которая могла быть вызвана совместной оценкой коэффициентов многоканальной авторегрессивной модели реверберации и участков реверберирующего сигнала с подавленным шумом.
В предпочтительном варианте осуществления процессор сигналов может быть выполнен с возможностью применять алгоритм, минимизирующий функцию стоимости (например, фильтр Калмана, рекурсивный фильтр наименьших квадратов или фильтр нормализованных наименьших средних квадратов (NLMS)), чтобы оценить коэффициенты (предпочтительно многоканальной) авторегрессивной модели реверберации. Было обнаружено, что использование таких алгоритмов хорошо подходит для оценки коэффициентов авторегрессивной модели реверберации. Функция стоимости может быть определенна, например, как показано в уравнении (15), и минимизация может выполнять функциональность, показанную в уравнении, (17) или минимизировать след матрицы ошибки, как показано в уравнении (19). Минимизация функции стоимости может следовать уравнениям (20)-(25). Минимизация функции стоимости также может использовать этапы 4-6 Алгоритма 1.
В предпочтительном варианте осуществления функцией стоимости, используемой для оценки коэффициентов авторегрессивной модели реверберации (например, в алгоритме, который минимизирует функцию стоимости), является значение ожидания для среднеквадратической ошибки коэффициентов авторегрессивной модели реверберации, например, как показано в уравнении (19). В соответствии с этим могут быть достигнуты коэффициенты авторегрессивной модели реверберации, которые, как ожидается, будут хорошо соответствовать акустической среде, вызывающей реверберацию. Следует отметить, что ожидаемые статистические свойства шума коэффициента MAR и шумных сигналов с подавленной реверберацией (шумы состояния и наблюдения), например, могут быть оценены в отдельном, предварительном этапе (например, с использованием одного или более уравнений (26)-(29).
В предпочтительном варианте осуществления процессор сигналов может быть выполнен с возможностью применять алгоритм для минимизации функции стоимости, чтобы оценить коэффициенты (предпочтительно многоканальной) авторегрессивной модели реверберации при допущении, что реверберирующий сигнал с подавленным шумом является фиксированным (например, не затрагиваемым коэффициентами авторегрессивной модели реверберации, ассоциированными с текущим обрабатываемым участком входного аудиосигнала). Посредством такого предположения вычислительная сложность может быть значительно сокращена, а также можно избежать нестабильности вычисления. Например, алгоритм уравнений (20)-(25) делает такое предположение.
В предпочтительном варианте осуществления процессор сигналов выполнен с возможностью применять алгоритм для минимизации функции стоимости (например, фильтр Калмана, или рекурсивный фильтр наименьших квадратов, или фильтр NLMS), чтобы оценить реверберирующий сигнал с подавленным шумом. Функция стоимости может быть определенна, например, как показано в уравнении (16), и минимизация может выполнять функциональность, показанную в уравнении, (18) или минимизировать след матрицы ошибки, как показано в уравнении (30). Минимизация функции стоимости может следовать уравнениям (31) к (36).
В предпочтительном варианте осуществления процессор сигналов выполнен с возможностью применять алгоритм для минимизации функции стоимости (например, фильтр Калмана, рекурсивный фильтр наименьших квадратов или фильтр NLMS), чтобы оценить реверберирующий сигнал с подавленным шумом. Было обнаружено, что использование такого алгоритма для минимизации функции стоимости является также очень эффективном для определения реверберирующего сигнала с подавленным шумом, например, если статистические свойства шума известны или оценены. Кроме того, вычислительная сложность может быть в значительной степени улучшена, если сходные алгоритмы (например, алгоритмы, минимизирующие функцию стоимости) используются и для оценки коэффициентов авторегрессивной модели реверберации, и для оценки реверберирующего сигнала с подавленным шумом. Например, может использоваться алгоритм в соответствии с уравнениями (31)-(36), причем параметры, которые будут использоваться в упомянутом алгоритме, могут быть определены в соответствии с одним или более уравнениями (37)-(42). Кроме того, функциональность может быть выполнена с использованием этапов 7-9 Алгоритма 1.
В предпочтительном варианте осуществления функцией стоимости, используемой для оценки реверберирующего сигнала (в некоторых случаях с подавленным шумом), является значение ожидания для среднеквадратической ошибки реверберирующего сигнала (в некоторых случаях с подавленным шумом). Было обнаружено, что такая функция стоимости (например, в соответствии с уравнением (16) или в соответствии с уравнением (30)) обеспечивает хорошие результаты и может быть оценена с использованием разумных вычислительных затрат. Кроме того, следует отметить, что оценка среднеквадратической ошибки реверберирующего сигнала с подавленным шумом возможна, например, если доступна информация (или предположение) относительно статистических характеристик шума (например, ковариационная матрица шума), и также, возможно, относительно требуемого сигнала (например, требуемой ковариационной матрицы речи).
В предпочтительном варианте осуществления процессор сигналов выполнен с возможностью применять алгоритм для минимизации функции стоимости, чтобы оценить реверберирующий сигнал (в некоторых случаях с подавленным шумом) при допущении, что коэффициенты авторегрессивной модели реверберации фиксированы (например, не затрагиваются реверберирующим сигналом с подавленным шумом, ассоциированным с текущим обрабатываемым участком входного аудиосигнала). Было обнаружено, что такое «идеальное» предположение (которое делается, например, при вычислении в соответствии с уравнениями (31)-(36)) значительно не ухудшает результаты оценки реверберирующего сигнала с подавленным шумом, но значительно сокращает вычислительные затраты (например, по сравнению с совместной оценкой реверберирующего сигнала с подавленным шумом и коэффициентов авторегрессивной модели реверберации, или по сравнению с прямой оценкой выходного сигнала с подавленным шумом и с подавленной реверберацией (в процедуре с одним этапом)).
Кроме того, предположение допускает чередующуюся процедуру, в которой реверберирующий сигнал с подавленным шумом и коэффициенты авторегрессивной модели реверберации оцениваются раздельно (например, переменное выполнение этапов 4-6 и этапов 7-9 Алгоритма 1).
В предпочтительном варианте осуществления процессор сигналов выполнен с возможностью определять компонент реверберации на основе оценочных коэффициентов (предпочтительно многоканальной) авторегрессивной модели реверберации и на основе одного или более задержанных реверберирующих сигналов с подавленным шумом (или в качестве альтернативы на основе реверберирующего сигнала с подавленным шумом), ассоциированных с ранее обработанным участком (например, кадром) входного аудиосигнала (например, посредством фильтрации реверберирующего сигнала с подавленным шумом с использованием оценочных коэффициентов авторегрессивной модели реверберации). Кроме того, процессор сигналов предпочтительно выполнен с возможностью (по меньшей мере частично) подавлять (например, вычитать) компонент реверберации из реверберирующего сигнала с подавленным шумом, ассоциированного с текущим обрабатываемым участком (например, кадром) входного аудиосигнала, чтобы получить выходной сигнал с подавленным шумом и с подавленной реверберацией (например, требуемый речевой сигнал). Это может быть выполнено, например, с использованием уравнения (44).
Было обнаружено, что определение компонента реверберации на основе реверберирующего сигнала с подавленным шумом приносит хороший результат. Например, имеется преимущество в оценке фильтра реверберации (коэффициентов MAR) на основе наблюдения с шумом y(n) и прошлых бесшумных сигналов X(n-D). Кроме того, предпочтительно предполагается, что шум не имеет каких-либо реверберирующих характеристик. Поскольку только прошлые бесшумные сигналы X(n-D) требуются для оценки коэффициентов MAR, используемая концепция может работать обусловленным образом и сохранять вычислительные затраты довольно медленными, по-прежнему достигая хороших результатов.
В предпочтительном варианте осуществления процессор сигналов выполнен с возможностью выполнять взвешенную комбинацию входного аудиосигнала и реверберирующего сигнала с подавленным шумом (например, в соответствии с уравнением 44), а также включать компонент реверберации во взвешенную комбинацию (например, таким образом, что выполняется взвешенная комбинация входного аудиосигнала, реверберирующего сигнала с подавленным шумом и компонента реверберации). Другими словами, сигнал с подавленным шумом и с подавленной реверберацией получается посредством взвешенной комбинации входного сигнала, сигнала с подавленным шумом и компонента реверберации. В соответствии с этим возможно точно настроить характеристики сигнала, такие как величина подавления реверберации и шума. Следовательно, характеристики сигнала обработанного аудиосигнала (например, аудиосигнала с подавленным шумом и с подавленной реверберацией) могут регулироваться в соответствии с требованиями в текущей ситуации.
В предпочтительном варианте осуществления процессор сигналов выполнен с возможностью также включать в себя оформленную версию компонента реверберации во взвешенной комбинации (например, таким образом, что выполняется взвешенная комбинация входного аудиосигнала, реверберирующего сигнала с подавленным шумом, оформленной версии компонента реверберации, а также самого компонента реверберации). Например, это может быть сделано, как показано в последнем уравнении секции, описывающей «Способ и устройство для онлайнового подавления реверберации и шума (с использованием параллельной структуры) с управлением подавлением». В соответствии с этим возможно выполнить дополнительное спектральное и динамическое оформление разностной реверберации. В соответствии с этим существует еще большая степень гибкости относительно результата, который будет достигнут.
В предпочтительном варианте осуществления процессор сигналов выполнен с возможностью оценивать статистическую величину (например, ковариацию) (или статистическое свойство) шумового компонента входного аудиосигнала. Такая статистическая величина шумового компонента входного аудиосигнала, например, может быть полезной при оценке (или обеспечении) реверберирующего сигнала с подавленным шумом. Кроме того, оценка (или определение) статистической величины шумового компонента входного аудиосигнала может обеспечить возможность формулировки функции стоимости, поскольку статистическая величина шумового компонента входного аудиосигнала может использоваться в качестве части упомянутой функции стоимости.
В предпочтительном варианте осуществления процессор сигналов выполнен с возможностью оценивать статистическую величину (например, ковариацию) (или статистическое свойство) шумового компонента входного аудиосигнала в период отсутствия речи (причем, например, период отсутствия речи обнаруживается с использованием детектора речи). Было обнаружено, что обнаружение периодов отсутствия речи возможно с разумным усилием, и также было обнаружено, что шум, который присутствует в периоды отсутствия речи, обычно также присутствует в периоды наличия речи без слишком многих изменений. В соответствии с этим возможно эффективно получить статистические данные шумового компонента, которые применимы для обеспечения реверберирующего сигнала с подавленным шумом.
В предпочтительном варианте осуществления процессор сигналов выполнен с возможностью оценивать коэффициенты (предпочтительно многоканальной) авторегрессивной модели реверберации с использованием фильтра Калмана. Было обнаружено, что такой фильтр Калмана допускает эффективное вычисление и хорошо адаптирован к требованиям задачи обработки сигналов. Например, может использоваться реализация в соответствии с уравнениями (20)-(25).
В предпочтительном варианте осуществления процессор сигналов выполнен с возможностью оценивать коэффициенты (предпочтительно многоканальной) авторегрессивной модели реверберации на основе оценочной матрицы ошибки вектора коэффициентов (предпочтительно многоканальной) авторегрессивной модели реверберации (например, ассоциированного с ранее обработанным участком аудиосигнала) на основе оценочной ковариации шума погрешности вектора коэффициента (предпочтительно многоканальной) авторегрессивной модели реверберации (например, как задано в уравнении (26)), на основе предыдущего вектора (оценочных) коэффициентов (предпочтительно многоканальной) авторегрессивной модели реверберации (например, ассоциированных с ранее обработанным участком или версией входного аудиосигнала), на основе одного или более задержанных реверберирующих сигналов с подавленным шумом (например, (прошлых) реверберирующих сигналов с подавленным шумом, представленных как
Figure 00000001
, например, ассоциированных с предыдущими участками или кадрами входного аудиосигнала), (в некоторых случаях) на основе оценочной ковариации, ассоциированной с шумными (например, с не подавленным шумом), но с подавленной реверберацией (или без реверберации) компонентами сигнала входного аудиосигнала, и на основе входного аудиосигнала. Было обнаружено, что оценка коэффициентов авторегрессивной модели реверберации на основе этих входных переменных является эффективной в вычислительном отношении и способствует получению точных оценок коэффициентов авторегрессивной модели реверберации.
В предпочтительном варианте осуществления процессор сигналов выполнен с возможностью оценивать реверберирующий сигнал с подавленным шумом с использованием фильтра Калмана. Было обнаружено, что использование такого фильтра Калмана (который может реализовать функциональность, заданную в уравнениях 31-36) также имеет преимущество для оценки реверберирующего сигнала с подавленным шумом. Кроме того, использование фильтра Калмана и для оценки коэффициента авторегрессивной модели реверберации, и для оценки реверберирующего сигнала с подавленным шумом может обеспечить хорошие результаты.
В предпочтительном варианте осуществления процессор сигналов выполнен с возможностью оценивать реверберирующий сигнал с подавленным шумом на основе оценочной матрицы ошибки реверберирующего сигнала с подавленным шумом (например, ассоциированного с ранее обработанным участком или кадром входного аудиосигнала), на основе оценочной ковариации требуемого речевого сигнала (например, ассоциированного с текущим обрабатываемым участком или кадром входного аудиосигнала, например, как задано в уравнениях 37-42), на основе одной или более предыдущих оценок реверберирующего сигнала с подавленным шумом (например, ассоциированного с одним или более ранее обработанными участками или кадрами входного аудиосигнала), на основе множества коэффициентов (предпочтительно многоканальной) авторегрессивной модели реверберации (например, ассоциированной с текущим обрабатываемым участком или кадром входного аудиосигнала, например, определяя матрицу F(n)), на основе оценочной ковариации шума, ассоциированной с входным аудиосигналом, и на основе входного аудиосигнала. Было обнаружено, что оценка реверберирующего сигнала с подавленным шумом на основе этих величин является эффективной в вычислительном отношении и способствует хорошему качеству аудиосигнала.
В предпочтительном варианте осуществления процессор сигналов выполнен с возможностью получать оценочную ковариацию, ассоциированную с шумными, но с подавленной реверберацией (или без реверберации) компонентами сигнала входного аудиосигнала на основе взвешенной комбинации (например, в соответствии с уравнением 28) рекурсивной оценки ковариации, определенной рекурсивно с использованием предыдущих оценок шумных, но с подавленной реверберацией (или без реверберации) компонентов сигнала входного аудиосигнала (например, ассоциированных с ранее обработанными участками или кадрами входного аудиосигнала, например, в соответствии с уравнением 29) и внешнего произведения (например, промежуточного) оценки шумных, но с подавленной реверберацией (или без реверберации) компонентов сигнала входного аудиосигнала (например, ассоциированных с текущим обрабатываемым участком входного аудиосигнала). Например, промежуточная оценка шумных, но с подавленной реверберацией компонентов сигнала может быть получена как новшество в процессе фильтрации Калмана (например, в соответствии с уравнением (22)). Например, промежуточная оценка может являться предсказанием с использованием предсказанных коэффициентов (например, как определено уравнением (21)).
Было обнаружено, что такая концепция обеспечивает хорошую оценку ковариации, ассоциированной с шумными, но с подавленной реверберацией (или без реверберации) компонентами сигнала с разумной вычислительной сложностью.
В предпочтительном варианте осуществления рекурсивная оценка ковариации требуемого сигнала плюс шум основана на оценке шумных, но с подавленной реверберацией (или без реверберации) компонентов сигнала входного аудиосигнала, вычисленных с использованием окончательных коэффициентов оценки (предпочтительно многоканальной) авторегрессивной модели реверберации и с использованием окончательной оценки реверберирующего сигнала с подавленным шумом (например, в соответствии с уравнением (29) в сочетании с определением û(n)). В качестве альтернативы или в дополнение процессор сигналов выполнен с возможностью получать внешнее произведение шумных, но с подавленной реверберацией компонентов сигнала входного аудиосигнала на основе промежуточной оценки (например, предсказания) коэффициентов (предпочтительно многоканальной) авторегрессивной модели реверберации (например, в процессе фильтрации Калмана) (например, чтобы получить оценку ковариации) (например, полученной в соответствии с уравнением (21)). Посредством использования такой концепции (например, в соответствии с описанными ниже уравнениями (28) и (29), взятыми в сочетании с определениями e(n) и û(n)) оценочная ковариация может быть получена эффективным образом.
В предпочтительном варианте осуществления процессор сигналов выполнен с возможностью получать оценочную ковариацию, ассоциированную с компонентами сигнала с подавленным шумом и с подавленной реверберацией (или без реверберации) входного аудиосигнала на основе взвешенной комбинации (например, в соответствии с уравнением (37)) рекурсивной оценки ковариации, определенной рекурсивно с использованием предыдущих оценок компонентов сигнала с подавленным шумом и с подавленной реверберацией входного аудиосигнала (например, ассоциированных с ранее обработанными участками или кадрами входного аудиосигнала) (которые можно рассмотреть, например, как рекурсивную апостериорную оценка максимального правдоподобия), и априорной оценки ковариации, которая основана на текущем обрабатываемом участке входного аудиосигнала (и полученной, например, в соответствии с уравнением (41)). Таким образом, значащая оценка ковариации, ассоциированной с компонентом сигнала с подавленным шумом и с подавленной реверберацией входного аудиосигнала, может быть получена с умеренной вычислительной сложностью. Например, использование подхода, описанного в уравнении (37), допускает использование фильтра Калмана для шумоподавления с хорошими результатами.
В предпочтительном варианте осуществления процессор сигналов выполнен с возможностью получать рекурсивную оценку ковариации на основе оценки компонентов сигнала с подавленным шумом и с подавленной реверберацией (или без реверберации) входного аудиосигнала, вычисленных с использованием окончательных оценочных коэффициентов (предпочтительно многоканальной) авторегрессивной модели реверберации и с использованием окончательной оценки реверберирующего (выходного) сигнала с подавленным шумом (например, с использованием уравнения (38)). В качестве альтернативы или в дополнение процессор сигналов выполнен с возможностью получать априорную оценку ковариации с использованием фильтрации Винера входного сигнала (как показано, например, в уравнении (41)), причем операция фильтрации Винера определена в зависимости от информации ковариации относительно входного аудиосигнала, в зависимости от информации ковариации относительно компонента реверберации входного аудиосигнала и в зависимости от информации ковариации относительно шумового компонента входного аудиосигнала (как показано, например, в уравнении (42)). Было обнаружено, что эти концепции являются полезными при эффективном вычислении оценочной ковариации, ассоциированной с компонентом сигнала с подавленным шумом и с подавленной реверберацией.
Процессоры сигналов, описанные здесь, и процессоры сигналов, определенные в формуле изобретения, могут быть дополнены любыми из признаков, функций и элементов, описанных в настоящем документе, как отдельно, таки и в комбинации. Подробные сведения относительно вычисления различных параметров могут использоваться независимо. Также подробные сведения относительно этапов индивидуальной обработки могут использоваться независимо.
Другой вариант осуществления в соответствии с изобретением создает способ обеспечения обработанного аудиосигнала (например, аудиосигнала с подавленным шумом и с подавленной реверберацией, который может представлять собой одноканальный аудиосигнал или многоканальный аудиосигнал) на основе входного аудиосигнала (например, одноканального или многоканального входного аудиосигнала). Способ содержит оценку коэффициентов (предпочтительно, но не обязательно многоканальной) авторегрессивной модели реверберации (например, коэффициентов AR или коэффициентов MAR) с использованием (обычно шумного и реверберирующего) входного аудиосигнала (или входных аудиосигналов) (например, непосредственно из наблюдаемого сигнала y(n) и задержанных (или прошлых) реверберирующих сигналов с подавленным шумом, полученных с использованием шумоподавления (стадии шумоподавления) (например, прошлые реверберирующие сигналы с подавленным шумом
Figure 00000001
). Эта функциональность может быть выполнена, например, посредством стадии оценки коэффициентов AR.
Кроме того, способ содержит обеспечение реверберирующего сигнала с подавленным шумом (например, текущего кадра) с использованием (обычно шумного и реверберирующего) входного аудиосигнала (например, шумного наблюдаемого сигнала y(n) и оценочных коэффициентов (предпочтительно многоканальной) авторегрессивной модели реверберации (например, ассоциированных с текущим кадром). Оценочные коэффициенты авторегрессивной модели реверберации, например, могут являться "коэффициентами MAR". Кроме того, функциональность обеспечения реверберирующего сигнала с подавленным шумом может быть выполнена, например, посредством стадии шумоподавления.
Способ дополнительно содержит производство выходного сигнала с подавленным шумом и с подавленной реверберацией с использованием реверберирующего сигнала с подавленным шумом и оценочных коэффициентов (предпочтительно многоканальной) авторегрессивной модели реверберации.
Этот способ основан на тех же самых соображениях, как и упомянутый выше процессор сигналов, в результате чего упомянутые выше разъяснения также являются применимыми.
Кроме того, способ может быть дополнен любыми признаками, функциями и элементами, описанными в настоящем документе относительно процессора сигналов, как отдельно, так и в комбинации.
Другой вариант осуществления в соответствии с изобретением создает компьютерную программу для выполнения способа согласно настоящему описанию, когда компьютерная программа выполняется на компьютере.
Краткое описание чертежей
Далее будут описаны варианты осуществления в соответствии с настоящим изобретением со ссылкой на приложенные чертежи.
Фиг. 1 показывает блок-схему процессора сигналов в соответствии с вариантом осуществления настоящего изобретения;
Фиг. 2 показывает традиционную структуру для оценки коэффициентов MAR (многоканальных авторегрессивных) в шумной среде;
Фиг. 3 показывает блок-схему устройства (или процессора сигналов) в соответствии с настоящим изобретением (вариант осуществления 2);
Фиг. 4 показывает блок-схему устройства (или процессора сигналов) в соответствии с настоящим изобретением (вариант осуществления 3);
Фиг. 5 показывает блок-схему устройства (или процессора сигналов) в соответствии с настоящим изобретением (вариант осуществления 4);
Фиг. 6 показывает схематическое представление генеративной модели реверберирующего сигнала, многоканальных авторегрессивных коэффициентов и шумного наблюдаемого сигнала;
Фиг. 7 показывает блок-схему устройства (или процессора сигналов), содержащего предложенную структуру параллельного двойного фильтра Калмана в соответствии с вариантом осуществления настоящего изобретения;
Фиг. 8 показывает блок-схему традиционного последовательного шумоподавления и структуру подавления реверберации в соответствии со ссылкой [31];
Фиг. 9 показывает блок-схему предложенной структуры для управления величиной шумоподавления βv и подавления реверберации βr;
Таблица 1 показывает табличное представление целевых показателей для изменения iSNR (стационарный шум) с использованием измеренных характеристик RIR, M=2, L=12, βv =-10 дБ, βr, min=-15 дБ;
Фиг. 10 показывает схематическое представление целевых показателей для переменного количества микрофонов с использованием измеренных характеристик RIR, iSNR=10 дБ, L=15, без управления подавлением (βvr=0);
Фиг. 11 показывает графическое представление целевых показателей для переменной длины фильтра L, параметров iSNR=15 дБ, M=2, без управления подавлением (βvr=0),
Фиг. 12 показывает графическое представление краткосрочных показателей для движущегося источника между 8-13 с в моделируемом маленьком помещении обувной коробки с T60=500 мс, iSNR=15 дБ, M=2, L=15, βv=-15 дБ, βr, min=-15 дБ;
Фиг. 13 показывает графическое представление шумоподавления и подавления реверберации для переменных управляющих параметров βv и βr, MIN, iSNR=15 дБ, M=2, L=12;
Таблица 2 показывает табличное представление таблицы целевых показателей для изменения iSNR (невнятный шум) с использованием измеренных характеристик RIR, M=2, L=12, βv=-10 дБ, βr, min=-15 дБ; и
Фиг. 14 показывает блок-схему последовательности этапов способа обеспечения обработанного аудиосигнала на основе входного аудиосигнала в соответствии с вариантом осуществления настоящего изобретения.
Подробное описание вариантов осуществления
1. Вариант осуществления в соответствии с фиг. 1
Фиг. 1 показывает блок-схему процессора 100 сигналов в соответствии с вариантом осуществления настоящего изобретения. Процессор 100 сигналов выполнен с возможностью принимать входной аудиосигнал 110 и выполнен с возможностью обеспечивать на его основе обработанный аудиосигнал 112, который, например, может представлять собой аудиосигнал с подавленным шумом и с подавленной реверберацией. Следует отметить, что входной аудиосигнал 110 может представлять собой одноканальный аудиосигнал, но предпочтительно представляет собой многоканальный аудиосигнал. Аналогичным образом, обработанный аудиосигнал 112 может представлять собой одноканальный аудиосигнал, но предпочтительно представляет собой многоканальный аудиосигнал. Процессор 100 сигналов, например, может содержать блок 120 оценки коэффициентов, который выполнен с возможностью оценивать коэффициенты 124 авторегрессивной модели реверберации (например, коэффициенты AR или коэффициенты MAR многоканальной авторегрессивной модели реверберации) с использованием одноканального или многоканального входного аудиосигнала 110 и задержанного реверберирующего сигнала 122 с подавленным шумом.
Например, блок 120 оценки коэффициентов авторегрессивной модели реверберации может принять входной аудиосигнал 110 и задержанный реверберирующий сигнал 122 с подавленным шумом.
Процессор 100 сигналов также содержит блок 130 шумоподавления, который принимает входной аудиосигнал 110, и который обеспечивает сигнал 132 с подавленным шумом (но обычно реверберирующий, или без подавленной реверберации). Блок 130 шумоподавления выполнен с возможностью обеспечивать сигнал с подавленным шумом (но обычно реверберирующий) с использованием входного аудиосигнала 110 (обычно шумного и реверберирующего) и оценочные коэффициенты 124 авторегрессивной модели реверберации, которые обеспечены блоком 120 оценки.
Здесь следует отметить, что шумоподавление 130, например, может использовать коэффициенты 124 авторегрессивной модели реверберации, которые были получены на основе ранее определенного реверберирующего сигнала 132 с подавленным шумом (возможно, в сочетании со входным аудиосигналом 110).
Устройство 100 в некоторых случаях содержит блок 140 задержки, который может быть выполнен с возможностью получать реверберирующий сигнал 132 с подавленным шумом, обеспеченный блоком 130 шумоподавления, чтобы обеспечить на выходе его задержанную версию 122. В соответствии с этим оценка 120 коэффициентов авторегрессивной модели реверберации может работать с ранее полученным (произведенным) реверберирующим сигналом с подавленным шумом (который обеспечен или произведен блоком 130 шумоподавления) и входным аудиосигналом 110.
Устройство 100 также содержит блок 150 для производства выходного сигнала с подавленным шумом и с подавленной реверберацией, который может служить в качестве обработанного аудиосигнала 112. Блок 150 предпочтительно принимает реверберирующий сигнал 132 с подавленным шумом от блока 130 шумоподавления и коэффициенты 124 авторегрессивной модели реверберации, обеспеченные блоком 120 оценки. Таким образом, блок 150, например, может удалять или подавлять реверберацию реверберирующего сигнала 132 с подавленным шумом. Например, с этой целью может использоваться подходящая фильтрация в сочетании с операцией подавления (например, в спектральной области), причем коэффициенты 124 авторегрессивной модели реверберации могут определить фильтрацию (который используется для оценки реверберации).
Относительно устройства 100 следует отметить, что разделение функций на блоки можно рассматривать как эффективный, но произвольный выбор. Функциональности, описанные в настоящем документе, также могут быть по-другому распределены по аппаратным устройствам при условии, что сохраняется базовая функциональность. Кроме того, следует отметить, что блоки могут представлять собой программные блоки, которые одни и те же аппаратные средства (как, например, микропроцессор).
Относительно функциональности устройства 100 можно сказать, что разделение между функциональностью шумоподавления (блок 130 шумоподавления) и оценкой коэффициентов авторегрессивной модели реверберации (блок 120 оценки) обеспечивает довольно малую вычислительную сложность и по-прежнему позволяет получить достаточно высокое качество звука. Даже при том, что теоретически было бы лучше оценивать выходной сигнал с подавленным шумом и с подавленной реверберацией с использованием совместной функции стоимости, было обнаружено, что отдельное выполнение шумоподавления и оценки коэффициентов авторегрессивной модели реверберации с использованием раздельных функций стоимости по-прежнему может обеспечить довольно хорошие результаты, в то время как сложность может быть сокращена, и можно избежать проблем стабильности. Кроме того, было обнаружено, что реверберирующий сигнал 132 с подавленным шумом служит в качестве очень хорошего промежуточного качества, поскольку выходной сигнал с подавленным шумом и с подавленной реверберацией (т.е., обработанный аудиосигнал 112) может быть произведен из сигнала 132 с подавленным шумом (но реверберирующего, или без подавленной реверберации) с небольшими усилиями при условии, что известны коэффициенты 124 авторегрессивной модели реверберации.
Однако следует отметить, устройство 100, описанное на фиг. 1, может быть дополнено любыми из описанных далее признаков, функций и элементов, как отдельно, так и в комбинации.
2. Варианты осуществления в соответствии с фиг. 3, 4 и 5
Далее будут описаны некоторые дополнительные варианты осуществления со ссылкой на фиг. 3, 4 и 5. Однако, прежде чем будут описаны подробности вариантов осуществления, будет описана некоторая информация относительно традиционных решений, и будет определена модель сигнала.
Вообще говоря, будут описаны способы и устройства для онлайнового подавления реверберации и шума (с использованием параллельной структуры), в некоторых случаях с управлением подавлением.
2.1 Введение
Следующие варианты осуществления изобретения находятся в области обработки акустических полей, например, чтобы удалить шум и реверберацию от одного или нескольких микрофонов.
В сценариях речевой связи на большом расстоянии, когда требуемый источник речи находится далеко от устройства захвата, качество и разборчивость речи, а также рабочие характеристики устройств распознавания речи обычно ухудшаются вследствие высокого уровня реверберации и шума по сравнению с требуемым уровнем речевого сигнала.
Способы подавления реверберации на основе авторегрессивной модели (AR) на каждую частотную полосу в области оконного преобразования Фурье (STFT) оказались лучше других моделей реверберации. Способы подавления реверберации на основе этой модели обычно решают проблему с использованием подходов, относящихся к линейному предсказанию. Кроме того, общая многоканальная авторегрессивная модель (MAR) пригодна для нескольких источников и может быть сформулирована таким образом, что она обеспечивает такое же количество каналов на выходе, как на входе. Поскольку полученный в результате процесс улучшения, который является линейным фильтром на каждую частотную полосу в пределах нескольких кадров преобразования STFT, не изменяет пространственную корреляцию требуемого сигнала, улучшение является подходящим в качестве предварительной обработки для дальнейших методик обработки массивов.
В то время как большинство существующих методик на основе модели MAR являются пакетными алгоритмами [Nakatani 2010, Yoshioka 2009, Yoshioka 2012], некоторые онлайновые алгоритмы были предложены в [Yoshioka 2013, Togami 2019, Jukic 2016]. Однако сложная проблема в шумных средах c использованием онлайнового алгоритма была решена только в [Togami 2015].
Было обнаружено, что в шумных средах проблема обычно может быть решена посредством выполнения этапа шумоподавления, после которого выполняются способы на основе линейного предсказания для оценки коэффициентов MAR (также известных как коэффициенты регрессии помещения), а затем фильтрации сигнала.
В вариантах осуществления изобретения предложена новая параллельная структура для оценки коэффициентов MAR и сигнала с подавленным шумом непосредственно из наблюдаемых сигналов микрофона вместо последовательной структуры. Параллельная структура позволяет полностью причинную оценку потенциально изменяющихся во времени коэффициентов MAR и решает проблему неоднозначности, какая из зависимых стадий должна быть сначала исполнена - стадия оценки коэффициентов MAR или стадия шумоподавления. Кроме того, параллельная структура дает возможность создать выходной сигнал, когда можно эффективно управлять величиной разностной реверберации и шума.
2.2 Определения и традиционные решения
2.2.1 Модель сигнала
Следующие подразделы обобщенно представляют традиционные подходы для подавления реверберации в шумных средах на основе многоканальной авторегрессивной модели.
С использованием модели мы предполагаем, что сигналы микрофона в частотно-временной области
Figure 00000002
, где
Figure 00000003
, с частотным и временным индексами k и n, записанные в векторе
Figure 00000004
, могут быть описаны как
Figure 00000005
где вектор
Figure 00000006
обозначает реверберирующий речевой сигнал в микрофонах, и вектор
Figure 00000007
обозначает аддитивный шум. Вектор
Figure 00000006
реверберирующего речевого сигнала смоделирован как многоканальный авторегрессивный процесс
Figure 00000008
где вектор
Figure 00000009
обозначает ранние речевые сигналы в микрофонах, и матрицы
Figure 00000010
, где
Figure 00000011
, содержат коэффициенты MAR. Количество кадров L описывает длину, необходимую, чтобы смоделировать реверберацию, в то время как задержка
Figure 00000012
управляет начальным временем поздней реверберации и в соответствии с аспектом изобретения должна быть выбрана таким образом, что между прямым звуком, содержащемся в
Figure 00000009
, и поздней реверберацией нет корреляции.
Цель (и концепция) этого изобретения (или его вариантов осуществления) состоит в том, чтобы получить ранние речевые сигналы
Figure 00000009
посредством оценки реверберирующих бесшумных речевых сигналов и коэффициентов MAR, обозначенных
Figure 00000013
и
Figure 00000014
, соответственно. В соответствии с аспектом изобретения с использованием этих оценок вектор требуемых сигналов
Figure 00000009
оценивается посредством процесса линейной фильтрации
Figure 00000015
Для простоты записи в следующих уравнениях частотный индекс k опущен, и мы переформулируем наблюдаемый сигнал микрофона с использованием матричной нотации
Figure 00000016
,
где
Figure 00000017
Figure 00000018
Figure 00000019
- единичная матрица размером
Figure 00000020
,
Figure 00000021
обозначает произведение Кронекера,
Figure 00000022
обозначает оператор преобразования столбца матрицы в вектор, и вектор
Figure 00000023
обозначает позднюю реверберацию в каждом микрофоне.
В традиционных решениях коэффициенты MAR смоделированы как детерминированная переменная, которая подразумевает стационарность
Figure 00000024
. В [Braun2016] была введена стохастическая модель для потенциально изменяющихся во времени коэффициентов MAR, более конкретно, модель Маркова первого порядка
Figure 00000025
,
где
Figure 00000026
- случайный шум, моделирующий неопределенность распространения коэффициентов. Однако в [Braun2016] решение дано только при условии отсутствия аддитивного шума.
2.2.2 Последовательное онлайновое решение
Способы оценки переменных
Figure 00000006
и
Figure 00000024
в пакетном алгоритме, в котором коэффициенты
Figure 00000024
предполагаются стационарными, предложены в [Yoshioka2009, Togami2013]. Однако было обнаружено, что в общих реалистических приложениях акустическая сцена, т.е. коэффициенты MAR
Figure 00000024
, может изменяться во времени. Только онлайновое решение проблемы оценки коэффициентов MAR в шумных средах предложено в [Togami2015], хотя при допущении, что коэффициенты MAR являются стационарными.
Традиционные подходы для таких сходных проблем оценки сигнала AR и параметров AR используют последовательную структуру, как показано на фиг. 2, такую как традиционный онлайновый подход [Togami2015]. Сначала стадия 202 шумоподавления пытается удалить шум из наблюдаемых сигналов
Figure 00000027
, и на втором этапе 203 коэффициенты AR
Figure 00000024
оцениваются на основе выходных сигналов
Figure 00000001
первой стадии. Было обнаружено, что эта структура является недостаточно оптимальной по двум причинам: 1) стадия 203 оценки параметров MAR предполагает, что оценочный сигнал
Figure 00000001
является бесшумным, что часто невозможно на практике; 2) чтобы использовать информацию коэффициентов MAR на стадии 202 шумоподавления, следует предполагать, что коэффициенты являются стационарными, поскольку требуется, чтобы предположение
Figure 00000028
передавало оценочные коэффициенты MAR от стадии оценки коэффициентов MAR обратно к стадии шумоподавления.
Итак, фиг. 2 показывает блок-схему традиционной структуры для оценки коэффициентов MAR в шумной среде. Устройство 200 содержит оценку 201 статистики шума, шумоподавление 202, оценку 203 коэффициентов AR и оценку 204 реверберации.
Другими словами, блоки 201-204 являются блоками традиционной системы последовательного подавления шума и реверберации.
2.3 Варианты осуществления в соответствии с настоящим изобретением
Далее будут описаны три варианта осуществления в соответствии с настоящим изобретением. Фиг. 3 показывает блок-схему варианта осуществления 2 в соответствии с настоящим изобретением. Фиг. 4 показывает блок-схему варианта осуществления 3 в соответствии с настоящим изобретением. Фиг. 5 показывает блок-схему варианта осуществления 4 в соответствии с настоящим изобретением.
В следующем будет представлено краткое описание фигур и номеров блоков.
Следует отметить, что блоки 301-305 представляют собой блоки предложенной системы подавления шума и реверберации. Также следует отметить, что идентичные номера для ссылок используются для идентичных блоков (или для блоков, имеющих идентичные функциональности) в вариантах осуществления в соответствии с фиг. 3, 4 и 5.
Далее в качестве вариантов осуществления изобретения предложены решения проблемы подавления реверберации посредством оценки коэффициентов MAR и реверберирующего сигнала обусловленным онлайновым методом при наличии аддитивного шума. Статистика пространственного шума может быть оценена заранее блоком 301 вычисления, например, как предложено в [Gerkmann 2012].
2.3.1 Вариант осуществления 2: параллельная структура для оценки коэффициентов AR и требуемого сигнала
Фиг. 3 показывает блок-схему устройства (или процессора сигналов) в соответствии с вариантом осуществления настоящего изобретения (или, в целом, блок-схему варианта осуществления предложенного изобретения).
Устройство 300 в соответствии с фиг. 3 выполнено с возможностью принимать входной сигнал 310, который может представлять собой одноканальный аудиосигнал или многоканальный аудиосигнал. Устройство 300 также выполнено с возможностью обеспечивать обработанный аудиосигнал 312, который может представлять собой сигнал с подавленным шумом и с подавленной реверберацией. Устройство 300 опционально может содержать блок 301 оценки статистики шума, который может быть выполнен с возможностью производить информацию о статистике шума на основе входного аудиосигнала 310. Например, блок 301 оценки статистики шума может оценить статистику шума в отсутствие речевого сигнала (например, во время пауз речи).
Устройство 300 также содержит блок 303 шумоподавления, который принимает входной аудиосигнал 310, информацию 301a о статистике шума и коэффициенты 302a авторегрессивной модели реверберации (которые обеспечены блоком 302 оценки авторегрессивных коэффициентов). Блок 303 шумоподавления обеспечивает сигнал 303a с подавленным шумом (но обычно реверберирующий).
Устройство 300 также содержит блок 302 оценки авторегрессивных коэффициентов (оценки коэффициентов AR), который выполнен с возможностью принимать входной аудиосигнал 301 и задержанную версию (или прошлую версию) сигнала 303a с подавленным шумом (но обычно реверберирующего), обеспеченную блоком 303 шумоподавления. Кроме того, блок 302 оценки авторегрессивных коэффициентов выполнен с возможностью обеспечивать коэффициенты 302a авторегрессивной модели реверберации.
Устройство 300 в некоторых случаях содержит блок 320 задержки, который выполнен с возможностью производить задержанную версию 320a на основе сигнала 303a с подавленным шумом (но обычно реверберирующего), обеспеченного блоком 303 шумоподавления.
Устройство 300 также содержит блок 304 оценки реверберации, который выполнен с возможностью принимать задержанную версию 320a сигнала 303a с подавленным шумом (но обычно реверберирующего), обеспеченного блоком 303 шумоподавления. Кроме того, блок 304 оценки реверберации также принимает коэффициенты 302a авторегрессивной модели реверберации от блока 302 оценки авторегрессивных коэффициентов. Блок 304 оценки реверберации обеспечивает оценочный сигнал 304a реверберации.
Устройство 300 также содержит блок 330 вычитания сигнала, который выполнен с возможностью удалять (или вычитать) оценочный сигнал 304a реверберации из сигнала 303a с подавленным шумом (но обычно реверберирующего), обеспеченного блоком 303 шумоподавления, чтобы тем самым получить обработанный аудиосигнал 312, который обычно является сигналом с подавленным шумом и с подавленной реверберацией.
Далее будет более подробно описана функциональность устройства 300 в соответствии с фиг. 3. В частности, следует отметить, что блок 302 оценки авторегрессивных коэффициентов использует и входной сигнал 310, и выходной сигнал 303a с подавленным шумом (но обычно реверберирующий) блока 303 шумоподавления (или, более точно, его задержанную версию 320a). В соответствии с этим оценка 302 авторегрессивных коэффициентов может быть выполнена отдельно от шумоподавления 303, причем шумоподавление 303 тем не менее может извлечь выгоду из коэффициентов 302a авторегрессивной модели реверберации, и причем оценка 302 авторегрессивных коэффициентов тем не менее может извлечь выгоду из сигнала 303a с подавленным шумом, обеспеченного блоком 303 шумоподавления. Наконец, реверберация может быть удалена из сигнала 303a с подавленным шумом (но обычно реверберирующего), обеспеченного блоком 303 шумоподавления.
Далее будет снова, другими словами описана функциональность устройства 300.
Посредством использования процедуры чередующейся минимизации для оценки коэффициентов MAR
Figure 00000024
и реверберирующих сигналов
Figure 00000029
(оценки обозначены как
Figure 00000030
и
Figure 00000031
(n)) мы получаем процедуру с тремя этапами, в которой на первом этапе (блок 302) коэффициенты MAR оцениваются непосредственно на основе наблюдаемых сигналов
Figure 00000031
, и требуется только информация о прошлых реверберирующих сигналах, содержащихся в матрице
Figure 00000032
. На втором этапе (блок 303) выполняется шумоподавление, чтобы оценить реверберирующие сигналы
Figure 00000029
на основе наблюдений шума
Figure 00000027
. Этап шумоподавления требует знания коэффициентов MAR
Figure 00000024
, которые доступны как текущая оценка вследствие параллельной структуры от блока 302, и статистики шума от блока 301.
На третьем этапе (блок 304) поздняя реверберация вычисляется как
Figure 00000033
и вычитается из реверберирующих сигналов
Figure 00000001
, чтобы получить оценочные требуемые речевые сигналы
Figure 00000034
(например, блок 330). Процедура проиллюстрирована на фиг. 3.
Онлайновая оценка
Figure 00000024
и
Figure 00000029
может быть выполнена рекурсивными блоками оценки, такими как фильтры Калмана, в то время как требуемые ковариации могут быть оценены в смысле максимального правдоподобия. Конкретный пример того, как вычислить
Figure 00000024
и
Figure 00000029
, описан в разделе 3, разъясняющим “Онлайновое подавление реверберации и шума на основе линейного предсказания с использованием чередующихся фильтров Калмана”.
Однако вместо этого в блоках 302 и 303 также могут использоваться другие способы оценки, такие как рекурсивный метод наименьших квадратов, NLMS и т.д. ковариационная матрица шума
Figure 00000035
(который может потребоваться для информации 301a) предпочтительно должна быть известна заранее и, например, может быть оценена в периоды отсутствия речи. Подходящие способы для оценки статистики шума в блоке 301 с использованием вероятности присутствия речи описаны в [Gerkmann2012, Taseska2012].
2.3.2 Варианты осуществления 3 и 4: управление подавлением
Далее будут описаны варианты осуществления в соответствии с фиг. 4 и 5.
Фиг. 4 показывает блок-схему устройства или процессора 400 сигналов в соответствии с вариантом осуществления настоящего изобретения. Процессор 400 сигналов содержит блок 303 шумоподавления и блок 304 оценки реверберации. Блок 303 шумоподавления обеспечивает сигнал 303a с подавленным шумом (но обычно реверберирующий). Блок 304 оценки реверберации обеспечивает сигнал 304a реверберации. Например, блок 303 шумоподавления устройства 400 может содержать такую же функциональность, как блок 303 шумоподавления устройства 300 (возможно в сочетании с блоком 301).
Кроме того, блок 304 оценки реверберации устройства 400, например, может выполнять функциональность блока 304 оценки реверберации устройства 300, возможно в сочетании с функциональностью блоков 302 и 320.
Кроме того, устройство 400 выполнено с возможностью комбинировать масштабированную версию входного сигнала 410 (который может соответствовать входному сигналу 310) с масштабированной версией сигнала 303a с подавленным шумом (но обычно реверберирующего), и также с масштабированной версией сигнала 304a реверберации, обеспеченного блоком 304 оценки реверберации. Например, входной сигнал 410 может быть масштабирован с помощью масштабного коэффициента βv. Кроме того, сигнал 303a с подавленным шумом, обеспеченный блоком 303 шумоподавления, может быть масштабирован с помощью коэффициента (1-βv). Кроме того, сигнал 304a реверберации может быть масштабирован с помощью коэффициента (1-βr). Например, масштабированная версия 410a входного сигнала 410 и масштабированная версия 303b сигнала 303a с подавленным шумом могут быть объединены с одинаковыми знаками. Напротив, масштабированная версия 304b сигнала 304a реверберации может быть вычтена из суммы сигналов 410a, 303b, чтобы тем самым получить выходной сигнал 412. Итак, масштабированная версия 410a входного сигнала может быть объединена с масштабированной версией 303b сигнала 303a с подавленным шумом, и по меньшей мере часть реверберации может быть удалена посредством вычитания масштабированной версии 304b сигнала 304a реверберации, полученного блоком 304 оценки реверберации.
В соответствии с этим характеристики выходного сигнала 412 могут регулироваться желаемым образом. Степень шумоподавления и степень подавления реверберации могут регулироваться посредством соответствующего выбора масштабных коэффициентов, например, βv и βr.
Фиг. 5 показывает блок-схему другого устройства или процессора сигналов в соответствии с вариантом осуществления изобретения.
Устройство или процессор 500 сигналов в соответствии с фиг. 5 является сходным с устройством или процессором 400 сигналов в соответствии с фиг. 4, поэтому делается отсылка на приведенные выше разъяснения и одинаковые компоненты не будут описываться снова.
Однако устройство 500 также содержит блок 305 оформления реверберации, который принимает сигнал 304a реверберации, обеспеченный блоком оценки реверберации. Блок 305 оформления реверберации обеспечивает оформленный сигнал 305a реверберации.
В соответствии с концепцией, показанной на фиг. 5, сигнал 304a реверберации вычитается из суммы масштабированного сигнала 303b с подавленным шумом и масштабированного входного сигнала 410a, соответственно, получается промежуточный сигнал 520. Кроме того, масштабированная версия 305b оформленного сигнала 305a реверберации добавляется к промежуточному сигналу 520, чтобы получить выходной сигнал 512.
Однако также была бы возможна прямая комбинация сигналов 410a, 303b, 304a и 305b (без использования промежуточного сигнала).
В соответствии с этим устройство 500 позволяет регулировать характеристики выходного сигнала 512. Первоначальная реверберация может быть удалена (по меньшей мере в значительной степени), например, посредством вычитания (оценочного) сигнала 304a реверберации из суммы сигналов 303b, 410a. В соответствии с этим модифицированный (оформленный) сигнал 305b реверберации может быть добавлен (например, после опционального масштабирования), чтобы тем самым получить выходной сигнал 512. В соответствии с этим выходной сигнал может быть получен с помощью оформленной реверберации и с помощью регулируемой степени шумоподавления.
Далее вариант осуществления в соответствии с фиг. 4 и 5, фиг. 5 будет обобщенно представлен другими словами.
Параллельная структура, показанная на фиг. 3 (с некоторыми расширениями и поправками) допускает простой и эффективный способ управления величиной подавления реверберации и шума. Такое управление может потребоваться в сценариях речевой связи, например, чтобы поддерживать некоторый разностный шум и реверберацию, учитывая восприятие, или для маскировки артефактов, произведенных алгоритмом подавления.
Мы определяем (требуемый) новый выходной сигнал
Figure 00000036
где
Figure 00000037
и
Figure 00000038
- управляющие параметры для разностной реверберации и шума. Перестраивая уравнение и заменяя неизвестные переменные доступными оценками, мы можем вычислить управляемые выходные сигналы (например, выходной сигнал (412)
Figure 00000039
,
как показано на фиг. 4. Этапы 301 и 302 опущены на этой фиг. 4 (но в некоторых случаях могут быть добавлены).
Для дополнительного спектрального и динамического оформления разностной реверберации опциональная обработка сигнала реверберации
Figure 00000040
может быть вставлена, как показано на фиг. 4 в блоке 305 (например, как показано на фиг. 5). Выходной сигнал с оформлением реверберации тогда вычисляется как
Figure 00000041
где
Figure 00000042
- оформленный сигнал реверберации блока 305. Оформление реверберации может быть выполнено, например, посредством эквалайзера или компрессора/декомпрессора, традиционно используемых в производстве музыкальной и аудиопродукции.
3. Варианты осуществления в соответствии с фиг. 7 и 9
Далее будут описаны дополнительные варианты осуществления для онлайнового подавления реверберации и шума на основе линейного предсказания с использованием чередующихся фильтров Калмана.
Например, будет описано онлайновое подавление реверберации и шума на основе линейного предсказания с использованием чередующихся фильтров Калмана.
3.1 Введение и обзор
Далее будут описан обзор вариантов осуществления, лежащих в основе концепции в соответствии настоящим изобретением.
Подавление реверберации на основе многоканального линейного предсказания в области оконного преобразования Фурье (STFT), как было показано, является очень эффективным. Однако было обнаружено, что использование таких способов при наличии шума, особенно в случае онлайновой обработки, остается сложной проблемой. Чтобы решить эту проблему, был предложен алгоритм чередующейся минимизации, который состоит из двух интерактивных фильтров Калмана, для оценки бесшумного реверберирующего сигнала, и многоканальные авторегрессивные (MAR) коэффициенты. Тогда требуемые сигналы с подавленной реверберацией получаются посредством фильтрации бесшумных сигналов (или сигналов с подавленным шумом) с использованием оценочных коэффициентов MAR.
Было обнаружено, что существующие последовательные структуры улучшения, используемые для сходных задач, имеют проблему причинной связи, состоящую в том, что и стадия оптимального шумоподавления, и стадия реверберации зависят от текущего выхода друг друга. Чтобы преодолеть эту проблему причинной связи, разработана новая параллельная двойная структура Калмана, которая решает проблемы с использованием чередующихся фильтров Калмана. Было обнаружено, что эта причинная связь является важной в переменных во времени акустических сценариях, в которых коэффициенты MAR не стационарны.
Предложенный способ оценивается с использованием смоделированных и измеренных акустических импульсных характеристик и сравнивается со способом на основе такой же модели сигнала. Кроме того, независимо описан способ (и концепция) для управления величиной подавления реверберации и шума.
Итак, варианты осуществления в соответствии с изобретением могут использоваться для подавления реверберации. Варианты осуществления в соответствии с изобретением используют многоканальное линейное предсказание и авторегрессивную модель. Варианты осуществления в соответствии с изобретением используют фильтр Калмана, предпочтительно в сочетании с чередующейся минимизацией.
В настоящей заявке (и, в частности, в этом разделе) предложен способ (и концепция) на основе модели реверберации MAR для подавления реверберации и шума с использованием онлайнового алгоритма. Предлагаемое решение имеет преимущества перед бесшумным решением, представленным в [3], где коэффициенты MAR смоделированы изменяющейся во времени моделью Маркова первого порядка. Чтобы получить требуемые речевые сигналы с подавленной реверберацией, возможно оценить коэффициенты MAR и бесшумный реверберирующий речевой сигнал.
Предлагаемое решение имеет несколько преимуществ над традиционными решениями: Во-первых, в отличие от последовательного сигнала и способов оценки авторегрессивных (AR) параметров, используемых для шумоподавления, представленного в [8] и [17], предложена параллельная структура оценки в качестве алгоритма чередующейся минимизации, например, два интерактивных фильтра Калмана для оценки коэффициентов MAR и бесшумных реверберирующих сигналов. Эта параллельная структура обеспечивает возможность полностью обусловленной цепи оценки в противоположность последовательной структуре, где стадия шумоподавления использовала бы устаревшие коэффициенты MAR.
Во-вторых, в предложенном способе мы (опционально) предполагаем случайно изменяющийся во времени процесс MAR вместо того, чтобы вычислять независимый от времени линейный фильтр и изменяющийся во времени нелинейный фильтр, как в алгоритме максимизации ожидания (EM), предложенном в [31]. В-третьих, предложенный алгоритм и концепция не требуют многократных итераций на каждый временной кадр, а могут представлять собой адаптивный алгоритм, который сходится со временем. Наконец, в качестве опционального расширения, также независимо предложен способ управления величиной подавления реверберации и шума.
Оставшаяся часть этого раздела организована следующим образом.
В подразделе 2 представлены модели сигнала для реверберирующего сигнала, наблюдаемого шума и коэффициентов MAR и изложена проблема. В подразделе 3 два чередующихся фильтра Калмана производятся как часть задачи чередующейся минимизации для оценки коэффициентов MAR и бесшумных сигналов. Опциональная методика управления подавлением реверберации и шума представлена в подразделе 4. В подразделе 5 предложенный способ и концепция оцениваются и сравниваются со способами существующего уровня техники. Некоторые заключения представлены в подразделе 6.
Относительно обозначений следует отметить, что коэффициенты обозначены как полужирные строчные символы, например, a. Матрицы обозначены как полужирные прописные символы, например, A, а скаляры в нормальные прописные символы (например, A). Оценочные количества обозначены как
Figure 00000043
, например,
Figure 00000044
.
В вариантах осуществления оценочные количества в некоторых случаях могут занимать место идеальных количеств.
3.2 Модель сигнала и формулировка проблемы
Предположим, например, имеется массив из
Figure 00000045
микрофонов с произвольной направленностью и произвольной геометрией. Сигналы микрофона заданы в области преобразования STFT как
Figure 00000046
для
Figure 00000047
, где
Figure 00000048
и
Figure 00000049
обозначают соответственно частотные и временные индексы. В векторном обозначении сигналы микрофонов могут быть записаны как
Figure 00000050
. Предположим, что сигнальный вектор микрофона составлен как
Figure 00000051
(1)
где векторы
Figure 00000052
и
Figure 00000053
содержат соответственно реверберирующую речь в каждом микрофоне и аддитивный шум.
A. Многоканальная авторегрессивная модель реверберации
Как предложено в [21, 32, 33], мы моделируем реверберирующий речевой сигнальный вектор
Figure 00000052
как процесс MAR
Figure 00000054
(2)
где вектор
Figure 00000055
содержит требуемую раннюю речь в каждом микрофоне
Figure 00000056
, и матрицы
Figure 00000057
,
Figure 00000058
размером
Figure 00000020
содержат коэффициенты MAR, предсказывающие компонент
Figure 00000059
поздней реверберации на основе прошлых кадров
Figure 00000052
. Требуемый ранний речевой сигнал
Figure 00000060
является новшеством в этом авторегрессивном процессе (также известен как ошибка предсказания в терминологии линейного предсказания). Выбор задержки
Figure 00000061
определяет, сколько ранних отражений мы хотим поддержать в требуемом сигнале, и они должны быть выбраны в зависимости от величины наложения между кадрами преобразования STFT, чтобы было мало или не было никакой корреляции между прямым звуком, содержащимся в
Figure 00000060
, и поздней реверберацией
Figure 00000059
. Длина
Figure 00000062
определяет количество прошлых кадров, которые используются для предсказания реверберирующего сигнала.
Предположим, что требуемый ранний речевой векторный сигнал
Figure 00000063
и вектор шума
Figure 00000064
являются циркулярно комплексными Гауссовыми случайными переменным с нулевым средним значением с соответствующим ковариационными матрицами
Figure 00000065
и
Figure 00000066
. Кроме того, предположим, что
Figure 00000060
и
Figure 00000053
не коррелированы по времени, и обе переменные взаимно не коррелированы.
B. Модель сигнала, сформулированная в двух компактных записях
Чтобы сформулировать функцию стоимости, которая раскладывается на две подфункции стоимости в подразделе 3 в соответствии с концепцией настоящего изобретения, сначала введем две эквивалентно применимых матричных записи, чтобы описать наблюдаемый сигнальный вектор (1). Для более компактной записи в оставшемся описании частотные индексы
Figure 00000048
опущены. Сначала определим значения
Figure 00000067
(3)
Figure 00000068
(4)
где
Figure 00000069
- единичная матрица размера
Figure 00000020
,
Figure 00000021
обозначает произведение Кронекера, и оператор
Figure 00000070
последовательно преобразует столбцы матрицы в вектор. Следовательно,
Figure 00000071
представляет собой вектор-столбец длины
Figure 00000072
, и
Figure 00000073
является разреженной матрицей размера
Figure 00000074
. Используя определения (3) и (4) с моделью сигнала (1) и (2), наблюдаемый сигнальный вектор задается как
Figure 00000075
(5)
где вектор
Figure 00000076
содержит сигналы ранней речи плюс шума, которые, таким образом, имеют ковариационную матрицу
Figure 00000077
.
Вторая компактная запись использует векторы, полученные из столбцов матрицы
Figure 00000078
(6)
Figure 00000079
(7)
обозначенные как подчеркнутые переменные, которые являются вектор-столбцами длины
Figure 00000080
, и матрицами распространения и наблюдения
Figure 00000081
(8)
Figure 00000082
(9)
соответственно, где матрица
Figure 00000083
распространения размера
Figure 00000084
содержит коэффициенты MAR
Figure 00000085
в нижних
Figure 00000045
рядах,
Figure 00000086
обозначает нулевую матрицу размера
Figure 00000087
, и
Figure 00000088
представляет собой матрицу выбора размера
Figure 00000089
. Используя (8) и (9), мы можем в качестве альтернативы переписать (2) и (1) как
Figure 00000090
(10)
Figure 00000091
(11)
Следует отметить, что уравнения (5) и (11) являются эквивалентами, использующими разные обозначения.
C. Стохастическое моделирование пространства состояний коэффициентов MAR
Чтобы смоделировать возможно изменяющиеся во времени акустические среды и нестационарные коэффициенты MAR, из-за ошибок модели области преобразования STFT [3] мы используем модель Маркова первого порядка для описания вектора коэффициентов MAR [6]
Figure 00000092
(12)
Предположим, что матрица перехода
Figure 00000093
является единичной матрицей, в то время как шум процесса
Figure 00000094
моделирует погрешность
Figure 00000071
во времени. Предположим, что
Figure 00000095
представляет собой циркулярно комплексную Гауссову случайную переменную с нулевым средним значением с ковариацией
Figure 00000096
, и что
Figure 00000094
не зависит от времени и не коррелировано с
Figure 00000076
.
Фиг. 6 показывает процесс формирования наблюдаемых сигналов и низлежащие (скрытые) процессы реверберирующих сигналов и коэффициентов MAR.
Со ссылкой на фиг. 6 можно заметить, что входной сигнал s(n) накладывается на выходной сигнал фильтра, определенного коэффициентами c(n). В соответствии с этим получается сигнал x(n). Фильтр, имеющий коэффициенты c(n), принимает в качестве входного сигнала сумму задержанной версии сигнала x(n) и требуемого раннего речевого сигнала s(n). Коэффициенты c(n) фильтра могут изменяться во времени, причем предполагается, что предыдущее множество коэффициентов фильтра масштабируется матрицей A и затрагивается “шумом процесса” w(n).
Кроме того, в модели сигнала y(n) предполагается, что сигнал v(n) фонового шума добавляется к реверберирующему сигналу x(n).
Однако следует отметить, что генеративную модель реверберирующего сигнала, многоканальных авторегрессивных коэффициентов и наблюдаемого шума, проиллюстрированную на фиг. 6, следует рассматривать только в качестве примера.
D. Формулировка проблемы
Наша цель состоит в том, чтобы получить оценку ранних речевых сигналов
Figure 00000097
. Вместо того, чтобы непосредственно оценивать
Figure 00000097
, мы предлагаем сначала оценить бесшумные реверберирующие сигналы
Figure 00000098
и коэффициенты MAR
Figure 00000071
, обозначенные как
Figure 00000099
и
Figure 00000100
. Тогда мы сможем получить оценку требуемых сигналов, применяя коэффициенты MAR методом конечного фильтра MIMO к реверберирующим сигналам, т.е.
Figure 00000101
(13)
где
Figure 00000102
строится с использованием (3) с
Figure 00000099
, и
Figure 00000103
рассматривается как оценочная поздняя реверберация. В следующем подразделе мы показываем, как можно совместно оценить
Figure 00000098
и
Figure 00000071
.
3.3 Оценка MMSE, посредством чередующейся минимизации
Далее будет описана концепция в соответствии с вариантом осуществления настоящего изобретения.
Полученный из столбца матрицы вектор
Figure 00000104
реверберирующий речевого сигнала и вектор коэффициентов MAR
Figure 00000071
(который инкапсулирован в
Figure 00000083
) могут быть оценены в смысле MMSE посредством минимизации функции стоимости
Figure 00000105
(14)
Для упрощения в соответствии с аспектом изобретения проблема оценки (14) для получения аналитического решения обратимся к методике чередующейся минимизации [23], которая минимизирует функцию стоимости для каждой переменной отдельно, сохраняя другую переменную зафиксированной и используя доступное оценочное значение. Эти две подфункциями стоимости, в которых соответствующая другая переменная предполагается зафиксированной, заданы как
Figure 00000106
(15)
Figure 00000107
(16)
Следует отметить, что для решения уравнения (15) в кадре
Figure 00000049
достаточно знать задержанный полученный из столбца матрицы вектор
Figure 00000108
, чтобы построить
Figure 00000109
, поскольку модель сигнала (5) во временном кадре
Figure 00000049
зависит только от прошлых значений
Figure 00000098
с
Figure 00000061
. Таким образом, мы можем заявить для заданной модели
Figure 00000110
.
Посредством замены детерминированных зависимостей функций стоимости (15) и (16) в
Figure 00000104
и
Figure 00000071
доступными оценками мы естественным образом приходим к процедуре чередующейся минимизации для каждого временного шага
Figure 00000049
:
Figure 00000111
(17)
Figure 00000112
(18)
Порядок следования решения (17) перед (18) в некоторых вариантах осуществления особенно важен, если коэффициенты
Figure 00000071
изменяются во времени. Хотя схождение глобальной функции стоимости (14) к глобальному минимуму не гарантируется, она сходится к локальным минимумам, если (15) и (16) уменьшаются по-отдельности. Для данной модели сигнала уравнения (15) и (16) могут быть решены с использованием фильтра Калмана [14].
Полученная в результате процедура (или концепция) оценки требуемого сигнального вектора
Figure 00000097
посредством (13) приводит к следующим трем шагам, которые также изложены на фиг. 7.
1. Оценить коэффициенты MAR
Figure 00000071
на основе наблюдаемых шумных сигналов (например, y(n), и задержанных бесшумных сигналов
Figure 00000113
для
Figure 00000114
, которые, как предполагается, детерминированы и известны. На практике эти сигналы заменяются на оценки
Figure 00000115
, полученные из второго фильтра Калмана на этапе 2.
2. Оценить реверберирующие сигналы микрофонов
Figure 00000104
посредством использования авторегрессивной модели. Этот этап рассматривается как стадия шумоподавления. Здесь предполагается, что коэффициенты MAR
Figure 00000071
детерминированы и известны. На практике коэффициенты MAR получаются как оценки
Figure 00000100
из этапа 1. Полученный фильтр Калмана сходен более мягкому Калману, используемому в [30].
3. На основе оценочных коэффициентов MAR
Figure 00000100
и задержанных версий бесшумных сигналов
Figure 00000099
может быть получена оценка
Figure 00000116
(n) поздней реверберации
Figure 00000117
. Тогда требуемый сигнал
Figure 00000118
(n) получается посредством вычитания оценочной реверберации из бесшумного сигнала с использованием (13) (опционально).
Стадия шумоподавления в некоторых случаях требует статистики шума второго порядка, как обозначено серым блоком оценки на фиг. 7. Существуют сложные способы оценки статистики шума второго порядка, например, [9, 19, 28]. Далее мы предполагаем, что статистика шума известна.
Далее будут описан возможный простой вариант осуществления и некоторые опциональные подробности со ссылкой на фиг. 7, которая показывает блок-схему предложенной параллельной двойной структуры фильтров Калмана (в соответствии с вариантом осуществления изобретения). Здесь следует отметить, что процедура с тремя этапами, показанная на фиг. 7, гарантирует, что все блоки принимают текущие оценки параметров без задержки на каждом временном шаге n. Для серого блока оценки шума (например, для оценки статистики шума) существуют несколько подходящих решений, которые выходят за рамки настоящей заявки.
Как можно видеть, процессор сигналов или устройство 700 в соответствии с фиг. 7 содержит блок 701 оценки статистики шума, блок 702 оценки коэффициентов AR (который может, например, содержать или использовать фильтр Калмана) и блок 703 шумоподавления, который может, например, содержать или использовать фильтр Калмана, использующий модель реверберирующего сигнала AR. Кроме того, устройство 700 содержит блок 704 оценки реверберации. Устройство 700 выполнено с возможностью принимать входной сигнал 710 и обеспечивать выходной сигнал 712.
Например, блок 701 оценки статистики шума может принимать входной сигнал 710 и обеспечивать на его основе информацию 701a о статистике шума, которая также может быть назначена как ф v (n) (например, в соответствии с этапом 3 «Алгоритма 1»).
Блок 702 оценки коэффициентов AR может, например, принимать входной сигнал 710, а также задержанную версию сигнала 720a с подавленным шумом (и обычно реверберирующего), который может быть обозначен как
Figure 00000119
(n-D) (или который может быть представлен как
Figure 00000120
). Например, блок 702 оценки коэффициентов AR будет выполнять оценку коэффициентов MAR c(n) на основе наблюдаемых сигналов шума (например, y(n)) и задержанных сигналов с подавленным шумом (или бесшумных)
Figure 00000119
(n-D)). Например, блок 702 оценки коэффициента AR может быть выполнен с возможностью выполнять функциональность, определенную уравнениями (20)-(25) и/или в соответствии с этапами 4-6 “Алгоритма 1”, причем фильтр 702 оценки коэффициентов AR также может получать оценку ковариации погрешности ф w (n) и ковариацию ф u (n).
Блок 703 шумоподавления принимает входной сигнал 710, информацию 701a о статистике шума и информацию 702a об оценочных коэффициентах MAR (также обозначаемую как
Figure 00000121
(n)). Кроме того, блок 703 шумоподавление может, например, обеспечить оценку сигнала 703a подавленного шума (но обычно реверберирующего), который также обозначается как
Figure 00000119
(n). Например, блок 703 шумоподавления может выполнять функциональность, определенную уравнениями (31)-(36), и/или в соответствии с этапами 7-9 “алгоритма 1”. Кроме того, следует отметить, что этапы 4-6 “алгоритма 1” могут быть выполнены блоком 702 оценки коэффициентов AR.
Кроме того, следует отметить, что блок 720 задержки может производить задержанную версию 720a из сигнала 703a с подавленным шумом.
Блок 704 оценки реверберации может производить сигнал 704a реверберации (который также обозначается как
Figure 00000122
(n)) из задержанной версии сокращенного сигнала 720a шума, учитывая коэффициенты 702a MAR. Например, блок 704 оценки реверберации может оценить сигнал 704a реверберации, как показано в уравнении (13).
Блок 730 вычитания может вычитать оценочный сигнал 704a реверберации из сигнала 703a с подавленным шумом, например, как показано в уравнении (13). В соответствии с этим получается выходной сигнал 712 (также обозначаемый как
Figure 00000123
(n)).
Таким образом, модуль оценки реверберации и модуль вычитания могут выполнить этап 10 «Алгоритма 1».
Относительно функциональности устройства 700 следует отметить, что устройство 700 в качестве альтернативы может, использовать разные концепции для оценки сигнала 703 с подавленным шумом и для оценки коэффициентов 702 MAR.
С другой стороны, устройство 700 может быть дополнено любыми из признаков, функций и элементов, описанных в настоящем документе, например, относительно фильтрации Калмана и/или относительно оценки статистических параметров, таких как ф u (n), ф w (n), ф s (n), ф v (n).
Однако следует отметить, что любые из подробностей, описанных со ссылкой на фиг. 7, должны рассматриваться опциональные.
Предложенная структура преодолевает проблему причинной связи обычно используемых последовательных структур для сигнала AR и оценки параметра [8], [31], причем каждый этап оценки требует текущей оценки друг от друга. Такие традиционные последовательные структуры проиллюстрированы на фиг. 8 для заданной модели сигнала, причем в этом случае стадия шумоподавления принимает задержанные коэффициенты MAR. Это было бы недостаточно оптимально в случае изменяющихся во времени коэффициентов
Figure 00000071
.
В отличие от соответствующих способов оценки параметра состояния [8], [17] наш требуемый сигнал не является переменной состояния, а представляет собой сигнал, полученный на основе обеих оценок состояния (13).
Далее будут описаны дополнительные (опциональные) подробности относительно оценки коэффициентов MAR и относительно шумоподавления. Кроме того, будут описаны некоторые подробности относительно оценки параметров. Однако следует отметить, что все эти подробности рассматриваются как опциональные. В некоторых случаях эти подробности могут быть добавлены к вариантам осуществления, описанным в настоящем документе и определенным в формуле изобретения, как индивидуально, так и в комбинации.
A. Оптимальная последовательная оценка коэффициентов MAR
В этом подразделе с учетом знания о задержанных реверберирующих сигналах
Figure 00000098
, которые оцениваются, как показано на фиг. 7, мы производим фильтр Калмана для оценки коэффициентов MAR.
1) Фильтр Калмана для оценки коэффициентов MAR
Предположим, что мы знаем прошлые реверберирующие сигналы, содержавшиеся в матрице
Figure 00000109
. Далее рассмотрим (12) и (5) как уравнения состояния и наблюдения, соответственно. Учитывая, что
Figure 00000094
и
Figure 00000076
представляют собой процессы Гауссова шума с нулевыми средними значениями, которые взаимно не коррелированы, мы можем получить оптимальную последовательную оценку вектора коэффициентов MAR, минимизируя след матрицы ошибки
Figure 00000124
(19)
Решение получается, например, с использованием уравнений известных фильтров Калмана [3, 14]
Figure 00000125
(20)
Figure 00000126
(21)
Figure 00000127
(22)
Figure 00000128
(23)
Figure 00000129
Figure 00000130
(24)
Figure 00000131
(25)
где
Figure 00000132
называется коэффициентом усиления Калмана, и
Figure 00000133
представляет собой ошибку предсказания. Следует отметить, что ошибка предсказания является оценкой вектора
Figure 00000076
ранней речи плюс шума, используя предсказанные коэффициенты MAR, т.е.
Figure 00000134
.
2) Оценка параметров
Матрица
Figure 00000109
, содержащая только задержанные кадры реверберирующих сигналов
Figure 00000098
, оценивается с использованием второго фильтра Калмана, описанного в подразделе 3. B.
Предположим
Figure 00000093
и ковариация шума погрешности
Figure 00000135
, причем предлагаем оценить скалярную дисперсию
Figure 00000136
посредством [6]
Figure 00000137
(26)
и
Figure 00000138
- малое положительное число для моделирования непрерывной изменчивости коэффициентов MAR, если разность между последующими оценочными коэффициентами равна нулю.
Ковариация
Figure 00000139
может быть оценена в смысле ML, как предложено в [3], при условии, что функция плотности распределения вероятности
Figure 00000140
, где
Figure 00000141
- текущие доступные оценки параметра в кадре
Figure 00000049
. Предполагая стационарность
Figure 00000139
в пределах
Figure 00000142
кадров, оценка ML, при условии, что текущая доступная информация получена как
Figure 00000143
(27)
где
Figure 00000144
и
Figure 00000134
- предсказанный сигнал речи плюс шума, поскольку
Figure 00000100
еще не доступно.
На практике среднее арифметическое в (27) может быть заменено рекурсивным средним значением, приводящим к рекурсивной оценке
Figure 00000145
(28)
где рекурсивная оценка ковариации, которая может быть вычислена только для предыдущего кадра, получена как
Figure 00000146
(29)
и
Figure 00000147
- коэффициент рекурсивного усреднения.
B. Оптимальное последовательное шумоподавление
В этом подразделе с учетом знания о текущих коэффициентах MAR
Figure 00000071
, которые оценены, как показано на фиг. 7, мы производим второй фильтр Калмана для оценки вектора
Figure 00000104
бесшумных реверберирующих сигналов.
1) Фильтр Калмана для шумоподавления
Предполагая коэффициенты MAR
Figure 00000071
, соответственно матрицу
Figure 00000083
, как заданные, и рассматривая полученный из столбца матрицы вектор
Figure 00000104
реверберирующих сигналов, содержащий самые последние
Figure 00000148
кадров
Figure 00000098
как переменную состояния, мы рассматриваем (10) и (11) как уравнения наблюдения и состояния. Вследствие предположений на
Figure 00000097
и (7),
Figure 00000149
также является Гауссовской случайной переменной с нулевым средним значением, и ее ковариационная матрица
Figure 00000150
содержит
Figure 00000151
в правом нижнем углу и нули во всех других местах.
При условии, что
Figure 00000149
и
Figure 00000152
являются процессами Гауссова шума с нулевыми средними значениями, которые взаимно не коррелированы, мы можем получить оптимальную последовательную оценку
Figure 00000104
, минимизируя след матрицы ошибки
Figure 00000153
(30)
Стандартные уравнения фильтрации Калмана для оценки вектора состояния
Figure 00000104
заданы предсказаниями
Figure 00000154
(31)
Figure 00000155
(32)
и обновлениями
Figure 00000156
Figure 00000157
(33)
Figure 00000158
(34)
Figure 00000159
(35)
Figure 00000160
(36)
где
Figure 00000161
и
Figure 00000162
- коэффициент усиления Калмана и ошибка предсказания фильтра Калмана с шумоподавлением.
Вектор оценочных бесшумных реверберирующих сигналов в кадре
Figure 00000049
содержится в векторе состояния и задан как
Figure 00000163
.
2) Оценка параметров
Предполагается, что ковариационная матрица шума
Figure 00000164
известна. Для стационарного шума она может быть оценена на основе сигналов микрофонов в отсутствие речи, например, с использованием способов, предложенных в [9, 19, 28].
Кроме того, мы должны оценить
Figure 00000165
, т.е., требуемую ковариационную матрицу речи
Figure 00000151
. Чтобы сократить музыкальные тона, являющиеся результатом процедуры шумоподавления, выполненной фильтром Калмана, используем направленный на решение подход [7] для оценки текущий ковариационной матрицы речи
Figure 00000151
, которая представляет собой в этом случае взвешивание между апостериорной оценкой
Figure 00000166
в предыдущем кадре и априорной оценкой
Figure 00000167
в текущем кадре. Направленная на решение оценка задана как
Figure 00000168
(37)
где
Figure 00000169
- направленный на решение весовой параметр. Для сокращения музыкальных тонов параметр обычно выбирается таким, чтобы поместить больший вес на предыдущую апостериорную оценку.
Рекурсивная апостериорная оценка ML получается как
Figure 00000170
(38)
где
Figure 00000147
- коэффициент рекурсивного усреднения.
Чтобы получить априорную оценку
Figure 00000171
, производим MWF, т.е.
Figure 00000172
(39)
Вставляя (10) в (11), можем переписать вектор наблюдаемого сигнала как
Figure 00000173
(40)
где все три компонента взаимно не коррелированы. Следует отметить, что оценки всех компонентов поздней реверберации
Figure 00000117
в этот момент уже доступны. Мгновенная оценка
Figure 00000151
с использованием блока оценки MMSE при условии текущей доступной информации тогда получается как
Figure 00000174
(41)
Матрица фильтра MWF задана как
Figure 00000175
(42)
где
Figure 00000176
и
Figure 00000177
оценены с использованием рекурсивного усреднения из сигналов
Figure 00000178
и
Figure 00000103
, аналогично (38).
C. Обзор алгоритма
Пример полного алгоритма изложен в следующем «Алгоритме 1».
___________________________________________________________
Алгоритм 1: Предложенный алгоритм на каждую частотную полосу
Figure 00000048
1. Инициализировать:
Figure 00000179
,
Figure 00000180
,
Figure 00000181
,
Figure 00000182
2. для каждого
Figure 00000183
выполнить
3. Оценить ковариацию шума
Figure 00000164
, например, с использованием [9]
4.
Figure 00000184
5. Вычислить
Figure 00000185
с использованием (26)
6. Получить
Figure 00000100
с использованием (37) посредством вычисления (20)-(22), (27), (23)-(25)
7.
Figure 00000186
8.
Figure 00000187
с использованием (37)
9. Получить
Figure 00000188
посредством вычисления (32)-(35)
10. Оценить требуемый сигнал посредством (13)
11. конец для каждого
___________________________________________________________
Инициализация фильтров Калмана не является критичной. Начальная фаза схождения может быть улучшена, если доступны хорошие первоначальные оценки переменных состояния, но на практике алгоритм всегда сходится и остается стабильным.
Хотя предложенный алгоритм отлично подходит для приложений обработки в реальном времени, его вычислительная сложность довольно высока. Сложность зависит от количества
Figure 00000045
микрофонов и длины
Figure 00000148
фильтра на каждую частоту и количества частотных полос.
3.4. Управление подавлением
В некоторых приложениях полезно иметь независимый контроль над подавлением нежелательных звуковых компонентов, таких как реверберация и шум. Таким образом, мы показываем, каким образом (в некоторых случаях) вычислить альтернативный выходной сигнал
Figure 00000189
, когда мы управляем подавлением реверберации и шума. Другими словами, функциональность, описанная в этом подразделе, можно рассмотреть как опциональную.
Требуемый управляемый выходной сигналом задан как
Figure 00000190
(43)
где
Figure 00000037
и
Figure 00000038
- коэффициенты ослабления реверберации и шума. Перестраивая уравнение (43) с использованием (5) и заменяя неизвестные переменные доступными оценками, можем вычислить требуемые управляемые выходные сигналы как
Figure 00000191
(44)
Следует отметить, что для
Figure 00000192
вывод
Figure 00000193
идентичен ранней речевой оценке
Figure 00000194
, и для
Figure 00000195
, вывод
Figure 00000193
равен
Figure 00000178
.
Обычно алгоритмы улучшения речи имеют компромисс между величиной подавления взаимных помех и артефактами, такими как искажение речи или музыкальные тона. Чтобы сократить слышимые артефакты в периоды, когда фильтр Калмана оценки коэффициентов MAR быстро адаптируется и проявляет большую ошибку предсказания, мы в некоторых случаях используем ковариационную матрицу оценочной ошибки
Figure 00000196
, заданную посредством (24), чтобы адаптивно управлять коэффициентом ослабления реверберации
Figure 00000037
. Если ошибка фильтра Калмана высока, нам хотелось бы, чтобы коэффициент ослабления
Figure 00000037
был близок к единице. Например, мы предлагаем вычислить коэффициент ослабления реверберации во временном кадре
Figure 00000049
посредством эвристически выбранной функции преобразования
Figure 00000197
(45)
где фиксированная нижняя граница
Figure 00000198
ограничивает разрешенное ослабление реверберации, и коэффициент
Figure 00000199
управляет ослаблением в зависимости от ошибки Калмана.
Структура предложенной системы с управлением подавлением проиллюстрирована на фиг. 9. Блок оценки шума здесь опущен, поскольку он также может быть интегрирован в блок шумоподавления.
Другими словами, фиг. 9 показывает устройство или процессор 900 сигналов в соответствии с вариантом осуществления изобретения. Устройство 900 выполнено с возможностью принимать входной сигнал 910 и обеспечивать на его основе обработанный сигнал или выходной сигнал 912. Устройство содержит блок 903 шумоподавления и блок 904 оценки реверберации. Кроме того, следует отметить, что блок 903 шумоподавления может обеспечить сигнал 903a с подавленным шумом, который может быть масштабирован с помощью масштабного коэффициента (1-βv), чтобы получить масштабированную версию 903b сигнала 903a с подавленным шумом. Аналогичным образом, блок 904 оценки реверберации может быть выполнен с возможностью обеспечивать (оценочный) сигнал 904a реверберации, который может быть масштабирован, например, с помощью масштабного коэффициента (1-βr), чтобы получить масштабированный сигнал 904b реверберации. Кроме того, входной сигнал 910 масштабируется, например, с помощью масштабного коэффициента βv, чтобы получить масштабированный входной сигнал. Кроме того, масштабированный входной сигнал, масштабированный сигнал 903b с подавленным шумом и масштабированный сигнал 904b реверберации объединяются, чтобы тем самым получить выходной сигнал 912, причем масштабированный сигнал 904 реверберации может быть вычтен из суммы масштабированного входного сигнала 910a и масштабированного сигнала 903b с подавленным шумом.
Следует отметить, что функциональность устройства 900 может быть сходна с функциональностью описанного выше устройства 400. В соответствии с этим входной сигнал 910 может соответствовать входному сигналу 410, выходной сигнал 912 может соответствовать выходному сигналу 412, блок 903 шумоподавления может соответствовать блоку 303 шумоподавления, блок 904 оценки реверберации может соответствовать блоку 304 оценки реверберации, масштабированный входной сигнал 910a может соответствовать масштабированному входному сигналу 410a, сигнал 903a с подавленным шумом может соответствовать сигналу 303a с подавленным шумом, масштабированный сигнал 903b с подавленным шумом может соответствовать масштабированному сигналу 303b с подавленным шумом, сигнал 904a реверберации может соответствовать сигналу 304a реверберации, и масштабированный сигнал 904b реверберации может соответствовать масштабированному сигналу 304b реверберации.
Кроме того, полная функциональность устройства 900 может быть сходна с полной функциональностью устройства 400, если здесь не будут упомянуты различия.
Блок 903 шумоподавление может содержать функциональность блока 703 шумоподавления. Блок оценки реверберации может содержать функциональность блока 703 оценки реверберации, например, когда он берется в сочетании с блоком 702 оценки коэффициента AR и блоком 720 задержки. Кроме того, блок 903 шумоподавления может принимать информацию о статистике шума, как блок 701 информации о статистике шума, и также может принимать оценочные коэффициенты AR или коэффициенты MAR, как коэффициенты 702a.
В соответствии с этим возможно регулировать характеристики выходного сигнала 912, например, устанавливая параметры βv и βr.
Опционально параметр βr может изменяться во времени и может вычисляться, например, в соответствии с уравнением (45).
3.5 Оценка
В этом подразделе мы оцениваем предложенную систему с использованием экспериментальной установки, описанной в подразделе 3.5-A, проводя сопоставление с двумя сравнительными способами, рассмотренными в подразделе 3.5-B. Результаты показаны в подразделе 3.5-C.
A. Экспериментальная установка (опциональная)
Реверберирующие сигналы были формированы посредством свертки импульсных характеристик помещения (RIR) с безэховыми речевыми сигналами из [5]. Мы использовали характеристики RIR двух разных видов: измеренные характеристики RIR в акустической лаборатории с переменной акустикой в Университете имени Бар-Илана, Израиль и смоделированные характеристики RIR с использованием зеркального способа [1] для движущихся источников. В случае движущихся источников смоделированные характеристики RIR обеспечивают возможность оценки, поскольку в этом случае возможно дополнительно формировать характеристики RIR, содержащие только прямой звук и ранние отражения, чтобы получить целевой сигнал для оценки.
В смоделированном и измеренном случаях мы использовали линейный массив микрофонов, содержащий до
Figure 00000200
всенаправленных микрофонов с интервалом между микрофонами
Figure 00000201
см. Следует отметить, что во всех экспериментах, кроме эксперимента в подразделе 3.5-C1, используются только 2 микрофона с интервалом 11 см. Либо стационарный розовый шум, либо записанный невнятный шум добавлялся к реверберирующим сигналам с некоторым входным отношением сигнал-шум (iSNR). Мы использовали частоту дискретизации 16 кГц, и следующие параметры преобразования STFT: окно Ханна с квадратным корнем длиной 32 мс, 50%-е наложение и длина FFT 1024 отсчетов. Задержка в зависимости от наложения была установлена равной
Figure 00000202
. Коэффициент рекурсивного усреднения составлял
Figure 00000203
с
Figure 00000204
мс, где
Figure 00000205
мс - сдвиг кадра, направленный на решение весовой коэффициент составлял γ=0,98, и мы выбрали
Figure 00000206
. Представляем результаты без RC, т.е.
Figure 00000192
, и с RC с использованием разных настроек для
Figure 00000038
и
Figure 00000198
, причем мы выбрали
Figure 00000207
дБ в уравнении (45).
Для оценки целевые сигналы были формированы как прямой речевой сигнал с ранними отражениями до 32 мс после прямого звукового пика (соответствует задержке
Figure 00000202
кадров). Обработанные сигналы оцениваются с точки зрения кепстрального расстояния (CD) [16], перцептивной оценки качества речи (PESQ) [11], частотно-взвешенного сегментального отношения сигнала к взаимным помехам (fwSSIR) [18], причем реверберация и шум рассматриваются как взаимные помехи, и нормализованного отношения модуляции речи к реверберации (SRMR) [24]. Было продемонстрировано, что эти показатели приводят к разумной корреляции с воспринятой величиной реверберации и общего качества в контексте подавления реверберации [10, 15]. Показатель CD отражает более общее качество и чувствителен к искажению речи, в то время как PESQ, SIR и SRMR более чувствительны к подавлению реверберации/взаимных помех. Мы представляем результаты только для первого микрофона, поскольку все другие микрофоны проявляют такое же поведение.
В. Сравнительные способы (опциональные)
Чтобы показать эффективность и производительность предложенного способа (двойной фильтр Калмана), мы сравниваем его со следующими двумя способами:
одиночный фильтр Калмана: один фильтр Калмана для оценки коэффициентов MAR без шумоподавления, как предложено в [3]. Первоначальный алгоритм не воспринимает аддитивный шум. Однако он все же может использоваться для оценки коэффициентов MAR из сигнала шума и затем получения в качестве вывода отфильтрованного сигнала с подавленной реверберацией, но все еще с шумом.
MAP-EM: В способе, предложенном в [31], коэффициенты MAR оцениваются с использованием Байесовского подхода на основе оценки MAP, и затем оценивается бесшумный требуемый сигнал с использованием алгоритма EM. Алгоритм онлайновый, но процедура EM требует приблизительно 20 итераций на кадр для сходимости.
C. Результаты
1) Зависимость от количества микрофонов. Мы исследовали рабочие характеристики предложенного алгоритма в зависимости от количества микрофонов
Figure 00000045
. Требуемый сигнал с полной продолжительностью 34 с состоял из двух последовательных динамиков в разных позициях: в течение первых 15 с был активным первый динамик, в то время как после 15 с был активным второй динамик. Каждый сигнал динамика был подвергнут свертке с измеренными характеристиками RIR в разных позициях с
Figure 00000208
мс. Стационарный розовый шум был добавлен к реверберирующим сигналам с
Figure 00000209
дБ. Фиг. 10 показывает показатели CD, PESQ, SIR и SRMR для переменного количества микрофонов
Figure 00000045
. Показатели для шумного реверберирующего входного сигнала обозначены светло-серой штриховой линией, и показатель SRMR целевого сигнала, т.е. ранняя речь, обозначен темно-серой штрихпунктирной линией. Для
Figure 00000210
показатель CD больше, чем для входного сигнала, это указывает на ухудшение общего качества, тогда как показатели PESQ, SIR и SRMR пока улучшаются относительно входа, т.е. реверберация и шум подавляются. Рабочие характеристики с точки зрения всех показателей улучшаются с увеличением количества микрофонов.
2) Зависимость от длины фильтра
Эффект длины
Figure 00000148
фильтра был исследован с использованием измеренной характеристики RIR с разными временами реверберации. Как и в первом эксперименте, два не параллельных динамика были активными в разных позициях, и был добавлен стационарный розовый шум с
Figure 00000209
дБ. Фиг. 11 показывает улучшение целевых показателей по сравнению с необработанным сигналом микрофона. Положительные значения указывают улучшение для всех относительных показателей, где
Figure 00000211
обозначает улучшение. Рассматривая данные параметры преобразования STFT, времена реверберации
Figure 00000212
с соответствуют длинам фильтра
Figure 00000213
кадров. Можно заметить, что наилучшие значения показателей CD, PESQ и SIR зависят от времени реверберации, но оптимальные значения получены около 25% от соответствующей продолжительности времени реверберации. Напротив, показатель SRMR монотонно возрастает с увеличением
Figure 00000148
. Следует отметить, что подавление реверберации становится более агрессивным с увеличением
Figure 00000148
. Если подавление слишком агрессивное посредством выбора слишком большого значения
Figure 00000148
, требуемая речь искажается, как
Figure 00000211
CD указывает отрицательными значениями.
3) Сравнение с традиционными способами
Предложенный алгоритм и два сравнительных алгоритма были оценены для двух типов шума при изменении показателей iSNR. Как и в первых экспериментах, требуемый сигнал состоял из двух параллельных динамиков в разных позициях с полной продолжительностью 34 с с использованием измеренных характеристик RIR с
Figure 00000208
мс. Либо стационарный розовый шум, либо записанный невнятный шум был добавлен с изменением iSNR. Таблицы 1 и 2 показывают улучшение целевых показателей по сравнению с необработанным сигналом микрофона при стационарном розовом шуме и при невнятном шуме, соответственно. Следует отметить, что хотя невнятный шум не является краткосрочно стационарным, мы использовали стационарную долгосрочную оценку ковариационной матрицы шума, что является реалистичным для получения оценки на практике.
Можно заметить, что предложенный алгоритм либо без RC, либо с RC превосходит оба конкурирующих алгоритма при всех условиях. RC обеспечивает компромисс между подавлением взаимных помех и желаемым искажением сигнала. CD как индикатор для искажения речи всякий раз лучше с RC, тогда как другие показатели, которые значительно отражают величину подавления взаимных помех, всякий раз достигают немного более высоких результатов без RC при стационарном шуме. Пи невнятном шуме двойной фильтр Калмана с RC приводит к более высокому показателю PESQ при низком iSNR, чем без RC. Это указывает, что RC может помочь улучшить качество, маскируя артефакты при сложных условиях iSNR и при наличии ошибок оценки ковариации шума. Как и ожидалось, в условиях высокого iSNR рабочие характеристики двойного фильтра Калмана становятся сходными с рабочим характеристикам одиночного фильтра Калмана.
4) Отслеживание движущихся динамиков
Движущийся источник моделировался с использованием смоделированных характеристик RIR в маленьком помещении с
Figure 00000214
мс на основе зеркального способа [1, 36]: требуемый источник сначала находился в позиции A, и в течение временного интервала [8, 13] с он непрерывно перемещался из позиции A в позицию B, где он затем оставался в течение оставшегося времени. Позиции A и B находились на расстоянии 2 м.
Фиг. 12 показывает сегментальное улучшение показателей CD, PESQ, SIR и SRMR для этого динамического сценария. В этом эксперименте целевой сигнал для оценки формировался посредством моделирования отражений от стен только до второго порядка.
Мы замечаем, что все показатели уменьшаются во время движения, в то время как после достижения динамиком позиции B показатели снова значительно улучшаются. Сходимость всех способов ведет себя похожим образом, в то время как двойной фильтр Калмана без RC и с RC выполняется лучше всех. Во время движения MAP-EM иногда приводит к более высоким показателям fwSSIR и SRMR, но за счет намного худших показателей CD и PESQ. Управление подавлением улучшает показатель CD, в результате чего улучшение CD всегда остается положительным, и это указывает на то, что показатель RC может сократить искажение речи и артефакты. Следует отметить, что даже если подавление реверберации может стать менее эффективным во время движения источника речи, алгоритм двойного фильтра Калмана не становится нестабильным, и улучшения показателей PESQ, SIR и SRMR всегда были положительными, и
Figure 00000211
CD всегда был положительным посредством использования RC. Это также было подтверждено с использованием реальных записей с движущимися динамиками.
5) Оценка управления подавлением
В этом подразделе мы оцениваем рабочие характеристики RC с точки зрения подавления шума и реверберации посредством предложенной системы. В приложении показано, как могут быть вычислены сигналы разностного шума и реверберации после обработки с помощью RC
Figure 00000215
и
Figure 00000216
для предложенной системы двойного фильтра Калмана. Показатели шумоподавления и подавления реверберации тогда вычисляются как
Figure 00000217
(46)
Figure 00000218
(47)
В этом эксперименте мы смоделировали сценарий с одним динамиком в стационарной позиции с использованием измеренных характеристик RIR в акустической лаборатории с
Figure 00000208
мс. На фиг. 13 показаны пять разных настроек для коэффициентов ослабления: без управления подавлением (
Figure 00000219
), умеренная настройка с
Figure 00000220
дБ, подавление либо только реверберации, либо только шума и настройка с более сильным ослаблением с
Figure 00000221
дБ. Можно заметить, что показатель шумоподавления приводит к требуемым уровням подавления только во время речевых пауз. Показатель подавления реверберации неожиданно показывает, что высокое подавление достигается только во время отсутствия речи. Это не означает, что разностная реверберация слышится больше во время наличия речи, поскольку прямой звук речи при восприятии маскирует разностную реверберацию. В течение первых 5 секунд мы можем наблюдать пониженное подавление реверберации, вызванное адаптивным коэффициентом ослабления реверберации (45), поскольку ошибка фильтра Калмана является высокой во время начальной сходимости.
3.6 Заключение
Далее будут представлены некоторые выводы относительно вариантов осуществления, описанных в этом подразделе.
В соответствии с концепцией настоящего изобретения в качестве варианта осуществления был описан алгоритм чередующейся минимизации на основе двух взаимодействующих фильтров Калмана для оценки многоканальных авторегрессивных параметров и реверберирующего сигнала для подавления шума и реверберации в каждом сигнале микрофона (например, многоканальном сигнале микрофона, который служит в качестве входного сигнала). Предлагаемое решение, использующее рекурсивные фильтры Калмана, подходит для приложений онлайновой обработки.
Эффективность и преимущества рабочих характеристик по сравнению со сходными онлайновыми способами были показаны в разных экспериментах.
Кроме того, были описаны способ и концепция независимого управления подавлением шума и реверберации для маскировки возможных артефактов и подстройки выходного сигнала к перцептивным требованиям. Способ и концепция управления подавлением шума и реверберации могут использоваться в сочетании с концепцией оценки многоканальных авторегрессивных параметров и реверберирующего сигнала (например, как опциональное расширение).
3.7. Приложение: вычисление разностного шума и реверберации
Далее будут описаны некоторые концепции вычисления разностного шума и реверберации, который может использоваться при оценке концепции в соответствии с настоящим изобретением. Однако опционально описанные здесь концепции также могут использоваться в вариантах осуществления в соответствии с изобретением, в которых требуется дополнительная информация относительно обработанных сигналов.
Вычисление разностного шума и реверберации
Чтобы вычислить разностную мощность шума и реверберации на выходе предложенной системы, возможно пропустить эти сигналы через систему.
Пропуская только шум на входе
Figure 00000152
через систему двойного фильтра Калмана вместо
Figure 00000178
, как на фиг. 7, мы получаем на выходе
Figure 00000222
, который представляет собой разностный шум, содержащийся в
Figure 00000194
. Также, принимая во внимание RC, разностный вклад шума
Figure 00000223
в выходном сигнале
Figure 00000189
представляет собой
Figure 00000215
. Обследуя (32), (34) и (36), шум питается через шумоподавление фильтр Калмана уравнением
Figure 00000224
Figure 00000225
(48)
где
Figure 00000223
- вектор разностного шума длины
Figure 00000080
, определенный аналогично уравнению (6), после шумоподавления. Вывод после этапа подавления реверберации получается как
Figure 00000226
(49)
С RC разностный шум задается по аналогии с (44)
Figure 00000227
(50)
Вычисление разностной реверберации
Figure 00000216
является более сложным. Чтобы исключить шум из этого вычисления, сначала подается вектор
Figure 00000098
предсказанных реверберирующих бесшумных сигналов через стадию шумоподавления:
Figure 00000228
Figure 00000229
(51)
где
Figure 00000230
- вывод вектора бесшумного сигнала
Figure 00000098
после стадии шумоподавления. В соответствии с (44) вывод вектора бесшумного сигнала после подавления реверберации и RC получается посредством
Figure 00000231
(52)
где
Figure 00000232
и матрица
Figure 00000233
получены с использованием
Figure 00000234
по аналогии с (3).
Теперь предположим, что вектор бесшумных сигналов после шумоподавления
Figure 00000234
и вектор бесшумных выходных сигналов после подавления реверберации и RC
Figure 00000235
будут составлены как
Figure 00000236
(53)
Figure 00000237
(54)
где
Figure 00000216
обозначает разностную реверберацию на выходе RC
Figure 00000189
. Посредством использования (53) и информации о векторе
Figure 00000097
предсказанного требуемого сигнала можно вычислить сигнал реверберации
Figure 00000238
(55)
Из разности (53) и (54) и с использованием (55) возможно получить разностные сигналы реверберации как
Figure 00000239
(56)
Теперь мы можем проанализировать мощность разностного шума и/или реверберации на выходе и сравнить его с их соответствующей мощностью на входе.
4. Выводы
Далее будут сделаны некоторые выводы.
Варианты осуществления в соответствии с изобретением опционально могут содержать один или более из следующих признаков.
- Прием по меньшей мере одного сигнала микрофона или, в качестве альтернативы, прием по меньшей мере двух сигналов микрофона (опционально).
- Преобразование сигнала микрофона или сигналов микрофонов в частотно-временную область или другую подходящую область (опционально).
- Оценка ковариационной матрицы шума (опционально).
- Использование параллельной структуры оценки для совместной оценки коэффициентов MAR и бесшумного реверберирующего сигнала.
- Коэффициенты MAR оцепеневаются с использованием реверберирующих входных сигналов с шумом и задержанных оценочных реверберирующих выходных сигналов со стадии шумоподавления.
- Стадия шумоподавления принимает текущие оценки коэффициента MAR в каждом кадре (опционально).
- Вычисление выходного сигнала (или в качестве альтернативы выходных сигналов) посредством фильтрации бесшумного реверберирующего сигнала (или в качестве альтернативы бесшумных реверберирующих сигналов) (опционально).
- Вычисление управляемого выходного сигнала (или в качестве альтернативы выходных сигналов) на основе оценочных компонентов сигнала, чтобы установить величину разностного шума и реверберации (опционально).
- Опциональное вычисление модифицированного выходного сигнала (или в качестве альтернативы выходных сигналов) посредством сложения одного или более обработанных/оформленных сигналов реверберации с сигналом с подавленной до определенного уровня реверберацией (или, в качестве альтернативы, с оценочными сигналами с подавленной реверберацией), чтобы достигнуть другой характеристики реверберации в выходном сигнале.
В заключение в настоящем описании разные варианты осуществления изобретения и аспекты были описаны в главе «Способ и устройство для подавления реверберации и шума (с использованием параллельной структуры) с управлением подавлением» (раздел 2) и в главе “Линейное предсказание на основе онлайнового подавления реверберации и шума с использованием чередующегося фильтра Калмана (Раздел 3).
Кроме того, дополнительные варианты осуществления определены приложенной формулой изобретения и в других разделах (например, в разделе «Сущность изобретения» и в разделе 1).
Следует отметить, что любой вариант осуществления, определенный формулой изобретения, может быть дополнен любыми из элементов (например, признаками и функциональностью), описанными в настоящем документе. Кроме того, описанные выше варианты осуществления могут использоваться отдельно, и они могут быть дополнены любыми признаками в другом разделе или любыми признаками, включенными в формулу изобретения.
Кроме того, следует отметить, что индивидуальные аспекты, описанные в настоящем документе, могут использоваться индивидуально или в комбинации. Таким образом, подробности могут быть добавлены к каждому из упомянутых индивидуальных аспектов без добавления подробностей к другим аспектам
Также следует отметить, что настоящее раскрытие описывает явно или неявно признаки, применимые в аудиокодере (устройство для обеспечения закодированного представления входного аудиосигнала) и в аудиодекодере (устройство для обеспечения декодированного представления аудиосигнала на основе закодированного представления). Таким образом, любая из функций, описанных в настоящем документе, может быть использована в контексте аудиокодера и в контексте аудиодекодера.
Кроме того, раскрытые в настоящем документе признаки и функциональность, относящиеся к способу, также могут быть использованы в устройстве (выполненном с возможностью выполнять такой способ или функциональность). Кроме того, любые из признаков и функций, раскрытых в настоящем документе относительно устройства, также может использоваться соответствующим образом. Иными словами, способы, раскрытые в настоящем документе, могут быть дополнены любыми из признаков и функциональности, описанных относительно устройства, и наоборот. Кроме того, любые из вариантов и функций, описанных в настоящем документе, могут быть реализованы в аппаратном и программном обеспечении (или с использованием аппаратного и/или программного обеспечения), или даже в комбинации аппаратного и программного обеспечения, как будет описано в разделе «Альтернативы реализации».
Кроме того, следует отметить, что обработка, описанная в настоящем документе, может быть выполнена (но не обязательно) на каждую частотную полосу или на каждый элемент разрешения по частоте, или для разных областей частот.
Следует отметить, что аспекты изобретения относятся к способу и устройству для онлайнового подавления реверберации и подавления шума с управлением.
Варианты осуществления в соответствии с изобретением создают новую параллельную структуру для совместного подавления реверберации и шума. Реверберирующий сигнал моделируется с использованием узкополосной многоканальной авторегрессивной модели реверберации с изменяющимися во времени коэффициентами, которые представляют нестационарные акустические окружающие среды. В отличие от существующих структур последовательной оценки, варианты осуществления в соответствии с изобретением оценивают бесшумный реверберирующий сигнал и авторегрессивные коэффициенты помещения параллельно, в результате чего предположения на требуются стационарные коэффициенты помещения. Кроме того, предложен способ независимого управления уровнем подавления шума и реверберации.
5. Способ в соответствии с фиг. 14
Фиг. 14 показывает блок-схему последовательности этапов способа 1400 в соответствии с вариантом осуществления настоящего изобретения.
Способ 1400 для обеспечения обработанного аудиосигнала на основе входного аудиосигнала содержит оценку 1410 коэффициентов авторегрессивной модели реверберации с использованием входного аудиосигнала и задержанного реверберирующего сигнала с подавленным шумом, полученного с использованием шумоподавления.
Способ также содержит обеспечение 1420 реверберирующего сигнала с подавленным шумом с использованием входного аудиосигнала и оценочных коэффициентов авторегрессивной модели реверберации.
Способ также содержит производство 1430 выходного сигнала с подавленным шумом и подавленной реверберацией с использованием реверберирующего сигнала с подавленным шумом и оценочных коэффициентов авторегрессивной модели реверберации.
Способ 1400 опционально может быть дополнен любыми из признаков, функций и элементов, описанных в настоящем документе, как отдельно, так и в комбинации.
6. Альтернативы реализации
Хотя некоторые аспекты были описаны в контексте устройства, ясно, что эти аспекты также представляют описание соответствующего способа, где модуль или устройство соответствуют этапу способа или признаку этапа способа. Аналогичным образом аспекты, описанные в контексте этапа способа также представляют описание соответствующего модуля, или элемента, или признака соответствующего устройства. Некоторые или все этапы способа могут быть исполнены посредством (или с использованием) аппаратного устройства, такого как, например, микропроцессора, программируемого компьютера или электронной схемы. В некоторых вариантах осуществления один или более из самых важных этапов способа могут быть исполнены таким устройством.
В зависимости от некоторых требований реализации варианты осуществления изобретения могут быть реализованы в аппаратных средствах или в программном обеспечении. Реализация может быть выполнена с использованием цифрового запоминающего носителя, например гибкого диска, DVD, Blu-ray, CD, ПЗУ (ROM), ППЗУ (PROM), СППЗУ (EPROM), ЭСППЗУ (EEPROM) или флэш-памяти, имеющих сохраненные на них читаемые в электронном виде управляющие сигналы, которые взаимодействуют (или способны взаимодействовать) с программируемой компьютерной системой, в результате чего выполняется соответствующий способ. Таким образом, цифровой запоминающий носитель может являться машиночитаемым.
Некоторые варианты осуществления в соответствии с изобретением содержат носитель данных, имеющий читаемые в электронном виде управляющие сигналы, которые способны взаимодействовать с программируемой компьютерной системой, в результате чего выполняется один из способов, описанных в настоящем документе.
Обычно варианты осуществления настоящего изобретения могут быть реализованы как компьютерный программный продукт с программным кодом, программный код выполнен с возможностью выполнения одного из способов, когда компьютерный программный продукт исполняется на компьютере. Программный код, например, может быть сохранен на машиночитаемом носителе.
Другие варианты осуществления содержат компьютерную программу для выполнения одного из способов, описанных в настоящем документе, сохраненных на машиночитаемом носителе.
Другими словами, вариант осуществления способа изобретения, таким образом, представляет собой компьютерную программу, имеющую программный код для выполнения одного из способов, описанных в настоящем документе, когда компьютерная программа исполняется на компьютере.
Дополнительный вариант осуществления способов изобретения, таким образом, представляет собой носитель данных (или цифровой запоминающий носитель, или машиночитаемый носитель), содержащий записанную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Носитель данных, цифровой запоминающий носитель или носитель с записанными данными обычно является материальными и/или долгого хранения.
Дополнительный вариант осуществления способа изобретения, таким образом, поток данных или последовательность сигналов, представляющих компьютерную программу для выполнения одного из способов, описанных в настоящем документе. Поток данных или последовательность сигналов могут, например, быть выполнен с возможностью быть перенесенными сквозное отверстие соединение обмена данными, например, сквозное отверстие Интернет.
Дополнительный вариант осуществления содержит средство обработки, например компьютер или программируемое логическое устройство, выполненное с возможностью или адаптированное для выполнения одного из способов, описанных в настоящем документе.
Дополнительный вариант осуществления содержит компьютер, имеющий установленную на нем компьютерную программу для выполнения одного из способов, описанных в настоящем документе.
Дополнительный вариант осуществления в соответствии с изобретением содержит устройство или систему, выполненную с возможностью переносить (например, в электронном или оптическом виде) компьютерную программу для выполнения одного из способов, описанных в настоящем документе, к приемнику. Приемник, например, может являться компьютером, мобильным устройством, запоминающим устройством и т.п. Устройство или система, например, могут содержать файловый сервер для переноса компьютерной программы к приемнику.
В некоторых вариантах осуществления программируемое логическое устройство (например, программируемая пользователем вентильная матрица) может использоваться для выполнения некоторой или всей функциональности способов, описанных в настоящем документе. В некоторых вариантах осуществления программируемая пользователем вентильная матрица может взаимодействовать с микропроцессором для выполнения одного из способов, описанных в настоящем документе. Обычно способы предпочтительно выполняются любым аппаратным устройством.
Устройство, описанное в настоящем документе, может быть реализовано с использованием аппаратного устройства, или с использованием компьютера, или с использованием комбинации аппаратного устройства и компьютера.
Устройство, описанное в настоящем документе, или любые компоненты устройства, описанного в настоящем документе, могут быть реализованы по меньшей мере частично в аппаратных средствах и/или в программном обеспечении.
Способы, описанные в настоящем документе, могут быть выполнены с использованием аппаратного устройства, или с использованием компьютера, или с использованием комбинации аппаратного устройства и компьютера.
Способы, описанные в настоящем документе, или любые компоненты устройства, описанного в настоящем документе, могут быть выполнены по меньшей мере частично аппаратными средствами и/или программным обеспечением.
Описанные выше варианты осуществления являются лишь иллюстрацией принципов настоящего изобретения. Подразумевается, что модификации и вариации размещений и подробностей, описанных в настоящем документе, будут очевидны для других специалистов в области техники. Таким образом, подразумевается, что изобретение ограничено только объемом последующей формулы изобретения по патенту, а не конкретными подробностями, представленными посредством описания и разъяснения представленных в настоящем документе вариантов осуществления.
Источники информации
[Yoshioka2009] T. Yoshioka, T. Nakatani, and M. Miyoshi, "Integrated speech enhancement method using noise suppression and dereverberation," IEEE Trans. Audio, Speech, Lang. Process., vol. 17, no. 2, pp. 231-246, Feb 2009.
[Togami2013] M. Togami and Y. Kawaguchi, "Noise robust speech dereverberation with Kalman smoother," in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), May 2013, pp. 7447-7451.
[Yoshioka2013] T. Yoshioka and T. Nakatani, "Dereverberation for reverberation-robust microphone arrays," in Proc. European Signal Processing Conf. (EUSIPCO), Sept 2013, pp. 1-5.
[Togami2015] M. Togami, "Multichannel online speech dereverberation under noisy environments," in Proc. European Signal Processing Conf. (EUSIPCO), Nice, France, Sep. 2015, pp. 1078-1082.
[Yoshioka2012] T. Yoshioka and T. Nakatani, "Generalization of multi-channel linear prediction methods for blind MIMO impulse response shortening," IEEE Trans. Audio, Speech, Lang. Process., vol. 20, no. 10, pp. 2707-2720, Dec. 2012.
[Nakatani2010] T. Nakatani, T. Yoshioka, K. Kinoshita, M. Miyoshi, and J. Biing- Hwang, "Speech dereverberation based on variance-normalized delayed linear prediction," IEEE Trans. Audio, Speech, Lang. Process., vol. 18, no. 7, pp. 1717-1731, 2010.
[Jukic2016] A. Jukic, Z. Wang, T. van Waterschoot, T. Gerkmann, and S. Doclo, "Constrained multi-channel linear prediction for adaptive speech dereverberation," in Proc. Intl. Workshop Acoust. Signal Enhancement (IWAENC), Xi’an, China, Sep. 2016.
[Braun2016] S. Braun and E. A. P. Habets, "Online dereverberation for dynamic scenarios using a Kalman filter with an autoregressive models, " IEEE Signal Process. Lett., vol. 23, no. 12, pp. 1741-1745, Dec. 2016.
[Gerkmann2012] T. Gerkmann and R. C. Hendriks, "Unbiased MMSE-based noise power estimation with low complexity and low tracking delay," IEEE Trans. Audio, Speech, Lang. Process., vol. 20, no. 4, pp. 1383 -1393, May 2012.
[Taseska2012] M. Taseska and E. A. P. Habets, "MMSE-based blind source extraction in diffuse noise fields using a complex coherence-based SAP estimator," in Proc. Intl. Workshop Acoust. Signal Enhancement (IWAENC), Aachen, Germany, Sep. 2012.
[1] J.B. Allen and D.A. Berkley, "Image method for efficiently simulating small-room acoustics," J. Acoust. Soc. Am., vol. 65, no. 4, pp. 943-950, Apr. 1979.
[2] S. Braun and E.A.P. Habets, "A multichannel diffuse power estimator for dereverberation in the presence of multiple sources," EURASIP Journal on Audio, Speech, and Music Processing, vol. 2015, no. 1, pp. 1-14, 2015.
[3] S. Braun and E.A.P. Habets, "Online dereverberation for dynamic scenarios using a Kalman filter with an autoregressive models," IEEE Signal Process. Lett., vol. 23, no. 12, pp. 1741-1745, Dec. 2016.
[4] T. Dietzen, A. Spriet, W. Tirry, S. Doclo, M. Moonen, and T. van Waterschoot, "Partitioned block frequency domain Kalman filter for multi-channel linear prediction based blind speech dereverberation," in Proc. Intl. Workshop Acoust. Signal Enhancement (IWAENC), Xi’an, China, Sep. 2016.
[5] E.B. Union. (1988) Sound quality assessment material recordings for subjective tests. [Онлайн]. Доступен по адресу: http://tech.ebu.ch/publications/sqamcd
[6] G. Enzner and P. Vary, "Frequency-domain adaptive Kalman filter for acoustic echo control in hands-free telephones," Signal Processing, vol. 86, no. 6, pp. 1140-1156, 2006.
[7] Y. Ephraim and D. Malah, "Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator," IEEE Trans. Acoust., Speech, Signal Process., vol. 32, no. 6, pp. 1109-1121, Dec. 1984.
[8] S. Gannot, D. Burshtein, and E. Weinstein, "Iterative and sequential Kalman filter-based speech enhancement algorithms," IEEE Trans. Speech Audio Process., vol. 6, no. 4, pp. 373-385, Jul. 1998.
[9] T. Gerkmann and R.C. Hendriks, "Unbiased MMSE-based noise power estimation with low complexity and low tracking delay," IEEE Trans. Audio, Speech, Lang. Process., vol. 20, no. 4, pp. 1383 -1393, May 2012.
[10] S. Goetze, A. Warzybok, I. Kodrasi, J.O. Jungmann, B. Cauchi, J. Rennies, E.A.P. Habets, A. Mertins, T. Gerkmann, S. Doclo, and B. Kollmeier, "A study on speech quality and speech intelligibility measures for quality assessment of single-channel dereverberation algorithms, " in Proc. Intl. Workshop Acoust. Signal Enhancement (IWAENC), Sep. 2014, pp. 233-237.
[11] ITU-T, Perceptual evaluation of speech quality (PESQ), an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs, International Telecommunications Union (ITU-T) Recommendation P.862, Feb. 2001.
[12] A. Jukic, Z. Wang, T. van Waterschoot, T. Gerkmann, and S. Doclo, "Constrained multi-channel linear prediction for adaptive speech dereverberation," in Proc. Intl. Workshop Acoust. Signal Enhancement (IWAENC), Xi’an, China, Sep. 2016.
[13] A. Jukic, T. van Waterschoot, and S. Doclo, "Adaptive speech dereverberation using constrained sparse multichannel linear prediction," IEEE Signal Process. Lett., vol. 24, no. 1, pp. 101-105, Jan 2017.
[14] R.E. Kalman, "A new approach to linear filtering and prediction problems," Trans. of the ASME Journal of Basic Engineering, vol. 82, no. Series D, pp. 35-45, 1960.
[15] K. Kinoshita, M. Delcroix, S. Gannot, E.A.P. Habets, R. Haeb-Umbach, W. Kellermann, V. Leutnant, R. Maas, T. Nakatani, B. Raj, A. Sehr, and T. Yoshioka, "A summary of the REVERB challenge: state-of-the-art and remaining challenges in reverberant speech processing research, " EURASIP Journal on Advances in Signal Processing, vol. 2016, no. 1, p. 7, Jan 2016.
[16] N. Kitawaki, H. Nagabuchi, and K. Itoh, "Objective quality evaluation for low bit-rate speech coding systems," IEEE J. Sel. Areas Commun., vol. 6, no. 2, pp. 262-273, 1988.
[17] D. Labarre, E. Grivel, Y. Berthoumieu, E. Todini, and M. Najim, "Consistent estimation of autoregressive parameters from noisy observations based on two interacting Kalman filters," Signal Processing, vol. 86, no. 10, pp. 2863-2876, 2006, special Section: Fractional Calculus Applications in Signals and Systems.
[18] P.C. Loizou, Speech Enhancement Theory and Practice. 1em plus 0.5em minus 0.4em Taylor & Francis, 2007.
[19] R. Martin, "Noise power spectral density estimation based on optimal smoothing and minimum statistics," IEEE Trans. Speech Audio Process., vol. 9, pp. 504-512, Jul. 2001.
[20] M. Miyoshi and Y. Kaneda, "Inverse filtering of room acoustics," IEEE Trans. Acoust., Speech, Signal Process., vol. 36, no. 2, pp. 145-152, Feb. 1988.
[21] T. Nakatani, T. Yoshioka, K. Kinoshita, M. Miyoshi, and J. Biing-Hwang, "Speech dereverberation based on variance-normalized delayed linear prediction," IEEE Trans. Audio, Speech, Lang. Process., vol. 18, no. 7, pp. 1717-1731, 2010.
[22] P.A. Naylor and N.D. Gaubitch, Eds., Speech Dereverberation. 1em plus 0.5em minus 0.4em London, UK: Springer, 2010.
[23] U. Niesen, D. Shah, and G.W. Wornell, "Adaptive alternating minimization algorithms," IEEE Transactions on Information Theory, vol. 55, no. 3, pp. 1423-1429, March 2009.
[24] J.F. Santos, M. Senoussaoui, and T.H. Falk, "An updated objective intelligibility estimation metric for normal hearing listeners under noise and reverberation," in Proc. Intl. Workshop Acoust. Signal Enhancement (IWAENC), Antibes, France, Sep. 2014.
[25] D. Schmid, G. Enzner, S. Malik, D. Kolossa, and R. Martin, "Variational Bayesian inference for multichannel dereverberation and noise reduction," IEEE Trans. Audio, Speech, Lang. Process., vol. 22, no. 8, pp. 1320-1335, Aug 2014.
[26] B. Schwartz, S. Gannot, and E. Habets, "Online speech dereverberation using Kalman filter and EM algorithm," IEEE Trans. Audio, Speech, Lang. Process., vol. 23, no. 2, pp. 394-406, 2015.
[27] O. Schwartz, S. Gannot, and E. Habets, "Multi-microphone speech dereverberation and noise reduction using relative early transfer functions," IEEE Trans. Audio, Speech, Lang. Process., vol. 23, no. 2, pp. 240-251, Jan. 2015.
[28] M. Taseska and E.A.P. Habets, "MMSE-based blind source extraction in diffuse noise fields using a complex coherence-based a priori SAP estimator," in Proc. Intl. Workshop Acoust. Signal Enhancement (IWAENC), Sep. 2012.
[29] M. Togami, Y. Kawaguchi, R. Takeda, Y. Obuchi, and N. Nukaga, "Optimized speech dereverberation from probabilistic perspective for time varying acoustic transfer function," IEEE Trans. Audio, Speech, Lang. Process., vol. 21, no. 7, pp. 1369-1380, Jul. 2013.
[30] M. Togami and Y. Kawaguchi, "Noise robust speech dereverberation with Kalman smoother," in Proc. IEEE Intl. Conf. on Acoustics, Speech and Signal Processing (ICASSP), May 2013, pp. 7447-7451.
[31] M. Togami, "Multichannel online speech dereverberation under noisy environments," in Proc. European Signal Processing Conf. (EUSIPCO), Nice, France, Sep. 2015, pp. 1078-1082.
[32] T. Yoshioka, T. Nakatani, and M. Miyoshi, "Integrated speech enhancement method using noise suppression and dereverberation," IEEE Trans. Audio, Speech, Lang. Process., vol. 17, no. 2, pp. 231-246, Feb 2009.
[33] T. Yoshioka and T. Nakatani, "Generalization of multi-channel linear prediction methods for blind MIMO impulse response shortening," IEEE Trans. Audio, Speech, Lang. Process., vol. 20, no. 10, pp. 2707-2720, Dec. 2012.
[34] T. Yoshioka, A. Sehr, M. Delcroix, K. Kinoshita, R. Maas, T. Nakatani, and W. Kellermann, "Making machines understand us in reverberant rooms: Robustness against reverberation for automatic speech recognition," IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 114-126, Nov 2012.
[35] T. Yoshioka and T. Nakatani, "Dereverberation for reverberation-robust microphone arrays," in Proc. European Signal Processing Conf. (EUSIPCO), Sept 2013, pp. 1-5.
[36] [Онлайн]. Доступен по адресу: http://www.audiolabs-erlangen.de/fau/professor/habets/software/signal-generator

Claims (55)

1. Процессор (100; 300; 400; 500; 700; 900) сигналов для обеспечения одного или более обработанных аудиосигналов (112; 312; 412; 512;
Figure 00000240
(n);
Figure 00000241
(n)) на основе одного или более входных аудиосигналов (110; 310; 410; 710; 910; y(n)),
причем процессор сигналов выполнен с возможностью оценивать коэффициенты (
Figure 00000242
(n)) авторегрессивной модели реверберации с использованием одного или более входных аудиосигналов и одного или более задержанных реверберирующих сигналов с подавленным шумом (
Figure 00000243
(n)), полученных с использованием шумоподавления (130; 303; 703; 903); и
причем процессор сигналов выполнен с возможностью обеспечивать один или более реверберирующих сигналов с подавленным шумом (
Figure 00000243
(n)) с использованием входного аудиосигнала и оценочных коэффициентов (124; 302a; 702a;
Figure 00000242
(n)) авторегрессивной модели реверберации; и
причем процессор сигналов выполнен с возможностью производить один или более выходных сигналов с подавленным шумом и с подавленной реверберацией (112; 312; 412; 512;
Figure 00000240
(n);
Figure 00000241
(n)) с использованием одного или более реверберирующих сигналов с подавленным шумом (
Figure 00000243
(n)) и оценочных коэффициентов (
Figure 00000242
(n)) авторегрессивной модели реверберации.
2. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 1, причем процессор сигналов выполнен с возможностью оценивать коэффициенты (
Figure 00000242
(n)) многоканальной авторегрессивной модели реверберации.
3. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 1, причем процессор сигналов выполнен с возможностью использовать оценочные коэффициенты (
Figure 00000242
(n)) авторегрессивной модели реверберации, ассоциированные с текущим обрабатываемым участком входного аудиосигнала, чтобы обеспечить реверберирующий сигнал с подавленным шумом (
Figure 00000243
(n)), ассоциированный с текущим обрабатываемым участком входного аудиосигнала (110; 310; 410; 710; 910; y(n)).
4. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 1, причем процессор сигналов выполнен с возможностью использовать один или более задержанных реверберирующих сигналов с подавленным шумом (
Figure 00000244
), ассоциированных с ранее обработанной частью входного аудиосигнала (110; 310; 410; 710; 910; y(n)) для оценки коэффициентов (
Figure 00000242
(n)) авторегрессивной модели реверберации, ассоциированной с текущей обрабатываемой частью входного аудиосигнала.
5. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 1, причем процессор сигналов выполнен с возможностью поочередно обеспечивать оценочные коэффициенты (
Figure 00000242
(n)) авторегрессивной модели реверберации и части реверберирующих сигналов с подавленным шумом (
Figure 00000244
), и
причем процессор сигналов выполнен с возможностью использовать оценочные коэффициенты (
Figure 00000242
(n)) авторегрессивной модели реверберации для предоставления частей реверберирующего сигнала с подавленным шумом (
Figure 00000244
), и
причем процессор сигналов выполнен с возможностью использовать один или более задержанных реверберирующих сигналов с подавленным шумом (
Figure 00000244
) для оценки коэффициентов (
Figure 00000242
(n)) многоканальной авторегрессивной модели реверберации.
6. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 1, причем процессор сигналов выполнен с возможностью применять алгоритм, который минимизирует функцию стоимости для оценки коэффициентов (
Figure 00000242
(n)) авторегрессивной модели реверберации.
7. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 6, в котором функция стоимости, используемая для оценки коэффициентов (
Figure 00000242
(n)) авторегрессивной модели реверберации, является значением ожидания для среднеквадратической ошибки коэффициентов (
Figure 00000242
(n)) авторегрессивной модели реверберации.
8. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 6, причем процессор сигналов выполнен с возможностью применять алгоритм для минимизации функции стоимости для оценки коэффициентов (
Figure 00000242
(n)) авторегрессивной модели реверберации при допущении, что реверберирующий сигнал с подавленным шумом (
Figure 00000243
(n)) является фиксированным.
9. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 1, причем процессор сигналов выполнен с возможностью применять алгоритм для минимизации функции стоимости для оценки реверберирующего сигнала с подавленным шумом (
Figure 00000244
).
10. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 9, в котором функция стоимости, используемая для оценки реверберирующего сигнала (
Figure 00000245
), представляет собой значение ожидания для среднеквадратической ошибки реверберирующего сигнала (
Figure 00000245
).
11. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 9, причем процессор сигналов выполнен с возможностью применять алгоритм для минимизации функции стоимости для оценки реверберирующего сигнала (
Figure 00000246
) при допущении, что коэффициенты (
Figure 00000242
(n)) авторегрессивной модели реверберации являются фиксированными.
12. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 1, причем процессор сигналов выполнен с возможностью определять компонент реверберации (124; 304a; 704a; 904a;
Figure 00000247
(n)) на основе оценочных коэффициентов (
Figure 00000242
(n)) авторегрессивной модели реверберации и на основе одного или более задержанных реверберирующих сигналов с подавленным шумом (
Figure 00000244
), ассоциированных с ранее обработанной частью входного аудиосигнала (110; 310; 410; 710; 910; y(n)), и
причем процессор сигналов выполнен с возможностью подавлять компонент реверберации (
Figure 00000247
(n)) реверберирующего сигнала с подавленным шумом (
Figure 00000244
), ассоциированного с текущим обрабатываемым участком входного аудиосигнала (110; 310; 410; 710; 910; y(n)), для получения выходного сигнала с подавленным шумом и с подавленной реверберацией (112; 312; 412; 512;
Figure 00000240
(n);
Figure 00000241
(n)).
13. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 1, причем процессор сигналов выполнен с возможностью выполнять взвешенную комбинацию входного аудиосигнала (110; 310; 410; 710; 910; y(n)) и реверберирующего сигнала с подавленным шумом (
Figure 00000243
(n)) и компонента реверберации для получения выходного сигнала с подавленным шумом и с подавленной реверберацией (112; 312; 412; 512;
Figure 00000240
(n);
Figure 00000241
(n)).
14. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 13, причем процессор сигналов выполнен с возможностью также включать в себя сформированную версию (305a,
Figure 00000248
(n)) компонента реверберации (304a,
Figure 00000247
(n)) во взвешенной комбинации.
15. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 1, причем процессор сигналов выполнен с возможностью оценивать статистическую величину (
Figure 00000249
) компонента шума входного аудиосигнала.
16. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 1, причем процессор сигналов выполнен с возможностью оценивать статистическую величину (301a, 701a,
Figure 00000250
) компонента шума входного аудиосигнала в период отсутствия речи.
17. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 1, причем процессор сигналов выполнен с возможностью оценивать коэффициенты (
Figure 00000242
(n)) авторегрессивной модели реверберации с использованием фильтров Калмана.
18. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 1, причем процессор сигналов выполнен с возможностью оценивать коэффициенты (
Figure 00000242
(n)) авторегрессивной модели реверберации на основе
- оценочной матрицы ошибок
Figure 00000251
вектора коэффициентов (
Figure 00000252
(n-1)) авторегрессивной модели реверберации;
- оценочной ковариации
Figure 00000253
шума погрешности вектора коэффициентов (
Figure 00000252
(n)) авторегрессивной модели реверберации;
- предыдущего вектора коэффициентов (
Figure 00000252
(n-1)) авторегрессивной модели реверберации;
- одного или более задержанных реверберирующих сигналов с подавленным шумом (
Figure 00000254
);
- оценочной ковариации
Figure 00000255
, ассоциированной с шумными, но с подавленной реверберацией компонентами сигнала входного аудиосигнала;
- входного аудиосигнала (y(n)).
19. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 1, причем процессор сигналов выполнен с возможностью оценивать реверберирующий сигнал с подавленным шумом (
Figure 00000243
(n)) с использованием фильтра Калмана.
20. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 1, причем процессор сигналов выполнен с возможностью оценивать реверберирующий сигнал с подавленным шумом (
Figure 00000243
(n)) на основе
- оценочной матрицы ошибок
Figure 00000256
реверберирующего сигнала с подавленным шумом (
Figure 00000257
(n-1));
- оценочной ковариации
Figure 00000258
требуемого речевого сигнала;
- одной или более предыдущих оценок реверберирующего сигнала с подавленным шумом (
Figure 00000257
(n-1));
- множества коэффициентов (
Figure 00000252
(n)) авторегрессивной модели реверберации;
- оценочной ковариации шума
Figure 00000259
, ассоциированной с входным аудиосигналом; и
- входного аудиосигнала y(n).
21. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 1, причем процессор сигналов выполнен с возможностью получать оценочную ковариацию (
Figure 00000260
), ассоциированную с шумными, но с подавленной реверберацией компонентами сигнала входного аудиосигнала на основе взвешенной комбинации
- рекурсивной оценки (
Figure 00000261
) ковариации, определенной рекурсивно с использованием предыдущих оценок (
Figure 00000262
(n)) шумных, но с подавленной реверберацией компонентов сигнала входного аудиосигнала; и
- внешнего произведения оценки шумных, но с подавленной реверберацией компонентов сигнала (e(n)) входного аудиосигнала.
22. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 21, в котором рекурсивная оценка (
Figure 00000261
) ковариации основана на оценке шумных, но с подавленной реверберацией компонентов сигнала (
Figure 00000262
(n-1)) входного аудиосигнала, вычисленных с использованием окончательных коэффициентов оценки (
Figure 00000242
(n-1)) авторегрессивной модели реверберации и с использованием окончательной оценки реверберирующего сигнала с подавленным шумом (
Figure 00000243
(n-1)); и/или
причем процессор сигналов выполнен с возможностью получать внешнее произведение шумных, но с подавленной реверберацией компонентов сигнала входного аудиосигнала (e(n)e H(n)) на основе промежуточной оценки (
Figure 00000242
(n|n-1) коэффициентов (
Figure 00000242
(n)) авторегрессивной модели реверберации.
23. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 1, причем процессор сигналов выполнен с возможностью получать оценочную ковариацию (
Figure 00000263
), ассоциированную с компонентом сигнала с подавленным шумом и с подавленной реверберацией (
Figure 00000264
) входного аудиосигнала на основе взвешенной комбинации
- рекурсивной оценки (
Figure 00000265
) ковариации, определенной рекурсивно с использованием предыдущих оценок (
Figure 00000240
(n-1)) компонентов сигнала с подавленным шумом и с подавленной реверберацией (
Figure 00000240
(n-1)) входного аудиосигнала; и
- априорной оценки (
Figure 00000266
) ковариации, которая основана на текущей обрабатываемой части входного аудиосигнала (y(n)).
24. Процессор (100; 300; 400; 500; 700; 900) сигналов по п. 23,
причем процессор сигналов выполнен с возможностью получать рекурсивную оценку (
Figure 00000265
) ковариации на основе оценки компонентов сигнала с подавленным шумом и с подавленной реверберацией (
Figure 00000240
(n-1)) входного аудиосигнала, вычисленных с использованием окончательных оценочных коэффициентов (
Figure 00000242
(n)) авторегрессивной модели реверберации и с использованием окончательной оценки реверберирующего выходного сигнала с подавленным шумом (
Figure 00000243
(n)); и/или
причем процессор сигналов выполнен с возможностью получать априорную оценку (
Figure 00000266
) ковариации с использованием фильтрации Винера входного аудиосигнала,
причем операция фильтрации Винера определена в зависимости от информации ковариации (
Figure 00000267
) относительно входного аудиосигнала в зависимости от информации ковариации (
Figure 00000268
) относительно компонента реверберации входного аудиосигнала и в зависимости от информации ковариации (
Figure 00000250
) относительно шумового компонента входного аудиосигнала.
25. Способ (1400) обеспечения одного или более обработанных аудиосигналов на основе одного или более входных аудиосигналов,
причем способ содержит оценку (1410) коэффициентов (
Figure 00000242
(n)) авторегрессивной модели реверберации с использованием одного или более входных аудиосигналов и одного или более задержанных реверберирующих сигналов с подавленным шумом, полученных с использованием шумоподавления; и
причем способ содержит обеспечение (1420) одного или более реверберирующих сигналов с подавленным шумом (
Figure 00000243
(n)) с использованием одного или более входных аудиосигналов и оценочных коэффициентов (
Figure 00000242
(n)) авторегрессивной модели реверберации; и
причем способ содержит получение (1430) одного или более выходных сигналов с подавленным шумом и с подавленной реверберацией (
Figure 00000240
(n)) с использованием одного или более реверберирующих сигналов с подавленным шумом (
Figure 00000243
(n)) и оценочных коэффициентов (
Figure 00000242
(n)) авторегрессивной модели реверберации.
26. Носитель данных, содержащий записанную на нем компьютерную программу для выполнения способа по п. 25, когда компьютерная программа выполняется на компьютере.
RU2020113933A 2017-09-21 2018-09-20 Процессор сигналов и способ обеспечения обработанного аудиосигнала с подавленным шумом и подавленной реверберацией RU2768514C2 (ru)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP17192396 2017-09-21
EP17192396.4 2017-09-21
EP18158479.8 2018-02-23
EP18158479.8A EP3460795A1 (en) 2017-09-21 2018-02-23 Signal processor and method for providing a processed audio signal reducing noise and reverberation
PCT/EP2018/075529 WO2019057847A1 (en) 2017-09-21 2018-09-20 SIGNAL PROCESSOR AND METHOD FOR PROVIDING A TREATED AUDIO SIGNAL REDUCING NOISE AND REVERB

Publications (3)

Publication Number Publication Date
RU2020113933A RU2020113933A (ru) 2021-10-21
RU2020113933A3 RU2020113933A3 (ru) 2021-10-21
RU2768514C2 true RU2768514C2 (ru) 2022-03-24

Family

ID=60001661

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2020113933A RU2768514C2 (ru) 2017-09-21 2018-09-20 Процессор сигналов и способ обеспечения обработанного аудиосигнала с подавленным шумом и подавленной реверберацией

Country Status (7)

Country Link
US (1) US11133019B2 (ru)
EP (2) EP3460795A1 (ru)
JP (1) JP6894580B2 (ru)
CN (1) CN111512367B (ru)
BR (1) BR112020005809A2 (ru)
RU (1) RU2768514C2 (ru)
WO (1) WO2019057847A1 (ru)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11972767B2 (en) 2019-08-01 2024-04-30 Dolby Laboratories Licensing Corporation Systems and methods for covariance smoothing
CN111933170B (zh) * 2020-07-20 2024-03-29 歌尔科技有限公司 语音信号的处理方法、装置、设备及存储介质
CN112017680A (zh) * 2020-08-26 2020-12-01 西北工业大学 一种去混响方法及装置
CN112017682B (zh) * 2020-09-18 2023-05-23 中科极限元(杭州)智能科技股份有限公司 一种单通道语音同时降噪和去混响系统
CN113160842B (zh) * 2021-03-06 2024-04-09 西安电子科技大学 一种基于mclp的语音去混响方法及系统
CN113115196B (zh) * 2021-04-22 2022-03-29 东莞市声强电子有限公司 降噪耳机的智能测试方法
CN114928659B (zh) * 2022-07-20 2022-09-30 深圳市子恒通讯设备有限公司 一种多路复用通信的排气消声方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6324502B1 (en) * 1996-02-01 2001-11-27 Telefonaktiebolaget Lm Ericsson (Publ) Noisy speech autoregression parameter enhancement method and apparatus
US20110044462A1 (en) * 2008-03-06 2011-02-24 Nippon Telegraph And Telephone Corp. Signal enhancement device, method thereof, program, and recording medium
US20120148056A1 (en) * 2010-12-09 2012-06-14 Michael Syskind Pedersen Method to reduce artifacts in algorithms with fast-varying gain
RU2545384C2 (ru) * 2008-12-18 2015-03-27 Конинклейке Филипс Электроникс Н.В. Активное подавление аудиошумов

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3986457B2 (ja) * 2003-03-28 2007-10-03 日本電信電話株式会社 入力信号推定方法、及び装置、入力信号推定プログラムならびにその記録媒体
CN101416237B (zh) 2006-05-01 2012-05-30 日本电信电话株式会社 基于源和室内声学的概率模型的语音去混响方法和设备
EP2058804B1 (en) * 2007-10-31 2016-12-14 Nuance Communications, Inc. Method for dereverberation of an acoustic signal and system thereof
WO2009110578A1 (ja) 2008-03-03 2009-09-11 日本電信電話株式会社 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体
JP4977100B2 (ja) * 2008-08-11 2012-07-18 日本電信電話株式会社 残響除去装置、残響除去方法、そのプログラムおよび記録媒体
CN101477801B (zh) * 2009-01-22 2012-01-04 东华大学 一种检测和消除数字音频信号中脉冲噪声的方法
EP2541542A1 (en) * 2011-06-27 2013-01-02 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for determining a measure for a perceived level of reverberation, audio processor and method for processing a signal
JP5897343B2 (ja) 2012-02-17 2016-03-30 株式会社日立製作所 残響除去パラメータ推定装置及び方法、残響・エコー除去パラメータ推定装置、残響除去装置、残響・エコー除去装置、並びに、残響除去装置オンライン会議システム
CN102750956B (zh) * 2012-06-18 2014-07-16 歌尔声学股份有限公司 一种单通道语音去混响的方法和装置
EP2701145B1 (en) * 2012-08-24 2016-10-12 Retune DSP ApS Noise estimation for use with noise reduction and echo cancellation in personal communication
EP2747451A1 (en) * 2012-12-21 2014-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Filter and method for informed spatial filtering using multiple instantaneous direction-of-arrivial estimates

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6324502B1 (en) * 1996-02-01 2001-11-27 Telefonaktiebolaget Lm Ericsson (Publ) Noisy speech autoregression parameter enhancement method and apparatus
US20110044462A1 (en) * 2008-03-06 2011-02-24 Nippon Telegraph And Telephone Corp. Signal enhancement device, method thereof, program, and recording medium
RU2545384C2 (ru) * 2008-12-18 2015-03-27 Конинклейке Филипс Электроникс Н.В. Активное подавление аудиошумов
US20120148056A1 (en) * 2010-12-09 2012-06-14 Michael Syskind Pedersen Method to reduce artifacts in algorithms with fast-varying gain

Also Published As

Publication number Publication date
RU2020113933A (ru) 2021-10-21
RU2020113933A3 (ru) 2021-10-21
EP3685378A1 (en) 2020-07-29
US11133019B2 (en) 2021-09-28
CN111512367B (zh) 2023-03-14
BR112020005809A2 (pt) 2020-09-24
CN111512367A (zh) 2020-08-07
EP3460795A1 (en) 2019-03-27
EP3685378B1 (en) 2021-10-13
US20200219524A1 (en) 2020-07-09
JP2020537172A (ja) 2020-12-17
WO2019057847A1 (en) 2019-03-28
JP6894580B2 (ja) 2021-06-30

Similar Documents

Publication Publication Date Title
RU2768514C2 (ru) Процессор сигналов и способ обеспечения обработанного аудиосигнала с подавленным шумом и подавленной реверберацией
Kinoshita et al. Neural Network-Based Spectrum Estimation for Online WPE Dereverberation.
TWI463488B (zh) 包含晚期混響成分模型化之回聲抑制技術
Braun et al. Linear prediction-based online dereverberation and noise reduction using alternating Kalman filters
ES2347760T3 (es) Procedimiento y dispositivo de reduccion de ruido.
EP2237271B1 (en) Method for determining a signal component for reducing noise in an input signal
US10403300B2 (en) Spectral estimation of room acoustic parameters
Habets Speech dereverberation using statistical reverberation models
Braun et al. Online dereverberation for dynamic scenarios using a Kalman filter with an autoregressive model
CN108172231A (zh) 一种基于卡尔曼滤波的去混响方法及系统
US20200286501A1 (en) Apparatus and a method for signal enhancement
Sayoud et al. A dual fast NLMS adaptive filtering algorithm for blind speech quality enhancement
Ghribi et al. A wavelet-based forward BSS algorithm for acoustic noise reduction and speech enhancement
Dietzen et al. Low-complexity Kalman filter for multi-channel linear-prediction-based blind speech dereverberation
Parchami et al. Speech dereverberation using weighted prediction error with correlated inter-frame speech components
JP6190373B2 (ja) オーディオ信号ノイズ減衰
Lollmann et al. A blind speech enhancement algorithm for the suppression of late reverberation and noise
Parchami et al. Speech dereverberation using linear prediction with estimation of early speech spectral variance
Darazirar et al. A two-sensor Gauss–Seidel fast affine projection algorithm for speech enhancement and acoustic noise reduction
Mahbub et al. Single-channel acoustic echo cancellation in noise based on gradient-based adaptive filtering
Fischer et al. Single-microphone speech enhancement using MVDR filtering and Wiener post-filtering
Peng et al. A perceptually motivated LP residual estimator in noisy and reverberant environments
Parchami et al. Model-based estimation of late reverberant spectral variance using modified weighted prediction error method
Braun et al. Low complexity online convolutional beamforming
Dionelis On single-channel speech enhancement and on non-linear modulation-domain Kalman filtering