RU2589298C1 - Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке - Google Patents

Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке Download PDF

Info

Publication number
RU2589298C1
RU2589298C1 RU2014153295/08A RU2014153295A RU2589298C1 RU 2589298 C1 RU2589298 C1 RU 2589298C1 RU 2014153295/08 A RU2014153295/08 A RU 2014153295/08A RU 2014153295 A RU2014153295 A RU 2014153295A RU 2589298 C1 RU2589298 C1 RU 2589298C1
Authority
RU
Russia
Prior art keywords
signal
noise
processing unit
useful signal
dynamic range
Prior art date
Application number
RU2014153295/08A
Other languages
English (en)
Inventor
Максим Иосифович Вашкевич
Илья Сергеевич Азаров
Александр Юрьевич Бредихин
Александр Александрович Петровский
Original Assignee
Александр Юрьевич Бредихин
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Александр Юрьевич Бредихин filed Critical Александр Юрьевич Бредихин
Priority to RU2014153295/08A priority Critical patent/RU2589298C1/ru
Application granted granted Critical
Publication of RU2589298C1 publication Critical patent/RU2589298C1/ru

Links

Images

Landscapes

  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

Изобретение относится к средствам повышения разборчивости и натуральности звучания аудиокомпозиции в акустической шумовой обстановке. Технический результат заключается в повышении разборчивости и натуральности звучания аудиокомпозиции в акустической шумовой обстановке за счет снижения эффекта маскирования полезного звукового сигнала нестационарными акустическими шумами при помощи использования частотно-зависимого адаптивного усиления. Полезный сигнал, поступающий в блок обработки, и шумовой сигнал акустической обстановки, поступающий из окружающего пространства в блок обработки, делят на фреймы. В блок обработки вводят банки фильтров анализа и банки фильтров синтеза, которыми производят субполосную декомпозицию полезного сигнала и сигнала шума акустической обстановки и, соответственно, субполосную композицию измененных амплитудных зависимостей полезного сигнала после обработки компрессором. При субполосной декомпозиции вычисляют энергию в каждой субполосе полезного сигнала и сигнала шума акустической обстановки. В качестве компрессора блока обработки используют адаптивный компрессор динамического диапазона (АКДД), которым изменяют динамический диапазон полезного сигнала. Сигналы в субполосах полезного сигнала умножают на коэффициенты усиления. 2 з.п. ф-лы, 13 ил.

Description

Область техники
Изобретение относится к вычислительной технике, системам мультимедиа и может быть использовано в мобильных мультимедийных устройствах.
Предшествующий уровень техники
Прослушивание различных звуковых сигналов (таких как музыкальные произведения или речевые сообщения) в шумовой обстановке (Фиг. 1) часто бывает затруднительным, поскольку акустический шум v[n] при соответствующей интенсивности маскирует полезный сигнал x[n]. Здесь под термином «Полезный сигнал» понимается сигнал без акустического шума, который «Слушатель» воспринимает как выходной сигнал y[n] блока обработки (фиг. 1) через громкоговоритель в обстановке агрессивного акустического шума. Полезным сигналом x[n] может быть сигнал мультимедийных воспроизводящих устройств, сигнал в системах видеоконференций, громкой связи, IP - телефонии и т.п. В системах связи различного назначения полезный сигнал x[n] - это сигнал дальнего диктора, приходящий из сети, а «Слушатель» - ближний диктор, для которого восприятие сигнала дальнего диктора x[n] затруднено акустическим шумом v[n] окружающей обстановки, в которой он находится. Схема восприятия акустической информации в шумовой обстановке и соответствующие спектрограммы проиллюстрированы фигурами 1 и 2. Например, при покрытии чистого речевого сигнала шумом метрополитена этот речевой сигнал едва может быть идентифицирован (фиг. 2, в).
Обеспечение комфортного прослушивания и достаточной разборчивости в данной обстановке сравнительно легко достигается путем акустического усиления полезного сигнала x[n], что позволяет вывести его из-за порога маскирования шумом v[n].
Большинство звуковоспроизводящих устройств имеет возможность ручной регулировки громкости, которая позволяет слушателю адаптировать режим воспроизведения к различной шумовой обстановке. Однако в контексте повышения разборчивости ручное управление громкостью имеет следующие ограничения:
- ручная регулировка не всегда доступна для оперативной реакции на изменение шумовой обстановки;
- для сигналов, имеющих широкий динамический диапазон, имеющих тихие и громкие фрагменты, нельзя подобрать фиксированный коэффициент усиления, поскольку увеличение громкости, достаточное для прослушивания тихих звуков, приводит к тому, что громкие звуки становятся слишком громкими (возможно превышающими болевой порог);
- усиление выполняется одинаково для всех частотных составляющих сигнала без учета спектральной плотности мощности маскирующего шума.
Известные системы редактирования шума (Phillips С Loizou "Speech enhancement theory and practice" 1st ed. Boca Raton, FL.: CRC, 2007. Releases Taylor & Francis), осуществляющие фильтрацию шума сигнала микрофона ближнего диктора до передачи в сеть. Однако часто требуется повысить разборчивость сигнала дальнего диктора (полезного сигнала x[n]) для ближнего диктора, находящегося в шумной акустической обстановке, когда шум прослушивается без какой-либо возможности быть подавленным.
В 1960-х и 1970-х годах некоторые исследования были сделаны по этой теме, например, (Russell J. Niederjohn and James H. Grotelueschen, "The enhancement of speech intelligibility in high noise levels by highpass filtering followed by rapid amplitude compression," in Proc. of ICASSP, Aug. 1976, vol. 24, pp. 277-282). Для повышения разборчивости речи у ближнего диктора-слушателя предлагается выполнять высокочастотную фильтрацию чистого сигнала дальнего диктора (полезного сигнала x[n]), чтобы усилить более высокие форманты, сопровождаемую амплитудной компрессией, чтобы защититься от искажений белого шума и уменьшить мощность шумовой среды соответственно. Способ предназначен для обработки исключительно речевых сигналов и предполагает наличие в сигнале специфических для речи характеристик, таких как формантные частоты и вокализованные фрагменты. Известный способ не применим к обработке неречевых звуковых сигналов (например, музыкальных произведений).
Существует известное техническое решение задачи повышения разборчивости речи в акустических шумах, основанное на максимизации индекса разборчивости SII (Speech Intelligibility Index), в котором повышение индекса разборчивости SII достигается путем модификации спектра речевого сигнала - полезного сигнала x[n] с учетом спектральной плотности мощности сигнала шума v[n]. (US, №2011/0224976), (В. Sauert and P. Vary, "Near end listening enhancement optimized with respect to speech intelligibility," Proc. 17th European Signal Processing Conference (EUSIPCO), pp. 1844-1849, 2009). Индекс разборчивости речи SII является стандартизированной объективной мерой, которая отражает действительную разборчивость речи для различных неблагоприятных условий прослушивания (American National Standard. Methods for the Calculation of the Speech Intelligibility Index. ANSI S3.5-1997, 1997).
Данная мера разборчивости разработана исключительно для анализа речевых сигналов и не может в исходном виде применяться к произвольным звуковым (например, музыкальным записям) потому, что критерием разборчивости речи является способность идентифицировать отдельные слоги речевого сообщения. Музыкальное же произведение (сообщение) имеет неслоговую структуру и воспринимается слуховой системой при помощи совсем иных интерпретационных механизмов.
Известен способ повышения разборчивости речевого сигнала - полезного сигнала x[n] в шумах с сохранением исходной энергии речевого сигнала (Zorila, Т.-С. Speech-in-noise intelligibility improvement based on spectral shaping and dynamic range compression / T.-C. Zorila, V. Kandida, Y. Stylianou // In Proc. Interspeech, 2012. - Portland, Oregon, 2012. - P. 635-638.).
Способ состоит из двух последовательных этапов, которые осуществляют адаптивное изменение формы спектральной огибающей и расширение/компрессия динамического диапазона. Этот способ обработки основывается на результатах исследования влияния формантной структуры чистой (незашумленной) речи на разборчивость. Адаптивное изменение формы спектральной огибающей выполняется путем подчеркивания формантной структуры речи и уменьшения наклона спектральной огибающей корректирующим фильтром. Степень обработки зависит от уровня вокализованности речевого фрагмента - чем ближе он к гласному звуку, тем сильнее вносимый эффект. Данный способ повышения разборчивости речевого сигнала - полезного сигнала x[n] в шумовой обстановке выполняется в блоке обработки (фиг. 1) и состоит из следующих шагов.
Шаг 1. Вычисляется вероятность Pv[n] (или степень) вокализованности текущего речевого фрейма - «полезного сигнала» x[n]
Figure 00000001
где α=1/max(Pv[n]) является нормирующим множителем, rms[n] - среднеквадратичное значение отсчетов сигнала, z[n] - число переходов через ноль, n - номер отсчета, n=1, 2…N. Статистические оценки rms[n] и z[n] выполняются на одном фрейме речевого сигнала с центром в n-м отсчете сигнала и продолжительностью 8,3 мс либо 4,5 мс в зависимости от того, обрабатывается мужской голос или женский. Фреймы набираются с шагом 10 мс.
Шаг 2. Каждый фрейм речевого сигнала x[n] длиной N отсчетов умножается на окно Хэннинга и вычисляется дискретное преобразование Фурье. Используя амплитудный спектр, оценивается спектральная огибающая сигнала E[ωk], где ωk - угловая частота, k - индекс частотной составляющей. Коррекция огибающей
Figure 00000002
выполняется при помощи трех последовательных фильтров
Figure 00000003
, причем HSk] и Hpk] являются адаптивными фильтрами, а Hrk] - фильтром с постоянными параметрами. Для получения частотной характеристики фильтра HSk] вычисляется наклон спектральной огибающей T[ωk] при помощи следующего выражения:
Figure 00000004
где
Figure 00000005
, cm - кепстральные коэффициенты с индексами m. Затем вычисляется искомая частотная характеристика фильтра
Figure 00000006
Значение параметра β принимается равным 0.25 для малых соотношений сигнал/шум, однако оно может быть уменьшено для менее интенсивных шумов v[n].
Частотная характеристика второго адаптивного фильтра Hpk] вычисляется следующим образом:
Figure 00000007
где ω0=0,125π при частоте дискретизации 16 кГц. Значение коэффициента g может быть постоянным (например, 0,3) либо может изменяться в зависимости от соотношения сигнал/шум.
Частотная характеристика фильтра с постоянными параметрами Hpk] рассчитывается таким образом, чтобы усилить энергию сигнала в диапазоне от 1 кГц до 4 кГц на 12 дБ и ослабить частоты ниже 500 Гц на 6 дБ/октава.
Измененный амплитудный спектр объединяется с исходным фазовым спектром и вычисляется обратное преобразование Фурье. После этого фреймы полученного сигнала суммируются с перекрытием и формируется обработанный сигнал - полезный сигнал x[n] с измененной формой спектральной огибающей, подчеркивающей формантную структуру речевого сигнала.
Шаг 3. Выполняется расширение и компрессия динамического диапазона сигнала х[n], полученного на предыдущем шаге. Для этого вычисляется его амплитудная огибающая
Figure 00000008
при помощи преобразования Гильберта. Затем выполняется компрессия с коротким временем отпускания (примерно 2 мс) и почти мгновенным временем срабатывания:
Figure 00000009
где a r=0,15 и а а=0,0001. Затем сглаженная амплитудная огибающая
Figure 00000008
переводится в децибелы
Figure 00000010
, где индекс in обозначает огибающую входного сигнала компрессора, и при помощи кривой амплитудной характеристики (фиг. 3) компрессора вычисляются значения огибающей eout[n] на его выходе. Величина е0 является опорной величиной, соответствующей 0 дБ.
Амплитудная характеристика компрессора (зависимость уровня амплитудной огибающей eout[n] на выходе компрессора от уровня на входе ein[n]) показывает, что при низких значениях амплитуды входного сигнала x[n] (менее -30 дБ) усиления не происходит - выходной уровень равен входному. При умеренных значениях амплитудной огибающей входного сигнала (от -30 до 0 дБ) происходит его усиление - соответствующая область кривой является областью расширения. При высоких значениях амплитудной огибающей входного сигнала x[n] (более 0 дБ) выполняется ослабление - это область компрессии.
Коэффициент усиления сигнала x[n] вычисляется следующим образом:
Figure 00000011
При этом выходной сигнал y[n] блока обработки (фиг. 1) формируется путем умножения обработанного сигнала x[n] с измененной формой спектральной огибающей, подчеркивающей формантную структуру речевого сигнала, на полученный коэффициент усиления y[n]=g[n]x[n] и нормирования его для сохранения исходной энергии.
Анализ данного способа повышения разборчивости речевых сигналов - полезных сигналов x[n] в шумовой обстановке показывает, что способ предназначен для обработки исключительно речевых сигналов и предполагает наличие в сигнале специфических для речи характеристик, таких как формантные частоты и вокализованные фрагменты, а также подразумевает возможность произвести классификацию диктора (мужчина либо женщина). Способ не применим к обработке неречевых звуковых сигналов (например, музыкальных произведений). Способ сохраняет исходную энергию речевого сигнала, вследствие чего невозможно обеспечить удовлетворительную разборчивость при низких соотношениях сигнал/шум. Даже при наличии идеальных условий (в полной тишине) в обрабатываемый сигнал вносятся искажения. Способ лишь ограниченно учитывает интенсивность шума v[n] и совсем не учитывает его кратковременные спектральные и динамические характеристики. В результате способ плохо применим для нестационарных шумов v[n].
Известен способ повышения разборчивости речевого сигнала - полезного сигнала x[n] путем усиления спектральных составляющих речевого сигнала таким образом, чтобы для каждой из них обеспечивалось требуемое соотношение сигнал/шум. (US №8645129). В общем, алгоритм обработки в этом способе сводится к следующим шагам:
Шаг 1. В блоке обработки (фиг. 1) вычисляются спектры полезного x[n] и шумового сигналов v[n] при помощи кратковременного преобразования Фурье.
Шаг 2. Вычисляются соотношения сигнал/шум для каждой спектральной составляющей и требуемые коэффициенты усиления (коэффициенты вычисляются независимо друг от друга).
Шаг 3. Спектральные составляющие полезного сигнала x[n] умножаются на соответствующие им коэффициенты и переводятся во временную область при помощи обратного преобразования Фурье для формирования выходного сигнала y[n] блока обработки.
Недостатком этого способа является то, что в результате обработки в полезном сигнале x[n] происходит выравнивание амплитуды тихих звуков с потерей их относительной громкости, что приводит к неестественному звучанию. Усиление спектральных компонент выполняется независимо друг от друга, что приводит к потере естественной огибающей обрабатываемого сигнала. Еще одним ограничением способа является то, что он не предназначен для обработки музыкальных произведений, поскольку целью является повышение разборчивости речевого сигнала, имеющего менее широкий динамический диапазон, чем музыкальный диапазон.
Наиболее близким к предлагаемому способу является способ повышения разборчивости речи (Sauert, В. Near end listening enhancement: speech intelligibility improvement in noisy environments / B. Sauert, P. Vary // ICASSP 2006: proc. of the International Conference on Acoustic, Speech, and Signal Processing. - Toulouse, France, 2006. - P. 493-496).
В этом техническом решении входной речевой сигнал блока обработки (фиг. 1) - «полезный акустический сигнал» x[n]. Речевой x[n] и шумовой v[n] сигнал делятся на фреймы длиной N отсчетов с перекрытием в половину длины фрейма (один фрейм соответствует 20 мс):
Figure 00000012
, где i - индекс фрейма обработки. Каждый фрейм умножается на окно Хэннинга и переводится в частотную область при помощи дискретного преобразования Фурье. В результате формируются кратковременные спектры речевого и шумового сигналов, обозначенные далее
Figure 00000013
и
Figure 00000014
соответственно, где Ωµ - дискретная частота и µ - индекс частоты. Спектр речевого сигнала x[n] умножается на коэффициенты усиления
Figure 00000015
и вычисляется измененная амплитуда
Figure 00000016
:
Figure 00000017
Коэффициенты усиления
Figure 00000018
принимают значения большие или равные единице и вычисляются таким образом, чтобы обеспечить соотношение сигнал/шум для каждого частотного отсчета не ниже заданной величины. Таким образом, выполняется ограничение минимального выходного уровня сигнала y[n] на выходе блока обработки в зависимости от уровня шума v[n]. После умножения на коэффициенты усиления полученный образ Фурье с измененной амплитудой
Figure 00000019
, переводится во временную область при помощи обратного преобразования Фурье. Из полученных фреймов формируется выходной сигнал блока обработки y[n] методом сложения с перекрытием.
Компрессор-ограничитель уровня выходного сигнала блока обработки y[n] имеет два входа - спектр полезного сигнала x[n]
Figure 00000020
и спектр
Figure 00000021
сигнала шума v[n]. На выходе блока обработки имеем сигнал y[n] с измененной амплитудой
Figure 00000022
- сигнал на входе громкоговорителя, который воспринимает «Слушатель» (фиг. 1). Обработка сигналов полезного x[n] и шума v[n] в блоке обработки ведется последовательно - фрейм за фреймом.
Шаг 1. Вычисляются средние значения спектральной плотности мощности речевого (полезного) сигнала x[n] и шума v[n], обозначенные соответственно
Figure 00000023
и
Figure 00000024
:
Figure 00000025
Figure 00000026
где αs, αN∈[0,1] являются коэффициентами экспоненциального усреднения и рекомендуется использовать следующие значения αS=0,996 и αN=0,96.
Шаг 2. Вычисляются коэффициенты усиления
Figure 00000027
где ξ - заданное минимальное соотношение сигнал/шум и Gmax - ограничение максимального усиления.
Шаг 3. Ограничение максимальной амплитуды спектральных составляющих выходного сигнала y[n] для предотвращения превышения болевого порога
Figure 00000028
где
Figure 00000029
- максимально допустимые значения амплитуды спектральных составляющих.
Описанный выше способ позволяет повысить разборчивость речи - полезного сигнала x[n], но без учета комфорта восприятия, естественности и натуральности звучания выходного сигнала y[n] на фоне шумов. В результате данное решение применимо в каналах речевой связи, однако неприменимо для прослушивания при внешнем шуме музыкальных произведений, таких как музыка с речевым сопровождением, например песни, или без речевого сопровождения, например пьесы, симфонии и т.п. В известном способе предполагается, что требуемая разборчивость получается при достижении некоторого заданного минимального соотношения сигнал/шум для всех звуков слышимого динамического диапазона. Для чего используется компрессор-ограничитель минимального выходного уровня сигнала y[n] (фиг. 4). Использование ограничителя минимального выходного уровня сигнала y[n] с постоянным выходным уровнем в области ограничения (фиг. 4, точка К на амплитудной характеристике компрессора-ограничителя является точкой перегиба характеристики) приводит к потере натуральности звучания, поскольку в области ограничения теряется градация тихих звуков - на выходе все звуки становятся одной интенсивности. В то же время для сохранения динамических оттенков и повышения натуральности звучания необходимо использовать изменяющийся (от тихого к громкому) выходной уровень в области ограничения.
Можно отметить, что в этом техническом решении усиление каждого частотного отсчета спектра сигнала x[n] выполняется независимо друг от друга. Это приводит к потере относительной громкости между частотными составляющими сигнала, теряется форма его спектральной огибающей и в результате сильно искажается тембр, как показано на фиг. 5.
Спектральный анализ полезного сигнала x[n] и шума v[n] в данном способе выполняется с равным частотным разрешением по всей шкале частот (обусловлено применением дискретного преобразования Фурье) без учета особенностей частотного разрешения слуховой системы слушателя.
Таким образом, этот известный способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке заключается в том, что полезный сигнал x[n], поступающий в блок обработки, и шумовой v[n] сигнал акустической обстановки, поступающий из окружающего пространства в блок обработки, делят на фреймы длиной по N отсчетов с перекрытием в половину длины фрейма, где N - размер фрейма, а n - номер отсчета сигнала во фрейме, n=1, 2…N, обработку фреймов производят в блоке обработки фрейм за фреймом, каждый фрейм умножают на окно Хэннинга и производят декомпозицию полезного сигнала x[n] и шумового сигнала v[n] акустической обстановки на частоты и амплитуды путем дискретного преобразования Фурье, в результате чего формируют кратковременные спектральные зависимости полезного сигнала и шумового сигнала акустической обстановки, изменяют динамический диапазон полезного сигнала и шумового сигнала акустической обстановки в компрессоре блока обработки, для чего кратковременные спектральные зависимости полезного сигнала x[n] умножают на коэффициенты усиления g[n]≥1, обеспечивающие заданное соотношение сигнал/шум для каждого частотного отсчета n, после изменения динамического диапазона производят композицию измененных кратковременных спектральных зависимостей полезного сигнала путем обратного преобразования Фурье, получая скорректированные фреймы, из которых формируют путем сложения с перекрытием выходной сигнал y[n], который из блока обработки передают в окружающее пространство.
Раскрытие изобретения
Решаемая изобретением задача - повышение технико-эксплуатационных характеристик, расширение функциональных возможностей мобильных мультимедийных устройств (смартфонов и планшетов), мультимедийных воспроизводящих устройств, систем видеоконференций, громкой связи, IP - телефонии, колл-центров, усовершенствование слуховых аппаратов, корректирующих звуковой сигнал (во время телефонного разговора и при прослушивании аудиоконтента) в агрессивной акустической шумовой обстановке.
Технический результат, который может быть получен при реализации способа, - повышение разборчивости и натуральности звучания аудиокомпозиции при прослушивании в акустической шумовой обстановке за счет снижения эффекта маскирования полезного звукового сигнала нестационарными акустическими шумами при помощи использования частотно-зависимого адаптивного усиления.
Для решения поставленной задачи с достижением указанного технического результата в известном способе повышения разборчивости и информативности звуковых сигналов в шумовой обстановке, заключающемся в том, что полезный сигнал x[n], поступающий в блок обработки, и шумовой сигнал v[n] акустической обстановки, поступающий из окружающего пространства в блок обработки, делят на фреймы длиной по N отсчетов, где N - размер фрейма, an- номер отсчета сигнала во фрейме, n=1, 2…N, обработку фреймов производят в блоке обработки фрейм за фреймом, производят декомпозицию полезного сигнала x[n] и шумового сигнала v[n] акустической обстановки, в компрессоре блока обработки изменяют динамический диапазон полезного сигнала x[n] шумового сигнала v[n] акустической обстановки в компрессоре блока обработки, после изменения динамического диапазона производят композицию полезного сигнала, получая скорректированные фреймы, из которых формируют путем сложения выходной сигнал y[n], который из блока обработки передают в окружающее пространство, согласно изобретению в блок обработки вводят банки фильтров анализа и банки фильтров синтеза, которыми производят субполосную декомпозицию полезного сигнала и сигнала шума акустической обстановки и, соответственно, субполосную композицию субполос полезного сигнала, при субполосной декомпозиции вычисляют энергию в каждой субполосе полезного сигнала x[n] и сигнала шума v[n] акустической обстановки для расчета коэффициентов усиления в каждой субполосе, в качестве компрессора блока обработки используют адаптивный компрессор динамического диапазона, которым изменяют динамический диапазон полезного сигнала, для чего сигналы в субполосах полезного сигнала умножают на коэффициенты усиления в соответствии с амплитудной характеристикой адаптивного компрессора динамического диапазона в каждой субполосе, при этом положение точки перегиба на амплитудной характеристике адаптивного компрессора динамического диапазона, разделяющей динамический диапазон полезного сигнала на область компрессии и на область - без усиления, обуславливают уровнем энергии субполосного сигнала шума акустической обстановки, и в соответствии с амплитудной характеристикой области компрессии адаптивного компрессора динамического диапазона в каждой субполосе полезного сигнала определяют коэффициент усиления на основе уровня энергии субполосных сигналов полезного сигнала, после субполосной композиции банками фильтров синтеза измененных амплитудных зависимостей полезного сигнала из скорректированных фреймов формируют путем сложения со стыковкой выходной сигнал y[n].
Возможны дополнительные варианты осуществления способа, в которых целесообразно, чтобы:
- в качестве банка фильтров использовали М-канальный неравнополосный косинусно-модулированный банк фильтров;
- для устранения артефактов в выходном сигнале в блоке обработки для каждого фрейма полезного сигнала выполняли интерполяцию коэффициентов усиления адаптивного компрессора динамического диапазона с задержкой на размер фрейма обработки, причем состыкованные для соседних фреймов коэффициенты усиления представляют в виде кусочно-линейной функции, получая плавную регулировку уровня громкости выходного сигнала блока обработки.
Таким образом, существенными отличиями заявленного способа является то, что:
- декомпозицию полезного сигнала x[n] и шумового v[n] сигнала производят не путем дискретного преобразования Фурье, а композицию (синтез) не обратным преобразованием Фурье, а банками фильтров анализа и банками фильтров синтеза, которыми производят субполосную обработку,
- используют не компрессор-ограничитель уровня выходного сигнала y[n], а адаптивный компрессор динамического диапазона, в котором положение точки K перегиба на его амплитудной характеристике компрессора, разделяющей динамический диапазон входного сигнала x[n] на область компрессии и на область - без усиления, обуславливают уровнем энергии шумового сигнала v[n];
- выходной сигнал y[n] формируют не путем сложения с перекрытием из скорректированных фреймов, а их сложением со стыковкой.
Достоинством предложенного способа повышения разборчивости и информативности звуковых сигналов в шумовой обстановке является улучшение восприятия различных звуковых (в том числе речевых) сигналов на фоне акустических шумов v[n], причем сохранение натуральности и естественности звучания является основным преимуществом. При обработке усиливаются лишь те фрагменты полезного сигнала x[n], которые маскируются шумом v[n]. В полной тишине в полезный сигнал x[n] не вносится никаких изменений. Динамический диапазон полезного сигнала x[n] сужается при помощи адаптивного (к шуму) компрессора. В результате обеспечивается хорошая слышимость в полезном сигнале x[n] как изначально тихих, так и громких звуков без превышения допустимой громкости и с сохранением относительных градаций от тихого к громкому. Субполосная декомпозиция полезного сигнала x[n] и шума v[n] выполняется на основе банка фильтров (неравнополосного), адаптированного к неравномерной частотной шкале слухового восприятия. Обработка во временной области, а не в частотной, как в ближайшем аналоге, обеспечивает сохранение оригинальной формы спектральной огибающей сигнала в каждой из частотных полос банка фильтров, в отличие от ближайшего аналога, где осуществляется переход в частотную область и обратно на основе дискретного преобразования Фурье. Энергия выходного сигнала y[n] непосредственно зависит от энергии шума v[n], что позволяет обеспечить хорошую слышимость звука даже при очень низких соотношениях сигнал/шум. Усиление полезного сигнала x[n] выполняется в соответствии с кратковременными спектральными и динамическими характеристиками шума v[n], что делает изложенный способ пригодным для использования в условиях нестационарных шумов v[n].
Краткий перечень чертежей
Фиг. 1 - Схема восприятия акустической информации в шумовой обстановке;
Фиг. 2 - Частотно-временное представление сигнала (спектрограммы): а) чистый речевой сигнал; б) сигнал шума метрополитена; в) сумма сигналов речи и шума для отношения сигнал-шум - 5 дБ;
Фиг. 3 - Амплитудная характеристика компрессора, предшествующий уровень;
Фиг. 4 - Амплитудная характеристика компрессора-ограничителя уровня выходного сигнала y[n], предшествующий уровень;
Фиг. 5 - Входной и выходной спектры полезного акустического сигнала x[n] для случая белого шума v[n], предшествующий уровень;
Фиг. 6 - Субполосная декомпозиция полезного сигнала x[n], шума v[n] и формирование выходного сигнала y[n] в блоке обработки;
Фиг. 7 - Амплитудная характеристика адаптивного компрессора динамического диапазона (АКДД);
Фиг. 8 - Принцип интерполяции коэффициентов gi-1, g(i) и g(i+1) для получения g(i)[n] для соседних фреймов в адаптивном компрессоре динамического диапазона АКДД;
Фиг. 9 - Блок-схема алгоритма работы блока обработки;
Фиг. 10 - Принцип задания неравнополосного банка фильтров на основе деформации частотной оси;
Фиг. 11 - Амплитудно-частотная характеристика неравнополосного 5-канального банка фильтров, аппроксимирующая шкалу критических частотных полос (психоакустическую частотную шкалу Барков);
Фиг. 12 - Частотно-временное представление сигнала (спектрограммы): а) выходной сигнал y[n] на выходе блока обработки; б) шум v[n] метрополитена; в) сигнал, который воспринимает слушатель: сумма выходного сигнала y[n] и шума v[n],
Фиг. 13 - Сравнение среднего значения индекса разборчивости SII для речевых сигналов до и после обработки предложенным способом.
Лучший вариант осуществления изобретения
В блоке обработки (фиг. 1) выполняется субполосная декомпозиция, согласно фигуре 6, полезного сигнала x[n] и сигнала шума v[n], принятого из микрофона. Чтобы учесть спектральные особенности шума v[n] окружающей обстановки и выполнить усиление только тех частотных областей полезного сигнала x[n], которые маскируются шумом, в предлагаемом способе может использоваться неравнополосный косинусно-модулированный банк фильтров. Банк фильтров позволяет выполнить субполосную декомпозицию сигналов схожую с той, которая выполняется улиткой уха человека и, в отличие от ближайшего аналога, осуществлять обработку сигналов во временной области, что позволяет избежать ошибок при переходе из частотной области во временную. Банки фильтров анализа для полезного сигнала x[n] и шумового сигнала v[n] выполнены одинаково. В каждом канале выполняется корректировка громкости для повышения уровня разборчивости и информативности полезного сигнала x[n] с учетом шума v[n] окружающей среды. Для обработки субканальных сигналов используется адаптивный компрессор динамического диапазона (АКДД). В каждом канале обработка ведется независимо. Формирование выходного сигнала y[n] блока обработки (фиг. 1) выполняется с помощью банка фильтров синтеза (фиг. 6). Процесс обработки сигналов полезного x[n] и шума v[n] в блоке обработки (фиг. 1, фиг. 6) ведется фрейм за фреймом.
Адаптивный компрессор динамического диапазона (АКДД) имеет два входа - для полезного сигнала x[n], и сигнала шума v[n], и один выход y[n] - сигнал на входе громкоговорителя, который воспринимает «Слушатель». Целью АКДД является расчет таких коэффициентов усиления g[n], которые не позволят шуму маскировать полезный сигнал во всем частотном диапазоне изменения шумового сигнала v[n]:
y[n]=x[n]·g[n].
Одной из особенностей работы АКДД является то, что для избежания появления артефактов в выходном сигнале y[n] коэффициенты усиления g[n], состыкованные для соседних фреймов, должны представлять собой кусочно-линейную функцию без разрывов. Исходя из этого требования создается специальная характеристика адаптивного к шуму v[n] компрессора динамического диапазона (АКДД), работа которого складывается из следующих шагов:
Шаг 1. Канальные сигналы полезного х(i)[n] и шума v(i)[n], n=0, 1…N, где i - индекс фрейма, a N - размер фрейма (число отсчетов сигнала во фрейме) поступают на входы соответствующих АКДД (фиг. 6).
Шаг 2. В АКДД для шумового сигнала v(i)[n] сохраняется значение уровня энергии шума для предыдущего кадра
Figure 00000030
, новое значение уровня энергии шума рассчитывается следующим образом:
Figure 00000031
Figure 00000032
, где 0<ε<1 коэффициент экспоненциального усреднения, величина которого определяет скорость сходимости процедуры усреднения.
Шаг 3. Значение
Figure 00000033
используется для корректировки амплитудной характеристики АКДД (фиг. 7).
Положение точки перегиба K амплитудной характеристики АКДД (фиг. 7) меняется в зависимости от текущего уровня шума Xnos для каждого фрейма. Если уровень шума Xnos увеличивается, то точка K смещается вверх по диагонали (обозначенной пунктирной линией на фигуре 7 самым мелким штрих пунктиром). Если уровень энергии входного сигнала выше Xnos+ΔG, то в АКДД не происходит усиления сигнала, в противном случае уровень энергии выходного сигнала блока обработки рассчитывается, используя нижнее колено амплитудной характеристики АКДД (расположенное в области компрессии). Константы ΔG и ΔR являются настроечными параметрами и характеризуют степень вносимого эффекта компрессии. Параметры подбираются исходя из характеристик микрофона, используемого для регистрации шума и, например, если полезный сигнал x[n] - сигнал проигрывателя, качества записи данного сигнала.
Шаг 4. Определяется для i-го фрейма полезного сигнала x[n] коэффициент усиления (целевой). При этом в АКДД рассчитывается уровень энергии фрейма полезного сигнала x[n].
Figure 00000034
Это значение используется для расчета уровня выходного сигнала y[n]:
Figure 00000035
где
Figure 00000036
- амплитудная характеристика АКДД (фиг. 7).
Коэффициент усиления определяется для i-го фрейма следующим образом:
Figure 00000037
Шаг 5. Выполняется интерполяция коэффициентов усиления g[n] для получения "плавной" регулировки уровня громкости выходного сигнала y[n].
Коэффициент g(i) связывается с серединой фрейма, поэтому для расчета всех коэффициентов g(i)[n] необходимо знать значение коэффициента усиления для следующего фрейма g(i+1). Это приводит к тому, что в АКДД вносится задержка на размер фрейма, т.е. для того, чтобы рассчитать усиление текущего фрейма, нужно дождаться следующего фрейма, поэтому обработать и вывести текущий фрейм можно только с опозданием на один на фрейм сигнала. На фиг. 8 поясняется принцип интерполяции коэффициентов gi-1, g(i) и g(i+1) для получения g(i)[n].
Применяется линейная интерполяция значений коэффициентов усиления на все отсчеты полезного сигнала x[n], попадающие в диапазон между центрами предыдущего и следующего кадров.
Шаг 6. Формирование уровня отсчетов выходного сигнала y[n] блока обработки путем масштабирования уровня отсчетов полезного сигнала x[n] на соответствующий коэффициент g(i)[n] для i-го фрейма полезного сигнала x[n]:
Figure 00000038
Шаг 7. Конец работы АКДД.
Таким образом, алгоритм работы блока обработки следующий (фиг. 9).
При поступлении полезного сигнала x[n] и шумового сигнала v[n] акустической обстановки в блоке принятия решений «Начать обработку композиции?» производится запуск работы по выходу «Да» программного обеспечения блока обработки. В результате производится ввод фреймов полезного сигнала x(i)[n] и шумового сигнала v(i)[n] акустической обстановки, где i - индекс фрейма, а n - номер отсчета. Далее производится расчет энергии шума V(i). В соответствии со значением энергии шума производится корректировка амплитудной характеристики АКДД. Согласно со скорректированной характеристикой АКДД определяется коэффициент усиления g(i). Далее производится интерполяция коэффициентов усиления g(i)[n] для согласования соседних фреймов и устранения артефактов выходного сигнала y(i)[n]. Затем коэффициенты усиления g(i)[n] применяются к фрейму входного полезного сигнала х(i)[n], в результате формируется фрейм выходного сигнала y(i)[n], и осуществляется его вывод. В блоке принятия решения «Композиция закончена?» принимается решение по выходу «Да» на окончание работы, а по выходу «Нет» информация передается на ввод следующих фреймов полезного сигнала х(i)[n] и шумового сигнала v(i)[n] для продолжения обработки.
Субполосная декомпозиция полезного сигнала x[n] и сигнала шума v[n] для расчета маскирующего эффекта шумом v[n] полезного сигнала x[n] может быть эффективно выполнена с использованием 5-канального неравнополосного косинусно-модулированного банка фильтров (НКМБФ), который аппроксимирует шкалу критических частотных полос (психоакустическая частотная шкала Барков) восприятия человеком акустической информации.
Число субполос для реализации предложенного способа определяется качеством формируемого выходного сигнала и вычислительной сложностью реализации банка фильтров. Данный банк фильтров образуется из своего равнополосного аналога путем применения фазового преобразования, т.е. замены всех элементов задержки на фазовые звенья
Figure 00000039
, где z - оператор Z преобразования. M-канальный НКМБФ задается передаточными функциями канальных фильтров анализа Hk(z) и синтеза Fk(z) следующим образом:
Figure 00000040
Figure 00000041
где М - число каналов в банке (количество критических частотных полос),
Figure 00000042
,
Figure 00000043
,
Figure 00000044
, k - номер канала банка,
Figure 00000045
- мнимая единица, а верхняя черта означает комплексно-сопряженное число. Здесь H(z) - фильтр нижних частот с конечной импульсной характеристикой (КИХ) порядка N и частотой среза ωс=π/2М, на основе которого формируются передаточные функции канальных фильтров анализа Hk(z) и синтеза Fk(z). С целью уменьшения вычислительной сложности НКМБФ используется фазовое звено A(z) первого порядка, передаточная функция которого определяется как
Figure 00000046
, где α - коэффициент передаточной функции фазового звена A(z), определяющий его фазочастотную характеристику:
Figure 00000047
Замена
Figure 00000048
приводит к деформации оси частот
Figure 00000049
и получению неравнополосного банка фильтров. Как видно из фиг. 10, степень деформации частотной оси зависит от одного параметра α - коэффициента передаточной функции фазового звена A(z), определяющего фазочастотную характеристику данного звена. Регулируя коэффициент α, можно изменять ширину полос банка фильтров (фиг. 10). В предложенном способе использовался 5-канальный НКМБФ. Банк фильтров аппроксимирует шкалу Барков; деформация частотной оси задается выбором коэффициента α=0,7452, амплитудно-частотная характеристика которого показана на фиг. 11, причем все пять субполосных фильтров, обозначенные на фиг. 11 как 1, 2, …, 5 обеспечивают ослабление в полосе непропускания не менее -70 дБ. При этом погрешность восстановления сигнала банком синтеза не более 0,001 дБ для коэффициентов децимации/интерполяции в каналах банков анализа/синтеза со следующими значениями {21,7,3,1,1}.
Был проведен эксперимент по повышению разборчивости полезного сигнала x[n] в агрессивной шумовой обстановке для варианта, когда полезный сигнал x[n] является речевым и шумовой сигнал v[n] акустической обстановки - шум метро (согласно фиг. 2). При этом частота дискретизации была задана 44,1 кГц. Шумовой сигнал v[n] акустической обстановки и его спектрограмма показаны на фиг. 126). На фиг. 12в) проиллюстрирован полученный эффект предложенного способа. Как видно из фиг. 12а) полезный сигнал х[n] на выходе блока обработки - выходной сигнал y[n] не имеет никаких артефактов при отсутствии шумового сигнал v[n]. Анализ спектрограммы (фиг. 12в) сигнала на выходе громкоговорителя, который представляет собой сумму выходного сигнала y[n] и шума v[n], и который воспринимает слушатель, показывает, что полезный сигнал х[n] (речевой сигнал) можно идентифицировать после обработки согласно предлагаемому способу (для сравнения см. фиг. 2в). Таким образом, полезный сигнал х[n] продолжает быть слышимым даже при высокой интенсивности шумового сигнала v[n] акустической обстановки. В приведенном примере отношение сигнал - шум равно 5 дБ.
Предложенный способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке экспериментально проверялся при различных отношениях сигнал шум (ОСШ), во всех случаях измерялась разборчивость речевого сигнала (измерялся индекс разборчивости SII) на фоне шумового сигнала v[n] для метрополитена разной интенсивности до обработки, когда выходной сигнал у[n] равнялся полезному сигналу x[n] и после обработки банками фильтров и АКДД (фиг. 6). Полученные результаты экспериментов изображены на фиг. 13.
В агрессивной шумовой обстановке (ОСШ < -20 дБ) предложенный способ обеспечивает удовлетворительную разборчивость, а при снижении интенсивности шума (ОСШ > 0 дБ) - хорошую. Необработанный сигнал имеет заметно меньшую разборчивость для ОСШ < 0 дБ и становится неразборчивым уже при ОСШ < -10 дБ.
При расчете среднего значения индекса разборчивости SII анализируется эквивалентный уровень спектра речевого сигнала x[n] и эквивалентный уровень спектра шумового сигнала v[n] в каждой из критических полос, вносящих вклад в разборчивость. Эквивалентный уровень рассчитывается, как усредненная по времени мощность сигнала в критической полосе, поделенная на ширину полосы. Поскольку в рассмотренном способе раздельно доступна обработка полезного сигнала х[n] и шумового сигнала v[n], то SII можно вычислить достаточно легко. Величина SII принимает значение от 0 до 1. Если SII больше 0,75, то разборчивость считается хорошей, если же SII имеет значение меньше 0,45, то воспринимаемый слушателем сигнал недостаточно разборчив.
Кроме того, заявленный способ экспериментально проверялся при прослушивании музыкальной композиции (песни) в автомобиле с открытыми окнами. Все шумы от дороги, ям, торможения, работы жесткой подвески в выходном сигнале v[n] удаляются, при этом окружающий шум постепенно перестает восприниматься слуховым аппаратом пользователя. Громкость возрастает плавно, звуковое давление комфортное, на слуховой аппарат пользователя изменение громкости значительного влияния не оказывает.
При кратковременном резком увеличении окружающего шума не происходит сбоя алгоритма, ситуация отрабатывается достаточно плавно, скрывая резкое возрастание шума за счет подстройки частот шумового сигнала v[n] и соответственного увеличения громкости полезного сигнала y[n]. Создается полное впечатление прослушивания музыкальной композиции в автомобиле с закрытыми окнами.
Промышленная применимость
Наиболее успешно заявляемый способ для повышения разборчивости и информативности звуковых сигналов в шумовой обстановке, промышленно применим в мобильных мультимедийных устройствах (смартфонах и планшетах), мультимедийных воспроизводящих устройствах, системах видеоконференций, громкой связи, IP - телефонии, колл-центрах, при усовершенствовании слуховых аппаратов, корректирующих звуковой сигнал, во время телефонного разговора и при прослушивании аудиоконтента) в агрессивной акустической шумовой обстановке.

Claims (3)

1. Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке, заключающийся в том, что полезный сигнал, поступающий в блок обработки, и шумовой сигнал акустической обстановки, поступающий из окружающего пространства в блок обработки, делят на фреймы, обработку фреймов производят в блоке обработки фрейм за фреймом, производят декомпозицию полезного сигнала и шумового сигнала акустической обстановки, в компрессоре блока обработки изменяют динамический диапазон полезного сигнала и шумового сигнала акустической обстановки, после изменения динамического диапазона производят композицию измененного полезного сигнала, получая скорректированные фреймы, из которых формируют путем сложения выходной сигнал, который из блока обработки передают в окружающее пространство, отличающийся тем, что в блок обработки вводят банки фильтров анализа и банки фильтров синтеза, которыми производят субполосную декомпозицию полезного сигнала и сигнала шума акустической обстановки и, соответственно, субполосную композицию измененных субполос полезного сигнала, при субполосной декомпозиции вычисляют энергию в каждой субполосе полезного сигнала и сигнала шума акустической обстановки для расчета коэффициентов усиления в каждой субполосе, в качестве компрессора блока обработки используют адаптивный компрессор динамического диапазона, которым изменяют динамический диапазон полезного сигнала, для чего сигналы в субполосах полезного сигнала умножают на коэффициенты усиления в соответствии с амплитудной характеристикой адаптивного компрессора динамического диапазона в каждой субполосе, при этом положение точки перегиба на амплитудной характеристике адаптивного компрессора динамического диапазона, разделяющей динамический диапазон полезного сигнала на область компрессии и на область - без усиления, обуславливают уровнем энергии субполосного сигнала шума акустической обстановки и в соответствии с амплитудной характеристикой области компрессии адаптивного компрессора динамического диапазона в каждой субполосе полезного сигнала определяют коэффициент усиления на основе уровня энергии субполосных сигналов полезного сигнала, после субполосной композиции банками фильтров синтеза измененных амплитудных зависимостей полезного сигнала из скорректированных фреймов формируют путем сложения со стыковкой выходной сигнал.
2. Способ по п. 1, отличающийся тем, что в качестве банка фильтров используют М-канальный неравнополосный косинусно-модулированный банк фильтров, где М-количество каналов не менее пяти.
3. Способ по п. 1, отличающийся тем, что для устранения артефактов в выходном сигнале в блоке обработки для каждого фрейма полезного сигнала выполняют интерполяцию коэффициентов усиления адаптивного компрессора динамического диапазона с задержкой на размер фрейма обработки, причем состыкованные для соседних фреймов коэффициенты усиления представляют в виде кусочно-линейной функции, получая плавную регулировку уровня громкости выходного сигнала блока обработки.
RU2014153295/08A 2014-12-29 2014-12-29 Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке RU2589298C1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2014153295/08A RU2589298C1 (ru) 2014-12-29 2014-12-29 Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2014153295/08A RU2589298C1 (ru) 2014-12-29 2014-12-29 Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке

Publications (1)

Publication Number Publication Date
RU2589298C1 true RU2589298C1 (ru) 2016-07-10

Family

ID=56371120

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2014153295/08A RU2589298C1 (ru) 2014-12-29 2014-12-29 Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке

Country Status (1)

Country Link
RU (1) RU2589298C1 (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2729050C1 (ru) * 2016-11-17 2020-08-04 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для разложения звукового сигнала с использованием соотношения в качестве характеристики разделения
RU2734288C1 (ru) * 2016-11-17 2020-10-14 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для разложения звукового сигнала с использованием переменного порогового значения

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2163032C2 (ru) * 1995-09-14 2001-02-10 Эрикссон Инк. Система адаптивной фильтрации аудиосигналов для улучшения разборчивости речи при наличии шума
US6876968B2 (en) * 2001-03-08 2005-04-05 Matsushita Electric Industrial Co., Ltd. Run time synthesizer adaptation to improve intelligibility of synthesized speech
RU2278424C1 (ru) * 2005-02-10 2006-06-20 Владимир Кириллович Железняк Устройство измерения максимальной разборчивости речи
RU2426180C2 (ru) * 2006-04-04 2011-08-10 Долби Лэборетериз Лайсенсинг Корпорейшн Расчет и регулировка воспринимаемой громкости и/или воспринимаемого спектрального баланса звукового сигнала
EP2191466B1 (en) * 2007-09-12 2013-05-22 Dolby Laboratories Licensing Corporation Speech enhancement with voice clarity

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2163032C2 (ru) * 1995-09-14 2001-02-10 Эрикссон Инк. Система адаптивной фильтрации аудиосигналов для улучшения разборчивости речи при наличии шума
US6876968B2 (en) * 2001-03-08 2005-04-05 Matsushita Electric Industrial Co., Ltd. Run time synthesizer adaptation to improve intelligibility of synthesized speech
RU2278424C1 (ru) * 2005-02-10 2006-06-20 Владимир Кириллович Железняк Устройство измерения максимальной разборчивости речи
RU2426180C2 (ru) * 2006-04-04 2011-08-10 Долби Лэборетериз Лайсенсинг Корпорейшн Расчет и регулировка воспринимаемой громкости и/или воспринимаемого спектрального баланса звукового сигнала
EP2191466B1 (en) * 2007-09-12 2013-05-22 Dolby Laboratories Licensing Corporation Speech enhancement with voice clarity

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2729050C1 (ru) * 2016-11-17 2020-08-04 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для разложения звукового сигнала с использованием соотношения в качестве характеристики разделения
RU2734288C1 (ru) * 2016-11-17 2020-10-14 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для разложения звукового сигнала с использованием переменного порогового значения
US11158330B2 (en) 2016-11-17 2021-10-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an audio signal using a variable threshold
US11183199B2 (en) 2016-11-17 2021-11-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an audio signal using a ratio as a separation characteristic
US11869519B2 (en) 2016-11-17 2024-01-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decomposing an audio signal using a variable threshold

Similar Documents

Publication Publication Date Title
AU771444B2 (en) Noise reduction apparatus and method
TWI579834B (zh) 調整聲音清晰度強化的方法與系統
Ma et al. Objective measures for predicting speech intelligibility in noisy conditions based on new band-importance functions
KR100860805B1 (ko) 음성 강화 시스템
EP2283484B1 (en) System and method for dynamic sound delivery
JP4761506B2 (ja) 音声処理方法と装置及びプログラム並びに音声システム
US8538052B2 (en) Generation of probe noise in a feedback cancellation system
CN106257584B (zh) 改进的语音可懂度
US20120263317A1 (en) Systems, methods, apparatus, and computer readable media for equalization
KR20070000987A (ko) 음성 신호의 적응성 개선을 위한 시스템
JP2004061617A (ja) 受話音声処理装置
US6999920B1 (en) Exponential echo and noise reduction in silence intervals
US8509450B2 (en) Dynamic audibility enhancement
US9245538B1 (en) Bandwidth enhancement of speech signals assisted by noise reduction
Premananda et al. Speech enhancement algorithm to reduce the effect of background noise in mobile phones
WO2022240346A1 (en) Voice optimization in noisy environments
RU2589298C1 (ru) Способ повышения разборчивости и информативности звуковых сигналов в шумовой обстановке
EP3830823B1 (en) Forced gap insertion for pervasive listening
Chanda et al. Speech intelligibility enhancement using tunable equalization filter
Brouckxon et al. Time and frequency dependent amplification for speech intelligibility enhancement in noisy environments
JPH09311696A (ja) 自動利得調整装置
JPH07146700A (ja) ピッチ強調方法および装置ならびに聴力補償装置
Niermann et al. Listening enhancement in noisy environments: Solutions in time and frequency domain
US20240221769A1 (en) Voice optimization in noisy environments
JP2011141540A (ja) 音声信号処理装置、テレビジョン受像機、音声信号処理方法、プログラム、および、記録媒体

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20181230