RU2145737C1 - Способ подавления шума путем спектрального вычитания - Google Patents

Способ подавления шума путем спектрального вычитания Download PDF

Info

Publication number
RU2145737C1
RU2145737C1 RU97116274A RU97116274A RU2145737C1 RU 2145737 C1 RU2145737 C1 RU 2145737C1 RU 97116274 A RU97116274 A RU 97116274A RU 97116274 A RU97116274 A RU 97116274A RU 2145737 C1 RU2145737 C1 RU 2145737C1
Authority
RU
Russia
Prior art keywords
speech
noise
subtraction
power
spectral density
Prior art date
Application number
RU97116274A
Other languages
English (en)
Other versions
RU97116274A (ru
Inventor
Петер Хендел
Original Assignee
Телефонактиеболагет Лм Эрикссон
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Телефонактиеболагет Лм Эрикссон filed Critical Телефонактиеболагет Лм Эрикссон
Publication of RU97116274A publication Critical patent/RU97116274A/ru
Application granted granted Critical
Publication of RU2145737C1 publication Critical patent/RU2145737C1/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Noise Elimination (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Analysing Materials By The Use Of Radiation (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Telephone Function (AREA)

Abstract

Подавление шума осуществляется в цифровой системе связи на основе передачи кадров. Каждый кадр содержит заданное число N звуковых ответов и имеет таким образом N степеней свободы. Каждый речевой кадр аппроксимируется параметрической моделью, которая уменьшает число степеней свободы до значения меньшего N и с помощью которой вычисляется оценка спектральной плотности мощности
Figure 00000001
каждого речевого кадра. Функция спектрального вычитания
Figure 00000002
основывается на оценке
Figure 00000003
и на оценке спектральной плотности мощности фонового шума в неречевых кадрах
Figure 00000004
, вычисленной непараметрическим способом оценивания спектра мощности. Технический результат - увеличение подавления шума без ухудшения качества звука. 9 з.п.ф-лы, 7 ил., 3 табл.

Description

Изобретение относится к подавлению шумов в цифровых системах связи, основанных на передаче кадров, и касается, в частности, способа подавления шумов в таких системах на основе вычитания спектров.
Общей проблемой в обработке сигналов речи является улучшение этих сигналов, исходя из их значений, измеренных в присутствии шума. Одним из подходов к улучшению речевого сигнала на основе измерений в одном канале (от микрофона) является фильтрация в частотной области с применением методов вычитания спектров [1], [2]. При условии, что фоновый шум является долговременно стационарным (по сравнению с речью), модель фонового шума обычно оценивается в течение тех интервалов времени, когда речевой активности нет. Затем в течение кадров с речевой активностью эта оцененная модель шума используется для улучшения речи совместно с оцененной моделью зашумленной речи. Для методов на основе вычитания спектров эти модели традиционно задаются в выражениях спектральной плотности мощности, которая оценивается с помощью классических методов быстрого преобразования Фурье.
При использовании в системах телефонной связи с подвижными объектами ни один из вышеуказанных методов в своей основной форме не обеспечивает выходной сигнал с удовлетворительным качеством звука, то есть
1) неискаженный выходной речевой сигнал,
2) достаточное уменьшение уровня шума,
3) остаточный шум без раздражающих искусственных шумов.
В частности, известно, что методы шумоподавления на основе спектрального вычитания нарушают первое из вышеуказанных требований, когда выполняют второе, или нарушают второе требование, когда выполняют первое. Кроме того, в большинстве случаев в большей или меньшей степени нарушается третье требование, так как эти методы вносят так называемый "музыкальный" шум.
Указанные недостатки, связанные с методами шумоподавления на основе спектрального вычитания, известны и в литературе описано несколько специальных модификаций базовых алгоритмов, предназначенных для определенных ситуаций "речь в шуме". Однако проблема создания способа на основе спектрального вычитания, который для общих ситуаций выполняет требования 1-3, оставалась нерешенной.
Чтобы показать трудности, связанные с улучшением речи на основе зашумленных данных, отметим, что методы вычитания спектров основаны на фильтрации, использующей оцениваемые модели приходящих данных. Если эти оцениваемые модели близки к соответствующим им "истинным" моделям, то они являются хорошим рабочим приближением. Однако вследствие малого времени стационарности речи (10-40 мс), а также из-за физической реальности, соответствующей применению мобильной телефонии (частота дискретизации 8000 Гц, стационарность шума 0,5-2,0 с и т. д.), оцененные модели с большой вероятностью значительно отличаются от действительных и поэтому приводят к получению фильтрованного выходного сигнала с низким качеством звука.
В заявке на европейский патент N 0588526 А1 описывается способ, согласно которому спектральный анализ осуществляется с помощью быстрого преобразования Фурье или линейного кодирования с предсказанием.
Задача настоящего изобретения - предложить такой способ подавления шума, основанный на спектральном вычитании, который обеспечивает лучшее подавление шума без ухудшения при этом качества воспроизводимого звука.
Эта задача решается с помощью способа, отличительные признаки которого изложены в п. 1 формулы изобретения.
Изобретение вместе с его целями и преимуществами будет более понятно из нижеследующего описания с прилагаемыми чертежами.
Фиг. 1 представляет собой блок-схему системы подавления шумов на основе спектрального вычитания, пригодную для осуществления способа согласно настоящему изобретению.
На фиг.2 показана диаграмма состояний детектора речевой активности, который может быть использован в системе, показанной на фиг. 1.
На фиг.3 показана диаграмма двух различных оценок спектральной плотности кадра речи.
На фиг.4 показана временная диаграмма дискретизированного звукового сигнала, содержащего речь и фоновый шум.
На фиг. 5 показана временная диаграмма сигнала фиг.3 после вычитания спектра шума в соответствии с известными способами.
На фиг. 6 показана временная диаграмма сигнала фиг.3 после вычитания спектра шума в соответствии с настоящим изобретением.
На фиг. 7 показана блок- схема алгоритма, поясняющая способ согласно изобретению.
Подробное описание предпочтительных вариантов осуществления изобретения
Методы спектрального вычитания
Рассмотрим кадр речи, искаженной аддитивным шумом
x(k) = s(k)+ν(k) k = 1,...,N, (1)
где x(k), s(k) и ν(k) обозначают соответственно измеренные значения речевого сигнала в присутствии шумов, значения речевого сигнала и значения аддитивного шума, a N - число отсчетов в кадре.
Речь считается стационарной в пределах кадра, тогда как шум считается долговременно стационарным, то есть стационарным на протяжении нескольких кадров. Число кадров, где ν(k) стационарен, обозначается через τ, τ ≫ 1. Кроме того, предполагается, что речевая активность является достаточно низкой, так что модель шума может точно оцениваться во время отсутствия речевой активности.
Обозначим спектральные плотности мощности соответственно измеренного значения, речи и шума как Фx(ω), Фs(ω) и Фν(ω), где
Фx(ω) = Фs(ω)+Фν(ω). (2)
Если известны Фx(ω) и Фν(ω), то величины Фs(ω) и s(k) могут быть оценены с использованием стандартных методов на основе спектрального вычитания (ср. с [2]), кратко описываемых ниже.
Пусть
Figure 00000010
обозначает оценку s(k). Тогда
Figure 00000011

где F(•) обозначает некоторое линейное преобразование, например дискретное преобразование Фурье, и где H(ω) - четная вещественная функция в интервале ω ∈ (0,2π) такая, что 0 ≤H(ω)≤1. Функция H(ω) зависит от Фx(ω) и Фν(ω). Так как H(ω) вещественная, фаза,
Figure 00000012
равна фазе искаженного речевого сигнала. Причиной использования вещественной функции H(ω) является нечувствительность человеческого слуха к фазовым искажениям.
В общем случае Фx(ω) и Фν(ω) не известны и должны быть заменены в H(ω) оцениваемыми величинами
Figure 00000013
Вследствие нестационарности речи Фx(ω) оценивается на основании одного кадра данных, тогда как Фν(ω) оценивается с использованием данных в кадрах, не содержащих речи, число которых равно τ. Для простоты предполагается, что в распоряжении имеется детектор речевой активности для того, чтобы отличать кадры, содержащие зашумленную речь, от кадров, содержащих только шум. Предполагается, что Фν(ω) оценивается в течение интервалов без речевой активности путем усреднения по нескольким кадрам, например, используя
Figure 00000014

В выражении (4)
Figure 00000015
является усредненной (текущей) оценкой спектральной плотности мощности, основанной на данных кадров до l, включая кадр l, а
Figure 00000016
является оценкой, основанной на текущем кадре. Скаляр ρ ∈ (0,1) подстраивается с учетом предполагаемой стационарности ν(k). Среднее по τ кадрам грубо соответствует ρ, неявно определяемому как
Figure 00000017

Подходящая оценка спектральной плотности мощности (не предполагающая никаких априорных допущений о форме спектра фонового шума) определяется как
Figure 00000018

где "*" обозначает комплексно-сопряженную величину и где V(ω) = F(ν(k)). При F(•) = БПФ(•) (БПФ - быстрое преобразование Фурье),
Figure 00000019
представляет собой периодограмму и
Figure 00000020
в (4) является усредненной периодограммой, обе они приводят к асимптотически (N >> 1) несмещенным оценкам спектральной плотности мощности с приближенными дисперсиями
Figure 00000021

Аналогичное (7) выражение верно для
Figure 00000022
в течение речевой активности (при замене Ф 2 ν (ω) в (7) на Ф 2 x (ω)).
Система шумоподавления на основе спектрального вычитания, пригодная для осуществления способа согласно настоящему изобретению, показана в виде блок-схемы на фиг. 1. От микрофона 10 звуковой сигнал x(t) подается на аналого-цифровой преобразователь 12. Аналого-цифровой преобразователь 12 подает цифровые отсчеты звукового сигнала в виде кадров {x(k)} в блок 14 преобразования, например в блок быстрого преобразования Фурье, который преобразует каждый кадр в соответствующий преобразованный в частотную область кадр {X(ω)}. Преобразованный кадр фильтруется с помощью
Figure 00000023
в блоке 16. Эта операция осуществляет фактическое спектральное вычитание. Полученный в результате сигнал
Figure 00000024
преобразуется обратно во временную область блоком 18 обратного преобразования. Результатом является кадр
Figure 00000025
, в котором шум подавлен. Этот кадр может быть подан на эхокомпенсатор 20 и после него - на кодер 22 речи. Сигнал кодированной речи подается затем на канальный кодер и модулятор (эти блоки не показаны) для передачи.
Фактический вид
Figure 00000026
в блоке 16 зависит от оценок
Figure 00000027
которые формируются в устройстве 24 оценивания спектральной плотности мощности, и от используемого аналитического выражения этих оценок. Примеры различных выражений приведены в табл. 2 в следующем разделе. Приведенное ниже описание будет в основном посвящено рассмотрению различных способов формирования оценок
Figure 00000028
из входного кадра {x(k)}.
Устройство 24 оценивания спектральной плотности мощности управляется детектором 26 речевой активности, который использует входной кадр {x(k)} для определения, содержит кадр речь (Р) или фоновый шум (Ф). Подходящий детектор речевой активности описан в [5], [6]. Детектор речевой активности может быть реализован как конечный автомат, имеющий 4 состояния, показанные на фиг. 2. Полученный в результате управляющий сигнал Р/Ф подается в устройство 24 оценивания спектральной плотности мощности. Когда детектор 26 речевой активности обнаруживает речь (Р) (состояния 21 и 22), устройство 24 оценивания будет формировать
Figure 00000029
С другой стороны, когда детектор 26 речевой активности обнаруживает неречевую активность (Ф) (состояние 20), устройство 24 оценивания будет формировать
Figure 00000030
Последняя оценка будет использоваться для формирования
Figure 00000031
в течение следующей последовательности кадров речи (вместе с
Figure 00000032
каждого из кадров этой последовательности).
Сигнал Р/Ф подается также в блок 16 спектрального вычитания. Таким образом, блок 16 может применять разные фильтры во время речевых и неречевых кадров. Во время речевых кадров
Figure 00000033
представляет собой вышеприведенное выражение для
Figure 00000034
С другой стороны, во время неречевых кадров
Figure 00000035
может быть константой Н(0≤ Н≤ 1), что уменьшает уровень фонового звука до того же самого уровня, который остается в речевых кадрах после шумоподавления. Таким образом, воспринимаемый уровень шума будет одинаковым во время речевых и неречевых кадров.
Перед тем как выходной сигнал
Figure 00000036
в (3) вычисляется, в предпочтительной форме осуществления изобретения
Figure 00000037
может подвергаться пост-фильтрации в соответствии с
Figure 00000038

где
Figure 00000039
вычисляется в соответствии с табл. 1. Скаляр 0,1 подразумевает, что минимальный уровень шума составляет -20 дБ.
Кроме того, сигнал Р/Ф подается также на кодер 22 речи. Это позволяет выполнять различное кодирование речи и фоновых звуков.
Анализ ошибки спектральной плотности мощности
Является очевидным, что допущения о стационарности s(k) и ν(k) накладывают ограничения на точность оценки
Figure 00000040
по сравнению с речевым сигналом, не содержащим шума (s(k)). В данном разделе представлен метод анализа для способов спектрального вычитания. Он основан на аппроксимациях первого порядка оценок
Figure 00000041
спектральной плотности мощности (см. (11) ниже) в сочетании с приближенными (аппроксимации нулевого порядка) выражениями для точности вносимых отклонений. Ниже выводится выражение для ошибки оцениваемого сигнала
Figure 00000042
в частотной области вследствие используемого метода (выбора передаточной функции H(ω)) и вследствие неточности используемых формул оценки спектральной плотности мощности. Вследствие того, что слух человека нечувствителен к фазовым искажениям, можно рассматривать ошибку в спектральной плотности мощности, определяемую как
Figure 00000043

где
Figure 00000044

Заметим, что
Figure 00000045
по своей структуре является членом ошибки, описывающим разность (в частотной области) между отфильтрованным измеренным значением речевого сигнала с шумом и значением речевого сигнала. Следовательно,
Figure 00000046
может принимать как положительные, так и отрицательные значения и не является спектральной плотностью мощности какого-либо сигнала во временной области.
Figure 00000047
в (10) обозначает оценку H(ω), основанную на
Figure 00000048
В данном разделе анализ ограничен случаем вычитания спектров мощности (PS) [2] . Другие альтернативы для выбора
Figure 00000049
могут быть проанализированы аналогичным образом (см. Приложения А-С). Кроме того, представлены и проанализированы новые альтернативы для
Figure 00000050
(см. Приложения D-G). Обзор различных подходящих альтернатив для
Figure 00000051
дан в табл. 2
По определению H(ω) принадлежит интервалу 0 ≤ H(ω) ≤ 1 что не обязательно для соответствующих оцененных величин в табл. 2, и, следовательно, на практике используется одно- или двухполупериодное выпрямление [1].
Для того, чтобы выполнить анализ, допустим, что длина кадра N достаточно большая (N >> 1), так что
Figure 00000052
приближенно являются несмещенными. Введем отклонения первого порядка
Figure 00000053

где Δx(ω) и Δν(ω) - стохастические переменные с нулевым средним значением, так что E[Δx(ω)/Фx(ω)]2≪ 1 и E[Δν(ω)/Фν(ω)]2≪ 1. Здесь и далее обозначение E[•] означает математическое ожидание. Кроме того, если время корреляции шума мало по сравнению с длительностью кадра, то
Figure 00000054
для l ≠ k, где
Figure 00000055
оценка, основанная на данных в l-м кадре. Это подразумевает, что Δx(ω) и Δν(ω) являются приблизительно независимыми. В противном случае, если шум сильно коррелирован, предположим, что Фν(ω) имеет ограниченное число (<< N) пиков (сильных), расположенных на частотах ω1,...,ωn. Тогда
Figure 00000056
для ω ≠ ωj, j = l,..., п и l≠k и анализ остается действительным для ω ≠ ωj, j = l,..., п.
Уравнение (11) подразумевает, что используются асимптотически (N >>1) несмещенные оценки спектральной плотности мощности, такие, как периодограмма или усредненная периодограмма. Однако, если использовать асимптотически смещенные оценки спектральной плотности мощности, такие, как оценка спектральной плотности мощности Блэкмана-Тьюки, аналогичный анализ справедлив при замене (11) на
Figure 00000057

и
Figure 00000058

где соответственно Bx(ω) и Bν(ω) - детерминированные члены, описывающие асимптотическое смещение оценок спектральной плотности мощности.
Далее уравнение (11) подразумевает, что
Figure 00000059
в (9) (в аппроксимации первого порядка) является линейной функцией Δx(ω) и Δν(ω). Ниже рассматриваются характеристики различных способов с точки зрения ошибки смещения
Figure 00000060
и дисперсии ошибки
Figure 00000061
Полный вывод для
Figure 00000062
будет дан в следующем разделе. Аналогичный вывод выражений для других перечисленных в табл. 1 способов на основе спектрального вычитания приведен в Приложениях A-G.
Анализ
Figure 00000063

Подставив (10) и
Figure 00000064
из табл. 2 в (9), используя разложение в ряд Тейлора (1+x)-1≅ 1-x и пренебрегая отклонениями выше первого порядка, после очевидных вычислений получаем
Figure 00000065

где "≅" использовано для обозначения приблизительного равенства, в котором сохранены только главные члены. Величины Δx(ω) и Δν(ω) являются стохастическими переменными с нулевым математическим ожиданием. Таким образом,
Figure 00000066

и
Figure 00000067

Для того, чтобы продолжить, мы используем общий результат, который для асимптотически несмещенной спектральной оценки
Figure 00000068
(ср. с (7)) имеет вид
Figure 00000069

для некоторой (возможно частотно-зависимой) переменной γ(ω). Например, периодограмма соответствует γ(ω) ≈ 1+(sinωN/Nsinω)2 что для N >> 1 сокращается до γ ≈ 1. Объединение (14) и (15) дает
Figure 00000070

Результаты для
Figure 00000071

Аналогичные вычисления для
Figure 00000072
дают (подробности приведены в Приложении А):
Figure 00000073

и
Figure 00000074

Результаты для
Figure 00000075

Вычисления для
Figure 00000076
дают (подробности приведены в Приложении В):
Figure 00000077

и
Figure 00000078

Результаты для
Figure 00000079

Вычисления для
Figure 00000080
дают (подробности приведены в Приложении С):
Figure 00000081

и
Figure 00000082

Результаты для
Figure 00000083

Вычисления для
Figure 00000084
дают (
Figure 00000085
выводится в Приложении D и анализируется в Приложении Е):
Figure 00000086

и
Figure 00000087

Общие характеристики
Для рассматриваемых способов следует заметить, что ошибка смещения зависит только от выбора
Figure 00000088
тогда как дисперсия ошибки зависит как от выбора
Figure 00000089
так и от дисперсии используемых оценок спектральной плотности мощности. Например, для оценки Фν(ω) на основе усредненной периодограммы имеем из (7), что γν≈ 1/τ. С другой стороны, если использовать периодограмму одиночного кадра для оценки Фx(ω), то имеем γx≈ 1 Таким образом, для τ ≫ 1 главным членом γν= γxν, появляющимся в вышеприведенных уравнениях дисперсии, является γx и поэтому основным источником ошибки является оценка спектральной плотности мощности одиночного кадра, основанная на зашумленной речи.
Из вышеприведенных замечаний следует, что для улучшения способов спектрального вычитания желательно уменьшить величину γx (выбрать подходящую формулу оценки спектральной плотности мощности, которая дает приблизительно несмещенную оценку с как можно более хорошей характеристикой) и выбрать "хороший" способ спектрального вычитания (выбрать
Figure 00000090
Ключевой идеей настоящего изобретения является то, что величину γx можно уменьшить, используя физическое моделирование голосового тракта (уменьшая число степеней свободы с N (числа отсчетов в кадре) до величины, меньшей, чем N). Хорошо известно, что s(k) могут быть точно описаны авторегрессионной моделью (AR) (обычно порядка p ≈ 10). Это является темой следующих двух разделов.
Кроме того, точность
Figure 00000091
(и, неявно, точность
Figure 00000092
) зависит от выбора
Figure 00000093
Новые предпочтительные варианты
Figure 00000094
выводятся и анализируются в Приложениях D-G
Авторегрессионное моделирование речи
В предпочтительной форме осуществления настоящего изобретения s(k) моделируется, как авторегрессионный процесс
Figure 00000095

где A(q-1) - нормированный (первый коэффициент равен единице) полином p-го порядка в операторе сдвига в обратном направлении (q-1w(k)= w(k-1) и т. д.),
A(q-1)=1+a1q-1+...+apq-p, (18)
a w(k) - белый шум с нулевым средним значением и с дисперсией σ 2 w . На первый взгляд может показаться ограничением то, что рассматриваются только авторегрессионные модели. Однако применение авторегрессионных моделей для моделирования речи исходит как из физического моделирования голосового тракта, так и из, что здесь более важно, физических ограничений на точность оцениваемых моделей зашумленной речи.
При обработке речевого сигнала длина кадра N может не быть достаточно большой для того, чтобы допустить применение способов усреднения внутри кадра с целью уменьшить дисперсию и все же сохранить несмещенность оценки спектральной плотности мощности. Поэтому, чтобы уменьшить влияние первого члена, например, в уравнении (12), следует использовать физическое моделирование голосового тракта. Структура (17) авторегрессии накладывается на s(k). В явном виде
Figure 00000096

Кроме того, Фν(ω) может быть описано параметрической моделью
Figure 00000097

где B(q-1) и
Figure 00000098
- соответственно полиномы q-го и r-го порядка, определяемые аналогично A(q-1) в (18). Для простоты в приведенном ниже анализе, где оценивается порядок параметрической модели, используется параметрическая модель шума (20). Однако понятно, что возможны также и другие модели фонового шума. Объединяя (19) и (20), можно показать, что
Figure 00000099

где η(k)- белый шум с нулевым средним значением и дисперсией σ 2 η и где D(q-1) определяется тождеством
Figure 00000100

Оценка параметров речи
Оценивание параметров в (17)-(18) является простой процедурой, если не присутствует дополнительный шум. Заметим, что в случае отсутствия шума второй член в правой части (22) исчезает и, таким образом, (21) сокращается до (17) после взаимного уничтожения нулей и полюсов.
Здесь рассматривается оценка спектральной плотности мощности на основе метода автокорреляции. Для этого имеется четыре причины.
Метод автокорреляции хорошо известен. В частности, оцениваемые параметры имеют минимальную фазу, обеспечивающую стабильность получаемого в результате фильтра.
При использовании алгоритма Левинсона способ легко реализуется и имеет низкую вычислительную сложность.
Оптимальная процедура включает в себя нелинейную оптимизацию, явно требующую некоторую процедуру инициализации. Метод автокорреляции ее не требует.
С практической точки зрения удобно, если может быть использована одна и та же процедура оценки для искаженной речи и соответственно чистой речи, если она доступна. Другими словами, способ оценивания должен быть независимым от действительного сценария работы, то есть независимым от отношения сигнал-шум.
Хорошо известно, что модель с авторегрессионным скользящим средним (такая, как (21)) может быть смоделирована процессом авторегресии бесконечного порядка. Когда для оценки параметра доступно конечное число данных, бесконечная авторегрессионная модель усекается. Здесь использована следующая модель:
Figure 00000101

где F(q-1) имеет порядок
Figure 00000102
Подходящий порядок модели следует из приведенного ниже анализа. Приближенная модель (23) близка к
процессу речи с шумом, если их спектральные плотности мощности приблизительно равны, то есть
Figure 00000103

Исходя из физического моделирования голосового тракта, общепринято рассматривать p=degA(q-1)) = 10. Из (24) также следует, что
Figure 00000104
= deg(F(q-1)) >> degA(q-1)) + deg
Figure 00000105
(q-1)) = p + r, где p + r грубо равно числу пиков в Фx(ω) С другой стороны, моделирование узкополосных процессов с шумом с использованием авторегрессионных моделей требует
Figure 00000106
с целью обеспечить достоверные оценки спектральной плотности мощности. Таким образом,
Figure 00000107

Подходящее практическое правило дается выражением
Figure 00000108
Из вышеприведенного анализа можно ожидать, что параметрический подход выгоден, когда N >> 100. Из (22) можно также заключить, что чем более плоским является спектр шума, тем меньшие значения N допускаются. Даже если
Figure 00000109
не является достаточно большим, можно ожидать, что параметрический подход даст приемлемые результаты. Причиной этого является то, что параметрический подход дает, с точки зрения дисперсии ошибки, значительно более точные оценки спектральной плотности мощности, чем подход, основанный на периодограмме (в типичном примере отношение между дисперсиями равняется 1:8, см. ниже), что значительно уменьшает на выходе такие паразитные искусственные шумы, как тональный шум.
Параметрическая оценка спектральной плотности мощности кратко может быть охарактеризована следующим образом. Используют метод автокорреляции и авторегрессионную модель высокого порядка (модель порядка
Figure 00000110
для того, чтобы вычислить параметры авторегрессии
Figure 00000111
и дисперсию шума
Figure 00000112
(23). Из оцениваемой авторегрессионной модели вычисляют
Figure 00000113
(в N дискретных точках, соответствующих частотным участкам X(ω) в (3)) согласно формуле
Figure 00000114

Затем для выполнения коррекции речи s(k) используется один из рассмотренных и перечисленных в табл. 2 методов спектрального вычитания.
Далее используется аппроксимация низкого порядка для дисперсии параметрической оценки спектральной плотности мощности (аналогично (7) для рассмотренных непараметрических способов) и, таким образом, разложение s(k) в ряд Фурье при допущении, что шум является белым. Тогда асимптотическая (как для числа данных (N >> 1), так и для порядка модели (p >> 1)) дисперсия
Figure 00000115
равна
Figure 00000116

Вышеприведенное выражение действительно также для чистого (высокого порядка) процесса авторегресии. Из (26) непосредственно следует, что
Figure 00000117
, т. е. согласно упомянутому выше практическому правилу эта переменная приблизительно соответствует
Figure 00000118
, что можно сравнить с γx≈ 1 для случая оценки спектральной плотности мощности на основе периодограммы.
Например, для окружающей среды радиотелефона, который не держат при разговоре в руке, можно предположить, что шум стационарен в течение около 0,5 с (при частоте дискретизации 8000 Гц и длине кадра N = 256), что дает τ ≈ 15 и, таким образом, γν≅ 1/15. Кроме того, для
Figure 00000119
мы имеем γx= 1/8.
Фиг. 3 иллюстрирует для типичного речевого кадра различие между оценкой спектральной плотности мощности с помощью периодограммы и параметрической оценкой спектральной плотности мощности в соответствии с настоящим изобретением. В этом примере использованы N=256 (256 отсчетов) и авторегрессионная модель с 10 параметрами. Следует заметить, что параметрическая оценка спектральной плотности мощности
Figure 00000120
является значительно более сглаженной, чем соответствующая оценка спектральной плотности мощности с помощью периодограммы.
На фиг. 4 показано 5 секунд дискретизированного звукового сигнала, содержащего речь на шумовом фоне. На фиг. 5 показан сигнал фиг. 4 после спектрального вычитания, основанного на оценке спектральной плотности мощности с использованием периодограммы, которая отдает приоритет высокому качеству звука. На фиг. 6 показан сигнал фиг. 4 после спектрального вычитания, основанного на параметрической оценке спектральной плотности мощности в соответствии с настоящим изобретением.
Сравнение фиг. 5 и фиг. 6 показывает, что с помощью способа в соответствии с настоящим изобретением достигается значительное подавление шума (порядка 10 дБ). (Как отмечено выше в связи с описанием фиг. 1, уменьшенные уровни шума одинаковы для речевых и неречевых кадров). Другим отличием, которое не очевидно из фиг. 6, является то, что полученный в результате речевой сигнал искажен меньше, чем речевой сигнал на фиг. 5.
Теоретические результаты в отношении смещения и дисперсии ошибки спектральной плотности мощности для всех рассматриваемых способов суммированы в табл. 3.
Есть возможность классифицировать разные способы. Можно выделить по меньшей мере два критерия выбора подходящего способа.
Во-первых, для низкого мгновенного отношения сигнал/шум желательно, чтобы способ имел низкую дисперсию с целью избежать тональных искусственных шумов в
Figure 00000121
. Это невозможно без увеличенного смещения и для того, чтобы подавить (а не усилить) частотные области с низким мгновенным отношением сигнал/шум, этот член смещения должен иметь отрицательный знак (таким образом заставляя
Figure 00000122
в (9) стремиться к нулю). Способами, которые удовлетворяют этим критериям, являются соответственно вычитание амплитудных спектров (MS), улучшенное вычитание спектра мощности (IPS) и винеровская фильтрация (WF).
Во-вторых, для высоких отношений сигнал/шум желательна низкая степень искажений речи. Кроме того, если член смещения является главным, он должен иметь положительный знак. Способы на основе максимального правдоподобия (ML), вычитания спектров мощности (
Figure 00000123
PS, PS), улучшенного вычитания спектров мощности (IPS) и (возможно) винеровской фильтрации (WF), выполняют первое требование. Член смещения доминирует в выражении среднеквадратичной ошибки только для способов на основе принципов максимального правдоподобия (ML) и винеровской фильтрации (WF), причем знак члена смещения положителен для максимального правдоподобия (ML) и соответственно отрицателен для винеровской фильтрации (WF). Таким образом, способы на основе принципа максимального правдоподобия (ML), вычитания спектров мощности (PS,
Figure 00000124
PS) и улучшенного вычитания спектров мощности (IPS) удовлетворяют этому критерию.
Алгоритмические аспекты
В данном разделе предпочтительные варианты осуществления способа спектрального вычитания в соответствии с настоящим изобретением описываются со ссылкой на фиг. 7.
1. Входной сигнал:
Figure 00000125

2. Расчетные переменные:
Figure 00000126
- порядок модели речи в шуме,
ρ - коэффициент обновления текущего среднего значения для
Figure 00000127

3. Для каждого кадра входных данных выполняют следующие операции:
а) Обнаружение речи (шаг 110)
Переменная Речь устанавливается на "да", если выходной сигнал детектора речевой активности соответствует состоянию st =21 или st =22.
Речь устанавливается на "нет" в случае st = 20. Если выходной сигнал детектора речевой активности соответствует состоянию st = 0, то алгоритм инициализируется заново.
б) Спектральное оценивание
Если Речь, то оценить
Figure 00000128

i. Оценить коэффициенты (коэффициенты полинома
Figure 00000129
) и дисперсию
Figure 00000130
модели (23) со всеми полюсами, используя метод автокорреляции, применяемый к входным данным с подстроенным нулевым средним значением {x(k)} (шаг 120).
ii. Вычислить;
Figure 00000131
в соответствии с (25) (шаг 130).
Если не Речь, то оценить
Figure 00000132
(шаг 140)
Обновить спектральную модель фонового шума
Figure 00000133
используя (4), где
Figure 00000134
- периодограмма, основанная на входных данных с подстроенным нулевым средним значением, обработанных с помощью метода окна Хэннинга/Хэмминга. Так как здесь используются обработанные методом окна данные, в то время как
Figure 00000135
основывается на необработанных этим методом данных, то
Figure 00000136
должна быть надлежащим образом нормализована. Подходящее начальное значение для
Figure 00000137
определяется с помощью среднего (по частотным участкам) значения периодограммы первого кадра, масштабированного, например, с коэффициентом 0,25, т. е. первоначально фоновый шум априорно считается белым шумом.
(с) Спектральное вычитание (шаг 150)
i. Вычислить частотную весовую функцию
Figure 00000138
в соответствии с табл. 1.
ii. Возможная пост-фильтрация, заглушение и подстройка минимального уровня шума.
iii. Вычислить выходной сигнал, используя (3) и данные {x(k)} с подстроенным нулевым средним значением. Данные {x(k)} могут быть обработаны методом окна или нет в зависимости от действительного перекрытия кадров (прямоугольное окно используется для неперекрывающихся кадров, тогда как окно Хэннинга используется при 50% перекрытии).
Из вышеприведенного описания ясно, что настоящее изобретение ведет к значительному подавлению шума без ухудшения при этом качества звука. Это улучшение связано с разными способами оценивания спектра мощности для речевых и неречевых кадров. Эти способы используют преимущество различных характеров речевых и неречевых (фонового шума) сигналов для того, чтобы минимизировать дисперсию соответствующих оценок спектральной плотности мощности.
Для неречевых кадров
Figure 00000139
вычисляется способом непараметрического оценивания спектра мощности, например оцениванием с помощью периодограммы, основанной на быстром преобразовании Фурье, которая использует все N отсчеты каждого кадра. При сохранении в неречевых кадрах всех N степеней свободы может быть смоделировано большее многообразие фоновых шумов. Так как фоновый шум предполагается стационарным на протяжении нескольких кадров, уменьшение дисперсии
Figure 00000140
может быть достигнуто усреднением оценки спектра мощности по нескольким неречевым кадрам.
Для речевых кадров
Figure 00000141
вычисляется способом параметрического оценивания спектра мощности, основанным на параметрической модели речи. В этом случае особый характер речевого сигнала используется для уменьшения числа степеней свободы речевого кадра (до числа параметров в параметрической модели). Модель, основанная на меньшем числе параметров, уменьшает дисперсию оценки спектра мощности. Этот подход предпочтителен для речевых кадров, так как предполагается, что речь стационарна только в течение кадра.
Специалистам в данной области должно быть ясно, что различные модификации и изменения могут быть сделаны в данном изобретении в пределах его сущности и объема, который определен прилагаемой формулой.
Приложение A
Анализ
Figure 00000142

Вычисления для
Figure 00000143
дают
Figure 00000144

где во втором равенстве также используется разложение в ряд Тейлора
Figure 00000145
Из (27) следует, что ожидаемая величина
Figure 00000146
не равна нулю и определяется выражением
Figure 00000147

Далее
Figure 00000148

Объединяя (29) и (15), получаем
Figure 00000149

Приложение В
Анализ
Figure 00000150

В этом приложении выводится ошибка спектральной плотности мощности для коррекции речи на основе винеровской фильтрации [2]. В этом случаев
Figure 00000151
определяется с помощью
Figure 00000152

Здесь
Figure 00000153
является оценкой Фs(ω), а второе равенство вытекает из
Figure 00000154

Отметим, что
Figure 00000155

и прямое вычисление дает
Figure 00000156

Из (33) следует, что
Figure 00000157

и
Figure 00000158

Приложение С
Анализ
Figure 00000159

Вычитание в спектральной области на основе метода максимального правдоподобия (ML), с использованием характеристики речи, как колебания детерминированной формы с неизвестной амплитудой и фазой, определяется как
Figure 00000160

Подставив (11) в (36), в результате очевидных вычислений получим
Figure 00000161

где в первом равенстве используется разложение в ряд Тейлора (1+x)-1≅ 1-x, а во втором -
Figure 00000162
Теперь можно легко вычислить ошибку спектральной плотности мощности. Подстановка (37) в (9)-(10) дает, если пренебречь отклонениями выше первого порядка в разложении
Figure 00000163

Figure 00000164

Из (38) следует, что
Figure 00000165

где во втором равенстве используется (2). Далее
Figure 00000166

Приложение D
Вывод
Figure 00000167

Когда
Figure 00000168
точно известны, квадратичная ошибка спектральной плотности мощности минимизируется с помощью HPS(ω), то есть
Figure 00000169
с
Figure 00000170
и
Figure 00000171
, замененными на
Figure 00000172
соответственно. Это вытекает непосредственно из (9) и (10), а именно
Figure 00000173
где (2) используется в последнем равенстве. Заметим, что в этом случае H(ω) является детерминированной величиной, тогда как
Figure 00000174
- случайной величиной. Если учесть неопределенность оценок спектральной плотности мощности, то это в целом более не соответствует действительности и, чтобы улучшить характеристику
Figure 00000175
в этом разделе выводится весовая функция, независимая от данных. С этой целью рассматривается выражение для дисперсии в виде
Figure 00000176

(ξ = 1 для вычитания спектров мощности и
Figure 00000177
для вычитания амплитудных спектров и γ = γxν). Переменная γ зависит только от используемого способа оценки спектральной плотности мощности и не может зависеть от выбора передаточной функции
Figure 00000178
Однако первый коэффициент ξ зависит от выбора
Figure 00000179
В данном разделе ищется независимая от данных весовая функция
Figure 00000180
такая, что
Figure 00000181
минимизирует математическое ожидание квадратичной ошибки спектральной плотности мощности, то есть
Figure 00000182

B (42) G(ω) является характеристической весовой функцией. Прежде, чем продолжить, заметим, что если допускается зависимость весовой функции G(ω) от данных, то это дает в результате общий класс способов вычитания в спектральной области, который включает в качестве особых случаев много используемых обычно методов, например вычитание амплитудных спектров с использованием
Figure 00000183
Однако это замечание не представляет особого интереса, так как оптимизация (42) с зависимой от данных G(ω) значительно зависит от вида G(ω). Таким образом, способы, которые используют весовые функции, зависящие от данных, должны быть проанализированы по отдельности, так как в этом случае не может быть получено общих результатов.
Для минимизации (42) прямое вычисление дает
Figure 00000184

Определяя математическое ожидание квадратичной ошибки спектральной плотности мощности и используя (41), получим
Figure 00000185

Уравнение (44) является квадратичным для переменной G(ω) и может быть минимизировано аналитически. Результат следующий:
Figure 00000186

где во втором равенстве используется (2). Не является неожиданным, что
Figure 00000187
зависит от спектральных плотностей мощности (неизвестных) и переменной γ. Как отмечено выше, нельзя непосредственно заменять неизвестные спектральные плотности мощности в (45) соответствующими оценками и считать, что полученный в результате модифицированный способ является оптимальным, то есть минимизирует (42). Однако можно ожидать, что с принятием во внимание неопределенности
Figure 00000188
и в процедуре расчета модифицированный способ вычитания спектров мощности будет работать "лучше", чем обычный способ вычитания спектров мощности (PS). На основании вышеприведенных соображений, этот модифицированный способ вычитания спектров мощности назван улучшенным способом вычитания спектров мощности (IPS). Прежде чем анализировать улучшенный способ вычитания спектров мощности (IPS) в Приложении Е, необходимо сделать следующие замечания.
Для высокого мгновенного отношения сигнал/шум (для такой ω, что Фs(ω)/Фν(ω) ≫ 1) из (45) следует, что
Figure 00000189
и, так как нормализованная дисперсия ошибки
Figure 00000190
(см. (41)) в данном случае мала, можно сделать вывод, что характеристика улучшенного способа вычитания спектров мощности (IPS) близка (очень близка) к характеристике обычного способа вычитания спектров мощности (PS). С другой стороны, для низкого мгновенного отношения сигнал/шум (то есть для такого значения ω, при котором
Figure 00000191
что приводит к формуле (ср. (43)):
Figure 00000192

и
Figure 00000193

Однако при низком мгновенном отношении сигнал/шум нельзя сделать вывод о том, что (46)-(47) даже приблизительно правильны, если
Figure 00000194
в (45) заменяется на
Figure 00000195
то есть при замене
Figure 00000196
в (45) их оцененными значениями
Figure 00000197
соответственно.
Приложение Е
Анализ
Figure 00000198

В этом приложении анализируется способ улучшенного вычитания спектров мощности. Принимая во внимание (45), определим
Figure 00000199
c помощью (45), с
Figure 00000200
заменяемыми соответствующими оцененными величинами. Можно показать, что
Figure 00000201

это может быть сопоставлено с (43). В явном виде
Figure 00000202

и
Figure 00000203

Для высокого отношения сигнал/шум, такого, что Фs(ω)/Фν(ω) ≫ 1, может быть выполнен некоторый анализ (49)-(50). В этом случае можно показать, что
Figure 00000204

и
Figure 00000205

Члены, которыми пренебрегают в (51) и (52), имеют порядок
Figure 00000206
. Таким образом, как уже отмечалось, при высоком отношении сигнал/шум характеристика улучшенного способа вычитания спектров мощности (IPS) сходна с характеристикой обычного способа вычитания спектров мощности (PS). С другой стороны, для низкого отношения сигнал/шум (для таких ω, что
Figure 00000207

Figure 00000208

Figure 00000209

Если сравнить (53)-(54) с соответствующими результатами вычитания спектров мощности (13) и (16), то можно видеть, что для низкого отношения сигнал/шум улучшенный способ вычитания спектров мощности значительно уменьшает дисперсию
Figure 00000210
по сравнению с обычным способом вычитания спектров мощности, устремляя
Figure 00000211
в (9) к нулю. Отношение между дисперсиями при улучшенном способе вычитания спектров мощности (IPS) и обычном вычитании спектров мощности (PS) имеет порядок
Figure 00000212
Можно также сравнить (53)-(54) с приближенным выражением (47), отметив, что отношение между ними равняется 9.
Приложение F
Вычитание спектров мощности (PS) с оптимальным коэффициентом вычитания δ
Следует рассмотреть часто обсуждаемую модификацию способа вычитания мощности
Figure 00000213

где δ(ω) - функция, возможно зависящая от частоты. В частности, при δ(ω) = δ для некоторой постоянной δ > 1, способ часто называется вычитанием спектров мощности с избыточным вычитанием. Эта модификация значительно уменьшает уровень шума и уменьшает тональные искусственные шумы. При этом она существенно искажает речь, что делает эту модификацию бесполезной для коррекции речи высокого качества. Этот факт легко виден из (55), когда δ ≫ 1. Таким образом, для средних и низких отношений речь/шум (в области ω) выражение под знаком квадратного корня очень часто является отрицательным поэтому выпрямляющее устройство будет приравнивать его к нулю (однополупериодное выпрямление). Это подразумевает, что только те частотные полосы, где отношение сигнал/шум является высоким, будут появляться в выходном сигнале
Figure 00000214
в (3). Вследствие нелинейности выпрямляющего устройства настоящий метод анализа непосредственно неприменим в этом случае и так как δ>1 приводит к выходному сигналу с низким качеством звука, то далее эта модификация рассматриваться не будет.
Однако интерес представляет такой случай, когда δ(ω)≤1, что можно видеть из следующего эвристического анализа. Как было установлено ранее, когда
Figure 00000215
точно известны, (55) c δ(ω) = 1 является оптимальным в отношении минимизации квадратичной ошибки спектральной плотности мощности. С другой стороны, если
Figure 00000216
совершенно неизвестны, то есть нет их оценок, то лучшее, что можно сделать - это оценить речь с помощью самих отсчетов речи с шумом, то есть
Figure 00000217
, в соответствии с (55) при δ = 0. Ввиду двух вышеуказанных крайних случаев можно ожидать, что если неизвестные
Figure 00000218
заменяются соответственно на
Figure 00000219
то ошибка
Figure 00000220
минимизируется для некоторого δ(ω) в интервале 0<δ(ω)<1.
Кроме того, как эмпирическая величина улучшение усредненных спектральных искажений, так и ошибка спектральной плотности мощности, были экспериментально изучены в зависимости от коэффициента вычитания при вычитании амплитудных спектров. На основе нескольких экспериментов был сделан вывод, что оптимальный коэффициент вычитания предпочтительно должен находиться в интервале от 0,5 до 0,9.
Вычисление ошибки спектральной плотности мощности в этом случае дает
Figure 00000221

Расчет математического ожидания квадратичной ошибки спектральной плотности мощности дает
Figure 00000222

где использовано (41). Уравнение (57) является квадратным по δ(ω) и может быть минимизировано аналитически. Если обозначить оптимальное значение через
Figure 00000223
то результат будет следующий
Figure 00000224

Заметим, что поскольку величина γ в (58) приближенно частотно независима (по меньшей мере для N >> 1), то
Figure 00000225
также не зависит от частоты. В частности,
Figure 00000226
не зависит от
Figure 00000227
что подразумевает, что дисперсия и смещение
Figure 00000228
непосредственно следуют из (57).
В ряде (реальных) случаев значение
Figure 00000229
может быть значительно меньше единицы. Например, еще раз рассмотрим
Figure 00000230
Тогда δ определяется с помощью выражения
Figure 00000231

которое для всех τ очевидно является меньшим, чем 0,5. В этом случае тот факт, что δ ≪ 1 показывает, что неопределенность в оценках спектральной плотности мощности (и, в частности, неопределенность в
Figure 00000232
оказывает большое воздействие на качество выходного сигнала (с точки зрения ошибки спектральной плотности мощности). В особенности, применение δ ≪ 1 подразумевает, что улучшение отношения речь/шум выходного сигнала по сравнению с входным является малым.
В связи с этим возникает вопрос, существует ли в данном случае, аналогично весовой функции для улучшенного способа вычитания спектров мощности (IPS) в Приложении D, независимая от данных весовая функция
Figure 00000233
B Приложении G такой способ выводится (и назван δIPS).
Приложение G
Вывод
Figure 00000234

В этом приложении мы ищем независимый от данных весовой коэффициент
Figure 00000235
такой, что
Figure 00000236
для некоторой постоянной δ(0≤δ≤1) минимизирует математическое ожидание квадратичной ошибки спектральной плотности (ср. с (42)). Прямое вычисление дает
Figure 00000237

Математическое ожидание квадратичной ошибки спектральной плотности определяется с помощью
Figure 00000238

Правая часть (60) является квадратичной по G(ω) и может быть аналитически минимизирована. Результат определяется выражением
Figure 00000239

где β в втором равенстве определяется с помощью
Figure 00000240

Для δ = 1 вышеприведенные (61)-(62) сокращаются до улучшенного способа вычитания спектров мощности (45), а для δ = 0 мы приходим к обычному вычитанию спектров мощности. Замена
Figure 00000241
в (61)-(62) соответствующими оцениваемыми величинами
Figure 00000242
и
Figure 00000243
соответственно приводит к способу, который, принимая во внимание улучшенный способ вычитания спектров мощности IPS, назван δIPS. Анализ способа δIPS аналогичен анализу способа вычитания спектров мощности IPS, но требует много громоздких тривиальных вычислений и поэтому опущен.
Литература
1. S. F. Boll, "Suppression of Acoustic Noise in Speech Using Spectral Subtraction", IEEE Transactions on Acoustics, Speech, and Signal Processing, vol. ASSP-27, April 1979, pp, 113-120.
2. J. S.Lim and A.V. Oppenheim, "Enchancement and Bandwidth Compression of Noisy Speech", Proceedings of the IEEE, Vol. 67, No. 12, December 1979, pp. 1586-1604.
3. J. D. Gibson, B. Koo and S.D. Gray, "Filtering of Colored Noise for Speech Enhancement and Coding", IEEE Transactions on Acoustics, Speech, and Signal Processing, Vol. ASSP-39, No. 8, August 1991, pp. 1732-1742.
4. J.H.L Hansen and M.A. Clements, "Constrained, Iterative Speech Enhancement with Application to Speech Recognition", IEEE Transactions on Signal Processing, Vol. 39, No. 4, April 1991; pp. 795-805.
5. D.K. Freeman, Q. Cosier, C.B. Southcott and I. Boid, "The Voice Activity Detector for the Pan-European Digital Cellular Mobile Telephone Service", 2989 IEEE International Conference Acoustics, Speech and Signal Processing, Glasgow, Scotland, 23-26 March 1989, pp. 369-372.
6. Международная заявка N 89/08910, British Telecommunications PLC.

Claims (7)

1. Способ подавления шума путем спектрального вычитания в цифровой системе связи, работающей на основе передачи кадров, каждый из которых включает заданное число N отсчетов звукового сигнала и имеет таким образом N степеней свободы, причем функция
Figure 00000244
спектрального вычитания основывается на оценке
Figure 00000245
спектральной плотности мощности фонового шума в неречевых кадрах и на оценке
Figure 00000246
спектральной плотности мощности в речевых кадрах, отличающийся тем, что аппроксимируют каждый речевой кадр приближенной параметрической моделью так, что число степеней свободы уменьшается до значения, меньшего N, вычисляют упомянутую оценку спектральной плотности мощности
Figure 00000247
каждого речевого кадра с помощью параметрического способа оценивания спектра мощности, основанного на приближенной параметрической модели, и вычисляют упомянутую оценку
Figure 00000248
спектральной плотности мощности каждого неречевого кадра непараметрическим способом оценивания спектра мощности.
2. Способ по п.1, отличающийся тем, что упомянутая приближенная параметрическая модель является авторегрессионной моделью.
3. Способ по п.2, отличающийся тем, что упомянутая авторегрессионная модель имеет порядок, приблизительно равный
Figure 00000249

4. Способ по п.3, отличающийся тем, что упомянутая авторегрессионная модель имеет порядок, приблизительно равный 10.
5. Способ по п.3, отличающийся тем, что упомянутая функция спектрального вычитания соответствует формуле
Figure 00000250

где
Figure 00000251
- весовая функция, а δ(ω) - коэффициент вычитания.
6. Способ по п.5, отличающийся тем, что весовая функция
Figure 00000252
равна 1.
7. Способ по п.5 или 6, отличающийся тем, что коэффициент δ(ω) является константой, меньшей или равной 1.
8. Способ по п.3, отличающийся тем, что упомянутая функция
Figure 00000253
спектрального вычитания соответствует формуле
Figure 00000254

9. Способ по п.3, отличающийся тем, что упомянутая функция
Figure 00000255
спектрального вычитания соответствует формуле
Figure 00000256

10. Способ по п. 3, отличающийся тем, что упомянутая функция
Figure 00000257
спектрального вычитания соответствует формуле
Figure 00000258
RU97116274A 1995-01-30 1996-01-12 Способ подавления шума путем спектрального вычитания RU2145737C1 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
SE9500321-6 1995-01-30
SE9500321A SE505156C2 (sv) 1995-01-30 1995-01-30 Förfarande för bullerundertryckning genom spektral subtraktion
PCT/SE1996/000024 WO1996024128A1 (en) 1995-01-30 1996-01-12 Spectral subtraction noise suppression method

Publications (2)

Publication Number Publication Date
RU97116274A RU97116274A (ru) 1999-07-20
RU2145737C1 true RU2145737C1 (ru) 2000-02-20

Family

ID=20397011

Family Applications (1)

Application Number Title Priority Date Filing Date
RU97116274A RU2145737C1 (ru) 1995-01-30 1996-01-12 Способ подавления шума путем спектрального вычитания

Country Status (14)

Country Link
US (1) US5943429A (ru)
EP (1) EP0807305B1 (ru)
JP (1) JPH10513273A (ru)
KR (1) KR100365300B1 (ru)
CN (1) CN1110034C (ru)
AU (1) AU696152B2 (ru)
BR (1) BR9606860A (ru)
CA (1) CA2210490C (ru)
DE (1) DE69606978T2 (ru)
ES (1) ES2145429T3 (ru)
FI (1) FI973142A (ru)
RU (1) RU2145737C1 (ru)
SE (1) SE505156C2 (ru)
WO (1) WO1996024128A1 (ru)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2483439C2 (ru) * 2007-10-18 2013-05-27 Моторола Мобилити, Инк. Робастная система подавления шума с двумя микрофонами
RU2593384C2 (ru) * 2014-12-24 2016-08-10 Федеральное государственное бюджетное учреждение науки "Морской гидрофизический институт РАН" Способ дистанционного определения характеристик морской поверхности

Families Citing this family (212)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1326479B2 (en) * 1997-04-16 2018-05-23 Emma Mixed Signal C.V. Method and apparatus for noise reduction, particularly in hearing aids
FR2764469B1 (fr) * 1997-06-09 2002-07-12 France Telecom Procede et dispositif de traitement optimise d'un signal perturbateur lors d'une prise de son
WO1999001942A2 (en) * 1997-07-01 1999-01-14 Partran Aps A method of noise reduction in speech signals and an apparatus for performing the method
DE19747885B4 (de) * 1997-10-30 2009-04-23 Harman Becker Automotive Systems Gmbh Verfahren zur Reduktion von Störungen akustischer Signale mittels der adaptiven Filter-Methode der spektralen Subtraktion
FR2771542B1 (fr) * 1997-11-21 2000-02-11 Sextant Avionique Procede de filtrage frequentiel applique au debruitage de signaux sonores mettant en oeuvre un filtre de wiener
US6070137A (en) * 1998-01-07 2000-05-30 Ericsson Inc. Integrated frequency-domain voice coding using an adaptive spectral enhancement filter
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
CN1258368A (zh) * 1998-03-30 2000-06-28 三菱电机株式会社 噪声衰减设备以及噪声衰减方法
US6717991B1 (en) * 1998-05-27 2004-04-06 Telefonaktiebolaget Lm Ericsson (Publ) System and method for dual microphone signal noise reduction using spectral subtraction
US6182042B1 (en) * 1998-07-07 2001-01-30 Creative Technology Ltd. Sound modification employing spectral warping techniques
US6351731B1 (en) 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6122610A (en) * 1998-09-23 2000-09-19 Verance Corporation Noise suppression for low bitrate speech coder
US6400310B1 (en) 1998-10-22 2002-06-04 Washington University Method and apparatus for a tunable high-resolution spectral estimator
EP2085028A1 (en) 1998-11-09 2009-08-05 Xinde Li Processing low signal-to-noise ratio signals
US6343268B1 (en) * 1998-12-01 2002-01-29 Siemens Corporation Research, Inc. Estimator of independent sources from degenerate mixtures
US6289309B1 (en) 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
DE69907967T2 (de) * 1998-12-18 2004-03-11 Telefonaktiebolaget L M Ericsson (Publ) Geräuschunterdrückung in einem mobil-kommunikationssystem
DK1141948T3 (da) 1999-01-07 2007-08-13 Tellabs Operations Inc Fremgangsmåde og apparat til adaptiv undertrykkelse af stöj
EP1729287A1 (en) * 1999-01-07 2006-12-06 Tellabs Operations, Inc. Method and apparatus for adaptively suppressing noise
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system
US6496795B1 (en) * 1999-05-05 2002-12-17 Microsoft Corporation Modulated complex lapped transform for integrated signal enhancement and coding
FR2794323B1 (fr) * 1999-05-27 2002-02-15 Sagem Procede de suppression de bruit
US6314394B1 (en) * 1999-05-27 2001-11-06 Lear Corporation Adaptive signal separation system and method
FR2794322B1 (fr) * 1999-05-27 2001-06-22 Sagem Procede de suppression de bruit
US6480824B2 (en) * 1999-06-04 2002-11-12 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for canceling noise in a microphone communications path using an electrical equivalence reference signal
DE19935808A1 (de) * 1999-07-29 2001-02-08 Ericsson Telefon Ab L M Echounterdrückungseinrichtung zum Unterdrücken von Echos in einer Sender/Empfänger-Einheit
SE514875C2 (sv) * 1999-09-07 2001-05-07 Ericsson Telefon Ab L M Förfarande och anordning för konstruktion av digitala filter
US6876991B1 (en) 1999-11-08 2005-04-05 Collaborative Decision Platforms, Llc. System, method and computer program product for a collaborative decision platform
FI19992453A (fi) * 1999-11-15 2001-05-16 Nokia Mobile Phones Ltd Kohinanvaimennus
US6804640B1 (en) * 2000-02-29 2004-10-12 Nuance Communications Signal noise reduction using magnitude-domain spectral subtraction
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US6766292B1 (en) * 2000-03-28 2004-07-20 Tellabs Operations, Inc. Relative noise ratio weighting techniques for adaptive noise cancellation
US6674795B1 (en) * 2000-04-04 2004-01-06 Nortel Networks Limited System, device and method for time-domain equalizer training using an auto-regressive moving average model
US6711558B1 (en) 2000-04-07 2004-03-23 Washington University Associative database scanning and information retrieval
US8095508B2 (en) * 2000-04-07 2012-01-10 Washington University Intelligent data storage and processing using FPGA devices
US7139743B2 (en) * 2000-04-07 2006-11-21 Washington University Associative database scanning and information retrieval using FPGA devices
US7225001B1 (en) 2000-04-24 2007-05-29 Telefonaktiebolaget Lm Ericsson (Publ) System and method for distributed noise suppression
MXPA02000518A (es) * 2000-05-17 2002-07-02 Koninkl Philips Electronics Nv Codificacion de audio.
DE10053948A1 (de) * 2000-10-31 2002-05-16 Siemens Ag Verfahren zum Vermeiden von Kommunikations-Kollisionen zwischen Co-existierenden PLC-Systemen bei der Nutzung eines allen PLC-Systemen gemeinsamen physikalischen Übertragungsmediums und Anordnung zur Durchführung des Verfahrens
US6463408B1 (en) * 2000-11-22 2002-10-08 Ericsson, Inc. Systems and methods for improving power spectral estimation of speech signals
US20050065779A1 (en) * 2001-03-29 2005-03-24 Gilad Odinak Comprehensive multiple feature telematics system
US8175886B2 (en) 2001-03-29 2012-05-08 Intellisist, Inc. Determination of signal-processing approach based on signal destination characteristics
US7236777B2 (en) 2002-05-16 2007-06-26 Intellisist, Inc. System and method for dynamically configuring wireless network geographic coverage or service levels
USRE46109E1 (en) 2001-03-29 2016-08-16 Lg Electronics Inc. Vehicle navigation system and method
US20020143611A1 (en) * 2001-03-29 2002-10-03 Gilad Odinak Vehicle parking validation system and method
US6885735B2 (en) * 2001-03-29 2005-04-26 Intellisist, Llc System and method for transmitting voice input from a remote location over a wireless data channel
US6487494B2 (en) * 2001-03-29 2002-11-26 Wingcast, Llc System and method for reducing the amount of repetitive data sent by a server to a client for vehicle navigation
US20030046069A1 (en) * 2001-08-28 2003-03-06 Vergin Julien Rivarol Noise reduction system and method
US7716330B2 (en) 2001-10-19 2010-05-11 Global Velocity, Inc. System and method for controlling transmission of data packets over an information network
US6813589B2 (en) * 2001-11-29 2004-11-02 Wavecrest Corporation Method and apparatus for determining system response characteristics
US7315623B2 (en) * 2001-12-04 2008-01-01 Harman Becker Automotive Systems Gmbh Method for supressing surrounding noise in a hands-free device and hands-free device
US7116745B2 (en) * 2002-04-17 2006-10-03 Intellon Corporation Block oriented digital communication system and method
US7093023B2 (en) * 2002-05-21 2006-08-15 Washington University Methods, systems, and devices using reprogrammable hardware for high-speed processing of streaming data to find a redefinable pattern and respond thereto
US7711844B2 (en) 2002-08-15 2010-05-04 Washington University Of St. Louis TCP-splitter: reliable packet monitoring methods and apparatus for high speed networks
US20040078199A1 (en) * 2002-08-20 2004-04-22 Hanoh Kremer Method for auditory based noise reduction and an apparatus for auditory based noise reduction
JP2006526227A (ja) 2003-05-23 2006-11-16 ワシントン ユニヴァーシティー Fpgaデバイスを使用するインテリジェントデータ記憶および処理
US10572824B2 (en) 2003-05-23 2020-02-25 Ip Reservoir, Llc System and method for low latency multi-functional pipeline with correlation logic and selectively activated/deactivated pipelined data processing engines
DE102004001863A1 (de) * 2004-01-13 2005-08-11 Siemens Ag Verfahren und Vorrichtung zur Bearbeitung eines Sprachsignals
US7602785B2 (en) 2004-02-09 2009-10-13 Washington University Method and system for performing longest prefix matching for network address lookup using bloom filters
CN100466671C (zh) * 2004-05-14 2009-03-04 华为技术有限公司 语音切换方法及其装置
US7454332B2 (en) * 2004-06-15 2008-11-18 Microsoft Corporation Gain constrained noise suppression
JP5068653B2 (ja) * 2004-09-16 2012-11-07 フランス・テレコム 雑音のある音声信号を処理する方法および該方法を実行する装置
JP4519169B2 (ja) * 2005-02-02 2010-08-04 富士通株式会社 信号処理方法および信号処理装置
KR100657948B1 (ko) * 2005-02-03 2006-12-14 삼성전자주식회사 음성향상장치 및 방법
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7702629B2 (en) * 2005-12-02 2010-04-20 Exegy Incorporated Method and device for high performance regular expression pattern matching
US8345890B2 (en) 2006-01-05 2013-01-01 Audience, Inc. System and method for utilizing inter-microphone level differences for speech enhancement
US7954114B2 (en) 2006-01-26 2011-05-31 Exegy Incorporated Firmware socket module for FPGA-based pipeline processing
US8744844B2 (en) * 2007-07-06 2014-06-03 Audience, Inc. System and method for adaptive intelligent noise suppression
US8204252B1 (en) 2006-10-10 2012-06-19 Audience, Inc. System and method for providing close microphone adaptive array processing
US9185487B2 (en) * 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8194880B2 (en) 2006-01-30 2012-06-05 Audience, Inc. System and method for utilizing omni-directional microphones for speech enhancement
US8112247B2 (en) * 2006-03-24 2012-02-07 International Business Machines Corporation Resource adaptive spectrum estimation of streaming data
US7636703B2 (en) * 2006-05-02 2009-12-22 Exegy Incorporated Method and apparatus for approximate pattern matching
US8934641B2 (en) 2006-05-25 2015-01-13 Audience, Inc. Systems and methods for reconstructing decomposed audio signals
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US8150065B2 (en) 2006-05-25 2012-04-03 Audience, Inc. System and method for processing an audio signal
US8204253B1 (en) 2008-06-30 2012-06-19 Audience, Inc. Self calibration of audio device
US8849231B1 (en) 2007-08-08 2014-09-30 Audience, Inc. System and method for adaptive power control
US7921046B2 (en) 2006-06-19 2011-04-05 Exegy Incorporated High speed processing of financial information using FPGA devices
US7840482B2 (en) 2006-06-19 2010-11-23 Exegy Incorporated Method and system for high speed options pricing
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7660793B2 (en) 2006-11-13 2010-02-09 Exegy Incorporated Method and system for high performance integration, processing and searching of structured and unstructured data using coprocessors
US8326819B2 (en) 2006-11-13 2012-12-04 Exegy Incorporated Method and system for high performance data metatagging and data indexing using coprocessors
US8259926B1 (en) 2007-02-23 2012-09-04 Audience, Inc. System and method for 2-channel and 3-channel acoustic echo cancellation
US7912567B2 (en) * 2007-03-07 2011-03-22 Audiocodes Ltd. Noise suppressor
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US20080312916A1 (en) * 2007-06-15 2008-12-18 Mr. Alon Konchitsky Receiver Intelligibility Enhancement System
US20090027648A1 (en) * 2007-07-25 2009-01-29 Asml Netherlands B.V. Method of reducing noise in an original signal, and signal processing device therefor
US8189766B1 (en) 2007-07-26 2012-05-29 Audience, Inc. System and method for blind subband acoustic echo cancellation postfiltering
US8143620B1 (en) 2007-12-21 2012-03-27 Audience, Inc. System and method for adaptive classification of audio sources
US8180064B1 (en) 2007-12-21 2012-05-15 Audience, Inc. System and method for providing voice equalization
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8194882B2 (en) 2008-02-29 2012-06-05 Audience, Inc. System and method for providing single microphone noise suppression fallback
US8355511B2 (en) 2008-03-18 2013-01-15 Audience, Inc. System and method for envelope-based acoustic echo cancellation
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8374986B2 (en) 2008-05-15 2013-02-12 Exegy Incorporated Method and system for accelerated stream processing
US8521530B1 (en) 2008-06-30 2013-08-27 Audience, Inc. System and method for enhancing a monaural audio signal
US8774423B1 (en) 2008-06-30 2014-07-08 Audience, Inc. System and method for controlling adaptivity of signal modification using a phantom coefficient
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
CA3059606C (en) 2008-12-15 2023-01-17 Ip Reservoir, Llc Method and apparatus for high-speed processing of financial market depth data
EP2368322A1 (en) * 2008-12-18 2011-09-28 Telefonaktiebolaget L M Ericsson (publ) Systems and methods for filtering a signal
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
CN101609480B (zh) * 2009-07-13 2011-03-30 清华大学 基于广域测量类噪声信号的电力系统节点间相位关系辨识方法
US8600743B2 (en) * 2010-01-06 2013-12-03 Apple Inc. Noise profile determination for voice-related feature
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US9008329B1 (en) 2010-01-26 2015-04-14 Audience, Inc. Noise reduction using multi-feature cluster tracker
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
JP2013539998A (ja) * 2010-09-21 2013-10-31 コルティカル ダイナミクス リミテッド 複合脳機能モニタリング・表示システム
US9330675B2 (en) 2010-11-12 2016-05-03 Broadcom Corporation Method and apparatus for wind noise detection and suppression using multiple microphones
WO2012079041A1 (en) 2010-12-09 2012-06-14 Exegy Incorporated Method and apparatus for managing orders in financial markets
US9264804B2 (en) 2010-12-29 2016-02-16 Telefonaktiebolaget L M Ericsson (Publ) Noise suppressing method and a noise suppressor for applying the noise suppressing method
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8903722B2 (en) * 2011-08-29 2014-12-02 Intel Mobile Communications GmbH Noise reduction for dual-microphone communication devices
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US11436672B2 (en) 2012-03-27 2022-09-06 Exegy Incorporated Intelligent switch for processing financial market data
US9990393B2 (en) 2012-03-27 2018-06-05 Ip Reservoir, Llc Intelligent feed switch
US10121196B2 (en) 2012-03-27 2018-11-06 Ip Reservoir, Llc Offload processing of data packets containing financial market data
US10650452B2 (en) 2012-03-27 2020-05-12 Ip Reservoir, Llc Offload processing of data packets
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9633097B2 (en) 2012-10-23 2017-04-25 Ip Reservoir, Llc Method and apparatus for record pivoting to accelerate processing of data fields
EP2912579B1 (en) 2012-10-23 2020-08-19 IP Reservoir, LLC Method and apparatus for accelerated format translation of data in a delimited data format
US9633093B2 (en) 2012-10-23 2017-04-25 Ip Reservoir, Llc Method and apparatus for accelerated format translation of data in a delimited data format
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
GB2541577A (en) 2014-04-23 2017-02-22 Ip Reservoir Llc Method and apparatus for accelerated data translation
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
WO2015184186A1 (en) 2014-05-30 2015-12-03 Apple Inc. Multi-command single utterance input method
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
RU2580796C1 (ru) * 2015-03-02 2016-04-10 Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ (варианты) фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
DK3118851T3 (da) * 2015-07-01 2021-02-22 Oticon As Forbedring af støjende tale baseret på statistiske tale- og støjmodeller
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10942943B2 (en) 2015-10-29 2021-03-09 Ip Reservoir, Llc Dynamic field data translation to support high performance stream data processing
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
WO2018119035A1 (en) 2016-12-22 2018-06-28 Ip Reservoir, Llc Pipelines for hardware-accelerated machine learning
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10481831B2 (en) * 2017-10-02 2019-11-19 Nuance Communications, Inc. System and method for combined non-linear and late echo suppression
CN111508514A (zh) * 2020-04-10 2020-08-07 江苏科技大学 基于补偿相位谱的单通道语音增强算法

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4410763A (en) * 1981-06-09 1983-10-18 Northern Telecom Limited Speech detector
US4628529A (en) * 1985-07-01 1986-12-09 Motorola, Inc. Noise suppression system
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US4630305A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic gain selector for a noise suppression system
US4811404A (en) * 1987-10-01 1989-03-07 Motorola, Inc. Noise suppression system
GB8801014D0 (en) * 1988-01-18 1988-02-17 British Telecomm Noise reduction
US5155760A (en) * 1991-06-26 1992-10-13 At&T Bell Laboratories Voice messaging system with voice activated prompt interrupt
FR2687496B1 (fr) * 1992-02-18 1994-04-01 Alcatel Radiotelephone Procede de reduction de bruit acoustique dans un signal de parole.
FI100154B (fi) * 1992-09-17 1997-09-30 Nokia Mobile Phones Ltd Menetelmä ja järjestelmä kohinan vaimentamiseksi
JPH08506427A (ja) * 1993-02-12 1996-07-09 ブリテイッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 雑音減少
US5432859A (en) * 1993-02-23 1995-07-11 Novatel Communications Ltd. Noise-reduction system
JP3270866B2 (ja) * 1993-03-23 2002-04-02 ソニー株式会社 雑音除去方法および雑音除去装置
JPH07129195A (ja) * 1993-11-05 1995-05-19 Nec Corp 音声復号化装置
JPH08506434A (ja) * 1993-11-30 1996-07-09 エイ・ティ・アンド・ティ・コーポレーション 通信システムにおける伝送ノイズ低減
US5544250A (en) * 1994-07-18 1996-08-06 Motorola Noise suppression system and method therefor
JP2964879B2 (ja) * 1994-08-22 1999-10-18 日本電気株式会社 ポストフィルタ
US5727072A (en) * 1995-02-24 1998-03-10 Nynex Science & Technology Use of noise segmentation for noise cancellation
JP3591068B2 (ja) * 1995-06-30 2004-11-17 ソニー株式会社 音声信号の雑音低減方法
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
US5794199A (en) * 1996-01-29 1998-08-11 Texas Instruments Incorporated Method and system for improved discontinuous speech transmission

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2483439C2 (ru) * 2007-10-18 2013-05-27 Моторола Мобилити, Инк. Робастная система подавления шума с двумя микрофонами
RU2593384C2 (ru) * 2014-12-24 2016-08-10 Федеральное государственное бюджетное учреждение науки "Морской гидрофизический институт РАН" Способ дистанционного определения характеристик морской поверхности

Also Published As

Publication number Publication date
DE69606978D1 (de) 2000-04-13
BR9606860A (pt) 1997-11-25
AU696152B2 (en) 1998-09-03
FI973142A (fi) 1997-09-30
KR100365300B1 (ko) 2003-03-15
KR19980701735A (ko) 1998-06-25
EP0807305A1 (en) 1997-11-19
DE69606978T2 (de) 2000-07-20
US5943429A (en) 1999-08-24
FI973142A0 (fi) 1997-07-29
EP0807305B1 (en) 2000-03-08
CA2210490A1 (en) 1996-08-08
ES2145429T3 (es) 2000-07-01
SE9500321L (sv) 1996-07-31
CN1169788A (zh) 1998-01-07
WO1996024128A1 (en) 1996-08-08
AU4636996A (en) 1996-08-21
CA2210490C (en) 2005-03-29
JPH10513273A (ja) 1998-12-15
CN1110034C (zh) 2003-05-28
SE9500321D0 (sv) 1995-01-30
SE505156C2 (sv) 1997-07-07

Similar Documents

Publication Publication Date Title
RU2145737C1 (ru) Способ подавления шума путем спектрального вычитания
KR100310030B1 (ko) 노이지음성파라미터강화방법및장치
US5706394A (en) Telecommunications speech signal improvement by reduction of residual noise
US6263307B1 (en) Adaptive weiner filtering using line spectral frequencies
KR100594563B1 (ko) 선형 컨벌루션 및 인과 필터링을 사용하는 스펙트럼 감산에 의한 신호 잡음 감소
US6591234B1 (en) Method and apparatus for adaptively suppressing noise
RU2495506C2 (ru) Устройство и способ расчета параметров управления фильтра эхоподавления и устройство и способ расчета величины задержки
KR101120679B1 (ko) 이득-제한된 잡음 억제
US8521530B1 (en) System and method for enhancing a monaural audio signal
US7313518B2 (en) Noise reduction method and device using two pass filtering
US20070232257A1 (en) Noise suppressor
EP1769492A1 (en) Comfort noise generator using modified doblinger noise estimate
EP1278185A2 (en) Method for improving noise reduction in speech transmission
Banchhor et al. GUI based performance analysis of speech enhancement techniques
EP1635331A1 (en) Method for estimating a signal to noise ratio
WO2006114100A1 (en) Estimation of signal from noisy observations
Puder Kalman‐filters in subbands for noise reduction with enhanced pitch‐adaptive speech model estimation
Vashkevich et al. Petralex: A smartphone-based real-time digital hearing aid with combined noise reduction and acoustic feedback suppression
Dionelis On single-channel speech enhancement and on non-linear modulation-domain Kalman filtering
Hansen et al. Use of objective speech quality measures in selecting effective spectral estimation techniques for speech enhancement
Roy Single channel speech enhancement using Kalman filter
Singh et al. Sigmoid based Adaptive Noise Estimation Method for Speech Intelligibility Improvement
Händel Power spectral density error analysis of spectral subtraction type of speech enhancement methods
Faucon et al. Optimization of speech enhancement techniques coping with uncorrelated or correlated noises
PORUBA Subtractive-type algorithm utilizing the human ear masking characteristics

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20070113