RU2329550C2 - Способ и устройство для улучшения речевого сигнала в присутствии фонового шума - Google Patents

Способ и устройство для улучшения речевого сигнала в присутствии фонового шума Download PDF

Info

Publication number
RU2329550C2
RU2329550C2 RU2006126530/09A RU2006126530A RU2329550C2 RU 2329550 C2 RU2329550 C2 RU 2329550C2 RU 2006126530/09 A RU2006126530/09 A RU 2006126530/09A RU 2006126530 A RU2006126530 A RU 2006126530A RU 2329550 C2 RU2329550 C2 RU 2329550C2
Authority
RU
Russia
Prior art keywords
frequency
speech
frequency bands
noise
bands
Prior art date
Application number
RU2006126530/09A
Other languages
English (en)
Other versions
RU2006126530A (ru
Inventor
Милан ДЖЕЛИНЕК (CA)
Милан ДЖЕЛИНЕК
Original Assignee
Нокиа Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Нокиа Корпорейшн filed Critical Нокиа Корпорейшн
Publication of RU2006126530A publication Critical patent/RU2006126530A/ru
Application granted granted Critical
Publication of RU2329550C2 publication Critical patent/RU2329550C2/ru

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Telephone Function (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Devices For Executing Special Programs (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

Изобретение относится к технике улучшения речевых сигналов для улучшения связи в присутствии фонового шума. В одном варианте изобретения предлагается способ подавления шумов в речевом сигнале, согласно которому для речевого сигнала, имеющего спектральное представление в виде множества частотных бинов, определяют значения масштабирующего коэффициента передачи по меньшей мере для некоторых из указанных частотных бинов и вычисляют значения сглаженных масштабирующих коэффициентов передачи. Вычисление значений сглаженных масштабирующих коэффициентов передачи включает, по меньшей мере для некоторых из частотных бинов, комбинирование текущего значения масштабирующего коэффициента передачи и ранее определенного значения сглаженного масштабирующего коэффициента передачи. В другом варианте способ включает разделение множества частотных бинов на первый набор смежных частотных бинов и второй набор смежных частотных бинов, между которыми лежит граничная частота, которая разделяет области применения различных методов подавления шумов, а изменение значения граничной частоты является функцией спектрального состава речевого сигнала. Технический результат - обеспечение эффективного подавления шумов путем уменьшения уровня фонового шума в речевом сигнале. 5 н. и 74 з.п. ф-лы, 4 ил.

Description

ОБЛАСТЬ ТЕХНИКИ
Настоящее изобретение относится к технике улучшения речевых сигналов для улучшения связи в присутствии фонового шума. В частности, но не исключительно, настоящее изобретение относится к системе уменьшения шума, которая уменьшает уровень фонового шума в речевом сигнале.
УРОВЕНЬ ТЕХНИКИ
Уменьшение уровня фонового шума очень важно для многих систем связи. Например, мобильные телефоны используются во многих средах, в которых имеется высокий уровень фонового шума. Такие окружающие среды включают использование телефонов в автомобилях (речь идет о телефонах, которые все успешнее позволяют оставлять руки свободными) или на улице, когда система связи должна работать в присутствии высокого уровня автомобильных шумов или уличных шумов. В офисных приложениях, например при проведении видеоконференций и в Интернет-приложениях, оставляющих руки свободными, система должна эффективно справляться с шумами в офисе. На практике можно встретиться и с другими типами фоновых шумов. Уменьшение шумов, известное также как подавление шумов, или выделение речевого сигнала из шумов, становится важным для этих приложений, причем часто требуется работать при малых отношениях сигнал/шум (SNR - signal-to-noice ratio). Уменьшение шумов важно также в системах автоматического распознавания речи, которые все более широко используются в различных реальных средах. Уменьшение шумов улучшает рабочие характеристики алгоритмов кодирования речевых сигналов или алгоритмов распознавания речи, обычно используемых в вышеуказанных приложениях.
Одним из наиболее часто встречающихся способов уменьшения шумов является вычитание спектров (см. S.F.Boll, "Suppression of acoustic noise in speech using spectral subtraction" ["Подавление акустического шума в речи с использованием вычитания спектров"], IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-27, p.p.113-120, Apr. 1979). При вычитании спектров делается попытка оценить кратковременную спектральную амплитуду речи путем вычитания оценки энергии шумов из речи с шумами. Фазу речи с шумами не обрабатывают, предполагая, что фазовые искажения не воспринимаются человеческим ухом. На практике вычитание спектров осуществляют путем формирования функции передачи на основе отношения сигнал/шум из оценок спектра шумов и спектра речи с шумами. Эту функцию передачи умножают на входной спектр, чтобы подавить частотные составляющие с низким отношением сигнал/шум. Главное неудобство при использовании обычных алгоритмов вычитания спектров заключается в том, что в результате образуется остаточный шум, состоящий из "музыкальных тонов", раздражающий слушателя, а также мешающий последующим алгоритмам обработки сигналов (например, при кодировании речи). Музыкальные тоны возникают, главным образом, вследствие дисперсии при оценках спектра. Для решения этой задачи было предложено сглаживание спектров, что приводит к уменьшению дисперсии и к хорошему разрешению. Другой известный способ уменьшения музыкальных тонов заключается в использовании коэффициента сверхвычитания в комбинации со спектральным порогом (см. М.Berouti, R.Schwartz, and J.akhoul, "Enhancement of speech corrupted by acoustic noise" ["Повышение разборчивости речи, искаженной акустическим шумом"] in Proc. IEEE ICASSP, Washington, DC, Apr. 1979, pp.208-211). Недостатком этого способа является деградация речи при значительном уменьшении музыкальных тонов. Другие подходы относятся к мягкому подавлению шумов (см. R.J.McAulay and M.L.Malpass, "Speech enhancement using a soft decision noise suppression filter" ["Повышение разборчивости речи с использованием фильтра мягкого подавления шумов"] IEEE Trans. Acoust, Speech, Signal Processing, vol. ASSP-28, pp.137-145, Apr. 1980) и нелинейному вычитанию спектров (см. Р.Lockwood and J.Boudy, "Experiments with a nonlinear spectral subtracter (NSS), hidden Markov models and projection, for robust recognition in cars" ["Эксперименты с нелинейным вычитанием спектра, скрытыми марковскими моделями и отображениями для устойчивого распознавания в автомобилях"] Speech Commun., vol.11, pp.215-228, June 1992).
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
В своем первом аспекте настоящее изобретение предлагает способ подавления шумов в речевом сигнале, включающий:
проведение спектрального анализа для создания спектрального представления речевого сигнала, содержащего множество частотных бинов, и
группировку частотных бинов в множество полос частот,
отличающийся тем, что, когда в речевом сигнале обнаруживают вокализованную речевую активность, для первого количества полос частот подавление шумов выполняют по частотным бинам, а для второго количества полос частот подавление шумов выполняют по полосам частот.
В другом аспекте настоящего изобретения предложено устройство для подавления шумов в речевом сигнале, выполненное с возможностью:
проведения спектрального анализа для создания спектрального представления речевого сигнала, содержащего множество частотных бинов, и
группировки частотных бинов в множество полос частот,
отличающееся тем, что оно выполнено с возможностью обнаруживать вокализованную речевую активность и, при обнаружении в речевом сигнале вокализованной речевой активности, выполнять для первого количества полос частот подавление шумов по частотным бинам, а для второго количества полос частот - подавление шумов по полосам частот.
В еще одном своем аспекте настоящее изобретения предлагает речевой кодер, включающий устройство для подавления шумов, выполненное с возможностью:
проведения спектрального анализа для создания спектрального представления речевого сигнала, включающего множество частотных бинов, и
группировки частотных бинов в множество полос частот,
отличающийся тем, что указанное устройство выполнено с возможностью обнаруживать вокализованную речевую активность и, при обнаружении в речевом сигнале вокализованной речевой активности, выполнять для первого количества полос частот подавление шумов по частотным бинам, а для второго количества полос частот - подавление шумов по полосам частот.
В еще одном своем аспекте настоящее изобретение предлагает систему автоматического распознавания речи, включающую устройство для подавления шумов, выполненное с возможностью:
проведения частотного анализа для создания спектрального представления речевого сигнала, включающего множество частотных бинов, и
группировки частотных бинов в множество полос частот,
отличающуюся тем, что указанное устройство выполнено с возможностью обнаруживать вокализованную речевую активность и, при обнаружении в речевом сигнале вокализованной речевой активности, выполнять для первого количества полос частот подавление шумов по частотным бинам, а для второго количества полос частот - подавление шумов по полосам частот.
В еще одном своем аспекте настоящее изобретение предлагает мобильный телефон, включающий устройство для подавления шумов, выполненное с возможностью:
проведения частотного анализа для создания спектрального представления речевого сигнала, включающего множество частотных бинов, и
группировки частотных бинов в множество полос частот,
отличающийся тем, что указанное устройство выполнено с возможностью обнаруживать вокализованную речевую активность и, при обнаружении в речевом сигнале вокализованной речевой активности, выполнять для первого количества полос частот подавление шумов по частотным бинам, а для второго количества полос частот - подавление шумов по полосам частот.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Вышеописанные и другие признаки, преимущества и особенности настоящего изобретения станут понятнее из последующего не ограничивающего изобретение описания иллюстративного варианта его осуществления, данного в качестве примера со ссылками на сопровождающие чертежи, где:
на фиг.1 схематично показана работа системы передачи речи, включающая подавление шумов;
на фиг.2 показано формирование окон анализа при спектральном анализе;
на фиг.3 показана схема примера алгоритма подавления шумов; и
на фиг.4 схематично показана последовательность операций для иллюстративного варианта осуществления подавления шумов по классам, в котором алгоритм подавления зависит от природы обрабатываемого речевого кадра.
ПОДРОБНОЕ ОПИСАНИЕ ИЛЛЮСТРАТИВНЫХ ВАРИАНТОВ
ОСУЩЕСТВЛЕНИЯ НАСТОЯЩЕГО ИЗОБРЕТЕНИЯ
В настоящем описании раскрыты эффективные способы подавления шумов. Эти способы, по меньшей мере частично, базируются на разделении амплитудного спектра на критические полосы и вычислении функции передачи на основе отношения сигнал/шум в критической полосе, аналогично подходу, используемому в улучшенном речевом кодеке с переменной скоростью передачи [Enhanced Variable Rate Codec - EVRC] (см. 3GPP2 C.S0014-0 "Enhanced Variable Rate Codec (EVRC) Service Option for Wideband Spread Spectrum Communication Systems" ["Сервисная опция улучшенного кодека с переменной скоростью передачи для систем широкополосной связи"], 3GPP2 Technical Specification, December 1999). Например, описаны признаки, использующие различную технику обработки на основе природы обрабатываемого речевого кадра. В кадрах с глухими звуками используется обработка по полосам частот для целого спектра. В кадрах, где до определенной частоты обнаружена вокализованность, используется обработка по частотным бинам в нижней части спектра, где обнаружена вокализованность, а в остальных полосах используется обработка по полосам частот. В случае кадров с фоновыми шумами постоянный минимальный уровень шумов удаляют с использованием того же самого масштабирующего коэффициента передачи, что и для целого спектра. Кроме того, раскрыта техника, в которой сглаживание масштабирующего коэффициента передачи в каждой полосе или в каждом частотном бине выполняют с использованием коэффициента сглаживания, который находится в обратной зависимости от фактического масштабирующего коэффициента передачи (сглаживание сильнее для малых коэффициентов передачи). Этот подход предотвращает искажение в речевых сегментах с высоким отношением сигнал/шум, которым предшествуют кадры с малым отношением сигнал/шум, как это имеет место, например, в случае звонких начальных согласных слога.
Один из дополнительных аспектов настоящего изобретения предполагает создание новых способов уменьшения шумов на основе способов вычитания спектров, где способ уменьшения шумов зависит от природы обрабатываемого речевого кадра. Например, в вокализованных кадрах обработка ниже определенной частоты может быть выполнена на базе частотных бинов.
В иллюстративном варианте осуществления настоящего изобретения уменьшение шумов выполняют в системе кодирования речи с целью уменьшения уровня фонового шума в речевом сигнале перед кодированием. Раскрытые методы могут быть применены для узкополосных речевых сигналов с дискретизацией 8000 отсчетов/с, для широкополосных речевых сигналов с дискретизацией 16000 отсчетов/с или при любой другой частоте отсчетов. Кодер, используемый в этом иллюстративном варианте осуществления настоящего изобретения, основан на кодеке AMR-WB (Adaptive Multi-Rate Wideband - адаптивный многоскоростной широкополосный кодек) (см. S.F.Boll, "Suppression of acoustic noise in speech using spectral subtraction" ["Подавление акустического шума в речи с использованием вычитания спектров"] IEEE Trans. Acoust, Speech, Signal Processing, vol. ASSP-27, pp.113-120, Apr. 1979), в котором используется внутреннее преобразование частоты отсчетов сигнала до 12800 отсчетов/с (при работе с шириной полосы 6,4 кГц).
Таким образом, раскрытая в этом иллюстративном варианте осуществления настоящего изобретения техника уменьшения шумов работает или с узкополосными, или с широкополосными сигналами после преобразования частоты отсчетов до 12,8 кГц.
В случае широкополосных входных сигналов входной сигнал прореживают с преобразованием из 16 кГц в 12,8 кГц. Это прореживание выполняют, сначала повышая дискретизацию в 4 раза, а затем фильтруя выходной сигнал через фильтр нижних частот с частотой отсечки 6,4 кГц. Затем сигнал преобразуют с понижением частоты дискретизации в 5 раз. Задержка при фильтровании составляет 15 отсчетов при частоте отсчетов 16 кГц.
В случае узкополосных входных сигналов их необходимо преобразовать с повышением частоты дискретизации от 8 кГц до 12,8 кГц. Это выполняют сначала первым преобразованием с повышением дискретизации в 8 раз, а затем пропусканием выходного сигнала через фильтр нижних частот с частотой отсечки 6,4 кГц. Затем сигнал преобразуют с понижением частоты дискретизации в 5 раз. Задержка при фильтровании составляет 8 отсчетов при частоте отсчетов 8 кГц.
После преобразования частоты дискретизации до процесса кодирования к сигналу применяют две функции предварительной обработки: фильтрование верхних частот и внесение предыскажения.
Фильтр верхних частот служит мерой предосторожности против нежелательных низкочастотных компонент. В данном иллюстративном варианте осуществления настоящего изобретения используется фильтр с граничной частотой 50 Гц, это описывается функцией
Figure 00000002
Для предыскажения используется фильтр верхних частот первого порядка, чтобы поднять верхние частоты, это описывается функцией
Hpre-emph(z)=1-0.68z-1
Предыскажение используется в кодеке AMR-WB для улучшения рабочих характеристик кодека на верхних частотах и улучшения перцепционного взвешивания в процессе минимизации погрешности, используемом в кодере.
В остальной части этого иллюстративного варианта осуществления настоящего изобретения сигнал на входе алгоритма уменьшения шумов преобразуется к частоте отсчетов 12,8 кГц и подвергается вышеописанной предварительной обработке. Однако раскрытые методы могут быть одинаково применены к сигналам с другими частотами следования отсчетов, например 8 кГц или 16 кГц, с предварительной обработкой и без нее.
Ниже подробно описан алгоритм уменьшения шумов. Кодер речи, в котором используется алгоритм уменьшения шумов, работает с кадрами длиной 20 милисекунд, содержащими 256 отсчетов с частотой отсчетов 12,8 кГц. Кроме того, при анализе кодер использует опережающий просмотр будущих кадров на интервал 13 мс. Уменьшение шумов следует той же структуре кадров. Однако можно ввести некоторый сдвиг между кадрированием кодера и кадрированием при уменьшении шумов, чтобы максимально использовать опережающий просмотр. В настоящем описании индексы отсчетов отражают кадрирование, используемое при уменьшении шумов.
На фиг.1 обобщенно показана система передачи речи, включающая уменьшение шумов. На шаге 101 производят предварительную обработку, как в примере, описанном выше.
На шаге 102 проводят спектральный анализ и обнаружение речевой активности (voice activity detection - VAD). В каждом кадре проводят два спектральных анализа с использованием окон длительностью 20 мс с 50%-ым перекрытием. На шаге 103 уменьшение шумов применяют к спектральным параметрам, а затем используют обратное дискретное преобразование Фурье для преобразования улучшенного сигнала обратно во временную область. Затем для реконструкции сигнала используют операцию наложения-сложения.
На шаге 104 используют анализ с линейным предсказанием (LP) и анализ основного тона без обратной связи (обычно как часть алгоритма кодирования речевых сигналов). В этом иллюстративном варианте осуществления настоящего изобретения параметры, определяемые на шаге 104, используют для принятия решения об обновлении оценки шума в критических полосах (шаг 105). Решение об обнаружении речи также может использоваться для принятия решения об обновлении оценки шумов. Оценки энергии шумов, обновленные на шаге 105, используют в следующем кадре при уменьшении шумов (шаг 103) для вычисления масштабирующего коэффициента передачи. На шаге 106 выполняют кодирование речи для улучшенного сигнала. В других приложениях шаг 106 может относиться к работе системы автоматического распознавания речи. Следует отметить, что функции, выполняемые на шаге 104, могут быть встроены в алгоритм кодирования речи.
Спектральный анализ
Для проведения спектрального анализа и оценки энергии спектра используется дискретное преобразование Фурье (ДПФ). Спектральный анализ проводится дважды за кадр с использованием быстрого преобразования Фурье (БПФ) для 256 точек с 50-процентным перекрытием (как показано на фиг.2). Окна анализа размещены так, чтобы полностью использовать опережающий просмотр. Начало первого окна размещено в 24 отсчетах от начала текущего кадра кодера речи. Второе окно размещено на 128 отсчетов дальше. При спектральном анализе для взвешивания входного сигнала используется квадратный корень окна Ханна (что эквивалентно синусоидальному окну). Это окно особенно хорошо подходит для методов "наложения-сложения" (overlap-add) (таким образом, этот конкретный спектральный анализ используется в алгоритме подавления шумов, основанном на вычитании спектров и анализе/синтезе методом наложения-сложения). Квадратный корень окна Ханна задается следующим выражением:
Figure 00000003
где LFFT=256 - размерность быстрого преобразования Фурье. Следует отметить, что вычисляют и сохраняют только половину окна, поскольку оно симметрично (от 0 до LFFT/2).
Пусть s'(n) обозначает сигнал, а индекс 0 соответствует первому отсчету в кадре уменьшения шумов (в данном иллюстративном варианте осуществления настоящего изобретения он находится на 24 отсчета дальше, чем начало кадра кодера речи). Сигнал в пределах окна для обоих спектральных анализов получают в виде:
Figure 00000004
где s'(0) - первый отсчет в имеющемся кадре уменьшения шумов.
Быстрое преобразование Фурье выполняют на обоих сигналах, обработанных окном, чтобы получить два набора спектральных параметров на кадр:
Figure 00000005
На выходе после быстрого преобразования Фурье получаются действительная и мнимая части спектра, обозначенные XR(k), k=0...128 и Xl(k), k=1...127. Отметим, что ХR(0) соответствует спектру при 0 Гц (сигнал постоянного тока), а ХR(128) соответствует спектру при 6400 Гц. Спектр в этих точках имеет только действительную составляющую, и его при последующем анализе обычно игнорируют.
После анализа с использованием быстрого преобразования Фурье полученный в результате спектр разделяют на критические полосы с использованием интервалов, имеющих следующие верхние границы (20 полос в частотном диапазоне 0-6400 Гц):
Критические полосы = {100,0; 200,0; 300,0; 400,0; 510,0; 630,0; 770,0; 920,0; 1080,0; 1270,0; 1480,0; 1720,0; 2000,0; 2320,0; 2700,0; 3150,0; 3700,0; 4400,0; 5300,0; 6350,0} Гц.
См. D.Johnston, "Transform coding of audio signal using perceptual noise criteria" ["Кодирование сигнала звуковой частоты с преобразованием с использованием перцепционных критериев шумов"], IEEE J.Select. Areas Commiin., vol.6, pp.314-323, Feb. 1988.
Быстрое преобразование Фурье для 256 точек дает разрешающую способность по частоте 50 Гц (6400/128). Таким образом, игнорируя постоянную компоненту спектра, количество частотных бинов (частот анализа ДПФ) на критическую полосу равно МCB={2, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 8, 9, 11, 14, 18, 21}, соответственно.
Среднюю энергию в критической полосе вычисляют согласно следующему выражению:
Figure 00000006
где ХR(k) и Xl(k) - соответственно действительная и мнимая части k-го частотного бина, а ji - индекс первого бина в i-ой критической полосе, задаваемый как ji={1, 3, 5, 7, 9, 11, 13, 16, 19, 22, 26, 30, 35, 41, 47, 55, 64, 75, 89, 107}.
Модуль спектрального анализа вычисляет также энергию на частотный бин, EBIN(k), для первых 17 критических полос (74 бина за исключением постоянного компонента)
Figure 00000007
Наконец, модуль спектрального анализа вычисляет среднюю полную энергию для обоих анализов быстрого преобразования Фурье в кадре длиной 20 мс, складывая средние энергии критических полос ЕCB. Таким образом, энергию спектра для некоторого спектрального анализа вычисляют как
Figure 00000008
и полную энергию кадра вычисляют как среднее от энергий спектра для обоих спектральных анализов в кадре. То есть
Figure 00000009
Выходные параметры модуля спектрального анализа, то есть средняя энергия на критическую полосу, энергия на частотный бин и полная энергия, используются в модулях обнаружения речевой активности, подавления шумов и выбора скорости.
Следует отметить, что для узкополосных входных сигналов с частотой отсчетов 8000 отсчетов/с после преобразования частоты отсчетов до 12800 отсчетов/с оба края спектра не несут информации, таким образом, первая наиболее низкочастотная критическая полоса, а также три последние высокочастотные полосы при вычислении выходных параметров не учитываются (учитываются только полосы от i=1 до 16).
Обнаружение речевой активности
Вышеописанный спектральный анализ выполняют дважды за кадр. Пусть
Figure 00000010
и
Figure 00000011
обозначают информацию об энергии на критическую полосу для первого и второго спектрального анализа соответственно (вычисленные согласно уравнению (2)). Среднюю энергию на критическую полосу для целого кадра и части предыдущего кадра вычисляют как
Figure 00000012
где
Figure 00000013
обозначает информацию об энергии, приходящейся на критическую полосу, при втором анализе предыдущего кадра. Отношение сигнал/шум (SNR) в критический полосе затем вычисляют как
Figure 00000014
с ограничительным условием
Figure 00000015
где NCB(i) - оцененная энергия шумов в критической полосе, вычисление которой будет описано в следующем разделе. Среднее отношение сигнал/шум в кадре тогда вычисляют как
Figure 00000016
где bmin=0 и bmax=19 в случае широкополосных сигналов, и bmin=1 и bmax=16 в случае узкополосных сигналов.
Активность речи обнаруживают, сравнивая среднее отношение сигнал/шум в кадре с определенным порогом, который зависит от долговременного отношения сигнал/шум. Долговременное отношение сигнал/шум дается выражением
Figure 00000017
где
Figure 00000018
и
Figure 00000019
вычисляют с использованием уравнений (12) и (13) соответственно, которые приведены ниже. Исходное значение
Figure 00000020
равно 45 дБ.
Порог представляет собой кусочно-линейную функцию долговременного отношения сигнал/шум. Используются две функции: одна для чистой речи и одна для речи с шумами.
Для широкополосных сигналов, если SNRLT<35 (речь с шумами), то
thVAD=0.4346SNRLT+13.9575
в противном случае (чистая речь),
thVAD=1.0333SNRLT-7
Для узкополосных сигналов, если SNRLT<29.6 (речь с шумами), то
thVAD=0.313SNRLT+14.6
в противном случае (чистая речь),
thVAD=1.0333SNRLT-7
Кроме того, при принятии решения об обнаружении речи добавляют гистерезис, чтобы предотвратить частое переключение в конце периода речевой активности. Это применяют в случае, когда кадр относится к периоду "мягкого" поддержания в силе решения об обнаружении речевой активности или если последний кадр является кадром активной речи. Период "мягкого" поддержания в силе решения об обнаружении речевой активности состоит из первых 10 кадров после каждой последовательности кадров активной речи длиной более 2 последовательных кадров. В случае речи с шумами (SNRLT<35) гистерезис уменьшает порог принятия решения об обнаружении речи следующим образом
ihVAD=0.95thVAD
В случае чистой речи гистерезис уменьшает порог принятия решения об обнаружении речи следующим образом
ihVAD=thVAD-11
Если среднее отношение сигнал/шум в кадре больше, чем порог принятия решения об обнаружении речи, то есть если SNR>thVAD, то кадр объявляется кадром активной речи, а флаг обнаружения речи (VAD) и локальный флаг обнаружения речи (Local VAD) устанавливают равными 1. В противном случае флаг обнаружения речи и локальный флаг обнаружения речи устанавливают на 0. Однако в случае речи с шумами флаг обнаружения речи принудительно устанавливают равным 1 в кадрах "жесткого" поддержания в силе решения об обнаружении речевой активности, то есть в одном или двух неактивных кадрах, следующих после периода речи продолжительностью более чем 2 последовательных кадра (локальный флаг обнаружения речи при этом равен 0, однако флаг обнаружения речи принудительно установлен на 1).
Первый уровень оценки и обновления шумов
В этом разделе поясняется вычисление полной энергии шумов, относительной энергии в кадре, обновление долговременного среднего значения энергии шумов и вычисление долговременной средней энергии в кадре, среднее значение в критический полосе и коэффициент коррекции шумов. Ниже поясняется задание начального значения энергии шумов и обновление.
Полная энергия шумов в кадре дается выражением
где NCB(i) - оцененная энергия шумов в критической полосе.
Относительная энергия в кадре дается разностью между энергией в кадре в дБ и долговременной средней энергией. Относительная энергия в кадре дается выражением
Figure 00000022
где Et дается уравнением (5).
Долговременная средняя энергия шумов или долговременная средняя энергия в кадре обновляется в каждом кадре. В случае кадров активной речи (флаг обнаружения речи VAD=1) долговременную среднюю энергию в кадре обновляют с использованием соотношения
Figure 00000023
с начальным значением
Figure 00000024
дБ.
В случае кадров без речевой активности (флаг обнаружения речи VAD=0) значение долговременной средней энергии шумов обновляют согласно следующему выражению
Figure 00000025
Начальное значение
Figure 00000026
устанавливают равным Ntot для первых 4 кадров. Затем в первых 4 кадрах значение
Figure 00000027
ограничивают условием
Figure 00000028
.
Энергия кадра на критическую полосу, инициализация шума и обновление шума по нисходящей
Энергию на критическую полосу для целого кадра вычисляют путем усреднения энергий, полученных в обоих спектральных анализах в кадре. Таким образом,
Figure 00000029
Энергию шумов в критической полосе NCB(i) изначально полагают равной 0,03. Однако в первых 5 субкадрах, если энергия сигнала не слишком высока или если сигнал не имеет сильных высокочастотных составляющих, то энергию шумов инициализируют с использованием энергии в критической полосе, чтобы алгоритм уменьшения шумов мог быть эффективным с самого начала обработки. Вычисляют два высокочастотных отношения: r15,16 - отношение между средней энергией в критических полосах 15 и 16 и средней энергией в первых 10 полосах (среднее по результатам обоих спектральных анализов), и r18,19 - аналогично для полос 18 и 19.
В первых 5 кадрах, если Et<49, r15,16<2 и r18,19<1.5, то для первых 3 кадров
Figure 00000030
а для следующих двух кадров NCB(i) обновляют так:
Figure 00000031
Для последующих кадров на данном этапе обновляют только энергию шумов по нисходящей для критических полос, в результате чего эта энергия меньше, чем энергия фонового шума. Сначала вычисляют временную обновленную энергию шумов:
Figure 00000032
где
Figure 00000033
соответствует результату второго спектрального анализа для предыдущего кадра.
Затем для i от 0 до 19, если Ntmp(i)<NCB(i), то NCB(i)=Ntmp(i).
Второй уровень обновления шумов выполняют позже, устанавливая NCB(i)=Ntmp(i), если кадр декларирован как неактивный. Причина для разделения обновления энергии шумов на две части заключается в том, что обновление энергии шумов может быть выполнено только в течение неактивных речевых кадров, а следовательно, нужны все параметры, необходимые для принятия решения о наличии речи. Однако эти параметры зависят от анализа линейного предсказания и анализа основного тона без обратной связи, выполняемых на обесшумленном речевом сигнале. Для алгоритма уменьшения шумов, чтобы иметь как можно более точную оценку энергии шумов, обновление оценки энергии шумов обновляют, таким образом, по нисходящей перед выполнением уменьшения шумов и по восходящей позже, если кадр является неактивным. Обновление шумов по нисходящей безопасно и может быть сделано независимо от наличия речевой активности.
Уменьшение шумов
Операцию уменьшения шумов применяют к сигнальной области, а затем обесшумленный сигнал восстанавливают с использованием метода наложения-сложения. Уменьшение шумов выполняют, масштабируя спектр в каждой критической полосе с использованием масштабирующего (взвешивающего) коэффициента передачи, ограниченного между gmin и 1 и полученного из отношения сигнал/шум (SNR) в этой критической полосе. Новая особенность подавления шумов состоит в том, что для частот ниже, чем определенная частота, связанная с вокализованностью сигнала, обработку выполняют на основе частотных бинов, а не на основе критических полос частот. Таким образом, к каждому частотному бину применяют масштабирующий коэффициент передачи, полученный из отношения сигнал/шум в этом бине (отношение сигнал/шум вычисляют с использованием энергии бина, деленной на энергию шумов в критической полосе, включающей этот бин). Эта новая особенность позволяет сохранять энергию на частотах, близких к гармоникам, предотвращая искажения, и при этом сильно уменьшать шум между гармониками. Эта особенность может использоваться только для вокализованных сигналов и, при заданной разрешающей способности по частоте в используемом спектральном анализе, для сигналов с относительно коротким периодом основного тона. Однако именно для таких сигналов шум между гармониками наиболее заметен.
На фиг.3 обобщенно показана предлагаемая процедура. В блоке 301 проводится спектральный анализ. Блок 302 проверяет, больше ли нуля количество критических вокализованных полос. Если да, то уменьшение шумов производится в блоке 304, где проводится обработка по частотным бинам первых К вокализованных полос, а обработка по полосам частот производится в оставшихся полосах. Если К=0, то обработка по полосам частот применяется ко всем критическим полосам. После уменьшения шумов в спектре блок 305 выполняет обратное дискретное преобразование Фурье и использует операцию наложения-сложения для реконструкции улучшенного речевого сигнала, как будет описано ниже.
Минимальный масштабирующий коэффициент передачи, gmin, выводят из максимального разрешенного уменьшения шумов в дБ, NRmax. Максимальное разрешенное уменьшение по умолчанию имеет значение 14 дБ. Таким образом, минимальный масштабирующий коэффициент передачи имеет вид
Figure 00000034
и равен 0,19953 для значения по умолчанию 14 дБ.
В случае неактивных кадров с VAD=0, то же самое масштабирование применяется к целому спектру и задается выражением gs=0.9gmin, если подавление шумов активизировано (если gmin меньше 1). Таким образом, масштабированные действительная и мнимая составляющие спектра равны
Figure 00000035
Отметим, что для узкополосных входных сигналов верхние пределы в уравнении (19) устанавливают равными 79 (до 3950 Гц).
Для активных кадров масштабирующий коэффициент передачи вычисляют на основе отношения сигнал/шум в критической полосе или по частотным бинам для первых вокализованных полос. Если КVOIC>0, то осуществляют подавление по частотным бинам на первых КVOIC полосах. Подавление шумов по полосам частот используется в остальных полосах. В случае, если KVOIC=0, подавление шумов по полосам частот используется на всем спектре. Значение KVOlC обновляют, как будет описано ниже. Максимальное значение KVOlC равно 17, поэтому обработку по бинам можно использовать только в первых 17 критических полосах, что соответствует максимальной частоте 3700 Гц. Максимальное количество бинов, для которых можно использовать обработку по бинам, равно 74 (количество бинов в первых 17 полосах). Исключение делается для кадров "жесткого" поддержания в силе решения об обнаружении речевой активности, как будет описано ниже в этом разделе.
В альтернативной реализации значение KVOIC может быть фиксированным. В этом случае во всех типах речевых кадров обработку по бинам выполняют до определенной полосы, а к другим полосам применяют обработку по полосам частот.
Масштабирующий коэффициент передачи в определенной критической полосе или для определенного частотного бина вычисляют как функцию отношения сигнал/шум следующим образом
Figure 00000036
с ограничением
Figure 00000037
Значения ks и cs определяют так, что gs=gmin для отношения сигнал/шум SNR=1 и gs=1 для SNR=45. Таким образом, для отношений сигнал/шум от 1 дБ и ниже масштабирование ограничено gs, а для отношений сигнал/шум от 45 дБ и выше в данной критической полосе никакого подавления шумов не выполняют (gs=1). Таким образом, при этих двух заданных конечных точках значения ks и cs в уравнении (20) даются следующими выражениями
Figure 00000038
Переменная SNR в уравнении (20) равна либо SNR в критической полосе, SNRCB(i), или SNR в частотном бине, SNRBIN(k), в зависимости от типа обработки.
Отношение сигнал/шум SNR в критической полосе в случае первого спектрального анализа в кадре вычисляют как
Figure 00000039
а для второго спектрального анализа SNR вычисляют как
Figure 00000040
где
Figure 00000041
и
Figure 00000042
обозначают информацию об энергии, приходящейся на критическую полосу, для первого и второго спектрального анализа соответственно (вычисленные согласно уравнению (2));
Figure 00000033
обозначает информацию об энергии, приходящейся на критическую полосу, полученную в результате второго анализа в предыдущем кадре, а NСВ(i) обозначает оценку энергии шумов в критической полосе.
Отношение сигнал/шум SNR в критическом бине в определенной критической полосе i в случае первого спектрального анализа в кадре вычисляют как
Figure 00000043
а для второго спектрального анализа SNR вычисляют как
Figure 00000044
где
Figure 00000045
и
Figure 00000046
обозначают энергию, приходящуюся на частотный бин, для первого и второго спектрального анализа соответственно (вычисленные согласно уравнению (3));
Figure 00000047
обозначает энергию, приходящуюся на частотный бин и полученную в результате второго анализа в предыдущем кадре, а NСВ(i) обозначает оценку энергии шумов в критической полосе, ji - индекс первого бина в i-ой критической полосе и МСВ(i) - количество бинов в критической полосе i, определенное выше.
В случае обработки в критической полосе для полосы с индексом i после определения масштабирующего коэффициента передачи согласно уравнению (22) и при использовании отношения сигнал/шум SNR, определенного согласно уравнениям (24) или (25), фактическое масштабирование выполняют с использованием сглаженного масштабирующего коэффициента передачи, обновляемого при каждом спектральном анализе как
Figure 00000048
В настоящем изобретении используется новый признак, заключающийся в том, что коэффициент сглаживания адаптивен и находится в обратной зависимости от самого коэффициента передачи. В этом иллюстративном варианте осуществления настоящего изобретения коэффициент сглаживания дается выражением αgs=1-gs. Таким образом, сглаживание будет сильнее для меньшего коэффициента передачи. Этот подход предотвращает искажения в сегментах речи с большим отношением сигнал/шум, которым предшествуют кадры с низким отношением сигнал/шум, как имеет место в случае звонких начальных согласных слога. Например, в невокализованных речевых кадрах отношение сигнал/шум мало; поэтому используется большой масштабирующий коэффициент передачи, чтобы уменьшить шум в спектре. Если звонкие начальные согласные слога следуют за невокализованным кадром, отношение сигнал/шум выше, и если сглаживание предотвращает быстрое обновление масштабируемой передачи, то вероятно использование сильного масштабирования в начале слога, что приведет к плохому качеству. В предложенном подходе процедура сглаживания способна быстро адаптироваться и использовать меньший масштабирующий коэффициент передачи в начале слога.
Масштабирование в критической полосе выполняют как
Figure 00000049
где ji - индекс первого бина в критической полосе i, а МСВ(i) - количество бинов в этой критической полосе.
В случае обработки по частотным бинам в полосе с индексом i после определения масштабирующего коэффициента передачи согласно уравнению (20) и при использовании отношения сигнал/шум SNR согласно уравнениям (24) или (25) фактическое масштабирование выполняют с использованием сглаженного масштабирующего коэффициента передачи, обновляемого при каждом спектральном анализе как
Figure 00000050
где αgs=1-gs аналогично уравнению (26).
Временное сглаживание коэффициентов передачи предотвращает слышимые колебания энергии, в то время как управление сглаживанием с использованием αgs предотвращает искажение в речевых сегментах с большим отношением сигнал/шум, которым предшествуют кадры с малым отношением сигнал/шум, как имеет место, например, в случае звонких согласных в начале слога.
Масштабирование в критической полосе i выполняют как
Figure 00000051
Figure 00000052
где ji - индекс первого бина в критической полосе i, а МCB(i) - количество бинов в этой критической полосе.
Сглаженные масштабированные коэффициенты передачи gBIN,LP(k) и gCB,LP(i) изначально устанавливают равными 1. Каждый раз, когда обрабатывается неактивный кадр (VAD=0), gmin вновь устанавливается равным значениям коэффициентов передачи, определенным в уравнении (18).
Как сказано выше, если KVOIC>0, то подавление шумов по частотным бинам выполняют в первых KVOIC полосах, а подавление шумов по полосам частот выполняют в оставшихся полосах с использованием вышеописанных процедур. Следует отметить, что при каждом спектральном анализе сглаженные масштабируемые коэффициенты передачи gCB,LP(i) обновляют для всех критических полос (даже для вокализованных полос, обработанных по частотным бинам - в этом случае gCB,LP(i) обновляют на среднее значение gBlN,LP(k), относящееся к полосе i). Точно так же масштабируемые коэффициенты передачи gBlN,LP(k) обновляют для всех частотных бинов в первых 17 полосах (до бина 74). Для полос, обработанных по полосам частот, эти коэффициенты обновляют, устанавливая их равными gCB,LP(i) в этих 17 специфических полосах.
Следует отметить, что в случае чистой речи подавления шумов в кадрах активной речи (VAD=1) не выполняют. Эту ситуацию выявляют, определяя максимальную энергию шумов во всех критических полосах, max(NCB(i)), i=0,...19, и если эта величина меньше или равна 15, то подавления шумов не производят.
Как сказано выше, для неактивного кадра (VAD=0) применяют масштабирование 0,9gmin всего спектра, что эквивалентно удалению постоянного минимального уровня шумов. Для речевых кадров, соответствующих короткому периоду поддержания в силе решения об обнаружении речевой активности (VAD=1 и local VAD=0), обработку по полосам частот применяют к первым 10 полосам, как описано выше (соответствует 1700 Гц), а для остальной части спектра вычитают постоянный минимальный уровень шумов путем масштабирования остальной части спектра постоянным значением gmin. Эта мера уменьшает значительные колебания высокочастотной энергии шумов. Для этих полос выше десятой сглаженные коэффициенты масштабируемой передачи gCB,LB(i) не возвращают к старым значениям, а обновляют с использованием уравнения (26) как gs=gmin, а сглаженные по частотным бинам масштабируемые коэффициенты передачи gBlN.LP(k) обновляют, полагая их равными gCB,LB(i) в соответствующих критических полосах.
Процедуру, описанную выше, можно рассматривать как уменьшение шумов, специфическое для данного класса, когда алгоритм уменьшения шумов зависит от природы обрабатываемого речевого кадра. Это иллюстрируется на фиг.4. На шаге 401 проверяют, равен ли флаг VAD нулю (нет речевой активности). Если да, то из спектра удаляют постоянный минимальный уровень шумов, применяя один и тот же масштабирующий коэффициент передачи ко всему спектру (шаг 402). В противном случае (шаг 403) проверяют, соответствует ли кадр периоду поддержания в силе решения об обнаружении речевой активности ("VAD hangover"). Если да, то обработку по полосам частот применяют для первых 10 полос, а для остальных полос используют тот же самый масштабирующий коэффициент передачи (шаг 406). В противном случае (шаг 405) проверяют, обнаружена ли вокализованность в первых полосах спектра. Если да, то в первых К речевых полосах выполняют обработку по бинам, а обработку по полосам частот выполняют в оставшихся полосах (шаг 406). Если вокализованные полосы не обнаружены, то обработку по полосам частот выполняют во всех критических полосах (шаг 407).
В случае обработки узкополосных сигналов (преобразованных с повышением частоты дискретизации до 12800 Гц) подавление шумов выполняют в первых 17 полосах (до 3700 Гц). Для оставшихся пяти частотных бинов между 3700 Гц и 4000 Гц спектр масштабируют с использованием последнего масштабирующего коэффициента передачи gs для бина на 3700 Гц. Для оставшегося спектра (от 4000 Гц до 6400 Гц) спектр обнуляют.
Восстановление обесшумленного сигнала
После определения масштабированных спектральных компонент, X'R(k) и X'I(k), к масштабированному спектру применяют обратное быстрое преобразование Фурье для получения обработанного окном обесшумленного сигнала во временной области.
Figure 00000053
Эту процедуру повторяют для обоих спектральных анализов в кадре, чтобы получить обработанные окном обесшумленные сигналы
Figure 00000054
и
Figure 00000055
. Для каждого полукадра сигнал реконструируют с использованием операции наложения-сложения для перекрывающихся частей анализа. Поскольку до спектрального анализа в отношении исходного сигнала используется квадратный корень окна Ханна, то же самое окно применяют и на выходе обратного быстрого преобразования Фурье до операции наложения-сложения. Таким образом, дважды обработанный окном обесшумленный сигнал имеет вид:
Figure 00000056
Для первой половины окна анализа операцию наложения-сложения для построения обесшумленного сигнала выполняют следующим образом:
Figure 00000057
а для второй половины окна анализа операцию наложения-сложения для формирования обесшумленного сигнала выполняют следующим образом:
Figure 00000058
где
Figure 00000059
- обесшумленный сигнал после двойного оконного преобразования, полученный в результате второго анализа в предыдущем кадре.
Отметим, что при операции наложения-сложения, поскольку имеется сдвиг на 24 отсчета между кадром речевого кодера и кадром уменьшения шумов, обесшумленный сигнал может быть реконструирован до 24-отсчетного из опережающего просмотра в дополнение к текущему кадру. Однако все еще необходимы 128 отсчетов, чтобы получить полный опережающий просмотр, необходимый кодеру речи для анализа с линейным предсказанием (LP) и анализа основного тона без обратной связи. Эту часть временно получают обратным оконным преобразованием второй половины обесшумленного сигнала
Figure 00000060
, подвергнутого оконному преобразованию, без выполнения операции наложения-сложения. То есть:
Figure 00000061
Отметим, что эта часть сигнала должным образом повторно вычисляется в следующем кадре с использованием операции наложения-сложения.
Обновление оценок энергия шумов
В этом модуле обновляют оценки энергии шумов в критической полосе с целью подавления шумов. Обновление выполняют в течение неактивных периодов речи. Однако решение об обнаружении речевой активности, сделанное выше и основанное на отношении сигнал/шум в критической полосе, не используется для того, чтобы определить, обновляются ли оценки энергии шумов. Принимают другое решение на основе других параметров, не зависящих от отношения сигнал/шум в критической полосе. Параметры, используемые для принятия решения об обновлении энергии шумов, - это стабильность основного тона, нестационарность сигнала, вокализованность и отношение между энергиями остаточной ошибки линейного предсказания 2-го и 16-го порядка, - в общем случае они обеспечивают низкую чувствительность к вариациям уровня помех.
Причина того, чтобы не использовать решение кодера об обнаружении речи для обновления оценки энергии шумов, состоит в том, чтобы сделать оценку энергии шумов устойчивой к быстро меняющемуся уровню шумов. Если бы для обновления энергии шумов использовалось решение кодера об обнаружении речевой активности, то внезапное увеличение уровня шумов привело бы к увеличению отношения сигнал/шум даже для неактивных кадров речи, не давая устройству оценки энергии шумов произвести обновление, что, в свою очередь, привело бы к сохранению высокого отношения сигнал/шум в следующих кадрах и т.д. Следовательно, обновление энергии шумов было бы заблокировано и для возобновления подстройки под уровень шумов необходимо было бы применить какую-нибудь другую логику.
В этом иллюстративном варианте осуществления настоящего изобретения анализ основного тона без обратной связи выполняют в кодирующем устройстве для вычисления без обратной связи трех оценок основного тона на кадр: d0, d1 и d2, соответствующих первому полукадру, второму полукадру и опережающему просмотру соответственно. Счетчик стабильности основного тона вычисляют как
Figure 00000062
где d-1 - сдвиг, соответствующий второму полукадру из предыдущего кадра. В этом иллюстративном варианте осуществления настоящего изобретения для задержек основного тона более чем на 122, модуль поиска основного тона без обратной связи устанавливает d2=d1. Таким образом, для таких задержек величину рс в уравнении (31) умножают на 3/2, чтобы компенсировать отсутствие третьего члена в уравнении. Стабильность основного тона считается истиной, если значение рс меньше 12. Далее, для кадров с низкой вокализованностью величину рс устанавливают равной 12, чтобы указать на нестабильность основного тона. То есть
Если
Figure 00000063
где Cnorm(d) - нормализованная необработанная корреляция, а rе - опциональная коррекция, добавляемая к нормализованной корреляции для компенсации уменьшения нормализованной корреляции в присутствии фонового шума. В этом иллюстративном варианте осуществления настоящего изобретения нормализованную корреляцию вычисляют на основе прореженного взвешенного речевого сигнала Swd(n) согласно выражению:
Figure 00000064
где предел суммирования зависит от самой задержки. В этом иллюстративном варианте осуществления настоящего изобретения взвешенный сигнал, используемый при анализе основного тона без обратной связи, прорежен вдвое, и пределы суммирования даются следующими выражениями:
Lsec=40 для d=10,...,16
Lsec=40 для d=17,...,31
Lsec=62 для d=32,...,61
Lsec=40 для d=62,...,115
Оценку нестационарности сигнала выполняют на основе произведения отношений энергии в критической полосе к средней долговременной энергии в критической полосе.
Среднюю долговременную энергию в критической полосе обновляют следующим образом:
Figure 00000065
где bmin=0 и bmax=19 в случае широкополосных сигналов и bmin=1 и bmax=16 в случае узкополосных сигналов, a
Figure 00000066
- энергия кадра на критическую полосу, определяемая уравнением (14). Коэффициент обновления αе является линейной функцией полной энергии кадра, определяемой уравнением (5), и задается следующим образом:
Для широкополосных сигналов: αe=0,0245Etot-0,235 с границами 0,5<αе<0,99.
Для узкополосных сигналов: αе=0,00091Еtot-0,3185 с границами 0,5<αе<0,999.
Нестационарность кадра определяется произведением отношений энергии кадров и средней долговременной энергии в критической полосе. То есть:
Figure 00000067
Коэффициент вокализованности для обновления энергии шумов дается выражением
Figure 00000068
Наконец, отношение между остаточными энергиями при линейном предсказании (LP) после анализа 2-го порядка и 16-го порядка дает
Figure 00000069
где Е(2) и Е(16) - остаточные энергии при линейном предсказании (LP) после анализа 2-го порядка и 16-го порядка, вычисленные рекурсивным методом Левинсона-Дарбина, как хорошо известно специалистам в данной области техники. Это отношение отражает тот факт, что для представления спектральной огибающей сигнала для речевого сигнала обычно необходим более высокий уровень линейного предсказания, чем для шума. Другими словами, различие между Е(2) и Е(16) предполагается более низким для шума, чем для активной речи.
Решение об обновлении принимают на основе переменной noise_update, которая изначально установлена равной 6, и ее уменьшают на 1, если обнаружен неактивный кадр, и увеличивают на 2, если обнаружен активный кадр. Кроме того, переменная noise_update ограничена значениями 0 и 6. Энергии шумов обновляют только тогда, когда noise_update=0.
Значение переменной noise_update обновляют в каждом кадре следующим образом:
Если (nonstat>thstat) ИЛИ (рс<12) ИЛИ (voicing>0.85) ИЛИ (resid_ratio>thresid)
noise_update=noise_update+2
В противном случае
noise_update=noise_update-1
при этом для широкополосных сигналов thstat=350000 и thresid=1,9, а для узкополосных сигналов thstat=500000 и thresid=11.
Другими словами, кадры объявляют неактивными для обновления шумов, когда
(nonstat≤thstat) И (рс>12) И (voicing<0,85) И (resid_ratio<thresid), и перед обновлением шумов используют задержку (поддержание в силе решения об обнаружении речевой активности) из 6 кадров.
Таким образом, если noise_update=0, то для i=от 0 до 19 NCB(i)=Ntmp(i),
где Ntmp(i) - временно обновленная энергия шумов, уже вычисленная согласно уравнению (17).
Обновление граничной частоты вокализованности
Граничную частоту, ниже которой сигнал считается вокализованным, обновляют. Эта частота используется для определения количества критических полос, для которых подавление шумов выполняют с использованием обработки по бинам.
Сначала вычисляют меру вокализованности:
Figure 00000070
а граничная частота вокализованности задается следующим выражением:
Figure 00000071
с ограничением
Figure 00000072
Затем определяют количество критических полос, KVOlC, имеющих верхнюю частоту, которая превышает fc. Границы 325≤fc≤3700 установлены так, что обработку по бинам выполняют минимально на 3 полосах и максимально на 17 полосах (см. верхние границы критических полос, определенные выше). Отметим, что при вычислении меры вокализованности больший вес дается нормализованной корреляции опережающего просмотра, поскольку полученное количество речевых полос будет использовано в следующем кадре.
Таким образом, в следующем кадре для первых KVOlC критических полос подавление шумов будет использовать обработку по бинам, как описано выше.
Отметим, что для кадров с низкой вокализованностью и для больших задержек основного тона используют только обработку по критическим полосам и, таким образом, KVOIC приравнивают 0. Используется следующее условие:
Если (0.4Cnorm(d1)+0.6Cnorm(d2)≤0.72) ИЛИ (d1>116) ИЛИ (d2>116), то KVOIC=0.
Конечно, возможны другие многочисленные изменения и модификации. С учетом вышеописанного иллюстративного подробного описания вариантов осуществления настоящего изобретения и соответствующих чертежей такие изменения и модификации будут очевидны для специалистов в данной области техники. Кроме того, должно быть понятно, что такие модификации могут быть реализованы без выхода за рамки настоящего изобретения.

Claims (79)

1. Способ подавления шумов в речевом сигнале, содержащем речевые кадры, содержащие множество отсчетов, включающий:
проведение двух спектральных анализов с использованием перекрывающихся окон для создания спектрального представления речевого сигнала, содержащего множество частотных бинов, и
группировку частотных бинов в множество полос частот,
отличающийся тем, что для подавления шума в речевом кадре, когда в речевом кадре обнаруживают вокализованную речевую активность, для первой части полос частот подавление шумов выполняют по частотным бинам, а для второй части полос частот подавление шумов выполняют по полосам частот, и
когда в речевом кадре не обнаруживают вокализованную речевую активность, подавление шумов выполняют по полосам частот для всех полос частот.
2. Способ по п.1, в котором первую часть полос частот определяют как полосы частот, которые являются вокализованными.
3. Способ по п.1, в котором первую часть полос частот определяют относительно граничной частоты вокализованности, которая является частотой, ниже которой речевой сигнал считают вокализованным.
4. Способ по п.3, в котором первая часть полос частот включает все полосы частот речевого сигнала, которые имеют верхнюю частоту, не превышающую граничной частоты вокализованности.
5. Способ по п.1, в котором первая часть полос частот включает заранее заданное фиксированное число полос частот.
6. Способ по п.1, в котором, если ни одна из полос частот в речевом кадре не является вокализованной, подавление шумов выполняют по полосам частот для всех полос частот.
7. Способ по п.1, включающий проведение первого спектрального анализа согласно способу по п.1 с использованием окна анализа, которое смещено на m отсчетов относительно первого отсчета речевого кадра.
8. Способ по п.1, включающий проведение первого спектрального анализа с использованием первого окна анализа, которое смещено на m отсчетов относительно начала речевого кадра, и второго окна анализа, которое смещено на р отсчетов относительно начала речевого кадра.
9. Способ по п.8, в котором m=24 и р=128.
10. Способ по п.8, в котором второе окно анализа имеет опережающую часть, которая выходит из указанного речевого кадра в последующий речевой кадр речевого сигнала.
11. Способ по п.1, включающий подавление шумов путем масштабирования частотных бинов и/или полос частот с использованием масштабирующего коэффициента передачи.
12. Способ по п.1, который при подавлении шумов по частотным бинам включает вычисление для частотного бина соответствующего масштабирующего коэффициента передачи.
13. Способ по п.1, который при подавлении шумов по полосам частот включает вычисление для полосы частот соответствующего масштабирующего коэффициента передачи.
14. Способ по п.1, включающий подавление шумов путем применения постоянного масштабирующего коэффициента передачи для всех полос частот.
15. Способ по п.12, включающий определение значения масштабирующего коэффициента передачи для частотного бина на основе отношения сигнал/шум (SNR), определенного для этого частотного бина.
16. Способ по п.13, включающий определение значения масштабирующего коэффициента передачи для полосы частот на основе отношения сигнал/шум (SNR), определенного для этой полосы частот.
17. Способ по п.15, включающий определение значения масштабирующего коэффициента передачи для частотного бина на основе отношения сигнал/шум (SNR), определенного для этого частотного бина, для каждого из первого и второго спектральных анализов.
18. Способ по п.16, включающий определение значения масштабирующего коэффициента передачи для полосы частот на основе отношения сигнал/шум (SNR), определенного для этой полосы частот, для каждого из первого и второго спектральных анализов.
19. Способ по любому из пп.11-13, в котором масштабирующий коэффициент передачи представляет собой сглаженный масштабирующий коэффициент передачи, который применяют к конкретному частотному бину или конкретной полосе частот, а вычисляют с использованием коэффициента сглаживания, величина которого находится в обратном отношении к масштабирующему коэффициенту передачи для конкретного частотного бина или конкретной полосы частот.
20. Способ по любому из пп.11-13, включающий вычисление сглаженного масштабирующего коэффициента передачи, который применяют к конкретному частотному бину или конкретной полосе частот, с использованием коэффициента сглаживания, значение которого определяют так, чтобы сглаживание было сильнее для меньших значений масштабирующего коэффициента передачи.
21. Способ по п.12 или 13, в котором значение масштабирующего коэффициента передачи определяют n раз за речевой кадр, где n больше единицы.
22. Способ по п.21, в котором n=2.
23. Способ по п.12 или 13, в котором значение масштабирующего коэффициента передачи определяют n раз за речевой кадр, где n больше единицы, а граничная частота вокализованности по меньшей мере частично зависит от речевого сигнала в предыдущем речевом кадре.
24. Способ по п.12, в котором подавление шумов по частотным бинам выполняют максимально на 74 бинах, соответствующих 17 полосам частот.
25. Способ по п.12, в котором подавление шумов по частотным бинам выполняют на максимальном количестве частотных бинов, соответствующем частоте 3700 Гц.
26. Способ по п.15 или 16, в котором для значений отношения сигнал/шум от 1 дБ и ниже величину масштабирующего коэффициента передачи устанавливают на минимальное значение, а для значений отношения сигнал/шум от 45 дБ и выше величину масштабирующего коэффициента передачи устанавливают равной единице.
27. Способ по п.19, включающий обнаружение кадров речевого сигнала, которые не содержат активной речи.
28. Способ по п.27, включающий возврат сглаженного масштабирующего коэффициента передачи к минимальному значению в ответ на обнаружение кадра речевого сигнала, который не содержит активной речи.
29. Способ по п.1, в котором подавление шумов выполняют только в том случае, если максимальная энергия шумов в множестве полос частот лежит выше порогового значения.
30. Способ по п.1, дополнительно включающий, в ответ на появление речевого кадра, соответствующего короткому периоду поддержания в силе решения об обнаружении речевой активности, выполнение подавления шумов путем применения масштабирующего коэффициента передачи, определенного по полосам частот для первых х полос частот, а для оставшихся полос частот - выполнение подавления шумов путем применения постоянного значения масштабирующего коэффициента передачи.
31. Способ по п.30, в котором первые х полос частот соответствуют частотам до 1700 Гц.
32. Способ по п.19, который для узкополосного речевого сигнала дополнительно включает выполнение подавления шумов путем применения сглаженных масштабирующих коэффициентов передачи, определенных по полосам частот, для первых х полос частот, соответствующих частотам до 3700 Гц, выполнение подавления шумов путем применения значения масштабирующего коэффициента передачи частотного бина, соответствующего 3700 Гц, к частотным бинам между частотами 3700 Гц и 4000 Гц, и обнуление оставшихся полос частот частотного спектра речевого сигнала.
33. Способ по п.32, в котором узкополосный речевой сигнал преобразован с повышением частоты дискретизации до 12800 Гц.
34. Способ по п.3, дополнительно включающий определение граничной частоты вокализованности с использованием вычисленной меры вокализованности.
35. Способ по п.34, дополнительно включающий определение множества критических полос, имеющих верхнюю частоту, которая не превышает граничную частоту вокализованности, причем границы установлены так, что подавление шумов по частотным бинам выполняют минимально на х полосах и максимально на у полосах.
36. Способ по п.35, в котором х=3 и у=17.
37. Способ по п.34, в котором граничную частоту вокализованности ограничивают так, чтобы она была не менее 325 Гц и не более 3700 Гц.
38. Устройство для подавления шумов в речевом сигнале, содержащем речевые кадры, содержащие множество отсчетов, выполненное с возможностью:
проведения двух спектральных анализов с использованием перекрывающихся окон для создания спектрального представления речевого сигнала, содержащего множество частотных бинов, и
группировки частотных бинов в множество полос частот,
отличающееся тем, что оно выполнено с возможностью обнаруживать вокализованную речевую активность и при обнаружении в речевом кадре вокализованной речевой активности выполнять для первой части полос частот подавление шумов по частотным бинам, а для второй части полос частот - подавление шумов по полосам частот,
а когда в речевом кадре не обнаружена вокализованная речевая активность, - выполнять подавление шумов по полосам частот для всех полос частот.
39. Устройство по п.38, в котором первая часть полос частот определяется как полосы частот, которые являются вокализованными.
40. Устройство по п.38, которое выполнено с возможностью определять первую часть полос частот относительно граничной частоты вокализованности, которая является частотой, ниже которой речевой сигнал считается вокализованным.
41. Устройство по п.40, в котором первая часть полос частот включает все полосы частот речевого сигнала, которые имеют верхнюю частоту, не превышающую граничной частоты вокализованности.
42. Устройство по п.38, в котором первая часть полос частот включает заранее заданное фиксированное число полос частот.
43. Устройство по п.38, которое выполнено с возможностью подавления шумов по полосам частот для всех полос частот, если ни одна полоса частот речевого сигнала не является вокализованной.
44. Устройство по п.38, выполненное с возможностью проводить указанный спектральный анализ с использованием окна анализа, которое смещено на m отсчетов относительно первого отсчета речевого кадра.
45. Устройство по п.38, выполненное с возможностью проводить первый спектральный анализ с использованием первого окна анализа, которое смещено на m отсчетов относительно начала речевого кадра, и второго окна анализа, которое смещено на р отсчетов относительно начала речевого кадра.
46. Устройство по п.45, в котором m=24 и р=128.
47. Устройство по п.45, в котором второе окно анализа имеет опережающую часть, которая выходит из указанного речевого кадра в последующий речевой кадр речевого сигнала.
48. Устройство по п.38, которое выполнено с возможностью подавления шумов путем применения масштабирующих коэффициентов передачи к частотным бинам и/или полосам частот.
49. Устройство по п.38, которое выполнено с возможностью при подавлении шумов по частотным бинам определять для частотного бина соответствующий масштабирующий коэффициент передачи.
50. Устройство по п.38, которое выполнено с возможностью при подавлении шумов по полосам частот определять для полосы частот соответствующий масштабирующий коэффициент передачи.
51. Устройство по п.43, которое выполнено с возможностью выполнять подавление шумов путем применения постоянного масштабирующего коэффициента передачи для всех полос частот.
52. Устройство по п.49, которое выполнено с возможностью определять значение масштабирующего коэффициента передачи для частотного бина на основе отношения сигнал/шум (SNR), определенного для этого частотного бина.
53. Устройство по п.50, которое выполнено с возможностью определять значение масштабирующего коэффициента передачи для полосы частот на основе отношения сигнал/шум (SNR), определенного для этой полосы частот.
54. Устройство по п.52, которое выполнено с возможностью определять значение масштабирующего коэффициента передачи для частотного бина на основе отношения сигнал/шум (SNR), определенного для этого частотного бина, для каждого из первого и второго спектральных анализов.
55. Устройство по п.53, которое выполнено с возможностью определять значение масштабирующего коэффициента передачи для полосы частот на основе отношения сигнал/шум (SNR), определенного для этой полосы частот, для каждого из первого и второго спектральных анализов.
56. Устройство по любому из пп.48-50, в котором масштабирующий коэффициент передачи представляет собой сглаженный масштабирующий коэффициент передачи.
57. Устройство по любому из пп.48-50, которое выполнено с возможностью вычисления сглаженного масштабирующего коэффициента передачи, который применяется к конкретному частотному бину или конкретной полосе частот, с использованием коэффициента сглаживания, величина которого находится в обратной зависимости от масштабирующего коэффициента передачи для конкретного частотного бина или конкретной полосы частот.
58. Устройство по любому из пп.48-50, которое выполнено с возможностью вычисления сглаженного масштабирующего коэффициента передачи, который применяется к конкретному частотному бину или конкретной полосе частот, с использованием коэффициента сглаживания, значение которого определяется так, чтобы сглаживание было сильнее для меньших значений масштабирующего коэффициента передачи.
59. Устройство по п.49 или 50, которое выполнено с возможностью определения значения масштабирующего коэффициента передачи n раз за речевой кадр, где n больше единицы.
60. Устройство по п.59, в котором n=2.
61. Устройство по п.49 или 50, которое выполнено с возможностью определения значения масштабирующего коэффициента передачи n раз за речевой кадр, где n больше единицы, а граничная частоты вокализованности по меньшей мере частично зависит от речевого сигнала в предыдущем речевом кадре.
62. Устройство по п.49, которое выполнено с возможностью подавления шумов по частотным бинам максимально на 74 бинах, соответствующих 17 полосам частот.
63. Устройство по п.49, которое выполнено с возможностью подавления шумов по частотным бинам на максимальном количестве частотных бинов, соответствующем частоте 3700 Гц.
64. Устройство по п.49, которое выполнено с возможностью устанавливать величину масштабирующего коэффициента передачи на минимальное значение для первого значения отношения сигнал/шум, и устанавливать величину масштабирующего коэффициента передачи равной единице для второго значения отношения сигнал/шум, большего, чем первое значение отношения сигнал/шум.
65. Устройство по п.64, в котором первое значение отношения сигнал/шум составляет около 1 дБ, а второе значение отношения сигнал/шум составляет около 45 дБ.
66. Устройство по п.56, выполненное с возможностью обнаруживать сегменты речевого сигнала, которые не содержат активной речи.
67. Устройство по п.66, выполненное с возможностью осуществлять возврат сглаженного масштабирующего коэффициента передачи к минимальному значению в ответ на обнаружение сегмента речевого сигнала, который не содержит активной речи.
68. Устройство по п.38, выполненное с возможностью выполнять подавление шумов только в том случае, если максимальная энергия шумов в множестве полос частот лежит выше порогового значения.
69. Устройство по п.38, которое выполнено с возможностью в ответ на появление речевого кадра, соответствующего короткому периоду поддержания в силе решения об обнаружении речевой активности, выполнять подавление шумов путем применения масштабирующего коэффициента передачи, определенного по полосам частот для первых х полос частот, а для оставшихся полос частот - выполнять подавление шумов путем применения постоянного значения масштабирующего коэффициента передачи.
70. Устройство по п.69, в котором первые х полос частот соответствуют частотам до 1700 Гц.
71. Устройство по п.56, которое выполнено с возможностью для узкополосного речевого сигнала выполнять подавление шумов путем применения сглаженных масштабирующих коэффициентов передачи, определенных по полосам частот, для первых х полос частот, соответствующих частотам до 3700 Гц, выполнять подавление шумов путем применения сглаженного масштабирующего коэффициента передачи частотного бина на частоте 3700 Гц для масштабирования спектра для частотных бинов между 3700 Гц и 4000 Гц, и обнулять оставшиеся полосы частот частотного спектра речевого сигнала.
72. Устройство по п.71, в котором узкополосный речевой сигнал преобразован с повышением частоты дискретизации до 12800 Гц.
73. Устройство по п.40, которое выполнено с возможностью определения граничной частоты вокализованности с использованием вычисленной меры вокализованности.
74. Устройство по п.73, которое выполнено с возможностью определения множества критических полос, имеющих верхнюю частоту, которая не превышает граничную частоту вокализованности, причем границы устанавливаются так, что подавление шумов по частотным бинам выполняется минимально на х полосах и максимально на у полосах.
75. Устройство по п.74, в котором х=3 и у=17.
76. Устройство по п.73, в котором граничная частота вокализованности ограничена так, чтобы она была не менее 325 Гц и не более 3700 Гц.
77. Речевой кодер, включающий устройство для подавления шумов в речевом сигнале, содержащем речевые кадры, содержащие множество отсчетов, выполненное с возможностью;
проведения двух спектральных анализов с использованием перекрывающихся окон для создания спектрального представления речевого сигнала, содержащего множество частотных бинов, и
группировки частотных бинов в множество полос частот,
отличающийся тем, что указанное устройство выполнено с возможностью обнаруживать вокализованную речевую активность и при обнаружении в речевом кадре вокализованной речевой активности выполнять для первой части полос частот подавление шумов по частотным бинам, а для второй части полос частот - подавление шумов по полосам частот,
а когда в речевом кадре не обнаружена вокализованная речевая активность, - выполнять подавление шумов по полосам частот для всех полос частот.
78. Система автоматического распознавания речи, включающая устройство для подавления шумов в речевом сигнале, содержащем речевые кадры, содержащие множество отсчетов, выполненное с возможностью:
проведения двух спектральных анализов с использованием перекрывающихся окон для создания спектрального представления речевого сигнала, содержащего множество частотных бинов, и
группировки частотных бинов в множество полос частот,
отличающаяся тем, что указанное устройство выполнено с возможностью обнаруживать вокализованную речевую активность и при обнаружении в речевом кадре вокализованной речевой активности выполнять для первой части полос частот подавление шумов по частотным бинам, а для второй части полос частот - подавление шумов по полосам частот,
а когда в речевом кадре не обнаружена вокализованная речевая активность, - выполнять подавление шумов по полосам частот для всех полос частот.
79. Мобильный телефон, включающий устройство для подавления шумов в речевом сигнале, содержащем речевые кадры, содержащие множество отсчетов, выполненное с возможностью:
проведения двух спектральных анализов с использованием перекрывающихся окон для создания спектрального представления речевого сигнала, содержащего множество частотных бинов, и
группировки частотных бинов в множество полос частот,
отличающийся тем, что указанное устройство выполнено с возможностью обнаруживать вокализованную речевую активность и при обнаружении в речевом кадре вокализованной речевой активности выполнять для первой части полос частот подавление шумов по частотным бинам, а для второй части полос частот - подавление шумов по полосам частот,
а когда в речевом кадре не обнаружена вокализованная речевая активность, - выполнять подавление шумов по полосам частот для всех полос частот.
RU2006126530/09A 2003-12-29 2004-12-29 Способ и устройство для улучшения речевого сигнала в присутствии фонового шума RU2329550C2 (ru)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CA002454296A CA2454296A1 (en) 2003-12-29 2003-12-29 Method and device for speech enhancement in the presence of background noise
CA2454296 2003-12-29

Publications (2)

Publication Number Publication Date
RU2006126530A RU2006126530A (ru) 2008-02-10
RU2329550C2 true RU2329550C2 (ru) 2008-07-20

Family

ID=34683070

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2006126530/09A RU2329550C2 (ru) 2003-12-29 2004-12-29 Способ и устройство для улучшения речевого сигнала в присутствии фонового шума

Country Status (19)

Country Link
US (1) US8577675B2 (ru)
EP (1) EP1700294B1 (ru)
JP (1) JP4440937B2 (ru)
KR (1) KR100870502B1 (ru)
CN (1) CN100510672C (ru)
AT (1) ATE441177T1 (ru)
AU (1) AU2004309431C1 (ru)
BR (1) BRPI0418449A (ru)
CA (2) CA2454296A1 (ru)
DE (1) DE602004022862D1 (ru)
ES (1) ES2329046T3 (ru)
HK (1) HK1099946A1 (ru)
MX (1) MXPA06007234A (ru)
MY (1) MY141447A (ru)
PT (1) PT1700294E (ru)
RU (1) RU2329550C2 (ru)
TW (1) TWI279776B (ru)
WO (1) WO2005064595A1 (ru)
ZA (1) ZA200606215B (ru)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2518682C2 (ru) * 2010-01-19 2014-06-10 Долби Интернешнл Аб Усовершенствованное гармоническое преобразование на основе блока поддиапазонов
RU2591012C2 (ru) * 2010-03-09 2016-07-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ обработки переходных процессов для аудио сигналов с изменением скорости воспроизведения или высоты тона
RU2595636C2 (ru) * 2010-11-24 2016-08-27 Конинклейке Филипс Электроникс Н.В. Система и способ для генерации аудиосигнала
RU2601188C2 (ru) * 2012-02-23 2016-10-27 Долби Интернэшнл Аб Способы и системы для эффективного восстановления высокочастотного аудиоконтента
RU2666337C2 (ru) * 2014-03-12 2018-09-06 Хуавэй Текнолоджиз Ко., Лтд. Способ обнаружения звукового сигнала и устройство

Families Citing this family (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7113580B1 (en) * 2004-02-17 2006-09-26 Excel Switching Corporation Method and apparatus for performing conferencing services and echo suppression
EP1719114A2 (en) * 2004-02-18 2006-11-08 Philips Intellectual Property & Standards GmbH Method and system for generating training data for an automatic speech recogniser
DE102004049347A1 (de) * 2004-10-08 2006-04-20 Micronas Gmbh Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale
JP5129117B2 (ja) 2005-04-01 2013-01-23 クゥアルコム・インコーポレイテッド 音声信号の高帯域部分を符号化及び復号する方法及び装置
WO2006116025A1 (en) * 2005-04-22 2006-11-02 Qualcomm Incorporated Systems, methods, and apparatus for gain factor smoothing
JP4765461B2 (ja) * 2005-07-27 2011-09-07 日本電気株式会社 雑音抑圧システムと方法及びプログラム
US7366658B2 (en) * 2005-12-09 2008-04-29 Texas Instruments Incorporated Noise pre-processor for enhanced variable rate speech codec
US7930178B2 (en) * 2005-12-23 2011-04-19 Microsoft Corporation Speech modeling and enhancement based on magnitude-normalized spectra
US9185487B2 (en) * 2006-01-30 2015-11-10 Audience, Inc. System and method for providing noise suppression utilizing null processing noise subtraction
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US7593535B2 (en) * 2006-08-01 2009-09-22 Dts, Inc. Neural network filtering techniques for compensating linear and non-linear distortion of an audio transducer
CN101246688B (zh) * 2007-02-14 2011-01-12 华为技术有限公司 一种对背景噪声信号进行编解码的方法、系统和装置
JP5530720B2 (ja) * 2007-02-26 2014-06-25 ドルビー ラボラトリーズ ライセンシング コーポレイション エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体
US8280731B2 (en) * 2007-03-19 2012-10-02 Dolby Laboratories Licensing Corporation Noise variance estimator for speech enhancement
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
US8990073B2 (en) * 2007-06-22 2015-03-24 Voiceage Corporation Method and device for sound activity detection and sound signal classification
WO2009035615A1 (en) * 2007-09-12 2009-03-19 Dolby Laboratories Licensing Corporation Speech enhancement
US8892432B2 (en) * 2007-10-19 2014-11-18 Nec Corporation Signal processing system, apparatus and method used on the system, and program thereof
US8688441B2 (en) * 2007-11-29 2014-04-01 Motorola Mobility Llc Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content
US8483854B2 (en) 2008-01-28 2013-07-09 Qualcomm Incorporated Systems, methods, and apparatus for context processing using multiple microphones
US8433582B2 (en) * 2008-02-01 2013-04-30 Motorola Mobility Llc Method and apparatus for estimating high-band energy in a bandwidth extension system
US20090201983A1 (en) * 2008-02-07 2009-08-13 Motorola, Inc. Method and apparatus for estimating high-band energy in a bandwidth extension system
US8401845B2 (en) 2008-03-05 2013-03-19 Voiceage Corporation System and method for enhancing a decoded tonal sound signal
CN101483042B (zh) * 2008-03-20 2011-03-30 华为技术有限公司 一种噪声生成方法以及噪声生成装置
US8606573B2 (en) * 2008-03-28 2013-12-10 Alon Konchitsky Voice recognition improved accuracy in mobile environments
KR101317813B1 (ko) * 2008-03-31 2013-10-15 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
US9142221B2 (en) * 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
US8515097B2 (en) * 2008-07-25 2013-08-20 Broadcom Corporation Single microphone wind noise suppression
US9253568B2 (en) * 2008-07-25 2016-02-02 Broadcom Corporation Single-microphone wind noise suppression
US8463412B2 (en) * 2008-08-21 2013-06-11 Motorola Mobility Llc Method and apparatus to facilitate determining signal bounding frequencies
US8798776B2 (en) 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
US8463599B2 (en) * 2009-02-04 2013-06-11 Motorola Mobility Llc Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder
JP5535198B2 (ja) * 2009-04-02 2014-07-02 三菱電機株式会社 雑音抑圧装置
WO2011004299A1 (en) * 2009-07-07 2011-01-13 Koninklijke Philips Electronics N.V. Noise reduction of breathing signals
WO2011049515A1 (en) * 2009-10-19 2011-04-28 Telefonaktiebolaget Lm Ericsson (Publ) Method and voice activity detector for a speech encoder
PT2491559E (pt) * 2009-10-19 2015-05-07 Ericsson Telefon Ab L M Método e estimador de fundo para a detecção de actividade de voz
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
KR101176207B1 (ko) * 2010-10-18 2012-08-28 (주)트란소노 음성통신 시스템 및 음성통신 방법
KR101173980B1 (ko) 2010-10-18 2012-08-16 (주)트란소노 음성통신 기반 잡음 제거 시스템 및 그 방법
US8831937B2 (en) * 2010-11-12 2014-09-09 Audience, Inc. Post-noise suppression processing to improve voice quality
EP3493205B1 (en) 2010-12-24 2020-12-23 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting a voice activity in an input audio signal
KR20120080409A (ko) * 2011-01-07 2012-07-17 삼성전자주식회사 잡음 구간 판별에 의한 잡음 추정 장치 및 방법
US20130346460A1 (en) * 2011-01-11 2013-12-26 Thierry Bruneau Method and device for filtering a signal and control device for a process
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
WO2012153165A1 (en) * 2011-05-06 2012-11-15 Nokia Corporation A pitch estimator
TWI459381B (zh) * 2011-09-14 2014-11-01 Ind Tech Res Inst 語音增強方法
US9173025B2 (en) 2012-02-08 2015-10-27 Dolby Laboratories Licensing Corporation Combined suppression of noise, echo, and out-of-location signals
US8712076B2 (en) 2012-02-08 2014-04-29 Dolby Laboratories Licensing Corporation Post-processing including median filtering of noise suppression gains
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
EP2786376A1 (en) 2012-11-20 2014-10-08 Unify GmbH & Co. KG Method, device, and system for audio data processing
CN103886867B (zh) * 2012-12-21 2017-06-27 华为技术有限公司 一种噪声抑制装置及其方法
MY178710A (en) 2012-12-21 2020-10-20 Fraunhofer Ges Forschung Comfort noise addition for modeling background noise at low bit-rates
US9495951B2 (en) * 2013-01-17 2016-11-15 Nvidia Corporation Real time audio echo and background noise reduction for a mobile device
ES2714289T3 (es) * 2013-01-29 2019-05-28 Fraunhofer Ges Forschung Llenado con ruido en la codificación de audio por transformada perceptual
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
JP6303340B2 (ja) 2013-08-30 2018-04-04 富士通株式会社 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム
KR20150032390A (ko) * 2013-09-16 2015-03-26 삼성전자주식회사 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법
DE102013111784B4 (de) * 2013-10-25 2019-11-14 Intel IP Corporation Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren
US9449610B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Speech probability presence modifier improving log-MMSE based noise suppression performance
US9449615B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Externally estimated SNR based modifiers for internal MMSE calculators
US9449609B2 (en) * 2013-11-07 2016-09-20 Continental Automotive Systems, Inc. Accurate forward SNR estimation based on MMSE speech probability presence
CN104681034A (zh) 2013-11-27 2015-06-03 杜比实验室特许公司 音频信号处理
GB2523984B (en) 2013-12-18 2017-07-26 Cirrus Logic Int Semiconductor Ltd Processing received speech data
US10176823B2 (en) * 2014-05-09 2019-01-08 Apple Inc. System and method for audio noise processing and noise reduction
KR20160000680A (ko) * 2014-06-25 2016-01-05 주식회사 더바인코퍼레이션 광대역 보코더용 휴대폰 명료도 향상장치와 이를 이용한 음성출력장치
RU2665916C2 (ru) * 2014-07-29 2018-09-04 Телефонактиеболагет Лм Эрикссон (Пабл) Оценивание фонового шума в аудиосигналах
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
CN107112025A (zh) 2014-09-12 2017-08-29 美商楼氏电子有限公司 用于恢复语音分量的系统和方法
US9947318B2 (en) * 2014-10-03 2018-04-17 2236008 Ontario Inc. System and method for processing an audio signal captured from a microphone
US9886966B2 (en) * 2014-11-07 2018-02-06 Apple Inc. System and method for improving noise suppression using logistic function and a suppression target value for automatic speech recognition
TWI569263B (zh) * 2015-04-30 2017-02-01 智原科技股份有限公司 聲頻訊號的訊號擷取方法與裝置
US20180350358A1 (en) * 2015-12-01 2018-12-06 Mitsubishi Electric Corporation Voice recognition device, voice emphasis device, voice recognition method, voice emphasis method, and navigation system
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
CN108022595A (zh) * 2016-10-28 2018-05-11 电信科学技术研究院 一种语音信号降噪方法和用户终端
CN106782504B (zh) * 2016-12-29 2019-01-22 百度在线网络技术(北京)有限公司 语音识别方法和装置
WO2019068915A1 (en) * 2017-10-06 2019-04-11 Sony Europe Limited AUDIO FILE ENVELOPE BASED ON RMS POWER IN SUB-WINDOW SEQUENCES
US10771621B2 (en) * 2017-10-31 2020-09-08 Cisco Technology, Inc. Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications
RU2701120C1 (ru) * 2018-05-14 2019-09-24 Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" Устройство для обработки речевого сигнала
US10681458B2 (en) * 2018-06-11 2020-06-09 Cirrus Logic, Inc. Techniques for howling detection
KR102327441B1 (ko) * 2019-09-20 2021-11-17 엘지전자 주식회사 인공지능 장치
US11217262B2 (en) * 2019-11-18 2022-01-04 Google Llc Adaptive energy limiting for transient noise suppression
US11374663B2 (en) * 2019-11-21 2022-06-28 Bose Corporation Variable-frequency smoothing
US11264015B2 (en) 2019-11-21 2022-03-01 Bose Corporation Variable-time smoothing for steady state noise estimation
CN111429932A (zh) * 2020-06-10 2020-07-17 浙江远传信息技术股份有限公司 语音降噪方法、装置、设备及介质
CN112634929B (zh) * 2020-12-16 2024-07-23 普联国际有限公司 一种语音增强方法、装置及存储介质

Family Cites Families (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57161800A (en) * 1981-03-30 1982-10-05 Toshiyuki Sakai Voice information filter
AU633673B2 (en) * 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
US5432859A (en) * 1993-02-23 1995-07-11 Novatel Communications Ltd. Noise-reduction system
JP3297307B2 (ja) * 1996-06-14 2002-07-02 沖電気工業株式会社 背景雑音消去装置
US6098038A (en) * 1996-09-27 2000-08-01 Oregon Graduate Institute Of Science & Technology Method and system for adaptive speech enhancement using frequency specific signal-to-noise ratio estimates
US6097820A (en) * 1996-12-23 2000-08-01 Lucent Technologies Inc. System and method for suppressing noise in digitally represented voice signals
US6456965B1 (en) * 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US6044341A (en) * 1997-07-16 2000-03-28 Olympus Optical Co., Ltd. Noise suppression apparatus and recording medium recording processing program for performing noise removal from voice
US20020002455A1 (en) * 1998-01-09 2002-01-03 At&T Corporation Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system
US6088668A (en) * 1998-06-22 2000-07-11 D.S.P.C. Technologies Ltd. Noise suppressor having weighted gain smoothing
US7209567B1 (en) * 1998-07-09 2007-04-24 Purdue Research Foundation Communication system with adaptive noise suppression
US6351731B1 (en) * 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6233549B1 (en) * 1998-11-23 2001-05-15 Qualcomm, Inc. Low frequency spectral enhancement system and method
US6363345B1 (en) * 1999-02-18 2002-03-26 Andrea Electronics Corporation System, method and apparatus for cancelling noise
US6618701B2 (en) * 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
JP4242516B2 (ja) * 1999-07-26 2009-03-25 パナソニック株式会社 サブバンド符号化方式
FI116643B (fi) * 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
CA2290037A1 (en) * 1999-11-18 2001-05-18 Voiceage Corporation Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals
US6366880B1 (en) * 1999-11-30 2002-04-02 Motorola, Inc. Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies
US7058572B1 (en) * 2000-01-28 2006-06-06 Nortel Networks Limited Reducing acoustic noise in wireless and landline based telephony
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
US6862567B1 (en) * 2000-08-30 2005-03-01 Mindspeed Technologies, Inc. Noise suppression in the frequency domain by adjusting gain according to voicing parameters
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
US6947888B1 (en) * 2000-10-17 2005-09-20 Qualcomm Incorporated Method and apparatus for high performance low bit-rate coding of unvoiced speech
US6925435B1 (en) 2000-11-27 2005-08-02 Mindspeed Technologies, Inc. Method and apparatus for improved noise reduction in a speech encoder
JP4282227B2 (ja) * 2000-12-28 2009-06-17 日本電気株式会社 ノイズ除去の方法及び装置
US7155385B2 (en) * 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions
US7492889B2 (en) * 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2518682C2 (ru) * 2010-01-19 2014-06-10 Долби Интернешнл Аб Усовершенствованное гармоническое преобразование на основе блока поддиапазонов
RU2591012C2 (ru) * 2010-03-09 2016-07-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Устройство и способ обработки переходных процессов для аудио сигналов с изменением скорости воспроизведения или высоты тона
RU2595636C2 (ru) * 2010-11-24 2016-08-27 Конинклейке Филипс Электроникс Н.В. Система и способ для генерации аудиосигнала
RU2601188C2 (ru) * 2012-02-23 2016-10-27 Долби Интернэшнл Аб Способы и системы для эффективного восстановления высокочастотного аудиоконтента
US9666200B2 (en) 2012-02-23 2017-05-30 Dolby International Ab Methods and systems for efficient recovery of high frequency audio content
US9984695B2 (en) 2012-02-23 2018-05-29 Dolby International Ab Methods and systems for efficient recovery of high frequency audio content
RU2666337C2 (ru) * 2014-03-12 2018-09-06 Хуавэй Текнолоджиз Ко., Лтд. Способ обнаружения звукового сигнала и устройство
US10304478B2 (en) 2014-03-12 2019-05-28 Huawei Technologies Co., Ltd. Method for detecting audio signal and apparatus
US10818313B2 (en) 2014-03-12 2020-10-27 Huawei Technologies Co., Ltd. Method for detecting audio signal and apparatus
US11417353B2 (en) 2014-03-12 2022-08-16 Huawei Technologies Co., Ltd. Method for detecting audio signal and apparatus

Also Published As

Publication number Publication date
WO2005064595A1 (en) 2005-07-14
CA2454296A1 (en) 2005-06-29
MY141447A (en) 2010-04-30
CA2550905C (en) 2010-12-14
ZA200606215B (en) 2007-11-28
EP1700294B1 (en) 2009-08-26
EP1700294A4 (en) 2007-02-28
AU2004309431C1 (en) 2009-03-19
JP2007517249A (ja) 2007-06-28
BRPI0418449A (pt) 2007-05-22
ATE441177T1 (de) 2009-09-15
CN100510672C (zh) 2009-07-08
US20050143989A1 (en) 2005-06-30
DE602004022862D1 (de) 2009-10-08
HK1099946A1 (en) 2007-08-31
ES2329046T3 (es) 2009-11-20
PT1700294E (pt) 2009-09-28
MXPA06007234A (es) 2006-08-18
KR100870502B1 (ko) 2008-11-25
AU2004309431B2 (en) 2008-10-02
TW200531006A (en) 2005-09-16
EP1700294A1 (en) 2006-09-13
RU2006126530A (ru) 2008-02-10
JP4440937B2 (ja) 2010-03-24
CA2550905A1 (en) 2005-07-14
US8577675B2 (en) 2013-11-05
CN1918461A (zh) 2007-02-21
TWI279776B (en) 2007-04-21
KR20060128983A (ko) 2006-12-14
AU2004309431A1 (en) 2005-07-14

Similar Documents

Publication Publication Date Title
RU2329550C2 (ru) Способ и устройство для улучшения речевого сигнала в присутствии фонового шума
US6289309B1 (en) Noise spectrum tracking for speech enhancement
US6122610A (en) Noise suppression for low bitrate speech coder
JP5666444B2 (ja) 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法
EP1706864B1 (en) Computationally efficient background noise suppressor for speech coding and speech recognition
Verteletskaya et al. Noise reduction based on modified spectral subtraction method
EP1386313B1 (en) Speech enhancement device
WO2001073751A9 (en) Speech presence measurement detection techniques
CN114005457A (zh) 一种基于幅度估计与相位重构的单通道语音增强方法
CN114023348B (zh) 一种基于自适应谱底优化的多带谱减法的语音增强方法
Pellom et al. An improved (auto: I, lsp: t) constrained iterative speech enhancement for colored noise environments
Surendran et al. Variance normalized perceptual subspace speech enhancement
Verteletskaya et al. Enhanced spectral subtraction method for noise reduction with minimal speech distortion
Chouki et al. Comparative Study on Noisy Speech Preprocessing Algorithms
Nelke et al. Corpus based reconstruction of speech degraded by wind noise
Krishnamoorthy et al. Processing noisy speech for enhancement
Ogawa More robust J-RASTA processing using spectral subtraction and harmonic sieving
Ming et al. Weak speech recovery for single-channel speech enhancement
Manohar Single Channel Enhancement Of Noisy Speech
Ahmed et al. Adaptive noise estimation and reduction based on two-stage wiener filtering in MCLT domain

Legal Events

Date Code Title Description
PC41 Official registration of the transfer of exclusive right

Effective date: 20160602