RU2329550C2 - Способ и устройство для улучшения речевого сигнала в присутствии фонового шума - Google Patents
Способ и устройство для улучшения речевого сигнала в присутствии фонового шума Download PDFInfo
- Publication number
- RU2329550C2 RU2329550C2 RU2006126530/09A RU2006126530A RU2329550C2 RU 2329550 C2 RU2329550 C2 RU 2329550C2 RU 2006126530/09 A RU2006126530/09 A RU 2006126530/09A RU 2006126530 A RU2006126530 A RU 2006126530A RU 2329550 C2 RU2329550 C2 RU 2329550C2
- Authority
- RU
- Russia
- Prior art keywords
- frequency
- speech
- frequency bands
- noise
- bands
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000001629 suppression Effects 0.000 claims abstract description 59
- 230000000694 effects Effects 0.000 claims abstract description 43
- 230000003595 spectral effect Effects 0.000 claims abstract description 41
- 230000005540 biological transmission Effects 0.000 claims abstract description 40
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 238000001228 spectrum Methods 0.000 claims description 43
- 230000009467 reduction Effects 0.000 claims description 40
- 238000004458 analytical method Methods 0.000 claims description 34
- 238000010183 spectrum analysis Methods 0.000 claims description 33
- 238000005070 sampling Methods 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 18
- 238000009499 grossing Methods 0.000 claims description 15
- 230000001419 dependent effect Effects 0.000 claims description 4
- 238000012546 transfer Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 abstract description 5
- 238000000926 separation method Methods 0.000 abstract description 2
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 238000012545 processing Methods 0.000 description 31
- 230000007774 longterm Effects 0.000 description 13
- 230000014509 gene expression Effects 0.000 description 9
- 238000013459 approach Methods 0.000 description 5
- 230000005534 acoustic noise Effects 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000001934 delay Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010019133 Hangover Diseases 0.000 description 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 1
- 244000046052 Phaseolus vulgaris Species 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000011410 subtraction method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Noise Elimination (AREA)
- Telephone Function (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Devices For Executing Special Programs (AREA)
- Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)
Abstract
Изобретение относится к технике улучшения речевых сигналов для улучшения связи в присутствии фонового шума. В одном варианте изобретения предлагается способ подавления шумов в речевом сигнале, согласно которому для речевого сигнала, имеющего спектральное представление в виде множества частотных бинов, определяют значения масштабирующего коэффициента передачи по меньшей мере для некоторых из указанных частотных бинов и вычисляют значения сглаженных масштабирующих коэффициентов передачи. Вычисление значений сглаженных масштабирующих коэффициентов передачи включает, по меньшей мере для некоторых из частотных бинов, комбинирование текущего значения масштабирующего коэффициента передачи и ранее определенного значения сглаженного масштабирующего коэффициента передачи. В другом варианте способ включает разделение множества частотных бинов на первый набор смежных частотных бинов и второй набор смежных частотных бинов, между которыми лежит граничная частота, которая разделяет области применения различных методов подавления шумов, а изменение значения граничной частоты является функцией спектрального состава речевого сигнала. Технический результат - обеспечение эффективного подавления шумов путем уменьшения уровня фонового шума в речевом сигнале. 5 н. и 74 з.п. ф-лы, 4 ил.
Description
ОБЛАСТЬ ТЕХНИКИ
Настоящее изобретение относится к технике улучшения речевых сигналов для улучшения связи в присутствии фонового шума. В частности, но не исключительно, настоящее изобретение относится к системе уменьшения шума, которая уменьшает уровень фонового шума в речевом сигнале.
УРОВЕНЬ ТЕХНИКИ
Уменьшение уровня фонового шума очень важно для многих систем связи. Например, мобильные телефоны используются во многих средах, в которых имеется высокий уровень фонового шума. Такие окружающие среды включают использование телефонов в автомобилях (речь идет о телефонах, которые все успешнее позволяют оставлять руки свободными) или на улице, когда система связи должна работать в присутствии высокого уровня автомобильных шумов или уличных шумов. В офисных приложениях, например при проведении видеоконференций и в Интернет-приложениях, оставляющих руки свободными, система должна эффективно справляться с шумами в офисе. На практике можно встретиться и с другими типами фоновых шумов. Уменьшение шумов, известное также как подавление шумов, или выделение речевого сигнала из шумов, становится важным для этих приложений, причем часто требуется работать при малых отношениях сигнал/шум (SNR - signal-to-noice ratio). Уменьшение шумов важно также в системах автоматического распознавания речи, которые все более широко используются в различных реальных средах. Уменьшение шумов улучшает рабочие характеристики алгоритмов кодирования речевых сигналов или алгоритмов распознавания речи, обычно используемых в вышеуказанных приложениях.
Одним из наиболее часто встречающихся способов уменьшения шумов является вычитание спектров (см. S.F.Boll, "Suppression of acoustic noise in speech using spectral subtraction" ["Подавление акустического шума в речи с использованием вычитания спектров"], IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-27, p.p.113-120, Apr. 1979). При вычитании спектров делается попытка оценить кратковременную спектральную амплитуду речи путем вычитания оценки энергии шумов из речи с шумами. Фазу речи с шумами не обрабатывают, предполагая, что фазовые искажения не воспринимаются человеческим ухом. На практике вычитание спектров осуществляют путем формирования функции передачи на основе отношения сигнал/шум из оценок спектра шумов и спектра речи с шумами. Эту функцию передачи умножают на входной спектр, чтобы подавить частотные составляющие с низким отношением сигнал/шум. Главное неудобство при использовании обычных алгоритмов вычитания спектров заключается в том, что в результате образуется остаточный шум, состоящий из "музыкальных тонов", раздражающий слушателя, а также мешающий последующим алгоритмам обработки сигналов (например, при кодировании речи). Музыкальные тоны возникают, главным образом, вследствие дисперсии при оценках спектра. Для решения этой задачи было предложено сглаживание спектров, что приводит к уменьшению дисперсии и к хорошему разрешению. Другой известный способ уменьшения музыкальных тонов заключается в использовании коэффициента сверхвычитания в комбинации со спектральным порогом (см. М.Berouti, R.Schwartz, and J.akhoul, "Enhancement of speech corrupted by acoustic noise" ["Повышение разборчивости речи, искаженной акустическим шумом"] in Proc. IEEE ICASSP, Washington, DC, Apr. 1979, pp.208-211). Недостатком этого способа является деградация речи при значительном уменьшении музыкальных тонов. Другие подходы относятся к мягкому подавлению шумов (см. R.J.McAulay and M.L.Malpass, "Speech enhancement using a soft decision noise suppression filter" ["Повышение разборчивости речи с использованием фильтра мягкого подавления шумов"] IEEE Trans. Acoust, Speech, Signal Processing, vol. ASSP-28, pp.137-145, Apr. 1980) и нелинейному вычитанию спектров (см. Р.Lockwood and J.Boudy, "Experiments with a nonlinear spectral subtracter (NSS), hidden Markov models and projection, for robust recognition in cars" ["Эксперименты с нелинейным вычитанием спектра, скрытыми марковскими моделями и отображениями для устойчивого распознавания в автомобилях"] Speech Commun., vol.11, pp.215-228, June 1992).
СУЩНОСТЬ ИЗОБРЕТЕНИЯ
В своем первом аспекте настоящее изобретение предлагает способ подавления шумов в речевом сигнале, включающий:
проведение спектрального анализа для создания спектрального представления речевого сигнала, содержащего множество частотных бинов, и
группировку частотных бинов в множество полос частот,
отличающийся тем, что, когда в речевом сигнале обнаруживают вокализованную речевую активность, для первого количества полос частот подавление шумов выполняют по частотным бинам, а для второго количества полос частот подавление шумов выполняют по полосам частот.
В другом аспекте настоящего изобретения предложено устройство для подавления шумов в речевом сигнале, выполненное с возможностью:
проведения спектрального анализа для создания спектрального представления речевого сигнала, содержащего множество частотных бинов, и
группировки частотных бинов в множество полос частот,
отличающееся тем, что оно выполнено с возможностью обнаруживать вокализованную речевую активность и, при обнаружении в речевом сигнале вокализованной речевой активности, выполнять для первого количества полос частот подавление шумов по частотным бинам, а для второго количества полос частот - подавление шумов по полосам частот.
В еще одном своем аспекте настоящее изобретения предлагает речевой кодер, включающий устройство для подавления шумов, выполненное с возможностью:
проведения спектрального анализа для создания спектрального представления речевого сигнала, включающего множество частотных бинов, и
группировки частотных бинов в множество полос частот,
отличающийся тем, что указанное устройство выполнено с возможностью обнаруживать вокализованную речевую активность и, при обнаружении в речевом сигнале вокализованной речевой активности, выполнять для первого количества полос частот подавление шумов по частотным бинам, а для второго количества полос частот - подавление шумов по полосам частот.
В еще одном своем аспекте настоящее изобретение предлагает систему автоматического распознавания речи, включающую устройство для подавления шумов, выполненное с возможностью:
проведения частотного анализа для создания спектрального представления речевого сигнала, включающего множество частотных бинов, и
группировки частотных бинов в множество полос частот,
отличающуюся тем, что указанное устройство выполнено с возможностью обнаруживать вокализованную речевую активность и, при обнаружении в речевом сигнале вокализованной речевой активности, выполнять для первого количества полос частот подавление шумов по частотным бинам, а для второго количества полос частот - подавление шумов по полосам частот.
В еще одном своем аспекте настоящее изобретение предлагает мобильный телефон, включающий устройство для подавления шумов, выполненное с возможностью:
проведения частотного анализа для создания спектрального представления речевого сигнала, включающего множество частотных бинов, и
группировки частотных бинов в множество полос частот,
отличающийся тем, что указанное устройство выполнено с возможностью обнаруживать вокализованную речевую активность и, при обнаружении в речевом сигнале вокализованной речевой активности, выполнять для первого количества полос частот подавление шумов по частотным бинам, а для второго количества полос частот - подавление шумов по полосам частот.
КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ
Вышеописанные и другие признаки, преимущества и особенности настоящего изобретения станут понятнее из последующего не ограничивающего изобретение описания иллюстративного варианта его осуществления, данного в качестве примера со ссылками на сопровождающие чертежи, где:
на фиг.1 схематично показана работа системы передачи речи, включающая подавление шумов;
на фиг.2 показано формирование окон анализа при спектральном анализе;
на фиг.3 показана схема примера алгоритма подавления шумов; и
на фиг.4 схематично показана последовательность операций для иллюстративного варианта осуществления подавления шумов по классам, в котором алгоритм подавления зависит от природы обрабатываемого речевого кадра.
ПОДРОБНОЕ ОПИСАНИЕ ИЛЛЮСТРАТИВНЫХ ВАРИАНТОВ
ОСУЩЕСТВЛЕНИЯ НАСТОЯЩЕГО ИЗОБРЕТЕНИЯ
В настоящем описании раскрыты эффективные способы подавления шумов. Эти способы, по меньшей мере частично, базируются на разделении амплитудного спектра на критические полосы и вычислении функции передачи на основе отношения сигнал/шум в критической полосе, аналогично подходу, используемому в улучшенном речевом кодеке с переменной скоростью передачи [Enhanced Variable Rate Codec - EVRC] (см. 3GPP2 C.S0014-0 "Enhanced Variable Rate Codec (EVRC) Service Option for Wideband Spread Spectrum Communication Systems" ["Сервисная опция улучшенного кодека с переменной скоростью передачи для систем широкополосной связи"], 3GPP2 Technical Specification, December 1999). Например, описаны признаки, использующие различную технику обработки на основе природы обрабатываемого речевого кадра. В кадрах с глухими звуками используется обработка по полосам частот для целого спектра. В кадрах, где до определенной частоты обнаружена вокализованность, используется обработка по частотным бинам в нижней части спектра, где обнаружена вокализованность, а в остальных полосах используется обработка по полосам частот. В случае кадров с фоновыми шумами постоянный минимальный уровень шумов удаляют с использованием того же самого масштабирующего коэффициента передачи, что и для целого спектра. Кроме того, раскрыта техника, в которой сглаживание масштабирующего коэффициента передачи в каждой полосе или в каждом частотном бине выполняют с использованием коэффициента сглаживания, который находится в обратной зависимости от фактического масштабирующего коэффициента передачи (сглаживание сильнее для малых коэффициентов передачи). Этот подход предотвращает искажение в речевых сегментах с высоким отношением сигнал/шум, которым предшествуют кадры с малым отношением сигнал/шум, как это имеет место, например, в случае звонких начальных согласных слога.
Один из дополнительных аспектов настоящего изобретения предполагает создание новых способов уменьшения шумов на основе способов вычитания спектров, где способ уменьшения шумов зависит от природы обрабатываемого речевого кадра. Например, в вокализованных кадрах обработка ниже определенной частоты может быть выполнена на базе частотных бинов.
В иллюстративном варианте осуществления настоящего изобретения уменьшение шумов выполняют в системе кодирования речи с целью уменьшения уровня фонового шума в речевом сигнале перед кодированием. Раскрытые методы могут быть применены для узкополосных речевых сигналов с дискретизацией 8000 отсчетов/с, для широкополосных речевых сигналов с дискретизацией 16000 отсчетов/с или при любой другой частоте отсчетов. Кодер, используемый в этом иллюстративном варианте осуществления настоящего изобретения, основан на кодеке AMR-WB (Adaptive Multi-Rate Wideband - адаптивный многоскоростной широкополосный кодек) (см. S.F.Boll, "Suppression of acoustic noise in speech using spectral subtraction" ["Подавление акустического шума в речи с использованием вычитания спектров"] IEEE Trans. Acoust, Speech, Signal Processing, vol. ASSP-27, pp.113-120, Apr. 1979), в котором используется внутреннее преобразование частоты отсчетов сигнала до 12800 отсчетов/с (при работе с шириной полосы 6,4 кГц).
Таким образом, раскрытая в этом иллюстративном варианте осуществления настоящего изобретения техника уменьшения шумов работает или с узкополосными, или с широкополосными сигналами после преобразования частоты отсчетов до 12,8 кГц.
В случае широкополосных входных сигналов входной сигнал прореживают с преобразованием из 16 кГц в 12,8 кГц. Это прореживание выполняют, сначала повышая дискретизацию в 4 раза, а затем фильтруя выходной сигнал через фильтр нижних частот с частотой отсечки 6,4 кГц. Затем сигнал преобразуют с понижением частоты дискретизации в 5 раз. Задержка при фильтровании составляет 15 отсчетов при частоте отсчетов 16 кГц.
В случае узкополосных входных сигналов их необходимо преобразовать с повышением частоты дискретизации от 8 кГц до 12,8 кГц. Это выполняют сначала первым преобразованием с повышением дискретизации в 8 раз, а затем пропусканием выходного сигнала через фильтр нижних частот с частотой отсечки 6,4 кГц. Затем сигнал преобразуют с понижением частоты дискретизации в 5 раз. Задержка при фильтровании составляет 8 отсчетов при частоте отсчетов 8 кГц.
После преобразования частоты дискретизации до процесса кодирования к сигналу применяют две функции предварительной обработки: фильтрование верхних частот и внесение предыскажения.
Фильтр верхних частот служит мерой предосторожности против нежелательных низкочастотных компонент. В данном иллюстративном варианте осуществления настоящего изобретения используется фильтр с граничной частотой 50 Гц, это описывается функцией
Для предыскажения используется фильтр верхних частот первого порядка, чтобы поднять верхние частоты, это описывается функцией
Hpre-emph(z)=1-0.68z-1
Предыскажение используется в кодеке AMR-WB для улучшения рабочих характеристик кодека на верхних частотах и улучшения перцепционного взвешивания в процессе минимизации погрешности, используемом в кодере.
В остальной части этого иллюстративного варианта осуществления настоящего изобретения сигнал на входе алгоритма уменьшения шумов преобразуется к частоте отсчетов 12,8 кГц и подвергается вышеописанной предварительной обработке. Однако раскрытые методы могут быть одинаково применены к сигналам с другими частотами следования отсчетов, например 8 кГц или 16 кГц, с предварительной обработкой и без нее.
Ниже подробно описан алгоритм уменьшения шумов. Кодер речи, в котором используется алгоритм уменьшения шумов, работает с кадрами длиной 20 милисекунд, содержащими 256 отсчетов с частотой отсчетов 12,8 кГц. Кроме того, при анализе кодер использует опережающий просмотр будущих кадров на интервал 13 мс. Уменьшение шумов следует той же структуре кадров. Однако можно ввести некоторый сдвиг между кадрированием кодера и кадрированием при уменьшении шумов, чтобы максимально использовать опережающий просмотр. В настоящем описании индексы отсчетов отражают кадрирование, используемое при уменьшении шумов.
На фиг.1 обобщенно показана система передачи речи, включающая уменьшение шумов. На шаге 101 производят предварительную обработку, как в примере, описанном выше.
На шаге 102 проводят спектральный анализ и обнаружение речевой активности (voice activity detection - VAD). В каждом кадре проводят два спектральных анализа с использованием окон длительностью 20 мс с 50%-ым перекрытием. На шаге 103 уменьшение шумов применяют к спектральным параметрам, а затем используют обратное дискретное преобразование Фурье для преобразования улучшенного сигнала обратно во временную область. Затем для реконструкции сигнала используют операцию наложения-сложения.
На шаге 104 используют анализ с линейным предсказанием (LP) и анализ основного тона без обратной связи (обычно как часть алгоритма кодирования речевых сигналов). В этом иллюстративном варианте осуществления настоящего изобретения параметры, определяемые на шаге 104, используют для принятия решения об обновлении оценки шума в критических полосах (шаг 105). Решение об обнаружении речи также может использоваться для принятия решения об обновлении оценки шумов. Оценки энергии шумов, обновленные на шаге 105, используют в следующем кадре при уменьшении шумов (шаг 103) для вычисления масштабирующего коэффициента передачи. На шаге 106 выполняют кодирование речи для улучшенного сигнала. В других приложениях шаг 106 может относиться к работе системы автоматического распознавания речи. Следует отметить, что функции, выполняемые на шаге 104, могут быть встроены в алгоритм кодирования речи.
Спектральный анализ
Для проведения спектрального анализа и оценки энергии спектра используется дискретное преобразование Фурье (ДПФ). Спектральный анализ проводится дважды за кадр с использованием быстрого преобразования Фурье (БПФ) для 256 точек с 50-процентным перекрытием (как показано на фиг.2). Окна анализа размещены так, чтобы полностью использовать опережающий просмотр. Начало первого окна размещено в 24 отсчетах от начала текущего кадра кодера речи. Второе окно размещено на 128 отсчетов дальше. При спектральном анализе для взвешивания входного сигнала используется квадратный корень окна Ханна (что эквивалентно синусоидальному окну). Это окно особенно хорошо подходит для методов "наложения-сложения" (overlap-add) (таким образом, этот конкретный спектральный анализ используется в алгоритме подавления шумов, основанном на вычитании спектров и анализе/синтезе методом наложения-сложения). Квадратный корень окна Ханна задается следующим выражением:
где LFFT=256 - размерность быстрого преобразования Фурье. Следует отметить, что вычисляют и сохраняют только половину окна, поскольку оно симметрично (от 0 до LFFT/2).
Пусть s'(n) обозначает сигнал, а индекс 0 соответствует первому отсчету в кадре уменьшения шумов (в данном иллюстративном варианте осуществления настоящего изобретения он находится на 24 отсчета дальше, чем начало кадра кодера речи). Сигнал в пределах окна для обоих спектральных анализов получают в виде:
где s'(0) - первый отсчет в имеющемся кадре уменьшения шумов.
Быстрое преобразование Фурье выполняют на обоих сигналах, обработанных окном, чтобы получить два набора спектральных параметров на кадр:
На выходе после быстрого преобразования Фурье получаются действительная и мнимая части спектра, обозначенные XR(k), k=0...128 и Xl(k), k=1...127. Отметим, что ХR(0) соответствует спектру при 0 Гц (сигнал постоянного тока), а ХR(128) соответствует спектру при 6400 Гц. Спектр в этих точках имеет только действительную составляющую, и его при последующем анализе обычно игнорируют.
После анализа с использованием быстрого преобразования Фурье полученный в результате спектр разделяют на критические полосы с использованием интервалов, имеющих следующие верхние границы (20 полос в частотном диапазоне 0-6400 Гц):
Критические полосы = {100,0; 200,0; 300,0; 400,0; 510,0; 630,0; 770,0; 920,0; 1080,0; 1270,0; 1480,0; 1720,0; 2000,0; 2320,0; 2700,0; 3150,0; 3700,0; 4400,0; 5300,0; 6350,0} Гц.
См. D.Johnston, "Transform coding of audio signal using perceptual noise criteria" ["Кодирование сигнала звуковой частоты с преобразованием с использованием перцепционных критериев шумов"], IEEE J.Select. Areas Commiin., vol.6, pp.314-323, Feb. 1988.
Быстрое преобразование Фурье для 256 точек дает разрешающую способность по частоте 50 Гц (6400/128). Таким образом, игнорируя постоянную компоненту спектра, количество частотных бинов (частот анализа ДПФ) на критическую полосу равно МCB={2, 2, 2, 2, 2, 2, 3, 3, 3, 4, 4, 5, 6, 6, 8, 9, 11, 14, 18, 21}, соответственно.
Среднюю энергию в критической полосе вычисляют согласно следующему выражению:
где ХR(k) и Xl(k) - соответственно действительная и мнимая части k-го частотного бина, а ji - индекс первого бина в i-ой критической полосе, задаваемый как ji={1, 3, 5, 7, 9, 11, 13, 16, 19, 22, 26, 30, 35, 41, 47, 55, 64, 75, 89, 107}.
Модуль спектрального анализа вычисляет также энергию на частотный бин, EBIN(k), для первых 17 критических полос (74 бина за исключением постоянного компонента)
Наконец, модуль спектрального анализа вычисляет среднюю полную энергию для обоих анализов быстрого преобразования Фурье в кадре длиной 20 мс, складывая средние энергии критических полос ЕCB. Таким образом, энергию спектра для некоторого спектрального анализа вычисляют как
и полную энергию кадра вычисляют как среднее от энергий спектра для обоих спектральных анализов в кадре. То есть
Выходные параметры модуля спектрального анализа, то есть средняя энергия на критическую полосу, энергия на частотный бин и полная энергия, используются в модулях обнаружения речевой активности, подавления шумов и выбора скорости.
Следует отметить, что для узкополосных входных сигналов с частотой отсчетов 8000 отсчетов/с после преобразования частоты отсчетов до 12800 отсчетов/с оба края спектра не несут информации, таким образом, первая наиболее низкочастотная критическая полоса, а также три последние высокочастотные полосы при вычислении выходных параметров не учитываются (учитываются только полосы от i=1 до 16).
Обнаружение речевой активности
Вышеописанный спектральный анализ выполняют дважды за кадр. Пусть и обозначают информацию об энергии на критическую полосу для первого и второго спектрального анализа соответственно (вычисленные согласно уравнению (2)). Среднюю энергию на критическую полосу для целого кадра и части предыдущего кадра вычисляют как
где обозначает информацию об энергии, приходящейся на критическую полосу, при втором анализе предыдущего кадра. Отношение сигнал/шум (SNR) в критический полосе затем вычисляют как
где NCB(i) - оцененная энергия шумов в критической полосе, вычисление которой будет описано в следующем разделе. Среднее отношение сигнал/шум в кадре тогда вычисляют как
где bmin=0 и bmax=19 в случае широкополосных сигналов, и bmin=1 и bmax=16 в случае узкополосных сигналов.
Активность речи обнаруживают, сравнивая среднее отношение сигнал/шум в кадре с определенным порогом, который зависит от долговременного отношения сигнал/шум. Долговременное отношение сигнал/шум дается выражением
где и вычисляют с использованием уравнений (12) и (13) соответственно, которые приведены ниже. Исходное значение равно 45 дБ.
Порог представляет собой кусочно-линейную функцию долговременного отношения сигнал/шум. Используются две функции: одна для чистой речи и одна для речи с шумами.
Для широкополосных сигналов, если SNRLT<35 (речь с шумами), то
thVAD=0.4346SNRLT+13.9575
в противном случае (чистая речь),
thVAD=1.0333SNRLT-7
Для узкополосных сигналов, если SNRLT<29.6 (речь с шумами), то
thVAD=0.313SNRLT+14.6
в противном случае (чистая речь),
thVAD=1.0333SNRLT-7
Кроме того, при принятии решения об обнаружении речи добавляют гистерезис, чтобы предотвратить частое переключение в конце периода речевой активности. Это применяют в случае, когда кадр относится к периоду "мягкого" поддержания в силе решения об обнаружении речевой активности или если последний кадр является кадром активной речи. Период "мягкого" поддержания в силе решения об обнаружении речевой активности состоит из первых 10 кадров после каждой последовательности кадров активной речи длиной более 2 последовательных кадров. В случае речи с шумами (SNRLT<35) гистерезис уменьшает порог принятия решения об обнаружении речи следующим образом
ihVAD=0.95thVAD
В случае чистой речи гистерезис уменьшает порог принятия решения об обнаружении речи следующим образом
ihVAD=thVAD-11
Если среднее отношение сигнал/шум в кадре больше, чем порог принятия решения об обнаружении речи, то есть если SNRaν>thVAD, то кадр объявляется кадром активной речи, а флаг обнаружения речи (VAD) и локальный флаг обнаружения речи (Local VAD) устанавливают равными 1. В противном случае флаг обнаружения речи и локальный флаг обнаружения речи устанавливают на 0. Однако в случае речи с шумами флаг обнаружения речи принудительно устанавливают равным 1 в кадрах "жесткого" поддержания в силе решения об обнаружении речевой активности, то есть в одном или двух неактивных кадрах, следующих после периода речи продолжительностью более чем 2 последовательных кадра (локальный флаг обнаружения речи при этом равен 0, однако флаг обнаружения речи принудительно установлен на 1).
Первый уровень оценки и обновления шумов
В этом разделе поясняется вычисление полной энергии шумов, относительной энергии в кадре, обновление долговременного среднего значения энергии шумов и вычисление долговременной средней энергии в кадре, среднее значение в критический полосе и коэффициент коррекции шумов. Ниже поясняется задание начального значения энергии шумов и обновление.
Полная энергия шумов в кадре дается выражением
где NCB(i) - оцененная энергия шумов в критической полосе.
Относительная энергия в кадре дается разностью между энергией в кадре в дБ и долговременной средней энергией. Относительная энергия в кадре дается выражением
где Et дается уравнением (5).
Долговременная средняя энергия шумов или долговременная средняя энергия в кадре обновляется в каждом кадре. В случае кадров активной речи (флаг обнаружения речи VAD=1) долговременную среднюю энергию в кадре обновляют с использованием соотношения
В случае кадров без речевой активности (флаг обнаружения речи VAD=0) значение долговременной средней энергии шумов обновляют согласно следующему выражению
Начальное значение устанавливают равным Ntot для первых 4 кадров. Затем в первых 4 кадрах значение ограничивают условием .
Энергия кадра на критическую полосу, инициализация шума и обновление шума по нисходящей
Энергию на критическую полосу для целого кадра вычисляют путем усреднения энергий, полученных в обоих спектральных анализах в кадре. Таким образом,
Энергию шумов в критической полосе NCB(i) изначально полагают равной 0,03. Однако в первых 5 субкадрах, если энергия сигнала не слишком высока или если сигнал не имеет сильных высокочастотных составляющих, то энергию шумов инициализируют с использованием энергии в критической полосе, чтобы алгоритм уменьшения шумов мог быть эффективным с самого начала обработки. Вычисляют два высокочастотных отношения: r15,16 - отношение между средней энергией в критических полосах 15 и 16 и средней энергией в первых 10 полосах (среднее по результатам обоих спектральных анализов), и r18,19 - аналогично для полос 18 и 19.
В первых 5 кадрах, если Et<49, r15,16<2 и r18,19<1.5, то для первых 3 кадров
а для следующих двух кадров NCB(i) обновляют так:
Для последующих кадров на данном этапе обновляют только энергию шумов по нисходящей для критических полос, в результате чего эта энергия меньше, чем энергия фонового шума. Сначала вычисляют временную обновленную энергию шумов:
Затем для i от 0 до 19, если Ntmp(i)<NCB(i), то NCB(i)=Ntmp(i).
Второй уровень обновления шумов выполняют позже, устанавливая NCB(i)=Ntmp(i), если кадр декларирован как неактивный. Причина для разделения обновления энергии шумов на две части заключается в том, что обновление энергии шумов может быть выполнено только в течение неактивных речевых кадров, а следовательно, нужны все параметры, необходимые для принятия решения о наличии речи. Однако эти параметры зависят от анализа линейного предсказания и анализа основного тона без обратной связи, выполняемых на обесшумленном речевом сигнале. Для алгоритма уменьшения шумов, чтобы иметь как можно более точную оценку энергии шумов, обновление оценки энергии шумов обновляют, таким образом, по нисходящей перед выполнением уменьшения шумов и по восходящей позже, если кадр является неактивным. Обновление шумов по нисходящей безопасно и может быть сделано независимо от наличия речевой активности.
Уменьшение шумов
Операцию уменьшения шумов применяют к сигнальной области, а затем обесшумленный сигнал восстанавливают с использованием метода наложения-сложения. Уменьшение шумов выполняют, масштабируя спектр в каждой критической полосе с использованием масштабирующего (взвешивающего) коэффициента передачи, ограниченного между gmin и 1 и полученного из отношения сигнал/шум (SNR) в этой критической полосе. Новая особенность подавления шумов состоит в том, что для частот ниже, чем определенная частота, связанная с вокализованностью сигнала, обработку выполняют на основе частотных бинов, а не на основе критических полос частот. Таким образом, к каждому частотному бину применяют масштабирующий коэффициент передачи, полученный из отношения сигнал/шум в этом бине (отношение сигнал/шум вычисляют с использованием энергии бина, деленной на энергию шумов в критической полосе, включающей этот бин). Эта новая особенность позволяет сохранять энергию на частотах, близких к гармоникам, предотвращая искажения, и при этом сильно уменьшать шум между гармониками. Эта особенность может использоваться только для вокализованных сигналов и, при заданной разрешающей способности по частоте в используемом спектральном анализе, для сигналов с относительно коротким периодом основного тона. Однако именно для таких сигналов шум между гармониками наиболее заметен.
На фиг.3 обобщенно показана предлагаемая процедура. В блоке 301 проводится спектральный анализ. Блок 302 проверяет, больше ли нуля количество критических вокализованных полос. Если да, то уменьшение шумов производится в блоке 304, где проводится обработка по частотным бинам первых К вокализованных полос, а обработка по полосам частот производится в оставшихся полосах. Если К=0, то обработка по полосам частот применяется ко всем критическим полосам. После уменьшения шумов в спектре блок 305 выполняет обратное дискретное преобразование Фурье и использует операцию наложения-сложения для реконструкции улучшенного речевого сигнала, как будет описано ниже.
Минимальный масштабирующий коэффициент передачи, gmin, выводят из максимального разрешенного уменьшения шумов в дБ, NRmax. Максимальное разрешенное уменьшение по умолчанию имеет значение 14 дБ. Таким образом, минимальный масштабирующий коэффициент передачи имеет вид
и равен 0,19953 для значения по умолчанию 14 дБ.
В случае неактивных кадров с VAD=0, то же самое масштабирование применяется к целому спектру и задается выражением gs=0.9gmin, если подавление шумов активизировано (если gmin меньше 1). Таким образом, масштабированные действительная и мнимая составляющие спектра равны
Отметим, что для узкополосных входных сигналов верхние пределы в уравнении (19) устанавливают равными 79 (до 3950 Гц).
Для активных кадров масштабирующий коэффициент передачи вычисляют на основе отношения сигнал/шум в критической полосе или по частотным бинам для первых вокализованных полос. Если КVOIC>0, то осуществляют подавление по частотным бинам на первых КVOIC полосах. Подавление шумов по полосам частот используется в остальных полосах. В случае, если KVOIC=0, подавление шумов по полосам частот используется на всем спектре. Значение KVOlC обновляют, как будет описано ниже. Максимальное значение KVOlC равно 17, поэтому обработку по бинам можно использовать только в первых 17 критических полосах, что соответствует максимальной частоте 3700 Гц. Максимальное количество бинов, для которых можно использовать обработку по бинам, равно 74 (количество бинов в первых 17 полосах). Исключение делается для кадров "жесткого" поддержания в силе решения об обнаружении речевой активности, как будет описано ниже в этом разделе.
В альтернативной реализации значение KVOIC может быть фиксированным. В этом случае во всех типах речевых кадров обработку по бинам выполняют до определенной полосы, а к другим полосам применяют обработку по полосам частот.
Масштабирующий коэффициент передачи в определенной критической полосе или для определенного частотного бина вычисляют как функцию отношения сигнал/шум следующим образом
Значения ks и cs определяют так, что gs=gmin для отношения сигнал/шум SNR=1 и gs=1 для SNR=45. Таким образом, для отношений сигнал/шум от 1 дБ и ниже масштабирование ограничено gs, а для отношений сигнал/шум от 45 дБ и выше в данной критической полосе никакого подавления шумов не выполняют (gs=1). Таким образом, при этих двух заданных конечных точках значения ks и cs в уравнении (20) даются следующими выражениями
Переменная SNR в уравнении (20) равна либо SNR в критической полосе, SNRCB(i), или SNR в частотном бине, SNRBIN(k), в зависимости от типа обработки.
Отношение сигнал/шум SNR в критической полосе в случае первого спектрального анализа в кадре вычисляют как
а для второго спектрального анализа SNR вычисляют как
где и обозначают информацию об энергии, приходящейся на критическую полосу, для первого и второго спектрального анализа соответственно (вычисленные согласно уравнению (2)); обозначает информацию об энергии, приходящейся на критическую полосу, полученную в результате второго анализа в предыдущем кадре, а NСВ(i) обозначает оценку энергии шумов в критической полосе.
Отношение сигнал/шум SNR в критическом бине в определенной критической полосе i в случае первого спектрального анализа в кадре вычисляют как
а для второго спектрального анализа SNR вычисляют как
где и обозначают энергию, приходящуюся на частотный бин, для первого и второго спектрального анализа соответственно (вычисленные согласно уравнению (3)); обозначает энергию, приходящуюся на частотный бин и полученную в результате второго анализа в предыдущем кадре, а NСВ(i) обозначает оценку энергии шумов в критической полосе, ji - индекс первого бина в i-ой критической полосе и МСВ(i) - количество бинов в критической полосе i, определенное выше.
В случае обработки в критической полосе для полосы с индексом i после определения масштабирующего коэффициента передачи согласно уравнению (22) и при использовании отношения сигнал/шум SNR, определенного согласно уравнениям (24) или (25), фактическое масштабирование выполняют с использованием сглаженного масштабирующего коэффициента передачи, обновляемого при каждом спектральном анализе как
В настоящем изобретении используется новый признак, заключающийся в том, что коэффициент сглаживания адаптивен и находится в обратной зависимости от самого коэффициента передачи. В этом иллюстративном варианте осуществления настоящего изобретения коэффициент сглаживания дается выражением αgs=1-gs. Таким образом, сглаживание будет сильнее для меньшего коэффициента передачи. Этот подход предотвращает искажения в сегментах речи с большим отношением сигнал/шум, которым предшествуют кадры с низким отношением сигнал/шум, как имеет место в случае звонких начальных согласных слога. Например, в невокализованных речевых кадрах отношение сигнал/шум мало; поэтому используется большой масштабирующий коэффициент передачи, чтобы уменьшить шум в спектре. Если звонкие начальные согласные слога следуют за невокализованным кадром, отношение сигнал/шум выше, и если сглаживание предотвращает быстрое обновление масштабируемой передачи, то вероятно использование сильного масштабирования в начале слога, что приведет к плохому качеству. В предложенном подходе процедура сглаживания способна быстро адаптироваться и использовать меньший масштабирующий коэффициент передачи в начале слога.
Масштабирование в критической полосе выполняют как
где ji - индекс первого бина в критической полосе i, а МСВ(i) - количество бинов в этой критической полосе.
В случае обработки по частотным бинам в полосе с индексом i после определения масштабирующего коэффициента передачи согласно уравнению (20) и при использовании отношения сигнал/шум SNR согласно уравнениям (24) или (25) фактическое масштабирование выполняют с использованием сглаженного масштабирующего коэффициента передачи, обновляемого при каждом спектральном анализе как
где αgs=1-gs аналогично уравнению (26).
Временное сглаживание коэффициентов передачи предотвращает слышимые колебания энергии, в то время как управление сглаживанием с использованием αgs предотвращает искажение в речевых сегментах с большим отношением сигнал/шум, которым предшествуют кадры с малым отношением сигнал/шум, как имеет место, например, в случае звонких согласных в начале слога.
Масштабирование в критической полосе i выполняют как
где ji - индекс первого бина в критической полосе i, а МCB(i) - количество бинов в этой критической полосе.
Сглаженные масштабированные коэффициенты передачи gBIN,LP(k) и gCB,LP(i) изначально устанавливают равными 1. Каждый раз, когда обрабатывается неактивный кадр (VAD=0), gmin вновь устанавливается равным значениям коэффициентов передачи, определенным в уравнении (18).
Как сказано выше, если KVOIC>0, то подавление шумов по частотным бинам выполняют в первых KVOIC полосах, а подавление шумов по полосам частот выполняют в оставшихся полосах с использованием вышеописанных процедур. Следует отметить, что при каждом спектральном анализе сглаженные масштабируемые коэффициенты передачи gCB,LP(i) обновляют для всех критических полос (даже для вокализованных полос, обработанных по частотным бинам - в этом случае gCB,LP(i) обновляют на среднее значение gBlN,LP(k), относящееся к полосе i). Точно так же масштабируемые коэффициенты передачи gBlN,LP(k) обновляют для всех частотных бинов в первых 17 полосах (до бина 74). Для полос, обработанных по полосам частот, эти коэффициенты обновляют, устанавливая их равными gCB,LP(i) в этих 17 специфических полосах.
Следует отметить, что в случае чистой речи подавления шумов в кадрах активной речи (VAD=1) не выполняют. Эту ситуацию выявляют, определяя максимальную энергию шумов во всех критических полосах, max(NCB(i)), i=0,...19, и если эта величина меньше или равна 15, то подавления шумов не производят.
Как сказано выше, для неактивного кадра (VAD=0) применяют масштабирование 0,9gmin всего спектра, что эквивалентно удалению постоянного минимального уровня шумов. Для речевых кадров, соответствующих короткому периоду поддержания в силе решения об обнаружении речевой активности (VAD=1 и local VAD=0), обработку по полосам частот применяют к первым 10 полосам, как описано выше (соответствует 1700 Гц), а для остальной части спектра вычитают постоянный минимальный уровень шумов путем масштабирования остальной части спектра постоянным значением gmin. Эта мера уменьшает значительные колебания высокочастотной энергии шумов. Для этих полос выше десятой сглаженные коэффициенты масштабируемой передачи gCB,LB(i) не возвращают к старым значениям, а обновляют с использованием уравнения (26) как gs=gmin, а сглаженные по частотным бинам масштабируемые коэффициенты передачи gBlN.LP(k) обновляют, полагая их равными gCB,LB(i) в соответствующих критических полосах.
Процедуру, описанную выше, можно рассматривать как уменьшение шумов, специфическое для данного класса, когда алгоритм уменьшения шумов зависит от природы обрабатываемого речевого кадра. Это иллюстрируется на фиг.4. На шаге 401 проверяют, равен ли флаг VAD нулю (нет речевой активности). Если да, то из спектра удаляют постоянный минимальный уровень шумов, применяя один и тот же масштабирующий коэффициент передачи ко всему спектру (шаг 402). В противном случае (шаг 403) проверяют, соответствует ли кадр периоду поддержания в силе решения об обнаружении речевой активности ("VAD hangover"). Если да, то обработку по полосам частот применяют для первых 10 полос, а для остальных полос используют тот же самый масштабирующий коэффициент передачи (шаг 406). В противном случае (шаг 405) проверяют, обнаружена ли вокализованность в первых полосах спектра. Если да, то в первых К речевых полосах выполняют обработку по бинам, а обработку по полосам частот выполняют в оставшихся полосах (шаг 406). Если вокализованные полосы не обнаружены, то обработку по полосам частот выполняют во всех критических полосах (шаг 407).
В случае обработки узкополосных сигналов (преобразованных с повышением частоты дискретизации до 12800 Гц) подавление шумов выполняют в первых 17 полосах (до 3700 Гц). Для оставшихся пяти частотных бинов между 3700 Гц и 4000 Гц спектр масштабируют с использованием последнего масштабирующего коэффициента передачи gs для бина на 3700 Гц. Для оставшегося спектра (от 4000 Гц до 6400 Гц) спектр обнуляют.
Восстановление обесшумленного сигнала
После определения масштабированных спектральных компонент, X'R(k) и X'I(k), к масштабированному спектру применяют обратное быстрое преобразование Фурье для получения обработанного окном обесшумленного сигнала во временной области.
Эту процедуру повторяют для обоих спектральных анализов в кадре, чтобы получить обработанные окном обесшумленные сигналы и . Для каждого полукадра сигнал реконструируют с использованием операции наложения-сложения для перекрывающихся частей анализа. Поскольку до спектрального анализа в отношении исходного сигнала используется квадратный корень окна Ханна, то же самое окно применяют и на выходе обратного быстрого преобразования Фурье до операции наложения-сложения. Таким образом, дважды обработанный окном обесшумленный сигнал имеет вид:
Для первой половины окна анализа операцию наложения-сложения для построения обесшумленного сигнала выполняют следующим образом:
а для второй половины окна анализа операцию наложения-сложения для формирования обесшумленного сигнала выполняют следующим образом:
где - обесшумленный сигнал после двойного оконного преобразования, полученный в результате второго анализа в предыдущем кадре.
Отметим, что при операции наложения-сложения, поскольку имеется сдвиг на 24 отсчета между кадром речевого кодера и кадром уменьшения шумов, обесшумленный сигнал может быть реконструирован до 24-отсчетного из опережающего просмотра в дополнение к текущему кадру. Однако все еще необходимы 128 отсчетов, чтобы получить полный опережающий просмотр, необходимый кодеру речи для анализа с линейным предсказанием (LP) и анализа основного тона без обратной связи. Эту часть временно получают обратным оконным преобразованием второй половины обесшумленного сигнала , подвергнутого оконному преобразованию, без выполнения операции наложения-сложения. То есть:
Отметим, что эта часть сигнала должным образом повторно вычисляется в следующем кадре с использованием операции наложения-сложения.
Обновление оценок энергия шумов
В этом модуле обновляют оценки энергии шумов в критической полосе с целью подавления шумов. Обновление выполняют в течение неактивных периодов речи. Однако решение об обнаружении речевой активности, сделанное выше и основанное на отношении сигнал/шум в критической полосе, не используется для того, чтобы определить, обновляются ли оценки энергии шумов. Принимают другое решение на основе других параметров, не зависящих от отношения сигнал/шум в критической полосе. Параметры, используемые для принятия решения об обновлении энергии шумов, - это стабильность основного тона, нестационарность сигнала, вокализованность и отношение между энергиями остаточной ошибки линейного предсказания 2-го и 16-го порядка, - в общем случае они обеспечивают низкую чувствительность к вариациям уровня помех.
Причина того, чтобы не использовать решение кодера об обнаружении речи для обновления оценки энергии шумов, состоит в том, чтобы сделать оценку энергии шумов устойчивой к быстро меняющемуся уровню шумов. Если бы для обновления энергии шумов использовалось решение кодера об обнаружении речевой активности, то внезапное увеличение уровня шумов привело бы к увеличению отношения сигнал/шум даже для неактивных кадров речи, не давая устройству оценки энергии шумов произвести обновление, что, в свою очередь, привело бы к сохранению высокого отношения сигнал/шум в следующих кадрах и т.д. Следовательно, обновление энергии шумов было бы заблокировано и для возобновления подстройки под уровень шумов необходимо было бы применить какую-нибудь другую логику.
В этом иллюстративном варианте осуществления настоящего изобретения анализ основного тона без обратной связи выполняют в кодирующем устройстве для вычисления без обратной связи трех оценок основного тона на кадр: d0, d1 и d2, соответствующих первому полукадру, второму полукадру и опережающему просмотру соответственно. Счетчик стабильности основного тона вычисляют как
где d-1 - сдвиг, соответствующий второму полукадру из предыдущего кадра. В этом иллюстративном варианте осуществления настоящего изобретения для задержек основного тона более чем на 122, модуль поиска основного тона без обратной связи устанавливает d2=d1. Таким образом, для таких задержек величину рс в уравнении (31) умножают на 3/2, чтобы компенсировать отсутствие третьего члена в уравнении. Стабильность основного тона считается истиной, если значение рс меньше 12. Далее, для кадров с низкой вокализованностью величину рс устанавливают равной 12, чтобы указать на нестабильность основного тона. То есть
где Cnorm(d) - нормализованная необработанная корреляция, а rе - опциональная коррекция, добавляемая к нормализованной корреляции для компенсации уменьшения нормализованной корреляции в присутствии фонового шума. В этом иллюстративном варианте осуществления настоящего изобретения нормализованную корреляцию вычисляют на основе прореженного взвешенного речевого сигнала Swd(n) согласно выражению:
где предел суммирования зависит от самой задержки. В этом иллюстративном варианте осуществления настоящего изобретения взвешенный сигнал, используемый при анализе основного тона без обратной связи, прорежен вдвое, и пределы суммирования даются следующими выражениями:
Lsec=40 для d=10,...,16
Lsec=40 для d=17,...,31
Lsec=62 для d=32,...,61
Lsec=40 для d=62,...,115
Оценку нестационарности сигнала выполняют на основе произведения отношений энергии в критической полосе к средней долговременной энергии в критической полосе.
Среднюю долговременную энергию в критической полосе обновляют следующим образом:
где bmin=0 и bmax=19 в случае широкополосных сигналов и bmin=1 и bmax=16 в случае узкополосных сигналов, a - энергия кадра на критическую полосу, определяемая уравнением (14). Коэффициент обновления αе является линейной функцией полной энергии кадра, определяемой уравнением (5), и задается следующим образом:
Для широкополосных сигналов: αe=0,0245Etot-0,235 с границами 0,5<αе<0,99.
Для узкополосных сигналов: αе=0,00091Еtot-0,3185 с границами 0,5<αе<0,999.
Нестационарность кадра определяется произведением отношений энергии кадров и средней долговременной энергии в критической полосе. То есть:
Коэффициент вокализованности для обновления энергии шумов дается выражением
Наконец, отношение между остаточными энергиями при линейном предсказании (LP) после анализа 2-го порядка и 16-го порядка дает
где Е(2) и Е(16) - остаточные энергии при линейном предсказании (LP) после анализа 2-го порядка и 16-го порядка, вычисленные рекурсивным методом Левинсона-Дарбина, как хорошо известно специалистам в данной области техники. Это отношение отражает тот факт, что для представления спектральной огибающей сигнала для речевого сигнала обычно необходим более высокий уровень линейного предсказания, чем для шума. Другими словами, различие между Е(2) и Е(16) предполагается более низким для шума, чем для активной речи.
Решение об обновлении принимают на основе переменной noise_update, которая изначально установлена равной 6, и ее уменьшают на 1, если обнаружен неактивный кадр, и увеличивают на 2, если обнаружен активный кадр. Кроме того, переменная noise_update ограничена значениями 0 и 6. Энергии шумов обновляют только тогда, когда noise_update=0.
Значение переменной noise_update обновляют в каждом кадре следующим образом:
Если (nonstat>thstat) ИЛИ (рс<12) ИЛИ (voicing>0.85) ИЛИ (resid_ratio>thresid)
noise_update=noise_update+2
В противном случае
noise_update=noise_update-1
при этом для широкополосных сигналов thstat=350000 и thresid=1,9, а для узкополосных сигналов thstat=500000 и thresid=11.
Другими словами, кадры объявляют неактивными для обновления шумов, когда
(nonstat≤thstat) И (рс>12) И (voicing<0,85) И (resid_ratio<thresid), и перед обновлением шумов используют задержку (поддержание в силе решения об обнаружении речевой активности) из 6 кадров.
Таким образом, если noise_update=0, то для i=от 0 до 19 NCB(i)=Ntmp(i),
где Ntmp(i) - временно обновленная энергия шумов, уже вычисленная согласно уравнению (17).
Обновление граничной частоты вокализованности
Граничную частоту, ниже которой сигнал считается вокализованным, обновляют. Эта частота используется для определения количества критических полос, для которых подавление шумов выполняют с использованием обработки по бинам.
Сначала вычисляют меру вокализованности:
а граничная частота вокализованности задается следующим выражением:
Затем определяют количество критических полос, KVOlC, имеющих верхнюю частоту, которая превышает fc. Границы 325≤fc≤3700 установлены так, что обработку по бинам выполняют минимально на 3 полосах и максимально на 17 полосах (см. верхние границы критических полос, определенные выше). Отметим, что при вычислении меры вокализованности больший вес дается нормализованной корреляции опережающего просмотра, поскольку полученное количество речевых полос будет использовано в следующем кадре.
Таким образом, в следующем кадре для первых KVOlC критических полос подавление шумов будет использовать обработку по бинам, как описано выше.
Отметим, что для кадров с низкой вокализованностью и для больших задержек основного тона используют только обработку по критическим полосам и, таким образом, KVOIC приравнивают 0. Используется следующее условие:
Если (0.4Cnorm(d1)+0.6Cnorm(d2)≤0.72) ИЛИ (d1>116) ИЛИ (d2>116), то KVOIC=0.
Конечно, возможны другие многочисленные изменения и модификации. С учетом вышеописанного иллюстративного подробного описания вариантов осуществления настоящего изобретения и соответствующих чертежей такие изменения и модификации будут очевидны для специалистов в данной области техники. Кроме того, должно быть понятно, что такие модификации могут быть реализованы без выхода за рамки настоящего изобретения.
Claims (79)
1. Способ подавления шумов в речевом сигнале, содержащем речевые кадры, содержащие множество отсчетов, включающий:
проведение двух спектральных анализов с использованием перекрывающихся окон для создания спектрального представления речевого сигнала, содержащего множество частотных бинов, и
группировку частотных бинов в множество полос частот,
отличающийся тем, что для подавления шума в речевом кадре, когда в речевом кадре обнаруживают вокализованную речевую активность, для первой части полос частот подавление шумов выполняют по частотным бинам, а для второй части полос частот подавление шумов выполняют по полосам частот, и
когда в речевом кадре не обнаруживают вокализованную речевую активность, подавление шумов выполняют по полосам частот для всех полос частот.
2. Способ по п.1, в котором первую часть полос частот определяют как полосы частот, которые являются вокализованными.
3. Способ по п.1, в котором первую часть полос частот определяют относительно граничной частоты вокализованности, которая является частотой, ниже которой речевой сигнал считают вокализованным.
4. Способ по п.3, в котором первая часть полос частот включает все полосы частот речевого сигнала, которые имеют верхнюю частоту, не превышающую граничной частоты вокализованности.
5. Способ по п.1, в котором первая часть полос частот включает заранее заданное фиксированное число полос частот.
6. Способ по п.1, в котором, если ни одна из полос частот в речевом кадре не является вокализованной, подавление шумов выполняют по полосам частот для всех полос частот.
7. Способ по п.1, включающий проведение первого спектрального анализа согласно способу по п.1 с использованием окна анализа, которое смещено на m отсчетов относительно первого отсчета речевого кадра.
8. Способ по п.1, включающий проведение первого спектрального анализа с использованием первого окна анализа, которое смещено на m отсчетов относительно начала речевого кадра, и второго окна анализа, которое смещено на р отсчетов относительно начала речевого кадра.
9. Способ по п.8, в котором m=24 и р=128.
10. Способ по п.8, в котором второе окно анализа имеет опережающую часть, которая выходит из указанного речевого кадра в последующий речевой кадр речевого сигнала.
11. Способ по п.1, включающий подавление шумов путем масштабирования частотных бинов и/или полос частот с использованием масштабирующего коэффициента передачи.
12. Способ по п.1, который при подавлении шумов по частотным бинам включает вычисление для частотного бина соответствующего масштабирующего коэффициента передачи.
13. Способ по п.1, который при подавлении шумов по полосам частот включает вычисление для полосы частот соответствующего масштабирующего коэффициента передачи.
14. Способ по п.1, включающий подавление шумов путем применения постоянного масштабирующего коэффициента передачи для всех полос частот.
15. Способ по п.12, включающий определение значения масштабирующего коэффициента передачи для частотного бина на основе отношения сигнал/шум (SNR), определенного для этого частотного бина.
16. Способ по п.13, включающий определение значения масштабирующего коэффициента передачи для полосы частот на основе отношения сигнал/шум (SNR), определенного для этой полосы частот.
17. Способ по п.15, включающий определение значения масштабирующего коэффициента передачи для частотного бина на основе отношения сигнал/шум (SNR), определенного для этого частотного бина, для каждого из первого и второго спектральных анализов.
18. Способ по п.16, включающий определение значения масштабирующего коэффициента передачи для полосы частот на основе отношения сигнал/шум (SNR), определенного для этой полосы частот, для каждого из первого и второго спектральных анализов.
19. Способ по любому из пп.11-13, в котором масштабирующий коэффициент передачи представляет собой сглаженный масштабирующий коэффициент передачи, который применяют к конкретному частотному бину или конкретной полосе частот, а вычисляют с использованием коэффициента сглаживания, величина которого находится в обратном отношении к масштабирующему коэффициенту передачи для конкретного частотного бина или конкретной полосы частот.
20. Способ по любому из пп.11-13, включающий вычисление сглаженного масштабирующего коэффициента передачи, который применяют к конкретному частотному бину или конкретной полосе частот, с использованием коэффициента сглаживания, значение которого определяют так, чтобы сглаживание было сильнее для меньших значений масштабирующего коэффициента передачи.
21. Способ по п.12 или 13, в котором значение масштабирующего коэффициента передачи определяют n раз за речевой кадр, где n больше единицы.
22. Способ по п.21, в котором n=2.
23. Способ по п.12 или 13, в котором значение масштабирующего коэффициента передачи определяют n раз за речевой кадр, где n больше единицы, а граничная частота вокализованности по меньшей мере частично зависит от речевого сигнала в предыдущем речевом кадре.
24. Способ по п.12, в котором подавление шумов по частотным бинам выполняют максимально на 74 бинах, соответствующих 17 полосам частот.
25. Способ по п.12, в котором подавление шумов по частотным бинам выполняют на максимальном количестве частотных бинов, соответствующем частоте 3700 Гц.
26. Способ по п.15 или 16, в котором для значений отношения сигнал/шум от 1 дБ и ниже величину масштабирующего коэффициента передачи устанавливают на минимальное значение, а для значений отношения сигнал/шум от 45 дБ и выше величину масштабирующего коэффициента передачи устанавливают равной единице.
27. Способ по п.19, включающий обнаружение кадров речевого сигнала, которые не содержат активной речи.
28. Способ по п.27, включающий возврат сглаженного масштабирующего коэффициента передачи к минимальному значению в ответ на обнаружение кадра речевого сигнала, который не содержит активной речи.
29. Способ по п.1, в котором подавление шумов выполняют только в том случае, если максимальная энергия шумов в множестве полос частот лежит выше порогового значения.
30. Способ по п.1, дополнительно включающий, в ответ на появление речевого кадра, соответствующего короткому периоду поддержания в силе решения об обнаружении речевой активности, выполнение подавления шумов путем применения масштабирующего коэффициента передачи, определенного по полосам частот для первых х полос частот, а для оставшихся полос частот - выполнение подавления шумов путем применения постоянного значения масштабирующего коэффициента передачи.
31. Способ по п.30, в котором первые х полос частот соответствуют частотам до 1700 Гц.
32. Способ по п.19, который для узкополосного речевого сигнала дополнительно включает выполнение подавления шумов путем применения сглаженных масштабирующих коэффициентов передачи, определенных по полосам частот, для первых х полос частот, соответствующих частотам до 3700 Гц, выполнение подавления шумов путем применения значения масштабирующего коэффициента передачи частотного бина, соответствующего 3700 Гц, к частотным бинам между частотами 3700 Гц и 4000 Гц, и обнуление оставшихся полос частот частотного спектра речевого сигнала.
33. Способ по п.32, в котором узкополосный речевой сигнал преобразован с повышением частоты дискретизации до 12800 Гц.
34. Способ по п.3, дополнительно включающий определение граничной частоты вокализованности с использованием вычисленной меры вокализованности.
35. Способ по п.34, дополнительно включающий определение множества критических полос, имеющих верхнюю частоту, которая не превышает граничную частоту вокализованности, причем границы установлены так, что подавление шумов по частотным бинам выполняют минимально на х полосах и максимально на у полосах.
36. Способ по п.35, в котором х=3 и у=17.
37. Способ по п.34, в котором граничную частоту вокализованности ограничивают так, чтобы она была не менее 325 Гц и не более 3700 Гц.
38. Устройство для подавления шумов в речевом сигнале, содержащем речевые кадры, содержащие множество отсчетов, выполненное с возможностью:
проведения двух спектральных анализов с использованием перекрывающихся окон для создания спектрального представления речевого сигнала, содержащего множество частотных бинов, и
группировки частотных бинов в множество полос частот,
отличающееся тем, что оно выполнено с возможностью обнаруживать вокализованную речевую активность и при обнаружении в речевом кадре вокализованной речевой активности выполнять для первой части полос частот подавление шумов по частотным бинам, а для второй части полос частот - подавление шумов по полосам частот,
а когда в речевом кадре не обнаружена вокализованная речевая активность, - выполнять подавление шумов по полосам частот для всех полос частот.
39. Устройство по п.38, в котором первая часть полос частот определяется как полосы частот, которые являются вокализованными.
40. Устройство по п.38, которое выполнено с возможностью определять первую часть полос частот относительно граничной частоты вокализованности, которая является частотой, ниже которой речевой сигнал считается вокализованным.
41. Устройство по п.40, в котором первая часть полос частот включает все полосы частот речевого сигнала, которые имеют верхнюю частоту, не превышающую граничной частоты вокализованности.
42. Устройство по п.38, в котором первая часть полос частот включает заранее заданное фиксированное число полос частот.
43. Устройство по п.38, которое выполнено с возможностью подавления шумов по полосам частот для всех полос частот, если ни одна полоса частот речевого сигнала не является вокализованной.
44. Устройство по п.38, выполненное с возможностью проводить указанный спектральный анализ с использованием окна анализа, которое смещено на m отсчетов относительно первого отсчета речевого кадра.
45. Устройство по п.38, выполненное с возможностью проводить первый спектральный анализ с использованием первого окна анализа, которое смещено на m отсчетов относительно начала речевого кадра, и второго окна анализа, которое смещено на р отсчетов относительно начала речевого кадра.
46. Устройство по п.45, в котором m=24 и р=128.
47. Устройство по п.45, в котором второе окно анализа имеет опережающую часть, которая выходит из указанного речевого кадра в последующий речевой кадр речевого сигнала.
48. Устройство по п.38, которое выполнено с возможностью подавления шумов путем применения масштабирующих коэффициентов передачи к частотным бинам и/или полосам частот.
49. Устройство по п.38, которое выполнено с возможностью при подавлении шумов по частотным бинам определять для частотного бина соответствующий масштабирующий коэффициент передачи.
50. Устройство по п.38, которое выполнено с возможностью при подавлении шумов по полосам частот определять для полосы частот соответствующий масштабирующий коэффициент передачи.
51. Устройство по п.43, которое выполнено с возможностью выполнять подавление шумов путем применения постоянного масштабирующего коэффициента передачи для всех полос частот.
52. Устройство по п.49, которое выполнено с возможностью определять значение масштабирующего коэффициента передачи для частотного бина на основе отношения сигнал/шум (SNR), определенного для этого частотного бина.
53. Устройство по п.50, которое выполнено с возможностью определять значение масштабирующего коэффициента передачи для полосы частот на основе отношения сигнал/шум (SNR), определенного для этой полосы частот.
54. Устройство по п.52, которое выполнено с возможностью определять значение масштабирующего коэффициента передачи для частотного бина на основе отношения сигнал/шум (SNR), определенного для этого частотного бина, для каждого из первого и второго спектральных анализов.
55. Устройство по п.53, которое выполнено с возможностью определять значение масштабирующего коэффициента передачи для полосы частот на основе отношения сигнал/шум (SNR), определенного для этой полосы частот, для каждого из первого и второго спектральных анализов.
56. Устройство по любому из пп.48-50, в котором масштабирующий коэффициент передачи представляет собой сглаженный масштабирующий коэффициент передачи.
57. Устройство по любому из пп.48-50, которое выполнено с возможностью вычисления сглаженного масштабирующего коэффициента передачи, который применяется к конкретному частотному бину или конкретной полосе частот, с использованием коэффициента сглаживания, величина которого находится в обратной зависимости от масштабирующего коэффициента передачи для конкретного частотного бина или конкретной полосы частот.
58. Устройство по любому из пп.48-50, которое выполнено с возможностью вычисления сглаженного масштабирующего коэффициента передачи, который применяется к конкретному частотному бину или конкретной полосе частот, с использованием коэффициента сглаживания, значение которого определяется так, чтобы сглаживание было сильнее для меньших значений масштабирующего коэффициента передачи.
59. Устройство по п.49 или 50, которое выполнено с возможностью определения значения масштабирующего коэффициента передачи n раз за речевой кадр, где n больше единицы.
60. Устройство по п.59, в котором n=2.
61. Устройство по п.49 или 50, которое выполнено с возможностью определения значения масштабирующего коэффициента передачи n раз за речевой кадр, где n больше единицы, а граничная частоты вокализованности по меньшей мере частично зависит от речевого сигнала в предыдущем речевом кадре.
62. Устройство по п.49, которое выполнено с возможностью подавления шумов по частотным бинам максимально на 74 бинах, соответствующих 17 полосам частот.
63. Устройство по п.49, которое выполнено с возможностью подавления шумов по частотным бинам на максимальном количестве частотных бинов, соответствующем частоте 3700 Гц.
64. Устройство по п.49, которое выполнено с возможностью устанавливать величину масштабирующего коэффициента передачи на минимальное значение для первого значения отношения сигнал/шум, и устанавливать величину масштабирующего коэффициента передачи равной единице для второго значения отношения сигнал/шум, большего, чем первое значение отношения сигнал/шум.
65. Устройство по п.64, в котором первое значение отношения сигнал/шум составляет около 1 дБ, а второе значение отношения сигнал/шум составляет около 45 дБ.
66. Устройство по п.56, выполненное с возможностью обнаруживать сегменты речевого сигнала, которые не содержат активной речи.
67. Устройство по п.66, выполненное с возможностью осуществлять возврат сглаженного масштабирующего коэффициента передачи к минимальному значению в ответ на обнаружение сегмента речевого сигнала, который не содержит активной речи.
68. Устройство по п.38, выполненное с возможностью выполнять подавление шумов только в том случае, если максимальная энергия шумов в множестве полос частот лежит выше порогового значения.
69. Устройство по п.38, которое выполнено с возможностью в ответ на появление речевого кадра, соответствующего короткому периоду поддержания в силе решения об обнаружении речевой активности, выполнять подавление шумов путем применения масштабирующего коэффициента передачи, определенного по полосам частот для первых х полос частот, а для оставшихся полос частот - выполнять подавление шумов путем применения постоянного значения масштабирующего коэффициента передачи.
70. Устройство по п.69, в котором первые х полос частот соответствуют частотам до 1700 Гц.
71. Устройство по п.56, которое выполнено с возможностью для узкополосного речевого сигнала выполнять подавление шумов путем применения сглаженных масштабирующих коэффициентов передачи, определенных по полосам частот, для первых х полос частот, соответствующих частотам до 3700 Гц, выполнять подавление шумов путем применения сглаженного масштабирующего коэффициента передачи частотного бина на частоте 3700 Гц для масштабирования спектра для частотных бинов между 3700 Гц и 4000 Гц, и обнулять оставшиеся полосы частот частотного спектра речевого сигнала.
72. Устройство по п.71, в котором узкополосный речевой сигнал преобразован с повышением частоты дискретизации до 12800 Гц.
73. Устройство по п.40, которое выполнено с возможностью определения граничной частоты вокализованности с использованием вычисленной меры вокализованности.
74. Устройство по п.73, которое выполнено с возможностью определения множества критических полос, имеющих верхнюю частоту, которая не превышает граничную частоту вокализованности, причем границы устанавливаются так, что подавление шумов по частотным бинам выполняется минимально на х полосах и максимально на у полосах.
75. Устройство по п.74, в котором х=3 и у=17.
76. Устройство по п.73, в котором граничная частота вокализованности ограничена так, чтобы она была не менее 325 Гц и не более 3700 Гц.
77. Речевой кодер, включающий устройство для подавления шумов в речевом сигнале, содержащем речевые кадры, содержащие множество отсчетов, выполненное с возможностью;
проведения двух спектральных анализов с использованием перекрывающихся окон для создания спектрального представления речевого сигнала, содержащего множество частотных бинов, и
группировки частотных бинов в множество полос частот,
отличающийся тем, что указанное устройство выполнено с возможностью обнаруживать вокализованную речевую активность и при обнаружении в речевом кадре вокализованной речевой активности выполнять для первой части полос частот подавление шумов по частотным бинам, а для второй части полос частот - подавление шумов по полосам частот,
а когда в речевом кадре не обнаружена вокализованная речевая активность, - выполнять подавление шумов по полосам частот для всех полос частот.
78. Система автоматического распознавания речи, включающая устройство для подавления шумов в речевом сигнале, содержащем речевые кадры, содержащие множество отсчетов, выполненное с возможностью:
проведения двух спектральных анализов с использованием перекрывающихся окон для создания спектрального представления речевого сигнала, содержащего множество частотных бинов, и
группировки частотных бинов в множество полос частот,
отличающаяся тем, что указанное устройство выполнено с возможностью обнаруживать вокализованную речевую активность и при обнаружении в речевом кадре вокализованной речевой активности выполнять для первой части полос частот подавление шумов по частотным бинам, а для второй части полос частот - подавление шумов по полосам частот,
а когда в речевом кадре не обнаружена вокализованная речевая активность, - выполнять подавление шумов по полосам частот для всех полос частот.
79. Мобильный телефон, включающий устройство для подавления шумов в речевом сигнале, содержащем речевые кадры, содержащие множество отсчетов, выполненное с возможностью:
проведения двух спектральных анализов с использованием перекрывающихся окон для создания спектрального представления речевого сигнала, содержащего множество частотных бинов, и
группировки частотных бинов в множество полос частот,
отличающийся тем, что указанное устройство выполнено с возможностью обнаруживать вокализованную речевую активность и при обнаружении в речевом кадре вокализованной речевой активности выполнять для первой части полос частот подавление шумов по частотным бинам, а для второй части полос частот - подавление шумов по полосам частот,
а когда в речевом кадре не обнаружена вокализованная речевая активность, - выполнять подавление шумов по полосам частот для всех полос частот.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CA002454296A CA2454296A1 (en) | 2003-12-29 | 2003-12-29 | Method and device for speech enhancement in the presence of background noise |
CA2454296 | 2003-12-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2006126530A RU2006126530A (ru) | 2008-02-10 |
RU2329550C2 true RU2329550C2 (ru) | 2008-07-20 |
Family
ID=34683070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2006126530/09A RU2329550C2 (ru) | 2003-12-29 | 2004-12-29 | Способ и устройство для улучшения речевого сигнала в присутствии фонового шума |
Country Status (19)
Country | Link |
---|---|
US (1) | US8577675B2 (ru) |
EP (1) | EP1700294B1 (ru) |
JP (1) | JP4440937B2 (ru) |
KR (1) | KR100870502B1 (ru) |
CN (1) | CN100510672C (ru) |
AT (1) | ATE441177T1 (ru) |
AU (1) | AU2004309431C1 (ru) |
BR (1) | BRPI0418449A (ru) |
CA (2) | CA2454296A1 (ru) |
DE (1) | DE602004022862D1 (ru) |
ES (1) | ES2329046T3 (ru) |
HK (1) | HK1099946A1 (ru) |
MX (1) | MXPA06007234A (ru) |
MY (1) | MY141447A (ru) |
PT (1) | PT1700294E (ru) |
RU (1) | RU2329550C2 (ru) |
TW (1) | TWI279776B (ru) |
WO (1) | WO2005064595A1 (ru) |
ZA (1) | ZA200606215B (ru) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2518682C2 (ru) * | 2010-01-19 | 2014-06-10 | Долби Интернешнл Аб | Усовершенствованное гармоническое преобразование на основе блока поддиапазонов |
RU2591012C2 (ru) * | 2010-03-09 | 2016-07-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство и способ обработки переходных процессов для аудио сигналов с изменением скорости воспроизведения или высоты тона |
RU2595636C2 (ru) * | 2010-11-24 | 2016-08-27 | Конинклейке Филипс Электроникс Н.В. | Система и способ для генерации аудиосигнала |
RU2601188C2 (ru) * | 2012-02-23 | 2016-10-27 | Долби Интернэшнл Аб | Способы и системы для эффективного восстановления высокочастотного аудиоконтента |
RU2666337C2 (ru) * | 2014-03-12 | 2018-09-06 | Хуавэй Текнолоджиз Ко., Лтд. | Способ обнаружения звукового сигнала и устройство |
Families Citing this family (87)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7113580B1 (en) * | 2004-02-17 | 2006-09-26 | Excel Switching Corporation | Method and apparatus for performing conferencing services and echo suppression |
EP1719114A2 (en) * | 2004-02-18 | 2006-11-08 | Philips Intellectual Property & Standards GmbH | Method and system for generating training data for an automatic speech recogniser |
DE102004049347A1 (de) * | 2004-10-08 | 2006-04-20 | Micronas Gmbh | Schaltungsanordnung bzw. Verfahren für Sprache enthaltende Audiosignale |
JP5129117B2 (ja) | 2005-04-01 | 2013-01-23 | クゥアルコム・インコーポレイテッド | 音声信号の高帯域部分を符号化及び復号する方法及び装置 |
WO2006116025A1 (en) * | 2005-04-22 | 2006-11-02 | Qualcomm Incorporated | Systems, methods, and apparatus for gain factor smoothing |
JP4765461B2 (ja) * | 2005-07-27 | 2011-09-07 | 日本電気株式会社 | 雑音抑圧システムと方法及びプログラム |
US7366658B2 (en) * | 2005-12-09 | 2008-04-29 | Texas Instruments Incorporated | Noise pre-processor for enhanced variable rate speech codec |
US7930178B2 (en) * | 2005-12-23 | 2011-04-19 | Microsoft Corporation | Speech modeling and enhancement based on magnitude-normalized spectra |
US9185487B2 (en) * | 2006-01-30 | 2015-11-10 | Audience, Inc. | System and method for providing noise suppression utilizing null processing noise subtraction |
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
US7593535B2 (en) * | 2006-08-01 | 2009-09-22 | Dts, Inc. | Neural network filtering techniques for compensating linear and non-linear distortion of an audio transducer |
CN101246688B (zh) * | 2007-02-14 | 2011-01-12 | 华为技术有限公司 | 一种对背景噪声信号进行编解码的方法、系统和装置 |
JP5530720B2 (ja) * | 2007-02-26 | 2014-06-25 | ドルビー ラボラトリーズ ライセンシング コーポレイション | エンターテイメントオーディオにおける音声強調方法、装置、およびコンピュータ読取り可能な記録媒体 |
US8280731B2 (en) * | 2007-03-19 | 2012-10-02 | Dolby Laboratories Licensing Corporation | Noise variance estimator for speech enhancement |
CN101320559B (zh) * | 2007-06-07 | 2011-05-18 | 华为技术有限公司 | 一种声音激活检测装置及方法 |
US8990073B2 (en) * | 2007-06-22 | 2015-03-24 | Voiceage Corporation | Method and device for sound activity detection and sound signal classification |
WO2009035615A1 (en) * | 2007-09-12 | 2009-03-19 | Dolby Laboratories Licensing Corporation | Speech enhancement |
US8892432B2 (en) * | 2007-10-19 | 2014-11-18 | Nec Corporation | Signal processing system, apparatus and method used on the system, and program thereof |
US8688441B2 (en) * | 2007-11-29 | 2014-04-01 | Motorola Mobility Llc | Method and apparatus to facilitate provision and use of an energy value to determine a spectral envelope shape for out-of-signal bandwidth content |
US8483854B2 (en) | 2008-01-28 | 2013-07-09 | Qualcomm Incorporated | Systems, methods, and apparatus for context processing using multiple microphones |
US8433582B2 (en) * | 2008-02-01 | 2013-04-30 | Motorola Mobility Llc | Method and apparatus for estimating high-band energy in a bandwidth extension system |
US20090201983A1 (en) * | 2008-02-07 | 2009-08-13 | Motorola, Inc. | Method and apparatus for estimating high-band energy in a bandwidth extension system |
US8401845B2 (en) | 2008-03-05 | 2013-03-19 | Voiceage Corporation | System and method for enhancing a decoded tonal sound signal |
CN101483042B (zh) * | 2008-03-20 | 2011-03-30 | 华为技术有限公司 | 一种噪声生成方法以及噪声生成装置 |
US8606573B2 (en) * | 2008-03-28 | 2013-12-10 | Alon Konchitsky | Voice recognition improved accuracy in mobile environments |
KR101317813B1 (ko) * | 2008-03-31 | 2013-10-15 | (주)트란소노 | 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체 |
US9142221B2 (en) * | 2008-04-07 | 2015-09-22 | Cambridge Silicon Radio Limited | Noise reduction |
US8515097B2 (en) * | 2008-07-25 | 2013-08-20 | Broadcom Corporation | Single microphone wind noise suppression |
US9253568B2 (en) * | 2008-07-25 | 2016-02-02 | Broadcom Corporation | Single-microphone wind noise suppression |
US8463412B2 (en) * | 2008-08-21 | 2013-06-11 | Motorola Mobility Llc | Method and apparatus to facilitate determining signal bounding frequencies |
US8798776B2 (en) | 2008-09-30 | 2014-08-05 | Dolby International Ab | Transcoding of audio metadata |
US8463599B2 (en) * | 2009-02-04 | 2013-06-11 | Motorola Mobility Llc | Bandwidth extension method and apparatus for a modified discrete cosine transform audio coder |
JP5535198B2 (ja) * | 2009-04-02 | 2014-07-02 | 三菱電機株式会社 | 雑音抑圧装置 |
WO2011004299A1 (en) * | 2009-07-07 | 2011-01-13 | Koninklijke Philips Electronics N.V. | Noise reduction of breathing signals |
WO2011049515A1 (en) * | 2009-10-19 | 2011-04-28 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and voice activity detector for a speech encoder |
PT2491559E (pt) * | 2009-10-19 | 2015-05-07 | Ericsson Telefon Ab L M | Método e estimador de fundo para a detecção de actividade de voz |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
US9558755B1 (en) | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
KR101176207B1 (ko) * | 2010-10-18 | 2012-08-28 | (주)트란소노 | 음성통신 시스템 및 음성통신 방법 |
KR101173980B1 (ko) | 2010-10-18 | 2012-08-16 | (주)트란소노 | 음성통신 기반 잡음 제거 시스템 및 그 방법 |
US8831937B2 (en) * | 2010-11-12 | 2014-09-09 | Audience, Inc. | Post-noise suppression processing to improve voice quality |
EP3493205B1 (en) | 2010-12-24 | 2020-12-23 | Huawei Technologies Co., Ltd. | Method and apparatus for adaptively detecting a voice activity in an input audio signal |
KR20120080409A (ko) * | 2011-01-07 | 2012-07-17 | 삼성전자주식회사 | 잡음 구간 판별에 의한 잡음 추정 장치 및 방법 |
US20130346460A1 (en) * | 2011-01-11 | 2013-12-26 | Thierry Bruneau | Method and device for filtering a signal and control device for a process |
US8650029B2 (en) * | 2011-02-25 | 2014-02-11 | Microsoft Corporation | Leveraging speech recognizer feedback for voice activity detection |
WO2012153165A1 (en) * | 2011-05-06 | 2012-11-15 | Nokia Corporation | A pitch estimator |
TWI459381B (zh) * | 2011-09-14 | 2014-11-01 | Ind Tech Res Inst | 語音增強方法 |
US9173025B2 (en) | 2012-02-08 | 2015-10-27 | Dolby Laboratories Licensing Corporation | Combined suppression of noise, echo, and out-of-location signals |
US8712076B2 (en) | 2012-02-08 | 2014-04-29 | Dolby Laboratories Licensing Corporation | Post-processing including median filtering of noise suppression gains |
CN103325380B (zh) | 2012-03-23 | 2017-09-12 | 杜比实验室特许公司 | 用于信号增强的增益后处理 |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
EP2786376A1 (en) | 2012-11-20 | 2014-10-08 | Unify GmbH & Co. KG | Method, device, and system for audio data processing |
CN103886867B (zh) * | 2012-12-21 | 2017-06-27 | 华为技术有限公司 | 一种噪声抑制装置及其方法 |
MY178710A (en) | 2012-12-21 | 2020-10-20 | Fraunhofer Ges Forschung | Comfort noise addition for modeling background noise at low bit-rates |
US9495951B2 (en) * | 2013-01-17 | 2016-11-15 | Nvidia Corporation | Real time audio echo and background noise reduction for a mobile device |
ES2714289T3 (es) * | 2013-01-29 | 2019-05-28 | Fraunhofer Ges Forschung | Llenado con ruido en la codificación de audio por transformada perceptual |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
JP6303340B2 (ja) | 2013-08-30 | 2018-04-04 | 富士通株式会社 | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム |
KR20150032390A (ko) * | 2013-09-16 | 2015-03-26 | 삼성전자주식회사 | 음성 명료도 향상을 위한 음성 신호 처리 장치 및 방법 |
DE102013111784B4 (de) * | 2013-10-25 | 2019-11-14 | Intel IP Corporation | Audioverarbeitungsvorrichtungen und audioverarbeitungsverfahren |
US9449610B2 (en) * | 2013-11-07 | 2016-09-20 | Continental Automotive Systems, Inc. | Speech probability presence modifier improving log-MMSE based noise suppression performance |
US9449615B2 (en) * | 2013-11-07 | 2016-09-20 | Continental Automotive Systems, Inc. | Externally estimated SNR based modifiers for internal MMSE calculators |
US9449609B2 (en) * | 2013-11-07 | 2016-09-20 | Continental Automotive Systems, Inc. | Accurate forward SNR estimation based on MMSE speech probability presence |
CN104681034A (zh) | 2013-11-27 | 2015-06-03 | 杜比实验室特许公司 | 音频信号处理 |
GB2523984B (en) | 2013-12-18 | 2017-07-26 | Cirrus Logic Int Semiconductor Ltd | Processing received speech data |
US10176823B2 (en) * | 2014-05-09 | 2019-01-08 | Apple Inc. | System and method for audio noise processing and noise reduction |
KR20160000680A (ko) * | 2014-06-25 | 2016-01-05 | 주식회사 더바인코퍼레이션 | 광대역 보코더용 휴대폰 명료도 향상장치와 이를 이용한 음성출력장치 |
RU2665916C2 (ru) * | 2014-07-29 | 2018-09-04 | Телефонактиеболагет Лм Эрикссон (Пабл) | Оценивание фонового шума в аудиосигналах |
DE112015003945T5 (de) | 2014-08-28 | 2017-05-11 | Knowles Electronics, Llc | Mehrquellen-Rauschunterdrückung |
CN107112025A (zh) | 2014-09-12 | 2017-08-29 | 美商楼氏电子有限公司 | 用于恢复语音分量的系统和方法 |
US9947318B2 (en) * | 2014-10-03 | 2018-04-17 | 2236008 Ontario Inc. | System and method for processing an audio signal captured from a microphone |
US9886966B2 (en) * | 2014-11-07 | 2018-02-06 | Apple Inc. | System and method for improving noise suppression using logistic function and a suppression target value for automatic speech recognition |
TWI569263B (zh) * | 2015-04-30 | 2017-02-01 | 智原科技股份有限公司 | 聲頻訊號的訊號擷取方法與裝置 |
US20180350358A1 (en) * | 2015-12-01 | 2018-12-06 | Mitsubishi Electric Corporation | Voice recognition device, voice emphasis device, voice recognition method, voice emphasis method, and navigation system |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
CN108022595A (zh) * | 2016-10-28 | 2018-05-11 | 电信科学技术研究院 | 一种语音信号降噪方法和用户终端 |
CN106782504B (zh) * | 2016-12-29 | 2019-01-22 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
WO2019068915A1 (en) * | 2017-10-06 | 2019-04-11 | Sony Europe Limited | AUDIO FILE ENVELOPE BASED ON RMS POWER IN SUB-WINDOW SEQUENCES |
US10771621B2 (en) * | 2017-10-31 | 2020-09-08 | Cisco Technology, Inc. | Acoustic echo cancellation based sub band domain active speaker detection for audio and video conferencing applications |
RU2701120C1 (ru) * | 2018-05-14 | 2019-09-24 | Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" | Устройство для обработки речевого сигнала |
US10681458B2 (en) * | 2018-06-11 | 2020-06-09 | Cirrus Logic, Inc. | Techniques for howling detection |
KR102327441B1 (ko) * | 2019-09-20 | 2021-11-17 | 엘지전자 주식회사 | 인공지능 장치 |
US11217262B2 (en) * | 2019-11-18 | 2022-01-04 | Google Llc | Adaptive energy limiting for transient noise suppression |
US11374663B2 (en) * | 2019-11-21 | 2022-06-28 | Bose Corporation | Variable-frequency smoothing |
US11264015B2 (en) | 2019-11-21 | 2022-03-01 | Bose Corporation | Variable-time smoothing for steady state noise estimation |
CN111429932A (zh) * | 2020-06-10 | 2020-07-17 | 浙江远传信息技术股份有限公司 | 语音降噪方法、装置、设备及介质 |
CN112634929B (zh) * | 2020-12-16 | 2024-07-23 | 普联国际有限公司 | 一种语音增强方法、装置及存储介质 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS57161800A (en) * | 1981-03-30 | 1982-10-05 | Toshiyuki Sakai | Voice information filter |
AU633673B2 (en) * | 1990-01-18 | 1993-02-04 | Matsushita Electric Industrial Co., Ltd. | Signal processing device |
US5432859A (en) * | 1993-02-23 | 1995-07-11 | Novatel Communications Ltd. | Noise-reduction system |
JP3297307B2 (ja) * | 1996-06-14 | 2002-07-02 | 沖電気工業株式会社 | 背景雑音消去装置 |
US6098038A (en) * | 1996-09-27 | 2000-08-01 | Oregon Graduate Institute Of Science & Technology | Method and system for adaptive speech enhancement using frequency specific signal-to-noise ratio estimates |
US6097820A (en) * | 1996-12-23 | 2000-08-01 | Lucent Technologies Inc. | System and method for suppressing noise in digitally represented voice signals |
US6456965B1 (en) * | 1997-05-20 | 2002-09-24 | Texas Instruments Incorporated | Multi-stage pitch and mixed voicing estimation for harmonic speech coders |
US6044341A (en) * | 1997-07-16 | 2000-03-28 | Olympus Optical Co., Ltd. | Noise suppression apparatus and recording medium recording processing program for performing noise removal from voice |
US20020002455A1 (en) * | 1998-01-09 | 2002-01-03 | At&T Corporation | Core estimator and adaptive gains from signal to noise ratio in a hybrid speech enhancement system |
US6088668A (en) * | 1998-06-22 | 2000-07-11 | D.S.P.C. Technologies Ltd. | Noise suppressor having weighted gain smoothing |
US7209567B1 (en) * | 1998-07-09 | 2007-04-24 | Purdue Research Foundation | Communication system with adaptive noise suppression |
US6351731B1 (en) * | 1998-08-21 | 2002-02-26 | Polycom, Inc. | Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor |
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6233549B1 (en) * | 1998-11-23 | 2001-05-15 | Qualcomm, Inc. | Low frequency spectral enhancement system and method |
US6363345B1 (en) * | 1999-02-18 | 2002-03-26 | Andrea Electronics Corporation | System, method and apparatus for cancelling noise |
US6618701B2 (en) * | 1999-04-19 | 2003-09-09 | Motorola, Inc. | Method and system for noise suppression using external voice activity detection |
JP4242516B2 (ja) * | 1999-07-26 | 2009-03-25 | パナソニック株式会社 | サブバンド符号化方式 |
FI116643B (fi) * | 1999-11-15 | 2006-01-13 | Nokia Corp | Kohinan vaimennus |
CA2290037A1 (en) * | 1999-11-18 | 2001-05-18 | Voiceage Corporation | Gain-smoothing amplifier device and method in codecs for wideband speech and audio signals |
US6366880B1 (en) * | 1999-11-30 | 2002-04-02 | Motorola, Inc. | Method and apparatus for suppressing acoustic background noise in a communication system by equaliztion of pre-and post-comb-filtered subband spectral energies |
US7058572B1 (en) * | 2000-01-28 | 2006-06-06 | Nortel Networks Limited | Reducing acoustic noise in wireless and landline based telephony |
US6704711B2 (en) * | 2000-01-28 | 2004-03-09 | Telefonaktiebolaget Lm Ericsson (Publ) | System and method for modifying speech signals |
US6898566B1 (en) * | 2000-08-16 | 2005-05-24 | Mindspeed Technologies, Inc. | Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal |
US6862567B1 (en) * | 2000-08-30 | 2005-03-01 | Mindspeed Technologies, Inc. | Noise suppression in the frequency domain by adjusting gain according to voicing parameters |
JP2002149200A (ja) * | 2000-08-31 | 2002-05-24 | Matsushita Electric Ind Co Ltd | 音声処理装置及び音声処理方法 |
US6947888B1 (en) * | 2000-10-17 | 2005-09-20 | Qualcomm Incorporated | Method and apparatus for high performance low bit-rate coding of unvoiced speech |
US6925435B1 (en) | 2000-11-27 | 2005-08-02 | Mindspeed Technologies, Inc. | Method and apparatus for improved noise reduction in a speech encoder |
JP4282227B2 (ja) * | 2000-12-28 | 2009-06-17 | 日本電気株式会社 | ノイズ除去の方法及び装置 |
US7155385B2 (en) * | 2002-05-16 | 2006-12-26 | Comerica Bank, As Administrative Agent | Automatic gain control for adjusting gain during non-speech portions |
US7492889B2 (en) * | 2004-04-23 | 2009-02-17 | Acoustic Technologies, Inc. | Noise suppression based on bark band wiener filtering and modified doblinger noise estimate |
-
2003
- 2003-12-29 CA CA002454296A patent/CA2454296A1/en not_active Abandoned
-
2004
- 2004-12-22 US US11/021,938 patent/US8577675B2/en active Active
- 2004-12-27 TW TW093140706A patent/TWI279776B/zh active
- 2004-12-27 MY MYPI20045377A patent/MY141447A/en unknown
- 2004-12-29 WO PCT/CA2004/002203 patent/WO2005064595A1/en active Application Filing
- 2004-12-29 BR BRPI0418449-1A patent/BRPI0418449A/pt not_active Application Discontinuation
- 2004-12-29 EP EP04802378A patent/EP1700294B1/en active Active
- 2004-12-29 DE DE602004022862T patent/DE602004022862D1/de active Active
- 2004-12-29 KR KR1020067015437A patent/KR100870502B1/ko active IP Right Grant
- 2004-12-29 ES ES04802378T patent/ES2329046T3/es active Active
- 2004-12-29 MX MXPA06007234A patent/MXPA06007234A/es active IP Right Grant
- 2004-12-29 PT PT04802378T patent/PT1700294E/pt unknown
- 2004-12-29 CA CA2550905A patent/CA2550905C/en active Active
- 2004-12-29 JP JP2006545874A patent/JP4440937B2/ja active Active
- 2004-12-29 CN CNB2004800417014A patent/CN100510672C/zh active Active
- 2004-12-29 AT AT04802378T patent/ATE441177T1/de not_active IP Right Cessation
- 2004-12-29 AU AU2004309431A patent/AU2004309431C1/en active Active
- 2004-12-29 RU RU2006126530/09A patent/RU2329550C2/ru active
-
2006
- 2006-07-27 ZA ZA200606215A patent/ZA200606215B/xx unknown
-
2007
- 2007-07-13 HK HK07107508.3A patent/HK1099946A1/xx unknown
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2518682C2 (ru) * | 2010-01-19 | 2014-06-10 | Долби Интернешнл Аб | Усовершенствованное гармоническое преобразование на основе блока поддиапазонов |
RU2591012C2 (ru) * | 2010-03-09 | 2016-07-10 | Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. | Устройство и способ обработки переходных процессов для аудио сигналов с изменением скорости воспроизведения или высоты тона |
RU2595636C2 (ru) * | 2010-11-24 | 2016-08-27 | Конинклейке Филипс Электроникс Н.В. | Система и способ для генерации аудиосигнала |
RU2601188C2 (ru) * | 2012-02-23 | 2016-10-27 | Долби Интернэшнл Аб | Способы и системы для эффективного восстановления высокочастотного аудиоконтента |
US9666200B2 (en) | 2012-02-23 | 2017-05-30 | Dolby International Ab | Methods and systems for efficient recovery of high frequency audio content |
US9984695B2 (en) | 2012-02-23 | 2018-05-29 | Dolby International Ab | Methods and systems for efficient recovery of high frequency audio content |
RU2666337C2 (ru) * | 2014-03-12 | 2018-09-06 | Хуавэй Текнолоджиз Ко., Лтд. | Способ обнаружения звукового сигнала и устройство |
US10304478B2 (en) | 2014-03-12 | 2019-05-28 | Huawei Technologies Co., Ltd. | Method for detecting audio signal and apparatus |
US10818313B2 (en) | 2014-03-12 | 2020-10-27 | Huawei Technologies Co., Ltd. | Method for detecting audio signal and apparatus |
US11417353B2 (en) | 2014-03-12 | 2022-08-16 | Huawei Technologies Co., Ltd. | Method for detecting audio signal and apparatus |
Also Published As
Publication number | Publication date |
---|---|
WO2005064595A1 (en) | 2005-07-14 |
CA2454296A1 (en) | 2005-06-29 |
MY141447A (en) | 2010-04-30 |
CA2550905C (en) | 2010-12-14 |
ZA200606215B (en) | 2007-11-28 |
EP1700294B1 (en) | 2009-08-26 |
EP1700294A4 (en) | 2007-02-28 |
AU2004309431C1 (en) | 2009-03-19 |
JP2007517249A (ja) | 2007-06-28 |
BRPI0418449A (pt) | 2007-05-22 |
ATE441177T1 (de) | 2009-09-15 |
CN100510672C (zh) | 2009-07-08 |
US20050143989A1 (en) | 2005-06-30 |
DE602004022862D1 (de) | 2009-10-08 |
HK1099946A1 (en) | 2007-08-31 |
ES2329046T3 (es) | 2009-11-20 |
PT1700294E (pt) | 2009-09-28 |
MXPA06007234A (es) | 2006-08-18 |
KR100870502B1 (ko) | 2008-11-25 |
AU2004309431B2 (en) | 2008-10-02 |
TW200531006A (en) | 2005-09-16 |
EP1700294A1 (en) | 2006-09-13 |
RU2006126530A (ru) | 2008-02-10 |
JP4440937B2 (ja) | 2010-03-24 |
CA2550905A1 (en) | 2005-07-14 |
US8577675B2 (en) | 2013-11-05 |
CN1918461A (zh) | 2007-02-21 |
TWI279776B (en) | 2007-04-21 |
KR20060128983A (ko) | 2006-12-14 |
AU2004309431A1 (en) | 2005-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2329550C2 (ru) | Способ и устройство для улучшения речевого сигнала в присутствии фонового шума | |
US6289309B1 (en) | Noise spectrum tracking for speech enhancement | |
US6122610A (en) | Noise suppression for low bitrate speech coder | |
JP5666444B2 (ja) | 特徴抽出を使用してスピーチ強調のためにオーディオ信号を処理する装置及び方法 | |
EP1706864B1 (en) | Computationally efficient background noise suppressor for speech coding and speech recognition | |
Verteletskaya et al. | Noise reduction based on modified spectral subtraction method | |
EP1386313B1 (en) | Speech enhancement device | |
WO2001073751A9 (en) | Speech presence measurement detection techniques | |
CN114005457A (zh) | 一种基于幅度估计与相位重构的单通道语音增强方法 | |
CN114023348B (zh) | 一种基于自适应谱底优化的多带谱减法的语音增强方法 | |
Pellom et al. | An improved (auto: I, lsp: t) constrained iterative speech enhancement for colored noise environments | |
Surendran et al. | Variance normalized perceptual subspace speech enhancement | |
Verteletskaya et al. | Enhanced spectral subtraction method for noise reduction with minimal speech distortion | |
Chouki et al. | Comparative Study on Noisy Speech Preprocessing Algorithms | |
Nelke et al. | Corpus based reconstruction of speech degraded by wind noise | |
Krishnamoorthy et al. | Processing noisy speech for enhancement | |
Ogawa | More robust J-RASTA processing using spectral subtraction and harmonic sieving | |
Ming et al. | Weak speech recovery for single-channel speech enhancement | |
Manohar | Single Channel Enhancement Of Noisy Speech | |
Ahmed et al. | Adaptive noise estimation and reduction based on two-stage wiener filtering in MCLT domain |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PC41 | Official registration of the transfer of exclusive right |
Effective date: 20160602 |