RU2454735C1 - Способ обработки речевого сигнала в частотной области - Google Patents
Способ обработки речевого сигнала в частотной области Download PDFInfo
- Publication number
- RU2454735C1 RU2454735C1 RU2010150284/08A RU2010150284A RU2454735C1 RU 2454735 C1 RU2454735 C1 RU 2454735C1 RU 2010150284/08 A RU2010150284/08 A RU 2010150284/08A RU 2010150284 A RU2010150284 A RU 2010150284A RU 2454735 C1 RU2454735 C1 RU 2454735C1
- Authority
- RU
- Russia
- Prior art keywords
- spectrum
- speech signal
- frequency
- logarithmic
- speech
- Prior art date
Links
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Изобретение относится к области обработки сигналов и может быть использовано при выполнении предварительной обработки речевого сигнала в системах распознавания речи. Предложен способ обработки речевого сигнала, основанный на полосовой фильтрации логарифмического амплитудного спектра фильтром с нечетной импульсной характеристикой и выявлении дополнительных информативных признаков в спектре речевого сигнала. Такими признаками являются локальные положительные и отрицательные наклоны в спектре речевого сигнала, формируемые частотной характеристикой речевого тракта. Технический результат - получение устойчивого и более полного описания речевого сигнала в частотной области путем выявления в логарифмическом амплитудном спектре дополнительных локальных информативных признаков в спектре речевого сигала. 1 з.п. ф-лы, 5 ил.
Description
Изобретение относится к области обработки сигналов и может быть использовано для целей анализа и формирования первичного описания речевого сигнала в системах распознавания речи.
Частотный анализ речевого сигнала широко применяется в современных системах распознавания речи для получения первичного описания сигнала, на основе которого далее производится формирование эталонов речевых звуков, используемых при распознавании. Однако спектр речевого сигнала является зависимым от частотных искажений в канале связи, реверберации или изменения психофизиологического состояния диктора, сопровождающегося вариациями формы импульсов голосового источника. Кроме того, на спектр сигнала также может оказывать влияние присутствие фонового шума. В связи с этим для получения более устойчивого описания речевого сигнала полезной является дополнительная обработка спектра, выявляющая его локальные признаки, которые более устойчивы к перечисленным выше факторам.
Известен способ подобной обработки, основанный на полосовой фильтрации амплитудного спектра речевого сигнала, реализуемой с помощью взвешенного суммирования с разными знаками соседних спектральных отсчетов (Позин Н.В., Любинский И.А., Левашов О.В. и др. Элементы теории биологических анализаторов. М.: Наука, 1978, с.96; Колоколов А.С. Об одном методе анализа периодических сигналов, искаженных аддитивным шумом. Институт проблем управления АН СССР. Москва, 1983. 11 с. Рукопись деп. в ВИНИТИ №6252-83 Деп.). Благодаря такой обработке в амплитудном спектре подчеркиваются спектральные пики, представляющие гармонические компоненты сигнала, увеличивается частотное разрешение спектрального анализатора и повышается отношение сигнал/шум. Однако рассмотренный способ не обеспечивает устойчивости обработанного спектра к частотным искажениям речевого сигнала. Причина этого заключается в том, что факторы, влияющие на изменчивость спектра речевого сигнала, являются его мультипликативными составляющими и их действие не может быть ослаблено с помощью линейной фильтрации.
Наиболее близким техническим решением к предлагаемому является способ получения более устойчивого описания речевого сигнала в частотной области с помощью полосовой фильтрации логарифмического амплитудного спектра с использованием фильтра с четной импульсной характеристикой и последующего нелинейного преобразования,
обеспечивающих выделение в логарифмическом амплитудном спектре пиков, связанных с резонансами речевого тракта (Колоколов А.С. Обработка сигнала в частотной области при распознавании речи // Проблемы управления. 2006. №3. С.14). В результате получается преобразованный спектр
где: F(f,t)=lgS(f,t) - кратковременный логарифмический спектр речевого сигнала, φ(f) - импульсная характеристика полосового фильтра, являющаяся четной функцией, т.е. φ(f)=φ(-f), ⊗ - операция свертки, Q(x)=x при x≥0, Q(x)=0 при x<0.
В результате логарифмирования спектра
S(f,t)=H(f,t)E(f,t)W(f,t)
его мультипликативные компоненты становятся аддитивными
F(f,t)=lgH(f,t)+lgE(f,t)+lgW(f,t),
где H(f,t) - частотная характеристика речевого тракта, E(f,t) - спектр шумового или голосового источника, W(f,t) - характеристика фильтра, описывающего частотные искажения речевого сигнала. В случае голосового источника E(f,t)=I(f,t)G(f,t), где I(f,t) - спектр почти периодической последовательности δ - функций, G(f,t) - спектр импульса голосового источника. Поэтому с помощью полосовой фильтрации F(f,t) в Fl(f,t) оказывается возможным уменьшить нежелательные вариации, свойственные спектру S(f,t), обусловленные изменениями его мультипликативных компонент W(f,t) и G(f,t), обычно весьма медленно изменяющихся с частотой в сравнении с H(f,t), профиль которой обычно имеет несколько выраженных пиков, представляющих форманты речевого сигнала. Одновременно с помощью полосовой фильтрации производится сглаживание быстро изменяющейся с частотой составляющей I(f,t), описывающей гармоническую структуру речевого сигнала. Таким образом благодаря выполнению обработки (1) выявляются мало чувствительные к вариациям S(f,t) локальные признаки спектра, характеризующие формантный состав звука.
Однако рассмотренный способ не обеспечивает сохранения значительной части важной информации, содержащейся в логарифмическом спектре F(f,t), т.к. выявляет только локальные признаки в спектральной огибающей, представляющие максимумы в lgH(f,t).
Техническим результатом изобретения является выявление в логарифмическом амплитудном спектре дополнительных локальных информативных признаков, представляющих локальные наклоны lgH(f,t). Использование таких признаков в дополнение к признакам, получаемым с помощью обработки (1), позволяет получить устойчивое и более полное описание речевого сигнала в частотной области.
Технический результат достигается тем, что для фильтрации используют фильтр с нечетной импульсной характеристикой, параметры которого выбирают таким образом, чтобы в отфильтрованной спектральной огибающей в виде хорошо выраженных пиков проявлялись локальные наклоны спектра, связанные с частотной характеристикой речевого тракта, и одновременно подавлялась гармоническая структура речевого сигнала. Кроме того, производят отдельное выделение положительных и отрицательных пиков в отфильтрованной огибающей спектра.
На фиг.1 представлена блок-схема, поясняющая предлагаемый способ.
На фиг.2 - вид импульсной характеристики φ1(f) для фильтрации логарифмического спектра и ее преобразование Фурье Ф1 (t).
На фиг.3 - исходный F(i) и обработанный спектры для фрагмента гласного «э» в слове «семь», а - исходный сигнал, б - продифференцированный сигнал.
На фиг.4 - исходный F(i) и обработанный спектры для фрагмента гласного «э» в слове «семь», а - исходный сигнал, б - продифференцированный сигнал.
На фиг.5 - исходный F(i) и обработанный спектры для фрагмента звонкой смычки в слоге «да», а - исходный сигнал, б - продифференцированный сигнал.
На фиг.1 представлены спектральный анализатор 1, полосовой фильтр 2, нелинейные преобразователи 3 и 4.
Поставленная цель достигается с помощью полосовой фильтрации логарифмического амплитудного спектра
фильтром с нечетной импульсной характеристикой φ1(f)=-φ1(-f). В результате преобразования (2) локальные наклоны в спектре F(f,t) представляются в зависимости от знака наклона положительными или отрицательными пиками в F2(f,t), положения которых определяют места локальных наклонов в F(f,t). Далее в отфильтрованном спектре F2(f,t) разделяют положительные и отрицательные составляющие
представляющие соответственно положительные и отрицательные локальные наклоны в логарифмическом спектре F(f,t). Таким образом, выполнение преобразований (2) и (3) можно трактовать как результат работы двух специфических детекторов неоднородностей в F(f,t), реагирующих на крутизну положительных и отрицательных наклонов логарифмической спектральной огибающей.
Ширину и форму импульсной характеристики φ1(f) полосового фильтра следует выбирать так, чтобы в отфильтрованном логарифмическом спектре F2(f,t) в виде выраженных пиков были представлены резкие локальные наклоны частотной характеристики речевого тракта H(f,t), но при этом подавлялась быстро изменяющаяся с частотой составляющая I(f,t), описывающая гармоническую структуру голосового источника. Последнее условие может быть необязательным в случае использования спектрального анализатора с низким частотным разрешением, не обеспечивающим выделения гармонической структуры речевого сигнала.
Важной особенностью преобразования (2) является его нечувствительность к амплитуде речевого сигнала. Это следует из того, что умножение сигнала на константу проявляется в виде постоянной аддитивной составляющей в F(f,t), которая исключается в результате полосовой фильтрации. Поэтому отпадает необходимость в нормализации обработанных спектров F2(f,t), и по амплитуде.
Кроме того, благодаря полосовой фильтрации F(f,t) при преобразованиях (2) и (3), как и в случае преобразования (1), следует ожидать эффекта малой изменчивости обработанного спектра F2(f,t) при наличии частотных искажений, создаваемых фильтром с частотной характеристикой W(f,t), медленно изменяющейся с частотой, и фоновых широкополосных шумов со спектральной плотностью, медленно изменяющейся с частотой.
Приведенные на фигурах логарифмические спектры речевых образцов были получены с помощью частотного анализатора, в общих чертах моделирующего особенности частотного анализа звука в слуховой системе. Для этих целей использовалась гребенка из N=35 цифровых полосовых фильтров, центральные частоты которых располагались равномерно по шкале Барков с шагом 0,57 Барк, начиная с 1,95 Барк (200 Гц). Частотные характеристики фильтров слухового частотного анализатора аппроксимировались полосовыми фильтрами Баттерворта четвертого порядка с наклонами частотной характеристики 12 дБ/окт и шириной полосы пропускания 1,5 Барка. Для фильтрации полученных логарифмических спектров F(i), i - номер фильтра, использовалась симметричная нечетная весовая функция φ(n)=-δk(n-2)+δk(n+2), где δk(n) - функция Кронекера, n=…-2,-1,0,1,2,…. Поэтому вычисление свертки сводилось к суммированию взвешенных спектральных отсчетов. Полученные отфильтрованные спектры и сглаживались низкочастотным фильтром с импульсной характеристикой φ0(n)=0,25δk(n-1)+0,5δk(n)+0,25δk(n+1). Частотные искажения вводились дифференцированием сигнала с помощью нахождения первой разности дискретной речевой волны.
Из чертежей легко видеть, что частотные искажения, обусловленные дифференцированием речевого сигнала, приводят к существенным различиям спектров F(i), достигающих 20 дБ, для гласного и звонкой смычки. Однако эти различия существенно меньше у обработанных спектров и , полученных в результате предложенной обработки спектра, и не превышают величины 4-5 дБ. Из чертежей также видно, что выраженные пики в обработанных спектрах представляют положения резких локальных наклонов спектра.
Таким образом, основываясь на приведенных выше данных, можно заключить, что предложенный способ обработки спектра может быть использован совместно с известным способом (1) для получения устойчивого описания речевого сигнала в частотной области в присутствии частотных искажений.
Claims (2)
1. Способ обработки речевого сигнала, основанный на получении его логарифмического амплитудного спектра и последующей полосовой фильтрации полученного спектра фильтром с нечетной импульсной характеристикой, ширину и форму которой выбирают так, чтобы в отфильтрованном логарифмическом спектре в виде выраженных пиков были представлены локальные наклоны частотной характеристики речевого тракта, но при этом подавлялась составляющая спектра, представляющая гармоническую структуру голосового источника.
2. Способ по п.1, характеризующийся тем, что в отфильтрованном спектре производят разделение положительных и отрицательных составляющих, представляющих соответственно положительные и отрицательные локальные наклоны в логарифмическом спектре.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2010150284/08A RU2454735C1 (ru) | 2010-12-09 | 2010-12-09 | Способ обработки речевого сигнала в частотной области |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2010150284/08A RU2454735C1 (ru) | 2010-12-09 | 2010-12-09 | Способ обработки речевого сигнала в частотной области |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2454735C1 true RU2454735C1 (ru) | 2012-06-27 |
Family
ID=46682004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2010150284/08A RU2454735C1 (ru) | 2010-12-09 | 2010-12-09 | Способ обработки речевого сигнала в частотной области |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2454735C1 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2559710C2 (ru) * | 2013-02-04 | 2015-08-10 | Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В.А. Трапезникова Российской академии наук | Способ обработки функции автокорреляции для измерения основного тона речевого сигнала |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU68680U1 (ru) * | 2007-08-15 | 2007-11-27 | Юрий Анатольевич Кропотов | Устройство измерения характеристик акустических сигналов |
RU2403626C2 (ru) * | 2005-06-09 | 2010-11-10 | А.Г.И. Инк. | Анализатор речи, обнаруживающий частоту основного тона, способ анализа речи и программа анализа речи |
-
2010
- 2010-12-09 RU RU2010150284/08A patent/RU2454735C1/ru not_active IP Right Cessation
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2403626C2 (ru) * | 2005-06-09 | 2010-11-10 | А.Г.И. Инк. | Анализатор речи, обнаруживающий частоту основного тона, способ анализа речи и программа анализа речи |
RU68680U1 (ru) * | 2007-08-15 | 2007-11-27 | Юрий Анатольевич Кропотов | Устройство измерения характеристик акустических сигналов |
Non-Patent Citations (1)
Title |
---|
КОЛОКОЛОВ А.С. Обработка сигнала в частотной области при распознавании речи. - Проблемы управления, 2006, №3, с.13-18. * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2559710C2 (ru) * | 2013-02-04 | 2015-08-10 | Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В.А. Трапезникова Российской академии наук | Способ обработки функции автокорреляции для измерения основного тона речевого сигнала |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10134409B2 (en) | Segmenting audio signals into auditory events | |
Seneff | Real-time harmonic pitch detector | |
JP4177755B2 (ja) | 発話特徴抽出システム | |
US20110188671A1 (en) | Adaptive gain control based on signal-to-noise ratio for noise suppression | |
US20100250242A1 (en) | Method and apparatus for processing audio and speech signals | |
US9454976B2 (en) | Efficient discrimination of voiced and unvoiced sounds | |
EP0553906B1 (en) | Method and apparatus for sound enhancement with envelopes of multiband passed signals feeding comb filters | |
CN110503967B (zh) | 一种语音增强方法、装置、介质和设备 | |
RU2454735C1 (ru) | Способ обработки речевого сигнала в частотной области | |
Christiansen et al. | Contribution of envelope periodicity to release from speech-on-speech masking | |
EP1062658B1 (en) | A signal processing method to analyse transients of speech signals | |
Bogdanova et al. | Objective quality evaluation of speech band-limited signals | |
CN114724573A (zh) | 一种啸叫抑制方法、装置、计算机可读存储介质以及系统 | |
Jørgensen | Modeling speech intelligibility based on the signal-to-noise envelope power ratio | |
Mehta et al. | Robust front-end and back-end processing for feature extraction for Hindi speech recognition | |
Zhigalov | Applying a proven filtering method to adjust the training sample of neural networks | |
Vimal | Study on the Behaviour of Mel Frequency Cepstral Coffecient Algorithm for Different Windows | |
Jiang et al. | Speech noise reduction algorithm in digital hearing aids based on an improved sub-band SNR estimation | |
Välimäki et al. | Decomposition and Modification of Musical Instrument Sounds Using a Fractional Delay Allpass Filter,'' | |
RU2580796C1 (ru) | Способ (варианты) фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки | |
Yuan et al. | A study on echo feature extraction based on the modified relative spectra (rasta) and perception linear prediction (plp) auditory model | |
KR100201414B1 (ko) | 오디오 디코더의 스펙트럼 추출 장치 | |
CN113238206B (zh) | 一种基于判决统计量设计的信号检测方法及系统 | |
CN109346106B (zh) | 一种基于子带信噪比加权的倒谱域基音周期估计方法 | |
Wu et al. | Robust underwater target recognition using auditory cepstral coefficients |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
MM4A | The patent is invalid due to non-payment of fees |
Effective date: 20181210 |