RU2454735C1 - Способ обработки речевого сигнала в частотной области - Google Patents

Способ обработки речевого сигнала в частотной области Download PDF

Info

Publication number
RU2454735C1
RU2454735C1 RU2010150284/08A RU2010150284A RU2454735C1 RU 2454735 C1 RU2454735 C1 RU 2454735C1 RU 2010150284/08 A RU2010150284/08 A RU 2010150284/08A RU 2010150284 A RU2010150284 A RU 2010150284A RU 2454735 C1 RU2454735 C1 RU 2454735C1
Authority
RU
Russia
Prior art keywords
spectrum
speech signal
frequency
logarithmic
speech
Prior art date
Application number
RU2010150284/08A
Other languages
English (en)
Inventor
Александр Сергеевич Колоколов (RU)
Александр Сергеевич Колоколов
Марианна Иосифовна Павлова (RU)
Марианна Иосифовна Павлова
Original Assignee
Учреждение Российской академии наук Институт проблем управления им. В.А. Трапезникова РАН
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Учреждение Российской академии наук Институт проблем управления им. В.А. Трапезникова РАН filed Critical Учреждение Российской академии наук Институт проблем управления им. В.А. Трапезникова РАН
Priority to RU2010150284/08A priority Critical patent/RU2454735C1/ru
Application granted granted Critical
Publication of RU2454735C1 publication Critical patent/RU2454735C1/ru

Links

Images

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Изобретение относится к области обработки сигналов и может быть использовано при выполнении предварительной обработки речевого сигнала в системах распознавания речи. Предложен способ обработки речевого сигнала, основанный на полосовой фильтрации логарифмического амплитудного спектра фильтром с нечетной импульсной характеристикой и выявлении дополнительных информативных признаков в спектре речевого сигнала. Такими признаками являются локальные положительные и отрицательные наклоны в спектре речевого сигнала, формируемые частотной характеристикой речевого тракта. Технический результат - получение устойчивого и более полного описания речевого сигнала в частотной области путем выявления в логарифмическом амплитудном спектре дополнительных локальных информативных признаков в спектре речевого сигала. 1 з.п. ф-лы, 5 ил.

Description

Изобретение относится к области обработки сигналов и может быть использовано для целей анализа и формирования первичного описания речевого сигнала в системах распознавания речи.
Частотный анализ речевого сигнала широко применяется в современных системах распознавания речи для получения первичного описания сигнала, на основе которого далее производится формирование эталонов речевых звуков, используемых при распознавании. Однако спектр речевого сигнала является зависимым от частотных искажений в канале связи, реверберации или изменения психофизиологического состояния диктора, сопровождающегося вариациями формы импульсов голосового источника. Кроме того, на спектр сигнала также может оказывать влияние присутствие фонового шума. В связи с этим для получения более устойчивого описания речевого сигнала полезной является дополнительная обработка спектра, выявляющая его локальные признаки, которые более устойчивы к перечисленным выше факторам.
Известен способ подобной обработки, основанный на полосовой фильтрации амплитудного спектра речевого сигнала, реализуемой с помощью взвешенного суммирования с разными знаками соседних спектральных отсчетов (Позин Н.В., Любинский И.А., Левашов О.В. и др. Элементы теории биологических анализаторов. М.: Наука, 1978, с.96; Колоколов А.С. Об одном методе анализа периодических сигналов, искаженных аддитивным шумом. Институт проблем управления АН СССР. Москва, 1983. 11 с. Рукопись деп. в ВИНИТИ №6252-83 Деп.). Благодаря такой обработке в амплитудном спектре подчеркиваются спектральные пики, представляющие гармонические компоненты сигнала, увеличивается частотное разрешение спектрального анализатора и повышается отношение сигнал/шум. Однако рассмотренный способ не обеспечивает устойчивости обработанного спектра к частотным искажениям речевого сигнала. Причина этого заключается в том, что факторы, влияющие на изменчивость спектра речевого сигнала, являются его мультипликативными составляющими и их действие не может быть ослаблено с помощью линейной фильтрации.
Наиболее близким техническим решением к предлагаемому является способ получения более устойчивого описания речевого сигнала в частотной области с помощью полосовой фильтрации логарифмического амплитудного спектра с использованием фильтра с четной импульсной характеристикой и последующего нелинейного преобразования,
обеспечивающих выделение в логарифмическом амплитудном спектре пиков, связанных с резонансами речевого тракта (Колоколов А.С. Обработка сигнала в частотной области при распознавании речи // Проблемы управления. 2006. №3. С.14). В результате получается преобразованный спектр
Figure 00000001
где: F(f,t)=lgS(f,t) - кратковременный логарифмический спектр речевого сигнала, φ(f) - импульсная характеристика полосового фильтра, являющаяся четной функцией, т.е. φ(f)=φ(-f), ⊗ - операция свертки, Q(x)=x при x≥0, Q(x)=0 при x<0.
В результате логарифмирования спектра
S(f,t)=H(f,t)E(f,t)W(f,t)
его мультипликативные компоненты становятся аддитивными
F(f,t)=lgH(f,t)+lgE(f,t)+lgW(f,t),
где H(f,t) - частотная характеристика речевого тракта, E(f,t) - спектр шумового или голосового источника, W(f,t) - характеристика фильтра, описывающего частотные искажения речевого сигнала. В случае голосового источника E(f,t)=I(f,t)G(f,t), где I(f,t) - спектр почти периодической последовательности δ - функций, G(f,t) - спектр импульса голосового источника. Поэтому с помощью полосовой фильтрации F(f,t) в Fl(f,t) оказывается возможным уменьшить нежелательные вариации, свойственные спектру S(f,t), обусловленные изменениями его мультипликативных компонент W(f,t) и G(f,t), обычно весьма медленно изменяющихся с частотой в сравнении с H(f,t), профиль которой обычно имеет несколько выраженных пиков, представляющих форманты речевого сигнала. Одновременно с помощью полосовой фильтрации производится сглаживание быстро изменяющейся с частотой составляющей I(f,t), описывающей гармоническую структуру речевого сигнала. Таким образом благодаря выполнению обработки (1) выявляются мало чувствительные к вариациям S(f,t) локальные признаки спектра, характеризующие формантный состав звука.
Однако рассмотренный способ не обеспечивает сохранения значительной части важной информации, содержащейся в логарифмическом спектре F(f,t), т.к. выявляет только локальные признаки в спектральной огибающей, представляющие максимумы в lgH(f,t).
Техническим результатом изобретения является выявление в логарифмическом амплитудном спектре дополнительных локальных информативных признаков, представляющих локальные наклоны lgH(f,t). Использование таких признаков в дополнение к признакам, получаемым с помощью обработки (1), позволяет получить устойчивое и более полное описание речевого сигнала в частотной области.
Технический результат достигается тем, что для фильтрации используют фильтр с нечетной импульсной характеристикой, параметры которого выбирают таким образом, чтобы в отфильтрованной спектральной огибающей в виде хорошо выраженных пиков проявлялись локальные наклоны спектра, связанные с частотной характеристикой речевого тракта, и одновременно подавлялась гармоническая структура речевого сигнала. Кроме того, производят отдельное выделение положительных и отрицательных пиков в отфильтрованной огибающей спектра.
На фиг.1 представлена блок-схема, поясняющая предлагаемый способ.
На фиг.2 - вид импульсной характеристики φ1(f) для фильтрации логарифмического спектра и ее преобразование Фурье Ф1 (t).
На фиг.3 - исходный F(i) и обработанный
Figure 00000002
спектры для фрагмента гласного «э» в слове «семь», а - исходный сигнал, б - продифференцированный сигнал.
На фиг.4 - исходный F(i) и обработанный
Figure 00000003
спектры для фрагмента гласного «э» в слове «семь», а - исходный сигнал, б - продифференцированный сигнал.
На фиг.5 - исходный F(i) и обработанный
Figure 00000004
спектры для фрагмента звонкой смычки в слоге «да», а - исходный сигнал, б - продифференцированный сигнал.
На фиг.1 представлены спектральный анализатор 1, полосовой фильтр 2, нелинейные преобразователи 3 и 4.
Поставленная цель достигается с помощью полосовой фильтрации логарифмического амплитудного спектра
Figure 00000005
фильтром с нечетной импульсной характеристикой φ1(f)=-φ1(-f). В результате преобразования (2) локальные наклоны в спектре F(f,t) представляются в зависимости от знака наклона положительными или отрицательными пиками в F2(f,t), положения которых определяют места локальных наклонов в F(f,t). Далее в отфильтрованном спектре F2(f,t) разделяют положительные и отрицательные составляющие
Figure 00000006
представляющие соответственно положительные и отрицательные локальные наклоны в логарифмическом спектре F(f,t). Таким образом, выполнение преобразований (2) и (3) можно трактовать как результат работы двух специфических детекторов неоднородностей в F(f,t), реагирующих на крутизну положительных и отрицательных наклонов логарифмической спектральной огибающей.
Ширину и форму импульсной характеристики φ1(f) полосового фильтра следует выбирать так, чтобы в отфильтрованном логарифмическом спектре F2(f,t) в виде выраженных пиков были представлены резкие локальные наклоны частотной характеристики речевого тракта H(f,t), но при этом подавлялась быстро изменяющаяся с частотой составляющая I(f,t), описывающая гармоническую структуру голосового источника. Последнее условие может быть необязательным в случае использования спектрального анализатора с низким частотным разрешением, не обеспечивающим выделения гармонической структуры речевого сигнала.
Важной особенностью преобразования (2) является его нечувствительность к амплитуде речевого сигнала. Это следует из того, что умножение сигнала на константу проявляется в виде постоянной аддитивной составляющей в F(f,t), которая исключается в результате полосовой фильтрации. Поэтому отпадает необходимость в нормализации обработанных спектров F2(f,t),
Figure 00000007
и
Figure 00000008
по амплитуде.
Кроме того, благодаря полосовой фильтрации F(f,t) при преобразованиях (2) и (3), как и в случае преобразования (1), следует ожидать эффекта малой изменчивости обработанного спектра F2(f,t) при наличии частотных искажений, создаваемых фильтром с частотной характеристикой W(f,t), медленно изменяющейся с частотой, и фоновых широкополосных шумов со спектральной плотностью, медленно изменяющейся с частотой.
Приведенные на фигурах логарифмические спектры речевых образцов были получены с помощью частотного анализатора, в общих чертах моделирующего особенности частотного анализа звука в слуховой системе. Для этих целей использовалась гребенка из N=35 цифровых полосовых фильтров, центральные частоты которых располагались равномерно по шкале Барков с шагом 0,57 Барк, начиная с 1,95 Барк (200 Гц). Частотные характеристики фильтров слухового частотного анализатора аппроксимировались полосовыми фильтрами Баттерворта четвертого порядка с наклонами частотной характеристики 12 дБ/окт и шириной полосы пропускания 1,5 Барка. Для фильтрации полученных логарифмических спектров F(i), i - номер фильтра, использовалась симметричная нечетная весовая функция φ(n)=-δk(n-2)+δk(n+2), где δk(n) - функция Кронекера, n=…-2,-1,0,1,2,…. Поэтому вычисление свертки сводилось к суммированию взвешенных спектральных отсчетов. Полученные отфильтрованные спектры
Figure 00000009
и
Figure 00000010
сглаживались низкочастотным фильтром с импульсной характеристикой φ0(n)=0,25δk(n-1)+0,5δk(n)+0,25δk(n+1). Частотные искажения вводились дифференцированием сигнала с помощью нахождения первой разности дискретной речевой волны.
Из чертежей легко видеть, что частотные искажения, обусловленные дифференцированием речевого сигнала, приводят к существенным различиям спектров F(i), достигающих 20 дБ, для гласного и звонкой смычки. Однако эти различия существенно меньше у обработанных спектров
Figure 00000011
и
Figure 00000010
, полученных в результате предложенной обработки спектра, и не превышают величины 4-5 дБ. Из чертежей также видно, что выраженные пики в обработанных спектрах представляют положения резких локальных наклонов спектра.
Таким образом, основываясь на приведенных выше данных, можно заключить, что предложенный способ обработки спектра может быть использован совместно с известным способом (1) для получения устойчивого описания речевого сигнала в частотной области в присутствии частотных искажений.

Claims (2)

1. Способ обработки речевого сигнала, основанный на получении его логарифмического амплитудного спектра и последующей полосовой фильтрации полученного спектра фильтром с нечетной импульсной характеристикой, ширину и форму которой выбирают так, чтобы в отфильтрованном логарифмическом спектре в виде выраженных пиков были представлены локальные наклоны частотной характеристики речевого тракта, но при этом подавлялась составляющая спектра, представляющая гармоническую структуру голосового источника.
2. Способ по п.1, характеризующийся тем, что в отфильтрованном спектре производят разделение положительных и отрицательных составляющих, представляющих соответственно положительные и отрицательные локальные наклоны в логарифмическом спектре.
RU2010150284/08A 2010-12-09 2010-12-09 Способ обработки речевого сигнала в частотной области RU2454735C1 (ru)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2010150284/08A RU2454735C1 (ru) 2010-12-09 2010-12-09 Способ обработки речевого сигнала в частотной области

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2010150284/08A RU2454735C1 (ru) 2010-12-09 2010-12-09 Способ обработки речевого сигнала в частотной области

Publications (1)

Publication Number Publication Date
RU2454735C1 true RU2454735C1 (ru) 2012-06-27

Family

ID=46682004

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2010150284/08A RU2454735C1 (ru) 2010-12-09 2010-12-09 Способ обработки речевого сигнала в частотной области

Country Status (1)

Country Link
RU (1) RU2454735C1 (ru)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2559710C2 (ru) * 2013-02-04 2015-08-10 Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В.А. Трапезникова Российской академии наук Способ обработки функции автокорреляции для измерения основного тона речевого сигнала

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU68680U1 (ru) * 2007-08-15 2007-11-27 Юрий Анатольевич Кропотов Устройство измерения характеристик акустических сигналов
RU2403626C2 (ru) * 2005-06-09 2010-11-10 А.Г.И. Инк. Анализатор речи, обнаруживающий частоту основного тона, способ анализа речи и программа анализа речи

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2403626C2 (ru) * 2005-06-09 2010-11-10 А.Г.И. Инк. Анализатор речи, обнаруживающий частоту основного тона, способ анализа речи и программа анализа речи
RU68680U1 (ru) * 2007-08-15 2007-11-27 Юрий Анатольевич Кропотов Устройство измерения характеристик акустических сигналов

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
КОЛОКОЛОВ А.С. Обработка сигнала в частотной области при распознавании речи. - Проблемы управления, 2006, №3, с.13-18. *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2559710C2 (ru) * 2013-02-04 2015-08-10 Федеральное государственное бюджетное учреждение науки Институт проблем управления им. В.А. Трапезникова Российской академии наук Способ обработки функции автокорреляции для измерения основного тона речевого сигнала

Similar Documents

Publication Publication Date Title
US10134409B2 (en) Segmenting audio signals into auditory events
Seneff Real-time harmonic pitch detector
JP4177755B2 (ja) 発話特徴抽出システム
US20110188671A1 (en) Adaptive gain control based on signal-to-noise ratio for noise suppression
US20100250242A1 (en) Method and apparatus for processing audio and speech signals
US9454976B2 (en) Efficient discrimination of voiced and unvoiced sounds
EP0553906B1 (en) Method and apparatus for sound enhancement with envelopes of multiband passed signals feeding comb filters
CN110503967B (zh) 一种语音增强方法、装置、介质和设备
RU2454735C1 (ru) Способ обработки речевого сигнала в частотной области
Christiansen et al. Contribution of envelope periodicity to release from speech-on-speech masking
EP1062658B1 (en) A signal processing method to analyse transients of speech signals
Bogdanova et al. Objective quality evaluation of speech band-limited signals
CN114724573A (zh) 一种啸叫抑制方法、装置、计算机可读存储介质以及系统
Jørgensen Modeling speech intelligibility based on the signal-to-noise envelope power ratio
Mehta et al. Robust front-end and back-end processing for feature extraction for Hindi speech recognition
Zhigalov Applying a proven filtering method to adjust the training sample of neural networks
Vimal Study on the Behaviour of Mel Frequency Cepstral Coffecient Algorithm for Different Windows
Jiang et al. Speech noise reduction algorithm in digital hearing aids based on an improved sub-band SNR estimation
Välimäki et al. Decomposition and Modification of Musical Instrument Sounds Using a Fractional Delay Allpass Filter,''
RU2580796C1 (ru) Способ (варианты) фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки
Yuan et al. A study on echo feature extraction based on the modified relative spectra (rasta) and perception linear prediction (plp) auditory model
KR100201414B1 (ko) 오디오 디코더의 스펙트럼 추출 장치
CN113238206B (zh) 一种基于判决统计量设计的信号检测方法及系统
CN109346106B (zh) 一种基于子带信噪比加权的倒谱域基音周期估计方法
Wu et al. Robust underwater target recognition using auditory cepstral coefficients

Legal Events

Date Code Title Description
MM4A The patent is invalid due to non-payment of fees

Effective date: 20181210