RU78470U1 - SYSTEM FOR DETERMINING THE PARAMETERS OF LINEAR SPECTRA OF VOCALIZED SOUNDS - Google Patents
SYSTEM FOR DETERMINING THE PARAMETERS OF LINEAR SPECTRA OF VOCALIZED SOUNDS Download PDFInfo
- Publication number
- RU78470U1 RU78470U1 RU2008123187/22U RU2008123187U RU78470U1 RU 78470 U1 RU78470 U1 RU 78470U1 RU 2008123187/22 U RU2008123187/22 U RU 2008123187/22U RU 2008123187 U RU2008123187 U RU 2008123187U RU 78470 U1 RU78470 U1 RU 78470U1
- Authority
- RU
- Russia
- Prior art keywords
- unit
- output
- input
- fourier transform
- sequence
- Prior art date
Links
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Полезная модель относится к техническим решениям, используемым для выделения спектральных характеристик звуков речи, в частности для обнаружения речи на фоне стохастических шумов, распознавания речи, а также идентификации дикторов и языков речевых сообщений. Система определения параметров линейчатых спектров вокализованных звуков, содержит последовательно соединенные цифровое записывающее устройство, блок дискретизации, блок дискретного преобразования Фурье, блок нормирования спектра Фурье, формирователь результирующей матрицы сверток, сумматор, регистратор максимальных значений, формирователь вектора признаков, блок линий задержки, блок формирования мер веса последовательности информативных признаков, блок перебора последовательности компонент информативных признаков и выделения спектров, обладающих линейчатостью и гладкостью динамики частоты основного тона, компаратор, селектор компонентов преобразования Фурье и блок регистрации информативных признаков, а также блок питания, подключенный к питающим входам составных блоков системы, блок памяти, вход которого подключен к выходу блока дискретного преобразования Фурье, а выход соединен с параметрическим входом селектора компонентов преобразования Фурье, генератор базисных сигналов, выход которого подключен к управляющему входу формирователя матрицы сверток, формирователь параметров разбиения диапазона частот основного тона голоса, выход которого соединен с входом задания диапазонов частот регистратора максимальных значений, формирователь мер схожести, выход которого соединен с одним из задающих входов блока формирования мер веса последовательности информативных признаков, и формирователь порогового уровня, выход которого подключен к задающему входу компаратора. The utility model relates to technical solutions used to highlight the spectral characteristics of speech sounds, in particular for detecting speech against the background of stochastic noise, speech recognition, as well as identification of speakers and languages of speech messages. The system for determining the parameters of the linear spectra of voiced sounds contains a digital recorder, a discretization unit, a discrete Fourier transform unit, a Fourier spectrum normalization unit, a resultant convolution matrix generator, an adder, a maximum value recorder, a feature vector generator, a delay line unit, a measure generation unit the weight of the sequence of informative features, the enumeration unit of the sequence of components of informative features and allocation spectra with linearity and smoothness of the dynamics of the fundamental tone frequency, a comparator, a Fourier transform component selector and an informative feature registration unit, as well as a power supply connected to the supply inputs of the component blocks of the system, a memory unit whose input is connected to the output of the discrete Fourier transform unit, and the output is connected to the parametric input of the selector of the Fourier transform components, a basis signal generator, the output of which is connected to the control input of the convolution matrix generator, the formatter of parameters for splitting the frequency range of the fundamental tone of the voice, the output of which is connected to the input of the frequency ranges of the registrar of maximum values, the generator of similarity measures, the output of which is connected to one of the input inputs of the unit for forming measures of weight of a sequence of informative signs, and the threshold level generator, the output of which is connected the input of the comparator.
Полезная модель позволяет повысить точность определения параметров линейчатых спектров вокализованных звуков. 1 н.п ф-лы., 4 ил.The utility model allows to increase the accuracy of determining the parameters of the line spectra of voiced sounds. 1 N.p. f-ly., 4 ill.
Description
Полезная модель относится к техническим решениям, используемым для выделения спектральных характеристик звуков речи, в частности, для обнаружения речи на фоне стохастических шумов, распознавания речи, а также идентификации дикторов и языков речевых сообщений.The utility model relates to technical solutions used to highlight the spectral characteristics of speech sounds, in particular, for detecting speech against the background of stochastic noise, speech recognition, as well as the identification of speakers and languages of speech messages.
Известна система для выделения частоты основного тона с преобразованием речевых колебаний в импульсную последовательность, содержащая два селектора, ключ, формирователь сигнала равенства чисел, ключ и аналоговый сумматор (RU 2007763 С1, 15.02.1994). В данной системе принимают, что каждый импульс соответствует переходу через ноль речевого колебания (берется однополярный переход), а также используют свойство повторения межимпульсных интервалов на периоде основного тона последовательности.A known system for isolating the frequency of the fundamental tone with the conversion of speech oscillations into a pulse sequence containing two selectors, a key, a shaper of the signal of equality of numbers, a key and an analog adder (RU 2007763 C1, 02.15.1994). In this system, it is assumed that each pulse corresponds to a transition through zero of a speech vibration (a unipolar transition is taken), and they also use the property of repetition of interpulse intervals on the period of the fundamental tone of the sequence.
Недостатком известной системы является пропуск интервалов, обладающих основным тоном, при смене одной фонемы другой. Это происходит благодаря тому, что при смене одной звучащей фонемы другой между двумя соседними периодами основного тона изменения межимпульсных интервалов становятся значительными.A disadvantage of the known system is the omission of intervals with a fundamental tone when changing one phoneme to another. This is due to the fact that when changing one sounding phoneme to another between two adjacent periods of the fundamental tone, the changes in the pulse intervals become significant.
Также известна система для выделения частоты основного тона с помощью узкополосного фильтра (Вокодерная телефония. Под ред. А.А.Пирогова. М.; Связь, 1974). Указанным фильтром осуществляют слежение за изменением частоты первой гармоники речевого сигнала. При этом ширину полосы итерационно подстраивают под среднюю частоту Also known is a system for isolating the frequency of the fundamental tone using a narrow-band filter (Vocoder telephony. Edited by A.A. Pirogov. M .; Communication, 1974). The specified filter monitor the change in the frequency of the first harmonic of the speech signal. In this case, the bandwidth is iteratively adjusted to the middle frequency
основного тона, рассчитываемую на основании выходной функции этого фильтра и передаваемую на фильтр благодаря органу обратной связи. Это предопределяет высокое качество выделения частоты основного тона при условии, что фильтр подстраивается под диктора в течение нескольких минут.pitch, calculated on the basis of the output function of this filter and transmitted to the filter by the feedback organ. This determines the high quality of the allocation of the frequency of the fundamental tone, provided that the filter adjusts to the speaker for several minutes.
Недостатком известной системы является непригодность для выявления частоты основного тона в коротких сообщениях, длительность которых составляет несколько секунд.A disadvantage of the known system is unsuitability for detecting the frequency of the fundamental tone in short messages, the duration of which is several seconds.
Известна система для выделения основного тона с предварительной записью речевого сигнала и его последующей обработкой, содержащая три канала обработки речевого сигнала. В первом канале проводят амплитудную селекцию по схеме Голда, во втором канале используют аппроксимацию первой гармоники основного тона экспоненциальной функцией, а в третьем канале проводят вычисление корреляционной функции по схеме Медана. В том случае, если разность между полученными значениями оценок частоты основного тона для различных каналов не превышает заданную величину, считают, что частота основного тона найдена (М.Е.Hernandez-Diaz Huici and J.V.Lorenzo Ginori Combined algorithm for pitch detection of speech signals // Electronics Letters 5-th January 1995 Vol.31, No.l, pp.15-16).A known system for highlighting the main tone with a preliminary recording of the speech signal and its subsequent processing, containing three channels for processing the speech signal. In the first channel, amplitude selection is performed according to the Gold scheme, in the second channel, the approximation of the first harmonic of the fundamental tone is used by an exponential function, and in the third channel, the correlation function is calculated according to the Medan scheme. If the difference between the obtained values of the estimates of the frequency of the fundamental tone for different channels does not exceed the specified value, consider that the frequency of the fundamental tone is found (M.E. Hernandez-Diaz Huici and JV Lorenzo Ginori Combined algorithm for pitch detection of speech signals / / Electronics Letters 5th January 1995 Vol. 31, No. l, pp. 15-16).
Недостатком известной системы является низкая точность, обусловленная сильной зависимостью от точности реализации каждого из определяющих способ алгоритмов.A disadvantage of the known system is the low accuracy due to the strong dependence on the accuracy of the implementation of each of the algorithms determining the method.
Также известны различные системы, позволяющие в условиях присутствия шумовой составляющей в акустическом сигнале выделять речевую составляющую сигнала (RU 231830 С2, 27.06.2004; RU 296376 С2, 27.03.2007; RU 2271578 С2, 10.03.2006; RU 2263358 С2, 27.10.2005; RU 2103753 C1, 27.01.1998; RU 2161826 С2, 10.01.2001 и др.).Various systems are also known that make it possible to isolate the speech component of a signal in the presence of a noise component in an acoustic signal (RU 231830 C2, 06.27.2004; RU 296376 C2, 03.27.2007; RU 2271578 C2, 03/10/2006; RU 2263358 C2, 10.27.2005 ; RU 2103753 C1, 01/27/1998; RU 2161826 C2, 01/10/2001, etc.).
Недостатком известных технических решений является то, что они не позволяют проводить обнаружение речи на фоне стационарных и A disadvantage of the known technical solutions is that they do not allow speech detection against stationary and
нестационарных шумов, обладающих сплошным спектром, без априорных знаний о статистических свойствах шума.non-stationary noise with a continuous spectrum, without a priori knowledge of the statistical properties of noise.
Известна система для выделения признаков речевого сигнала MFCC (Mel Frequency Cepstral Coefficients), в которой реализуется разбиение сигнала на окна. С помощью блоков преобразования и вычисления над фрагментами сигнала в каждом окне выполняют преобразования Фурье, вычисляют спектр Фурье и параметры амплитудно-частотных характеристик множества интегрирующих фильтров, полосы пропускания которых изменяются в соответствии с известной из психоакустики мел-шкалой. Посредством интеграторов спектр Фурье интегрируют в соответствии с найденными параметрами интегрирующих фильтров. Дополнительными вычислительными блоками осуществляют логарифмирование результатов интегрирования и выполнение косинус - преобразования над результатами логарифмирования (Fang Zheng, Guoliang Zhang and Zhanjiang Song, Comparison of Different Implementations of MFCC, J. Computer Science & Technology, 16(6): p.p.582-589, Sept. 2001).A known system for highlighting the characteristics of the speech signal MFCC (Mel Frequency Cepstral Coefficients), which implements the splitting of the signal into windows. Using the conversion and calculation blocks, the Fourier transforms are performed on the signal fragments in each window, the Fourier spectrum and the amplitude-frequency characteristics of the set of integrating filters are calculated, the passband of which varies in accordance with the chalk scale known from psychoacoustics. Through integrators, the Fourier spectrum is integrated in accordance with the found parameters of the integrating filters. Additional computing units carry out the logarithm of the integration results and perform cosine transforms on the results of the logarithm (Fang Zheng, Guoliang Zhang and Zhanjiang Song, Comparison of Different Implementations of MFCC, J. Computer Science & Technology, 16 (6): pp582-589, Sept . 2001).
Недостатком известной системы является неустойчивость к изменению статистических свойств шума, на фоне которого проводится распознавание речи или идентификация диктора.A disadvantage of the known system is the instability to change the statistical properties of noise, against the background of which speech recognition or speaker identification is carried out.
Известны также различные приложения вейвлет-анализа в задачах приближения функций, сигналов и изображений вследствие обеспечения возможности эффективного сжатия сигналов и их восстановления с малыми потерями информации, а также решения задач фильтрации сигналов (Д.С.Потехин, И.Е.Тарасов. Разработка систем цифровой обработки сигналов на базе ПЛИС, М., 2007, p.p.85-94). Однако, область их распространения не охватывает выделение частоты основного тона вокализованных звуков.There are also various applications of wavelet analysis in approximating functions, signals and images due to the possibility of efficient compression of signals and their recovery with low loss of information, as well as solving filtering problems of signals (D.S.Potehin, I.E. Tarasov. System Design digital signal processing based on FPGAs, M., 2007, pp85-94). However, their distribution area does not cover the allocation of the fundamental frequency of voiced sounds.
Наиболее близкими к заявленной системе является система для выделения частоты основного тона из речевого сигнала, представленная в RU 2184399 С1, 27.06.2002, в состав которой входят последовательно соединенные блок вычисления спектра Фурье, интегратор, вычислитель Closest to the claimed system is a system for extracting the frequency of the fundamental tone from a speech signal, presented in RU 2184399 C1, 06/27/2002, which includes series-connected Fourier spectrum calculator, integrator, calculator
значений определителя автокорреляционной матрицы, блок проверки синхронности и блок аппроксимации подпоследовательностей квадратичной функцией, а также выделитель основного тона по схеме Голда и блок выделения основного тона с полосовым фильтром, включенные между выходом указанного вычислителя и соответствующими входами блока проверки синхронности.values of the determinant of the autocorrelation matrix, the synchronization check unit and the subsequence approximation unit by a quadratic function, as well as the pitch selector according to the Gold scheme and the pitch picker with a bandpass filter, included between the output of the specified calculator and the corresponding inputs of the synchronization check block.
Недостатком известной системы является невозможность обнаружения речи на фоне стационарных и нестационарных шумов, обладающих сплошным спектром, без априорных знаний о статистических свойствах шума, а также невозможность формирования вектора признаков сигналов для систем распознавания речи, идентификации дикторов и идентификации языка, устойчивого к изменению статистических свойств шума, на фоне которого проводится распознавание или идентификация.A disadvantage of the known system is the impossibility of detecting speech on the background of stationary and non-stationary noise having a continuous spectrum, without a priori knowledge of the statistical properties of noise, as well as the impossibility of generating a vector of signal attributes for speech recognition systems, speaker identification and language identification, resistant to changing statistical noise properties against the background of which recognition or identification is carried out.
Техническим результатом, который достигается при использовании заявленной системы для определения параметров линейчатых спектров вокализованных звуков, является повышение точности определения параметров линейчатых спектров, которое достигается за счет:The technical result that is achieved when using the claimed system for determining the parameters of the line spectra of voiced sounds is to increase the accuracy of determining the parameters of the line spectra, which is achieved by:
- использования динамических параметров спектра информационного сигнала и вейвлет-функций в качестве опорных базисных сигналов;- the use of dynamic parameters of the spectrum of the information signal and wavelet functions as reference basic signals;
- разделения (квантования) диапазона частот основного тона речевого сигнала на неперекрывающиеся области, которые не обладают кратными частотами.- separation (quantization) of the frequency range of the fundamental tone of the speech signal into non-overlapping areas that do not have multiple frequencies.
Технический результат достигается предложенной системой определения параметров линейчатых спектров вокализованных звуков, содержащей последовательно соединенные цифровое записывающее устройство, блок дискретизации, блок дискретного преобразования Фурье, блок нормирования спектра Фурье, формирователь результирующей матрицы сверток, сумматор, регистратор максимальных значений, формирователь вектора признаков, блок линий задержки, блок The technical result is achieved by the proposed system for determining the parameters of the line spectra of voiced sounds, comprising a digital recorder, a discretization unit, a discrete Fourier transform unit, a Fourier spectrum normalization unit, a resultant convolution matrix generator, an adder, a maximum value recorder, a feature vector generator, a delay line block block
формирования мер веса последовательности информативных признаков, блок перебора последовательности компонент информативных признаков и выделения спектров, обладающих линейчатостью и гладкостью динамики частоты основного тона, компаратор, селектор компонентов преобразования Фурье и блок регистрации информативных признаков, а также блок питания, подключенный к питающим входам составных блоков системы, блок памяти, вход которого подключен к выходу блока дискретного преобразования Фурье, а выход соединен с параметрическим входом селектора компонентов преобразования Фурье, генератор базисных сигналов, выход которого подключен к управляющему входу формирователя матрицы сверток, формирователь параметров разбиения диапазона частот основного тона голоса, выход которого соединен с входом задания диапазонов частот регистратора максимальных значений, формирователь мер схожести, выход которого соединен с одним из задающих входов блока формирования мер веса последовательности информативных признаков, и формирователь порогового уровня, выход которого подключен к задающему входу компаратора.the formation of measures of the weight of a sequence of informative features, a unit for enumerating a sequence of components of informative features and highlighting spectra that have linearity and smoothness in the dynamics of the fundamental tone frequency, a comparator, a selector of Fourier transform components and a recording unit for informative features, as well as a power supply connected to the supply inputs of the system , a memory block whose input is connected to the output of the discrete Fourier transform block, and the output is connected to the parametric input the components of the Fourier transform, the basis signal generator, the output of which is connected to the control input of the convolution matrix generator, the driver of the parameters for splitting the frequency range of the main tone of the voice, the output of which is connected to the input of the frequency ranges of the registrar of maximum values, the generator of similarity measures, the output of which is connected to one of the input inputs of the unit for forming measures of the weight of a sequence of informative features, and the threshold level generator whose output is connected to the task he comparator input.
На фиг.1 представлена функциональная схема предложенной системы определения параметров линейчатых спектров вокализованных звуков.Figure 1 presents the functional diagram of the proposed system for determining the parameters of the line spectra of voiced sounds.
На фиг.2 показан график вейвлет-функции, используемой при проведении анализа спектра звука.Figure 2 shows a graph of the wavelet function used in the analysis of the spectrum of sound.
На фиг.3 приведен пример наложения вейвлет-функции в выбранном отсчете спектра Фурье.Figure 3 shows an example of the superposition of the wavelet function in the selected sample of the Fourier spectrum.
На фиг.4 изображен граф формирования мер веса последовательности информативных признаков.Figure 4 shows a graph of the formation of measures of the weight of a sequence of informative features.
Система определения параметров линейчатых спектров вокализованных звуков (фиг.1) содержит последовательно соединенные цифровое записывающее устройство 1, блок 2 дискретизации, блок 3 дискретного преобразования Фурье, блок 4 нормирования спектра Фурье, The system for determining the parameters of the line spectra of voiced sounds (Fig. 1) comprises a digital recording device 1, a sampling unit 2, a discrete Fourier transform unit 3, a Fourier spectrum normalization unit 4,
формирователь 5 результирующей матрицы сверток, сумматор 6, регистратор 7 максимальных значений, формирователь 8 вектора признаков, блок 9 линий задержки, блок 10 формирования мер веса последовательности информативных признаков, блок 11 перебора последовательности компонент информативных признаков и выделения спектров, обладающих линейчатостью и гладкостью динамики частоты основного тона, компаратор 12, селектор 13 компонентов преобразования Фурье и блок 14 регистрации информативных признаков. Кроме того, система содержит блок 15 питания, подключенный к питающим входам составных блоков системы, блок 16 памяти, вход которого подключен к выходу блока дискретного преобразования Фурье, а выход соединен с параметрическим входом селектора 13 компонентов преобразования Фурье, генератор 17 базисных сигналов, выход которого подключен к управляющему входу формирователя 5 матрицы сверток, формирователь 18 параметров разбиения диапазона частот основного тона речевого сигнала, выход которого соединен с входом задания диапазонов частот регистратора 7 максимальных значений, формирователь 19 мер схожести, выход которого соединен одним из задающих входов блока 10 формирования мер веса последовательности информативных признаков, и формирователь 20 порогового уровня, выход которого подключен к задающему входу компаратора 12.shaper of the resulting convolution matrix 5, adder 6, registrar 7 of maximum values, shaper 8 of the feature vector, block 9 delay lines, block 10 of forming measures of the weight of a sequence of informative signs, block 11 of enumerating the sequence of components of informative signs and highlighting spectra that have linearity and smoothness of the frequency dynamics the fundamental tone, the comparator 12, the selector 13 of the components of the Fourier transform and the block 14 registration of informative features. In addition, the system includes a power supply unit 15 connected to the supply inputs of the component blocks of the system, a memory unit 16, the input of which is connected to the output of the discrete Fourier transform unit, and the output is connected to the parametric input of the selector 13 of the Fourier transform components, a base signal generator 17, the output of which connected to the control input of the convolution matrix generator 5, the generator 18 of parameters for splitting the frequency range of the fundamental tone of the speech signal, the output of which is connected to the input of the frequency ranges Rathore 7 the maximum values of similarity measures shaper 19 whose output is connected to one of the reference inputs forming unit 10 measures the weight sequence informative signs, and the threshold level generator 20, whose output is connected to the master input of the comparator 12.
Система определения параметров линейчатых спектров вокализованных звуков функционирует следующим образом.The system for determining the parameters of the line spectra of voiced sounds operates as follows.
Акустический сигнал поступает на вход цифрового записывающего устройства 1, на выходе которого формируется записанный оцифрованный сигнал. В блоке 2 дискретизации осуществляется его оконное преобразование (дискретизация), при этом не перекрывающиеся интервалы окон имеют длительность не менее 0,032 с и следуют друг за другом со смещением, длительность которого не превышает 0,010 с. Для получения сигнала, соответствующего каждому окну, в блоке 3 происходит An acoustic signal is fed to the input of a digital recording device 1, the output of which is formed by a recorded digitized signal. In block 2 of sampling, its window conversion (sampling) is carried out, while non-overlapping window intervals have a duration of at least 0.032 s and follow each other with an offset whose duration does not exceed 0.010 s. To obtain a signal corresponding to each window, in block 3 occurs
вычисление дискретного преобразования Фурье с сохранением реальной и мнимой частей преобразования в блоке 16 памяти. Блок 4 определяет спектр Фурье и осуществляет его последующее нормирование в соответствии с зависимостьюcomputing a discrete Fourier transform while preserving the real and imaginary parts of the transform in the memory block 16. Block 4 determines the Fourier spectrum and carries out its subsequent normalization in accordance with the dependence
где - компоненты нормированного спектра Фурье,Where - components of the normalized Fourier spectrum,
φi - компоненты исходного спектра Фурье,φ i are the components of the initial Fourier spectrum,
n - количество компонент спектра Фурье.n is the number of components of the Fourier spectrum.
Генератор 17 базисных сигналов формирует управляющие сигналы, структура которых определяется параметрами вейвлет-функции (фиг.2), имеющей видThe generator 17 basic signals generates control signals, the structure of which is determined by the parameters of the wavelet function (figure 2), having the form
где τ - период вейвлет-функции,where τ is the period of the wavelet function,
j - номер отсчета вейвлет-функции,j is the reference number of the wavelet function,
π=3,14.π = 3.14.
Управляющие базисные сигналы с выхода блока 17 поступают на вход формирователя 5 матрицы сверток, в котором для каждой i-ой компоненты полученного нормированного спектра Фурье производится свертка окружения этой компоненты с вейвлет-функциями, а именноThe control basic signals from the output of block 17 go to the input of the convolution matrix generator 5, in which the convolution of the environment of this component with wavelet functions is performed for each i-th component of the obtained normalized Fourier spectrum, namely
где k - величина четверть периода вейвлет-функции, выраженная в единицах отсчетов спектра,where k is the value of a quarter of the wavelet function period, expressed in units of the spectrum,
τ - период вейвлет-функции.τ is the period of the wavelet function.
Свертка осуществляется с вейвлет-функциями всех возможных масштабов, при этом суммы свертки вычисляются отдельно для каждой полуволны вейвлет-функции. После этого в формирователе 5 формируется результирующая матрица сверток, каждая г-ая компонента которой определяется зависимостьюThe convolution is carried out with wavelet functions of all possible scales, while the sum of the convolution is calculated separately for each half-wave of the wavelet function. After that, in the shaper 5, the resulting convolution matrix is formed, each gth component of which is determined by the dependence
Частотный диапазон основного тона голоса разбивают на три неперекрывающихся диапазона, при этом верхнюю границу первого диапазона выбирают из условия G1=2Gmin, где Gmin - известное минимальное значение частоты основного тона мужского голоса, верхнюю границу второго диапазона - из условия G2=4Gmin, а верхнюю границу третьего диапазона принимают равной известному максимальному значению частоты Gmax основного тона женского голоса. Границы диапазонов заданы формирователем 18 параметров разбиения диапазона частот основного тона голоса.The frequency range of the fundamental tone of the voice is divided into three non-overlapping ranges, while the upper boundary of the first range is selected from the condition G 1 = 2G min , where G min is the known minimum value of the frequency of the fundamental tone of the male voice, the upper boundary of the second range from the condition G 2 = 4G min , and the upper boundary of the third range is taken equal to the known maximum value of the frequency G max of the fundamental tone of the female voice. The boundaries of the ranges are set by the shaper 18 of the parameters for splitting the frequency range of the fundamental tone of the voice.
В сумматоре 6 для частотного диапазона основного тона голоса суммируются компоненты полученной матрицы сверток, имеющие индексы, кратные частоте основного тона, т.е. определяется сумма видаIn adder 6, for the frequency range of the fundamental tone of the voice, the components of the obtained convolution matrix are added, having indices that are multiples of the frequency of the fundamental tone, i.e. determined by the amount of type
ω - частота основного тона, выраженная в единицах спектральных отсчетов.ω is the frequency of the fundamental tone, expressed in units of spectral readings.
Для каждого диапазона частот основного тона голоса, границы которых заданы формирователем 18, в блоке 7 вычисляется значение максимума матрицы Sτω For each frequency range of the fundamental tone of the voice, the boundaries of which are set by the shaper 18, in block 7, the value of the matrix maximum S τω
и соответствующий этому максимуму аргументand the argument corresponding to this maximum
9 после чего блок 8 формирует множества пар этих значений, т.е. вектор информативных признаков В=.9 after which block 8 forms sets of pairs of these values, i.e. vector of informative signs B = .
С использованием векторов информативных признаков и мер схожести пар (Ii,gi,)Using vectors of informative features and measures of similarity of pairs (I i , g i ,)
где σ - дисперсия частоты основного тона,where σ is the dispersion of the frequency of the fundamental tone,
t - дискретное время,t is the discrete time
gi (t) gj (t) - компоненты вектора информативных признаков взятые вg i (t) g j (t) - components of the vector of informative features taken in
дискретные моменты времени t; t=1,2,..., и i,j=1,...,3.discrete time instants t; t = 1,2, ..., and i, j = 1, ..., 3.
которые создаются на выходе формирователя 19 мер схожести пар, в блоке 10 формирования мер веса последовательности информативных признаков на основе подпоследовательности Q размером М, не менее четырех в последовательности множеств В, которая реализуется М-1 последовательными линиями задержки блока 9 задержки, формируютсяthat are created at the output of the shaper 19 of the measures of similarity of the pairs, in the block 10 of forming measures of the weight of the sequence of informative signs based on the subsequence Q of size M, at least four in the sequence of sets B, which is implemented by M-1 by the successive delay lines of the delay unit 9, are formed
меры веса последовательности информативных признаковmeasures of weight of a sequence of informative features
характеризующие наличие линейчатого спектра в сигнале. С помощью этих мер веса последовательности информативных признаков выделяются все спектры, обладающие линейчатостью и гладкостью динамики частоты основного тона.characterizing the presence of a line spectrum in the signal. With the help of these measures, the weight of a sequence of informative features distinguishes all spectra that have linearity and smoothness of the dynamics of the frequency of the fundamental tone.
С выхода блока 10 формирования мер веса последовательности информативных признаков сигналы поступают в блок 11 перебора последовательности компонент информативных признаков и выделения спектров, обладающих линейчатостью и гладкостью динамики частоты основного тона, где определяется траектория последовательности пар (Ii,gi)(t), обладающая максимальным весом D на подпоследовательности Q.From the output of block 10 of forming measures of the weight of a sequence of informative signs, the signals are sent to block 11 of enumerating a sequence of components of informative signs and selecting spectra that have linearity and smoothness of the dynamics of the frequency of the fundamental tone, where the trajectory of the sequence of pairs (I i , g i ) (t) is determined, which has maximum weight D on subsequences Q.
В графе осуществляемого блоком 11 перебора последовательности компонент информативных признаков и выделения спектров, обладающих линейчатостью и гладкостью динамики частоты основного тона, на последовательности множеств пар максимумов и их аргументов (фиг.4) каждое ребро соответствует вычислению меры схожести этих пар. Соответствующий информационный сигнал о выбранной траектории поступает на задающий вход компаратора 12 для сравнения с пороговыми сигналами, поступившими из формирователя 20 пороговых уровней. В компараторе 12 проводится сравнение порогового значения и значения максимального веса D. В том случае, если максимальный вес D траектории превышает пороговое значение, то принимается решение о том, что эта последовательность пар (Ii,gi)(t) подпоследовательности Q порождена речевым сигналом, обладающим линейчатым спектром и гладкостью динамики частоты основного тона. На основании этого селектором 13 из последовательности сохраненных в блоке 16 реальных и мнимых частей преобразования Фурье выбирают лишь те компоненты, которые соответствуют участкам, обладающим линейчатым спектром и гладкостью динамики частоты основного тона, и регистрируют их блоком 14 регистрации информативных признаков.In the graph performed by block 11 of enumerating the sequence of components of informative features and highlighting spectra that have linearity and smoothness of the dynamics of the frequency of the fundamental tone, into a sequence of sets of maximum pairs and their arguments (Fig. 4), each edge corresponds to a calculation of the measure of similarity of these pairs. The corresponding information signal about the selected path is fed to the input of the comparator 12 for comparison with threshold signals received from the threshold level generator 20. In the comparator 12, the threshold value and the maximum weight value D are compared. If the maximum path weight D exceeds the threshold value, then a decision is made that this sequence of pairs (I i , g i ) (t) of the subsequence Q is generated by speech a signal with a linear spectrum and smoothness of the dynamics of the frequency of the fundamental tone. Based on this, selector 13 selects only those components from the sequence of real and imaginary parts of the Fourier transform stored in block 16 that correspond to areas with a linear spectrum and smoothness of the fundamental frequency dynamics and register them with the informative feature registration unit 14.
Реализация полезной модели позволяет обеспечить высокую точность определения параметров линейчатых спектров вокализованных звуков. Так, например, сравнение результатов, полученных при использовании технического решения MFCC, позволяющего проводить выделение признаков речевого сигнала, с результатами, обеспечиваемыми предложенной системой, показывает, что на вокализованном участке речи при уменьшении отношения сигнал шум с 20 до 15 дБ, относительный рост дисперсии компонент вектора MFCC составляет 42,1%, а относительный рост дисперсии компонент при реализации предложенной системой - 7.4%. Это позволяет говорить о достигаемой устойчивости определения The implementation of the utility model allows for high accuracy in determining the parameters of the line spectra of voiced sounds. So, for example, comparing the results obtained using the MFCC technical solution, which allows the extraction of features of the speech signal, with the results provided by the proposed system, shows that in the voiced speech section, when the signal-to-noise ratio decreases from 20 to 15 dB, the relative dispersion of the components MFCC vector is 42.1%, and the relative increase in the dispersion of the components when implementing the proposed system is 7.4%. This allows us to talk about the achieved stability of the definition.
параметров линейчатого спектра вокализованных звуков к зашумлению речи.parameters of the line spectrum of voiced sounds to noise of speech.
Claims (1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2008123187/22U RU78470U1 (en) | 2008-06-11 | 2008-06-11 | SYSTEM FOR DETERMINING THE PARAMETERS OF LINEAR SPECTRA OF VOCALIZED SOUNDS |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2008123187/22U RU78470U1 (en) | 2008-06-11 | 2008-06-11 | SYSTEM FOR DETERMINING THE PARAMETERS OF LINEAR SPECTRA OF VOCALIZED SOUNDS |
Publications (1)
Publication Number | Publication Date |
---|---|
RU78470U1 true RU78470U1 (en) | 2008-11-27 |
Family
ID=46273638
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2008123187/22U RU78470U1 (en) | 2008-06-11 | 2008-06-11 | SYSTEM FOR DETERMINING THE PARAMETERS OF LINEAR SPECTRA OF VOCALIZED SOUNDS |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU78470U1 (en) |
-
2008
- 2008-06-11 RU RU2008123187/22U patent/RU78470U1/en active
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10504539B2 (en) | Voice activity detection systems and methods | |
Patel et al. | Speech recognition and verification using MFCC & VQ | |
JP2013037152A (en) | Acoustic signal processor and acoustic signal processing method | |
CN102054480A (en) | Method for separating monaural overlapping speeches based on fractional Fourier transform (FrFT) | |
CN113744715A (en) | Vocoder speech synthesis method, device, computer equipment and storage medium | |
Xiong et al. | Exploring auditory-inspired acoustic features for room acoustic parameter estimation from monaural speech | |
CN112992190B (en) | Audio signal processing method and device, electronic equipment and storage medium | |
Li et al. | Frame-Level Signal-to-Noise Ratio Estimation Using Deep Learning. | |
Rahman et al. | Dynamic time warping assisted svm classifier for bangla speech recognition | |
KR20090080777A (en) | Method and Apparatus for detecting signal | |
Maazouzi et al. | MFCC and similarity measurements for speaker identification systems | |
RU85445U1 (en) | ANNOUNCER VOICE IDENTIFICATION SYSTEM | |
JP6724290B2 (en) | Sound processing device, sound processing method, and program | |
RU2364957C1 (en) | Determination method of parameters of lined voiced sounds spectrums and system for its realisation | |
RU78470U1 (en) | SYSTEM FOR DETERMINING THE PARAMETERS OF LINEAR SPECTRA OF VOCALIZED SOUNDS | |
RU2385272C1 (en) | Speaker voice recognition system | |
Abushariah et al. | Voice based automatic person identification system using vector quantization | |
Fahmeeda et al. | Voice Based Gender Recognition Using Deep Learning | |
CN112786068B (en) | Audio sound source separation method, device and storage medium | |
Yang et al. | Unsupervised classification of hydrophone signals with an improved Mel-frequency cepstral coefficient based on measured data analysis | |
RU93173U1 (en) | ANNOUNCER VOICE DISTORTION SYSTEM | |
Solovyov et al. | Information redundancy in constructing systems for audio signal examination on deep learning neural networks | |
Tykhonov et al. | Factorization of speech signals parametric spectra using multiplicative linear prediction models | |
JP4760179B2 (en) | Voice feature amount calculation apparatus and program | |
Therese et al. | A linear visual assessment tendency based clustering with power normalized cepstral coefficients for audio signal recognition system |