RU2621647C1 - Way of estimating the instantaneous frequency of the voice signal in local maximum points - Google Patents

Way of estimating the instantaneous frequency of the voice signal in local maximum points Download PDF

Info

Publication number
RU2621647C1
RU2621647C1 RU2016132226A RU2016132226A RU2621647C1 RU 2621647 C1 RU2621647 C1 RU 2621647C1 RU 2016132226 A RU2016132226 A RU 2016132226A RU 2016132226 A RU2016132226 A RU 2016132226A RU 2621647 C1 RU2621647 C1 RU 2621647C1
Authority
RU
Russia
Prior art keywords
local maximum
instantaneous frequency
estimating
signal
frequency
Prior art date
Application number
RU2016132226A
Other languages
Russian (ru)
Inventor
Евгений Львович Столов
Руслан Рафикович Нигматуллин
Original Assignee
Федеральное государственное автономное образовательное учреждение высшего профессионального образования "Казанский (Приволжский) Федеральный Университет" (ФГАОУ ВПО КФУ)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Федеральное государственное автономное образовательное учреждение высшего профессионального образования "Казанский (Приволжский) Федеральный Университет" (ФГАОУ ВПО КФУ) filed Critical Федеральное государственное автономное образовательное учреждение высшего профессионального образования "Казанский (Приволжский) Федеральный Университет" (ФГАОУ ВПО КФУ)
Priority to RU2016132226A priority Critical patent/RU2621647C1/en
Application granted granted Critical
Publication of RU2621647C1 publication Critical patent/RU2621647C1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

FIELD: physics.
SUBSTANCE: frequency with strobing f and amplitude of an audio signal are injected into computer memory either by using a microphone and standard input, or by reading the file, the audio signal. Producing finding points of local maximum amplitude of speech signal. Evaluating the magnitude of
Figure 00000010
, where n is the position of the local maximum. The counting of instantaneous frequency is performed at the specified point by the formula w=ƒ*argcos(Val). The position of the local maximum and the estimated instantaneous frequency are estimated in the format n, w.
EFFECT: decreasing the number of calculations for estimating the instantaneous frequency at local extremum points.
2 dwg

Description

Изобретение относится к области техники анализа речи, в частности, к способу оценки мгновенной частоты в точках локального максимума (положительного локального максимума, отрицательного локального минимума) речевых сигналов. Техническим результатом является минимизация количества операций, необходимых для получения численного результата. Технический результат достигается тем, что вместо преобразования Гильберта, используемого для получения указанной оценки, применяется аппроксимация сигнала в окрестности локального максимума функцией, для которой известно аналитическое выражение для преобразования Гильберта.The invention relates to the field of speech analysis technology, in particular, to a method for estimating the instantaneous frequency at points of a local maximum (positive local maximum, negative local minimum) of speech signals. The technical result is to minimize the number of operations necessary to obtain a numerical result. The technical result is achieved in that instead of the Hilbert transform used to obtain the indicated estimate, the signal is approximated in the vicinity of the local maximum by a function for which an analytical expression for the Hilbert transform is known.

Имеется стандартная процедура оценки мгновенной частоты сигнала (см., например, [1]), сущность которой заключается в том, что к исходному сигналу х[n] применяется аппроксимация преобразования Гильберта путем пропускания этого сигнала через фильтр с конечной импульсной характеристикой (далее КИХ фильтр специального вида). В результате получается новый сигнал у[n], после чего строится аналитический сигнал z[n]=х[n]+iу[n], представимый в виде ⎜z(n)⎜ехр(iw(n)). Подсчитывая log(z(n)), log(z(n+1)) и выделяя в них мнимую часть, получаем оценку w0 мгновенной частоты в виде w0=w(n+1)-w(n).There is a standard procedure for estimating the instantaneous frequency of a signal (see, for example, [1]), the essence of which is that an approximation of the Hilbert transform is applied to the original signal x [n] by passing this signal through a filter with a finite impulse response (hereinafter, FIR filter special kind). As a result, a new signal y [n] is obtained, after which an analytical signal z [n] = x [n] + iu [n] is constructed, which can be represented in the form ⎜z (n) ⎜ exp (iw (n)). Counting log (z (n)), log (z (n + 1)) and isolating the imaginary part in them, we obtain the estimate of w 0 instantaneous frequency in the form w 0 = w (n + 1) -w (n).

Недостаток данного метода заключается в том, что фильтр Гильберта не является физически реализуемым, поэтому приходится ограничиваться его приближением в виде КИХ фильтра. Чем точнее берется аппроксимация фильтра, тем больший интервал речевого файла используется для подсчетов. Таким образом, вследствие указанного для реализации преобразования требуются большие вычисления. С другой стороны, теория предполагает, что исходный сигнал является стационарным, а увеличение длины отрезка речевого файла приводит к нарушению указанного предположения.The disadvantage of this method is that the Hilbert filter is not physically feasible, therefore it is necessary to confine it to the approximation in the form of an FIR filter. The more accurately the filter approximation is taken, the larger the interval of the speech file is used for calculations. Thus, due to the transformation indicated for implementation, large calculations are required. On the other hand, the theory assumes that the original signal is stationary, and an increase in the length of the length of the speech file violates this assumption.

Задачей заявленного изобретения является создание способа оценки мгновенной частоты сигнала, не требующего больших вычислений.The objective of the claimed invention is to provide a method for estimating the instantaneous frequency of a signal that does not require large computations.

Поставленная задача решается путем аппроксимации исходного сигнала в окрестности точек локального максимума (положительного локального максимума А, отрицательного локального минимума В, см. Фиг. 1) значениями функции, для которой известен аналитический вид преобразования Гильберта.The problem is solved by approximating the initial signal in the vicinity of the local maximum points (positive local maximum A, negative local minimum B, see Fig. 1) by the values of the function for which the analytical form of the Hilbert transform is known.

Заявленное техническое решение реализуется посредством применения ЭВМ с устройством звукового ввода и программы, обеспечивающей реализацию заявленного способа, и поясняется блок-схемой реализации заявленного способа, приведенной на Фиг. 2.The claimed technical solution is implemented by using a computer with a sound input device and a program that provides the implementation of the claimed method, and is illustrated by the block diagram of the implementation of the claimed method, shown in FIG. 2.

Сущность заявленного технического решения заключается в том, что в способе оценки мгновенной частоты речевого сигнала в точках локального максимума реализуемый на электронно-вычислительной машине, заключающемся во вводе в память компьютера частоты стробирования f и амплитуд звукового сигнала либо посредством использования микрофона и стандартной программы ввода, либо посредством считывания файла звукового сигнала, отличающемся тем, что производится отыскание точек локального максимума амплитуды речевого сигнала, далее производят вычисление величины

Figure 00000001
, где n - позиция локального максимума, далее выполняется подсчет мгновенной частоты в указанной точке по формуле w=ƒ*argcos(Val) и выводят позицию локального максимума и найденную оценку мгновенной частоты в формате n, w.The essence of the claimed technical solution lies in the fact that in a method for estimating the instantaneous frequency of a speech signal at local maximum points, it is implemented on an electronic computer, which consists in entering the gating frequency f and amplitudes of the audio signal into the computer’s memory, either by using a microphone and a standard input program, or by reading the file of the sound signal, characterized in that the points of the local maximum of the amplitude of the speech signal are searched, then produce ychislenie values
Figure 00000001
, where n is the position of the local maximum, then the instantaneous frequency at the specified point is calculated using the formula w = ƒ * argcos (Val) and the position of the local maximum and the found estimate of the instantaneous frequency in the format n, w are derived.

Заявленное техническое решение «Способ оценки мгновенной частоты речевого сигнала в точках локального максимума» реализуется на основании блок-схемы и включает следующую последовательность действий.The claimed technical solution "Method for assessing the instantaneous frequency of a speech signal at local maximum points" is implemented on the basis of the flowchart and includes the following sequence of actions.

1. Осуществляют ввод звукового файла в ЭВМ через микрофон, либо выполняют считывание звукового файла из памяти ЭВМ, далее выполняют ввод частоты стробирования f.1. Enter the sound file into the computer through the microphone, or read the sound file from the computer memory, then enter the sampling frequency f.

2. Выполняют поиск локального максимума в точке х[n], с применением программы ЭВМ, далее выполняют проверку условия2. Perform a search for a local maximum at the point x [n], using a computer program, then check the conditions

х[n-1]<х[n] AND х[n+1<х[n].x [n-1] <x [n] AND x [n + 1 <x [n].

3. Производят вычисление посредством программы ЭВМ по формуле3. Compute through a computer program according to the formula

Figure 00000002
Figure 00000002

4. Используя программу ЭВМ, производят вычисление мгновенной частоты w=ƒ*arccos(Val).4. Using a computer program, the instantaneous frequency w = ƒ * arccos (Val) is calculated.

5. Осуществляют вывод результата в формате n, w.5. The result is output in the format n, w.

Таким образом, процедура заявленного «Способа оценки мгновенной частоты речевого сигнала в точках локального максимума» в целом включает следующие шаги и сводится к:Thus, the procedure of the claimed “Method for assessing the instantaneous frequency of a speech signal at local maximum points” generally includes the following steps and is reduced to:

- локализации точки локального максимума (положительного локального максимума, отрицательного локального минимума)x[n0] во входном файле;- localization of the local maximum point (positive local maximum, negative local minimum) x [n 0 ] in the input file;

- апроксимации сигнала в окрестности этой точки функцией вида u(t)=Acos(wt)+Bsin(wt), для которой мгновенная частота в любой точке равняется w и не зависит от коэффициентов А, В;- approximation of the signal in the vicinity of this point by a function of the form u (t) = Acos (wt) + Bsin (wt), for which the instantaneous frequency at any point equals w and does not depend on the coefficients A, B;

- вычислению оценки мгновенной частоты в этой точке согласно формуле- calculating the instantaneous frequency estimate at this point according to the formula

Figure 00000003
Figure 00000003

где ƒ - частота стробирования*, примененная при записи речевого сигнала.where ƒ is the gating frequency * used when recording a speech signal.

Так как точка х[n0] есть точка локального максимума, в формуле (1) значения для функции cos меньше 1.Since the point x [n 0 ] is the point of local maximum, in formula (1) the values for the function cos are less than 1.

*Стробирование (англ. strobing, от strobe - посылать избирательные импульсы, от греч. strobos - кружение, беспорядочное движение), метод выделения некоторого интервала на временной оси… Стробирование (англ. strobing, от strobe - посылать избирательные….БСЭ. - 1969-1978).* Strobing (eng. Strobing, from strobe - send selective impulses, from Greek. Strobos - whirling, random movement), the method of allocating a certain interval on the time axis ... Strobing (eng. Strobing, from strobe - send selective ... .BSE. - 1969 -1978).

Обоснование указанной формулы приведено в [2].The rationale for this formula is given in [2].

Для проверки точности предлагаемой оценки был проведен вычислительный эксперимент. Для функции видаTo verify the accuracy of the proposed assessment, a computational experiment was conducted. For a function of the form

ƒ(t)=∑kАk cos(wkt)+Bksin(wkt))ƒ (t) = ∑ k A k cos (w k t) + B k sin (w k t))

известен явный вид преобразования Гильберта (см. [1]), что позволяет подсчитать мгновенную частоту в любой момент времени. Для эксперимента были выбраны 5 слагаемых, коэффициенты Аk, Вk выбирались каждый раз случайным образом, а частоты wk сохранялись постоянными. Для каждого набора коэффициентов находилось точное значение мгновенной частоты и оценка согласно формуле (1):The explicit form of the Hilbert transform is known (see [1]), which allows one to calculate the instantaneous frequency at any time. For the experiment, 5 terms were chosen, the coefficients А k , В k were chosen randomly each time, and the frequencies w k were kept constant. For each set of coefficients, the exact value of the instantaneous frequency and the estimate according to formula (1) were found:

ТочноеExact 729729 517517 788788 626626 418418 510510 152152 784784 879879 546546 ОценкаRating 835835 572572 800800 676676 438438 552552 016016 047047 654654 680680

Из приведенных данных видно, что точные значения и их оценки имеют один порядок.From the above data it is seen that the exact values and their estimates are of the same order.

Заявленное техническое решение соответствует критерию «новизна», предъявляемому к изобретениям, так как в результате исследования уровня техники на дату подачи заявки заявителем не выявлены технические решения, обладающие совокупностью заявленных признаков, приводящих к реализации поставленных целей, - созданию способа оценки мгновенной частоты сигнала в точках локального максимума сигнала.The claimed technical solution meets the criterion of "novelty" for inventions, as a result of a study of the prior art on the filing date of the application, the applicant has not identified technical solutions that have a combination of the claimed features leading to the realization of the set goals - to create a method for estimating the instantaneous signal frequency at points local maximum signal.

Заявленное техническое решение соответствует критерию «изобретательский уровень», предъявляемому к изобретениям, так как для специалиста в заявленной области техники не являются очевидным полученные технические результаты, выражающиеся в том, что заявителем решена актуальная, не разрешенная до даты подачи настоящей заявки проблема, заключающаяся в необходимости создания простого способа оценки мгновенной частоты сигнала, которая разрешена авторами посредством создания принципиально нового способа, заключающегося в аппроксимации сигнала в окрестности точки локального максимума (положительного локального максимума, отрицательного локального минимума) функцией с известной мгновенной частотой.The claimed technical solution meets the criterion of "inventive step" for inventions, since it is not obvious to a specialist in the claimed field of technology that the technical results obtained are expressed in that the applicant has solved an urgent problem that is not resolved before the filing date of this application, consisting in the need creating a simple method for estimating the instantaneous signal frequency, which is allowed by the authors by creating a fundamentally new method, which consists in approximating signal in the vicinity of the local maximum point (positive local maximum, negative local minimum) by a function with a known instantaneous frequency.

Таким образом, заявленное решение не вытекает явным образом из известного уровня техники, что также является дополнительным доказательством соответствия заявленного технического решения критерию «изобретательский уровень».Thus, the claimed solution does not follow explicitly from the prior art, which is also additional evidence of the conformity of the claimed technical solution to the criterion of "inventive step".

Заявленное техническое решение реализовано в лабораторных условиях Казанского государственного университета и может быть реализовано на любом специализированном предприятии (учреждении) с использованием стандартного оборудования, что является доказательством соответствия заявленного технического решения критерию «промышленная применимость», предъявляемому к изобретениям.The claimed technical solution is implemented in the laboratory conditions of Kazan State University and can be implemented at any specialized enterprise (institution) using standard equipment, which is evidence of the conformity of the claimed technical solution to the criterion of "industrial applicability" for inventions.

Источники информацииInformation sources

1. Лайонс Р. Цифровая обработка сигналов. М.: Бином, 2006 г., 652 с. 1. Lyons R. Digital signal processing. M .: Binom, 2006, 652 p.

2. Нигматуллин Р.Р., Столов Е.Л. Параметры, характеризующие локальные фрагменты речевых файлов.// Ученые записки Казанского университета, Серия Физико-математические науки - т. 155 - Книга 2- 2013 г., с. 100-107.2. Nigmatullin R.R., Stolov E.L. Parameters characterizing local fragments of speech files. // Scientific notes of Kazan University, Series Physics and Mathematics - t. 155 - Book 2 - 2013, p. 100-107.

Claims (1)

Способ оценки мгновенной частоты речевого сигнала в точках локального максимума, реализуемый на электронно-вычислительной машине, заключающийся во вводе в память компьютера частоты стробирования f и амплитуд звукового сигнала, либо посредством использования микрофона и стандартной программы ввода, либо посредством считывания файла звукового сигнала, отличающийся тем, что производится отыскание точек локального максимума амплитуды речевого сигнала, далее производят вычисление величины
Figure 00000004
, где n - позиция локального максимума, далее выполняется подсчет мгновенной частоты в указанной точке по формуле
Figure 00000005
, и выводят позицию локального максимума и найденную оценку мгновенной частоты в формате n, w.
A method for estimating the instantaneous frequency of a speech signal at local maximum points, implemented on an electronic computer, which consists in inputting to the computer memory the gating frequency f and amplitudes of the audio signal, either by using a microphone and a standard input program, or by reading a file of an audio signal, characterized in that the points of the local maximum of the amplitude of the speech signal are searched, then the quantity is calculated
Figure 00000004
, where n is the position of the local maximum, then the instantaneous frequency at the specified point is calculated by the formula
Figure 00000005
, and derive the position of the local maximum and the found estimate of the instantaneous frequency in the format n, w.
RU2016132226A 2016-07-26 2016-07-26 Way of estimating the instantaneous frequency of the voice signal in local maximum points RU2621647C1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
RU2016132226A RU2621647C1 (en) 2016-07-26 2016-07-26 Way of estimating the instantaneous frequency of the voice signal in local maximum points

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
RU2016132226A RU2621647C1 (en) 2016-07-26 2016-07-26 Way of estimating the instantaneous frequency of the voice signal in local maximum points

Publications (1)

Publication Number Publication Date
RU2621647C1 true RU2621647C1 (en) 2017-06-06

Family

ID=59032091

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2016132226A RU2621647C1 (en) 2016-07-26 2016-07-26 Way of estimating the instantaneous frequency of the voice signal in local maximum points

Country Status (1)

Country Link
RU (1) RU2621647C1 (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2007763C1 (en) * 1991-04-04 1994-02-15 Завод "Калугаприбор" Method for decoding of main tone from speech signal
EP0645756A1 (en) * 1993-09-29 1995-03-29 Ericsson Ge Mobile Communications Inc. System for adaptively reducing noise in speech signals
US20030028374A1 (en) * 2001-07-31 2003-02-06 Zlatan Ribic Method for suppressing noise as well as a method for recognizing voice signals

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2007763C1 (en) * 1991-04-04 1994-02-15 Завод "Калугаприбор" Method for decoding of main tone from speech signal
EP0645756A1 (en) * 1993-09-29 1995-03-29 Ericsson Ge Mobile Communications Inc. System for adaptively reducing noise in speech signals
US20030028374A1 (en) * 2001-07-31 2003-02-06 Zlatan Ribic Method for suppressing noise as well as a method for recognizing voice signals

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
РИЧАРД ЛАЙОНС "Цифровая обработка сигналов", Москва Издательство БИНОМ, второе издание, опубл. в 2006 г., с. 367, 368, фиг. 9.7. СЛАВЯНСКАЯ ЛАРИСА ВЛАДИМИРОВНА, "Кодирование звуковой информации. Подготовка к ЕГЭ", апрель 2016 "Цифровые аудиоформаты", 28.11.2014. НИГМАТУЛЛИН Р.Р. и др "Параметры, характеризующие локальные фрагменты речевых файлов", Ученые записки Казанского университета, Физико-математические науки, 2013, том 155, книга 2, 100-107, опубл. в 2013 г. на 9 страницах. *

Similar Documents

Publication Publication Date Title
Loughlin et al. The uncertainty principle: global, local, or both?
KR101687658B1 (en) Method and system for inverse Chirp-z transformation
EP4318471A2 (en) Conept for encoding of information
Dörfler et al. Nonstationary Gabor frames-approximately dual frames and reconstruction errors
JP2018534618A (en) Noise signal determination method and apparatus, and audio noise removal method and apparatus
CN113724724A (en) Echo detection
Nicolalde-Rodríguez et al. Audio authenticity based on the discontinuity of ENF higher harmonics
RU2621647C1 (en) Way of estimating the instantaneous frequency of the voice signal in local maximum points
CN105550308B (en) A kind of information processing method, search method and electronic equipment
JP5994639B2 (en) Sound section detection device, sound section detection method, and sound section detection program
Onchis et al. Generalized Goertzel algorithm for computing the natural frequencies of cantilever beams
CN116706876A (en) Broadband oscillation identification method, device and equipment for dual-high power system
RU2012145420A (en) METHOD AND SYSTEM FOR IDENTIFICATION OF DIGITAL SIGNAL EVENTS
CN110755055A (en) Method and equipment for determining waveform evaluation information of pulse waveform
US11867733B2 (en) Systems and methods of signal analysis and data transfer using spectrogram construction and inversion
CN112581975A (en) Ultrasonic voice instruction defense method based on signal aliasing and two-channel correlation
US20200388301A1 (en) Pitch enhancement apparatus, pitch enhancement method, and program
Giri et al. Block sparse excitation based all-pole modeling of speech
JP4537821B2 (en) Audio signal analysis method, audio signal recognition method using the method, audio signal section detection method, apparatus, program and recording medium thereof
Voytko et al. Resonant scattering of the SH-wave by the interface impedance defect in an elastic layer
US10381023B2 (en) Speech evaluation apparatus and speech evaluation method
JP2018191255A (en) Sound collecting device, method thereof, and program
Janková et al. Hybrid approach Wavelet seasonal autoregressive integrated moving average model (WSARIMA) for modeling time series
WO2022088042A1 (en) Method and apparatus for measuring nonlinear relevant parameter of nonlinear device, and system
Yueyue et al. Performance evaluation for frequency domain blind source separation algorithms