RU2621647C1 - Way of estimating the instantaneous frequency of the voice signal in local maximum points - Google Patents
Way of estimating the instantaneous frequency of the voice signal in local maximum points Download PDFInfo
- Publication number
- RU2621647C1 RU2621647C1 RU2016132226A RU2016132226A RU2621647C1 RU 2621647 C1 RU2621647 C1 RU 2621647C1 RU 2016132226 A RU2016132226 A RU 2016132226A RU 2016132226 A RU2016132226 A RU 2016132226A RU 2621647 C1 RU2621647 C1 RU 2621647C1
- Authority
- RU
- Russia
- Prior art keywords
- local maximum
- instantaneous frequency
- estimating
- signal
- frequency
- Prior art date
Links
- 230000005236 sound signal Effects 0.000 claims abstract description 6
- 238000000034 method Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 abstract description 3
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 230000000694 effects Effects 0.000 abstract 1
- 239000000126 substance Substances 0.000 abstract 1
- 230000006870 function Effects 0.000 description 6
- 238000004590 computer program Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
Description
Изобретение относится к области техники анализа речи, в частности, к способу оценки мгновенной частоты в точках локального максимума (положительного локального максимума, отрицательного локального минимума) речевых сигналов. Техническим результатом является минимизация количества операций, необходимых для получения численного результата. Технический результат достигается тем, что вместо преобразования Гильберта, используемого для получения указанной оценки, применяется аппроксимация сигнала в окрестности локального максимума функцией, для которой известно аналитическое выражение для преобразования Гильберта.The invention relates to the field of speech analysis technology, in particular, to a method for estimating the instantaneous frequency at points of a local maximum (positive local maximum, negative local minimum) of speech signals. The technical result is to minimize the number of operations necessary to obtain a numerical result. The technical result is achieved in that instead of the Hilbert transform used to obtain the indicated estimate, the signal is approximated in the vicinity of the local maximum by a function for which an analytical expression for the Hilbert transform is known.
Имеется стандартная процедура оценки мгновенной частоты сигнала (см., например, [1]), сущность которой заключается в том, что к исходному сигналу х[n] применяется аппроксимация преобразования Гильберта путем пропускания этого сигнала через фильтр с конечной импульсной характеристикой (далее КИХ фильтр специального вида). В результате получается новый сигнал у[n], после чего строится аналитический сигнал z[n]=х[n]+iу[n], представимый в виде ⎜z(n)⎜ехр(iw(n)). Подсчитывая log(z(n)), log(z(n+1)) и выделяя в них мнимую часть, получаем оценку w0 мгновенной частоты в виде w0=w(n+1)-w(n).There is a standard procedure for estimating the instantaneous frequency of a signal (see, for example, [1]), the essence of which is that an approximation of the Hilbert transform is applied to the original signal x [n] by passing this signal through a filter with a finite impulse response (hereinafter, FIR filter special kind). As a result, a new signal y [n] is obtained, after which an analytical signal z [n] = x [n] + iu [n] is constructed, which can be represented in the form ⎜z (n) ⎜ exp (iw (n)). Counting log (z (n)), log (z (n + 1)) and isolating the imaginary part in them, we obtain the estimate of w 0 instantaneous frequency in the form w 0 = w (n + 1) -w (n).
Недостаток данного метода заключается в том, что фильтр Гильберта не является физически реализуемым, поэтому приходится ограничиваться его приближением в виде КИХ фильтра. Чем точнее берется аппроксимация фильтра, тем больший интервал речевого файла используется для подсчетов. Таким образом, вследствие указанного для реализации преобразования требуются большие вычисления. С другой стороны, теория предполагает, что исходный сигнал является стационарным, а увеличение длины отрезка речевого файла приводит к нарушению указанного предположения.The disadvantage of this method is that the Hilbert filter is not physically feasible, therefore it is necessary to confine it to the approximation in the form of an FIR filter. The more accurately the filter approximation is taken, the larger the interval of the speech file is used for calculations. Thus, due to the transformation indicated for implementation, large calculations are required. On the other hand, the theory assumes that the original signal is stationary, and an increase in the length of the length of the speech file violates this assumption.
Задачей заявленного изобретения является создание способа оценки мгновенной частоты сигнала, не требующего больших вычислений.The objective of the claimed invention is to provide a method for estimating the instantaneous frequency of a signal that does not require large computations.
Поставленная задача решается путем аппроксимации исходного сигнала в окрестности точек локального максимума (положительного локального максимума А, отрицательного локального минимума В, см. Фиг. 1) значениями функции, для которой известен аналитический вид преобразования Гильберта.The problem is solved by approximating the initial signal in the vicinity of the local maximum points (positive local maximum A, negative local minimum B, see Fig. 1) by the values of the function for which the analytical form of the Hilbert transform is known.
Заявленное техническое решение реализуется посредством применения ЭВМ с устройством звукового ввода и программы, обеспечивающей реализацию заявленного способа, и поясняется блок-схемой реализации заявленного способа, приведенной на Фиг. 2.The claimed technical solution is implemented by using a computer with a sound input device and a program that provides the implementation of the claimed method, and is illustrated by the block diagram of the implementation of the claimed method, shown in FIG. 2.
Сущность заявленного технического решения заключается в том, что в способе оценки мгновенной частоты речевого сигнала в точках локального максимума реализуемый на электронно-вычислительной машине, заключающемся во вводе в память компьютера частоты стробирования f и амплитуд звукового сигнала либо посредством использования микрофона и стандартной программы ввода, либо посредством считывания файла звукового сигнала, отличающемся тем, что производится отыскание точек локального максимума амплитуды речевого сигнала, далее производят вычисление величины , где n - позиция локального максимума, далее выполняется подсчет мгновенной частоты в указанной точке по формуле w=ƒ*argcos(Val) и выводят позицию локального максимума и найденную оценку мгновенной частоты в формате n, w.The essence of the claimed technical solution lies in the fact that in a method for estimating the instantaneous frequency of a speech signal at local maximum points, it is implemented on an electronic computer, which consists in entering the gating frequency f and amplitudes of the audio signal into the computer’s memory, either by using a microphone and a standard input program, or by reading the file of the sound signal, characterized in that the points of the local maximum of the amplitude of the speech signal are searched, then produce ychislenie values , where n is the position of the local maximum, then the instantaneous frequency at the specified point is calculated using the formula w = ƒ * argcos (Val) and the position of the local maximum and the found estimate of the instantaneous frequency in the format n, w are derived.
Заявленное техническое решение «Способ оценки мгновенной частоты речевого сигнала в точках локального максимума» реализуется на основании блок-схемы и включает следующую последовательность действий.The claimed technical solution "Method for assessing the instantaneous frequency of a speech signal at local maximum points" is implemented on the basis of the flowchart and includes the following sequence of actions.
1. Осуществляют ввод звукового файла в ЭВМ через микрофон, либо выполняют считывание звукового файла из памяти ЭВМ, далее выполняют ввод частоты стробирования f.1. Enter the sound file into the computer through the microphone, or read the sound file from the computer memory, then enter the sampling frequency f.
2. Выполняют поиск локального максимума в точке х[n], с применением программы ЭВМ, далее выполняют проверку условия2. Perform a search for a local maximum at the point x [n], using a computer program, then check the conditions
х[n-1]<х[n] AND х[n+1<х[n].x [n-1] <x [n] AND x [n + 1 <x [n].
3. Производят вычисление посредством программы ЭВМ по формуле3. Compute through a computer program according to the formula
4. Используя программу ЭВМ, производят вычисление мгновенной частоты w=ƒ*arccos(Val).4. Using a computer program, the instantaneous frequency w = ƒ * arccos (Val) is calculated.
5. Осуществляют вывод результата в формате n, w.5. The result is output in the format n, w.
Таким образом, процедура заявленного «Способа оценки мгновенной частоты речевого сигнала в точках локального максимума» в целом включает следующие шаги и сводится к:Thus, the procedure of the claimed “Method for assessing the instantaneous frequency of a speech signal at local maximum points” generally includes the following steps and is reduced to:
- локализации точки локального максимума (положительного локального максимума, отрицательного локального минимума)x[n0] во входном файле;- localization of the local maximum point (positive local maximum, negative local minimum) x [n 0 ] in the input file;
- апроксимации сигнала в окрестности этой точки функцией вида u(t)=Acos(wt)+Bsin(wt), для которой мгновенная частота в любой точке равняется w и не зависит от коэффициентов А, В;- approximation of the signal in the vicinity of this point by a function of the form u (t) = Acos (wt) + Bsin (wt), for which the instantaneous frequency at any point equals w and does not depend on the coefficients A, B;
- вычислению оценки мгновенной частоты в этой точке согласно формуле- calculating the instantaneous frequency estimate at this point according to the formula
где ƒ - частота стробирования*, примененная при записи речевого сигнала.where ƒ is the gating frequency * used when recording a speech signal.
Так как точка х[n0] есть точка локального максимума, в формуле (1) значения для функции cos меньше 1.Since the point x [n 0 ] is the point of local maximum, in formula (1) the values for the function cos are less than 1.
*Стробирование (англ. strobing, от strobe - посылать избирательные импульсы, от греч. strobos - кружение, беспорядочное движение), метод выделения некоторого интервала на временной оси… Стробирование (англ. strobing, от strobe - посылать избирательные….БСЭ. - 1969-1978).* Strobing (eng. Strobing, from strobe - send selective impulses, from Greek. Strobos - whirling, random movement), the method of allocating a certain interval on the time axis ... Strobing (eng. Strobing, from strobe - send selective ... .BSE. - 1969 -1978).
Обоснование указанной формулы приведено в [2].The rationale for this formula is given in [2].
Для проверки точности предлагаемой оценки был проведен вычислительный эксперимент. Для функции видаTo verify the accuracy of the proposed assessment, a computational experiment was conducted. For a function of the form
ƒ(t)=∑kАk cos(wkt)+Bksin(wkt))ƒ (t) = ∑ k A k cos (w k t) + B k sin (w k t))
известен явный вид преобразования Гильберта (см. [1]), что позволяет подсчитать мгновенную частоту в любой момент времени. Для эксперимента были выбраны 5 слагаемых, коэффициенты Аk, Вk выбирались каждый раз случайным образом, а частоты wk сохранялись постоянными. Для каждого набора коэффициентов находилось точное значение мгновенной частоты и оценка согласно формуле (1):The explicit form of the Hilbert transform is known (see [1]), which allows one to calculate the instantaneous frequency at any time. For the experiment, 5 terms were chosen, the coefficients А k , В k were chosen randomly each time, and the frequencies w k were kept constant. For each set of coefficients, the exact value of the instantaneous frequency and the estimate according to formula (1) were found:
Из приведенных данных видно, что точные значения и их оценки имеют один порядок.From the above data it is seen that the exact values and their estimates are of the same order.
Заявленное техническое решение соответствует критерию «новизна», предъявляемому к изобретениям, так как в результате исследования уровня техники на дату подачи заявки заявителем не выявлены технические решения, обладающие совокупностью заявленных признаков, приводящих к реализации поставленных целей, - созданию способа оценки мгновенной частоты сигнала в точках локального максимума сигнала.The claimed technical solution meets the criterion of "novelty" for inventions, as a result of a study of the prior art on the filing date of the application, the applicant has not identified technical solutions that have a combination of the claimed features leading to the realization of the set goals - to create a method for estimating the instantaneous signal frequency at points local maximum signal.
Заявленное техническое решение соответствует критерию «изобретательский уровень», предъявляемому к изобретениям, так как для специалиста в заявленной области техники не являются очевидным полученные технические результаты, выражающиеся в том, что заявителем решена актуальная, не разрешенная до даты подачи настоящей заявки проблема, заключающаяся в необходимости создания простого способа оценки мгновенной частоты сигнала, которая разрешена авторами посредством создания принципиально нового способа, заключающегося в аппроксимации сигнала в окрестности точки локального максимума (положительного локального максимума, отрицательного локального минимума) функцией с известной мгновенной частотой.The claimed technical solution meets the criterion of "inventive step" for inventions, since it is not obvious to a specialist in the claimed field of technology that the technical results obtained are expressed in that the applicant has solved an urgent problem that is not resolved before the filing date of this application, consisting in the need creating a simple method for estimating the instantaneous signal frequency, which is allowed by the authors by creating a fundamentally new method, which consists in approximating signal in the vicinity of the local maximum point (positive local maximum, negative local minimum) by a function with a known instantaneous frequency.
Таким образом, заявленное решение не вытекает явным образом из известного уровня техники, что также является дополнительным доказательством соответствия заявленного технического решения критерию «изобретательский уровень».Thus, the claimed solution does not follow explicitly from the prior art, which is also additional evidence of the conformity of the claimed technical solution to the criterion of "inventive step".
Заявленное техническое решение реализовано в лабораторных условиях Казанского государственного университета и может быть реализовано на любом специализированном предприятии (учреждении) с использованием стандартного оборудования, что является доказательством соответствия заявленного технического решения критерию «промышленная применимость», предъявляемому к изобретениям.The claimed technical solution is implemented in the laboratory conditions of Kazan State University and can be implemented at any specialized enterprise (institution) using standard equipment, which is evidence of the conformity of the claimed technical solution to the criterion of "industrial applicability" for inventions.
Источники информацииInformation sources
1. Лайонс Р. Цифровая обработка сигналов. М.: Бином, 2006 г., 652 с. 1. Lyons R. Digital signal processing. M .: Binom, 2006, 652 p.
2. Нигматуллин Р.Р., Столов Е.Л. Параметры, характеризующие локальные фрагменты речевых файлов.// Ученые записки Казанского университета, Серия Физико-математические науки - т. 155 - Книга 2- 2013 г., с. 100-107.2. Nigmatullin R.R., Stolov E.L. Parameters characterizing local fragments of speech files. // Scientific notes of Kazan University, Series Physics and Mathematics - t. 155 - Book 2 - 2013, p. 100-107.
Claims (1)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2016132226A RU2621647C1 (en) | 2016-07-26 | 2016-07-26 | Way of estimating the instantaneous frequency of the voice signal in local maximum points |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2016132226A RU2621647C1 (en) | 2016-07-26 | 2016-07-26 | Way of estimating the instantaneous frequency of the voice signal in local maximum points |
Publications (1)
Publication Number | Publication Date |
---|---|
RU2621647C1 true RU2621647C1 (en) | 2017-06-06 |
Family
ID=59032091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2016132226A RU2621647C1 (en) | 2016-07-26 | 2016-07-26 | Way of estimating the instantaneous frequency of the voice signal in local maximum points |
Country Status (1)
Country | Link |
---|---|
RU (1) | RU2621647C1 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2007763C1 (en) * | 1991-04-04 | 1994-02-15 | Завод "Калугаприбор" | Method for decoding of main tone from speech signal |
EP0645756A1 (en) * | 1993-09-29 | 1995-03-29 | Ericsson Ge Mobile Communications Inc. | System for adaptively reducing noise in speech signals |
US20030028374A1 (en) * | 2001-07-31 | 2003-02-06 | Zlatan Ribic | Method for suppressing noise as well as a method for recognizing voice signals |
-
2016
- 2016-07-26 RU RU2016132226A patent/RU2621647C1/en active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2007763C1 (en) * | 1991-04-04 | 1994-02-15 | Завод "Калугаприбор" | Method for decoding of main tone from speech signal |
EP0645756A1 (en) * | 1993-09-29 | 1995-03-29 | Ericsson Ge Mobile Communications Inc. | System for adaptively reducing noise in speech signals |
US20030028374A1 (en) * | 2001-07-31 | 2003-02-06 | Zlatan Ribic | Method for suppressing noise as well as a method for recognizing voice signals |
Non-Patent Citations (1)
Title |
---|
РИЧАРД ЛАЙОНС "Цифровая обработка сигналов", Москва Издательство БИНОМ, второе издание, опубл. в 2006 г., с. 367, 368, фиг. 9.7. СЛАВЯНСКАЯ ЛАРИСА ВЛАДИМИРОВНА, "Кодирование звуковой информации. Подготовка к ЕГЭ", апрель 2016 "Цифровые аудиоформаты", 28.11.2014. НИГМАТУЛЛИН Р.Р. и др "Параметры, характеризующие локальные фрагменты речевых файлов", Ученые записки Казанского университета, Физико-математические науки, 2013, том 155, книга 2, 100-107, опубл. в 2013 г. на 9 страницах. * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Loughlin et al. | The uncertainty principle: global, local, or both? | |
KR101687658B1 (en) | Method and system for inverse Chirp-z transformation | |
EP4318471A2 (en) | Conept for encoding of information | |
Dörfler et al. | Nonstationary Gabor frames-approximately dual frames and reconstruction errors | |
JP2018534618A (en) | Noise signal determination method and apparatus, and audio noise removal method and apparatus | |
CN113724724A (en) | Echo detection | |
Nicolalde-Rodríguez et al. | Audio authenticity based on the discontinuity of ENF higher harmonics | |
RU2621647C1 (en) | Way of estimating the instantaneous frequency of the voice signal in local maximum points | |
CN105550308B (en) | A kind of information processing method, search method and electronic equipment | |
JP5994639B2 (en) | Sound section detection device, sound section detection method, and sound section detection program | |
Onchis et al. | Generalized Goertzel algorithm for computing the natural frequencies of cantilever beams | |
CN116706876A (en) | Broadband oscillation identification method, device and equipment for dual-high power system | |
RU2012145420A (en) | METHOD AND SYSTEM FOR IDENTIFICATION OF DIGITAL SIGNAL EVENTS | |
CN110755055A (en) | Method and equipment for determining waveform evaluation information of pulse waveform | |
US11867733B2 (en) | Systems and methods of signal analysis and data transfer using spectrogram construction and inversion | |
CN112581975A (en) | Ultrasonic voice instruction defense method based on signal aliasing and two-channel correlation | |
US20200388301A1 (en) | Pitch enhancement apparatus, pitch enhancement method, and program | |
Giri et al. | Block sparse excitation based all-pole modeling of speech | |
JP4537821B2 (en) | Audio signal analysis method, audio signal recognition method using the method, audio signal section detection method, apparatus, program and recording medium thereof | |
Voytko et al. | Resonant scattering of the SH-wave by the interface impedance defect in an elastic layer | |
US10381023B2 (en) | Speech evaluation apparatus and speech evaluation method | |
JP2018191255A (en) | Sound collecting device, method thereof, and program | |
Janková et al. | Hybrid approach Wavelet seasonal autoregressive integrated moving average model (WSARIMA) for modeling time series | |
WO2022088042A1 (en) | Method and apparatus for measuring nonlinear relevant parameter of nonlinear device, and system | |
Yueyue et al. | Performance evaluation for frequency domain blind source separation algorithms |