RU2811741C1 - Method for separating speech and pauses by analyzing changes in values of frequency and time parameters of additive mixture of signal and noise - Google Patents

Method for separating speech and pauses by analyzing changes in values of frequency and time parameters of additive mixture of signal and noise Download PDF

Info

Publication number
RU2811741C1
RU2811741C1 RU2023112221A RU2023112221A RU2811741C1 RU 2811741 C1 RU2811741 C1 RU 2811741C1 RU 2023112221 A RU2023112221 A RU 2023112221A RU 2023112221 A RU2023112221 A RU 2023112221A RU 2811741 C1 RU2811741 C1 RU 2811741C1
Authority
RU
Russia
Prior art keywords
signal
sliding window
frequency
value
values
Prior art date
Application number
RU2023112221A
Other languages
Russian (ru)
Inventor
Владимир Алексеевич Золотарев
Данил Сергеевич Карманов
Original Assignee
Акционерное общество "Концерн "Созвездие"
Filing date
Publication date
Application filed by Акционерное общество "Концерн "Созвездие" filed Critical Акционерное общество "Концерн "Созвездие"
Application granted granted Critical
Publication of RU2811741C1 publication Critical patent/RU2811741C1/en

Links

Abstract

FIELD: acoustics.
SUBSTANCE: method for transmitting and broadcasting speech information. A spectral analysis of the interference or an additive mixture of the speech signal and interference is carried out for each position of the “sliding window”. Spectral analysis is carried out by analyzing multi-frequency periodic signals represented by digital samples using compensation of cross products. Threshold values are set for amplitudes, the number of spectral components, and the number of spectral components with the same frequencies detected in adjacent “sliding windows”. For each position of the “sliding window” for which the presence of a signal is possible, the number of detected components and the duration of the signal are calculated, which is recorded as a speech signal. For two adjacent positions of the “sliding window”, the values of the number of spectral components with the same frequencies are calculated. Based on the results of analyzing the number of spectral components, the duration of the signal, the value of the number of spectral components with the same frequencies detected in adjacent “sliding windows”, a decision is made on the presence or absence of a speech signal.
EFFECT: increasing the efficiency of making the correct decision about the appearance of a speech signal in the presence of acoustic interference.
1 cl, 3 dwg, 1 tbl

Description

Изобретение относится к области цифровой обработки речевых сигналов и может найти применение в устройствах связи. The invention relates to the field of digital processing of speech signals and can find application in communication devices.

Известен способ спектрального анализа электрических сигналов (патент РФ №2431853), в котором анализируемый электрический сигнал подают одновременно на гребенку фильтров, настроенных на различные частоты, и измеряют сигналы на выходах этих фильтров, причем до проведения измерений диапазон контролируемых частот разбивают на элементы разрешения с шагом дискретизации, соответствующим желаемым точности и разрешению спектрального анализа. Недостатком данного способа является сложность технической реализации и недостаточно высокая эффективность решения задачи разделения речи и пауз. There is a known method for spectral analysis of electrical signals (RF patent No. 2431853), in which the analyzed electrical signal is simultaneously fed to a comb of filters tuned to different frequencies, and the signals at the outputs of these filters are measured, and before the measurements, the range of controlled frequencies is divided into resolution elements with steps sampling corresponding to the desired accuracy and resolution of spectral analysis. The disadvantage of this method is the complexity of the technical implementation and the insufficiently high efficiency of solving the problem of separating speech and pauses.

Известен способ спектрального анализа сигналов (патент РФ №2127888), в котором при дискретизации и квантовании сигнала создают последовательности дискретных значений сигнала с различными частотами следования отсчетов в каждой из них. При этом дискретные значения этих последовательностей фильтруют с помощью цифровых полосовых фильтров и цифровых фильтров нижних частот. Сигналы с выходов цифровых полосовых фильтров подвергают обработке, связанной с определением амплитудных значений, а на их основе и остальных информативных параметров полосовых сигналов. Недостатком данного способа является недостаточно высокая эффективность решения задачи разделения речи и пауз. There is a known method for spectral analysis of signals (RF patent No. 2127888), in which, when sampling and quantizing a signal, sequences of discrete signal values are created with different sampling frequencies in each of them. In this case, the discrete values of these sequences are filtered using digital bandpass filters and digital low-pass filters. Signals from the outputs of digital bandpass filters are subjected to processing associated with determining the amplitude values, and on their basis, other informative parameters of the bandpass signals. The disadvantage of this method is that it is not very efficient in solving the problem of separating speech and pauses.

Известен способ спектрального анализа многочастотных периодических сигналов, представленных цифровыми отсчетами (Функциональный контроль и диагностика электротехнических систем и устройств по цифровым отсчетам мгновенных значений тока и напряжения. /под редакцией Е.И. Гольдштейна - Томск: Изд. «Печатная мануфактура», 2003, с.92-94). У этого способа недостаточно высокая эффективность решения задачи разделения речи и пауз. There is a known method for spectral analysis of multi-frequency periodic signals represented by digital readings (Functional control and diagnostics of electrical systems and devices using digital readings of instantaneous current and voltage values. /edited by E.I. Goldstein - Tomsk: Publishing House "Printed Manufactory", 2003, p. .92-94). This method is not very effective in solving the problem of separating speech and pauses.

Известен способ спектрального анализа сигналов (патент РФ №2730043 G01R23/16). Недостатком данного способа является недостаточно высокая эффективность решения задачи разделения речи и пауз. There is a known method for spectral analysis of signals (RF patent No. 2730043 G01R23/16 ). The disadvantage of this method is that it is not very efficient in solving the problem of separating speech and pauses.

Известен способ разделения речи и пауз, описанный в книге «Цифровая обработка речевых сигналов. //Л.Р. Рабинер, Р.В. Шафер. Перевод с английского под редакцией М.В. Назарова и Ю.Н. Прохорова. Москва, «Радио и связь», 1981», стр. 123 - 126. Недостатком данного способа являются недостаточно высокая точность решения задачи определения момента появления речевого сигнала и высокая вероятность ошибочного решения о появлении сигнала в условиях наличия акустического шум. There is a known method for separating speech and pauses, described in the book “Digital processing of speech signals. //L.R. Rabiner, R.V. Best man. Translation from English edited by M.V. Nazarov and Yu.N. Prokhorova. Moscow, “Radio and Communications”, 1981,” pp. 123 - 126. The disadvantage of this method is the insufficiently high accuracy of solving the problem of determining the moment of appearance of a speech signal and the high probability of an erroneous decision about the appearance of a signal in the presence of acoustic noise.

Известен способ разделения речи и пауз путем сравнительного анализа значений мощностей помехи и смеси сигнала и помехи по патенту RU 2668407, G10L 25/93 , который имеет недостаточно высокую эффективность решения задачи разделения речи и пауз в условиях наличия мощных акустических помех. There is a known method for separating speech and pauses by comparative analysis of the values of the interference powers and the mixture of signal and interference according to patent RU 2668407, G10L 25/93 , which is not highly efficient in solving the problem of separating speech and pauses in the presence of powerful acoustic interference.

Известен способ разделения речи и пауз путем анализа значений фаз частотных составляющих шума и сигнала по патенту RU 2680735, G10L 21/0272 , недостатком которого является недостаточно высокая эффективность решения задачи разделения речи и пауз в условиях наличия большого числа частотных составляющих акустических помех. There is a known method for separating speech and pauses by analyzing the phase values of the frequency components of noise and signal according to patent RU 2680735, G10L 21/0272 , the disadvantage of which is the insufficiently high efficiency of solving the problem of separating speech and pauses in the presence of a large number of frequency components of acoustic interference.

Известен способ разделения речи и пауз путем анализа значений корреляционной функции помехи и смеси сигнала и помехи по патенту RU 2691603, G10L 15/00 . Известное техническое решение обладает недостаточно высокой эффективностью при решении задачи разделения речи и пауз в условиях априорной неопределенности информации о присутствии в интервале анализа только помехи или смеси помехи и сигнала. There is a known method for separating speech and pauses by analyzing the values of the correlation function of interference and the mixture of signal and interference according to patent RU 2691603, G10L 15/00 . The known technical solution is not highly efficient in solving the problem of separating speech and pauses under conditions of a priori uncertainty of information about the presence in the analysis interval of only interference or a mixture of interference and signal.

Известен способ разделения речи и речеподобного шума путем анализа значений энергии и фаз частотных составляющих сигнала и шума, описанный в патенте RU 2700189, H04Q1/46, недостатком которого является недостаточно высокая эффективность решения задачи разделения речи и пауз в условиях наличия большого числа частотных составляющих акустических помех. There is a known method for separating speech and speech-like noise by analyzing the energy values and phases of the frequency components of the signal and noise, described in patent RU 2700189, H04Q1/46 , the disadvantage of which is the insufficiently high efficiency of solving the problem of separating speech and pauses in the presence of a large number of frequency components of acoustic interference .

Наиболее близким аналогом по технической сущности к предлагаемому является способ разделения речи и пауз по значениям дисперсий амплитуд спектральных составляющих, описанный в патенте RU 2723301, G10L 25/93 , принятый за прототип. The closest analogue in technical essence to the proposed one is a method for separating speech and pauses according to the dispersion values of the amplitudes of the spectral components, described in patent RU 2723301, G10L 25/93 , adopted as a prototype.

Способ-прототип заключается в следующем. The prototype method is as follows.

На всем интервале анализа, состоящего из интервала, который содержит шум или речевой сигнал, или смесь речевого сигнала и шума, которые поступают в устройство - входной сигнал, сигнал разветвляют на две одинаковые составляющие, одну из них фильтруют фильтром нижних частот (ФНЧ), вторую составляющую фильтруют полосовым фильтром, сигналы, поступившие на выходы фильтров дискретизируют и заносят в память для последующей обработки, формируют «скользящее окно», состоящее из интервалов одинаковой длительности, «скользящее окно» сдвигают на некоторое, заранее определенное количество отсчетов, «скользящее окно» формируют так, что оно включает в себя два интервала анализа, каждый из которых состоит из нескольких интервалов одинаковой длительности, первое положение «скользящего окна» устанавливают так, что в первом интервале анализа присутствует только помеха. Осуществляют спектральный анализ входного сигнала для каждого интервала следующим образом. Каждый результат преобразования входного сигнала, который образуется после умножения входного сигнала на синус и косинус опорных частот, разветвляют на две одинаковые составляющие, первую составляющую фильтруют фильтром нижних частот, полоса которого согласована с полосой анализируемого сигнала, одновременно вторую составляющую фильтруют полосовым фильтром, полоса пропускания которого выбирается так, что верхняя частота полосового фильтра соответствует верхней частоте анализируемого сигнала, нижнюю частоту полосового фильтра устанавливают равной некоторому заранее заданному значению, выбор ФНЧ и полосового фильтра осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что амплитудно-частотная характеристика (АЧХ) полосового фильтра в области частот близких к нулю имеет максимально-возможную крутизну, в области частот, начиная со значения, для которого разность значений АЧХ ФНЧ и полосового фильтра становится меньше некоторой заранее заданной величины, обеспечивают идентичность их АЧХ в максимальной степени. Сигналы, прошедшие ФНЧ и полосовой фильтр, вычитают один из другого, результаты вычитания преобразуют в цифровой вид, по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, определяют мгновенную спектральную плотность (МСП) для каждой опорной частоты и запоминают эти значения пропорциональные амплитуде сигналов, находят среднее значение МСП, определяют значение порога путем умножения найденного среднего значения МСП на коэффициент, значение которого устанавливают заранее, полученные значения МСП сравнивают с порогом, по результатам сравнения принимают решение о наличии или об отсутствии сигнала с соответствующей частотой, находят значения мощности каждого выделенного сигнала путем возведения в квадрат соответствующих значений МСП, находят для каждой гармоники дисперсию значений мощностей для первого и второго интервалов анализа, рассчитывают среднее значение дисперсий мощностей первого и второго интервалов, усреднение осуществляют по числу гармоник, определяют пороговое значение путем умножения среднего значения дисперсии значений мощностей первого интервала анализа, принадлежащего «скользящему окну», на коэффициент, значение которого определяют заранее, находят значение разности средних значений дисперсий мощностей, рассчитанных для первого и второго интервалов анализа, данное значение разности сравнивают с порогом. читают, что во втором интервале анализа присутствует только помеха, если значение разности среднее значение дисперсий значений мощностей не превышает порог, в противном случае считают, что во втором интервале анализа присутствует сигнал или смесь сигнала и помехи, сдвигают «скользящее окно» на заданное значение интервалов, описанную процедуру повторяют. Для последующих шагов пороговое значение для разности средних значений дисперсии значений мощностей интервалов анализа определяют с использованием среднего значения средних значений дисперсии мощностей интервалов анализа, которое рассчитывают, применяя принцип «первый пришел, первый ушел», процесс продолжают до тех пор, пока не закончится время, отведенное для анализа входного сигнала.Over the entire analysis interval, consisting of an interval that contains noise or a speech signal, or a mixture of a speech signal and noise that enters the device - the input signal, the signal is branched into two identical components, one of them is filtered with a low-pass filter (LPF), the second the component is filtered by a bandpass filter, the signals received at the filter outputs are sampled and stored in memory for subsequent processing, a “sliding window” is formed, consisting of intervals of the same duration, the “sliding window” is shifted by a certain predetermined number of samples, the “sliding window” is formed so that it includes two analysis intervals, each of which consists of several intervals of the same duration, the first position of the "sliding window" is set so that only interference is present in the first analysis interval. Spectral analysis of the input signal is carried out for each interval as follows. Each result of transforming the input signal, which is formed after multiplying the input signal by the sine and cosine of the reference frequencies, is branched into two identical components, the first component is filtered with a low-pass filter, the band of which is consistent with the band of the analyzed signal, while the second component is filtered with a band-pass filter, the passband of which is selected so that the upper frequency of the bandpass filter corresponds to the upper frequency of the analyzed signal, the lower frequency of the bandpass filter is set equal to some predetermined value, the selection of the low-pass filter and the bandpass filter is carried out with phase-frequency characteristics identical to the maximum extent and so that the amplitude-frequency response (AFC) ) of a bandpass filter in the frequency range close to zero has the maximum possible slope; in the frequency range, starting from a value for which the difference between the frequency response values of the low-pass filter and the bandpass filter becomes less than a certain predetermined value, their frequency responses are ensured to the maximum extent. The signals that have passed through the low-pass filter and the band-pass filter are subtracted from each other, the results of the subtraction are converted into digital form, using these values corresponding to the sine and cosine components of one frequency, the instantaneous spectral density (ISD) is determined for each reference frequency and these values are stored, proportional to the amplitude of the signals , find the average value of the MRP, determine the threshold value by multiplying the found average value of the MRP by a coefficient, the value of which is set in advance, the obtained values of the MRP are compared with the threshold, based on the comparison results, a decision is made about the presence or absence of a signal with the corresponding frequency, the power values of each selected one are found signal by squaring the corresponding MRP values, find for each harmonic the dispersion of power values for the first and second analysis intervals, calculate the average value of the power dispersions of the first and second intervals, averaging is carried out by the number of harmonics, determine the threshold value by multiplying the average value of the dispersion of power values of the first analysis interval belonging to the “sliding window” by a coefficient whose value is determined in advance, the difference between the average values of the power dispersions calculated for the first and second analysis intervals is found, this difference value is compared with the threshold. read that in the second analysis interval there is only noise if the difference value is the average value of the variances of the power values does not exceed the threshold, otherwise they consider that in the second analysis interval there is a signal or a mixture of signal and noise, shift the “sliding window” by a given interval value , the described procedure is repeated. For subsequent steps, the threshold value for the difference in the mean variance of the analysis interval powers is determined using the average of the mean variances of the analysis interval powers, which is calculated using the principle of “first in, first out”, the process continues until the time runs out. reserved for analysis of the input signal.

Способ-прототип обладает недостаточно высокой эффективностью при решении задачи разделения речи и пауз в условиях наличия помехи с быстро изменяющейся мощностью. The prototype method is not highly efficient in solving the problem of separating speech and pauses in the presence of interference with rapidly changing power.

Задачей предлагаемого способа является повышение эффективности принятия правильного решения о появлении речевого сигнала при наличии акустических шумоподобных и речеподобных акустических помех.The objective of the proposed method is to increase the efficiency of making the correct decision about the appearance of a speech signal in the presence of acoustic noise-like and speech-like acoustic interference.

Для решения поставленной задачи в способе разделения речи и пауз путем анализа изменения значений частотных и временных параметров аддитивной смеси сигнала и помехи, заключающемся в том, что на всем интервале анализа, состоящего из интервала, содержащего шум или речевой сигнал или смесь речевого сигнала и шума, которые поступают в устройство - входной сигнал, дискретизируют и заносят в память для последующей обработки; формируют «скользящее окно», «скользящее окно» сдвигают на некоторое, заранее определенное количество отсчетов, первое положение «скользящего окна» устанавливают так, что в первом интервале анализа присутствует только помеха; осуществляют спектральный анализ входного сигнала для каждого интервала следующим образом: каждый результат преобразования входного сигнала, который образуется после умножения входного сигнала на синус и косинус опорных частот, разветвляют на две одинаковые составляющие, первую составляющую фильтруют фильтром нижних частот (ФНЧ), полоса которого согласована с полосой анализируемого сигнала, одновременно вторую составляющую фильтруют полосовым фильтром, полоса пропускания которого выбирается так, что верхняя частота полосового фильтра соответствует верхней частоте анализируемого сигнала, нижнюю частоту полосового фильтра устанавливают равной некоторому заранее заданному значению; выбор ФНЧ и полосового фильтра осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что амплитудно-частотная характеристика (АЧХ) полосового фильтра в области частот близких к нулю имеет максимально возможную крутизну, в области частот, начиная со значения, для которого разность значений АЧХ ФНЧ и полосового фильтра становится меньше некоторой заранее заданной величины, обеспечивают идентичность их АЧХ в максимальной степени; сигналы, прошедшие ФНЧ и полосовой фильтр, вычитают один из другого, результаты вычитания преобразуют в цифровой вид, по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, определяют мгновенную спектральную плотность (МСП) для каждой опорной частоты путем извлечения квадратного корня из суммы их квадратов и запоминают эти значения, пропорциональные амплитуде сигналов, находят среднее значение МСП, согласно изобретению , заранее устанавливают значения: интервала анализа; длительности «скользящего окна»; временного интервала, на который сдвигают «скользящее окно»; минимальной и максимальной длительности речевого сигнала; коэффициентов, с использованием которых рассчитывают пороговые значения для амплитуды спектральных составляющих, для числа спектральных составляющих, значения амплитуд которых превысили порог - обнаруженные составляющие, для среднего значения числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах»;To solve the problem in the method of separating speech and pauses by analyzing changes in the values of frequency and time parameters of an additive mixture of signal and noise, which consists in the fact that over the entire analysis interval, consisting of an interval containing noise or a speech signal or a mixture of speech signal and noise, which enter the device - the input signal, are sampled and stored in memory for subsequent processing; a “sliding window” is formed, the “sliding window” is shifted by a certain predetermined number of samples, the first position of the “sliding window” is set so that only noise is present in the first analysis interval; carry out a spectral analysis of the input signal for each interval as follows: each result of transforming the input signal, which is formed after multiplying the input signal by the sine and cosine of the reference frequencies, is branched into two identical components, the first component is filtered with a low-pass filter (LPF), the bandwidth of which is consistent with the band of the analyzed signal, at the same time the second component is filtered by a band-pass filter, the passband of which is selected so that the upper frequency of the band-pass filter corresponds to the upper frequency of the analyzed signal, the lower frequency of the band-pass filter is set equal to some predetermined value; the choice of a low-pass filter and a bandpass filter is carried out with phase-frequency characteristics identical to the maximum extent and so that the amplitude-frequency response (AFC) of the bandpass filter in the frequency range close to zero has the maximum possible slope, in the frequency range, starting from the value for which the difference the values of the frequency response of the low-pass filter and the bandpass filter become less than a certain predetermined value, ensuring that their frequency response is identical to the maximum extent; the signals that have passed through the low-pass filter and the band-pass filter are subtracted from each other, the results of the subtraction are converted into digital form, and from these values corresponding to the sine and cosine components of one frequency, the instantaneous spectral density (ISD) is determined for each reference frequency by taking the square root of their sum squares and remember these values, proportional to the amplitude of the signals, find the average value of the MSP, according to the invention , set in advance the values of: analysis interval; duration of the “sliding window”; time interval by which the “sliding window” is shifted; minimum and maximum duration of the speech signal; coefficients used to calculate threshold values for the amplitude of spectral components, for the number of spectral components whose amplitude values exceeded the threshold - detected components, for the average value of the number of spectral components with the same frequencies detected in adjacent “sliding windows”;

сдвигают «скользящее окно» на несколько временных интервалов, значение числа сдвигов устанавливают заранее; the “sliding window” is shifted by several time intervals, the value of the number of shifts is set in advance;

для каждого положения «скользящего окна» проводят спектральный анализ, for each position of the “sliding window” a spectral analysis is carried out,

для нескольких первых положений «скользящего окна», число которых устанавливают заранее, для которых выполняется условие отсутствия сигнала, рассчитывают: среднее значение амплитуд спектральных составляющих и пороговое значение для амплитуд спектральных составляющих; суммарное число составляющих, амплитуда которых превысила пороговое значение; пороговое значение для числа обнаруженных составляющих; среднее значение числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах»; пороговое значение для значения числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах»; for the first few positions of the “sliding window”, the number of which is set in advance, for which the condition of no signal is met, the following are calculated: the average value of the amplitudes of the spectral components and the threshold value for the amplitudes of the spectral components; the total number of components whose amplitude exceeded the threshold value; threshold value for the number of detected components; the average number of spectral components with the same frequencies detected in adjacent “sliding windows”; a threshold value for the number of spectral components with the same frequencies detected in adjacent “sliding windows”;

для положений «скользящего окна», для которых возможно присутствие сигнала, рассчитывают значение числа обнаруженных составляющих, если данное значение превысило пороговое значение для числа спектральных составляющих, то считают, что для данного положения «скользящего окна» возможно присутствие речевого сигнала, это событие регистрируют; for positions of the “sliding window” for which the presence of a signal is possible, the value of the number of detected components is calculated; if this value exceeds the threshold value for the number of spectral components, then it is considered that for this position of the “sliding window” the presence of a speech signal is possible, this event is recorded;

если для какого-либо положения «скользящего окна», для которого возможно присутствие сигнала, не зарегистрировано наличие речевого сигнала, то сигнал, присутствующий во данном «скользящем окне» считают помехой; if for any position of the “sliding window” for which the presence of a signal is possible, the presence of a speech signal is not registered, then the signal present in this “sliding window” is considered interference;

регистрируют положения «скользящего окна», для которых для всех его положений возможно присутствие речевого сигнала, для этого случая рассчитывают длительность сигнала, если длительность сигнала превышает минимальное пороговое значение и не превышает максимальное пороговое значение, то рассчитывают среднее значение числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах», если данное значение превышает пороговое значение, то считают, что в этих «скользящих окнах» присутствует речевой сигнал, в противном случае считают, что в этих «скользящих окнах», присутствует только помеха; the positions of the “sliding window” are recorded, for which the presence of a speech signal is possible for all its positions, for this case the duration of the signal is calculated, if the duration of the signal exceeds the minimum threshold value and does not exceed the maximum threshold value, then the average value of the number of spectral components with the same frequencies is calculated, detected in nearby “sliding windows”, if this value exceeds the threshold value, then it is considered that there is a speech signal in these “sliding windows”, otherwise it is considered that only interference is present in these “sliding windows”;

если длительность сигнала не превышает минимальное значение или превышает максимальное пороговое значение, то считают, что в этих «скользящих окнах», присутствует только помеха; if the signal duration does not exceed the minimum value or exceeds the maximum threshold value, then it is considered that only interference is present in these “sliding windows”;

процесс изменения положения «скользящего окна» осуществляют до тех пор, пока не будет исчерпан интервал анализа сигнала. the process of changing the position of the “sliding window” is carried out until the signal analysis interval is exhausted.

Предлагаемый способ заключается в следующем. The proposed method is as follows.

Заранее устанавливают значения: Set the values in advance:

- интервала анализа; - analysis interval;

- длительности «скользящего окна»; - duration of the “sliding window”;

- временного интервала, на который сдвигают «скользящее окно»;- time interval by which the “sliding window” is shifted;

- минимальной и максимальной длительности речевого сигнала.- minimum and maximum duration of the speech signal.

Также заранее устанавливают значения коэффициентов, с использованием которых рассчитывают пороговые значения:Also, the values of the coefficients are set in advance, using which the threshold values are calculated:

- для амплитуды спектральных составляющих;- for the amplitude of spectral components;

- для числа спектральных составляющих, значения амплитуд которых превысили порог - обнаруженные составляющие;- for the number of spectral components whose amplitude values exceeded the threshold - detected components;

- для среднего значения числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах».- for the average value of the number of spectral components with the same frequencies detected in adjacent “sliding windows”.

Данные значения устанавливают для типовых условий применения устройства, в котором реализован способ разделения речи и пауз, методом математического моделирования или экспериментальным путем. These values are established for typical conditions of use of a device in which a method for separating speech and pauses is implemented, using the method of mathematical modeling or experimentally.

Входной сигнал преобразуют в цифровой вид и заносят в память для последующей обработки. The input signal is converted into digital form and stored in memory for subsequent processing.

Формируют «скользящее окно». A “sliding window” is formed.

Сдвигают «скользящее окно» на несколько временных интервалов. Значение числа сдвигов устанавливают заранее.The “sliding window” is shifted by several time intervals. The number of shifts is set in advance.

Для каждого положения «скользящего окна» проводят спектральный анализ.For each sliding window position, a spectral analysis is performed.

Спектральный анализ осуществляют, например, способом, описание которого приведено в патенте РФ №2730043.Spectral analysis is carried out, for example, using the method described in RF patent No. 2730043.

Каждый результат преобразования входного сигнала, который образуется после умножения входного сигнала на синус и косинус опорных частот, разветвляют на две одинаковые составляющие. Each result of converting the input signal, which is formed after multiplying the input signal by the sine and cosine of the reference frequencies, is branched into two identical components.

Первую составляющую фильтруют фильтром нижних частот (ФНЧ), полоса которого согласована с полосой анализируемого сигнала. Одновременно вторую составляющую фильтруют полосовым фильтром, полоса пропускания которого выбирается так, что верхняя частота полосового фильтра соответствует верхней частоте анализируемого сигнала, нижнюю частоту полосового фильтра устанавливают равной некоторому заранее заданному значению. Выбор ФНЧ и полосового фильтра осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что амплитудно-частотная характеристика (АЧХ) полосового фильтра в области частот близких к нулю имеет максимально-возможную крутизну, в области частот, начиная со значения, для которого разность значений амплитудно-частотной характеристики ФНЧ и полосового фильтра становится меньше некоторой заранее заданной величины, обеспечивают идентичность их АЧХ в максимальной степени (иллюстративный пример приведен на фиг. 1).The first component is filtered by a low-pass filter (LPF), the band of which is consistent with the band of the analyzed signal. At the same time, the second component is filtered by a bandpass filter, the passband of which is selected so that the upper frequency of the bandpass filter corresponds to the upper frequency of the analyzed signal, the lower frequency of the bandpass filter is set equal to some predetermined value. The choice of a low-pass filter and a band-pass filter is carried out with phase-frequency characteristics that are identical to the maximum extent and so that the amplitude-frequency response (AFC) of the band-pass filter in the frequency range close to zero has the maximum possible slope in the frequency range, starting from the value for which the difference between the amplitude-frequency characteristics of the low-pass filter and the band-pass filter becomes less than a certain predetermined value, ensuring that their frequency response is identical to the maximum extent (an illustrative example is shown in Fig. 1).

Сигналы, прошедшие ФНЧ и полосовой фильтр, вычитают один из другого. Результаты вычитания преобразуют в цифровой вид, по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, определяют мгновенную спектральную плотность (МСП) для каждой опорной частоты и запоминают эти значения пропорциональные амплитуде сигналов. The signals that pass through the low-pass filter and the band-pass filter subtract one from the other. The subtraction results are converted into digital form, using these values corresponding to the sine and cosine components of one frequency, the instantaneous spectral density (ISD) is determined for each reference frequency and these values proportional to the amplitude of the signals are stored.

Для нескольких первых положений «скользящего окна», число которых устанавливают заранее, для которых выполняется условие отсутствия сигнала, рассчитывают: For the first few positions of the “sliding window”, the number of which is set in advance, for which the condition of the absence of a signal is satisfied, calculate:

- среднее значение амплитуд спектральных составляющих и пороговое значение для амплитуд спектральных составляющих путем умножения данного значения на значение соответствующего коэффициента;- the average value of the amplitudes of the spectral components and the threshold value for the amplitudes of the spectral components by multiplying this value by the value of the corresponding coefficient;

- среднее значение числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах», и пороговое значение для среднего числа спектральных составляющих с одинаковыми частотами путем умножения данного среднего значения на значение соответствующего коэффициента. - the average value of the number of spectral components with the same frequencies detected in adjacent “sliding windows”, and the threshold value for the average number of spectral components with the same frequencies by multiplying this average value by the value of the corresponding coefficient.

Число первых положений «скользящего окна», для которых выполняется условие отсутствия сигнала, рассчитывают для типовых условий применения устройства, в котором реализован способ разделения речи и пауз, методом математического моделирования или экспериментальным путем. The number of the first positions of the “sliding window” for which the condition of absence of a signal is satisfied is calculated for typical conditions of use of a device in which a method for separating speech and pauses is implemented, using the method of mathematical modeling or experimentally.

Для положений «скользящего окна», для которых возможно присутствие сигнала, рассчитывают значение числа составляющих, значения амплитуд которых превысили соответствующее пороговое значение. Если данное значение превысило пороговое значение для числа спектральных составляющих, то считают, что для данного положения «скользящего окна» возможно присутствие речевого сигнала (иллюстративный пример приведен на фиг. 2).For the “sliding window” positions for which the presence of a signal is possible, the value of the number of components whose amplitude values exceeded the corresponding threshold value is calculated. If this value exceeds the threshold value for the number of spectral components, then it is considered that the presence of a speech signal is possible for a given sliding window position (an illustrative example is shown in Fig. 2).

Это событие регистрируют. This event is logged.

Если для какого-либо положения «скользящего окна», для которого возможно присутствие сигнала, не зарегистрировано наличие речевого сигнала, то сигналы, присутствующие в данных «скользящих окнах» считают помехой. If the presence of a speech signal is not detected for any position of the "sliding window" for which the presence of a signal is possible, then the signals present in these "sliding windows" are considered interference.

Регистрируют положения «скользящего окна», для которых для всех его положений возможно присутствие речевого сигнала. Для этого случая рассчитывают длительность сигнала.The positions of the “sliding window” are recorded, for which the presence of a speech signal is possible for all its positions. For this case, the signal duration is calculated.

Длительность сигнала рассчитывают по формулеThe signal duration is calculated using the formula

где Тсо - длительность «скользящего окна»; Тссо - длительность интервала, на который сдвигают «скользящее окно»; N - число положений «скользящего окна».where T co is the duration of the “sliding window”; T ссо - duration of the interval by which the “sliding window” is shifted; N is the number of “sliding window” positions.

Если длительность сигнала превышает минимальное пороговое значение и не превышает максимальное пороговое значение, то рассчитывают среднее значение числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах». Если данное значение превышает соответствующее пороговое значение, то считают, что в этих «скользящих окнах» присутствует речевой сигнал. В противном случае считают, что в этих «скользящих окнах» присутствует только помеха. If the signal duration exceeds the minimum threshold value and does not exceed the maximum threshold value, then the average value of the number of spectral components with the same frequencies detected in adjacent “sliding windows” is calculated. If this value exceeds the corresponding threshold value, then a speech signal is considered to be present in these sliding windows. Otherwise, these “sliding windows” are considered to contain only noise.

Если длительность сигнала не превышает минимальное пороговое значение или превышает максимальное пороговое значение, то считают, что в этих «скользящих окнах» присутствует только помеха. If the signal duration does not exceed the minimum threshold value or exceeds the maximum threshold value, then only interference is considered to be present in these “sliding windows”.

Процесс изменения положения «скользящего окна» осуществляют до тех пор, пока не будет исчерпан интервал анализа сигнала. The process of changing the position of the “sliding window” is carried out until the signal analysis interval is exhausted.

Ниже приведены результаты моделирования процесса обнаружения присутствия речевого сигнала или его отсутствия в условиях наличия помех. Below are the results of modeling the process of detecting the presence or absence of a speech signal in the presence of interference.

Рассмотрены два типа помехи:Two types of interference are considered:

- первый - шумоподобная помеха;- first - noise-like interference;

- второй - речеподобная помеха.- the second is speech-like interference.

Шумоподобная помеха моделировалась как сумма гармонических сигналов со случайными значениями амплитуд (Usi) и фаз (ϕsi), которые распределены по нормальному (амплитуды) и равномерному (фазы) законам, соответственноNoise-like interference was modeled as a sum of harmonic signals with random values of amplitudes (U si ) and phases (ϕ si ), which are distributed according to normal (amplitude) and uniform (phase) laws, respectively

где: ωsi ϕsi - частота, фаза, амплитуда i-ого гармонического сигнала;where: ω si ϕ si - frequency, phase, amplitude of the i-th harmonic signal;

Nsp - число гармонических сигналов.Nsp - number of harmonic signals.

Частоты гармоник помехи формировались как случайные величины, значения которых распределены по равномерному закону в полосе сигнала. The interference harmonic frequencies were formed as random variables, the values of which were distributed according to a uniform law in the signal band.

Речеподобная помеха и сигнал моделировались как сумма гармонических сигналов с некоторым значением первой частоты, и фиксированными «расстояниями» между значениями частот других гармоник. Значение первой частоты определялось при условии, что это значение равномерно распределено в интервале от 300 до 800 Гц.Speech-like interference and the signal were modeled as a sum of harmonic signals with a certain value of the first frequency, and fixed “distances” between the frequency values of other harmonics. The value of the first frequency was determined under the condition that this value is uniformly distributed in the range from 300 to 800 Hz.

Значения фаз гармоник сигнала устанавливались одинаковыми. Значения фаз гармоник помехи устанавливались аналогично.The phase values of the signal harmonics were set to the same. The phase values of the interference harmonics were set similarly.

Амплитуды гармоник сигнала и речеподобной помехи формировались как случайные величины, распределенные по нормальному закону в диапазоне от 1 до 2.The amplitudes of signal harmonics and speech-like interference were formed as random variables distributed according to a normal law in the range from 1 to 2.

Моделирование проведено для следующих значений параметров: The simulation was carried out for the following parameter values:

- диапазон изменения частот речевого сигнала: 300 Гц - 3400 Гц;- frequency range of the speech signal: 300 Hz - 3400 Hz;

- число реализаций - 500;- number of implementations - 500;

- число гармоник сигнала - 8; - number of signal harmonics - 8;

- число гармоник помехи:- number of interference harmonics:

для шумоподобной помехи - в среднем 30 для одного положения «скользящего окна»; for noise-like interference - on average 30 for one position of the “sliding window”;

для речеподобной помехи - 8; for speech-like interference - 8;

- число положений «скользящего окна»:- number of “sliding window” positions:

для шумоподобной помехи - 15;for noise-like interference - 15;

для речеподобной помехи - 15; for speech-like interference - 15;

- длительность «скользящего окна» - 30 мс;- duration of the “sliding window” - 30 ms;

- длительность речевого сигнала - 120 мс;- duration of the speech signal - 120 ms;

- длительность интервала, в котором присутствует только помеха - 150 мс;- duration of the interval in which only interference is present - 150 ms;

- коэффициент, определяющий частоту дискретизации -16000; - coefficient determining the sampling frequency -16000;

- число опорных частот - 30; - number of reference frequencies - 30;

- значение первой опорной частоты - 300 Гц; - the value of the first reference frequency is 300 Hz;

- коэффициент, определяющий шаг изменения опорной частоты составляет 1,087; - the coefficient that determines the step of changing the reference frequency is 1.087;

- значение полосы частот полосового фильтра с максимальной крутизной АЧХ - 200 Гц (0 - Fp, см. фиг. 1). - the value of the frequency band of the bandpass filter with the maximum slope of the frequency response is 200 Hz (0 - Fp, see Fig. 1).

Результаты моделирования процесса разделения речи и пауз для шумоподобной и речеподобной помехи (значение вероятности решения о наличии речевого сигнала при его присутствии - PPOS, значение вероятности принятия решения о присутствии речевого сигнала для всех положений «скользящего окна» в котором присутствует только помеха - PNOP) приведены в таблице. The results of modeling the process of separation of speech and pauses for noise-like and speech-like interference (the value of the probability of deciding on the presence of a speech signal in its presence - PPOS, the value of the probability of deciding on the presence of a speech signal for all positions of the “sliding window” in which only interference is present - PNOP) are given in the table.

ТаблицаTable Тип помехиInterference type Обозначение параметраParameter designation Отношение мощностей сигнала и помехиSignal to interference power ratio 0,30.3 0,50.5 11 Шумоподобная помехаNoise-like interference PPOSPPOS 0,990.99 0,980.98 0,990.99 PNOPPNOP 00 00 00 Речеподобная помехаSpeech-like interference PPOSPPOS 0,980.98 0,990.99 0,9970.997 PNOPPNOP 00 00 00

На основе результатов анализа данных, приведенных в таблице, может быть сделан вывод о высокой эффективности принятия правильного решения о появлении речевого сигнала при наличии акустических шумоподобных и речеподобных акустических помех рассматриваемого способа.Based on the results of the data analysis given in the table, a conclusion can be drawn about the high efficiency of making the correct decision about the appearance of a speech signal in the presence of acoustic noise-like and speech-like acoustic interference of the method under consideration.

Высокая эффективность заявляемого способа объясняется, в том числе высокой эффективностью используемого способа спектрального анализа.The high efficiency of the proposed method is explained, among other things, by the high efficiency of the spectral analysis method used.

Структурная схема устройства, реализующего предлагаемый способ, приведена на фиг. 3, где обозначено: A block diagram of a device that implements the proposed method is shown in Fig. 3, where it is indicated:

1 - электроакустическое устройство (ЭАУ);1 - electroacoustic device (EAD);

2 - усилитель низкой частоты (УНЧ); 2 - low frequency amplifier (LF);

3.1 - 3.n - блоки умножения с первого по n-й; 3.1 - 3.n - multiplication blocks from the first to the n-th;

4.1 - 4.n - фильтры нижних частот (ФНЧ) с первого по n-й;4.1 - 4.n - low-pass filters (LPF) from the first to the n-th;

5.1 - 5.n - устройства вычитания с первого по n-й;5.1 - 5.n - subtraction devices from the first to the nth;

6.1 - 6.n - аналого-цифровые преобразователи (АЦП) с первого по n-й;6.1 - 6.n - analog-to-digital converters (ADC) from the first to the n-th;

7.1 - 7.n - полосовые фильтры с первого по n-й;7.1 - 7.n - bandpass filters from the first to the nth;

8 - вычислительное устройство (ВУ).8 - computing device (CD).

Устройство содержит последовательно соединенные ЭАУ 1 и УНЧ 2, вход ЭАУ 1 является входом устройства. А также n параллельных линеек, каждая из которых состоит из соответствующих последовательно соединенных блока умножения 3, ФНЧ 4, устройства вычитания 5 и АЦП 6, при этом полосовой фильтр 7 включен между выходом блока умножения 3 и вторым входом устройства вычитания 5. Входы n блоков умножения 3.1÷3.n объединены и соединены с выходом УНЧ 2. Выходы с первого по n-й АЦП 6.1÷6.n соединены с соответствующими входами с первого по n-й вычислительного устройства 8, выход которого является выходом устройства. Вторые входы блоков умножения 3.1÷3.n являются входами для опорных сигналов Uоп.The device contains serially connected EAU 1 and ULF 2, the input of EAU 1 is the input of the device. And also n parallel lines, each of which consists of corresponding serially connected multiplication block 3, low-pass filter 4, subtraction device 5 and ADC 6, while the bandpass filter 7 is connected between the output of the multiplication block 3 and the second input of the subtraction device 5. Inputs of n multiplication blocks 3.1÷3.n are combined and connected to the output of the ULF 2. The outputs from the first to the n-th ADC 6.1÷6.n are connected to the corresponding inputs from the first to the n-th computing device 8, the output of which is the output of the device. The second inputs of the multiplication blocks 3.1÷3.n are inputs for reference signals U op .

Устройство работает следующим образом.The device works as follows.

Шум или аддитивную смесь сигнала и шума, которые поступают с выхода ЭАУ 1, усиливают в УНЧ 2 и подают на вход n параллельных линеек.Noise or an additive mixture of signal and noise, which comes from the output of EAU 1, is amplified in ULF 2 and fed to the input of n parallel lines.

Для обработки одной гармоники используют две линейки устройства. То есть, при использовании k опорных частот число линеек равноTo process one harmonic, two lines of the device are used. That is, when using k reference frequencies, the number of lines is equal to

Помеху или аддитивную смесь сигнала и помехи с выхода УНЧ 2 подают на первые входы блоков умножения 3.1÷3.n, на вторые входы которых подают соответствующие опорные сигналы, например,Interference or an additive mixture of signal and interference from the output of ULF 2 is supplied to the first inputs of multiplication blocks 3.1÷3.n, to the second inputs of which the corresponding reference signals are supplied, for example,

Uоп1=sin(x);U op1 =sin(x);

Uоп2=cos(x);U op2 =cos(x);

………….………….

Uоп(n-1)=sin(x);U op(n-1) =sin(x);

Uопn=cos(x).U opn =cos(x).

Результат умножения сигнала и помехи на опорные сигналы разветвляют на две одинаковые составляющие. Первую составляющую фильтруют ФНЧ 4.1÷4.n, полоса каждого из которых согласована с полосой сигнала. Одновременно вторую составляющую фильтруют полосовыми фильтрами 7.1÷7.n, полоса пропускания каждого из которых выбирается так, что верхняя частота полосовых фильтров 7.1÷7.n соответствует верхней частоте сигнала, нижнюю частоту полосовых фильтров 7.1÷7.n устанавливают согласованно со значениями разности между соседними опорными частотами. The result of multiplying the signal and noise by reference signals is branched into two identical components. The first component is filtered by a low-pass filter 4.1÷4.n, the band of each of which is consistent with the signal band. At the same time, the second component is filtered by bandpass filters 7.1÷7.n, the passband of each of which is selected so that the upper frequency of bandpass filters 7.1÷7.n corresponds to the upper frequency of the signal, the lower frequency of bandpass filters 7.1÷7.n is set in accordance with the values of the difference between adjacent reference frequencies.

Значение нижней частоты полосовых фильтров 7.1÷7.n определяют на этапе разработки экспериментальным путем или методом математического моделирования как значение, обеспечивающее максимальную эффективность спектрального анализа.The value of the lower frequency of bandpass filters 7.1÷7.n is determined at the development stage experimentally or by mathematical modeling as the value that ensures maximum efficiency of spectral analysis.

Выбор ФНЧ 4.1÷4.n и полосовых фильтров 7.1÷7.n осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что АЧХ полосовых фильтров 7.1÷7.n в области частот близких к нулю имеет максимально возможную крутизну, в области частот, начиная со значения, для которого разность значений амплитудно-частотных характеристик ФНЧ 4.1÷4.n и полосовых фильтров 7.1÷7.n становится меньше некоторой заранее заданной величины (Fp), обеспечивают идентичность их АЧХ в максимальной степени (иллюстративный пример приведен на фиг. 1). The choice of low-pass filters 4.1÷4.n and bandpass filters 7.1÷7.n is carried out with phase-frequency characteristics identical to the maximum extent and so that the frequency response of bandpass filters 7.1÷7.n in the frequency range close to zero has the maximum possible slope, in the range frequencies, starting from the value for which the difference between the amplitude-frequency characteristics of the low-pass filter 4.1÷4.n and bandpass filters 7.1÷7.n becomes less than a certain predetermined value (Fp), ensure the identity of their frequency response to the maximum extent (an illustrative example is shown in Fig. 1).

Сигналы, прошедшие ФНЧ 4.1÷4.n и полосовые фильтры 7.1÷7.n, вычитают один из другого. То есть, из сигнала первого ФНЧ 4.1 вычитают сигнал первого полосового фильтра 7.1, из сигнала второго ФНЧ 4.2 вычитают сигнал второго полосового фильтра 7.2 и т.д.Signals that have passed the 4.1÷4.n low-pass filter and 7.1÷7.n bandpass filters subtract one from the other. That is, the signal of the first bandpass filter 7.1 is subtracted from the signal of the first low-pass filter 4.1, the signal of the second band-pass filter 7.2 is subtracted from the signal of the second low-pass filter 4.2, etc.

Полученные сигналы преобразуют в цифровой вид в соответствующих с первого по n-й АЦП 6.1÷6.n. Данные сигналы в цифровом виде подают в вычислительное устройство 8. The received signals are converted into digital form in the corresponding first to nth ADCs 6.1÷6.n. These signals are digitally supplied to the computing device 8.

В ВУ 8 по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, определяют мгновенную спектральную плотность (МСП) для каждой опорной частоты путем извлечения квадратного корня из суммы квадратов синусной и косинусной составляющей и запоминают эти значения, пропорциональные амплитуде сигналов. In VU 8, based on these values corresponding to the sine and cosine components of one frequency, the instantaneous spectral density (ISD) is determined for each reference frequency by extracting the square root of the sum of the squares of the sine and cosine components and these values are stored, proportional to the amplitude of the signals.

В ВУ 8 осуществляют обнаружение наличия или отсутствия речевого сигнала по алгоритму, который приведен на стр. 8÷11 описания.In VU 8, the presence or absence of a speech signal is detected using the algorithm that is given on pages 8÷11 of the description.

Результаты моделирования процесса спектрального анализа приведены выше. The results of modeling the spectral analysis process are given above.

В качестве ЭАУ 1 могут использоваться, например, микрофоны или ларингофоны.As EAU 1, microphones or laryngophones can be used, for example.

УНЧ 2 может быть реализован, например, на микросхеме OP467GS фирмы Analog Devices.ULF 2 can be implemented, for example, on the OP467GS chip from Analog Devices.

Блоки умножения 3.1÷3.n могут быть выполнены, например, в виде преобразователя частоты (смесителя), см., например, учебное пособие «Основы теории радиотехнических систем». Учебное пособие. // В.И. Борисов, В.М. Зинчук, А.Е. Лимарев, Н.П. Мухин. Под ред. В.И. Борисова. Воронежский научно-исследовательский институт связи, 2004», стр. 186 - 189.Multiplication blocks 3.1÷3.n can be made, for example, in the form of a frequency converter (mixer), see, for example, the textbook “Fundamentals of the Theory of Radio Engineering Systems”. Tutorial. // IN AND. Borisov, V.M. Zinchuk, A.E. Limarev, N.P. Mukhin. Ed. IN AND. Borisova. Voronezh Scientific Research Institute of Communications, 2004", pp. 186 - 189.

АЦП 6.1÷6.n могут быть выполнены, например, на микросхеме AD7495BR фирмы Analog Devices. ADCs 6.1÷6.n can be made, for example, on the AD7495BR chip from Analog Devices.

Вычислительное устройство может быть выполнено, например, в виде единого микропроцессорного устройства с соответствующим программным обеспечением, например, процессора серии TMS320VC5416 фирмы Texas Instruments, или в виде программируемой логической интегральной схемы (ПЛИС), с соответствующим программным обеспечением, например ПЛИС XCV400 фирмы Xilinx.The computing device can be implemented, for example, in the form of a single microprocessor device with appropriate software, for example, a TMS320VC5416 series processor from Texas Instruments, or in the form of a programmable logic integrated circuit (FPGA) with appropriate software, for example, XCV400 FPGA from Xilinx.

Таким образом, заявляемый способ может быть реализован описанным устройством.Thus, the inventive method can be implemented by the described device.

Claims (4)

Способ разделения речи и пауз путем анализа изменения значений частотных и временных параметров аддитивной смеси сигнала и помехи, заключающийся в том, что на всем интервале анализа, состоящего из интервала, содержащего шум или речевой сигнал или смесь речевого сигнала и шума, которые поступают в устройство – входной сигнал, дискретизируют и заносят в память для последующей обработки; формируют «скользящее окно», «скользящее окно» сдвигают на некоторое, заранее определенное количество отсчетов, первое положение «скользящего окна» устанавливают так, что в первом интервале анализа присутствует только помеха; осуществляют спектральный анализ входного сигнала для каждого интервала следующим образом: каждый результат преобразования входного сигнала, который образуется после умножения входного сигнала на синус и косинус опорных частот, разветвляют на две одинаковые составляющие, первую составляющую фильтруют фильтром нижних частот (ФНЧ), полоса которого согласована с полосой анализируемого сигнала, одновременно вторую составляющую фильтруют полосовым фильтром, полоса пропускания которого выбирается так, что верхняя частота полосового фильтра соответствует верхней частоте анализируемого сигнала, нижнюю частоту полосового фильтра устанавливают равной некоторому заранее заданному значению; выбор ФНЧ и полосового фильтра осуществляют с идентичными в максимальной степени фазо-частотными характеристиками и так, что амплитудно-частотная характеристика (АЧХ) полосового фильтра в области частот близких к нулю имеет максимально возможную крутизну, в области частот, начиная со значения, для которого разность значений АЧХ ФНЧ и полосового фильтра становится меньше некоторой заранее заданной величины, обеспечивают идентичность их АЧХ в максимальной степени; сигналы, прошедшие ФНЧ и полосовой фильтр, вычитают один из другого, результаты вычитания преобразуют в цифровой вид, по данным значениям, соответствующим синусной и косинусной составляющей одной частоты, определяют мгновенную спектральную плотность (МСП) для каждой опорной частоты путем извлечения квадратного корня из суммы их квадратов и запоминают эти значения, пропорциональные амплитуде сигналов, находят среднее значение МСП, отличающийся тем, что заранее устанавливают значения: интервала анализа; длительности «скользящего окна»; временного интервала, на который сдвигают «скользящее окно»; минимальной и максимальной длительности речевого сигнала; коэффициентов, с использованием которых рассчитывают пороговые значения для амплитуды спектральных составляющих, для числа спектральных составляющих, значения амплитуд которых превысили порог – обнаруженные составляющие, для среднего значения числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах»; сдвигают «скользящее окно» на несколько временных интервалов, значение числа сдвигов устанавливают заранее;A method for separating speech and pauses by analyzing changes in the values of frequency and time parameters of an additive mixture of signal and noise, which consists in the fact that throughout the entire analysis interval, consisting of an interval containing noise or a speech signal or a mixture of speech signal and noise that enters the device. the input signal is sampled and stored in memory for subsequent processing; a “sliding window” is formed, the “sliding window” is shifted by a certain predetermined number of samples, the first position of the “sliding window” is set so that only noise is present in the first analysis interval; carry out a spectral analysis of the input signal for each interval as follows: each result of transforming the input signal, which is formed after multiplying the input signal by the sine and cosine of the reference frequencies, is branched into two identical components, the first component is filtered with a low-pass filter (LPF), the bandwidth of which is consistent with the band of the analyzed signal, at the same time the second component is filtered by a band-pass filter, the passband of which is selected so that the upper frequency of the band-pass filter corresponds to the upper frequency of the analyzed signal, the lower frequency of the band-pass filter is set equal to some predetermined value; the choice of a low-pass filter and a bandpass filter is carried out with phase-frequency characteristics identical to the maximum extent and so that the amplitude-frequency response (AFC) of the bandpass filter in the frequency range close to zero has the maximum possible slope, in the frequency range, starting from the value for which the difference the values of the frequency response of the low-pass filter and the bandpass filter become less than a certain predetermined value, ensuring that their frequency response is identical to the maximum extent; the signals that have passed through the low-pass filter and the band-pass filter are subtracted from each other, the results of the subtraction are converted into digital form, and from these values corresponding to the sine and cosine components of one frequency, the instantaneous spectral density (ISD) is determined for each reference frequency by taking the square root of their sum squares and remember these values, proportional to the amplitude of the signals, find the average value of the MSP, characterized in that the values are set in advance: the analysis interval; duration of the “sliding window”; time interval by which the “sliding window” is shifted; minimum and maximum duration of the speech signal; coefficients used to calculate threshold values for the amplitude of spectral components, for the number of spectral components whose amplitude values exceeded the threshold - detected components, for the average value of the number of spectral components with the same frequencies detected in adjacent “sliding windows”; the “sliding window” is shifted by several time intervals, the value of the number of shifts is set in advance; для каждого положения «скользящего окна» проводят спектральный анализ, для нескольких первых положений «скользящего окна», число которых устанавливают заранее, для которых выполняется условие отсутствия сигнала, рассчитывают: среднее значение амплитуд спектральных составляющих и пороговое значение для амплитуд спектральных составляющих; суммарное число составляющих, амплитуда которых превысила пороговое значение; пороговое значение для числа обнаруженных составляющих; среднее значение числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах»; пороговое значение для значения числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах»; для положений «скользящего окна», для которых возможно присутствие сигнала, рассчитывают значение числа обнаруженных составляющих, если данное значение превысило пороговое значение для числа спектральных составляющих, то считают, что для данного положения «скользящего окна» возможно присутствие речевого сигнала, это событие регистрируют; если для какого-либо положения «скользящего окна» для которого возможно присутствие сигнала, не зарегистрировано наличие речевого сигнала, то сигнал, присутствующий в данном «скользящем окне» считают помехой; регистрируют положения «скользящего окна», для которых для всех его положений возможно присутствие речевого сигнала, для этого случая рассчитывают длительность сигнала, если длительность сигнала превышает минимальное пороговое значение и не превышает максимальное пороговое значение, то рассчитывают среднее значение числа спектральных составляющих с одинаковыми частотами, обнаруженных в рядом расположенных «скользящих окнах», если данное значение превышает пороговое значение, то считают, что в этих «скользящих окнах» присутствует речевой сигнал, в противном случае считают, что в этих «скользящих окнах» присутствует только помеха; for each position of the “sliding window” a spectral analysis is carried out, for the first few positions of the “sliding window”, the number of which is set in advance, for which the condition of no signal is met, the following are calculated: the average value of the amplitudes of the spectral components and the threshold value for the amplitudes of the spectral components; the total number of components whose amplitude exceeded the threshold value; threshold value for the number of detected components; the average number of spectral components with the same frequencies detected in adjacent “sliding windows”; a threshold value for the number of spectral components with the same frequencies detected in adjacent “sliding windows”; for positions of the “sliding window” for which the presence of a signal is possible, the value of the number of detected components is calculated; if this value exceeds the threshold value for the number of spectral components, then it is considered that for this position of the “sliding window” the presence of a speech signal is possible, this event is recorded; if for any position of the “sliding window” for which the presence of a signal is possible, the presence of a speech signal is not registered, then the signal present in this “sliding window” is considered interference; the positions of the “sliding window” are recorded, for which the presence of a speech signal is possible for all its positions, for this case the duration of the signal is calculated, if the duration of the signal exceeds the minimum threshold value and does not exceed the maximum threshold value, then the average value of the number of spectral components with the same frequencies is calculated, detected in nearby “sliding windows”, if this value exceeds the threshold value, then it is considered that there is a speech signal in these “sliding windows”, otherwise it is considered that only interference is present in these “sliding windows”; если длительность сигнала не превышает минимальное значение или превышает максимальное пороговое значение, то считают, что в этих «скользящих окнах», присутствует только помеха; if the signal duration does not exceed the minimum value or exceeds the maximum threshold value, then it is considered that in these “sliding windows” there is only interference; процесс изменения положения «скользящего окна» осуществляют до тех пор, пока не будет исчерпан интервал анализа сигнала. the process of changing the position of the “sliding window” is carried out until the signal analysis interval is exhausted.
RU2023112221A 2023-05-12 Method for separating speech and pauses by analyzing changes in values of frequency and time parameters of additive mixture of signal and noise RU2811741C1 (en)

Publications (1)

Publication Number Publication Date
RU2811741C1 true RU2811741C1 (en) 2024-01-16

Family

ID=

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2127888C1 (en) * 1993-07-07 1999-03-20 Александр Алексеевич Плавильщиков Method of spectral analysis of signals
KR100866580B1 (en) * 2007-02-21 2008-11-03 인하대학교 산학협력단 A method and a system for detecting voice activity based on ump test
RU2431853C1 (en) * 2010-07-19 2011-10-20 Марина Витальевна Самойленко Method of electric signal spectral analysis
JP2016080767A (en) * 2014-10-10 2016-05-16 株式会社Nttドコモ Frequency component extraction device, frequency component extraction method and frequency component extraction program
RU2668407C1 (en) * 2017-11-07 2018-09-28 Акционерное общество "Концерн "Созвездие" Method of separation of speech and pause by comparative analysis of interference power values and signal-interference mixture
RU2680735C1 (en) * 2018-10-15 2019-02-26 Акционерное общество "Концерн "Созвездие" Method of separation of speech and pauses by analysis of the values of phases of frequency components of noise and signal
RU2723301C1 (en) * 2019-11-20 2020-06-09 Акционерное общество "Концерн "Созвездие" Method of dividing speech and pauses by values of dispersions of amplitudes of spectral components
RU2730043C1 (en) * 2019-11-20 2020-08-14 Акционерное общество "Концерн "Созвездие" Method of spectral analysis of multifrequency periodic signals using compensation of combination components

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2127888C1 (en) * 1993-07-07 1999-03-20 Александр Алексеевич Плавильщиков Method of spectral analysis of signals
KR100866580B1 (en) * 2007-02-21 2008-11-03 인하대학교 산학협력단 A method and a system for detecting voice activity based on ump test
RU2431853C1 (en) * 2010-07-19 2011-10-20 Марина Витальевна Самойленко Method of electric signal spectral analysis
JP2016080767A (en) * 2014-10-10 2016-05-16 株式会社Nttドコモ Frequency component extraction device, frequency component extraction method and frequency component extraction program
RU2668407C1 (en) * 2017-11-07 2018-09-28 Акционерное общество "Концерн "Созвездие" Method of separation of speech and pause by comparative analysis of interference power values and signal-interference mixture
RU2680735C1 (en) * 2018-10-15 2019-02-26 Акционерное общество "Концерн "Созвездие" Method of separation of speech and pauses by analysis of the values of phases of frequency components of noise and signal
RU2723301C1 (en) * 2019-11-20 2020-06-09 Акционерное общество "Концерн "Созвездие" Method of dividing speech and pauses by values of dispersions of amplitudes of spectral components
RU2730043C1 (en) * 2019-11-20 2020-08-14 Акционерное общество "Концерн "Созвездие" Method of spectral analysis of multifrequency periodic signals using compensation of combination components

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Л.Р. Рабинер, Р.В. Шафер, Цифровая обработка речевых сигналов, Москва, "Радио и связь", 1981, с. 123-126. *

Similar Documents

Publication Publication Date Title
CN111200569B (en) Broadband signal detection and identification method and device
RU2675386C2 (en) Method and device for extracting signals in presence of interference
RU2811741C1 (en) Method for separating speech and pauses by analyzing changes in values of frequency and time parameters of additive mixture of signal and noise
RU2683791C1 (en) Method for determining types of radar signals in autocorrelation receiver
RU2814115C1 (en) Method for separating speech and pauses by analyzing characteristics of spectral components of mixture of signal and noise
Kaszynski et al. Selected structures of filters with time-varying parameters
RU2821216C1 (en) Method of determining presence of harmonics in a signal, the duration of which exceeds a specified value
RU2723301C1 (en) Method of dividing speech and pauses by values of dispersions of amplitudes of spectral components
RU2730043C1 (en) Method of spectral analysis of multifrequency periodic signals using compensation of combination components
RU2786547C1 (en) Method for isolating a speech signal using time-domain analysis of the spectrum of an additive mixture of a signal and acoustic interference
RU2700580C1 (en) Method for energy detection of a signal with compensation of combination signal components and interference in the main and compensation channels
RU2386165C2 (en) Method for determining structure and demodulation of signal with unknown structure
RU2784370C1 (en) Method for separating the terms of an electrical quantity
RU2794344C1 (en) Method for energy detection of a signal with its compensation in an additional channel
RU2671241C1 (en) Method for compensation of band-limited interference using approximation of values of its amplitude
RU2740790C1 (en) Method of evaluating phases of multi-frequency periodic signals in conditions of presence of interference using compensation for conversion noise
RU2776969C1 (en) Method for extracting a useful component from an input signal containing a useful component and noise
Plotkin Using linear prediction to design a function elimination filter to reject sinusoidal interference
RU2658171C2 (en) Method of extracting useful component from input signal containing useful component and noise
RU2812822C1 (en) Method for extracting useful component from input signal containing useful component and noise
RU2807517C1 (en) Method for extracting useful component from input signal containing useful component and noise
Vityazeva et al. Information Loss in Measurement Signal Filtering Systems
Mihov et al. Improved approach for measuring mains interference
RU2700798C2 (en) Apparatus for detecting broadband polyharmonic signals on background of additive interference
RU2776776C1 (en) Automatic gain control system with signal delay for the time of evaluating the power of an additive mixture of signal and interference